社交網(wǎng)絡(luò)用戶興趣挖掘方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,包括:將社交網(wǎng)絡(luò)中的各用戶針對各自關(guān)注的對象所劃分的用戶組進(jìn)行排重處理后,得到所述社交網(wǎng)絡(luò)中的各用戶組;對于預(yù)先設(shè)置的每個(gè)興趣類別,選取一個(gè)用戶組作為與該興趣類別相對應(yīng)的興趣核心組;針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,將相似度高于設(shè)定閾值的用戶組作為該興趣核心組下的興趣廣義組;對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果。應(yīng)用本發(fā)明,可以提高興趣挖掘的準(zhǔn)確度。
【專利說明】社交網(wǎng)絡(luò)用戶興趣挖掘方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種社交網(wǎng)絡(luò)用戶興趣挖掘方法和裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的海量信息與用戶對信息的有效獲取能力形成了強(qiáng)烈的反差。為了提高用戶查找信息的滿意度,在社交網(wǎng)絡(luò)SNS (Social NetworkService,社交網(wǎng)絡(luò)服務(wù))中,根據(jù)用戶的興趣而有針對性地提供信息的個(gè)性化信息服務(wù)應(yīng)運(yùn)而生,而個(gè)性化信息服務(wù)的基礎(chǔ)是用戶興趣的挖掘。
[0003]實(shí)際應(yīng)用中,在社交網(wǎng)絡(luò)用戶的行為一般是主動進(jìn)行的,例如,自行定義或選擇標(biāo)簽,瀏覽頁面,使用站內(nèi)產(chǎn)品或第三方APP,發(fā)表博文或?qū)ζ渌┪膬?nèi)容的點(diǎn)贊或收藏,關(guān)注其他用戶并將其關(guān)注的對象劃分到自行設(shè)置的各用戶組內(nèi)等。而上述這些社交網(wǎng)絡(luò)用戶的行為能夠在一定程度上反映出用戶的興趣。因此,社交網(wǎng)絡(luò)中,可以根據(jù)用戶的這些網(wǎng)絡(luò)行為來進(jìn)行用戶的興趣挖掘。
[0004]目前,對于社交網(wǎng)絡(luò)用戶的興趣挖掘,一般可以采用基于用戶博文的興趣挖掘方法。具體地,由于用戶博文具體可以是用戶發(fā)表的,也可以是用戶點(diǎn)贊或收藏的,能夠在一定程度上反映出用戶的興趣,因此,可以通過對用戶博文進(jìn)行語義解析,以此提取用戶的興趣。然而,事實(shí)上,用戶博文的形式復(fù)雜,歧義較多,因此,對其進(jìn)行內(nèi)容分析難度大,且語義解析量大,導(dǎo)致基于用戶博文的興趣挖掘方法的算法復(fù)雜且解析結(jié)果的準(zhǔn)確度不高;而且,對于一些主動行為較少的瀏覽型用戶,可能會存在沒有博文的情況,導(dǎo)致采用現(xiàn)有的這種基于用戶博文的興趣挖掘方法無法挖掘出這些瀏覽型用戶的興趣。
[0005]現(xiàn)有技術(shù)中,還存在基于用戶標(biāo)簽的興趣挖掘方法。具體地,可以根據(jù)標(biāo)簽的具體內(nèi)容,將標(biāo)簽歸類到相應(yīng)的興趣類別后,再根據(jù)用戶的自定義標(biāo)簽及其所屬的興趣類別,分析出用戶的興趣。然而,自定義標(biāo)簽是由用戶生成或選擇的,實(shí)際應(yīng)用中,存在部分標(biāo)簽太泛化導(dǎo)致無法歸類到興趣類別的問題,還存在用戶未打標(biāo)簽或隨意打標(biāo)簽的情況。因此,若采用基于用戶標(biāo)簽的興趣挖掘方法,僅根據(jù)用戶的自定義標(biāo)簽來挖掘出用戶興趣,其準(zhǔn)確度不高。而且,對于主動行為較少的瀏覽型用戶,可能會出現(xiàn)沒有自定義標(biāo)簽的情況,導(dǎo)致采用基于用戶標(biāo)簽的興趣挖掘方法也無法挖掘出這些瀏覽型用戶的興趣。
[0006]綜上所述,現(xiàn)有的社交網(wǎng)絡(luò)用戶興趣挖掘方法,興趣挖掘的準(zhǔn)確度不高,尤其對于主動行為較少的瀏覽型用戶的興趣則無法進(jìn)行挖掘。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實(shí)施例提供了一種社交網(wǎng)絡(luò)用戶興趣挖掘方法和系統(tǒng),用以提高興趣挖掘的準(zhǔn)確度。
[0008]根據(jù)本發(fā)明的一個(gè)方面,提供了一種社交網(wǎng)絡(luò)用戶興趣挖掘方法,包括:
[0009]將社交網(wǎng)絡(luò)中的各用戶針對各自關(guān)注的對象所劃分的用戶組進(jìn)行排重處理后,得到所述社交網(wǎng)絡(luò)中的各用戶組;[0010]對于預(yù)先設(shè)置的每個(gè)興趣類別,選取一個(gè)用戶組作為與該興趣類別相對應(yīng)的興趣核心組;
[0011]針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,將相似度高于設(shè)定閾值的用戶組作為該興趣核心組下的興趣廣義組;
[0012]對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果。
[0013]較佳地,在所述針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,將相似度高于設(shè)定閾值的用戶組作為該興趣核心組下的興趣廣義組之后,還包括:
[0014]對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,統(tǒng)計(jì)出包含該用戶的興趣廣義組的個(gè)數(shù),作為該用戶的被廣義分組次數(shù);
[0015]針對每個(gè)興趣廣義組,計(jì)算出該興趣廣義組內(nèi)的所有用戶的被廣義分組次數(shù)之和,作為該興趣廣義組的分組次數(shù)和值;
[0016]對于該興趣廣義組內(nèi)的每個(gè)用戶,根據(jù)該用戶的被廣義分組次數(shù)和該興趣廣義組的分組次數(shù)和值,計(jì)算出該用戶的廣義組內(nèi)權(quán)重;以及
[0017]所述根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果,具體包括:
[0018]選取該用戶的廣義組內(nèi)權(quán)重最大的興趣廣義組,將選取的興趣廣義組所屬的興趣核心組所對應(yīng)的興趣類別作為該用戶的興趣挖掘結(jié)果。
[0019]較佳地,所述針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,具體包括:
[0020]對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,統(tǒng)計(jì)出包含該用戶的用戶組的個(gè)數(shù),作為該用戶的被分組次數(shù);
[0021]針對所述社交網(wǎng)絡(luò)中的每個(gè)用戶組,計(jì)算出該用戶組內(nèi)的所有用戶的被分組次數(shù)之和,作為該用戶組的分組次數(shù)和值;并對于該用戶組內(nèi)的每個(gè)用戶,根據(jù)該用戶的被分組次數(shù)和該用戶組的分組次數(shù)和值,計(jì)算出該用戶在該用戶組內(nèi)的組內(nèi)權(quán)重;
[0022]針對選取出的每個(gè)興趣核心組,對于除該興趣核心組之外的其它用戶組中的一個(gè)用戶組,將其作為涉及相似度計(jì)算的用戶組a、將該興趣核心組作為涉及相似度計(jì)算的用戶組b,根據(jù)如下公式I計(jì)算出用戶組a與b之間的相似度X:
[0023]
【權(quán)利要求】
1.一種社交網(wǎng)絡(luò)用戶興趣挖掘方法,其特征在于,包括: 將社交網(wǎng)絡(luò)中的各用戶針對各自關(guān)注的對象所劃分的用戶組進(jìn)行排重處理后,得到所述社交網(wǎng)絡(luò)中的各用戶組; 對于預(yù)先設(shè)置的每個(gè)興趣類別,選取一個(gè)用戶組作為與該興趣類別相對應(yīng)的興趣核心組; 針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,將相似度高于設(shè)定閾值的用戶組作為該興趣核心組下的興趣廣義組; 對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,在所述針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,將相似度高于設(shè)定閾值的用戶組作為該興趣核心組下的興趣廣義組之后,還包括: 對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,統(tǒng)計(jì)出包含該用戶的興趣廣義組的個(gè)數(shù),作為該用戶的被廣義分組次數(shù); 針對每個(gè)興趣廣義組,計(jì)算出該興趣廣義組內(nèi)的所有用戶的被廣義分組次數(shù)之和,作為該興趣廣義組的分組次數(shù)和值; 對于該興趣廣義組內(nèi)的每個(gè)用戶,根據(jù)該用戶的被廣義分組次數(shù)和該興趣廣義組的分組次數(shù)和值,計(jì)算出該用戶的廣義組內(nèi)權(quán)重;以及 所述根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果,具體包括:` 選取該用戶的廣義組內(nèi)權(quán)重最大的興趣廣義組,將選取的興趣廣義組所屬的興趣核心組所對應(yīng)的興趣類別作為該用戶的興趣挖掘結(jié)果。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述針對選取出的每個(gè)興趣核心組,計(jì)算其它用戶組與該興趣核心組的相似度,具體包括: 對于所述社交網(wǎng)絡(luò)中的每個(gè)用戶,統(tǒng)計(jì)出包含該用戶的用戶組的個(gè)數(shù),作為該用戶的被分組次數(shù); 針對所述社交網(wǎng)絡(luò)中的每個(gè)用戶組,計(jì)算出該用戶組內(nèi)的所有用戶的被分組次數(shù)之和,作為該用戶組的分組次數(shù)和值;并對于該用戶組內(nèi)的每個(gè)用戶,根據(jù)該用戶的被分組次數(shù)和該用戶組的分組次數(shù)和值,計(jì)算出該用戶在該用戶組內(nèi)的組內(nèi)權(quán)重; 針對選取出的每個(gè)興趣核心組,對于除該興趣核心組之外的其它用戶組中的一個(gè)用戶組,將其作為涉及相似度計(jì)算的用戶組a、將該興趣核心組作為涉及相似度計(jì)算的用戶組b,根據(jù)如下公式I計(jì)算出用戶組a與b之間的相似度X: η _ x^ZvuWxu'/./⑴
M 其中,Waj為用戶組a與用戶組b之間的第j個(gè)重合用戶在用戶組a中的組內(nèi)權(quán)重,Wbj.為用戶組a與用戶組b之間的第j個(gè)重合用戶在用戶組b中的組內(nèi)權(quán)重,η為a與b之間的重合用戶的總數(shù),j取值為I~η的自然數(shù); 其中,用戶組a與用戶組b之間的重合用戶指的是用戶組a與用戶組b共同包含的用戶。
4.如權(quán)利要求1或2所述的方法,其特征在于,所述選取一個(gè)用戶組作為與該興趣類別相對應(yīng)的興趣核心組,具體包括: 對于預(yù)先設(shè)置的每個(gè)興趣類別,將組名與該興趣類別的名稱相同的用戶組作為與該興趣類別相對應(yīng)的興趣核心組。
5.如權(quán)利要求1或2所述的方法,其特征在于,在所述根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果后,還包括: 將該興趣挖掘結(jié)果作為該用戶的基于被分組信息的興趣挖掘結(jié)果后,還根據(jù)該用戶的至少一種網(wǎng)絡(luò)行為信息,分別確定基于各網(wǎng)絡(luò)行為信息的興趣挖掘結(jié)果;所述網(wǎng)絡(luò)行為信息包括:用戶自定義的標(biāo)簽、用戶對社交網(wǎng)絡(luò)的站內(nèi)產(chǎn)品以及第三方應(yīng)用的使用頻次、用戶站外網(wǎng)頁瀏覽的反向鏈接、用戶的博文; 根據(jù)該用戶的基于被分組信息的興趣挖掘結(jié)果,以及基于各網(wǎng)絡(luò)行為信息的興趣挖掘結(jié)果,確定出該用戶最終的興趣類別。
6.如權(quán)利要求5所述的方法,其特征在于,所述根據(jù)該用戶的基于被分組信息的興趣挖掘結(jié)果,以及基于各網(wǎng)絡(luò)行為信息的興趣挖掘結(jié)果,確定出該用戶最終的興趣類別,具體包括: 將用戶的基于被分組信息的興趣挖掘結(jié)果,以及基于各網(wǎng)絡(luò)行為信息的興趣挖掘結(jié)果,作為該用戶所涉及的各興趣類別后,針對該用戶所涉及的每個(gè)興趣類別,統(tǒng)計(jì)出該興趣類別在該用戶的興趣挖掘結(jié)果中出現(xiàn)的次數(shù);將統(tǒng)計(jì)出的次數(shù)與該用戶的興趣挖掘結(jié)果總數(shù)的比值,確定為該用戶的該興趣類別的興趣重合率; 針對該用戶所涉及的每個(gè)興趣類別,統(tǒng)計(jì)出該興趣類別在該用戶所關(guān)注的對象的興趣挖掘結(jié)果中所占的比例,作為該興趣類別的興趣占比數(shù); 針對該用戶所 涉及的每個(gè)興趣類別,根據(jù)該興趣類別的興趣重合率以及興趣占比數(shù),對該用戶的該興趣類別進(jìn)行評分; 選取評分最高的興趣類別作為該用戶最終的興趣類別。
7.一種社交網(wǎng)絡(luò)用戶興趣挖掘系統(tǒng),其特征在于,包括: 用戶組確定模塊,用于將社交網(wǎng)絡(luò)中的各用戶針對各自關(guān)注的對象所劃分的用戶組進(jìn)行排重處理后,得到所述社交網(wǎng)絡(luò)中的各用戶組; 核心組選取模塊,用于對于預(yù)先設(shè)置的每個(gè)興趣類別,從所述用戶組確定模塊得到的各用戶組中,選取一個(gè)用戶組作為與該興趣類別相對應(yīng)的興趣核心組; 廣義組確定模塊,用于針對由所述核心組選取模塊選取出的每個(gè)興趣核心組,計(jì)算各用戶組與該興趣核心組的相似度,將相似度高于設(shè)定閾值的用戶組作為該興趣核心組下的興趣廣乂組; 第一興趣挖掘模塊,用于對于社交網(wǎng)絡(luò)中的每個(gè)用戶,根據(jù)包含該用戶的興趣廣義組所對應(yīng)的興趣類別確定該用戶的興趣挖掘結(jié)果。
8.如權(quán)利要求7所述的系統(tǒng),其特征在于,還包括: 廣義組內(nèi)權(quán)重計(jì)算模塊,用于對于每個(gè)用戶,統(tǒng)計(jì)出包含該用戶的興趣廣義組的個(gè)數(shù),作為該用戶的被廣義分組次數(shù);針對每個(gè)興趣廣義組,計(jì)算出該興趣廣義組內(nèi)的所有用戶的被廣義分組次數(shù)之和,作為該興趣廣義組的分組次數(shù)和值;對于該興趣廣義組內(nèi)的每個(gè)用戶,根據(jù)該用戶的被廣義分組次數(shù)和該興趣廣義組的分組次數(shù)和值,計(jì)算出該用戶的廣義組內(nèi)權(quán)重;以及 所述第一興趣挖掘模塊具體用于對于社交網(wǎng)絡(luò)中的每個(gè)用戶,選取該用戶的廣義組內(nèi)權(quán)重最大的興趣廣義組,將選取的興趣廣義組所屬的興趣核心組所對應(yīng)的興趣類別作為該用戶的興趣挖掘結(jié)果進(jìn)行輸出。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,還包括: 第二興趣挖掘模塊,用于根據(jù)所述社交網(wǎng)絡(luò)中的用戶的至少一種網(wǎng)絡(luò)行為信息,分別確定基于各網(wǎng)絡(luò)行為信息的興趣挖掘結(jié)果;所述網(wǎng)絡(luò)行為信息包括:用戶自定義的標(biāo)簽、用戶對社交網(wǎng)絡(luò)的站內(nèi)產(chǎn)品以及第三方應(yīng)用的使用頻次、用戶站外網(wǎng)頁瀏覽的反向鏈接、用戶的博文; 興趣類別確定模塊,用于對于所述社交網(wǎng)絡(luò)中的用戶,將第一興趣挖掘模塊輸出的該用戶的興趣挖掘結(jié)果作為該用戶的基于被分組信息的興趣挖掘結(jié)果,并還根據(jù)所述第二興趣挖掘模塊輸出的該用戶的基于各網(wǎng)絡(luò)行為信息的興趣挖掘結(jié)果,確定出該用戶最終的興趣類別。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,所述第二興趣挖掘模塊具體包括以下至少一個(gè)單元: 基于標(biāo)簽的興趣挖掘單元,用于根據(jù)所述社交網(wǎng)絡(luò)中的用戶自定義的標(biāo)簽,確定出該用戶的基于標(biāo)簽的興趣挖掘結(jié)果; 基于博文的興趣挖掘單元,用于根據(jù)所述社交網(wǎng)絡(luò)中的用戶對站內(nèi)產(chǎn)品或第三方應(yīng)用的使用頻次,確定出該用戶的基于博文的興趣挖掘結(jié)果; 基于產(chǎn)品應(yīng)用的興趣挖掘單元,用于根據(jù)所述社交網(wǎng)絡(luò)中的用戶對社交網(wǎng)絡(luò)的站內(nèi)產(chǎn)品以及第三方應(yīng)用的使用頻次,確定出該用戶的基于產(chǎn)品應(yīng)用的興趣挖掘結(jié)果;` 基于網(wǎng)頁瀏覽的興趣挖掘單元,用于根據(jù)所述社交網(wǎng)絡(luò)中的用戶站外網(wǎng)頁瀏覽的反向鏈接,確定出該用戶的基于網(wǎng)頁瀏覽的興趣挖掘結(jié)果。
【文檔編號】G06F17/30GK103870541SQ201410062761
【公開日】2014年6月18日 申請日期:2014年2月24日 優(yōu)先權(quán)日:2014年2月24日
【發(fā)明者】何秋菊, 高輝 申請人:微夢創(chuàng)科網(wǎng)絡(luò)科技(中國)有限公司