基于親密度和影響力的微博社交興趣圈挖掘方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘、自然語(yǔ)言處理和信息檢索領(lǐng)域,尤其涉及一種基于親密度 和影響力的微博社交興趣圈挖掘方法及其裝置。
【背景技術(shù)】
[0002] 社區(qū)發(fā)現(xiàn)即社交興趣圈發(fā)現(xiàn)算法大體分為傳統(tǒng)數(shù)據(jù)挖據(jù)聚類算法、基于分割 的算法、基于模塊度的最優(yōu)化算法、基于動(dòng)態(tài)模型的算法、基于譜映射的算法等。例如: Kernighan-Lin算法、譜二分法、基于邊介數(shù)度量的分裂算法、Guimera-Amaral經(jīng)典算法和 基于相似度度量的凝聚算法。
[0003] 這些傳統(tǒng)的社交興趣圈發(fā)現(xiàn)算法從本質(zhì)上說(shuō)屬于靜態(tài)分析算法,難以適應(yīng)目前真 實(shí)社會(huì)網(wǎng)絡(luò)復(fù)雜多變的結(jié)構(gòu);大部分社交興趣圈發(fā)現(xiàn)方法是首先挖掘社交興趣圈的幾個(gè)核 心用戶,之后根據(jù)核心用戶進(jìn)行擴(kuò)充,然后形成最終的社交興趣圈劃分結(jié)果。由于這些核心 用戶可能屬于一個(gè)社交興趣圈,這樣就很容易形成冰山孤島。冰山孤島現(xiàn)象指的是,在第 一步挖掘出的社交興趣圈核心當(dāng)中,有一些社交興趣圈核心實(shí)際上應(yīng)該同屬一個(gè)社交興趣 圈,如果將真正的社交興趣圈劃分結(jié)果比喻成一座冰山,同屬一個(gè)社交興趣圈的這些核心 則像這座冰山浮在海面上的一座座孤島。
[0004] 分析現(xiàn)有的社交興趣圈發(fā)現(xiàn)算法,不難發(fā)現(xiàn)三方面的問(wèn)題:1)現(xiàn)有的社交興趣圈 發(fā)現(xiàn)方法大多面向全局網(wǎng)絡(luò),以某節(jié)點(diǎn)為中心的局部網(wǎng)絡(luò)社交興趣圈發(fā)現(xiàn)算法比較缺乏; 2)現(xiàn)有社交興趣圈發(fā)現(xiàn)算法大部分是單分類算法,每個(gè)成員只能屬于一個(gè)確定社交興趣 圈,能夠發(fā)現(xiàn)重疊相交社交興趣圈的多分類算法尚不完善;3)現(xiàn)有算法大多僅考慮網(wǎng)絡(luò)的 連接結(jié)構(gòu),沒(méi)有對(duì)用戶的網(wǎng)絡(luò)行為和目的進(jìn)行分析。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了一種基于親密度和影響力的微博社交興趣圈挖掘方法及其裝置,本 發(fā)明克服了傳統(tǒng)社交興趣圈發(fā)現(xiàn)僅考慮網(wǎng)絡(luò)連接結(jié)構(gòu)、且只挖掘單分類的缺陷,本發(fā)明充 分結(jié)合微博用戶的社交關(guān)系,從全局網(wǎng)絡(luò)考慮來(lái)發(fā)現(xiàn)重疊社交興趣圈,識(shí)別社交興趣圈,詳 見(jiàn)下文描述:
[0006] -種基于親密度和影響力的微博社交興趣圈挖掘方法,所述挖掘方法包括以下步 驟:
[0007] 基于KCC算法對(duì)中心用戶一級(jí)交互圖發(fā)現(xiàn)社交興趣圈種子;
[0008] 根據(jù)節(jié)點(diǎn)間的親密度擴(kuò)充所述社交興趣圈種子;
[0009] 通過(guò)用戶微博興趣相似度,對(duì)PageRank算法進(jìn)行擴(kuò)展,計(jì)算用戶影響力;通過(guò)所 述用戶影響力對(duì)擴(kuò)充后的社交興趣圈種子再次進(jìn)行擴(kuò)充;
[0010] 通過(guò)二次擴(kuò)充后的社交興趣圈種子對(duì)發(fā)現(xiàn)的社交興趣圈進(jìn)行自動(dòng)標(biāo)注。
[0011] 所述根據(jù)節(jié)點(diǎn)間的親密度擴(kuò)充所述社交興趣圈種子的步驟具體為:
[0012] 找出一級(jí)交互圖節(jié)點(diǎn)集中沒(méi)有被劃分進(jìn)任何一個(gè)社交興趣圈中的節(jié)點(diǎn)子集,作為 候選節(jié)點(diǎn)集合;
[0013] 按照親密度降序的次序依次計(jì)算候選節(jié)點(diǎn)集合中,每個(gè)候選節(jié)點(diǎn)與現(xiàn)有社交興趣 圈之間的親密度距離,如果距離小于設(shè)定的閾值,則將候選節(jié)點(diǎn)劃分入現(xiàn)有社交興趣圈;否 則為候選節(jié)點(diǎn)新建一個(gè)社交興趣圈;
[0014] 掃描所有社交興趣圈,如果社交興趣圈的尺寸小于團(tuán)尺寸參數(shù)K,則將社交興趣圈 刪除。
[0015] 所述通過(guò)用戶微博興趣相似度,對(duì)PageRank算法進(jìn)行擴(kuò)展,計(jì)算用戶影響力的步 驟具體為:
[0016] 根據(jù)微博用戶間關(guān)注關(guān)系、發(fā)微博、閱讀微博、以及評(píng)論微博的社交行為,定義 PageRank算法節(jié)點(diǎn)轉(zhuǎn)移概率的計(jì)算公式,并計(jì)算用戶影響力。
[0017] 所述通過(guò)所述用戶影響力對(duì)擴(kuò)充后的社交興趣圈種子再次進(jìn)行擴(kuò)充的步驟具體 為:
[0018] 依照影響力降序的次序考察二級(jí)交互圖中還沒(méi)有加入任何社交興趣圈的用戶節(jié) 點(diǎn);通過(guò)模塊度函數(shù)作為判斷一個(gè)用戶節(jié)點(diǎn)能否擴(kuò)充進(jìn)現(xiàn)有社交興趣圈的衡量標(biāo)準(zhǔn);
[0019] 當(dāng)用戶節(jié)點(diǎn)擴(kuò)充入現(xiàn)有社交興趣圈后,如果其模塊度值不降低,則將用戶節(jié)點(diǎn)擴(kuò) 充到此現(xiàn)有社交興趣圈,否則不擴(kuò)充。
[0020] 所述通過(guò)二次擴(kuò)充后的社交興趣圈種子對(duì)發(fā)現(xiàn)的社交興趣圈進(jìn)行自動(dòng)標(biāo)注的步 驟具體為:
[0021] 將興趣標(biāo)簽作為詞項(xiàng),將每個(gè)社交興趣圈視作文本,將挖掘出的所有社交興趣圈 看作文檔集合,如果IDF值越高,表明興趣標(biāo)簽區(qū)分社交興趣圈的能力越差,過(guò)濾掉區(qū)分能 力差的興趣標(biāo)簽;
[0022] 將興趣標(biāo)簽作為詞項(xiàng),將每個(gè)微博用戶作為文檔,以中心用戶所有社交興趣圈中 的成員構(gòu)成文檔集合,通過(guò)排序,將TFX IDF值高的興趣標(biāo)簽作為社交興趣圈的標(biāo)注。
[0023] -種基于親密度和影響力的微博社交興趣圈挖掘裝置,所述挖掘裝置包括:
[0024] 發(fā)現(xiàn)模塊,用于基于KCC算法對(duì)中心用戶一級(jí)交互圖發(fā)現(xiàn)社交興趣圈種子;
[0025] 第一擴(kuò)充模塊,用于根據(jù)節(jié)點(diǎn)間的親密度擴(kuò)充所述社交興趣圈種子;
[0026] 計(jì)算模塊,用于通過(guò)用戶微博興趣相似度,對(duì)PageRank算法進(jìn)行擴(kuò)展,計(jì)算用戶 影響力;
[0027] 第二擴(kuò)充模塊,用于通過(guò)所述用戶影響力對(duì)擴(kuò)充后的社交興趣圈種子再次進(jìn)行擴(kuò) 充;
[0028] 標(biāo)注模塊,用于通過(guò)二次擴(kuò)充后的社交興趣圈種子對(duì)發(fā)現(xiàn)的社交興趣圈進(jìn)行自動(dòng) 標(biāo)注。
[0029] 所述第一擴(kuò)充模塊包括:
[0030] 查找子模塊,用于找出一級(jí)交互圖節(jié)點(diǎn)集中沒(méi)有被劃分進(jìn)任何一個(gè)社交興趣圈中 的節(jié)點(diǎn)子集,作為候選節(jié)點(diǎn)集合;
[0031] 第一判斷子模塊,用于按照親密度降序的次序依次計(jì)算候選節(jié)點(diǎn)集合中,每個(gè)候 選節(jié)點(diǎn)與現(xiàn)有社交興趣圈之間的親密度距離,如果距離小于設(shè)定的閾值,則將候選節(jié)點(diǎn)劃 分入現(xiàn)有社交興趣圈;否則為候選節(jié)點(diǎn)新建一個(gè)社交興趣圈;
[0032] 掃描子模塊,用于掃描所有社交興趣圈,如果社交興趣圈的尺寸小于團(tuán)尺寸參數(shù) K,則將社交興趣圈刪除。
[0033] 所述第二擴(kuò)充模塊包括:
[0034] 第二判斷子模塊,用于依照影響力降序的次序考察二級(jí)交互圖中還沒(méi)有加入任何 社交興趣圈的用戶節(jié)點(diǎn);通過(guò)模塊度函數(shù)作為判斷一個(gè)用戶節(jié)點(diǎn)能否擴(kuò)充進(jìn)現(xiàn)有社交興趣 圈的衡量標(biāo)準(zhǔn);當(dāng)用戶節(jié)點(diǎn)擴(kuò)充入現(xiàn)有社交興趣圈后,如果其模塊度值不降低,則將用戶節(jié) 點(diǎn)擴(kuò)充到此現(xiàn)有社交興趣圈,否則不擴(kuò)充。
[0035] 所述標(biāo)注模塊包括:
[0036] 過(guò)濾子模塊,用于將興趣標(biāo)簽作為詞項(xiàng),將每個(gè)社交興趣圈視作文本,將挖掘出的 所有社交興趣圈看作文檔集合,如果IDF值越高,表明興趣標(biāo)簽區(qū)分社交興趣圈的能力越 差,過(guò)濾掉區(qū)分能力差的興趣標(biāo)簽;
[0037] 標(biāo)注子模塊,用于將興趣標(biāo)簽作為詞項(xiàng),將每個(gè)微博用戶作為文檔,以中心用戶所 有社交興趣圈中的成員構(gòu)成文檔集合,通過(guò)排序,將TFX IDF值高的興趣標(biāo)簽作為社交興 趣圈的標(biāo)注。
[0038] 本發(fā)明提供的技術(shù)方案的有益效果是:本發(fā)明彌補(bǔ)了現(xiàn)有技術(shù)中的不足,綜合考 慮網(wǎng)絡(luò)連接結(jié)構(gòu)以及親密度、影響力等社交因素,能夠在復(fù)雜的微博社交網(wǎng)絡(luò)中,挖掘指定 用戶社交網(wǎng)絡(luò)中的存在重疊現(xiàn)象的多個(gè)社交興趣圈。挖掘得到的社交興趣圈能夠應(yīng)用于興 趣建模、協(xié)同推薦、個(gè)性化搜索和排名、精準(zhǔn)廣告投放和知識(shí)圖譜等諸多領(lǐng)域,具有廣泛的 應(yīng)用前景和價(jià)值。
【附圖說(shuō)明】
[0039] 圖1為一種基于親密度和影響力的微博社交興趣圈挖掘方法的流程圖;
[0040] 圖2為基于親密度及影響力的微博社交興趣圈挖掘方法與RSCM算法對(duì)比實(shí)驗(yàn)結(jié) 果圖;
[0041] 圖3為基于親密度及影響力的微博社交興趣圈挖掘方法與K-means算法的對(duì)比實(shí) 驗(yàn)結(jié)果圖;
[0042] 圖4為一種基于親密度和影響力的微博社交興趣圈挖掘裝置的結(jié)構(gòu)示意圖;
[0043] 圖5為第一擴(kuò)充模塊的不意圖;
[0044] 圖6為第二擴(kuò)充模塊的示意圖;
[0045] 圖7為標(biāo)注模塊的示意圖。
[0046] 附圖中,各部件的列表如下:
[0047] 1 :發(fā)現(xiàn)模塊; 2 :第一擴(kuò)充模塊;
[0048] 3 :計(jì)算模塊; 4 :第二擴(kuò)充模塊;
[0049] 5 :標(biāo)注模塊; 21 :查找子模塊;
[0050] 22 :第一判斷子模塊; 23 :掃描子模塊;
[0051] 41 :第二判斷子模塊; 51 :過(guò)濾子模塊;
[0052] 52 :標(biāo)注子模塊。
【具體實(shí)施方式】
[0053] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面對(duì)本發(fā)明實(shí)施方式作進(jìn)一步 地詳細(xì)描述。
[0054] 實(shí)施例1
[0055] -種基于親密度和影響力的微博社交興趣圈挖掘方法,參見(jiàn)圖1,該挖掘方法包括 以下步驟:
[0056] 101 :基于KCC算法對(duì)中心用戶一