欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法

文檔序號:10534838閱讀:253來源:國知局
一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法
【專利摘要】本發(fā)明涉及一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,該方法具體過程是:讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點、用戶關(guān)系為邊的社交網(wǎng)絡(luò)圖,為每一個用戶隨機(jī)賦予一個唯一的標(biāo)簽值,采用標(biāo)簽傳播算法來更新用戶節(jié)點的標(biāo)簽,在標(biāo)簽傳播的過程中,當(dāng)被更新節(jié)點鄰居節(jié)點中存在多個具有最高頻率標(biāo)簽時選擇這些鄰居節(jié)點中具有互為好友或加關(guān)注的鄰居標(biāo)簽更新該節(jié)點的標(biāo)簽,對于經(jīng)過幾步的迭代更新后,緊密連接的節(jié)點將會擁有相同的特定標(biāo)簽值。根據(jù)本發(fā)明實施例的社會網(wǎng)絡(luò)群體劃分方法,根據(jù)用戶關(guān)系圖邊聚集系數(shù)屬性,通過改進(jìn)標(biāo)簽傳播算法,對用戶群體進(jìn)行劃分,劃分結(jié)果對網(wǎng)絡(luò)輿情監(jiān)測、商業(yè)用戶挖掘等都具有較好的應(yīng)用價值。
【專利說明】
一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體 劃分方法。
【背景技術(shù)】
[0002] 如何從社會網(wǎng)絡(luò)中挖掘出具有實用效益的信息已成為復(fù)雜網(wǎng)絡(luò)中一個研究熱點, 無論在理論還是社會實用價值上都具有非常重要的意義。網(wǎng)絡(luò)社區(qū)通常由功能相近或性質(zhì) 相似的網(wǎng)絡(luò)節(jié)點組成,復(fù)雜網(wǎng)絡(luò)中同一社區(qū)內(nèi)的節(jié)點具有相似的特點或相似的興趣。微博 是一個典型的復(fù)雜網(wǎng)絡(luò),微博網(wǎng)絡(luò)中的社區(qū)是由一組關(guān)注同一個話題或具有相似興趣的用 戶組成的集合。通過挖掘微博網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),可以迅速而準(zhǔn)確的找到具有相同或相似 興趣愛好的用戶,發(fā)現(xiàn)他們共同參與的話題,這些對網(wǎng)絡(luò)輿情監(jiān)測、商業(yè)用戶挖掘等領(lǐng)域都 具有較好的應(yīng)用價值。
[0003] 迄今為止,人們已經(jīng)提出許多社區(qū)發(fā)現(xiàn)方法,2002年,Girvan和Newman在PNAS 上發(fā)表的論文對社會網(wǎng)絡(luò)和生物網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)進(jìn)行研究,也就是著名的GN算法,它 是社區(qū)發(fā)現(xiàn)技術(shù)發(fā)展過程中的一個重要里程碑,也是一種非常經(jīng)典的社區(qū)發(fā)現(xiàn)算法和社 區(qū)發(fā)現(xiàn)技術(shù)研究中的重要的參考模型,該論文拉開了網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)研究的序幕。該論文 首次將網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)作為網(wǎng)絡(luò)普遍具有的拓?fù)涮卣魈岢?,并給出一種基于邊介數(shù)(edge betweenness)的分裂式層次聚類算法來識別網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)。大多數(shù)社區(qū)發(fā)現(xiàn)算法的基本 思想都是根據(jù)某個節(jié)點的內(nèi)聚性度量,遞歸地對網(wǎng)絡(luò)進(jìn)行合并或分裂,分解成嵌套的社區(qū) 層次結(jié)構(gòu)。傳統(tǒng)的社區(qū)劃分方法大致分為兩類:基于圖論的算法和層次聚類算法。其中基 于圖論的算法主要有Kernighan-Lin算法(簡稱為K-L算法)、基于拉普拉斯圖特征值的譜 平分法和派系過濾算法等,這類方法的缺點是無法界定重復(fù)迭代次數(shù);層次聚類算法又可 分為兩大類:凝聚算法和分裂算法,劃分依據(jù)是在網(wǎng)絡(luò)中增加邊還是去除邊,增加邊的是凝 聚算法,而去除邊的是分裂算法。典型的代表算法有Newman快速算法、GN算法等,缺點是 算法復(fù)雜度高、無法界定何時停止。
[0004] 可見,以上經(jīng)典的算法都存在許多局限性,劃分結(jié)果并不理想,而且復(fù)雜度較高, 難以滿足大型真實網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的要求。2007年,Raghavan等人提出了標(biāo)簽傳播算法 (LabelpropagationAlgorithm,LPA),有效地解決了復(fù)雜度高、無法收斂的問題。標(biāo)簽傳播 算法是一種基于圖的半監(jiān)督學(xué)習(xí)方法,認(rèn)為聯(lián)系緊密的節(jié)點會擁有一個相同的標(biāo)簽值,其 基本思路是用已標(biāo)記節(jié)點的標(biāo)簽信息預(yù)測未標(biāo)記節(jié)點的標(biāo)簽信息,最后標(biāo)簽值相同的節(jié)點 被劃分進(jìn)一個社區(qū)。LPA具有思路簡單、擴(kuò)展性強(qiáng)、復(fù)雜度最低、速度最快等特點。標(biāo)簽傳 播算法的時間復(fù)雜度接近于線性〇(m) (m為邊的數(shù)目),對于較大規(guī)模的社區(qū)(106-109個 節(jié)點)檢測,經(jīng)過5次迭代后開始收斂。另外,標(biāo)簽傳播算法既不需要優(yōu)化預(yù)定義的目標(biāo)函 數(shù),也不需要關(guān)于社區(qū)的數(shù)量和規(guī)模等先驗信息,對社區(qū)的大小也沒有限制,因此標(biāo)簽傳播 算法已經(jīng)成為當(dāng)前應(yīng)用較為廣泛的社區(qū)發(fā)現(xiàn)算法之一,被大量應(yīng)用在了多媒體信息分類、 虛擬社區(qū)挖掘等領(lǐng)域中。
[0005] 然而,雖然標(biāo)簽傳播算法簡單高效,但算法中的標(biāo)簽傳播的隨機(jī)性導(dǎo)致算法的準(zhǔn) 確度較差,劃分結(jié)果不穩(wěn)定,隨機(jī)性較強(qiáng),魯棒性有待提高。綜上所述,現(xiàn)有的社區(qū)發(fā)現(xiàn)方法 在準(zhǔn)確度和時間復(fù)雜度上都存在很大的提升空間。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于提供一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,該方 法有利于提商網(wǎng)絡(luò)社區(qū)劃分的精確度和穩(wěn)定性能。
[0007] 為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群 體劃分方法,包括以下步驟:
[0008] 步驟A :讀取微博網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造微博網(wǎng)絡(luò)用戶關(guān)系矩陣A = {&1]},當(dāng)用戶i與j 為好友時al j= 2,當(dāng)i與i互為關(guān)注時a lj= 1,其它記為0 ;
[0009] 步驟B:讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點,用戶關(guān)系為邊的社交網(wǎng) 絡(luò)圖;
[0010] 步驟C:節(jié)點標(biāo)記:為每一個用戶節(jié)點隨機(jī)分配一個唯一的標(biāo)簽值,作為它所屬社 區(qū)的標(biāo)識;
[0011] 步驟D :初步社區(qū)劃分:對圖中的所有頂點的標(biāo)簽進(jìn)行迭代更新。每次迭代后,節(jié) 點的標(biāo)簽值更新為其鄰接節(jié)點的標(biāo)簽中數(shù)量最多的標(biāo)簽值;
[0012] 步驟E :社區(qū)劃分細(xì)化:如果多個標(biāo)簽出現(xiàn)的頻率最高時,查找用戶關(guān)系矩陣,在 具有標(biāo)簽頻率最高的鄰居節(jié)點中與該節(jié)點的用戶關(guān)系值最大的鄰居節(jié)點標(biāo)簽優(yōu)先被選擇 進(jìn)行傳播;經(jīng)過若干次迭代后,每個用戶節(jié)點鄰居中的標(biāo)簽變化趨于穩(wěn)定;
[0013] 步驟F :將所有具有相同標(biāo)簽的節(jié)點歸為一個社區(qū)。
[0014] 進(jìn)一步,在上述步驟C中,節(jié)點標(biāo)記具體包括以下步驟:為每一個用戶節(jié)點隨機(jī)分 配一個唯一的標(biāo)簽值,即C n= L n, (^表示節(jié)點n所屬社區(qū),L "表示節(jié)點n的標(biāo)簽值。
[0015] 進(jìn)一步,在上述步驟D中,初步社區(qū)劃分對節(jié)點的標(biāo)簽值更新為其鄰接節(jié)點的標(biāo) 簽中數(shù)量最多的標(biāo)簽值具體過程為:把社交網(wǎng)絡(luò)圖抽象成一個簡單的無向圖G(N,E),其 中,N表示節(jié)點的集合,E表示邊的集合。W nm表示連接n,m節(jié)點的邊的權(quán)重,n,m e仏用Cn 表示表示節(jié)點n所屬社區(qū),N1 (n)表示節(jié)點n e N的鄰居節(jié)點中標(biāo)簽值為1的節(jié)點集合。公 式如下:
[0016] Q=argmax I Wnm 1 m^N (n)
[0017] 進(jìn)一步,在上述步驟e中,社區(qū)劃分細(xì)化具體過程的所謂用戶關(guān)系矩陣,其值表示 微博網(wǎng)絡(luò)中兩個用戶間的關(guān)聯(lián)程度,它的值越大,代表這兩個用戶所代表的兩個節(jié)點在同 一個社區(qū)的可能性就越大。對于一個有n個用戶的微博網(wǎng)絡(luò),其用戶關(guān)系矩陣定義如下: a\\ ai2 ai3 …ain
[0018] d =⑷=.〇21吆~"..、 壓n2 Sc …3^.
[0019] 其中i和j分別代表不同的用戶,矩陣A中aij的定義如下:
[0020] 2 i與j為好友 ay = -1 i與j互相關(guān)注
[0 其它情況
[0021] 進(jìn)一步,所述步驟E中,迭代終止條件為社交網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不再發(fā)生變 化即終止迭代。
[0022] 相較于現(xiàn)有技術(shù),本發(fā)明的有益效果是:相較于現(xiàn)有的社區(qū)發(fā)現(xiàn)算法,在保留傳統(tǒng) 標(biāo)簽傳播算法優(yōu)點的前提下,在穩(wěn)定性能和精確度上得到大大提高。綜上,本發(fā)明的算法能 夠高效的檢測社會網(wǎng)絡(luò)。
【附圖說明】
[0023] 圖1為本發(fā)明方法的實現(xiàn)流程圖。
[0024] 圖2為采用本發(fā)明方法(由LPASS表示)和標(biāo)簽傳播算法(由LPA表示)在1000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)< k > = 15、度數(shù)的最大值maxk = 50條件 下,兩種算法運行100次的平均匪I值隨混合參數(shù)U (U e [0,0.90],y表示不同社區(qū)之 間的節(jié)點中有連邊的部分)的取值變化對比圖。
[0025] 圖3為采用本發(fā)明方法(由LPASS表示)和標(biāo)簽傳播算法(由LPA表示)在1000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)< k > = 30、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)P (P e [0,0. 90])的取值變化對比圖。
[0026] 圖4為采用本發(fā)明方法(由LPASS表示)和標(biāo)簽傳播算法(由LPA表示)在5000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)< k > = 15、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)P (P e [0,0. 90])的取值變化對比圖。
[0027] 圖5為采用本發(fā)明方法(由LPASS表示)和標(biāo)簽傳播算法(由LPA表示)在5000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)< k > = 30、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)P (P e [0,0. 90])的取值變化對比圖。
[0028] 圖6為采用本發(fā)明方法(由LPASS表示)和標(biāo)簽傳播算法(由LPA表示)在10000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)< k > = 15、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)P (P e [0,0. 90])的取值變化對比圖。
[0029] 圖7為采用本發(fā)明方法(由LPASS表示)和標(biāo)簽傳播算法(由LPA表示)在10000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)< k > = 30、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)P (P e [0,0. 90])的取值變化對比圖。
[0030] 圖8為采用本發(fā)明方法(由LPA表示)對一個真實微博網(wǎng)絡(luò)的劃分結(jié)果。
[0031] 圖9為采用本發(fā)明方法(由LPASS表示)對一個真實微博網(wǎng)絡(luò)的劃分結(jié)果。
【具體實施方式】
[0032] 以下結(jié)合附圖,對本發(fā)明上述的特征和優(yōu)點作更加詳細(xì)的說明。
[0033] 圖1是本發(fā)明的一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法的實現(xiàn)流程 圖。如圖1所示,所述方法包括以下步驟:
[0034] 步驟A :讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶關(guān)系矩陣。
[0035] 步驟B:讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點,用戶關(guān)系為邊的社交網(wǎng) 絡(luò)圖。
[0036] 如在微博這樣的社交網(wǎng)絡(luò)中,將每一個用戶作為網(wǎng)絡(luò)中的一個節(jié)點,以用戶中具 有相同特征或觀點的作為網(wǎng)絡(luò)的一條邊。于是,形成了許多具有相同特征的社區(qū),這對網(wǎng) 絡(luò)輿情監(jiān)測具有重要的意義;萬維網(wǎng)中,如果知道某些網(wǎng)頁的少量信息,就可以與其他網(wǎng)頁 組成有關(guān)系的連邊,這對搜索引擎是非常有用的;科學(xué)家協(xié)作網(wǎng)中,將每個作者作為一個節(jié) 點,兩個作者合作文章即產(chǎn)生一條連邊,形成龐大的協(xié)作網(wǎng)絡(luò)。
[0037] 在本實施例中,采用由不同的節(jié)點數(shù)、節(jié)點度數(shù)和混合參數(shù)組成的6種基準(zhǔn)網(wǎng)絡(luò)。 其中,混合參數(shù)U代表社區(qū)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)的明顯程度,U值越小社區(qū)結(jié)構(gòu)越明顯。
[0038] 步驟C :初始化,為每個節(jié)點分配一個唯一代表其所屬社區(qū)的標(biāo)簽,迭代次數(shù)t = 1〇
[0039] 具體的,在所述步驟B中,為每個節(jié)點分配一個唯一代表其所屬社區(qū)的標(biāo)簽具體 過程為,即C n= L n, (^表示節(jié)點n所屬社區(qū),L "表示節(jié)點n的標(biāo)簽值。
[0040] 步驟D :隨機(jī)排列所有節(jié)點,生成一個節(jié)點序列X。
[0041] 步驟E:節(jié)點標(biāo)簽更新。
[0042] 具體的,在所述步驟E中,節(jié)點標(biāo)簽更新具體包括以下步驟:
[0043] 步驟E1 :對于節(jié)點序列X中的每一個節(jié)點X,用它鄰居節(jié)點標(biāo)簽中出現(xiàn)頻率 最高的那個標(biāo)簽來更新該節(jié)點的標(biāo)簽,假設(shè)節(jié)點x的k個鄰居節(jié)點分別是 Xl,x2,..., Xk,第t次時迭代節(jié)點X的標(biāo)簽依據(jù)于它鄰居節(jié)點中所有經(jīng)過了 t次迭代后節(jié)點的 標(biāo)簽及其它經(jīng)過了第t. 1次迭代節(jié)點后所得到的標(biāo)簽,節(jié)點X的標(biāo)簽更新公式為: \(0 =容(\(0,\(/),...氣(0,、+1(卜1),...,\(/-1)),其中函數(shù)8返回的是節(jié)點1的鄰居節(jié)點 標(biāo)簽中頻率最_的標(biāo)簽。
[0044] 步驟E2:如果多個標(biāo)簽出現(xiàn)的頻率最高時,查找用戶關(guān)系矩陣,在具有標(biāo)簽頻率 最高的鄰居節(jié)點中選擇與該節(jié)點的用戶關(guān)系值最大的鄰居節(jié)點標(biāo)簽作為該頂點標(biāo)簽;如果 存在最大關(guān)系值相等,則在其中隨機(jī)選擇一個節(jié)點標(biāo)簽。
[0045] 步驟F :若所有節(jié)點的標(biāo)簽不再變化,則算法停止;否則,t = t+1,并返回步驟E。
[0046] 具體的,在所述步驟F中,算法的迭代終止條件為社會網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不 再發(fā)生變化。
[0047] 步驟G :將所有具有相同標(biāo)簽的頂點歸為一個社區(qū)。
[0048] 在本實施例中考察本發(fā)明與標(biāo)簽傳播算法在6種不同參數(shù)條件下的基準(zhǔn)網(wǎng)絡(luò)中, 隨著混合參數(shù)P的取值變化,各運行100次的平均匪I值對比圖。其中,匪I (normalized mutual information)值是判斷實驗劃分結(jié)果與實際真實結(jié)果的接近程度的評判依據(jù)。具 體規(guī)則詳細(xì)如下:
[0050] 其中,定義一個混淆矩陣N,行數(shù)代表真實社區(qū),列數(shù)代表已發(fā)現(xiàn)社區(qū),Nx]代表真 實社區(qū)i中的節(jié)點在已發(fā)現(xiàn)社區(qū)j中所占的節(jié)點個數(shù),cA代表真實社區(qū)的數(shù)量,c B代表已 發(fā)現(xiàn)社區(qū)的數(shù)量,K.代表矩陣N u中i行的總和,N .,代表j列的總和。
[0051] 本發(fā)明所述的一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,將社區(qū)劃分過 程劃分為讀取社交網(wǎng)絡(luò)數(shù)據(jù)、初始化、節(jié)點更新標(biāo)簽、劃分社區(qū)四個階段,首先讀取社交網(wǎng) 絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶關(guān)系矩陣,并構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點,用戶關(guān)系為邊的社 交網(wǎng)絡(luò)圖;為社交網(wǎng)絡(luò)圖中的每個節(jié)點分配一個唯一代表其所屬社區(qū)的標(biāo)簽,迭代次數(shù)t ==1 ;隨機(jī)排列所有的節(jié)點,生成一個節(jié)點序列;節(jié)點標(biāo)簽更新,對于節(jié)點序列中每一個 節(jié)點X,用它鄰居節(jié)點標(biāo)簽中出現(xiàn)頻率最高的那個標(biāo)簽來更新該節(jié)點的標(biāo)簽,如果多個標(biāo)簽 出現(xiàn)的頻率最高時,查找用戶關(guān)系矩陣,在具有標(biāo)簽頻率最高的鄰居節(jié)點中選擇與該節(jié)點 的用戶關(guān)系值最大的鄰居節(jié)點標(biāo)簽作為該節(jié)點的標(biāo)簽;如果存在多個最大關(guān)系值,則在具 有標(biāo)簽頻率最高的鄰居節(jié)點中隨機(jī)選擇一個節(jié)點標(biāo)簽。若所有節(jié)點的標(biāo)簽不再發(fā)生變化, 則算法停止;最后,將所有具有相同標(biāo)簽的頂點歸為一個社區(qū)。標(biāo)簽傳播算法平等的對待所 有鄰居節(jié)點,導(dǎo)致社區(qū)邊緣節(jié)點間產(chǎn)生了標(biāo)簽傳播,嚴(yán)重影響了社區(qū)劃分結(jié)果的準(zhǔn)確率。本 發(fā)明采用先驗知識的思想,在待更新節(jié)點的所有鄰居節(jié)點中,當(dāng)有多個標(biāo)簽出現(xiàn)的頻率最 高時,在具有標(biāo)簽頻率最高的鄰居節(jié)點中選擇與該節(jié)點的用戶關(guān)系值最大的鄰居節(jié)點標(biāo)簽 作為該節(jié)點的標(biāo)簽,這樣就在很大程度上限制了標(biāo)簽傳播的隨意性。為了證明本發(fā)明方法 的優(yōu)勢,本實施例選取了 6個不同參數(shù)條件下的基準(zhǔn)網(wǎng)絡(luò)。參數(shù)各異的圖2、圖3、圖4、圖 5、圖6、圖7表明當(dāng)混合參數(shù)y取值在0到0. 9范圍內(nèi)時,本發(fā)明方法的匪I值結(jié)果總體 優(yōu)于標(biāo)簽傳播算法。進(jìn)一步研究可以發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)的節(jié)點數(shù)相同時,節(jié)點的平均度數(shù)< k > 越大,相較于標(biāo)簽傳播算法,本發(fā)明方法效果越明顯,即劃分社區(qū)的準(zhǔn)確度越高;當(dāng)網(wǎng)絡(luò)的 節(jié)點數(shù)不相同時,節(jié)點的數(shù)目越多,本發(fā)明方法效果越明顯,劃分社區(qū)的準(zhǔn)確度越高。為了 更進(jìn)一步驗證本發(fā)明提出的算法對真實微博網(wǎng)絡(luò)劃分情況,本實施例選擇了新浪微博中由 303個不同的用戶組成微博網(wǎng)絡(luò),該網(wǎng)絡(luò)共有303個節(jié)點、1246條連邊,分別用LPA算法和 LPASS算法對該微博網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,結(jié)果表明LPASS劃分的結(jié)果更優(yōu),體現(xiàn)了真實的細(xì) 節(jié)。上述實施例表明在具有標(biāo)簽頻率最高的鄰居節(jié)點中選擇與該節(jié)點的用戶關(guān)系值最大的 鄰居節(jié)點標(biāo)簽作為該節(jié)點的標(biāo)簽從很大程度上限制了標(biāo)簽傳播的隨意性,大大提高了社區(qū) 發(fā)現(xiàn)算法的準(zhǔn)確率。綜上,本發(fā)明方法大大提高了原有社區(qū)發(fā)現(xiàn)算法的準(zhǔn)確率,可有效挖掘 社會網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),可以應(yīng)用于網(wǎng)絡(luò)輿情監(jiān)測、搜索引擎等不同規(guī)模的領(lǐng)域。
[0052] 以上所述僅為本發(fā)明的較佳實施例,在發(fā)明權(quán)利要求所限定的范圍內(nèi)對其進(jìn)行的 改變、修改、甚至等效,都將屬于本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,其特征在于,所述方法包括以 下步驟: 步驟A :讀取微博網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造微博網(wǎng)絡(luò)用戶關(guān)系矩陣A = {ai]},當(dāng)用戶i與j為好 友時alj= 2,當(dāng)i與j互為關(guān)注時a lj= 1,其它記為O ; 步驟B :讀取微博網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以微博網(wǎng)絡(luò)用戶為節(jié)點、用戶關(guān)系為邊的社交網(wǎng)絡(luò) 圖; 步驟C :節(jié)點標(biāo)記:為每一個用戶節(jié)點隨機(jī)分配一個唯一的標(biāo)簽值,作為它所屬社區(qū)的 標(biāo)識; 步驟D :初步社區(qū)劃分:對圖中的所有頂點的標(biāo)簽進(jìn)行迭代更新,每次迭代后,節(jié)點的 標(biāo)簽值更新為其鄰接節(jié)點的標(biāo)簽中數(shù)量最多的標(biāo)簽值; 步驟E :社區(qū)劃分細(xì)化:如果多個標(biāo)簽出現(xiàn)的頻率最高時,查找用戶關(guān)系矩陣,在具有 標(biāo)簽頻率最高的鄰居節(jié)點中與該節(jié)點的用戶關(guān)系值最大的鄰居節(jié)點標(biāo)簽優(yōu)先被選擇進(jìn)行 傳播;經(jīng)過若干次迭代后,每個用戶節(jié)點鄰居中的標(biāo)簽變化趨于穩(wěn)定; 步驟F :將所有具有相同標(biāo)簽的節(jié)點歸為一個社區(qū)。2. 根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,其特征 在于, 在上述步驟C中,為每一個用戶節(jié)點隨機(jī)分配一個唯一的標(biāo)簽值,即Cn= L n,Cn表示節(jié) 點η所屬社區(qū),1^表示節(jié)點η的標(biāo)簽值。3. 根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,其特征 在于, 在上述步驟D中,對節(jié)點的標(biāo)簽值更新為其鄰接節(jié)點的標(biāo)簽中數(shù)量最多的標(biāo)簽值具體 過程為:把社交網(wǎng)絡(luò)圖抽象成一個簡單的無向圖G(N,E),其中,N表示節(jié)點的集合,E表示邊 的集合;Wnm表示連接n, m節(jié)點的邊的權(quán)重,n, m e仏用Cn表示表示節(jié)點η所屬社區(qū),Nt (η) 表示節(jié)點n e N的鄰居節(jié)點中標(biāo)簽值為1的節(jié)點集合,公式如下:4. 根據(jù)權(quán)利要求1所述的一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,其特征 在于: 在上述步驟E中,所謂用戶關(guān)系矩陣,其值表示微博網(wǎng)絡(luò)中兩個用戶間的關(guān)聯(lián)程度,它 的值越大,代表這兩個用戶所代表的兩個節(jié)點在同一個社區(qū)的可能性就越大,用戶關(guān)系矩 陣具體定義如下:其中i和j分別代表微博網(wǎng)絡(luò)中兩個不同的用戶,其值\定義如下:假設(shè)微博中有兩個用戶i和j,如果他們是互為友好,則共同參與一個話題的可能性較 大,即處在網(wǎng)絡(luò)中同一社區(qū)的可能性較大;如果他們相互加為關(guān)注,則一個用戶的每條微博 肯定會被另一個用戶所見,即i傳染j的可能性較大,所以i和j同在一個社區(qū)的可能性也 較大。5.根據(jù)權(quán)利要求1所述的一一種基于半監(jiān)督標(biāo)簽傳播的微博用戶群體劃分方法,其特 征在于: 所述步驟E中,迭代終止條件為社交網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不再發(fā)生變化即終止迭 代。
【文檔編號】G06F17/30GK105893381SQ201410814367
【公開日】2016年8月24日
【申請日】2014年12月23日
【發(fā)明人】張賢坤, 任靜, 牛四寶, 劉申
【申請人】天津科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
兴城市| 南岸区| 苏尼特右旗| 凌海市| 运城市| 德惠市| 阿拉尔市| 莱芜市| 远安县| 耿马| 措勤县| 太康县| 建湖县| 睢宁县| 乌恰县| 长白| 文化| 铜陵市| 昌吉市| 高清| 天长市| 北海市| 西贡区| 砚山县| 澄迈县| 石河子市| 太湖县| 勃利县| 安图县| 伊宁县| 尼勒克县| 南平市| 乐昌市| 高碑店市| 遵义市| 黔西| 应用必备| 阳原县| 灵丘县| 蓬溪县| 耒阳市|