一種基于PageRank算法的社區(qū)劃分方法
【專利摘要】本發(fā)明提供了一種基于PageRank算法的社區(qū)劃分方法,屬于復(fù)雜網(wǎng)絡(luò)社區(qū)劃分【技術(shù)領(lǐng)域】,該發(fā)明將PageRank算法的隨機(jī)游走性質(zhì),量化為頂點(diǎn)間關(guān)系程度矩陣,將PR值迭代向量升維至能量分布矩陣,進(jìn)而由頂點(diǎn)間關(guān)系程度來劃分社區(qū)。具有記錄內(nèi)容詳細(xì)、運(yùn)算簡便等優(yōu)點(diǎn),在網(wǎng)絡(luò)結(jié)構(gòu)分析、郵件鑒別、文檔聚類、謠言傳播、信值傳播等方面有著廣泛的應(yīng)用前景。
【專利說明】-種基于PageRank算法的社區(qū)劃分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及復(fù)雜網(wǎng)絡(luò)社區(qū)劃分【技術(shù)領(lǐng)域】,具體設(shè)及一種基于化geRank算法的社 區(qū)劃分方法。
【背景技術(shù)】
[0002] 所謂社區(qū)劃分,是人們對網(wǎng)絡(luò)性質(zhì)的物理意義和數(shù)學(xué)含義的深入研究,也就是指 網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu)。對網(wǎng)絡(luò)進(jìn)行社區(qū)劃分,即是將具有相同結(jié)構(gòu)、特征的網(wǎng)絡(luò)結(jié)點(diǎn)歸結(jié)為一 個(gè)小團(tuán)體,使每個(gè)團(tuán)體有著相同的性質(zhì)。該個(gè)劃分團(tuán)體結(jié)構(gòu)的過程,被稱為社區(qū)的劃分。社 區(qū)劃分的目的和意義重大,由于網(wǎng)絡(luò)中頂點(diǎn)個(gè)數(shù)繁多,當(dāng)頂點(diǎn)個(gè)數(shù)增加到一定量級之后,利 用每個(gè)頂點(diǎn)的性質(zhì)來體現(xiàn)整體網(wǎng)絡(luò)的性質(zhì)是不可取的,也是不可能的。網(wǎng)絡(luò)具有與人類社 會(huì)相同的關(guān)系結(jié)構(gòu),根據(jù)不同的分類方式,可將人類群體分為不同種類,通過對每個(gè)種類的 研究,推演求得整體的性質(zhì);同理想要把握網(wǎng)絡(luò)整體的結(jié)構(gòu)性質(zhì),需要將網(wǎng)絡(luò)劃分為一些頂 點(diǎn)集,通過對頂點(diǎn)集的研究,來把握整體網(wǎng)絡(luò)。
[000引化geRank算法是由拉里?佩奇(Larry Page)和謝爾蓋?布林(Sergey Brin)為 排序網(wǎng)頁而提出的算法。算法核屯、在于提供給網(wǎng)頁W分值,利用分值排序網(wǎng)頁,為捜索用戶 甄選出好的網(wǎng)頁,W提高使用捜索引擎尋找網(wǎng)頁的體驗(yàn)舒適度。化geRank算法基于一種經(jīng) 典的數(shù)學(xué)統(tǒng)計(jì)模型;"隨機(jī)游走",它W其優(yōu)良的數(shù)學(xué)理論基礎(chǔ)和計(jì)算速度,成為計(jì)算機(jī)網(wǎng)絡(luò) 研究人員一直追捧至今的優(yōu)秀算法之一。
[0004] 化geRank算法具有里程碑式的成功,對它的后續(xù)研究和應(yīng)用大部分是對 化geRank算法在各種條件下的改進(jìn)和改進(jìn)后的應(yīng)用。化geRank算法的應(yīng)用很廣泛,除了作 為Google捜索引擎網(wǎng)頁排名的主要基礎(chǔ)算法,還被應(yīng)用于同樣物理模型的各種網(wǎng)絡(luò)中,例 如謠言網(wǎng)絡(luò)、病毒傳播網(wǎng)絡(luò)、論文引用網(wǎng)絡(luò)、引文索引、信任網(wǎng)絡(luò)、影響力分析、推薦系統(tǒng)、社 交網(wǎng)絡(luò)指標(biāo)分析、偏好與聲望查找、僵尸網(wǎng)絡(luò)跟蹤與分析、信息傳播檢測等。化geRank也被 反向應(yīng)用于提高企業(yè)的網(wǎng)頁排名,即是化geRank在SE0方面的相關(guān)應(yīng)用研究。
【發(fā)明內(nèi)容】
[0005] 本申請通過提供一種基于化geRank算法的社區(qū)劃分方法,不僅解決經(jīng)典的 化geRank算法中的迭代向量僅能表示頂點(diǎn)得分情況,無從知曉得分的來源和去處技術(shù)問 題,還能夠豐富目前的社區(qū)劃分方法。
[0006] 為解決上述技術(shù)問題,本申請采用W下技術(shù)方案予W實(shí)現(xiàn):
[0007] 一種基于化geRank算法的社區(qū)劃分方法,包括步驟如下:
[000引步驟S1 ;根據(jù)N維原始網(wǎng)絡(luò)圖G的頂點(diǎn)和邊的關(guān)系,求得原始網(wǎng)絡(luò)圖G的鄰接矩 陣D,如果從頂點(diǎn)i到頂點(diǎn)j存在邊,則Dy= 1,否則D。= 0 ;
[0009] 步驟S2 ;根據(jù)鄰接矩陣D,求得原始網(wǎng)絡(luò)圖G的轉(zhuǎn)移概率矩陣P,其中
【權(quán)利要求】
1. 一種基于PageRank算法的社區(qū)劃分方法,包括步驟如下:
步驟Sl:根據(jù)N維原始網(wǎng)絡(luò)圖G的頂點(diǎn)和邊的關(guān)系,求得原始網(wǎng)絡(luò)圖G的鄰接矩陣D, 如果從頂點(diǎn)i到頂點(diǎn)j存在邊,則Dij= 1,否則DU=O; 步驟S2 :根據(jù)鄰接矩陣D,求得原始網(wǎng)絡(luò)圖G的轉(zhuǎn)移概率矩陣P,其中 步驟S3 :初始化能量矩陣A,所述能量矩陣A的第i行是當(dāng)前時(shí)刻頂點(diǎn)i沿出度流出的 能量值,第j列是當(dāng)前時(shí)刻從其他點(diǎn)流入頂點(diǎn)j的能量值,初始時(shí)刻的能量矩陣為Atl; 步驟S4 :根據(jù)迭代公式An=An_iP,求得第n時(shí)刻的能量矩陣An; 步驟S5 :將能量矩陣An的對角線元素4?置零; 步驟S6 :利用"出度占比最大法",在能量矩陣An中找出應(yīng)當(dāng)合并的頂點(diǎn)對(i,j),并將 頂點(diǎn)對(i,j)按照求解順序存入序列List中; 步驟S7 :利用"行max列avg合并法",將步驟S6中頂點(diǎn)對(i,j)對應(yīng)的能量矩陣An 中i行j行合并,i列j列合并,使得An降低1個(gè)維度; 步驟S8 :判斷能量矩陣的維度是否為0,如果不為0,則繼續(xù)執(zhí)行步驟S6,如果為0,則 執(zhí)行步驟S9 ; 步驟S9 :根據(jù)頂點(diǎn)對序列List,建立頂點(diǎn)合并樹,并計(jì)算每次合并的模塊度Q值,其中
n。是劃分的社區(qū)個(gè)數(shù),m是原始圖中的邊總數(shù),1。是某個(gè)社區(qū)C中頂 點(diǎn)間相互連接的邊數(shù),d。是C中頂點(diǎn)度數(shù)之和; 步驟SlO:比較每次合并的Q值,選擇Q值最大的合并方案,得到社區(qū)劃分結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于PageRank算法的社區(qū)劃分方法,其特征在于,步驟S6中 出度占比最大法,即若頂點(diǎn)i流出的最大能量流向頂點(diǎn)j,則將i與j合并為頂點(diǎn)對(i,j)。
3. 根據(jù)權(quán)利要求1所述的基于PageRank算法的社區(qū)劃分方法,其特征在于,步驟S7中 所述的行max列avg合并法,即針對步驟S6中得到的頂點(diǎn)對(i,j),在行方向上,保留i行 與j行的最大值存于i行對應(yīng)元素中后刪掉j行,在列方向上,求得i列與j列的平均值存 于i列對應(yīng)元素中后刪除j列,BP
【文檔編號】G06F19/00GK104504251SQ201410754171
【公開日】2015年4月8日 申請日期:2014年12月10日 優(yōu)先權(quán)日:2014年12月10日
【發(fā)明者】范純龍, 張翼飛, 丁國輝, 楊碩, 張弛, 劉暢, 吳恒超 申請人:沈陽航空航天大學(xué)