基于混合測度的加權(quán)網(wǎng)絡(luò)社區(qū)聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘和復(fù)雜網(wǎng)絡(luò)分析領(lǐng)域,特別涉及大規(guī)模加權(quán)社會(huì)網(wǎng)絡(luò)中基于 混合測度的社區(qū)結(jié)構(gòu)檢測方法。 技術(shù)背景
[0002] 隨著以互聯(lián)網(wǎng)為主的社交網(wǎng)絡(luò)的廣泛應(yīng)用,越來越多的人加入到社會(huì)網(wǎng)絡(luò)中進(jìn)行 信息交流活動(dòng)。社會(huì)網(wǎng)絡(luò)的應(yīng)用改變了人們制造、傳播和使用信息的方式。同時(shí),社會(huì)網(wǎng)絡(luò) 中用戶的規(guī)模和所制造的信息也在快速增加。據(jù)BusinessInsider的報(bào)道,世界上最大的 社交網(wǎng)站Facebook的用戶數(shù)量在2014年7月25日已經(jīng)突破22億,占全球總?cè)丝诘?/3。 新浪微博的活躍用戶數(shù)量在2014年9月30日達(dá)到1. 67億,并且每天新增的微博信息達(dá)到 1億條之多。
[0003] 目前,已有許多學(xué)者使用復(fù)雜網(wǎng)絡(luò)的理論和方法從關(guān)鍵成員影響力、社區(qū)發(fā)現(xiàn)、用 戶興趣建模等不同的方向?qū)ι鐣?huì)網(wǎng)絡(luò)進(jìn)行了深入的研究。其中,社區(qū)發(fā)現(xiàn)作為社會(huì)網(wǎng)絡(luò)研 究中的一個(gè)基礎(chǔ)性問題,不僅在社會(huì)學(xué)、生物學(xué)、電子商務(wù)等方面具有重要研究意義,在網(wǎng) 絡(luò)安全方面也具有實(shí)際應(yīng)用價(jià)值?,F(xiàn)有的信息網(wǎng)絡(luò)是一個(gè)邊界模糊、層次不清、高度分布、 動(dòng)態(tài)演化的復(fù)雜網(wǎng)絡(luò)。在這種大型的復(fù)雜網(wǎng)絡(luò)中挖掘社區(qū)結(jié)構(gòu)有助于找到系統(tǒng)的邊界區(qū)和 核心區(qū),以便在邊界區(qū)域部署防火墻、防病毒軟件和入侵檢測系統(tǒng)等安全設(shè)備從而對(duì)邊界 內(nèi)部實(shí)施隔離和保護(hù)。另外通過核心社區(qū)和骨干結(jié)點(diǎn)的識(shí)別,有助于控制病毒、輿情在網(wǎng)絡(luò) 中的快速傳播。在犯罪組織識(shí)別方面,針對(duì)國際化恐怖主義和有組織犯罪將活動(dòng)逐步轉(zhuǎn)移 到信息較為隱秘的網(wǎng)絡(luò)上來,引入社區(qū)分析技術(shù)能夠快速地提取社區(qū)結(jié)構(gòu),分析其上下級(jí) 關(guān)系,鎖定關(guān)鍵目標(biāo)群體,這對(duì)犯罪偵查、恐怖活動(dòng)預(yù)測、態(tài)勢掌控等都具有重要意義。
[0004] 近年來,研究者在社會(huì)網(wǎng)絡(luò)分析方面做了大量的工作,但是大部份都是基于無權(quán) 網(wǎng)絡(luò)。無權(quán)網(wǎng)絡(luò)中的社區(qū)劃分就是將網(wǎng)絡(luò)劃分為若干個(gè)社區(qū),使得社區(qū)內(nèi)部節(jié)點(diǎn)之間的連 接相對(duì)緊密,不同社區(qū)的節(jié)點(diǎn)之間的連接相對(duì)稀疏。然而現(xiàn)實(shí)網(wǎng)絡(luò)如博客網(wǎng)絡(luò)、電子郵件網(wǎng) 絡(luò)、科學(xué)家合作網(wǎng)絡(luò)、新陳代謝網(wǎng)絡(luò)等在本質(zhì)上就是加權(quán)網(wǎng)絡(luò),不僅要觀察兩個(gè)節(jié)點(diǎn)之間 是否有關(guān)聯(lián)還要觀察其關(guān)聯(lián)的強(qiáng)度。節(jié)點(diǎn)之間的關(guān)系應(yīng)該是個(gè)漸變有梯度的值,它不應(yīng)該 只有"親密"和"不親密"兩種界定,而應(yīng)該有"不親密"、"比較親密"、"親密"和"非常親密" 等這樣梯度化的量度方式。
[0005] 現(xiàn)代圖論技術(shù)的發(fā)展為復(fù)雜社會(huì)網(wǎng)絡(luò)的研究帶來了深遠(yuǎn)的影響。其中,與真實(shí)社 會(huì)網(wǎng)絡(luò)最相關(guān)的一個(gè)圖論特征就是社區(qū)結(jié)構(gòu),也稱為聚類。在計(jì)算機(jī)科學(xué)、社會(huì)學(xué)、生物學(xué) 等領(lǐng)域都有大量的研究人員使用圖論的理論和方法來進(jìn)行社區(qū)結(jié)構(gòu)的檢測,主要包括:圖 分割方法,如GN(Girvan-Newman)算法;模塊度最優(yōu)化方法,如FastNewman算法、Luovain 算法、SA(SimulatedAnnealing)算法等;標(biāo)簽傳播方法,如LPA(LabelPropagation Algorithm)算法、基于hubs的算法、Copra算法等;動(dòng)力學(xué)方法,如FEC(Findingand ExtractingCommunities)算法、Infomap算法、RN(Ronhovde-Nussinov)算法等。這些算 法都是基于網(wǎng)絡(luò)的結(jié)構(gòu)信息進(jìn)行社區(qū)發(fā)現(xiàn),近年來一些學(xué)者開始考慮將網(wǎng)絡(luò)節(jié)點(diǎn)的屬性信 息加入到社區(qū)發(fā)現(xiàn)中。Steinhaeuser等人提出了 一種為邊加權(quán)的NAS(nodeattribute similarity)方法,然后將其與傳統(tǒng)的隨機(jī)游走方法結(jié)合。Dang等人將模塊度函數(shù)與節(jié)點(diǎn) 屬性相似度函數(shù)進(jìn)行加權(quán)求和,然后利用Luovain算法檢測出社區(qū)結(jié)構(gòu)。Naresh等人提出 利用多個(gè)屬性的相似性并通過傳統(tǒng)的聚類方法發(fā)Twitter的社區(qū)。Deitrick等人利用用戶 在一段時(shí)間內(nèi)發(fā)過的tweets信息來逐步提高社區(qū)發(fā)現(xiàn)的效果。孫怡帆等人通過基于相似 度的模塊度函數(shù)來挖掘微博網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)。
[0006] 在這些算法中,模塊度最優(yōu)化算法是當(dāng)前使用最廣的一種社區(qū)結(jié)構(gòu)檢測方法。 Newman提出模塊度的測度最早是為GN算法定義一個(gè)終止條件,后來迅速成為眾多社區(qū) 檢測算法衡量社區(qū)劃分質(zhì)量的一個(gè)重要標(biāo)準(zhǔn)。但是模塊度的定義仍然存在一些問題。 一般認(rèn)為,模塊度值越大,所得到的劃分也越好。但是模塊度優(yōu)化時(shí)存在著分辨率限制 (resolutionlimit)和極端退化(extremedegeneraciess)問題。分辨率限制問題是指使 用模塊度優(yōu)化的算法不能發(fā)現(xiàn)尺寸小于一定規(guī)模的社區(qū)。極端退化問題是指全局的模塊性 最大化劃分常常隱藏在大量(指數(shù)級(jí))的結(jié)構(gòu)并不相似的高模塊性解中。
[0007] 由于模塊度的定義已經(jīng)催生了大量優(yōu)秀的社區(qū)檢測方法,與其放棄這些方法,不 如考慮能否用較小的代價(jià)增強(qiáng)模塊度最優(yōu)化算法劃分社區(qū)結(jié)構(gòu)的有效性。Khadivi等人認(rèn) 為采用鏈接加權(quán)的預(yù)處理機(jī)制和應(yīng)用多層次、多粒度的社區(qū)檢測算法,可緩解模塊度函數(shù) 的分辨率限制和極端退化問題。
【發(fā)明內(nèi)容】
[0008] 為了解決上述問題,本發(fā)明著重研究如何給復(fù)雜網(wǎng)絡(luò)的鏈接分配合適的權(quán)重,并 采用分層次的模塊度最優(yōu)化算法思想來獲得更有效、準(zhǔn)確的社區(qū)劃分結(jié)果。本發(fā)明綜合考 慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)以及節(jié)點(diǎn)之間關(guān)聯(lián)的親疏程度,提出了一種基于混合測度的加權(quán)網(wǎng)絡(luò)社 區(qū)結(jié)構(gòu)發(fā)現(xiàn)方法。針對(duì)模塊度最優(yōu)化帶來的分辨率限制問題和極端退化現(xiàn)象,通過在模塊 度定義中引入節(jié)點(diǎn)親密度和節(jié)點(diǎn)度兩個(gè)因子,增加社區(qū)劃分時(shí)可參考的節(jié)點(diǎn)關(guān)系信息,從 而提高社區(qū)劃分的質(zhì)量,降低超大社區(qū)的規(guī)模。
[0009] 本發(fā)明所采用的技術(shù)方案主要包括:通過定義節(jié)點(diǎn)親密度對(duì)有向/無向網(wǎng)絡(luò)的邊 進(jìn)行加權(quán)處理;提出一種基于節(jié)點(diǎn)親密度和度的模塊度新測度,使用分層次的檢測算法,對(duì) 有向/無向加權(quán)網(wǎng)絡(luò)進(jìn)行社區(qū)結(jié)構(gòu)發(fā)現(xiàn)。具體內(nèi)容如下:
[0010] 1.網(wǎng)絡(luò)初始化:將一個(gè)具體的網(wǎng)絡(luò)抽象表示為加權(quán)圖G(N,E,W),用鄰接矩陣Ay 表示網(wǎng)絡(luò)中節(jié)點(diǎn)間的連通關(guān)系,并計(jì)算有向/無向網(wǎng)絡(luò)中節(jié)點(diǎn)的度。
[0011] 2.在實(shí)際的社會(huì)網(wǎng)絡(luò)中,我們所獲得的原始數(shù)據(jù)是可以直接反映兩節(jié)點(diǎn)之間聯(lián)系 的頻繁程度。因此,我們提出節(jié)點(diǎn)親密度這個(gè)新的測量指標(biāo)來處理這些原始數(shù)據(jù)的加權(quán)操 作;同時(shí)給出其在有向/無向兩種不同網(wǎng)絡(luò)類型下的明確定義。
[0012] 3.基于模塊度最優(yōu)化的社區(qū)劃分算法傾向于將度較高的節(jié)點(diǎn)劃分到不同的社區(qū) 中。在設(shè)計(jì)社區(qū)劃分的節(jié)點(diǎn)聚類選擇判據(jù)時(shí),應(yīng)綜合考慮節(jié)點(diǎn)親密度和節(jié)點(diǎn)度兩個(gè)影響因 素。因此邊的權(quán)重取決于兩個(gè)因素,一個(gè)是節(jié)點(diǎn)之間聯(lián)系的親密度,另一個(gè)是兩個(gè)節(jié)點(diǎn)的度 值。
[0013] 4.在新的邊權(quán)重定義的基礎(chǔ)上,可以得到基于節(jié)點(diǎn)親密度和度的模塊度新定義。 使用這個(gè)新的混合模塊度測度,對(duì)有向/無向加權(quán)網(wǎng)絡(luò)進(jìn)行基于模塊度最優(yōu)化思想的社區(qū) 結(jié)構(gòu)檢測。該方法在社區(qū)劃分時(shí)能夠獲得較高的聚類質(zhì)量,并且能夠快速檢測到網(wǎng)絡(luò)中的 層次化社區(qū)結(jié)構(gòu)。
[0014] 5.基于混合模塊度的加權(quán)社會(huì)網(wǎng)絡(luò)分層次社區(qū)聚類算法主要分為兩個(gè)階段進(jìn)行 重復(fù)迭代。
[0015] 第一階段,在N個(gè)節(jié)點(diǎn)的無權(quán)網(wǎng)絡(luò)中,通過邊的加權(quán)處理得到每條邊的新權(quán)重值。 接下來,每個(gè)節(jié)點(diǎn)形成一個(gè)社區(qū),社區(qū)個(gè)數(shù)的初始值為N。然后,對(duì)于任意節(jié)點(diǎn)i,將節(jié)點(diǎn)i 加入到與它相鄰的每一個(gè)鄰居節(jié)點(diǎn)所在的社區(qū),并計(jì)算加入后的模塊度增量AQ。比較AQ 的值,選取AQ為最大值時(shí)對(duì)應(yīng)的那個(gè)鄰居節(jié)點(diǎn)j,將節(jié)點(diǎn)i加入到節(jié)點(diǎn)j所在的社區(qū),這里 要求AQ值必須為正。當(dāng)所有的模塊度增量AQ都為負(fù)值時(shí),節(jié)點(diǎn)i保持不動(dòng)仍然放置在 原始社區(qū)。這個(gè)合并社區(qū)的過程重復(fù)迭代,直到?jīng)]有節(jié)點(diǎn)的轉(zhuǎn)移能使模塊度值增加,這時(shí)得 到社區(qū)結(jié)構(gòu)的第一層次。
[0016] 第二階段,以第一個(gè)階段檢測出來的社區(qū)作為新的節(jié)點(diǎn),構(gòu)建一個(gè)新的網(wǎng)絡(luò),原社 區(qū)之間的邊權(quán)重值之和作為新節(jié)點(diǎn)之間的邊的權(quán)重值,原社區(qū)內(nèi)部邊的權(quán)重值之和作為新 節(jié)點(diǎn)的自循環(huán)邊的權(quán)重值;然后在新網(wǎng)絡(luò)中重復(fù)所述第一階段的算法進(jìn)行社區(qū)結(jié)構(gòu)的檢 測,得到社區(qū)結(jié)構(gòu)的第二層次;
[0017] 重復(fù)迭代執(zhí)行第一階段和第二階段,直到社區(qū)結(jié)構(gòu)不能再劃分出更高層次為止, 并得到模塊度的最大值。
[0018] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
[0019] 1.采用鏈接加權(quán)的預(yù)處理機(jī)制和應(yīng)用多層次、多粒度的社區(qū)檢測算法,緩解了模 塊度函數(shù)的分辨率限制和極端退化問題;
[0020] 2.通過在模塊度定義中引入節(jié)點(diǎn)親密度和節(jié)點(diǎn)度兩個(gè)因子,增加社區(qū)劃分時(shí)可參 考的節(jié)點(diǎn)關(guān)系信息,從而提高社區(qū)劃分的質(zhì)量,降低超大社區(qū)的規(guī)模;
[0021] 3.本發(fā)明不需要用戶預(yù)先指定社區(qū)個(gè)數(shù)、社區(qū)規(guī)模之類的參數(shù),避免了人為的不 恰當(dāng)干預(yù);
[0022] 4.本發(fā)明采用了局部優(yōu)化與多層次聚類的基本思想,在社團(tuán)劃分時(shí)能夠獲得較高 的聚類質(zhì)量,并且能夠快速檢測到網(wǎng)絡(luò)中的層次化社團(tuán)結(jié)構(gòu)。
【附圖說明】
[0023] 圖1為本發(fā)明的方法流程圖;
[0024] 圖2為在本發(fā)明上面進(jìn)行實(shí)驗(yàn)的真實(shí)數(shù)據(jù)集;
[0025] 圖3為在本發(fā)明上面進(jìn)