專利名稱:一種基于全局劃分和局部擴展的網絡重疊社團檢測方法
技術領域:
本發(fā)明屬Web和數據庫技術領域,具體涉及一種基于全局劃分和局部擴展的網絡重 疊社團結構檢測方法。
背景技術:
許多網絡系統(tǒng)都表現了社團結構的特征,如社會網絡和生物群落等,簡要地說,社 團是整個網絡中那些聯(lián)系相對緊密的結點的集合。近年來,社團結構識別技術引起了物 理、應用數學和計算機科學等領域的廣泛關注。
已經提出的方法大都關注地是網絡的劃分,應用最小割邊劃分原則把網絡結構劃分 成幾個不相交的子網絡。許多方法的檢測規(guī)則是網絡中的每個結點最多只能劃分到一個 社團,基于這樣的規(guī)則,就無法找到有重疊結點的社團。這樣的劃分有時是不合理的, 因為在現實生活中的很多情況下重疊結點是很有必要的,比如在社會網絡中, 一個人因 為代表不同的利益因而可以在不同的社團中充當不同的角色,如果我們要對社會網絡進 行劃分,這個人在不同的社團中都應該存在。所以針對這種情形,應該提出新的方法來 進行社團發(fā)現。
發(fā)明內容
本發(fā)明的目的在于提出了一種基于全局劃分和局部擴展的網絡重疊社團結構檢測 方法,該方法引入了用種子結點來發(fā)現社團且允許不同的社團內有重復的結點。
一種基于全局劃分和局部擴展的網絡重疊社團檢測方法DOCS,它是這樣實現的
該方法引入了用種子結點來發(fā)現社團且允許不同的社團內有重復的結點, 具體步驟為-
第一步,我們應用譜劃分方法生成種子集合,并用這些種子來產生重疊社團結構,
這個經典方法從網路結構的全局角度和社團結構的全局屬性來產生最優(yōu)種子;
第二步,根據產生的種子,從局部最優(yōu)角度對社團進行擴展。我們利用模塊函數Q 來衡量社團每一步要擴展的結點,對每一個掃描到的結點,我們計算此結點加入后對模
塊Q的貢獻和模塊間的重疊率,比較這兩個衡量標準,我們給出一個定理來決定要加入
和刪除的結點;
第三步是社團擴展終止條件。當掃描的結點的規(guī)范化概率低于特定閾值時或社團間 的重疊率超過用戶的容許值時算法停止。
本發(fā)明利用全局信息來尋找種子結點,并從局部最優(yōu)角度用隨機行進方法來進行社 團擴展,在隨機行進中我們并不考慮當前要擴展的結點是否已經屬于其它社團,所以我 們得到的不同社團中允許有重復的結點,這樣就可以預防重要信息的丟失。
圖l為描述一個新的結點被加入到候選社團的過程。
具體實施例方式
1.與本發(fā)明有關的一些概念和定義。1網絡模型
本發(fā)明中,網絡可以建模成圖G-(V,E),其中V是圖中結點集合,E是圖中邊的集合。 我們用^-(4)^來表示網絡關聯(lián)矩陣,其中
_ Jl如果i和j之間有邊相連, ^'7 = i 0其它情況
我們用D^D》,來表示對角矩陣,其中Dy =ZA4t,如果卜y,其它情況下
矩陣A和D是基礎矩陣,其它矩陣如拉普拉斯矩陣L和轉換矩陣P都可由這兩個矩陣得到, 其中1 = 1)-AP = D-1爿。
2邊緣邊(割)
一個社團S的邊緣邊B(S)是這樣的邊,其中邊的一個端點在S中,另一個端點在其它 社團中,形式化定義如下-
B (S) = {{w,v} I {w,v} e £,w e S,v g 5},
且| I表示社團S的割的大小。3模塊度
如果網絡被劃分成/^,其中k是劃分的社團的個數,則模塊度函數Q形式化定義如下 ,=f『 )_ ,
其中J(F',K") = Z^,v,w(M,v), w(w,v)是連接結點u, v的邊的權重。定義中
j<y f) 爿(y n
、""測量邊在同一個社團C的概率,"^^測量一個點至少在社團C中的邊的概率。
4社團重疊率-
給定網絡中的一個社團集合(C,,…,,這個集合與社團C,有重疊,則社團C, 的社團重疊率形式化定義如下
IC,I
其中CQ/ 是社團重疊率(Community Overlapping Rate)的縮寫,| C, |表示社團C,中邊 的個數,I C,. I表示社團C,.和社團中相同的邊的個數。
針對本發(fā)明具體內容的說明
1檢測重疊社團結構的算法DOCS(Detecting Overlapping Community Structures):
DOCS算法基于全局信息對社團進行劃分并利用局部策略對社團進行擴展,算法分為 三步。第一步,我們應用圖的譜劃分方法生成種子集合,并用這些種子來產生重疊社團 結構的基礎。第二步,根據產生的種子,從局部最優(yōu)角度對社團進行擴展。我們利用模 塊度函數Q來衡量社團每一步要擴展的結點。對每一個掃描到的結點,我們計算此結點 加入后對模塊Q的貢獻值和模塊間的重疊率,比較這兩個衡量標準,我們給出一個定理 來決定要加入和刪除的結點。第三步是社團擴展終止條件。當掃描的結點的概率低于特 定閾值時或社團間的重疊率超過用戶的容許值時算法就停止。DOCS算法利用全局劃分的 結果集作為產生社團結構的種子,大大減少了社團向關聯(lián)不緊密結點擴展的概率,使我 們能有效的發(fā)現重疊社團結構。當產生的社團中的總邊數小于3時,我們去除這個種子, 因為這樣的社團種子無法顯示目標社團的整體結構。2DOCS算法社團擴展過程
根據產生的種子結點,我們利用懶散的隨機行走技術來進行社團擴展。擴展過程用 時間t來度量。在每一步,我們對掃描到的結點按其規(guī)范化的概率降序排列,如果加入
此結點能對候選社團的模塊函數Q帶來好的變化,則把此結點加入社團。圖l給出了一個 新的結點被加入到候選社團的過程。
連接種子內部結點的邊成為內部種子連接,這些邊的個數記為IILI,種子團連向外 部的邊稱為外部種子連接,這些邊的個數記為IOLl。當要決定是否在社團中加入某結點 時,這兩種邊影響模塊函數Q的值。我們利用模塊函數公式來計算模塊度Q的值和相應的 變化。
初始種子記為S,種子大小為ISl,割的大小為IB(S)I,則初始模塊度Q的值為-
<formula>complex formula see original document page 6</formula>
當加入一個新的鄰居結點后,模塊度為-
l五l l五l
則模塊度Q的改變值為
<formula>complex formula see original document page 6</formula>
如果此改變值大于O,則此結點為由貢獻結點,否則此結點為無貢獻結點。局部最優(yōu)擴 展過程要選擇有貢獻的結點加入到社團中。當社團擴展到一定步數就到了隨機行走的收 斂時間。如果此時圖是連通的,擇結點度的概率收斂成統(tǒng)一靜態(tài)分布甲,,且結點度和甲, 的差值我們可以通過計算得到,通過這個差值,我們可以停止社團擴展過程并且可以安 全去除一些具有低概率的結點。
以上是對本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實施方式, 均在本發(fā)明的保護范圍之中。
權利要求
1、一種基于全局劃分和局部擴展的網絡重疊社團檢測方法DOCS,該方法引入了用種子結點來發(fā)現社團且允許不同的社團內有重復的結點,具體步驟為第一步,我們應用譜劃分方法生成種子集合,并用這些種子來產生重疊社團結構,這個經典方法從網路結構的全局角度和社團結構的全局屬性來產生最優(yōu)種子;第二步,根據產生的種子,從局部最優(yōu)角度對社團進行擴展。我們利用模塊函數Q來衡量社團每一步要擴展的結點,對每一個掃描到的結點,我們計算此結點加入后對模塊Q的貢獻和模塊間的重疊率,比較這兩個衡量標準,我們給出一個定理來決定要加入和刪除的結點;第三步是社團擴展終止條件。當掃描的結點的規(guī)范化概率低于特定閾值時或社團間的重疊率超過用戶的容許值時算法停止。
2、 根據權利要求1所述的D0CS算法,其特征在于利用全局信息來尋找 種子結點,并從局部最優(yōu)角度用隨機行走方法來進行社團擴展,在隨機行進中我 們并不考慮當前要擴展的結點是否已經屬于其它社團,所以我們得到的不同社團 中允許有重復的結點,這樣就可以預防重要結構信息的丟失,利用全局劃分結果集作為產生社團結構的種子,大大減少了社團向關聯(lián)不緊 密結點擴展的概率,使我們能有效的發(fā)現重疊社團結構,當產生的社團中的總邊數小于3時,我們去除這個種子,因為這樣的社團無 法顯示目標社團的整體結構。
3、根據權利要求1所述的DOCS算法,其特征在于利用懶散隨機行走 技術來進行社團擴展,擴展過程用時間t來衡量,在每一步,我們對掃描到的結點按其規(guī)范化的概率降序排列,如果加入此 結點能對候選社團的模塊函數Q帶來好的變化,則把此結點加入社團,局部最優(yōu)擴展過程選擇有貢獻的結點加入到社團中,當社團擴展到一定步 數就到了隨機行走的收斂時間。如果此時圖是連通的,擇結點度的概率收斂成統(tǒng) 一靜態(tài)分布甲,,且結點度和甲,的差值我們可以通過計算得到,通過這個差值, 我們可以停止社團擴展過程并且可以安全刪除一些具有低概率的結點。
全文摘要
本發(fā)明提出了一種基于全局劃分和局部擴展的網絡重疊社團結構檢測方法,具體屬Web和數據庫技術領域。該方法引入了用種子結點來發(fā)現社團且允許不同的社團內有重復的結點,并利用全局信息來尋找種子結點,并從局部最優(yōu)角度用隨機行進方法來進行社團擴展。在隨機行進中并不考慮當前要擴展的結點是否已經屬于其它社團,得到的不同社團允許有重復的結點,有效預防了重要信息的丟失。
文檔編號G06Q10/00GK101344940SQ200810041958
公開日2009年1月14日 申請日期2008年8月21日 優(yōu)先權日2008年8月21日
發(fā)明者芳 魏 申請人:芳 魏