一種基于局部相似度的社區(qū)挖掘方法
【專利摘要】本發(fā)明公開(kāi)了一種基于局部相似度的社區(qū)挖掘方法,該方法通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)本身關(guān)系的緊密與否發(fā)現(xiàn)關(guān)系緊密的局部區(qū)域,將這些區(qū)域視為社區(qū)的雛形賦予標(biāo)簽,然后根據(jù)投票原則采用標(biāo)簽傳播的辦法再擴(kuò)展、調(diào)整這些區(qū)域形成社區(qū)。本發(fā)明不需要任何人工參數(shù),直接通過(guò)網(wǎng)絡(luò)本身結(jié)點(diǎn)聯(lián)系的緊密與否的結(jié)構(gòu)性質(zhì)得到社區(qū)結(jié)構(gòu)。
【專利說(shuō)明】一種基于局部相似度的社區(qū)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種社區(qū)挖掘方法,具體地說(shuō),具體涉及一種基于局部相似度的社區(qū)挖掘方法。
【背景技術(shù)】
[0002]社會(huì)網(wǎng)絡(luò)是由一些個(gè)人或組織以及它們之間的聯(lián)系所構(gòu)成的集合。20世紀(jì)90年代,隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,特別是近幾年SNS(socialnetworkingsystem)的涌現(xiàn),越來(lái)越多的個(gè)人用戶加入到由這些虛擬關(guān)系所構(gòu)建的網(wǎng)絡(luò)中,社會(huì)網(wǎng)絡(luò)的研究得到了逐步加強(qiáng)?,F(xiàn)今涌現(xiàn)出了大量的社會(huì)網(wǎng)絡(luò)平臺(tái),包括網(wǎng)絡(luò)論壇(如天涯社區(qū),CSDN,小蟲(chóng)網(wǎng)等),聊天室(如新浪聊天室),校園BBS系統(tǒng)(如水木清華,一塌糊涂等),社會(huì)關(guān)系網(wǎng)站(如Facebook等),博客(如Myspace,Twitter),即時(shí)通訊網(wǎng)絡(luò)(如MSN、QQ)等等,積累了海量的、不斷更新的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)。這些社會(huì)網(wǎng)絡(luò)是人們現(xiàn)實(shí)生活直接或間接的反應(yīng),并進(jìn)一步影響了人們的社會(huì)行為,例如網(wǎng)站中互相評(píng)論、標(biāo)記和連接日志的博友是現(xiàn)實(shí)生活中的好友,或者可能發(fā)展為現(xiàn)實(shí)生活中的好友,維基百科(Wikipedia)已經(jīng)成為互聯(lián)網(wǎng)上最大、最流行的參考書(shū),IMDB論壇上的影片評(píng)論成為觀眾購(gòu)票觀影的指南。
[0003]社區(qū)是復(fù)雜的社會(huì)網(wǎng)絡(luò)的基本特征之一。將社會(huì)網(wǎng)絡(luò)抽象成圖,將參與的對(duì)象表示成點(diǎn),對(duì)象之間的關(guān)系表示成線,則社區(qū)為一個(gè)子圖,該子圖內(nèi)部的關(guān)系比較緊密,子圖與子圖外部(其他子圖)之間的關(guān)系相對(duì)稀疏。物理類聚,人以群分,認(rèn)識(shí)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),有助于理解復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)中組織架構(gòu),進(jìn)而能夠理解對(duì)象之間關(guān)系的相互影響和組織功能。目前社區(qū)挖掘方法往往從某些角度定義一個(gè)描述社區(qū)優(yōu)劣的定量指標(biāo),然后利用貪心算法,將初始網(wǎng)絡(luò)看成一個(gè)社區(qū)不斷拆分或?qū)⒊跏季W(wǎng)絡(luò)中每個(gè)結(jié)點(diǎn)看成是一個(gè)社區(qū)不斷合并,最終使得這個(gè)指標(biāo)盡可能達(dá)到最優(yōu)。也有一些方法需要預(yù)定義參數(shù)(比如社區(qū)個(gè)數(shù)等閾值)和某種關(guān)系度量函數(shù)對(duì)網(wǎng)絡(luò)結(jié)點(diǎn)進(jìn)行分類得出社區(qū)結(jié)構(gòu)。總而言之,這些方法事實(shí)上限制了社區(qū)形成的過(guò)程、形狀和結(jié)構(gòu)。
【發(fā)明內(nèi)容】
[0004]為了克服現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明提供一種基于局部相似度的社區(qū)挖掘方法,該方法通過(guò)網(wǎng)絡(luò)結(jié)構(gòu)本身聯(lián)系的緊密與否發(fā)現(xiàn)關(guān)系緊密的局部區(qū)域,將這些局部區(qū)域視為社區(qū)的雛形賦予初始標(biāo)簽,然后根據(jù)投票原則采用標(biāo)簽傳播的辦法再擴(kuò)展、調(diào)整這個(gè)區(qū)域形成社區(qū)。不需要任何人工參數(shù),直接通過(guò)網(wǎng)絡(luò)本身結(jié)點(diǎn)聯(lián)系的緊密與否的結(jié)構(gòu)性質(zhì)得到社區(qū)結(jié)構(gòu)。
[0005]為了敘述方便,先對(duì)基本概念進(jìn)行形式化定義。設(shè)網(wǎng)絡(luò)G= (V,E),其中V =Iv1, V2,......VnI為結(jié)點(diǎn)集合,E= {θ!, e2,......ej為邊集,其中ei e VXV。Vi的鄰居記
η
SN(Vi)JPN(Vi) = IvjIwij > 0} ,Vi 的星型鄰域 St(Vi) = {vj UN(Vi)Q 記火(ν;) = Ση’"
7=1
表示結(jié)點(diǎn)Vi關(guān)聯(lián)的邊權(quán)值之和,定義為Vi的度。[0006]其技術(shù)方案如下:
[0007]—種基于局部相似度的社區(qū)挖掘方法,包括以下步驟:
[0008](I)根據(jù)網(wǎng)絡(luò)的鄰接矩陣計(jì)算各結(jié)點(diǎn)對(duì)的相似度。
[0009]那么結(jié)點(diǎn)對(duì)(Vi,Vj)的相似度計(jì)算公式如下:
【權(quán)利要求】
1.一種基于局部相似度的社區(qū)挖掘方法,其特征在于,包括以下步驟: (1)根據(jù)網(wǎng)絡(luò)的鄰接矩陣計(jì)算各結(jié)點(diǎn)對(duì)的相似度; (2)如果某結(jié)點(diǎn)對(duì)的相似度是其鄰接結(jié)點(diǎn)中相似度最大的,這找出這些結(jié)點(diǎn)對(duì)構(gòu)成緊密點(diǎn)對(duì); (3)若某些結(jié)點(diǎn)構(gòu)成的集合,其中的某個(gè)結(jié)點(diǎn)總有另外一個(gè)在集合中的結(jié)點(diǎn)與之構(gòu)成緊密點(diǎn)對(duì),并且任何一個(gè)在里面的結(jié)點(diǎn),與之構(gòu)成緊密點(diǎn)對(duì)的另外一個(gè)結(jié)點(diǎn)均不在集合之外,這些結(jié)點(diǎn)就構(gòu)成了緊密微社團(tuán);找出所有這些緊密微社團(tuán); (4)給所有的緊密微社團(tuán)賦予初始標(biāo)簽,同一個(gè)緊密微社團(tuán)中的結(jié)點(diǎn)初始標(biāo)簽相同,緊密微社團(tuán)之間的初始標(biāo)簽不同; (5)根據(jù)投票原則進(jìn)行標(biāo)簽傳播,直到任何結(jié)點(diǎn)的標(biāo)簽均不能更新; (6)得到了最終的社團(tuán)結(jié)構(gòu)。
2.根據(jù)權(quán)利要求1所述的基于局部相似度的社區(qū)挖掘方法,其特征在于: (1)相似度的計(jì)算方法 設(shè)網(wǎng)絡(luò) G = (V, E),其中 V = Iv1, V2,......vn}為結(jié)點(diǎn)集合,E = {e1; e2,......em}為邊集,其中ei e VXV ;Vi的鄰居記為N(Vi),即N(Vi) = IvjIwij > 0} ,Vi的星型鄰域St(Vi)={vj U N(Vi);記&(0 = 表示結(jié)點(diǎn)Vi關(guān)聯(lián)的邊權(quán)值之和,定義為Vi的度; 那么結(jié)點(diǎn)對(duì)(Vi, Vj)的相似度計(jì)算公式如下:
【文檔編號(hào)】G06F17/30GK103927371SQ201410167205
【公開(kāi)日】2014年7月16日 申請(qǐng)日期:2014年4月24日 優(yōu)先權(quán)日:2014年4月24日
【發(fā)明者】翁偉, 朱順痣, 曾志強(qiáng), 張念, 肖蕾, 馬櫻 申請(qǐng)人:廈門(mén)理工學(xué)院