專利名稱:綜合行動(dòng)者興趣與網(wǎng)絡(luò)拓?fù)涞纳鐓^(qū)發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種Web2.0下資源共享平臺(tái)中的社區(qū)挖掘,尤其是一種綜合行動(dòng)者 興趣與網(wǎng)絡(luò)拓?fù)涞纳鐓^(qū)發(fā)現(xiàn)方法,屬于社會(huì)網(wǎng)絡(luò)技術(shù)領(lǐng)域。
背景技術(shù):
社區(qū)廣泛存在于人類社會(huì)中,它們有多種多樣的結(jié)構(gòu)形式和組織形式,如家庭、同 事圈子、朋友圈子、小區(qū)、城市、甚至國(guó)家。一般來講,一個(gè)社區(qū)(或者稱作群組)是由一系 列節(jié)點(diǎn)組成,社區(qū)內(nèi)節(jié)點(diǎn)的相互聯(lián)系相對(duì)緊密,社區(qū)間節(jié)點(diǎn)聯(lián)系則相對(duì)稀松。近年來,隨著 Web2. 0技術(shù)的迅猛發(fā)展,Web上出現(xiàn)了各種虛擬群組、在線社區(qū)等應(yīng)用系統(tǒng)。在線社會(huì)網(wǎng)絡(luò) 系統(tǒng)的發(fā)展,使得大規(guī)模社會(huì)網(wǎng)絡(luò)數(shù)據(jù)的獲取成為了可能性。如何在大規(guī)模社會(huì)網(wǎng)絡(luò)中挖 掘出社區(qū)信息,成為了一個(gè)熱門的研究方向,吸引了眾多研究者的參與。社區(qū)的主要功能是為具有相同興趣的人們提供一個(gè)交流和共享的平臺(tái)。一般來 說,有兩類社區(qū)發(fā)現(xiàn)的方法,第一類方法基于行動(dòng)者的個(gè)人興趣,將社區(qū)發(fā)現(xiàn)的問題映射為 計(jì)算行動(dòng)者的興趣相似度的問題,進(jìn)而將興趣劃分到不同的群組,從而得到以興趣為中心 的社區(qū)結(jié)構(gòu)。例如,使用最廣泛的劃分聚類方法一一k-means聚類法。第二類方法直接基 于行動(dòng)者間的聯(lián)系,根據(jù)社區(qū)的定義,將社會(huì)網(wǎng)絡(luò)劃分為各個(gè)社區(qū),形成以行動(dòng)者為中心的 社區(qū)結(jié)構(gòu)。例如,Grivan和Newman提出了的分裂式社區(qū)發(fā)現(xiàn)算法,該算法通過依次移除邊 介(betweermess)數(shù)大的邊,發(fā)現(xiàn)圖中的社區(qū)結(jié)構(gòu)。不論是基于興趣的社區(qū)發(fā)現(xiàn)方法,還是 基于社會(huì)聯(lián)系的社區(qū)發(fā)現(xiàn)方法均只考慮了社區(qū)特性的一個(gè)方面。實(shí)際上,興趣和社會(huì)聯(lián)系 對(duì)于社區(qū)的共享和交流功能來說都具有重要的作用。例如,社區(qū)的兩個(gè)成員可能因?yàn)楣餐?興趣而成為朋友,成員也有可能推薦其有類似興趣的朋友加入社區(qū)。社區(qū)和行動(dòng)者社會(huì)網(wǎng) 絡(luò)是相互作用、共同發(fā)展的。
發(fā)明內(nèi)容
本發(fā)明的目的在于綜合社會(huì)行動(dòng)者興趣和社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),從而實(shí)現(xiàn)一種新的 社區(qū)發(fā)現(xiàn)方法,該方法比起傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法,更加接近于真實(shí)社區(qū)的發(fā)展過程。本發(fā)明提出的方法分為兩個(gè)部分第一部分,基于興趣的社區(qū)發(fā)現(xiàn)。首先利用聚類算法,提取行動(dòng)者興趣特征,聚類 成興趣社區(qū)。然后將根據(jù)行動(dòng)者-興趣關(guān)聯(lián)信息,將行動(dòng)者劃分到相應(yīng)的社區(qū)中,形成以興 趣為中心的社區(qū)C”第二部分,基于社會(huì)網(wǎng)絡(luò)的社區(qū)擴(kuò)展。首先利用行動(dòng)者社會(huì)網(wǎng)絡(luò)和行動(dòng)者的興趣, 計(jì)算社會(huì)網(wǎng)絡(luò)中邊的權(quán)值。然后在這個(gè)帶權(quán)社會(huì)網(wǎng)絡(luò)中,使用帶重啟機(jī)制的隨機(jī)游走算法, 計(jì)算行動(dòng)者之間的相關(guān)度。接著根據(jù)行動(dòng)者間相關(guān)度和方法第一部分發(fā)現(xiàn)的社區(qū),計(jì)算行 動(dòng)者到社區(qū)的相關(guān)度,從而將行動(dòng)者加入到相關(guān)度最高的k個(gè)社區(qū)中,形成第三種結(jié)構(gòu)的 社區(qū)Ciu。方法的流程如圖1所示,具體包括如下步驟
3
A.把用戶按照標(biāo)注過的資源表示成標(biāo)簽向量(即興趣向量)的形式;B.對(duì)上一步產(chǎn)生的向量進(jìn)行k-medoids聚類,產(chǎn)生基于興趣的用戶社區(qū);C.按照用戶之間建立的朋友關(guān)系,計(jì)算用戶社會(huì)網(wǎng)絡(luò)邊的權(quán)重,生成帶權(quán)社會(huì)網(wǎng) 絡(luò)圖;D.在社會(huì)網(wǎng)絡(luò)圖上用隨機(jī)游走算法,計(jì)算兩個(gè)用戶之間的相關(guān)度;E.根據(jù)用戶相關(guān)度和步驟B中產(chǎn)生的基于興趣的社區(qū),計(jì)算用戶與社區(qū)的相關(guān)度。本發(fā)明的有益效果本發(fā)明提出方法邏輯比起傳統(tǒng)的社區(qū)發(fā)現(xiàn)算法,更加接近于 真實(shí)社區(qū)的發(fā)展過程,在有效性上有較大的提高。本發(fā)明應(yīng)用于社會(huì)網(wǎng)絡(luò)、資源共享平臺(tái), 可以為信息檢索系統(tǒng)、個(gè)性化推薦系統(tǒng)等服務(wù),挖掘社區(qū)結(jié)構(gòu),利用社區(qū)特性,改進(jìn)個(gè)性化 服務(wù)質(zhì)量。
圖1為根據(jù)本發(fā)明的綜合行動(dòng)者興趣與網(wǎng)絡(luò)拓?fù)涞纳鐓^(qū)發(fā)現(xiàn)方法的總流程圖
圖2為以興趣為中心的社區(qū)結(jié)構(gòu);
圖3為以行動(dòng)者為中心的社區(qū)結(jié)構(gòu);
圖4為本發(fā)明提出的綜合社區(qū)結(jié)構(gòu);
圖5為擴(kuò)展社區(qū)_女k對(duì)純度的影響示意圖6為擴(kuò)展社區(qū)_女k對(duì)熵的影響示意圖7為隨機(jī)游走啟概率a對(duì)純度的影響示意圖8為隨機(jī)游走啟概率a對(duì)熵的影響示意圖。
具體實(shí)施例方式下面通過實(shí)例對(duì)本發(fā)明做進(jìn)一步說明。需要注意的是,公布實(shí)施例的目的在于幫 助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解在不脫離本發(fā)明及所附權(quán)利要求 的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實(shí)施例所公開的內(nèi) 容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。實(shí)例1以下結(jié)合一個(gè)照片共享網(wǎng)站的例子,詳細(xì)描述本發(fā)明的具體實(shí)施方式
。在一個(gè)照片共享平臺(tái)中,用戶能夠?qū)γ恳粡堈掌M(jìn)行標(biāo)簽、收藏等行為。同時(shí),用 戶之間形成社區(qū),用戶可以根據(jù)自身興趣參加到不同社區(qū)。用戶與用戶之間可以顯示申明 朋友關(guān)系。綜合行動(dòng)者興趣與網(wǎng)絡(luò)拓?fù)涞纳鐓^(qū)發(fā)現(xiàn)方法一共有以下幾個(gè)步驟。步驟1 對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,把用戶按照標(biāo)注過的資源表示成標(biāo)簽向量的形 式。步驟2 對(duì)上一步產(chǎn)生的向量進(jìn)行k-medoids聚類,產(chǎn)生基于興趣的用戶社區(qū)。 k-medoids聚類方法流程如下1)隨機(jī)挑選k個(gè)點(diǎn)作為質(zhì)心;2)對(duì)每個(gè)點(diǎn)計(jì)算該點(diǎn)到每個(gè)社區(qū)中心的距離,把該點(diǎn)加入與它距離最近的社區(qū);
4
3)重新計(jì)算每個(gè)社區(qū)的中心,中心向量定義為社區(qū)內(nèi)所有點(diǎn)的向量平均值;4)重新計(jì)算每個(gè)點(diǎn)到所屬中心的距離,選離中心最近的點(diǎn)作為社區(qū)中心;5)重復(fù)2)、3)、4)三個(gè)步驟,直到每個(gè)社區(qū)內(nèi)的點(diǎn)不再變化。步驟3 按照用戶之間建立的朋友關(guān)系,計(jì)算用戶社會(huì)網(wǎng)絡(luò)邊的權(quán)重,生成帶權(quán)社 會(huì)網(wǎng)絡(luò)圖。社會(huì)網(wǎng)絡(luò)中邊的權(quán)重代表了用戶之間熟悉程度。然而真實(shí)社會(huì)網(wǎng)絡(luò)權(quán)值信息往往 很難獲取,因此本發(fā)明考慮行動(dòng)者之間的顯式聯(lián)系和共同擁有的資源數(shù)作為量化社會(huì)網(wǎng)絡(luò) 權(quán)重的方法。只要社會(huì)行動(dòng)者之間聲明了社會(huì)聯(lián)系,那么這條邊的權(quán)值基數(shù)就為0. 5,使用 共同資源計(jì)算出的權(quán)重作為權(quán)重的另一部分,與權(quán)重基數(shù)疊加形成最終的權(quán)重,權(quán)重的具 體計(jì)算方法如下設(shè)行動(dòng)者Ui擁有的資源集合為Ri,行動(dòng)者~擁有的資源集合為、同時(shí)Ui到Uj存 在邊eij,那么邊 的權(quán)值Wij由公式⑴計(jì)算出 步驟4 在社會(huì)網(wǎng)絡(luò)圖上用隨機(jī)游走算法,計(jì)算兩個(gè)用戶之間的相關(guān)度。得到了帶權(quán)的社會(huì)網(wǎng)絡(luò),并將每個(gè)社會(huì)行動(dòng)者的關(guān)聯(lián)邊權(quán)重進(jìn)行歸一化后,可以 使用帶重啟機(jī)制的隨機(jī)游走算法,計(jì)算一個(gè)行動(dòng)者到其他所有行動(dòng)者的相關(guān)度。帶重啟機(jī)制的隨機(jī)游走(Random Walk with Restarts(RffR))可以用于計(jì)算圖中 任意兩點(diǎn)之間的相關(guān)度。從點(diǎn)u出發(fā),每一步RWR隨機(jī)地沿圖中的邊由一個(gè)結(jié)點(diǎn)到達(dá)另一 個(gè)結(jié)點(diǎn),同時(shí),每一步都以a的概率從點(diǎn)u重新出發(fā)(restart)。RWR的基本思想可以表示為p(t+1) = (l-a)Sp(t)+aq(2)ρω和q為列向量,其中Pi⑴表示第t步時(shí)到達(dá)點(diǎn)i的概率,Pi(°)表示從目標(biāo)行動(dòng) 者出發(fā)。q表示初始狀態(tài),元素Qi表示初始時(shí)在結(jié)點(diǎn)i的概率,本發(fā)明將起始點(diǎn)在q中的初 始概率設(shè)為1,其它點(diǎn)的概率設(shè)置為0。S是轉(zhuǎn)移概率矩陣,Su是當(dāng)前在點(diǎn)i,下一步達(dá)到結(jié) 點(diǎn)j的概率。對(duì)于一個(gè)非周期不可約的圖,在有限步迭代之后,到達(dá)圖中任意點(diǎn)的概率達(dá)到 平穩(wěn)分布的狀態(tài),再次迭代也不改變圖中的概率分布。對(duì)社會(huì)網(wǎng)絡(luò)中每一個(gè)結(jié)點(diǎn),從該結(jié)點(diǎn)出發(fā),進(jìn)行RWR計(jì)算,直至算法收斂,從而得 到了目標(biāo)結(jié)點(diǎn)到網(wǎng)絡(luò)中其它結(jié)點(diǎn)的相關(guān)度S。這里的結(jié)點(diǎn)間的相關(guān)度是有序的,即一般來
說,對(duì)于 U1 Φ U2,有 S (U1, U2) Φ S (U2, U1)。步驟5 根據(jù)用戶相關(guān)度和步驟2中產(chǎn)生的基于興趣的社區(qū),計(jì)算用戶與社區(qū)的相 關(guān)度。其中用戶社區(qū)的相關(guān)度定義為用戶與該社區(qū)所有成員相關(guān)度的平均值。對(duì)于一個(gè)用戶Ui,和一個(gè)社區(qū)Ck,用戶到社區(qū)的相關(guān)度s(Ui,Ck)由以下公式定義 對(duì)用戶Ui,根據(jù)公式(3),計(jì)算該用戶到所有社區(qū)的相關(guān)度;根據(jù)用戶與社區(qū)的相 關(guān)度,把用戶加入相關(guān)度最高的前k個(gè)社區(qū)。
性能評(píng)測(cè)本發(fā)明的實(shí)驗(yàn)以Flickr社會(huì)網(wǎng)絡(luò)數(shù)據(jù)集中真實(shí)社區(qū)集合為標(biāo)準(zhǔn)集,通過純度 (Purity)和熵(Entropy)兩種評(píng)價(jià)方法,將基于興趣聚類的社區(qū)發(fā)現(xiàn)方法和綜合方法得到 的社區(qū)集合與標(biāo)準(zhǔn)社區(qū)集進(jìn)行對(duì)比,從而評(píng)價(jià)算法的效果。1)純度(Purity)假設(shè)Flickr數(shù)據(jù)集中的真實(shí)社區(qū)集合為G = (G1, G2,... Gj,稱作標(biāo)準(zhǔn)社區(qū)集合。 算法生成的社區(qū)集合為C = {C” C2.... Ck},稱作測(cè)試社區(qū)集合,那么測(cè)試社區(qū)Ci的純度定 義為 由于每個(gè)算法生成的測(cè)試社區(qū)可能包含屬于不同標(biāo)準(zhǔn)社區(qū)的樣本,純度定義了測(cè) 試社區(qū)Ci與其主導(dǎo)的標(biāo)準(zhǔn)社區(qū)交集的樣本個(gè)數(shù)與Ci樣本數(shù)的比值。算法社區(qū)純度值越高, 說明這個(gè)測(cè)試社區(qū)作為主導(dǎo)標(biāo)準(zhǔn)社區(qū)的一個(gè)子集純度越高。根據(jù)測(cè)試社區(qū)的純度定義,我們還可以定義測(cè)試社區(qū)集合C的純度 測(cè)試社區(qū)集合的值純度越高,說明越接近標(biāo)準(zhǔn)社區(qū)集合,其對(duì)應(yīng)算法效果也就更 好。2)熵(Entropy)假設(shè)標(biāo)準(zhǔn)社區(qū)集合為G = {G1; G2, . . . GJ,測(cè)試社區(qū)集合為C = IC1, C2. . . . Cj,那
么測(cè)試社區(qū)Ci的熵定義為
公式中的熵值歸一化到0和1之間,0表示測(cè)試社區(qū)Ci由一個(gè)標(biāo)準(zhǔn)社區(qū)Gj完整的 包含了,1表示社區(qū)均勻地包括了所有的標(biāo)準(zhǔn)社區(qū),是一個(gè)很差的結(jié)果。熵不僅可以單獨(dú)評(píng) 價(jià)一個(gè)測(cè)試社區(qū),也可以利用測(cè)試社區(qū)大小進(jìn)行加權(quán)平均對(duì)整個(gè)社區(qū)發(fā)現(xiàn)算法結(jié)果進(jìn)行評(píng) 價(jià)。測(cè)試社區(qū)集合C的熵定義為 其中N為測(cè)試社區(qū)集合中的對(duì)象數(shù)(可重復(fù),即,一個(gè)行動(dòng)者可以屬于多個(gè)社區(qū), 他屬于多少個(gè)社區(qū)就被記數(shù)多少次)。熵值越小,說明社區(qū)發(fā)現(xiàn)算法的效果越好。本發(fā)明采用基于興趣的社區(qū)發(fā)現(xiàn)方法作為基線方法。對(duì)于基于興趣聚類的社區(qū)發(fā)現(xiàn),采用不添加社會(huì)網(wǎng)絡(luò)信息的興趣聚類方法,在 Flickr數(shù)據(jù)集上得到了 20個(gè)社區(qū),社區(qū)集合記為C”在基于行動(dòng)者興趣聚類發(fā)現(xiàn)的社區(qū)集合的基礎(chǔ)上,本發(fā)明利用Flickr社會(huì)網(wǎng)絡(luò) 拓?fù)浣Y(jié)構(gòu),對(duì)社區(qū)進(jìn)行了擴(kuò)展。由于Flickr數(shù)據(jù)集上共同收藏的圖片數(shù)比較少,使用共同 收藏圖片計(jì)算出的權(quán)值極小,對(duì)總權(quán)值影響不大,所以Flickr數(shù)據(jù)集上只使用共同tag的 權(quán)值計(jì)算方法,最終得到的結(jié)果社區(qū)集合記為Gh。在綜合方法的社區(qū)擴(kuò)展過程中,算法將用戶劃入最相關(guān)的前k個(gè)社區(qū)。k的取值會(huì) 對(duì)社區(qū)發(fā)現(xiàn)的結(jié)果產(chǎn)生影響。同樣,和不同的重啟機(jī)制隨機(jī)游走重啟概率參數(shù)a也會(huì)對(duì)算
6法結(jié)果產(chǎn)生影響。本發(fā)明分別取k= 1,2,3,4,5和& = 0.2,0.4,0.5,0.6,0.8對(duì)綜合方法 進(jìn)行實(shí)驗(yàn),以確定參數(shù)k和a對(duì)算法的影響。從表1中可以看出,綜合方法普遍比興趣聚類方法發(fā)現(xiàn)的社區(qū)效果更好。在綜合 方法中,當(dāng)設(shè)置k = 3,a = 0. 2時(shí),發(fā)現(xiàn)的社區(qū)純度最高(比興趣聚類的純度提高了 57% ), 而熵值最小(比興趣聚類的熵降低了 11. 8%,比最大團(tuán)聚性的熵降低了 4% ),所以效果最 好。表1實(shí)驗(yàn)結(jié)果
固定隨機(jī)游走重啟概率a,設(shè)置不同的k值,可以觀察k值變化對(duì)算法效果產(chǎn)生的 影響。圖5和圖6分別展示了取不同的a值,純度和熵隨k值的變化的曲線。由圖5知,隨著k的增大,純度基本上呈先增長(zhǎng)再降低的趨勢(shì)。由圖6知,特別是 取k > 3后,熵呈隨k增大而增大的趨勢(shì)。這說明k取較小的值,即將行動(dòng)者根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),劃入最相關(guān)的一個(gè)社區(qū)更加接近真實(shí)情況。固定隨機(jī)游走相關(guān)社區(qū)擴(kuò)展數(shù)k,設(shè)置不同的隨機(jī)游走重啟概率a值,可以觀察a 值變化對(duì)算法效果產(chǎn)生的影響。圖7和圖8分別展示了取不同的k值,純度和熵隨a值的 變化的曲線。由圖7和圖8知,隨著a的增大,除去少量的特殊點(diǎn)(如圖8中k = 2,a = 0. 5), 純度基本上呈下降趨勢(shì),而熵則呈上升趨勢(shì)。也就是說a越大,綜合算法效果越差。這說明 頻繁重啟隨機(jī)游走,行動(dòng)者鄰居獲得更大的相關(guān)性在綜合方法中效果不明顯,反而使用普 通的隨機(jī)游走策略,得到與初始結(jié)點(diǎn)無關(guān)的平穩(wěn)分布,更有利于提高社區(qū)發(fā)現(xiàn)的效果??梢钥闯觯岢龅姆椒ù_實(shí)比單純基于興趣聚類的方法和基于社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu) 的方法在有效性上有較大的提高。
9
權(quán)利要求
一種Web社區(qū)發(fā)現(xiàn)方法,應(yīng)用于社會(huì)網(wǎng)絡(luò)和資源共享平臺(tái),其特征在于,所述方法綜合了社會(huì)行動(dòng)者興趣和社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),包括以下步驟A.把用戶按照標(biāo)注過的資源表示成標(biāo)簽向量的形式;B.對(duì)上一步產(chǎn)生的向量進(jìn)行k medoids聚類,產(chǎn)生基于興趣的用戶社區(qū);C.按照用戶之間建立的朋友關(guān)系,計(jì)算用戶社會(huì)網(wǎng)絡(luò)邊的權(quán)重,生成帶權(quán)社會(huì)網(wǎng)絡(luò)圖;D.在社會(huì)網(wǎng)絡(luò)圖上用隨機(jī)游走算法,計(jì)算兩個(gè)用戶之間的相關(guān)度;E.根據(jù)用戶相關(guān)度和步驟B中產(chǎn)生的基于興趣的社區(qū),計(jì)算用戶與社區(qū)的相關(guān)度。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟B中的k-medoids聚類方法流程如下1)隨機(jī)挑選k個(gè)點(diǎn)作為質(zhì)心;2)對(duì)每個(gè)點(diǎn)計(jì)算該點(diǎn)到每個(gè)社區(qū)中心的距離,把該點(diǎn)加入與它距離最近的社區(qū);3)重新計(jì)算每個(gè)社區(qū)的中心,中心向量定義為社區(qū)內(nèi)所有點(diǎn)的向量平均值;4)重新計(jì)算每個(gè)點(diǎn)到所屬中心的距離,選離中心最近的點(diǎn)作為社區(qū)中心;5)重復(fù)2)、3)、4)三個(gè)步驟,直到每個(gè)社區(qū)內(nèi)的點(diǎn)不再變化。
3.如權(quán)利要求2所述的方法,其特征在于,所述步驟C中計(jì)算用戶社會(huì)網(wǎng)絡(luò)邊的權(quán)重的 方法如下設(shè)行動(dòng)者Ui擁有的資源集合為Ri,行動(dòng)者~擁有的資源集合為&,同時(shí)Ui到~存在邊 eij,那么邊的權(quán)值為Wii =0.5 + -^——^”2 I R1 IO
4.如權(quán)利要求3所述的方法,其特征在于,所述步驟D中的隨機(jī)游走算法采用公式p(t+1) =(l-a)Sp(t)+aq,其中ρω和q為列向量,Pi(t)表示第t步時(shí)到達(dá)點(diǎn)i的概率,Pi(°)表示從 目標(biāo)行動(dòng)者出發(fā),q表示初始狀態(tài),元素Qi表示初始時(shí)在結(jié)點(diǎn)i的概率,S是轉(zhuǎn)移概率矩陣, Sij是當(dāng)前在點(diǎn)i,下一步達(dá)到結(jié)點(diǎn)j的概率;起始點(diǎn)在q中的初始概率設(shè)為1,其它點(diǎn)的概 率設(shè)置為0。
5.如權(quán)利要求4所述的方法,其特征在于,所述步驟D的實(shí)現(xiàn)方法為對(duì)社會(huì)網(wǎng)絡(luò)中每一個(gè)結(jié)點(diǎn),從該結(jié)點(diǎn)出發(fā),使用帶重啟機(jī)制的隨機(jī)游走算法進(jìn)行計(jì)算, 直至算法收斂,從而得到目標(biāo)結(jié)點(diǎn)到網(wǎng)絡(luò)中其它結(jié)點(diǎn)的相關(guān)度。
6.如權(quán)利要求5所述的方法,其特征在于,所述步驟E中計(jì)算用戶與社區(qū)相關(guān)度的方法為對(duì)于一個(gè)用戶Ui,和一個(gè)社區(qū)Ck,用戶到社區(qū)的相關(guān)度按如下公式計(jì)算Σ s(uhitj)s(u,,Ck) = "jeCk —— \Ck\
全文摘要
本發(fā)明提出了一種綜合社會(huì)行動(dòng)者興趣和社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的社區(qū)發(fā)現(xiàn)方法,屬于社會(huì)網(wǎng)絡(luò)技術(shù)領(lǐng)域。對(duì)于一個(gè)包含了社會(huì)行動(dòng)者興趣信息的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)集,首先對(duì)行動(dòng)者個(gè)人興趣進(jìn)行聚類,得到基于興趣的行動(dòng)者社區(qū),然后使用行動(dòng)者社會(huì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息,對(duì)興趣社區(qū)進(jìn)行擴(kuò)展,使之更符合社區(qū)形成和發(fā)展的規(guī)律,從而達(dá)到更好的社區(qū)發(fā)現(xiàn)效果。本發(fā)明文提出的方法比單純基于興趣聚類的方法在有效性上有較大的提高。本發(fā)明應(yīng)用于社會(huì)網(wǎng)絡(luò)、資源共享平臺(tái),可以為信息檢索系統(tǒng)、個(gè)性化推薦系統(tǒng)等服務(wù),挖掘社區(qū)結(jié)構(gòu),利用社區(qū)特性,改進(jìn)個(gè)性化服務(wù)質(zhì)量。
文檔編號(hào)G06F17/30GK101916256SQ201010225110
公開日2010年12月15日 申請(qǐng)日期2010年7月13日 優(yōu)先權(quán)日2010年7月13日
發(fā)明者張銘, 燕飛, 譚裕韋 申請(qǐng)人:北京大學(xué)