本發(fā)明屬于社會(huì)網(wǎng)絡(luò)科學(xué)領(lǐng)域,特別是一種基于抽樣的線性閾值模型下的影響力最大化方法。
背景技術(shù):
個(gè)體與個(gè)體、群體與個(gè)體之間存在著相互影響的關(guān)系,例如個(gè)體依賴于群體的行為有利于獵食或者減少被捕獲的可能。人類作為具有復(fù)雜交流手段的高級(jí)社會(huì)性動(dòng)物,社會(huì)影響力在社會(huì)生活中更是無(wú)處不在。小到聽(tīng)歌大到政治觀點(diǎn),我們的決定深刻的受著朋友、親人的影響。深入的認(rèn)識(shí)影響力的產(chǎn)生和傳播模式有助于了解人類的個(gè)體和群體的行為,進(jìn)而可以預(yù)期人們的行為,為政府、機(jī)構(gòu)、企業(yè)等部門提供可靠地依據(jù)。
在計(jì)算機(jī)科學(xué)領(lǐng)域,基于互聯(lián)網(wǎng)和大數(shù)據(jù)的影響力傳播研究也從21世紀(jì)開(kāi)始興起。影響力傳播的研究主要有三大支柱:第一是影響力傳播的模型,主要描述影響力在社交網(wǎng)絡(luò)中如何傳播、有何特點(diǎn)和性質(zhì);第二是影響力傳播的學(xué)習(xí),即如何利用網(wǎng)絡(luò)大數(shù)據(jù)挖掘?qū)W習(xí)影響力傳播模式和具體傳播模型的參數(shù);第三是影響力傳播優(yōu)化,著重于考慮在不同的傳播模型下,如何通過(guò)施加外部作用(比如選取有影響力的初始傳播用戶和改變傳播途徑等)來(lái)擴(kuò)大希望傳播的影響力或者控制和減弱不希望傳播的影響力,也包括有效的監(jiān)控影響力的傳播等。
在傳統(tǒng)的線性閾值模型中,每條有向邊(u,v)∈e上都有一個(gè)權(quán)重w(u,v)∈[0,1]。直觀上來(lái)說(shuō),w(u,v)反映了節(jié)點(diǎn)u在節(jié)點(diǎn)v的所有鄰居中影響力的重要性占比。要求
kemped等人在kemped,kleinbergj,
影響力最大化問(wèn)題實(shí)際上是在給定節(jié)點(diǎn)個(gè)數(shù)的情況下,在網(wǎng)絡(luò)中選擇種子節(jié)點(diǎn),使得最終被激活的節(jié)點(diǎn)數(shù)量最大化。kemped證明了這一個(gè)問(wèn)題是一個(gè)np-hard,所以現(xiàn)有的方法大多是基于貪心算法及其改進(jìn)后的一些算法,貪心算法的時(shí)空復(fù)雜性很高,并且只能是對(duì)最優(yōu)解的一種逼近。在大規(guī)模網(wǎng)絡(luò)(超過(guò)500k條邊)中使用貪心算法帶來(lái)的開(kāi)銷是難以忍受的。而且選擇不同的種子節(jié)點(diǎn)的個(gè)數(shù)的種子集合時(shí),都需要重新計(jì)算,在線社交網(wǎng)絡(luò)分析中顯示出較大的弊端。
chernoff界是一種常用的抽樣方法,其依據(jù)于置信度、誤差和樣本期望就可以得出需要抽樣的樣本大小,抽樣后的樣本在置信度下對(duì)全部樣本具有充分的代表性;得到有向圖中路徑的準(zhǔn)確的數(shù)學(xué)期望,一般使用隨機(jī)游走的方法,方法精度不是太好。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所解決的技術(shù)問(wèn)題在于提供一種基于抽樣的線性閾值模型下的影響力最大化方法,提出了節(jié)點(diǎn)影響力指標(biāo)pr(u),在面對(duì)不同大小的種子集合時(shí)可以一次計(jì)算,多次選取;本發(fā)明采用于基于抽樣的方法,克服了傳統(tǒng)線性閾值算法在進(jìn)行多次計(jì)算種子集合時(shí)面臨的時(shí)間復(fù)雜度高、空間復(fù)雜度高等問(wèn)題。
本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn):
(1)該方法不僅能對(duì)最終影響力做出預(yù)測(cè),而且通過(guò)計(jì)算節(jié)點(diǎn)的影響力指標(biāo)可以實(shí)現(xiàn)一次計(jì)算,多次選取種子集合,因此本發(fā)明的方法計(jì)算速度較快,顯著提高了可重用性。
(2)該方法在初期不需要固定種子節(jié)點(diǎn)的數(shù)量,具有較高的靈活性能。
(3)本發(fā)明的計(jì)算開(kāi)銷及存儲(chǔ)開(kāi)銷和傳統(tǒng)的線性閾值算法相當(dāng),但是卻可以取得更高質(zhì)量的預(yù)測(cè)結(jié)果。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:
一種基于抽樣的線性閾值模型下的影響力最大化方法,包括以下步驟:
步驟1、根據(jù)有向圖中一個(gè)節(jié)點(diǎn)對(duì)另一個(gè)節(jié)點(diǎn)的影響力,計(jì)算出有向圖g的所有可能世界g′的集合w(g);
步驟2、計(jì)算得到路徑的激活概率:包括路徑存在的概率i(s,v,g′)、可能世界的概率pr(g′);
步驟3、使用chernoff界和設(shè)定的參數(shù)(數(shù)學(xué)期望μ、誤差ε、置信度δ)得到抽樣后樣本個(gè)數(shù)r;依據(jù)抽樣后的樣本個(gè)數(shù)r在可能世界集合w(g)中選取無(wú)偏抽樣集合u(g′);
步驟4、計(jì)算有向圖g中每一個(gè)節(jié)點(diǎn)v在無(wú)偏抽樣集合u(g′)中的每一個(gè)可能世界下的種子集合s影響力大小函數(shù)σ(s);
步驟5、計(jì)算每一個(gè)節(jié)點(diǎn)u的影響力指標(biāo)pr(u)和最終的影響力大小函數(shù)σ(s),依據(jù)種子集合的個(gè)數(shù)確定種子集合s。
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)描述。
附圖說(shuō)明
圖1為本發(fā)明的流程示意圖。
具體實(shí)施方式
結(jié)合圖1,本發(fā)明的一種基于抽樣的線性閾值模型下的影響力最大化方法,包括以下步驟:
步驟1、根據(jù)有向圖中一個(gè)節(jié)點(diǎn)對(duì)另一個(gè)節(jié)點(diǎn)的影響力(在邊上),計(jì)算出有向圖g的所有可能世界g′的集合w(g),
有向圖中節(jié)點(diǎn)u對(duì)節(jié)點(diǎn)v的影響力存儲(chǔ)在邊(u,v)上的值介于0和1之間,數(shù)值越大則說(shuō)明節(jié)點(diǎn)間的影響力越大,節(jié)點(diǎn)v越容易被節(jié)點(diǎn)u所影響。其中(u,v)被作為u和v之間的有向邊存在的概率,采用monto-carlo方法進(jìn)行多次模擬可以得到所有可能世界的集合w(g);
步驟2、計(jì)算得到路徑的激活概率:包括路徑存在的概率i(s,v,g′)、可能世界的概率pr(g′):
2.1、計(jì)算路徑存在的概率i(s,v,g′):
對(duì)于由種子集合s出發(fā)得到的所有路徑計(jì)算得出∑v∈vi(s,v,g′),從種子集合s中出發(fā)在可能世界g′上進(jìn)行游走最終可達(dá)到節(jié)點(diǎn)v,i(s,v,g′)則記為1,具體的計(jì)算如下:
其中v是有向圖中的單個(gè)節(jié)點(diǎn),v是有向圖g節(jié)點(diǎn)的集合;
2.2、計(jì)算可能世界存在的概率pr(g′):
由于一個(gè)可能世界g′是對(duì)邊的抽樣得到的,那么可能世界g′存在的概率可以依據(jù)在有向圖g中每一條邊存在或者不存在的概率來(lái)得到,即
∏e∈e′p(e)∏e∈e-e′[1-p(e)]計(jì)算得到pr(g′),
其中,e是有向圖g中所有的邊,e′是在可能世界g′中存在的邊,p(e)是邊e存在的概率;
步驟3、使用chernoff界和設(shè)定的參數(shù)(數(shù)學(xué)期望μ、誤差ε、置信度δ)得到抽樣后樣本個(gè)數(shù)r;依據(jù)抽樣后的樣本個(gè)數(shù)r在可能世界集合w(g)中選取無(wú)偏抽樣集合u(g′);
3.1使用chernoff界和設(shè)定的參數(shù)(數(shù)學(xué)期望μ、誤差ε、置信度δ)得到抽樣后樣本的個(gè)數(shù)r:
定義g′i是抽樣后可能世界集合u(g′)的第i個(gè)具體的可能世界。
定義i1,i2,i3,……ir為可能世界g′1,g′2,g′3,……g′r的變量i(s,v,g′),且數(shù)學(xué)期望μ=e[g′i],其中ii(i∈[1,r])為g′i的變量i(s,v,g′)的值,g′i為抽樣后第i個(gè)可能世界。
運(yùn)用chernoff界抽樣,設(shè)|u(g′)|=r為抽樣樣本的個(gè)數(shù),μ是g′i的數(shù)學(xué)期望,δ為置信度,ε為誤差,如果
則
對(duì)于給定的概率δ,如果取
在路徑抽樣中,由于相連邊的概率的連乘使得連續(xù)邊的概率很小,因此路路徑存在時(shí)路徑長(zhǎng)度不會(huì)太長(zhǎng),設(shè)定ρ為在路徑抽樣長(zhǎng)度,在路徑抽樣中路徑長(zhǎng)度小于ρ的路徑忽略不計(jì),這樣便省去了估計(jì)數(shù)學(xué)期望μ,得到
在實(shí)際應(yīng)用中,參數(shù)ρ可以依據(jù)圖中邊的傳播概率的大小,多次選取,逐步調(diào)優(yōu)。
3.2:依據(jù)抽樣樣本個(gè)數(shù)r在可能世界集合w(g)中選取無(wú)偏抽樣集合u(g′)
依據(jù)抽樣樣本個(gè)數(shù)r,在可能世界集合w(g)中進(jìn)行隨機(jī)選取r個(gè)可能世界g′,得到無(wú)偏抽樣集合u(g′)。
步驟4、計(jì)算有向圖g中每一個(gè)節(jié)點(diǎn)v在無(wú)偏抽樣集合u(g′)中的每一個(gè)可能世界下的種子集合s影響力大小函數(shù)σ(s);
依據(jù)于lt模型等價(jià)于一個(gè)‘live-edge’模型,只需要計(jì)算通過(guò)由種子集合s可達(dá)的節(jié)點(diǎn)的路徑數(shù)量就可以進(jìn)行計(jì)算影響力大小函數(shù)σ(s);
將影響力大小函數(shù)寫成:
其中,pr(u,v)表示節(jié)點(diǎn)u到節(jié)點(diǎn)v在可能世界g′下存在路徑的概率,也代表了節(jié)點(diǎn)被節(jié)點(diǎn)u影響的概率。
步驟5、計(jì)算每一個(gè)節(jié)點(diǎn)u的影響力指標(biāo)pr(u)和最終的影響力大小函數(shù)σ(s),依據(jù)種子集合的個(gè)數(shù)確定種子集合s;
5.1計(jì)算每一個(gè)節(jié)點(diǎn)的影響力指標(biāo)pr(u)和最終的影響力大小函數(shù)σ(s):
對(duì)步驟4中的pr(u,v)進(jìn)行累加得到節(jié)點(diǎn)u的影響力指標(biāo):
pr(u)=∑v∈v-upr(u,v)
則最終的影響力大小函數(shù)可以改寫為σ(s)=∑u∈spr(u)。
5.2依據(jù)種子集合的個(gè)數(shù)確定種子集合s:
對(duì)種子集合s的最終擴(kuò)散的影響力的衡量就可以通過(guò)每一個(gè)節(jié)點(diǎn)的影響力指標(biāo)pr(u)的大小可以直觀上的反應(yīng),要寫選取最終影響力大的種子節(jié)點(diǎn)必然是那些影響力指標(biāo)較大的節(jié)點(diǎn),對(duì)影響力指標(biāo)pr(u)從大到小進(jìn)行排序后,根據(jù)種子節(jié)點(diǎn)的個(gè)數(shù)依據(jù)節(jié)點(diǎn)影響力指標(biāo)pr(u)從大到小進(jìn)行選擇種子集合s。這樣就可以一次計(jì)算,多次選取,在大規(guī)模的社交網(wǎng)絡(luò)分析中,可以節(jié)省多次計(jì)算的時(shí)間。
本發(fā)明采用影響力最終擴(kuò)散的節(jié)點(diǎn)數(shù)量作為衡量的指標(biāo),在epinions、slashdot、facebook、twitter、dblp和wiki-vote等數(shù)據(jù)集上經(jīng)過(guò)測(cè)試;結(jié)合圖2,本發(fā)明在epinions上和其他方法最終影響力擴(kuò)散的大小進(jìn)行比較,最終的激活節(jié)點(diǎn)的個(gè)數(shù)比pagerank、degreediscountic方法選取的種子所激活的節(jié)點(diǎn)數(shù)量更高,因此本發(fā)明所選擇的種子的影響力更高;且本方法可以靈活的選取種子節(jié)點(diǎn)的數(shù)量,并獲取影響力較大的種子集合s,相比于其他現(xiàn)有的方法,本方法一次計(jì)算,多次選取,節(jié)省了多次計(jì)算所需要的時(shí)間,具有較好的實(shí)用性和經(jīng)濟(jì)效益。