基于克隆選擇算法的社交網(wǎng)絡(luò)虛假信息控制方法
【專利摘要】本發(fā)明公開了一種基于克隆選擇算法的社交網(wǎng)絡(luò)虛假信息控制方法,包括以下步驟:抗原、檢測(cè)器初始化;檢測(cè)器選擇節(jié)點(diǎn)并計(jì)算親和力;克隆選擇;檢測(cè)器克隆增殖;檢測(cè)器變異增殖;再次計(jì)算檢測(cè)器變異增殖后的親和力,重新選擇檢測(cè)器;再次選擇用戶結(jié)點(diǎn)計(jì)算信息相似度;令Numt=Numc+Numv,當(dāng)Numt>λ時(shí)轉(zhuǎn)入下一步驟;計(jì)算信息覆蓋率當(dāng)時(shí)完成社交網(wǎng)絡(luò)虛假信息控制過程。本發(fā)明所述克隆選擇信息控制方法能對(duì)變異網(wǎng)絡(luò)信息進(jìn)行有效控制,相比于傳統(tǒng)的社交網(wǎng)絡(luò)虛假信息控制方法,本方法的效率和準(zhǔn)確性都顯著提高。
【專利說明】基于克隆選擇算法的社交網(wǎng)絡(luò)虛假信息控制方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種社交網(wǎng)絡(luò)虛假信息控制方法,尤其涉及一種基于克隆選擇算法的 社交網(wǎng)絡(luò)虛假信息控制方法。
【背景技術(shù)】
[0002] 如今,社交網(wǎng)絡(luò)的發(fā)展方興未艾,約有一半以上的網(wǎng)民通過社交網(wǎng)絡(luò)溝通交流、分 享信息,但社交網(wǎng)絡(luò)在帶給我們信息便捷的同時(shí),其不良影響仍然不容忽視。近年來,虛假 信息在社交網(wǎng)絡(luò)中的泛濫傳播大有愈演愈烈之勢(shì),各級(jí)政府、信息監(jiān)管部門和科研人員也 開始更多的予以關(guān)注。重大的網(wǎng)絡(luò)輿情不僅會(huì)影響人們的正常生活,還會(huì)對(duì)社會(huì)穩(wěn)定、國(guó)家 安全帶來一系列的挑戰(zhàn)。其中蘊(yùn)含大量的暴力、色情、虛假欺騙等不良信息,這些信息嚴(yán)重 制約著互聯(lián)網(wǎng)健康有序的發(fā)展。
[0003] 網(wǎng)絡(luò)中信息的傳播有其自身的特點(diǎn),時(shí)效性和復(fù)雜性是網(wǎng)絡(luò)信息控制的重點(diǎn)和難 點(diǎn),因而在網(wǎng)絡(luò)輿情爆發(fā)的時(shí)刻如何能夠?qū)崿F(xiàn)及時(shí)有效的信息控制對(duì)防止虛假信息蔓延、 減少其對(duì)公眾和社會(huì)的影響、提高突發(fā)事件的應(yīng)急處理效率具有重大的意義。
[0004] 目前對(duì)復(fù)雜網(wǎng)絡(luò)上信息控制研究比較廣泛的免疫策略主要有隨機(jī)免疫、目標(biāo)免疫 和熟人免疫。
[0005] 隨機(jī)免疫是指在社交網(wǎng)絡(luò)中隨機(jī)選取若干個(gè)節(jié)點(diǎn)施加免疫,例如當(dāng)某一用戶節(jié)點(diǎn) 傳播虛假信息比較多時(shí)就可以將該用戶節(jié)點(diǎn)及鏈接邊在網(wǎng)絡(luò)中移除掉,該方法對(duì)網(wǎng)絡(luò)中的 節(jié)點(diǎn)公平對(duì)待,不考慮網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的差異,比較適合在均勻網(wǎng)絡(luò)中使用,但隨機(jī)免疫 對(duì)無標(biāo)度網(wǎng)絡(luò)不能產(chǎn)生很好的效果,并且在具體實(shí)際應(yīng)用問題中也較難實(shí)現(xiàn)。
[0006]目標(biāo)免疫適用于拓?fù)浣Y(jié)構(gòu)不均勻的無標(biāo)度網(wǎng)絡(luò),如無標(biāo)度網(wǎng)絡(luò)中度分布服從冪律 分布并具有非均勻特性,可以選擇出入度比較大的節(jié)點(diǎn)或是在該網(wǎng)絡(luò)中起比較關(guān)鍵作用的 用戶節(jié)點(diǎn),將這些節(jié)點(diǎn)及鏈接邊在網(wǎng)絡(luò)中移除,從而起到抑制信息在該網(wǎng)絡(luò)中傳播的作用。 但是這種方法往往需要事先對(duì)社交網(wǎng)絡(luò)的結(jié)構(gòu)分布有較清晰的認(rèn)識(shí),尤其要對(duì)社交網(wǎng)絡(luò)中 各用戶節(jié)點(diǎn)度分布的情況有所掌握,因此如何利用計(jì)算機(jī)有限的處理能力從海量的社交網(wǎng) 絡(luò)用戶節(jié)點(diǎn)中尋找到關(guān)鍵節(jié)點(diǎn),從而達(dá)到最優(yōu)的信息控制效果,仍然需要研究人員的繼續(xù) 努力。
[0007] 熟人免疫策略通常是在對(duì)社交網(wǎng)絡(luò)全局結(jié)構(gòu)信息不明朗的情況下使用,根據(jù)被選 擇的節(jié)點(diǎn)及他們的鄰接節(jié)點(diǎn)信息,選中節(jié)點(diǎn)的概率與指向該節(jié)點(diǎn)鏈接邊的權(quán)重呈正比,從 而判斷信息在這些節(jié)點(diǎn)的動(dòng)態(tài)傳播過程,該方法在無標(biāo)度網(wǎng)絡(luò)中使用時(shí)效率要高于隨機(jī)免 疫策略,卻低于目標(biāo)免疫策略。但熟人免疫不需要知道社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,具有更高的實(shí) 用價(jià)值。
[0008] 由于網(wǎng)絡(luò)社區(qū)的開放性和易操作性,人們可以根據(jù)自己的興趣愛好或者歸屬類別 很容易的加入到各式各樣的網(wǎng)絡(luò)社區(qū)中,然而不同的網(wǎng)絡(luò)社區(qū)不僅規(guī)模大小不同,里面所 涵蓋的信息類別也大相徑庭,并且同一個(gè)社區(qū)內(nèi)的用戶交流也比較頻繁,討論的主題也有 相應(yīng)側(cè)重點(diǎn)。根據(jù)網(wǎng)絡(luò)社區(qū)的這一特性,目前國(guó)內(nèi)外研究主要涉及到聚類算法及相關(guān)改進(jìn) 算法來對(duì)網(wǎng)絡(luò)社區(qū)中的信息進(jìn)行歸類分析,發(fā)現(xiàn)虛假信息在該網(wǎng)絡(luò)社區(qū)傳播時(shí),采取屏蔽、 斷開信息傳播鏈接等措施,從而使該信息盡量在該社區(qū)的小范圍內(nèi)傳播。
[0009] 但是,虛假信息在社交網(wǎng)絡(luò)傳播的過程中,有些網(wǎng)民可能會(huì)根據(jù)自己的喜好對(duì)該 信息進(jìn)行增刪或者修改,被修改過的信息又會(huì)重新在網(wǎng)絡(luò)中泛濫傳播,導(dǎo)致一個(gè)信息可能 會(huì)出現(xiàn)多個(gè)版本,在這一傳播的過程中虛假信息又明顯的表現(xiàn)出變異的特性。
[0010] 上述各種免疫策略對(duì)于體現(xiàn)變異特性的虛假信息的控制效果都比較差,目前效果 最好的控制方法是De Castro和Von Zuben于2000年在免疫系統(tǒng)理論的基礎(chǔ)上提出的基 于克隆選擇算法的控制方法,通過模擬生物免疫系統(tǒng)學(xué)習(xí)進(jìn)化的過程,進(jìn)而形成一種兼具 動(dòng)態(tài)性和自適應(yīng)性的全局優(yōu)化搜索算法。該算法目前已經(jīng)被廣泛的應(yīng)用到了系統(tǒng)控制、優(yōu) 化算法和社會(huì)化統(tǒng)計(jì)分析等方面。
[0011] 克隆選擇算法的實(shí)質(zhì)是檢測(cè)器根據(jù)親和力不斷演化的過程,這一過程與達(dá)爾文的 自然選擇過程有些相似,大概包括以下幾個(gè)步驟:
[0012] (1)初始化檢測(cè)器種群,檢測(cè)器種群由記憶檢測(cè)器群體和剩余檢測(cè)器群體構(gòu)成;
[0013] (2)對(duì)檢測(cè)器與抗原之間的親和力進(jìn)行計(jì)算,并在檢測(cè)器集合中挑選出η個(gè)親和 力較高的檢測(cè)器,這一步驟需用到克隆選擇算法的克隆選擇規(guī)則;
[0014] (3)對(duì)選擇出來的η個(gè)親和力較高的檢測(cè)器進(jìn)行克隆增殖,并生成一個(gè)臨時(shí)的克 隆檢測(cè)器種群,并且每個(gè)檢測(cè)器克隆的數(shù)量與檢測(cè)器和抗原之間的親和力成正比,這一步 驟需用到克隆選擇算法的克隆增殖規(guī)則;
[0015] (4)根據(jù)檢測(cè)器與抗原之間的親和力對(duì)相似程度較低的臨時(shí)克隆檢測(cè)器種群進(jìn)行 高頻變異,并生成一個(gè)變異的檢測(cè)器種群,這一步驟需用到克隆選擇算法的變異規(guī)則;
[0016] (5)對(duì)生成的變異檢測(cè)器種群再次選擇,挑選出若干個(gè)優(yōu)秀的檢測(cè)器組成記憶檢 測(cè)器集合,這一步驟需用到克隆選擇算法的記憶規(guī)則;
[0017] (6)將生成的變異檢測(cè)器種群,除去步驟5被挑選出的優(yōu)秀檢測(cè)器之外的其他檢 測(cè)器形成新生成的檢測(cè)器取代原檢測(cè)器種群中一些親和力比較低的檢測(cè)器,因此親和力越 低的檢測(cè)器越容易被替換。
[0018] 上述克隆選擇算法的優(yōu)點(diǎn)包括多樣性、最優(yōu)化、局部搜索能力、淘汰性、記憶性等, 但面對(duì)目前的社交網(wǎng)絡(luò)信息存在以下缺點(diǎn):
[0019] (1)該算法通過計(jì)算檢測(cè)器和抗原之間親和力的大小決定檢測(cè)器克隆的規(guī)模,如 果計(jì)算出來的親和力都比較大并且進(jìn)行克隆,該算法容易陷入貪婪搜索;
[0020] (2)如果克隆生成的檢測(cè)器數(shù)量過于龐大,就會(huì)增加算法的復(fù)雜度,故應(yīng)該對(duì)檢測(cè) 器的克隆數(shù)量加以限定;
[0021] (3)如果變異后生成了許多優(yōu)質(zhì)的檢測(cè)器,那么就要替換掉母體中的許多個(gè)體,使 算法的效率和準(zhǔn)確性都會(huì)降低。
[0022] 本發(fā)明正是基于解決這些缺陷而提出。
【發(fā)明內(nèi)容】
[0023] 本發(fā)明的目的就在于為了解決上述問題而提供一種能對(duì)變異網(wǎng)絡(luò)信息進(jìn)行有效 控制的基于克隆選擇算法的社交網(wǎng)絡(luò)虛假信息控制方法。
[0024] 本發(fā)明通過以下技術(shù)方案來實(shí)現(xiàn)上述目的:
[0025] -種基于克隆選擇算法的社交網(wǎng)絡(luò)虛假信息控制方法,包括以下步驟:
[0026] (1)抗原、檢測(cè)器初始化:抗原表示通過一段時(shí)間監(jiān)測(cè)已經(jīng)獲取到的在社交網(wǎng)絡(luò) 中廣泛傳播的虛假信息,目標(biāo)抗原用Ag表不,檢測(cè)器集合用Ab = {abp ab2,…,abn}表不, η為檢測(cè)器集合Ab中檢測(cè)器的數(shù)量,abn表示第η個(gè)檢測(cè)器;
[0027] (2)檢測(cè)器選擇節(jié)點(diǎn)并計(jì)算親和力:檢測(cè)器首先在社交網(wǎng)絡(luò)中選取若干重要的節(jié) 點(diǎn),節(jié)點(diǎn)選擇遵循兩個(gè)原則:一是使節(jié)點(diǎn)之間的距離盡量大些,二是選擇出入度比較大即傳 播能力較強(qiáng)的節(jié)點(diǎn),每一個(gè)檢測(cè)器獲取一個(gè)相應(yīng)節(jié)點(diǎn)一段時(shí)間內(nèi)所傳播的信息并與抗原信 息進(jìn)行對(duì)比,其相似度越大則判斷為親和力越強(qiáng);
[0028] (3)克隆選擇:根據(jù)親和力的大小,按以下規(guī)則對(duì)檢測(cè)器進(jìn)行選擇:
[0029] Cs(Ab) = Cs ({ab^ ab2, ···, abn}) = {ab/ ,ab2/ ,***,abn/ }
[0030] Cs表示克隆選擇規(guī)則,abn'表示根據(jù)克隆選擇規(guī)則選擇的第n個(gè)檢測(cè)器;
[0031] 計(jì)算完親和力之后生成一個(gè)親和力集合:Aff = {affp aff2,…,affn},然后通過 排序生成一個(gè)新的檢測(cè)器集合如下:
[0032] rank(Aff) = rank ({aff^ aff2, ···, affj) = {ab/ ,ab2/ ,***,abn/ }
[0033] 這個(gè)檢測(cè)器集合根據(jù)各用戶結(jié)點(diǎn)所傳播信息和初始信息的相似程度按照從大到 小的順序進(jìn)行排列,并且生成一個(gè)檢測(cè)器的選擇概率P (P = {Pl,P2,…,Pn}),這個(gè)檢測(cè)器的 選擇概率集合{PuPh…,pj與{ab/,ab;/ }是相對(duì)應(yīng)的,設(shè)定為檢測(cè)器信息 與抗原信息的相似度越大,檢測(cè)器被選擇的概率也就越大,檢測(cè)器選擇的概率Ρ由下式計(jì) 算求得:
[0034]
【權(quán)利要求】
1. 一種基于克隆選擇算法的社交網(wǎng)絡(luò)虛假信息控制方法,其特征在于:包括以下步 驟: (1) 抗原、檢測(cè)器初始化:抗原表示通過一段時(shí)間監(jiān)測(cè)已經(jīng)獲取到的在社交網(wǎng)絡(luò)中廣 泛傳播的虛假信息,目標(biāo)抗原用Ag表不,檢測(cè)器集合用Ab = {abp ab2,…,abn}表不,n為 檢測(cè)器集合Ab中檢測(cè)器的數(shù)量,abn表示第n個(gè)檢測(cè)器; (2) 檢測(cè)器選擇節(jié)點(diǎn)并計(jì)算親和力:檢測(cè)器首先在社交網(wǎng)絡(luò)中選取若干重要的節(jié)點(diǎn), 節(jié)點(diǎn)選擇遵循兩個(gè)原則:一是使節(jié)點(diǎn)之間的距離盡量大些,二是選擇出入度比較大,即傳播 能力較強(qiáng)的節(jié)點(diǎn),每一個(gè)檢測(cè)器獲取一個(gè)相應(yīng)節(jié)點(diǎn)一段時(shí)間內(nèi)所傳播的信息并與抗原信息 進(jìn)行對(duì)比,其相似度越大則判斷為親和力越強(qiáng); (3) 克隆選擇:根據(jù)親和力的大小,按以下規(guī)則對(duì)檢測(cè)器進(jìn)行選擇: Cs(Ab) =Cs({ab1,ab2,...,abn}) = {ab' "ab' 2,...,ab' J Cs表示克隆選擇規(guī)則,abn'表示根據(jù)克隆選擇規(guī)則選擇的第n個(gè)檢測(cè)器; 計(jì)算完親和力之后生成一個(gè)親和力集合:Aff = {affp aff2,…,affj,然后通過排序 生成一個(gè)新的檢測(cè)器集合如下: rank (Aff) = rank ({aff^,aff2,…,affn}) = {ab' 1; ab' 2, --?, ab' J 這個(gè)檢測(cè)器集合根據(jù)各用戶結(jié)點(diǎn)所傳播信息和初始信息的相似程度按照從大到小的 順序進(jìn)行排列,并且生成一個(gè)檢測(cè)器的選擇概率P (P = {Pl,P2,…,Pn}),這個(gè)檢測(cè)器的選擇 概率集合{PuPd…,Pn}與{ab' pab' 2,…,ab' n}是相對(duì)應(yīng)的,設(shè)定為檢測(cè)器信息與抗 原信息的相似度越大,檢測(cè)器被選擇的概率也就越大,檢測(cè)器選擇的概率P由下式計(jì)算求 得: 1 = 1
令用戶節(jié)點(diǎn)所轉(zhuǎn)發(fā)的信息與目標(biāo)抗原信息親和力區(qū)分度的臨界值為大于等于 的檢測(cè)器按下述步驟(4)進(jìn)行克隆增殖,小于的檢測(cè)器按下述步驟(5)進(jìn)行變異; (4) 檢測(cè)器克隆增殖:從檢測(cè)器集合{ab' p ab' 2,…,ab' n}中選擇出m(m < n)個(gè) 和抗原信息相似度較高的檢測(cè)器,即對(duì)檢測(cè)器集合{ab' pab' 2,…,ab' J按以下規(guī)則進(jìn) 行克隆增殖:
Cp表示克隆增殖規(guī)則; 每個(gè)檢測(cè)器克隆增殖的數(shù)量與其被選擇的概率{Pl,P2,…,Pm}相關(guān),即檢測(cè)器獲取到用 戶節(jié)點(diǎn)的信息與抗原信息的相似度越大,說明該節(jié)點(diǎn)傳播的信息和抗原信息越接近,下一 步應(yīng)該對(duì)該節(jié)點(diǎn)的鄰接節(jié)點(diǎn)進(jìn)行重點(diǎn)檢測(cè),因該算法是用檢測(cè)器來獲取節(jié)點(diǎn)上的信息和原 初始信息進(jìn)行比對(duì)的,一個(gè)檢測(cè)器只能獲取一個(gè)用戶節(jié)點(diǎn)上的信息,所以要檢查的鄰接節(jié) 點(diǎn)越多,該檢測(cè)器克隆的數(shù)量也就越多,檢測(cè)器克隆的總數(shù)量為:
其 中&表示檢測(cè)器ab' i克隆的數(shù)量; (5) 檢測(cè)器變異增殖:由于一些檢測(cè)器檢測(cè)到的用戶節(jié)點(diǎn)信息和抗原信息的相似度比 較小,說明該用戶傳播虛假信息的可能性不是很大,為了檢測(cè)器下一步能夠更好的與該用 戶的鄰接節(jié)點(diǎn)的信息進(jìn)行對(duì)比,判斷其是否傳播虛假信息,所以對(duì)相似程度較小的檢測(cè)器 按以下規(guī)則進(jìn)行變異增殖:
Cv表不變異增殖規(guī)則,abnv表不根據(jù)變異增殖規(guī)則變異后的弟n個(gè)檢測(cè)器; 變異概率就是步驟(4)所述選擇概率{Pl,p2,…,pj,相似度越小變異的概率越大,令 Numv表示變異個(gè)體的數(shù)量; (6) 再次計(jì)算檢測(cè)器變異增殖后的親和力,重新選擇檢測(cè)器,如果檢測(cè)器變異增殖之后 的親和力高于Ab中的檢測(cè)器親和力,那么用該檢測(cè)器代替原來的檢測(cè)器; (7) 再次選擇用戶結(jié)點(diǎn)計(jì)算信息相似度,即變異增殖后的檢測(cè)器集合選擇上次已經(jīng)檢 測(cè)完畢的n個(gè)用戶節(jié)點(diǎn)的出入度較大的鄰接節(jié)點(diǎn)與檢測(cè)器信息比較,再次計(jì)算相似度; (8) 令Numt = Nun^+Nuiv Numt為包括所有克隆增殖和變異增殖的檢測(cè)器增殖總數(shù)量, 入是用戶為Numt設(shè)定的一個(gè)作為退出循環(huán)條件的限定值,當(dāng)Numt< X時(shí)重復(fù)步驟⑶至 步驟(7),實(shí)現(xiàn)多次迭代,當(dāng)Numt > X時(shí),轉(zhuǎn)入步驟(9); (9) 根據(jù)用戶節(jié)點(diǎn)傳播的信息與檢測(cè)器信息的相似度及用戶節(jié)點(diǎn)的度數(shù),按照從大到 小的順序?qū)⒐?jié)點(diǎn)度數(shù)較高的用戶依次移除,計(jì)算此時(shí)仍含有虛假信息用戶節(jié)點(diǎn)的數(shù)量Numf 和信息覆蓋率
Numa為社交網(wǎng)絡(luò)中傳播該信息的用戶節(jié)點(diǎn)總數(shù)量; (10) 當(dāng)時(shí)重復(fù)步驟(9),經(jīng)過多次迭代,直到社交網(wǎng)絡(luò)中虛假信息的覆蓋率降 至e以下,完成社交網(wǎng)絡(luò)虛假信息控制過程,e表示用戶設(shè)定的虛假信息覆蓋率。
【文檔編號(hào)】G06Q50/00GK104281972SQ201410571359
【公開日】2015年1月14日 申請(qǐng)日期:2014年10月23日 優(yōu)先權(quán)日:2014年10月23日
【發(fā)明者】安俊秀, 靳宇倡, 曹書哲, 王鵬, 楊海濤 申請(qǐng)人:成都信息工程學(xué)院