一種社交網(wǎng)絡(luò)謠言識(shí)別方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)分析領(lǐng)域,特別涉及一種社交網(wǎng)絡(luò)謠言識(shí)別方法及系統(tǒng)。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)的流行和普及,使得社交網(wǎng)絡(luò)中的信息數(shù)量呈現(xiàn)爆炸式地增長(zhǎng),然而信 息質(zhì)量卻沒有得到相應(yīng)的提升,各種垃圾信息尤其是謠言等虛假信息充斥著整個(gè)社交網(wǎng) 絡(luò),謠言的傳播與擴(kuò)散給人們的生活和社會(huì)的發(fā)展帶來了極大的危害和負(fù)面影響。
[0003] 能夠及時(shí)準(zhǔn)確地識(shí)別出社交網(wǎng)絡(luò)當(dāng)中的謠言消息,不僅有助于營(yíng)造良好的互聯(lián)網(wǎng) 環(huán)境,幫助人們更好地識(shí)別信息的真?zhèn)?,及時(shí)杜絕惡意謠言帶來的嚴(yán)重危害,還能在輿情監(jiān) 測(cè)、信息引導(dǎo)等方面發(fā)揮積極的作用。
[0004] 目前已有的謠言識(shí)別方法主要可以分為兩類,一類是基于人工的方法,其機(jī)制主 要是通過對(duì)已發(fā)布的消息進(jìn)行人工檢舉和判定,這類方法無法在謠言產(chǎn)生的初期遏制其傳 播與擴(kuò)散,及時(shí)性差,并且需要大量的勞力和財(cái)力,成本性高;另一類方法是基于機(jī)器學(xué)習(xí) 的方法,將微博是否為謠言作為分類問題來處理,并利用微博的各類特征,采用某種分類學(xué) 習(xí)算法來進(jìn)行謠言的識(shí)別,在分類特征的選擇上,目前主要可以分成3種,分別是微博的內(nèi) 容、發(fā)布者以及微博的傳播,在內(nèi)容特征的選擇上,目前主要是利用內(nèi)容的淺層文本特征 (如內(nèi)容中是否包含鏈接、圖片、是否提及他人等),而沒有對(duì)文本做更深層次的分析,充分 挖掘其語(yǔ)義、主題、情感等隱含特征;在發(fā)布者的方面,主要是選擇一些靜態(tài)特征,包括發(fā)布 者的粉絲數(shù)、朋友數(shù)等基本屬性,沒有結(jié)合考慮發(fā)布者的可信度以及影響力等,在微博傳播 特征的選擇上,相關(guān)工作主要集中于研究微博謠言的傳播模型,構(gòu)建以謠言為原始節(jié)點(diǎn)的 轉(zhuǎn)發(fā)關(guān)系圖,模擬其傳播行為,或僅局限于一些簡(jiǎn)單的轉(zhuǎn)發(fā)屬性,沒有進(jìn)一步深入分析謠言 在傳播過程中的其他特點(diǎn)。這些謠言識(shí)別特征選擇的相關(guān)研究中,所選用的特征卻分度不 好,存在一定的局限性,導(dǎo)致最終的謠言識(shí)別效果不佳,綜上所述,現(xiàn)有方法中缺少一種能 夠準(zhǔn)確識(shí)別微博謠言的自動(dòng)化方法。
【發(fā)明內(nèi)容】
[0005] 針對(duì)現(xiàn)有技術(shù)中存在的缺陷以及微博謠言獨(dú)有的特點(diǎn),本發(fā)明的目的是利用微博 的內(nèi)容、發(fā)布用戶以及微博的流行度三個(gè)方面的特征,并借助機(jī)器學(xué)習(xí)中的分類方法,實(shí)現(xiàn) 微博謠言的自動(dòng)識(shí)別,并有效提高微博謠言的識(shí)別準(zhǔn)確率和召回率,本發(fā)明提出了一種社 交網(wǎng)絡(luò)謠言識(shí)別方法及系統(tǒng)。
[0006] 本發(fā)明提供一種社交網(wǎng)絡(luò)謠言識(shí)別方法,包括:
[0007] 步驟1,獲取微博信息例,并獲取所述微博信息例的微博信息與用戶信息,根據(jù)所 述微博信息與所述用戶信息,提取所述微博信息例的微博內(nèi)容特征,所述微博內(nèi)容特征包 括淺層文本特征與微博深層隱含特征;
[0008] 步驟2,根據(jù)所述用戶信息,提取所述用戶的基本屬性特征與用戶深層隱含特征, 根據(jù)所述微博信息提取所述微博的微博流行度特征,所述微博流行度特征包括基于流行度 及流行度趨勢(shì)的波動(dòng)性特征與差異性特征以及轉(zhuǎn)發(fā)特征;
[0009] 步驟3,根據(jù)所述淺層文本特征、所述微博深層隱含特征、所述基本屬性特征、所述 用戶深層隱含特征、所述微博流行度特征,構(gòu)建特征向量,訓(xùn)練分類器,將所述特征向量輸 入所述分類器并輸出結(jié)果,以完成識(shí)別社交網(wǎng)絡(luò)謠言。
[0010] 所述的社交網(wǎng)絡(luò)謠言識(shí)別方法,所述微博深層隱含特征包括熱點(diǎn)傾向性特征、內(nèi) 外一致性特征、情感極性特征以及評(píng)論的觀點(diǎn)傾向性特征。
[0011] 所述的社交網(wǎng)絡(luò)謠言識(shí)別方法,所述用戶深層隱含特征包括社交特征、觀點(diǎn)轉(zhuǎn)發(fā) 特征以及微博匹配度特征。
[0012] 所述的社交網(wǎng)絡(luò)謠言識(shí)別方法,提取所述熱點(diǎn)傾向性特征與所述內(nèi)外一致性特征 的步驟包括對(duì)微博文本進(jìn)行分詞與詞性標(biāo)注,將具有表現(xiàn)意義的名詞、動(dòng)詞作為關(guān)鍵詞進(jìn) 行抽取,并使用文本特征提取中的TF-IDF作為關(guān)鍵詞排序的權(quán)重,將權(quán)重最高的K個(gè)詞作 為微博文本的關(guān)鍵詞。
[0013] 所述的社交網(wǎng)絡(luò)謠言識(shí)別方法,所述提取情感極性特征的步驟包括對(duì)微博文本進(jìn) 行分詞和詞性標(biāo)注,并通過情感詞典、表情符號(hào)詞典、標(biāo)點(diǎn)符號(hào)詞典、敏感詞典進(jìn)行關(guān)鍵詞 的提取,提取所述微博中的實(shí)詞以及能匹配到詞典中的詞。
[0014] 本發(fā)明還提出一種社交網(wǎng)絡(luò)謠言識(shí)別系統(tǒng),包括:
[0015] 提取微博內(nèi)容特征模塊,用于獲取微博信息例,并獲取所述微博信息例的微博信 息與用戶信息,根據(jù)所述微博信息與所述用戶信息,提取所述微博信息例的微博內(nèi)容特征, 所述微博內(nèi)容特征包括淺層文本特征與微博深層隱含特征;
[0016] 提取微博流行度特征模塊,用于根據(jù)所述用戶信息,提取所述用戶的基本屬性特 征與用戶深層隱含特征,根據(jù)所述微博信息提取所述微博的微博流行度特征,所述微博流 行度特征包括基于流行度及流行度趨勢(shì)的波動(dòng)性特征與差異性特征以及轉(zhuǎn)發(fā)特征;
[0017] 識(shí)別謠言模塊,用于根據(jù)所述淺層文本特征、所述微博深層隱含特征、所述基本屬 性特征、所述用戶深層隱含特征、所述微博流行度特征,構(gòu)建特征向量,訓(xùn)練分類器,將所述 特征向量輸入所述分類器并輸出結(jié)果,以完成識(shí)別社交網(wǎng)絡(luò)謠言。
[0018] 所述的社交網(wǎng)絡(luò)謠言識(shí)別系統(tǒng),所述微博深層隱含特征包括熱點(diǎn)傾向性特征、內(nèi) 外一致性特征、情感極性特征以及評(píng)論的觀點(diǎn)傾向性特征。
[0019] 所述的社交網(wǎng)絡(luò)謠言識(shí)別系統(tǒng),所述用戶深層隱含特征包括社交特征、觀點(diǎn)轉(zhuǎn)發(fā) 特征以及微博匹配度特征。
[0020] 所述的社交網(wǎng)絡(luò)謠言識(shí)別系統(tǒng),提取所述熱點(diǎn)傾向性特征與所述內(nèi)外一致性特征 的步驟包括對(duì)微博文本進(jìn)行分詞與詞性標(biāo)注,將具有表現(xiàn)意義的名詞、動(dòng)詞作為關(guān)鍵詞進(jìn) 行抽取,并使用文本特征提取中的TF-IDF作為關(guān)鍵詞排序的權(quán)重,將權(quán)重最高的K個(gè)詞作 為微博文本的關(guān)鍵詞。
[0021] 所述的社交網(wǎng)絡(luò)謠言識(shí)別系統(tǒng),所述提取情感極性特征的步驟包括對(duì)微博文本進(jìn) 行分詞和詞性標(biāo)注,并通過情感詞典、表情符號(hào)詞典、標(biāo)點(diǎn)符號(hào)詞典、敏感詞典進(jìn)行關(guān)鍵詞 的提取,提取所述微博中的實(shí)詞以及能匹配到詞典中的詞。
[0022] 由以上方案可知,本發(fā)明的優(yōu)點(diǎn)在于:
[0023] 本發(fā)明的效果在于:本發(fā)明針對(duì)微博謠言的獨(dú)有特點(diǎn),在識(shí)別過程中引入了微博 內(nèi)容與發(fā)布用戶的深層隱含特征,可以有效區(qū)分謠言微博和一般微博;融合微博傳播過程 中變化的流行度以及流行度趨勢(shì)特征,顯著提高了分類過程中謠言識(shí)別的準(zhǔn)確率和召回 率。
【附圖說明】
[0024] 圖1是本發(fā)明一實(shí)施例的整體流程圖;
[0025] 圖2是本發(fā)明一實(shí)施例中內(nèi)容的熱點(diǎn)傾向性特征和內(nèi)外一致性特征提取的流程 圖;
[0026] 圖3是本發(fā)明一實(shí)施例中內(nèi)容的情感極性特征提取的流程圖;
[0027] 圖4是本發(fā)明一實(shí)施例中評(píng)論的觀點(diǎn)傾向性特征提取的流程圖;
[0028] 圖5是本發(fā)明一實(shí)施例中用戶的社交特征、觀點(diǎn)轉(zhuǎn)發(fā)特征以及歷史微博匹配度特 征提取的流程圖;
[0029] 圖6是本發(fā)明一實(shí)施例中流行度的波動(dòng)性和差異性特征提取的流程圖。
【具體實(shí)施方式】
[0030] 下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明進(jìn)行詳細(xì)描述,但不作為對(duì)本發(fā)明的限 定。
[0031] 本發(fā)明提出.一種社交網(wǎng)絡(luò)謠言識(shí)別方法,以下為整體步驟包括:
[0032] 獲取微博信息例,并獲取所述微博信息例的微博信息與用戶信息,根據(jù)所述微博 信息與所述用戶信息,提取所述微博信息例的微博內(nèi)容特征,所述微博內(nèi)容特征包括淺層 文本特征與微博深層隱含特征;
[0033] 根據(jù)所述用戶信息,提取所述用戶的基本屬性特征與用戶深層隱含特征,根據(jù)所 述微博信息提取所述微博的微博流行度特征,所述微博流行度特征包括基于流行度及流行 度趨勢(shì)的波動(dòng)性特征與差異性特征以及轉(zhuǎn)發(fā)特征;
[0034] 根據(jù)所述淺層文本特征、所述微博深層隱含特征、所述基本屬性特征、所述用戶深 層隱含特征、所述微博流行度特征,構(gòu)建特征向量,訓(xùn)練分類器,將所述特征向量輸入所述 分類器并輸出結(jié)果,以完成識(shí)別社交網(wǎng)絡(luò)謠言。
[0035] 所述微博深層隱含特征包括熱點(diǎn)傾向性特征、內(nèi)外一致性特征、情感極性特征以 及評(píng)論的觀點(diǎn)傾向性特征。
[0036] 所述用戶深層隱含特征包括社交特征、觀點(diǎn)轉(zhuǎn)發(fā)特征以及微博匹配度特征。
[0037] 提取所述熱點(diǎn)傾向性特征與所述內(nèi)外一致性特征的步驟包括對(duì)微博文本進(jìn)行分 詞與詞性標(biāo)注,將具有表現(xiàn)意義的名詞、動(dòng)詞作為關(guān)鍵詞進(jìn)行抽取,并使用文本特征提取中 的TF-IDF作為