本發(fā)明涉及突發(fā)事件中微博網(wǎng)絡(luò)輿情的預(yù)測與仿真方法,具體涉及一種以建立在soar模型上的網(wǎng)民群體行為規(guī)則為基礎(chǔ)的仿真方法。
背景技術(shù):
隨著web2.0技術(shù)及相關(guān)互聯(lián)網(wǎng)應(yīng)用的不斷普及,微博等新媒體已經(jīng)成為網(wǎng)絡(luò)輿情的重要輿論場。微博具有用戶基數(shù)大、傳播速度快、信息上載方便等特點(diǎn),已經(jīng)成為我國輿情爆發(fā)的主要策源地和傳播媒介,如病毒般蔓延至互聯(lián)網(wǎng)、企業(yè)、個(gè)人生活的每個(gè)角落。如何針對(duì)微博所具有的海量非結(jié)構(gòu)化文本數(shù)據(jù)、大用戶數(shù)和實(shí)時(shí)性強(qiáng)的特點(diǎn),研究有效的微博輿情預(yù)測仿真方法,成了當(dāng)務(wù)之急。
honeycutt和herring通過對(duì)twitter上用戶發(fā)表的內(nèi)容文本分析,進(jìn)而研究twitter如何支持網(wǎng)民之間交互以及網(wǎng)民為什么要在twitter上發(fā)表信息。naaman等人在honeycutt研究的基礎(chǔ)上進(jìn)行歸納,將網(wǎng)民分為me-formers和in-formers兩類me-formers大多數(shù)的時(shí)候只發(fā)表有利于他們自己目標(biāo)的或跟自己有關(guān)的博客,并且對(duì)評(píng)論或轉(zhuǎn)發(fā)別的用戶的博客沒有興趣。in-formers不僅僅是發(fā)表更多的博客,還評(píng)論或者轉(zhuǎn)發(fā)別的用戶發(fā)表的內(nèi)容。
soar模型是一種可計(jì)算程序體系結(jié)構(gòu)表達(dá)的通用的認(rèn)知模型,試圖通過提供一個(gè)基于知識(shí)的問題求解、學(xué)習(xí)、與外界交互的框架,來促進(jìn)人們對(duì)人類智能的認(rèn)識(shí)。soar模型源自人工智能(ai)領(lǐng)域,常被用來創(chuàng)建智能體,對(duì)行為決策過程進(jìn)行模擬,它為解決人工智能在動(dòng)態(tài)復(fù)雜環(huán)境下能夠自動(dòng)使用知識(shí)、持續(xù)學(xué)習(xí)來完成任務(wù)的問題提供了靈活的計(jì)算框架。
目前國內(nèi)學(xué)者對(duì)于網(wǎng)絡(luò)輿情中政府應(yīng)急管理的研究往往集中于理論上的建議,國外學(xué)者從公共管理角度對(duì)政府在危機(jī)管理中應(yīng)急措施進(jìn)行研究,但缺乏對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行分析和建模,不能根據(jù)輿情發(fā)展態(tài)勢以給政府采取應(yīng)急措施提供明確的建議。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于基于soar模型來模仿網(wǎng)民的心智,結(jié)合政府措施、輿情發(fā)展階段和網(wǎng)民特征,提供一種符合事實(shí)情況、便于政府做決策的輿情預(yù)測方法。
實(shí)現(xiàn)本發(fā)明目的的技術(shù)解決方案為:一種基于soar模型的突發(fā)事件中網(wǎng)絡(luò)輿情的預(yù)測與仿真方法,包括以下步驟:
第一步,數(shù)據(jù)采集;將事件微博的評(píng)論、轉(zhuǎn)發(fā)內(nèi)容以及發(fā)布、評(píng)論、轉(zhuǎn)發(fā)相關(guān)內(nèi)容的用戶信息存到本地?cái)?shù)據(jù)庫;
第二步,數(shù)據(jù)清洗;對(duì)第一步抓取來的微博數(shù)據(jù)進(jìn)行清洗和整理,剔除媒體、官微發(fā)布的微博數(shù)據(jù),得到所需普通網(wǎng)民發(fā)布的目標(biāo)微博數(shù)據(jù);
第三步,數(shù)據(jù)加工;通過對(duì)第二步清洗后的微博數(shù)據(jù)進(jìn)行分析,對(duì)微博網(wǎng)民進(jìn)行分類,分析微博網(wǎng)民情感傾向,劃分網(wǎng)絡(luò)輿情演變階段,統(tǒng)計(jì)政府應(yīng)急管理措施;
第四步,仿真實(shí)驗(yàn);通過實(shí)驗(yàn)仿真再現(xiàn)事件中政府不同應(yīng)對(duì)措施下微博用戶群體行為轉(zhuǎn)換過程,仿真實(shí)驗(yàn)包括模型設(shè)計(jì)、仿真算法設(shè)計(jì)和基于仿真平臺(tái)實(shí)現(xiàn)仿真算法。
本發(fā)明與現(xiàn)有技術(shù)相比,其顯著優(yōu)點(diǎn):1、本發(fā)明不再局限于實(shí)時(shí)的輿情反映,而是更進(jìn)一步地去預(yù)測未來輿情的走向。
2、本發(fā)明將重要參數(shù)置于政府舉措上,更加突出了政府的作用力,為政府的網(wǎng)絡(luò)輿情監(jiān)管起到輔助作用。
3、本發(fā)明基于soar模型,將網(wǎng)絡(luò)輿情中網(wǎng)民群體行為轉(zhuǎn)變過程看作相應(yīng)輿情問題空間中狀態(tài)隨時(shí)間的連續(xù)轉(zhuǎn)換過程,不再只是單純地從時(shí)間片的角度來看待網(wǎng)絡(luò)輿情,使得網(wǎng)絡(luò)輿情的仿真與預(yù)測更符合實(shí)際情況。
附圖說明
圖1為本發(fā)明的仿真實(shí)驗(yàn)流程示意圖。
圖2為本發(fā)明的仿真算法流程示意圖。
具體實(shí)施方式
針對(duì)微博輿情的預(yù)測與仿真,發(fā)明提供了一種微博輿情的仿真方法,模擬網(wǎng)民順著輿情發(fā)展走向,對(duì)政府的措施做出反應(yīng),發(fā)布正面帖子或者負(fù)面帖子,從而影響網(wǎng)絡(luò)輿情。
本發(fā)明通過soaragent模型總體框架設(shè)計(jì)和soaragent模塊設(shè)計(jì),結(jié)合網(wǎng)民分類、政府舉措、網(wǎng)絡(luò)輿情發(fā)展階,為網(wǎng)民群體行為進(jìn)行建模,得出網(wǎng)民群體行為轉(zhuǎn)換規(guī)則。
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步說明。
本發(fā)明給出了輿情預(yù)測的具體流程,見圖1:
從新浪微博上采集事件數(shù)據(jù)保存到數(shù)據(jù)庫;
對(duì)數(shù)據(jù)進(jìn)行清洗和整理,剔除媒體、官微發(fā)布的微博數(shù)據(jù),得到所需普通網(wǎng)民發(fā)布的目標(biāo)微博數(shù)據(jù);
對(duì)數(shù)據(jù)進(jìn)行加工:(1)使用svm模型分析微博情感傾向性;(2)按日統(tǒng)計(jì)微博數(shù)量構(gòu)建事件發(fā)展曲線圖,以此劃分事件發(fā)展階段;(3)統(tǒng)計(jì)不同階段政府采取的應(yīng)急管理措施,并分別統(tǒng)計(jì)政府采取措施前后不同類別網(wǎng)民發(fā)布的負(fù)面微博及非負(fù)面微博所占比例;
在模型設(shè)計(jì)與仿真算法設(shè)計(jì)的基礎(chǔ)上,基于仿真平臺(tái)實(shí)現(xiàn)仿真算法,首先分析模型有效性,其次通過仿真預(yù)測不同階段政府采取不同措施對(duì)網(wǎng)民行為的影響。
本發(fā)明另一方面進(jìn)一步詳細(xì)地提供了食品安全類事件和公共安全類事件中的網(wǎng)民長期記憶規(guī)則庫,即在不同網(wǎng)絡(luò)輿情發(fā)展階段、不同政府應(yīng)急管理措施、不同網(wǎng)民總體情感傾向下,網(wǎng)民的行為偏好,如下表所示。
表11me-formers類網(wǎng)民長期記憶初始規(guī)則
表12in-formers類網(wǎng)民長期記憶初始規(guī)則
*注:
op表示為網(wǎng)絡(luò)輿情發(fā)展階段(networkpublicopiniondevelopmentphase);
gr表示政府應(yīng)急管理措施(governmentresponse);
et表示網(wǎng)民總體情感傾向(emotiontendency);
ac表示網(wǎng)民群體行為(action)。
下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明。
從新浪微博上采集相關(guān)事件數(shù)據(jù)保存到數(shù)據(jù)庫;
對(duì)數(shù)據(jù)進(jìn)行清洗和整理,剔除媒體、官微發(fā)布的微博數(shù)據(jù),得到所需普通網(wǎng)民發(fā)布的目標(biāo)微博數(shù)據(jù);
對(duì)網(wǎng)民進(jìn)行分類:根據(jù)網(wǎng)民是否發(fā)表微博、是否評(píng)論其他網(wǎng)民發(fā)表的微博、是否轉(zhuǎn)發(fā)其他網(wǎng)民發(fā)表的微博劃分為me-formers與in-formers兩種類型。me-formers只發(fā)表不評(píng)論不轉(zhuǎn)發(fā),in-formers既發(fā)表也評(píng)論和轉(zhuǎn)發(fā);
分析網(wǎng)民情感傾向:使用svm模型分析微博情感傾向性的方法,借助空間向量模型來進(jìn)行每條微博的特征表示,通過微博的內(nèi)容特征、外部特征來確定微博情感傾向性特征,從而確定每條微博的情感傾向。統(tǒng)計(jì)各階段網(wǎng)民負(fù)面情感比例與非負(fù)面情感比例中較大者作為該階段網(wǎng)民總體情感傾向;
劃分網(wǎng)絡(luò)輿情演變階段:通過統(tǒng)計(jì)每日微博數(shù)據(jù),構(gòu)建事件發(fā)展曲線圖,選取拐點(diǎn)作為事件發(fā)展階段劃分依據(jù);
歸納政府應(yīng)急管理措施:根據(jù)事件案例描述與事件發(fā)展階段劃分,分別找出各個(gè)階段政府在微博或其他平臺(tái)發(fā)布的信息及采取的活動(dòng),對(duì)政府應(yīng)急管理措施進(jìn)行歸類;
基于soar模型對(duì)網(wǎng)民群體行為進(jìn)行建模:
網(wǎng)絡(luò)環(huán)境中網(wǎng)民情感傾向表明了網(wǎng)民對(duì)網(wǎng)絡(luò)輿情事件的態(tài)度,網(wǎng)民負(fù)面情感所占的比例影響政府決定是否調(diào)整應(yīng)急策略,因此,網(wǎng)民對(duì)政府的影響函數(shù)為式:
其中,et_n(t)表示t階段發(fā)布的負(fù)面信息數(shù),nmax表示t階段發(fā)布的信息總數(shù),f(e,t)表示t階段負(fù)面信息所占比例,若f(e,t)∈[0,μ]則政府不調(diào)整應(yīng)急措施;若f(e,t)∈[μ,1],則政府調(diào)整應(yīng)急措施。μ為[0,1]區(qū)間內(nèi)的常數(shù),其值在實(shí)際數(shù)據(jù)統(tǒng)計(jì)中得到;
最初的初始行為規(guī)則是在對(duì)多個(gè)輿情事件實(shí)際數(shù)據(jù)統(tǒng)計(jì)分析基礎(chǔ)上得到的,由此形成長期記憶。首先根據(jù)網(wǎng)民特征屬性將網(wǎng)民分為me-formers與in-formers類,通過真實(shí)數(shù)據(jù)對(duì)每類網(wǎng)民工作記憶中的輸入屬性和輸出屬性進(jìn)行描述,輸入屬性包括網(wǎng)絡(luò)輿情發(fā)展階段、政府應(yīng)急管理措施、網(wǎng)民總體情感傾向,輸出屬性即網(wǎng)民群體行為,輸入屬性與輸出屬性的組合被歸納出來形成規(guī)則,相應(yīng)的偏好值,即網(wǎng)民有多大意愿選擇這種行為,作為規(guī)則的偏好;
網(wǎng)絡(luò)輿情演變階段根據(jù)按日統(tǒng)計(jì)微博數(shù)據(jù)構(gòu)建的事件發(fā)展曲線劃分得到;
政府應(yīng)急管理措施通過人工對(duì)輿情事件每個(gè)階段總結(jié)得到;
網(wǎng)民總體情感傾向用該階段負(fù)面微博數(shù)比上微博總數(shù)的比值來衡量,大于0.5即為負(fù)面,小于0.5為非負(fù)面;
網(wǎng)民群體行為用微博表達(dá)的情感來表示,一條表達(dá)負(fù)面的微博即為一個(gè)發(fā)布負(fù)面信息行為,一條表達(dá)非負(fù)面情感的微博即為一個(gè)發(fā)布非負(fù)面信息的行為;
規(guī)則偏好值通過輿情事件片斷進(jìn)行統(tǒng)計(jì)得到,計(jì)算公式如式
設(shè)計(jì)仿真算法:定義變量和函數(shù),見下表
仿真算法變量與函數(shù)
其中
仿真開始條件:加入agt-0個(gè)持負(fù)面情感的me-formers類和in-formers類網(wǎng)民,加入agt+0個(gè)持非負(fù)面情感的me-formers類和in-formers類網(wǎng)民。
仿真結(jié)束條件:網(wǎng)民agent遍歷完畢。
仿真算法流程,如圖2所示:
步驟1:仿真開始,針對(duì)不同階段加入agt-個(gè)帶負(fù)面情感與agt+個(gè)帶非負(fù)面情感的不同類別的網(wǎng)民,總數(shù)為agt,計(jì)算當(dāng)前狀態(tài)下網(wǎng)民總體負(fù)面情感比例nep,在政府當(dāng)前應(yīng)急管理措施gr下,進(jìn)入循環(huán)遍歷網(wǎng)民,獲取網(wǎng)民agent工作記憶各個(gè)輸入屬性值e={op=op,gr=gr,et=et},進(jìn)入步驟2;
步驟2:獲取該網(wǎng)民類別at及對(duì)應(yīng)的長期記憶規(guī)則庫ruleset(at),將工作記憶元素與規(guī)則條件進(jìn)行匹配,獲得候選算子集合operatorset,進(jìn)入步驟3;
步驟3:判斷候選算子集合operatorset是否為空,如果不為空,則根據(jù)決策過程設(shè)計(jì)的算子選擇機(jī)制,根據(jù)偏好對(duì)候選算子集合進(jìn)行排序orderoperatorset(),選擇一個(gè)算子應(yīng)用,判斷該算子對(duì)應(yīng)的規(guī)則是否為新規(guī)則newrule,若是則加入初始規(guī)則庫ruleset(at),若不是則直接進(jìn)入步驟5,若是則先將該新規(guī)則添加到長期記憶規(guī)則庫中再進(jìn)入步驟5,如果候選算子集為空,則說明產(chǎn)生僵局,進(jìn)入步4;
步驟4:使用降低匹配精度的算法,產(chǎn)生新規(guī)則,形成臨時(shí)規(guī)則庫newruleset(at),重新與新狀態(tài)下工作記憶元素進(jìn)行匹配,獲得候選算子集合,進(jìn)入步驟5;
步驟5:應(yīng)用算子applyoperator(),輸出網(wǎng)民行為,引起網(wǎng)民負(fù)面情感比例nep改變,計(jì)算當(dāng)前狀態(tài)下網(wǎng)民負(fù)面情感比例,與閾值threshold進(jìn)行比較,如果小于閾值則進(jìn)入步驟1,繼續(xù)遍歷網(wǎng)民,如果大于閾值則改變政府應(yīng)急措施set(gr),進(jìn)入步驟1,重新遍歷網(wǎng)民,繼續(xù)下一輪循環(huán),直到遍歷完網(wǎng)民后退出;
本發(fā)明將網(wǎng)民群體行為分為發(fā)負(fù)面信息與發(fā)非負(fù)面信息兩種行為,如果僅選擇偏好最大的算子進(jìn)行應(yīng)用將導(dǎo)致仿真結(jié)束時(shí)網(wǎng)民情感全部為負(fù)面或者全部為正面,因此本發(fā)明在應(yīng)用算子時(shí)加入一個(gè)機(jī)制,即網(wǎng)民以偏好為概率選擇這個(gè)行為。
最后基于仿真平臺(tái)進(jìn)行網(wǎng)絡(luò)輿情的預(yù)測與仿真,選用netlogo或者anylogic仿真平臺(tái),隨后選取事件發(fā)生后的微博數(shù)據(jù)為樣本,首先通過實(shí)驗(yàn)仿真再現(xiàn)事件中政府不同應(yīng)對(duì)措施下微博用戶群體行為轉(zhuǎn)換過程,根據(jù)仿真結(jié)果對(duì)模型的有效性進(jìn)行分析;然后,通過在網(wǎng)絡(luò)輿情發(fā)展的不同階段,設(shè)置政府不同的應(yīng)對(duì)措施,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,來評(píng)估政府應(yīng)急措施對(duì)不同網(wǎng)民群體引導(dǎo)能力,得出在網(wǎng)絡(luò)輿情事件不同發(fā)展階段,對(duì)于不同類別網(wǎng)民,政府采用何種措施,能使網(wǎng)民負(fù)面情感比例下降至最低。