本發(fā)明創(chuàng)造涉及輿情監(jiān)控領(lǐng)域,具體涉及一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng)。
背景技術(shù):
隨著社會(huì)的發(fā)展,科技的進(jìn)步,人類步入了飛速發(fā)展的互聯(lián)網(wǎng)時(shí)代,各種各樣的資源以互聯(lián)網(wǎng)為載體進(jìn)行匯聚、整合,形成了一個(gè)龐大的信息庫(kù)。因?yàn)榫W(wǎng)絡(luò)的傳播是自由的、開放的,每個(gè)人都有機(jī)會(huì)成為網(wǎng)絡(luò)信息的發(fā)布者,因此更能直接、真實(shí)、全面地反映民眾的觀點(diǎn)和態(tài)度,但是正是網(wǎng)上發(fā)表言論的自由性和無(wú)限制性,使得輿情很大程度上取決于網(wǎng)民的情緒狀態(tài)等非主觀因素,因此,為了保證輿論的正確導(dǎo)向,同時(shí)便于了解當(dāng)今網(wǎng)民較為關(guān)注的熱點(diǎn)領(lǐng)域,對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè)有著重要的現(xiàn)實(shí)意義。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)上述問(wèn)題,本發(fā)明旨在提供一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng)。
本發(fā)明創(chuàng)造的目的通過(guò)以下技術(shù)方案實(shí)現(xiàn):
一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),包括信息采集模塊、輿情預(yù)處理模塊、輿情分析模塊和管理模塊,所述信息采集模塊用于對(duì)網(wǎng)絡(luò)上的輿情信息進(jìn)行采集,獲取網(wǎng)頁(yè)數(shù)據(jù),所述輿情預(yù)處理模塊用于對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行噪聲處理以及中文分詞,所述輿情分析模塊用于從所述中文分詞結(jié)果中提取網(wǎng)頁(yè)的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,從而進(jìn)行網(wǎng)頁(yè)主題的劃分,所述管理模塊用于對(duì)采集得到的文檔進(jìn)行存儲(chǔ),并向用戶顯示系統(tǒng)的監(jiān)測(cè)結(jié)果。
本發(fā)明創(chuàng)造的有益效果:提出一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),通過(guò)對(duì)網(wǎng)絡(luò)上的信息的抓取和科學(xué)有效的分析,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)熱點(diǎn)的有效監(jiān)測(cè)。
附圖說(shuō)明
利用附圖對(duì)發(fā)明創(chuàng)造作進(jìn)一步說(shuō)明,但附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明創(chuàng)造的任何限制,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)以下附圖獲得其它的附圖。
圖1是本發(fā)明結(jié)構(gòu)示意圖;
圖2是本發(fā)明輿情分析模塊結(jié)構(gòu)示意圖
圖3是本發(fā)明管理模塊結(jié)構(gòu)示意圖。
附圖標(biāo)記:
信息采集模塊1;輿情預(yù)處理模塊2;輿情分析模塊3;管理模塊4;網(wǎng)頁(yè)表示單元31;主題劃分單元32;信息存儲(chǔ)單元41;信息顯示單元42。
具體實(shí)施方式
結(jié)合以下實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。
參見(jiàn)圖1、圖2和圖3,本實(shí)施例的一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),包括信息采集模塊1、輿情預(yù)處理模塊2、輿情分析模塊3和管理模塊4,所述信息采集模塊1用于對(duì)網(wǎng)絡(luò)上的輿情信息進(jìn)行采集,獲取網(wǎng)頁(yè)數(shù)據(jù),所述輿情預(yù)處理模塊2用于對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行噪聲處理以及中文分詞,所述輿情分析模塊3用于從所述中文分詞結(jié)果中提取網(wǎng)頁(yè)的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,進(jìn)而進(jìn)行網(wǎng)頁(yè)主題歸類,所述管理模塊4用于對(duì)采集得到的文檔進(jìn)行存儲(chǔ),并向用戶顯示系統(tǒng)的監(jiān)測(cè)結(jié)果。
優(yōu)選地,所述管理模塊4包括信息存儲(chǔ)單元41和信息顯示單元42,所述信息存儲(chǔ)單元41用于根據(jù)主題歸類結(jié)果對(duì)采集得到的文檔進(jìn)行分類存儲(chǔ),所述信息顯示單元42用于向用戶顯示系統(tǒng)的監(jiān)測(cè)結(jié)果。
本優(yōu)選實(shí)施例提出一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),通過(guò)對(duì)網(wǎng)絡(luò)上的信息的抓取和科學(xué)有效的分析,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)熱點(diǎn)的有效監(jiān)測(cè)。
優(yōu)選地,所述輿情分析模塊3包括網(wǎng)頁(yè)表示單元31和主題劃分單元32,所述網(wǎng)頁(yè)表示單元31用于從所述中文分詞結(jié)果中提取能夠反映網(wǎng)頁(yè)主題的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,所述主題劃分單元32用于根據(jù)計(jì)算所得的相似性系數(shù)進(jìn)行采集得到的網(wǎng)頁(yè)主題的劃分。
優(yōu)選地,所述網(wǎng)頁(yè)表示單元31用于從所述中文分詞結(jié)果中提取能夠反映網(wǎng)頁(yè)主題的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,具體包括:
(1)定義采集得到的網(wǎng)頁(yè)中類別為lk(1≤k≤u)的文本有{ck1,ck2,……ckr},則采用一種改進(jìn)的信息增益計(jì)算方法進(jìn)行特征項(xiàng)ti的選擇,具體為:
式中,p(ti)為特征詞ti出現(xiàn)的概率,則
將所得的特征詞的信息增益值按從大到小的順序進(jìn)行排列,選取前g個(gè)特征詞作為采集得到的文檔的特征項(xiàng);
(2)定義文本cl的特征項(xiàng)為{tl1,tl2,……tlg},則對(duì)應(yīng)特征項(xiàng)的權(quán)重{ql1,ql2,……qlg}的計(jì)算公式為:
式中,ulr表示特征項(xiàng)tr在文本cl中出現(xiàn)的頻數(shù),max(ur)表示特征項(xiàng)tr在文本集中出現(xiàn)的頻數(shù)的最大值,min(ur)表示特征項(xiàng)tr在文本集中出現(xiàn)的頻數(shù)的最小值,qlr表示特征項(xiàng)tr在文本cl中的權(quán)重,d表示文本集中的文本數(shù)量,dr表示文本集中包含特征項(xiàng)tr的文本數(shù)。
本優(yōu)選實(shí)施例采用一種改進(jìn)的信息增益的計(jì)算方法,增加了特征項(xiàng)的分類能力,有助于選出較有效的特征項(xiàng),此外,采用一種改進(jìn)的權(quán)重計(jì)算方法,相較于傳統(tǒng)的tfidf計(jì)算權(quán)重方法,對(duì)特征項(xiàng)在文本集中出現(xiàn)的頻數(shù)進(jìn)行處理,綜合考慮了特征項(xiàng)在文本集中的總體價(jià)值,充分體現(xiàn)了特征項(xiàng)權(quán)重的重要性。
優(yōu)選地,所述主題劃分單元32用于根據(jù)計(jì)算所得的相似性系數(shù)對(duì)采集得到的網(wǎng)頁(yè)進(jìn)行主題劃分,具體包括:
(1)創(chuàng)建待監(jiān)測(cè)的網(wǎng)絡(luò)熱點(diǎn)領(lǐng)域集合r={r1,r2,……rw},分別定義網(wǎng)絡(luò)熱點(diǎn)領(lǐng)域ri(i=1,2,……w)的主題文檔為ri=(ti1,ti2,……tib),采集得到的文檔為cj=(tj1,tj2,……tjg);
a.計(jì)算采集得到的文檔cj和熱點(diǎn)領(lǐng)域集中的各個(gè)主題文檔ri之間的相似性系數(shù)θi,θi的計(jì)算表達(dá)式如下:
式中,sim(tj,ti)為采集得到的文檔cj中的特征項(xiàng)和主題文檔ri中的各個(gè)特征項(xiàng)之間的概念詞語(yǔ)相似度的加權(quán)平均值,θi為采集得到的文檔cj和主題文檔ri之間的相似性系數(shù),qjh為文檔cj中特征項(xiàng)tjh的權(quán)重,g為文檔cj中的特征項(xiàng)個(gè)數(shù),b為主題文檔中特征項(xiàng)的個(gè)數(shù);
b.計(jì)算采集文檔和各個(gè)主題相似性系數(shù)中的最大相似性系數(shù)θmax,具體為:
(2)定義主題閾值τ,當(dāng)最大相似性系數(shù)θmax大于主題閾值τ時(shí),則θmax對(duì)應(yīng)的主題ri即為采集得到的文檔的主題,當(dāng)最大相似性系數(shù)θmax小于主題閾值τ時(shí),則判斷為主題不相關(guān)網(wǎng)頁(yè),即舍棄采集得到的文檔。
本優(yōu)選實(shí)施例通過(guò)計(jì)算采集得到的文檔與熱點(diǎn)領(lǐng)域集合中主題的相似性系數(shù)的計(jì)算,實(shí)現(xiàn)了對(duì)采集得到的文檔的主題的有效劃分。
最后應(yīng)當(dāng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明作了詳細(xì)地說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。