欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng)的制作方法

文檔序號(hào):11475808閱讀:180來(lái)源:國(guó)知局
一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng)的制造方法與工藝

本發(fā)明創(chuàng)造涉及輿情監(jiān)控領(lǐng)域,具體涉及一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng)。



背景技術(shù):

隨著社會(huì)的發(fā)展,科技的進(jìn)步,人類步入了飛速發(fā)展的互聯(lián)網(wǎng)時(shí)代,各種各樣的資源以互聯(lián)網(wǎng)為載體進(jìn)行匯聚、整合,形成了一個(gè)龐大的信息庫(kù)。因?yàn)榫W(wǎng)絡(luò)的傳播是自由的、開放的,每個(gè)人都有機(jī)會(huì)成為網(wǎng)絡(luò)信息的發(fā)布者,因此更能直接、真實(shí)、全面地反映民眾的觀點(diǎn)和態(tài)度,但是正是網(wǎng)上發(fā)表言論的自由性和無(wú)限制性,使得輿情很大程度上取決于網(wǎng)民的情緒狀態(tài)等非主觀因素,因此,為了保證輿論的正確導(dǎo)向,同時(shí)便于了解當(dāng)今網(wǎng)民較為關(guān)注的熱點(diǎn)領(lǐng)域,對(duì)網(wǎng)絡(luò)輿情的監(jiān)測(cè)有著重要的現(xiàn)實(shí)意義。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)上述問(wèn)題,本發(fā)明旨在提供一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng)。

本發(fā)明創(chuàng)造的目的通過(guò)以下技術(shù)方案實(shí)現(xiàn):

一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),包括信息采集模塊、輿情預(yù)處理模塊、輿情分析模塊和管理模塊,所述信息采集模塊用于對(duì)網(wǎng)絡(luò)上的輿情信息進(jìn)行采集,獲取網(wǎng)頁(yè)數(shù)據(jù),所述輿情預(yù)處理模塊用于對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行噪聲處理以及中文分詞,所述輿情分析模塊用于從所述中文分詞結(jié)果中提取網(wǎng)頁(yè)的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,從而進(jìn)行網(wǎng)頁(yè)主題的劃分,所述管理模塊用于對(duì)采集得到的文檔進(jìn)行存儲(chǔ),并向用戶顯示系統(tǒng)的監(jiān)測(cè)結(jié)果。

本發(fā)明創(chuàng)造的有益效果:提出一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),通過(guò)對(duì)網(wǎng)絡(luò)上的信息的抓取和科學(xué)有效的分析,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)熱點(diǎn)的有效監(jiān)測(cè)。

附圖說(shuō)明

利用附圖對(duì)發(fā)明創(chuàng)造作進(jìn)一步說(shuō)明,但附圖中的實(shí)施例不構(gòu)成對(duì)本發(fā)明創(chuàng)造的任何限制,對(duì)于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)以下附圖獲得其它的附圖。

圖1是本發(fā)明結(jié)構(gòu)示意圖;

圖2是本發(fā)明輿情分析模塊結(jié)構(gòu)示意圖

圖3是本發(fā)明管理模塊結(jié)構(gòu)示意圖。

附圖標(biāo)記:

信息采集模塊1;輿情預(yù)處理模塊2;輿情分析模塊3;管理模塊4;網(wǎng)頁(yè)表示單元31;主題劃分單元32;信息存儲(chǔ)單元41;信息顯示單元42。

具體實(shí)施方式

結(jié)合以下實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。

參見(jiàn)圖1、圖2和圖3,本實(shí)施例的一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),包括信息采集模塊1、輿情預(yù)處理模塊2、輿情分析模塊3和管理模塊4,所述信息采集模塊1用于對(duì)網(wǎng)絡(luò)上的輿情信息進(jìn)行采集,獲取網(wǎng)頁(yè)數(shù)據(jù),所述輿情預(yù)處理模塊2用于對(duì)獲取的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行噪聲處理以及中文分詞,所述輿情分析模塊3用于從所述中文分詞結(jié)果中提取網(wǎng)頁(yè)的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,進(jìn)而進(jìn)行網(wǎng)頁(yè)主題歸類,所述管理模塊4用于對(duì)采集得到的文檔進(jìn)行存儲(chǔ),并向用戶顯示系統(tǒng)的監(jiān)測(cè)結(jié)果。

優(yōu)選地,所述管理模塊4包括信息存儲(chǔ)單元41和信息顯示單元42,所述信息存儲(chǔ)單元41用于根據(jù)主題歸類結(jié)果對(duì)采集得到的文檔進(jìn)行分類存儲(chǔ),所述信息顯示單元42用于向用戶顯示系統(tǒng)的監(jiān)測(cè)結(jié)果。

本優(yōu)選實(shí)施例提出一種有效的網(wǎng)絡(luò)熱點(diǎn)監(jiān)測(cè)系統(tǒng),通過(guò)對(duì)網(wǎng)絡(luò)上的信息的抓取和科學(xué)有效的分析,實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)熱點(diǎn)的有效監(jiān)測(cè)。

優(yōu)選地,所述輿情分析模塊3包括網(wǎng)頁(yè)表示單元31和主題劃分單元32,所述網(wǎng)頁(yè)表示單元31用于從所述中文分詞結(jié)果中提取能夠反映網(wǎng)頁(yè)主題的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,所述主題劃分單元32用于根據(jù)計(jì)算所得的相似性系數(shù)進(jìn)行采集得到的網(wǎng)頁(yè)主題的劃分。

優(yōu)選地,所述網(wǎng)頁(yè)表示單元31用于從所述中文分詞結(jié)果中提取能夠反映網(wǎng)頁(yè)主題的特征項(xiàng)并計(jì)算所述特征項(xiàng)的權(quán)重,具體包括:

(1)定義采集得到的網(wǎng)頁(yè)中類別為lk(1≤k≤u)的文本有{ck1,ck2,……ckr},則采用一種改進(jìn)的信息增益計(jì)算方法進(jìn)行特征項(xiàng)ti的選擇,具體為:

式中,p(ti)為特征詞ti出現(xiàn)的概率,則為ti不出現(xiàn)的概率,p(ti|li)為特征詞ti存在的文本屬于lk類的概率,為ti不存在的文本屬于lk類的概率,u為類別數(shù),p(lk)為lk類文本出現(xiàn)的概率,c(ti,lk)為lk類文本出現(xiàn)的特征項(xiàng)ti的次數(shù),為特征項(xiàng)ti在采集得到的網(wǎng)頁(yè)中出現(xiàn)次數(shù)的平均數(shù);

將所得的特征詞的信息增益值按從大到小的順序進(jìn)行排列,選取前g個(gè)特征詞作為采集得到的文檔的特征項(xiàng);

(2)定義文本cl的特征項(xiàng)為{tl1,tl2,……tlg},則對(duì)應(yīng)特征項(xiàng)的權(quán)重{ql1,ql2,……qlg}的計(jì)算公式為:

式中,ulr表示特征項(xiàng)tr在文本cl中出現(xiàn)的頻數(shù),max(ur)表示特征項(xiàng)tr在文本集中出現(xiàn)的頻數(shù)的最大值,min(ur)表示特征項(xiàng)tr在文本集中出現(xiàn)的頻數(shù)的最小值,qlr表示特征項(xiàng)tr在文本cl中的權(quán)重,d表示文本集中的文本數(shù)量,dr表示文本集中包含特征項(xiàng)tr的文本數(shù)。

本優(yōu)選實(shí)施例采用一種改進(jìn)的信息增益的計(jì)算方法,增加了特征項(xiàng)的分類能力,有助于選出較有效的特征項(xiàng),此外,采用一種改進(jìn)的權(quán)重計(jì)算方法,相較于傳統(tǒng)的tfidf計(jì)算權(quán)重方法,對(duì)特征項(xiàng)在文本集中出現(xiàn)的頻數(shù)進(jìn)行處理,綜合考慮了特征項(xiàng)在文本集中的總體價(jià)值,充分體現(xiàn)了特征項(xiàng)權(quán)重的重要性。

優(yōu)選地,所述主題劃分單元32用于根據(jù)計(jì)算所得的相似性系數(shù)對(duì)采集得到的網(wǎng)頁(yè)進(jìn)行主題劃分,具體包括:

(1)創(chuàng)建待監(jiān)測(cè)的網(wǎng)絡(luò)熱點(diǎn)領(lǐng)域集合r={r1,r2,……rw},分別定義網(wǎng)絡(luò)熱點(diǎn)領(lǐng)域ri(i=1,2,……w)的主題文檔為ri=(ti1,ti2,……tib),采集得到的文檔為cj=(tj1,tj2,……tjg);

a.計(jì)算采集得到的文檔cj和熱點(diǎn)領(lǐng)域集中的各個(gè)主題文檔ri之間的相似性系數(shù)θi,θi的計(jì)算表達(dá)式如下:

式中,sim(tj,ti)為采集得到的文檔cj中的特征項(xiàng)和主題文檔ri中的各個(gè)特征項(xiàng)之間的概念詞語(yǔ)相似度的加權(quán)平均值,θi為采集得到的文檔cj和主題文檔ri之間的相似性系數(shù),qjh為文檔cj中特征項(xiàng)tjh的權(quán)重,g為文檔cj中的特征項(xiàng)個(gè)數(shù),b為主題文檔中特征項(xiàng)的個(gè)數(shù);

b.計(jì)算采集文檔和各個(gè)主題相似性系數(shù)中的最大相似性系數(shù)θmax,具體為:

(2)定義主題閾值τ,當(dāng)最大相似性系數(shù)θmax大于主題閾值τ時(shí),則θmax對(duì)應(yīng)的主題ri即為采集得到的文檔的主題,當(dāng)最大相似性系數(shù)θmax小于主題閾值τ時(shí),則判斷為主題不相關(guān)網(wǎng)頁(yè),即舍棄采集得到的文檔。

本優(yōu)選實(shí)施例通過(guò)計(jì)算采集得到的文檔與熱點(diǎn)領(lǐng)域集合中主題的相似性系數(shù)的計(jì)算,實(shí)現(xiàn)了對(duì)采集得到的文檔的主題的有效劃分。

最后應(yīng)當(dāng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明保護(hù)范圍的限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明作了詳細(xì)地說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實(shí)質(zhì)和范圍。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
麦盖提县| 新龙县| 茂名市| 广东省| 天祝| 兴和县| 十堰市| 都江堰市| 望奎县| 开阳县| 蕉岭县| 工布江达县| 汾阳市| 滨海县| 海淀区| 丹凤县| 灌阳县| 普洱| 台南县| 革吉县| 阿尔山市| 庆元县| 文登市| 天门市| 云和县| 沁水县| 龙游县| 全椒县| 柳林县| 耿马| 龙州县| 乳源| 五指山市| 吉水县| 抚松县| 虎林市| 泰来县| 巫山县| 安义县| 五家渠市| 阳高县|