欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法與流程

文檔序號:11407425閱讀:439來源:國知局
一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法與流程

本發(fā)明屬于網(wǎng)絡(luò)輿情監(jiān)測技術(shù)領(lǐng)域,更為具體地講,涉及一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展和相關(guān)應(yīng)用的迅速普及,每個人不再僅僅是信息的消費(fèi)者,更是信息的生產(chǎn)者,網(wǎng)民可以借助于電腦,手機(jī)等網(wǎng)絡(luò)終端,隨時隨地在微博、社交、新聞、博客等各種網(wǎng)站上進(jìn)行信息獲取或發(fā)布,還有許多已有的商業(yè)門戶網(wǎng)站都會為用戶收集并提供豐富的新聞報道給用戶,比如新浪、網(wǎng)易等.然而,報道內(nèi)容一般由新聞編輯人工編寫,帶有一定的主觀性,而且新聞數(shù)量非常龐大.如果參考多個門戶網(wǎng)站的報道,很難對關(guān)心的新聞事件有一個清晰準(zhǔn)確的認(rèn)識.在社交媒體平臺上,新聞話題多來源于事件現(xiàn)場的用戶實時發(fā)布的消息,或者具有較高影響力用戶的及時推送,經(jīng)由多人進(jìn)行評論和轉(zhuǎn)發(fā)分享,相互交換意見,使得該新聞事件得以廣泛迅速地傳播開來,其發(fā)展動態(tài)也易于被人們追蹤.例如微博,用戶在該平臺上發(fā)布的豐富而又全面的內(nèi)容不僅創(chuàng)造了人們在社交網(wǎng)絡(luò)中爭相討論的一個又一個熱門話題,更是吸引了眾多傳統(tǒng)媒體利用微博來對相關(guān)事件做進(jìn)一步的跟進(jìn)。

正是由于這種互聯(lián)網(wǎng)數(shù)據(jù)爆炸性的增長,以及其具有快餐化、碎片化等特點(diǎn),導(dǎo)致信息過載、缺乏完整性問題愈發(fā)明顯,快節(jié)奏的人們對于時刻涌現(xiàn)的眾多新信息感到無所適從,但人們又迫切希望能夠及時快速的了解社會上正在討論的熱點(diǎn)話題,熱點(diǎn)話題的特點(diǎn)是時效性、多樣性、概括性等等。

如何高效的在互聯(lián)網(wǎng)中挖掘出有效的信息,網(wǎng)絡(luò)監(jiān)控中面臨著許多艱巨的課題,例如,用戶對于網(wǎng)絡(luò)監(jiān)控的智能化越來越高,從少量數(shù)據(jù)文本中得到熱點(diǎn)不符合現(xiàn)代的網(wǎng)絡(luò)監(jiān)控;網(wǎng)絡(luò)信息的多樣化,在數(shù)據(jù)挖掘的過程中,我們面臨的不再是簡單少量的文本信息……在這種大背景下,熱點(diǎn)話題檢測技術(shù)作為能夠自動發(fā)現(xiàn)和組織網(wǎng)絡(luò)信息的語義關(guān)聯(lián)、幫助用戶快速獲取網(wǎng)絡(luò)信息全貌的數(shù)據(jù)挖掘技術(shù),近年來引起了學(xué)術(shù)界和工業(yè)界的強(qiáng)烈關(guān)注。

作為信息處理領(lǐng)域中備受關(guān)注的研究熱點(diǎn),輿情話題檢測與追蹤技術(shù)在發(fā)展初期將新聞媒體信息流作為研究對象,通過監(jiān)控新聞描述的話題,發(fā)現(xiàn)新的用戶感興趣的信息并追蹤下去,最后將涉及某個話題的新聞組織起來以某種方式呈現(xiàn)給用戶。而后由于計算機(jī)技術(shù)的飛速發(fā)展和互聯(lián)網(wǎng)的廣泛普及,社交媒體逐漸流行起來,于是研究人員將目光投向了彼時具有代表性的博客、郵件、社區(qū)和論壇等社交媒體形式。不同于新聞報道的語言規(guī)范性和內(nèi)容有效性,社交媒體文本內(nèi)容隨意性較強(qiáng),且充斥著大量的無價值信息,文檔之間的關(guān)聯(lián)性也較低。面對不斷涌現(xiàn)的海量的互聯(lián)網(wǎng)信息,簡單的人工監(jiān)管難度很大,傳統(tǒng)的熱點(diǎn)話題發(fā)現(xiàn)技術(shù),都是針對少量的文本且文本內(nèi)容少,熱點(diǎn)檢測的手段一般是通過從已知的話題中搜索,如果有就加入到原熱點(diǎn)話題中,以提高它的熱度,以及后續(xù)的追蹤,但是原來的熱點(diǎn)話題中不存在這個話題,我們就要創(chuàng)建一個新的熱點(diǎn)話題,添加到熱點(diǎn)話題中,以便后來的加入,這就是追蹤。但是這種檢測與追蹤技術(shù),本身是針對文檔數(shù)目少,如果是面對海量的互聯(lián)網(wǎng)信息,采用傳統(tǒng)話題檢測技術(shù),很難滿足如此大量而且持續(xù)性的信息流中檢測熱點(diǎn)話題的實際應(yīng)用需要,即使能夠檢測,也是時間復(fù)雜度非常高,延時非常明顯,而用戶的精力卻十分有限,不可能通過閱讀所有文檔來獲取相關(guān)話題的有用知識.因此,用戶體驗非常糟糕,而用戶又往往希望能及時快速的了解目前網(wǎng)民正在討論的事件或者話題,因此對熱點(diǎn)話題的檢測速度上有進(jìn)一步的提升,不僅在時間上的提升,更是在數(shù)量的提升。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法,基于關(guān)鍵詞提取熱點(diǎn)話題,實現(xiàn)每日熱點(diǎn)主題的發(fā)現(xiàn)和追蹤。

為實現(xiàn)上述發(fā)明目的,本發(fā)明一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法,其特征在于,包括以下步驟:

(1)、通過爬蟲爬取海量的文本數(shù)據(jù),再將這些文本數(shù)據(jù)統(tǒng)一成txt文本格式,并儲存到數(shù)據(jù)庫中;

(2)、提取數(shù)據(jù)庫中的文本數(shù)據(jù),再利用中文分詞包對文本數(shù)據(jù)進(jìn)行分詞處理,得到由詞語組成的語料庫;

(3)、將語料庫等均分為m個塊,再利用停用詞表和過濾規(guī)則對每塊語料庫中的分詞結(jié)果進(jìn)行過濾,得到m個塊的塊候選詞集;

(4)、對第p塊(p=1,2,…,m)塊候選詞集中第i個候選關(guān)鍵詞進(jìn)行tfidf賦權(quán),得到m個賦權(quán)后的塊候選詞集;

(4.1)、計算第p塊中第i個候選關(guān)鍵詞在第j篇文本中出現(xiàn)的頻率

其中,表示第p塊中第i個候選關(guān)鍵詞在第j篇文本中出現(xiàn)的次數(shù),表示第p塊中所有候選關(guān)鍵詞在第j篇文本中出現(xiàn)的次數(shù)之和,k表示第p塊中第j篇文本所有候選關(guān)鍵詞的總數(shù)量;

(4.2)、計算第p塊中第i個候選關(guān)鍵詞的普遍重要性度量idfip

其中,|dp|表示第p塊中的文本的總數(shù)目,|ip|表示第p塊中包含第i個候選關(guān)鍵詞的文本數(shù)目;

(4.3)、計算第p塊中第i個候選關(guān)鍵詞在第j篇文本中的權(quán)值

(4.4)、按照步驟(4.1)-(4.3)所述方法,繼續(xù)處理第p塊中第j篇文本剩余k-1個候選關(guān)鍵詞,然后再處理第p塊中的其他文本,當(dāng)?shù)趐塊塊候選詞集處理完成后,按照步驟(4.1)-(4.3)所述方法,繼續(xù)處理剩余的塊候選詞集,最終得到m個賦權(quán)后的塊候選詞集;

(5)、獲取基準(zhǔn)文本

(5.1)、在第p塊賦權(quán)后的塊候選詞集中,選出相同的候選關(guān)鍵詞,并將相同的候選關(guān)鍵詞對應(yīng)的權(quán)值相加,不同的候選關(guān)鍵詞保持原有的權(quán)值,完成第p塊賦權(quán)后的塊候選詞集的去重處理,從而得到塊關(guān)鍵詞集;

(5.2)、將塊關(guān)鍵詞集中對應(yīng)候選關(guān)鍵詞的權(quán)值進(jìn)行降序排列,再以權(quán)值最大的候選關(guān)鍵詞為基準(zhǔn),在第p塊塊候選詞集中找到包含該候選關(guān)鍵詞的第一篇文本,并標(biāo)記為基準(zhǔn)文本;

(5.3)、按照步驟(5.1)-(5.2)所述方法,繼續(xù)處理剩余賦權(quán)后的塊候選詞集,最終得到m篇基準(zhǔn)文本;

(6)、求取文本集合

(6.1)、找出第p塊塊關(guān)鍵詞集中對應(yīng)的基準(zhǔn)文本,再利用該基準(zhǔn)文本中的候選關(guān)鍵詞對應(yīng)的權(quán)值組成權(quán)值向量w0;

(6.2)、找出第p塊塊關(guān)鍵詞集中其它文本,再分別利用這些文本中的候選關(guān)鍵詞對應(yīng)的權(quán)值組成權(quán)值向量w1,w2,…,wt…,wt,t表示第p塊塊關(guān)鍵詞集中包含文本的總數(shù)目;

(6.3)、利用余弦相似度公式計算出第p塊塊關(guān)鍵詞集中其它文本與基準(zhǔn)文本的相似度余弦值;

(6.4)、利用第p塊塊關(guān)鍵詞集中的t個相似度余弦值組成余弦向量q,再利用余弦向量q中的每一個向量與預(yù)設(shè)的閾值θ作比較,如果某一向量大于預(yù)設(shè)的閾值θ,那么判定該向量對應(yīng)的文本與基準(zhǔn)文本的相似度高,并把該文本和基準(zhǔn)文本一起加入到文本集合

(6.5)、按照步驟(6.1)-(6.4)所述方法,繼續(xù)處理剩余塊關(guān)鍵詞集,最終得到m個文本集合

(7)、在文本集合中,將文本中重復(fù)出現(xiàn)的候選關(guān)鍵詞的詞頻加1,進(jìn)而統(tǒng)計出文本中所有候選關(guān)鍵詞的詞頻,再將詞頻進(jìn)行降序排列,取出前l(fā)個候選關(guān)鍵詞作為熱點(diǎn)關(guān)鍵詞,并用這些熱點(diǎn)關(guān)鍵詞標(biāo)記為文本集合的熱點(diǎn)主題同理,得到剩余m-1個熱點(diǎn)主題;

(8)、在第p塊塊候選詞集中,剔除文本集合中出現(xiàn)的相似文本,將剩余文本組成的塊候選詞集按照步驟(4)-(7)所述方法,提取到h-1個熱點(diǎn)主題同理,在剩余的m-1個塊候選詞集中分別提取出h-1個熱點(diǎn)主題;

(9)、將m個塊候選詞集中分別得到h個熱點(diǎn)主題對應(yīng)的所有文本分別存入到對應(yīng)塊的熱點(diǎn)文本集合中,再將m個熱點(diǎn)文本集合組合起來作為語料庫,按照步驟(3)所述方法,提取候選關(guān)鍵詞集,然后重復(fù)步驟(4)-(7)所述方法,獲取更多的熱點(diǎn)主題。

本發(fā)明的發(fā)明目的是這樣實現(xiàn)的:

本發(fā)明一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法,將海量的數(shù)據(jù)統(tǒng)一格式,分詞處理形成語料庫。對語料庫并行化分塊處理,對每塊進(jìn)行相同的預(yù)處理得到每塊的候選詞集,然后對每一塊中每個文本的候選詞都進(jìn)行tfidf賦權(quán),接著對每一塊賦權(quán)之后候選詞集通過去重處理,得到基準(zhǔn)文檔;接著將每一塊基準(zhǔn)文本與塊中其他文本作余弦相似度處理,提取出與基準(zhǔn)文本相似的文本,對每一塊中這些相似文本中的候選關(guān)鍵詞集通過詞頻降序排列找到這些相似文本的熱點(diǎn)主題,然后在每一塊總文本候選關(guān)鍵詞集中剔除掉這些上面相似的文本的候選關(guān)鍵詞集,對每一塊中的文本重新tfidf賦權(quán),找基準(zhǔn)文本,余弦相似度處理,得到每個塊中若干個熱點(diǎn)主題。最后我們每一塊中的熱點(diǎn)主題對應(yīng)的候選關(guān)鍵詞集合并起來形成一個新的候選關(guān)鍵詞集,然后將每一塊這些新的候選關(guān)鍵詞集全部合并起來形成一個大的候選關(guān)鍵詞集,重復(fù)上面的步驟,找出這個大的候選關(guān)鍵詞的若干個熱點(diǎn)主題,這就是從熱點(diǎn)主題中提取出熱點(diǎn)話題,更能代表這些海量數(shù)據(jù)的主要的觀點(diǎn)。

同時,本發(fā)明一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法還具有以下有益效果:

(1)、通過對文本數(shù)據(jù)并行化處理,對于每一塊中文本,由于有大量的文本并不是熱點(diǎn),通過并行化只要熱點(diǎn)話題總文本包含該塊中半數(shù)文本左右,我們可以刪掉那些無用的文本。這種方法遠(yuǎn)比整體處理得到熱點(diǎn)主題速度快的多,因為大量無用的文本拖累運(yùn)行的速度,而且分塊處理彌補(bǔ)整體處理時候出現(xiàn)內(nèi)存不足的缺陷。這樣可以提高我們的效率,更快的得到結(jié)果。

(2)、在tfidf賦權(quán)中,我們得到的權(quán)重比整體處理得到的權(quán)重更加的準(zhǔn)確,因為計算機(jī)計算結(jié)果有一定位數(shù)限制。由于分塊處理,這些文本數(shù)量減少,不僅在計算速度上得到提高,而且在計算精度上得到保證。tfidf賦權(quán)是下面處理的重要基礎(chǔ),因此,tfidf是要得到保證的。

(3)、這種方法的最大優(yōu)點(diǎn)就是從熱點(diǎn)主題中提取出熱點(diǎn)主題,這個是前面沒人做過的,而且得到的效果理想,完全可以得到我們所需要的結(jié)果。

附圖說明

圖1是本發(fā)明基于關(guān)鍵詞提取熱點(diǎn)話題的方法流程圖;

圖2是塊候選詞集中每個文本的每個候選關(guān)鍵的權(quán)重示意圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明的具體實施方式進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計的詳細(xì)描述也許會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。

實施例

圖1是本發(fā)明基于關(guān)鍵詞提取熱點(diǎn)話題的方法流程圖。

在本實施例中,如圖1所示,本發(fā)明一種基于關(guān)鍵詞提取熱點(diǎn)話題的方法,包括以下步驟:

s1、通過爬蟲爬取各大新聞網(wǎng)站,例如:新浪、百度、騰訊……,爬取當(dāng)日的100個新聞文本數(shù)據(jù)集a,再將這些文本數(shù)據(jù)統(tǒng)一成txt文本格式,并儲存到數(shù)據(jù)庫中;

a=['駕校服務(wù)、收費(fèi)不公開不透明;……對未提交體檢證明被注銷駕駛證的人員,按規(guī)定體檢合格后可以恢復(fù)駕駛資格。','民警到醫(yī)院為老人拍照換證。“老人家……我們也是帶著設(shè)備去了家里為其換發(fā)證件,對于這種特殊情況,家人可以通過電話告知我們,我們也將安排民警上門辦理?!?,……,'主場0:1負(fù)敘利亞,留給國足的時間不多了“福地”西安,……國足的攻擊無力,更值得詬病。接下來,12強(qiáng)賽的對手比敘利亞都只強(qiáng)不弱,背水一戰(zhàn)的國足把進(jìn)攻打出章法、氣勢的同時,選擇一個更穩(wěn)妥的門將,是當(dāng)務(wù)之急',……];

在本實施例中,文本數(shù)據(jù)還可以統(tǒng)一成csv,json等多種文本格式。

s2、提取數(shù)據(jù)庫中的文本數(shù)據(jù),再利用中文分詞包對文本數(shù)據(jù)進(jìn)行分詞處理,得到由這些文本中的詞語所組成的語料庫b。

b=['駕校','服務(wù)','收費(fèi)','公開','透明','考試','科目','三四','來回','駕照','經(jīng)歷','心中','10月','13日','華西','都市','省政府','獲悉','旨在','改變','四川省','機(jī)動車','駕駛','培訓(xùn)','考試','制度','改革','實施','方案','簡稱',……,'馬瓦斯','驅(qū)動','驅(qū)逐','駕校','駕照','駕車','駕駛','駕駛證','高壓','高射炮','高峰','高度','高新技術(shù)','高洪波','高等學(xué)校','高翔','高額','麻將','黃博文','黯然','鼓勵','龍泉驛區(qū)',……];

s3、將語料庫等均分為2個塊,再利用停用詞表和過濾規(guī)則對每塊語料庫中的分詞結(jié)果進(jìn)行過濾,得到2個塊的塊候選詞集,這2個塊的候選關(guān)鍵詞集分別為:

1=[['駕校','服務(wù)','收費(fèi)','公開','透明','考試','科目','三四','來回','駕照','經(jīng)歷','心中','10月','13日','華西','都市','省政府','獲悉','旨在','改變','四川省','機(jī)動車','駕駛','培訓(xùn)','考試','制度','改革','實施','方案','簡稱',……'培訓(xùn)','機(jī)構(gòu)','殘疾人','駕駛','培訓(xùn)','調(diào)整','老齡','駕駛','體檢','身體','檢查','年齡','60','周歲','調(diào)整','70','周歲','提交','體檢','證明','注銷','駕駛證','人員','體檢','合格','恢復(fù)','駕駛','資格','華西','都市'],……,['觸電','影視圈','作家','群體','國內(nèi)','實力派','作家','劉震云','無疑','影視','編劇','參與','電影','手機(jī)','馮小剛','電影','演員','身份','2016年','劉震云','電影','作品','觀眾','見面','參與','影視','馮小剛','導(dǎo)演','改編','小說','一萬','女兒','劉雨霖','導(dǎo)演','電影',……','打破','文藝','商業(yè)','實踐','檢驗','傅園','充滿','信心','華西','都市','張杰']];

2=[['四川','日報','教育','部門','保障','戶口','辦理','戶口','登記','適齡','兒童','接受','義務(wù)教育','辦理','入學(xué)','辦理','戶口','登記','手續(xù)','省政府','辦公廳','近日','下發(fā)','規(guī)范','人口','登記','管理','通知','簡稱','通知','提出','通知','全省','切實','做好','戶口','人員','清理','登記','落戶','清理','核查','死亡','戶口','人員','戶口','人員','底數(shù)','務(wù)必','摸清','摸清','戶口','人員','底數(shù)','戶口','人員','落戶','首要','通知',……,'戶口','原籍','農(nóng)村','遷移','居住地','轉(zhuǎn)為','城鎮(zhèn)','居民','戶口','四川','日報'],……,['7月','11日','四川','林業(yè)廳','四川','日報','集團(tuán)','指導(dǎo)','華西','都市','聯(lián)合','四川省','學(xué)會','協(xié)會','發(fā)起','推薦','四川省','活動','7月','13日','開啟','投票',……,'實習(xí)生','艷麗','投票','關(guān)注','華西','都市','官方','投票','關(guān)注','華西','市報','公眾','對話框','頁面','選擇','投票','投票','投票']];

為了快速處理得到我們所需的結(jié)果,我把上面所有文檔所組成的語料庫進(jìn)行分塊處理,盡量使每一塊文本語料庫保證均勻;然后對每一塊文本語料庫進(jìn)行預(yù)處理,預(yù)處理就是利用停用詞表和過濾規(guī)則對分詞結(jié)果進(jìn)行過濾,其中,停用詞表中包括助詞、介詞、連詞等虛詞以及詞語長度為1的無實際含義的詞。對于規(guī)則明顯的無用串,如頻繁出現(xiàn)的數(shù)詞與量詞的搭配、一些常見但無意義的前后綴等,設(shè)計相應(yīng)的規(guī)則進(jìn)行過濾。

s4、對每一塊候選詞集中每個文本的每個候選關(guān)鍵詞進(jìn)行tfidf賦權(quán),對于tfidf賦權(quán),我們首先計算每個候選關(guān)鍵詞的tf,然后我們計算每個候選關(guān)鍵詞的idf,最后我們可以得到每個候選關(guān)鍵詞的tfidf的權(quán)值。這兩塊的權(quán)重矩陣,如圖2所示,其中,行代表每篇文本,列代表候選關(guān)鍵詞的權(quán)值;

s5、在每一塊賦權(quán)后的塊候選詞集中,選出相同的候選關(guān)鍵詞,并將相同的候選關(guān)鍵詞對應(yīng)的權(quán)值相加,不同的候選關(guān)鍵詞保持原有的權(quán)值,完成每一塊賦權(quán)后的塊候選詞集的去重處理,從而得到塊關(guān)鍵詞集;

第1塊塊關(guān)鍵詞集:[……'公交','公交化','公眾','公元前','公共','公共場所','公關(guān)','公務(wù)','公務(wù)員','公司','公告','公園','公安廳','公安局','公安部','公布','公平','公開','公開賽','公斤','公款','公正','公民','公益','公認(rèn)','公路','公里','六七十','六甲','共享','共有','共計','關(guān)乎','關(guān)切','關(guān)心','關(guān)注','關(guān)愛','關(guān)系','關(guān)鍵','關(guān)鍵詞','關(guān)門','關(guān)閉','興奮','興奮點(diǎn)','興文縣','興趣',……];

第2塊塊關(guān)鍵詞集:[……'公主','公交','公眾','公公','公共','公務(wù)員','公廁','公司','公告','公園','公安局','公寓','公布','公開','公斤','公民','公路','公里','共享','共度','共有','共計','共鳴','關(guān)心','關(guān)掉','關(guān)機(jī)','關(guān)注','關(guān)系','關(guān)聯(lián)','關(guān)鍵','興業(yè)','興城','興奮','興奮劑','其時','其父','具備','典型','典范','養(yǎng)老金','內(nèi)外','內(nèi)容','內(nèi)心'……];

對每一塊候選詞集按照權(quán)重大小降序排列,提取出權(quán)重最大的那個關(guān)鍵詞,然后從每一塊候選關(guān)鍵詞集找到包涵這個關(guān)鍵詞的文本,我把它定義為基準(zhǔn)文本。每一塊的基準(zhǔn)文本,用文本對應(yīng)的索引值表示。第1塊的文本索引值為1,第二塊對應(yīng)的文本索引值為32。

s6、對每一塊基準(zhǔn)文本中的候選關(guān)鍵詞對應(yīng)的權(quán)值組成權(quán)值向量w0,分別與每一塊中其他文本的候選關(guān)鍵詞對應(yīng)的權(quán)值組成權(quán)值向量w1,w2,…,wt…,w49,作余弦相似度計算,每一塊得到一個余弦向量q,將余弦向量q中每一個值與我設(shè)定的閾值0.5作比較,大于我們閾值0.5的余弦值所對應(yīng)的文本加入到基準(zhǔn)文本中,因為兩個文本的相似度很高。

s7、將每一塊的這些相似文本所對應(yīng)的候選關(guān)鍵詞提取出來,按照詞頻按照從大到小的順序排列,然后取前面6個就是這些文本所對應(yīng)的文本主題。

第1個塊第一個熱點(diǎn)主題:景區(qū)高速交通車輛改造道路;

第2個塊第一個熱點(diǎn)主題:創(chuàng)業(yè)汽車市場改革加速項目;

s8、將每一塊中塊候選詞集剔除上面對應(yīng)的相似文本的候選詞集,重復(fù)s4-s8的步驟,得到其他的熱點(diǎn)主題,我主要找到每個塊中接下來3個熱點(diǎn)主題。

第1個塊第二個熱點(diǎn)主題:演唱會王菲音樂發(fā)布會譚維維自然;

第1個塊第三個熱點(diǎn)主題:比賽球迷機(jī)會顧超張繼科球員;

第1個塊第四個熱點(diǎn)主題:文化南充研究文物博物館四川;

第2個塊第二個熱點(diǎn)主題:城市發(fā)展雙流建設(shè)機(jī)場簡陽;

第2個塊第三個熱點(diǎn)主題:任茜跳水奧運(yùn)會比賽金牌女子;

第2個塊第四個熱點(diǎn)主題:大道路口交叉口調(diào)頭機(jī)動車公交;

s9、將每個塊里面的這些熱點(diǎn)主題所對應(yīng)的文本的候選詞集提取出來組成一個新的候選詞集。將每一塊新的候選詞集組合起來形成一個更大的候選詞集,然后重復(fù)s4-s8的步驟,提取出最能代表整個數(shù)據(jù)集大部分文本內(nèi)容的熱點(diǎn)主題。

第一個熱點(diǎn)主題:城市發(fā)展健康成都雙流建設(shè);

第二個熱點(diǎn)主題:汽車改革服務(wù)電池行業(yè)市場;

第三個熱點(diǎn)主題:景區(qū)高速交通車輛改造管制;

第四個熱點(diǎn)主題:任茜跳水奧運(yùn)會比賽金牌女子;

盡管上面對本發(fā)明說明性的具體實施方式進(jìn)行了描述,以便于本技術(shù)領(lǐng)域的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實施方式的范圍,對本技術(shù)領(lǐng)域的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
赤壁市| 临洮县| 阳春市| 陈巴尔虎旗| 临夏县| 关岭| 湘潭县| 墨竹工卡县| 廉江市| 奈曼旗| 金门县| 新昌县| 娄烦县| 新巴尔虎右旗| 犍为县| 云龙县| 龙泉市| 中卫市| 苏尼特右旗| 定兴县| 邵阳县| 濉溪县| 垦利县| 崇阳县| 上犹县| 盖州市| 陇西县| 新巴尔虎左旗| 和龙市| 铁力市| 鲜城| 大冶市| 鄂托克旗| 余姚市| 台山市| 滨海县| 新民市| 石渠县| 大田县| 观塘区| 扶绥县|