一種基于大數(shù)據(jù)的話題抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理領(lǐng)域,具體設(shè)及一種基于大數(shù)據(jù)的話題抽取方法。
【背景技術(shù)】
[0002] 隨著Web2. 0技術(shù)的發(fā)展,互聯(lián)網(wǎng)發(fā)生翻天覆地的變化?;ヂ?lián)網(wǎng)由靜態(tài)網(wǎng)頁和信 息,轉(zhuǎn)變成為人人參與的"群體智慧"的展示平臺。通過博客、微博、BBS、SNS、新聞評論等, 網(wǎng)民可W自由發(fā)布自己的觀點想法和對任何事件進(jìn)行評論。在一個網(wǎng)絡(luò)互聯(lián)的時代,任何 的意見、想法都可能影響一大批人,形成網(wǎng)絡(luò)輿論?,F(xiàn)階段越來越多的事件表明:網(wǎng)絡(luò)輿論 在影響社會輿論發(fā)展趨勢,甚至已經(jīng)作為一種主要社會輿論的方式。網(wǎng)民在網(wǎng)絡(luò)上有意識 或者無意識表達(dá)出來的民情民意,對社會熱點問題的關(guān)注表達(dá)出的價值取向和觀點越來越 具有研究和參考價值。
[0003] 熱點話題和熱點事件的檢測和提取成為近年話題檢測與跟蹤研究的分支之一,從 互聯(lián)網(wǎng)數(shù)據(jù)中,主要是新聞,博客,論壇,社交網(wǎng)站和捜索日志等數(shù)據(jù)中獲取熱點特征組或 者與行為短語,進(jìn)行抽象提取,從而得到熱點話題。由于傳統(tǒng)博客、微博和社交網(wǎng)站上存在 與日俱增的話題和數(shù)據(jù),熱點話題可W提供給用戶捜索關(guān)鍵詞參考,例如,Bai化捜索引擎 中的熱點話題推薦,將獲取的熱點話題進(jìn)行推薦,并能時時更新。運些無疑促使熱點新聞成 為輿論的焦點,廣泛的影響大眾的視線,引導(dǎo)大眾輿論,一定程度上體現(xiàn)民眾的社會政治態(tài) 度。面對多元化的網(wǎng)絡(luò)輿情表達(dá)訴求,倘若不加引導(dǎo),負(fù)面的網(wǎng)絡(luò)輿情將會對社會的公共安 全造成一定的危害。
[0004] 綜上所述,進(jìn)行網(wǎng)絡(luò)輿情分析,實時把控輿情態(tài)勢,形成正面的網(wǎng)絡(luò)輿情環(huán)境,對 于構(gòu)建社會主義和諧社會具有現(xiàn)實指導(dǎo)意義。但是目前針對互聯(lián)網(wǎng)的基于文本觀點挖掘與 分類的方法還是不多,與即時的發(fā)現(xiàn)熱點、分析處理并評估輿論的要求尚有距離,因此,有 必要提供一種基于文本觀點挖掘與分類的方法。此方法應(yīng)用在及時發(fā)現(xiàn)并監(jiān)控網(wǎng)絡(luò)輿情的 熱點話題,有利于讓民眾實時了解社會熱點信息,為政府及相關(guān)部口制定政策提供輔助支 持。加強(qiáng)信息的梳理,保證輿情的及時、準(zhǔn)確和全面,可W有效的預(yù)防不良信息的傳播。 陽〇化]此外,隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應(yīng)用的飛速發(fā)展,全球數(shù)據(jù)量出現(xiàn)了爆炸式增 長。數(shù)據(jù)量的飛速增長預(yù)示著現(xiàn)在已經(jīng)進(jìn)入了大數(shù)據(jù)時代。現(xiàn)有技術(shù)中對大數(shù)據(jù)的處理 采用基于化doop的平臺。化doop是一個開源分布式計算平臺,其核屯、包括皿FS化adoop DistributedFilesSystem,Hadoop分布式文件系統(tǒng))。皿FS的眾多優(yōu)點(主要包括高容 錯性、高伸縮性等)允許用戶將Hadoop部署在低廉的硬件上,搭建分布式集群,構(gòu)成分布式 系統(tǒng)。皿aseOladoopDataBase,化doop數(shù)據(jù)庫)是建立在分布式文件系統(tǒng)皿FS之上的提 供高可靠性、高性能、列存儲、可伸縮、實時讀寫的分布式數(shù)據(jù)庫系統(tǒng),主要用來存儲非結(jié)構(gòu) 化和半結(jié)構(gòu)化的松散數(shù)據(jù)。
【發(fā)明內(nèi)容】
[0006] 為解決現(xiàn)有技術(shù)中存在的問題,本發(fā)明提出一種基于大數(shù)據(jù)的話題抽取方法。
[0007] 本發(fā)明提出的一種基于大數(shù)據(jù)的話題抽取方法,包括:
[0008] 步驟S100,數(shù)據(jù)采集,基于分布式云計算方式對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行數(shù)據(jù)采集,所述數(shù)據(jù) 采集是由網(wǎng)絡(luò)爬蟲來實現(xiàn)的;通過分布式存儲設(shè)備存儲采集的網(wǎng)絡(luò)數(shù)據(jù),所述分布式存儲 設(shè)備基于皿FS實現(xiàn);
[0009] 步驟S200,數(shù)據(jù)預(yù)處理,對步驟S100采集的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,首先對采集的 網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分詞和詞性標(biāo)注處理,然后進(jìn)行標(biāo)點符號處理、表情字符處理和停用詞處理, 最后得到用于表示文本的特征項;
[0010] 步驟S300,話題抽取,基于預(yù)處理后的網(wǎng)絡(luò)數(shù)據(jù),從中抽取出話題。
[0011] 其中,步驟S200進(jìn)一步包括:
[0012] 高質(zhì)量詞匯提取,步驟S200所得到的每一個特征項都隱含一個質(zhì)量值,其反應(yīng)特 征項在文本中的貢獻(xiàn)度,特征項t的質(zhì)量Q(t)表示為:
[0013]
[0014] 其中,N表示所有文檔的數(shù)量,f康示文檔特征項t在文檔i中出現(xiàn)的次數(shù),1康 示特征項t的長度,
[0015] 設(shè)定闊值Q,對于Q(t)〉Q的特征項予W保留,否則刪除。
[0016] 其中,步驟S300包括:對步驟S200預(yù)處理得到的文本進(jìn)行文本聚類,利用層次聚 類算法計算每個類中文本對象的均值,得到k-means算法的初始聚類中屯、。利用k-means 算法通過重新計算每個文本對象與聚類中屯、的距離,修正層次聚類結(jié)果中文本對象的歸 屬類,算法步驟如下:
[0017] (1)確定聚類中屯、的個數(shù)k;
[0018] (2)利用層次聚類的方法對數(shù)據(jù)集進(jìn)行層次聚類分析,得到k個類的均值,將它 們作為k-means的初始聚類中屯、; 陽019] (3)計算每個文本對象與聚類中屯、的距離,將文本對象劃分到離該文本對象最近 的聚類中屯、所代表的簇;
[0020] (4)利用得到的值重新計算每個簇的聚類中屯、;
[0021] (5)重復(fù)(3)和(4),直到每個文本對象所屬的類不再變化為止;
[0022] 聚類結(jié)果所得到的類即確定為話題。
[0023] 優(yōu)選的,本發(fā)明進(jìn)一步包括:
[0024] 確定熱點話題,通過下列公式計算步驟S300所得到的話題的熱度,
[00巧]Ri=曰 1 ?RFi+ 曰 2 ?RTi+ 曰 3 ?CNi+ 曰 4 ?DNi, 陽0%] 其中,Ri表示話題i的熱度,RF1:表示話題i的報道頻率,RT1:表示在預(yù)定的N天 時間內(nèi),對話題i的報道天數(shù)和所有天數(shù)的比值,CNi:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它 的點擊閱讀數(shù)量,DNi:表示話題i在預(yù)定天數(shù)內(nèi)的網(wǎng)民對它的評論數(shù);a1、a,、a3、a4為 權(quán)重系數(shù);當(dāng)Ri大于給定闊值R時,將話題i確定為熱點話題。
[0027] 優(yōu)選的,本發(fā)明中所述網(wǎng)絡(luò)數(shù)據(jù)包括博客、微博、論壇、新聞報道網(wǎng)頁幾個類別的 數(shù)據(jù),對于博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)是分別獨立進(jìn)行話題抽取的,假設(shè)對于 博客、微博、論壇、新聞報道網(wǎng)頁的數(shù)據(jù)所抽取的熱點話題集合分別為化0G、M-BL0G、BBS、 肥WS,計算化0G、M-BL0G、BBS、肥WS的交集,所得到的結(jié)果確定為第一熱點話題集合,計算 化06、1-811)6、865、肥¥8其中每^個集合的交集,所得到的所有結(jié)果的和減去第一熱點話題 集合確定為第二熱點話題集合,計算化0G、M-BLOG、BBS、肥WS其中每二個集合的交集,所得 到的所有結(jié)果的和減去第一熱點話題集合W及第二熱點話題集合確定為第=熱點話題集 合,集合化0G、M-BLOG、BBS、肥WS的和減去第一熱點話題集合、第二熱點話題集合W及第S 熱點話題集合的結(jié)果確定為第四熱點話題集合。
[0028] 本發(fā)明采用分布式的云計算方式,能夠?qū)Υ笠?guī)模采集的各種網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘、 分析;并通過對不同數(shù)據(jù)源數(shù)據(jù)分別進(jìn)行計算分析,得到不同數(shù)據(jù)源的熱點話題,進(jìn)而進(jìn)一 步確定話題的熱度,從而能夠更加客觀的得到當(dāng)前熱點話題。本發(fā)明為黨政機(jī)關(guān)、大型企業(yè) 等單位和組織及時發(fā)現(xiàn)網(wǎng)絡(luò)敏感信息、掌握網(wǎng)絡(luò)輿情熱點、把握網(wǎng)絡(luò)輿情趨勢、應(yīng)對網(wǎng)絡(luò)輿 情危機(jī)提供自動化、系統(tǒng)化和科學(xué)化的信息支持。有效提高了所述網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)判斷 的準(zhǔn)確性,為網(wǎng)絡(luò)微信輿情信息的后續(xù)處理提供了更為真實、準(zhǔn)確的基礎(chǔ)。
【附圖說明】
[0029] 圖1為本發(fā)明話題抽取的流程圖;
【具體實施方式】
[0030] 下面將結(jié)合本發(fā)明的附圖,對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述。運里將詳 細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述設(shè)及附圖時,除非另有表 示,不同附圖中的相同數(shù)字表示相同或相似的要素。W下示例性實施例中所描述的實施方 式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳 述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0031] 參見圖1,本發(fā)明提出的一種基于大數(shù)據(jù)的話題抽取方法。本發(fā)明W下實施方式 主要是W數(shù)據(jù)源為微博的情況為例進(jìn)行說明,對于數(shù)據(jù)源為博客、新聞報道網(wǎng)頁、論壇等情 況,本領(lǐng)域技術(shù)人員能夠根據(jù)所給