輿情監(jiān)控方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種輿情監(jiān)控方法及系統(tǒng),涉及數(shù)據(jù)處理領域,通過采集服務器獲取待處理的文本數(shù)據(jù),處理服務器根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,然后判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設閾值,若是,則確認所述分詞結果為關鍵詞。利用上述系統(tǒng),解決輿情監(jiān)控的處理效率、準確性較低的問題。
【專利說明】
輿情監(jiān)控方法及系統(tǒng)
技術領域
[0001 ]本發(fā)明設及數(shù)據(jù)處理領域,尤其設及一種輿情監(jiān)控方法及系統(tǒng)。
【背景技術】
[0002] 輿情是"輿論情況"的簡稱,網絡輿情監(jiān)控系統(tǒng)是指通過對網絡各類信息進行匯 集、分類、整合、篩選等技術處理后,形成對網絡熱點、動態(tài)、網民意見等實時統(tǒng)計分析的軟 件,它通過對某一主題相關數(shù)據(jù)進行實時抓取、存儲、過濾、和分析,W便對輿情進行動態(tài)式 觀察。
[0003] 目前,輿情監(jiān)控系統(tǒng)是將捜索引擎技術和自然語言處理技術相結合,現(xiàn)有的輿情 監(jiān)控系統(tǒng)處理文本時,利用中文分詞方法結合不同的語義分析算法實現(xiàn)輿情監(jiān)控。但是現(xiàn) 有中文分詞方法中對于人名、地名識別不準確,導致根據(jù)中文分詞而提取的關鍵詞準確率 較低,使得輿情監(jiān)控中文本分析處理的效果較差。
【發(fā)明內容】
[0004] 本發(fā)明提供了輿情監(jiān)控系統(tǒng),為解決輿情監(jiān)控處理效率較低的問題。
[0005] 為了解決上述技術問題,本發(fā)明提供了輿情監(jiān)控方法,該系統(tǒng)包括:
[0006] 獲取待處理的文本數(shù)據(jù);
[0007] 根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,所述基礎詞典包括預置范圍的人名及地 名;
[000引判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設闊值;
[0009] 若是,則確認所述分詞結果為關鍵詞。
[0010] 為了解決上述技術問題,本發(fā)明提供了輿情監(jiān)控系統(tǒng),該系統(tǒng)包括:
[0011] 采集服務器,用于獲取待處理的文本數(shù)據(jù);
[0012] 處理服務器,與所述采集服務器連接,用于根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分 詞,所述基礎詞典包括預置范圍的人名及地名;
[0013] 所述處理服務器,還用于判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于 預設闊值;
[0014] 所述處理服務器,還用于若是,則確認所述分詞結果為關鍵詞。
[0015] 借由上述技術方案,本發(fā)明輿情監(jiān)控系統(tǒng)至少具有下列優(yōu)點:
[0016] 本發(fā)明提供一種輿情監(jiān)控方法及系統(tǒng),通過采集服務器獲取待處理的文本數(shù)據(jù), 處理服務器根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,然后判斷分詞結果與文本主題數(shù)據(jù)的 相關度是否大于或等于預設闊值,若是,則確認所述分詞結果為關鍵詞。與現(xiàn)有技術的關鍵 詞提取及中文分詞相比,本發(fā)明通過根據(jù)基礎詞典對文本數(shù)據(jù)進行分詞,繼而根據(jù)與文本 主題相關度的預置確認出關鍵詞,并基于關鍵詞對文本數(shù)據(jù)進行分析,使得文本W事件的 形式進行展示,提高了輿情監(jiān)控中文處理效率和準確性。
[0017] 上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段, 并可依照說明書的內容予w實施,w下w本發(fā)明的較佳實施例并配合附圖詳細說明如后。
【附圖說明】
[0018] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通 技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0019] 圖1示出了本發(fā)明實施例提供的一種輿情監(jiān)控方法的流程圖;
[0020] 圖2示出了本發(fā)明實施例提供的另一種輿情監(jiān)控方法的流程圖;
[0021] 圖3示出了本發(fā)明實施例提供的一種輿情監(jiān)控系統(tǒng)的結構示意圖;
[0022] 圖4示出了本發(fā)明實施例提供的另一種輿情監(jiān)控系統(tǒng)的結構示意圖。
【具體實施方式】
[0023] 面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的 示例性實施例,然而應當理解,可各種形式實現(xiàn)本公開而不應被運里闡述的實施例所 限制。相反,提供運些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完 整的傳達給本領域的技術人員。
[0024] 本發(fā)明實施例提供的一種輿情監(jiān)控方法,如圖1所示,其中包括:
[00巧]101、獲取待處理的文本數(shù)據(jù)。
[0026] 其中,所述獲取待處理的文本數(shù)據(jù)來源包括新聞、論壇、博客,所述獲取文本數(shù)據(jù) 的方法為爬蟲爬取,W便于將爬取到的文本數(shù)據(jù)立刻進行處理,并保存在當前數(shù)據(jù)庫中,W 便于可W對采集到的文本數(shù)據(jù)進行索引及數(shù)據(jù)管理。
[0027] 102、根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞。
[0028] 其中,所述基礎詞典包括預置范圍的人名及地名,所述預置范圍為包含網絡、詞典 及可W查詢到的所有的人名和地名,所述分詞為將一個漢字序列的句子切分成一個一個單 獨的詞語,即將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,所述基礎詞典的 來源可W包含北京語言大學語料庫、現(xiàn)代漢語詞典第六版、英文縮寫、網絡新詞、縮略語等 本發(fā)明實施例不做具體限定,即可W為基于所述詞源采用統(tǒng)計學方法的分詞器,所述語料 為按照標點符號集對文本數(shù)據(jù)進行句子分割。通過將爬取到的文本數(shù)據(jù)立刻進行分詞處 理,從而實現(xiàn)輿情監(jiān)控的實時處理及實時監(jiān)控。
[0029] 103、判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設闊值。
[0030] 其中,所述文本主題數(shù)據(jù)為文本的題目內容,所述相關度為分詞結果中的詞語與 題目分詞結果中的詞語相近度,所述相近度的闊值可W根據(jù)基礎詞典中的近義詞及與所述 近義詞相似程度進行設定,所述預設闊值可W為1/2、3Λ等,本發(fā)明實施例不做具體限定。
[0031] 104、若判斷分詞結果與文本主題數(shù)據(jù)的相關度大于或等于預設闊值,則確認所述 分詞結果為關鍵詞。
[0032] 其中,所述關鍵詞用于表示文本數(shù)據(jù),W便于利用關鍵詞建立合理的文本數(shù)據(jù)的 向量空間模型。
[0033] 對于本發(fā)明實施例,所述輿情監(jiān)控系統(tǒng)中提供的輿情分析技術可W為文本分類技 術、文本分類技術,可W通過向量空間模型計算文本數(shù)據(jù)之間的相似性。例如,給定一個文 檔D(tl,wl ;t2,w2;…;tn,wn),其中,t為特征項(字、詞或短語),w為特征項t的權重,那么上 述文檔就可W看成是η維空間中的一個向量,其中,提取的關鍵詞可W作為特征項。
[0034] 對于本發(fā)明實施例,具體的應用場景可W如下所示,但不限于此,包括:獲取到一 篇題目為"幼兒園老師打小朋友"的文章,根據(jù)基礎詞典對文本進行分詞,得到詞語"幼兒 園"、"小朋友"、"淘氣V'護'、"體罰"、"老師"、"家長"、"投保'等,判斷出分詞結果中"幼兒 園"、"小朋友"、"打"、"老師"與題目相似度等于相關度1,則"幼兒園"、"小朋友"、"打"、"老 師"為關鍵詞。
[0035] 本發(fā)明提供一種輿情監(jiān)控方法,通過獲取待處理的文本數(shù)據(jù),根據(jù)基礎詞典對所 述文本數(shù)據(jù)進行分詞,然后判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設闊 值,若是,則確認所述分詞結果為關鍵詞。與現(xiàn)有技術的關鍵詞提取及中文分詞相比,本發(fā) 明通過根據(jù)基礎詞典對文本數(shù)據(jù)進行分詞,繼而根據(jù)與文本主題相關度的預置確認出關鍵 詞,并基于關鍵詞對文本數(shù)據(jù)進行分析,使得文本W事件的形式進行展示,提高了輿情監(jiān)控 中文處理效率和準確性。
[0036] 本發(fā)明實施例提供的另一種輿情監(jiān)控方法,如圖2所示,其中包括:
[0037] 201、獲取待處理的文本數(shù)據(jù)。
[0038] 其中,所述獲取待處理的文本數(shù)據(jù)來源包括新聞、論壇、博客,所述獲取文本數(shù)據(jù) 的方法為爬蟲爬取,并將爬取到的文本數(shù)據(jù)保存在當前數(shù)據(jù)庫中,W便于可W對采集到的 文本數(shù)據(jù)進行索引及數(shù)據(jù)管理。
[0039] 202、根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞。
[0040] 其中,所述基礎詞典包括預置范圍的人名及地名,所述預置范圍為包含網絡、詞典 及可W查詢到的所有的人名和地名,所述分詞為將一個漢字序列的句子切分成一個一個單 獨的詞語,即將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,所述基礎詞典的 來源可W包含北京語言大學語料庫、現(xiàn)代漢語詞典第六版、英文縮寫、網絡新詞、縮略語等 本發(fā)明實施例不做具體限定,即可W為基于所述詞源采用統(tǒng)計學方法的分詞器,所述語料 為按照標點符號集對文本數(shù)據(jù)進行句子分割。
[0041] 對于本發(fā)明實施例,步驟202具體可W為:根據(jù)預置統(tǒng)計算法計算所述分詞結果中 人名和地名的成詞闊值,提取成詞闊值大于預設闊值的人名和地名。其中,所述預置統(tǒng)計算 法為數(shù)學計算中的統(tǒng)計算法與基礎詞典相結合的算法,所述成詞闊值為單獨的字或詞組成 人名或地名的概率,所述預設闊值可W人為設定,本發(fā)明實施例不做具體限定。
[0042] 203、判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設闊值。
[0043] 其中,所述文本主題數(shù)據(jù)為文本的題目內容,所述預設闊值可W為1/2、3/5等,本 發(fā)明實施例不做具體限定。
[0044] 204、若判斷分詞結果與文本主題數(shù)據(jù)的相關度大于或等于預設闊值,則確認所述 分詞結果為關鍵詞。
[0045] 其中,所述關鍵詞用于表示文本數(shù)據(jù),W便于利用關鍵詞建立合理的文本數(shù)據(jù)的 向量空間模型。
[0046] 205、根據(jù)所述關鍵詞對所述文本數(shù)據(jù)進行處理分析。
[0047] 其中,所述對所述文本數(shù)據(jù)進行分析可W包括文本自動摘要、文本情感分析、文本 自動分類、事件發(fā)現(xiàn)、熱點事件評估、事件追蹤、事件關聯(lián)、事件短標題、數(shù)據(jù)統(tǒng)計、可視化處 理。所述熱點事件評估通過對熱點事件建立評估模型,對聚類生成的事件進行評分排序,w 便向用戶展示焦點事件。所述事件追蹤可W根據(jù)社會發(fā)生的事件發(fā)展趨勢隨時間的推移而 不斷變化,用于挖掘事件發(fā)展的脈絡和走勢。所述事件關聯(lián)通過擴展監(jiān)測范圍,W便于向用 戶展現(xiàn)、歸納與事件相關的一系列事件。所述事件短標題用于為用戶展現(xiàn)事件的核屯、內容, 從而實現(xiàn)對事件標題的縮減和概括。所述數(shù)據(jù)統(tǒng)計包括統(tǒng)計事件信息、相關媒體、報道量、 正負情感比例等。所述可視化處理為將處理后的文本數(shù)據(jù)進行展示處理,用W向用戶展示 多元化的文本數(shù)據(jù)。通過關鍵詞對文本數(shù)據(jù)進行處理分析,實現(xiàn)為用戶提供不同功能特征 的文本數(shù)據(jù),從而提高輿情監(jiān)控的處理效率。
[0048] 其中,所述文本自動摘要可W為利用計算機實現(xiàn)本文預處理、語義分析,生成摘要 性本文的自動提取技術,摘要字數(shù)控制在150字W內,W便于在用戶查看事件詳情時,顯示 所述事件的所有相關報道內容。文本自動摘要具體可W為:對文本數(shù)據(jù)進行分詞、分句,然 后根據(jù)句子間聚類對文本數(shù)據(jù)進行冗余處理,再根據(jù)句子權重計算識別文本數(shù)據(jù)的重要信 息,最后整合文本摘要。其中,所述冗余信息的識別方法為計算句子間的相似性,所述重要 信息的識別方法為在生成的每個聚類的類簇結果中,選出每個類中最有代表性的句子,W 便于表達運個類別的主要信息。由于句子是由一系列有意義的詞語組合而成,因此衡量句 子的重要程度,可W轉化為計算句子中包含關鍵詞語數(shù)量的程度。所述文摘整合為選取重 要句子按照原文章的位置結構進行整合,同時考慮字數(shù)限制。所述句子間聚類方法可W計 算句子的相似度,包括兩個句子中的詞相似、句子間的詞序相似、句子長度相似,相似度函 數(shù)為:
[0049]
[0050] 句子權重計算公式為
, 所述句子整合為將每組句子類簇的代表句子按句子的權值排序,按文本原有結構進行整 合,整合的過程中考慮字數(shù)限制來進行刪減。
[0051] 對于本發(fā)明實施例,步驟205具體可W為:根據(jù)所述基礎詞典提取所述分詞結果中 具有情感色彩的詞語;根據(jù)情感詞語確認所述詞語的情感極性,所述情感極性包括正向、負 向、中立,W便于計算文本數(shù)據(jù)的情感極性。其中,情感分析處理具體可W為:首先對文本數(shù) 據(jù)進行語料處理,根據(jù)通用情感詞典對語料進行分詞,提取出包含情感詞語的句子,然后根 據(jù)程度詞詞典、情感詞詞典和否定詞詞典對提取的句子進行配置情感極性,W便生成帶有 情感極性的文本數(shù)據(jù),對文本數(shù)據(jù)進行可視化處理,用于為用戶提供帶有情感標簽的文本。 所述情感詞典具體可W為:根據(jù)正、負向情感詞集合并去重后生成基礎詞集,然后通過過濾 提取高頻情感詞集,添加網絡情感詞集后合成最終的通用情感詞集。通過對文本數(shù)據(jù)進行 感情極性的判別,便于用戶根據(jù)喜好來捜索相關文本數(shù)據(jù),從而達到輿情監(jiān)控的目的。
[0052] 其中,所述文本自動分類可W預先設定類別,也可W人為參與分類,分類體系包 括:環(huán)保、反腐、食品、藥品、醫(yī)療、經濟物價、住房、教育、市政市容、交通、公安、國家安全、司 法、計生,所述一個文本數(shù)據(jù)可同時屬于多個分類類別,本發(fā)明不做具體限定。例如,新聞報 道"山東招遠殺人案犯罪嫌疑人被逮捕"既可W劃分到類別"公安",也可W劃分到類別"司 法"中。所述分類方法具體可W為:首先收集已制定的分類文本數(shù)據(jù)的語料,利用機器自動 提取所有類別的關鍵詞集,為了提高分類效果,加入人工參與的方法,修正類別關鍵詞集, 并建立相應的類別模型。在對目標文本數(shù)據(jù)進行自動分類過程中,首先對目標文本數(shù)據(jù)進 行關鍵詞提取,然后對文本數(shù)據(jù)建立可與分類模型進行計算的向量空間模型,將目標文本 數(shù)據(jù)與所有已知分類模型進行相似度比較,繼而分配類別標簽。例如,類別C,提取C中所有 樣本語料的關鍵詞集,利用卡方(X2)統(tǒng)計的方法計算候選關鍵詞集與已知分類的關系,過 濾和修剪候選詞集,提取類別C1的代表詞集。所述卡方(X2)統(tǒng)計方法為假設詞匯t與類別C 之間統(tǒng)計獨立,計算真實與假設的偏差,偏差的大小可W判別假設是否成立,若計算結果的 偏差大,則認為假設不成立,即t與類別C不獨立,就是t與C密切相關,可W用t作為C的關鍵 詞。計算公式為
[0化3]
[0054] 其中,A、B、C、D為文檔數(shù),A為屬于類別Ci且包含詞匯t的文檔數(shù)目,B為不屬于類別 Ci且包含詞匯t的文檔數(shù),C為屬于類別Ci但不包含詞匯t的文檔數(shù),D為不屬于類別Ci且也 不包含詞匯t的文檔數(shù),N為總的文檔數(shù)。通過對文本數(shù)據(jù)信息分類,便于用戶對同類信息的 查找,便于用戶根據(jù)類別喜好選擇所關注的內容。
[0055] 對于本發(fā)明實施例,所述相似度計算采用余弦距離與文本向量空間模型相結合。 文本向量空間模型為將文本映射成一個多維向量,用運個向量代表文本。如果兩個向量相 似,則對應的文本相似。向量實際上是多維空間中有方向的線段。如果兩個向量的方向一 致,即夾角接近零,那么運兩個向量就相近。而要確定兩個向量方向是否一致,則計算余弦 定理計算向量的夾角,具體公式如下:
[0化6]
[0057]其中,分子為兩個向量內積,分母為兩個向量長度的乘積,Vl=(Xl,X2,...,Xn),V2 = (yi,y2,. . .,yn)可W轉換為:
[0化引
[0059]對于本發(fā)明實施例,步驟205具體可W為:為文本數(shù)據(jù)配置文本分類類別;當文本 數(shù)據(jù)中存在與所述類別對應的事件中的關鍵詞匹配的關鍵詞時,則判斷所述文本數(shù)據(jù)中的 關鍵詞個數(shù)是否大于與所述類別對應事件的關鍵詞個數(shù);若是,則根據(jù)預置算法計算所述 文本數(shù)據(jù)與所述事件的距離闊值;若所述距離闊值小于所述類別對應事件的距離闊值,貝U 確認文本數(shù)據(jù)為對應的事件。其中,所述事件若不屬于所述分類下的事件,則創(chuàng)建一個新的 事件。其中,所述文本數(shù)據(jù)中存在與所述類別對應事件中的關鍵詞匹配的關鍵詞為文本數(shù) 據(jù)中的關鍵詞與對應事件中的關鍵詞存在交集,所述距離闊值通過上述余弦定理計算。其 中,所述距離闊值設定的越小代表文本數(shù)據(jù)與對應的事件關系越近,W此可W確認文本數(shù) 據(jù)屬于對應事件,所述事件發(fā)現(xiàn)具體還用于數(shù)據(jù)事件化、事件展現(xiàn)、事件表述、事件具備跟 蹤追加機制、事件需要進行情感分析等。其中,所述事件化為存儲在數(shù)據(jù)庫中的文本數(shù)據(jù)按 照已建立的分類體系形成事件,所述事件展現(xiàn)為系統(tǒng)向用戶展現(xiàn)事件及包含的所有文章, 所述事件描述包括事件標題、事件關鍵詞及其他統(tǒng)計信息,所述事件具備跟蹤追加機制為 預留事件關聯(lián)和事件追蹤的功能,所述事件需要進行情感分析為事件包含的所有文本數(shù)據(jù) 需要進行正負面情感極性的判別。通過對文本數(shù)據(jù)分類確定文本類別標簽;對同一類別下 的文本進行聚類形成多個不同事件,實現(xiàn)基于社會發(fā)生事件的文本數(shù)據(jù)顯示,從而提高輿 情監(jiān)控智能性及準確性。
[0060] 206、接收用戶請求展示指令,所述用戶請求展示指令攜帶有展示信息。
[0061] 其中,所述用戶請求展示指令可W通過用戶觸發(fā)輿情監(jiān)控系統(tǒng)中的按鈕進行操 作,所述展示信息包含展示輿情焦點、監(jiān)測追蹤、捜索,所述輿情焦點還包括焦點事件、熱詞 榜、分類等,所述監(jiān)測追蹤包括事件導讀、事件脈絡、關聯(lián)閱讀、統(tǒng)計信息等,所述捜索包括 事件捜索和其他捜索。
[0062] 207、向用戶展示與所述展示信息對應的處理分析結果。
[0063] 其中,根據(jù)用戶請求展示指令中過攜帶的展示信息向用戶展示與展示信息對應的 文本數(shù)據(jù)。通過向用戶發(fā)送不同展示信息對應的文本數(shù)據(jù),實現(xiàn)展示文本數(shù)據(jù)的多樣性,從 而提高輿情監(jiān)控的處理效率。
[0064] 對于本發(fā)明實施例,具體的應用場景可W如下所示,但不限于此,包括:獲取到一 篇題目為"幼兒園老師打小朋友"的文本,根據(jù)基礎詞典對文本進行分詞,得到詞語"幼兒 園"、"小朋友"、"淘氣V'護'、"體罰"、"老師"、"家長"、"投保'等,判斷出分詞結果中"幼兒 園"、"小朋友"、"打"、"老師"與題目相似度等于相關度1,則"幼兒園"、"小朋友"、"打"、"老 師"為關鍵詞,根據(jù)關鍵詞生成摘要,根據(jù)文本數(shù)據(jù)中"投訴"等情感詞語為文本標注為負面 情感,為文本分類為教育及司法,當用戶觸發(fā)輿情監(jiān)控系統(tǒng)中的教育分類中的負面新聞時, 向用戶展示"幼兒園老師打小朋友"的文本在摘要及關鍵詞,若用戶觸發(fā)"幼兒園老師打小 朋友"標題,則通過索引向用戶展示全文。
[0065] 本發(fā)明提供另一種輿情監(jiān)控方法,通過獲取待處理的文本數(shù)據(jù),根據(jù)基礎詞典對 所述文本數(shù)據(jù)進行分詞,然后判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設 闊值,若是,則確認所述分詞結果為關鍵詞。與現(xiàn)有技術的關鍵詞提取及中文分詞相比,本 發(fā)明通過根據(jù)基礎詞典對文本數(shù)據(jù)進行分詞,繼而根據(jù)與文本主題相關度的預置確認出關 鍵詞,并基于關鍵詞對文本數(shù)據(jù)進行分析,使得文本W事件的形式進行展示,提高了輿情監(jiān) 控中文處理效率和準確性。
[0066] 進一步地,作為圖1所示方法的具體實現(xiàn),本發(fā)明實施例提供一種輿情監(jiān)控系統(tǒng), 如圖3所示,所述系統(tǒng)可W包括:采集服務器31、處理服務器32。
[0067] 采集服務器31,用于獲取待處理的文本數(shù)據(jù);
[0068] 處理服務器32,與所述采集服務器連接,用于根據(jù)基礎詞典對所述文本數(shù)據(jù)進行 分詞,所述詞典包括預置范圍的人名及地名;
[0069] 所述處理服務器32,還用于判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等 于預設闊值;
[0070] 所述處理服務器32,還用于若是,則確認所述分詞結果為關鍵詞。
[0071] 本發(fā)明提供一種輿情監(jiān)控系統(tǒng),通過采集服務器獲取待處理的文本數(shù)據(jù),處理服 務器根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,然后判斷分詞結果與文本主題數(shù)據(jù)的相關度 是否大于或等于預設闊值,若是,則確認所述分詞結果為關鍵詞。與現(xiàn)有技術的關鍵詞提取 及中文分詞相比,本發(fā)明通過根據(jù)基礎詞典對文本數(shù)據(jù)進行分詞,繼而根據(jù)與文本主題相 關度的預置確認出關鍵詞,并基于關鍵詞對文本數(shù)據(jù)進行分析,使得文本w事件的形式進 行展示,提高了輿情監(jiān)控中文處理效率和準確性。
[0072] 進一步地,作為圖2所示方法的具體實現(xiàn),本發(fā)明實施例提供另一種輿情監(jiān)控系 統(tǒng),如圖4所示,所述系統(tǒng)可W包括:采集服務器41、處理服務器42、顯示服務器43。
[0073] 采集服務器41,用于獲取待處理的文本數(shù)據(jù);
[0074] 處理服務器42,與所述采集服務器連接,用于根據(jù)基礎詞典對所述文本數(shù)據(jù)進行 分詞,所述基礎詞典包括預置范圍的人名及地名;
[0075] 所述處理服務器42,還用于判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等 于預設闊值;
[0076] 所述處理服務器42,還用于若是,則確認所述分詞結果為關鍵詞。
[0077] 所述處理服務器42,具體用于根據(jù)預置統(tǒng)計算法計算所述分詞結果中人名和地名 的成詞闊值.
[0078] 所述處理服務器42,具體還用于提取成詞闊值大于預設闊值的人名和地名。
[0079] 所述處理服務器42,還用于根據(jù)所述關鍵詞對所述文本數(shù)據(jù)進行處理分析。
[0080] 進一步地,所述系統(tǒng)包括:
[0081] 顯示服務器43,與所述處理服務器連接,用于接收用戶請求展示指令,所述用戶請 求展示指令攜帶有展示信息;
[0082] 所述顯示服務器43,還用于向用戶展示與所述展示信息對應的處理分析結果。
[0083] 進一步地,所述處理服務器42包括:
[0084] 文本情感分析模塊4201,用于提取所述分詞結果中具有情感色彩的詞語;
[0085] 所述文本情感分析模塊4201,還用于根據(jù)情感詞典確認所述詞語的情感極性,所 述情感極性包括正向、負向、中立,W便于計算文本數(shù)據(jù)信息的情感極性。
[00化]進一步地,所述處理服務器42還包括:
[0087] 事件發(fā)現(xiàn)模塊4202,用于為文本數(shù)據(jù)信息配置文本分類類別;
[0088] 所述事件發(fā)現(xiàn)模塊4202,還用于當文本數(shù)據(jù)中存在與所述類別對應事件中的關鍵 詞匹配的關鍵詞時,則判斷所述文本數(shù)據(jù)信息的關鍵詞是否大于與所述類別對應事件的關 鍵詞個數(shù);
[0089] 所述事件發(fā)現(xiàn)模塊4202,還用于若是,則根據(jù)預置算法計算所述文本數(shù)據(jù)信息與 所述事件的距離闊值;
[0090] 所述事件發(fā)現(xiàn)模塊4202,還用于若所述距離闊值小于所述類別對應的事件的距離 闊值,則確認文本數(shù)據(jù)信息為對應的事件。
[0091] 本發(fā)明提供另一種輿情監(jiān)控系統(tǒng),通過采集服務器獲取待處理的文本數(shù)據(jù),處理 服務器根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,然后判斷分詞結果與文本主題數(shù)據(jù)的相關 度是否大于或等于預設闊值,若是,則確認所述分詞結果為關鍵詞。與現(xiàn)有技術的關鍵詞提 取及中文分詞相比,本發(fā)明通過根據(jù)基礎詞典對文本數(shù)據(jù)進行分詞,繼而根據(jù)與文本主題 相關度的預置確認出關鍵詞,并基于關鍵詞對文本數(shù)據(jù)進行分析,使得文本W事件的形式 進行展示,提高了輿情監(jiān)控中文處理效率和準確性。
[0092] W上所述,僅是本發(fā)明的較佳實施例而已,并非對本發(fā)明作任何形式上的限制,依 據(jù)本發(fā)明的技術實質對W上實施例所作的任何簡單修改、等同變化與修飾,均仍屬于本發(fā) 明技術方案的范圍內。
【主權項】
1. 一種輿情監(jiān)控方法,其特征在于,所述系統(tǒng)包括: 獲取待處理的文本數(shù)據(jù); 根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,所述基礎詞典包括預置范圍的人名及地名; 判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設閾值; 若是,則確認所述分詞結果為關鍵詞。2. 根據(jù)權利要求1所述的輿情監(jiān)控方法,其特征在于,所述根據(jù)基礎詞典對所述文本數(shù) 據(jù)進行分詞,包括: 根據(jù)預置統(tǒng)計算法計算所述分詞結果中人名和地名的成詞閾值; 提取成詞閾值大于預設閾值的人名和地名。3. 根據(jù)權利要求1所述的輿情監(jiān)控方法,其特征在于,所述若是,則確認所述分詞結果 為關鍵詞之后,所述方法還包括: 根據(jù)所述關鍵詞對所述文本數(shù)據(jù)進行處理分析。4. 根據(jù)權利要求3所述的輿情監(jiān)控方法,其特征在于,根據(jù)所述關鍵詞對所述文本數(shù)據(jù) 進行處理分析之后,所述方法還包括: 接收用戶請求展示指令,所述用戶請求展示指令攜帶有展示信息; 向用戶展示與所述展示信息對應的處理分析結果。5. 根據(jù)權利要求3所述的輿情監(jiān)控方法,其特征在于,根據(jù)所述關鍵詞對所述文本數(shù)據(jù) 進行處理分析包括: 根據(jù)所述基礎詞典提取所述分詞結果中具有情感色彩的詞語; 根據(jù)情感詞語確認所述詞語的情感極性,所述情感極性包括正向、負向、中立,以便于 計算文本數(shù)據(jù)的情感極性。6. 根據(jù)權利要求3所述的輿情監(jiān)控方法,其特征在于,根據(jù)所述關鍵詞對所述文本數(shù)據(jù) 進行處理分析包括: 為文本數(shù)據(jù)配置文本分類類別; 當文本數(shù)據(jù)中存在與所述類別對應事件中的關鍵詞匹配的關鍵詞時,則判斷所述文本 數(shù)據(jù)中的關鍵詞個數(shù)是否大于與所述類別對應事件的關鍵詞個數(shù); 若是,則根據(jù)預置算法計算所述文本數(shù)據(jù)與所述事件的距離閾值; 若所述距離閾值小于所述類別對應事件的距離閾值,則確認文本數(shù)據(jù)為對應的事件。7. -種輿情監(jiān)控系統(tǒng),其特征在于,所述系統(tǒng)包括: 采集服務器,用于獲取待處理的文本數(shù)據(jù); 處理服務器,與所述采集服務器連接,用于根據(jù)基礎詞典對所述文本數(shù)據(jù)進行分詞,所 述基礎詞典包括預置范圍的人名及地名; 所述處理服務器,還用于判斷分詞結果與文本主題數(shù)據(jù)的相關度是否大于或等于預設 閾值; 所述處理服務器,還用于若是,則確認所述分詞結果為關鍵詞。8. 根據(jù)權利要求7所述的輿情監(jiān)控系統(tǒng),其特征在于, 所述處理服務器,具體用于根據(jù)預置統(tǒng)計算法計算所述分詞結果中人名和地名的成詞 閾值; 所述處理服務器,具體還用于提取成詞閾值大于預設閾值的人名和地名。9. 根據(jù)權利要求7所述的輿情監(jiān)控系統(tǒng),其特征在于, 所述處理服務器,還用于根據(jù)所述關鍵詞對所述文本數(shù)據(jù)進行處理分析。10. 根據(jù)權利要求9所述的輿情監(jiān)控系統(tǒng),其特征在于,所述系統(tǒng)還包括:顯示服務器, 所述顯示服務器,與所述處理服務器連接,用于接收用戶請求展示指令,所述用戶請求 展示指令攜帶有展示信息; 所述顯示服務器,還用于向用戶展示與所述展示信息對應的處理分析結果。11. 根據(jù)權利要求9所述的輿情監(jiān)控系統(tǒng),其特征在于,所述處理服務器包括; 文本情感分析模塊,用于提取所述分詞結果中具有情感色彩的詞語; 所述文本情感分析模塊,還用于根據(jù)情感詞典確認所述詞語的情感極性,所述情感極 性包括正向、負向、中立,以便于計算文本數(shù)據(jù)信息的情感極性。12. 根據(jù)權利要求9所述的輿情監(jiān)控系統(tǒng),其特征在于,所述處理服務器包括; 事件發(fā)現(xiàn)模塊,用于為文本數(shù)據(jù)信息配置文本分類類別; 所述事件發(fā)現(xiàn)模塊,還用于當文本數(shù)據(jù)中存在與所述類別對應事件中的關鍵詞匹配的 關鍵詞時,則判斷所述文本數(shù)據(jù)信息的關鍵詞是否大于與所述類別對應事件的關鍵詞個 數(shù); 所述事件發(fā)現(xiàn)模塊,還用于若是,則根據(jù)預置算法計算所述文本數(shù)據(jù)信息與所述事件 的距離閾值; 所述事件發(fā)現(xiàn)模塊,還用于若所述距離閾值小于所述類別對應事件的距離閾值,則確 認文本數(shù)據(jù)信息為對應的事件。
【文檔編號】G06F17/27GK105824959SQ201610201194
【公開日】2016年8月3日
【申請日】2016年3月31日
【發(fā)明人】郭洪韜, 龔承亮, 陳道新, 董利鋼, 聶欣慧, 趙振川
【申請人】首都信息發(fā)展股份有限公司