組織機構等,在從所采集的各文本文件中 分別抽取與各個類別名相關的命名實體以及與各個關系字相關的命名實體的屬性之后,將 各文本文件中分別抽取的與時間和/或地點相關的命名實體進行歸一化處理,得到時間和 /或地點歸一化的命名實體。
[0082] 所述關聯(lián)模塊203根據(jù)命名實體的屬性,對所采集的各文本文件中的命名實體分 別進行關聯(lián)性處理,得到各個命名實體之間的實體關系。具體地說,所述關聯(lián)模塊203在所 采集的各文本文件中,根據(jù)命名實體及其屬性滿足預定的語法排列規(guī)則,確定命名實體及 其關系屬性在文本文件中的位置,并利用所確定的命名實體及其關系屬性在文本文件中的 位置,將與所述鄰近的命名實體進行關聯(lián),從而得到相關聯(lián)的命名實體之間的實體關系,實 現(xiàn)實體關系的識別與提取。
[0083] 所述綁定模塊204根據(jù)預定義事件名,查找與其有關的命名實體,并將預定義事 件名與查找到的命名實體進行綁定。具體地說,所述綁定模塊204在所采集的各文本文件 中,確定預定義事件名在文本文件中的位置,并利用所述預定義事件名在文本文件中的位 置,從已抽取的命名實體中查找與所述預定義事件名有關的命名實體。
[0084] 所述聚合模塊205以所述預定義事件名為線索,根據(jù)所抽取的命名實體以及所述 實體關系,通過將所分散在所述各個文本文件中相關信息建立映射,使其聚合在一起,形成 實體信息圖譜。進一步地,所述聚合模塊205包括篇章內(nèi)實體信息聚合子模塊和多篇章實 體信息聚合子模塊。其中,所述篇章內(nèi)實體信息聚合子模塊根據(jù)抽取的命名實體、命名實 體之間的實體關系、與命名實體綁定的預定義事件名,將分散在同一文本文件中的相應信 息建立映射,形成同一文本文件的具有不同命名的各個實體概覽,例如,所述篇章內(nèi)實體信 息聚合子模塊可以通過人物的別名關系和指代關系,聚合同一文本中的實體信息。所述多 篇章實體信息聚合子模塊通過對各個文本文件的實體概覽進行消歧處理,將各個文本文件 中的具有相同命名的實體概覽進行合并,從而將分散在各個文本文件中的相關信息建立映 射,形成跨文本的各個全局實體概覽,從而利用所形成的跨文本的各個全局實體概覽,形成 實體信息圖譜,例如,所述多篇章實體信息聚合子模塊可以通過確定不同文本文件內(nèi)的具 有相同命名的實體概覽的相似度,對各個文本文件的實體概覽進行消歧處理,還可以通過 確定不同文本文件內(nèi)的命名實體與其它命名實體關聯(lián)的相似度,對各個文本文件的命名實 體的實體概覽進行消歧處理。
[0085] 利用上述方法,本發(fā)明能夠實現(xiàn)文本中命名實體(人物、時間、地點、組織機構、數(shù) 量等)和實體關系的自動識別,代詞和名詞的指代消解,以及跨文本的命名實體信息聚合 等技術。進一步地,本發(fā)明利用通過信息抽取和處理,將非結構化文本數(shù)據(jù)轉化為結構化數(shù) 據(jù),并以實體為節(jié)點,實體關系為邊構建實體信息關系圖譜,實現(xiàn)知識譜圖。
[0086] 圖3是本發(fā)明實施例提供的實體信息圖譜生成系統(tǒng)的硬件架構示意圖,如圖3所 示,硬件平臺的設計主要考慮系統(tǒng)整體的一些特性,即:海量數(shù)據(jù)存儲、高速數(shù)據(jù)分析、易于 擴展以及經(jīng)濟、可靠等。由于各種大型機在設備造價、維護成本以及易用性等方面的缺陷, 為實現(xiàn)以上目標,本實施例的硬件平臺將使用普通商用服務器搭建系統(tǒng)基礎硬件平臺,并 將多個服務器形成數(shù)據(jù)分布式存儲集群。
[0087] 在圖3所示硬件平臺的基礎上,本實施例的軟件基礎平臺可以使用基于Hadoop的 分布式系統(tǒng)平臺,利用HBase實現(xiàn)對海量數(shù)據(jù)的分布式存儲、管理以及對Map Reduce實現(xiàn) 分布式海量計算任務。軟件基礎平臺的主要功能包括信息采集(例如采集門戶網(wǎng)站、微博、 博客、論壇等的互聯(lián)網(wǎng)信息)、信息加工(例如進行自然語言處理、信息抽取、信息聚合等)、 信息展示(例如按照時間序列、實體事件進行展示,或以自動問答方式進行展示,實現(xiàn)可視 化)。其中,所述信息采集是將利用可定制的網(wǎng)絡爬蟲定點搜集監(jiān)控特定的國內(nèi)外網(wǎng)站,對 于用戶特別關注信息采用用戶定制搜索。所述信息加工是依靠本發(fā)明提供的技術方案建立 事件、命名實體(時間、地點、人物、組織機構等)概覽及相互關系,形成以實體和事件為中 心信息網(wǎng)絡圖,儲存數(shù)據(jù)庫。所述信息展示提供問答式搜索,多維信息網(wǎng)圖的可視化(時 間、地點、事件、人物及其關系)以及提供每日分析報告等。
[0088] 具體地,實現(xiàn)信息采集功能的模塊主要通過各種搜索引擎和網(wǎng)絡爬蟲技術實現(xiàn)用 戶自定義搜索和國內(nèi)外相關網(wǎng)站的實時監(jiān)控,包括微博、博客社交網(wǎng)站(如:Facebook)。用 戶可根據(jù)需求,自定義信息采集的關鍵詞,系統(tǒng)將自動搜索相關內(nèi)容。其主要功能有:用戶 采集內(nèi)容定制,按照用戶需求自動信息采集,更新,文檔去重,網(wǎng)頁內(nèi)容分析提取,語言編碼 自動識別以及文本格式轉換。
[0089] 具體地,實現(xiàn)自然語言處理和信息抽取功能的模塊是基于hadoop平臺上運用map reduce的分布式計算子系統(tǒng),是整個智能信息搜集分析系統(tǒng)的核心技術模塊,其對自然語 言的處理和信息抽取的流程如圖4所示。其中:
[0090] -、通過對從網(wǎng)絡中采集的與所述關鍵詞關聯(lián)的文本文件進行分解,得到文本文 件的分詞及其詞性,得到分詞詞性并進行詞性標注是信息抽取的基礎,分詞詞性標注主要 有三個步驟:1、通過機器學習進行文檔的分詞及詞性標注處理;2、使用預定義的規(guī)則,對 分詞詞性標注結果進行糾正更新;3、導入常用詞詞典及動詞用法詞典等,以供后續(xù)命名實 體(Name Entity, NE)及CE識別使用。
[0091] 二、NE是與各個預先定義的類別名相關的表示關鍵信息的名詞,所述類別名可以 是人名、組織名、地名、時間、產(chǎn)品名、聯(lián)系方式(電話號碼、地址、電子郵件等),疾病名稱 等。NE識別包括兩部分:1、機器學習方法識別命名實體,主要識別類型為人名(男、女)、 機構名(政府機構、公司、學校)、地名(城市名、省名、國家名)等;2、使用規(guī)則方法識別 聯(lián)系方式(電子郵箱、電話號碼、網(wǎng)址、傳真、電報)、數(shù)字(序數(shù)、小數(shù)、分數(shù)、百分數(shù))、時 間詞(小時、上午、下午、年、月、日、星期、季節(jié)、年代、世紀等)、度量衡(重量、長度、電磁劑 量、溫度、角度、面積、容積等)、貨幣(人民幣、港元、澳元、日圓等)、比率(速度、價格(單 價)、頻率)、出版物(書籍、雜志、文章等被書名號《》包括的內(nèi)容)。進一步地,由基本的 人物、機構、地點、時間、數(shù)量、度量衡等,可以通過人工規(guī)則和機器學習方法擴展到產(chǎn)品、會 議、品牌、交通工具等,并在tokenlist上加以標注,作為下一級輸入。NE識別是構建實體 信息圖譜的關鍵技術之一,本實施例采用層疊自動機(FST)規(guī)則法和機器學習方法結合方 法,如圖5所示。命名實體識別包括FST模塊和統(tǒng)計學模塊。由于本實施例的系統(tǒng)是層級 (pipeline)結構,上一級模塊的輸出為下一級的輸入(以tokenlist表示),可以根據(jù)需要 靈活選擇方法以取得最佳實體標注效果。同時,F(xiàn)ST的人工規(guī)則還可以作為種子詞以實現(xiàn) 半監(jiān)督的機器學習方法?;跈C器學習的統(tǒng)計學子模塊可采用任一常用的統(tǒng)計方法,例如 隱馬模型(HMM)、條件隨機場(CRF)等。
[0092] 三、歸一化是將需要進行比對的NE歸一到一個統(tǒng)一的標準上,本實施例包括地點 歸一化和時間歸一化。其中,所述地點歸一化是為避免地名混淆問題,對地點進行行政體 系上的歸一化處理(例如利用Max Spin Tree算法),將地點表達為經(jīng)緯度表達式,以及國 家/州(省)/市(縣)表達方式。例如,"香港"進行地點歸一化處理后為"中國,香港", "濟南"進行地點歸一化處理后為"中國,山東,濟南"。所述時間歸一化是將時間詞所代表 的時間點歸一到公歷的數(shù)字表示形態(tài)上,例如,1964年10月15日進行時間歸一處理后為 19641015000000,χχχχ-χχ-χχ-χχ-χχ-χχ對應年份-月份-日期-小時-分鐘-秒鐘。進 一步地,還可以包括數(shù)量歸一化和度量衡歸一化,例如將" 100"、"一百"統(tǒng)一表達成阿拉伯 數(shù)字100,度量衡單位統(tǒng)一成公制。上述歸一化的結果標注在tokenlist上。
[0093]