專利名稱:一種知識網(wǎng)絡的半自動生成方法
技術領域:
本發(fā)明涉及一種面向海量文本數(shù)據(jù)的知識網(wǎng)絡(Knowl edgeNetwork)半自動生成方法,屬于文本信息處理技術領域。
背景技術:
文本是最基本、最常用的信息載體。隨著互聯(lián)網(wǎng)的日益普及,文本信息迅速膨脹。 例如,在hternet上每天有數(shù)十萬的網(wǎng)頁更新,數(shù)百萬新的網(wǎng)頁加入,使得hternet上的信息豐富而又復雜。另一方面,新的知識不斷出現(xiàn)(比如“甲型Hmi流感”),舊的知識不斷消失(比如“隨身聽”),現(xiàn)存知識不斷變更涵義(比如“俯臥撐”)。因此,如何有效地組織和管理這些信息,并快速、準確、全面地從中找到用戶所需要的信息是當前文本信息處理領域面臨的一大挑戰(zhàn)。知識發(fā)現(xiàn)的任務就是從海量的文本數(shù)據(jù)中發(fā)現(xiàn)應當被系統(tǒng)收集的知識,然后對收集到的知識進行結構化處理,以便于日后的查詢、修改。在實踐中,人們發(fā)現(xiàn)使用樹形結構管理的知識網(wǎng)絡,可以有效地將知識組織起來。知識網(wǎng)絡的概念最早由瑞典工業(yè)界在20世紀90年代中期提出。一般認為,知識網(wǎng)絡是在概念網(wǎng)絡的基礎上添加了權值,從而定量地表示用戶對知識節(jié)點之間關系的一種結構。其中,知識節(jié)點可以在現(xiàn)有的目錄搜索引擎中提取,具有獨立性、繼承性、變異性、多維性等特點。在用戶使用知識網(wǎng)絡的過程中,可以根據(jù)某個知識節(jié)點的出現(xiàn)次數(shù)、用戶的反饋信息來更新知識網(wǎng)絡。當用戶和系統(tǒng)多次交互后,這個知識網(wǎng)絡就逼近于用戶對某個詞義的真實理解。關于知識網(wǎng)絡的進一步介紹,可以參考趙蓉英的著作《知識網(wǎng)絡及其應用》 (北京圖書館出版社2007年8月出版,ISBN :9787501335299)。在申請?zhí)枮?00710000966.5的中國發(fā)明專利申請中,提出了一種相關信息的發(fā)布方法和裝置。該方法包括以下步驟收集互聯(lián)網(wǎng)中符合預置條件的網(wǎng)絡文本;計算得到網(wǎng)絡文本相應的文本特征參數(shù);比對特征參數(shù),依次完成網(wǎng)絡文本的歸類;發(fā)布相應的相關信息。該方法能夠在用戶不關心當前瀏覽文本關鍵詞的情況下,發(fā)布最準確的相關信息, 以及能夠準確的將相關信息發(fā)布至終端用戶的虛擬空間,以滿足互聯(lián)網(wǎng)相關信息發(fā)布的發(fā)展需要。另外,在申請?zhí)枮?00810079685. 8的中國發(fā)明專利申請中,提出了一種基于數(shù)據(jù)挖掘技術的文本多精度表示方法。它利用數(shù)據(jù)挖掘技術從海量文本中發(fā)現(xiàn)重要的文本特征信息,這些特征信息是多層次、多精度的。利用這些特征形成文本的精確表示,計算機基于這種精確的文本表示進行文本檢索、聚類和分類等處理,能產(chǎn)生更佳的效果。但是,上述的專利申請只能在一定程度上解決海量文本數(shù)據(jù)的結構化問題,并不具備直接生成知識網(wǎng)絡的能力。目前,人們要想生成知識網(wǎng)絡,必須依賴于人腦的智力判斷,因此所需時間較長,工作效率較低。特別是在面對海量文本數(shù)據(jù)的情況下,單純依賴人力來生成知識網(wǎng)絡很難滿足用戶的實際需求。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術問題在于提供一種知識網(wǎng)絡的半自動生成方法。利用該方法可以讓計算機自動從海量文本數(shù)據(jù)中發(fā)現(xiàn)、抽取、組織知識,從而快速形成知識網(wǎng)絡。為實現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術方案一種知識網(wǎng)絡的半自動生成方法,基于文本標引系統(tǒng)實現(xiàn),所述文本標引系統(tǒng)中包括單文本知識發(fā)現(xiàn)與抽取單元、多文本知識關系提取與聚類單元、知識網(wǎng)絡生成與修正單元、知識網(wǎng)絡應用單元以及知識庫存儲單元,其特征在于(1)首先形成一個知識網(wǎng)絡內(nèi)核;(2)所述單文本知識發(fā)現(xiàn)與抽取單元接收非結構化的文檔,通過分詞和命名實體識別技術,從非機構化文本數(shù)據(jù)中找到需要關注的知識點,并抽取出來;(3)在對多篇文檔進行知識發(fā)現(xiàn)和抽取后,將新的知識放到相應位置上作為候選知識;(4)知識網(wǎng)絡生成與修正單元中的知識網(wǎng)絡運營平臺將候選知識提交給相應的專家系統(tǒng)進行關聯(lián)性判斷,將判斷為“是”的候選知識作為確認知識,判斷為“否”的候選知識
被舍棄。其中,在所述步驟(1)中,所述知識網(wǎng)絡內(nèi)核從半結構化的互聯(lián)網(wǎng)數(shù)據(jù)中抽取獲
得或者由人工給出。所述步驟(3)中,采取基于圖論的聚類技術確定從文本中抽取的知識點的相互關系,并進一步通過多文本知識關系提取與聚類單元中的知識與TAG間關系數(shù)據(jù)模塊對文本進行類別標記。本發(fā)明所提供的知識網(wǎng)絡半自動生成方法從一個小的知識網(wǎng)絡內(nèi)核開始,讓計算機自動從互聯(lián)網(wǎng)海量的數(shù)據(jù)中發(fā)現(xiàn)、抽取、組織知識,經(jīng)專家系統(tǒng)進行確認后,能夠迅速而有效地構造一個知識網(wǎng)絡結構,從而使生成知識網(wǎng)絡的過程擺脫了對人的智力判斷的依賴。
下面結合附圖和具體實施方式
對本發(fā)明作進一步的詳細說明。圖1為本發(fā)明中所使用的文本標引系統(tǒng)的邏輯框架示意圖;圖2為現(xiàn)有知識體系的一個示例圖;圖3為知識網(wǎng)絡內(nèi)核的一個示例圖;圖4為采取基于圖論的聚類技術所獲得的一個實施例;圖5為圖4所示的實施例對應的知識網(wǎng)絡示意圖。
具體實施例方式本發(fā)明的實施過程依賴于圖1所示的文本標引系統(tǒng)。該文本標引系統(tǒng)中設置了單文本知識發(fā)現(xiàn)與抽取單元、多文本知識關系提取與聚類單元、知識網(wǎng)絡生成與修正單元、知識網(wǎng)絡應用單元以及知識庫存儲單元等。其中,單文本知識發(fā)現(xiàn)與抽取單元利用倒排文檔頻度的方法,對文本中識別的單詞,包括分詞結果、命名實體識別結果、新詞識別結果,進行計算獲得體現(xiàn)文本內(nèi)容的知識點。多文本知識關系提取與聚類單元用于完成多文本詞(即不同知識節(jié)點)之間的關系提取以及聚類等工作。該多文本知識關系提取與聚類單元包括針對語義網(wǎng)絡(Semanticnetwork)的關系挖掘模塊、采用聚類技術的知識間關系數(shù)據(jù)模塊和采用貝葉斯(BAYES)分類模型的知識與TAG間關系數(shù)據(jù)模塊,其中該關系挖掘模塊一方面連接單文本知識發(fā)現(xiàn)與抽取單元,另一方面分別連接知識間關系數(shù)據(jù)模塊和知識與TAG 間關系數(shù)據(jù)模塊。多文本知識關系提取與聚類單元主要是利用詞同現(xiàn)獲取每一個單詞的同現(xiàn)詞集,再通過同現(xiàn)詞集的比較來評判兩個詞的相似性。知識網(wǎng)絡生成與修正單元包括知識網(wǎng)絡初始化模塊、知識網(wǎng)絡存儲模塊、知識網(wǎng)絡操作模塊和知識網(wǎng)絡運營平臺。其中,知識網(wǎng)絡初始化模塊連接知識網(wǎng)絡存儲模塊,該知識網(wǎng)絡存儲模塊與知識網(wǎng)絡操作模塊進行雙向的信息交互。另外,知識網(wǎng)絡運營平臺也與知識網(wǎng)絡操作模塊進行雙向信息交互。知識網(wǎng)絡生成與修正單元利用從互聯(lián)網(wǎng)上獲得的知識體系,例如百度百科、互動百科等,直接轉化為機器可讀的數(shù)據(jù)結構,再通過知識網(wǎng)絡操作模塊對該知識體系進行讀取、查詢、創(chuàng)建、 修改等操作。知識網(wǎng)絡操作模塊是知識網(wǎng)絡生成與修正單元的核心組成部分,該知識網(wǎng)絡操作模塊一方面分別與多文本知識關系提取與聚類單元中的知識間關系數(shù)據(jù)模塊和知識與TAG間關系數(shù)據(jù)模塊相連接,另一方面連接前述的知識庫存儲單元。知識庫存儲單元同時與單文本知識發(fā)現(xiàn)與抽取單元相連接,用于提供分類用知識庫。知識網(wǎng)絡存儲模塊根據(jù)具體應用的需要,將相關的應用導出至知識網(wǎng)絡應用單元。在生成知識網(wǎng)絡之前,首先需要進行初始化的工作,即從半結構化的互聯(lián)網(wǎng)數(shù)據(jù)抽取或者人工給出從而形成一個小的知識網(wǎng)絡內(nèi)核,例如利用從互聯(lián)網(wǎng)上獲得的知識體系如百度百科、互動百科等(圖2所示),經(jīng)過結構化處理可以得到圖3所示的知識網(wǎng)絡內(nèi)核。然后,上述的單文本知識發(fā)現(xiàn)與抽取單元接收非結構化的文檔,通過分詞和命名實體識別技術,從大量的非機構化文本數(shù)據(jù)找到需要關注的知識點(即與知識網(wǎng)絡內(nèi)核相關聯(lián)的知識點),并抽取出來。例如下面有一篇介紹豬流感的文章,其中“甲型Hmi流感” 就屬于新的知識,其它的知識點也用下劃線標示出來。
權利要求
1.一種知識網(wǎng)絡的半自動生成方法,基于文本標引系統(tǒng)實現(xiàn),所述文本標引系統(tǒng)中包括單文本知識發(fā)現(xiàn)與抽取單元、多文本知識關系提取與聚類單元、知識網(wǎng)絡生成與修正單元、知識網(wǎng)絡應用單元以及知識庫存儲單元,其特征在于(1)首先形成一個知識網(wǎng)絡內(nèi)核;(2)所述單文本知識發(fā)現(xiàn)與抽取單元接收非結構化的文檔,通過分詞和命名實體識別技術,從非機構化文本數(shù)據(jù)中找到需要關注的知識點,并抽取出來;(3)在對多篇文檔進行知識發(fā)現(xiàn)和抽取后,將新的知識放到相應位置上作為候選知識;(4)知識網(wǎng)絡生成與修正單元中的知識網(wǎng)絡運營平臺將候選知識提交給相應的專家系統(tǒng)進行關聯(lián)性判斷,將判斷為“是”的候選知識作為確認知識,判斷為“否”的候選知識被舍棄。
2.如權利要求1所述的知識網(wǎng)絡的半自動生成方法,其特征在于所述步驟(1)中,所述知識網(wǎng)絡內(nèi)核從半結構化的互聯(lián)網(wǎng)數(shù)據(jù)中抽取獲得。
3.如權利要求1所述的知識網(wǎng)絡的半自動生成方法,其特征在于 所述步驟(1)中,所述知識網(wǎng)絡內(nèi)核由人工給出。
4.如權利要求1所述的知識網(wǎng)絡的半自動生成方法,其特征在于所述步驟(3)中,采取基于圖論的聚類技術確定從文本中抽取的知識點的相互關系。
5.如權利要求4所述的知識網(wǎng)絡的半自動生成方法,其特征在于所述步驟(3)中,進一步通過多文本知識關系提取與聚類單元中的知識與TAG間關系數(shù)據(jù)模塊對文本進行類別標記。
全文摘要
本發(fā)明公開了一種知識網(wǎng)絡的半自動生成方法,包括如下步驟(1)首先形成一個知識網(wǎng)絡內(nèi)核;(2)由單文本知識發(fā)現(xiàn)與抽取單元接收非結構化的文檔,通過分詞和命名實體識別技術,從非機構化文本數(shù)據(jù)中找到需要關注的知識點,并抽取出來;(3)在對多篇文檔進行知識發(fā)現(xiàn)和抽取后,將新的知識放到相應位置上作為候選知識;(4)由知識網(wǎng)絡運營平臺將候選知識提交給相應的專家系統(tǒng)進行關聯(lián)性判斷,將判斷為“是”的候選知識作為確認知識,判斷為“否”的候選知識被舍棄。本知識網(wǎng)絡半自動生成方法從一個小的知識網(wǎng)絡內(nèi)核開始,讓計算機自動從互聯(lián)網(wǎng)海量的數(shù)據(jù)中發(fā)現(xiàn)、抽取、組織知識,經(jīng)專家系統(tǒng)進行確認后,能夠迅速而有效地構造一個知識網(wǎng)絡結構。
文檔編號G06F17/30GK102207946SQ20101021226
公開日2011年10月5日 申請日期2010年6月29日 優(yōu)先權日2010年6月29日
發(fā)明者張偉偉, 張旭成, 杜嘉偉, 陶鵬 申請人:天津海量信息技術有限公司