欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于知識網(wǎng)絡的文本標引系統(tǒng)及其方法

文檔序號:6602072閱讀:94來源:國知局
專利名稱:基于知識網(wǎng)絡的文本標引系統(tǒng)及其方法
技術(shù)領域
本發(fā)明涉及一種實現(xiàn)文本標引的系統(tǒng)及其方法,尤其涉及一種在文本信息處理的過程中,基于知識網(wǎng)絡(Knowledge Network)實現(xiàn)的文本標引系統(tǒng)及文本標引方法,屬于文本信息處理技術(shù)領域。
背景技術(shù)
文本是最基本、最常用的信息載體。隨著互聯(lián)網(wǎng)的日益普及,文本信息迅速膨脹。 例如,在hternet上每天有數(shù)十萬的網(wǎng)頁更新,數(shù)百萬新的網(wǎng)頁加入,使得hternet上的信息豐富而又復雜。如何有效地組織和管理這些信息,并快速、準確、全面地從中找到用戶所需要的信息是當前文本信息處理領域面臨的一大挑戰(zhàn)。在文本信息處理工作中,文本的內(nèi)容詞提取、類別標注和短語(phrase)的提取 (統(tǒng)稱為文本標引)一直是有關科研人員進行研究的一個主要問題。如何系統(tǒng)地整合這些功能在一個文本標引框架下,并能持續(xù)互相改進,將是一個非常有意義的工作。在申請?zhí)枮?00710000966.5的中國發(fā)明專利申請中,提出了一種相關信息的發(fā)布方法和裝置。該方法包括以下步驟收集互聯(lián)網(wǎng)中符合預置條件的網(wǎng)絡文本;計算得到網(wǎng)絡文本相應的文本特征參數(shù);比對特征參數(shù),依次完成網(wǎng)絡文本的歸類;發(fā)布相應的相關信息。該方法能夠在用戶不關心當前瀏覽文本關鍵詞的情況下,發(fā)布最準確的相關信息, 以及能夠準確的將相關信息發(fā)布至終端用戶的虛擬空間,以滿足互聯(lián)網(wǎng)相關信息發(fā)布的發(fā)展需要。另外,在申請?zhí)枮?00810079685. 8的中國發(fā)明專利申請中,提出了一種基于數(shù)據(jù)挖掘技術(shù)的文本多精度表示方法。它利用數(shù)據(jù)挖掘技術(shù)從海量文本中發(fā)現(xiàn)重要的文本特征信息,這些特征信息是多層次、多精度的。利用這些特征形成文本的精確表示,計算機基于這種精確的文本表示進行文本檢索、聚類和分類等處理,能產(chǎn)生更佳的效果?;ヂ?lián)網(wǎng)搜索引擎是文本信息處理技術(shù)的具體應用之一。但是,現(xiàn)有的互聯(lián)網(wǎng)搜索引擎普遍采用基于關鍵詞的索引機制,很容易將籃球的火箭隊與火箭發(fā)動機混為一談, 嚴重影響用戶檢索時獲取所需要的知識的效率。目前,人們利用知識網(wǎng)絡來研究人及企業(yè)間的知識傳播、合作及創(chuàng)新行為,表示各類知識資源,分析個人及組織知識體系的結(jié)構(gòu)、 組成等,但沒有在文本標引技術(shù)中使用知識網(wǎng)絡的成熟技術(shù)方案。雖然在專利號為ZL 200510050198. 5的中國發(fā)明專利中,浙江大學的研究人員提出了一種基于鏈接分析的個性化搜索引擎方法,是通過建立知識網(wǎng)絡模型描述用戶興趣,建立多態(tài)鏈接網(wǎng)絡記錄網(wǎng)絡節(jié)點之間鏈接的不同類別,進而在此基礎上展開鏈接分析得到搜索結(jié)果。但是,該個性化搜索引擎方法建立在多態(tài)鏈接網(wǎng)絡基礎上,適用面有限,不能在文本標引技術(shù)中得到有效使用。

發(fā)明內(nèi)容
本發(fā)明所要解決的首要技術(shù)問題在于提供一種基于知識網(wǎng)絡的文本標引系統(tǒng)。該系統(tǒng)可以在一個統(tǒng)一平臺下,提供若干種不同的維度索引,有效解決現(xiàn)有文本標引技術(shù)準確率低的問題。本發(fā)明所要解決的另外一個技術(shù)問題在于提供上述文本標引系統(tǒng)進行文本標引的具體方法。為實現(xiàn)上述的發(fā)明目的,本發(fā)明采用下述的技術(shù)方案一種基于知識網(wǎng)絡的文本標引系統(tǒng),其特征在于所述文本標引系統(tǒng)包括單文本特征提取單元、多文本詞關系提取單元、知識樹生成單元、知識樹應用單元以及知識庫存儲單元;其中,所述單文本特征提取單元接收非結(jié)構(gòu)化的文檔,提取文檔中的內(nèi)容關鍵詞并送入所述多文本詞關系提取單元;所述多文本詞關系提取單元與所述知識樹生成單元中的知識樹操作模型進行連接,用于完成多文本詞之間的關系提取以及聚類工作;所述知識樹生成單元包括網(wǎng)頁結(jié)構(gòu)化信息模塊、知識樹初始化模塊、屬性存儲模塊、知識樹存儲模塊、知識樹操作模型和知識樹運營平臺,所述網(wǎng)頁結(jié)構(gòu)化信息模塊連接所述知識樹初始化模塊,所述知識樹初始化模塊連接所述知識樹存儲模塊,所述屬性存儲模塊也連接所述知識樹存儲模塊,所述知識樹存儲模塊和所述知識樹運營平臺分別與所述知識樹操作模型進行雙向的信息交互;所述知識庫存儲單元分別與所述知識樹操作模型和所述單文本特征提取單元進行連接,用于提供分類用知識庫,所述知識樹存儲模塊將相關的應用導出至所述知識樹應用單元。其中,所述多文本詞關系提取單元包括針對語義網(wǎng)絡的關系挖掘模塊、詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊,其中該關系挖掘模塊一方面連接所述單文本特征提取單元中的關鍵詞提取模塊,另一方面分別連接詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊。所述知識樹操作模型分別與所述多文本詞關系提取單元中的詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊進行連接。所述知識樹生成單元利用從互聯(lián)網(wǎng)上獲得的知識體系,直接轉(zhuǎn)化為機器可讀的數(shù)據(jù)結(jié)構(gòu),再通過所述知識樹操作模型進行操作。一種基于知識網(wǎng)絡的文本標引方法,基于上述的文本標引系統(tǒng)實現(xiàn),其特征在于包括如下的步驟(1)對于輸入所述文本標引系統(tǒng)的文本,首先進行分詞,獲取文本中的文本特征詞;(2)根據(jù)文本特征詞所對應的知識樹的節(jié)點位置,推演出該文本對應的類別詞 TAG ;(3)在TAG的基礎上,通過判別式模型對TAG的合法性進行判定,由此提煉出可靠的TAG詞集,再通過所述可靠的TAG詞集重新定位文本特征詞詞集,形成可靠的文本特征詞詞集。在所述步驟(1)中,使用隱馬爾科夫模型進行分詞。在所述步驟(3)中,判定合法性的依據(jù)是統(tǒng)計上的假設檢驗是否成立。其中概率在0. 5%以下則認為某個TAG與知識樹的某個節(jié)點之間不存在關聯(lián),概率大于90%則認為該關聯(lián)可靠。對于新的未分類的詞,在所述可靠的TAG詞集的基礎上,通過所述文本標引系統(tǒng)對批量文本進行標注和關系分析,利用條件概率計算獲得所述未分類的詞與TAG的關系, 從而使所述未分類的詞被分在了某個TAG下。本發(fā)明所提供的文本標引系統(tǒng)及其方法具有如下的特點系統(tǒng)架構(gòu)統(tǒng)一,使得內(nèi)容詞提取、類別標注和短語(phrase)的提取一體化;■內(nèi)容詞提取、類別標注和短語(phrase)的提取的效果能夠互相促進;■各個詞的語義通過知識網(wǎng)絡的節(jié)點得以表現(xiàn),“籃球的火箭隊與火箭發(fā)動機”之類的歧義將會被大量減少。


下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步的詳細說明。圖1為在本發(fā)明所提供的文本標引系統(tǒng)中,基于知識網(wǎng)絡的外圍邏輯框架示意圖;圖2為利用本文本標引方法進行文本類別詞提取的操作步驟示意圖。
具體實施例方式知識網(wǎng)絡(Knowledge Network)的概念最早由瑞典工業(yè)界在20世紀90年代中期提出。一般認為,知識網(wǎng)絡是在概念網(wǎng)絡的基礎上添加了權(quán)值,從而定量地表示用戶對知識節(jié)點之間關系的一種結(jié)構(gòu)。其中,知識節(jié)點可以在現(xiàn)有的目錄搜索引擎中提取,具有獨立性、繼承性、變異性、多維性等特點。具體而言,知識節(jié)點的獨立性體現(xiàn)在只有在認識上具有獨立性的知識元素、知識單元才能構(gòu)成知識節(jié)點。知識節(jié)點的繼承性主要表現(xiàn)在兩個方面 一個方面表現(xiàn)在知識數(shù)量的擴大是通過集成性來實現(xiàn)的,知識數(shù)量的增加是在繼承的基礎上的擴大和產(chǎn)生;另一方面表現(xiàn)在知識性質(zhì)的繼承,同一學科、同一專業(yè)的知識具有該學科或該專業(yè)的共性。知識節(jié)點的變異性是指在知識網(wǎng)絡的發(fā)展過程中,知識節(jié)點通過變異產(chǎn)生新的知識節(jié)點來實現(xiàn)知識創(chuàng)新和創(chuàng)造新知識。知識單元的多維性是指知識節(jié)點可以多向成簇。即每一個知識節(jié)點都可同其他知識節(jié)點通過多種多樣的形象、屬性、關系相連,這種多維性來源于構(gòu)成知識節(jié)點的知識單元內(nèi)在構(gòu)成元素、結(jié)構(gòu)和外在形態(tài)的多元性。在用戶的使用過程中,可以根據(jù)某個知識節(jié)點的出現(xiàn)次數(shù)、用戶的反饋信息來更新知識網(wǎng)絡。當用戶和系統(tǒng)多次交互后,這個知識網(wǎng)絡就逼近于用戶對某個詞義的真實理解。關于知識網(wǎng)絡的進一步介紹,可以參考趙蓉英的著作《知識網(wǎng)絡及其應用》(北京圖書館出版社2007年8 月出版,ISBN =9787501335299),在此就不詳細贅述了。需要說明的是,知識樹是知識網(wǎng)絡的一個特殊形式,即知識網(wǎng)絡通過多種限制而產(chǎn)生的模型稱之為知識樹。在本發(fā)明的具體實施例中,主要運用了知識樹的結(jié)構(gòu)進行計算。 但本發(fā)明的技術(shù)思路可以很容易地推廣到知識網(wǎng)絡中,在此就不詳細說明了。根據(jù)知識網(wǎng)絡的上述特點,在本發(fā)明所提供的文本標引系統(tǒng)中設置了單文本特征提取單元、多文本詞關系提取單元、知識樹生成單元、知識樹應用單元以及知識庫存儲單元等。其中,單文本特征提取單元利用倒排文檔平度的方法,對文本中識別的單詞,包括分詞結(jié)果、命名實體識別結(jié)果、新詞識別結(jié)果,進行計算獲得最能體現(xiàn)文本內(nèi)容的關鍵詞詞集一內(nèi)容關鍵詞。它接收非結(jié)構(gòu)化的文檔,其中的關鍵詞提取模塊采用TAG(類別詞)提取、命名實體技術(shù)等技術(shù)手段提取文檔中的內(nèi)容關鍵詞。多文本詞關系提取單元用于完成多文本詞(即不同知識節(jié)點)之間的關系提取以及聚類等工作。該多文本詞關系提取單元包括針對語義網(wǎng)絡(Semantic network)的關系挖掘模塊、采用聚類技術(shù)的詞間網(wǎng)絡關系數(shù)據(jù)模塊和采用貝葉斯(BAYES)分類模型的詞與TAG間關系數(shù)據(jù)模塊,其中該關系挖掘模塊一方面連接單文本特征提取單元中的關鍵詞提取模塊,另一方面分別連接詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊。多文本詞關系提取單元主要是利用詞同現(xiàn)獲取每一個單詞的同現(xiàn)詞集,再通過同現(xiàn)詞集的比較來比較兩個詞單元的相似性。知識樹生成單元包括網(wǎng)頁結(jié)構(gòu)化信息模塊、知識樹初始化模塊、屬性存儲模塊、知識樹存儲模塊、知識樹操作模型和知識樹運營平臺。其中,網(wǎng)頁結(jié)構(gòu)化信息模塊連接知識樹初始化模塊,知識樹初始化模塊連接知識樹存儲模塊,屬性存儲模塊也連接知識樹存儲模塊。該知識樹存儲模塊與知識樹操作模型進行雙向的信息交互。另外,知識樹運營平臺也與知識樹操作模型進行雙向信息交互。知識樹生成單元利用從互聯(lián)網(wǎng)上獲得的知識體系,例如百度百科、互動百科等,直接轉(zhuǎn)化為機器可讀的數(shù)據(jù)結(jié)構(gòu),再通過知識樹操作模型對該知識體系進行讀取、查詢、創(chuàng)建、修改等操作。知識樹操作模型是知識樹生成單元的核心組成部分,該知識樹操作模型一方面分別與多文本詞關系提取單元中的詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊相連接,另一方面連接前述的知識庫存儲單元。知識庫存儲單元同時與單文本特征提取單元相連接,用于提供分類用知識庫。知識樹存儲模塊根據(jù)具體應用的需要,將相關的應用導出至知識樹應用單元。上述的文本標引系統(tǒng)可以整合文本的內(nèi)容關鍵詞提取、類別標注和短語(phrase) 的提取,并在一個統(tǒng)一框架下實現(xiàn)文本標引效果的互相促進,從而在文本數(shù)據(jù)中有效獲得重要線索。其中,內(nèi)容關鍵詞的提取主要用于描述文章的大意,以便能夠有效地解決歧義問題,例如盛大(公司)、(規(guī)模)盛大。類別標注能夠為該資訊提供有效的管理,并且能幫助用戶優(yōu)化檢索。短語(phrase)的提取能夠有效為各個網(wǎng)站提供錨連接服務,找到某資訊中某產(chǎn)品的相關詞,并提供連接。在獲得以上文本特征基礎上,對文本的索引拋開詞形一級, 利用得到的知識樹節(jié)點號(即知識樹上每一個節(jié)點的編號,該編號的初始化來自于互聯(lián)網(wǎng)上開源的知識體系,以深度遍歷模式依次進行編號,隨后根據(jù)對新添加的節(jié)點依次編號)、 詞性等作為索引,可以有效提升文本標引系統(tǒng)的性能。概括地說,本發(fā)明所提供的文本標引系統(tǒng)是一個基于知識樹的具有層級關系的概率模型,模型的推導是通過已知的葉子的詞,推導出概率最大的節(jié)點,該節(jié)點就是TAG(類別詞)。本發(fā)明利用EM (期望最大化)算法,通過大批未標注文本的統(tǒng)計分析不斷優(yōu)化TAG 與關鍵詞的統(tǒng)計概率模型,從而使得TAG與內(nèi)容關鍵詞的標引概率最大化。下面進行詳細的說明。首先闡述幾個重要概念凡是在文章中出現(xiàn)且是文本描述的重要詞匯的詞稱為該文本的內(nèi)容關鍵詞。定義一個新聞樹形分類體系(m叉樹,且m沒有具體限制),其中的根節(jié)點為虛擬節(jié)點,下面一層子節(jié)點描述各個大的分類,各個分類節(jié)點的下面一層描述更加細致的分類。我們將這些節(jié)點的集合命名為節(jié)點集,文本如果符合某個節(jié)點的分類要求且被標注上了該節(jié)點的節(jié)點號,則該標注的節(jié)點稱為該文本的TAG。那么通常情況下,在文本d 下,產(chǎn)生TAG標注的可能性則可以描述為P(T|d,μ);在本發(fā)明中,文本通常是由內(nèi)容關鍵詞W代表的,所以可以轉(zhuǎn)換為P(T|W,μ)。內(nèi)容關鍵詞W被假設為相互獨立的,且通過維護一個新詞詞表和利用分詞以及命名實體識別來從原文中獲得。通常情況下,只要μ已知, 那么通過Naive Bayes方法就可以計算出文本的TAG標注T。然而實際情況是μ未知,所以需要通過EM算法進行迭代來近似得到μ。有效的 EM算法依賴于較好的初始化參數(shù),因此本發(fā)明使用大量的網(wǎng)絡上開源的知識和文本信息進行統(tǒng)計得到一個有層級關系的TAG列表以及初始模型μ,通過迭代直到在新的模型μ ‘ 下,使P(T|W,y)的概率達到最大。例如根據(jù)已有的知識,我們知道“股市崩盤”通常是“金融危機”的一種表現(xiàn)形式,那么凡是文本關鍵詞出現(xiàn)了“股市崩盤”,則可以比較有把握地認為該文本與“金融危機”相關。那么同時與“股市崩盤”出現(xiàn)的內(nèi)容關鍵詞也必然與“金融危機”有一定的關聯(lián),例如“次貸危機”。隨著大量文本的統(tǒng)計,最終可以認為“次貸危機”與 “金融危機”息息相關,則“次貸危機”也能夠較好地支持文本的“金融危機” TAG的標注。由于文本在標注上不但有原有的內(nèi)容關鍵詞,還有推理得到的TAG,則文本的標注將不但照顧細節(jié)的準確性(內(nèi)容關鍵詞),也照顧到了宏觀的概括性。圖2為利用本文本標引方法進行文本類別詞提取的操作步驟示意圖。對于單篇文本而言,其具體的文本標引操作依賴一個已經(jīng)成型的層級分類結(jié)構(gòu)。該層級結(jié)構(gòu)包括各個層級類別名、類別號以及相關的屬性。在層級類別下,生成若干關鍵詞,這些關鍵詞可以來源于不同資源,例如百科知識類別下的文本關鍵詞。在本發(fā)明中,一共有三種關鍵詞 TAG、錨點關鍵詞和內(nèi)容關鍵詞,其中TAG、文本關鍵詞都是內(nèi)容關鍵詞,短語屬于錨點關鍵詞。錨點關鍵詞即包括文本中的命名實體詞一人名、地名、機構(gòu)名、專指概念、作品名等一以及固定短語等。當文本信息傳入后進行如下操作1.利用HMM (或改進的HMM)等模型對該單篇文本進行分詞(或者使用其他方法獲得分詞),獲取文本中較為重要的關鍵詞(即文本特征詞),在圖2中可以理解為詞集KEY。 HMM模型即隱馬爾科夫模型,它是文本信息處理領域的常用算法,在此不予贅述。2.根據(jù)詞集KEY所在的知識樹的節(jié)點位置,推演出該單篇文本對應的類別詞TAG。 在該步驟中,應用了 Rocchio模型。Rocchio模型是一種應用非常廣泛的使用了向量空間模型的反饋學習算法,在此就不詳細說明了。由圖2可知,TAG的集合是通過詞集KEY的推演得出的。其中前三個是通過間接推演獲得,文本中并沒有出現(xiàn),后兩個是文本中含有的關鍵詞;3.在TAG的基礎上,通過判別式模型(判別式模型是一類直接利用特征來預測目標變量的發(fā)生概率的機器學習模型,包括最大熵模型和條件隨機域模型等),對TAG的合法性進行判定。判別合法性的依據(jù)是統(tǒng)計上的假設檢驗是否成立。在通常情況下,概率在 0. 5%以下則可以認為該TAG與知識樹的某個節(jié)點之間不存在關聯(lián)的假設成立,而對于概率大于90%的情況則認為該關聯(lián)可靠。由此提煉出可靠的TAG詞集(TAG’),然后再通過該可靠的TAG詞集(TAG’ )重新定位關鍵詞詞集,形成可靠的文本特征詞詞集(KEY’)。這一步驟可以非常方便地完成了關鍵詞的提純和歧義消解。例如文本中出現(xiàn)了丁磊(存在歧義丁磊除了網(wǎng)易丁磊外,還有通用汽車的丁磊),其在知識樹中的位置對應于T2.i. 3和 T2. 2. 2。由于文本判定了類別詞范圍為T2下的T2. 2 (互聯(lián)網(wǎng)),則該丁磊是網(wǎng)易的丁磊的可能性大大增強了。
8
例如想知道有誰和通用丁磊有關系,我們可以將以下模板作為檢索可能“人名” + “461471” (通用丁磊的知識網(wǎng)絡ID號)。需要說明的是,對于新的未分類的詞(分詞結(jié)果或新詞識別結(jié)果),首先在TAG’的基礎上被分配到相應葉節(jié)點下,形成可能的節(jié)點,然后通過上述文本標引系統(tǒng)對批量文本進行標注和關系分析,利用條件概率計算獲得該未分類的詞與TAG的關系,從而逐漸確認被分在了某個TAG下。對于同型串(多個詞的組合),又在同一個分類節(jié)點上的,可以被固化為新的短語 (phrase),納入到知識樹中,并輸出新的短語(phrase)。下面以一個實際的新聞文本為例,對本文本標引方法的具體實施效果進行演示版署要求網(wǎng)易停運魔獸丁磊不知情李日強拒評
騰訊科技 11月2日傍晚消息’國外著名網(wǎng)絡游戲《魔獸世界》 在華運營事件再次遭遇挫折.·由于涉嫌違規(guī)運營行為,新聞出版總署 (以下簡稱“版署”)日前宣布停止 《魔獸世界》資料片審批。
當日下午至晚間,丁磊曾作出表態(tài),稱“不知情”,隨后騰訊科技多次聯(lián)系網(wǎng)易CEO 丁磊以及網(wǎng)易《魔豊》負責人李日強,丁磊手機則一直未接電話,李日強則多次拒接電話不愿評論。
版署日前發(fā)出通知要求,終止 《魔獸世界》資料片“燃燒的遠征” 審批,退回關于引進出版《魔獸世 1》的申請,并要求網(wǎng)之易(網(wǎng)易合資公司)立即停止違規(guī)行為,糾正錯誤,停止收費和新賬號注冊。 新聞出版總署將視情依法對其作出相應的行政處罰,包括停止其互聯(lián)網(wǎng)接入服務。
通知還稱,網(wǎng)之易公司在未經(jīng)新聞出版總署審批同意的情況下, 于9月19日擅自收費并提供新賬號注冊的行為,己經(jīng)造成事實上的公開運營服務,嚴重違反了國家關于網(wǎng)絡游戲上網(wǎng)前須經(jīng)新聞出版總署前置審批和境外著作權(quán)人授權(quán)的互聯(lián)網(wǎng)游戲作品須經(jīng)新聞出版總署審
權(quán)利要求
1.一種基于知識網(wǎng)絡的文本標引系統(tǒng),其特征在于所述文本標引系統(tǒng)包括單文本特征提取單元、多文本詞關系提取單元、知識樹生成單元、知識樹應用單元以及知識庫存儲單元;其中,所述單文本特征提取單元接收非結(jié)構(gòu)化的文檔,提取文檔中的內(nèi)容關鍵詞并送入所述多文本詞關系提取單元;所述多文本詞關系提取單元與所述知識樹生成單元中的知識樹操作模型進行連接,用于完成多文本詞之間的關系提取以及聚類工作;所述知識樹生成單元包括網(wǎng)頁結(jié)構(gòu)化信息模塊、知識樹初始化模塊、屬性存儲模塊、知識樹存儲模塊、知識樹操作模型和知識樹運營平臺,所述網(wǎng)頁結(jié)構(gòu)化信息模塊連接所述知識樹初始化模塊,所述知識樹初始化模塊連接所述知識樹存儲模塊,所述屬性存儲模塊也連接所述知識樹存儲模塊,所述知識樹存儲模塊和所述知識樹運營平臺分別與所述知識樹操作模型進行雙向的信息交互;所述知識庫存儲單元分別與所述知識樹操作模型和所述單文本特征提取單元進行連接,用于提供分類用知識庫,所述知識樹存儲模塊將相關的應用導出至所述知識樹應用單兀。
2.如權(quán)利要求1所述的文本標引系統(tǒng),其特征在于所述多文本詞關系提取單元包括針對語義網(wǎng)絡的關系挖掘模塊、詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊,其中該關系挖掘模塊一方面連接所述單文本特征提取單元中的關鍵詞提取模塊,另一方面分別連接詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊。
3.如權(quán)利要求2所述的文本標引系統(tǒng),其特征在于所述知識樹操作模型分別與所述多文本詞關系提取單元中的詞間網(wǎng)絡關系數(shù)據(jù)模塊和詞與TAG間關系數(shù)據(jù)模塊進行連接。
4.如權(quán)利要求1所述的文本標引系統(tǒng),其特征在于所述知識樹生成單元利用從互聯(lián)網(wǎng)上得到的知識體系,直接轉(zhuǎn)化為機器可讀的數(shù)據(jù)結(jié)構(gòu),再通過所述知識樹操作模型進行操作。
5.一種基于知識網(wǎng)絡的文本標引方法,基于權(quán)利要求1所述的文本標引系統(tǒng)實現(xiàn),其特征在于包括如下的步驟(1)對于輸入所述文本標引系統(tǒng)的文本,首先進行分詞,獲取文本中的文本特征詞;(2)根據(jù)文本特征詞所對應的知識樹的節(jié)點位置,推演出該文本對應的類別詞TAG;(3)在TAG的基礎上,通過判別式模型對TAG的合法性進行判定,由此提煉出可靠的 TAG詞集,再通過所述可靠的TAG詞集重新定位文本特征詞詞集,形成可靠的文本特征詞詞集。
6.如權(quán)利要求5所述的基于知識網(wǎng)絡的文本標引方法,其特征在于在所述步驟(1)中,使用隱馬爾科夫模型進行分詞。
7.如權(quán)利要求5所述的基于知識網(wǎng)絡的文本標引方法,其特征在于在所述步驟(3)中,判定合法性的依據(jù)是統(tǒng)計上的假設檢驗是否成立。
8.如權(quán)利要求7所述的基于知識網(wǎng)絡的文本標引方法,其特征在于概率在0. 5 %以下則認為某個TAG與知識樹的某個節(jié)點之間不存在關聯(lián),概率大于90%則認為關聯(lián)可靠。
9.如權(quán)利要求5所述的基于知識網(wǎng)絡的文本標引方法,其特征在于 對于新的未分類的詞,在所述可靠的TAG詞集的基礎上,通過所述文本標引系統(tǒng)對批量文本進行標注和關系分析,利用條件概率計算獲得所述未分類的詞與TAG的關系,從而使所述未分類的詞被分在了某個TAG下。
全文摘要
本發(fā)明公開了一種基于知識網(wǎng)絡的文本標引系統(tǒng)及其方法。該文本標引系統(tǒng)包括單文本特征提取單元、多文本詞關系提取單元、知識樹生成單元、知識樹應用單元以及知識庫存儲單元。對于輸入文本標引系統(tǒng)的文本,首先進行分詞,獲取文本中的文本特征詞;根據(jù)文本特征詞所對應的知識樹的節(jié)點位置,推演出該文本對應的類別詞TAG;在TAG的基礎上,通過判別式模型對TAG的合法性進行判定,由此提煉出可靠的TAG詞集,再通過可靠的TAG詞集重新定位文本特征詞詞集,形成可靠的文本特征詞詞集。本發(fā)明使內(nèi)容詞提取、類別標注和短語的提取一體化,因此提取的效果能夠互相促進;各個詞的語義通過知識網(wǎng)絡的節(jié)點得以表現(xiàn),從而減少歧義的發(fā)生。
文檔編號G06F17/30GK102207945SQ20101016852
公開日2011年10月5日 申請日期2010年5月11日 優(yōu)先權(quán)日2010年5月11日
發(fā)明者孫威, 宋傳寶, 張偉偉, 張旭成, 陶鵬 申請人:天津海量信息技術(shù)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
洛宁县| 禹州市| 无棣县| 梅河口市| 昂仁县| 德江县| 天等县| 通渭县| 清原| 江津市| 鹤山市| 平南县| 始兴县| 晋宁县| 乐业县| 涞水县| 镇远县| 阿尔山市| 新余市| 荆州市| 马尔康县| 巴林左旗| 池州市| 都江堰市| 呼图壁县| 文山县| 三穗县| 忻城县| 庆安县| 西乌| 永嘉县| 阳高县| 石楼县| 淮安市| 乌拉特中旗| 岳普湖县| 广饶县| 宜阳县| 阳高县| 福贡县| 林州市|