專利名稱:一種基于多代理機制的多詞表達抽取系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種多詞表達抽取系統(tǒng)及方法,尤其涉及一種基于多代理機制的多詞 表達抽取系統(tǒng)及方法。
背景技術(shù):
隨著對自然語言處理領(lǐng)域中的機器翻譯、信息檢索、詞義消歧等的深入研究,研究 者發(fā)現(xiàn)影響性能提升的一個主要因素與一種有很強搭配關(guān)系的多個詞組成的語言單位的 準確抽取和翻譯有關(guān)。例如“各付各”(go Dutch),“奶咖啡”(white coffee),“再來點”(want some more)。在漢語分詞時,“各/付/各”,“奶/咖啡”,“再/來/點”被分離開來,導致 它們不能被翻譯成一個完整的語言單位。這些語言單位在日常語言中頻繁使用,通常用來 表達完整的概念,而這些概念不能拆成單個詞匯來表達。它們有自己的語法或語義特性但 是結(jié)構(gòu)上又有大量的松散和變化的表達形式,這些構(gòu)成部件之間有著較為復雜的關(guān)聯(lián)。該 語言單位被稱為多詞表達(Multiword Expression)簡稱MWE。MWE 一般被分為以下幾種(1)習語指語法語義上可以復合生成,但是已經(jīng)約定俗成,一般不會出現(xiàn)變體。 例如,strong tea,,。(2)詞匯化的短語包括句法松散的表達,如“ touch a nerve (touch/find a raw nerve)";半固定表達,如復合名詞;固定表達,如“ad hoc”,“in addition”。利用計算機來自動抽取和應用MWE被認為是進一步研究的瓶頸。MWE抽取就是識 別出文本中的非嵌套的特定短語結(jié)構(gòu)。鑒于MWE在研究上的重要地位,國內(nèi)外研究者對MWE進行了廣泛的研究。但是,研 究最多的還是MWE的抽取問題,例如名名復合結(jié)構(gòu),固定短語結(jié)構(gòu)和動詞+小品詞短語等等 都是當前研究的熱點。從國內(nèi)外文獻來看,目前主流的MWE抽取主要有以下三種方法統(tǒng)計 抽取方法,知識驅(qū)動抽取方法以及混合抽取方法。統(tǒng)計抽取方法統(tǒng)計方法主要是從文本中統(tǒng)計多個詞的出現(xiàn)頻率和共現(xiàn)信息等數(shù)據(jù),從而計算互 信息、信息熵等數(shù)據(jù),并依據(jù)以上數(shù)據(jù)使用適當?shù)哪P蛯WE進行抽取?;诮y(tǒng)計的方法雖然也取得了較好的識別效果,但該類方法單純統(tǒng)計詞頻、共現(xiàn) 信息等,沒有考慮MWE的語法、語義知識,因此,無法從深層次探究不同類型MWE的內(nèi)部組成 規(guī)律。知識驅(qū)動抽取方法知識驅(qū)動的方法中,使用了語言專家總結(jié)的知識或者研究者總結(jié)的規(guī)律性知識來 進行MWE的識別。知識驅(qū)動方法注重MWE的內(nèi)部組成規(guī)律的總結(jié),適合形式變化多變的MWE類型的抽取?;旌铣槿》椒ɑ旌戏椒ㄍǔ=Y(jié)合了統(tǒng)計方法與知識驅(qū)動方法的優(yōu)點,把詞頻數(shù)據(jù)、專家知識和 經(jīng)驗規(guī)律結(jié)合使用??傮w來看,無論英語還是漢語,MWE抽取的準確率都不是很高,距離實際應用還有 很大的距離,因此還有較大的提升空間。知識驅(qū)動方法可以涵蓋MWE的內(nèi)部組成規(guī)律,對形 式多變的個別MWE類型比較適合,但該方法無法把所有的知識全部總結(jié)出來;隨著大規(guī)模 語料庫的建立和計算機技術(shù)的飛速發(fā)展,統(tǒng)計方法得到了迅猛的發(fā)展,也取得了較好的效 果,但對于一些復雜的MWE,統(tǒng)計和知識相結(jié)合的方法才能取得較好的效果。縱觀MWE抽取的方法和策略,我們發(fā)現(xiàn)多數(shù)的研究者只針對某一種類型(比如復 合名詞、動詞+小品詞等)的MWE進行抽取,少數(shù)的研究者同時抽取了幾種類型的MWE,但是 使用的是相同的模型和算法。從MWE的分類我們可以看出,不同類型的MWE在定義、形態(tài)和 組成上有很大差別,因此上述現(xiàn)有技術(shù)中所采用的MWE抽取方法和策略無法保證獲得較高 的正確率。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)的弊端,提供一種基于多代理機制的多詞表達抽取系統(tǒng)及方法。本發(fā)明所述的基于多代理機制的多詞表達抽取系統(tǒng),包括輸入待抽取語句的語句 輸入模塊和輸出語句抽取結(jié)果的語句輸出模塊,還包括語句復制模塊,用于根據(jù)語句抽取單元中預定的語句抽取機制的數(shù)量將語句輸入 模塊輸入的待抽取語句復制出對應數(shù)量的待抽取語句,并將對應數(shù)量的待抽取語句對應于 各語句抽取機制,分別發(fā)送至語句抽取單元中;第一語句抽取單元,用于根據(jù)其中預定的多個語句抽取機制對相應接收到的各待 抽取語句進行詞語抽??;同時,根據(jù)預定的第一消歧機制對通過多個語句抽取機制進行的 語句抽取中的沖突進行第一消歧處理并輸出第一消歧后的語句抽取結(jié)果;控制模塊,用于將第一語句抽取單元輸出的第一消歧后的語句抽取結(jié)果進行匯 總,匯總后,如果第一消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%或以下的 詞匯進行了第一消歧處理,則將最終語句抽取結(jié)果通過語句輸出模塊進行輸出;如果第一 消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%以上的詞匯均進行了第一消歧 處理,則控制模塊控制第二語句抽取單元進行待抽取語句的詞語抽??;第二語句抽取單元,用于根據(jù)其中預定的兩個語句抽取機制對相應接收到的各待 抽取語句進行詞語抽??;同時,根據(jù)預定的第二消歧機制對通過兩個語句抽取機制進行的 語句抽取中的沖突進行第二消歧處理,并通過語句輸出模塊輸出第二消歧后的語句抽取結(jié)^ ο本發(fā)明所述的多詞表達抽取系統(tǒng)中,所述第一語句抽取單元針對多個語句抽取中 的同一詞匯的抽取結(jié)果進行比較,若比較結(jié)果存在沖突,則根據(jù)第一消歧原則進行消岐處理。本發(fā)明所述的多詞表達抽取系統(tǒng)中,所述第一語句抽取單元中采用四個語句抽取
5機制,從而所述第一語句抽取單元進一步包括分別與各語句抽取機制對應的習語識別模 塊、復合名詞識別模塊、動詞和名詞識別模塊、動詞和小品詞識別模塊、以及包括用于各識 別模塊之間通信的通信模塊;所述習語識別模塊、復合名詞識別模塊、動詞和名詞識別模塊、動詞和小品詞識別 模塊之間經(jīng)由通信模塊針對同一詞匯的識別結(jié)果進行比較處理。本發(fā)明所述的多詞表達抽取系統(tǒng)中,所述第二語句抽取單元中采用兩個語句抽取 機制,從而所述第二語句抽取單元進一步包括分別與各語句抽取機制對應的等級識別模塊 和忽略語識別模塊、以及包括用于各識別模塊之間通信的通信模塊;所述等級識別模塊和忽略語識別模塊之間經(jīng)由通信模塊針對同一詞的識別結(jié)果 進行比較處理。本發(fā)明還提供一種基于多代理機制的多詞表達抽取方法,步驟包括步驟一,將接收到的語句進行復制,并且接收到的語句進行復制的數(shù)量與預定的 語句抽取機制的數(shù)量對應;步驟二,應用預定的語句抽取機制對該復制后的語句進行語句抽取,以及,根據(jù)預 定的消歧機制對多個語句抽取中的沖突進行消歧處理并輸出多個語句抽取結(jié)果;步驟三,將上述輸出的多個語句抽取結(jié)果進行匯總并輸出。本發(fā)明所述的多詞表達抽取方法的步驟二中,預定的語句抽取機制包括習語識 別、復合名詞識別、動詞與名詞識別、動詞與小品詞識別;所述預定的消岐機制包括根據(jù)預 設的規(guī)則和上下文信息進行消岐處理、以及根據(jù)預設的沖突判決規(guī)則進行消岐處理。本發(fā)明所述的多詞表達抽取方法的步驟二中,將同一詞按照習語識別、復合名詞 識另O、動詞和名詞識別、動詞和小品詞識別的抽取結(jié)果進行比較,以確定該詞在語句抽取中 是否沖突;對語句抽取結(jié)果進行比較的過程包括當所述習語識別、復合名詞識別、動詞與名詞識別、或動詞與小品詞識別中任意一 種識別機制接收到待抽取語句并進行識別時,同時將該待抽取語句發(fā)送至其余識別機制進 行識別;并將經(jīng)過上述各識別機制識別過的抽取結(jié)果進行比較。本發(fā)明所述的多詞表達抽取方法中,所述各識別機制識別過的抽取結(jié)果以知識查 詢和處理語言進行交互比較。本發(fā)明所述的多詞表達抽取方法的步驟二中,若語句抽取結(jié)果中字數(shù)占待抽取語 句總字數(shù)70%以上的詞匯均進行了消歧處理,則應用預定的第二語句抽取機制對所述復制 后的語句進行語句抽取,以及,根據(jù)預定的第二消歧機制對多個語句抽取中的沖突進行消 歧處理并輸出多個語句抽取結(jié)果。本發(fā)明所述的多詞表達抽取方法中,所述第二語句抽取機制包括將待抽取語句中 的詞匯分成等級的等級識別及將待抽取語句中的可忽略詞匯提取出來的忽略語識別;所述第二消歧機制為若提取出來的可忽略詞匯為通過等級識別出的低等級詞 匯,則忽略這些詞匯;若提取出來的可忽略詞匯不是通過等級識別出的低等級詞匯,則根據(jù) 預定的詞匯的等級和可忽略程度,將這些詞匯進行保留或忽略。發(fā)明所述的基于多代理機制的多詞表達抽取系統(tǒng)及方法中,將輸入的語句復制后 應用不同的語句抽取機制進行語句抽取,同時,在抽取過程中進行必要的通信,以消除語句 抽取過程中各種語句抽取機制所抽取的結(jié)果之間的沖突,再對所有的語句抽取結(jié)果進行匯總輸出。本發(fā)明所述的基于多代理機制的多詞表達抽取系統(tǒng)及方法中,可根據(jù)不同類型的 多詞表達語句而使用不同的語句抽取機制,大大提高了語句抽取的正確率。
圖1為本發(fā)明所述基于多代理機制的多詞表達抽取系統(tǒng)的結(jié)構(gòu)示意圖;圖2為本發(fā)明所述基于多代理機制的多詞表達抽取方法的流程示意圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明做進一步的詳細說明,以令本領(lǐng)域技術(shù)人員參照說明書文 字能夠據(jù)以實施。本發(fā)明中所述的多代理機制,即將識別不同類型語句的機制加以整合,從而實現(xiàn) 一次輸出多種多詞表達結(jié)果的目的。本發(fā)明所述的基于多代理機制的多詞表達抽取系統(tǒng),如圖1所示,包括了語句輸 入模塊、語句輸出模塊、以及增加設置的語句復制模塊、第一語句抽取單元、控制模塊、第二 語句抽取模塊。其中,所述語句輸入模塊用于接收待抽取的語句,該語句輸入模塊可為鍵盤等常 用的數(shù)據(jù)輸入工具。所述語句復制模塊用于根據(jù)后述語句抽取單元中預定的語句抽取機制的數(shù)量將 語句輸入模塊輸入的待抽取語句復制出對應的數(shù)量的待抽取語句,并將對應數(shù)量的待抽取 語句對應于各語句抽取機制,分別發(fā)送至語句抽取單元中。本發(fā)明中,所述語句抽取單元預 置了多種語句抽取機制,因此,所述語句復制模塊根據(jù)該預置的語句抽取機制的數(shù)量來將 待抽取的語句復制為對應的數(shù)量,再將這些復制后的待抽取語句發(fā)送至后續(xù)的語句抽取單兀。所述第一語句抽取單元用于根據(jù)預定的語句抽取機制對前述輸入的待抽取語句 進行語句抽取。本發(fā)明中,所述預定的語句抽取機制包括多個不同的語句抽取機制,分別 由不同的模塊來實現(xiàn),例如,所述語句抽取單元可具體包括習語識別模塊、復合名詞識別模 塊、動詞和名詞識別模塊、動詞和小品詞識別模塊,上述四種模塊對應了四種不同的語句抽 取機制。與之對應的,當語句抽取單元中包含具有上述四種不同的語句抽取機制的模塊時, 所述語句復制模塊將輸入的待抽取語句復制為四個待抽取語句。所述語句抽取單元內(nèi)具備多種語句抽取機制的模塊對輸入的待抽取語句進行語 句抽取,在實際的語句抽取過程中,針對同一詞的抽取結(jié)果難免會出現(xiàn)差異,即對同一詞采 用多種不同的語句抽取機制而得到的抽取結(jié)果存在沖突,因此,有必要消除該沖突以獲得 更為準確的輸出。于是,本發(fā)明中,還在語句抽取單元中預置了第一消歧機制,使得語句抽 取單元可根據(jù)預定的第一消歧機制對多個語句抽取中的沖突進行第一消歧處理,并最終輸 出多個語句的抽取結(jié)果。一般來說,所述語句抽取單元針對多個語句抽取中的同一詞的抽 取結(jié)果進行比較,若比較結(jié)果存在沖突則進行第一消岐處理。所述第一消歧處理的機制可 包括根據(jù)預設的規(guī)則和上下文信息進行消岐處理、以及根據(jù)預設的沖突判決規(guī)則進行第一 消岐處理。本發(fā)明中,為確定多個語句抽取中的沖突,還在語句抽取單元中設置了通信模塊,
7所述習語識別模塊、復合名詞識別模塊、動詞和名詞識別模塊、動詞和小品詞識別模塊之間 經(jīng)由通信模塊針對同一詞的識別結(jié)果進行比較處理。即所述習語識別模塊、復合名詞識別 模塊、動詞和名詞識別模塊、動詞和小品詞識別模塊構(gòu)成聯(lián)盟,當其中任意一個模塊接收到 輸入的語句后,對其中的詞進行識別并將該詞的識別結(jié)果發(fā)送至聯(lián)盟內(nèi)其他模塊,以便與 該聯(lián)盟內(nèi)的其他模塊針對該同一詞的識別結(jié)果進行比較,藉此來判斷針對同一詞的識別結(jié) 果是否存在沖突。在上述各模塊之間交換詞的識別結(jié)果過程中,所述通信模塊即擔當了中 間媒介作用°該通信模塊可具體使用KQML(Knowledge Query and Manipulation Language, 知識查詢和處理語言)作為通信語言。同時需要說明的是,上述習語識別模塊、復合名詞識別模塊、動詞和名詞識別模 塊、動詞和小品詞識別模塊構(gòu)成的聯(lián)盟內(nèi),各模塊均具備身份標識信息、所屬聯(lián)盟信息、優(yōu) 先級信息、以及功能信息,而各模塊之間的溝通尋址是通過身份標識信息實現(xiàn)的,即任意模 塊保存聯(lián)盟內(nèi)其余模塊的身份標識信息,以待交換詞的識別結(jié)果時使用。所述控制模塊,用于將上述第一語句抽取單元輸出的第一消歧后的語句抽取結(jié)果 進行匯總,匯總后,如果第一消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%或 以下的詞匯進行了第一消歧處理,則將最終語句抽取結(jié)果通過語句輸出模塊進行輸出;如 果第一消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%以上的詞匯均進行了第 一消歧處理,則控制模塊控制第二語句抽取單元進行待抽取語句的詞語抽取。所述第二語句抽取單元,用于根據(jù)其中預定的兩個語句抽取機制對相應接收到的 各待抽取語句進行詞語抽??;同時,根據(jù)預定的第二消歧機制對通過兩個語句抽取機制進 行的語句抽取中的沖突進行第二消歧處理,并通過語句輸出模塊輸出第二消歧后的語句抽 取結(jié)果。其中,所述第二語句抽取單元進一步包括分別與各語句抽取機制對應的等級識別 模塊和忽略語識別模塊、以及包括用于各識別模塊之間通信的通信模塊;所述等級識別模 塊和忽略語識別模塊之間經(jīng)由通信模塊針對同一詞的識別結(jié)果進行比較處理。如果第一消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%以上的詞匯 均進行了第一消歧處理,則意味著第一消歧處理失敗,轉(zhuǎn)向第二消歧處理。第二消歧機制 是根據(jù)本抽取系統(tǒng)在不斷被用戶使用的過程中,將用戶的人工選擇結(jié)果通過概率統(tǒng)計得出 的,或者是通過人工有意識的輸入得出的。具體而言,第二消歧機制是通過等級識別模塊將 待抽取語句中的詞匯分成等級,通過忽略語識別模塊將待抽取語句中的可忽略詞匯提取出 來,如果提取出來的可忽略詞匯正好是通過等級識別模塊識別出的低等級詞匯,則通過第 二消歧機制忽略這些詞匯,最終輸出忽略了這些詞匯的語句抽取結(jié)果;如果提取出來的可 忽略詞匯不是通過等級識別模塊識別出的低等級詞匯,則通過第二消歧機制根據(jù)這些詞匯 的等級和可忽略程度進行綜合評定,最終對這些詞匯進行或保留或忽略的處理,最終輸出 處理后的語句抽取結(jié)果。例如,待抽取語句中包含30個漢字,則通過上述四種語句抽取機制進行抽取,之 后首先通過第一消歧原則進行第一消歧處理。對第一消歧結(jié)果進行處理后,如果發(fā)現(xiàn)其中 的8個詞匯(假定每個詞匯中包含兩個漢字)在這四種語句抽取機制下的抽取結(jié)果存在沖 突,則通過第二消歧原則對通過四種語句機制得到的抽取結(jié)果重新進行第二消歧,并把第 二消歧結(jié)果做為最終處理結(jié)果。第二消歧原則是比第一消歧原則更為寬泛的原則,當通過第一消歧的結(jié)果導致字數(shù)占待抽取語句中總字數(shù)70%以上詞匯均被消歧后,放棄第一消歧原則而采用第二消歧原 則是為了確保抽取結(jié)果不要過于狹窄和局限,而擴大抽取范圍,以免漏檢。所述語句輸出模塊用于輸出語句抽取結(jié)果。該語句輸出模塊可為顯示器等信息輸 出設備。本發(fā)明還提供了一種基于多代理機制的多詞表達抽取方法,如圖2所示,包括如 下步驟步驟101,將接收到的語句進行復制,并且接收到的語句進行復制的數(shù)量與預定的 語句抽取機制的數(shù)量對應。本步驟中,所述接收到的語句被復制為多個,具體的復制數(shù)量與后述預定的語句 抽取機制的數(shù)量相對應。即預定的語句抽取機制的數(shù)量為幾個,就將接收到的語句復制為 幾個。步驟102,應用預定的語句抽取機制對該復制后的語句進行語句抽取,以及,根據(jù) 預定的消歧機制對多個語句抽取中的沖突進行消歧處理并輸出多個語句抽取結(jié)果。本步驟中,所述預定的語句抽取機制包括習語識別、復合名詞識別、動詞與名詞識 別、動詞與小品詞識別。根據(jù)該預定的語句抽取機制的數(shù)量為四個,步驟101中接收到的語 句也被復制為四個,該四個復制后的語句被分別應用習語識別、復合名詞識別、動詞與名詞 識別、動詞與小品詞識別機制進行語句抽取。在實際的語句抽取過程中,針對同一詞的抽取結(jié)果難免會出現(xiàn)差異,即對同一詞 采用多種不同的語句抽取機制而得到的抽取結(jié)果存在沖突,因此,有必要消除該沖突以獲 得更為準確的輸出。于是,本步驟中,還進一步預置了第一消歧機制,使得可根據(jù)預定的第 一消歧機制對多個語句抽取中的沖突進行第一消歧處理,并最終輸出多個語句的抽取結(jié)^ ο具體而言,將同一詞按照習語識別、復合名詞識別、動詞和名詞識別、動詞和小品 詞識別的抽取結(jié)果進行比較,以確定該詞在語句抽取中是否沖突。該對語句抽取結(jié)果進行 比較的過程包括當所述習語識別、復合名詞識別、動詞與名詞識別、或動詞與小品詞識別 中任意一種識別機制接收到待抽取語句并進行識別時,同時將該待抽取語句發(fā)送至其余識 別機制進行識別;并將經(jīng)過上述各識別機制識別過的抽取結(jié)果進行比較。所述各識別機制 識別過的抽取結(jié)果可通過知識查詢和處理語言進行交互比較。若比較結(jié)果存在沖突則進行 第一消岐處理,所述預定的第一消歧處理的機制可包括根據(jù)預設的規(guī)則和上下文信息進行 第一消岐處理、以及根據(jù)預設的沖突判決規(guī)則進行第一消岐處理。本步驟中,還可進一步包括第二消歧機制。如果第一消歧后的語句抽取結(jié)果中,字 數(shù)占待抽取語句中總字數(shù)70%以上的詞匯均進行了第一消歧處理,則意味著第一消歧處理 失敗,轉(zhuǎn)向第二消歧處理。第二消歧機制是根據(jù)本抽取系統(tǒng)在不斷被用戶使用的過程中,將 用戶的人工選擇結(jié)果通過概率統(tǒng)計得出的,或者是通過人工有意識的輸入得出的。具體而言,第二消歧機制是通過將待抽取語句中的詞匯分成等級,以及,通過將待 抽取語句中的可忽略詞匯提取出來。如果提取出來的可忽略詞匯正好是通過等級識別出的 低等級詞匯,則通過第二消歧機制忽略這些詞匯,最終輸出忽略了這些詞匯的語句抽取結(jié) 果;如果提取出來的可忽略詞匯不是通過等級識別出的低等級詞匯,則通過第二消歧機制 根據(jù)這些詞匯的等級和可忽略程度進行綜合評定,最終對這些詞匯進行或保留或忽略的處
9理,最終輸出處理后的語句抽取結(jié)果。例如,待抽取語句中包含30個漢字,則通過上述四種語句抽取機制進行抽取,之 后首先通過第一消歧原則進行第一消歧處理。對第一消歧結(jié)果進行處理后,如果發(fā)現(xiàn)其中 的8個詞匯(假定每個詞匯中包含兩個漢字)在這四種語句抽取機制下的抽取結(jié)果存在沖 突,則通過第二消歧原則對通過四種語句機制得到的抽取結(jié)果重新進行第二消歧,并把第 二消歧結(jié)果做為最終處理結(jié)果。第二消歧原則是比第一消歧原則更為寬泛的原則,當通過第一消歧的結(jié)果導致字 數(shù)占待抽取語句中總字數(shù)70%以上詞匯均被消歧后,放棄第一消歧原則而采用第二消歧原 則是為了確保抽取結(jié)果不要過于狹窄和局限,而擴大抽取范圍,以免漏檢。步驟103,將上述輸出的多個語句抽取結(jié)果進行匯總并輸出。仍以前述四種不同的語句抽取機制為例,當該四種語句抽取機制對同一個詞的抽 取結(jié)果不一致時,即根據(jù)各個抽取機制的分類置信度,指導各個抽取機制彼此交換信息共 同進行決策,當各個抽取機制達到一致決策時,即獲得了最佳的語句解綜合結(jié)果。發(fā)明所述的基于多代理機制的多詞表達抽取系統(tǒng)及方法中,將輸入的語句復制后 應用不同的語句抽取機制進行語句抽取,同時,在抽取過程中進行必要的通信,以消除語句 抽取過程中各種語句抽取機制所抽取的結(jié)果之間的沖突,再對所有的語句抽取結(jié)果進行匯 總輸出。本發(fā)明所述的基于多代理機制的多詞表達抽取系統(tǒng)及方法中,可根據(jù)不同類型的 多詞表達語句而使用不同的語句抽取機制,大大提高了語句抽取的正確率。盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列 運用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對于熟悉本領(lǐng)域的人員而言,可容易地 實現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限 于特定的細節(jié)和這里示出與描述的圖例。
權(quán)利要求
一種基于多代理機制的多詞表達抽取系統(tǒng),包括輸入待抽取語句的語句輸入模塊和輸出語句抽取結(jié)果的語句輸出模塊,其特征在于,還包括語句復制模塊,用于根據(jù)語句抽取單元中預定的語句抽取機制的數(shù)量將語句輸入模塊輸入的待抽取語句復制出對應數(shù)量的待抽取語句,并將對應數(shù)量的待抽取語句對應于各語句抽取機制,分別發(fā)送至語句抽取單元中;第一語句抽取單元,用于根據(jù)其中預定的多個語句抽取機制對相應接收到的各待抽取語句進行詞語抽取;同時,根據(jù)預定的第一消歧機制對通過多個語句抽取機制進行的語句抽取中的沖突進行第一消歧處理并輸出第一消歧后的語句抽取結(jié)果;控制模塊,用于將第一語句抽取單元輸出的第一消歧后的語句抽取結(jié)果進行匯總,匯總后,如果第一消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%或以下的詞匯進行了第一消歧處理,則將最終語句抽取結(jié)果通過語句輸出模塊進行輸出;如果第一消歧后的語句抽取結(jié)果中,字數(shù)占待抽取語句中總字數(shù)70%以上的詞匯均進行了第一消歧處理,則控制模塊控制第二語句抽取單元進行待抽取語句的詞語抽取;第二語句抽取單元,用于根據(jù)其中預定的兩個語句抽取機制對相應接收到的各待抽取語句進行詞語抽取;同時,根據(jù)預定的第二消歧機制對通過兩個語句抽取機制進行的語句抽取中的沖突進行第二消歧處理,并通過語句輸出模塊輸出第二消歧后的語句抽取結(jié)果。
2.如權(quán)利要求1所述的多詞表達抽取系統(tǒng),其特征在于,所述第一語句抽取單元針對 多個語句抽取中的同一詞匯的抽取結(jié)果進行比較,若比較結(jié)果存在沖突,則根據(jù)第一消歧 原則進行消岐處理。
3.如權(quán)利要求2所述的多詞表達抽取系統(tǒng),其特征在于,所述第一語句抽取單元中采 用四個語句抽取機制,從而所述第一語句抽取單元進一步包括分別與各語句抽取機制對應 的習語識別模塊、復合名詞識別模塊、動詞和名詞識別模塊、動詞和小品詞識別模塊、以及 包括用于各識別模塊之間通信的通信模塊;所述習語識別模塊、復合名詞識別模塊、動詞和名詞識別模塊、動詞和小品詞識別模塊 之間經(jīng)由通信模塊針對同一詞匯的識別結(jié)果進行比較處理。
4.如權(quán)利要求1所述的多詞表達抽取系統(tǒng),其特征在于,所述第二語句抽取單元中采 用兩個語句抽取機制,從而所述第二語句抽取單元進一步包括分別與各語句抽取機制對應 的等級識別模塊和忽略語識別模塊、以及包括用于各識別模塊之間通信的通信模塊;所述等級識別模塊和忽略語識別模塊之間經(jīng)由通信模塊針對同一詞的識別結(jié)果進行 比較處理。
5.一種基于多代理機制的多詞表達抽取方法,其特征在于,步驟包括步驟一,將接收到的語句進行復制,并且接收到的語句進行復制的數(shù)量與預定的語句 抽取機制的數(shù)量對應;步驟二,應用預定的語句抽取機制對該復制后的語句進行語句抽取,以及,根據(jù)預定的 消歧機制對多個語句抽取中的沖突進行消歧處理并輸出多個語句抽取結(jié)果;步驟三,將上述輸出的多個語句抽取結(jié)果進行匯總并輸出。
6.如權(quán)利要求5所述的多詞表達抽取方法,其特征在于,所述步驟二中,預定的語句抽 取機制包括習語識別、復合名詞識別、動詞與名詞識別、動詞與小品詞識別;所述預定的消 岐機制包括根據(jù)預設的規(guī)則和上下文信息進行消岐處理、以及根據(jù)預設的沖突判決規(guī)則進行消岐處理。
7.如權(quán)利要求5所述的多詞表達抽取方法,其特征在于,所述步驟二中,將同一詞按照 習語識別、復合名詞識別、動詞和名詞識別、動詞和小品詞識別的抽取結(jié)果進行比較,以確 定該詞在語句抽取中是否沖突;所述對語句抽取結(jié)果進行比較的過程包括當所述習語識別、復合名詞識別、動詞與名詞識別、或動詞與小品詞識別中任意一種識 別機制接收到待抽取語句并進行識別時,同時將該待抽取語句發(fā)送至其余識別機制進行識 別;并將經(jīng)過上述各識別機制識別過的抽取結(jié)果進行比較。
8.如權(quán)利要求7所述的多詞表達抽取方法,其特征在于,所述各識別機制識別過的抽 取結(jié)果以知識查詢和處理語言進行交互比較。
9.如權(quán)利要求5所述的多詞表達抽取方法,其特征在于,所述步驟二中,若語句抽取結(jié) 果中字數(shù)占待抽取語句總字數(shù)70%以上的詞匯均進行了消歧處理,則應用預定的第二語句 抽取機制對所述復制后的語句進行語句抽取,以及,根據(jù)預定的第二消歧機制對多個語句 抽取中的沖突進行消歧處理并輸出多個語句抽取結(jié)果。
10.如權(quán)利要求9所述的多詞表達抽取方法,其特征在于,所述第二語句抽取機制包括 將待抽取語句中的詞匯分成等級的等級識別及將待抽取語句中的可忽略詞匯提取出來的 忽略語識別;所述第二消歧機制為若提取出來的可忽略詞匯為通過等級識別出的低等級詞匯,則 忽略這些詞匯;若提取出來的可忽略詞匯不是通過等級識別出的低等級詞匯,則根據(jù)預定 的詞匯的等級和可忽略程度,將這些詞匯進行保留或忽略。
全文摘要
本發(fā)明公開了一種基于多代理機制的多詞表達抽取系統(tǒng)及方法,所述系統(tǒng)包括語句輸入模塊、語句輸出模塊,以及語句復制模塊、語句抽取單元、語句解綜合模塊。所述方法包括如下步驟將接收到的語句復制;應用預定的語句抽取機制對該復制后的語句進行語句抽取,以及,根據(jù)預定的消歧機制對多個語句抽取中的沖突進行消歧處理并輸出多個語句抽取結(jié)果;將上述輸出的多個語句抽取結(jié)果進行匯總并輸出。
文檔編號G06F17/27GK101908041SQ20101016436
公開日2010年12月8日 申請日期2010年5月6日 優(yōu)先權(quán)日2010年5月6日
發(fā)明者梁穎紅 申請人:江蘇省現(xiàn)代企業(yè)信息化應用支撐軟件工程技術(shù)研發(fā)中心