多詞單元提取方法和設備及人工神經(jīng)網(wǎng)絡訓練方法和設備的制作方法
【專利摘要】本申請公開了一種多詞單元提取方法和設備及人工神經(jīng)網(wǎng)絡訓練方法和設備。提取多詞單元的方法包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的語言學特征作為特征量;將特征量作為參數(shù)輸入到人工神經(jīng)網(wǎng)絡中;采用人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)第一和第二可能性判斷該分詞是否為多詞單元的一部分;提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞以形成多詞單元;以及獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
【專利說明】多詞單元提取方法和設備及人工神經(jīng)網(wǎng)絡訓練方法和設備
【技術領域】
[0001]本申請總體上涉及自然語言處理的領域,尤其涉及提取語句中的多詞單元的方法和設備以及訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的方法和設備。
【背景技術】
[0002]經(jīng)典的自然語言處理系統(tǒng)通常假設每個詞為一個語義單元,但是這并沒有包含多詞單元的情形。多詞單元跨越詞的邊界,因而多詞單元有著特殊的解讀方法。識別和提取多詞單元是多詞單元處理領域的主要關注點,并且也被認為是進一步研究的瓶頸。多詞單元是自然語言處理中比較普遍并且沒有精確定義的一個概念。一般,多詞單元指的是兩個或兩個以上的詞單元同時出現(xiàn)在一起的概率相對較高的詞組合,并且該詞組合具有完整的語義。多詞單元在自然語言處理領域是相當普遍的現(xiàn)象,因此多詞單元的識別和提取非常重要。由于沒有充足的詞搭配知識,并且詞組合信息分散于各個分詞之中,因此將分開的詞根據(jù)原意重新組合以成為獨立語義單元,從而獲得原來的完整語義是非常困難的,尤其是處理像中文這種文字間沒有分割的語言。
[0003]多詞單元的識別和提取可廣泛應用于機器翻譯、高效句法分析、優(yōu)化信息檢索和詞義消歧等方面。目前普遍應用于識別和提取多詞單元的方法有排序方法、局部最大值方法(Local Maxima)和條件隨機場方法(Conditional Random Fields)等。在識別和提取多詞單元時使用的特征值包括分詞間互信息、t分數(shù)、熵和共現(xiàn)頻率等。另外,識別和提取多詞單元還涉及分詞工具、詞形標注工具、詞性標注工具和停詞表等的使用。
[0004]現(xiàn)有技術中的識別和提取多詞單元的方法基本上采用如下過程:對目標語句進行分詞和/或詞性標注;根據(jù)分析和/或詞性標注的結果計算相應的特征值,例如頻率、分詞共現(xiàn)率和互信息等;以及根據(jù)所計算的特征值使用特定算法或模型對候選多詞單元進行篩選,從而得到比較準確的多詞單元。但是,現(xiàn)有技術中的方法無法保證對目標語句進行分詞和/或詞性標注的準確性,從而經(jīng)常引入錯誤信息,導致訓練過程中的信息本身就包含相互矛盾的數(shù)據(jù),或者導致實際應用中的特征值本身與實際情況有偏差。
[0005]多詞單元是與短語或詞塊不同的概念,因此多詞單元的識別和提取方法不同于短語或詞塊的識別和提取方法。具體地,短語中的某些介詞短語并不具有完整的語義,因此利用短語的識別和提取方法來識別和提取多詞單元并不能取得良好的效果。另外,詞塊是定義在句法層面中的,因此在識別和提取詞塊時需要考慮組成詞塊的句法信息和詞性信息,對于語義的完整性并沒有嚴格的要求,所以將詞塊的識別和提取方法應用到多詞單元的識別和提取也是不可行的。
[0006]因此,期望提供一種提取語句中的多詞單元的方法和設備,其能夠提高多詞單元的識別和提取的準確性和效率。
【發(fā)明內容】
[0007]在下文中將給出關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0008]本發(fā)明將人工神經(jīng)網(wǎng)絡應用到多詞單元的識別和提取。人工神經(jīng)網(wǎng)絡是一種模擬動物神經(jīng)網(wǎng)絡行為特征來進行分布式并行信息處理的算法模型。人工神經(jīng)網(wǎng)絡依靠系統(tǒng)的復雜程度,通過調整內部大量節(jié)點之間的相互連接關系,達到處理信息的目的。人工神經(jīng)網(wǎng)絡包括大量的節(jié)點及其之間的相互連接。人工神經(jīng)網(wǎng)絡中的每個節(jié)點表示一種特定的輸出函數(shù),節(jié)點之間的連接表示對應于該連接的加權值,稱之為權重,其相當于人工神經(jīng)網(wǎng)絡的記憶。人工神經(jīng)網(wǎng)絡的輸出根據(jù)人工神經(jīng)網(wǎng)絡的連接方式、權重值和輸出函數(shù)的不同而不同。
[0009]根據(jù)本發(fā)明的實施例,提供了一種提取語句中的多詞單元的方法,包括:針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;將特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到人工神經(jīng)網(wǎng)絡中;采用人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,該方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
[0010]根據(jù)上述提取語句中的多詞單元的方法,還包括:依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數(shù)。
[0011]根據(jù)上述提取語句中的多詞單元的方法,還包括:將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據(jù)泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。
[0012]根據(jù)本發(fā)明的另一實施例,提供了一種提取語句中的多詞單元的設備,包括:語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量;輸入單元,其將特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到人工神經(jīng)網(wǎng)絡中;判斷單元,其采用人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元,其中,該設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊的特征量。
[0013]根據(jù)上述提取語句中的多詞單元的設備,還包括:組合單元,其依次將語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數(shù)。
[0014]根據(jù)上述提取語句中的多詞單元的設備,還包括:泛化單元,其將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及詞性容錯信息獲取單元,其根據(jù)泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將詞性容錯信息也作為N元組中的分詞的特征量。
[0015]根據(jù)本發(fā)明的又一實施例,提供了一種訓練人工神經(jīng)網(wǎng)絡的方法,人工神經(jīng)網(wǎng)絡用于提取語句中的多詞單元,該方法包括:針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注;將特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到人工神經(jīng)網(wǎng)絡中;采用人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及根據(jù)判斷的結果和標注的結果,來訓練人工神經(jīng)網(wǎng)絡,其中,該方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
[0016]根據(jù)上述一種訓練人工神經(jīng)網(wǎng)絡的方法,還包括:依次將訓練語句中相鄰的N個分詞組合為N元組以形成分詞塊,其中N為大于或等于2的自然數(shù)。
[0017]根據(jù)上述一種訓練人工神經(jīng)網(wǎng)絡的方法,還包括:將N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及根據(jù)標注的結果和泛化N元組中的分詞的詞形特征和詞性特征,計算泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
[0018]根據(jù)本發(fā)明的再一實施例,提供了一種訓練人工神經(jīng)網(wǎng)絡的設備,該人工神經(jīng)網(wǎng)絡用于提取語句中的多詞單元,該設備包括:語言學特征獲取裝置,其針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,訓練語句中的多詞單元已被標注;輸入裝置,其將特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到人工神經(jīng)網(wǎng)絡中;判斷裝置,采用人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及訓練裝置,其根據(jù)判斷的結果和標注的結果,來訓練人工神經(jīng)網(wǎng)絡,其中,該設備還包括:反饋信息獲取裝置,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將反饋信息也作為當前分詞塊中的分詞的特征量。
[0019]根據(jù)本發(fā)明,通過將具有反饋配置的人工神經(jīng)網(wǎng)絡應用于多詞單元的識別和提取,可以提高多詞單元的識別和提取的準確性和效率。
【專利附圖】
【附圖說明】
[0020]本發(fā)明可以通過參考下文中結合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本發(fā)明的優(yōu)選實施例和解釋本發(fā)明的原理和優(yōu)點。在附圖中:
[0021]圖1是示出根據(jù)本發(fā)明的實施例的提取語句中的多詞單元的方法的示意性流程圖;
[0022]圖2是示出根據(jù)本發(fā)明的實施例的利用具有反饋配置的人工神經(jīng)網(wǎng)絡提取語句中的多詞單元的示意圖;
[0023]圖3是示出根據(jù)本發(fā)明的實施例的采用N元組來提取語句中的多詞單元的方法的示意性流程圖;
[0024]圖4是示出根據(jù)本發(fā)明的實施例的采用N元組來提取語句中的多詞單元的示意圖;
[0025]圖5是示出根據(jù)本發(fā)明的實施例的采用N元組來獲取詞形提取概率和/或詞性提取概率的方法的示意性流程圖;
[0026]圖6是示出根據(jù)本發(fā)明的實施例的采用N元組進行詞性容錯的方法的示意性流程圖;
[0027]圖7是示出根據(jù)本發(fā)明的實施例的采用N元組進行詞性容錯的示意圖;
[0028]圖8是示出根據(jù)本發(fā)明的實施例的提取語句中的多詞單元的設備的示意性框圖;
[0029]圖9是示出根據(jù)本發(fā)明的另一實施例的提取語句中的多詞單元的設備的示意性框圖;
[0030]圖10是示出根據(jù)本發(fā)明的另一實施例的提取語句中的多詞單元的設備的示意性框圖;
[0031]圖11是示出根據(jù)本發(fā)明的另一實施例的提取語句中的多詞單元的設備的示意性框圖;
[0032]圖12是示出根據(jù)本發(fā)明的實施例的訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的方法的示意性流程圖;
[0033]圖13是示出根據(jù)本發(fā)明的實施例的采用N元組來訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的方法的示意性流程圖;
[0034]圖14是示出根據(jù)本發(fā)明的實施例的采用N元組生成詞形模板和/或詞性模板的方法的示意性流程圖;
[0035]圖15是示出根據(jù)本發(fā)明的實施例的采用N元組生成詞性容錯模板的方法的示意性流程圖;
[0036]圖16是示出根據(jù)本發(fā)明的實施例的采用N元組生成詞性容錯模板的示意圖;
[0037]圖17是示出根據(jù)本發(fā)明的實施例的訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的設備的示意性框圖;
[0038]圖18是示出根據(jù)本發(fā)明的另一實施例的訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的設備的示意性框圖;
[0039]圖19是示出根據(jù)本發(fā)明的另一實施例的訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的設備的示意性框圖;
[0040]圖20是示出根據(jù)本發(fā)明的另一實施例的訓練用于提取語句中的多詞單元的人工神經(jīng)網(wǎng)絡的設備的示意性框圖;以及
[0041]圖21是示出可用于作為實施根據(jù)本發(fā)明的實施例的信息處理設備的示意性框圖。
【具體實施方式】
[0042]在下文中將結合附圖對本發(fā)明的示例性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施方式的過程中可以做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,并且這些決定可能會隨著實施方式的不同而有所改變。
[0043]在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關的裝置結構,而省略了與本發(fā)明關系不大的其他細節(jié)。
[0044]下面將結合圖1和圖2來描述根據(jù)本發(fā)明的實施例的提取語句中的多詞單元的方法。圖1是示出根據(jù)本發(fā)明的實施例的提取語句中的多詞單元的方法的示意性流程圖,而圖2是示出根據(jù)本發(fā)明的實施例的利用具有反饋配置的人工神經(jīng)網(wǎng)絡提取語句中的多詞單元的示意圖。
[0045]如圖1所示,該處理在SlOO開始。接著,該處理前進到S102。
[0046]在S102,針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量。
[0047]對語料中的語句進行分詞,從而將語句切分為多個分詞塊,其中分詞塊中可以包含至少一個分詞。對切分得到的多個分詞塊中的每個分詞塊中的分詞按照其在原來的語句中的語序依次進行處理。例如,可以對分詞塊中的分詞進行處理以獲取分詞的一個或多個語言學特征。例如,分詞的語言學特征可以為以下中的一個或更多個:分詞的詞性、分詞的詞形、分詞序號或分詞出現(xiàn)概率。本領域技術人員應當理解,分詞的語言學特征不限于上面列舉的示例。在獲取分詞的語言學特征之后,可以將獲得的分詞的語言學特征作為特征量以用于后續(xù)的處理。
[0048]例如,對于語句“最初施用引物的步驟”,對該語句進行分詞,從而得到如下的分詞結果“最初/施用/引/物/的/步驟”,也就是說,將語句“最初施用引物的步驟”切分為以下多個分詞塊{ “最初”,“施用”,“引”,“物”,“的”,“步驟”},其中每個分詞塊中包含一個分詞。接著,對得到的多個分詞塊中的每個分詞塊中的分詞{ “最初”,“施用”,“引”,“物”,“的”,“步驟” }按照“最`初”一“施用”一“引”一“物”一“的”一“步驟”的順序依次進行處理。例如,可以對多個分詞{ “最初”,“施用”,“引”,“物”,“的”,“步驟”}進行處理以分別得到上述各個分詞的詞性{ “(最初)形容詞”,“(施用)動詞”,“(引)名詞”,“(物)名詞”,“(的)介詞”,“(步驟)名詞”}。本領域技術人員應當理解,還可以獲得上述多個分詞{“最初”,“施用”,“引”,“物”,“的”,“步驟” }的其它語言學特征,這里不再贅述。
[0049]在S102之后,該處理前進到S104。在S104,將特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到人工神經(jīng)網(wǎng)絡中。
[0050]如圖2所示,人工神經(jīng)網(wǎng)絡205中的每個圓圈代表一個或多個神經(jīng)元,用來處理圓圈內標識的信息。人工神經(jīng)網(wǎng)絡205中的神經(jīng)元分為三個層次組合在一起,分別為:輸入層202、隱匿層203和輸出層204。后一層的神經(jīng)元的值由前一層的神經(jīng)元的值計算得到。圖2中的黑箭頭代表人工神經(jīng)網(wǎng)絡205中信息的流動方向,相鄰的兩層神經(jīng)元是完全連接的,并且信息由前一層流向后一層。本領域技術人員應當理解,雖然圖2中的隱匿層203僅示出了一層,但是根據(jù)實際需要,隱匿層203可以包括兩層或更多層。
[0051]如圖2所示,在人工神經(jīng)網(wǎng)絡205的輸入層202中,將當前正處理的分詞的t個特征量{特征量I,特征量2,...,特征量i,…,特征量t_l,特征量t}作為人工神經(jīng)網(wǎng)絡205的參數(shù)輸入到人工神經(jīng)網(wǎng)絡205中,其中,i和t均為大于或等于I的自然數(shù),并且
I< i < t??梢詫⑸鲜霾襟ES102中提取的分詞的一個或多個語言學特征作為上述特征量。例如,可以將分詞的詞性、分詞的詞形、分詞序號或分詞出現(xiàn)概率作為上述特征量。
[0052]還是以語句“最初施用引物的步驟”為例,對于分詞“最初”,例如可以獲取分詞“最初”的詞性“名詞”、分詞“最初”的詞形“最初”、分詞“最初”的序號“1”和分詞“最初”的出現(xiàn)概率“0.43”等作為分詞“最初”的特征量,并且將分詞“最初”的上述特征量作為人工神經(jīng)網(wǎng)絡205的參數(shù)輸入到人工神經(jīng)網(wǎng)絡205中。
[0053]在S104之后,該處理前進到S106。在S106,采用人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分。
[0054]在將特征量作為人工神經(jīng)網(wǎng)絡205的參數(shù)輸入到人工神經(jīng)網(wǎng)絡205中之后,人工神經(jīng)網(wǎng)絡205根據(jù)下面的公式來確定當前神經(jīng)元的值:
[0055]f (x) = K (( Σ jWj X gj (x)) +biasff+biasV)
1
[0056]其中,K表示活化函數(shù),例如可以將
【權利要求】
1.一種提取語句中的多詞單元的方法,包括: 針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量; 將所述特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到所述人工神經(jīng)網(wǎng)絡中; 采用所述人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及 提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元, 其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
2.根據(jù)權利要求1中所述的方法,還包括: 依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數(shù)。
3.根據(jù)權利要求2所述的方法,還包括: 將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及 根據(jù)所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元 的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。
4.一種提取語句中的多詞單元的設備,包括: 語言學特征獲取單元,其針對將語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或多個語言學特征作為特征量; 輸入單元,其將所述特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到所述人工神經(jīng)網(wǎng)絡中; 判斷單元,其采用所述人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)所述第一可能性和第二可能性來判斷該分詞是否為多詞單元的一部分;以及 提取單元,其提取相鄰的兩個或更多個被判斷為多詞單元的一部分的分詞,以形成多詞單元, 其中,所述設備還包括:反饋信息獲取單元,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
5.根據(jù)權利要求4所述的設備,還包括: 組合單元,其依次將所述語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數(shù)。
6.根據(jù)權利要求5,還包括: 泛化單元,其將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及 詞性容錯信息獲取單元,其根據(jù)所述泛化N元組中的分詞的詞形特征和詞性特征,從詞性容錯模板中獲取所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,并且將所述詞性容錯信息也作為所述N元組中的分詞的特征量。
7.一種訓練人工神經(jīng)網(wǎng)絡的方法,所述人工神經(jīng)網(wǎng)絡用于提取語句中的多詞單元,所述方法包括: 針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,所述訓練語句中的多詞單元已被標注; 將所述特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到所述人工神經(jīng)網(wǎng)絡中; 采用所述人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)所述第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及 根據(jù)判斷的結果和標注的結果,來訓練所述人工神經(jīng)網(wǎng)絡, 其中,所述方法還包括:獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊中的分詞的特征量。
8.根據(jù)權利要求7所述的方法,還包括: 依次將所述訓練語句中相鄰的N個分詞組合為N元組以形成所述分詞塊,其中N為大于或等于2的自然數(shù)。
9.根據(jù)權利要求8所述的方法,還包括: 將所述N元組中的分詞的詞形替換為相應的詞性,以得到混合了詞形與詞性的泛化N元組;以及 根據(jù)標注的結果和所述泛化N`元組中的分詞的詞形特征和詞性特征,計算所述泛化N元組中的分詞是多詞單元的一部分的提取概率作為詞性容錯信息,以生成詞性容錯模板。
10.一種訓練人工神經(jīng)網(wǎng)絡的設備,所述人工神經(jīng)網(wǎng)絡用于提取語句中的多詞單元,所述設備包括: 語言學特征獲取裝置,其針對將每個訓練語句進行分詞得到的多個分詞塊中的每個分詞塊,獲取每個分詞塊中的分詞的一個或更多個語言學特征作為特征量,其中,所述訓練語句中的多詞單元已被標注; 輸入裝置,其將所述特征量作為人工神經(jīng)網(wǎng)絡的參數(shù)輸入到所述人工神經(jīng)網(wǎng)絡中; 判斷裝置,采用所述人工神經(jīng)網(wǎng)絡計算每個分詞塊中的分詞是多詞單元的一部分的第一可能性和該分詞不是多詞單元的一部分的第二可能性,并且根據(jù)所述第一可能性和第二可能性的比較結果來判斷該分詞是否為多詞單元的一部分;以及 訓練裝置,其根據(jù)判斷的結果和標注的結果,來訓練所述人工神經(jīng)網(wǎng)絡, 其中,所述設備還包括:反饋信息獲取裝置,其獲取與當前分詞塊相鄰的先前分詞塊的判斷的結果作為反饋信息,并且將所述反饋信息也作為所述當前分詞塊的特征量。
【文檔編號】G06F17/30GK103678318SQ201210320806
【公開日】2014年3月26日 申請日期:2012年8月31日 優(yōu)先權日:2012年8月31日
【發(fā)明者】付亦雯, 葛乃晟, 鄭仲光, 孟遙, 于浩 申請人:富士通株式會社