專利名稱:識別自然語言中的命名實體的方法和裝置的制作方法
技術領域:
本發(fā)明涉及語言處理方法和系統(tǒng),特別是涉及識別自然語言中的命名實體的方法和系統(tǒng),從而能夠提取語言信息,進行相應的處理。
背景技術:
命名實體是指包括人名、地名、機構名、時間、數(shù)量等特定種類詞的集合。命名實體識別在信息提取、信息檢索方面有著廣泛的應用。
近年來,逐步式的命名實體(named entity,NE)識別或語塊(chunk)識別方法表現(xiàn)了比較高的性能。Taku Kudo,Yuji Matsumoto在2001年的NAACL上發(fā)表的題為Chunking with Support Vector Machines的文章對此做了說明。這些方法的主要特征是將識別分成若干前后相繼的步驟,每一步掃描輸入句子中的一個詞,通過觀察當前詞的上下文(context)特征(feature),使用預定或者統(tǒng)計(stochastic)的方法預測當前詞的標記(token)。不同的方法使用不同的標記集合,但基本上包括B、I、E和O四種,分別表示命名實體的起始(B)、中間(I)、結束(E)位置和不屬于命名實體(O)。在輸入句子中所有詞的標記確定之后,所有B、I、E標記串就直接組成了命名實體。在識別中的每一步,識別器使用的特征是包含在以當前詞為中心的一個特征窗口內的局部特征。
表1是一個從句子的開始位置解析(parsing)到句子結束位置的方法示例,下文稱為前向解析。
表1
在表1中C表示當前詞,L1和L2是當前詞的左上下文,而R1和R2是右上下文。特征窗口的大小是5,F(xiàn)C、FL1、FL2、FR1和FR2是特征窗口內每個詞對應的特征,而TL1、TL2是前續(xù)詞的識別標記。N/A表示當前時刻該特征還無法得到。
所謂特征是指所有一切在上下文中可以觀察得到的信息。例如,這個詞是什么,詞的長度,詞性是什么,前面決定的該詞對應的標記是什么,等等,如下面的表2所示。具體使用什么樣的特征,由系統(tǒng)設計人員根據(jù)應用的特點來進行選定,目標是使系統(tǒng)達到最高識別性能。在表2所示的前向解析中,當系統(tǒng)觀察到所有這些特征時,它就可能對當前詞“鄧”作出“B-PER”的標記預測。
表2
其中B-PER標記表示當前詞是一個人名的開始。
在表2給出的示例中,以“繼承”為例,在第三行中給出了該詞的特征為詞的內容是“繼承”,詞的長度是2,詞性為動詞,標記為O(說明其不是命名實體)。
從上面的說明可以看到,逐步式的識別方法有一個缺點,就是只能使用一個固定大小的特征窗口內的局部特征。由于長程(long distance)特征沒有得到使用,會造成起始邊界B標記的誤警(false alarm),即不是命名實體起始邊界的地方有可能被識別器認為是一個起始邊界。ManabuSassano,Takehito Utsuro在COLING 2000705-711中發(fā)表的題為“NamedEntity Chunking Techniques in Supervised Learning for Japanese NamedEntity Recognition”的文章提出一個可變長度模型(Variable Length Model)的方法。其中特征窗口的大小可以在一個預先確定的范圍內變化,可以看出,該方法仍然不能處理任意長度范圍內的特征。
一些基于概率(probabilistic)模型的方法可以使用全局特征。例如,2000年2月17日提交的題為“System for Chinese tokenization and namedentity recognition”的美國專利申請No.09/403,069。然而,概率模型方法受數(shù)據(jù)稀疏(data sparseness)問題的影響比較大,而且需要使用復雜的解碼(decoding)方法在龐大的候選(candidate)網(wǎng)格(lattice)空間中進行搜索。當訓練(training)數(shù)據(jù)不夠,或者計算資源不夠的情況下(比如嵌入式設備),概率模型不具備可行性。
另外,當前的命名實體識別方法受切分詞(word segmentation)錯誤的影響很大。在基于分詞結果之上進行的命名實體識別,沒有辦法恢復分詞過程中被錯分的邊界,從而影響命名實體識別的正確性。如表3給出的例子所示,由于“北京市|公安|局長|江|金福”被錯誤地切分成“北京市|公安局|長江|金|?!?,這直接導致“北京市|公安局”片斷被錯誤地識別成了一個類型為ORG(機構名)的命名實體。而實際上,這個句子的“……北京市公安局……”這個部分中并沒有命名實體,而是在句子后部存在一個真正的PER(人名)類型的命名實體,即“江金?!薄4藭r,使用基于字(character)的模型會避免分詞錯誤引起的這種后果。
表3
上面提到的Kudo等人使用投票(voting)方法對正向和反向識別結果作出選擇以決定最終標記,但投票結果是針對每個步驟的標記識別結果而言的,所以使用的仍是局部特征。此外其它文獻中也披露了很多其它分類器(classifier)結合的方法,然而,這些方法都沒有使用全局特征。
發(fā)明內容
鑒于上述問題,本發(fā)明的目的是提供一種識別自然語言中的命名實體的方法和系統(tǒng),使用候選命名實體的全局特征,在得到僅使用局部特征的前向解析識別結果和后向解析識別結果(即候選命名實體)的基礎上,使用一個單類分類器對這些結果進行打分或評判,來得到最為可靠的命名實體起始和終止邊界。
根據(jù)本發(fā)明的一個方面,提供一種識別自然語言中的命名實體的方法,包括步驟利用逐步式識別器識別出候選命名實體;利用拒識器抽取識別出的侯選命名實體基于字的全局特征;使用所述全局特征來測試所述侯選命名實體;和如果測試得分超過一個事先給定的閾值,則接受所述候選命名實體,否則被拒識。
根據(jù)本發(fā)明的另一個方面,提供一種識別自然語言中的命名實體的方法,包括步驟使用一個特征窗口,對窗口中心包含的詞或字進行局部特征抽取;基于對自然語言執(zhí)行逐步式解析模型訓練后所得到的分類模型,對自然語言執(zhí)行逐步式解析識別,以得到侯選命名實體的位置和類型信息;使用一個特征窗口,對窗口中心包含的候選命名實體進行全局特征抽取;利用拒識器對侯選命名實體進行拒識處理;和對經(jīng)過拒識處理的侯選命名實體生成侯選命名實體網(wǎng)絡,并執(zhí)行最優(yōu)路徑搜索。
根據(jù)本發(fā)明的再一個方面,提供一種識別自然語言中的命名實體的離線訓練方法,包括步驟對自然語句進行前向逐步式解析模型訓練,以得到前向逐步式分類模型;對所述自然語句進行后向逐步式解析模型訓練,以得到后向逐步式分類模型;和根據(jù)得到的前向逐步式分類模型和后向逐步式分類模型對侯選命名實體進行拒識模型訓練,以得到拒識分類模型。
根據(jù)本發(fā)明的再一個方面,提供一種識別自然語言中的命名實體的在線識別方法,包括步驟使用前向逐步式分類模型對自然語言進行識別,得到前向識別結果;使用后向逐步式分類模型對自然語言進行識別,得到后向識別結果;根據(jù)所述前識別結果和所述后向識別結果生成候選網(wǎng)格;和使用生成的所述侯選網(wǎng)格來計算最優(yōu)路徑,并輸出命名實體。
根據(jù)本發(fā)明的再一個方面,提供一種識別自然語言中的命名實體的離線訓練系統(tǒng),包括局部特征抽取裝置,用于使提供的訓練文本生成一個以特征向量和樣本標記表示的命名實體訓練樣本;多類支撐向量機訓練裝置,用于對訓練文本進行訓練,生成逐步式分類模型;全局特征抽取裝置,用于使命名實體訓練樣本生成一個基于字的以特征向量和樣本標記表示的拒識訓練樣本;單類支撐向量機訓練裝置,用于對得到的拒識訓練樣本進行拒識訓練,以生成拒識分類模型;訓練樣本存儲器,用于存儲訓練過程中使用的訓練文本。
根據(jù)本發(fā)明的再一個方面,提供一種識別自然語言中的命名實體的在線識別系統(tǒng),包括局部特征抽取裝置,用于使提供的測試樣本生成局部特征向量;多類支撐向量機識別裝置,用于根據(jù)樣本的局部特征向量對輸入的樣本進行識別,以得到侯選命名實體;全局特征抽取裝置,用于對候選命名實體及其上下文抽取全局特征向量;和單類支撐向量機識別裝置,用于根據(jù)樣本的全局特征向量對輸入的候選命名實體進行識別;其中所述多類支撐向量機識別裝置,利用多類分類模型,對輸入的局部特征向量進行測試以得到其類別標記,并根據(jù)屬于同一種類型的命名實體的一串起始和繼續(xù)標記,形成一個候選命名實體,所述單類支撐向量機識別裝置,利用單類分類模型,對輸入的全局特征向量進行測試以得到其測試得分,從得到的測試得分減去不同的閾值得到拒識得分,根據(jù)拒識得分進行最優(yōu)路徑搜索,和接受最優(yōu)路徑上的候選命名實體。
根據(jù)本發(fā)明,使用全局特征的命名實體識別方法??梢跃茏R逐步式命名實體識別方法產(chǎn)生的不可靠候選命名實體(具有不可靠起始邊界或不可能結束邊界)。另外,基于字的特征抽取避免了分詞錯誤帶來的影響。通過結合前向和后向兩遍解析結果,使命名實體的識別性能得到提高。
通過閱讀和理解下面參考附圖對本發(fā)明優(yōu)選實施例所做的詳細描述,將使本發(fā)明的這些和其它目的、特征、和優(yōu)點變得顯而易見。其中圖1是表示在命名實體識別中采用兩類分類器進行分類的示意圖;圖2是表示在命名實體識別中采用單類分類器進行分類的示意圖;圖3示出了調整閾值時精確度、召回率以及F-measure之間的關系示意圖;
圖4示出了調整閾值時精確度、召回率以及F-measure之間的關系示意圖;圖5示出了調整閾值時精確度、召回率以及F-measure之間的關系示意圖;圖6示出了調整閾值時精確度、召回率以及F-measure之間的關系示意圖;圖7是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的逐步式解析模型的訓練流程圖;圖8是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的逐步式解析識別的流程圖;圖9是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的拒識模型訓練的流程圖;圖10是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的拒識打分的流程圖;圖11是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的侯選網(wǎng)格生成的流程圖;圖12是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的最優(yōu)路徑搜索示意圖;圖13是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的離線訓練的總流程圖;圖14是表示根據(jù)本發(fā)明實施例的命名實體識別過程中的在線訓練的總流程圖;圖15是表示根據(jù)本發(fā)明實施例的命名實體識別裝置的離線訓練系統(tǒng)的方框圖;和圖16是表示根據(jù)本發(fā)明實施例的命名實體識別裝置的在線訓練系統(tǒng)的方框圖。
具體實施例方式
下面參照附圖對本發(fā)明的實施例進行詳細說明,在描述過程中省略了對于本發(fā)明來說是不必要的細節(jié)和功能,以防止對本發(fā)明的理解造成混淆。
下面首先對命名實體全局建模的方式進行描述,以便更好地理解本發(fā)明。
如果將命名實體作為一個整體,一個命名實體的特征可以用其左上下文、右上下文和其內部特征表示。如下面表4給出的示例所示,目標命名實體的特征由FL2、FL1、FIn1、FInm、FR1、FR2,以及諸如命名實體長度m等組成。
表4
與表1所示示例的(詞的)局部特征選取方法相比,表1所示示例所關注的是當前單個詞的上下文特征,而表4所示方法關注的是一個命名實體整體的特征。這樣,無論命名實體的長度有多大,總能觀察到該命名實體的右上下文特征。因此,本發(fā)明把這種特征選取方法稱為命名實體的全局特征。
表5給出了一個具體的全局特征示例。除了前文所述基于詞的特征之外(例如,這個詞是什么,詞有多長,詞性是什么,等等),還可以包括命名實體的長度、類型等等。
表5
訓練集中的命名實體樣本(sample)用于訓練命名實體的全局模型??梢圆捎脙煞N建模方法,一是兩類分類器的建模方法,另一類是單類分類器的建模方法。
現(xiàn)有技術中已經(jīng)揭示了上述有關的分類器的詳細內容。鑒于分類器本身并不是本發(fā)明的內容所在,在此省略對分類器的具體描述。
下面簡單說明這兩種建模的實現(xiàn)方法。使用兩類分類器時,需要收集足夠的正樣本(在本發(fā)明中是指命名實體)和負樣本(在本發(fā)明中是指“非”命名實體)。將正、負樣本的特征表示成高維空間中的向量(或點),訓練過程就是選用一個兩類分類器學習以得到這兩類樣本的分類面。訓練完成后,當需要測試一個新樣本時,只需檢測該樣本相對于分類面的位置,即可作出該樣本是正樣本還是負樣本的預測。而測試樣本與分類面的距離也代表著分類器對該樣本所作預測可靠性,距離分類面越遠,則可靠性越高,反之,可靠性越低。
如圖1所示,以圓圈表示正樣本,以交叉表示負樣本,虛線表示的是分類面,分類面內側的測試樣本將被預測為正樣本。反之,將被預測為負樣本。對圖中以方框表示的新樣本,本分類器將認為該樣本是一個正樣本。
無論使用什么分類器,總會有錯誤分類的情況。例如,圖1中的分類面就使得一些原來正樣本可以出現(xiàn)的區(qū)域(本例中為分類面外側),被認為只能出現(xiàn)負樣本,反之亦然。這種分類器錯誤在所難免,而且當正樣本和負樣本數(shù)目不太平衡時,分類面的確定將會更加困難,導致分類錯誤加大。而命名實體識別正是這樣一種應用,因為命名實體所占文本的百分比只有不到10%,又考慮到由于使用的是全局特征,不同的起始、結束邊界組合形成的負樣本,其數(shù)量將遠遠大于正樣本的數(shù)量,因此最后的分類面將會嚴重傾向于負樣本,導致正樣本被識別成負樣本的錯誤機會大大增加。
使用單類分類器時,只需要收集足夠的正樣本,訓練過程就是選用一個單類分類器學習得到單類的“分類面”,至于該分類面的形式和定義,依賴于選用的不同分類器而定。此時由于避免了負樣本的選擇,簡化了系統(tǒng)的設計,并能減少系統(tǒng)識別誤差。圖2示出了使用單類分類器的分類示意圖。在圖2中,只收集正樣本,并由此減小了識別誤差。
基于上述原因,本發(fā)明使用單類模型。作為一種實現(xiàn),本發(fā)明提出以單類支撐向量機(One-Class SVM單類SVM)作為拒識模型。這是基于單類SVM的高推廣能力、有效處理高維和非線性空間的能力、以及少量訓練數(shù)據(jù)即可達到較高性能的能力。簡單地說,單類SVM算法試圖去尋找能夠分離訓練數(shù)據(jù)和坐標原點的最佳超平面。B.Schlkopf,J.C.Platt,J.Shawe-Taylor,A.J.Smola,and R.C.Williamson在題為“Estimating thesupport of a high-dimensional distribution”的文章(見Neural Computation,13(7)1443-1471,2001),和Chih-Chung Chang and Chih-Jen Lin在題為“LIBSVMa library for support vector machines”的文章(見2001.Softwareavailable athttp://www.csie.ntu.edu.tw/~cjlin/libsvm)中對單類SVM進行了詳細描述,在此省略對其的說明。
通過這種方式,候選命名實體的全局上下文都可以被系統(tǒng)所利用,無論命名實體的長度有多大。
作為本發(fā)明的一個實施例,采用了基于字的建模。下面對基于字的建模進行描述。如前文所述,一些命名實體識別錯誤是由分詞錯誤所導致的。因此,用基于字的模型來替代基于詞的模型在性能上會對這類識別錯誤有一定的修正。表6給出了一個基于字的全局特征建模示例,其中每個特征都是關于左上下文、右上下文和命名實體內部的字。
表6
同樣,表7給出一個具體的基于字的建模示例。作為實例,字的特征可以包括,是否可單獨成詞,作出詞首字、中字、末字出現(xiàn)的概率,等等。
表7
例如,以表7中的“承”字為例,其特征行中給出了“承”字,即字為“承”,單獨成詞為1,作為詞首的概率是0.3,處在詞中的概率是0.2,位于詞末的概率是0.4。作為另一個實例,作為侯選命名實體的“鄧小平”的特征行中給出了字的內容,和長度,以及命名實體的類型。
當候選命名實體被第一階段的逐步式識別器識別出來之后,第二階段的拒識器抽取(extract)該侯選命名實體基于字的全局特征。然后,將全局特征作為輸入,使用單類SVM來測試該侯選命名實體。如果測試得分超過一個事先給定的閾值,則接受該候選命名實體,否則拒識該候選命名實體。測試得分越高說明該候選越可靠。
這樣,擁有不可靠起始邊界(通常來源于前向解析結果)或不可靠結束邊界(通常來源于后向解析結果)的命名實體的候選命名實體就可以被拒識。
僅僅使用拒識方法并不一定能提高以F-measure為指標的系統(tǒng)性能(F-measure是精確率precision和召回率recall的折衷),但是精確率會得到提高。然而,根據(jù)本發(fā)明,在結合了前向和后向兩遍解析結果和拒識方法之后,系統(tǒng)性能會得到明顯的提高。拒識處理過程可以描述如下1.如果前向和后向解析得到了同一個候選命名實體,則使用單類SVM和閾值thident對該候選進行評價。
2.如果一個單遍解析得到一個候選命名實體,而另一個單遍解析沒有得到與這個候選在位置上相交的其他命名實體,則使用單類SVM和閾值thfree對該候選進行評價。
3.如果前向解析得到一個位置為(Bfwd,Efwd)的候選命名實體,后向解析得到另一個位置為(Bbwd,Ebwd)的候選命名實體,這兩個候選在位置上相交,而且它們的類型相同(例如,都是PER),則根據(jù)位置重疊情況至多生成兩個同類型的新候選,位置分別是(Bfwd,Ebwd)和(Bbwd,Efwd),然后使用單類SVM和重疊侯選閾值thdifbndry對這至多4個候選進行評價。
4.如果兩遍解析得到2個在位置上相交的候選命名實體,而且它們的類型不相同,則使用單類SVM和前后向沖突侯選閾值thcnflct對這2個候選進行評價。
5.對于每個輸入句子,所有在第一階段得到的候選命名實體組成一個網(wǎng)格,網(wǎng)格上的每一個候選命名實體附帶一個得分信息,即(拒識得分=單類SVM測試得分-閾值)。在此網(wǎng)格上采用動態(tài)規(guī)劃(dynamicprogramming)的方法去搜索得分之和最大的路徑,這條最佳路徑上的候選命名實體即予以接受并作為最終結果輸出。
圖3-6示出了調整上面所述的各種閾值時,精確度、召回率以及F-measure的關系示意圖。調整上述各種閾值會有不同的效果。
圖3中的曲線示出了調整相同侯選閾值thident的情況。當閾值thident增大時,精確率會有少量提升。但當thident變得足夠大時,召回率和F-measure會急劇下降。
圖4中的曲線示出了調整自由閾值thfree的情況。當閾值thfree增大時,精確率會穩(wěn)步上升,而召回率會穩(wěn)步下降。但當thfree超過一定值時,精確率和召回率趨于穩(wěn)定。F-measure會有少量上升,然后再少量下降,但基本保持在一個較小的范圍內。
圖5中的曲線示出了調整閾值thdifbndr的情況。當閾值thdifbndr增大時,精確率會穩(wěn)步上升,而召回率會穩(wěn)步下降。但當thdifbndr超過一定值,或小于一定值時,精確率和召回率趨于穩(wěn)定。F-measure會保持少量上升趨勢,但基本保持在一個較小的范圍內。
圖6中的曲線示出了調整閾值thcnflct的情況。當閾值thcnflct增大時,精確率會穩(wěn)步上升,而召回率會先上升,后下降。F-measure的表現(xiàn)和召回率類似,即先上升,后下降。
如果使用一個集中的閾值來代替上述分立的各個閾值,以方便調整系統(tǒng)性能,則總的趨勢是隨著閾值的增大,精確率會上升,召回率會下降,而F-measure會先上升,后下降。
通過實驗表明,調整上述分立的各個閾值所獲得了精確度、召回率以及F-measure的關系變化是基于本發(fā)明的命名實體識別方法所特有的,并且可由此判斷對本發(fā)明的使用。
在一個實際系統(tǒng)上的實驗數(shù)據(jù)顯示,相對于單遍解析結果,本發(fā)明的方法可以達到12.14%的錯誤下降率(error reduction rate)。
表7給出的實驗中所用的是一個中文數(shù)據(jù)集,訓練集包括25,616個命名實體,測試集包括27,615個命名實體,分別包含人名、地名和機構名3種類型的命名實體。
這里給出召回率(recall)、精確率(precision)和F-measure的定義
表7實驗結果
利用上面給出的數(shù)據(jù)可以計算出根據(jù)本發(fā)明的方法獲得的錯誤下降率為((92.40-91.35)/(100-91.35)=12.14%)。
以上對本發(fā)明的命名實體的總體方法進行了描述,下面參考附圖對該方法中各個過程進行詳細的描述。
首先描述逐步式解析模型的訓練過程。逐步式解析模型使用基于詞的局部特征,使用多類分類器進行模型學習,其流程如圖7所示。在開始時輸入訓練文本。在步驟S701,解析模型的訓練過程讀取輸入文本中的下一個句子。然后,在步驟S702使用特征窗口,對特征窗口中包含的所讀取的語句進行切分詞,以找出可能的命名實體。特征窗口的大小可以固定,也可以是可變的。對當前的詞切分完成后,在步驟S703讀取下一個詞。此后,流程進行步驟S704,對特征窗口中包含的讀取的詞或字進行局部特征抽取以提取出該詞或字的特征,例如,詞或字的內容,詞或字的長度,詞性等。接下來,在步驟S705,把樣本與其類標記一起加入到訓練集中。在步驟S706,判斷讀取的語句中是否還有未識別的詞,如果還有未識別的詞,流程返回步驟S704,對仍未被識別的詞重復執(zhí)行步驟S703至S706,直到識別完該語句中的所有詞。如果在步驟S706的判斷結果是該語句中的詞已經(jīng)識別完成,流程則進行到步驟S707,判斷文本中是否還有下一個語句。如果判斷結果為肯定,即還有下一個語句,流程返回步驟S701,讀取下一個語句,然后重復步驟S701至S707,識別下一個語句中的命名實體。如果步驟S707的判斷結果為否定,流程進行到步驟S708,對自然語言執(zhí)行逐步式解析模型訓練,利用形成的訓練集,使用學習器根據(jù)訓練樣本進行分類器學習。最后輸出分類模型。
局部特征抽取可以包括詞性標注模塊,以得到每個詞對應的詞性。對于每個詞樣本,特征抽取模塊得到的是表示了該詞所有特征的一個高維向量(或點)。
樣本特征的向量化表示是非常通用和普遍的技術,而且每種應用可以有各種各樣的表示方法,沒有一個統(tǒng)一的定義或者方法,在此僅以一種表示方法為例簡單說明樣本特征的向量化。參見前述的表2,此時需要表示的是以“鄧”為中心,特征窗口大小為5的樣本??梢约僭O系統(tǒng)詞表大小為50000(即含有50,000個詞),詞性表大小為40(即含有40種詞性),類標記集大小為10(即含有10種類標記),詞長為1維,則對于特征窗口中的每個位置,預留有50,000+50+1=50,041維,對于總共5個位置,則特征總空間有50,051*5=250,255維??梢约僭O“決心”、“繼承”、“鄧”、“小平”和“同志”的詞號(即在詞表中的序號,從0到49,999)分別為99、199、299、399和499,副詞、動詞、人名詞、動詞的詞性號(即在詞性表中的序號,從0到39)分別為0、1、2和3,類標記“O”的標記號(即在類標記表中的序號,從0到9)為0,則該樣本的特征向量如下第100維的值為1(代表第1個位置的詞為“決心”);第50,001維的值為1(代表第1個位置的詞性為副詞);第50,041維的值為1(代表第1個位置的類標記為“O”);第50,051維的值為2(代表第1個位置的詞長為2);第50,051+200=50,251維的值為1(代表第2個位置的詞為“繼承”);第50,051+50,002=100,043維的值為1(代表第2個位置的詞性為動詞);第50,051+50,041=100,092維的值為1(代表第2個位置的類標記為“O”);第50,051+50,051=100,102維的值為2(代表第2個位置的詞長為2);第100,102+300=100,402維的值為1(代表第3個位置的詞為“鄧”);第100,102+50,003=150,105維的值為1(代表第3個位置的詞性為人名詞);第100,102+50,051=150,153維的值為1(代表第3個位置的詞長為1);第150,153+400=150,553維的值為1(代表第4個位置的詞為“小平”);第150,153+50,003=200,156維的值為1(代表第4個位置的詞性為人名詞);第150,153+50,051=200,204維的值為2(代表第4個位置的詞長為2);第200,204+500=200,704維的值為1(代表第5個位置的詞為“同志”);第200,204+50,004=250,208維的值為1(代表第5個位置的詞性為動詞);第200,204+50,051=250,255維的值為2(代表第5個位置的詞長為2);其他維的值都為0。
應該指出的是,在流程中,對于前向解析所需要的分類模型訓練,“下一個詞”指的是當前詞的右邊一個詞,而對于后向解析,“下一個詞”指的是當前詞的左邊一個詞。
不限定使用何種多類分類器,但作為一種實現(xiàn),可以采取SVM來實現(xiàn)。兩類SVM問題的訓練和識別公式如下給定訓練集{xi,yi}i=1l,xi∈Rn,yi∈{-1,1},i=1,...,l(其中xi表示訓練樣本的特征向量,yi表示訓練樣本的類標記),SVM對新樣本x作出的類標記預測公式可以用下面的公式(1)表示。
y=sgn{<w,x>-b} (1)其中w由求解下列二次規(guī)劃得到min12||w||2+CΣi=1nξi]]>s.t.yi[(w·xi)+b]-1+ξi≥0,i=1,…,n。
如果該分類問題不是線性可分的(1inear inseparable),則SVM使用一個隱含的映射x→Φ(x)將問題映射到另外一個更高維的空間,期待在該空間下問題的可分性會更好。實際上映射函數(shù)Φ并不單獨出現(xiàn),而是體現(xiàn)在優(yōu)化過程中的內積計算中,即用下式表示。
k(x1,x2)=<Φ(x1),Φ(x2)>
此時的k(x1,x2)稱為核函數(shù)(kernel function),以替代所有公式中出現(xiàn)的內積。
由于SVM是處理兩類分類問題的,則在處理多類(如k)問題時,需要構建k(k-1)個兩類SVM分類器,測試時使用投票方法來決定新樣本的類標記。一個簡單的投票策略就是多數(shù)決策,即得到最多投票的類標記被賦以新樣本。
圖8示出了根據(jù)本發(fā)明實施例的逐步式解析識別過程的流程圖。下面結合圖8描述逐步式解析識別過程。在開始時輸入測試語句。在步驟S801,使用特征窗口,對窗口中包含的輸入的測試語句進行切分詞,以找出可能的命名實體。特征窗口的大小可以固定,也可以是可變的。對當前的詞切分完成后,在步驟S802讀取下一個詞。此后,流程進行到步驟S803,對特征窗口中包含的讀取的詞進行局部特征抽取,并基于這些局部特征解析該詞的特征,例如,詞的內容,詞的長度,詞性等。接下來,在步驟S804,根據(jù)參考圖7的過程得到的分類模型,對當前的詞進行類標記預測。此后,在步驟S805,判斷讀取的語句中是否還有未識別的詞,如果還有未識別的詞,流程返回到步驟S802,對讀取仍未被識別的詞重復執(zhí)行步驟S802至S805,直到識別完該測試語句中的所有詞。如果在步驟S805的判斷結果是該測試語句中的詞已經(jīng)識別完成,流程則進行到步驟S806,將對命名實體給出的B、I、和E標記組成命名實體串。此后,輸出命名實體的位置和類型。
應該指出的是,在逐步式解析識別過程中的特征抽取模塊與逐步式解析模型訓練過程中的特征抽取模塊是一致的。另外,還要指出的是,對于前向解析流程,“下一個詞”指的是當前詞的右邊一個詞,而對于后向解析流程,“下一個詞”指的是當前詞的左邊一個詞。
有關類標記的預測公式,可以參見前面針對逐步式解析模型訓練過程的描述。
在得到B、I、E及O標記后,連續(xù)的B、I、I、……、I、E標記串則被組裝成命名實體。
得到侯選命名實體后,根據(jù)本發(fā)明,需要利用拒識器對侯選命名實體進行拒識處理。下面參考圖9描述拒識模型訓練流程。
在開始時輸入訓練文本。在步驟S901,拒識模型的訓練過程讀取輸入文本中的下一個句子。然后,在步驟S902讀取當前語句中的侯選命名實體。此后,在步驟S903,使用特征窗口,對特征窗口中包含的讀取的侯選命名實體進行全局特征抽取,例如,詞的內容,詞的長度,詞性等。接下來,流程進行到步驟S904,把處理后的樣本加到拒識訓練集中。特征窗口的大小可以固定,也可以是可變的。在拒識訓練集中,針對得到的全局特征在單類分類器上使用學習得到的模型進行拒識處理。在拒識處理中,由拒識器抽取侯選命名實體,計算出表示這些侯選命名實體的準確性得分,根據(jù)計算的得分,對侯選命名實體進行接受或拒絕處理。此后,在步驟S905,判斷讀取的語句中是否還有未經(jīng)過拒識處理的侯選命名實體,如果還有未處理的侯選命名實體,流程返回到步驟S902,讀取下一個侯選命名實體,并對所讀取的侯選命名實體重復執(zhí)行步驟S902至S905,直到對該語句中的所有侯選命名實體進行了拒識處理。如果在步驟S905的判斷結果是該語句中的侯選命名實體已經(jīng)被處理完畢,流程則進行到步驟S906,判斷輸入訓練文本中是否還有下一個語句。如果判斷結果為肯定,即還有下一個語句,流程返回步驟S901,讀取下一個語句,然后重復步驟S901至S906,對下一個語句中的侯選命名實體進行拒識處理。如果步驟S906的判斷結果為否定,流程進行到步驟S907,利用形成的拒識訓練集,使用學習器根據(jù)訓練樣本進行分類器學習。最后輸出分類模型。
拒識模型使用基于字的命名實體的全局特征,使用單類分類器進行模型學習。對于每個命名實體的樣本,特征抽取模塊得到的是表示了該命名實體所有特征的一個高維向量(或點)。使用逐步式分類模型對得到的多維向量進行分類。此處使用的特征向量化表示方法與前面的描述中使用的特征向量化表示方法類似,在此省略對其的說明。
由于單類分類器是描述單一種類樣本的可靠性的,所以對于不同類別的命名實體(如人名、地名、機構名),要使用不同的訓練集,并且訓練得到不同的拒識模型。
在本發(fā)明中,不限定使用何種單類分類器,但作為一種實現(xiàn),可以采取單類SVM來實現(xiàn)。Chih-Chung Chang and Chih-Jen Lin發(fā)表的題為“LIBSVMa library for support vector machines”的文章(參見2001.Software available athttp://www.csie.ntu.edu.tw/~cjlin/libsvm)描述了單類SVM問題的訓練和識別公式如下對于給定的訓練集xi∈Rn,SVM對新樣本x作出的可靠性打分公式為Σi=1lαik(xi,x)-ρ,]]>其中各αi值由求解下列二次規(guī)劃得到minα12αTQα]]>s.t. 0≤αi≤1/(vl),i=1,...,l,,eTα=1,其中Qij=k(xi,xj)≡<(Φxi),(Φxj)>。
得到拒識訓練集后,需要根據(jù)拒識訓練集對侯選命名實體進行打分。圖10示出了對侯選命名實體進行打分的流程圖。下面參考圖10描述對侯選命名實體的打分過程。
首先,輸入侯選命名實體,侯選命名實體的位置以及有關的閾值。接下來,在步驟S1001,對侯選命名實體進行全局特征抽取。此后,在步驟S1002,根據(jù)前面結合圖9描述的過程得到的拒識分類模型,對該侯選命名實體進行可靠性打分。如前所述,拒識得分=可靠性得分-閾值。此后,在步驟S1003,判斷拒識得分是否大于0。如果判斷拒識得分大于0,流程則進行到步驟S1004,將該侯選命名實體、其位置以及其拒識得分信息加入到侯選命名實體網(wǎng)格,并輸出更新的侯選網(wǎng)格。如果在步驟S1003判斷拒識得分不大于0,則直接輸出更新的侯選網(wǎng)格。
打分過程中的特征抽取模塊與“拒識模型訓練過程”中的特征抽取模塊是一致的。
可靠性打分的預測公式可以參見前面的描述。
接下來,參考圖11描述侯選網(wǎng)格的生成過程。首先,輸入經(jīng)過前向解析和后向解析得到的所有侯選命名實體。在步驟S1101,判斷經(jīng)過前、后向解析得到的侯選是否是前后向相同侯選。如果是前后向相同侯選,則在步驟S1102使用前后向相同侯選閾值thident調用拒識打分流程,并向拒識打分流程提供侯選命名實體、位置及相同侯選閾值thident信息,以便執(zhí)行拒識打分流程。此后,流程進行到步驟S1103。需要說明的是,如果在步驟S1101的判斷結果為否定,處理流程也轉到步驟S1103,判斷經(jīng)過前、后向解析得到的侯選是否是自由侯選。如果是自由侯選,則在步驟S1104使用自由閾值thfree調用拒識打分流程,并向拒識打分流程提供侯選命名實體、位置及自由閾值thfree信息,以便執(zhí)行拒識打分流程。此后,流程進行到步驟S1105。需要說明的是,如果在步驟S1103的判斷結果為否定,處理流程也轉到步驟S1105,判斷經(jīng)過前、后向解析得到的侯選是否是前后向重疊侯選。如果在步驟S1105判斷是前后向重疊侯選,則在步驟S1106計入新邊界侯選,并使用前后向重疊侯選閾值thdifbndry調用拒識打分流程,并向拒識打分流程提供侯選命名實體、位置及前后向重疊侯選閾值thdifbndry信息,以便執(zhí)行拒識打分流程。此后,流程進行到步驟S1107。需要說明的是,如果在步驟S1105的判斷結果為否定,處理流程也轉到步驟S1107,判斷經(jīng)過前、后向解析得到的侯選是否是前后向沖突侯選。如果在步驟S1107判斷是前后向沖突侯選,則在步驟S1108使用前后向沖突侯選閾值thcnflct調用拒識打分流程,并向拒識打分流程提供侯選命名實體、位置及前后向沖突侯選閾值thcnflct信息,以便執(zhí)行拒識打分流程。此后,流程進行到步驟S1109。需要說明的是,如果在步驟S1107的判斷結果為否定,處理流程也轉到步驟S1109。在步驟S1109,判斷是否還有未處理的侯選命名實體,如果判斷結果表明還有未處理的侯選命名實體,流程則返回步驟S1101,重復步驟S1101至S1109。如果在步驟S1109判斷已經(jīng)處理了所有侯選命名實體,則輸出侯選網(wǎng)格。
得到侯選網(wǎng)格后,需要執(zhí)行最優(yōu)路徑搜索過程。圖12示出了最優(yōu)路徑搜索的示意圖。最優(yōu)路徑搜索的核心算法是使用動態(tài)規(guī)劃的方法在候選網(wǎng)格中搜索出一條累計得分最高的路徑,其中每條路徑上的節(jié)點在位置上不能重疊。輸出是將該最優(yōu)路徑上的所有命名實體。
下面描述有關的動態(tài)規(guī)劃算法所執(zhí)行的處理。
1.操作對象是由節(jié)點組成的網(wǎng)格,每個節(jié)點附帶有得分信息,以及每個節(jié)點所處的開始和結束位置信息。如果節(jié)點A的結束位置小于節(jié)點B的開始位置,則稱A是B的前驅節(jié)點,而B是A的后續(xù)節(jié)點。網(wǎng)格中有一個特殊的開始節(jié)點和一個特殊的終止節(jié)點,起始節(jié)點是所有其它節(jié)點的前驅節(jié)點,終止節(jié)點是所有其他節(jié)點的后續(xù)節(jié)點。起始和終止節(jié)點的分數(shù)都是0。
2.初始狀態(tài)為當前節(jié)點是開始節(jié)點,當前節(jié)點的累計分數(shù)設為0,將該節(jié)點的來源指針設置為空。
3.在網(wǎng)格中尋找下一個開始位置最小,并且是當前節(jié)點后續(xù)節(jié)點的節(jié)點,并將其設置為當前節(jié)點。
4.針對當前節(jié)點,在網(wǎng)格中循環(huán)查找該當前節(jié)點的所有前驅節(jié)點。其處理過程還執(zhí)行下列處理子過程。
4.1.對當前節(jié)點的任一前驅節(jié)點,創(chuàng)建一條臨時路徑,該臨時路徑的得分為該前驅節(jié)點的累計分數(shù)與當前節(jié)點的分數(shù)之和。
4.2.對所有這些臨時路徑的得分求其最大值,將最大臨時路徑的得分設置為當前節(jié)點的累計得分,當前節(jié)點的來源指針設置為該最大得分臨時路徑所對應的前驅節(jié)點。
4.3.刪除所有臨時路徑。
5.如果網(wǎng)格中還有未處理的節(jié)點,則轉到處理3,否則轉到處理6。
6.從結束節(jié)點開始,使用每個節(jié)點的來源指針進行回溯,將該路徑上的所有節(jié)點輸出。
根據(jù)本發(fā)明,識別系統(tǒng)需要逐步式分類模型和拒識分類模型兩種模型,訓練過程是可以是離線處理。圖13示出了它們的離線訓練的總流程。在訓練開始后,首先,在步驟S1301,以正向方式調用“逐步式解析模型訓練流程”,通過前面所述的相應處理得到前向逐步式分類模型。此后,在步驟S1302,以后向方式調用“逐步式解析模型訓練流程”,通過前面所述的相應處理得到后向逐步式分類模型。接下來,在步驟S1303,調用“拒識模型訓練流程”,通過前面所述的相應處理得到拒識分類模型。得到相應的分類模型后結束訓練。在調用各訓練流程的過程中,系統(tǒng)向各個流程提供訓練文本。
得到逐步式分類模式和拒識分類模型這兩種模型后,在線系統(tǒng)使用這兩種模型對輸入的語句進行命名實體識別。圖14示出了在線系統(tǒng)進行命名實體識別的總流程圖。下面對該過程進行描述。
在識別開始后,首先輸入待測試的語句。然后,在步驟S1401,以前向方式調用“逐步式解析識別流程”進行前向識別。在該過程中,根據(jù)前向逐步式分類模型對測試句進行識別,得到前向識別結果。此后,在步驟S1402,以后向方式調用“逐步式解析識別流程”進行后向識別。在該過程中,根據(jù)后向逐步式分類模型對測試句進行識別,得到后向識別結果。在步驟S1403,系統(tǒng)調用“侯選網(wǎng)格生成流程”以生成侯選網(wǎng)格。在該過程中,根據(jù)前、后向識別結果生成侯選網(wǎng)格。接下來,在步驟S1404,系統(tǒng)調用“最優(yōu)路徑搜索流程”,根據(jù)生成的侯選網(wǎng)格來計算最優(yōu)路徑。最后,輸出命名實體,該處理過程結束。
接下來,描述根據(jù)本發(fā)明實施例的命名實體識別系統(tǒng)。根據(jù)本發(fā)明,進行命名實體識別可以包括進行離線訓練的離線訓練系統(tǒng),以及進行在線測試及識別的在線識別系統(tǒng)。
圖15示出了根據(jù)本發(fā)明一個實施例的命名實體離線訓練系統(tǒng)。如圖15所示,本發(fā)明的命名實體離線訓練系統(tǒng)包括前向逐步式模型存儲器1501,后向逐步式模型存儲器1502,多類SVM訓練器1503,逐步式訓練樣本存儲器1504,逐步式訓練引擎1505,局部特征抽取器1506,訓練文本存儲器1507,拒識訓練引擎1508,全局特征抽取器1509,拒識模型存儲器1510,單類SVM訓練器,和拒識訓練樣本存儲器1512。
下面描述命名實體離線訓練系統(tǒng)的操作。逐步式訓練樣本存儲器1504保存系統(tǒng)所使用的訓練文本。逐步式訓練引擎1505在需要下一句訓練文本時,向訓練文本存儲器1507請求訓練文本。逐步式訓練引擎1505對每一個訓練語句均觸發(fā)局部特征抽取器1506的操作,并將該語句的訓練文本傳遞給局部特征抽取器1506。每當局部特征抽取器1506生成一個以特征向量和樣本標記表示的訓練樣本時,將其傳遞給逐步式訓練樣本存儲器1504存儲。無論是前向解析還是后向解析,均使用同一個逐步式訓練樣本存儲器1504,這是因為前向訓練和后向訓練是順序發(fā)生的。在訓練文本的特征抽取操作的處理全部結束后,逐步式訓練引擎1505觸發(fā)多類SVM訓練器1503操作。多類SVM訓練器1503向逐步式訓練樣本存儲器1504請求得到所有訓練樣本,進行訓練。當多類SVM訓練器1503生成前向逐步式分類模型時,將其傳遞給前向逐步式模型存儲器1501并存儲在其中。同樣,當多類SVM訓練器1503生成后向逐步式分類模型時,將其傳遞給后向逐步式模型存儲器存儲1502,并存儲在其中。
拒識訓練引擎1508在需要下一句訓練文本時,向訓練文本存儲器1507請求得到該訓練語句。拒識訓練引擎1508對每一個語句的訓練文本均觸發(fā)全局特征抽取器1509的操作,并將該語句的訓練文本傳遞給全局特征抽取器1509。每當全局特征抽取器1509生成一個以特征向量和樣本標記表示的訓練樣本時,將其提供給拒識訓練樣本存儲器1512并存儲在其中。在訓練文本的特征抽取工作全部技術之后,拒識訓練引擎1508觸發(fā)單類SVM訓練器1511的操作。單類SVM訓練器1511向拒識訓練樣本存儲器1512請求得到所有訓練樣本,并進行訓練。當單類SVM訓練器1511生成拒識分類模型時,將其傳遞給拒識模型存儲器1510,并存儲在其中。
經(jīng)過離線訓練后,可以利用在線系統(tǒng)對輸入的語句進行測試和識別。
圖16示出了根據(jù)本發(fā)明一個實施例的命名實體在線識別系統(tǒng)。如圖16所示,本發(fā)明的命名實體在線識別系統(tǒng)包括前向逐步式模型存儲器1601,后向逐步式模型存儲器1602,多類SVM識別器1603,逐步式識別引擎1604,局部特征抽取器1605,最優(yōu)路徑搜索器1606,拒識打分引擎1607,全局特征抽取器1608,拒識模型存儲器1609,和單類SVM識別器。
下面描述命名實體在線識別系統(tǒng)的操作。逐步式識別引擎1604在對測試輸入語句的一個樣本進行識別后,觸發(fā)局部特征抽取器1605的操作,并將該語句的測試文本提供給觸發(fā)局部特征抽取器1605。觸發(fā)局部特征抽取器1605將逐步(分前向后向兩種工作模式)抽取到的下一個樣本的局部特征向量傳回給逐步式識別引擎1604。逐步式識別引擎1604在得到測試語句的下一個樣本時,觸發(fā)多類SVM識別器1603的操作,將該樣本的特征向量遞給多類SVM識別器1603。在前向工作模式下,多類SVM識別器1603向前向逐步式模型存儲器1601請求得到前向逐步式分類模型,對輸入的樣本進行識別,然后將識別結果傳回給逐步式識別引擎1604。多類支撐向量機識別裝置,利用多類分類模型,對輸入的局部特征向量進行測試得到其類別標記,屬于同一種類別的命名實體的一串起始和繼續(xù)標記形成一個候選命名實體。
在得到一個樣本的識別結果后,逐步式識別引擎1604再次觸發(fā)局部特征抽取器1605的操作。此后,局部特征抽取器1605執(zhí)行如前所述的操作。后向工作模式的操作過程與此相同。
在得到所有通過前向解析和后向解析識別得到的命名實體后,逐步式識別引擎1604將這些結果傳遞給拒識打分引擎1607。對于前向解析和后向解析結果的每一個候選命名實體,拒識打分引擎1607觸發(fā)全局特征抽取器1608的操作,并將候選的上下文傳遞給全局特征抽取器1608。全局特征抽取器1608將抽取到的全局特征向量傳回給拒識打分引擎1607。在得到候選命名實體的特征向量時,拒識打分引擎1607觸發(fā)對單類SVM識別器1610的操作,將該候選的特征向量傳遞給單類SVM識別器1610。單類SVM識別器1610向拒識模型存儲器1609請求得到拒識分類模型,并對輸入的候選命名實體進行識別,將識別結果(可靠性得分)傳回給拒識打分引擎1607。單類支撐向量機識別裝置,利用單類分類模型,對輸入的全局特征向量進行測試得到其測試得分,減去不同的閾值得到拒識得分,根據(jù)拒識得分進行最優(yōu)路徑搜索,接受最優(yōu)路徑上的候選命名實體。
在得到候選的識別結果(可靠性得分)后,拒識打分引擎1607根據(jù)前后和后向解析結果之間的位置關系,確定不同的閾值,從可靠性得分中減去該閾值,得到拒識得分,并觸發(fā)對最優(yōu)路徑搜索器1606的調用。此后,拒識打分引擎1607將該候選及其位置和拒識得分傳遞給最優(yōu)路徑搜索器1606。在得到一個候選及其位置和拒識得分時,如果得分大于0,最優(yōu)路徑搜索器1606將該候選及其位置和拒識得分加入到候選網(wǎng)格中。根據(jù)計算出的拒識得分來接受或拒絕侯選命名實體。
在一個輸入句的所有候選均得到拒識得分的計算后,最優(yōu)路徑搜索器1606開始進行最優(yōu)路徑的搜索工作,搜索拒識得分之和最大的最優(yōu)路徑,根據(jù)并將最優(yōu)路徑上的命名實體作為系統(tǒng)的最后輸出進行保存。
本發(fā)明的命名實體離線訓練系統(tǒng)和在線識別系統(tǒng)可以用計算機實現(xiàn)。如果用計算機實現(xiàn),那么實現(xiàn)前向逐步式模型存儲器1501,后向逐步式模型存儲器1502,多類SVM訓練器1503,逐步式訓練樣本存儲器1504,逐步式訓練引擎1505,局部特征抽取器1506,訓練文本存儲器1507,拒識訓練引擎1508,全局特征抽取器1509,拒識模型存儲器1510,單類SVM訓練器,和拒識訓練樣本存儲器1512,以及前向逐步式模型存儲器1601,后向逐步式模型存儲器1602,多類SVM識別器1603,逐步式識別引擎1604,局部特征抽取器1605,最優(yōu)路徑搜索器1606,拒識打分引擎1607,全局特征抽取器1608,拒識模型存儲器1609,和單類SVM識別器的程序保存在盤、半導體存儲器、或其它記錄介質上。計算機讀取該程序,并且通過控制計算機的操作,在計算機上實現(xiàn)上述裝置。
根據(jù)本發(fā)明的識別自然語言中的命名實體的方法和系統(tǒng),使用全局特征的命名實體識別方法。可以拒識逐步式命名實體識別方法產(chǎn)生的不可靠候選命名實體(具有不可靠起始邊界或不可能結束邊界)。另外,基于字的特征抽取避免了分詞錯誤帶來的影響。通過結合前向和后向兩遍解析結果,使命名實體的識別性能得到提高。
至此已經(jīng)結合優(yōu)選實施例對本發(fā)明進行了描述。應該理解,本領域技術人員在不脫離本發(fā)明的精神和范圍的情況下,可以進行各種其它的改變、替換和添加。因此,本發(fā)明的范圍不局限于上述特定實施例,而應由所附權利要求所限定。
權利要求
1.一種識別自然語言中的命名實體的方法,包括步驟利用逐步式識別器識別出候選命名實體;利用拒識器抽取識別出的侯選命名實體基于字的全局特征;使用所述全局特征來測試所述侯選命名實體;和如果測試得分超過一個事先給定的閾值,則接受所述候選命名實體,否則被拒識。
2.根據(jù)權利要求1所述的方法,其中使用全局特征測試候選命名實體的步驟包括將全局特征作為輸入,使用單類支撐向量機對候選命名實體進行測試的步驟。
3.根據(jù)權利要求1所述的方法,其中所述逐步式識別步驟包括前向逐步式解析訓練步驟和后向逐步式解析訓練步驟,以分別生成前向逐步式分類模型和后向逐步式分類模型。
4.根據(jù)權利要求1所述的方法,進一步包括將拒識器識別出的候選命名實體組成網(wǎng)格,在此網(wǎng)格上搜索拒識得分最大的路徑的步驟。
5.根據(jù)根據(jù)權利要求3所述的方法,其中所述拒識得分等于單類支撐向量機的測試得分減去所述閾值。
6.一種識別自然語言中的命名實體的方法,包括步驟使用一個特征窗口,對窗口中心包含的詞或字進行局部特征抽??;基于對自然語言執(zhí)行逐步式解析模型訓練后所得到的分類模型,對自然語言執(zhí)行逐步式解析識別,以得到侯選命名實體的位置和類型信息;使用一個特征窗口,對窗口中心包含的候選命名實體進行全局特征抽取;利用拒識器對侯選命名實體進行拒識處理;和對經(jīng)過拒識處理的侯選命名實體生成侯選命名實體網(wǎng)絡,并執(zhí)行最優(yōu)路徑搜索。
7.根據(jù)權利要求6所述的方法,其中所述逐步式解析模型訓練步驟包括使用執(zhí)行前向逐步式解析模型訓練得到的前向逐步式分類模型,和執(zhí)行后向逐步式解析模型訓練得到的后向逐步式分類模型。
8.根據(jù)權利要求6所述的方法,其中所述逐步式解析識別步驟包括對讀取的詞進行局部特征抽取,并基于這些局部特征進行解析的步驟。
9.根據(jù)權利要求8所述的方法,進一步包括特征抽取模塊得到表示所述侯選命名實體的所有特征的多維向量,使用逐步式分類模型對得到的多維向量進行分類的步驟。
10.根據(jù)權利要求6所述的方法,進行拒識處理的步驟包括對候選命名實體中的字進行全局特征抽取,針對得到的全局特征在單類分類器上使用學習得到的模型進行拒識處理的步驟。
11.根據(jù)權利要求6所述的方法,進行拒識處理的步驟包括,由拒識器抽出候選命名實體,計算出表示這些候選命名實體的準確性得分,根據(jù)算出的得分,對候選命名實體進行接受或拒絕的處理。
12.根據(jù)權利要求6所述的方法,進行拒識處理的步驟使用的是對于不同類別的命名實體使用不同的訓練集而得到的拒識器。。
13.根據(jù)權利要求6所述的方法,其中所述拒識處理步驟使用單類支撐向量機測試該侯選命名實體,如果測試得分超過預定的閾值,則接受所述候選命名實體,否則拒識所述候選命名實體。
14.根據(jù)權利要求6所述的方法,其中在所述拒識處理步驟中,如果前向和后向解析得到了同一個候選命名實體,則使用單類支撐向量機和相同侯選閾值對該候選命名實體進行評價。
15.根據(jù)權利要求6所述的方法,其中在所述拒識處理步驟中,如果一個單遍解析得到一個候選命名實體,而另一個單遍解析未得到與所述候選在位置上相交的其它候選命名實體,則使用單類支撐向量機和自由閾值對候選命名實體進行評價。
16.根據(jù)權利要求6所述的方法,其中在所述拒識處理步驟中,如果前向解析得到一個候選命名實體,后向解析得到另一個候選命名實體,且兩個候選在位置上相交,而且具有相同類型,則根據(jù)位置重疊情況至多生成兩個同類型的新候選,使用單類支撐向量機和重疊侯選閾值對至多4個候選進行評價。
17.根據(jù)權利要求6所述的方法,其中在所述拒識處理步驟中,如果兩遍解析得到2個在位置上相交的、且類型不同的候選命名實體,則使用單類支撐向量機和前后向沖突侯選閾值對這2個候選進行評價。
18.一種識別自然語言中的命名實體的離線訓練方法,包括步驟對自然語句進行前向逐步式解析模型訓練,以得到前向逐步式分類模型;對所述自然語句進行后向逐步式解析模型訓練,以得到后向逐步式分類模型;和根據(jù)得到的前向逐步式分類模型和后向逐步式分類模型對侯選命名實體進行拒識模型訓練,以得到拒識分類模型。
19.一種識別自然語言中的命名實體的在線識別方法,包括步驟使用前向逐步式分類模型對自然語言進行識別,得到前向識別結果;使用后向逐步式分類模型對自然語言進行識別,得到后向識別結果;根據(jù)所述前識別結果和所述后向識別結果生成侯選網(wǎng)格;和使用生成的所述侯選網(wǎng)格來計算最優(yōu)路徑,并輸出命名實體。
20.一種識別自然語言中的命名實體的離線訓練系統(tǒng),包括局部特征抽取裝置,用于使提供的訓練文本生成一個以特征向量和樣本標記表示的命名實體訓練樣本;多類支撐向量機訓練裝置,用于對訓練文本進行訓練,生成逐步式分類模型;全局特征抽取裝置,用于使命名實體訓練樣本生成一個基于字的以特征向量和樣本標記表示的拒識訓練樣本;單類支撐向量機訓練裝置,用于對得到的拒識訓練樣本進行拒識訓練,以生成拒識分類模型;訓練樣本存儲器,用于存儲訓練過程中使用的訓練文本。
21.一種識別自然語言中的命名實體的在線識別系統(tǒng),包括局部特征抽取裝置,用于使提供的測試樣本生成局部特征向量;多類支撐向量機識別裝置,用于根據(jù)樣本的局部特征向量對輸入的樣本進行識別,以得到侯選命名實體;全局特征抽取裝置,用于對候選命名實體及其上下文抽取全局特征向量;和單類支撐向量機識別裝置,用于根據(jù)樣本的全局特征向量對輸入的候選命名實體進行識別;其中所述多類支撐向量機識別裝置,利用多類分類模型,對輸入的局部特征向量進行測試以得到其類別標記,并根據(jù)屬于同一種類型的命名實體的一串起始和繼續(xù)標記,形成一個候選命名實體,所述單類支撐向量機識別裝置,利用單類分類模型,對輸入的全局特征向量進行測試以得到其測試得分,從得到的測試得分減去不同的閾值得到拒識得分,根據(jù)拒識得分進行最優(yōu)路徑搜索,和接受最優(yōu)路徑上的候選命名實體。
22.根據(jù)權利要求21所述的系統(tǒng),還包括拒識打分裝置,用于根據(jù)所述單類支撐向量機識別裝置得到的候選命名實體識別結果,以及候選命名實體的位置關系,確定不同的閾值,以計算拒識得分,并根據(jù)計算出的拒識得分,來接受或拒絕候選命名實體。
23.根據(jù)權利要求21所述的系統(tǒng),還包括最優(yōu)路徑搜索裝置,用于根據(jù)候選命名實體的位置和拒識得分,搜索拒識得分之和最大的最優(yōu)路徑。
全文摘要
本發(fā)明提供了一種識別自然語言中的命名實體的方法,包括步驟對自然語言執(zhí)行逐步式解析模型訓練,以獲得分類模型;基于得到的所述分類模型對自然語言執(zhí)行逐步式解析識別,以得到候選命名實體的位置和類型信息;利用拒識器對候選命名實體進行拒識處理;和對經(jīng)過拒識處理的候選命名實體生成候選命名實體網(wǎng)絡,并執(zhí)行最優(yōu)路徑搜索。本發(fā)明使用候選命名實體的全局特征,在得到僅使用局部特征的前向解析識別結果和后向解析識別結果的基礎上,使用一個單類分類器對這些結果進行打分或評判,來得到最為可靠的命名實體起始和終止邊界。
文檔編號G06F17/27GK101075228SQ200610079890
公開日2007年11月21日 申請日期2006年5月15日 優(yōu)先權日2006年5月15日
發(fā)明者燕鵬舉, 孫羽菲, 續(xù)木貴史 申請人:松下電器產(chǎn)業(yè)株式會社