欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多特征融合識別中文機構(gòu)名的控制方法

文檔序號:6377170閱讀:236來源:國知局
專利名稱:一種多特征融合識別中文機構(gòu)名的控制方法
技術(shù)領(lǐng)域
本發(fā)明涉及命名實體識別、關(guān)系挖掘、文檔摘要、句法分析、機器翻譯、信息抽取等技術(shù)領(lǐng)域,具體說是對中文文檔中機構(gòu)名進行識別標(biāo)注的系統(tǒng)。
背景技術(shù)
隨著計算機的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展,大量的信息以電子文檔的形式呈現(xiàn)在人們面前。人們迫切需要一些自動化的工具幫助他們在海量的信息源中迅速找到真正需要的信息,因此,對信息文檔的處理應(yīng)運而生。由于中文文檔不同于英文文檔,詞之間沒有空格分隔,并且對于專有詞如公司名、人名,地名等沒有大小寫之分,這更大程度上加大的了對中文文檔處理的難度,所以對中文文檔進行分詞、實體識別迫切需要。目前,對人名和地名的識別已經(jīng)作了非常廣泛細(xì)致的研究,提出來各種各樣的處理方法,已能夠較好的滿足人們的使用需求。但對于中文機構(gòu)名,由于對其研究較少,并且·其涵蓋范圍大、用詞廣泛、長度不定、慣用簡稱等特點,導(dǎo)致對其識別的效果并不理想?,F(xiàn)在,基于角色標(biāo)注的中文機構(gòu)名識別方法能較好的實現(xiàn)機構(gòu)名識別,但是構(gòu)建一個完整的角色庫難度非常大,而且該種方法對復(fù)雜機構(gòu)名的識別并不理想?;诮y(tǒng)計的中文機構(gòu)名識別方法,由于統(tǒng)計方法比較復(fù)雜,導(dǎo)致識別方法的實現(xiàn)極為困難。而本文所提出的方法并不需要構(gòu)建完整的規(guī)則模式,只需構(gòu)建機構(gòu)名的特征尾詞庫和機構(gòu)名的左邊界特征,構(gòu)建方法簡單快速,并且識別效果理想。

發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種在自然語言處理系統(tǒng)中多特征融合識別中文機構(gòu)名的控制方法,其特征在于,包括如下步驟a.根據(jù)中文機構(gòu)名右邊界特征詞庫以及中文機構(gòu)名左邊界規(guī)則識別待語句中待識別機構(gòu)名的左右邊界,生成候選中文機構(gòu)名;b.確定所述候選中文機構(gòu)名的構(gòu)成模式,對所述候選中文機構(gòu)名進行篩選;以及c.與中文機構(gòu)名上下文語義環(huán)境特征詞進行比較,驗證所述候選中文機構(gòu)名以確定中文機構(gòu)名。根據(jù)本發(fā)明的一個方面,提供一種多特征融合的中文機構(gòu)名識別系統(tǒng),包括機構(gòu)名識別和評估兩個部分。所述機構(gòu)名識別根據(jù)預(yù)先定義的右邊界特征詞庫和左邊界規(guī)則確定待識別機構(gòu)名的左右邊界,從而達到識別機構(gòu)名的目的;所述機構(gòu)名評估先是對得到的識別結(jié)果,經(jīng)過分詞獲取其構(gòu)成模式特征,然后與已知機構(gòu)名的構(gòu)成模式進行相似度匹配,再對其的上下文語義環(huán)境進行判斷,確定其左右邊界的準(zhǔn)確性。優(yōu)選地,所述系統(tǒng)包括如下面特征機構(gòu)名右邊界特征,機構(gòu)名的尾詞,用于確定機構(gòu)名的右邊界。左邊界規(guī)則,中文機構(gòu)名的左邊界規(guī)則是指能夠?qū)C構(gòu)名與機構(gòu)名的前綴相區(qū)分的語法單元,本方法中將其用于確定機構(gòu)名左邊界。機構(gòu)名構(gòu)成模式特征,對已有機構(gòu)名的構(gòu)成模式進行分析總結(jié)而得。主要用于篩選識別得到的機構(gòu)名是否符合構(gòu)成模式特征,刪除不符合的識別結(jié)果。機構(gòu)名上下語義環(huán)境特征,主要用于判斷識別得到的機構(gòu)名的左右邊界是否正確,對邊界識別錯誤的機構(gòu)名的左右邊界根據(jù)上下文特征進行重新確定。優(yōu)選地,對機構(gòu)名構(gòu)成模式的匹配,采用相似度匹配方式。優(yōu)選地,先是運用機構(gòu)名的右邊界特征和左邊界規(guī)則,識別機構(gòu)名,然后再運用機構(gòu)名構(gòu)成模式特征和上下文語義環(huán)境特征進行評估優(yōu)化。優(yōu)選地,機構(gòu)名的構(gòu)成模式特征用于篩除錯誤的識別結(jié)果,上下文語義環(huán)境特征用于對識別錯誤的機構(gòu)名進行優(yōu)化。根據(jù)本發(fā)明的又一個方面,提供一種對中文機構(gòu)名進行識別的方法,該方法是在一個已經(jīng)經(jīng)過中科院分詞軟件ICTCLAS分詞詞性標(biāo)注處理的文檔上進行識別的系統(tǒng)。機構(gòu)名右邊界特征詞庫和上下文語義環(huán)境特征一旦構(gòu)建完成,即可對輸入端文檔進行機構(gòu)名的識別。 本發(fā)明的目的是這樣實現(xiàn)的多特征融合的中文機構(gòu)名識別方法,需要預(yù)先構(gòu)建中文機構(gòu)名右邊界特征詞庫和上下文語義環(huán)境特征庫,并總結(jié)分析獲取左邊界規(guī)則和中文機構(gòu)名的構(gòu)成模式特征。然后基于上述的中文機構(gòu)名特征,對機構(gòu)名進行識別,并對識別結(jié)果進行評估。具體步驟如下第一步對人民日報1998年I月份標(biāo)注語料庫進行處理,構(gòu)建機構(gòu)名右邊界特征詞庫和機構(gòu)名上下文語義環(huán)境特征,總結(jié)機構(gòu)名左邊界規(guī)則和機構(gòu)名構(gòu)成模式特征。第二步依據(jù)機構(gòu)名右邊界特征詞庫,從左向右逐個確定輸入文檔中符合右邊界要求的詞位置。第三步根據(jù)第二步確定的詞位置,從右向左進行尋找,判斷符合左邊界規(guī)則的詞位置。若同時符合多個左邊界規(guī)則,則根據(jù)左邊界規(guī)則的權(quán)重大小,確定權(quán)重大的作為最終的左邊界位置。第四步根據(jù)左邊界位置和右邊界詞位置,得到機構(gòu)名的識別結(jié)果。第五步對識別得到的結(jié)果進行分詞處理,提取其構(gòu)成模式。第六步提取得到的構(gòu)成模式與預(yù)先定義的錯誤機構(gòu)名構(gòu)成特征模式進行相似度匹配計算,去除相似度閾值高于給定值的識別結(jié)果。第七步對第六步保留下來的識別結(jié)果,提取識別結(jié)果的前后各三個詞,與機構(gòu)名上下文語義環(huán)境特征詞進行比較,檢驗機構(gòu)的左右邊界是否存在錯誤,若有誤,則進行修正,重新確定左右邊界。第八步得到最終的機構(gòu)名識別結(jié)果。第九步結(jié)束。與背景技術(shù)相比,本發(fā)明有以下優(yōu)點易行性本方法不需要構(gòu)建完整的規(guī)則模式,只需要構(gòu)建機構(gòu)名的右邊界特征詞庫和機構(gòu)名的左邊界特征即可實現(xiàn)機構(gòu)名的識別。適用范圍廣本方法對于簡單機構(gòu)名和復(fù)雜的機構(gòu)名都適用。本發(fā)明對識別得到的簡單機構(gòu)名,將其視為一個整體,可以作為其他機構(gòu)的組成部分,通過這種方式,實現(xiàn)復(fù)雜機構(gòu)名的識別目的。實用性本方法通過機構(gòu)名的構(gòu)成模式特征和機構(gòu)名的上下文語義環(huán)境特征對識別得到的機構(gòu)名進行評估,刪除錯誤識別的結(jié)果,并對左右邊界有誤的機構(gòu)名進行修正,降低了由于左右邊界過于寬泛而引起的識別錯誤,更符合實際使用需求。規(guī)則和統(tǒng)計相結(jié)合本方法將規(guī)則和統(tǒng)計的方法結(jié)合在一起,彌補兩種方法各自存在的不足之處。首先,利用基于規(guī)則的方式,確定機構(gòu)名左右邊界,識別機構(gòu)名。然后,再利用統(tǒng)計的特征,對識別得到的機構(gòu)名進行評估。


通過閱讀參照以下附圖對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖I示出根據(jù)本發(fā)明的第一實施例的,所述多特征融合識別中文機構(gòu)名的控制方法的流程圖;
圖2示出根據(jù)本發(fā)明的第一實施例的,所述多特征融合識別中文機構(gòu)名的控制方法對待識別語句確認(rèn)左右邊界的流程圖;圖3示出根據(jù)本發(fā)明的第二實施例的,所述多特征融合識別中文機構(gòu)名的控制方法對候選中文機構(gòu)名進一步驗證的流程圖;以及圖4示出根據(jù)本發(fā)明的一個具體實施方式
的,所述多特征融合識別中文機構(gòu)名的控制方法的實例流程圖。
具體實施例方式本發(fā)明依賴中科院分詞軟件ICTICLAS對輸入的文檔進行分詞和詞性標(biāo)注處理。其中,右邊界特征詞和機構(gòu)名上下文語義特征從人民日報1998年I月份已標(biāo)注的語料庫中獲取。左邊界特征和構(gòu)成模式通過對已有的機構(gòu)名進行分析總結(jié)獲取。具體的操作步驟第一步,對輸入的文檔利用中科院分詞軟件ICTCLAS進行分詞和詞性標(biāo)注。第二步,根據(jù)右邊界特征詞庫,確定機構(gòu)名右邊界詞的位置。第三步,從右邊界的位置開始,自右向左進行左邊界規(guī)則的匹配。第四步,若符合多個左邊界規(guī)則,則根據(jù)左邊界規(guī)則權(quán)重大小,將權(quán)重大的左邊界確定為機構(gòu)名左邊界。第五步,得到識別的結(jié)果。第六步,對識別得到的結(jié)果,進行分詞,提取識別結(jié)果的構(gòu)成模式。第七步,符合構(gòu)成模式的識別結(jié)果,提取其上下文信息。第八步,根據(jù)上下文語義特征庫,判斷識別結(jié)果左右邊界是否正確,若不正確,重新確定左右邊界。第九步,得到結(jié)果,結(jié)束。上述方法和系統(tǒng)描述中一些部分對結(jié)構(gòu)特征和方法進行了具體的描述,但是應(yīng)該了解,在所述權(quán)利要求中定義的本發(fā)明不必限于所述的具體特征或動作。此具體特征或動作僅為了更好地說明本發(fā)明作為一個例子而存在的。本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。本發(fā)明提供了一種多特征融合的中文機構(gòu)名識別系統(tǒng),首先對輸入的文檔利用中科院分詞軟件ICTCLAS進行分詞詞性標(biāo)注處理,然后利用預(yù)先獲取的機構(gòu)名右邊界特征詞和機構(gòu)名左邊界規(guī)則,識別機構(gòu)名,再對識別得到的機構(gòu)名進行構(gòu)成模式的抽取,與已知機構(gòu)名構(gòu)成模式進行相似度匹配,判斷其是否符合機構(gòu)名構(gòu)成模式,接著利用機構(gòu)名的上下文語義環(huán)境,最終確定其左右邊界,從而達到機構(gòu)名識別的目的。通過閱讀參照以下附圖對非限制性實施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯
圖I示出根據(jù)本發(fā)明的第一實施例的,所述多特征融合識別中文機構(gòu)名的控制方法的流程圖。具體地,本圖示出了兩個模塊,首先所述待識別語句經(jīng)過分詞處理。將經(jīng)過分詞處理過的待識別語句輸入機構(gòu)名識別模塊,所述機構(gòu)名識別模塊根據(jù)所述分詞結(jié)果確定所述候選中文機構(gòu)名的左右邊界,更具體地,所述左右邊界確定的步驟如圖2所示,在此不予贅述。所述候選中文機構(gòu)名識別完成后輸入所述機構(gòu)名評估模塊,所述機構(gòu)名評估模塊用于確定所述候選中文機構(gòu)名的構(gòu)成模式,對所述候選中文機構(gòu)名進行篩選。以及與中文機構(gòu)名上下文語義環(huán)境特征詞進行比較,驗證所述候選中文機構(gòu)名以確定中文機構(gòu)名。具體地,所述機構(gòu)名評估過程也就是所述機構(gòu)名模式驗證以及根據(jù)上下文語義環(huán)境特征詞驗證左右邊界的過程如圖3所示,具體地,在此不予贅述。本發(fā)明通過上述機構(gòu)名識別模塊以及機構(gòu)名評估模塊最終輸出識別出的中文機構(gòu)名。其中,所述機構(gòu)名識別模塊以及機構(gòu)名評估模塊結(jié)合了機構(gòu)名的構(gòu)成模式特征,機構(gòu)名的上下文語義環(huán)境特征詞以及左邊界規(guī)則右邊界詞庫對待識別語句進行識別和評估,降低了由于左右邊界過于寬泛而引起的識別錯誤,更符合實際使用需求。本發(fā)明對識別得到的簡單機構(gòu)名,將其視為一個整體,可以作為其他機構(gòu)的組成部分,通過這種方式,實現(xiàn)復(fù)雜機構(gòu)名的識別目的。圖2示出根據(jù)本發(fā)明的第一實施例的,所述多特征融合識別中文機構(gòu)名的控制方法對待識別語句確認(rèn)左右邊界的流程圖。具體地,本圖示出了三個步驟。首先是步驟S201·根據(jù)所述右邊界特征詞庫從左向右掃描待識別語句,確定所述中文機構(gòu)名的右邊界詞。然后是步驟S202根據(jù)所述左邊界規(guī)則從右向左掃描待識別語句,確定所述中文機構(gòu)名的左邊界詞。最后是步驟S203根據(jù)所述右邊界詞以及左邊界詞生成候選中文機構(gòu)名。具體地,本領(lǐng)域技術(shù)人員理解所述右邊界特征詞庫以及左邊界規(guī)則預(yù)先根據(jù)語料庫訓(xùn)練生成。其中,所述中文機構(gòu)名右邊界特征詞庫為中文機構(gòu)名的尾詞詞庫,其用于確定中文機構(gòu)名的右邊界。所述中文機構(gòu)名左邊界規(guī)則用于將所述特征語法單元之后的詞確定為所述中文機構(gòu)名左邊界,其中所述特征語法單元是指中文機構(gòu)名之前的語法單元。左邊界規(guī)則主要包括6條,分別是Rulel <標(biāo)點符號>+〈機構(gòu)名前綴修飾詞>+〈機構(gòu)名特征尾詞 > ;例如***年,華東師范大學(xué)成立。Rule2 <介詞>+〈機構(gòu)名前綴修飾詞>+〈機構(gòu)名特征尾詞 > ;例如在華東師范大學(xué)全體學(xué)生的幫助下。Rule3 <連詞>+〈機構(gòu)名前綴修飾詞>+〈機構(gòu)名特征尾詞 > ;例如上海交通大學(xué)和華東師范大學(xué)均有學(xué)生出席。Rule4 <部分常用詞>+〈機構(gòu)名前綴修飾詞>+〈機構(gòu)名特征尾詞 > ;例如簽約了華東師范大學(xué)Rule5 <部分及物動詞>+〈機構(gòu)名前綴修飾詞>+〈機構(gòu)名特征尾詞 > ;例如陳群擔(dān)任華東師范大學(xué)新校長。Rule6 :機構(gòu)名出現(xiàn)在句首;華東師范大學(xué)是一所“985”院校。與六個規(guī)則相應(yīng)的語法單元分別為,第一語法單元,其至少包括標(biāo)點符號;第二語法單元,其至少包括介詞;第三語法單元,其至少包括連詞;第四語法單元,其至少包括部分常用詞;第五語法單元,其至少包括部分及物動詞;以及第六語法單元,其至少包括句首。
當(dāng)所述步驟S202根據(jù)所述左邊界規(guī)則,確定多個左邊界詞時,則根據(jù)所述左邊界規(guī)則特征語法單元的權(quán)重大小,將權(quán)重大的所述特征語法單元后的詞作為最終左邊界詞。左邊界規(guī)則的權(quán)重是預(yù)先定義的,定義是根據(jù)不同機構(gòu)名特征詞確定的。例如對于機構(gòu)名特征尾詞是“學(xué)校”,則規(guī)則權(quán)重為rule6>rulel>rule3>rule4>rule5>rule2與其相適應(yīng)地,所述特征語法單元的權(quán)重根據(jù)從大到小排列順序如下第六語法單元,第一語法單元,第三語法單元,第四語法單元,第五語法單元以及第二語法單元。更具體地,本領(lǐng)域技術(shù)人員理解,所述候選中文機構(gòu)名包括左邊界詞以及右邊界詞,其中,所述左邊界詞為所述中文機構(gòu)名前綴修飾詞,所述右邊界詞為所述中文機構(gòu)尾
ο圖3示出根據(jù)本發(fā)明的第二實施例的,所述多特征融合識別中文機構(gòu)名的控制方法對候選中文機構(gòu)名進一步驗證的流程圖。具體地,本圖示出了 7個步驟。首先是步驟S401對所述候選中文機構(gòu)名進行分詞處理,并根據(jù)分詞處理結(jié)果提取所述候選中文機構(gòu)構(gòu)成模式。然后是步驟S402與中文機構(gòu)名的錯誤構(gòu)成模式進行相似度計算。相似度計算完畢后執(zhí)行步驟S403去除錯誤構(gòu)成模式的候選中文機構(gòu)名。去除錯誤模式的候選中文機構(gòu)名后執(zhí)行步驟S404從上下文語義特征詞庫中提取出所述候選中文機構(gòu)名對應(yīng)特征尾詞相適應(yīng)的上下文語義特征詞。步驟S405將上述上下文語義特征詞與所述候選中文機構(gòu)名對應(yīng)的待識別語句進行匹配,并判斷所述左右邊界是否介于所述上下文語義特征詞之間。若所述左右邊界不介于所述上下文語義特征詞之間,則執(zhí)行步驟S406重新定位所述左右邊界,確定最終識別的中文機構(gòu)名。若所述左右邊界介于所述上下文語義特征詞之間,則執(zhí)行步驟S407確定所述候選中文機構(gòu)名尾最終識別的中文機構(gòu)名。具體地,本領(lǐng)域技術(shù)人員理解,所述中文機構(gòu)名錯誤構(gòu)成模式以及所述中文機構(gòu)名上下文語義環(huán)境特征詞庫預(yù)先根據(jù)語料庫訓(xùn)練生成,其中所述中文機構(gòu)名上下文語義環(huán)境特征詞庫與所述右邊界特征詞庫相適應(yīng)。更進一步地,所述中文機構(gòu)名錯誤構(gòu)成模式主要有以下幾個模式I :指示代詞+機構(gòu)名特征尾詞,例如他們學(xué)校。模式2 :部分動詞+機構(gòu)名特征尾詞,例如關(guān)注學(xué)校。模式3 :數(shù)量詞+機構(gòu)名特征尾詞,例如二所學(xué)校。更進一步地,上下語義環(huán)境特征也是機構(gòu)名上下文信息,優(yōu)選地,本發(fā)明用的上下文語義特征是從訓(xùn)練文本(1988年I月份人名日報語料庫沖提取的,本發(fā)明主要提取了句子中機構(gòu)名前后的各三個非實體詞(也即除人名,機構(gòu)名,地名外的其他詞)作為機構(gòu)名的上下文語義環(huán)境特征。例如對于句子“陳群擔(dān)任[華東師范大學(xué)]校長”,提取出的中文機構(gòu)名上下文語義環(huán)境特征為“擔(dān)任……校長”。對于重新確定機構(gòu)名左右邊界,是根據(jù)機構(gòu)名的上下文語義環(huán)境特征來確定的。主要針對的類似如下這種情況的識別錯誤將“擔(dān)任華東師范大學(xué)”作為一個機構(gòu)名識別出來(由于“擔(dān)任”前有一個標(biāo)點,這是由于“擔(dān)任”的權(quán)重小于標(biāo)點符號,所以左邊界規(guī)則采用rule 1,即將“擔(dān)任”作為了機構(gòu)名的一部分)。這是可以發(fā)現(xiàn),對于機構(gòu)名特征尾詞“學(xué)?!?,有“擔(dān)任……校長”這樣一個上下文環(huán)境特征,因此,可以發(fā)現(xiàn),“擔(dān)任” 一詞不是機構(gòu)名的組成部分,而是上下文環(huán)境特征的一部分,因此將機構(gòu)名的左邊向后移動一個詞,也即新的機構(gòu)名左邊界為“華東”,故新的機構(gòu)名為“華東師范大學(xué)”。
圖4示出根據(jù)本發(fā)明的一個具體實施方式
的,所述多特征融合識別中文機構(gòu)名的控制方法的實例流程圖。首先將待識別語句,也就是待識別文檔“俞立中擔(dān)任華東師范大學(xué)校長”。對該待識別語句經(jīng)過分詞處理后,獲得“俞立中/nr擔(dān)任/V華東/ns師范/n大學(xué)/n校長/η”。根據(jù)所述中文機構(gòu)名右邊界特征詞庫從左向右找到右邊界詞“大學(xué)”。再從“大學(xué)”開始,根據(jù)所述中文機構(gòu)名左邊界規(guī)則,從右向左找到可能的左邊界詞。根據(jù)所述中文機構(gòu)名左邊界規(guī)則,“華東”被確定為候選中文機構(gòu)名的左邊界詞。獲取候選中文機構(gòu)名“華東師范大學(xué)”。根據(jù)所述候選中文機構(gòu)名提取其組成模式地名+修飾詞+中心詞。將該模式與錯誤機構(gòu)模式進行相似度計算,計算結(jié)果該相似度小于第一閾值,則進一步根據(jù)所述上下文語義環(huán)境特征詞進行左右邊界匹配。根據(jù)“大學(xué)”這一尾詞,提取出的中文機構(gòu)名上下文語義環(huán)境特征為“擔(dān)任……校長”。則所述候選中文機構(gòu)名符合這一上下文語義環(huán)境特征。最終識別出“華東師范大學(xué)”為中文機構(gòu)名。
以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。
權(quán)利要求
1.一種在自然語言處理系統(tǒng)中多特征融合識別中文機構(gòu)名的控制方法,其特征在于,包括如下步驟 a.根據(jù)中文機構(gòu)名右邊界特征詞庫以及中文機構(gòu)名左邊界規(guī)則識別待語句中待識別機構(gòu)名的左右邊界,生成候選中文機構(gòu)名; b.確定所述候選中文機構(gòu)名的構(gòu)成模式,對所述候選中文機構(gòu)名進行篩選;以及 c.與中文機構(gòu)名上下文語義環(huán)境特征詞進行比較,驗證所述候選中文機構(gòu)名以確定中文機構(gòu)名。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟a之前還包括如下步驟 -根據(jù)語料庫生成所述中文機構(gòu)名右邊界特征詞庫; -根據(jù)語料庫生成所述中文機構(gòu)名左邊界規(guī)則; -根據(jù)語料庫生成所述中文機構(gòu)名錯誤構(gòu)成模式;以及 -根據(jù)語料庫生成所述中文機構(gòu)名上下文語義環(huán)境特征詞庫。
3.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述中文機構(gòu)名右邊界特征詞庫為中文機構(gòu)名的尾詞詞庫,其用于確定中文機構(gòu)名的右邊界。
4.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述中文機構(gòu)名左邊界規(guī)則用于將所述特征語法單元之后的詞確定為所述中文機構(gòu)名左邊界,其中所述特征語法單元是指中文機構(gòu)名之前的語法單元。
5.根據(jù)權(quán)利要求4所述的控制方法,其特征在于,所述特征語法單元包括 -第一語法單元標(biāo)點符號; -第二語法單元介詞; -第三語法單元連詞; -第四語法單元部分常用詞; -第五語法單元部分及物動詞;以及 -第六語法單兀句首。
6.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述中文機構(gòu)名上下文語義環(huán)境特征詞庫與所述右邊界特征詞庫相適應(yīng)。
7.根據(jù)權(quán)利要求I至6任一項所述的控制方法,其特征在于,所述步驟a包括如下步驟 al.根據(jù)所述右邊界特征詞庫從左向右掃描待識別語句,確定所述中文機構(gòu)名的右邊界詞; a2.根據(jù)所述左邊界規(guī)則從右向左掃描待識別語句,確定所述中文機構(gòu)名的左邊界詞;以及 a3.根據(jù)所述右邊界詞以及左邊界詞生成候選中文機構(gòu)名。
8.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,所述步驟a2包括如下步驟 a21.根據(jù)所述左邊界規(guī)則,確定多個左邊界詞,則根據(jù)所述左邊界規(guī)則特征語法單元的權(quán)重大小,將權(quán)重大的所述特征語法單元后的詞作為最終左邊界詞。
9.根據(jù)權(quán)利要求7或8所述的控制方法,其特征在于,所述左邊界詞為所述中文機構(gòu)名前綴修飾詞,所述右邊界詞為所述中文機構(gòu)尾詞,所述候選中文機構(gòu)名包括左邊界詞以及右邊界詞。
10.根據(jù)權(quán)利要求I至9任一項所述的控制方法,其特征在于,所述特征語法單元的權(quán)重不同由右邊界特征詞庫預(yù)先定義。
11.根據(jù)權(quán)利要求I至10任一項所述的控制方法,其特征在于,所述步驟b包括如下步驟 bl.對所述候選中文機構(gòu)名進行分詞處理; b2.根據(jù)所述步驟bl的分詞處理結(jié)果提取所述候選中文機構(gòu)構(gòu)成模式;以及b3.與中文機構(gòu)名的錯誤構(gòu)成模式進行相似度匹配,去除錯誤構(gòu)成模式的候選中文機構(gòu)名。
12.根據(jù)權(quán)利要求11所述的控制方法,其特征在于,所述步驟b3包括如下步驟 b31.判斷所述候選中文機構(gòu)名構(gòu)成模式與所述中文機構(gòu)名的錯誤構(gòu)成模式的相似度是否大于第一閾值; b32.若所述候選中文機構(gòu)名構(gòu)成模式與所述中文機構(gòu)名的錯誤構(gòu)成模式的相似度大于第一閾值,則去除所述候選中文機構(gòu)名;以及 b33.若所述候選中文機構(gòu)名構(gòu)成模式與所述中文機構(gòu)名的錯誤構(gòu)成模式的相似度不大于第一閾值,則保留所述候選中文機構(gòu)名。
13.根據(jù)權(quán)利要求I至12任一項所述的控制方法,其特征在于,所述步驟c包括如下步驟 Cl.從上下文語義特征詞庫中提取出所述候選中文機構(gòu)名對應(yīng)特征尾詞相適應(yīng)的上下文語義特征詞; c2.將上述上下文語義特征詞與所述候選中文機構(gòu)名對應(yīng)的待識別語句進行匹配,并判斷所述左右邊界是否介于所述上下文語義特征詞之間; c3.若所述左右邊界不介于所述上下文語義特征詞之間,則重新定位所述左右邊界,確定最終識別的中文機構(gòu)名;以及 c4.若所述左右邊界介于所述上下文語義特征詞之間,則確定所述候選中文機構(gòu)名尾最終識別的中文機構(gòu)名。
全文摘要
本發(fā)明提供了一種在自然語言處理系統(tǒng)中多特征融合識別中文機構(gòu)名的控制方法,其特征在于,包括如下步驟a.根據(jù)中文機構(gòu)名右邊界特征詞庫以及中文機構(gòu)名左邊界規(guī)則識別待識別語句的左右邊界,生成候選中文機構(gòu)名;b.確定所述候選中文機構(gòu)名的構(gòu)成模式,對所述候選中文機構(gòu)名進行篩選;以及c.與中文機構(gòu)名上下文語義環(huán)境特征詞進行比較,驗證所述候選中文機構(gòu)名以確定中文機構(gòu)名。
文檔編號G06F17/27GK102955842SQ201210348109
公開日2013年3月6日 申請日期2012年9月18日 優(yōu)先權(quán)日2012年9月18日
發(fā)明者凌雅娟, 楊靜 申請人:華東師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
牙克石市| 沂水县| 枞阳县| 宁河县| 盐山县| 河北区| 金堂县| 沙湾县| 克山县| 正宁县| 彩票| 古丈县| 怀远县| 科技| 临沧市| 阜阳市| 格尔木市| 乳山市| 天水市| 乡城县| 宁河县| 肃北| 长子县| 长乐市| 武城县| 宁晋县| 武安市| 阿瓦提县| 尖扎县| 丹棱县| 柳江县| 东城区| 珠海市| 隆尧县| 长丰县| 个旧市| 霍邱县| 兴安盟| 浠水县| 宝清县| 方城县|