專利名稱:一種根據(jù)實體的漢語簡稱識別漢語全稱的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及中文信息處理和信息檢索領(lǐng)域的縮略語識別技術(shù),特別涉及對上下文無關(guān)的縮略語的基于優(yōu)先級函數(shù)的識別方法。
背景技術(shù):
自然語言處理是計算機科學領(lǐng)域與人工智能領(lǐng)域中的一個重要問題。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著計算機和互聯(lián)網(wǎng)的廣泛應(yīng)用,計算機可處理的自然語言文本數(shù)量空前增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機交互等應(yīng)用需求急速增長,自然語言處理的對象也從小規(guī)模受限語言處理轉(zhuǎn)向大規(guī)模真實文本處理,其研究必將對人們的生活產(chǎn)生深遠的影響。
中文信息處理是研究如何利用計算機對漢語信息進行自動處理。漢語是一門意合語言,和西方語言相比,缺少顯式的標記,語法、語義、語用方面也更加靈活,增加了計算機理解和處理的難度,要讓計算機能夠處理中文信息,尚有許多困難需要克服。目前,中文信息處理已經(jīng)在語音識別、分詞、機器翻譯等領(lǐng)域取得了一些成果。中文信息自動化處理程度的提升,將對我國的科技、文化、經(jīng)濟、安全等帶來可觀的效益。
信息檢索,研究如何從紛繁復(fù)雜的大量信息中,快速、準確獲取所需信息的技術(shù)。信息檢索技術(shù)經(jīng)過多年的發(fā)展,目前已經(jīng)相當成熟,新型信息檢索技術(shù)正朝智能化、動態(tài)化、多樣化、個性化等方向發(fā)展。
漢語縮略語又叫簡稱,是漢語習慣用法經(jīng)過精簡和壓縮得到的短語,并且仍然保留著原習慣用法的意義,與之對應(yīng)的習慣用法完整形式用法稱為原語或全稱。漢語縮略語識別技術(shù)發(fā)展到今天,已經(jīng)取得了一些成果,但是識別率離真正的應(yīng)用仍有一定的距離,尤其是在識別一些不同地域和專業(yè)領(lǐng)域的文本時,更是錯誤頻頻。
常見的縮略語識別方法可分為基于詞典的方法和基于統(tǒng)計的方法兩大類。傳統(tǒng)的基于詞典的方法使用簡單,準確率較高。目前國內(nèi)通用領(lǐng)域的縮略語詞典有十幾種,常用的縮略語詞典有《現(xiàn)代漢語縮略語詞典》、《常用縮略語詞典》等,此外還有很多領(lǐng)域?qū)S玫目s略語詞典。雖然基于詞典方法具有較高的準確率,但由于漢語通用縮略語詞典收入的縮略語數(shù)量有限,難以滿足不同地域和領(lǐng)域人群的需求。而且由于漢字衍生能力強,新詞產(chǎn)生速度快,許多詞語在被廣泛使用的同時也被縮減產(chǎn)生新的縮略語。此外,不同地域、不同領(lǐng)域的人對同一縮略語可能有多種不同理解。這些問題都使得基于詞典的方法具有很大的局限性。
另一類統(tǒng)計的方法基于詞頻或頁面引用率高低選擇最可能的詞條作為原語,常見的如Google等搜索引擎。雖然它在一般常見縮略語識別上有較高識別率,但由于詞頻統(tǒng)計本身精確性不高,且常受到其他因素的干擾,識別準確率很難進一步提高。例如,用Google檢索“香山”,檢索結(jié)果“香山國際會議”和“香山飯店”排在“北京香山公園”之前。其原因就在于通用的基于統(tǒng)計的縮略語識別,受其他因素干擾太大。在局部范圍里,“香山國際會議”和“香山飯店”的頁面引用率可能比“香山公園”的高,導(dǎo)致無法第一時間獲取最可能的原語。
發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)中的漢語簡稱識別方法在應(yīng)用上具有局限性或者識別準確率不高的缺陷,從而提供一種與上下文無關(guān)的通用漢語簡稱識別方法。
為了實現(xiàn)上述目的,本發(fā)明提供了一種根據(jù)實體的漢語簡稱識別漢語全稱的方法,包括步驟1)、輸入待識別縮略語;步驟2)、讀入常用詞條庫,所述的常用詞條庫包含常用詞語和該詞語的詞頻統(tǒng)計信息;步驟3)、根據(jù)待識別縮略語,從所述的常用詞條庫中篩選出同時滿足第一優(yōu)先級函數(shù)和第二優(yōu)先級函數(shù)要求的候選原語集合;步驟4)、根據(jù)所述候選原語集合的規(guī)模、詞頻統(tǒng)計信息及結(jié)構(gòu)特征信息,選擇至少一路優(yōu)先級函數(shù)組合,利用所述的優(yōu)先級函數(shù)組合對所述候選原語集合進行篩選,每一路優(yōu)先級函數(shù)組合得到一組對應(yīng)的候選原語篩選結(jié)果;步驟5)、在每一組候選原語篩選結(jié)果中計算候選原語的優(yōu)先級,根據(jù)所述優(yōu)先級的大小對所述候選原語排序,并保留優(yōu)先級較高的候選原語;
步驟6)、對各組候選原語篩選結(jié)果中所保留的優(yōu)先級較高的候選原語進行統(tǒng)計和排序,找出匹配次數(shù)最多、優(yōu)先級最高的一條或幾條作為最終結(jié)果。
上述技術(shù)方案中,在所述的步驟1)中,所述的待識別縮略語為單獨的詞語或為利用分詞操作從帶有待識別縮略語的文檔中得到的待識別縮略語。
上述技術(shù)方案中,在所述的步驟1)和步驟2)之間,讀入一個縮略語知識庫,將所述的待識別縮略語在縮略語知識庫中進行檢索,若所述待識別縮略語存在于縮略語知識庫,則直接返回與所述待識別縮略語對應(yīng)的原語。
所述的縮略語知識庫是根據(jù)現(xiàn)有統(tǒng)計結(jié)果總結(jié)的一批使用頻度最高,且已經(jīng)形成固定形式的縮略語集合。
上述技術(shù)方案中,在所述的步驟3)和步驟4)之間,判斷所得到的候選原語集合是否為空,當所述的候選原語集合為空時,調(diào)整待識別縮略語的語序后重新執(zhí)行步驟3)。
上述技術(shù)方案中,得到所述的最終結(jié)果后,驗證所述的最終結(jié)果。
上述技術(shù)方案中,所述的第一優(yōu)先級函數(shù)是指除數(shù)合式和部分特殊形式的縮略語外,其他各類縮略語中的每個漢字都來自原語;其中,所述的數(shù)合式是指原語并列成分項數(shù)和有代表的共同語素組合形成的縮略語。
上述技術(shù)方案中,所述的第二優(yōu)先級函數(shù)是指縮略語中每個出現(xiàn)漢字保持它們在全稱中語序。
上述技術(shù)方案中,所述的優(yōu)先級函數(shù)組合是指從第三優(yōu)先級函數(shù)、第四優(yōu)先級函數(shù)、第五優(yōu)先級函數(shù)、第六優(yōu)先級函數(shù)、第七優(yōu)先級函數(shù)、第八優(yōu)先級函數(shù)、第九優(yōu)先級函數(shù)、第十優(yōu)先級函數(shù)中選擇一個以上的優(yōu)先級函數(shù)進行組合。
上述技術(shù)方案中,所述的根據(jù)所述候選原語集合的規(guī)模、詞頻統(tǒng)計信息及結(jié)構(gòu)特征信息,選擇至少一路優(yōu)先級函數(shù)組合是指當所述候選原語集合規(guī)模超過100,且不同候選原語的詞頻相差較大時,所述的第三優(yōu)先級函數(shù)、第四優(yōu)先級函數(shù)、第五優(yōu)先級函數(shù)、第六優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合;所述的第八優(yōu)先級函數(shù)單獨形成一路優(yōu)先級函數(shù)組合;所述的第四優(yōu)先級函數(shù)、第七優(yōu)先級函數(shù)、第九優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合;
當所述的候選原語集合規(guī)模小于100時,所述的第三優(yōu)先級函數(shù)、第四優(yōu)先級函數(shù)、第五優(yōu)先級函數(shù)、第六優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合;所述的第四優(yōu)先級函數(shù)、第七優(yōu)先級函數(shù)、第九優(yōu)先級函數(shù)、第十優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合。
上述技術(shù)方案中,所述的第三優(yōu)先級函數(shù)是指候選原語集合中,長度較短接近縮略語長度時,優(yōu)先成為縮略語對應(yīng)的原語。
上述技術(shù)方案中,所述的第四優(yōu)先級函數(shù)是指候選原語集合中,縮略語覆蓋分詞率較高的優(yōu)先。
上述技術(shù)方案中,所述的第五優(yōu)先級函數(shù)是指候選原語集合中,至少有一個是分詞采取抽取首字形式出現(xiàn)在縮略語的優(yōu)先。
上述技術(shù)方案中,所述的第六優(yōu)先級函數(shù)是指候選原語集合中,同時出現(xiàn)整體概念和部分概念的,整體概念優(yōu)先。
上述技術(shù)方案中,所述的第七優(yōu)先級函數(shù)是指原語中的如果存在特指成分,則該特指成分必然被抽取到縮略語中;其中,所述的特指成分是原語中必須被保留的分詞或分詞中的字。
上述技術(shù)方案中,所述的第八優(yōu)先級函數(shù)是指候選原語集合中,詞頻高的優(yōu)先。
上述技術(shù)方案中,所述的第九優(yōu)先級函數(shù)是指如果新的縮略語中包含已有的縮略語作為一個完整分詞,則新的縮略語所對應(yīng)的原語也包含此已有縮略語或它所對應(yīng)的原語。
上述技術(shù)方案中,所述的第十優(yōu)先級函數(shù)是指候選原語集合中,包含區(qū)別詞較少的候選原語優(yōu)先;其中,所述的區(qū)別詞是指候選原語中未被縮略語所覆蓋且出現(xiàn)在不同候選原語中的分詞。
上述技術(shù)方案中,在所述的步驟5)中,所述的計算候選原語的優(yōu)先級是將各個優(yōu)先級函數(shù)的權(quán)重做加成,所述優(yōu)先級函數(shù)的權(quán)重是根據(jù)優(yōu)先級函數(shù)對原語篩選的影響通過實驗得到的。
本發(fā)明還提供了一種根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),其特征在于,包括輸入模塊、常用詞條庫、候選原語產(chǎn)生模塊以及候選原語篩選模塊其中,輸入模塊用于輸入待識別縮略語;常用詞條庫用于存儲來源于NKI多學科知識庫在通用領(lǐng)域的實體名稱或各專業(yè)領(lǐng)域收集的名稱術(shù)語;
候選原語產(chǎn)生模塊用于根據(jù)待識別的縮略語產(chǎn)生與所述縮略語對應(yīng)的候選原語的集合;候選原語篩選模塊用于從候選原語的集合中選擇與縮略語對應(yīng)的原語。
上述技術(shù)方案中,還包括分詞模塊,所述分詞模塊的作用是當所述輸入模塊輸入帶有待識別縮略語的文檔時,對所述文檔做分詞操作以得到待識別縮略語。
上述技術(shù)方案中,還包括縮略語知識庫,所述的縮略語知識庫用于存儲使用頻度高,具有固定形式的縮略語。
上述技術(shù)方案中,還包括結(jié)果驗證模塊,所述的結(jié)果驗證模塊用于對所得到的原語進行準確性驗證。
本發(fā)明的優(yōu)點在于本發(fā)明無需借助上下文即可實現(xiàn)對漢語縮略語的識別和理解;方便了用戶的檢索,提高了自然語言理解和信息檢索的準確率。
圖1為漢語縮略語識別流程圖圖2為縮略語系統(tǒng)結(jié)構(gòu)圖圖3為本發(fā)明的根據(jù)實體的漢語簡稱識別漢語全稱的方法中的產(chǎn)生候選原語集操作的流程圖;圖4為本發(fā)明的根據(jù)實體的漢語簡稱識別漢語全稱的方法中的對候選原語集進行篩選操作的流程圖。
具體實施例方式
下面結(jié)合附圖和具體實施方式
對本發(fā)明作進一步詳細描述在對本發(fā)明的方法進行說明之前,首先對漢語縮略語的形成規(guī)律和構(gòu)詞方法進行整理和總結(jié)。按照構(gòu)詞形式,漢語縮略語分為縮節(jié)式、刪節(jié)式、縮合式、數(shù)合式和特殊形式縮節(jié)式選取保留原語中每個分詞的一個或多個語素來組成縮略語。如“北大”、“生物所”等;刪節(jié)式選取保留原語中一個或多個分詞的語素,刪去其余次要分詞形成的縮略語。如“清華”、“二戰(zhàn)”;
縮合式對有共同語素的并列詞語,縮減合并其不同成分的語素,并保留其共同語素形成的縮略語。如“工農(nóng)業(yè)”、“節(jié)假日”;數(shù)合式原語并列成分項數(shù)和有代表的共同語素組合形成的縮略語。如“三講”、“四個現(xiàn)代化”;特殊式縮略方式不在以上幾類之中的,如省名的簡稱、古代的數(shù)合式簡稱、音譯名的簡稱等。
在本發(fā)明中,還定義了10個優(yōu)先級函數(shù)用于說明縮略語和原語間的關(guān)系。在對優(yōu)先級函數(shù)進行說明前,列出下面在優(yōu)先級函數(shù)中使用的基本符號■Item表示候選詞條■An表示縮略語■Fn表示原語■abbr_of(An,F(xiàn)n)表示An是Fn的縮略語,F(xiàn)n是An的原語■Cfn表示候選原語■freq(Item)表示詞條的出現(xiàn)頻度■max_Cfn_freq(An)表示An候選原語集的最高詞頻■c表示原語或縮略語所包含字符■c1c2...cn表示由字符c1、c2...cn組成的字符序列■p表示原語所包含的分詞■p1/p2/.../pm表示由分詞p1、p2...pm組成的分詞序列,/表示分詞間的分隔符■w(pi)表示分詞在縮略語中出現(xiàn)形式所占比例■n_Word(Item)表示詞條Item的所有分詞數(shù)■include(s1,s2)表示字符串s1是字符串s2的子串■length(s)表示字符串s的長度■SP(Item)表示詞條Item的特指成分集合,也即形成縮略語時必須保留的成分集合■n_Cover(An,F(xiàn)n)表示被An覆蓋的Fn分詞數(shù)目■n_NotCover(An,F(xiàn)n)表示未被An覆蓋的Fn分詞數(shù)目■DWS[]表示所有候選原語中未被縮略語覆蓋的不同分詞集合向量■dw(An,Cfn)表示Cfn作為An的候選原語所包含的區(qū)別詞數(shù)量■PRI(An,Cfn)表示候選原語成為待識別縮略語對應(yīng)原語的優(yōu)先級下面對各個優(yōu)先級函數(shù)的具體含義進行說明
優(yōu)先級函數(shù)1除數(shù)合式和部分特殊形式的縮略語外,其他各類縮略語中的每個漢字都來自原語。
一般情況下,原語包含縮略語所包括的所有漢字。例如,abbr_of(“北大”,“北京大學”),An=“北大”中的每個漢字都來自于Fn=“北京大學”。
函數(shù)1的形式定義和計算如下 有兩類縮略語不適用函數(shù)1數(shù)合式縮略語的數(shù)字來自對合并內(nèi)容的計數(shù),本身不出現(xiàn)在原語中,例如,abbr_of(“三講”,“講學習、講政治、講正氣”);一些特殊形式縮略語,尤其是省名的單字縮略語用字可能出自古地名而不出現(xiàn)在原語中。例如,abbr_of(“粵”,“廣東”)。不過這兩類縮略語所占比例很小,可以把這兩類縮略語加入到縮略語知識庫中,通過檢索知識庫的方法對其進行識別。
優(yōu)先級函數(shù)2縮略語中每個出現(xiàn)漢字保持它們在全稱中語序。
絕大多數(shù)縮略語在縮減時保持著全稱中出現(xiàn)分詞的語序,這樣也有利于縮略語的理解和識別。例如,abbr_of(“奧運會”,“奧林匹克運動會”),An=“奧運會”三個字的順序嚴格按Fn=“奧林匹克運動會”中出現(xiàn)順序排列。
函數(shù)2的形式定義和計算如下 需要注意的是,有時數(shù)詞和地名的限定成分有可能會引起局部倒置,例如,abbr_of(“哈藥三廠”,“哈爾濱第三制藥廠”),對于此類情況,在待識別縮略語直接無法找到匹配原語時,可能需要對縮略語局部交換次序再進行識別。
優(yōu)先級函數(shù)3候選原語集合中,長度較短接近縮略語長度時,優(yōu)先成為縮略語對應(yīng)的原語。
通常規(guī)范的縮略語不會過度縮減,以保證多數(shù)人能見名知意。因而多數(shù)縮略語對應(yīng)的原語長度在一個范圍內(nèi),一般在縮略語長度的2-4倍,長度超出這一范圍的候選原語成為原語的可能較小。當候選原語長度超過縮略語長度6倍以上時,基本不可能成為原語。
函數(shù)3的形式定義和計算如下
f3(An,Cfn)=0length(Cfn)/length(An)≤10.51<length(Cfn)/length(An)<21-log[length(Cfn)2*length(An)]length(Cfn)/length(An)≥2]]>例如,An=“北圖”,Cfn1=“北京市圖書館”,Cfn2=“深圳北圖高科信息技術(shù)有限公司”,length(Cfn1)<length(Cfn2),根據(jù)函數(shù)3,PRI(Cfn1)>PRI(Cfn2)。
優(yōu)先級函數(shù)4候選原語集合中,縮略語覆蓋分詞率較高的優(yōu)先。
候選原語通常由多個分詞組成,有的情況下縮略語中原語的一個或多個分詞可以被省略,但一般被省略分詞不會超出原語分詞數(shù)的二分之一,候選原語被縮略語覆蓋的分詞越多,就越可能成為原語。
函數(shù)4的形式定義和計算如下f4(An,Cfn)=1-log[n_Word(Cfn)n_Cover(An,Cfn)]]]>例如,An=“北大”,Cfn1=“北京”/“大學”,Cfn2=“北方”/“交通”/“大學”,n_Cover(An,Cfn1)=n_Cover(An,Cfn2)=2,n_NotCover(An,Cfn1)=0,n_NotCover(An,Cfn2)=1。根據(jù)函數(shù)4,PRI(Cfn1)>PRI(Cfn2)。
優(yōu)先級函數(shù)5候選原語集合中,至少有一個是分詞采取抽取首字形式出現(xiàn)在縮略語的優(yōu)先。
漢語縮略語通常用1-2個字代表原語中整個分詞的意義,例如,abbr_of(“中科院”,“中國科學院”),“中國科學院”=“中國”/“科學院”。在An=“中科院”中,F(xiàn)n=“中國科學院”的第一個分詞p1=“中國”用首字“中”表示,第二個分詞p2=“科學院”用首尾字“科院”表示。原語分詞在縮略語中出現(xiàn)形式有6種完全包含、抽取首字、抽取尾字、抽取首尾字、不出現(xiàn),抽取首字所占比例最大,因而當分詞以抽取首字形式出現(xiàn)在縮略語中時,該候選原語成為縮略語對應(yīng)原語可能性更大。
函數(shù)5的形式定義和計算如下
f5(An,Cfn)=Σp=1n_Word(Cfn)w(pi)]]>優(yōu)先級函數(shù)6候選原語集合中,同時出現(xiàn)整體概念和部分概念的,整體概念優(yōu)先。
相對部分概念,整體概念通常具有更高的知名度和普及率,因而整體概念產(chǎn)生縮略語的可能性較高。當候選原語集合中,整體概念和部分概念同時出現(xiàn)時,絕大多數(shù)屬于機構(gòu)和下設(shè)機構(gòu)、地名和子地名的關(guān)系,而部分概念較整體概念多包含的分詞未被縮略語覆蓋,則認為只有整體概念才是可能的候選原語。通常這種情況下,整體概念作為部分概念的前綴或后綴出現(xiàn)。
函數(shù)6的形式定義和計算如下 例如,An=“中科院植物所”,Cfn1=“中國科學院植物研究所”,Cfn2=“中國科學院植物研究所住宅樓”。Cfn1和Cfn2滿足include(Cfn1,Cfn2)。根據(jù)函數(shù)6,PRI(Cfn1)>PRI(Cfn2)。
優(yōu)先級函數(shù)7原語中的如果存在特指成分,則該特指成分必然被抽取到縮略語中。
特指成分是原語中必須被保留的分詞或分詞中的字,如果被省略,則產(chǎn)生的縮略語無法和原語保持意義上的一致性以及和其他習語的區(qū)別性。一般詞條中的特指成分往往由分詞中詞頻較低的分詞構(gòu)成。
函數(shù)7的形式定義和計算如下 例如,An=“北外”,Cfn1=“北京”/“外國語”/“學院”,Cfn2=“北京”/“第二”/“外國語”/“學院”,SP(Cfn1)={“外國語”},SP(Cfn2)={“第二”,“外國語”}。根據(jù)函數(shù)7,Cfn2不可能成為An的原語,因為其特指成分“第二”未被包含在An中。
優(yōu)先級函數(shù)8候選原語集合中,詞頻高的優(yōu)先。
候選原語詞頻高說明該詞條使用比較頻繁,成為習慣用法,進而產(chǎn)生縮略語的可能性比較大。我們從互聯(lián)網(wǎng)上通過Google搜索引擎獲取了詞頻信息表,參見表1。需要注意的是,僅當候選集詞條間詞頻相差較大時,可以用此函數(shù)濾掉低頻詞條;當候選集詞條的詞頻都比較接近時,此函數(shù)不再適用。
表1詞頻信息表(部分)
函數(shù)8的形式定義和計算如下max_Cfn_freq(An)=max{freq(Cfn)}f8(An,Cfn)=freq(Cfn)max_CFn_freq(An)freq(Cfn)max_Cfn_freq(An)≥0.20freq(Cfn)max_Cfn_freq(An)<0.2]]>例如,An=“雙安”,Cfn1=“雙安商場”,freq(Cfn1)=179,000,Cfn2=“雙安房地網(wǎng)”,freq(Cfn2)=974。freq(Cfn1)>>freq(Cfn2)。因此,根據(jù)函數(shù)8,PRI(Cfn1)>PRI(Cfn2)。
優(yōu)先級函數(shù)9如果新的縮略語中包含已有的縮略語作為一個完整分詞,則新的縮略語所對應(yīng)的原語也包含此已有縮略語或它所對應(yīng)的原語。
一個習慣用法一旦形成,必然為多數(shù)人所接受,并且衍生出許多新的用法,縮略語也是這樣。如果一個縮略語包含了已有縮略語為一個完整分詞,則其原語中必然包含與原有縮略語意義一致的部分,即原有縮略語或其所對應(yīng)的原語。
函數(shù)9的形式定義和計算如下 例如,An=“清華”/“美院”,并且對An中分詞p1=“清華”有abbr_of(“清華”,“清華大學”)。根據(jù)函數(shù)9,include(“清華”,F(xiàn)n)或者include(“清華大學”,F(xiàn)n)。
優(yōu)先級函數(shù)10候選原語集合中,包含區(qū)別詞較少的候選原語優(yōu)先。
區(qū)別詞是指候選原語中未被縮略語所覆蓋且出現(xiàn)在不同候選原語中的分詞。
函數(shù)10的形式定義和計算如下f10(An,Cfn)=1-log[dw(An,Cfn)+1]例如,An=“北資”,Cfn1=“北大”/“資源”/“公司”,Cfn2=“北京”/“國土”/“資源”/“和”/“房屋”/“管理局”,DWS[]={“公司”||“國土”,“和”,“房屋”,“管理局”)。
|DWS[1]|<|DWS[2]|,根據(jù)函數(shù)10,PRI(Cfn1)>PRI(Cfn2)。
在對本發(fā)明定義的優(yōu)先級函數(shù)做了詳細說明的基礎(chǔ)上,參考圖1,具體介紹本發(fā)明方法的一種最佳實施方式。
本發(fā)明的根據(jù)實體的漢語簡稱識別漢語全稱的方法包括兩大步驟,分別為產(chǎn)生候選原語集和對候選原語集做篩選,下面分別對它們進行說明。
如圖3所示,產(chǎn)生候選原語集的具體實現(xiàn)步驟如下步驟10、用戶輸入帶有待識別縮略語的文檔;步驟11、讀入分詞詞典,利用分詞詞典對步驟10中所輸入的文檔進行分詞操作,得到待識別的縮略語;在本步驟中,所述的分詞操作是針對漢語句子中的詞匯不像西語那樣在詞與詞之間具有天然的分隔,而要將漢語句子中的詞匯進行劃分。所選用的分詞詞典可采用現(xiàn)有的分詞詞典,例如,在本發(fā)明的一個實施例中就可采用中國科學院計算技術(shù)研究所ICTCLAS分詞程序的分詞詞典。
上述的步驟10和步驟11中假定用戶輸入的是帶有待識別縮略語的文檔,這是實際應(yīng)用中的一種普遍情況,但在使用時也允許用戶直接輸入待識別縮略語,此時,無需完成步驟11所述的分詞操作。
步驟12、將縮略語知識庫讀入到一個哈希表中。在本步驟中,所述縮略語知識庫是根據(jù)現(xiàn)有統(tǒng)計結(jié)果總結(jié)的一批使用頻度最高,已經(jīng)形成固定形式的縮略語集合,用于總結(jié)優(yōu)先級函數(shù)和衍生出新生縮略語。最常用的部分縮略語可以直接查詢縮略語知識庫得到。
步驟13、將步驟11中的待識別縮略語檢索步驟12得到的縮略語哈希表,如果待識別縮略語出現(xiàn)在哈希表中,則直接檢索哈希表,并返回對應(yīng)的原語,如果哈希表中沒有待識別縮略語,則執(zhí)行下一步;上述的步驟12和步驟13介紹了原語識別的一種快速實現(xiàn)方式,這種方式利用過去的縮略語識別結(jié)果直接得到待識別縮略語的原語,大大地提高了識別效率,但本領(lǐng)域的普通技術(shù)人員也應(yīng)當明白,在本發(fā)明方法的另一種實現(xiàn)中,允許省略上述的步驟12和步驟13,這樣做雖然降低了識別效率,但也可完成縮略語識別的基本功能。
步驟14、讀入常用詞條庫。在本步驟中,所述的常用詞條庫包含常用詞語和該詞語的詞頻統(tǒng)計信息。常用詞條庫中的詞語主要有兩個來源,一是NKI(The National Knowledge Infrastructure,國家知識基礎(chǔ)設(shè)施)多學科知識庫在通用領(lǐng)域的實體名稱;二是各專業(yè)領(lǐng)域收集的一些名稱術(shù)語,例如交通信息領(lǐng)域的地名、機構(gòu)名等。詞條的詞頻來自于百度、Google等搜索引擎的統(tǒng)計信息。
步驟15、基于漢字的模糊匹配從步驟14讀入的常用詞條庫中篩選出同時滿足優(yōu)先級函數(shù)1和優(yōu)先級函數(shù)2要求的候選原語集合;步驟16、判斷步驟15得到的候選原語集合是否為空,若為空,調(diào)整待識別縮略語部分的語序,然后重新執(zhí)行步驟15以獲取候選原語集合,若不為空,輸出步驟15得到的候選原語集合。
通過上述操作得到候選原語集,然后對候選原語集進行篩選,得到最終的識別結(jié)果,參考圖4,其具體實現(xiàn)步驟如下步驟20、根據(jù)輸入縮略語產(chǎn)生的候選原語集合的規(guī)模以及詞頻、結(jié)構(gòu)特征等信息選擇適合的多路優(yōu)先級函數(shù)組合,確定篩選的原則與篩選的順序,每一路優(yōu)先級函數(shù)組合得到一組候選原語篩選結(jié)果。
上述的優(yōu)先級函數(shù)3-10分別表示了一種根據(jù)縮略語選擇原語的選擇原則,在篩選候選原語時,需要將優(yōu)先級函數(shù)單獨或組合后使用。優(yōu)先級函數(shù)的組合有多種,每次篩選根據(jù)候選原語集合的規(guī)模以及詞頻、結(jié)構(gòu)特征等信息選取不同的優(yōu)先級函數(shù)組合。例如,當候選原語集合規(guī)模超過100,且不同候選原語的詞頻相差較大時,采用優(yōu)先級函數(shù)3、4、5、6的組合,優(yōu)先級函數(shù)8,優(yōu)先級函數(shù)4、7、9(因為結(jié)果集規(guī)模較大,故不采用優(yōu)先級函數(shù)10)的組合實現(xiàn)三路篩選;當候選原語集合規(guī)模小于100時,則采用優(yōu)先級函數(shù)3、4、5、6的組合,優(yōu)先級函數(shù)4、7、9、10的組合實現(xiàn)兩路篩選。
步驟21、對步驟20得到的各組候選原語篩選結(jié)果計算候選原語的優(yōu)先級,并根據(jù)優(yōu)先級的大小對候選原語排序,每組候選原語篩選結(jié)果只保留優(yōu)先級較高的;由于候選原語集中的原語與縮略語之間具有一定程度的相似性,并且完全或部分滿足本發(fā)明中所定義的優(yōu)先級函數(shù),但用戶使用的縮略語所指代的原語通常只有一個,因此在本步驟中使用優(yōu)先級對所有滿足條件的候選原語進行排序,把優(yōu)先級最高的候選原語作為縮略語真正指代的原語。其中,所述的優(yōu)先級用來度量一個候選原語成為指定縮略語對應(yīng)原語的可能程度,它的值域為
。優(yōu)先級用PRI表示,對優(yōu)先級的計算公式如下PRI=ΣriPRIi*ηi]]>其中,PRIi取值為fi(An,F(xiàn)n),ηi為每個函數(shù)在綜合評價時采取的權(quán)重。
函數(shù)fi與ηi間的對應(yīng)關(guān)系如表2所示,函數(shù)的杈重根據(jù)各優(yōu)先級函數(shù)對原語篩選的影響通過實驗得到表2
根據(jù)上述公式可知,最后的優(yōu)先級是所使用函數(shù)得到的各項優(yōu)先級權(quán)重的加成。
對于每路優(yōu)先級組合,給定一個閾值ε(0<ε<1),判斷該路經(jīng)過各優(yōu)先級函數(shù)過濾后篩選出的縮略語是否可能成為結(jié)果。當PRI≥ε時,認為候選原語較可能成為縮略語所對應(yīng)的原語,保留在結(jié)果集中;否則認為候選原語成為原語的可能性較低,在下一步合并結(jié)果時可以忽略。
步驟22、對步驟21得到的候選原語篩選結(jié)果進行統(tǒng)計和排序,從中找出匹配次數(shù)最多、優(yōu)先級最高的一條或幾條作為最終的結(jié)果。
步驟23、驗證步驟22得到的最終結(jié)果,并將識別結(jié)果反饋給用戶。
本發(fā)明采取自我評測和人工評測相結(jié)合的方法對縮略語識別的正確率進行檢測。自我評測從形式、語義等方面對結(jié)果進行評測。形式上判斷構(gòu)詞方式是否合理,縮減方式是否普遍等;語義上判斷原語是否和其他候選原語有明顯語義區(qū)別,逆過程由結(jié)果原語縮減產(chǎn)生輸入縮略語是否成立等。人工評測由多名來自不同地域、領(lǐng)域的用戶,按給定縮略語分為已知組和未知組,對識別的結(jié)果進行評測。系統(tǒng)可根據(jù)評測結(jié)果動態(tài)調(diào)整優(yōu)先級函數(shù)的使用策略和組合方式,針對特定類型的縮略語識別提高精確率和召回率。
為了說明本發(fā)明的實際效果,采用本發(fā)明的方法對中國的機構(gòu)名、城市名、地區(qū)名等實體名稱做了大量實驗,表3中是該實驗的結(jié)果。從中可以知道,實驗中的錯誤主要是由于所選用實體名稱庫收詞不足(占所有錯誤的70%)和詞頻統(tǒng)計的誤差(如實體名稱的子串重復(fù)統(tǒng)計等)造成的。通過實驗可以得出如下結(jié)論本發(fā)明對漢語全稱的識別具有較好的識別效果,平均準確率達90%以上,適用范圍廣,可以很好彌補漢語全稱識別上以往方法的缺陷。
表3實驗結(jié)果統(tǒng)計信息表
除了上述描述的方法外,本發(fā)明還提供了一種根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),參考圖2,對該系統(tǒng)的組成進行說明。本發(fā)明的系統(tǒng)包括輸入模塊、分詞模塊、縮略語知識庫、常用詞條庫、候選原語選取模塊、候選原語篩選模塊以及結(jié)果驗證模塊,其中,輸入模塊、分詞模塊、候選原語產(chǎn)生模塊、候選原語篩選模塊與結(jié)果驗證模塊依次連接,而候選原語產(chǎn)生模塊還分別與縮略語知識庫和常用詞條庫連接。
輸入模塊的作用是輸入帶有待識別縮略語的文檔。
分詞模塊的作用是對文檔做分詞操作。
縮略語知識庫的作用是存儲使用頻度高,具有固定形式的縮略語。
常用詞條庫的作用是存儲來源于NKI多學科知識庫在通用領(lǐng)域的實體名稱或各專業(yè)領(lǐng)域收集的名稱術(shù)語。
候選原語產(chǎn)生模塊用于根據(jù)待識別縮略語,從常用詞條庫中篩選出同時滿足第一優(yōu)先級函數(shù)和第二優(yōu)先級函數(shù)要求的候選原語集合;候選原語篩選模塊用于從候選原語的集合中,根據(jù)所述候選原語集合的規(guī)模、詞頻統(tǒng)計信息及結(jié)構(gòu)特征信息,選擇至少一路優(yōu)先級函數(shù)組合篩選候選原語,并根據(jù)篩選結(jié)果的優(yōu)先級選擇與縮略語對應(yīng)的原語。
結(jié)果驗證模塊的作用是對所得到的原語進行準確性驗證。
本系統(tǒng)中各個部分功能的具體實現(xiàn)以及相互間的關(guān)系在前述本發(fā)明的方法中都已做了詳細的介紹與說明,因此不再進行詳細說明。
最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實施例對本發(fā)明進行了詳細說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解,對本發(fā)明的技術(shù)方案進行修改或者等同替換,都不脫離本發(fā)明技術(shù)方案的精神和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當中。
權(quán)利要求
1.一種根據(jù)實體的漢語簡稱識別漢語全稱的方法,包括步驟1)、輸入待識別縮略語;步驟2)、讀入常用詞條庫,所述的常用詞條庫包含常用詞語和該詞語的詞頻統(tǒng)計信息;步驟3)、根據(jù)待識別縮略語,從所述的常用詞條庫中篩選出同時滿足第一優(yōu)先級函數(shù)和第二優(yōu)先級函數(shù)要求的候選原語集合;步驟4)、根據(jù)所述候選原語集合的規(guī)模、詞頻統(tǒng)計信息及結(jié)構(gòu)特征信息,選擇至少一路優(yōu)先級函數(shù)組合,利用所述的優(yōu)先級函數(shù)組合對所述候選原語集合進行篩選,每一路優(yōu)先級函數(shù)組合得到一組對應(yīng)的候選原語篩選結(jié)果;步驟5)、在每一組候選原語篩選結(jié)果中計算候選原語的優(yōu)先級,根據(jù)所述優(yōu)先級的大小對所述候選原語排序,并保留優(yōu)先級較高的候選原語;步驟6)、對各組候選原語篩選結(jié)果中所保留的優(yōu)先級較高的候選原語進行統(tǒng)計和排序,找出匹配次數(shù)最多、優(yōu)先級最高的一條或幾條作為最終結(jié)果。
2.根據(jù)權(quán)利要求1所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,在所述的步驟1)中,所述的待識別縮略語為單獨的詞語或為利用分詞操作從帶有待識別縮略語的文檔中得到的待識別縮略語。
3.根據(jù)權(quán)利要求1所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,在所述的步驟1)和步驟2)之間,讀入一個縮略語知識庫,將所述的待識別縮略語在縮略語知識庫中進行檢索,若所述待識別縮略語存在于縮略語知識庫,則直接返回與所述待識別縮略語對應(yīng)的原語。
4.根據(jù)權(quán)利要求3所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的縮略語知識庫是根據(jù)現(xiàn)有統(tǒng)計結(jié)果總結(jié)的一批使用頻度最高,且已經(jīng)形成固定形式的縮略語集合。
5.根據(jù)權(quán)利要求1所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,在所述的步驟3)和步驟4)之間,判斷所得到的候選原語集合是否為空,當所述的候選原語集合為空時,調(diào)整待識別縮略語的語序后重新執(zhí)行步驟3)。
6.根據(jù)權(quán)利要求1所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,得到所述的最終結(jié)果后,驗證所述的最終結(jié)果。
7.根據(jù)權(quán)利要求1或5或6所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第一優(yōu)先級函數(shù)是指除數(shù)合式和部分特殊形式的縮略語外,其他各類縮略語中的每個漢字都來自原語;其中,所述的數(shù)合式是指原語并列成分項數(shù)和有代表的共同語素組合形成的縮略語。
8.根據(jù)權(quán)利要求1或5或6所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第二優(yōu)先級函數(shù)是指縮略語中每個出現(xiàn)漢字保持它們在全稱中的語序。
9.根據(jù)權(quán)利要求1或5或6所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的優(yōu)先級函數(shù)組合是指從第三優(yōu)先級函數(shù)、第四優(yōu)先級函數(shù)、第五優(yōu)先級函數(shù)、第六優(yōu)先級函數(shù)、第七優(yōu)先級函數(shù)、第八優(yōu)先級函數(shù)、第九優(yōu)先級函數(shù)、第十優(yōu)先級函數(shù)中選擇一個以上的優(yōu)先級函數(shù)進行組合。
10.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的根據(jù)所述候選原語集合的規(guī)模、詞頻統(tǒng)計信息及結(jié)構(gòu)特征信息,選擇至少一路優(yōu)先級函數(shù)組合是指當所述候選原語集合規(guī)模超過100,且不同候選原語的詞頻相差較大時,所述的第三優(yōu)先級函數(shù)、第四優(yōu)先級函數(shù)、第五優(yōu)先級函數(shù)、第六優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合;所述的第八優(yōu)先級函數(shù)單獨形成一路優(yōu)先級函數(shù)組合;所述的第四優(yōu)先級函數(shù)、第七優(yōu)先級函數(shù)、第九優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合;當所述的候選原語集合規(guī)模小于100時,所述的第三優(yōu)先級函數(shù)、第四優(yōu)先級函數(shù)、第五優(yōu)先級函數(shù)、第六優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合;所述的第四優(yōu)先級函數(shù)、第七優(yōu)先級函數(shù)、第九優(yōu)先級函數(shù)、第十優(yōu)先級函數(shù)形成一路優(yōu)先級函數(shù)組合。
11.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第三優(yōu)先級函數(shù)是指候選原語集合中,長度較短接近縮略語長度時,優(yōu)先成為縮略語對應(yīng)的原語。
12.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第四優(yōu)先級函數(shù)是指候選原語集合中,縮略語覆蓋分詞率較高的優(yōu)先。
13.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第五優(yōu)先級函數(shù)是指候選原語集合中,至少有一個是分詞采取抽取首字形式出現(xiàn)在縮略語的優(yōu)先。
14.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第六優(yōu)先級函數(shù)是指候選原語集合中,同時出現(xiàn)整體概念和部分概念的,整體概念優(yōu)先。
15.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第七優(yōu)先級函數(shù)是指原語中的如果存在特指成分,則該特指成分必然被抽取到縮略語中;其中,所述的特指成分是原語中必須被保留的分詞或分詞中的字。
16.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第八優(yōu)先級函數(shù)是指候選原語集合中,詞頻高的優(yōu)先。
17.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第九優(yōu)先級函數(shù)是指如果新的縮略語中包含已有的縮略語作為一個完整分詞,則新的縮略語所對應(yīng)的原語也包含此已有縮略語或它所對應(yīng)的原語。
18.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,所述的第十優(yōu)先級函數(shù)是指候選原語集合中,包含區(qū)別詞較少的候選原語優(yōu)先;其中,所述的區(qū)別詞是指候選原語中未被縮略語所覆蓋且出現(xiàn)在不同候選原語中的分詞。
19.根據(jù)權(quán)利要求9所述的根據(jù)實體的漢語簡稱識別漢語全稱的方法,其特征在于,在所述的步驟5)中,所述的計算候選原語的優(yōu)先級是將各個優(yōu)先級函數(shù)的權(quán)重做加成,所述優(yōu)先級函數(shù)的權(quán)重是根據(jù)優(yōu)先級函數(shù)對原語篩選的影響通過實驗得到的。
20.一種根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),其特征在于,包括輸入模塊、常用詞條庫、候選原語產(chǎn)生模塊以及候選原語篩選模塊其中,輸入模塊用于輸入待識別縮略語;常用詞條庫用于存儲來源于NKI多學科知識庫在通用領(lǐng)域的實體名稱或各專業(yè)領(lǐng)域收集的名稱術(shù)語;候選原語產(chǎn)生模塊用于根據(jù)待識別縮略語,從所述的常用詞條庫中篩選出同時滿足第一優(yōu)先級函數(shù)和第二優(yōu)先級函數(shù)要求的候選原語集合;候選原語篩選模塊用于從候選原語的集合中,根據(jù)所述候選原語集合的規(guī)模、詞頻統(tǒng)計信息及結(jié)構(gòu)特征信息,選擇至少一路優(yōu)先級函數(shù)組合篩選候選原語,并根據(jù)篩選結(jié)果的優(yōu)先級選擇與縮略語對應(yīng)的原語。
21.根據(jù)權(quán)利要求20所述的根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),其特征在于,還包括分詞模塊,所述分詞模塊的作用是當所述輸入模塊輸入帶有待識別縮略語的文檔時,對所述文檔做分詞操作以得到待識別縮略語。
22.根據(jù)權(quán)利要求20所述的根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),其特征在于,還包括縮略語知識庫,所述的縮略語知識庫用于存儲使用頻度高,具有固定形式的縮略語。
23.根據(jù)權(quán)利要求20所述的根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),其特征在于,還包括結(jié)果驗證模塊,所述的結(jié)果驗證模塊用于對所得到的原語進行準確性驗證。
全文摘要
本發(fā)明公開了一種根據(jù)實體的漢語簡稱識別漢語全稱的方法,包括輸入待識別縮略語;讀入常用詞條庫;根據(jù)待識別縮略語,從所述的常用詞條庫中篩選出候選原語集合;利用多路優(yōu)先級函數(shù)組合對候選原語集合進行篩選;計算候選原語的優(yōu)先級,保留優(yōu)先級較高的候選原語;找出匹配次數(shù)最多、優(yōu)先級最高的一條或幾條候選原語作為最終結(jié)果。本發(fā)明還公開了一種根據(jù)實體的漢語簡稱識別漢語全稱的系統(tǒng),包括輸入模塊、常用詞條庫、候選原語產(chǎn)生模塊以及候選原語篩選模塊。本發(fā)明無需借助上下文即可實現(xiàn)對漢語縮略語的識別和理解;方便了用戶的檢索,提高了自然語言理解和信息檢索的準確率。
文檔編號G06F17/30GK101093478SQ20071011951
公開日2007年12月26日 申請日期2007年7月25日 優(yōu)先權(quán)日2007年7月25日
發(fā)明者盧漢, 曹存根, 岳小莉 申請人:中國科學院計算技術(shù)研究所