基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法
【專利摘要】本發(fā)明公開(kāi)了基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法,采用決策樹(shù)規(guī)則對(duì)人名構(gòu)成特征和上下文特征進(jìn)行分類,然后對(duì)每一類別人名采用針對(duì)性的統(tǒng)計(jì)模型,從而彌補(bǔ)目前主流技術(shù)采用單一模型無(wú)法全面覆蓋所有人名構(gòu)成特征和上下文特征的缺點(diǎn),提升綜合識(shí)別效果;而且,利用決策樹(shù)規(guī)則可以快速準(zhǔn)確的識(shí)別容易識(shí)別或排除的情況,從而減輕對(duì)訓(xùn)練語(yǔ)料庫(kù)的依賴,提升識(shí)別算法可靠性;另外,對(duì)不同類別人名采用不同復(fù)雜度的統(tǒng)計(jì)模型,亦可提升綜合識(shí)別效率。
【專利說(shuō)明】基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法。
【背景技術(shù)】
[0002]自然語(yǔ)言處理是互聯(lián)網(wǎng)信息搜索領(lǐng)域的核心分析技術(shù),在搜索引擎、輿情監(jiān)控以及電子商務(wù)等眾多互聯(lián)網(wǎng)IT產(chǎn)業(yè)都有廣泛的應(yīng)用。隨著互聯(lián)網(wǎng)信息指數(shù)級(jí)增長(zhǎng)以及用戶體驗(yàn)需求越來(lái)越高,在保證處理速度滿足用戶使用需求的前提下,互聯(lián)網(wǎng)信息搜索對(duì)自然語(yǔ)言處理結(jié)果的要求越來(lái)越精準(zhǔn)。人名識(shí)別是自然語(yǔ)言處理詞法分析中最困難的核心問(wèn)題之一,不管在搜索引擎領(lǐng)域還是在輿情監(jiān)控領(lǐng)域,用戶對(duì)人名、地名和機(jī)構(gòu)名等實(shí)體詞的關(guān)注度遠(yuǎn)高于常用詞,而且人名作為無(wú)法直接采用詞典匹配識(shí)別的未登錄詞,識(shí)別難度大,因此,一直以來(lái)都是備受關(guān)注的研究問(wèn)題。
[0003]所謂人名識(shí)別,在本文中是指針對(duì)給定漢語(yǔ)句子,準(zhǔn)確地標(biāo)出句中所含所有完整人名,包括姓氏和名字,而對(duì)于指代人物的身份詞,姓氏指代詞或無(wú)姓人名則不用標(biāo)出,因?yàn)樯矸菰~、姓氏指代詞和無(wú)姓人名通常指代一類人而不是一個(gè)人,且一般用于非正式場(chǎng)合,用戶關(guān)注度并不高,故不在本文人名識(shí)別范圍內(nèi)。如給定句子“揭景崗山二婚娶李亞鵬經(jīng)紀(jì)人”,需要標(biāo)出人名“景崗山”和“李亞鵬”;又如“媽媽告訴兒子鵬鵬做人要誠(chéng)實(shí)”,“李考上大學(xué)”等句子中,身份詞“媽媽”和“兒子”,姓氏指代詞“李”,無(wú)姓人名“鵬鵬”都不用標(biāo)出。
[0004]現(xiàn)有的技術(shù)方案如下:
[0005]基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于統(tǒng)計(jì)與規(guī)則相結(jié)合是目前最主流的人名識(shí)別方法,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的人名識(shí)別方法通過(guò)定義語(yǔ)義角色對(duì)語(yǔ)言文本的詞序列進(jìn)行角色標(biāo)注,然后利用統(tǒng)計(jì)模型對(duì)文本中出現(xiàn)的語(yǔ)義角色進(jìn)行建模與計(jì)算,最終得到人名的識(shí)別結(jié)果,由于該方法實(shí)現(xiàn)難度小,且一致性好,故而得到廣泛的應(yīng)用?;诮y(tǒng)計(jì)與規(guī)則相結(jié)合的人名識(shí)別方法是在基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的基礎(chǔ)上,加上啟發(fā)式規(guī)則,對(duì)統(tǒng)計(jì)模型的識(shí)別結(jié)果進(jìn)行修正,以提升綜合識(shí)別效果。由于統(tǒng)計(jì)模型僅從整體考慮,可能抑制局部小概率事件的發(fā)生,而且訓(xùn)練語(yǔ)料庫(kù)也存在信息不全面等局限,導(dǎo)致統(tǒng)計(jì)信息存在誤差,造成很多人名遺漏識(shí)別或錯(cuò)誤識(shí)別,因此需要結(jié)合一些啟發(fā)式規(guī)則進(jìn)行召回和剔除,以彌補(bǔ)統(tǒng)計(jì)模型的不足。
[0006]從圖1中可以看出,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的人名識(shí)別方法主要包括離線統(tǒng)計(jì)和在線識(shí)別兩部分。
[0007]離線統(tǒng)計(jì)指離線完成統(tǒng)計(jì)模型的參數(shù)訓(xùn)練,主要包括角色定義與信息統(tǒng)計(jì)和統(tǒng)計(jì)模型構(gòu)建與訓(xùn)練兩項(xiàng)工作,角色定義根據(jù)人名的構(gòu)成特征和上下文特征定義語(yǔ)義角色,一般包括人名姓氏,人名用字,上文特征以及下文特征等,如“演員周星馳擔(dān)任政協(xié)委員”,“演員”為上文特征,“周”為姓氏,“星”和“馳”為人名用字,“擔(dān)任”為下文特征,角色信息統(tǒng)計(jì)則根據(jù)人名庫(kù)和訓(xùn)練語(yǔ)料庫(kù)統(tǒng)計(jì)所有的人名姓氏,人名用字等角色信息;統(tǒng)計(jì)模型構(gòu)建和參數(shù)訓(xùn)練指根據(jù)定義的語(yǔ)義角色,構(gòu)建合適的統(tǒng)計(jì)模型,如隱馬爾科夫模型,條件隨機(jī)場(chǎng)模型,位置概率模型以及貝葉斯模型等,然后利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算統(tǒng)計(jì)模型中常數(shù)參數(shù)值。
[0008]在線識(shí)別指根據(jù)輸入的語(yǔ)言文本,標(biāo)注其中所含有的所有人名并輸出。在線識(shí)別過(guò)程如下:1)選用合適的粗分算法,如N-Gram、最大匹配算法等,將輸入的連續(xù)漢語(yǔ)語(yǔ)言文本字符串切分為詞序列;2)采用離線統(tǒng)計(jì)的角色詞庫(kù)對(duì)詞序列執(zhí)行角色識(shí)別,即標(biāo)注出語(yǔ)言文本中出現(xiàn)的所有人名語(yǔ)義角色;3)采用已訓(xùn)練的統(tǒng)計(jì)模型,對(duì)文本中出現(xiàn)的語(yǔ)義角色進(jìn)行分析與計(jì)算,并得出識(shí)別結(jié)果;4)采用啟發(fā)式規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行召回和剔除,召回遺漏識(shí)別,剔除錯(cuò)誤識(shí)別,本步驟可無(wú);5)輸出語(yǔ)言文本中人名的識(shí)別結(jié)果。
[0009]現(xiàn)有技術(shù)的缺點(diǎn)是:
[0010]I)采用單一統(tǒng)計(jì)模型,綜合識(shí)別效果差。由于人名構(gòu)成特征和上下文特征復(fù)雜,不具備統(tǒng)一特征,現(xiàn)有技術(shù)采用單一模型無(wú)法覆蓋所有人名構(gòu)成特征和上下文特征,且出現(xiàn)規(guī)則沖突概率較大,導(dǎo)致綜合識(shí)別效果差。
[0011]2)識(shí)別效果過(guò)于依賴訓(xùn)練語(yǔ)料庫(kù),可靠性低。對(duì)統(tǒng)計(jì)模型來(lái)說(shuō),訓(xùn)練語(yǔ)料庫(kù)的普適性和全面性直接影響模型參數(shù)的可靠性,從而決定最終的識(shí)別效果,而內(nèi)容全面,涵蓋所有人名構(gòu)成特征和上下文特征的語(yǔ)料庫(kù)幾乎不存在,而現(xiàn)有技術(shù)采用的主要為統(tǒng)計(jì)模型,故而過(guò)于依賴經(jīng)驗(yàn)主義,可靠性較低。
[0012]3)綜合識(shí)別效率低。語(yǔ)言文本中出現(xiàn)的相當(dāng)一部分人名角色可通過(guò)規(guī)則快速排除,或者通過(guò)更簡(jiǎn)單的統(tǒng)計(jì)模型即可高效準(zhǔn)確的識(shí)別,而現(xiàn)有技術(shù)對(duì)所有標(biāo)注的人名角色采用同一種統(tǒng)計(jì)模型進(jìn)行計(jì)算,故而綜合識(shí)別效率低。
【發(fā)明內(nèi)容】
[0013]本發(fā)明要解決的技術(shù)問(wèn)題是漢語(yǔ)語(yǔ)言文本中的中國(guó)人名識(shí)別問(wèn)題。
[0014]為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是:基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法,包括離線統(tǒng)計(jì)和在線識(shí)別兩個(gè)過(guò)程:
[0015]1.離線統(tǒng)計(jì)
[0016]下面對(duì)本算法所定義的語(yǔ)義角色和所使用的統(tǒng)計(jì)模型加以說(shuō)明;
[0017]1.1.語(yǔ)義角色
[0018]語(yǔ)義角色包括人名姓氏、人名用字、人名上文特征和人名下文特征四種;
[0019]人名用字指構(gòu)成人名的單個(gè)漢字,人名上文特征和人名下文特征分別指在語(yǔ)言文本中出現(xiàn)在人名之前和之后的詞語(yǔ);若使用“指數(shù)”來(lái)描述各語(yǔ)義角色需要統(tǒng)計(jì)的信息,則:
[0020]人名姓氏指數(shù)刻畫(huà)一個(gè)漢字或詞語(yǔ)在語(yǔ)言文本中出現(xiàn)時(shí),擔(dān)任人名姓氏和常用詞的傾向,取值范圍為[0,1],越趨向I表示做人名姓氏的可能性越大,做常用詞的可能性越??;人名姓氏指數(shù)的數(shù)學(xué)表示如下:
【權(quán)利要求】
1.基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法,其特征在于包括離線統(tǒng)計(jì)和在線識(shí)別兩個(gè)過(guò)程: 1.離線統(tǒng)計(jì) 下面對(duì)本算法所定義的語(yǔ)義角色和所使用的統(tǒng)計(jì)模型加以說(shuō)明; 1.1.語(yǔ)義角色 語(yǔ)義角色包括人名姓氏、人名用字、人名上文特征和人名下文特征四種; 人名用字指構(gòu)成人名的單個(gè)漢字,人名上文特征和人名下文特征分別指在語(yǔ)言文本中出現(xiàn)在人名之前和之后的詞語(yǔ);若使用“指數(shù)”來(lái)描述各語(yǔ)義角色需要統(tǒng)計(jì)的信息,則:人名姓氏指數(shù)刻畫(huà)一個(gè)漢字或詞語(yǔ)在語(yǔ)言文本中出現(xiàn)時(shí),擔(dān)任人名姓氏和常用詞的傾向,取值范圍為[O,1],越趨向I表示做人名姓氏的可能性越大,做常用詞的可能性越?。蝗嗣帐现笖?shù)的數(shù)學(xué)表示如下:
G X NwI =......α.......X.......1;.......T......1.......(L1) 式1.1中: Sw表示漢字或詞語(yǔ)W的人名姓氏指數(shù); Nw表示w在人名庫(kù)中做人名姓氏出現(xiàn)的次數(shù); N表示w在訓(xùn)練語(yǔ)料庫(kù)中做常用詞出現(xiàn)的次數(shù); α為調(diào)節(jié)因子,表示訓(xùn)練語(yǔ)料庫(kù)中人名個(gè)`數(shù)與人名庫(kù)中人名個(gè)數(shù)的比值; 人名用字指數(shù)刻畫(huà)一個(gè)漢字在語(yǔ)言文本中出現(xiàn)時(shí),擔(dān)任人名用字和常用詞的傾向,其取值范圍和數(shù)學(xué)表示與人名姓氏指數(shù)一致,不在贅述; 人名上文特征指數(shù)和人名下文特征指數(shù)分別刻畫(huà)一個(gè)詞語(yǔ)在語(yǔ)言文本出現(xiàn)時(shí),之后或之前出現(xiàn)人名的概率,取值范圍為[O,I],其數(shù)學(xué)表示為:Fw =—————(1.21w Nw + N1 J 式1.2中: Fw表示詞語(yǔ)w的人名上文或下文特征指數(shù); Nw表示w在訓(xùn)練語(yǔ)料庫(kù)中做人名上文或下文特征出現(xiàn)的次數(shù); N表示w在訓(xùn)練語(yǔ)料庫(kù)中做常用詞出現(xiàn)的次數(shù); 1.2統(tǒng)計(jì)模型 本算法利用統(tǒng)計(jì)模型計(jì)算給定單個(gè)或兩個(gè)連續(xù)漢字為人名名字的概率,并針對(duì)漢字串的兩類構(gòu)成情況,設(shè)計(jì)了針對(duì)性的統(tǒng)計(jì)模型,且每個(gè)統(tǒng)計(jì)模型對(duì)于決策樹(shù)規(guī)則的每一個(gè)分支分別訓(xùn)練,從而實(shí)現(xiàn)多模型人名識(shí)別方法; (I)情況一:漢字串不成詞 漢字串不成詞表示給定子串為單個(gè)漢字或兩個(gè)獨(dú)立漢字,本算法采用隱馬爾科夫模型進(jìn)行計(jì)算; 設(shè)隱狀態(tài)集合為S= (S1 =人名,S2 =非人名},初始概率矩陣= [JI1, JI2]分別表示人名出現(xiàn)和不出現(xiàn)的先驗(yàn)概率,狀態(tài)轉(zhuǎn)移矩陣A為:
2.在線識(shí)別 在線識(shí)別包括中文分詞、角色矩陣構(gòu)建、候選人名搜索、決策樹(shù)規(guī)則分支和人名識(shí)別五個(gè)過(guò)程; 2.1中文分詞中文分詞是將連續(xù)的語(yǔ)言文本字符串切分為詞序列,本算法采用改進(jìn)最大匹配算法實(shí)現(xiàn);給定語(yǔ)言文本字符串,W=wlw2…wn,改進(jìn)最大匹配算法流程為: (O遍歷字符串W,根據(jù)詞典對(duì)wi執(zhí)行最大匹配操作,并將匹配得到的詞依次添加到初始詞序列T,遍歷結(jié)束后,得到T={tl, t2,…,tn},其中,ti表示在W中,以Wi開(kāi)頭的最長(zhǎng)詞條; (2)檢測(cè)T內(nèi)的任意兩相鄰詞條,若存在詞條ti和ti+Ι滿足交集條件tiΠ ti+1! =0,則若ti與ti+1同時(shí)不滿足全集條件ti != ti U ti+Ι,則將ti標(biāo)記為交叉歧義,然后令ti = ti U ti+Ι,并刪除ti+Ι,重復(fù)當(dāng)前步驟,直到T內(nèi)不存在任意兩相鄰詞條滿足交集條件; (3)采用交叉歧義消解算法依次對(duì)T內(nèi)所有標(biāo)記為交叉歧義的元素執(zhí)行歧義消解,從而最終得到詞序列T ; 2.2角色矩陣構(gòu)建 角色矩陣描述了給定語(yǔ)言文本詞序列中所有的人名實(shí)體相關(guān)信息,是本算法人名識(shí)別過(guò)程的數(shù)據(jù)基礎(chǔ);通過(guò)引入角色矩陣,能夠以最簡(jiǎn)潔的方式提取和描述給定詞序列中所有人名識(shí)別相關(guān)信息,為后續(xù)的人名識(shí)別過(guò)程帶來(lái)極大便利; 設(shè)語(yǔ)言文本的詞序列為T= {tl,t2,…,tN} (N > O),N為詞序列元素個(gè)數(shù),人名實(shí)體角色類別總數(shù)為M(M > O,本算法M = 4),則詞序列T的角色矩陣為:
【文檔編號(hào)】G06F17/27GK103823859SQ201410060957
【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2014年2月21日 優(yōu)先權(quán)日:2014年2月21日
【發(fā)明者】鄭中華, 周俊, 周銀行 申請(qǐng)人:安徽博約信息科技有限責(zé)任公司