基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法

文檔序號(hào)：6538497閱讀：380來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法
【專利摘要】本發(fā)明公開(kāi)了基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法，采用決策樹(shù)規(guī)則對(duì)人名構(gòu)成特征和上下文特征進(jìn)行分類，然后對(duì)每一類別人名采用針對(duì)性的統(tǒng)計(jì)模型，從而彌補(bǔ)目前主流技術(shù)采用單一模型無(wú)法全面覆蓋所有人名構(gòu)成特征和上下文特征的缺點(diǎn)，提升綜合識(shí)別效果；而且，利用決策樹(shù)規(guī)則可以快速準(zhǔn)確的識(shí)別容易識(shí)別或排除的情況，從而減輕對(duì)訓(xùn)練語(yǔ)料庫(kù)的依賴，提升識(shí)別算法可靠性；另外，對(duì)不同類別人名采用不同復(fù)雜度的統(tǒng)計(jì)模型，亦可提升綜合識(shí)別效率。
【專利說(shuō)明】基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法。
【背景技術(shù)】
[0002]自然語(yǔ)言處理是互聯(lián)網(wǎng)信息搜索領(lǐng)域的核心分析技術(shù)，在搜索引擎、輿情監(jiān)控以及電子商務(wù)等眾多互聯(lián)網(wǎng)IT產(chǎn)業(yè)都有廣泛的應(yīng)用。隨著互聯(lián)網(wǎng)信息指數(shù)級(jí)增長(zhǎng)以及用戶體驗(yàn)需求越來(lái)越高，在保證處理速度滿足用戶使用需求的前提下，互聯(lián)網(wǎng)信息搜索對(duì)自然語(yǔ)言處理結(jié)果的要求越來(lái)越精準(zhǔn)。人名識(shí)別是自然語(yǔ)言處理詞法分析中最困難的核心問(wèn)題之一，不管在搜索引擎領(lǐng)域還是在輿情監(jiān)控領(lǐng)域，用戶對(duì)人名、地名和機(jī)構(gòu)名等實(shí)體詞的關(guān)注度遠(yuǎn)高于常用詞，而且人名作為無(wú)法直接采用詞典匹配識(shí)別的未登錄詞，識(shí)別難度大，因此，一直以來(lái)都是備受關(guān)注的研究問(wèn)題。
[0003]所謂人名識(shí)別，在本文中是指針對(duì)給定漢語(yǔ)句子，準(zhǔn)確地標(biāo)出句中所含所有完整人名，包括姓氏和名字，而對(duì)于指代人物的身份詞，姓氏指代詞或無(wú)姓人名則不用標(biāo)出，因?yàn)樯矸菰~、姓氏指代詞和無(wú)姓人名通常指代一類人而不是一個(gè)人，且一般用于非正式場(chǎng)合，用戶關(guān)注度并不高，故不在本文人名識(shí)別范圍內(nèi)。如給定句子“揭景崗山二婚娶李亞鵬經(jīng)紀(jì)人”，需要標(biāo)出人名“景崗山”和“李亞鵬”;又如“媽媽告訴兒子鵬鵬做人要誠(chéng)實(shí)”，“李考上大學(xué)”等句子中，身份詞“媽媽”和“兒子”，姓氏指代詞“李”，無(wú)姓人名“鵬鵬”都不用標(biāo)出。
[0004]現(xiàn)有的技術(shù)方案如下:
[0005]基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)和基于統(tǒng)計(jì)與規(guī)則相結(jié)合是目前最主流的人名識(shí)別方法，基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的人名識(shí)別方法通過(guò)定義語(yǔ)義角色對(duì)語(yǔ)言文本的詞序列進(jìn)行角色標(biāo)注，然后利用統(tǒng)計(jì)模型對(duì)文本中出現(xiàn)的語(yǔ)義角色進(jìn)行建模與計(jì)算，最終得到人名的識(shí)別結(jié)果，由于該方法實(shí)現(xiàn)難度小，且一致性好，故而得到廣泛的應(yīng)用?；诮y(tǒng)計(jì)與規(guī)則相結(jié)合的人名識(shí)別方法是在基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的基礎(chǔ)上，加上啟發(fā)式規(guī)則，對(duì)統(tǒng)計(jì)模型的識(shí)別結(jié)果進(jìn)行修正，以提升綜合識(shí)別效果。由于統(tǒng)計(jì)模型僅從整體考慮，可能抑制局部小概率事件的發(fā)生，而且訓(xùn)練語(yǔ)料庫(kù)也存在信息不全面等局限，導(dǎo)致統(tǒng)計(jì)信息存在誤差，造成很多人名遺漏識(shí)別或錯(cuò)誤識(shí)別，因此需要結(jié)合一些啟發(fā)式規(guī)則進(jìn)行召回和剔除，以彌補(bǔ)統(tǒng)計(jì)模型的不足。
[0006]從圖1中可以看出，基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的人名識(shí)別方法主要包括離線統(tǒng)計(jì)和在線識(shí)別兩部分。
[0007]離線統(tǒng)計(jì)指離線完成統(tǒng)計(jì)模型的參數(shù)訓(xùn)練，主要包括角色定義與信息統(tǒng)計(jì)和統(tǒng)計(jì)模型構(gòu)建與訓(xùn)練兩項(xiàng)工作，角色定義根據(jù)人名的構(gòu)成特征和上下文特征定義語(yǔ)義角色，一般包括人名姓氏，人名用字，上文特征以及下文特征等，如“演員周星馳擔(dān)任政協(xié)委員”，“演員”為上文特征，“周”為姓氏，“星”和“馳”為人名用字，“擔(dān)任”為下文特征，角色信息統(tǒng)計(jì)則根據(jù)人名庫(kù)和訓(xùn)練語(yǔ)料庫(kù)統(tǒng)計(jì)所有的人名姓氏，人名用字等角色信息；統(tǒng)計(jì)模型構(gòu)建和參數(shù)訓(xùn)練指根據(jù)定義的語(yǔ)義角色，構(gòu)建合適的統(tǒng)計(jì)模型，如隱馬爾科夫模型，條件隨機(jī)場(chǎng)模型，位置概率模型以及貝葉斯模型等，然后利用訓(xùn)練語(yǔ)料庫(kù)計(jì)算統(tǒng)計(jì)模型中常數(shù)參數(shù)值。
[0008]在線識(shí)別指根據(jù)輸入的語(yǔ)言文本，標(biāo)注其中所含有的所有人名并輸出。在線識(shí)別過(guò)程如下:1)選用合適的粗分算法，如N-Gram、最大匹配算法等，將輸入的連續(xù)漢語(yǔ)語(yǔ)言文本字符串切分為詞序列；2)采用離線統(tǒng)計(jì)的角色詞庫(kù)對(duì)詞序列執(zhí)行角色識(shí)別，即標(biāo)注出語(yǔ)言文本中出現(xiàn)的所有人名語(yǔ)義角色；3)采用已訓(xùn)練的統(tǒng)計(jì)模型，對(duì)文本中出現(xiàn)的語(yǔ)義角色進(jìn)行分析與計(jì)算，并得出識(shí)別結(jié)果；4)采用啟發(fā)式規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行召回和剔除，召回遺漏識(shí)別，剔除錯(cuò)誤識(shí)別，本步驟可無(wú)；5)輸出語(yǔ)言文本中人名的識(shí)別結(jié)果。
[0009]現(xiàn)有技術(shù)的缺點(diǎn)是:
[0010]I)采用單一統(tǒng)計(jì)模型，綜合識(shí)別效果差。由于人名構(gòu)成特征和上下文特征復(fù)雜，不具備統(tǒng)一特征，現(xiàn)有技術(shù)采用單一模型無(wú)法覆蓋所有人名構(gòu)成特征和上下文特征，且出現(xiàn)規(guī)則沖突概率較大，導(dǎo)致綜合識(shí)別效果差。
[0011]2)識(shí)別效果過(guò)于依賴訓(xùn)練語(yǔ)料庫(kù)，可靠性低。對(duì)統(tǒng)計(jì)模型來(lái)說(shuō)，訓(xùn)練語(yǔ)料庫(kù)的普適性和全面性直接影響模型參數(shù)的可靠性，從而決定最終的識(shí)別效果，而內(nèi)容全面，涵蓋所有人名構(gòu)成特征和上下文特征的語(yǔ)料庫(kù)幾乎不存在，而現(xiàn)有技術(shù)采用的主要為統(tǒng)計(jì)模型，故而過(guò)于依賴經(jīng)驗(yàn)主義，可靠性較低。
[0012]3)綜合識(shí)別效率低。語(yǔ)言文本中出現(xiàn)的相當(dāng)一部分人名角色可通過(guò)規(guī)則快速排除，或者通過(guò)更簡(jiǎn)單的統(tǒng)計(jì)模型即可高效準(zhǔn)確的識(shí)別，而現(xiàn)有技術(shù)對(duì)所有標(biāo)注的人名角色采用同一種統(tǒng)計(jì)模型進(jìn)行計(jì)算，故而綜合識(shí)別效率低。

【發(fā)明內(nèi)容】

[0013]本發(fā)明要解決的技術(shù)問(wèn)題是漢語(yǔ)語(yǔ)言文本中的中國(guó)人名識(shí)別問(wèn)題。
[0014]為了解決上述技術(shù)問(wèn)題，本發(fā)明采用的技術(shù)方案是:基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法，包括離線統(tǒng)計(jì)和在線識(shí)別兩個(gè)過(guò)程:
[0015]1.離線統(tǒng)計(jì)
[0016]下面對(duì)本算法所定義的語(yǔ)義角色和所使用的統(tǒng)計(jì)模型加以說(shuō)明；
[0017]1.1.語(yǔ)義角色
[0018]語(yǔ)義角色包括人名姓氏、人名用字、人名上文特征和人名下文特征四種；
[0019]人名用字指構(gòu)成人名的單個(gè)漢字，人名上文特征和人名下文特征分別指在語(yǔ)言文本中出現(xiàn)在人名之前和之后的詞語(yǔ)；若使用“指數(shù)”來(lái)描述各語(yǔ)義角色需要統(tǒng)計(jì)的信息，則:
[0020]人名姓氏指數(shù)刻畫(huà)一個(gè)漢字或詞語(yǔ)在語(yǔ)言文本中出現(xiàn)時(shí)，擔(dān)任人名姓氏和常用詞的傾向，取值范圍為[0，1]，越趨向I表示做人名姓氏的可能性越大，做常用詞的可能性越??；人名姓氏指數(shù)的數(shù)學(xué)表示如下:
【權(quán)利要求】
1.基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法，其特征在于包括離線統(tǒng)計(jì)和在線識(shí)別兩個(gè)過(guò)程: 1.離線統(tǒng)計(jì) 下面對(duì)本算法所定義的語(yǔ)義角色和所使用的統(tǒng)計(jì)模型加以說(shuō)明； 1.1.語(yǔ)義角色語(yǔ)義角色包括人名姓氏、人名用字、人名上文特征和人名下文特征四種；人名用字指構(gòu)成人名的單個(gè)漢字，人名上文特征和人名下文特征分別指在語(yǔ)言文本中出現(xiàn)在人名之前和之后的詞語(yǔ)；若使用“指數(shù)”來(lái)描述各語(yǔ)義角色需要統(tǒng)計(jì)的信息，則:人名姓氏指數(shù)刻畫(huà)一個(gè)漢字或詞語(yǔ)在語(yǔ)言文本中出現(xiàn)時(shí)，擔(dān)任人名姓氏和常用詞的傾向，取值范圍為[O，1]，越趨向I表示做人名姓氏的可能性越大，做常用詞的可能性越?。蝗嗣帐现笖?shù)的數(shù)學(xué)表示如下:
G X NwI =......α.......X.......1；.......T......1.......(L1) 式1.1中: Sw表示漢字或詞語(yǔ)W的人名姓氏指數(shù)； Nw表示w在人名庫(kù)中做人名姓氏出現(xiàn)的次數(shù)； N表示w在訓(xùn)練語(yǔ)料庫(kù)中做常用詞出現(xiàn)的次數(shù)； α為調(diào)節(jié)因子，表示訓(xùn)練語(yǔ)料庫(kù)中人名個(gè)`數(shù)與人名庫(kù)中人名個(gè)數(shù)的比值；人名用字指數(shù)刻畫(huà)一個(gè)漢字在語(yǔ)言文本中出現(xiàn)時(shí)，擔(dān)任人名用字和常用詞的傾向，其取值范圍和數(shù)學(xué)表示與人名姓氏指數(shù)一致，不在贅述；人名上文特征指數(shù)和人名下文特征指數(shù)分別刻畫(huà)一個(gè)詞語(yǔ)在語(yǔ)言文本出現(xiàn)時(shí)，之后或之前出現(xiàn)人名的概率，取值范圍為[O，I]，其數(shù)學(xué)表示為:Fw =—————(1.21w Nw + N1 J 式1.2中: Fw表示詞語(yǔ)w的人名上文或下文特征指數(shù)； Nw表示w在訓(xùn)練語(yǔ)料庫(kù)中做人名上文或下文特征出現(xiàn)的次數(shù)； N表示w在訓(xùn)練語(yǔ)料庫(kù)中做常用詞出現(xiàn)的次數(shù)； 1.2統(tǒng)計(jì)模型本算法利用統(tǒng)計(jì)模型計(jì)算給定單個(gè)或兩個(gè)連續(xù)漢字為人名名字的概率，并針對(duì)漢字串的兩類構(gòu)成情況，設(shè)計(jì)了針對(duì)性的統(tǒng)計(jì)模型，且每個(gè)統(tǒng)計(jì)模型對(duì)于決策樹(shù)規(guī)則的每一個(gè)分支分別訓(xùn)練，從而實(shí)現(xiàn)多模型人名識(shí)別方法； (I)情況一:漢字串不成詞漢字串不成詞表示給定子串為單個(gè)漢字或兩個(gè)獨(dú)立漢字，本算法采用隱馬爾科夫模型進(jìn)行計(jì)算；設(shè)隱狀態(tài)集合為S= (S1 =人名，S2 =非人名}，初始概率矩陣= [JI1, JI2]分別表示人名出現(xiàn)和不出現(xiàn)的先驗(yàn)概率，狀態(tài)轉(zhuǎn)移矩陣A為:
2.在線識(shí)別在線識(shí)別包括中文分詞、角色矩陣構(gòu)建、候選人名搜索、決策樹(shù)規(guī)則分支和人名識(shí)別五個(gè)過(guò)程； 2.1中文分詞中文分詞是將連續(xù)的語(yǔ)言文本字符串切分為詞序列，本算法采用改進(jìn)最大匹配算法實(shí)現(xiàn)；給定語(yǔ)言文本字符串，W=wlw2…wn,改進(jìn)最大匹配算法流程為: (O遍歷字符串W，根據(jù)詞典對(duì)wi執(zhí)行最大匹配操作，并將匹配得到的詞依次添加到初始詞序列T,遍歷結(jié)束后,得到T={tl, t2,…，tn},其中，ti表示在W中，以Wi開(kāi)頭的最長(zhǎng)詞條； (2)檢測(cè)T內(nèi)的任意兩相鄰詞條,若存在詞條ti和ti+Ι滿足交集條件tiΠ ti+1! =0，則若ti與ti+1同時(shí)不滿足全集條件ti != ti U ti+Ι,則將ti標(biāo)記為交叉歧義，然后令ti = ti U ti+Ι,并刪除ti+Ι,重復(fù)當(dāng)前步驟,直到T內(nèi)不存在任意兩相鄰詞條滿足交集條件； (3)采用交叉歧義消解算法依次對(duì)T內(nèi)所有標(biāo)記為交叉歧義的元素執(zhí)行歧義消解，從而最終得到詞序列T ； 2.2角色矩陣構(gòu)建角色矩陣描述了給定語(yǔ)言文本詞序列中所有的人名實(shí)體相關(guān)信息，是本算法人名識(shí)別過(guò)程的數(shù)據(jù)基礎(chǔ)；通過(guò)引入角色矩陣，能夠以最簡(jiǎn)潔的方式提取和描述給定詞序列中所有人名識(shí)別相關(guān)信息，為后續(xù)的人名識(shí)別過(guò)程帶來(lái)極大便利；設(shè)語(yǔ)言文本的詞序列為T= {tl，t2,…，tN} (N > O)，N為詞序列元素個(gè)數(shù)，人名實(shí)體角色類別總數(shù)為M(M > O，本算法M = 4)，則詞序列T的角色矩陣為:
【文檔編號(hào)】G06F17/27GK103823859SQ201410060957
【公開(kāi)日】2014年5月28日申請(qǐng)日期:2014年2月21日優(yōu)先權(quán)日:2014年2月21日
【發(fā)明者】鄭中華, 周俊, 周銀行申請(qǐng)人:安徽博約信息科技有限責(zé)任公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：鄭中華;周俊;周銀行
技術(shù)所有人：安徽博約信息科技有限責(zé)任公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

決策樹(shù)模型相關(guān)技術(shù)

決策樹(shù)模型案例示例相關(guān)技術(shù)

決策樹(shù)預(yù)測(cè)模型相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于決策樹(shù)規(guī)則和多種統(tǒng)計(jì)模型相結(jié)合的人名識(shí)別算法