適用于中文詞庫(kù)的分詞歧義排除方法

文檔序號(hào)：6490217閱讀：473來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

適用于中文詞庫(kù)的分詞歧義排除方法
【專利摘要】本發(fā)明涉及一種適用于中文詞庫(kù)的分詞歧義排除方法，其特點(diǎn)是：首先對(duì)中文分詞的進(jìn)行劃分，至少劃分出，首詞，中間詞。之后，對(duì)中間詞的字進(jìn)行檢查，列出歧義詞。接著，對(duì)首詞的字進(jìn)行檢查，列出歧義詞。最后，將歧義詞對(duì)比特殊詞判斷詞庫(kù)與，保留符合特殊詞判斷詞庫(kù)的歧義詞。由此，將本發(fā)明應(yīng)用在服務(wù)器的中文分詞數(shù)據(jù)處理中后，能夠智能對(duì)分詞效果進(jìn)行歧義識(shí)別，對(duì)于歧義識(shí)別效果不佳的可以靈活的通過配置特殊詞庫(kù)來修正識(shí)別效果。同時(shí)，解決用戶精準(zhǔn)查找信息的需求，使用垂直搜索引擎的人。在減少服務(wù)器負(fù)擔(dān)的同時(shí)，提高了中文分詞的精確程度。并且，將本發(fā)明應(yīng)用到旅游行業(yè)后，可以提高搜索的準(zhǔn)確性和速度，便于推廣。
【專利說明】適用于中文詞庫(kù)的分詞歧義排除方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分詞歧義排除方法，尤其涉及一種，屬于適用于中文詞庫(kù)的分詞歧義排除方法。
【背景技術(shù)】
[0002]信息的快速增長(zhǎng)，人們想準(zhǔn)確找到對(duì)自己有用的信息變得很困難，使搜索引擎成為人們查找信息的首選工具，谷歌、百度是大家共知的全文搜索引擎。隨著搜索市場(chǎng)價(jià)值的不斷增加，人們對(duì)信息準(zhǔn)確性、實(shí)用性的要求越來越高，全文搜索引擎已經(jīng)不能滿足人們的需求，隨之而來的垂直搜索引擎越來越受到人們的喜愛，垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:酒店搜索、旅游搜索、火車票搜索等等)，在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。目前在中文搜索引擎領(lǐng)域，國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面，有一個(gè)重要的原因就在于中文和英文兩種語言自身的書寫方式不同，這其中對(duì)于計(jì)算機(jī)涉及的就是中文分詞技術(shù)。
[0003]什么是中文分詞
英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個(gè)意思。例如，英文句子I am a student,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過空格知道student是一個(gè)單詞，但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞，就是中文分詞。我是一個(gè)學(xué)生，分詞的結(jié)果是:我/是/ 一個(gè)/學(xué)生。
[0004]中文分詞和搜索引擎:中文分詞到底對(duì)搜索引擎有多大影響？對(duì)于搜索引擎來說，最重要的并不是找到所有結(jié)果，因?yàn)樵诖髷?shù)據(jù)量下面所有結(jié)果沒有太多的意義，沒有人能看得完，最重要的是把最相關(guān)的結(jié)果排在最前面，展示給用戶，這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否，常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。
[0005]中文分詞技術(shù):中文分詞技術(shù)屬于自然語言處理技術(shù)范疇，對(duì)于一句話，人可以通過自己的知識(shí)來明白哪些是詞，哪些不是詞，但如何讓計(jì)算機(jī)也能理解？其處理過程就是分詞算法。
[0006]現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
[0007]1、基于字符串匹配的分詞方法:這種方法又叫做機(jī)械分詞方法，它是按照一定的策略將要分析的漢字串與一個(gè)“充分大的”機(jī)器詞庫(kù)中的詞條進(jìn)行匹配，若在詞庫(kù)中找到某個(gè)字符串，則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長(zhǎng)度優(yōu)先匹配的情況，可以分為最大(最長(zhǎng))匹配和最小(最短)匹配。常用的幾種機(jī)械分詞方法如下:
O正向最大匹配法(由左到右的方向)；
2)逆向最大匹配法(由右到左的方向)； 3)最少切分(使每一句中切出的詞數(shù)最小)。
[0008]2、基于理解的分詞方法:這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解，達(dá)到識(shí)別詞的效果。其基本思想是在分詞的同時(shí)進(jìn)行句法、語義分析，利用句法信息和語義信息來處理歧義現(xiàn)象。
[0009]3、基于統(tǒng)計(jì)的分詞方法:詞是穩(wěn)定的字的組合，因此在上下文中，相鄰的字同時(shí)出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度?？梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì)，計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息，計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?；ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí)，便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì)，不需要切分詞庫(kù)，因而又叫做無詞庫(kù)分詞法或統(tǒng)計(jì)取詞方法。
分詞中的難題
1、歧義識(shí)別
歧義是指同樣的一句話，可能有兩種或者更多的切分方法。例如:表面的，因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~，那么這個(gè)短語就可以分成“表面的”和“表面的”。這種稱為交叉歧義。
[0010]交叉歧義相對(duì)組合歧義來說是還算比較容易處理，組合歧義就必需根據(jù)整個(gè)句子來判斷了。例如，在句子“這個(gè)門把手壞了”中，“把手”是個(gè)詞，但在句子“請(qǐng)把手拿開”中，“把手”就不是一個(gè)詞；在句子“將軍任命了一名中將”中，“中將”是個(gè)詞，但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中，“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別，
如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話，在歧義中還有一個(gè)難題，是真歧義。真歧義意思是給出一句話，由人去判斷也不知道哪個(gè)應(yīng)該是詞，哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”，可以切分成“乒乓球拍賣完了”、也可切分成“乒乓球拍賣完了”，如果沒有上下文其他的句子，恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。
[0011]2、新詞識(shí)別
新詞，專業(yè)術(shù)語稱為未登錄詞。也就是那些在詞庫(kù)中都沒有收錄過，但又確實(shí)能稱為詞的那些詞。最典型的是人名，新詞中除了人名以外，還有機(jī)構(gòu)名、景點(diǎn)名、火車站名、商標(biāo)名、簡(jiǎn)稱、省略語等都是很難處理的問題，而且這些又正好是人們經(jīng)常使用的詞，因此對(duì)于搜索引擎來說，分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。
[0012]分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要，但如果分詞速度太慢，即使準(zhǔn)確性再高，對(duì)于搜索引擎來說也是不可用的，因?yàn)樗阉饕嫘枰幚淼臄?shù)據(jù)量過大，如果分詞耗用的時(shí)間過長(zhǎng)，會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來說，分詞的準(zhǔn)確性和速度，二者都需要達(dá)到很高的要求。

【發(fā)明內(nèi)容】

[0013]本發(fā)明的目的就是為了解決現(xiàn)有技術(shù)中存在的上述問題，提供一種適用于中文詞庫(kù)的分詞歧義排除方法。
[0014]本發(fā)明的目的通過以下技術(shù)方案來實(shí)現(xiàn):
適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于包括以下步驟:步驟①，對(duì)中文分詞的進(jìn)行劃分，至少劃分出，首詞，中間詞；步驟②，對(duì)中間詞的字進(jìn)行檢查，列出歧義詞；步驟③，對(duì)首詞的字進(jìn)行檢查，列出歧義詞；步驟④，將歧義詞對(duì)比特殊詞判斷詞庫(kù)與，保留符合特殊詞判斷詞庫(kù)的歧義詞。
[0015]上述的適用于中文詞庫(kù)的分詞歧義排除方法，其中:所述中間詞的字進(jìn)行檢查為，中文分詞結(jié)果在3個(gè)詞以上時(shí)，滿足第一個(gè)詞的結(jié)束字為第二個(gè)詞的開始字且第二個(gè)詞的結(jié)束字為第三個(gè)詞的開始字，則將第二詞列出作為歧義詞。
[0016]進(jìn)一步地，上述的適用于中文詞庫(kù)的分詞歧義排除方法，其中:所述的對(duì)首詞進(jìn)行二次處理為，中文分詞結(jié)果在3個(gè)詞以上，按順序逐個(gè)檢查，滿足第一個(gè)詞包含了第二個(gè)詞，且第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字，則將第一詞列出作為歧義詞。
[0017]更進(jìn)一步地，上述的適用于中文詞庫(kù)的分詞歧義排除方法，其中:所述的步驟④中保留的歧義詞，通過服務(wù)器定義為普通詞。
[0018]再進(jìn)一步地，上述的適用于中文詞庫(kù)的分詞歧義排除方法，其中:步驟①所述的劃分為，利用正向最大匹配法來匹配中文詞庫(kù)，進(jìn)行詞的劃分，將匹配切分的首詞、中間詞結(jié)果，按切分先后順序存到鏈表結(jié)構(gòu)中。
[0019]本發(fā)明技術(shù)方案的優(yōu)點(diǎn)主要體現(xiàn)在:將本發(fā)明應(yīng)用在服務(wù)器的中文分詞數(shù)據(jù)處理中后，能夠智能對(duì)分詞效果進(jìn)行歧義識(shí)別，對(duì)于歧義識(shí)別效果不佳的可以靈活的通過配置特殊詞庫(kù)來修正識(shí)別效果。同時(shí)，解決用戶精準(zhǔn)查找信息的需求，使用垂直搜索引擎的人，對(duì)于需求的信息非常明確。由此，在減少服務(wù)器負(fù)擔(dān)的同時(shí)，提高了中文分詞的精確程度。并且，將本發(fā)明應(yīng)用到旅游行業(yè)后，可以提高搜索的準(zhǔn)確性和速度，便于推廣。
[0020]本發(fā)明的目的、優(yōu)點(diǎn)和特點(diǎn)，將通過下面優(yōu)選實(shí)施例的非限制性說明進(jìn)行解釋。這些實(shí)施例僅是應(yīng)用本發(fā)明技術(shù)方案的典型范例，凡采取等同替換或者等效變換而形成的技術(shù)方案，均落在本發(fā)明要求保護(hù)的范圍之內(nèi)。
【具體實(shí)施方式】
[0021]適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于包括以下步驟:首先，對(duì)中文分詞的進(jìn)行劃分，至少劃分出，首詞，中間詞。具體來說，可以利用正向最大匹配法來匹配中文詞庫(kù)，進(jìn)行詞的劃分，將匹配切分的首詞、中間詞結(jié)果，按切分先后順序存到鏈表結(jié)構(gòu)中。之后，對(duì)中間詞的字進(jìn)行檢查，列出歧義詞。同時(shí)，可以對(duì)首詞的字進(jìn)行檢查，列出歧義詞。最后，將歧義詞對(duì)比特殊詞判斷詞庫(kù)，保留符合特殊詞判斷詞庫(kù)的歧義詞。
[0022]就本發(fā)明一較佳的實(shí)施方式來看，所述中間詞的字進(jìn)行檢查為，中文分詞結(jié)果在3個(gè)詞以上時(shí)，滿足第一個(gè)詞的結(jié)束字為第二個(gè)詞的開始字且第二個(gè)詞的結(jié)束字為第三個(gè)詞的開始字，則將第二詞列出作為歧義詞。具體來說，比如詞庫(kù)中已有詞:“上?！?，“海南”，“南站”，則“上海南站”切分為“上海海南南站”，這時(shí)切分出來的“海南”明顯不妥，針對(duì)這種情況，本發(fā)明進(jìn)行了會(huì)將分詞結(jié)果的詞進(jìn)行二次處理過濾，將第二詞“海南”作為歧義詞，與特殊詞判斷詞庫(kù)對(duì)比，發(fā)現(xiàn)其不在特殊詞判斷詞庫(kù)內(nèi)，繼而進(jìn)行排除。
[0023]與之對(duì)應(yīng)的，本發(fā)明對(duì)首詞進(jìn)行的二次處理為，如果中文分詞結(jié)果在3個(gè)詞以上，按順序逐個(gè)檢查，滿足第一個(gè)詞包含了第二個(gè)詞，且第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字，則將第一詞列出作為歧義詞。例如，詞庫(kù)中已有詞:“廣東”，“廣東話”，“話劇”。則“廣東話劇”切分為“廣東話廣東話劇”，這時(shí)切分出來的“廣東話”明顯不妥，廣東話劇應(yīng)該是表達(dá)的是廣東的話劇這個(gè)意思。針對(duì)這種情況，第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字“廣東話”為歧義詞，與特殊詞判斷詞庫(kù)對(duì)比，發(fā)現(xiàn)其不在特殊詞判斷詞庫(kù)內(nèi)，繼而進(jìn)行排除。
[0024]進(jìn)一步來看，為了避免出現(xiàn)重復(fù)判斷，影響采用本發(fā)明方法的服務(wù)器執(zhí)行效率，對(duì)于通過特殊詞判斷詞庫(kù)對(duì)比保留的歧義詞，通過服務(wù)器定義為普通詞。
[0025]通過上述的文字表述可以看出，采用本發(fā)明后，將本發(fā)明應(yīng)用在服務(wù)器的中文分詞數(shù)據(jù)處理中后，能夠智能對(duì)分詞效果進(jìn)行歧義識(shí)別，對(duì)于歧義識(shí)別效果不佳的可以靈活的通過配置特殊詞庫(kù)來修正識(shí)別效果。同時(shí)，解決用戶精準(zhǔn)查找信息的需求，使用垂直搜索引擎的人，對(duì)于需求的信息非常明確。由此，在減少服務(wù)器負(fù)擔(dān)的同時(shí)，提高了中文分詞的精確程度。并且，將本發(fā)明應(yīng)用到旅游行業(yè)后，可以提高搜索的準(zhǔn)確性和速度，便于推廣。
【權(quán)利要求】
1.適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于包括以下步驟: 步驟①，對(duì)中文詞庫(kù)中的中文詞進(jìn)行劃分，至少劃分出，首詞，中間詞；步驟②，對(duì)中間詞的字進(jìn)行檢查，列出歧義詞；步驟③，對(duì)首詞的字進(jìn)行檢查，列出歧義詞；步驟④，將歧義詞對(duì)比特殊詞判斷詞庫(kù)與，保留符合特殊詞判斷詞庫(kù)的歧義詞。
2.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于:所述中間詞的字進(jìn)行檢查為，中文分詞結(jié)果在3個(gè)詞以上時(shí)，滿足第一個(gè)詞的結(jié)束字為第二個(gè)詞的開始字且第二個(gè)詞的結(jié)束字為第三個(gè)詞的開始字，則將第二詞列出作為歧義詞。
3.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于:所述的對(duì)首詞進(jìn)行二次處理為，中文分詞結(jié)果在3個(gè)詞以上，按順序逐個(gè)檢查，滿足第一個(gè)詞包含了第二個(gè)詞，且第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字，則將第一詞列出作為歧義詞。
4.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于:所述的步驟④中保留的歧義詞，通過服務(wù)器定義為普通詞。
5.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法，其特征在于:步驟①所述的劃分為，利用正向最大匹配法來匹配中文詞庫(kù)，進(jìn)行詞的劃分，將匹配切分的首詞、中間詞結(jié)果，按切分先后順序存到鏈表結(jié)構(gòu)中。
【文檔編號(hào)】G06F17/30GK103778161SQ201210414877
【公開日】2014年5月7日申請(qǐng)日期:2012年10月26日優(yōu)先權(quán)日:2012年10月26日
【發(fā)明者】王專, 吳志祥, 張海龍, 馬和平, 吳劍, 郭鳳林, 王曉鐘, 龐紹進(jìn) 申請(qǐng)人:同程網(wǎng)絡(luò)科技股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王專;吳志祥;張海龍;馬和平;吳劍;郭鳳林;王曉鐘;龐紹進(jìn)
技術(shù)所有人：同程網(wǎng)絡(luò)科技股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

適用于中文詞庫(kù)的分詞歧義排除方法