適用于中文詞庫(kù)的分詞歧義排除方法
【專利摘要】本發(fā)明涉及一種適用于中文詞庫(kù)的分詞歧義排除方法,其特點(diǎn)是:首先對(duì)中文分詞的進(jìn)行劃分,至少劃分出,首詞,中間詞。之后,對(duì)中間詞的字進(jìn)行檢查,列出歧義詞。接著,對(duì)首詞的字進(jìn)行檢查,列出歧義詞。最后,將歧義詞對(duì)比特殊詞判斷詞庫(kù)與,保留符合特殊詞判斷詞庫(kù)的歧義詞。由此,將本發(fā)明應(yīng)用在服務(wù)器的中文分詞數(shù)據(jù)處理中后,能夠智能對(duì)分詞效果進(jìn)行歧義識(shí)別,對(duì)于歧義識(shí)別效果不佳的可以靈活的通過配置特殊詞庫(kù)來修正識(shí)別效果。同時(shí),解決用戶精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人。在減少服務(wù)器負(fù)擔(dān)的同時(shí),提高了中文分詞的精確程度。并且,將本發(fā)明應(yīng)用到旅游行業(yè)后,可以提高搜索的準(zhǔn)確性和速度,便于推廣。
【專利說明】適用于中文詞庫(kù)的分詞歧義排除方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種分詞歧義排除方法,尤其涉及一種,屬于適用于中文詞庫(kù)的分詞歧義排除方法。
【背景技術(shù)】
[0002]信息的快速增長(zhǎng),人們想準(zhǔn)確找到對(duì)自己有用的信息變得很困難,使搜索引擎成為人們查找信息的首選工具,谷歌、百度是大家共知的全文搜索引擎。隨著搜索市場(chǎng)價(jià)值的不斷增加,人們對(duì)信息準(zhǔn)確性、實(shí)用性的要求越來越高,全文搜索引擎已經(jīng)不能滿足人們的需求,隨之而來的垂直搜索引擎越來越受到人們的喜愛,垂直搜索專注于特定的搜索領(lǐng)域和搜索需求(例如:酒店搜索、旅游搜索、火車票搜索等等),在其特定的搜索領(lǐng)域有更好的用戶體驗(yàn)。垂直搜索需要的硬件成本低、用戶需求特定、查詢的方式多樣。目前在中文搜索引擎領(lǐng)域,國(guó)內(nèi)的搜索引擎已經(jīng)和國(guó)外的搜索引擎效果上相差不遠(yuǎn)。之所以能形成這樣的局面,有一個(gè)重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對(duì)于計(jì)算機(jī)涉及的就是中文分詞技術(shù)。
[0003]什么是中文分詞
英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個(gè)意思。例如,英文句子I am a student,用中文則為:“我是一個(gè)學(xué)生”。計(jì)算機(jī)可以很簡(jiǎn)單通過空格知道student是一個(gè)單詞,但是不能很容易明白“學(xué)”、“生”兩個(gè)字合起來才表示一個(gè)詞。把中文的漢字序列切分成有意義的詞,就是中文分詞。我是一個(gè)學(xué)生,分詞的結(jié)果是:我/是/ 一個(gè)/學(xué)生。
[0004]中文分詞和搜索引擎:中文分詞到底對(duì)搜索引擎有多大影響?對(duì)于搜索引擎來說,最重要的并不是找到所有結(jié)果,因?yàn)樵诖髷?shù)據(jù)量下面所有結(jié)果沒有太多的意義,沒有人能看得完,最重要的是把最相關(guān)的結(jié)果排在最前面,展示給用戶,這也稱為相關(guān)度排序。中文分詞的準(zhǔn)確與否,常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序。
[0005]中文分詞技術(shù):中文分詞技術(shù)屬于自然語言處理技術(shù)范疇,對(duì)于一句話,人可以通過自己的知識(shí)來明白哪些是詞,哪些不是詞,但如何讓計(jì)算機(jī)也能理解?其處理過程就是分詞算法。
[0006]現(xiàn)有的分詞算法可分為三大類:基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計(jì)的分詞方法。
[0007]1、基于字符串匹配的分詞方法:這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將要分析的漢字串與一個(gè)“充分大的”機(jī)器詞庫(kù)中的詞條進(jìn)行匹配,若在詞庫(kù)中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配。常用的幾種機(jī)械分詞方法如下:
O正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向); 3)最少切分(使每一句中切出的詞數(shù)最小)。
[0008]2、基于理解的分詞方法:這種分詞方法是通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到識(shí)別詞的效果。其基本思想是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。
[0009]3、基于統(tǒng)計(jì)的分詞方法:詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映成詞的可信度??梢詫?duì)語料中相鄰共現(xiàn)的各個(gè)字的組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息。定義兩個(gè)字的互現(xiàn)信息,計(jì)算兩個(gè)漢字X、Y的相鄰共現(xiàn)概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞庫(kù),因而又叫做無詞庫(kù)分詞法或統(tǒng)計(jì)取詞方法。
分詞中的難題
1、歧義識(shí)別
歧義是指同樣的一句話,可能有兩種或者更多的切分方法。例如:表面的,因?yàn)椤氨砻妗焙汀懊娴摹倍际窃~,那么這個(gè)短語就可以分成“表面的”和“表面的”。這種稱為交叉歧義。
[0010]交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必需根據(jù)整個(gè)句子來判斷了。例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞;在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長(zhǎng)兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別,
如果交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞,哪個(gè)應(yīng)該不是詞。例如:“乒乓球拍賣完了”,可以切分成“乒乓球拍賣完了”、也可切分成“乒乓球拍賣完了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。
[0011]2、新詞識(shí)別
新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在詞庫(kù)中都沒有收錄過,但又確實(shí)能稱為詞的那些詞。最典型的是人名,新詞中除了人名以外,還有機(jī)構(gòu)名、景點(diǎn)名、火車站名、商標(biāo)名、簡(jiǎn)稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前新詞識(shí)別準(zhǔn)確率已經(jīng)成為評(píng)價(jià)一個(gè)分詞系統(tǒng)好壞的重要標(biāo)志之一。
[0012]分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚淼臄?shù)據(jù)量過大,如果分詞耗用的時(shí)間過長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此對(duì)于搜索引擎來說,分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。
【發(fā)明內(nèi)容】
[0013]本發(fā)明的目的就是為了解決現(xiàn)有技術(shù)中存在的上述問題,提供一種適用于中文詞庫(kù)的分詞歧義排除方法。
[0014]本發(fā)明的目的通過以下技術(shù)方案來實(shí)現(xiàn):
適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于包括以下步驟:步驟①,對(duì)中文分詞的進(jìn)行劃分,至少劃分出,首詞,中間詞;步驟②,對(duì)中間詞的字進(jìn)行檢查,列出歧義詞;步驟③,對(duì)首詞的字進(jìn)行檢查,列出歧義詞;步驟④,將歧義詞對(duì)比特殊詞判斷詞庫(kù)與,保留符合特殊詞判斷詞庫(kù)的歧義詞。
[0015]上述的適用于中文詞庫(kù)的分詞歧義排除方法,其中:所述中間詞的字進(jìn)行檢查為,中文分詞結(jié)果在3個(gè)詞以上時(shí),滿足第一個(gè)詞的結(jié)束字為第二個(gè)詞的開始字且第二個(gè)詞的結(jié)束字為第三個(gè)詞的開始字,則將第二詞列出作為歧義詞。
[0016]進(jìn)一步地,上述的適用于中文詞庫(kù)的分詞歧義排除方法,其中:所述的對(duì)首詞進(jìn)行二次處理為,中文分詞結(jié)果在3個(gè)詞以上,按順序逐個(gè)檢查,滿足第一個(gè)詞包含了第二個(gè)詞,且第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字,則將第一詞列出作為歧義詞。
[0017]更進(jìn)一步地,上述的適用于中文詞庫(kù)的分詞歧義排除方法,其中:所述的步驟④中保留的歧義詞,通過服務(wù)器定義為普通詞。
[0018]再進(jìn)一步地,上述的適用于中文詞庫(kù)的分詞歧義排除方法,其中:步驟①所述的劃分為,利用正向最大匹配法來匹配中文詞庫(kù),進(jìn)行詞的劃分,將匹配切分的首詞、中間詞結(jié)果,按切分先后順序存到鏈表結(jié)構(gòu)中。
[0019]本發(fā)明技術(shù)方案的優(yōu)點(diǎn)主要體現(xiàn)在:將本發(fā)明應(yīng)用在服務(wù)器的中文分詞數(shù)據(jù)處理中后,能夠智能對(duì)分詞效果進(jìn)行歧義識(shí)別,對(duì)于歧義識(shí)別效果不佳的可以靈活的通過配置特殊詞庫(kù)來修正識(shí)別效果。同時(shí),解決用戶精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對(duì)于需求的信息非常明確。由此,在減少服務(wù)器負(fù)擔(dān)的同時(shí),提高了中文分詞的精確程度。并且,將本發(fā)明應(yīng)用到旅游行業(yè)后,可以提高搜索的準(zhǔn)確性和速度,便于推廣。
[0020]本發(fā)明的目的、優(yōu)點(diǎn)和特點(diǎn),將通過下面優(yōu)選實(shí)施例的非限制性說明進(jìn)行解釋。這些實(shí)施例僅是應(yīng)用本發(fā)明技術(shù)方案的典型范例,凡采取等同替換或者等效變換而形成的技術(shù)方案,均落在本發(fā)明要求保護(hù)的范圍之內(nèi)。
【具體實(shí)施方式】
[0021]適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于包括以下步驟:首先,對(duì)中文分詞的進(jìn)行劃分,至少劃分出,首詞,中間詞。具體來說,可以利用正向最大匹配法來匹配中文詞庫(kù),進(jìn)行詞的劃分,將匹配切分的首詞、中間詞結(jié)果,按切分先后順序存到鏈表結(jié)構(gòu)中。之后,對(duì)中間詞的字進(jìn)行檢查,列出歧義詞。同時(shí),可以對(duì)首詞的字進(jìn)行檢查,列出歧義詞。最后,將歧義詞對(duì)比特殊詞判斷詞庫(kù),保留符合特殊詞判斷詞庫(kù)的歧義詞。
[0022]就本發(fā)明一較佳的實(shí)施方式來看,所述中間詞的字進(jìn)行檢查為,中文分詞結(jié)果在3個(gè)詞以上時(shí),滿足第一個(gè)詞的結(jié)束字為第二個(gè)詞的開始字且第二個(gè)詞的結(jié)束字為第三個(gè)詞的開始字,則將第二詞列出作為歧義詞。具體來說,比如詞庫(kù)中已有詞:“上?!?,“海南”,“南站”,則“上海南站”切分為“上海海南南站”,這時(shí)切分出來的“海南”明顯不妥,針對(duì)這種情況,本發(fā)明進(jìn)行了會(huì)將分詞結(jié)果的詞進(jìn)行二次處理過濾,將第二詞“海南”作為歧義詞,與特殊詞判斷詞庫(kù)對(duì)比,發(fā)現(xiàn)其不在特殊詞判斷詞庫(kù)內(nèi),繼而進(jìn)行排除。
[0023]與之對(duì)應(yīng)的,本發(fā)明對(duì)首詞進(jìn)行的二次處理為,如果中文分詞結(jié)果在3個(gè)詞以上,按順序逐個(gè)檢查,滿足第一個(gè)詞包含了第二個(gè)詞,且第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字,則將第一詞列出作為歧義詞。例如,詞庫(kù)中已有詞:“廣東”,“廣東話”,“話劇”。則“廣東話劇”切分為“廣東話廣東話劇”,這時(shí)切分出來的“廣東話”明顯不妥,廣東話劇應(yīng)該是表達(dá)的是廣東的話劇這個(gè)意思。針對(duì)這種情況,第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字“廣東話”為歧義詞,與特殊詞判斷詞庫(kù)對(duì)比,發(fā)現(xiàn)其不在特殊詞判斷詞庫(kù)內(nèi),繼而進(jìn)行排除。
[0024]進(jìn)一步來看,為了避免出現(xiàn)重復(fù)判斷,影響采用本發(fā)明方法的服務(wù)器執(zhí)行效率,對(duì)于通過特殊詞判斷詞庫(kù)對(duì)比保留的歧義詞,通過服務(wù)器定義為普通詞。
[0025]通過上述的文字表述可以看出,采用本發(fā)明后,將本發(fā)明應(yīng)用在服務(wù)器的中文分詞數(shù)據(jù)處理中后,能夠智能對(duì)分詞效果進(jìn)行歧義識(shí)別,對(duì)于歧義識(shí)別效果不佳的可以靈活的通過配置特殊詞庫(kù)來修正識(shí)別效果。同時(shí),解決用戶精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對(duì)于需求的信息非常明確。由此,在減少服務(wù)器負(fù)擔(dān)的同時(shí),提高了中文分詞的精確程度。并且,將本發(fā)明應(yīng)用到旅游行業(yè)后,可以提高搜索的準(zhǔn)確性和速度,便于推廣。
【權(quán)利要求】
1.適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于包括以下步驟: 步驟①,對(duì)中文詞庫(kù)中的中文詞進(jìn)行劃分,至少劃分出,首詞,中間詞; 步驟②,對(duì)中間詞的字進(jìn)行檢查,列出歧義詞; 步驟③,對(duì)首詞的字進(jìn)行檢查,列出歧義詞; 步驟④,將歧義詞對(duì)比特殊詞判斷詞庫(kù)與,保留符合特殊詞判斷詞庫(kù)的歧義詞。
2.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于:所述中間詞的字進(jìn)行檢查為,中文分詞結(jié)果在3個(gè)詞以上時(shí),滿足第一個(gè)詞的結(jié)束字為第二個(gè)詞的開始字且第二個(gè)詞的結(jié)束字為第三個(gè)詞的開始字,則將第二詞列出作為歧義詞。
3.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于:所述的對(duì)首詞進(jìn)行二次處理為,中文分詞結(jié)果在3個(gè)詞以上,按順序逐個(gè)檢查,滿足第一個(gè)詞包含了第二個(gè)詞,且第一個(gè)詞的結(jié)束字是第三個(gè)詞的開始字,則將第一詞列出作為歧義詞。
4.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于:所述的步驟④中保留的歧義詞,通過服務(wù)器定義為普通詞。
5.根據(jù)權(quán)利要求1所述的適用于中文詞庫(kù)的分詞歧義排除方法,其特征在于:步驟①所述的劃分為,利用正向最大匹配法來匹配中文詞庫(kù),進(jìn)行詞的劃分,將匹配切分的首詞、中間詞結(jié)果,按切分先后順序存到鏈表結(jié)構(gòu)中。
【文檔編號(hào)】G06F17/30GK103778161SQ201210414877
【公開日】2014年5月7日 申請(qǐng)日期:2012年10月26日 優(yōu)先權(quán)日:2012年10月26日
【發(fā)明者】王專, 吳志祥, 張海龍, 馬和平, 吳劍, 郭鳳林, 王曉鐘, 龐紹進(jìn) 申請(qǐng)人:同程網(wǎng)絡(luò)科技股份有限公司