文本分詞方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種文本分詞方法及系統(tǒng),所述方法包括:預(yù)先建立與待處理文本相對(duì)應(yīng)的綁定詞典,并綁定所述文本和所述綁定詞典,所述綁定詞典中的詞包括所述文本中未收錄在通用詞典中的未登錄詞;將所述文本與所述通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果;根據(jù)所述綁定詞典中的詞對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正。采用本發(fā)明所述的文本分詞方法及系統(tǒng),通過增加綁定詞典,為實(shí)現(xiàn)給不同的文本定制相應(yīng)的詞典資源提供了很大的自由度,在不需要修改通用詞典情況下,實(shí)現(xiàn)文本分析結(jié)果的優(yōu)化。
【專利說明】文本分詞方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,尤其涉及一種文本分詞方法及系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)前的語音合成系統(tǒng),大多數(shù)是基于內(nèi)部通用詞典實(shí)現(xiàn)文本的分析,對(duì)于合成系統(tǒng)來說,其處理過程是:“文本”到“語音”。
[0003]然而,“文本”到“語音”方法存在的問題是不能對(duì)文本的差異性做很好地處理,因?yàn)楝F(xiàn)實(shí)情況中的合成文本除了包含通用詞典中的詞匯外,還有一些與其內(nèi)容和題材相關(guān)的特有詞匯,例如,在小說、散文等各類文學(xué)作品中,每篇文本都有該文本中常用而在其他文本中幾乎不會(huì)出現(xiàn)的詞匯(例如武俠招式、虛構(gòu)人名、地名等),這些詞匯一般很少收錄到合成系統(tǒng)的通用詞典中。例如,在小說中,可能會(huì)出現(xiàn)“王勇飛馬來到”,在這一句子中,由于“王勇”這個(gè)人名一般不會(huì)是詞典詞,在“飛馬”不是詞典詞的情況下,分詞處理中很容易把“王勇飛”作為一個(gè)人名合并為一個(gè)詞,導(dǎo)致分詞錯(cuò)誤,進(jìn)而影響合成效果。即便分詞正確,人名或其他類型名稱的多音字問題也無法得到很好的解決,例如“曾(zeng)飛揚(yáng)”、“劉禪(shan)”、“聶玢玢(bin)” 等。
[0004]考慮到合成產(chǎn)品應(yīng)用的快速響應(yīng)要求以及資源大小的限制,不可能無限擴(kuò)充合成系統(tǒng)的通用詞典中的詞條量,顯然不能通過向通用詞典中追加詞條的方式解決文本差異性問題,因此需要開發(fā)一種針對(duì)合成文本的優(yōu)化分析方法來解決這一問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是解決分析合成文本過程中的文本差異性問題,提供了一種文本分詞方法及系統(tǒng),提高文本分析結(jié)果的準(zhǔn)確性。
[0006]為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
[0007]一種文本分詞方法,包括:
[0008]預(yù)先建立與待處理文本相對(duì)應(yīng)的綁定詞典,并綁定所述文本和所述綁定詞典,所述綁定詞典中的詞包括所述文本中未收錄在通用詞典中的未登錄詞;
[0009]將所述文本與所述通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果;
[0010]根據(jù)所述綁定詞典中的詞對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正。
[0011]優(yōu)選的是,所述建立與待處理文本相對(duì)應(yīng)的綁定詞典包括:
[0012]獲取所述文本中未收錄在通用詞典中的未登錄詞;
[0013]確定所述未登錄詞在所述文本中出現(xiàn)的頻次;
[0014]如果所述頻次高于設(shè)定閾值,則將所述未登錄詞收錄到與所述文本相對(duì)應(yīng)的綁定詞典中。
[0015]優(yōu)選的是,所述獲取所述文本中未收錄在通用詞典中的未登錄詞包括:
[0016]通過新詞發(fā)現(xiàn)方法、熱詞發(fā)現(xiàn)方法和人工標(biāo)注方法中的一種或多種獲取所述文本中未收錄在通用詞典中的未登錄詞。[0017]優(yōu)選的是,所述建立與待處理文本相對(duì)應(yīng)的綁定詞典還包括:將對(duì)應(yīng)所述未登錄詞的詞性、字?jǐn)?shù)、拼音和韻律信息保存到所述綁定詞典中。
[0018]優(yōu)選的是,所述綁定所述文本和所述綁定詞典包括:使所述綁定詞典的文件名稱包括所述文本的文件名稱。
[0019]—種文本分詞系統(tǒng),包括:
[0020]綁定詞典構(gòu)建單元,用于預(yù)先建立與待處理文本相對(duì)應(yīng)的綁定詞典,所述綁定詞典中的詞包括所述文本中未收錄在通用詞典中的未登錄詞;
[0021]綁定單元,用于綁定所述文本和所述綁定詞典;
[0022]準(zhǔn)分詞結(jié)果獲取單元,用于將所述文本與所述通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果;
[0023]修正單元,用于根據(jù)所述綁定詞典中的詞對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正。
[0024]優(yōu)選的是,所述綁定詞典構(gòu)建單元包括:
[0025]未登錄詞獲取單元,用于獲取所述文本中未收錄在通用詞典中的未登錄詞;
[0026]頻次確定單元,用于確定所述未登錄詞在所述文本中出現(xiàn)的頻次;
[0027]收錄單元,用于在所述頻次高于設(shè)定閾值時(shí),將所述未登錄詞收錄到與所述文本相對(duì)應(yīng)的綁定詞典中。
[0028]優(yōu)選的是,所述未登錄詞獲取單元具體用于:
[0029]通過新詞發(fā)現(xiàn)方法、熱詞發(fā)現(xiàn)方法和人工標(biāo)注方法中的一種或多種獲取所述文本中未收錄在通用詞典中的未登錄詞。
[0030]優(yōu)選的是,所述綁定詞典構(gòu)建單元還用于:將對(duì)應(yīng)所述未登錄詞的詞性、字?jǐn)?shù)、拼音和韻律信息保存到所述綁定詞典中。
[0031]優(yōu)選的是,所述綁定單元具體用于:使所述綁定詞典的文件名稱包括所述文本的文件名稱。
[0032]本發(fā)明的有益效果在于,采用本發(fā)明所述的文本分詞方法及系統(tǒng),通過增加綁定詞典,為實(shí)現(xiàn)給不同的文本定制相應(yīng)的詞典資源提供了很大的自由度,在不需要修改通用詞典情況下,實(shí)現(xiàn)文本分析結(jié)果的優(yōu)化;另外,除了在綁定詞典中收錄未登錄詞之外,本發(fā)明還將各個(gè)未登錄詞的詞性、字?jǐn)?shù)、拼音和韻律信息保存在所述綁定詞典中,從而可以較好地解決文學(xué)作品中的多音字問題。
【專利附圖】
【附圖說明】
[0033]圖1示出了本發(fā)明實(shí)施例文本分詞方法的流程圖;
[0034]圖2示出了本發(fā)明實(shí)施例中建立與待處理文本相對(duì)應(yīng)的綁定詞典的流程圖;
[0035]圖3示出了本發(fā)明實(shí)施例文本分詞系統(tǒng)的結(jié)構(gòu)示意圖;
[0036]圖4示出了本發(fā)明實(shí)施例中綁定詞典構(gòu)建單元的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0037]下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。[0038]本發(fā)明針對(duì)現(xiàn)有技術(shù)中分析合成文本過程中的文本差異性問題,提供了一種文本分詞方法,通過收錄有未登錄詞的綁定詞典,對(duì)利用通用詞典得到的準(zhǔn)分詞結(jié)果進(jìn)行修正,提高了文本分析結(jié)果的準(zhǔn)確性。
[0039]如圖1所示,是本發(fā)明實(shí)施例文本分詞方法的流程圖,所述文本分詞方法包括以下步驟:
[0040]步驟101:預(yù)先建立與待處理文本相對(duì)應(yīng)的綁定詞典,并綁定所述文本和所述綁定詞典,所述綁定詞典中的詞包括所述文本中未收錄在通用詞典中的未登錄詞。
[0041]具體地,綁定詞典的建立方法將在下面結(jié)合圖2進(jìn)行詳細(xì)地說明;另外,可通過使所述綁定詞典的文件名稱包括所述文本的文件名稱的方式,即命名關(guān)聯(lián)的方式,綁定所述文本和所述綁定詞典。此種綁定方式比較容易實(shí)現(xiàn),例如以小說《射雕英雄傳》為例,該小說的文件名稱是“射雕英雄傳”,從而將與所述小說相對(duì)應(yīng)的綁定詞典命名為“射雕英雄傳.diet”,這樣在處理每個(gè)文本時(shí),就能通過該文本的文件名稱推知綁定詞典的文件名稱,實(shí)現(xiàn)對(duì)綁定詞典的加載。
[0042]步驟102:將所述文本與所述通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果。
[0043]具體地,此步驟中涉及的方法,與現(xiàn)有技術(shù)中將文本與通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果的方法相同,因此在此不再贅述。
[0044]步驟103:根據(jù)所述綁定詞典中的詞對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正。
[0045]具體地,根據(jù)步驟102得到的準(zhǔn)分詞結(jié)果,由于通用詞典中缺少待處理文本中的例如人名、地名這樣的特定詞,因此在一定程度上會(huì)導(dǎo)致分詞的錯(cuò)誤,而本步驟中,利用所述綁定詞典中的詞(即未登錄詞)對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正,使得修正后的分詞結(jié)果更加準(zhǔn)確,提高了文本分析結(jié)果的準(zhǔn)確性。
[0046]以待處理文本《射雕英雄傳》里的句子“江南六怪聽著暗暗心驚”為例,由于“江南六怪”對(duì)于大部分通用詞典來說都是未登錄詞,在通用詞典中有“江南”,且不存在綁定詞典的時(shí)候,現(xiàn)有技術(shù)中的文本分詞系統(tǒng)只能利用通用詞典匹配到句首頭兩個(gè)字,從而將該句錯(cuò)誤地分詞成“江南/六/怪聽著/暗暗/心驚”,而在加載了包含“江南六怪”的綁定詞典后,文本分詞系統(tǒng)將位于句首的匹配字符串從“江南”擴(kuò)展至“江南六怪”,從而輸出正確的分詞結(jié)果。
[0047]如圖2所示,是本發(fā)明實(shí)施例中建立與待處理文本相對(duì)應(yīng)的綁定詞典的流程圖,所述建立與待處理文本相對(duì)應(yīng)的綁定詞典包括以下步驟:
[0048]步驟201:獲取所述文本中未收錄在通用詞典中的未登錄詞。
[0049]具體地,可以通過新詞發(fā)現(xiàn)方法、熱詞發(fā)現(xiàn)方法和人工標(biāo)注方法中的一種或多種獲取所述文本中未收錄在通用詞典中的未登錄詞。由于以上列舉的三種方法均為本領(lǐng)域公知的獲取未收錄在通用詞典中的未登錄詞的方法,因此下面僅對(duì)這三種方法做簡單的說明:
[0050]第一、新詞發(fā)現(xiàn)方法包括以下步驟:
[0051]將文本中所有長度大于2且小于某個(gè)固定值(比如5)的字符串視為候選詞;
[0052]統(tǒng)計(jì)在特定文本(例如,射雕英雄傳)中每個(gè)候選詞及其子字符串的出現(xiàn)次數(shù),用候選詞本身的出現(xiàn)頻次與其各自字符串出現(xiàn)頻次乘積的比值作為對(duì)候選詞進(jìn)行篩選的一個(gè)衡量標(biāo)準(zhǔn),例如以候選詞“穆易”為例,衡量標(biāo)準(zhǔn)將會(huì)是“穆易”在文本中的出現(xiàn)次數(shù)除以“穆”和“易”兩個(gè)單字各自出現(xiàn)次數(shù)的乘積;
[0053]統(tǒng)計(jì)每個(gè)候選詞出現(xiàn)語境的左右鄰字及出現(xiàn)每個(gè)鄰字的出現(xiàn)頻次,計(jì)算其左右鄰字的信息熵作為對(duì)候選詞篩選的另一個(gè)衡量標(biāo)準(zhǔn);
[0054]對(duì)上述兩個(gè)衡量標(biāo)準(zhǔn)各設(shè)定一個(gè)閾值,將同時(shí)滿足兩個(gè)閾值條件的候選詞全部提取出來,與現(xiàn)有通用詞典進(jìn)行對(duì)比,將通用詞典中不存在的詞作為新詞(即未登錄詞)進(jìn)行匯總。
[0055]仍以小說《射雕英雄傳》為例,在設(shè)置兩個(gè)衡量標(biāo)準(zhǔn)的閾值分別為0.08和0.8時(shí),用新詞發(fā)現(xiàn)方法可以輸出如下新詞(即未登錄詞):包惜弱、博爾術(shù)、程瑤迦、赤老溫、翠寒堂、段天德、歸云莊、郭靖、黃藥師、江南六怪、牛家村、醉仙樓等。
[0056]第二、熱詞發(fā)現(xiàn)方法包括以下步驟:
[0057]利用可獲得的輸入法的反饋獲得用戶輸入頻率最高的詞;
[0058]將不影響現(xiàn)有分詞結(jié)果的詞作為熱詞(即未登錄詞)進(jìn)行匯總。
[0059]利用上述熱詞發(fā)現(xiàn)方法可以從輸入法用戶的輸入中發(fā)現(xiàn)“土豪金”等熱詞。
[0060]第三,人工標(biāo)注方法就是人工進(jìn)行語料的閱讀,將語料中出現(xiàn)而未收錄在通用詞典中的未登錄詞提取出來。例如閱讀《射雕英雄傳》的人員能很容易地將“穆易”、“越女劍法”等可能是未登錄詞的詞挑選出來,之后再將這些被挑選出來的詞與現(xiàn)有的通用詞典中的詞進(jìn)行對(duì)比,若判斷被挑選出來的詞未收錄在通用詞典中,則認(rèn)為所述被挑選出來的詞為未登錄詞。
[0061]步驟202:確定所述未登錄詞在所述文本中出現(xiàn)的頻次。
[0062]步驟203:判斷所述頻次是否高于設(shè)定閾值;
[0063]步驟204:如果所述頻次高于設(shè)定閾值,則將所述未登錄詞收錄到與所述文本相對(duì)應(yīng)的綁定詞典中。
[0064]進(jìn)一步地,所述建立與待處理文本相對(duì)應(yīng)的綁定詞典還包括,將對(duì)應(yīng)所述未登錄詞的詞性、字?jǐn)?shù)、拼音和韻律信息保存到所述綁定詞典中,具體地,所述綁定詞典可以采用列表的形式,比如,列表每一行第一列為未登錄詞,從第二列開始分別標(biāo)注該詞的詞性、字?jǐn)?shù)、帶有韻律的拼音等信息,比如,仍以小說《射雕英雄傳》為例,所述綁定詞典中具有如下或類似的信息及形式:
[0065]
【權(quán)利要求】
1.一種文本分詞方法,其特征在于,包括: 預(yù)先建立與待處理文本相對(duì)應(yīng)的綁定詞典,并綁定所述文本和所述綁定詞典,所述綁定詞典中的詞包括所述文本中未收錄在通用詞典中的未登錄詞; 將所述文本與所述通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果; 根據(jù)所述綁定詞典中的詞對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立與待處理文本相對(duì)應(yīng)的綁定詞典包括: 獲取所述文本中未收錄在通用詞典中的未登錄詞; 確定所述未登錄詞在所述文本中出現(xiàn)的頻次; 如果所述頻次高于設(shè)定閾值,則將所述未登錄詞收錄到與所述文本相對(duì)應(yīng)的綁定詞典中。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述文本中未收錄在通用詞典中的未登錄詞包括: 通過新詞發(fā)現(xiàn)方法、熱詞發(fā)現(xiàn)方法和人工標(biāo)注方法中的一種或多種獲取所述文本中未收錄在通用詞典中的未登錄詞。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述建立與待處理文本相對(duì)應(yīng)的綁定詞典還包括:將對(duì)應(yīng)所述未登錄詞的詞性、字?jǐn)?shù)、拼音和韻律信息保存到所述綁定詞典中。
5.根據(jù)權(quán)利要求1至4任一項(xiàng)所述的方法,其特征在于,所述綁定所述文本和所述綁定詞典包括:使所述綁定詞典的文件名稱包括所述文本的文件名稱。
6.一種文本分詞系統(tǒng),其特征在于,包括: 綁定詞典構(gòu)建單元,用于預(yù)先建立與待處理文本相對(duì)應(yīng)的綁定詞典,所述綁定詞典中的詞包括所述文本中未收錄在通用詞典中的未登錄詞; 綁定單元,用于綁定所述文本和所述綁定詞典; 準(zhǔn)分詞結(jié)果獲取單元,用于將所述文本與所述通用詞典中的詞進(jìn)行匹配,得到準(zhǔn)分詞結(jié)果; 修正單元,用于根據(jù)所述綁定詞典中的詞對(duì)所述準(zhǔn)分詞結(jié)果進(jìn)行修正。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述綁定詞典構(gòu)建單元包括: 未登錄詞獲取單元,用于獲取所述文本中未收錄在通用詞典中的未登錄詞; 頻次確定單元,用于確定所述未登錄詞在所述文本中出現(xiàn)的頻次; 收錄單元,用于在所述頻次高于設(shè)定閾值時(shí),將所述未登錄詞收錄到與所述文本相對(duì)應(yīng)的綁定詞典中。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述未登錄詞獲取單元具體用于: 通過新詞發(fā)現(xiàn)方法、熱詞發(fā)現(xiàn)方法和人工標(biāo)注方法中的一種或多種獲取所述文本中未收錄在通用詞典中的未登錄詞。
9.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述綁定詞典構(gòu)建單元還用于:將對(duì)應(yīng)所述未登錄詞的詞性、字?jǐn)?shù)、拼音和韻律信息保存到所述綁定詞典中。
10.根據(jù)權(quán)利要求6至9任一項(xiàng)所述的系統(tǒng),其特征在于,所述綁定單元具體用于:使所述綁定詞典的文件名稱包括所述文本的文件名稱。
【文檔編號(hào)】G06F17/27GK103942190SQ201410153908
【公開日】2014年7月23日 申請(qǐng)日期:2014年4月16日 優(yōu)先權(quán)日:2014年4月16日
【發(fā)明者】葉琿, 王培養(yǎng), 郜靜文, 高毅, 于振華, 趙志偉 申請(qǐng)人:安徽科大訊飛信息科技股份有限公司