專利名稱:一種基于樹形詞庫的中文分詞方法
技術(shù)領(lǐng)域:
本發(fā)明涉及搜索引擎,數(shù)據(jù)庫,中文分詞領(lǐng)域,特別是涉及一種基于樹形詞庫的中文分 詞方法。
背景技術(shù):
中文分詞技術(shù)發(fā)展到今天已經(jīng)有許多不同的處理技術(shù)。這些技術(shù)概括起來可以歸為三類 有基于匹配的分詞、基于統(tǒng)計的分詞和基于理解的分詞。
在中文分詞領(lǐng)域里, 一般的分詞系統(tǒng)都是單純地運(yùn)用了基于匹配的分詞算法,而一些高 級的或有特殊要求的就運(yùn)用了以匹配為主的混合形分詞算法,即在已有字典的基礎(chǔ)上加入對 新詞的統(tǒng)計,從而改善對未登錄詞的識別率, 一般情況下,混合形算法會比單純的匹配算法 的分詞準(zhǔn)確率有較大的改善,尤其是對于一些新生的專業(yè)詞或網(wǎng)絡(luò)語言等,而這往往是用戶 用于搜索的關(guān)鍵詞,因此加入統(tǒng)計思想對最終的分詞的實(shí)際效果將會有明顯的效果。
考慮到該算法應(yīng)用項目的特點(diǎn)——中醫(yī)藥領(lǐng)域的搜索系統(tǒng),統(tǒng)計型算法將會對各種專業(yè)名 次有更好的識別,而其效果會比通用型的搜索引擎要更為明顯。另外,考慮到語義相關(guān)的擴(kuò) 展搜索功能需要有一個能轉(zhuǎn)化為語義網(wǎng)絡(luò)的詞典,因此以匹配為主的混合形分詞算法將具有 準(zhǔn)確高效的分詞效果與良好的擴(kuò)展性,更適合本項目利用。
對不同的使用目的和不同領(lǐng)域的査詢而言,單詞的意義和權(quán)重會有很大差別,所以針對 不同使用對詞庫做部分屏蔽或重新加載可以進(jìn)一步提高分詞的準(zhǔn)確性。在樹形結(jié)構(gòu)的分詞表 中,越接近根的節(jié)點(diǎn)其涵蓋的語義越廣,因此可以通過標(biāo)記不同深度的節(jié)點(diǎn)來控制要屏蔽的 語義的范圍,同樣也可以將某一領(lǐng)域需要的新詞加入到樹形結(jié)構(gòu)中的合適位置,實(shí)現(xiàn)對詞庫 語義范圍的修改。從而在原有算法的基礎(chǔ)上提高分詞效率和準(zhǔn)確度。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服上述技術(shù)的缺陷,而提供一種基于樹形詞庫的中文分詞方法,基 于樹形詞庫并支持新詞加載和詞語屏蔽的中文分詞技術(shù)。
本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的。這種基于樹形結(jié)構(gòu)的中文分詞方法,包括 以下步驟
1)以單個漢字為結(jié)點(diǎn),以具體的分詞作為結(jié)構(gòu)信息來建立樹形中文分詞表;2) 通過對樹型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞,利用樹形詞庫的結(jié)構(gòu)信息來存儲分詞信息,利 用全分支檢索來實(shí)現(xiàn)歧義包容;
3) 通過統(tǒng)計用戶輸入新詞的頻度來動態(tài)改變詞庫結(jié)構(gòu),從而實(shí)現(xiàn)新詞的自動識別。 本發(fā)明中步驟l)樹形詞庫有一個公共的根節(jié)點(diǎn),每個分詞的首字都掛在根節(jié)點(diǎn)之下,第
二個字再掛在首字之下,以此類推,通過結(jié)點(diǎn)中的標(biāo)志位來判斷是否為終結(jié)詞。
本發(fā)明中步驟2)中對于要進(jìn)行分詞的字符串,將其與分詞樹進(jìn)行匹配,到遇到一個終結(jié)
符時就表示匹配到一個分詞,將其加入已匹配到的詞中,接下來在繼續(xù)現(xiàn)有匹配的同時,將
下一個字作為新詞的首字重新進(jìn)行匹配,以此來實(shí)現(xiàn)分支包容。
本發(fā)明中步驟3)中將無法識別的詞和其出現(xiàn)頻次儲存在一個單獨(dú)的表中,當(dāng)其出現(xiàn)頻度
超過系統(tǒng)設(shè)定的閥值時,就將該詞在詞庫中遍歷,將缺少的部分插入詞庫中,并將其最后一
個字中的終結(jié)符置為"true"。
本發(fā)明中通過在樹形詞庫節(jié)點(diǎn)上加入屏蔽位來實(shí)現(xiàn)對詞庫的屏蔽和動態(tài)加載,樹型結(jié)構(gòu) 上的所有結(jié)點(diǎn)都包含一個布爾變量用來標(biāo)示該結(jié)點(diǎn)是否被屏蔽,系統(tǒng)讀入需要屏蔽分詞,將 其在詞庫中進(jìn)行匹配,并將匹配項終止結(jié)點(diǎn)上的屏蔽位置為"true";當(dāng)分詞算法運(yùn)行時,如 果發(fā)現(xiàn)匹配項的屏蔽位被置為"true",就忽略當(dāng)前匹配;當(dāng)進(jìn)行詞庫的動態(tài)加載時,系統(tǒng)接 受需屏蔽的詞,將其在詞庫中遍歷,如果該項己存在,就將屏蔽位置為"false",反之則將 其插入詞庫。
本發(fā)明的有益效果與常用的基于數(shù)據(jù)表的詞庫相比,樹形詞庫在匹配效率和匹配長度
上有了很大的提高。本發(fā)明在已有的樹形分詞詞庫算法進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了新詞的自動識別
以及分支屏蔽等功能。本技術(shù)在兼顧分詞效率和分詞效果的同時,增強(qiáng)了原有算法的靈活性
和擴(kuò)展性,使其可以更好的適應(yīng)動態(tài)數(shù)據(jù)環(huán)境的要求。
圖1本發(fā)明中樹形詞表結(jié)構(gòu)圖; 圖2本發(fā)明中分詞屏蔽示意圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖及具體實(shí)施例對本發(fā)明作 進(jìn)一步地詳細(xì)描述
本發(fā)明是一種基于樹形結(jié)構(gòu)的中文分詞方法,并實(shí)現(xiàn)了基于樹形結(jié)構(gòu)的新詞添加和分支 屏蔽功能,主要按以下步驟進(jìn)行-1. 建立基于樹形結(jié)構(gòu)的分詞詞庫首先,建立一個根節(jié)點(diǎn),再把詞庫中所有的首字都取 出作為根節(jié)點(diǎn)的子節(jié)點(diǎn),而第二個字則作為其子節(jié)點(diǎn),以此類推,節(jié)點(diǎn)以ArrayedHashM邵 的形式儲存在內(nèi)存中,父節(jié)點(diǎn)與子節(jié)點(diǎn)之間的關(guān)聯(lián)用HashMap中的映射來表示。
詞庫的具體形式見圖l,其中方型結(jié)點(diǎn)表示中間詞,是無法組成分詞的,而菱型結(jié)點(diǎn)表示 終結(jié)詞,是一個完整的分詞的結(jié)尾。這樣,就可以在一條分支中包含多個分詞,最左邊高度 為5的分支"中醫(yī)研究中"就包含"中醫(yī)"與"中醫(yī)研究"兩個分詞。
2. 在建立好詞庫后,分詞的匹配時通過對樹形詞庫的遍歷來實(shí)現(xiàn)的,分支處理時這里的 核心內(nèi)容。該算法在遇到分支時會自動分為兩條執(zhí)行路徑, 一條按原路匹配,另一路將下個 漢字作為新詞的首字進(jìn)行重新匹配。這樣就實(shí)現(xiàn)了對所有可能分詞的匹配。
例如我們要在圖1的詞庫中查詢"中醫(yī)研究",首先,用"中"字在根節(jié)點(diǎn)中匹配,找到 匹配入口,然后逐字匹配,當(dāng)匹配到"醫(yī)"時,發(fā)現(xiàn)其為終結(jié)詞,就將"中醫(yī)"加入分詞結(jié) 果中。接下來就分為兩路, 一路繼續(xù)匹配,最終得到另一個分詞"中醫(yī)研究",另一路將"研" 字在根節(jié)點(diǎn)匹配,由于詞表中沒有以"研"開頭的分詞,因此該路匹配終止。
3. 新詞的添加當(dāng)分詞時遇到無法匹配的新詞時(沒有的首字,無法分割的字段),就 將其內(nèi)容和出現(xiàn)次數(shù)儲存在一個數(shù)據(jù)表中。當(dāng)其出現(xiàn)頻度超過預(yù)設(shè)闊值時,就將其作為一個 新詞加入分詞詞表。
4. 基于樹形結(jié)構(gòu)的分支屏蔽與加載。樹型結(jié)構(gòu)上的所有結(jié)點(diǎn)都包含一個布爾變量用來標(biāo) 示該結(jié)點(diǎn)是否被屏蔽。當(dāng)需要進(jìn)行分詞屏蔽時,系統(tǒng)讀入要屏蔽的詞,將其在詞庫中遍歷, 將匹配到的項的最后結(jié)點(diǎn)上屏蔽位置為"tme"。
需要加入新詞時,系統(tǒng)讀入需加入的詞,將其在詞庫中遍歷,如果該項存在,就將屏蔽 位置為"false",否則就將其插入詞庫。
在進(jìn)行分詞算法運(yùn)行時,如果發(fā)現(xiàn)匹配項的屏蔽位被置為"true",就忽略當(dāng)前匹配。從 而與上述過程一起實(shí)現(xiàn)了分支屏蔽與加載。
圖2中表示的是圖1的分詞表在被屏蔽了 "中醫(yī)研究"和"中草藥"這兩個詞后的結(jié)果, 其中圓形的結(jié)點(diǎn)表示被屏蔽位已置位。
上述實(shí)施例用來解釋說明本發(fā)明,而不是對本發(fā)明進(jìn)行限制,在本發(fā)明的精神和權(quán)利要 求的保護(hù)范圍內(nèi),對本發(fā)明作出的任何修改和改變,都落入本發(fā)明的保護(hù)范圍。
權(quán)利要求
1. 一種基于樹形結(jié)構(gòu)的中文分詞方法,其特征在于包括以下步驟1)以單個漢字為結(jié)點(diǎn),以具體的分詞作為結(jié)構(gòu)信息來建立樹形中文分詞表;2)通過對樹型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞,利用樹形詞庫的結(jié)構(gòu)信息來存儲分詞信息,利用全分支檢索來實(shí)現(xiàn)歧義包容;3)通過統(tǒng)計用戶輸入新詞的頻度來動態(tài)改變詞庫結(jié)構(gòu),從而實(shí)現(xiàn)新詞的自動識別。
2. 根據(jù)權(quán)利要求1所述的基于樹形結(jié)構(gòu)的中文分詞方法,其特征在于步驟l)樹形詞 庫有一個公共的根節(jié)點(diǎn),每個分詞的首字都掛在根節(jié)點(diǎn)之下,第二個字再掛在首字之下,以 此類推,通過結(jié)點(diǎn)中的標(biāo)志位來判斷是否為終結(jié)詞。
3. 根據(jù)權(quán)利要求1所述的基于樹形結(jié)構(gòu)的中文分詞方法,其特征在于步驟2)中對于 要進(jìn)行分詞的字符串,將其與分詞樹進(jìn)行匹配,到遇到一個終結(jié)符時就表示匹配到一個分詞, 將其加入已匹配到的詞中,接下來在繼續(xù)現(xiàn)有匹配的同時,將下一個字作為新詞的首字重新 進(jìn)行匹配,以此來實(shí)現(xiàn)分支包容。
4. 根據(jù)權(quán)利要求1所述的基于樹形結(jié)構(gòu)的中文分詞方法,其特征在于步驟3)中將無 法識別的詞和其出現(xiàn)頻次儲存在一個單獨(dú)的表中,當(dāng)其出現(xiàn)頻度超過系統(tǒng)設(shè)定的閥值時,就 將該詞在詞庫中遍歷,將缺少的部分插入詞庫中,并將其最后一個字中的終結(jié)符置為"true"。
5. 根據(jù)權(quán)利要求1所述的基于樹形結(jié)構(gòu)的中文分詞方法,其特征在于通過在樹形詞庫節(jié)點(diǎn)上加入屏蔽位來實(shí)現(xiàn)對詞庫的屏蔽和動態(tài)加載,樹型結(jié)構(gòu)上的所有結(jié)點(diǎn)都包含一個布 爾變量用來標(biāo)示該結(jié)點(diǎn)是否被屏蔽,系統(tǒng)讀入需要屏蔽分詞,將其在詞庫中進(jìn)行匹配,并將匹配項終止結(jié)點(diǎn)上的屏蔽位置為"true";當(dāng)分詞算法運(yùn)行時,如果發(fā)現(xiàn)匹配項的屏蔽位被 置為"true",就忽略當(dāng)前匹配;當(dāng)進(jìn)行詞庫的動態(tài)加載時,系統(tǒng)接受需屏蔽的詞,將其在 詞庫中遍歷,如果該項已存在,就將屏蔽位置為"false",反之則將其插入詞庫。
全文摘要
本發(fā)明涉及一種基于樹形結(jié)構(gòu)的中文分詞方法,包括以下步驟1)以單個漢字為結(jié)點(diǎn),以具體的分詞作為結(jié)構(gòu)信息來建立樹形中文分詞表;2)通過對樹型結(jié)構(gòu)的遍歷實(shí)現(xiàn)中文分詞,利用樹形詞庫的結(jié)構(gòu)信息來存儲分詞信息,利用全分支檢索來實(shí)現(xiàn)歧義包容;3)通過統(tǒng)計用戶輸入新詞的頻度來動態(tài)改變詞庫結(jié)構(gòu),從而實(shí)現(xiàn)新詞的自動識別。本發(fā)明的有益效果樹形詞庫在匹配效率和匹配長度上有了很大的提高。本發(fā)明在已有的樹形分詞詞庫算法進(jìn)行了擴(kuò)展,實(shí)現(xiàn)了新詞的自動識別以及分支屏蔽等功能。本技術(shù)在兼顧分詞效率和分詞效果的同時,增強(qiáng)了原有算法的靈活性和擴(kuò)展性,使其可以更好的適應(yīng)動態(tài)數(shù)據(jù)環(huán)境的要求。
文檔編號G06F17/30GK101458694SQ200810121368
公開日2009年6月17日 申請日期2008年10月9日 優(yōu)先權(quán)日2008年10月9日
發(fā)明者吳朝暉, 姜曉紅, 張小剛 申請人:浙江大學(xué)