專利名稱:確定未登錄詞的類別的方法和設備的制作方法
技術(shù)領域:
本發(fā)明一般涉及信息處理領域,特別涉及用于確定未登錄詞(unknown word)的類 別的方法與設備。
背景技術(shù):
隨著互聯(lián)網(wǎng)的廣泛普及以及社會的日益信息化,文本信息越來越多,對應的文本 信息處理的社會需求越來越大。人們越來越希望用自然語言同計算機交流,并希望用自動 化的手段處理海量的文本信息。為了更好地處理文本信息,人們需要積累大量的語言數(shù)據(jù) 資源,例如詞典。但是作為處理文本的重要工具之一的詞典往往是由人工編纂的,這是非常 耗時和低效的。另外,在分詞技術(shù)中,對于未登錄詞的切分錯誤極大地影響到整體分詞的召 回率,進一步會影響到后續(xù)語法以及語義理解的準確度,給信息處理造成一定的困難。在其 他信息處理技術(shù),比如信息抽取,如果對未登錄詞的屬性不夠清晰,那么信息抽取的結(jié)果將 會因為未登錄詞及其信息的殘缺而出現(xiàn)歧義甚至錯誤。因此對未登錄詞的類別的確定成為 亟待解決的問題。中國專利申請公開CN1717679公開了一種詞類標注方法。該方法是對一段文字進 行集體標注,主要使用事先錄制好的關鍵詞-詞類庫。如果一段文字中包含特定的關鍵,那 么就將該段文字標注為該關鍵詞對應的詞類。美國專利申請公開US20060100856 Al公開了一種詞義猜測方法。該方法的基本 思路是為每一個新詞借助Web搜索提取該詞的用法范例,基于范例根據(jù)已有的用例詞典來 提取詞義類候選,如果候選超出1個,那么選用其中一個和新詞在特定語料下的共現(xiàn)率最 高的那個詞義類。中國專利申請公開CN1369877公開一個新詞類別猜測的方法。該方法首先為新詞 中每一個字符確定一個分離概率。然后在詞類基上組合各字符的概率以便為每種類別形成 一個分離總概率?;谠摽偢怕蕦σ粋€閾值比較,把概率超過該閾值的每種詞類增加為該 多字符詞的可能類別。Xiaofei Lu 在 NAACL HLT 2007 第 188-195 頁的 Hybrid Modelsfor Semantic Classification of Chinese Unknown Words中,公開了基于人工創(chuàng)建的規(guī)則、統(tǒng)計方法和 基于上下文來構(gòu)筑混合型的詞類猜測方法。其中規(guī)則和統(tǒng)計方法為上下文方法提供詞義類 候選。Chen, H. -H.禾口 C. -C. Lin.在 In Proceedings of the 2nd ChineseLanguage Processing Workshop 第 7-14 頁的 2000. Sense-taggingChinese Corpus 中,公開了通過中 英文詞典的互譯來實現(xiàn)詞義類標注的方法。該方法基本過程包括以下四個步驟1)給出一 個新詞,基于給定的中英文詞典為該詞查找所有可能的英文翻譯;2)從WordNet中為所有 的翻譯查找對應的詞義項;3)查詢一個映射表,將步驟2中得到的詞義項和Cilin的詞義 標簽對應;4)通過詞義消歧的方法從步驟3中得到的詞義標簽中選擇一個作為最終結(jié)果。然而,目前的技術(shù)均未能夠有效地對未登錄詞的類別進行確定以便完成自動標注問題?,F(xiàn)有技術(shù)一般都要使用事先編輯好的詞典來對新詞進行詞類分析,所以這類方法的 標注結(jié)果的合理性取決于對應詞典或者知識庫的構(gòu)建,而且性能比較低。因此,需要一種具有良好性能的高效的確定未登錄詞的類別的技術(shù)方案。
發(fā)明內(nèi)容
針對以上現(xiàn)有技術(shù)中存在的問題,本發(fā)明的一個目的在于提供了一種用于確定未 登錄詞的類別的方法和設備。根據(jù)本發(fā)明的第一方面,提供了一種用于確定未登錄詞的類別的方法。該方法可 以包括基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義詞;從文集生成所述未登錄詞的 上下文;以及根據(jù)所述未登錄詞的上下文以及所述同義詞,確定所述未登錄詞所屬的類別。根據(jù)本發(fā)明的第二方面,提供了一種用于確定未登錄詞的類別的設備。該設備可 以包括同義詞選擇器,被配置為基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義詞;上 下文生成器,被配置為從文集生成所述未登錄詞的上下文;以及類別確定器,被配置為根據(jù) 所述未登錄詞的上下文以及所述同義詞確定所述未登錄詞所屬的類別。通過以下對根據(jù)本發(fā)明的優(yōu)選實施方式的描述,并結(jié)合附圖,本發(fā)明的其他特征 以及優(yōu)點將會是顯而易見的。
通過以下結(jié)合附圖的說明,并且隨著對本發(fā)明的更全面了解,本發(fā)明的其他目的 和效果將變得更加清楚和易于理解,其中圖1是按照本發(fā)明的一個實施例的用于確定未登錄詞的類別的設備的框圖;圖2是按照本發(fā)明的一個實施例的用于確定未登錄詞的類別的方法的流程圖;圖3是按照本發(fā)明的另一個實施例的用于確定未登錄詞的類別的方法的流程圖;圖4是按照本發(fā)明的另一個實施例的用于確定未登錄詞的類別的方法的流程圖; 以及圖5是按照本發(fā)明的又一個實施例的用于確定未登錄詞的類別的方法的流程圖。在所有的上述附圖中,相同的標號表示具有相同、相似或相應的特征或功能。
具體實施例方式以下結(jié)合附圖對本發(fā)明進行更詳細的解釋和說明。應當理解,本發(fā)明的附圖及實 施例僅用于示例性作用,并非用于限制本發(fā)明的保護范圍。為了清楚起見,首先對本發(fā)明中所使用的術(shù)語作以解釋。1.詞典詞典是指收錄待處理語言核心詞匯的詞典,一般規(guī)模在5萬個條目以上,例如,詞 林、HowNelWordNet等。詞典可以包括一個或多個詞,對于每個詞,可以標注其詞性、類別、 詞義、例句等信息。表1給出了詞典的數(shù)據(jù)結(jié)構(gòu)的一個例子,其中共示出了 3個詞“北京”、 “保健品”、“愉快”,每個詞具有各自的詞性和類別。表 權(quán)利要求
1.一種用于確定未登錄詞的類別的方法,包括基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義詞; 從文集生成所述未登錄詞的上下文;以及根據(jù)所述未登錄詞的上下文以及所述同義詞,確定所述未登錄詞所屬的類別。
2.根據(jù)權(quán)利要求1所述的方法,其中所述構(gòu)詞規(guī)則包括構(gòu)詞成分、成分屬性和成分關系。
3.根據(jù)權(quán)利要求2所述的方法,其中基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義 詞的步驟包括從所述詞典選擇與所述未登錄詞共享一個或多個構(gòu)詞成分的詞,作為所述未登錄詞的 同義詞。
4.根據(jù)權(quán)利要求2所述的方法,其中基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義 詞的步驟包括確定所述未登錄詞的詞性;從所述詞典選擇與所述未登錄詞共享一個或多個構(gòu)詞成分的詞;以及 在所選擇的詞中挑選與所述未登錄詞的詞性相同的詞,作為所述未登錄詞的同義詞。
5.根據(jù)權(quán)利要求1所述的方法,其中從文集生成所述未登錄詞的上下文的步驟包括 在所述文集中查找所述未登錄詞;以加窗的方式截取與所述未登錄詞鄰近的字; 對所截取的與所述來登錄詞鄰近的字進行分詞;以及確定經(jīng)過分詞后所得到的各個詞的權(quán)重,以便將經(jīng)過分詞后所得到的各個詞及其權(quán)重 作為所述未登錄詞的上下文使用。
6.根據(jù)權(quán)利要求1所述的方法,其中從文集生成所述未登錄詞的上下文的步驟包括 在文集中查找所述未登錄詞;以及以依存樹的方式分析所述未登錄詞的依存關系,以將所述依存關系作為所述未登錄詞 的上下文使用。
7.根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述未登錄詞的上下文以及所述同義詞確定 所述未登錄詞所屬的類別的步驟包括統(tǒng)計所述同義詞所屬的類別;從文集生成每個類別所包含的所有詞的上下文,作為所述每個類別的上下文; 計算所述未登錄詞的上下文與每個類別的上下文之間的相似度;以及 將與最大相似度相對應的類別確定為所述未登錄詞所屬的類別。
8.根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述未登錄詞的上下文以及所述同義詞確定 所述未登錄詞所屬的類別的步驟包括從文集生成所述同義詞的上下文;計算所述未登錄詞的上下文與所述同義詞的上下文之間的相似度; 根據(jù)所述相似度,從所述同義詞中提取一個集合;將與所述集合中的、屬于相同類別的同義詞相對應的相似度進行求和;以及 根據(jù)求和后的相似度確定未登錄詞所屬的類別。
9.根據(jù)權(quán)利要求1所述的方法,其中根據(jù)所述未登錄詞的上下文以及所述同義詞確定所述未登錄詞所屬的類別的步驟包括 從文集生成所述同義詞的上下文;計算所述未登錄詞的上下文與所述同義詞的上下文之間的相似度;統(tǒng)計所述同義詞所屬的類別;接收與所述同義詞相關聯(lián)的預定加權(quán)因子;利用接收的預定加權(quán)因子,對與相關聯(lián)的同義詞相對應的相似度進行加權(quán); 根據(jù)所述相似度,從所述同義詞中提取一個集合;將與所述集合中的、屬于相同類別的同義詞相對應的加權(quán)后的相似度進行求和;以及 根據(jù)求和后的相似度確定未登錄詞所屬的類別。
10.根據(jù)權(quán)利要求9所述的方法,其中所述預定加權(quán)因子的指定滿足以下策略如果未登錄詞與一個類別中的詞共享最后一個字并且共享倒數(shù)第二個字,則將與所述 類別相關聯(lián)的預定加權(quán)因子設定為λ1;否則,如果未登錄詞與一個類別中的詞共享第一個字并且共享最后一個字,則將與所述類別 相關聯(lián)的預定加權(quán)因子設定為λ2;否則,如果未登錄詞與一個類別中的詞僅共享第一個字或者僅共享最后一個字,則將與所述 類別相關聯(lián)的預定加權(quán)因子設定為λ3;否則將與所述類別相關聯(lián)的預定加權(quán)因子設定為入4, 其中X1彡λ2彡λ3彡入4。
11.根據(jù)權(quán)利要求8或9所述的方法,其中根據(jù)所述相似度從所述同義詞中提取一個集 合的步驟包括按照大小順序?qū)λ鱿嗨贫冗M行排序;以及將與排在前面的預定數(shù)目的相似度相對應的同義詞提取到所述集合中。
12.一種用于確定未登錄詞的類別的設備,包括同義詞選擇器,被配置為基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義詞; 上下文生成器,被配置為從文集生成所述未登錄詞的上下文;以及 類別確定器,被配置為根據(jù)所述未登錄詞的上下文以及所述同義詞確定所述未登錄詞 所屬的類別。
13.根據(jù)權(quán)利要求12所述的設備,其中所述構(gòu)詞規(guī)則包括構(gòu)詞成分、成分屬性和成分關系。
14.根據(jù)權(quán)利要求13所述的設備,其中所述同義詞選擇器包括用于從所述詞典選擇與所述未登錄詞共享一個或多個構(gòu)詞成分的詞,作為所述未登錄 詞的同義詞的裝置。
15.根據(jù)權(quán)利要求13所述的設備,其中所述同義詞選擇器包括 用于確定所述未登錄詞的詞性的裝置;用于從所述詞典選擇與所述未登錄詞共享一個或多個構(gòu)詞成分的詞的裝置;以及 用于在所選擇的詞中挑選與所述未登錄詞的詞性相同的詞,作為所述未登錄詞的同義 詞的裝置。
16.根據(jù)權(quán)利要求12所述的設備,其中所述上下文生成器包括 用于在文集中查找所述未登錄詞的裝置;用于以加窗的方式截取與所述未登錄詞鄰近的字的裝置; 用于對所截取的與所述未登錄詞鄰近的字進行分詞的裝置;以及 用于確定經(jīng)過分詞后所得到的各個詞的權(quán)重,以便將經(jīng)過分詞后所得到的各個詞及其 權(quán)重作為所述未登錄詞的上下文的裝置。
17.根據(jù)權(quán)利要求12所述的設備,其中所述上下文生成器包括 用于在文集中查找所述未登錄詞的裝置;以及用于以依存樹的方式分析所述未登錄詞的依存關系,以將所述依存關系作為所述未登 錄詞的上下文使用的裝置。
18.根據(jù)權(quán)利要求12所述的設備,其中所述類別確定器包括 用于統(tǒng)計所述同義詞所屬的類別的裝置;用于從文集生成每個類別所包含的所有詞的上下文作為所述每個類別的上下文的裝置;用于計算所述未登錄詞的上下文與每個類別的上下文之間的相似度的裝置;以及 用于將與最大相似度相對應的類別確定為所述未登錄詞所屬的類別的裝置。
19.根據(jù)權(quán)利要求12所述的設備,其中所述上下文生成器包括用于從文集生成所述同 義詞的上下文的裝置,并且所述類別確定器包括用于計算所述未登錄詞的上下文與所述同義詞的上下文之間的相似度的裝置; 用于根據(jù)所述相似度從所述同義詞中提取一個集合的裝置;用于將與所述集合中的、屬于相同類別的同義詞相對應的相似度進行求和的裝置;以及用于根據(jù)求和后的相似度確定未登錄詞所屬的類別的裝置。
20.根據(jù)權(quán)利要求12所述的設備,其中所述上下文生成器包括用于從文集生成所述同 義詞的上下文的裝置,并且所述類別確定器包括用于計算所述未登錄詞的上下文與所述同義詞的上下文之間的相似度的裝置;用于統(tǒng)計所述同義詞所屬的類別的裝置;用于接收與所述同義詞相關聯(lián)的預定加權(quán)因子的裝置;用于利用接收的預定加權(quán)因子,對與相關聯(lián)的同義詞相對應的相似度進行加權(quán)的裝置;用于根據(jù)所述相似度從所述同義詞中提取一個集合的裝置;用于將與所述集合中的、屬于相同類別的同義詞相對應的加權(quán)后的相似度進行求和的 裝置;以及用于根據(jù)求和后的相似度確定未登錄詞所屬的類別的裝置。
21.根據(jù)權(quán)利要求20所述的設備,其中所述預定加權(quán)因子的指定滿足以下策略如果未登錄詞與一個類別中的詞共享最后一個字并且共享倒數(shù)第二個字,則將與所述 類別相關聯(lián)的預定加權(quán)因子設定為λ 1 ;否則,如果未登錄詞與一個類別中的詞共享第一個字并且共享最后一個字,則將與所述類別 相關聯(lián)的預定加權(quán)因子設定為λ 2 ;否則,如果未登錄詞與一個類別中的詞僅共享第一個字或者僅共享最后一個字,則將與所述 類別相關聯(lián)的預定加權(quán)因子設定為λ3;否則將與所述類別相關聯(lián)的預定加權(quán)因子設定為入4, 其中X1彡λ2彡λ3彡入4。
22.根據(jù)權(quán)利要求19或20所述的設備,其中所述用于根據(jù)所述相似度從所述同義詞中 提取一個集合的裝置包括用于按照大小順序?qū)λ鱿嗨贫冗M行排序的裝置;以及用于將與排在前面的預定數(shù)目的相似度相對應的同義詞提取到所述集合中的裝置。
全文摘要
本發(fā)明的實施例公開了一種用于確定未登錄詞的類別的方法和設備。該方法可以包括步驟基于構(gòu)詞規(guī)則從詞典中選擇所述未登錄詞的同義詞;從文集生成所述未登錄詞的上下文;以及根據(jù)所述未登錄詞的上下文以及所述同義詞,確定所述未登錄詞所屬的類別。本方法和設備能夠更加高效準確的確定未登錄詞的類別。
文檔編號G06F17/27GK102081602SQ20091025292
公開日2011年6月1日 申請日期2009年11月30日 優(yōu)先權(quán)日2009年11月30日
發(fā)明者胡長建, 趙凱, 邱立坤 申請人:日電(中國)有限公司