專利名稱:一種分詞方法和分詞裝置的制作方法
技術領域:
本發(fā)明涉及分詞技術,更具體地說,涉及一種文字輸入方法和文字輸入裝置。
背景技術:
作為自然語言分析等前沿技術的關鍵組成部分,分詞技術在近年來受到了人們的
廣泛關注。所謂分詞,就是將文字序列切分成一個一個單獨的詞。以中文分詞技術為例,分
詞技術的目標就是將例如但不限于一句話切分為一個一個單獨的中文詞語。而將文字序列
切分為單獨的詞,是實現(xiàn)機器識別人類語言的第一步,因此分詞技術至關重要。 經過多年的發(fā)展,研究人員已先后開發(fā)出多種分詞方法,包括例如但不限于基于
字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法等等。 基于字符串匹配的分詞方法又稱為機械分詞方法。這種方法依照特定的策略將待
分析的文字序列與一個機器詞典中的詞條進行匹配,若在詞典中找到某個詞,則匹配成功
(識別出一個詞)。按照掃描方向的不同,字符串匹配方法可以分為正向匹配和逆向匹配;
按照不同長度優(yōu)先匹配的標準,字符串匹配方法可以分為最大(最長)匹配和最小(最短)
匹配;按照是否與詞性標注過程相結合的標準,又可以分為單純分詞方法和分詞與標注相
結合的一體化方法?;诶斫獾姆衷~方法是通過讓計算機模擬人對句子的理解,達到識別
詞的效果。這種方法的基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語
義信息來處理歧義現(xiàn)象。基于這種分詞方法開發(fā)的分詞系統(tǒng)通常包括三個部分分詞子系
統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調下,分詞子系統(tǒng)可以獲得有關詞、句子等
的句法和語義信息來對分詞歧義進行判斷,通過模擬人對句子的理解來達到分詞的目標。 第三種分詞方法是基于統(tǒng)計的分詞方法。從形式上看,詞是穩(wěn)定的字的組合,因此
在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構成一個詞。因此字與字相鄰共現(xiàn)
的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰共現(xiàn)的各個字的組合的頻
度進行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算例如兩個漢字的相鄰共現(xiàn)
概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便
可認為此字組可能構成了一個詞。這種方法只需對語料中的字組頻度進行統(tǒng)計,不需要切
分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。 盡管可以達到很好的效果,但上述分詞方法的計算量通常很大,因此往往需要專 門的高性能計算設備來完成分詞操作。此外,對于文字序列之中存在的歧義詞,上述分詞方 法的辨識精確度較低。 因此,需要一種分詞方案,能夠克服現(xiàn)有技術之中存在的計算量較大的缺陷。
發(fā)明內容
本發(fā)明要解決的技術問題在于,針對現(xiàn)有分詞方法存在的計算量較大以及對歧義
詞的辨識精確度較低的缺陷,提供一種分詞方法和分詞裝置。 本發(fā)明解決其技術問題所采用的技術方案是
構造一種文字輸入方法,包括 匹配步驟,包括接收輸入的構字元素序列,查找并顯示與該構字元素序列相匹配 的至少一個文字串;
所述方法還包括 封裝步驟,包括接收輸入的文字串選擇命令,基于所顯示至少一個文字串之中的 所選文字串生成對應的分詞封裝并輸出。 在本發(fā)明提供的文字輸入方法中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的文字輸入方法中,所述分詞封裝內順序包含分詞起始符、所選文
字串和分詞截止符。 在本發(fā)明提供的文字輸入方法中,在所述分詞封裝中,所述分詞起始符和所述分 詞截止符的顯示屬性均為不可見。 在本發(fā)明提供的文字輸入方法中,在所述分詞封裝中,所選文字串的顯示屬性為 可見。
本發(fā)明還提供了一種文字輸入裝置,包括 匹配模塊,用于接收輸入的構字元素序列,查找并顯示與該構字元素序列相匹配 的至少一個文字串;
所述裝置還包括 封裝單元,用于接收輸入的文字串選擇命令,基于所顯示至少一個文字串之中的 所選文字串生成對應的分詞封裝并輸出。
在本發(fā)明提供的文字輸入裝置中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的文字輸入裝置中,所述分詞封裝內順序包含分詞起始符、所選文
字串和分詞截止符。 在本發(fā)明提供的文字輸入裝置中,在所述分詞封裝中,所述分詞起始符和所述分 詞截止符的顯示屬性均為不可見。 在本發(fā)明提供的文字輸入裝置中,在所述分詞封裝中,所選文字串的顯示屬性為 可見。 本發(fā)明還提供了一種分詞方法,包括 分詞封裝提取步驟,包括接收輸入的文字序列,提取其中包含的至少一個分詞封 裝; 文字串提取步驟,包括對于提取的每一分詞封裝,提取該分詞封裝之中包含的文 字串并輸出。 在本發(fā)明提供的分詞方法中,每一分詞封裝內順序包含分詞起始符、文字串和分 詞截止符。 在本發(fā)明提供的分詞方法中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的分詞方法中,在每一分詞封裝中,分詞起始符和分詞截止符的顯
示屬性均為不可見。 在本發(fā)明提供的分詞方法中,在每一分詞封裝中,文字串的顯示屬性為可見。
本發(fā)明還提供了一種分詞裝置,包括 分詞封裝提取模塊,用于接收輸入的文字序列,提取其中包含的至少一個分詞封裝; 文字串提取模塊,用于對于提取的每一分詞封裝,提取該分詞封裝之中包含的文 字串并輸出。 在本發(fā)明提供的分詞裝置中,每一分詞封裝內順序包含分詞起始符、文字串和分 詞截止符。 在本發(fā)明提供的分詞裝置中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的分詞裝置中,在每一分詞封裝中,分詞起始符和分詞截止符的顯
示屬性均為不可見。 在本發(fā)明提供的分詞裝置中,在每一分詞封裝中,文字串的顯示屬性為可見。 實施本發(fā)明的技術方案,具有以下有益效果借助現(xiàn)有文字輸入方法之中的聯(lián)想
詞輸入方案,本發(fā)明提供的文字輸入方法和文字輸入系統(tǒng)將用戶輸入的每一聯(lián)想詞封裝成
對應的分詞封裝。如此一來便可得到由分詞封裝組成的文字序列,在輸入過程中即自動完
成了對文字序列的切分。接下來,在依據(jù)本發(fā)明提供的分詞方法和分詞裝置對這種形式的
文字序列進行分詞處理時,通過識別其中的每一分詞封裝便可完成對文字序列的切分,因
此本發(fā)明提供的技術方案將大大降低現(xiàn)有分詞操作的計算量,提高分詞效率。此外,分詞封
裝是基于用戶輸入的聯(lián)想詞而生成的,因此依據(jù)分詞封裝對文字序列的切分可精確的反映
用戶的真實切分意圖,這樣一來便可有效避免對歧義詞的錯誤識別,大大提高文字序列的
分詞準確度。
下面將結合附圖及實施例對本發(fā)明作進一步說明,附圖中 圖1是依據(jù)本發(fā)明一較佳實施例的文字輸入方法的流程圖; 圖2是依據(jù)本發(fā)明一較佳實施例的文字輸入系統(tǒng)的邏輯結構示意圖; 圖3是依據(jù)本發(fā)明一較佳實施例的分詞方法的流程圖 圖4是依據(jù)本發(fā)明一較佳實施例的分詞裝置的邏輯結構示意圖。
具體實施例方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。 本發(fā)明提高了一種文字輸入方法和文字輸入裝置,借助現(xiàn)有文字輸入方法之中的 聯(lián)想詞輸入方案,將用戶輸入的每一聯(lián)想詞封裝成對應的分詞封裝。如此一來便可得到由 分詞封裝組成的文字序列,在輸入過程中即自動完成了對文字序列的切分。接下來,在通過 本發(fā)明提供的分詞方法和分詞裝置對這種形式的文字序列進行分詞處理時,通過識別其中 的每一分詞封裝便可完成對文字序列的切分,因此本發(fā)明提供的技術方案將大大降低現(xiàn)有 分詞操作的計算量,提高分詞效率。此外,分詞封裝是基于用戶輸入的聯(lián)想詞而生成的,因 此依據(jù)分詞封裝對文字序列的切分可精確的反映用戶的真實切分意圖,這樣一來便可有效 避免對歧義詞的錯誤識別,大大提高文字序列的分詞準確度。下面便結合附圖和具體實施 例來對本發(fā)明提供的技術方案進行詳細描述。
圖1是依據(jù)本發(fā)明一較佳實施例的文字輸入方法100的流程圖。如圖1所示,方 法100開始于步驟102。 隨后,在下一步驟104,接收輸入的構字元素序列。以中文為例,可實現(xiàn)中文輸入的 輸入法包括例如但不限于拼音輸入法、筆劃輸入法、五筆字型輸入法等,其對應的構字元素 分別為拼音字母、筆劃、字根等,因此對應的構字元素序列分別為拼音字母序列、筆劃序列、 字根序列等。 隨后,在下一步驟106,查找并顯示與該構字元素序列相匹配的至少一個文字串。
隨著聯(lián)想輸入功能的出現(xiàn),文字輸入法一般都可實現(xiàn)聯(lián)想詞的輸入(例如但不限 于紫光拼音輸入法、搜狗輸入法、谷歌輸入法、QQ輸入法等)。例如輸入包含若干構字元素 的構字元素序列,將顯示與該構字元素序列相對應的至少一個聯(lián)想詞或者文字以供用戶選 擇。例如,在添加了聯(lián)想輸入功能的拼音輸入法中,輸入"py"可同時聯(lián)想得到"拼音"、"評 語"等多個聯(lián)想詞以供用戶選擇。此外,也可通過完整的輸入"pinyin"來得到"拼音"一 詞,而通過添加聯(lián)想功能,輸入"pinyin"將直接顯示"拼音"一詞,而無需分別顯示"pin"和 "yin"所對應的漢字。有關聯(lián)想輸入的具體技術內容已經在現(xiàn)有技術中做了清楚的描述,因 此本文不再贅述。 在本發(fā)明提供的技術方案中,在本步驟中顯示的文字串既可包括聯(lián)想詞,也可包 括單個文字,即該文字串包含至少一個文字。 由于在具體應用過程中,聯(lián)想輸入的方式可大大提高輸入效率,因此聯(lián)想輸入已 成為文字輸入的首選。而聯(lián)想輸入的最大特點在于,輸出是的詞而非單個文字。因此,隨著 聯(lián)想式輸入方法的出現(xiàn),用戶輸入文字時,一般以詞為單位進行輸入,而非以往的以字為單 位進行輸入,即用戶輸入的構字元素序列往往對應于一個詞。如此一來,在輸入文字序列 時,用戶實際上是以詞為單位進行輸入的,也就是說,在輸入文字序列中,用戶并非以每個 文字為單位進行輸入,而是盡量以組成詞語的方式進行輸入。而分詞操作的目標往往就是 在文字序列之中找出這種詞語。 基于現(xiàn)有的聯(lián)想式輸入法,在收到用戶輸入的構字元素序列后,輸入法將在自身 字詞庫中查找該構字元素序列所對應的至少一個文字串,作為候選文字串,顯示給用戶。
應注意,雖然本發(fā)明是以中文為例進行描述的,但本領域的技術人員應當明白,本 發(fā)明的技術方案同樣適用于文字構成及輸入習慣上與中文類似的其他文字,例如但不限于 日文、韓文、滿文等。 在具體實現(xiàn)過程中,步驟104和步驟106可統(tǒng)稱為匹配步驟。有關匹配步驟的具 體內容已經在現(xiàn)有技術之中進行了清楚的描述,因此本文不再贅述。
隨后,在下一步驟108,接收用戶輸入的文字串選擇命令。 隨后,在下一步驟IIO,基于所顯示至少一個文字串之中的所選文字串生成對應的 分詞封裝并輸出。 在本發(fā)明的一個具體實施例中,生成的分詞封裝內可順序包含分詞起始符、所選 文字串和分詞截止符。為了不影響用戶輸入,在輸出的分詞封裝中,分詞起始符和分詞截止 符的顯示屬性均可設置為不可見,而僅將所選文字串的顯示屬性設置為可見。如此一來,在 輸入文字序列的過程中,在輸出的文字序列中,用戶將不會看到分詞起始符和分詞截止符。
例如,可將分詞起始符設置為',將分詞截止符設置為廠,此時分詞封裝將采用下列結構 ~文字串/' 此時,依照本發(fā)明文字輸入方法100輸入的文字序列將采用下列結構
~文字串1廠~文字串2廠~文字串3廠... 為避免產生錯誤識別,可將分詞起始符和分詞截止符設置為使用率極低的字符或 者若干字符的組合。 由上文所述可知,依據(jù)本發(fā)明提供的文字輸入方法100輸入的文字序列將主要由 一個個的分詞封裝組成。由于這種分詞封裝是基于用戶本人輸入的詞語而生成的,因此這 種分詞封裝真實準確的反映了用戶的切分意圖,而不會產生歧義詞。
在具體實現(xiàn)過程中,步驟108和步驟110可通稱為封裝步驟。 本發(fā)明還提供了一種與上述文字輸入方法相對應的文字輸入系統(tǒng),下面就結合圖 2對其進行詳細描述。 圖2是依據(jù)本發(fā)明一較佳實施例的文字輸入系統(tǒng)200的邏輯結構示意圖。如圖2 所示,文字輸入系統(tǒng)200包括匹配模塊202和封裝模塊204。匹配模塊202進一步包括查找 模塊2022和字詞庫2024。 匹配模塊202用于接收輸入的構字元素序列。在具體實現(xiàn)過程中,在匹配模塊202 收到構字元素序列后,其查找模塊2022便在字詞庫2024中查找與該構字元素序列相匹配 的至少一個文字串并顯示。 封裝單元與匹配模塊202通信連接,用于接收輸入的文字串選擇命令,基于所顯 示至少一個文字串之中的所選文字串生成對應的分詞封裝并輸出。有關分詞封裝的具體內 容已經在前文結合圖1做了清楚的描述,因此此處不再贅述。 本發(fā)明還提供了一種與上文所述的文字輸入方法和文字輸入系統(tǒng)相對應的分詞 方法和分詞系統(tǒng),下面就分別結合圖3和圖4對其進行描述。 圖3是依據(jù)本發(fā)明一較佳實施例的分詞方法300的流程圖。如圖3所示,方法300 開始于步驟302。 隨后,在下一步驟304,接收輸入的文字序列。 隨后,在下一步驟306,提取其中包含的至少一個分詞封裝。如上文所示,分詞封裝 包括分詞起始符、文字串和分詞截止符。因此,可通過識別分詞起始符和分詞截止符來確定 文字序列之中的每一個分詞封裝。 在具體實現(xiàn)過程中,步驟304和步驟306可統(tǒng)稱為分詞封裝提取步驟。 隨后,在下一步驟308,對于提取的每一分詞封裝,提取該分詞封裝之中包含的文
字串并輸出。 在具體實現(xiàn)過程中,步驟308可稱文字串提取步驟。 應注意,圖3僅用于描述本發(fā)明的原理,并非用于限定本發(fā)明的范圍。因此,在具 體實現(xiàn)過程中,在不背離本發(fā)明主旨和范圍的情況下,可對圖3進行修改,例如在圖3中添 加其他步驟或者修改圖3中若干步驟的執(zhí)行順序等,例如可在提取完一個分詞封裝之后, 立即提取該分詞封裝之中包含的文字串并輸出。 此外,圖3所示的分詞方法300還可作為現(xiàn)有分詞方法的預處理步驟,即在執(zhí)行現(xiàn) 有分詞方法之前,首先執(zhí)行本發(fā)明提供的分詞方法300,然后以分詞方法300輸出的文字串組成的序列為基礎依照現(xiàn)有分詞方法進行分詞操作。此時,在執(zhí)行現(xiàn)有分詞方法時,應當將 分詞方法300輸出的文字串作為一個不可再分的整體進行操作。例如,以現(xiàn)有的機械分詞 方法為例,在基于分詞方法300輸出的文字串進行進一步的分詞時,只能將文字串作為一 個整體與其他文字串進行拼接組合,然后在詞庫之中查找時候包含拼接后文字串的詞語, 而不應將文字串與其他文字串之中的若干文字進行組合來進行分詞操作。例如,若分詞方 法300輸出的文字串包含"社會"、"主義"兩個詞,則在基于這兩個文字串進行機械分詞時, 只能以"社會"+ "主義"的方式來執(zhí)行分詞操作,而不能以"社會"+ "主"的方式來執(zhí)行分 詞操作。 本發(fā)明還提供了一種與上述分詞方法相對應的分詞裝置,下面就結合圖4對其進 行詳細的描述。 圖4是依據(jù)本發(fā)明一較佳實施例的分詞裝置400的邏輯結構示意圖。如圖4所示, 分詞裝置400包括分詞封裝提取模塊402和文字串提取模塊404。 分詞封裝提取模塊402用于接收輸入的文字序列,提取其中包含的至少一個分詞 封裝。 文字串提取模塊404用于對于提取的每一分詞封裝,提取該分詞封裝之中包含的 文字串并輸出。 有關分詞封裝的具體內容已經在前文做了清楚的描述,因此此處不再贅述。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內。
權利要求
一種分詞方法,其特征在于,包括分詞封裝提取步驟,包括接收輸入的文字序列,提取其中包含的至少一個分詞封裝;文字串提取步驟,包括對于提取的每一分詞封裝,提取該分詞封裝之中包含的文字串并輸出。
2. 根據(jù)權利要求1所述的分詞方法,其特征在于,每一分詞封裝內順序包含分詞起始 符、文字串和分詞截止符。
3. 根據(jù)權利要求1所述的分詞方法,其特征在于,每一文字串包括至少一個文字字符。
4. 根據(jù)權利要求2所述的分詞方法,其特征在于,在每一分詞封裝中,分詞起始符和分 詞截止符的顯示屬性均為不可見。
5. 根據(jù)權利要求2或4所述的分詞方法,其特征在于,在每一分詞封裝中,文字串的顯 示屬性為可見。
6. —種分詞裝置,其特征在于,包括分詞封裝提取模塊,用于接收輸入的文字序列,提取其中包含的至少一個分詞封裝; 文字串提取模塊,用于對于提取的每一分詞封裝,提取該分詞封裝之中包含的文字串 并輸出。
7. 根據(jù)權利要求6所述的分詞裝置,其特征在于,每一分詞封裝內順序包含分詞起始 符、文字串和分詞截止符。
8. 根據(jù)權利要求6所述的分詞裝置,其特征在于,每一文字串包括至少一個文字字符。
9. 根據(jù)權利要求7所述的分詞裝置,其特征在于,在每一分詞封裝中,分詞起始符和分 詞截止符的顯示屬性均為不可見。
10. 根據(jù)權利要求7或9所述的分詞裝置,其特征在于,在每一分詞封裝中,文字串的顯 示屬性為可見。
全文摘要
本發(fā)明涉及分詞技術,針對現(xiàn)有分詞方法存在的計算量較大以及對歧義詞的辨識精確度較低的缺陷,提供一種分詞方法和分詞裝置。分詞方法包括接收輸入的文字序列,提取其中包含的至少一個分詞封裝;對于提取的每一分詞封裝,提取該分詞封裝之中包含的文字串并輸出。本發(fā)明還提供了一種分詞裝置。本發(fā)明提供的技術方案可在輸入過程中自動完成對文字序列的切分,因此本發(fā)明提供的技術方案將大大降低現(xiàn)有分詞操作的計算量,提高分詞效率。此外,依據(jù)分詞封裝對文字序列的切分可精確的反映用戶的真實切分意圖,可大大提高文字序列的分詞準確度。
文檔編號G06F17/27GK101702153SQ200910110349
公開日2010年5月5日 申請日期2009年10月28日 優(yōu)先權日2009年10月28日
發(fā)明者劉克鴻, 劉飛, 楊豐, 楊旗, 王有為, 蔣錚, 馬慧 申請人:卓望數(shù)碼技術(深圳)有限公司