欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法

文檔序號(hào):6576925閱讀:191來源:國知局
專利名稱:基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種預(yù)測輸入的方法,更具體地講,涉及一種基于個(gè)人語料庫進(jìn)行短 語級預(yù)測輸入的方法。
背景技術(shù)
由于中文書面句子中詞語之間沒有分割(區(qū)分于英文輸入中,單詞之間以空格間 隔)以及中文詞語劃分沒有清晰的定義,所以最早的中文輸入法是以單個(gè)漢字為單位進(jìn)行 輸入。
現(xiàn)有的大多數(shù)輸入法可以進(jìn)行詞語的輸入,但需要鍵入相應(yīng)的拼音或筆畫,然后 由輸入法提示出相應(yīng)的備選字或詞語,以供用戶選擇。由此帶來的問題是,在進(jìn)行漢字詞語 輸入時(shí),需要鍵入太多的信息,而且不具備詞或短語之間的聯(lián)想功能。即使存在一些改進(jìn)的輸入法,具備詞或短語之間的聯(lián)想功能,但還存在以下問 題1、詞或短語之間聯(lián)想的關(guān)聯(lián)關(guān)系由來與本發(fā)明不同。例如,如何得到最初的未標(biāo) 記的語料庫以及是否可以得到反映用戶個(gè)人特有語言習(xí)慣的未標(biāo)記語料庫。2、部分輸入法支持慣用語或成語的聯(lián)想,即當(dāng)用戶輸入慣用語或成語的開頭若干 個(gè)字之后,輸入法能將完整的慣用語或成語作為一個(gè)候選項(xiàng)提供給用戶,但這類輸入法所 提供的慣用語或成語庫只能是一個(gè)所有用戶共同的語言習(xí)慣,且存在慣用語或成語庫詞匯 量小,靈活性差,難以擴(kuò)展的問題。3、部分輸入法支持對用戶以往輸入的完整句子進(jìn)行緩存、匹配的功能,即記錄一 定數(shù)量的用戶以往輸入的完整句子,當(dāng)用戶再一次輸入這個(gè)句子的開頭若干個(gè)字之后,輸 入法能將該完整的歷史句子作為一個(gè)候選項(xiàng)提供給用戶,但這類輸入法僅僅是對用戶個(gè)人 的輸入歷史的一種緩存,且同樣存在靈活性差的問題。4、從以上描述中可以看出,現(xiàn)有技術(shù)最大限度只能提供一個(gè)所有用戶共同的語言 習(xí)慣(或輸入習(xí)慣)或?qū)€(gè)人輸入歷史的一種緩存,而非用戶個(gè)人獨(dú)有的輸入習(xí)慣。從效 率以及適用性上來說,對于每一個(gè)用戶都能提供反映他特有語言習(xí)慣的輸入法,要優(yōu)于對 所有用戶提供一個(gè)反映大眾語言習(xí)慣的輸入法。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種可以根據(jù)用戶以往輸入內(nèi)容而進(jìn)行提示的預(yù)測輸入 方法,使得用戶在常用詞語和常用句式方面,只需要輸入開頭的漢字或詞語,即可在候選窗 口中出現(xiàn)該用戶習(xí)慣所用的詞、短語或句子。根據(jù)本發(fā)明的一方面,提供一種基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法,該 方法包括以下步驟收集用戶過往的輸入作為個(gè)人語料庫;將用戶過往的輸入以句子為單 位進(jìn)行分詞,拆分為具有獨(dú)立意義的漢字以及詞;統(tǒng)計(jì)詞或由詞組成的短語前后出現(xiàn)的頻 率,計(jì)算詞或短語緊接著出現(xiàn)在前一詞之后的條件概率,形成反映該用戶獨(dú)特語言習(xí)慣的概率文件;當(dāng)用戶后續(xù)進(jìn)行輸入時(shí),在輸入了開頭的詞或短語之后,根據(jù)所述概率文件預(yù)測 出用戶所可能期望輸入的后續(xù)詞、短語或句子,以便用戶進(jìn)行選擇和快速輸入。當(dāng)用戶經(jīng)常使用某些詞的組合或固定句子時(shí),相應(yīng)增大這些詞及短語之間的條件 概率。在條件概率增大到大于指定閾值時(shí),當(dāng)用戶在輸入開頭漢字或是詞語后,根據(jù)概率文 件,可預(yù)測出該用戶后續(xù)可能希望輸入的詞、短語或句子,從而在候選窗口中顯示出來,進(jìn) 而提高用戶的輸入效率。本發(fā)明采集用戶過往編輯的句子作為原句信息,經(jīng)過處理后,形成反映用戶獨(dú)有的遣詞造句習(xí)慣的概率文件,由此提高用戶的輸入效率。根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法可實(shí)現(xiàn)如下效果1、形 成反映用戶獨(dú)有遣詞造句習(xí)慣,使得用戶的慣用短語或句型可以被識(shí)別;2、用戶在輸入時(shí), 只需要輸入開頭的漢字或詞,即可根據(jù)概率文件得到后續(xù)的可能候選詞、短語或句子,便于 提高輸入效率。


通過結(jié)合附圖,從下面的實(shí)施例的描述中,本發(fā)明這些和/或其它方面及優(yōu)點(diǎn)將 會(huì)變得清楚,并且更易于理解,其中圖1是顯示根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法的框圖;圖2示出了中文句子是中文詞與具有獨(dú)立意義的漢字的組合的示意圖;圖3顯示了概率文件的形成過程;圖4顯示了處理概率文件的條件流程;圖5顯示了將用戶輸入的新詞加入到詞庫中的處理流程;圖6顯示了詞庫與概率文件之間的映射關(guān)系;圖7顯示在輸入法啟動(dòng)時(shí)一次性載入詞庫和概率文件的處理;圖8顯示根據(jù)本發(fā)明的存儲(chǔ)在內(nèi)存中的概率文件與存儲(chǔ)在磁盤上的概率文件的 對應(yīng)關(guān)系;圖9顯示了根據(jù)本發(fā)明的在拼音輸入法狀態(tài)下拼音輸入與詞語預(yù)測如何共同使 用的示例;以及圖10顯示根據(jù)本發(fā)明實(shí)施例的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法實(shí)現(xiàn) 輸入的總體操作的流程圖。
具體實(shí)施例方式以下,參照附圖來詳細(xì)說明本發(fā)明的實(shí)施例。本發(fā)明所涉及的是,收集用戶過去曾經(jīng)編輯的輸入(如短信、郵件或其它文本信 息)作為個(gè)人語料庫,將其進(jìn)行詞語切分、短語抽取、概率計(jì)算等預(yù)處理,形成特定的概率 文件。在該用戶后續(xù)使用輸入法進(jìn)行編輯的時(shí)候,在用戶輸入了開頭漢字或是詞語之后,即 可預(yù)測出用戶后續(xù)可能需要輸入的詞、短語或句子。圖1是顯示根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法的框圖。該 預(yù)測輸入方法至少包括以下部分個(gè)人語料庫處理模塊108、短語處理模塊109、概率文件 形成與調(diào)整模塊110、輸入預(yù)測模塊111、詞庫調(diào)整與精簡模塊112、概率文件113。
以上模塊是根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法區(qū)別于其 它輸入法所特有的模塊。該預(yù)測輸入方法還包括現(xiàn)有輸入法所共有的一些模塊,諸如設(shè)置 模塊101、前端模塊102、面板模塊103、幫助模塊104、進(jìn)程間通信模塊105、引擎模塊106、 詞庫107,這里不再對其進(jìn)行詳細(xì)描述。個(gè)人語料庫處理模塊108通過收集用戶過去輸入的文本信息(如短信、郵件),形 成個(gè)人語料庫,并將其存儲(chǔ)到磁盤等存儲(chǔ)介質(zhì)上。用戶過去輸入的文本信息以句子為基本 單位被存儲(chǔ)在存儲(chǔ)介質(zhì)上,作為原句信息。短語處理模塊109執(zhí)行短語抽取、條件概率計(jì)算等步驟,以便由概率文件形成與 調(diào)整模塊110形成輸入法可識(shí)別并使用的概率文件113,用以提高用戶的輸入效率。短語處理模塊109的處理流程為1、將原句拆分為詞。通過拆分,句子可以被分解為若干個(gè)具有獨(dú)立意義的詞以及 若干獨(dú)立的字。2、將連續(xù)若干個(gè)詞組成的詞串定義為短語,該短語的定義包含了詞、詞串及整個(gè) 句子的概念。3、統(tǒng)計(jì)不同詞、短語以及獨(dú)立漢字之間出現(xiàn)的條件概率。原句處理完畢后,從存儲(chǔ)介質(zhì)上刪除此原句,以保護(hù)用戶隱私并節(jié)省存儲(chǔ)空間。下面詳細(xì)描述對原句進(jìn)行拆分以及統(tǒng)計(jì)條件概率的過程。對原句進(jìn)行詞語拆分是基于輸入法已有的詞庫而進(jìn)行的。輸入法原有的詞庫會(huì)隨 著用戶的輸入增加新詞。同樣,為了保證輸入法詞庫不會(huì)無限制的膨脹下去,詞庫調(diào)整與精 簡模塊112去除一些使用頻率不高且已經(jīng)降低到某一閾值以下的詞語。輸入法的詞庫中詞 的使用頻率通過使用次數(shù)以及最近使用時(shí)間進(jìn)行統(tǒng)計(jì)。分詞方法可以是基于統(tǒng)計(jì)的分詞方法,也可以基于現(xiàn)有輸入法的詞庫來進(jìn)行分 詞,但不局限于此。基于統(tǒng)計(jì)的分詞雖然具有局限性,但是例如某些并不是詞的常用字組 (如“這一”、“之一”)對于本發(fā)明的應(yīng)用性方面來說,恰恰也是用戶的習(xí)慣輸入,因此并不 會(huì)對本發(fā)明的分詞產(chǎn)生影響。分詞的方法是將整句拆解為詞語及具有獨(dú)立意義的漢字。具有獨(dú)立意義的漢字是 指連接詞(如“的”、“和”)、語氣助詞(如“啊”)以及稱謂(如“我”),以下簡稱為“獨(dú)立漢 字”。如圖2所示,中文句子是中文詞與具有獨(dú)立意義的漢字的組合。這些漢字并不會(huì)被傳 統(tǒng)的分詞歸結(jié)為某一個(gè)詞語,如“我們的”,但是在短語級輸入的條件下,一個(gè)句式的組成是 由若干詞語以及獨(dú)立漢字組成。在本預(yù)測輸入方法的實(shí)現(xiàn)中,通過枚舉的方法定義了這一 類獨(dú)立漢字。短語處理模塊109在抽取出詞、短語之后,還需要統(tǒng)計(jì)相關(guān)詞、短語以及獨(dú)立漢字 之間前后出現(xiàn)的條件概率。例如,對于兩個(gè)連續(xù)出現(xiàn)的詞Wi和^+1,這個(gè)詞組出現(xiàn)的 概率被標(biāo)記為P(Wi+1|Wi),其含義是在詞Wi出現(xiàn)之后,詞出現(xiàn)的可能性,計(jì)算方法是
(,,W,w,+1出現(xiàn)的總次數(shù) P(W|+l|W,)= w,出現(xiàn)的總次數(shù)類似的,對于兩個(gè)連續(xù)出現(xiàn)的短語Wi. . . wi+m和wi+m+1. . . wi+n(m < η),<formula>formula see original document page 6</formula>出現(xiàn)的總次數(shù)
<formula>formula see original document page 6</formula> 出現(xiàn)的總次數(shù)例如“我們”、“今天”分別是兩個(gè)詞語。那么“我們今天”這個(gè)短語出現(xiàn)的概率被 標(biāo)記為P(今天I我們),其含義是在詞語“我們”出現(xiàn)之后,詞語“今天”出現(xiàn)的概率。所 以,從長遠(yuǎn)的趨勢來看,每一個(gè)用戶都有自己獨(dú)特的語言(說話)習(xí)慣,具體到輸入法本身 來說,就是用戶總是會(huì)以更高概率的去輸入某些詞組、短語和句子。這種現(xiàn)象是因每一個(gè)用 戶都有不同的生活環(huán)境以及交際圈所決定的。因此某些詞、短語之間共同出現(xiàn)的概率將會(huì) 越來越高。本發(fā)明使用條件概率而非詞語同現(xiàn)概率的原因是同現(xiàn)概率描述的是兩個(gè)詞語共 同出現(xiàn)的可能性。例如,對于拼音輸入“women jintian”,可能出現(xiàn)的候選有“我們今天”、 “我悶近天”、“我們近天”等,其同現(xiàn)概率分別描述的是“我們”和“今天”、“我悶”和“近天”、 “我們”和“近天”作為相鄰詞語同時(shí)出現(xiàn)的可能性。條件概率描述的是在現(xiàn)有輸入詞語的 前提下,后續(xù)可能出現(xiàn)的詞語的可能性。例如對于拼音輸入“women”,用戶選擇“我們”之 后,可能出現(xiàn)的候選有“今天”、“明天”、“今天的任務(wù)是”等,條件概率描述的是在“我們”之 后可能會(huì)出現(xiàn)“今天”、“明天”、“今天的任務(wù)是”的可能性。因此,根據(jù)本發(fā)明預(yù)測的目的, 選用條件概率更合適。當(dāng)某些詞、短語之間共同出現(xiàn)的概率高于某一閾值之后,即可認(rèn)定其已經(jīng)成為用 戶自己所獨(dú)有的詞組。同樣,在多個(gè)詞組以及獨(dú)立漢字之間的概率高于某一閾值之后,即可 認(rèn)定一個(gè)整句的出現(xiàn)。由此帶來的效果是如果用戶期望輸入“我們今天的任務(wù)是把工作做 完”,則當(dāng)用戶輸入了“我們”之后,可能出現(xiàn)的選項(xiàng)按照概率的高低排列有1. “我們今天”、 2. “我們今天的任務(wù)是”、3. “我們今天的任務(wù)是把工作做完”以及其他選項(xiàng)。圖3顯示了概率文件113的形成過程。如圖3所示,在步驟301,收集用戶過去輸 入的文本信息。在步驟302,用戶過去輸入的文本信息被存儲(chǔ)到磁盤中,作為原句信息。在 步驟303,應(yīng)用統(tǒng)計(jì)方法將原句拆分為詞以及若干獨(dú)立的字。在步驟304,統(tǒng)計(jì)不同詞、短語 以及獨(dú)立漢字之間前后出現(xiàn)的條件概率。在步驟305,將這些條件概率以及漢字、詞、短語存 入到存儲(chǔ)介質(zhì)中。在步驟306,從磁盤上刪除原句信息。經(jīng)過以上處理,可形成反映用戶特 有語言習(xí)慣的概率文件113。短語處理模塊109進(jìn)行處理的時(shí)機(jī)選擇有以下必要條件1、原句信息達(dá)到一定數(shù)量。數(shù)量是以原句條目或是原句所占存儲(chǔ)空間字節(jié)數(shù)計(jì) 算,目的是對一定數(shù)目的原句進(jìn)行批處理,以節(jié)約處理時(shí)間并提高性能。2、在系統(tǒng)空閑并且處于非輸入狀態(tài)時(shí)。3、在手持設(shè)備上使用的情況下,在電量充足時(shí)進(jìn)行,以防止斷電影響用戶。圖4顯示了處理概率文件113的條件流程。如圖4所示,在步驟401,原句信息存 儲(chǔ)到磁盤上。在步驟402,判斷原句信息是否足夠以及系統(tǒng)是否處于空閑并且為非輸入。如 果滿足該條件,則進(jìn)行到步驟403,進(jìn)行概率文件113的處理。否則,進(jìn)行到步驟404,從而 退出。根據(jù)本發(fā)明,加入到輸入法詞庫中的新詞是指常用字組(如“之一”、“這一”),而
非漢字詞語的組合。圖5顯示了將用戶輸入的新詞加入到詞庫107中的處理流程。在步驟501,用戶使用輸入法進(jìn)行文字輸入。在步驟502,判斷是否出現(xiàn)了新詞。如果出現(xiàn)了新詞,則在步驟 503,將該新詞加入到詞庫107中,并且還可以刪除詞庫107中使用頻率低的一些詞。概率文件形成與調(diào)整模塊110將詞、短語之間前后出現(xiàn)的概率信息以文件的形式 存儲(chǔ)在磁盤上永久保存,形成概率文件113。概率文件113的存儲(chǔ)與詞庫107的存儲(chǔ)是分開的,由此形成模塊化特征,便于功能 裁剪。當(dāng)不需要進(jìn)行概率統(tǒng)計(jì)時(shí),將相應(yīng)模塊簡單刪除即可。概率文件113是反映詞、短語之間前后出現(xiàn)的概率,并且與詞庫107分開存儲(chǔ)。但 是在概率文件113中并不需要重復(fù)出現(xiàn)詞庫107中的詞語,可以采用簡單的映射關(guān)系將概 率文件113與詞庫107聯(lián)系起來,概率文件113中的詞語由簡單的映射關(guān)系表示,概率文件 113中的短語由詞語映射關(guān)系的組合表示。圖6顯示了詞庫107與概率文件113之間的映 射關(guān)系。當(dāng)預(yù)測輸入方法發(fā)現(xiàn)兩個(gè)或兩個(gè)以上的詞或短語的共同出現(xiàn)概率高于一指定閾 值時(shí),即可認(rèn)定發(fā)現(xiàn)新的“詞組”(或稱為輸入模式)。但是,該“詞組”并不會(huì)加入到詞庫 107中。例如,對于新的輸入短語“黑道教父”,“黑道”和“教父”原先都是存在于詞庫107 中的詞語,因此“黑道教父”將不會(huì)被加入到詞庫107中,僅僅在概率文件113中反映了“黑 道”與“教父”先后出現(xiàn)的概率很高而已。在預(yù)測輸入方法啟動(dòng)的時(shí)候,將會(huì)把概率文件113以及詞庫107 —次全部載入到 系統(tǒng)的內(nèi)存中。詞庫107在內(nèi)存中是以Hash表或Tie樹的形式存在,而概率文件113在內(nèi) 存中是以Patricia樹或Map表的形式存在。圖7顯示在預(yù)測輸入方法啟動(dòng)時(shí)一次性載入詞庫107和概率文件113的處理。參 照圖7,在步驟701,預(yù)測輸入方法啟動(dòng)。在步驟702,進(jìn)行系統(tǒng)內(nèi)部初始化。在步驟703,將 詞庫107載入到系統(tǒng)的內(nèi)存中。在步驟704,將概率文件113載入到系統(tǒng)的內(nèi)存中。在概率文件113中,詞、短語之間前后出現(xiàn)的概率隨著用戶的不斷輸入而變化。某 些短語之間的共同出現(xiàn)次數(shù)越多,則其相互之間的條件概率也就越大,并且概率文件形成 與調(diào)整模塊110將這樣的變化趨勢反映在概率文件113中。如果短語之間的條件概率發(fā)生 了改變,在預(yù)測輸入方法被關(guān)閉或是在系統(tǒng)空閑時(shí),概率文件形成與調(diào)整模塊110將這樣 的變化存入到磁盤上的概率文件113中。優(yōu)選的是,概率文件113的變化的保存是以增量形式進(jìn)行的。即,僅產(chǎn)生變化的部 分才會(huì)被保存。因此內(nèi)存結(jié)構(gòu)中的概率文件113與磁盤上的概率文件113在每一個(gè)表示概 率值的節(jié)點(diǎn)上可以一一對應(yīng),并可直接計(jì)算得到變化節(jié)點(diǎn)在磁盤文件中的偏移量。圖8顯 示根據(jù)本發(fā)明的存儲(chǔ)在內(nèi)存中的概率文件與存儲(chǔ)在磁盤上的概率文件的對應(yīng)關(guān)系。在圖8 中,R1-R4分別表示的是條件概率值。節(jié)點(diǎn)在磁盤文件與內(nèi)存結(jié)構(gòu)中的對應(yīng)關(guān)系的保證,是建立在磁盤文件中,每一個(gè) 節(jié)點(diǎn)所占據(jù)的空間是等長的。但是,這并不意味著每一個(gè)節(jié)點(diǎn)都是等長編碼的。即使存在 不等長編碼的結(jié)構(gòu),可以通過加入空格對齊的方式保證每一個(gè)節(jié)點(diǎn)的等長。輸入預(yù)測模塊111在用戶已輸入的基礎(chǔ)上去判定后續(xù)可能出現(xiàn)詞語的概率。艮口, 假設(shè)用戶當(dāng)前輸入詞語Wi,輸入預(yù)測模塊111尋找使得概率值P (^lwi)最大的%,j為從1 到η的整數(shù),其中η為句子的總詞數(shù),那么 即為最可能出現(xiàn)的詞語。在多元文法,如三元 文法中,不僅僅考慮P(WjIwi),還需要考慮P(WjlWHWi)以及P(WjIWp2WHWi),考慮前詞的個(gè)數(shù)與多元文法的元數(shù)相同。為了能進(jìn)行整句輸入,輸入預(yù)測模塊111 ^mpiwinIwi), ρ (WinWi^W1)以及 p(wi+1. . . Wn|Wi),其中,其中,i和η是自然數(shù),η > i,并且η為句子的總詞數(shù)。圖9顯示了根據(jù)本發(fā)明的在拼音輸入法狀態(tài)下拼音輸入與詞語預(yù)測如何共同使 用的示例。如果用戶輸入拼音“women”,則出現(xiàn)候選詞“1.我們”、“2.我悶”等。如果用戶 選擇1,則根據(jù)本發(fā)明的預(yù)測輸入方法給出預(yù)測結(jié)果“1.我們今天”、“2.我們今天的任務(wù) 是”、“2.我們今天的任務(wù)是把工作做完”。如果用戶不選擇上述的1、2、3而繼續(xù)拼音輸入 (例如“mingtian” ),則消除預(yù)測候選詞,并進(jìn)行拼音輸入。為了體現(xiàn)常用句式甚至整句的預(yù)測效果,輸入預(yù)測模塊111對于長短語的選擇進(jìn) 行優(yōu)先處理,即,概率值的增加數(shù)值與短語長度正相關(guān)。選中的短語長度越長,則其概率值 增加也越快,從而使得長短語的概率值可以高于其部分的概率值。例如,在開始時(shí)選項(xiàng)按照 概率的高低排列有1. “我們今天”、2. “我們今天的任務(wù)是”、3. “我們今天的任務(wù)是把工作 做完”以及其他選項(xiàng)。在用戶選擇3 —定次數(shù)之后,選項(xiàng)按照概率的高低排列有可能變?yōu)?1. “我們今天的任務(wù)是把工作做完”、2. “我們今天”、3. “我們今天的任務(wù)是”。通過這樣的 機(jī)制保證了長短語甚至整句的優(yōu)先輸出。輸入預(yù)測模塊111中存在自調(diào)整功能。自調(diào)整子模塊的功能是,計(jì)算從用戶輸入 到預(yù)測得出候選詞、短語或句子的時(shí)間,并且將該時(shí)間與UI (userinterface)體驗(yàn)中用戶 可以等待的時(shí)間閾值進(jìn)行比較。如果超出了 UI中用戶可以接受的等待時(shí)間,那么預(yù)測過程 將會(huì)終止,返回到最原始的輸入法狀態(tài)。根據(jù)本發(fā)明,基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法的輸出是,用戶進(jìn)行了 輸入,假設(shè)是拼音輸入(但不局限于此,也可以是筆畫輸入或五筆輸入等),經(jīng)過輸入法處 理,得到若干候選詞。假設(shè)用戶選擇了詞W1,此時(shí)候選詞消失,輸入法接著進(jìn)行預(yù)測,得到 候選詞或短語W2、W3...序列,顯示在輸入法候選窗口中。如果用戶進(jìn)行了選擇,那么《2、 W3...序列中的選中詞、短語或是句子顯示在編輯框中。如果用戶不需要這些預(yù)測,希望進(jìn) 行輸入,則繼續(xù)輸入,經(jīng)過輸入法處理,繼續(xù)得到候選詞。根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法需要根據(jù)用戶的輸入 而不斷調(diào)整詞、短語之間前后出現(xiàn)的概率以及詞庫107。詞庫107以及概率文件113的調(diào) 整是同步的。詞庫107以及概率文件113的改變超出了一定的閾值,輸入法系統(tǒng)就會(huì)調(diào)整。 調(diào)整時(shí)間是系統(tǒng)開機(jī)時(shí),或者是在整個(gè)系統(tǒng)空閑時(shí)進(jìn)行調(diào)整。為了保證詞庫107以及概率文件113的調(diào)整時(shí)間最短,根據(jù)在用戶進(jìn)行輸入時(shí)所 產(chǎn)生的詞或短語本身概率變化以及詞或短語之間共同出現(xiàn)的概率變化,適時(shí)進(jìn)行排序。由 此產(chǎn)生的結(jié)果是,概率高的詞或短語將會(huì)越來越排在搜索序列的前端,概率低的詞或短語 將會(huì)越來越排在搜索序列的后端。由于輸入概率的變化將會(huì)導(dǎo)致概率高的詞或短語與概率低的詞或短語分列在搜 索序列的前端與后端。因此在搜索候選詞或短語時(shí),將從搜索序列前端開始。而在淘汰不 常用的詞或短語時(shí),則從搜索序列后端開始搜索,由此保證了搜索以及調(diào)整算法的高效。在 詞或短語出現(xiàn)的頻率降低到一定閾值時(shí),就可以移除該詞或短語及其概率關(guān)系。圖10顯示根據(jù)本發(fā)明實(shí)施例的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法實(shí)現(xiàn) 輸入的總體操作的流程圖。
參照圖10,在步驟1001,用戶進(jìn)行字符輸入,可采用拼音、五筆、筆畫等多種輸入 方式。在步驟1002,判斷用戶輸入的字符是否是漢字詞語。如果用戶輸入了漢字詞語,則在 步驟1003,進(jìn)入預(yù)測輸入流程。接著,在步驟1004,根據(jù)概率文件對用戶輸入的漢字詞語進(jìn) 行預(yù)測匹配,然后在步驟1005得出候選詞、短語或句子。另一方面,如果在步驟1002判斷 用戶沒有輸入漢字詞語,則在步驟1005,進(jìn)入一般的輸入法流程。接著在步驟1005,在輸入 法的詞庫中進(jìn)行匹配,然后在步驟1005得出候選字符。在步驟1008,判斷詞庫和概率文件 是否發(fā)生變化。如果發(fā)生變化,則步驟1009,對存儲(chǔ)的詞庫和概率文件進(jìn)行調(diào)整。如果未發(fā) 生變化,則進(jìn)行到步驟1010從而退出。
如上所述。本發(fā)明采集用戶過往編輯的句子作為原句信息,經(jīng)過處理后,形成反映 用戶獨(dú)有的遣詞造句習(xí)慣的概率文件,由此提高用戶的輸入效率。根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法可實(shí)現(xiàn)如下效果1、形 成反映用戶獨(dú)有遣詞造句習(xí)慣,使得用戶的慣用短語或句型可以被識(shí)別;2、用戶在輸入時(shí), 只需要輸入開頭的漢字或詞,即可根據(jù)概率文件得到后續(xù)的可能候選詞、短語或句子,便于 提高輸入效率。根據(jù)本發(fā)明的基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法不僅可應(yīng)用于各式計(jì) 算機(jī),也可應(yīng)用于用戶手持終端,例如移動(dòng)通信終端、個(gè)人數(shù)字助理(PDA)等。雖然本發(fā)明是參照其示例性的實(shí)施例被具體描述和顯示的,但是本領(lǐng)域的普通技 術(shù)人員應(yīng)該理解,在不脫離由權(quán)利要求限定的本發(fā)明的精神和范圍的情況下,可以對其進(jìn) 行形式和細(xì)節(jié)的各種改變。
權(quán)利要求
一種基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法,包括以下步驟收集用戶過往的輸入作為個(gè)人語料庫;將用戶過往的輸入以句子為單位進(jìn)行分詞,拆分為具有獨(dú)立意義的漢字以及詞;統(tǒng)計(jì)詞或由詞組成的短語前后出現(xiàn)的頻率,計(jì)算詞或短語緊接著出現(xiàn)在前一詞之后的條件概率,形成反映該用戶獨(dú)特語言習(xí)慣的概率文件;當(dāng)用戶后續(xù)進(jìn)行輸入時(shí),在輸入了開頭的詞或短語之后,根據(jù)所述概率文件預(yù)測出用戶所可能期望輸入的后續(xù)詞、短語或句子,以便用戶進(jìn)行選擇和快速輸入。
2.根據(jù)權(quán)利要求1所述的方法,其中,在收集用戶過往的輸入的步驟中,將用戶過往輸 入的文本信息以句子為單位存儲(chǔ)在存儲(chǔ)介質(zhì)上,作為原句信息。
3.根據(jù)權(quán)利要求2所述的方法,其中,基于現(xiàn)有的輸入法的詞庫來執(zhí)行所述分詞步驟。
4.根據(jù)權(quán)利要求2所述的方法,其中,采用基于統(tǒng)計(jì)的方法來執(zhí)行所述分詞步驟。
5.根據(jù)權(quán)利要求3所述的方法,其中,輸入法的詞庫中的詞隨著用戶使用而不斷增加 和刪除。
6.根據(jù)權(quán)利要求5所述的方法,其中,常用字組作為新詞加入到輸入法的詞庫中。
7.根據(jù)權(quán)利要求5所述的方法,其中,使用頻率低的詞語從輸入法的詞庫被刪除。
8.根據(jù)權(quán)利要求7所述的方法,其中,輸入法的詞庫中詞的使用頻率通過使用次數(shù)以 及最近使用時(shí)間進(jìn)行統(tǒng)計(jì)。
9.根據(jù)權(quán)利要求2所述的方法,其中,在統(tǒng)計(jì)詞或由詞組成的短語前后 出現(xiàn)的頻率的步驟中,對于詞緊接著出現(xiàn)在詞&之后的條件概率,記為/ I 、 / I 、 W,wi+1出現(xiàn)的總次數(shù)^^^ P(Wl+l|Wl), p(w1+1|w,)= WiS;現(xiàn)的總次數(shù),其中,i為自然數(shù)。
10.根據(jù)權(quán)利要求9所述的方法,其中,當(dāng)兩個(gè)詞Wi、Wi+1之間的條件概率超過指定閾值 時(shí),根據(jù)詞Wi的輸入,預(yù)測出詞wi+1作為候選。
11.根據(jù)權(quán)利要求1所述的方法,其中,采用升降法不斷調(diào)整詞、短語之間概率的排列 順序,使得使用頻率低的概率關(guān)系沉降到搜索序列的后端。
12.根據(jù)權(quán)利要求1所述的方法,其中,當(dāng)詞或短語出現(xiàn)的頻率降低到一定閾值時(shí),該 詞或短語及其概率關(guān)系被移除。
13.根據(jù)權(quán)利要求6或7所述的方法,其中,所形成的概率文件以及詞庫被存儲(chǔ)在存儲(chǔ) 介質(zhì)上進(jìn)行保存。
14.根據(jù)權(quán)利要求1所述的方法,其中,在所述預(yù)測步驟中,當(dāng)用戶輸入詞時(shí),根據(jù) 概率文件中的概率關(guān)系尋找到該詞之后的出現(xiàn)概率超出一定閾值的詞或者短語 Wi+1. . . wn,其中,i和n為自然數(shù),n > i。
15.根據(jù)權(quán)利要求1所述的方法,其中,在所述預(yù)測步驟中,尋找出現(xiàn)概率超出一定閾 值并具有獨(dú)立意義的漢字、詞或短語,作為候選。
16.根據(jù)權(quán)利要求1所述的方法,其中,對于用戶選中的短語,該短語的概率值的增加 程度與該短語的長度正相關(guān),短語長度越長,概率值增加越多。
17.根據(jù)權(quán)利要求2所述的方法,其中,在形成所述概率文件之后,刪除存儲(chǔ)在存儲(chǔ)介 質(zhì)上的原句信息。
全文摘要
本發(fā)明提供一種基于個(gè)人語料庫進(jìn)行短語級預(yù)測輸入的方法,該方法包括以下步驟收集用戶過往的輸入作為個(gè)人語料庫;將用戶過往的輸入以句子為單位進(jìn)行分詞,拆分為具有獨(dú)立意義的漢字以及詞;統(tǒng)計(jì)詞或由詞組成的短語前后出現(xiàn)的頻率,計(jì)算詞或短語緊接著出現(xiàn)在前一詞之后的條件概率,形成反映該用戶獨(dú)特語言習(xí)慣的概率文件;當(dāng)用戶后續(xù)進(jìn)行輸入時(shí),在輸入了開頭的詞或短語之后,根據(jù)所述概率文件預(yù)測出用戶所可能期望輸入的后續(xù)詞、短語或句子,以便用戶進(jìn)行選擇和快速輸入。因此,用戶在輸入時(shí),只需要輸入開頭的漢字或詞,即可根據(jù)概率文件得到后續(xù)的可能候選詞、短語或句子,便于提高輸入效率。
文檔編號(hào)G06F3/048GK101833547SQ200910118458
公開日2010年9月15日 申請日期2009年3月9日 優(yōu)先權(quán)日2009年3月9日
發(fā)明者萬磊, 何亮, 葉松 申請人:三星電子(中國)研發(fā)中心;三星電子株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
三台县| 阿巴嘎旗| 鹤壁市| 平邑县| 山阴县| 吉木乃县| 平南县| 台北县| 东阿县| 繁峙县| 仙游县| 佳木斯市| 溆浦县| 沧源| 榆树市| 湖州市| 泾阳县| 平阳县| 岳池县| 霍林郭勒市| 井陉县| 中江县| 花垣县| 泾源县| 葵青区| 星座| 锡林浩特市| 兰州市| 剑川县| 米泉市| 嘉鱼县| 正定县| 肥西县| 彭州市| 汾阳市| 赣州市| 浪卡子县| 即墨市| 霍山县| 准格尔旗| 家居|