專利名稱:獲取新編碼字符串的方法及輸入法系統(tǒng)、詞庫(kù)生成裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及輸入法領(lǐng)域,特別是涉及一種獲取輸入法字詞的新編碼字符串的方法及輸入法系統(tǒng)、詞庫(kù)生成裝置。
背景技術(shù):
現(xiàn)有的輸入法系統(tǒng)都是根據(jù)用戶輸入的編碼字符串,匹配得到用戶所需的字詞,例如,中文、目文以及韓文等等輸入法系統(tǒng)。在現(xiàn)有輸入法的系統(tǒng)詞庫(kù)中為每一個(gè)字詞設(shè)定了一個(gè)相應(yīng)的編碼字符串,用戶只有輸入正確的編碼字符串才能獲得所需的字詞。
但是用戶對(duì)于正確的編碼字符串有一個(gè)學(xué)習(xí)的過(guò)程,很難保證用戶認(rèn)知的所有編碼字符串與字詞的對(duì)應(yīng)都是正確的,所以現(xiàn)有的輸入法系統(tǒng)為了提高容錯(cuò)性和滿足一些用戶對(duì)編碼字符串的習(xí)慣,提出了模糊音的解決方案,例如,z=zh,s=sh,in=ing等等。模糊音的解決方案固然可以解決一些由于南北語(yǔ)言習(xí)慣導(dǎo)致的相同字詞對(duì)應(yīng)的編碼字符串存在差異的問題。
但是由于各地區(qū)都有各自的方言(尤其對(duì)于中文這樣方言眾多的文字而言),這樣當(dāng)用戶利用拼音碼輸入字詞,多多少少在輸入編碼時(shí)都會(huì)存在著不太準(zhǔn)確的問題,上述模糊音解決方案并不能解決所有的問題。例如,“折了”一詞,有的用戶習(xí)慣輸入“shele”、有的用戶習(xí)慣輸入“zhele”;“落下”一詞,有的情況需要輸入“l(fā)axia”、有的情況需要輸入“l(fā)uoxia”;“和牌”一詞對(duì)應(yīng)的“hupai”和“hepai”;這些都無(wú)法通過(guò)模糊音的方式解決。輸入法系統(tǒng)詞庫(kù)中不可能獲知所有的方言習(xí)慣,所以需要用戶多次從候選字詞中排序靠后的位置選取所需字詞,嚴(yán)重影響用戶的輸入速度。
因此,如何盡快盡多的獲知用戶的方言習(xí)慣用法,提高此時(shí)的輸入法系統(tǒng)首選詞的命中率,成為本領(lǐng)域技術(shù)人員迫切需要解決的技術(shù)問題之一。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種獲取輸入法字詞的新編碼字符串的方法及裝置,能夠獲取各用戶使用的新編碼字符串,并匯總生成詞庫(kù),從而可以滿足用戶的新編碼字符串的習(xí)慣用法,提高用戶首選詞的命中率。
本發(fā)明的另一目的在于,提供一種輸入法系統(tǒng),可以簡(jiǎn)單方便、及時(shí)有效的自動(dòng)獲取該用戶針對(duì)一些字詞習(xí)慣使用的編碼字符串,通過(guò)比較即可獲取各用戶使用的新編碼字符串。
本發(fā)明的另一目的還在于提供一種詞庫(kù)生成裝置,可以高效率的提供比較準(zhǔn)確的、包括適合用戶輸入習(xí)慣的新編碼字符串的全詞庫(kù)或者新詞庫(kù)。
為解決上述技術(shù)問題,本發(fā)明提供了一種獲取輸入法字詞的新編碼字符串的方法,包括提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串;將用戶所選字詞、用戶輸入的編碼字符串與現(xiàn)有詞庫(kù)進(jìn)行比對(duì),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有現(xiàn)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
優(yōu)選的,所述的方法,還包括將用戶所選字詞、用戶輸入的編碼字符串記錄至用戶詞庫(kù);并在用戶輸入過(guò)程中,記錄用戶詞頻至用戶詞庫(kù),所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息。
優(yōu)選的,所述的方法,還包括根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,分別加以相應(yīng)的權(quán)重修正后統(tǒng)計(jì)詞頻信息,得到用戶詞頻。
優(yōu)選的,所述的方法,還包括收集各個(gè)用戶的具有新編碼字符串的字詞記錄,所述記錄包括該字詞、相應(yīng)的新編碼字符串以及相應(yīng)的詞頻信息;去除重復(fù)的字詞記錄。
優(yōu)選的,所述的方法,還包括計(jì)算用戶累積詞頻;去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
優(yōu)選的,所述的方法,還包括統(tǒng)計(jì)過(guò)濾后的字詞記錄中的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
優(yōu)選的,所述的方法,還包括比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
優(yōu)選的,所述的方法,還包括根據(jù)過(guò)濾后的字詞記錄生成新詞庫(kù)或者將過(guò)濾后的字詞記錄添加至原有詞庫(kù),得到新詞庫(kù)或者新版的全詞庫(kù)。
其中,所述收集的信息還包括用戶所在的區(qū)域信息,將用戶劃分為若干區(qū)域;針對(duì)每個(gè)區(qū)域進(jìn)行過(guò)濾步驟;針對(duì)每個(gè)區(qū)域生成區(qū)域新詞庫(kù)或者新版的區(qū)域全詞庫(kù)。
優(yōu)選的,通過(guò)以下步驟獲得預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行權(quán)重賦值;將權(quán)重值大于或者等于預(yù)置閾值的互聯(lián)網(wǎng)頁(yè)面存儲(chǔ)至互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)。
所述收集為輸入法計(jì)算設(shè)備實(shí)時(shí)或者定時(shí)的將用戶的具有新編碼字符串的字詞記錄發(fā)送至收集計(jì)算設(shè)備。
本發(fā)明還提供了一種獲取輸入法字詞的新編碼字符串的方法,包括提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串,并存儲(chǔ)至用戶詞庫(kù);收集各個(gè)用戶的用戶詞庫(kù);對(duì)比所述收集的用戶詞庫(kù)和輸入法現(xiàn)有詞庫(kù),所述系統(tǒng)詞庫(kù)中存儲(chǔ)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
優(yōu)選的,所述的方法,還包括所述用戶詞庫(kù)中還包括用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;計(jì)算用戶累積詞頻;去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
其中,所述預(yù)置的規(guī)則為如果用戶所選字詞在現(xiàn)有詞庫(kù)中存在,但是用戶輸入的編碼字符串與現(xiàn)有詞庫(kù)中存儲(chǔ)的該字詞相應(yīng)的編碼字符串不同,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串;或者,如果用戶所選字詞及用戶輸入的編碼字符串在現(xiàn)有詞庫(kù)中都存在,則進(jìn)一步比較該字詞相應(yīng)的編碼字符串的用戶累積詞頻和系統(tǒng)詞頻,所述系統(tǒng)詞頻為在現(xiàn)有詞庫(kù)中預(yù)置的現(xiàn)有字詞相應(yīng)的詞頻信息,如果用戶累積詞頻與系統(tǒng)詞頻的比值大于或者等于預(yù)定閾值,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串。
優(yōu)選的,所述的方法,還包括統(tǒng)計(jì)具有新編碼字符串的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
優(yōu)選的,所述的方法,還包括比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
本發(fā)明還提供了一種輸入法系統(tǒng),包括輸入接口單元、顯示單元以及系統(tǒng)詞庫(kù),還包括字詞提取單元,與輸入法系統(tǒng)相連,用于提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串;字詞比對(duì)單元,與字詞提取單元相連,用于將用戶所選字詞、用戶輸入的編碼字符串與系統(tǒng)詞庫(kù)進(jìn)行比對(duì),所述系統(tǒng)詞庫(kù)中存儲(chǔ)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
優(yōu)選的,所述輸入法系統(tǒng)的輸入接口單元、顯示單元以及系統(tǒng)詞庫(kù)位于同一計(jì)算設(shè)備中;或者所述輸入法系統(tǒng)的輸入接口單元、顯示單元位于第一計(jì)算設(shè)備中,系統(tǒng)詞庫(kù)位于第二計(jì)算設(shè)備中,所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計(jì)算設(shè)備中獲取相應(yīng)信息,在第一計(jì)算設(shè)備顯示相應(yīng)字符。
優(yōu)選的,所述的輸入法系統(tǒng),還包括通信單元,用于實(shí)時(shí)或者定時(shí)的發(fā)送具有新編碼字符串的字詞記錄,所述字詞記錄包括該字詞以及其相應(yīng)的新編碼字符串。
優(yōu)選的,所述的輸入法系統(tǒng),還包括詞頻記錄單元,與輸入法系統(tǒng)相連,用于在用戶輸入過(guò)程中,記錄用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;用戶詞庫(kù),用于存儲(chǔ)用戶所選字詞、用戶輸入的編碼字符串及其相應(yīng)的用戶詞頻。
優(yōu)選的,所述的輸入法系統(tǒng),還包括應(yīng)用程序判斷單元,用于判斷用戶輸入的當(dāng)前應(yīng)用程序,并將判斷結(jié)果發(fā)送至詞頻記錄單元;詞頻記錄單元,與輸入法系統(tǒng)相連,用于在用戶輸入過(guò)程中,根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,分別加以相應(yīng)的權(quán)重修正后統(tǒng)計(jì)詞頻信息,得到用戶詞頻。
本發(fā)明還提供了一種詞庫(kù)生成裝置,包括字詞收集單元,用于收集各個(gè)用戶的具有新編碼字符串的字詞記錄,所述字詞記錄包括該字詞以及其相應(yīng)的新編碼字符串;第一過(guò)濾單元,用于去除重復(fù)的字詞記錄;詞庫(kù)生成單元,用于根據(jù)過(guò)濾后的字詞記錄生成新詞庫(kù)或者將過(guò)濾后的字詞記錄添加至原有詞庫(kù),得到新詞庫(kù)或者新版的全詞庫(kù)。
優(yōu)選的,所述的裝置,還包括詞頻收集單元,用于收集用戶輸入行為中的用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;累積詞頻計(jì)算單元,用于計(jì)算用戶累積詞頻;第二過(guò)濾單元,用于去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
優(yōu)選的,所述的裝置,還包括統(tǒng)計(jì)單元,用于統(tǒng)計(jì)過(guò)濾后的字詞記錄中的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
優(yōu)選的,所述的裝置,還包括詞頻分配單元用于比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
本發(fā)明還提供了一種詞庫(kù)生成裝置,包括收集單元,用于收集各用戶的輸入行為信息,所述輸入行為信息包括用戶選擇的字詞,用戶輸入的編碼字符串以及相應(yīng)的用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;累積詞頻計(jì)算單元,對(duì)字詞與編碼字符串整體相應(yīng)的各用戶詞頻進(jìn)行權(quán)重修正,計(jì)算該字詞與編碼字符串整體用戶累積詞頻;詞庫(kù)生成單元,所述詞庫(kù)包括字詞、編碼字符串及其相應(yīng)的詞頻信息。
優(yōu)選的,所述的裝置,還包括比對(duì)單元,用于對(duì)比所述生成的詞庫(kù)和現(xiàn)有詞庫(kù),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有字詞、編碼字符串及其相應(yīng)的系統(tǒng)詞頻;確定單元,用于根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
優(yōu)選的,所述的裝置,還包括過(guò)濾單元,用于去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。統(tǒng)計(jì)單元,統(tǒng)計(jì)具有新編碼字符串的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻;詞頻分配單元用于比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
或者,優(yōu)選的,所述的裝置,還包括比對(duì)單元,用于對(duì)比所述生成的詞庫(kù)和現(xiàn)有詞庫(kù),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有字詞、編碼字符串及其相應(yīng)的系統(tǒng)詞頻;確定單元,用于確定過(guò)期字詞;所述過(guò)期字詞為在所述生成的詞庫(kù)中不存在,但是在現(xiàn)有詞庫(kù)中存在的字詞,或者所述過(guò)期字詞為在所述生成的詞庫(kù)中用戶累積詞頻符合預(yù)置條件的字詞。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)首先,本發(fā)明提出了分布式的架構(gòu),包括多個(gè)用戶端和一個(gè)收集端,通過(guò)在用戶端提取用戶輸入的字詞和編碼字符串,通過(guò)和現(xiàn)有詞庫(kù)比較,從而得知適合該用戶使用習(xí)慣的新編碼字符串;然后收集匯總各用戶的新編碼字符串及其對(duì)應(yīng)字詞,分析過(guò)濾后即可獲得具有普遍意義的新編碼字符串;本發(fā)明從用戶輸入的角度提供解決方案,能夠及時(shí)的、較為全面的獲悉用戶在輸入過(guò)程中的使用的新編碼字符串,包括反映用戶的方言習(xí)慣的新編碼字符串,以及未知的、無(wú)法想象到的,但是用戶經(jīng)常使用的新編碼字符串,進(jìn)而提高首選詞的準(zhǔn)確率。
其次,本發(fā)明將獲得的新編碼字符串及其字詞放置到一精選互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中,對(duì)其出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),得到互聯(lián)網(wǎng)詞頻;并根據(jù)用戶詞頻在該字詞新舊編碼字符串上的分布,將互聯(lián)網(wǎng)詞頻修正后分別賦予新舊編碼字符串,則可以得到最科學(xué)的詞頻結(jié)果,從而避免由于部分用戶的使用習(xí)慣而影響其他正常用戶的輸入效率和輸入體驗(yàn)。
最后,本發(fā)明還可以用于只收集統(tǒng)計(jì)一定區(qū)域的用戶的新編碼字符串,得到該區(qū)域內(nèi)用戶的語(yǔ)言習(xí)慣或者編碼習(xí)慣,從而可以提供各個(gè)區(qū)域不同的發(fā)音或者編碼版本的輸入法系統(tǒng)或者在輸入法系統(tǒng)中讓用戶設(shè)定自己所在的區(qū)域,則該輸入法系統(tǒng)可以方便各種習(xí)慣使用區(qū)域思考習(xí)慣的用戶較快較準(zhǔn)的得到所需字詞。
圖1是所述獲取輸入法字詞的新編碼字符串的方法的一種優(yōu)選實(shí)施例的步驟流程圖;圖2是另一種獲取輸入法字詞的新編碼字符串的方法的步驟流程圖;圖3是所述輸入法系統(tǒng)的結(jié)構(gòu)框圖;圖4是所述詞庫(kù)生成裝置的結(jié)構(gòu)框圖;圖5是用于確定新編碼字符串的詞庫(kù)生成裝置的結(jié)構(gòu)框圖;圖6是用于確定過(guò)期字詞的詞庫(kù)生成裝置的結(jié)構(gòu)框圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。
參照?qǐng)D1,是本發(fā)明所述獲取輸入法字詞的新編碼字符串的方法的一種優(yōu)選實(shí)施例的步驟流程圖,包括以下步驟步驟101、在用戶輸入過(guò)程中,提取用戶選擇的字詞,以及用戶輸入的編碼字符串。
步驟101可以通過(guò)輸入法系統(tǒng)完成,輸入法系統(tǒng)可以在用戶輸入過(guò)程中,采用任何可行的方式提取用戶選擇的字詞,以及用戶輸入的編碼字符串。提取得到的信息可以直接進(jìn)行步驟102,或者先存儲(chǔ)至用戶詞庫(kù),間隔一定時(shí)間之后將用戶詞庫(kù)與系統(tǒng)詞庫(kù)進(jìn)行比對(duì)。
對(duì)于需要通過(guò)編碼輸入文字的語(yǔ)言而言,用戶都需要輸入編碼字符串,并在候選詞中選擇需要的字詞,從而完成輸入。步驟101就是記錄用戶的輸入行為信息之一--用戶所選擇的字詞及其輸入的編碼字符串。所述編碼字符串可以為拼音碼也可以為字形碼,即本發(fā)明可以適用與各種輸入法,當(dāng)然,優(yōu)選適用與采用音碼輸入的中文輸入法。
用戶所選字詞中會(huì)包括一些該用戶采用方言習(xí)慣標(biāo)注拼音碼的字詞,例如“折了”,用戶輸入自認(rèn)為正確的編碼字符串--“zhele”;但是輸入法原有的詞庫(kù)中該字詞對(duì)應(yīng)的字符串為“shele”,所以在候選詞中無(wú)法直接顯示給用戶,用戶需要對(duì)每個(gè)字進(jìn)行選擇從而得到需要的詞匯。這樣的詞還有很多,例如,調(diào)頭“diaotou”、“tiaotou”;尿尿“niaoniao”、“niaosui”等等,還有許多我們無(wú)法統(tǒng)計(jì)的情況。通過(guò)本發(fā)明就可以盡快盡多的發(fā)現(xiàn)這樣的新編碼字符串,從而提高用戶輸入中首選詞的準(zhǔn)確率。
再者,用戶還可以通過(guò)輸入法提供的人工造詞功能(例如微軟拼音輸入法或者雙拼輸入法),創(chuàng)造一些原有詞庫(kù)中沒有,但是該用戶需要使用的字詞對(duì)應(yīng)的新編碼字符串,這樣用戶在輸入過(guò)程中才可以選擇到所需的字詞。例如,“繁峙”這個(gè)詞,是山西一地名,在輸入法中一般對(duì)應(yīng)的編碼字符串是“fanshi”,“峙”這個(gè)字在輸入法中一般對(duì)應(yīng)的編碼字符串為“shi、zhi”兩個(gè),但是該區(qū)域的當(dāng)?shù)厝艘话懔?xí)慣使用“fansi”來(lái)標(biāo)識(shí)“繁峙”,但是現(xiàn)有輸入法中“峙”這個(gè)字一般沒有“si”這樣的對(duì)應(yīng)編碼,所以用戶可以通過(guò)人工造詞功能實(shí)現(xiàn)“峙”和“si”的對(duì)應(yīng),或者“繁峙”和“fansi”的對(duì)應(yīng)。通過(guò)本發(fā)明也能夠從用戶所選擇輸入的字詞及其編碼字符串中挑選出該用戶針對(duì)該字詞自造的編碼字符串。
步驟102、將用戶所選字詞、用戶輸入的編碼字符串與現(xiàn)有詞庫(kù)進(jìn)行比對(duì),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有現(xiàn)有字詞及其相應(yīng)的編碼字符串。在下面的描述中,本說(shuō)明書統(tǒng)一采用系統(tǒng)詞庫(kù)代理現(xiàn)有詞庫(kù)進(jìn)行說(shuō)明,因?yàn)橐话愕南到y(tǒng)詞庫(kù)中就存儲(chǔ)有現(xiàn)有字詞及其相應(yīng)的編碼字符串。
步驟103、如果用戶所選字詞在系統(tǒng)詞庫(kù)中存在,但是用戶輸入的編碼字符串與系統(tǒng)詞庫(kù)中存儲(chǔ)的該字詞相應(yīng)的編碼字符串不同,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串。
通過(guò)以上步驟101-103就可以簡(jiǎn)單、方便的自動(dòng)獲知該用戶的編碼習(xí)慣。然后采取各種方式收集多個(gè)用戶的新編碼字符串及其相應(yīng)的字詞,去除重復(fù)的字詞記錄等過(guò)濾步驟之后,就可以得到具有普遍意義上的新編碼字符串。
所述收集可以為輸入法用戶計(jì)算設(shè)備實(shí)時(shí)或者定時(shí)的將該用戶的新編碼字符串及其相應(yīng)的字詞發(fā)送至字詞收集計(jì)算設(shè)備中,即優(yōu)選的,輸入法計(jì)算設(shè)備具有一個(gè)自動(dòng)發(fā)送的模塊。優(yōu)選的,所述收集計(jì)算設(shè)備以服務(wù)器的形式存在。
所述收集還可以為輸入法用戶定時(shí)或者不定時(shí)的將自己的新編碼字符串及其相應(yīng)的字詞發(fā)送至收集端,即所述發(fā)送由用戶人工發(fā)起,例如,各用戶將自己的新編碼字符串及其相應(yīng)的字詞發(fā)送至統(tǒng)一的郵件地址或者統(tǒng)一的服務(wù)器中實(shí)現(xiàn)收集。
當(dāng)然,如果用戶將新編碼字符串及其相應(yīng)的字詞存儲(chǔ)在用戶詞庫(kù)或者系統(tǒng)詞庫(kù)的情況時(shí),可以將該存儲(chǔ)有用戶個(gè)性字詞的詞庫(kù)實(shí)時(shí)或者定時(shí)的發(fā)送至收集計(jì)算設(shè)備,例如,各個(gè)用戶通過(guò)定時(shí)或者不定時(shí)的將詞庫(kù)在服務(wù)器備份即可實(shí)現(xiàn)收集。
再者,對(duì)于網(wǎng)絡(luò)輸入法(僅僅提供給用戶輸入接口和顯示接口,通過(guò)連接服務(wù)器完成整個(gè)輸入過(guò)程)而言,其用戶新編碼字符串及其相應(yīng)的字詞的收集就更簡(jiǎn)單了,因?yàn)榇藭r(shí)用戶使用的輸入法系統(tǒng)本身就是一個(gè)服務(wù)器,可以供多個(gè)用戶使用,在使用過(guò)程中就可以收集各用戶的輸入行為信息了。
實(shí)際上,本發(fā)明采用任何能夠?qū)崿F(xiàn)信息收集的方式都是可行的,不再一一列舉說(shuō)明。
為了達(dá)到最佳的效果,圖1示出一個(gè)優(yōu)選于上述步驟的實(shí)施例。圖1所示的優(yōu)選實(shí)施例中,步驟101還包括在用戶輸入過(guò)程中,記錄用戶詞頻至用戶詞庫(kù),所述用戶詞頻為用戶所輸入的編碼字符串相應(yīng)的頻率信息。則得到的用戶詞庫(kù)中包括多條字詞記錄,所述字詞記錄包括該字詞、相應(yīng)的新編碼字符串以及相應(yīng)的用戶詞頻。優(yōu)選的,步驟101采集用戶詞頻的過(guò)程可以為根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,分別加以相應(yīng)的權(quán)重修正后統(tǒng)計(jì)詞頻信息,得到用戶詞頻。
圖1所示的優(yōu)選實(shí)施例中,還包括步驟104、收集各個(gè)用戶的具有新編碼字符串的字詞記錄,所述記錄包括該字詞、相應(yīng)的新編碼字符串以及相應(yīng)的用戶詞頻;步驟105、去除重復(fù)的字詞記錄。
步驟106、計(jì)算編碼字符串相應(yīng)的用戶累積詞頻;所述用戶累積詞頻的計(jì)算過(guò)程可以通過(guò)簡(jiǎn)單疊加各用戶的用戶詞頻即可獲得收集匯總后的該字詞的用戶累積詞頻。
所述用戶累積詞頻的計(jì)算過(guò)程也可以對(duì)字詞相應(yīng)的各用戶詞頻分別進(jìn)行權(quán)重修正,計(jì)算各字詞的用戶累積詞頻;所述權(quán)重修正可以通過(guò)對(duì)某一字詞相應(yīng)的各用戶詞頻進(jìn)行分析后完成,例如,首先對(duì)該字詞相應(yīng)的各用戶詞頻進(jìn)行分析,找到分布趨勢(shì),通過(guò)某個(gè)詞頻值出現(xiàn)的概率或者該詞頻值距離平均范圍的大小對(duì)其進(jìn)行修正。上述修正后計(jì)算得到的用戶累積詞頻,可以去除一些用戶的偶然行為或者惡意行為,得到比價(jià)客觀、準(zhǔn)確的用戶累積詞頻,進(jìn)而保證詞庫(kù)的準(zhǔn)確性。
步驟107、去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。該步驟可以去除一些不具有普遍意義的個(gè)別用戶的特殊輸入習(xí)慣,可以保證獲取的新編碼字符串的客觀性和準(zhǔn)確性。
步驟108、統(tǒng)計(jì)過(guò)濾后的字詞記錄中的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
上述步驟105-108的順序并不是限定的,各步驟之間并沒有嚴(yán)格的前后順序,所以上述步驟105-108的順序僅僅是一個(gè)示意而已,本領(lǐng)域技術(shù)人員可以根據(jù)需要自行調(diào)整即可,并不影響本發(fā)明的核心構(gòu)思。
其中,步驟108之前還可以包括權(quán)重賦予步驟對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行權(quán)重賦值;將權(quán)重值大于或者等于預(yù)置閾值的互聯(lián)網(wǎng)頁(yè)面存儲(chǔ)至互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)。該過(guò)程為可選步驟,其目的是為了獲得一個(gè)精選的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù),從而可以保證對(duì)新詞篩選的準(zhǔn)確性。當(dāng)然,也可以采用其他方法形成預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)。
在權(quán)重賦予的步驟中,根據(jù)網(wǎng)頁(yè)形成的時(shí)間和網(wǎng)頁(yè)的類型賦予相應(yīng)的權(quán)重值是一個(gè)比較重要的情形。因?yàn)閷?duì)于互聯(lián)網(wǎng)詞頻統(tǒng)計(jì)而言,網(wǎng)頁(yè)時(shí)間對(duì)其的影響非常重要,所以網(wǎng)頁(yè)時(shí)間對(duì)權(quán)重值的影響也就較大,距離詞頻統(tǒng)計(jì)的時(shí)間點(diǎn)越遠(yuǎn),則權(quán)重值就越低,如果時(shí)間差大于一定的值,則可以賦予該網(wǎng)頁(yè)較低的權(quán)重值,甚至排除在詞頻統(tǒng)計(jì)之外。其次網(wǎng)頁(yè)類型對(duì)詞頻統(tǒng)計(jì)的影響也很大,所述網(wǎng)頁(yè)類型一般是指門戶網(wǎng)站、論壇或者其他一些已經(jīng)確定的網(wǎng)頁(yè),這些網(wǎng)頁(yè)的權(quán)重值就較高,因?yàn)檫@些網(wǎng)頁(yè)中參與者較多、信息更新較快、能夠較好的反應(yīng)詞頻的最新變化趨勢(shì)。對(duì)于網(wǎng)頁(yè)類型的判定,可以通過(guò)設(shè)定一個(gè)規(guī)則庫(kù),該庫(kù)中存儲(chǔ)了一些網(wǎng)頁(yè)的URL地址,從而確定這些URL的網(wǎng)頁(yè)是對(duì)詞頻統(tǒng)計(jì)比較重要的,在這些網(wǎng)頁(yè)上出現(xiàn)的字詞會(huì)是優(yōu)選統(tǒng)計(jì)的,則對(duì)該網(wǎng)頁(yè)賦予更大的權(quán)重值。
其次,本發(fā)明還可以通過(guò)賦予較低權(quán)重值的方式去除一些重復(fù)網(wǎng)頁(yè)、黃色網(wǎng)頁(yè)和垃圾網(wǎng)頁(yè),從而可以進(jìn)一步保證新詞驗(yàn)證的準(zhǔn)確性。
通過(guò)步驟108得到字詞的互聯(lián)網(wǎng)詞頻后,可以設(shè)置詞庫(kù)包括字詞、字詞相應(yīng)的互聯(lián)網(wǎng)詞頻、以及該字詞相應(yīng)的用戶累積詞頻。例如,“重重”一詞在詞庫(kù)就具有一個(gè)互聯(lián)網(wǎng)詞頻和兩個(gè)用戶累積詞頻,分別對(duì)應(yīng)“chongchong”“zhongzhong”。采用互聯(lián)網(wǎng)詞頻可以提高詞頻的準(zhǔn)確度,但是由于字詞在互聯(lián)網(wǎng)中無(wú)法體現(xiàn)編碼字符串,故可以通過(guò)用戶累積詞頻來(lái)體現(xiàn)用戶的輸入習(xí)慣,提高首選詞的命中率。
當(dāng)然,也可以不需要步驟108,則設(shè)置詞庫(kù)包括字詞、字詞原來(lái)的詞頻、以及該字詞相應(yīng)的用戶累積詞頻即可。
上述一個(gè)字詞對(duì)應(yīng)兩個(gè)詞頻使用過(guò)程比較復(fù)雜,需要兩類詞頻數(shù)據(jù)配合使用才可以達(dá)到最佳的效果,為了進(jìn)一步簡(jiǎn)化,圖1所示的優(yōu)選實(shí)施例還可以包括步驟109,將上述兩類詞頻數(shù)據(jù)調(diào)整為一種詞頻數(shù)據(jù)。
步驟109、根據(jù)該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻的比例,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
即認(rèn)為互聯(lián)網(wǎng)中出現(xiàn)的字詞對(duì)應(yīng)了兩個(gè)或者多個(gè)相應(yīng)編碼字符串,根據(jù)用戶輸入該編碼字符串的累積詞頻的不同,將反映該字詞總詞頻的互聯(lián)網(wǎng)詞頻分配至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串,從而客觀、準(zhǔn)確的體現(xiàn)用戶的輸入習(xí)慣,提高用戶輸入過(guò)程中首選詞的準(zhǔn)確率。
當(dāng)然,步驟109在互聯(lián)網(wǎng)詞頻的分配上僅僅給出了一個(gè)例子,而實(shí)際應(yīng)用中,在互聯(lián)網(wǎng)驗(yàn)證后的詞頻分配上,原編碼詞頻和新編碼詞頻的比較方法可以有很多種,例如,線性、非線性、平滑調(diào)整等等,然后計(jì)算出一個(gè)比例,再分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串,在此不進(jìn)行詳述了。
步驟1010、根據(jù)過(guò)濾后的字詞記錄生成新詞庫(kù)或者將過(guò)濾后的字詞記錄添加至原有詞庫(kù),得到新詞庫(kù)或者新版的全詞庫(kù)。所述字詞記錄包括該字詞、相應(yīng)的新編碼字符串以及相應(yīng)的詞頻信息。
圖1所示實(shí)施例可以用于收集全國(guó)范圍內(nèi)的用戶新編碼字符串,然后得出適合大多數(shù)人使用的新詞庫(kù)或者新版的全詞庫(kù),從而提高各區(qū)域用戶的輸入體驗(yàn)。
圖1所示實(shí)施例還可以用于以下情況收集的仍然是全國(guó)范圍內(nèi)的用戶新編碼字符串,所述收集的信息還包括用戶所在的區(qū)域信息,將用戶劃分為若干區(qū)域;針對(duì)每個(gè)區(qū)域進(jìn)行過(guò)濾步驟;針對(duì)每個(gè)區(qū)域生成區(qū)域新詞庫(kù)或者新版的區(qū)域全詞庫(kù)。即可以分別統(tǒng)計(jì)各個(gè)區(qū)域的人們的不同的發(fā)音,提供各個(gè)區(qū)域不同的編碼版本的輸入法系統(tǒng)或者在輸入法系統(tǒng)中讓用戶設(shè)定自己所在的區(qū)域,從而更加個(gè)性的滿足各區(qū)域內(nèi)用戶的編碼輸入習(xí)慣。
上述步驟得到的新詞庫(kù)或者新版的全詞庫(kù),可以用于更新輸入法。
例如,用于更新普通輸入法設(shè)置包含系統(tǒng)詞庫(kù)的輸入法系統(tǒng)位于第一計(jì)算設(shè)備中,得到的新詞庫(kù)或者新版的全詞庫(kù)位于第二計(jì)算設(shè)備中;需要更新詞庫(kù)的輸入法系統(tǒng)通過(guò)第一計(jì)算設(shè)備連接所述第二計(jì)算設(shè)備完成系統(tǒng)詞庫(kù)的更新。
所述存儲(chǔ)得到的新詞庫(kù)或者新版的全詞庫(kù)的第二計(jì)算設(shè)備可以通過(guò)服務(wù)器的形式存在于網(wǎng)絡(luò)中,向其他任何需要輸入法新詞信息的客戶端程序提供詞庫(kù)更新服務(wù)。當(dāng)然,并不需要一定通過(guò)固定服務(wù)器的形式出現(xiàn),也可以存在于某個(gè)本地計(jì)算設(shè)備中,通過(guò)P2P(點(diǎn)對(duì)點(diǎn))技術(shù)向其他終端的任何需要輸入法新詞信息的客戶端程序提供詞庫(kù)更新服務(wù)。
上述更新的實(shí)施例中,所述更新的方式可以為當(dāng)輸入法系統(tǒng)更新時(shí),同時(shí)更新所述系統(tǒng)詞庫(kù);或者,由服務(wù)器主動(dòng)推送的方式進(jìn)行系統(tǒng)詞庫(kù)的在線更新;或者,由用戶發(fā)起請(qǐng)求,服務(wù)器根據(jù)請(qǐng)求返回?cái)?shù)據(jù)進(jìn)行系統(tǒng)詞庫(kù)的更新。當(dāng)然,也可以采用移動(dòng)存儲(chǔ)器更新的方式或者版本更新的方式??傊梢圆捎酶鞣N數(shù)據(jù)更新的方式,本發(fā)明對(duì)此并不加以限定,本領(lǐng)域技術(shù)人員可以根據(jù)需要選擇即可。
再例如,用于更新網(wǎng)絡(luò)輸入法設(shè)置輸入法系統(tǒng)中用于接收用戶輸入信息和顯示相應(yīng)字符的單元位于第一計(jì)算設(shè)備中;得到的新詞庫(kù)或者新版的全詞庫(kù)為輸入法系統(tǒng)的系統(tǒng)詞庫(kù),所述系統(tǒng)詞庫(kù)位于第二計(jì)算設(shè)備中;所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計(jì)算設(shè)備中的系統(tǒng)詞庫(kù)獲取相應(yīng)信息,在第一計(jì)算設(shè)備顯示相應(yīng)字符,完成文字輸入。
上例中可以直接將根據(jù)本發(fā)明獲得的新詞庫(kù)或者新版的全詞庫(kù)直接作為輸入法系統(tǒng)的系統(tǒng)詞庫(kù),則可以實(shí)現(xiàn)在線詞庫(kù)使用,而不需要更新操作了。其中,將輸入法系統(tǒng)分為了兩部分,接收和顯示單元位于第一計(jì)算設(shè)備,詞庫(kù)信息則位于第二計(jì)算設(shè)備,可以完美的實(shí)現(xiàn)輸入法的在線應(yīng)用;當(dāng)然,對(duì)于輸入法系統(tǒng)需要的編碼匹配過(guò)程可以根據(jù)需要任意設(shè)置在某個(gè)計(jì)算設(shè)備中均可。
參照?qǐng)D2,為本發(fā)明另一種獲取輸入法字詞的新編碼字符串的方法的步驟流程圖,包括以下步驟步驟201、提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串,并存儲(chǔ)至用戶詞庫(kù);步驟202、收集各個(gè)用戶的用戶詞庫(kù);步驟203、對(duì)比所述收集的用戶詞庫(kù)和輸入法系統(tǒng)詞庫(kù),所述系統(tǒng)詞庫(kù)中存儲(chǔ)有字詞及其相應(yīng)的編碼字符串;步驟204、根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
如果用戶所選字詞在系統(tǒng)詞庫(kù)中存在,但是用戶輸入的編碼字符串與系統(tǒng)詞庫(kù)中存儲(chǔ)的該字詞相應(yīng)的編碼字符串不同,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串。
或者所述預(yù)置的規(guī)則也可以為如果用戶所選字詞及用戶輸入的編碼字符串在現(xiàn)有詞庫(kù)中都存在,則進(jìn)一步比較該字詞相應(yīng)的編碼字符串的用戶累積詞頻和系統(tǒng)詞頻,所述系統(tǒng)詞頻為在現(xiàn)有詞庫(kù)中預(yù)置的現(xiàn)有字詞相應(yīng)的詞頻信息,如果用戶累積詞頻與系統(tǒng)詞頻的比值大于或者等于預(yù)定閾值,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串。
本領(lǐng)域技術(shù)人員也可以將上述的預(yù)置規(guī)則進(jìn)行結(jié)合而加以使用,也可以根據(jù)需要自行設(shè)定規(guī)則,本發(fā)明并不加以限定。
圖2所示實(shí)施例與圖1所示實(shí)施例的構(gòu)思基本相似,主要區(qū)別在于,先收集多個(gè)用戶的用戶詞庫(kù),再統(tǒng)一進(jìn)行比對(duì),根據(jù)比對(duì)結(jié)果獲取用戶的新編碼字符串;該方式可以減少比對(duì)計(jì)算的次數(shù),并可以減少本地輸入法系統(tǒng)的負(fù)擔(dān),可以直接用于現(xiàn)有的輸入法系統(tǒng),但是由于匯集了大量用戶所選字詞之后才進(jìn)行比對(duì),會(huì)增加服務(wù)器的系統(tǒng)負(fù)擔(dān)。對(duì)于二者,本領(lǐng)域技術(shù)人員根據(jù)需要選擇使用即可。
優(yōu)選的,圖2所示的實(shí)施例還可以包括過(guò)濾步驟其中,所述用戶詞庫(kù)中還包括用戶詞頻,所述用戶詞頻為用戶所輸入的編碼字符串相應(yīng)的頻率信息;計(jì)算編碼字符串相應(yīng)的用戶累積詞頻;去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
優(yōu)選的,圖2所示的實(shí)施例還可以包括詞頻賦予步驟統(tǒng)計(jì)具有新編碼字符串的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻;比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
參照?qǐng)D3,為本發(fā)明一種輸入法系統(tǒng)的結(jié)構(gòu)框圖,包括輸入接口單元301、顯示單元302以及系統(tǒng)詞庫(kù)303,其特征在于,還包括字詞提取單元304,與輸入法系統(tǒng)相連,用于在用戶輸入過(guò)程中,提取用戶選擇的字詞,以及用戶輸入的編碼字符串;字詞比對(duì)單元305,與字詞提取單元304相連,用于將用戶所選字詞、用戶輸入的編碼字符串與系統(tǒng)詞庫(kù)進(jìn)行比對(duì),所述系統(tǒng)詞庫(kù)中存儲(chǔ)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
所述預(yù)置規(guī)則可以為如果用戶所選字詞在系統(tǒng)詞庫(kù)中存在,但是用戶輸入的編碼字符串與系統(tǒng)詞庫(kù)中存儲(chǔ)的該字詞相應(yīng)的編碼字符串不同,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串。
即上述輸入法系統(tǒng)除了用于普通的字詞輸入,還可以用于提取用戶的新編碼字符串。上述輸入法系統(tǒng)可以為普通輸入法系統(tǒng),例如,所述輸入法系統(tǒng)的輸入接口單元301、顯示單元302以及系統(tǒng)詞庫(kù)303位于同一計(jì)算設(shè)備中,該輸入法系統(tǒng)根據(jù)用戶輸入的編碼信息通過(guò)本地查詢匹配在本地顯示相應(yīng)字符。上述輸入法系統(tǒng)也可以為網(wǎng)絡(luò)輸入法系統(tǒng),例如,所述輸入法系統(tǒng)的輸入接口單元301、顯示單元302位于第一計(jì)算設(shè)備中,系統(tǒng)詞庫(kù)303位于第二計(jì)算設(shè)備中,所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計(jì)算設(shè)備中獲取相應(yīng)信息,在第一計(jì)算設(shè)備顯示相應(yīng)字符。
為了能夠?qū)⑻崛〉脑撚脩舻男戮幋a字符串發(fā)送至收集設(shè)備,進(jìn)而得到具有普遍意義上的新編碼字符串,則所述輸入法系統(tǒng)優(yōu)選的,還包括通信單元306,用于實(shí)時(shí)或者定時(shí)的發(fā)送具有新編碼字符串的字詞記錄,所述字詞記錄包括該字詞以及其相應(yīng)的新編碼字符串。
為了可以通過(guò)用戶詞頻對(duì)各用戶的新編碼字符串進(jìn)行過(guò)濾,得到客觀正確的結(jié)果,則所述輸入法系統(tǒng)優(yōu)選的,還包括詞頻記錄單元307,與輸入法系統(tǒng)相連,用于在用戶輸入過(guò)程中,記錄用戶詞頻,所述用戶詞頻為該用戶所輸入的編碼字符串相應(yīng)的頻率信息;用戶詞庫(kù)308,用于存儲(chǔ)用戶所選字詞、用戶輸入的編碼字符串及其相應(yīng)的用戶詞頻。
上述的輸入法系統(tǒng)中的輸入接口單元301最重要的是可以用于提供使用者進(jìn)行信息輸入、字詞選取的動(dòng)作;還可以用于進(jìn)行各種模式的切換工作,例如輸入語(yǔ)言的切換(如簡(jiǎn)體繁體、中文英文的切換)、輸入模式的切換(如單字輸入、詞輸入、句子輸入的切換)、輸入狀態(tài)的切換(如文字、標(biāo)點(diǎn)符號(hào)、特殊符號(hào)的切換)等等。顯示單元302以及系統(tǒng)詞庫(kù)303都為本領(lǐng)域技術(shù)人員所熟知之信息,在此不再詳述。
圖3所示的輸入法系統(tǒng),還可以包括應(yīng)用程序判斷單元309,用于判斷用戶輸入的當(dāng)前應(yīng)用程序,并將判斷結(jié)果發(fā)送至詞頻記錄單元307;所述詞頻記錄單元307,用于在用戶輸入過(guò)程中,根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,分別統(tǒng)計(jì)詞頻信息,并做相應(yīng)的權(quán)重修正,形成用戶詞頻。
即該輸入法系統(tǒng)可以根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,而分別加以相應(yīng)的權(quán)重賦值后統(tǒng)計(jì)詞頻,例如,由于本發(fā)明優(yōu)選的可以統(tǒng)計(jì)得到互聯(lián)網(wǎng)詞頻,故考慮到用戶在word中輸入的內(nèi)容難以在互聯(lián)網(wǎng)中出現(xiàn),則可以賦予較高的權(quán)重值;而用戶在網(wǎng)絡(luò)社區(qū)論壇輸入的字詞,因?yàn)榭梢詮幕ヂ?lián)網(wǎng)統(tǒng)計(jì)出來(lái),則可以賦予相對(duì)較低的權(quán)重值。
參照?qǐng)D4,是本發(fā)明一種詞庫(kù)生成裝置的結(jié)構(gòu)框圖,包括以下部件收集單元401,用于收集各個(gè)用戶的具有新編碼字符串的字詞記錄,所述字詞記錄包括該字詞以及其相應(yīng)的新編碼字符串。
所述詞庫(kù)生成裝置可以采用服務(wù)器實(shí)現(xiàn),所述收集可以采用前述的各種方式實(shí)現(xiàn)。所述用戶的具有新編碼字符串的字詞記錄可以通過(guò)輸入法獲取,自動(dòng)發(fā)送至收集單元401;也可以由用戶自行設(shè)定或者整理,發(fā)送至收集單元401;或者各用戶將其具有新編碼字符串的字詞記錄匯集至一固定的網(wǎng)絡(luò)空間,所述收集單元401從該網(wǎng)絡(luò)空間中獲取各個(gè)用戶的具有新編碼字符串的字詞記錄。即本實(shí)施例中的用戶具有新編碼字符串的字詞記錄并不一定是通過(guò)用戶輸入行為獲取的,也可以是用戶自行設(shè)定或者整理的。
第一過(guò)濾單元402,用于去除重復(fù)的字詞記錄;詞庫(kù)生成單元403,用于根據(jù)過(guò)濾后的字詞記錄生成新詞庫(kù)或者將過(guò)濾后的字詞記錄添加至原有詞庫(kù),得到新詞庫(kù)或者新版的全詞庫(kù)。
為了去除使用頻率較低的編碼字符串,得到客觀正確的結(jié)果,則所述詞庫(kù)生成裝置優(yōu)選的,還包括所述收集單元401還用于收集用戶輸入行為中的用戶詞頻,所述用戶詞頻為該用戶所輸入的編碼字符串相應(yīng)的頻率信息;累積詞頻計(jì)算單元404,用于計(jì)算編碼字符串相應(yīng)的用戶累積詞頻;第二過(guò)濾單元405,用于去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。其中,對(duì)用戶詞頻的統(tǒng)計(jì),優(yōu)選的,還可以根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,而分別加以相應(yīng)的權(quán)重賦值后統(tǒng)計(jì)詞頻。
為了賦予上述新編碼字符串相應(yīng)的、比較精確的詞頻信息,則所述詞庫(kù)生成裝置優(yōu)選的,還包括互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)生成單元406,用于對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行權(quán)重賦值;并將權(quán)重值大于或者等于預(yù)置閾值的互聯(lián)網(wǎng)頁(yè)面存儲(chǔ)至互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)。
統(tǒng)計(jì)單元407,用于統(tǒng)計(jì)過(guò)濾后的字詞記錄中的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
詞頻分配單元408用于比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。其中,所述的原編碼字符串對(duì)應(yīng)的用戶累積詞頻可以通過(guò)其他途徑獲得,或者在收集單元401中,可以同時(shí)收集該字詞的原編碼字符串以及其對(duì)應(yīng)的用戶詞頻信息,對(duì)各個(gè)用戶的用戶詞頻進(jìn)行計(jì)算得到用戶累積詞頻。
參照?qǐng)D5,本發(fā)明還提供了一種詞庫(kù)生成裝置,包括以下部件收集單元501,用于收集各用戶的輸入行為信息,所述輸入行為信息包括用戶選擇的字詞,用戶輸入的編碼字符串以及相應(yīng)的用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;累積詞頻計(jì)算單元502,對(duì)字詞與編碼字符串整體相應(yīng)的各用戶詞頻進(jìn)行權(quán)重修正,計(jì)算該字詞與編碼字符串整體用戶累積詞頻;詞庫(kù)生成單元503,所述詞庫(kù)包括字詞、編碼字符串及其相應(yīng)的詞頻信息。
圖5所示的詞庫(kù)生成裝置還可以包括比對(duì)單元504,用于對(duì)比所述生成的詞庫(kù)和現(xiàn)有詞庫(kù),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有字詞、編碼字符串及其相應(yīng)的系統(tǒng)詞頻;新編碼字符串確定單元505,用于根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。則所述詞庫(kù)生成裝置可以實(shí)現(xiàn)新編碼字符串的獲取。
所述詞庫(kù)生成裝置優(yōu)選的,還包括過(guò)濾單元506,用于去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
為了賦予上述新編碼字符串相應(yīng)的、比較精確的詞頻信息,則所述詞庫(kù)生成裝置優(yōu)選的,還包括統(tǒng)計(jì)單元507,統(tǒng)計(jì)具有新編碼字符串的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。所述互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)通過(guò)對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行權(quán)重賦值;并將權(quán)重值大于或者等于預(yù)置閾值的互聯(lián)網(wǎng)頁(yè)面存儲(chǔ)而形成互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)。
詞頻分配單元508用于比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
參照?qǐng)D6,示出了另一種詞庫(kù)生成裝置,包括以下部件
收集單元601,用于收集各用戶的輸入行為信息,所述輸入行為信息包括用戶選擇的字詞,用戶輸入的編碼字符串以及相應(yīng)的用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;累積詞頻計(jì)算單元602,對(duì)字詞與編碼字符串整體相應(yīng)的各用戶詞頻進(jìn)行權(quán)重修正,計(jì)算該字詞與編碼字符串整體用戶累積詞頻;詞庫(kù)生成單元603,所述詞庫(kù)包括字詞、編碼字符串及其相應(yīng)的詞頻信息。
比對(duì)單元604,用于對(duì)比所述生成的詞庫(kù)和現(xiàn)有詞庫(kù),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有字詞、編碼字符串及其相應(yīng)的系統(tǒng)詞頻;過(guò)期字詞確定單元605,用于確定過(guò)期字詞,所述過(guò)期字詞為在所述生成的詞庫(kù)中不存在,但是在現(xiàn)有詞庫(kù)中存在的字詞;或者在所述生成的詞庫(kù)中用戶累積詞頻符合預(yù)置條件的字詞。例如,用戶累積詞頻小于或者等于預(yù)定閾值。
圖6所示裝置得到過(guò)期字詞之后,就可以根據(jù)這些過(guò)期字詞對(duì)現(xiàn)有詞庫(kù)進(jìn)行精簡(jiǎn),以防止現(xiàn)有詞庫(kù)越來(lái)越大的問題出現(xiàn),例如,從現(xiàn)有詞庫(kù)中過(guò)濾、刪除所述過(guò)期字詞,從而縮減詞庫(kù)容量,提高詞庫(kù)利用率,提高輸入效率。
由于本發(fā)明篇幅有限,在方法的描述部分較為詳細(xì),系統(tǒng)部分的描述未詳盡之處。請(qǐng)參見前述相關(guān)部分。
以上對(duì)本發(fā)明所提供的一種獲取輸入法字詞的新編碼字符串的方法、一種輸入法系統(tǒng)以及一種詞庫(kù)生成裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種獲取輸入法字詞的新編碼字符串的方法,其特征在于,包括提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串;將用戶所選字詞、用戶輸入的編碼字符串與現(xiàn)有詞庫(kù)進(jìn)行比對(duì),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有現(xiàn)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
2.如權(quán)利要求1所述的方法,其特征在于,還包括將用戶所選字詞、用戶輸入的編碼字符串記錄至用戶詞庫(kù);并在用戶輸入過(guò)程中,記錄用戶詞頻至用戶詞庫(kù),所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息。
3.如權(quán)利要求2所述的方法,其特征在于,還包括根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,分別加以相應(yīng)的權(quán)重修正后統(tǒng)計(jì)詞頻信息,得到用戶詞頻。
4.如權(quán)利要求2所述的方法,其特征在于,還包括收集各個(gè)用戶的具有新編碼字符串的字詞記錄,所述記錄包括該字詞、相應(yīng)的新編碼字符串以及相應(yīng)的詞頻信息;去除重復(fù)的字詞記錄。
5.如權(quán)利要求4所述的方法,其特征在于,還包括計(jì)算用戶累積詞頻;去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
6.如權(quán)利要求4或5所述的方法,其特征在于,還包括統(tǒng)計(jì)過(guò)濾后的字詞記錄中的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
7.如權(quán)利要求6所述的方法,其特征在于,還包括比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
8.如權(quán)利要求7所述的方法,其特征在于,還包括根據(jù)過(guò)濾后的字詞記錄生成新詞庫(kù)或者將過(guò)濾后的字詞記錄添加至原有詞庫(kù),得到新詞庫(kù)或者新版的全詞庫(kù)。
9.如權(quán)利要求8所述的方法,其特征在于,所述收集的信息還包括用戶所在的區(qū)域信息,將用戶劃分為若干區(qū)域;針對(duì)每個(gè)區(qū)域進(jìn)行過(guò)濾步驟;針對(duì)每個(gè)區(qū)域生成區(qū)域新詞庫(kù)或者新版的區(qū)域全詞庫(kù)。
10.如權(quán)利要求6所述的方法,其特征在于,通過(guò)以下步驟獲得預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)對(duì)互聯(lián)網(wǎng)頁(yè)面進(jìn)行權(quán)重賦值;將權(quán)重值大于或者等于預(yù)置閾值的互聯(lián)網(wǎng)頁(yè)面存儲(chǔ)至互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)。
11.如權(quán)利要求4所述的方法,其特征在于,所述收集為輸入法計(jì)算設(shè)備實(shí)時(shí)或者定時(shí)的將用戶的具有新編碼字符串的字詞記錄發(fā)送至收集計(jì)算設(shè)備。
12.一種獲取輸入法字詞的新編碼字符串的方法,其特征在于,包括提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串,并存儲(chǔ)至用戶詞庫(kù);收集各個(gè)用戶的用戶詞庫(kù);對(duì)比所述收集的用戶詞庫(kù)和輸入法現(xiàn)有詞庫(kù),所述系統(tǒng)詞庫(kù)中存儲(chǔ)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
13.如權(quán)利要求12所述的方法,其特征在于,還包括所述用戶詞庫(kù)中還包括用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;計(jì)算用戶累積詞頻;去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
14.如權(quán)利要求13所述的方法,其特征在于,所述預(yù)置的規(guī)則為如果用戶所選字詞在現(xiàn)有詞庫(kù)中存在,但是用戶輸入的編碼字符串與現(xiàn)有詞庫(kù)中存儲(chǔ)的該字詞相應(yīng)的編碼字符串不同,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串;或者,如果用戶所選字詞及用戶輸入的編碼字符串在現(xiàn)有詞庫(kù)中都存在,則進(jìn)一步比較該字詞相應(yīng)的編碼字符串的用戶累積詞頻和系統(tǒng)詞頻,所述系統(tǒng)詞頻為在現(xiàn)有詞庫(kù)中預(yù)置的現(xiàn)有字詞相應(yīng)的詞頻信息,如果用戶累積詞頻與系統(tǒng)詞頻的比值大于或者等于預(yù)定閾值,則確定用戶輸入的編碼字符串為該字詞相應(yīng)的新編碼字符串。
15.如權(quán)利要求12或者14所述的方法,其特征在于,還包括統(tǒng)計(jì)具有新編碼字符串的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
16.如權(quán)利要求15所述的方法,其特征在于,還包括比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
17.一種輸入法系統(tǒng),包括輸入接口單元、顯示單元以及系統(tǒng)詞庫(kù),其特征在于,還包括字詞提取單元,與輸入法系統(tǒng)相連,用于提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串;字詞比對(duì)單元,與字詞提取單元相連,用于將用戶所選字詞、用戶輸入的編碼字符串與系統(tǒng)詞庫(kù)進(jìn)行比對(duì),所述系統(tǒng)詞庫(kù)中存儲(chǔ)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
18.如權(quán)利要求17所述的輸入法系統(tǒng),其特征在于,所述輸入法系統(tǒng)的輸入接口單元、顯示單元以及系統(tǒng)詞庫(kù)位于同一計(jì)算設(shè)備中;或者所述輸入法系統(tǒng)的輸入接口單元、顯示單元位于第一計(jì)算設(shè)備中,系統(tǒng)詞庫(kù)位于第二計(jì)算設(shè)備中,所述輸入法系統(tǒng)根據(jù)用戶輸入的信息,從位于第二計(jì)算設(shè)備中獲取相應(yīng)信息,在第一計(jì)算設(shè)備顯示相應(yīng)字符。
19.如權(quán)利要求17所述的輸入法系統(tǒng),其特征在于,還包括通信單元,用于實(shí)時(shí)或者定時(shí)的發(fā)送具有新編碼字符串的字詞記錄,所述字詞記錄包括該字詞以及其相應(yīng)的新編碼字符串。
20.如權(quán)利要求17所述的輸入法系統(tǒng),其特征在于,還包括詞頻記錄單元,與輸入法系統(tǒng)相連,用于在用戶輸入過(guò)程中,記錄用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;用戶詞庫(kù),用于存儲(chǔ)用戶所選字詞、用戶輸入的編碼字符串及其相應(yīng)的用戶詞頻。
21.如權(quán)利要求17所述的輸入法系統(tǒng),其特征在于,還包括應(yīng)用程序判斷單元,用于判斷用戶輸入的當(dāng)前應(yīng)用程序,并將判斷結(jié)果發(fā)送至詞頻記錄單元;詞頻記錄單元,與輸入法系統(tǒng)相連,用于在用戶輸入過(guò)程中,根據(jù)用戶輸入的當(dāng)前應(yīng)用程序,分別加以相應(yīng)的權(quán)重修正后統(tǒng)計(jì)詞頻信息,得到用戶詞頻。
22.一種詞庫(kù)生成裝置,其特征在于,包括字詞收集單元,用于收集各個(gè)用戶的具有新編碼字符串的字詞記錄,所述字詞記錄包括該字詞以及其相應(yīng)的新編碼字符串;第一過(guò)濾單元,用于去除重復(fù)的字詞記錄;詞庫(kù)生成單元,用于根據(jù)過(guò)濾后的字詞記錄生成新詞庫(kù)或者將過(guò)濾后的字詞記錄添加至原有詞庫(kù),得到新詞庫(kù)或者新版的全詞庫(kù)。
23.如權(quán)利要求22所述的裝置,其特征在于,還包括詞頻收集單元,用于收集用戶輸入行為中的用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;累積詞頻計(jì)算單元,用于計(jì)算用戶累積詞頻;第二過(guò)濾單元,用于去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
24.如權(quán)利要求22或者23所述的裝置,其特征在于,還包括統(tǒng)計(jì)單元,用于統(tǒng)計(jì)過(guò)濾后的字詞記錄中的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻。
25.如權(quán)利要求22所述的裝置,其特征在于,還包括詞頻分配單元用于比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
26.一種詞庫(kù)生成裝置,其特征在于,包括收集單元,用于收集各用戶的輸入行為信息,所述輸入行為信息包括用戶選擇的字詞,用戶輸入的編碼字符串以及相應(yīng)的用戶詞頻,所述用戶詞頻為用戶輸入該字詞及其相應(yīng)編碼字符串的頻率信息;累積詞頻計(jì)算單元,對(duì)字詞與編碼字符串整體相應(yīng)的各用戶詞頻進(jìn)行權(quán)重修正,計(jì)算該字詞與編碼字符串整體用戶累積詞頻;詞庫(kù)生成單元,所述詞庫(kù)包括字詞、編碼字符串及其相應(yīng)的詞頻信息。
27.如權(quán)利要求26所述的裝置,其特征在于,還包括比對(duì)單元,用于對(duì)比所述生成的詞庫(kù)和現(xiàn)有詞庫(kù),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有字詞、編碼字符串及其相應(yīng)的系統(tǒng)詞頻;確定單元,用于根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。
28.如權(quán)利要求27所述的裝置,其特征在于,還包括過(guò)濾單元,用于去除用戶累積詞頻小于或者等于預(yù)置閾值的編碼字符串。
29.如權(quán)利要求27或28所述的裝置,其特征在于,還包括統(tǒng)計(jì)單元,統(tǒng)計(jì)具有新編碼字符串的字詞在預(yù)置的互聯(lián)網(wǎng)頁(yè)面數(shù)據(jù)庫(kù)中出現(xiàn)的次數(shù),得到互聯(lián)網(wǎng)詞頻;詞頻分配單元用于比較該字詞的新編碼字符串的用戶累積詞頻與原編碼字符串的用戶累積詞頻,根據(jù)比較結(jié)果,分配其互聯(lián)網(wǎng)詞頻至該字詞的兩個(gè)或者多個(gè)相應(yīng)編碼字符串。
30.如權(quán)利要求26所述的裝置,其特征在于,還包括比對(duì)單元,用于對(duì)比所述生成的詞庫(kù)和現(xiàn)有詞庫(kù),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有字詞、編碼字符串及其相應(yīng)的系統(tǒng)詞頻;確定單元,用于確定過(guò)期字詞;所述過(guò)期字詞為在所述生成的詞庫(kù)中不存在,但是在現(xiàn)有詞庫(kù)中存在的字詞,或者所述過(guò)期字詞為在所述生成的詞庫(kù)中用戶累積詞頻符合預(yù)置條件的字詞。
全文摘要
本發(fā)明公開了一種獲取輸入法字詞的新編碼字符串的方法,包括提取用戶在輸入過(guò)程中所選擇的字詞,以及用戶輸入的編碼字符串;將用戶所選字詞、用戶輸入的編碼字符串與現(xiàn)有詞庫(kù)進(jìn)行比對(duì),所述現(xiàn)有詞庫(kù)中存儲(chǔ)有現(xiàn)有字詞及其相應(yīng)的編碼字符串;根據(jù)預(yù)置規(guī)則,確定字詞相應(yīng)的新編碼字符串。本發(fā)明從用戶輸入的角度提供解決方案,能夠及時(shí)的、較為全面的獲悉用戶在輸入過(guò)程中的使用的新編碼字符串,包括反映用戶的方言習(xí)慣的新編碼字符串,以及未知的、無(wú)法想象到的,但是用戶經(jīng)常使用的新編碼字符串,進(jìn)而提高首選詞的準(zhǔn)確率。
文檔編號(hào)G06F3/023GK1920827SQ20061011156
公開日2007年2月28日 申請(qǐng)日期2006年8月23日 優(yōu)先權(quán)日2006年8月23日
發(fā)明者郭奇, 佟子健, 楊磊 申請(qǐng)人:北京搜狗科技發(fā)展有限公司