欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種針對輸入信息的處理方法和裝置及一種輸入法系統(tǒng)的制作方法

文檔序號:6613593閱讀:206來源:國知局
專利名稱:一種針對輸入信息的處理方法和裝置及一種輸入法系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)字符輸入技術(shù)領(lǐng)域,特別是涉及一種針對用戶輸入信息 的處理方法和裝置,以及一種利用該處理結(jié)果進(jìn)行字符輸入的方法和相應(yīng)的輸 入法系統(tǒng)。
背景技術(shù)
隨著計算機(jī)技術(shù)以及互聯(lián)網(wǎng)技術(shù)的普及與發(fā)展,輸入法已經(jīng)成為用戶 與計算機(jī)交互的重要手段,不同專業(yè)領(lǐng)域、不同興趣以及使用習(xí)慣的用戶 對于輸入法的智能性要求越來越高?,F(xiàn)有技術(shù)一般通過提高系統(tǒng)詞庫中的詞條的更新程度以及詞頻信息的 準(zhǔn)確度,來提高用戶向計算機(jī)完成字符輸入時的效率——可以通過首選詞的準(zhǔn)確率進(jìn)行評價。例如,申請?zhí)枮?00610086577.4,名稱為"基于互聯(lián)網(wǎng) 信息的輸入法詞頻庫的生成方法和系統(tǒng)"的中國專利就公開了這樣的 一種 提高系統(tǒng)詞庫性能的技術(shù)方案。但是由于系統(tǒng)詞庫是相對固定的,針對每一個用戶而言,難以達(dá)到精 確匹配;為了增強(qiáng)個性化的輸入效率,現(xiàn)有技術(shù)提出了用戶詞庫的解決方 案。用戶詞庫的形成方法通常包括以下步驟記錄用戶輸入的字詞,學(xué)習(xí) 某個用戶適用的詞匯;通過一段時間地不斷學(xué)習(xí),將詞庫逐漸收斂到某個 用戶輸入的最佳狀態(tài),從而形成用戶詞庫。顯然,這種用戶詞庫的形成過 程可以得到用戶的個性化字詞,并在一定程度上調(diào)整候選項的排序,使其 逐漸適應(yīng)該用戶,從而提高輸入效率,但是對于同 一個詞,在不同的輸入 環(huán)境下,用戶可能需要也可能不需要該詞;即使需要,其候選排序也可能 不同。例如,對于"語料"和"預(yù)料",在日常輸入中,用戶輸入"預(yù)料"一詞的 可能性更大,而基本不會用到"語料" 一詞。因此在系統(tǒng)詞庫和用戶詞庫 中都是"預(yù)料,,的詞頻或者排序要高于"語料,,;但是當(dāng)該用戶在輸入專業(yè)文 檔時(例如,語言分析相關(guān)專業(yè)),則就期望"語料,,候選項排序在前,而無 論系統(tǒng)詞庫還是用戶詞庫仍然會按照通常的排序輸出,無法隨著用戶輸入 需求的變化而變化。
因此,現(xiàn)階段需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是如何改變現(xiàn)有輸入法系統(tǒng)的無法依據(jù)環(huán)境應(yīng)用而區(qū)分用戶實際需求的現(xiàn)狀, 提供一種能夠動態(tài)的與用戶輸入環(huán)境或者輸入內(nèi)容相匹配,大大提高用戶 輸入過程中首選詞準(zhǔn)確率的輸入法解決方案。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種針對用戶輸入信息的處理方法和 裝置,并能夠在處理結(jié)果上進(jìn)一步提供具有分環(huán)境屬性的輸入法詞庫,以滿足 用戶在不同環(huán)境條件下的對輸入法的不同需求,提高用戶的輸入效率。相應(yīng)的,本發(fā)明還提供了利用前述所得到輸入法詞庫進(jìn)行計算機(jī)字符輸入 的方法和系統(tǒng),可以極佳的滿足用戶的輸入需求,大大提高用戶輸入過程中 首選詞準(zhǔn)確率。為了解決上述問題,本發(fā)明公開了一種針對輸入信息的處理方法,包括 收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包括字詞信息及其輸入 環(huán)境信息;針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息與輸入環(huán) 境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。優(yōu)選的,所述方法還可以包括依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入 法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以m元屬性組進(jìn)行劃分, 所述m元屬性至少包括環(huán)境屬性。優(yōu)選的,所述方法還可以包括依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入 法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲 該字詞在不同m元屬性組下的特征信息,所述m元屬性至少包括環(huán)境屬性。優(yōu)選的,所述方法還可以包括收集與所述輸入信息記錄相應(yīng)的用戶相關(guān) 信息,則所建立的關(guān)聯(lián)關(guān)系還包括字詞信息與用戶類別的關(guān)聯(lián)關(guān)系;所述用戶 類別是通過針對所述用戶相關(guān)信息分析得到的。優(yōu)選的,所述方法還可以包括依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入 法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分, 所述n元屬性至少包括環(huán)境屬性和用戶類別屬性。優(yōu)選的,所述方法還可以包括依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入 法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲
該字詞在不同n元屬性組下的特征信息,所述n元屬性至少包括環(huán)境屬性和 用戶類別屬性。優(yōu)選的,通過以下方式完成針對所述輸入信息記錄的數(shù)據(jù)處理過程合并 具有相同輸入環(huán)境信息的輸入信息記錄;或者,先合并具有相同輸入環(huán)境信息 的輸入信息記錄,得到多個信息集合,然后依據(jù)預(yù)置的聚類規(guī)則對所述信息集 合進(jìn)行聚類;或者,先對輸入環(huán)境信息進(jìn)行聚類,然后將聚為同類的輸入環(huán)境 下的輸入信息記錄進(jìn)行合并。優(yōu)選的,也通過以下方式完成針對所述輸入信息記錄的數(shù)據(jù)處理過程分 別獨立的對輸入環(huán)境信息和用戶類別進(jìn)行聚類,然后將屬于同類輸入環(huán)境、并 屬于同類用戶類別的輸入信息記錄進(jìn)行合并;或者,先對用戶類別進(jìn)行聚類, 再對聚為同類的用戶類別下的輸入環(huán)境信息進(jìn)行聚類,然后將屬于同類輸入環(huán) 境、并屬于同類用戶類別的輸入信息記錄進(jìn)行合并;或者,直接針對具有相同 輸入環(huán)境信息的輸入信息記錄,依據(jù)用戶類別進(jìn)行聚類;或者,先對輸入環(huán)境 信息進(jìn)行聚類,再對聚為同類的輸入環(huán)境下的用戶類別進(jìn)行聚類,然后將屬于 同類輸入環(huán)境、并屬于同類用戶類別的輸入信息記錄進(jìn)行合并;或者,直接采 用n元屬性組進(jìn)行聚類,所述n元屬性包括環(huán)境屬性和用戶類別屬性,然后 將聚為同類的n元屬性組下的輸入信息記錄進(jìn)行合并。優(yōu)選的,所述方法還可以包括針對一類別下的信息進(jìn)行下一層次的聚類, 得到該信息集合下的多個子集合。依據(jù)本發(fā)明的另 一實施例,還公開了 一種針對輸入信息的處理裝置,包括收集模塊,用于收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包 括字詞信息及其輸入環(huán)境信息;聚類模塊,用于針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息 與輸入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。優(yōu)選的,所述裝置還可以包括詞庫生成模塊,用于依據(jù)所述關(guān)聯(lián)關(guān)系和 信息集合,生成輸入法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以m 元屬性組進(jìn)行劃分,所述m元屬性至少包括環(huán)境屬性。優(yōu)選的,所述裝置還可以包括詞庫生成模塊,用于依據(jù)所述關(guān)聯(lián)關(guān)系和 信息集合,生成輸入法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子
空間構(gòu)成,用于存儲該字詞在不同m元屬性組下的特征信息,所述m元屬 性至少包括環(huán)境屬性。優(yōu)選的,所收集的信息還包括與所述輸入信息記錄相應(yīng)的用戶相關(guān)信息, 則所建立的關(guān)聯(lián)關(guān)系還包括字詞信息與用戶類別的關(guān)聯(lián)關(guān)系;所述用戶類別是 通過針對所述用戶相關(guān)信息分析得到的。優(yōu)選的,所述裝置還可以包括詞庫生成模塊,用于所述關(guān)聯(lián)關(guān)系和信息 集合,生成輸入法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬 性組進(jìn)行劃分,所述n元屬性至少包括環(huán)境屬性和用戶類別屬性。優(yōu)選的,所述裝置還可以包括詞庫生成^t塊,用于所述關(guān)聯(lián)關(guān)系和信息 集合,生成輸入法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間 構(gòu)成,用于存儲該字詞在不同n元屬性組下的特征信息,所述n元屬性至少 包括環(huán)境屬性和用戶類別屬性。依據(jù)本發(fā)明的另一實施例,還公開了一種字符輸入的方法,包括采集用 戶當(dāng)前輸入環(huán)境的相關(guān)信息,確定該用戶當(dāng)前的輸入環(huán)境類別;從詞庫中匹 配獲得與用戶當(dāng)前輸入環(huán)境類別相應(yīng)的子詞庫,所述詞庫包括至少兩個子詞 庫,所述子詞庫依據(jù)環(huán)境屬性進(jìn)行劃分;所述詞庫由針對源自多個用戶的輸入 信息記錄分析得到;接收用戶的輸入信息;依據(jù)所接收的輸入信息,在所匹 配的子詞庫中進(jìn)行檢索,得到相應(yīng)的候選項;接收用戶的選擇信息,輸出指定 的候選項。依據(jù)本發(fā)明的另一實施例,還公開了一種輸入法系統(tǒng),包括詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫依據(jù)環(huán)境屬性進(jìn)行劃分;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 信息采集單元,用于釆集用戶當(dāng)前輸入環(huán)境的相關(guān)信息; 匹配單元,用于依據(jù)所采集的相關(guān)信息,確定該用戶當(dāng)前的輸入環(huán)境類別,)Mv詞庫中匹配獲得與用戶當(dāng)前輸入環(huán)境類別相應(yīng)的子詞庫; 輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢 索,得到相應(yīng)的候選項;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。
依據(jù)本發(fā)明的另一實施例,還公開了一種字符輸入的方法,包括加載詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同環(huán)境屬性下的特征信息;所述詞庫由針對源自多個用戶的輸入信息 記錄分析得到;采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息,確定該用戶的當(dāng)前輸入 類別;接收用戶的輸入信息;依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索, 得到相應(yīng)的候選項;參考詞庫中各候選項在當(dāng)前輸入類別下的特征信息,對 所述候選項進(jìn)行排序并顯示;接收用戶的選擇信息,輸出指定的候選項。 依據(jù)本發(fā)明的另一實施例,還公開了一種輸入法系統(tǒng),包括 詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存 儲該字詞在不同環(huán)境屬性下的特征信息;所述詞庫由針對源自多個用戶的輸 入信息記錄分析得到;信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息; 類別確定單元,用于依據(jù)所采集的當(dāng)前輸入環(huán)境相關(guān)信息,確定該用戶 的當(dāng)前輸入類別;輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在詞庫中進(jìn)行;險索,得到相 應(yīng)的l夷i^工貞;排序顯示單元,用于參考詞庫中各候選項在當(dāng)前輸入類別下的特征信息, 對所述候選項進(jìn)行排序并顯示;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。依據(jù)本發(fā)明的另一實施例,還公開了一種字符輸入的方法,包括采集用 戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬性信息;依據(jù)所采集的信息從詞 庫中匹配獲得相應(yīng)的子詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n 元屬性組進(jìn)行劃分,所述n元屬性至少包括環(huán)境屬性;所述詞庫由針對源自多 個用戶的輸入信息記錄分析得到;接收用戶的輸入信息;依據(jù)所接收的輸入 信息,在所匹配的子詞庫中進(jìn)行檢索,得到相應(yīng)的候選項;接收用戶的選擇信 息,輸出指定的候選項。優(yōu)選的,當(dāng)所述n元屬性包括環(huán)境屬性和用戶類別屬性時,所需的其他屬 性信息包括用戶相關(guān)信息,用以確定用戶類別。
依據(jù)本發(fā)明的另一實施例,還公開了一種輸入法系統(tǒng),包括詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分, 所述n元屬性至少包括環(huán)境屬性;所述詞庫由針對源自多個用戶的輸入信息記 錄分析得到;信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬 性信息;匹配單元,用于依據(jù)所采集的信息,從詞庫中匹配獲得相應(yīng)的子詞庫; 輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢 索,得到相應(yīng)的候選項;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。優(yōu)選的,當(dāng)所述n元屬性包括環(huán)境屬性和用戶類別屬性時,所需的其他屬 性信息包括用戶相關(guān)信息,用以確定用戶類別。依據(jù)本發(fā)明的另一實施例,還公開了一種字符輸入的方法,包括加載詞 庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字 詞在不同n元屬性組下的特征信息,所述n元屬性至少包括環(huán)境屬性;所述 詞庫由針對源自多個用戶的輸入信息記錄分析得到;采集用戶當(dāng)前輸入環(huán)境 的相關(guān)信息和所需的其他屬性信息;接收用戶的輸入信息;依據(jù)所接收的 輸入信息,在詞庫中進(jìn)行4全索,得到相應(yīng)的候選項;參考詞庫中各候選項在與 所采集信息相匹配的n元屬性組下的特征信息,對所述候選項進(jìn)行排序并顯 示;接收用戶的選擇信息,輸出指定的候選項。優(yōu)選的,當(dāng)所述n元屬性包括環(huán)境屬性和用戶類別屬性時,所需的其他屬 性信息包括用戶相關(guān)信息,用以確定用戶類別。依據(jù)本發(fā)明的另一實施例,還公開了一種輸入法系統(tǒng),包括詞庫,所述 詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不 同n元屬性組下的特征信息,所述n元屬性至少包括環(huán)境屬性;所述詞庫由 針對源自多個用戶的輸入信息記錄分析得到;信息釆集單元,用于采集用戶當(dāng) 前輸入環(huán)境的相關(guān)信息和所需的其他屬性信息;輸入接口單元,用于接收用 戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢
索,得到相應(yīng)的候選項;排序顯示單元,用于參考詞庫中各候選項在與所采集信息相匹配的n元屬性組下的特征信息,對所述候選項進(jìn)行排序并顯示;輸出 單元,用于接收用戶的選擇信息,輸出指定的候選項。優(yōu)選的,當(dāng)所述n元屬性包括環(huán)境屬性和用戶類別屬性時,所需的其他屬 性信息包括用戶相關(guān)信息,用以確定用戶類別。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明創(chuàng)新性的提出,分別將多個用戶的輸入習(xí)慣信息(例如,輸入字詞 及其詞頻等)分環(huán)境記錄下來,并匯集至一數(shù)據(jù)處理設(shè)備中(例如,服務(wù)器), 然后對這些信息進(jìn)行優(yōu)化處理,提供一具有分環(huán)境屬性的輸入法詞庫,從而可 以更好的更準(zhǔn)確的符合用戶的輸入需求。進(jìn)而,當(dāng)采用本發(fā)明的詞庫進(jìn)行輸入 時,可以動態(tài)的與用戶輸入環(huán)境或者輸入內(nèi)容相匹配,大大提高用戶輸入過程 中首選詞準(zhǔn)確率。進(jìn)一步,本發(fā)明還可以對信息來源進(jìn)行分析,提供同時具有分環(huán)境屬性和 用戶屬性等n元屬性的輸入法詞庫,以通過多層綿度的正相關(guān),從而更佳的滿 足用戶的輸入需求。


圖1是本發(fā)明一種針對輸入信息的處理方法實施例的步驟流程圖; 圖2-圖8是本發(fā)明多種聚類結(jié)果的示意圖;圖9是本發(fā)明另一種針對輸入信息的處理方法實施例的步驟流程圖;圖10是本發(fā)明一種針對輸入信息的處理裝置實施例的結(jié)構(gòu)框圖;圖11是本發(fā)明一種字符輸入的方法實施例的步驟流程圖;圖12是本發(fā)明一種輸入法系統(tǒng)實施例的結(jié)構(gòu)框圖;圖13是本發(fā)明另一種字符輸入的方法實施例的步驟流程圖;圖14是本發(fā)明另一種輸入法系統(tǒng)實施例的結(jié)構(gòu)框圖;圖15是本發(fā)明一種字符輸入方法的優(yōu)選實施例的步驟流程圖;圖16是本發(fā)明另一種字符輸入方法的優(yōu)選實施例的步驟流程圖。
具體實施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。信息以及語音輸入等等。即所述輸入信息可以包括編碼字符串,也可以包 括手寫輸入信息以及語音輸入的信息,因為這些輸入方式也都需要用到詞庫進(jìn)行候選項排序。由于這些輸入方式中的信息轉(zhuǎn)換都屬于公知技術(shù),在 此就不詳述了 。下面僅僅以編碼字符串輸入為例進(jìn)行詳細(xì)說明。另外,由于現(xiàn)有技術(shù)中,輸入法平臺可以運行在多種計算設(shè)備上,例如, 個人電腦、個人數(shù)字助理、移動終端設(shè)備等等,所以本發(fā)明也可以適用在上述 各種計算設(shè)備中。本發(fā)明可以應(yīng)用于日文、韓文等需要出現(xiàn)候選詞排序的輸入法系統(tǒng), 例如,對于日文而言,由日文中的平假名、片假名拼成短語的時候就需要 出現(xiàn)候選詞排序。由于本發(fā)明在上述幾種輸入法系統(tǒng)中的應(yīng)用都是相似的, 所以為了方便說明,下面以對本發(fā)明應(yīng)用在中文的情況進(jìn)行舉例說明。本發(fā)明所述的方法可以在由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令的一般上下 文中描述,例如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽 象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算 環(huán)境中實踐本發(fā)明,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn) 程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序^t塊可以位于包括存儲設(shè) 備在內(nèi)的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。參照圖1,示出了本發(fā)明一種針對輸入信息的處理方法實施例,具體可以包括以下步驟步驟IOI、收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包括字 詞信息及其輸入環(huán)境信息;從本質(zhì)上講,由于用戶當(dāng)前最希望的輸入需求是計算機(jī)無法直接識別的, 但是用戶的輸入目的可以通過輸入環(huán)境在一定程度上得到體現(xiàn),所以本發(fā)明的 核心就是在輸入環(huán)境和用戶的輸入需求之間建立聯(lián)系,以間接識別用戶需求, 從而提高用戶的輸入效率。優(yōu)選的,所述字詞信息可以包括字詞本身以及其相應(yīng)的屬性信息,例如詞
頻信息或者詞序信息等等。步驟101中所述輸入環(huán)境信息可以包括各種類型的信息,在本發(fā)明的具體 例子中也可以稱之為環(huán)境標(biāo)簽。下面對可能的幾種輸入環(huán)境信息類型進(jìn)行簡單 介紹。首先,所述輸入環(huán)境信息可以包括應(yīng)用程序名稱、網(wǎng)站地址、當(dāng)前窗 口的標(biāo)題、文檔位置或者文檔名稱等。
一般的,可以通過調(diào)用相應(yīng)的系統(tǒng)函數(shù)獲取當(dāng)前應(yīng)用程序的名稱。如,在windows操作系統(tǒng)中可以通過調(diào)用系統(tǒng)函 數(shù)GetModuleFileName (參數(shù)),以讀取當(dāng)前應(yīng)用程序所對應(yīng)的文件名;也可 以通過調(diào)用系統(tǒng)函數(shù)GetCommandLine (參數(shù)),以獲取啟動當(dāng)前應(yīng)用程序的 命令行信息。上述兩個函數(shù)的調(diào)用,就可以識別出當(dāng)前應(yīng)用程序的名稱,例如, WinWord.exe, QQ.exe等等。例如,輸入法啟動后,調(diào)用GetModuleFilename發(fā)現(xiàn)應(yīng)用程序i 各徑名為 "C:\Program Files窗icrosoft Office\OFFICEll\WINWORD.EXE",才艮據(jù)其文件名 "WinWord.exe"識別其為word字處理^L件,進(jìn)而啟動與文字寫作相關(guān)的輔助詞 庫。上述系統(tǒng)函數(shù)的說明都是基于windows操作系統(tǒng)而言的,實際上,對于其 他的操作系統(tǒng),例如,Linux、 MacOS、 FreeBSD, Unix, Solaris等等,以及 用于移動終端的PalmOS, Windows Mobile, Symbian等等;不同才喿作系統(tǒng)中 的函數(shù)調(diào)用可能會有所不同,在此無法——列舉,所以下面的描述中也僅僅以 windows操作系統(tǒng)為例進(jìn)行說明,當(dāng)然,本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并 不限定于windows操作系統(tǒng)中。進(jìn)一步,所記錄的輸入環(huán)境信息還可以包括用戶在當(dāng)前輸入環(huán)境中所涉 及的文本數(shù)據(jù)。例如,剪貼板中的文本數(shù)據(jù);當(dāng)前應(yīng)用程序所操作的文件的文 本數(shù)據(jù)(如,可以通過鉤子函數(shù)獲取當(dāng)前應(yīng)用程序所操作的文件名稱及其路徑, 進(jìn)而掃描獲取該文件的內(nèi)容數(shù)據(jù));當(dāng)前應(yīng)用程序向屏幕輸出的文本數(shù)據(jù)(如, 可以hook應(yīng)用程序的TextOut調(diào)用,監(jiān)視其向屏幕上輸出了哪些文本數(shù)據(jù))。在本發(fā)明的一個實施例中,所記錄的輸入環(huán)境信息就是上述的這些原始環(huán) 境信息,則可以直接應(yīng)用所記錄的輸入環(huán)境信息作為環(huán)境標(biāo)簽,例如,word 環(huán)境等。優(yōu)選的,收集端的計算設(shè)備還需要對原始環(huán)境信息通過識別、判斷后 置于預(yù)置的類別中,例如,對于原始環(huán)境信息為文本數(shù)據(jù)的情況,通過分析將 其歸入口語類別。當(dāng)然,所述的識別、判斷步驟也可以在記錄端的計算設(shè)備中 執(zhí)行,然后將預(yù)置類別信息作為環(huán)境標(biāo)簽,例如,環(huán)境A類等。步驟102、針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息與輸 入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。所述的輸入信息記錄可以為各種形式,例如,釆用用戶詞庫的方式,或者 文本文件,或者電子數(shù)據(jù)表的方式等等。優(yōu)選的,對于用戶的輸入信息記錄并 不限定在使用同一類型的輸入法用戶群中,只要各種輸入法能夠統(tǒng)一最后的輸入信息記錄的格式即可;采用各種輸入法聯(lián)合的方式,可以大大擴(kuò)展信息源, 從而提高信息處理的質(zhì)量。實際上,所述的輸入信息記錄可以記錄的內(nèi)容也是 多種多樣的,本發(fā)明希望其至少包括字詞信息及其輸入環(huán)境信息。本發(fā)明可以采用各種可行的信息采集方式,例如,在用戶輸入的過程中由 輸入法自動記錄所需的信息,或者也可以由用戶人工整理獲得所需的信息。當(dāng) 然,如果采用輸入法客戶端自動記錄方式的話,所記錄的輸入環(huán)境信息就必須 是輸入法系統(tǒng)所能識別的環(huán)境特征。從信息獲取的途徑來看,可以采用輸入法客戶端主動上傳的方式,也可以 采用服務(wù)器提供要求后再上傳的方式。當(dāng)然,還可以采用用戶將需要上傳的信 息通過互聯(lián)網(wǎng)手動發(fā)送至服務(wù)器端,例如,通過郵件的方式,或者通過服務(wù)器 網(wǎng)站^^共空間上傳的方式等等。從信息傳送的時間來看,可以采用定時發(fā)送的方式,例如,每個月最后一 天的21點;也可以采用實時的方式,在輸入法客戶端在線的情況下,直接將 用戶的輸入信息實時的記錄至服務(wù)器端,在輸入法客戶端離線的情況下,可以 先記錄在本地,然后等到聯(lián)線后再傳輸至服務(wù)器端。需要說明的是,本發(fā)明此處所采用的服務(wù)器端是一個邏輯概念,并不限定 在實體的服務(wù)器上,因為在現(xiàn)有技術(shù)條件下,普通的計算設(shè)備終端也有可能在 邏輯上作為服務(wù)器端進(jìn)行信息傳輸,例如,P2P技術(shù)等。步驟102中得到多個并列的信息集合的數(shù)據(jù)處理過程可以包括合并的方 式,或者聚類的方式。其中的"聚類" 一詞屬于本領(lǐng)域的技術(shù)術(shù)語, 一般是指 將多個元素根據(jù)相關(guān)性合并成多個集合,每個集合稱為一個類,每個類中的元
素應(yīng)當(dāng)具有一定的共性(這種共性可能無法直接通過語言描述)。在同一類別 中,個體之間的距離較小,而不同類別上的個體之間的距離偏大。所述的距離 用于表示相似程度,距離越小則表示越相似,例如,在網(wǎng)頁的自動聚類技術(shù)中, 一般常用距離函數(shù)來定義網(wǎng)頁間的相似度。由于在人工智能、數(shù)據(jù)挖掘等領(lǐng)域 已有大量關(guān)于聚類算法的研究,因此,在此對聚類算法本身不再進(jìn)行詳述。在本發(fā)明的 一 個優(yōu)選實施例中,針對所述輸入信息記錄的數(shù)據(jù)處理過 程,不僅僅可以依據(jù)環(huán)境信息進(jìn)行類別劃分,還可以應(yīng)用更多的屬性信息對所 述輸入信息記錄進(jìn)行更優(yōu)化的類別劃分。例如,所收集的信息還包括與所述輸 入信息記錄相應(yīng)的用戶相關(guān)信息,則步驟102中所建立的關(guān)聯(lián)關(guān)系就可以還包 括字詞信息與用戶類別的關(guān)聯(lián)關(guān)系,所述用戶類別是通過針對所述用戶相關(guān)信 息分析得到的。例如,當(dāng)用戶相關(guān)信息為注冊信息(如,職業(yè)、年齡、喜好等等)時,則 可以簡單的通過對注冊信息或者登錄信息的分析而對用戶進(jìn)行類別的劃分。在 本發(fā)明的另一實施例中,用戶相關(guān)信息也可以為用戶的輸入習(xí)慣、詞頻等等信 息,通過對這些細(xì)節(jié)信息的分析對用戶的類別進(jìn)行劃分??傊景l(fā)明不需要 對用戶相關(guān)信息的具體內(nèi)容加以限定。下面簡單介紹 一些具體的應(yīng)用本發(fā)明中的例子,其中,假定從5個用戶(用戶A、 B、 C、 D和E)處獲得了 5個輸入信息記錄,而每個輸入信息記錄又都 從環(huán)境屬性上分為5種。假定輸入信息記錄采用用戶詞庫的方式,則可以看作 將每個用戶的輸入信息記錄劃分為5個元詞庫,下面完成的聚類操作就可以看 作是對這些元詞庫的聚類過程。所述元詞庫就是分割形成的最小的單位詞庫。 例1參照圖2,示出了一種比較簡單的針對輸入信息記錄的處理結(jié)果示意圖, 即直接合并具有相同輸入環(huán)境信息的輸入信息記錄。也就是說,將具有相同環(huán) 境標(biāo)簽的所有元詞庫合并為一個集合,合并得到的集合可以繼承元詞庫的環(huán)境 標(biāo)簽。當(dāng)用戶需要在該環(huán)境下使用時,優(yōu)先推薦應(yīng)用該集合下的詞條及其特征 信息。優(yōu)選的,為了提高結(jié)果的質(zhì)量,還可以包括過濾步驟,例如,過濾某些用 戶提供的輸入信息記錄,從中只選擇一部分用戶提交的元詞庫進(jìn)行合并。再例
如,對所提供的輸入信息記錄中的詞條進(jìn)行過濾,輸入頻率低于一定闊值的, 則拋棄該部分語料。當(dāng)然,具體的過濾措施依據(jù)實際的輸入信息記錄來源會各 不相同,本發(fā)明在此無法——詳述。
例2
參照圖3,示出了另一種針對輸入信息記錄的處理結(jié)果示意圖,所采用的具體方案為先合并具有相同輸入環(huán)境信息的輸入信息記錄,得到多個信息集 合,然后依據(jù)預(yù)置的聚類規(guī)則對所述信息集合進(jìn)行聚類。即在例1的基礎(chǔ)上, 對例1中得到的各個集合使用一定的聚類算法,例如,將其中詞條、詞頻等信 息接近的若干類合并為一個類,并將相應(yīng)的環(huán)境標(biāo)簽也同時合并。本發(fā)明所采用的詞頻信息一詞是輸入法領(lǐng)域常用的詞匯,其除了表示 詞匯的輸入頻率信息以外,還包括單字的輸入頻率信息;其中的輸入頻率 信息可以為絕對值,也可以為相對值,還可以為經(jīng)過一定策略或者算法處 理過的間接表示輸入頻率的其他數(shù)值。
例3
同樣參照圖3,本方案的結(jié)果和例2的結(jié)果基本相似,但是具體方案的實 現(xiàn)過程是不同的。本方案為先對輸入環(huán)境信息(環(huán)境標(biāo)簽)進(jìn)行聚類,然后 將聚為同類的輸入環(huán)境下的輸入信息記錄進(jìn)行合并。其中,對環(huán)境標(biāo)簽進(jìn)行聚類的步驟,可以采用手工聚類或者根據(jù)其他先驗 知識聚類的方式。例如,已知Foxmail和Outlook都是郵件軟件,可以直4妄將 其聚到一起;又如IE和Firefox等都是瀏覽器,也可以聚到一起。當(dāng)然,對環(huán)境標(biāo)簽進(jìn)行聚類的步驟,也可以采用自動聚類的方式,即提取 具有相同環(huán)境標(biāo)簽的元詞庫本身的一些特征(例如,詞條、詞頻信息等)用于 聚類。其中,這些特征可以是全部的詞條、詞頻信息,也可以是通過一定方式 或者隨機(jī)選擇出的部分詞條、詞頻信息。環(huán)境聚類的目的是,用戶為了同一輸入目的,可能使用不同的輸入環(huán)境。 例如前面Outlook和Foxmail都是郵件軟件,用戶在其中所完成的任務(wù)是基本 相同的。這對于小眾環(huán)境(例如一些使用較少的軟件)是非常有利的。該方案 的優(yōu)點就在于擴(kuò)展性好,例如某用戶第一次使用某環(huán)境,也可匹配應(yīng)用具有相 同環(huán)境標(biāo)簽的元詞庫集合。總結(jié)起來,例1僅僅是簡單的合并,而例2和例3則是依據(jù)所記錄的環(huán)境 信息對環(huán)境類別作進(jìn)一步的劃分。實際上,在本發(fā)明的另一優(yōu)選實施例中,還可以進(jìn)行更深層次的類別劃分針對一類別下的輸入信息記錄進(jìn)行下一層次的 聚類,得到該信息集合下的多個子集合。例如,對word類別下的輸入信息記 錄進(jìn)行聚類操作,得到娛樂文檔和專業(yè)文檔這兩個子類別。
例4參照圖4,示出了另一種針對輸入信息記錄的處理結(jié)果示意圖,所采用的 具體方案為分別獨立的對輸入環(huán)境信息和用戶類別進(jìn)行聚類,然后將屬于同 類輸入環(huán)境、并屬于同類用戶類別的輸入信息記錄進(jìn)行合并。
由于例1-例3都屬于單純的環(huán)境聚類,都不能識別不同用戶在相同環(huán)境 下仍然可能具有不同的用戶需求這一個優(yōu)化問題,而本方案則進(jìn)一步引入了用 戶類別聚類的概念。
例5參照圖5,示出了另一種針對輸入信息記錄的處理結(jié)果示意圖,所采用的 具體方案為先對用戶類別進(jìn)行聚類,再對聚為同類的用戶類別下的輸入環(huán)境 信息進(jìn)行聚類,然后將屬于同類輸入環(huán)境、并屬于同類用戶類別的輸入信息記 錄進(jìn)行合并而完成聚類。
實際上,在對用戶類別聚類之后,也可以不對環(huán)境標(biāo)簽進(jìn)行聚類,而直接 采用例1的方案,合并在一個用戶類下具有相同環(huán)境標(biāo)簽的元詞庫即可。在本方案中進(jìn)行用戶類別聚類時,可以完全不考慮環(huán)境標(biāo)簽的作用。
例6參照圖6,示出了另一種針對輸入信息記錄的處理結(jié)果示意圖,所采用的 具體方案為直接針對具有相同輸入環(huán)境信息的輸入信息記錄,依據(jù)用戶類別 進(jìn)行聚類。當(dāng)用戶輸入時,應(yīng)當(dāng)根據(jù)環(huán)境標(biāo)簽和該用戶所屬的用戶類選擇具有 相同環(huán)境標(biāo)簽和相同用戶類的元詞庫集合。由于在用戶類別聚類的時候,是在 相同輸入環(huán)境信息的限制下進(jìn)行的,所以導(dǎo)致用戶聚類的結(jié)果和例4、例5的 聚類結(jié)果有可能不同。
例7參照圖7,示出了另一種針對輸入信息記錄的處理結(jié)果示意圖,所釆用的
具體方案為先對輸入環(huán)境信息進(jìn)行聚類,再對聚為同類的輸入環(huán)境下的用戶 類別進(jìn)行聚類,然后將屬于同類輸入環(huán)境、并屬于同類用戶類別的輸入信息記錄進(jìn)行合并。本方案和例6的區(qū)別在于,使用環(huán)境類代替了原始環(huán)境標(biāo)簽。當(dāng)用戶輸入時,應(yīng)當(dāng)根據(jù)環(huán)境標(biāo)簽所屬的環(huán)境類和該用戶所屬的用戶類選擇具有 相同環(huán)境標(biāo)簽類和相同用戶類的元詞庫集合。對用戶的聚類, 一種優(yōu)選的做法是只選擇一部分用戶(隨機(jī)選擇或者按 照一定的選擇策略選擇)所提交的元詞庫對用戶聚類。對于未被選才奪的用戶, 根據(jù)其他信息與已有聚類結(jié)果進(jìn)行匹配確定其所屬類別即可。采用用戶聚類的目的在于,不同用戶在同 一環(huán)境下可能具有不同的輸入需 求。例如同樣在Outlook中書寫郵件,其所書寫的內(nèi)容與用戶的工作生活背景 密切相關(guān)。進(jìn)一步,基于環(huán)境聚類的用戶聚類其目的在于,具有特定需求的用 戶可能使用不同的軟件。對于具體用戶,既可能使用Outlook書寫郵件,也可 能使用Foxmail書寫郵件。但這個用戶與其他用戶的需求可能是不同的,所以 需要同時對環(huán)境標(biāo)簽和用戶標(biāo)簽聚類。例8參照圖8,示出了另一種針對輸入信息記錄的處理結(jié)果示意圖,所采用的 具體方案為直接采用n元屬性組進(jìn)行聚類,所述n元屬性包括環(huán)境屬性和用 戶類別屬性,然后將聚為同類的n元屬性組下的輸入信息記錄進(jìn)行合并而完 成聚類。假設(shè)我們僅僅釆用包括環(huán)境屬性和用戶類別屬性的二元屬性組,則聚 類結(jié)果是該二元組的分類。當(dāng)用戶請求加載詞庫時,查看(環(huán)境,用戶)這個 二元組所屬的類,并將對相應(yīng)類的元詞庫集合傳遞給用戶。本方案的優(yōu)點在于,能夠描述特定用戶在某些環(huán)境下可能具有相同需求, 但也可能具有不同需求的事實。例如,用戶A可能使用Outlook處理公司郵件, 而使用Foxmail處理個人郵件;因此不能將Outlook和Foxmail混為一談。但 是另一用戶B卻完全將二者一視同仁。這時,該算法能夠為用戶A在兩種環(huán)境 下匹配不同的元詞庫集合,而為用戶B返回相同的元詞庫集合。當(dāng)然,為了達(dá) 到最佳的需要,需要付出計算資源的代價,可能導(dǎo)致本方案的運算量大,可擴(kuò) 展性差。下面對前述的各個結(jié)果圖示,從邏輯圖的角度區(qū)別如下
圖2是一個完全縱向圖,該圖中的所有縱列都被分開了;圖3是一個縱向 圖,和圖2的區(qū)別在于,其中某些縱列被合并了;圖4是一個縱橫圖;圖5 是一個橫向圖,某些行被合并了,并且某些行被從內(nèi)部切分開來;圖6是一個 完全縱向圖,并且某些列被從內(nèi)部切分了;圖7是一個縱向圖,其中某些列被 合并后從內(nèi)部切分了;而在圖8中已經(jīng)不存在明顯的縱橫特征了。上面的例子中^f義僅描述了采用環(huán)境屬性作為單維度的聚類過程,以及采用 環(huán)境屬性和用戶類別屬性作為二維度的聚類過程,而實際上完成聚類操作可能 采用的維度還有很多,例如,地域?qū)傩缘鹊?,在此就不——詳述了。具體而言, 可以根據(jù)用戶上傳數(shù)據(jù)的IP或者登錄信息來識別用戶的地域;并且,除了地 域本身,地域是否頻繁更改(用戶可能頻繁出差)也可以成為一個屬性。當(dāng)然原則上,我們希望環(huán)境是唯一分類標(biāo)準(zhǔn)。也就是說,希望用戶需求能 夠完全通過環(huán)境標(biāo)簽表達(dá)。這可以大大簡化聚類的計算量。但是實際中很難采 用一個維度就能夠完全表達(dá)用戶的實際需求,所以需要4艮據(jù)實際情況引入一些 改進(jìn)措施。例如,為了解決環(huán)境分類過細(xì)的問題,例如Outlook和Foxmail 都是郵件客戶端。很多情況下二者并沒有區(qū)別,作為同種環(huán)境比較好,因此, 本發(fā)明引入了環(huán)境聚類的改進(jìn)措施。為了解決環(huán)境分類過粗的問題,例如都是寫郵件,但是不同用戶具有不同 的需求;或者同一用戶在同一環(huán)境下,在不同時刻也具有不同需求。對于前者, 本發(fā)明引入了對用戶的聚類。對于后者,則本發(fā)明需要引入更精細(xì)的環(huán)境特征, 例如郵件的標(biāo)題、收件人等信息。當(dāng)然,聚類越細(xì)致,描述越精確,運算量越 大,擴(kuò)展性也越差,本領(lǐng)域技術(shù)人員需要依據(jù)實際情況做出一個平衡方案。對于圖l所示的實施例,所得到的字詞信息與輸入環(huán)境之間的關(guān)聯(lián)關(guān)系, 可以應(yīng)用在各種輔助輸入的場合,例如,智能組詞、長句輸入等等。再例如, 當(dāng)光標(biāo)的焦點在瀏覽器網(wǎng)址框時,可以確定該用戶位于網(wǎng)頁信息環(huán)境,則優(yōu)先 輸出網(wǎng)址信息而并非中文字詞。參照圖9,示出了另一種針對輸入信息的處理方法實施例,具體可以包括 以下步驟步驟201、收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包括字
詞信息及其輸入環(huán)境信息;步驟202、針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息與輸 入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合;步驟203、依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫。本實施例的目的在于對用戶的輸入信息記錄進(jìn)行更深層次的加工,得到能 夠反映輸入字詞信息與輸入環(huán)境之間關(guān)系的輸入法詞庫。對于輸入法詞庫,可以采用各種各樣可行的數(shù)據(jù)存儲結(jié)構(gòu)。例如,所述輸入法詞庫可以包括至少兩個子詞庫,所述子詞庫以m元屬 性組進(jìn)行劃分,所述m元屬性至少包括環(huán)境屬性。即最極端的情況,所述輸 入法詞庫可以包括至少兩個子詞庫,而各個子詞庫之間僅Y又通過環(huán)境屬性加以 區(qū)分。當(dāng)用戶應(yīng)用該輸入法詞庫進(jìn)行輸入時,可以僅僅加載與該用戶當(dāng)前輸入 環(huán)境相適應(yīng)的子詞庫即可。再例如,所述輸入法詞庫中字詞的特征信息存儲空間由多個子空間構(gòu) 成,用于存儲該字詞在不同m元屬性組下的特征信息,所述m元屬性至少 包括環(huán)境屬性。即最極端的情況,所述輸入法詞庫存儲有字詞及其在不同環(huán)境 屬性下的特征信息。所述特征信息一般包括詞頻信息或者詞序信息等等。當(dāng)用 戶應(yīng)用該輸入法詞庫進(jìn)行輸入時,可以僅僅采用與該用戶當(dāng)前輸入環(huán)境相適應(yīng) 的子空間下的特征信息進(jìn)行排序即可。在本發(fā)明的一個優(yōu)選實施例中,所收集的信息還包括與所述輸入信息記 錄相應(yīng)的用戶相關(guān)信息,則步驟202中建立的關(guān)聯(lián)關(guān)系還包括字詞信息與用戶 類別的關(guān)聯(lián)關(guān)系,步驟203得到的輸入法詞庫也需要引入用戶類別屬性。例如,所述輸入法詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn) 行劃分,所述n元屬性至少包括環(huán)境屬性和用戶類別屬性。即最極端的情況, 所述輸入法詞庫可以包括至少兩個子詞庫,各個子詞庫之間通過(環(huán)境屬性, 用戶類別屬性)這樣一個二元屬性組加以劃分,將環(huán)境屬性和用戶類別屬性都 相同的字詞置于同一個子詞庫中。當(dāng)用戶應(yīng)用該輸入法詞庫進(jìn)行輸入時,加載 與該用戶以及該用戶當(dāng)前輸入環(huán)境相適應(yīng)的子詞庫即可。再例如,所述輸入法詞庫中字詞的特征信息存儲空間由多個子空間構(gòu) 成,用于存儲該字詞在不同n元屬性組下的特征信息,所述n元屬性至少包 括環(huán)境屬性和用戶類別屬性。即最極端的情況,所述輸入法詞庫中字詞的特 征信息存儲空間可以包括至少兩個子空間,各個子空間之間通過(環(huán)境屬性, 用戶類別屬性)這樣一個二元屬性組加以劃分,每個子空間用于存儲在同一(環(huán) 境屬性,用戶類別屬性)屬性條件下的字詞。當(dāng)用戶應(yīng)用該輸入法詞庫進(jìn)^f亍輸 入時,采用與該用戶及該用戶當(dāng)前輸入環(huán)境相適應(yīng)的子空間下的特征信息進(jìn)行 排序即可。參照圖10,示出了一種針對輸入信息的處理裝置實施例,具體可以包括收集模塊301,用于收集源自多個用戶的輸入信息記錄,所述輸入信息記 錄包括字詞信息及其輸入環(huán)境信息;聚類模塊302,用于針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞 信息與輸入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。在進(jìn)一步的優(yōu)選實施例中,圖10所示的裝置還可以包括詞庫生成模塊 303,用于依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫。如前所述,所述詞庫可以包括至少兩個子詞庫,所述子詞庫以m元屬性 組進(jìn)行劃分,所述m元屬性至少包括環(huán)境屬性。在另一實現(xiàn)方案下所述詞 庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同 m元屬性組下的特征信息,所述m元屬性至少包括環(huán)境屬性。在本發(fā)明的另一優(yōu)選實施例中,所述收集模塊301所收集的信息還包括與 所述輸入信息記錄相應(yīng)的用戶相關(guān)信息,則聚類沖莫塊302所建立的關(guān)聯(lián)關(guān)系還 包括字詞信息與用戶類別的關(guān)聯(lián)關(guān)系,詞庫生成;f莫塊303所生成的詞庫中也需 要引入用戶類別屬性。如前所述,則詞庫生成模塊303所得到的所述詞庫包括至少兩個子詞庫, 所述子詞庫以n元屬性組進(jìn)行劃分,所述n元屬性至少包括環(huán)境屬性和用戶類 別屬性。在另一實現(xiàn)方案下所述詞庫中字詞的特征信息存儲空間由多個子 空間構(gòu)成,用于存儲該字詞在不同n元屬性組下的特征信息,所述n元屬性 至少包括環(huán)境屬性和用戶類別屬性。參照圖11,示出了一種字符輸入的方法實施例,具體可以包括
步驟401、采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息,確定該用戶當(dāng)前的輸入環(huán)境類別;步驟402、從詞庫中匹配獲得與用戶當(dāng)前輸入環(huán)境類別相應(yīng)的子詞庫,所 述詞庫包括至少兩個子詞庫,所述子詞庫依據(jù)環(huán)境屬性進(jìn)行劃分;所述詞庫由 針對源自多個用戶的輸入信息記錄分析得到;步驟403、接收用戶的輸入信息;步驟404、依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢索,得到 相應(yīng)的候選項;當(dāng)然,還可能包括依據(jù)該子詞庫中的一些詞頻信息或者詞序信 息對候選項排序顯示的步驟,由于該部分屬于本領(lǐng)域的^^知技術(shù),所以不再詳 述;步驟405、接收用戶的選擇信息,輸出指定的候選項。用戶在輸入時,可以加載整個輸入法詞庫,然后從內(nèi)存中調(diào)用某個匹配的 子詞庫進(jìn)行4企索即可;當(dāng)然,也可以直"l妾加載所匹配的子詞庫即可,其他子詞 庫就可以在當(dāng)前輸入環(huán)境下不需要加載了 。步驟402中的子詞庫匹配過程,可以有很多的具體實現(xiàn)方式。例如,可以通過用戶選擇的方式確定當(dāng)前輸入環(huán)境類別。也可以通過以下步驟確定該用戶的當(dāng)前輸入環(huán)境類別預(yù)置對應(yīng)信息表, 所述對應(yīng)信息表用以存儲類別信息及對應(yīng)的輸入環(huán)境信息;所述輸入環(huán)境 信息可以為應(yīng)用程序名稱、網(wǎng)站地址、當(dāng)前窗口的標(biāo)題、文檔位置或者文 檔名稱等;根據(jù)所采集的當(dāng)前輸入環(huán)境信息,在所述對應(yīng)信息表查找對應(yīng) 的類別信息,得到當(dāng)前輸入環(huán)境類別。當(dāng)所采集的當(dāng)前輸入環(huán)境信息包括用戶在當(dāng)前輸入環(huán)境中所涉及的文本 數(shù)據(jù)時;也可以通過對所述文本^t據(jù)進(jìn)行分析,確定該用戶的當(dāng)前輸入類別。 其中,可以通過以下方式獲取用戶在當(dāng)前輸入環(huán)境中所涉及的文本數(shù)據(jù)通過 調(diào)用相應(yīng)的系統(tǒng)函數(shù)獲取剪貼板中的數(shù)據(jù);或者,通過調(diào)用相應(yīng)的系統(tǒng)函數(shù)獲 取當(dāng)前應(yīng)用程序所操作的文件名稱及其路徑,進(jìn)而掃描獲取該文件的內(nèi)容數(shù) 據(jù);或者,通過調(diào)用相應(yīng)的系統(tǒng)函數(shù)獲取當(dāng)前應(yīng)用程序向屏幕輸出的數(shù)據(jù);或 者,通過網(wǎng)頁瀏覽器的接口對象,獲取當(dāng)前頁面的內(nèi)容凄t據(jù)。參照圖12,示出了一種輸入法系統(tǒng)實施例,具體可以包括
詞庫501,所述詞庫包括至少兩個子詞庫,所述子詞庫依據(jù)環(huán)境屬性進(jìn)行劃分;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 信息采集單元502,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息; 匹配單元503,用于依據(jù)所采集的相關(guān)信息,確定該用戶當(dāng)前的輸入環(huán)境類別,從詞庫中匹配獲得與用戶當(dāng)前輸入環(huán)境類別相應(yīng)的子詞庫; 輸入接口單元504,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元505,用于依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行才全索,得到相應(yīng)的候選項;輸出單元506,用于接收用戶的選擇信息,輸出指定的候選項。 依據(jù)各種可能的采集、匹配方式,匹配單元503也可能具有各種不同的具體模塊實現(xiàn)。例如,所述匹配單元503可以進(jìn)一步包括對應(yīng)信息表和匹配查找子單 元,其中,所述對應(yīng)信息表用以存儲類別信息及對應(yīng)的輸入環(huán)境相關(guān)信息; 所述輸入環(huán)境相關(guān)信息包括應(yīng)用程序名稱、網(wǎng)站地址、當(dāng)前窗口的標(biāo)題、 文檔位置或者文檔名稱;所述匹配查找子單元用于根據(jù)所采集的當(dāng)前輸入 環(huán)境相關(guān)信息在所述對應(yīng)信息表查找對應(yīng)的類別信息,得到當(dāng)前輸入環(huán)境 類別。在另 一實施例中,當(dāng)所采集的當(dāng)前輸入環(huán)境的相關(guān)信息包括用戶在當(dāng)前 輸入環(huán)境中所涉及的文本數(shù)據(jù)時;則所述匹配單元503還可以通過對所述文 本數(shù)據(jù)進(jìn)行分析,確定該用戶的當(dāng)前輸入類別。詞庫的,并且各個子詞庫之間是僅僅通過環(huán)境屬性加以劃分的。參照圖13,示出了一種字符輸入的方法實施例,具體可以包括步驟601、加載詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同環(huán)境屬性下的特征信息;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到;步驟602、采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息,確定該用戶的當(dāng)前輸入類別; 步驟603、接收用戶的輸入信息;步驟604、依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索,得到相應(yīng)的候選項;步驟605、參考詞庫中各候選項在當(dāng)前輸入類別下的特征信息,對所述候選項進(jìn)行排序并顯示;當(dāng)然, 一種情況是僅僅依據(jù)各候選項在當(dāng)前輸入類別下的特征信息完成排序;在另一些實現(xiàn)方案中,還可以參考各候選項的通用特征信息,例如,候選項在當(dāng)前輸入類別下的特征信息為一個權(quán)重值,需要結(jié)合該候選項的通用詞頻信息,得到用于排序的數(shù)值;由于依據(jù)各種可能的特征信息對候選項排序的技術(shù)屬于本領(lǐng)域技術(shù)人員所熟知的,所以不再詳述。 步驟606、接收用戶的選擇信息,輸出指定的候選項。 參照圖14,示出了一種輸入法系統(tǒng)實施例,具體可以包括 詞庫701,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同環(huán)境屬性下的特征信息;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到;信息采集單元702,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息; 類別確定單元703,用于依據(jù)所采集的當(dāng)前輸入環(huán)境相關(guān)信息,確定該用戶的當(dāng)前輸入類別;輸入4^口單元704,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元705,用于依據(jù)所接收的輸入信息,在詞庫中進(jìn)行;險索,得 到相應(yīng)的候選項;排序顯示單元706,用于參考詞庫中各候選項在當(dāng)前輸入類別下的特征信息,對所述候選項進(jìn)行排序并顯示;輸出單元707,用于接收用戶的選擇信息,輸出指定的候選項。圖13和圖14所示的實施例描述的是各個子空間之間是僅僅通過環(huán)境屬性加以劃分的情況,和圖11、 12所示實施例的區(qū)別在于后者是針對采用子詞庫方式存儲數(shù)據(jù)的輸入法詞庫的,而圖13和圖14所示的實施例是采用多個子空間的數(shù)據(jù)存儲方式的。
下面幾個實施例將描述各個子空間或者子詞庫之間需要通過多個屬性值 共同作用而加以標(biāo)識區(qū)分的情況。參照圖15,示出了一種字符輸入的方法實施例,具體可以包括以下步驟 步驟801、采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬性信息; 步驟802、依據(jù)所采集的信息從詞庫中匹配獲得相應(yīng)的子詞庫,所述詞庫 包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分,所述n元屬性至少 包括環(huán)境屬性;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 步驟803、接收用戶的輸入信息;步驟804、依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行;險索,得到 相應(yīng)的候選項;用戶在輸入時,可以加載整個輸入法詞庫,然后從內(nèi)存中調(diào)用 某個匹配的子詞庫進(jìn)行檢索即可;當(dāng)然,也可以直接加栽所匹配的子詞庫即可, 其他子詞庫就可以在當(dāng)前輸入環(huán)境下不需要加載了 ;步驟805、接收用戶的選擇信息,輸出指定的候選項。前面的實施例中已經(jīng)詳細(xì)描述了如何采集當(dāng)前輸入環(huán)境的相關(guān)信息以及 如何匹配的情況,對于其他屬性信息的采集和匹配,完全可以采用,類似 的方案。例如,當(dāng)所述n元屬性包括環(huán)境屬性和用戶類別屬性時,所需的其 他屬性信息包括用戶相關(guān)信息(例如,年齡、職業(yè)等等),可以通過檢索預(yù)置 的對應(yīng)信息表來確定用戶類別。由于隨著具體屬性信息的不同,所應(yīng)用的采 集方式和匹配方式都可能不同,本領(lǐng)域技術(shù)人員可以根據(jù)實際情況選用合適的 常用采集方案和匹配方案即可,在此無法——涉及。相應(yīng)的,本發(fā)明還提供了與圖15所示的方法實施例相對應(yīng)的輸入法系統(tǒng), 具體可以包括詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分, 所述n元屬性至少包括環(huán)境屬性;所述詞庫由針對源自多個用戶的輸入信息記 錄分析得到;信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬 性信息;匹配單元,用于依據(jù)所采集的信息,從詞庫中匹配獲得相應(yīng)的子詞庫; 輸入接口單元,用于接收用戶的輸入信息;
信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢 索,得到相應(yīng)的候選項;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。圖15所示的實施例是針對采用子詞庫方式存儲數(shù)據(jù)的輸入法詞庫的,而下面的實施例是采用多個子空間的數(shù)據(jù)存儲方式的。參照圖16,示出了一種字符輸入的方法實施例,具體包括步驟901、加載詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空 間構(gòu)成,用于存儲該字詞在不同n元屬性組下的特征信息,所述n元屬性至 少包括環(huán)境屬性;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到;例 如,當(dāng)所述n元屬性包括環(huán)境屬性和用戶類別屬性時,所需的其他屬性信息包 括用戶相關(guān)信息,用以確定用戶類別;步驟902、采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬性信息;步驟903、、接收用戶的輸入信息;步驟904、依據(jù)所接收的輸入信息,在詞庫中進(jìn)行;險索,得到相應(yīng)的候選項;步驟905、參考詞庫中各候選項在與所采集信息相匹配的n元屬性組下的 特征信息,對所述候選項進(jìn)行排序并顯示;當(dāng)然, 一種情況是僅僅依據(jù)各候選 項在當(dāng)前輸入類別下的特征信息完成排序;在另一些實現(xiàn)方案中,還可以參 考各候選項的通用特征信息,例如,候選項在當(dāng)前輸入類別下的特征信息為 一個權(quán)重值,需要結(jié)合該候選項的通用詞頻信息,得到用于排序的數(shù)值;步驟906、接收用戶的選擇信息,輸出指定的候選項。相應(yīng)的,本發(fā)明還提供了一種輸入法系統(tǒng),與圖16所示的方法實施例相 對應(yīng),包括以下模塊詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存 儲該字詞在不同n元屬性組下的特征信息,所述n元屬性至少包括環(huán)境屬性; 所述詞庫由針對源自多個用戶的輸入信息記錄分析得到;信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬 性信息;
輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索,得到相應(yīng)的候選項;排序顯示單元,用于參考詞庫中各候選項在與所采集信息相匹配的n元屬性組下的特征信息,對所述候選項進(jìn)行排序并顯示;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。 在優(yōu)選的情況下,本發(fā)明所述n元屬性包括環(huán)境屬性和用戶類別屬性,此時就需要采集用戶相關(guān)信息,用以確定用戶類別。上述的各種輸入法系統(tǒng)實施例可以為普通輸入法系統(tǒng),如,通過用戶 本地計算設(shè)備完成整個輸入過程,包括信息輸入、信息轉(zhuǎn)換以及顯示輸出。 上述的各種輸入法系統(tǒng)實施例也可以為網(wǎng)絡(luò)輸入法系統(tǒng),如,通過用戶本 地計算設(shè)備完成輸入信息的接入,以及候選項的顯示輸出,而信息轉(zhuǎn)換、 計算排序等過程則在另一計算設(shè)備中完成。也就是說,本發(fā)明并不需要限 定輸入法系統(tǒng)實施例中的各個模塊的具體地理位置,只要具有相應(yīng)的功能 和相應(yīng)的連4矣關(guān)系即可。需要說明的是,本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實 施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部 分互相參見即可。對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡 單,相關(guān)之處參見方法實施例的部分說明即可。其次,本領(lǐng)域技術(shù)人員也應(yīng)該 知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不 一定是本發(fā)明所必須的。以上對本發(fā)明所提供的 一種針對用戶輸入信息的處理方法和裝置,以及多 種字符輸入的方法和輸入法系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本 發(fā)明的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本發(fā) 明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思 想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容 不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種針對輸入信息的處理方法,其特征在于,包括收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包括字詞信息及其輸入環(huán)境信息;針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息與輸入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。
2、 如權(quán)利要求l所述的方法,其特征在于,還包括 依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以m元屬性組進(jìn)行劃分,所述m元屬性至少包括環(huán)境屬 性。
3、 如權(quán)利要求l所述的方法,其特征在于,還包括 依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同m元屬性組下 的特征信息,所述m元屬性至少包括環(huán)境屬性。
4、 如權(quán)利要求1所述的方法,其特征在于,還包括收集與所述輸入信 息記錄相應(yīng)的用戶相關(guān)信息,則所建立的關(guān)聯(lián)關(guān)系還包括字詞信息與用戶類別 的關(guān)聯(lián)關(guān)系;所述用戶類別是通過針對所述用戶相關(guān)信息分析得到的。
5、 如權(quán)利要求4所述的方法,其特征在于,還包括 依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分,所述n元屬性至少包括環(huán)境屬性 和用戶類別屬性。
6、 如權(quán)利要求4所述的方法,其特征在于,還包括 依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同n元屬性組下 的特征信息,所述n元屬性至少包括環(huán)境屬性和用戶類別屬性。
7、 如權(quán)利要求1所述的方法,其特征在于,通過以下方式完成針對所述 輸入信息記錄的數(shù)據(jù)處理過程合并具有相同輸入環(huán)境信息的輸入信息記錄;或者,先合并具有相同輸入環(huán)境信息的輸入信息記錄,得到多個信息集合, 然后依據(jù)預(yù)置的聚類規(guī)則對所述信息集合進(jìn)行聚類;或者,先對輸入環(huán)境信息進(jìn)行聚類,然后將聚為同類的輸入環(huán)境下的輸入 信息記錄進(jìn)行合并。
8、 如權(quán)利要求4所述的方法,其特征在于,通過以下方式完成針對所述 輸入信息記錄的lt據(jù)處理過程分別獨立的對輸入環(huán)境信息和用戶類別進(jìn)行聚類,然后將屬于同類輸入環(huán) 境、并屬于同類用戶類別的輸入信息記錄進(jìn)行合并;或者,先對用戶類別進(jìn)行聚類,再對聚為同類的用戶類別下的輸入環(huán)境信 息進(jìn)行聚類,然后將屬于同類輸入環(huán)境、并屬于同類用戶類別的輸入信息記錄 進(jìn)行合并;或者,直接針對具有相同輸入環(huán)境信息的輸入信息記錄,依據(jù)用戶類別進(jìn) 行聚類;或者,先對輸入環(huán)境信息進(jìn)行聚類,再對聚為同類的輸入環(huán)境下的用戶類 別進(jìn)行聚類,然后將屬于同類輸入環(huán)境、并屬于同類用戶類別的輸入信息記錄 進(jìn)行合并;或者,直接采用n元屬性組進(jìn)行聚類,所述n元屬性包括環(huán)境屬性和用戶 類別屬性,然后將聚為同類的n元屬性組下的輸入信息記錄進(jìn)行合并。
9、 如權(quán)利要求7或8所述的方法,其特征在于,還包括針對一類別下 的信息進(jìn)行下一層次的聚類,得到該信息集合下的多個子集合。
10、 一種針對輸入信息的處理裝置,其特征在于,包括收集模塊,用于收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包 括字詞信息及其輸入環(huán)境信息;聚類模塊,用于針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息 與輸入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。
11、 如權(quán)利要求10所述的裝置,其特征在于,還包括 詞庫生成模塊,用于依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以m元屬性組進(jìn)行劃分,所述m元 屬性至少包括環(huán)境屬性。
12、 如權(quán)利要求10所述的裝置,其特征在于,還包括 詞庫生成模塊,用于依據(jù)所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所 述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同m元屬性組下的特征信息,所述m元屬性至少包括環(huán)境屬性。
13、 如權(quán)利要求10所述的裝置,其特征在于,所收集的信息還包括與所 述輸入信息記錄相應(yīng)的用戶相關(guān)信息,則所建立的關(guān)聯(lián)關(guān)系還包括字詞信息與 用戶類別的關(guān)聯(lián)關(guān)系;所述用戶類別是通過針對所述用戶相關(guān)信息分析得到 的。
14、 如權(quán)利要求13所述的裝置,其特征在于,還包括 詞庫生成模塊,用于所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分,所述n元屬性至 少包括環(huán)境屬性和用戶類別屬性。
15、 如權(quán)利要求12所述的裝置,其特征在于,還包括 詞庫生成模塊,用于所述關(guān)聯(lián)關(guān)系和信息集合,生成輸入法詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存儲該字詞在不同n 元屬性組下的特征信息,所述n元屬性至少包括環(huán)境屬性和用戶類別屬性。
16、 一種字符輸入的方法,其特征在于,包括采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息,確定該用戶當(dāng)前的輸入環(huán)境類別; 從詞庫中匹配獲得與用戶當(dāng)前輸入環(huán)境類別相應(yīng)的子詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫依據(jù)環(huán)境屬性進(jìn)行劃分;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 接收用戶的輸入信息;依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢索,得到相應(yīng)的候 選項;接收用戶的選擇信息,輸出指定的候選項。
17、 一種輸入法系統(tǒng),其特征在于,包括詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫依據(jù)環(huán)境屬性進(jìn)行劃分; 所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息; 匹配單元,用于依據(jù)所采集的相關(guān)信息,確定該用戶當(dāng)前的輸入環(huán)境類別, 從詞庫中匹配獲得與用戶當(dāng)前輸入環(huán)境類別相應(yīng)的子詞庫; 輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢 索,得到相應(yīng)的候選項;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。
18、 一種字符輸入的方法,其特征在于,包括加載詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用 于存儲該字詞在不同環(huán)境屬性下的特征信息;所述詞庫由針對源自多個用戶 的輸入信息記錄分析得到;采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息,確定該用戶的當(dāng)前輸入類別;接收用戶的輸入信息;依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索,得到相應(yīng)的候選項; 參考詞庫中各候選項在當(dāng)前輸入類別下的特征信息,對所述候選項進(jìn)行 排序并顯示;接收用戶的選擇信息,輸出指定的候選項。
19、 一種輸入法系統(tǒng),其特征在于,包括詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存 儲該字詞在不同環(huán)境屬性下的特征信息;所述詞庫由針對源自多個用戶的輸 入信息記錄分析得到;信息采集單元,用于釆集用戶當(dāng)前輸入環(huán)境的相關(guān)信息;類別確定單元,用于依據(jù)所釆集的當(dāng)前輸入環(huán)境相關(guān)信息,確定該用戶 的當(dāng)前輸入類別;輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索,得到相 應(yīng)的候選項;排序顯示單元,用于參考詞庫中各候選項在當(dāng)前輸入類別下的特征信息, 對所述候選項進(jìn)行排序并顯示;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。
20、 一種字符輸入的方法,其特征在于,包括 采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬性信息; 依據(jù)所釆集的信息從詞庫中匹配獲得相應(yīng)的子詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分,所述n元屬性至少包括環(huán)境屬 性;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 接收用戶的輸入信息;依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行檢索,得到相應(yīng)的候 選項;接收用戶的選擇信息,輸出指定的候選項。
21、 如權(quán)利要求20所述的方法,其特征在于,當(dāng)所述n元屬性包括環(huán)境 屬性和用戶類別屬性時,所需的其他屬性信息包括用戶相關(guān)信息,用以確定用 戶類別。
22、 一種輸入法系統(tǒng),其特征在于,包括詞庫,所述詞庫包括至少兩個子詞庫,所述子詞庫以n元屬性組進(jìn)行劃分, 所述n元屬性至少包括環(huán)境屬性;所述詞庫由針對源自多個用戶的輸入信息記 錄分析得到;信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬 性信息;匹配單元,用于依據(jù)所采集的信息,從詞庫中匹配獲得相應(yīng)的子詞庫; 輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在所匹配的子詞庫中進(jìn)行才全 索,得到相應(yīng)的候選項;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。
23、 如權(quán)利要求22所述的系統(tǒng),其特征在于,當(dāng)所述n元屬性包括環(huán)境 屬性和用戶類別屬性時,所需的其他屬性信息包括用戶相關(guān)信息,用以確定用 戶類別。
24、 一種字符輸入的方法,其特征在于,包括加載詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用 于存儲該字詞在不同n元屬性組下的特征信息,所述n元屬性至少包括環(huán)境 屬性;所述詞庫由針對源自多個用戶的輸入信息記錄分析得到; 采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬性信息;接收用戶的輸入信息;依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索,得到相應(yīng)的候選項; 參考詞庫中各候選項在與所采集信息相匹配的n元屬性組下的特征信息,對所述候選項進(jìn)行排序并顯示;接收用戶的選擇信息,輸出指定的候選項。
25、 如權(quán)利要求24所述的方法,其特征在于,當(dāng)所述n元屬性包括環(huán)境 屬性和用戶類別屬性時,所需的其他屬性信息包括用戶相關(guān)信息,用以確定用 戶類別。
26、 一種輸入法系統(tǒng),其特征在于,包括詞庫,所述詞庫中字詞的特征信息存儲空間由多個子空間構(gòu)成,用于存 儲該字詞在不同n元屬性組下的特征信息,所述n元屬性至少包括環(huán)境屬性; 所述詞庫由針對源自多個用戶的輸入信息記錄分析得到;信息采集單元,用于采集用戶當(dāng)前輸入環(huán)境的相關(guān)信息和所需的其他屬 性信息;輸入接口單元,用于接收用戶的輸入信息;信息轉(zhuǎn)換單元,用于依據(jù)所接收的輸入信息,在詞庫中進(jìn)行檢索,得到相 應(yīng)的候選項;排序顯示單元,用于參考詞庫中各候選項在與所采集信息相匹配的n元屬 性組下的特征信息,對所述候選項進(jìn)行排序并顯示;輸出單元,用于接收用戶的選擇信息,輸出指定的候選項。
27、 如權(quán)利要求26所述的系統(tǒng),其特征在于,當(dāng)所述n元屬性包括環(huán)境 屬性和用戶類別屬性時,所需的其他屬性信息包括用戶相關(guān)信息,用以確定用 戶類別。
全文摘要
本發(fā)明提供了一種針對輸入信息的處理方法和系統(tǒng),該方法包括收集源自多個用戶的輸入信息記錄,所述輸入信息記錄包括字詞信息及其輸入環(huán)境信息;針對所收集的輸入信息記錄進(jìn)行數(shù)據(jù)處理,建立字詞信息與輸入環(huán)境之間的關(guān)聯(lián)關(guān)系,得到多個并列的信息集合。本發(fā)明創(chuàng)新性的提出,分別將多個用戶的輸入習(xí)慣信息(例如,輸入字詞及其詞頻等)分環(huán)境記錄下來,并匯集至一數(shù)據(jù)處理設(shè)備中(例如,服務(wù)器),然后對這些信息進(jìn)行優(yōu)化處理,提供一具有分環(huán)境屬性的輸入法詞庫,從而可以更好的更準(zhǔn)確的符合用戶的輸入需求。進(jìn)而,當(dāng)采用本發(fā)明的詞庫進(jìn)行輸入時,可以動態(tài)的與用戶輸入環(huán)境或者輸入內(nèi)容相匹配,大大提高用戶輸入過程中首選詞準(zhǔn)確率。
文檔編號G06F17/30GK101398834SQ200710175449
公開日2009年4月1日 申請日期2007年9月29日 優(yōu)先權(quán)日2007年9月29日
發(fā)明者磊 楊 申請人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
获嘉县| 贵德县| 荥经县| 舒城县| 遂川县| 若尔盖县| 高密市| 宜君县| 互助| 来安县| 绥宁县| 福州市| 徐闻县| 宜阳县| 辉县市| 华坪县| 石林| 洱源县| 高平市| 德阳市| 宁都县| 丰台区| 东源县| 皮山县| 丰县| 德庆县| 宝鸡市| 高要市| 岑溪市| 旬阳县| 抚宁县| 中超| 凤冈县| 浦城县| 喀喇沁旗| 高邑县| 永州市| 新巴尔虎右旗| 洪湖市| 新津县| 屯门区|