一種獲取候選項的方法及裝置制造方法
【專利摘要】本申請?zhí)峁┝艘环N獲取候選項的方法及裝置,其中的方法具體包括:收集某地理區(qū)域內用戶的輸入行為數據;分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據;接收用戶在該地理區(qū)域的輸入序列;依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。本申請能夠提高用戶的輸入效率。
【專利說明】一種獲取候選項的方法及裝置
【技術領域】
[0001]本申請涉及文字輸入【技術領域】,特別是涉及一種獲取候選項的方法及裝置。
【背景技術】
[0002]目前隨著計算機技術以及互聯網技術的普及與發(fā)展,一方面,用于實現計算機文字輸入的輸入法越來越深入到人們的生活中,另一方面,用戶對于輸入法的智能性要求也越來越高。
[0003]以手機為代表的移動設備近年來發(fā)展迅猛,CPU和存儲設備性能上都有大幅提高。與之相應的,移動設備上的應用也越來越豐富,用戶界面也越來越友善。
[0004]如果移動設備上安裝的輸入法能提供基于地理位置的候選項,則能夠大大提高用戶輸入效率和操作體驗。申請?zhí)枮?01110256454.1,發(fā)明名稱為“便攜式設備上基于地理位置動態(tài)調整候選詞的系統(tǒng)及方法”的中國發(fā)明專利(以下簡稱為現有的技術方案的技術方案)公開了一種便攜式設備上基于地理位置動態(tài)調整候選詞的技術方案,相應技術方案的方法流程具體可以包括:
[0005]步驟1、位置更新模塊實時對便攜式設備的當前地理位置進行定位,獲得當前地理位置信息,并將當前地理位置信息送至引擎模塊;
[0006]步驟2、引擎模塊接收到所述當前地理位置信息,并根據需要動態(tài)地從網絡服務模塊下載當前地理位置信息所對應的與地理位置相關的候選詞數據;
[0007]步驟3、引擎模塊將下載得到的與地理位置相關的候選詞數據存入字典模塊;
[0008]步驟4、輸入模塊根據用戶的輸入動作產生相應的輸入信號,并將該輸入信號送至引擎模塊;
[0009]步驟5、引擎模塊接收到所述輸入信號,在字典模塊中搜索并得到對應的輸入候選詞信息,并將所述候選詞信息送至候選詞生成模塊;
[0010]步驟6、候選詞生成模塊接收到所述候選詞信息,生成輸入候選項列表。
[0011]上述現有的技術方案的技術方案中,地圖數據是其候選詞數據的主要來源,地圖數據中通常包括有商圈、餐飲等服務信息的名稱,能夠在一定程度上滿足用戶的輸入需求,但是,地圖數據具有如下局限性:一是,地圖數據所覆蓋的服務信息的名稱有限,無法滿足用戶的非服務信息的名稱的輸入需求,如地圖數據中是無法覆蓋到“江南Style”、“元芳”、“Techno”這種詞匯的;二是,地圖數據所使用的詞語通常過于正式,不能符合某些用戶的口語化輸入習慣,如有些用戶喜歡用“新疆辦”來表示“新疆駐北京辦事處”等等,而“新疆辦”在地圖數據中是不存在的;三是,地圖數據有自己的更新周期,如果地圖數據的更新周期偏長,則導致上述現有的技術方案的候選詞數據長期得不到更新,這樣,如果某個商圈內新開了一家餐館,則上述現有的技術方案的候選詞數據不能及時獲取該餐館的相應數據;總之,上述現有的技術方案不能智能地了解用戶的輸入需求,不能總是在輸入過程中出現用戶想要的候選詞,影響了用戶的輸入效率,這對輸入法的智能性提出了更高的要求。
[0012]另外,采用上述現有的技術方案的技術方案,只要實時定位的當前地理位置發(fā)生變化,就需要與網絡服務模塊通信以下載與新地理位置相應的候選詞數據,這樣,在移動設備用戶頻繁切換地理位置的情況下,容易給移動設備和網絡服務模塊之間帶來頻繁、大量的通信開銷。
[0013]還有,移動設備上字典模塊中日積月累不同地理位置的候選詞數據,容易占據移動設備的存儲空間。
[0014]總之,需要本領域技術人員迫切解決的一個技術問題就是:如何能夠提高用戶的輸入效率。
【發(fā)明內容】
[0015]本申請所要解決的技術問題是提供一種獲取候選項的方法,能夠提高用戶的輸入效率。
[0016]為了解決上述問題,本申請公開了一種獲取候選項的方法,包括:
[0017]收集某地理區(qū)域內用戶的輸入行為數據;
[0018]分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據;
[0019]接收用戶在該地理區(qū)域的輸入序列;
[0020]依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。
[0021]另一方面,本申請還公開了一種獲取候選項的裝置,包括:
[0022]數據收集單元,用于收集某地理區(qū)域內用戶的輸入行為數據;
[0023]數據分析單元,用于分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據;
[0024]輸入序列接收單元,用于接收用戶在該地理區(qū)域的輸入序列;及
[0025]候選項獲取單元,用于依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。
[0026]與現有的技術方案相比,本申請具有以下優(yōu)點:
[0027]本申請依據該地理區(qū)域的分地域數據,獲取與用戶在該地理區(qū)域的輸入序列相應的候選項。
[0028]首先,由于所述分地域數據是依據地理區(qū)域內用戶的輸入行為數據分析得到的,其來源并不局限于地圖數據,故能夠有效避免地圖數據詞語有限、詞語正式、更新周期長等特點對候選項的影響;更重要的是,地理區(qū)域內用戶在相同的地域環(huán)境中很有可能使用輸入行為數據來表達與該地域環(huán)境相應的特征信息,而對地理區(qū)域內用戶的輸入行為數據進行分析所得到的分區(qū)域數據是能夠體現地理區(qū)域的特色的;這樣,本申請將某地理區(qū)域的分區(qū)域數據應用于該地理區(qū)域內用戶的文字輸入過程中候選項的獲取,則能夠獲取得到反映該地理區(qū)域內特征或特色信息的候選項,從而有利于在文字輸入過程中出現用戶想要的候選項,能夠提高輸入法的智能性和用戶的輸入效率;
[0029]例如,在分區(qū)域數據描述的地理區(qū)域內,用戶的特征數據反映地理區(qū)域內的錯誤發(fā)音習慣時,本申請能夠自動對錯誤的輸入序列進行糾錯處理以得到正確的候選項,故能夠避免相應地理區(qū)域內用戶的一系列糾錯操作,提高輸入效率。
[0030]其次,現有的技術方案中,地理位置與候選詞數據是一一對應的,一方面,存儲候選詞數據也需要存儲相應的地理位置信息,容易占據服務器和移動設備的存儲空間;另一方面,當前地理位置是實時定位的,一旦移動設備的當前地理位置發(fā)生變化,就需要與網絡服務模塊通信以下載與新地理位置相應的候選詞數據,這容易給移動設備和網絡服務模塊之間帶來頻繁、大量的通信開銷;
[0031]而本申請在文字輸入過程中所使用的分區(qū)域數據是針對地理區(qū)域的,其存儲無需考慮具體的地理位置信息,故能夠節(jié)省服務器和移動設備的存儲空間;并且,即使移動設備的當前地理位置發(fā)生變化,但只要移動設備所處的地理區(qū)域不變,就可以避免與服務器通信以獲取地理區(qū)域的分區(qū)域數據,故也能節(jié)省移動設備和服務器的通信開銷。
[0032]再者,本申請確定所述輸入序列所屬的地理區(qū)域不一定依賴于移動設備對于自身地理位置信息的定位,也即,即使移動設備不具有自身地理位置信息的GPS等定位功能,本申請依然能夠順利實施,故本申請具有良好的擴展性。
[0033]進一步,現有的技術方案中,在便攜式設備上已經加載的當前地理位置信息相關的詞庫很有可能是半年前或者更久前加載的,容易導致最終得到候選詞信息的時效性差;并且,即使在當時從網絡服務模塊下載當前地理位置信息所對應的與地理位置相關的候選詞數據的情況下,網絡服務模塊側存儲的與地理位置相關的候選詞數據往往是事先生成的,仍容易影響最終得到候選詞信息的時效性;
[0034]而本申請中,所述分地域數據所依據的地理區(qū)域內用戶的輸入行為數據可以為實時收集的數據,這里的實時收集是指在確定所述輸入序列所屬的地理區(qū)域后進行相應地理區(qū)域內數據的收集,這樣依據實時收集的數據分析得到的分區(qū)域數據也是實時的,進一步獲取得到的候選項也是實時的;因此,相對于現有的技術方案,本申請所述分地域數據所依據的地理區(qū)域內用戶的輸入行為數據為實時收集的數據,能夠提高候選項的時效性。
【專利附圖】
【附圖說明】
[0035]圖1是本申請一種獲取候選項的方法實施例1的流程圖;
[0036]圖2是本申請一種獲取候選項的方法實施例2的流程圖;
[0037]圖3是本申請一種輸入法系統(tǒng)的結構示意圖;
[0038]圖4是本申請一種獲取候選項的裝置實施例的結構圖。
【具體實施方式】
[0039]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0040]本申請實施例采用分區(qū)域數據表示一切可供用戶選擇的、可按地理區(qū)域屬性進行區(qū)分的數據;其中,分地域數據可依據地理區(qū)域內用戶的輸入行為數據分析得到。這里,地理區(qū)域內用戶既可以包括地理區(qū)域內的常住用戶,又可以包括路過或者短期居住的用戶,地理區(qū)域內用戶的輸入行為數據對相應地理區(qū)域的分地域數據都會造成影響。例如,如果某個地理區(qū)域內用戶對某些特征信息比較敏感,則很有可能使用輸入行為數據來表達這些特征信息;這樣,依據地理區(qū)域內用戶的輸入行為數據分析得到的分區(qū)域數據就能夠作為相應地理區(qū)域的特征數據,與其它地理區(qū)域的數據區(qū)分開來。
[0041]本申請實施例采用某地理區(qū)域內的分區(qū)域數據為該地理區(qū)域內的用戶服務;具體而言,依據該地理區(qū)域的分地域數據,獲取與用戶在該地理區(qū)域的輸入序列相應的候選項。[0042]由于所述分地域數據是依據地理區(qū)域內用戶的輸入行為數據分析得到的,其來源并不局限于地圖數據,故能夠有效避免地圖數據詞語有限、詞語正式、更新周期長等特點對候選項的影響;更重要的是,地理區(qū)域內用戶在相同的地域環(huán)境中很有可能使用輸入行為數據來表達與相同的地域環(huán)境相應的特征信息,而對地理區(qū)域內用戶的輸入行為數據進行分析得到的分區(qū)域數據是能夠體現地理區(qū)域的特色的;這樣,本申請將某地理區(qū)域的分區(qū)域數據應用于該地理區(qū)域內用戶的文字輸入過程中候選項的獲取,則能夠獲取得到反映該地理區(qū)域內特征或特色信息的候選項,從而有利于在文字輸入過程中出現用戶想要的候選項,能夠提高輸入法的智能性和用戶的輸入效率。
[0043]參照圖1,示出了本申請一種獲取候選項的方法實施例1的流程圖,具體可以包括:
[0044]步驟101、收集某地理區(qū)域內用戶的輸入行為數據;
[0045]本申請實施例中,地理區(qū)域主要用于表示為實行用戶及用戶的輸入行為數據管理而劃分的區(qū)域。本領域技術人員可以根據實際需要進行地理區(qū)域的劃分,例如,本申請的地理區(qū)域可以具有類似行政區(qū)域的分級關系,如國家-省-市-區(qū)-縣等。另外,本領域技術人員可以根據實際需要設置所述地理區(qū)域的細粒度,例如,對于城市而言,所述地理區(qū)域的細粒度具體可以包括省、市、區(qū)、街道、社區(qū)甚至大廈等等,社區(qū)的典型例子具體包括:“五道口”、“東王莊”、“西王莊”、“望京”等等,大廈的例子可以包括“搜狐網絡大廈”、“同方大廈”、“紫光大廈”等等;對于農村而言,所述地理區(qū)域的細粒度具體可以包括省、市、縣、鄉(xiāng)鎮(zhèn)、村等等;本申請對地理區(qū)域的具體劃分和具體細粒度不加以限制。
[0046]在本申請的一種實施例中,所述收集某地理區(qū)域內用戶的輸入行為數據的步驟,具體可以包括:
[0047]步驟S111、收集在分區(qū)域服務器登記成功或者接入分區(qū)域服務器所在地理區(qū)域的用戶的輸入行為數據,作為相應地理區(qū)域內用戶的輸入行為數據。
[0048]本申請實施例中,分區(qū)域服務器與地理區(qū)域對應,可用于管理一個地理區(qū)域內的用戶及用戶的輸入行為數據。輸入行為數據可泛指用戶在文字輸入過程中產生的一切與輸入行為相關的數據,這里的輸入行為具體可以包括:輸入序列的輸入操作、上屏操作、退格操作、刪除操作等等,其中退格操作和刪除等操作既可以包括針對輸入序列的操作,也包括對已上屏詞條的操作,本申請對具體的輸入行為及輸入行為數據不加以限制。
[0049]在實際應用中,用戶可以主動向分區(qū)域服務器發(fā)起登記。例如,登記過程的一種示例可以為:用戶在開機且網絡可用時發(fā)送登記請求到最近的分區(qū)域服務器,表征自己的在線狀態(tài);分區(qū)域服務器則可依據用戶的登記請求,確認用戶所在的登記地理區(qū)域,并向用戶返回相應的登記成功消息,通常登記成功消息中可以攜帶用戶在登記地理區(qū)域內的ID (標識,Identity)、用戶所在登記地理區(qū)域的名稱等信息。登記成功的用戶與用戶之間,便構成了對等(peer)關系。
[0050]在本申請實施例中,接入分區(qū)域服務器所在地理區(qū)域的用戶可由分區(qū)域服務器主動獲取得到,例如,分區(qū)域服務器可以通過端口掃描獲取所管理地理區(qū)域內的用戶,或者,分區(qū)域服務器可以向所管理地理區(qū)域內的輸入法客戶端發(fā)送接入消息,如果輸入法客戶端針對該接入消息返回響應,則將相應的輸入法客戶端作為接入所在地理區(qū)域的用戶。
[0051]總之,在分區(qū)域服務器登記成功或者接入分區(qū)域服務器所在地理區(qū)域的用戶均在地理區(qū)域內的用戶的范圍內,二者的主要區(qū)別之一在于,前者由用戶主動發(fā)起,后者由分區(qū)域服務器主動發(fā)起。
[0052]在本申請的一種應用示例中,分區(qū)域服務器的工作流程具體可以包括:
[0053]步驟S201、管理地理區(qū)域內的用戶,更新各用戶狀態(tài);
[0054]通常用戶狀態(tài)可以包括在線、離線兩種狀態(tài)。
[0055]步驟S202、收集地理區(qū)域內用戶的輸入行為數據;
[0056]步驟S203、對已收集的用戶的輸入行為數據數據進行分析,得到分地域數據。
[0057]在本申請的一種優(yōu)選實施例中,所述登記成功的用戶的輸入行為數據具體可以包括登記成功的用戶在所有地理區(qū)域內產生的輸入行為數據,或者,登記成功的用戶在登記地理區(qū)域內產生的輸入行為數據。例如,用戶在望京居住在五道口上班,且該用戶在望京和五道口所屬的地理區(qū)域均登記過;那么,對于五道口分區(qū)域服務器而言,登記成功的用戶在所有地理區(qū)域內產生的輸入行為數據具體可以包括用戶在五道口、望京甚至其它地理區(qū)域內產生的輸入行為數據,而登記成功的用戶在登記地理區(qū)域內產生的輸入行為數據僅僅包括用戶在五道口地理區(qū)域內產生的輸入行為數據。比較登記成功的用戶在所有地理區(qū)域內產生的輸入行為數據和登記成功的用戶在登記地理區(qū)域內產生的輸入行為數據,前者更為豐富,后者更能夠反映一個地理區(qū)域內的特征信息。
[0058]步驟102、分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據;
[0059]本申請實施例中,分區(qū)域數據可用于表示可供用戶選擇的、可按地理區(qū)域屬性進行區(qū)分的數據。
[0060]在獲取分區(qū)域數據時,粒度可以是詞表或詞庫,也可以是詞條(尤其是云輸入模式下),其中的詞條不局限于漢字詞條,還可以是混雜字母、數字的詞條,也可以是英文、日文、韓文、德文等語言的詞條。
[0061]本申請實施例中,可采用地域輸入特性表示一個地理區(qū)域內的輸入特性,其可用于反映輸入行為數據與相應地理區(qū)域的關聯度,而輸入行為數據與相應地理區(qū)域的關聯度越強越能體現相應地理區(qū)域的特色;預置地域輸入特性條件則是與地域輸入特性相應的條件,也即已收集的輸入行為數據中符合預置地域輸入特性條件的數據也是具有與相應地理區(qū)域的關聯度較高、更能體現地域特色的輸入行為數據,換個說法,篩選得到的數據可以看作相應地理區(qū)域內的特征數據。
[0062]在本申請的一種優(yōu)選實施例中,地域輸入特性可以用地域詞條輸入特性來表示,則所述收集某地理區(qū)域內用戶的輸入行為數據的步驟,具體可以包括:
[0063]從已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據;
[0064]所述分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據的步驟,具體為依據篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據。
[0065]本申請可以提供如下地域詞條輸入特性的方案;
[0066]地域詞條輸入特性方案1、
[0067]所述地域詞條輸入特性具體可以包括用戶數目;所述預置地域詞條輸入特性條件具體可以包括預置用戶數目條件;所述已收集的輸入行為數據可以包括上屏詞條;在一些優(yōu)選實施例中,已收集的輸入行為數據還可以包括用戶標識、和已上屏詞條對應的用戶輸入序列;
[0068]則所述從已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據的步驟,包括:
[0069]步驟S301、統(tǒng)計輸入所述已收集的輸入行為數據中上屏詞條的用戶數目;
[0070]步驟S302、從所述已收集的輸入行為數據中篩選出用戶數目符合預置用戶數目條件的上屏詞條;
[0071]則所述依據篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據的步驟,具體可以包括:
[0072]步驟S303、以所述篩選出的上屏詞條作為候選項,建立該候選項和至少一種輸入方式下輸入序列的對應關系。
[0073]本申請實施例中,輸入方式指的是文字的詞條與輸入序列之間的對應關系,例如全拼輸入方式、簡拼輸入方式、手寫輸入方式、筆畫輸入方式、五筆輸入方式等等。
[0074]地域詞條輸入特性方案I中,用戶數目可用于表示一個地理區(qū)域內輸入某詞條的用戶數目,其可用于反映相應地理區(qū)域內對于某詞條的使用范圍;通常,用戶數目越多,表示該詞條的使用范圍越大,該詞條與相應地理區(qū)域的關聯度越強,故可以依據用戶數目得到預置地域輸入特性條件,以篩選出與相應地理區(qū)域的關聯度較強、體現地域特色的詞條。
[0075]在篩選出這樣的詞條后,可以建立該詞條與一種及一種以上輸入方式下的輸入序列之間的對應關系,這樣不論用戶使用何種輸入方式,均能方便的在該地理區(qū)域內輸出該詞條。
[0076]當然,也可以在收集上屏詞條的同時收集與上屏詞條對應的用戶輸入序列,在篩選出用戶數目符合預置用戶數目條件的上屏詞條后,建立該上屏詞條與所收集的用戶輸入序列之間的對應關系,并據此向該地理區(qū)域內的用戶提供候選項。本申請對此不加限制。
[0077]參照表1,示出了本申請一種包括用戶標識、輸入序列和對應的上屏詞條的一個地理區(qū)域內已收集的輸入行為數據的示例。
[0078]表1
[0079]
【權利要求】
1.一種獲取候選項的方法,其特征在于,包括: 收集某地理區(qū)域內用戶的輸入行為數據; 分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據; 接收用戶在該地理區(qū)域的輸入序列; 依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。
2.如權利要求1所述的方法,其特征在于,所述收集某地理區(qū)域內用戶的輸入行為數據的步驟,包括: 從已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據; 所述分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據的步驟,具體為依據篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據。
3.如權利要求 2所述的方法,其特征在于,所述已收集的輸入行為數據包括輸入序列、輸入操作和對應的上屏詞條; 所述從已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據的步驟,包括: 從所述已收集的輸入行為數據中篩選出輸入序列、輸入操作和對應的上屏詞條中一者或多者符合預置地域糾錯輸入條件的輸入行為數據; 所述分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據的步驟,具體為依據所述篩選出的輸入行為數據,得到錯誤輸入序列和正確輸入序列的對應關系,作為該地理區(qū)域的分地域數據。
4.如權利要求2所述的方法,其特征在于,所述已收集的輸入行為數據包括上屏詞條。
5.如權利要求4所述的方法,其特征在于,所述地域詞條輸入特性包括用戶數目;所述預置地域詞條輸入特性條件包括預置用戶數目條件; 則所述從已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據的步驟,包括: 統(tǒng)計輸入所述已收集的輸入行為數據中上屏詞條的用戶數目; 從所述已收集的輸入行為數據中篩選出用戶數目符合預置用戶數目條件的上屏詞條; 則所述依據篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據的步驟,包括: 以所述篩選出的上屏詞條作為候選項,建立該候選項和至少一種輸入方式下輸入序列的對應關系。
6.如權利要求4所述的方法,其特征在于,所述地域詞條輸入特性包括輸入概率比對;所述預置地域詞條輸入特性條件包括預置輸入概率比對條件; 則所述從所述已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據的步驟,包括: 針對某地理區(qū)域的所述已收集的輸入行為數據中某上屏詞條,統(tǒng)計其在該地理區(qū)域的所述已收集的輸入行為數據中所有上屏詞條的第一輸入概率; 針對全部地理區(qū)域的所述已收集的輸入行為數據中某上屏詞條,統(tǒng)計其在全部地理區(qū)域的所述已收集的輸入行為數據中所有上屏詞條的第二輸入概率;以某上屏詞條的第一輸入概率與第二輸入概率的比值,作為該上屏詞條在第一輸入概率對應地理區(qū)域內的輸入概率比對; 從某地理區(qū)域的所述已收集的輸入行為數據中篩選出輸入概率比對符合預置輸入概率比對條件的上屏詞條; 則所述依據篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據步驟,包括: 以所述篩選出的上屏詞條作為候選項,建立該候選項和至少一種輸入方式下輸入序列的對應關系。
7.如權利要求3所述的方法,其特征在于,所述預置地域糾錯輸入條件至少包括如下條件中的一種或多種:糾錯操作緊接在未上屏輸入序列的輸入操作之后;及,糾錯操作緊接在上屏詞條的上屏操作之后; 所述糾錯操作至少包括如下操作中的一種或多種:退格操作、刪除操作、交換操作和替換操作。
8.如權利要求7所述的方法,其特征在于,所述依據所述篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據的步驟,包括: 在所述預置地域糾錯輸入條件為糾錯操作緊接在輸入序列的輸入操作之后時,依據該糾錯操作之前的未上屏輸入序列得到錯誤輸入序列,依據該糾錯操作之后的未上屏輸入序列獲取該錯誤輸入序列對應的正確輸入序列,并建立錯誤輸入序列和正確輸入序列的對應關系;和/或, 在所述糾錯操作緊接在上屏詞條的上屏操作之后時,依據該糾錯操作之前的上屏詞條得到錯誤上屏詞條,依據該糾錯操作之后的上屏詞條得到該錯誤上屏詞條對應正確上屏詞條,并依據該錯誤上屏詞條·和正確上屏詞條建立錯誤輸入序列和正確輸入序列的對應關系; 則所述依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項的步驟,包括: 利用所述錯誤輸入序列和正確輸入序列的對應關系,對所述輸入序列進行糾錯,得到糾錯后輸入序列; 依據所述糾錯后輸入序列,獲取相應的候選項。
9.如權利要求1至8中任一項所述的方法,其特征在于,所述收集某地理區(qū)域內用戶的輸入行為數據的步驟,包括: 收集在分區(qū)域服務器登記成功或者接入分區(qū)域服務器所在地理區(qū)域的用戶的輸入行為數據,作為相應地理區(qū)域內用戶的輸入行為數據。
10.如權利要求1所述的方法,其特征在于,還包括: 在依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項失敗時,依據該地理區(qū)域的上一級地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。
11.一種獲取候選項的裝置,其特征在于,包括: 數據收集單元,用于收集某地理區(qū)域內用戶的輸入行為數據; 數據分析單元,用于分析已收集的輸入行為數據,得到該地理區(qū)域的分地域數據; 輸入序列接收單元,用于接收用戶在該地理區(qū)域的輸入序列 '及 候選項獲取單元,用于依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。
12.如權利要求11所述的裝置,其特征在于,所述數據收集單元,包括: 篩選子單元,用于從已收集的輸入行為數據中篩選出符合預置地域詞條輸入特性條件的輸入行為數據; 則所述數據分析單元,具體用于依據篩選出的輸入行為數據,得到該地理區(qū)域的分地域數據。
13.如權利要求12所述的裝置,其特征在于,所述已收集的輸入行為數據包括輸入序列、輸入操作和對應的上屏詞條; 則所述篩選子單元,包括: 糾錯篩選模塊,用于從所述已收集的輸入行為數據中篩選出輸入序列、輸入操作和對應的上屏詞條中一者或多者符合預置地域糾錯輸入條件的輸入行為數據; 則所述數據分析單元,具體用于依據所述篩選出的輸入行為數據,得到錯誤輸入序列和正確輸入序列的對應關系,作為該地理區(qū)域的分地域數據。
14.如權利要求12所述的裝置,其特征在于,所述已收集的輸入行為數據包括上屏詞條。
15.如權利要求14所述的裝置,其特征在于,所述地域詞條輸入特性包括用戶數目;所述預置地域詞條輸入特性條件包括預置用戶數目條件; 則所述篩選子單元,包括: 第一統(tǒng)計模塊,用于統(tǒng)計輸入所述已收集的輸入行為數據中上屏詞條的用戶數目; 數目篩選模塊,用于從所述已收集的輸入行為數據中篩選出用戶數目符合預置用戶數目條件的上屏詞條; 則所述數據分析單元,具體用于以所述篩選出的上屏詞條作為候選項,建立該候選項和至少一種輸入方式下輸入序列的對應關系。
16.如權利要求14所述的裝置,其特征在于,所述地域詞條輸入特性包括輸入概率比對;所述預置地域詞條輸入特性條件包括預置輸入概率比對條件; 則所述所述篩選子單元,包括: 第二統(tǒng)計模塊,用于針對某地理區(qū)域的所述已收集的輸入行為數據中某上屏詞條,統(tǒng)計其在該地理區(qū)域的所述已收集的輸入行為數據中所有上屏詞條的第一輸入概率; 第三統(tǒng)計模塊,用于針對全部地理區(qū)域的所述已收集的輸入行為數據中某上屏詞條,統(tǒng)計其在全部地理區(qū)域的所述已收集的輸入行為數據中所有上屏詞條的第二輸入概率; 概率比對獲取模塊,用于以某上屏詞條的第一輸入概率與第二輸入概率的比值,作為該上屏詞條在第一輸入概率對應地理區(qū)域內的輸入概率比對;及 概率篩選模塊,用于從某地理區(qū)域的所述已收集的輸入行為數據中篩選出輸入概率比對符合預置輸入概率比對條件的上屏詞條; 則所述數據分析單元,具體用于以所述篩選出的上屏詞條作為候選項,建立該候選項和至少一種輸入方式下輸入序列的對應關系。
17.如權利要求13所述的裝置,其特征在于,所述預置地域糾錯輸入條件至少包括如下條件中的一種或多種:糾錯操作緊接在未上屏輸入序列的輸入操作之后;及,糾錯操作緊接在上屏詞條的上屏操作之后;所述糾錯操作至少包括如下操作中的一種或多種:退格操作、刪除操作、交換操作和替換操作。
18.如權利要求17所述的方法,其特征在于,所述數據分析單元,包括: 第一分析子單元,用于在所述預置地域糾錯輸入條件為糾錯操作緊接在輸入序列的輸入操作之后時,依據該糾錯操作之前的未上屏輸入序列得到錯誤輸入序列,依據該糾錯操作之后的未上屏輸入序列獲取該錯誤輸入序列對應的正確輸入序列,并建立錯誤輸入序列和正確輸入序列的對應關系;和/或, 第二分析子單元,用于在所述糾錯操作緊接在上屏詞條的上屏操作之后時,依據該糾錯操作之前的上屏詞條得到錯誤上屏詞條,依據該糾錯操作之后的上屏詞條得到該錯誤上屏詞條對應正確上屏詞條,并依據該錯誤上屏詞條和正確上屏詞條建立錯誤輸入序列和正確輸入序列的對應關系; 則所述候選項獲取單元,包括: 糾錯子單元,用于利用所述錯誤輸入序列和正確輸入序列的對應關系,對所述輸入序列進行糾錯,得到糾錯后輸入序列; 糾錯后獲取子單元,用于依據所述糾錯后輸入序列,獲取相應的候選項。
19.如權利要求11至18中任一項所述的裝置,其特征在于,所述數據收集單元,具體用于收集在分區(qū)域服務器登記成功或者接入分區(qū)域服務器所在地理區(qū)域的用戶的輸入行為數據,作為相應地理區(qū)域內用戶的輸入行為數據。
20.如權利要求11所述的裝置,其特征在于,還包括: 上一級候選項獲取單元,·用于在依據該地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項失敗時,依據該地理區(qū)域的上一級地理區(qū)域的分地域數據,獲取與所述輸入序列相應的候選項。
【文檔編號】G06F17/30GK103853437SQ201210497317
【公開日】2014年6月11日 申請日期:2012年11月28日 優(yōu)先權日:2012年11月28日
【發(fā)明者】張揚 申請人:北京搜狗科技發(fā)展有限公司