專利名稱:漢字編碼新技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于中文信息處理技術(shù)領(lǐng)域,涉及漢字編碼輸入中聯(lián)想字、重碼字及重碼短語的處理方法,中文短語及簡碼的分區(qū)取碼方法。
目前重碼字及聯(lián)想字的選取方法,如CN85100837,CN85100277等,是按漢字的統(tǒng)計頻度,在屏幕上顯示出來,然后用一數(shù)字鍵來選取。用這種方法,用戶必須通過觀察屏幕來確定,有時甚至需要多次屏幕顯示才能找到所需的字。
現(xiàn)行的所有漢字編碼方法中,對取碼相同的幾個漢字或短語,無論它們在使用頻度上有多大的差別,每次都讓它們?nèi)砍霈F(xiàn)在重碼字或重碼短語的被選行列中,從而使得要么出現(xiàn)大量的重碼字及重碼短語選擇次數(shù),要么使系統(tǒng)能編碼的漢字較少或取碼長度較長,目前僅對6763個漢字進行編碼,其取碼長度就是四個碼元了。
在中文短語(或漢字詞)的編碼方面,目前世界上無非有兩種方法來指定短語取碼區(qū)的方法,其一是將短語與漢字共用一個編碼區(qū),使?jié)h字取碼優(yōu)先,即一個字與一個短語,若對應(yīng)的編碼相同,則把該碼分配給漢字,而把短語去掉;其二是在漢字取碼區(qū)外,還為短語定義一個取碼區(qū)。對于方法一,存在著大量用短語碼取不出短語的現(xiàn)象;方法二雖不存在上述現(xiàn)象,但由于中文短語數(shù)量之多,就連比較常用的也有數(shù)萬條之多,遠遠超過一二級漢字的6763這個數(shù)。由漢字編碼的情況可知,要對這么多的中文短語進行編碼,不可避免地要采用較長的碼長,否則重碼便會大量出現(xiàn)。
此外在快速漢字輸入方法中,簡碼的使用是很重要的,而目前的各種方案中,由于短語未分區(qū)取碼,所能定義的簡碼短語少,在字詞混合編碼時,甚至不能定義簡碼詞。
本發(fā)明的目的就是要改進上述聯(lián)想字和重碼字的選取方法,中文短語及簡碼的取碼方法,并最終實現(xiàn)以詞為單位的中文輸入。
本發(fā)明中提出了漢字重碼字和聯(lián)想字的漢字屬性識別法,其中的漢字屬性是指漢字的音、形、義。其中的形包括字形、筆型、角型、筆劃及字根;音包括漢字及其漢字的構(gòu)字部件的讀音。其方法是這樣實現(xiàn)的將漢字的一種或幾種屬性進行編碼,所得到的碼稱為漢字屬性碼,當需要選擇漢字重碼字或聯(lián)想字時,輸入一個所選字的屬性碼來確定所需的重碼字或聯(lián)想字。將所使用的屬性碼稱為被選字的識別碼。
在輸入一個漢字后,若要輸入它的聯(lián)想字,則輸入一個相應(yīng)識別碼,再從鍵盤輸入一個聯(lián)想字定義鍵來得到??梢杂每崭矜I或其它鍵來充當聯(lián)想字定義鍵。
在重碼字選定狀態(tài)下,即可通過輸入一個識別碼又可根據(jù)屏幕顯示,通過輸入一個數(shù)字鍵來確定所需的重碼字。
在上述方法的基礎(chǔ)上,設(shè)計了下列三種優(yōu)選的漢字屬性碼取碼方法方法一,取字根屬性碼,也就是將漢字的某字根作為屬性碼,當遇到要選擇重碼字或聯(lián)想字時,從鍵盤輸入相應(yīng)的字根屬性碼作為識別碼。
方法二,取首音屬性碼,將漢字或構(gòu)字部件名之拼音的首字母取作首音字母,考慮到發(fā)音不準的人常常把首音L和首音N搞混,碼,這樣一共可得到25個“前后筆型屬性碼”,將它們分別安排到二十五個字母鍵上,每一個字母鍵代表一個二維筆型碼,當需要確定重碼字或聯(lián)想字時,輸入一相應(yīng)的字母鍵來識別。
本發(fā)明中,中文短語和簡碼短語分區(qū)取碼的方法,是指按中文短語的屬性進行分區(qū)取碼的方法。其中的短語屬性包括組成短語的各漢字的屬性,短語的長度(即短語中所含漢字的個數(shù)),短語中的標點符號,短語所屬的專業(yè)領(lǐng)域。這里所說的短語包括單個的漢語詞。本方法是這樣實現(xiàn)的,根據(jù)中文短語的一種或幾種屬性,將短語分成幾個不同的類別,為每一類短語指定一個不同的編碼區(qū)間。在這種方法的基礎(chǔ)上設(shè)計了兩種優(yōu)選的短語的劃分方法,兩種中文短語三元編碼法和一種以詞為單位的中文輸入方法。
短語劃分方法一按短語的長度,即短語中所含漢字的個數(shù)來劃分,分為長度等于2,3,4和長度等于或大于5的四類短語,通過四個分區(qū)定義鍵分配到四個不同的編碼區(qū)?;蛘邔⒍陶Z分為長度等于1,2,3,4,和長度等于或大于5的短語(長度為一的短語表示單字詞),通過五個分區(qū)定義鍵分配到五個不同的編碼區(qū)。
短語劃分方法二按筆劃劃分,根據(jù)短語中第一個漢字的首筆或末筆來劃分,可分為橫,豎,撇,點,折五類短語,用五個定義鍵來指定五個相應(yīng)的分區(qū)。
短語編碼方法一三元首音編碼法,其方法是按長度劃分短語,短語的碼長定為三。對長度為二的短語,分別取第一二字的首音和第一字的第二碼元為短語的三個碼元,取第二字的第二碼元作為重碼短語識別碼;對長度為三的短語,依次取第一二三字的首音作為三個碼元,取第三字的第二碼元作為重碼短語識別碼;對長度等于或大于四的短語,取第一,二末字的首音作為三個碼元,取第三字的首音作為重碼短語的識別碼。
短語編碼方法二三元首字根編碼法,方法是按長度劃分短語,短語的長度定為三。對長度等于二的短語,依次取第一字的第一二碼元和第二字的首字根作為三個碼元,取第二字的第二碼元作為重碼短語識別碼;對長度為三的短語,依次取第一,二,三字的首字根為三個碼元,取第三字的第二碼元為重碼短語識別碼;對長度等于或大于四的短語,取第一,二,末字的首字根作為三個碼元,取第三字的首字根為重碼短語識別碼。
中文以詞為單位的輸入方法,這是一種通用的方法,無論是對音碼,型碼,或是音型碼均是適用的。本方法是這樣實現(xiàn)的按長度將短語劃分為長度等于一、二、三、四和長度等于或大于五的五類短語,用五個定義鍵來定義這五類短語,在輸入短語時,無論是按簡碼或是全碼,均以定義鍵作為短語碼結(jié)束鍵,當輸入了一個全碼而未鍵定義鍵便接著輸入下個短語碼時,系統(tǒng)將所輸入的碼默認為單字詞的碼。
本發(fā)明中按頻度分級隔離重碼字和重碼短語的方法,是指按統(tǒng)計頻度(統(tǒng)計頻度可以是綜合統(tǒng)計頻度,也可以是某專業(yè)的統(tǒng)計頻度)把重碼字或重碼短語分為高頻級和低頻級兩個不同的級別,對于一個重碼,系統(tǒng)是否進入重碼字或重碼短語選擇狀態(tài),由高頻級重碼字或重碼短語是否唯一來決定,若不唯一,則進入重碼字或重碼短語選擇狀態(tài),此時無論是哪一級的重碼字或重碼短語,均可由所輸入的識別碼或數(shù)字鍵來確定;若高頻重碼字或重碼短因此把首音N合并到首音L中,共得到22個首音字母A、B、C、D、E、F、G、H、J、K、L、M、O、P、Q、R、S、T、W、X、Y、Z,把這22個首音字母稱為基本首音字母,將基本首音字母中頻度最高的一部份,例如B、C、J、L、S、X、Y、Z每一個分離成兩個首音字母,以使?jié)h字分布更均勻。其分離方法是把分布在這些音區(qū)的漢字,按其拼音韻母中是否含某一拼音字母(例如N)來區(qū)分,對拼音韻母中含有該拼音字母的漢字,其首音定義為一個新的首音,對應(yīng)的首音字母用上述韻母中的拼音字母符號附加在原首音字母的右下角來表示(例如JN等)。將這些有角標的首音稱為復(fù)首音,對應(yīng)的首音字母稱為復(fù)首音字母。
按所取高頻首音字的多少,可得到數(shù)量不同的復(fù)首音,按前面給出的8個高頻首音,就可取出8個復(fù)首音。將部分復(fù)首音安排到4個低頻首音字母鍵A、E、O、R鍵上,另外的復(fù)首音安排到基本首音字母未用到的I、N、U、V和符號鍵上。
分離首音的優(yōu)選方法有兩種,其一是根據(jù)高頻首音漢字的拼音韻母中是否含N來分離,由此得到的首音字母總表由
圖1給出。其二是按高頻首音漢字的拼音韻母是否含A來分離,由此得到的首音字母總表由圖2給出。圖1中的首音字母在標準鍵盤上的分布由圖3給出,圖3中的每個方格表示一個鍵,左上角的字母表示首音字母。
方法三,取筆型屬性碼。將漢字的五種基本筆劃歸為橫(一),豎(丨),撇(丿),點(丶),折(乙),依次取代號為1,2,3,4,5,取漢字的某個筆劃作為前筆,取另一筆劃作后筆,把與這個筆劃對中兩筆劃的代號相對應(yīng)的一個二維數(shù)字碼,稱為前后筆型語唯一,則系統(tǒng)直接輸入高頻重碼字或重碼短語,而把低頻字或短語在屏幕提示區(qū)顯示出來。如果此時輸入的不是所需要的漢字或短語,則按一下“降頻鍵”,例如“/”鍵來刪除所輸入的漢字或短語,并使系統(tǒng)檢索低頻級的重碼字或短語,若此時低頻級的漢字或短語唯一,則輸入低頻級的漢字或短語,否則進入重碼字或重碼短語選擇狀態(tài)。
本發(fā)明的意義在于,利用漢字屬性識別碼可以使重碼字和聯(lián)想字的確定象輸入一個普通編碼鍵一樣簡單快速,并能使平均碼長縮短;利用按短語屬性將短語分區(qū)編碼的方法,使得可以在碼長不變的情況下,增加短語編碼量和降低重碼率,并最終實現(xiàn)以詞為單位的中文輸入;簡碼短語分區(qū)取碼的方法,可以為用戶提供較多的簡碼短語使用機會,從而使?jié)h字輸入的平均碼長進一步縮短。重碼字和重碼短語按統(tǒng)計頻度分級隔離的方法,使得漢字編碼空間的取碼率上升,并可容納大量的漢字和短語,而選擇重碼字和重碼短語的平均次數(shù)卻不增加或增加較少。
本發(fā)明中的若干方法,其最佳的實現(xiàn)方式就是用來設(shè)計大容量的,以詞輸入為主的聯(lián)想漢字操作系統(tǒng)。本發(fā)明中的技術(shù),也可用來改進現(xiàn)有的各種漢字輸入方法,例如五筆字型的設(shè)計者可以利用本發(fā)明中的方法,來開發(fā)帶聯(lián)想識別和短語及簡碼短語分區(qū)取碼的漢字操作系統(tǒng),或者開發(fā)以詞為單位的中文輸入系統(tǒng)。
權(quán)利要求
1.漢字編碼新技術(shù),特征是根據(jù)漢字的屬性,用屬性識別碼來識別漢字重碼字和聯(lián)想字,根據(jù)中文短語的屬性,將中文短語和簡碼短語分區(qū)取碼,重碼字和重碼短語按頻度分級隔離。
2.權(quán)利要求1中所指的漢字屬性包括漢字的發(fā)音、字義、字型、角型、筆型、筆劃、字根、以及筆劃和字根的讀音;短語的屬性包括短語中每個漢字的屬性、短語的長度、所含標點及短語所屬專業(yè)領(lǐng)域,其中的短語包括漢語詞。
3.按權(quán)利要求1取得的首音識別碼,特征是將漢字拼音的首字母取作基本首音,并將基本首音中的N合并到L中,對基本首音中的幾個高頻首音,若其相應(yīng)音區(qū)內(nèi)漢字的韻母中含有某個指定的字母,則把該漢字的首音定義為一個新的首音,稱為復(fù)首音,按韻母中是否含N或是否含A所得到的兩種首音總表由圖1和圖2給出,按圖1的首音總表得到的首音鍵盤由圖3給出,本識別碼首音也可作漢字編碼的首音碼元。
4.權(quán)利要求1中的短語和簡碼短語分區(qū)取碼的方法是按短語的一種或幾種屬性將短語分成幾個不同的類別,把不同類別的短語安排到不同的編碼區(qū),每個分區(qū)的短語碼或短語簡碼用一個特定的分區(qū)定義鍵來區(qū)別。
5.權(quán)利要求1中劃分短語的兩種優(yōu)選方法其一是按長度劃分;其二是按短語第一個字的首筆劃劃分。
6.按權(quán)利要求1的方法,實現(xiàn)按長度分區(qū)取碼的方式有兩種,其一是以短語定義鍵作為短語(不包括單字詞)全碼的第一個碼元鍵,當取簡碼時則以定義鍵作為短語簡碼的末碼元鍵;其二是,將字作為長度為一的短語,無論是全碼或是簡碼,均以定義鍵作為結(jié)束鍵,當取單字詞的全碼時,若不鍵入定義鍵便接著輸入下個短語碼,則系統(tǒng)將所輸入的碼作為單字詞碼。
7.權(quán)利要求1中按頻度分級隔離的方法是根據(jù)漢字和短語的統(tǒng)計頻度或使用頻度,把重碼字或重碼短語劃分成不同的級別,對于一個重碼,若高頻重碼字或重碼短語不唯一,則進入重碼字或重碼短語選擇狀態(tài),此時可輸入重碼識別碼或數(shù)字鍵來確定任意一個重碼字或重碼短語;若唯一,則系統(tǒng)直接輸入高頻重碼字或重碼短語,如果所輸入的不是所需要的字或短語,則按一下降頻鍵來刪除它,并使系統(tǒng)進入低頻重碼字或重碼短語的選擇狀態(tài)。
全文摘要
發(fā)明的目的是要解決重碼字和聯(lián)想字的盲打輸入,使中文輸入實現(xiàn)以詞為主,以減少重碼字或重碼短語的選擇次數(shù)。其技術(shù)是將漢字的一種或幾種屬性進行編碼,當需要選擇漢字的重碼字或聯(lián)想字時,輸入所需字的屬性識別碼來確定相應(yīng)的漢字;將中文短語及簡碼短語按其屬性劃分為不同的類別,為每一類短語指定一個取碼區(qū);將重碼字和重碼短語按其頻度分級隔離,當高頻重碼字或重碼短語唯一時,直接選中高頻字或高頻短語。
文檔編號G06F3/023GK1049416SQ8910616
公開日1991年2月20日 申請日期1989年8月9日 優(yōu)先權(quán)日1989年8月9日
發(fā)明者陳燎原 申請人:核工業(yè)西南物理研究院