專利名稱:漢字規(guī)范編碼及鍵盤輸入法(簡(jiǎn)稱規(guī)范碼)的制作方法
一、本發(fā)明是一項(xiàng)利用英文字符給漢字編碼的方案和用計(jì)算機(jī)通用鍵盤輸入漢字的方法。目的是改進(jìn)漢字拆分的規(guī)范性,解決漢字輸入法中“好學(xué)與快速”的矛盾。
通過確定漢字的規(guī)范拆分取碼方法和合理分布部件代碼,使?jié)h字編碼符合造字規(guī)則和識(shí)字規(guī)律,降低重碼率,使編碼易學(xué)好記,有利于計(jì)算機(jī)處理中文信息技術(shù)的普及。
通過碼長(zhǎng)分組消除字重碼和減少字與詞重碼,獨(dú)特的輸入方法使?jié)h字輸入既適于初學(xué)者也適應(yīng)專業(yè)錄入人員快速盲打的要求。該項(xiàng)技術(shù)也適于任何漢字編碼方案及輸入法。
規(guī)范碼適于任何漢字信息處理領(lǐng)域及其設(shè)備。
二、規(guī)范碼的理論基礎(chǔ)漢字由30多種筆畫組成字根(字根中有常用的偏旁部首,有獨(dú)體字,當(dāng)然也有些字根既不是常用偏旁部首,也不是字)。由字根和筆畫組成新的獨(dú)體字,由字根和字根組成合體字,由字根與合體字或合體字與合體字組成新的合體字。也就是說字的組成過程不是并行的,而是分級(jí)有序的。組成合體字的字稱之為“子字”,為敘述的方便,以下將筆畫、字根、子字統(tǒng)稱為“部件”。
字的組合結(jié)構(gòu)有并列、包圍、重疊和復(fù)合幾種形式。舉例如下并列字“明”、“尖”,組字順序是先左后右,先上后下。
包圍字“國”、“同”、“匣”、“閘”、“囪”、“層”、“或”、“威”、“越”,組字順序是先外后內(nèi)?!斑@”、“建”等含“辶”,“廴”的字是先內(nèi)后外。
重疊字“必”、“重”,組字順序由寫書筆畫順序決定,“必”是“心”加“丿”組成,“重”是由“千”、“曰”、“二”組成,“本”是“木”加一橫組成。
復(fù)合字“鍵”、“蓿”、“圓”,由前三種結(jié)構(gòu)復(fù)合組成,因此組字順序按上述三種結(jié)構(gòu)順序決定。
少數(shù)字是先中間后兩邊。如“水”、“承”,是以書寫筆畫為順序的。
在上述理論的基礎(chǔ)上對(duì)漢字的拆分方法才可能規(guī)范化。
三、部件分布部件大部分按其稱謂讀聲分布在26個(gè)英文字母上,少數(shù)部件根據(jù)筆形特征歸類分布在“;”、“,”、“.”、“/”四個(gè)符號(hào)和部分字母上。分布在“a”、“e”、“o”、“;”、“,”、“.”、“/”七個(gè)字符上的部件組之間可以互換字符代碼而不影響規(guī)范碼的性能指標(biāo)。
具體分布如下A門、 、冂、凵、匚、 B宀、疒、 、卜。
C艸、廾、 。
D刂、 。
E山、巾、阝、 、彐、 。
F手、扌、 。
G廣、廿、 。
H一、 、虍、火。
I丨、蟲、廠、彳、亍、 。
J钅、 。
K 。
L木、 、ㄥ、レ、し、 。
M目、 。
N女、 。
O氵、 、灬、 。
P丿、魚、 、卩、 。
Q犭、氣、 。
R亻、 。
S 。
T 、土。
U 、尸、 。
V 。
W攵、 、主、 、戊。
X忄、 、穴、 、下。
Y肀、予、 、亦。
Z 巛、辶、廴、足、走、 ;車、冫、 、羊、 .礻、衤、 /月、彳、八、 、勹、 其中為了分離重碼,有十個(gè)字沒有按其聲母分布。
有些部件的讀聲沒有聲母就用其漢語拼音的首韻母替代,本文統(tǒng)稱為聲母。
由于漢字的拆分遵循組字方法,因此大量的漢字也作為部件參與編碼,這是規(guī)范碼的特別之處,它們按其讀聲的聲母分布在相應(yīng)字母上,顯然無需具體列出。
四、編碼方案規(guī)范碼碼長(zhǎng)4位,第一碼為該字讀音的聲母(卷舌聲母zh用v代替,ch用i代替,sh用u代替,沒有聲母的用其漢語拼音的首字母代替)。聲母字符符合國家漢語拼音標(biāo)準(zhǔn),可以一字多聲。第二、三、四碼為形碼,按以下方案拆字取碼。
1、對(duì)于獨(dú)體字按書寫順序,根據(jù)部件分布表對(duì)漢字進(jìn)行拆分取碼。第一碼為起筆部件碼,第二碼為第二部件碼或余部件碼,第三碼為余部件碼或包括末筆的最大子部件(簡(jiǎn)稱子部件)碼,碼長(zhǎng)不夠用字母q補(bǔ)齊。
例“一”的聲母為“y”,第一形碼取橫即“h”,沒有余部件,則用“q”補(bǔ)齊,于是“一”的規(guī)范碼是“yhqq”。“開”的聲母為“k”起筆部件是橫,余部件“廾”,子部件是“丿”,因此“開”的規(guī)范碼是“khcd”。同樣“禾”,“介”,“少”的規(guī)范碼分別是“hpl/”、“jrdi”、“uxpq”。
2、對(duì)于合體字的拆分也是按書寫和組字順序,僅當(dāng)部件字與字同聲時(shí)要拆開,這是規(guī)范碼的關(guān)鍵之處,稱之為“同聲拆字”。若起筆部件是一個(gè)與字同聲的子字,就取子字的取筆部件碼為第一形碼(如“遍”的第一形碼為“h”)否則就取該子字的讀音聲母為第一形碼(例如“頻”的第一形碼為“b”)。余下若是一個(gè)與字同聲的子字,就取該子字的起筆部件碼為第二形碼,(例如“橫”的第二形碼為“c”)否則取該子字的讀音聲母為第二形碼,(例“室”的第二形碼為“v”)。第三形碼為未部件碼或子部件碼,(例“遍”的未碼為“z”,“頻”的未碼為“b”,“橫”的未碼為“/”,“室”的末碼為“t”)。
碼長(zhǎng)不夠就用“q”補(bǔ)齊。
有些漢字在拆分時(shí)中間部件沒有用到是由于碼長(zhǎng)所限,其實(shí)漢字的信息冗余量大,因此有些漢字的部件信息無須全部使用或者碼長(zhǎng)少于4位也可以唯一的確定該漢字,規(guī)范碼正是利用了這個(gè)特點(diǎn)簡(jiǎn)化了部件和對(duì)漢字進(jìn)行了碼長(zhǎng)分組的。
以下給出字形拆分取碼的流程圖3、對(duì)極少數(shù)拆分方法不唯一的字,規(guī)范碼的特征在于沒有規(guī)定繁雜的拆字規(guī)則,而是通過具體的編碼示例規(guī)定的,這樣更便于理解和記憶。有如下字非fdss 兆veo; 夾jh;d 交j;fx 袞glsq 堇jgeh 夫fern 失upfr矢uptd 充iyel 克kgel 隸lejo 錄leuo 長(zhǎng)ipqn 隹vr;w 元yeel完wbyw 虧kh,z 口kiah 臣iait 工gthq 艮geqn 不bdin4、含“弋”、“戈”和“戊”部件字用該部件作為起筆或第二部件,拆分編碼示例戊wgpq 載zug; 裁zugl 哉zugk 或hgkh 戒jgcd 武whyv 斌bwwv貳eyeb 成iw.q 威wwhn 戍uwnq5、帶框形的包圍字用框形部件作為起筆部件,拆分編碼示例耳ejsh 且qash 身uasp 面mdae 囟xaxn 匣xaji 圈qajz6、重疊字的拆分按筆畫順序進(jìn)行,拆分編碼示例弗fgdi 柬jls/ 重iqre 垂iqee 熏xqho 西xwkh 酉ywke 州voii
秉bqe/ 叟sjiy 巴bail 戔jhgn 末mhl/7、部分含“辶”,“廴”、“刂”和右“阝”部件字的拆分取碼當(dāng)這幾個(gè)部件作為第二形碼時(shí),第三形碼反過來取首部件字的未部件碼。
示例這vwzx 建jyzi 劉lwdx 邦bfep8、極少數(shù)多聲字的拆分沒有遵循“同聲拆字”,是為了統(tǒng)一形碼部分,這樣更有利于記憶。
示例腌y/dd(a/dd) 秘bhxp(mhxp) 校xl;f(jl;f)9、對(duì)于偏旁部首的編碼,前兩碼為“pp”即“偏旁”詞的聲母,第三碼為該部件在部件分布表中的字母,第四碼為其未部件碼,不夠則用“q”補(bǔ)齊。(例如“廴”的編碼為“przn”,“卩”的編碼為“pppi”)。
五、無重碼分離技術(shù)在上述編碼的基礎(chǔ)上,在全部第一碼相同的字中分離出10個(gè)相對(duì)常用的字,再分別加上數(shù)字(0,1,2,3,4,5,6,7,8,9)構(gòu)成二碼高頻字組。例如和h1、好h2、會(huì)h3、化h4、號(hào)h5、或h6、還h7、回h8、活h9、很h0。再在全部前二碼相同的字中分離出一個(gè)相對(duì)常用的字取前二碼編碼構(gòu)成二碼字組,例如湖ho。再在全部前三碼相同的字中分離出一個(gè)相對(duì)常用的字取前三碼編碼構(gòu)成三碼字組,例如漢hoy、河hok、涵h(huán)ol,滑hog。余下的為四碼字組,例如洹hogd、泓hogs,洪hog/。對(duì)于重碼字必須分在不同的組中,例如“湖”、“滑”、“洪”三字的編碼都是“hog/”,就把它們分別放在二、三、四碼字組中,它們就不重碼了。這樣一來,全部6763個(gè)漢字(包括多聲字在內(nèi))無一重碼,這就成為無重碼規(guī)范化漢字編碼。
顯然,上述把6763個(gè)漢字分成二碼高頻字、二碼字、三碼字和四碼字是在統(tǒng)一的編碼前提下,按常用字的碼長(zhǎng)相對(duì)較短和分離重碼的原則分組的。這種無重碼分組方法也適于其它任何漢字編碼方案。
六、詞匯編碼方法如下二字詞依次取第一字的前兩碼和后一字的前兩碼組合而成,如大家dhjb。
三字詞依次取三個(gè)字的聲母和第三個(gè)字的第一形碼組合而成,如工程師giud。
四字詞和多字詞依次取前三個(gè)字和未一個(gè)字的聲母組合而成,如總而言之veyv。
七、漢字輸入方法(按無重碼規(guī)范化漢字編碼輸入)輸入26個(gè)字母之一,在提示行將出現(xiàn)以此字母為首碼的十個(gè)常用字,按空格鍵或“1”將選中提示行第一個(gè)漢字,按數(shù)字n(n=0,1,2,……9)可選中與數(shù)字相應(yīng)的那個(gè)漢字。
輸入二碼(第二碼可能是“;”,“,”,“.”,“/”之一),在提示行出現(xiàn)對(duì)應(yīng)那個(gè)二碼漢字,按空格鍵選中。如果兩碼均是字母,在提示行的后面還同時(shí)出現(xiàn)以此兩字母為聲母的二字詞,可按數(shù)字鍵選中,這類二字詞均是常用詞,也可由用戶自行設(shè)定。
輸入三碼(第二、三碼可能是“;”,“,”,“.”,“/”之一),對(duì)應(yīng)的那個(gè)三碼漢字就出現(xiàn)在提示行,按空格鍵選中。如果三碼均是字母,在提示行后面還同時(shí)出現(xiàn)對(duì)應(yīng)的三字詞,可按數(shù)字鍵選中,這類詞是常用詞,也可由用戶自行設(shè)定。
輸入四碼(第二、三、四碼可能是“;”,“,”,“.”,“/”之一),在提示行將出現(xiàn)對(duì)應(yīng)的那個(gè)漢字,按空格鍵選中,或者輸入下一字符時(shí)自動(dòng)選中。如果四碼均為字母,則在提示行后面還會(huì)出現(xiàn)對(duì)應(yīng)的二字詞、三字詞、四字詞和多字詞,按數(shù)字鍵選中。處在首位的字或詞可以按空格鍵選中,也可以在輸入下一個(gè)字符時(shí)自動(dòng)選中。由于四碼字相對(duì)較少,這就大大減少了字與詞重碼的幾率。
在提示行顯示不完的詞按“[”鍵可以向后翻頁顯示,按“]”鍵可以向前翻頁顯示,按數(shù)字鍵可以選中相應(yīng)的字符。
對(duì)于不存在的編碼,系統(tǒng)將鳴響,同時(shí)拒絕接收剛輸入的字符,如果再接著輸入一個(gè)存在的編碼,提示行將出現(xiàn)相應(yīng)的字和詞。
這種獨(dú)特的輸入方法使?jié)h字輸入既適于初學(xué)者也適應(yīng)專業(yè)錄入人員快速盲打的要求,任何漢字編碼方案在經(jīng)過前述無重碼分組處理后都可以采用這項(xiàng)輸入技術(shù)。
八、其它非漢字字符或自造字符的輸入方法由于四位編碼中存在大量的空余位置,可利用來作為非漢字字符和自造字的編碼。
運(yùn)算符號(hào)統(tǒng)一編碼為pdys,“ys”即“運(yùn)算”二字的聲母。以下類同。
標(biāo)點(diǎn)符號(hào)統(tǒng)一編碼為pdbd制表符號(hào)統(tǒng)一編碼為pdvb序號(hào)符號(hào)統(tǒng)一編碼為pdxh數(shù)字符號(hào)統(tǒng)一編碼為pduz希臘符號(hào)統(tǒng)一編碼為pdxl
俄文符號(hào)統(tǒng)一編碼為pdww拼音符號(hào)統(tǒng)一編碼為pdpy拉丁符號(hào)統(tǒng)一編碼為pdld日文符號(hào)統(tǒng)一編碼為pdrw自造字和符號(hào)統(tǒng)一編碼為pdzz在輸入相應(yīng)的字符后,在提示行會(huì)出現(xiàn)相應(yīng)的字符。在提示行顯示不完的詞按“[”鍵可以向后翻頁顯示,按“]”鍵可以向前翻頁顯示,按數(shù)字鍵可以選中相應(yīng)的字符。
這種以符號(hào)名稱編碼及相應(yīng)的輸入方法也是獨(dú)特的,好學(xué)好記好用。
九、不知道讀聲的字的輸入方法先按“\”鍵進(jìn)入“生字”輸入方式,再輸入該字的形碼,在提示行就出現(xiàn)對(duì)應(yīng)的字(可能有幾個(gè)字)用空格鍵或數(shù)字鍵選中,然后系統(tǒng)自動(dòng)回到規(guī)范碼輸入方式。
權(quán)利要求
1.一種對(duì)漢字字形的拆分取碼遵循漢字的組字規(guī)則和識(shí)字規(guī)律的方法,并且部件分布規(guī)律性強(qiáng)、易學(xué)好記。技術(shù)特征如下(1).部件絕大部分按其稱謂讀聲分布在26個(gè)英文字母上,少數(shù)部件根據(jù)筆形特征歸類分布在“;”、“,”、“.”、“/”四個(gè)符號(hào)和部分字母上。分布在“a”、“e”、“o”、“;”、“,”、“.”、“/”七個(gè)字符上的部件組之間可以互換字符代碼而不影響規(guī)范碼的性能指標(biāo)。具體分布如下A門、口、冂、凵、匚、 、 、冂、 、コ、ユ、 。B宀、疒、巿、卜。C艸、廾、 、棗。D刂、 、リ、‖、 E山、巾、阝、屮、彐、 。F手、扌、 、、 。G廣、廿、艮、夬、 。H一、 、虍、火。Iㄧ、蟲、廠、彳、亍、 。J钅、ㄧ、丌、 。K口、 L木、木、 、レ、レ、 、乚、 。M目、毋、 。N女、 、牜、、丶、 。O氵、 、灬、 。Pノ、魚、冖、卩、卩、 、爿。Q犭、氣、曲、七、 。R亻、、 。S纟、 、厶、 。T丅、土。U饣、尸、 、豕、 、氺。V豸、爫、、 、ヰ、 。W攵、夂、主、無、戊。X忄、ㄨ、※、穴、、下。Y肀、予、 。Zㄑ、ㄍ、巛、辶、廴 、足、走、 、、ㄣ、 ;車、冫、丷、 、丬、亠、 、羊、、、 、。,讠、丂、 。.礻、衤、乛、フ、、ス、。/月、彳、八、ハ、勹、 、、ク、 、彡、 、、 大量的漢字也作為組字部件使用,這是規(guī)范碼的突出特點(diǎn)。它們按其聲母分布,顯然無須在上面部件分布表中一一列出。(2).把字的組合結(jié)構(gòu)分為并列、包圍、重疊和復(fù)合四種形式。并列字的組字順序是先左后右,先上后下。包圍字的組字順序是先外后內(nèi)。含“辶”,“廴”的字是先內(nèi)后外。重疊字的組字順序由寫書筆畫順序決定。復(fù)合字是由前三種結(jié)構(gòu)復(fù)合組成,因此組字順序按上述三種結(jié)構(gòu)順序決定。少數(shù)字是先中間后兩邊,是以書寫筆畫為順序的。這是一種對(duì)漢字結(jié)構(gòu)的獨(dú)特認(rèn)識(shí),為漢字拆分規(guī)范化奠定了基礎(chǔ)。對(duì)字形的拆分順序是按上述組字順序進(jìn)行的。(3).對(duì)字形拆分取碼的方法是獨(dú)特的對(duì)于獨(dú)體字按書寫順序,根據(jù)部件分布表對(duì)漢字進(jìn)行拆分取碼。第一碼為起筆部件碼,第二碼為第二部件碼或余部件碼,第三碼為余部件碼或包括末筆的最大子部件(簡(jiǎn)稱子部件)碼,碼長(zhǎng)不夠用字母q補(bǔ)齊。對(duì)于合體字的拆分也是按書寫和組字順序,僅當(dāng)部件字與字同聲時(shí)要拆開,這是規(guī)范碼的關(guān)鍵之外,稱之為"同聲拆字"。若起筆部件是一個(gè)與字同聲的子字,就取子字的取筆部件碼為第一形碼,否則就取該子字的讀音聲母或首部件碼為第一形碼。余下若是一個(gè)與字同聲的子字,就取該子字的起筆部件碼為第二形碼,否則取該子字的讀音聲母或次部件碼為第二形碼。第三形碼為未部件碼或子部件碼,碼長(zhǎng)不夠就用"q"補(bǔ)齊。(4).對(duì)極少數(shù)拆分方法不唯一的字,規(guī)范碼的特征在于沒有規(guī)定繁雜的拆字規(guī)則,而是通過具體的編碼規(guī)定的,這樣更便于理解和記憶。(5).含“弋”、“戈”和“戊”部件字用該部件作為起筆或第二部件。(6).帶框形的包圍字用框形部件作為起筆部件。(7).重疊字的拆分按筆畫順序進(jìn)行。(8).當(dāng)"辶","廴"、"刂"或右"阝"之一作為第二形碼部件時(shí),第三形碼反過來取首部件字的未部件碼。(9).對(duì)于偏碼旁部首的編碼,前兩碼為"pp"即"偏旁"詞的聲母,第三碼為該部件在部件分布表中的字母,第四碼為其未部件碼,不夠則用"q"補(bǔ)齊。
2.一種無重碼分離技術(shù),技術(shù)特征是在任何漢字編碼的基礎(chǔ)上,在全部第一碼相同的字中分離出10個(gè)相對(duì)常用的字,用第一碼再分別跟上數(shù)字(0,1,2,3,4,5,6,7,8,9)作為這些字的新的編碼,構(gòu)成二碼高頻字組。再在全部前二碼相同的字中分離出一個(gè)相對(duì)常用的字取前二碼編碼構(gòu)成二碼字組。再在全部前三碼相同的字中分離出一個(gè)相對(duì)常用的字取前三碼編碼構(gòu)成三碼字組。余下的為四碼字組。對(duì)于重碼字必須分在不同的組中。這樣一來全部6763個(gè)漢字(包括多聲字在內(nèi))無一重碼,這就成為無重碼漢字編碼。
3.漢字輸入方法(按無重碼漢字編碼輸入)輸入26個(gè)字母之一,在提示行將出現(xiàn)以此字母為首碼的十個(gè)常用字,按空格鍵或“1”將選中提示行第一個(gè)漢字,按數(shù)字n(n=0,1,2,……9)可選中與數(shù)字相應(yīng)的那個(gè)漢字。輸入二碼(第二碼可能是“;”,“,”,“.”,“/”之一),在提示行出現(xiàn)對(duì)應(yīng)那個(gè)二碼漢字,按空格鍵選中。如果兩碼都是字母,在提示行的后面還同時(shí)出現(xiàn)以此兩字母為聲母的二字詞,可按數(shù)字鍵選中,這類二字詞均是常用詞,也可由用戶自行設(shè)定。輸入三碼(第二、三碼可能是“;”,“,”,“.”,“/”之一),對(duì)應(yīng)的那個(gè)三碼漢字就出現(xiàn)在提示行,按空格鍵選中。如果三碼都是字母,在提示行后面還同時(shí)出現(xiàn)對(duì)應(yīng)的三字詞,可按數(shù)字鍵選中,這類詞是常用詞,也可由用戶自行設(shè)定。輸入四碼(第二、三、四碼可能是“;”,“,”,“.”,“/”之一),在提示行將出現(xiàn)對(duì)應(yīng)的那個(gè)漢字,按空格鍵選中,或者輸入下一個(gè)字符時(shí)自動(dòng)選中。如果四碼都是字母,則在提示行后面還會(huì)出現(xiàn)對(duì)應(yīng)的二字詞、三字詞、四字詞和多字詞,按數(shù)字鍵選中。處在首位的字或詞可以按空格鍵選中,也可以在輸入下一個(gè)字符時(shí)自動(dòng)選中。由于四碼字相對(duì)較少,這就大大減少了字與詞重碼的幾率。這種獨(dú)特的輸入方法使?jié)h字輸入既適于初學(xué)者也適應(yīng)專業(yè)錄入人員快速盲打的要求,任何漢字編碼方案在經(jīng)過權(quán)利2的無重碼分離處理后都可以采用這項(xiàng)輸入技術(shù)。
4.非漢字字符或自造字符的編碼及輸入方法,其特征在于用符號(hào)的名稱給它們編碼并輸入。
全文摘要
本發(fā)明是一項(xiàng)利用英文字符給漢字編碼的方案和用計(jì)算機(jī)通用鍵盤輸入漢字的方法。目的是改進(jìn)漢字拆分的規(guī)范性,解決漢字輸入法中“好學(xué)與快速”的矛盾。通過確定漢字的規(guī)范拆分取碼方法和合理分布部件代碼,使?jié)h字編碼符合造字規(guī)則和識(shí)字規(guī)律,降低重碼率,使編碼易學(xué)好記,有利于計(jì)算機(jī)處理中文信息技術(shù)的普及。通過碼長(zhǎng)分組消除字重碼和減少字與詞重碼,獨(dú)特的輸入方法使?jié)h字輸入既適于初學(xué)者也適應(yīng)專業(yè)錄入人員快速盲打的要求。
文檔編號(hào)G06F3/023GK1097257SQ9312116
公開日1995年1月11日 申請(qǐng)日期1993年12月27日 優(yōu)先權(quán)日1993年12月27日
發(fā)明者張漢民 申請(qǐng)人:張漢民