專利名稱:漢字的數(shù)字編碼輸入法的制作方法
技術(shù)領(lǐng)域:
一種漢字的數(shù)字編碼輸入法,涉及利用數(shù)字鍵盤輸入漢字的方法。
背景技術(shù):
據(jù)報(bào)道,中國計(jì)算機(jī)網(wǎng)民數(shù)量已超過一億,占世界第二位,隨著我國經(jīng)濟(jì)的迅速發(fā)展,將會有更多的計(jì)算機(jī)進(jìn)入普通百姓家庭,計(jì)算機(jī)擁有量將有更大的增長。
據(jù)耳聞目睹,廣大的非專業(yè)計(jì)算機(jī)用戶,在使用計(jì)算機(jī)方面,漢字輸入是他們遇到的困難之一,五筆字形輸入法難以掌握,拼音輸入法受方言影響太大,再說用英文鍵盤輸入漢字也有不便之處。可以說,漢字輸入仍是一個(gè)瓶頸問題,是一個(gè)值得認(rèn)真研究的課題。
以數(shù)字進(jìn)行編碼,許多科技人員已作出了巨大努力,據(jù)了解,目前已有多種數(shù)字編碼的輸入方案,有的直接搬用四角號碼檢字法,有的以幾十種字形部件使用六位數(shù)字編碼,但都沒有廣泛使用。
漢字四角號碼檢字法是一種數(shù)字編碼的應(yīng)用,它是上個(gè)世紀(jì)中葉以前由我國教育家王云五先生發(fā)明,作為檢字法在我國流行已超過百年,直到1995年我國還出版了“四角號碼新詞典”。由于四角編碼檢字法本身的不足,其重碼率過高使得許多漢字編碼專家早在上個(gè)世紀(jì)80年代就作出結(jié)論,該編碼法用作查字尚可,用作計(jì)算機(jī)輸入法不行。因此有悄悄的退出歷史舞臺的趨向。
仔細(xì)分析四角檢字的編碼規(guī)則和方法,可以發(fā)現(xiàn)有以下問題一是編碼的四位數(shù)字沒充分利用,規(guī)則規(guī)定,一個(gè)筆形前角已用過,后角作0,例如<王,玉,豆>編碼都為1010,三字重碼,但有一半資源浪費(fèi)。而這樣的機(jī)率很高。二是基本筆形規(guī)定不甚合理,例如代碼5,筆形規(guī)定是一筆穿過兩筆或兩筆以上,但只適用豎向,卻不適用橫向,例如草字頭不作5,卻為44。三是編碼分布不均,如下面統(tǒng)計(jì)表所示。2000-2999及4000-4999編碼字?jǐn)?shù)都超過1000個(gè)。
發(fā)明內(nèi)容
本發(fā)明的目的是以原四角檢字碼為基礎(chǔ),克服其不足之處,提供一種漢字的數(shù)字編碼輸入法。
本發(fā)明的漢字的數(shù)字編碼輸入法是依次取漢字的四個(gè)角的筆形碼,自高位到低位的順序是左上角、右上角、左下角及右下角;數(shù)字鍵盤對應(yīng)筆形分別為0對應(yīng)亠、宀;(點(diǎn)和橫相結(jié)合家字頭)1對應(yīng)一、 (橫、挑、橫上鉤和斜右鉤)2對應(yīng)丨、 丿、亅、 (豎、撇和豎左鉤)3對應(yīng)丶、 、 (點(diǎn),捺)4對應(yīng)十、乂、ナ、 (兩筆交叉)5對應(yīng)、 艸、丈、扌、 (一筆穿過兩筆或兩筆以上)6對應(yīng)□、(四角整齊的方形)7對應(yīng)廠、 乛; (兩筆頭相接的角形)8對應(yīng)八、人、亻、冫、 丷、 ;(八字形及八字形的變形)9對應(yīng)小、忄、、氵、 (小字形及小字形的變形)取角規(guī)則為A、一字的四個(gè)角有獨(dú)立的筆形,依次取四個(gè)角的筆形碼;B、一個(gè)筆形前角已用過,后角內(nèi)延取碼上邊--由上至下,下邊--由下至上,左邊--由左至右,右邊--由右至左,向內(nèi)延伸取碼換句話說,前角已用過,去掉此已用過的筆形,在剩余部分按規(guī)則取下角;C、外圍是口字形,外取一碼為,內(nèi)取三碼,再者,口字筆形,如有二次再取的,取其內(nèi)部筆形,無內(nèi)部筆形者,內(nèi)延取碼,(特別規(guī)定目字二次取碼為2,不為1,這是本編碼唯一的例外,為的是降低重碼率);D、竹字頭,筆形碼為一位8,低位內(nèi)取;E、對左右相同者,去掉右邊,在余下部分取碼;F、對四方兩角缺一邊的字,外取一角,內(nèi)取三碼,無論是整字或字的一部分,都按規(guī)定順序隨遇而取,不遇不?。籊、字形簡單,筆形用盡,不足四碼者,補(bǔ)0;筆形未用盡,無論位于何處,都取其相應(yīng)編碼;在編碼順序方面,筆形優(yōu)先,補(bǔ)0在后,與角對應(yīng)。
內(nèi)延是指,上邊由上至下,下邊由下至上,左邊由左至右,右邊由右至左向內(nèi)延伸,如果延伸后該筆形已被他角用過,再向內(nèi)延伸一層取角,直至取到碼號。
內(nèi)延取碼的含意是去掉高位已取過碼的筆形,在剩下的字形中取低位筆形。
本輸入方法以原四角檢字編碼法為基礎(chǔ),揚(yáng)長避短,在以下四方面對原四角號碼檢字法進(jìn)行改造,并用以確定新的編碼方法1、重新修訂其編碼規(guī)則,充分利用編碼的四位數(shù)字,不浪費(fèi)編碼資源,盡量多的提取字形信息,使編碼盡量準(zhǔn)確地代表漢字。
2、對基本筆形及代碼進(jìn)行適當(dāng)調(diào)整。例如草字頭由44,改作5,立人及兩點(diǎn)水作8,三點(diǎn)水作9,寶蓋作0等。既符合原編碼規(guī)則,又提高了編碼資源的利用率。
3、合理分配編碼范圍四位數(shù)字,編碼容量是10000個(gè)漢字,統(tǒng)計(jì)(見統(tǒng)計(jì)表)表明,原四角檢字編碼法編碼分布很不均勻,有的,如2字頭及4字頭超出范圍,有的利用率不足一半.使編碼分布趨向合理均勻,有利于降低重碼率。
4、對左右對稱,上下對稱及一些外形相似的漢字制訂合適的編碼規(guī)則,并且是一種簡單易記規(guī)則。
綜上所述,新編碼是充分利用四位數(shù)字編碼資源,盡量多提取字形信息,這對降低重碼率是十分重要的。本輸入法也適用于手機(jī)上的漢字輸入。
具體實(shí)施例方式
1、編碼規(guī)定一個(gè)筆形前角已用過,后角作為0,修改為一個(gè)筆形前角已用過,后角內(nèi)延取碼上邊--由上至下,下邊--由下至上,左邊--由左至右,右邊--由右至左,向內(nèi)延伸取碼;換句話說,前角已用過,去掉此已用過的筆形,在剩余部分按規(guī)則取下角。例如<王,玉,豆>由原編碼都為1010,修改為1410,1413,1618。
<全,金,釜>由原編碼都為8010。修改為8114,8119,8419。
<佝,傭,侗>由原編碼都為2722,修改為8762,8750,8761。
<汀,河,瀝>由原編碼都為3112,修改為9120,9162,9122。
<沙,消,渺>由原編碼都為3912,修改為9920,9911,9962。
<洲,測,瀏>由原編碼都為3210,修改為9233,9282,9242。
<穴,定,實(shí)>由原編碼都為3080,修改為0800,0182,0483。
2、圍是口字形,原規(guī)定前兩角為60,后兩角內(nèi)取,改為外取一碼為<6>,內(nèi)取三碼,例如<圄,固>原編碼都為6060,修改為6161,6460;<囹,圖>原編碼都為6030,修改為6832,6733.再者,口字筆形,如有二次再取的,取其內(nèi)部筆形,無內(nèi)部筆形者,內(nèi)延取碼,例如<叮,盯,町>原編碼都為6102,修改為6120,6122,6142;(特別規(guī)定目字二次取碼為2,不為1,這是本編碼唯一的例外,為的是降低重碼率)。
3、草字頭,例如<草,莘,茭>原編碼都為4440修改為5641,5041,5048。
<藍(lán),荃,萱,基>原編碼都為4410,修改為5812,5814,5016,5114。
4、竹字頭,原編碼頭兩位88,改為一位8,下位內(nèi)取,例如<笥,笱>原編碼都為8862修改為8761,8762。<竿,簍,筊>原編碼都為8840,修改為8140,8944,8048。
5、<班,斑,辨,辮>之類左右相同者,去掉右邊,在余下部分取碼.例如<班,斑>由原編碼都為1111,修改為1213,1014。<辨,辮>由原編碼都為0044,修改為0243,0241。
6、<山,出,兇,醫(yī),匡,匼,月,用,同,岡>等整字及<摳,矩,渠>等字的一部分,它們的特點(diǎn)是四方兩角缺一邊,缺邊的朝向有所不同,修訂后取碼規(guī)則是外取一角,內(nèi)取三碼,無論是整字或字的一部分,都按規(guī)定順序隨遇而取,不遇不取。例如<山,出,兇>原編碼都為2277,修改為2070,2277,4070.<醫(yī),匡,匼>原編碼都為7171,修改為7884,7114,7861。<月,用,同,岡>原編碼都為7722修改為7110,7500,7160,7400,摳--5470,矩--8787渠-9794。
7、字形簡單,筆形用盡,不足四碼者,補(bǔ)0;筆形未用盡,無論位于何處,都取其相應(yīng)編碼;在編碼順序方面,筆形優(yōu)先,補(bǔ)0在后,與角對應(yīng)。
經(jīng)過改造,以新的編碼方法對GB2312-80國標(biāo)一,二級全部漢字進(jìn)行計(jì)算機(jī)處理,結(jié)果表明,大幅度的降低了重碼率,編碼分布均勻合理而且規(guī)則簡單易記,是一種有效的漢字輸入法。
新的四位數(shù)字編碼的總體原則與原四角檢字編碼相符,所作的修訂與調(diào)整,規(guī)則簡單,易于接受,易于記憶,具有百年歷史的四角檢字法在中國具有廣泛的應(yīng)用基礎(chǔ),如果能像以往百年歷史一樣,編輯出版新編碼字典,從小學(xué)開始學(xué)習(xí)查字方法,只要識字,就可識碼,就可以從根本上解決漢字輸入問題,這對計(jì)算機(jī)的普及推廣具有十分重要意義。
新數(shù)字編碼僅用數(shù)字小鍵盤操作,在手機(jī)之類及控制設(shè)備上具有廠泛的應(yīng)用前景。
權(quán)利要求
1.一種漢字的數(shù)字編碼輸入法,它是依次取漢字的四個(gè)角的筆形碼,即左上角、右上角、左下角及右下角;其特征在于數(shù)字鍵盤對應(yīng)筆形分別為0對應(yīng) 亠、 宀;1對應(yīng) 一、 2對應(yīng) 丨、 丿、亅、 3對應(yīng) 丶、 ;4對應(yīng) 十、 5對應(yīng) 艸、丈、扌、 6對應(yīng) 口、 7對應(yīng) 、、 、、廠、 8對應(yīng) 八、 人、 亻、冫、 丷 9對應(yīng) 小、 忄、 、氵、
2.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于漢字的取角規(guī)則為一字的四個(gè)角有獨(dú)立的筆形,依次取四個(gè)角的筆形碼。
3.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于一個(gè)筆形前角已用過,后角內(nèi)延取碼上邊--由上至下,下邊--由下至上,左邊--由左至右,右邊--由右至左,向內(nèi)延伸取碼;換句話說,前角已用過,去掉此已用過的筆形,在剩余部分按規(guī)則取下角。
4.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于外圍是口字形,外取一碼為6,內(nèi)取三碼,再者,口字筆形,如有二次再取的,取其內(nèi)部筆形,無內(nèi)部筆形者,內(nèi)延取碼,目字二次取碼為2。
5.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于竹字頭,筆形碼為一位8,低位內(nèi)取。
6.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于字左右相同者,去掉右邊,在余下部分取碼。
7.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于對四方兩角缺一邊的字,外取一角,內(nèi)取三碼,無論是整字或字的一部分,都按規(guī)定順序隨遇而取,不遇不取。
8.根據(jù)權(quán)利要求1所述的漢字的數(shù)字編碼輸入法,其特征在于字形簡單,筆形用盡,不足四碼者,補(bǔ)0;筆形未用盡,無論位于何處,都取其相應(yīng)編碼;在編碼順序方面,筆形優(yōu)先,補(bǔ)0在后,與角對應(yīng)。
全文摘要
一種漢字的數(shù)字編碼輸入法,涉及利用數(shù)字鍵盤輸入漢字的方法。本方法是依次取漢字的四個(gè)角的筆形碼,即左上角、右上角、左下角及右下角;數(shù)字鍵盤對應(yīng)筆形分別為0-9對應(yīng)10種基本筆型。依次取漢字的四個(gè)角的筆形碼;一個(gè)筆形,前已取碼,后不重復(fù),但和別筆構(gòu)成新的筆形的,可以分角取碼;字的左、右完全相同者,去掉右邊部分,在剩下部分取碼;外圍是口類整字,取6,余內(nèi)取;草字頭作取5,竹字頭作取8,外圍是門類字,頭兩位取3、7,余內(nèi)??;四方兩角缺一邊的字,外取一角,內(nèi)取三碼,它們是整字的一部分,外角隨遇而取,不遇不取。
文檔編號G06F3/023GK1834867SQ20061000407
公開日2006年9月20日 申請日期2006年1月27日 優(yōu)先權(quán)日2006年1月27日
發(fā)明者金如集 申請人:金如集