專利名稱:自然兩筆輸入法及主要實施方案的制作方法
(一)輸入法簡介1999.10國家語言文字工作委員會正式發(fā)布GB13000.1字符集(含20902漢字)以來,大量增加了計算機能提供的漢字?jǐn)?shù)。但是,對當(dāng)前較流行的漢字輸入法而言,即使給新增漢字補編輸入碼,也限制不了重碼字?jǐn)?shù)的劇增,使單字和詞組的翻頁現(xiàn)象更加嚴(yán)重。例如,全拼輸入法中的“ji”和“xian”碼,其單字翻頁數(shù)分別達38和25次。
自然兩筆輸入法是一種適合GB13000.1字符集和無分流字形的純筆畫輸入法。其鍵盤輸入碼為26,單字最大碼長為四字首兩筆字尾兩筆次部首兩筆三部首兩筆。此外,對符號、繁體字和詞組的處理還另有措施。
本輸入法中使用的漢字,其筆形、筆順和GB13000.1字符集保持一致。
(二)漢字字形的構(gòu)成和筆畫的分類漢字的字形是一種有若干數(shù)量和形狀的筆畫(筆形)結(jié)合體。由于每一漢字的字形都具有下述共性筆畫總數(shù)、規(guī)范的筆畫順序(筆順)、筆畫的相對位置和筆畫間的互相交、相接和相離狀況。因此,可以從這些共性中,找出其簡明特征作為漢字的基本輸入信息,在此基礎(chǔ)上,建立漢字鍵盤輸入碼。
(1)漢字基本筆畫分類漢字的筆畫約30余種,常用八種筆形為橫、提、豎、撇、捺、點、折、鉤。本輸入法再將其合為五類基本筆畫
(2)筆畫的兩筆組合用筆順序號相鄰的兩筆作為漢字的基本信息,可提供25種特征作為漢字基本輸入單元。即
必須指出,兩筆組合的必要條件是按規(guī)范筆順的序號。此外,還需確定“兩筆”在漢字中的位置,本法中定位為字首兩筆、字尾兩筆、次部首兩筆、三部首兩筆?!按尾?、三部”是什么?它涉及部件的規(guī)則化問題。
(三)漢字部件的規(guī)則化長時期以來,偏旁、部首、字根……用作漢字單元,以及最近推出的規(guī)范化部件都對漢字的信息化起著巨大的推動作用。然而,由于這些部件的規(guī)則不十分明確,給操作者帶來極大不便。因此,在規(guī)范部件基礎(chǔ)上進行規(guī)則化為實用部件的方法,值得一試。
(1)漢字的字段根據(jù)漢字筆畫之間的相交、相接和相離的特性,可以將大多數(shù)漢字按筆畫順序依序截取成若干字段。使?jié)h字不僅是筆畫(最小單位)的組合,而且也是若干最小單元即字段的組合。
漢字字段(可簡稱段)為若干序號連續(xù)的筆畫間通過相交、相接而連在一起的組合體;序號連續(xù)的筆畫依序分段的必要條件為①構(gòu)成字段的筆畫序號不得間斷。
②各字段相互之間完全相離。
很明顯,兩序號間斷的筆畫相接或相交時,序號在其間的筆畫,無論多少是否相離,它們必須此兩筆共一字段。例如“可”字中的“口”,只能與“丁”字合為一段成為單段字。
漢字各字段的截取過程為先選定首筆,再按序號順序(不得間斷)逐筆選擇筆畫,若該筆畫與已選定筆畫直接或間接相交、接,則該筆畫被選定;若該筆畫及其后繼的所有筆畫均與已選定的所有筆畫相離,則已選定的筆畫為″首段″。然后,從首段的后繼首筆開始,按成段條件依序截取次段,……。直至末段為止。
有兩點值得注意①單一筆畫可以成一字段。如“江”字含四段,“銅”字含五段。②某些漢字,其首尾兩筆之間存在直接或間接地相交、接時,該漢字稱為單段字。如目革國車噩甚……。
(2)首部及次部可以作為漢字基本單元的字段,其字形遠不能與規(guī)范的部件等同,但在一定條件下,若干序號連續(xù)的字段可以組成接近于它的實用部件。其規(guī)則如下①不少于兩筆的任一字段。不允許單筆段獨立成部件,它必須與下一段組部件,如,二、元、忄、舊、彳、主、文、方、火、讠、戶、衤…。某些不少于兩筆的部件與其后的單筆段又處于其下部或右上方,且共同的下部不在有筆畫時,它們可作為準(zhǔn)首部處理。如,魚、馬、纟、饣、鳥、亙、犬、咸…等。
②序號連續(xù)、位置緊鄰或?qū)ΨQ、不超過四筆且筆畫數(shù)與段數(shù)相同的筆畫組合。例如,川、習(xí)、小、灬、心、門、氵以及“雨”字中的末四筆、赤、東、辦、亦…的末兩筆等。但“洋”、“悶”及類似結(jié)構(gòu)的漢字,不得以字首四筆為部件。又如,漢字“頭”、“學(xué)”…等的首兩筆以及漢字“受”、“買”、“豸”…等的首三筆,可作為首部。
部件的序號在不破壞字段序號和筆順的原則下,依次分為首部、次部、三部、…。
(四)鍵盤輸入碼元漢字集的基本單元僅是漢字的信息單元,它必須在轉(zhuǎn)化為與之對應(yīng)的健盤碼元后,才能輸入漢字。
按一般貫例,鍵盤上的26個小寫字母常用作計算機的輸入碼元,由于兩筆組合構(gòu)成的基本單元將占用其中的25個鍵盤碼元,另一個作“輔助”元使用。
為了減少對鍵盤碼的記憶量,可以將漢字集的基本單元有規(guī)則地分布于鍵盤上,首先,將“兩筆”中的首筆進行分區(qū)(五區(qū)),次筆在各區(qū)中分別進行分位(五位)。其次,將橫區(qū)、豎區(qū)、撇區(qū)、點區(qū)、折區(qū)按鍵盤結(jié)構(gòu)自下而上和先自左至右然后自右至左依次排列,如附圖
一(箭頭指向下一區(qū))。
每區(qū)中的五位按橫、豎、撇、點、折的順序自左至右依位排列。其中,撇區(qū)四位的第五位“撇折”在其下行的右端。全部鍵盤碼元分布如附圖二。
(五)漢字的輸入過程GB13000.1漢字集中包含三種漢字,(1)GB2312全部漢字,(2)擴展字,(3)繁體字。顯然,它們的使用頻度,其差別懸殊。為實現(xiàn)高頻先見的原則,除繁體字另作處理外,GB2132漢字集按頻度排序且均先于擴展字(任意排序)。
(1)單字的輸入本輸入法中,由于一個漢字的最大碼長為四和一個碼元不應(yīng)低于兩筆。不可避免地會出現(xiàn)某些碼元不足但需添補措施的漢字,它們是①單筆字在其后補一橫筆而按兩筆字處理。
②單部字僅具一個實部的漢字。如,國、豐、咸、區(qū)、氵、小……等。
補筆單筆字和單部字能提供的碼長均為二(即字首兩筆和字尾兩筆),在需要時,可以使用“輔助”作為第三碼和第四碼。
③兩部字僅含兩個實部的漢字。如,貝、誅、礦……等,它們一般能提供的碼長為三(即字首兩筆、字尾兩筆和次部首兩筆),必要時,可使用“輔助”作為第四碼。
④多部字不低于三部的漢字,如,鐵、策…等,它完全具備四碼的條件。
⑤繁體字已被簡化的非規(guī)范字,據(jù)不完全統(tǒng)計,它們在GB13000.1字集中的字?jǐn)?shù)不會少于6000。留之?重碼劇增;棄之?可惜。本輸入法將其單獨處理,使14000余規(guī)范字的重碼問題合理解決。其要點為在輸入繁體字的“字首兩筆”和“輔助”之后,開始提供首批繁體字。
需要強調(diào)的是由于繁體字中某些部件的特點,本輸入法使用下列十種不分流的繁體首部及其首碼釒l言y糹t魚m飠l馬c鳥(烏)j貝g門g風(fēng)m。從而保證最大翻頁量不超過一。
⑥常用符鑒于計算機中的符號難于使用筆畫編碼,故采用按功能特點進行分類,以下是常用符號分類及對應(yīng)的首碼和次碼表
各種單字和常用符的輸入碼如下表
注第四碼之后,若仍有重碼字,可翻頁。
(2)詞組的輸入實踐證明,詞組輸入不僅比單字快而且更易于掌握。但由于GB13000.1字符集的使用,使單字碼和詞組碼的重碼問題更加嚴(yán)重。因此,除單字中的繁體字另作處理外,也需要處理一批詞組。
一般說來,任何詞組均可由聯(lián)想方式或編碼方式輸入,前者在選定某一漢字的情況下,提示欄提供以該字為首字的詞組;后者則是在輸入詞組編碼后,提示欄提供其重碼的詞組。兩者相比,編碼方式可減少判斷搜索次數(shù),但共同的缺點是詞組的使用者不了解選定者的方案,有可能使輸入落空。因此,盡可能地讓使用者了解通用詞組的可靠性是必要的,在此基礎(chǔ)上讓使用者自編個性詞組。
①聯(lián)想輸入本輸入法設(shè)置專用的兩字聯(lián)想詞組。詞組內(nèi)容限定為非專有名詞的通用兩字詞組和我國各省及省會名、少數(shù)大城市名的兩字詞組。其詞組為一萬余條,且有優(yōu)先措施。這不僅減少輸入落空率,同時也減少了翻頁次數(shù)。
②編碼輸入分兩字詞、三字詞、多字詞三種。其編碼規(guī)則如下第一鍵 第二鍵 第三鍵 第四鍵兩字詞首字首碼次字首碼次字次碼三字詞首字首碼次字首碼三字首碼三字次碼多字詞首字首碼次字首碼三字首碼末字首碼其中,1.兩字詞為用戶與本法發(fā)明人共同認(rèn)可的專用名詞詞組。其中包括,我國56個民族,百家姓中的復(fù)姓,我國地(盟、自治州)級政府所在地和全國各縣縣名,世界各國名及其首都等可靠詞組。
2.編碼詞組也可以聯(lián)想方式輸入,但其順序在專用聯(lián)想詞組之后。
(六)實施效果及應(yīng)用前景(1)單字輸入四碼仍需翻一頁者,僅為12種碼。
(2)不僅可直接安裝于“WINDOWS-9x”,也可在移動通訊的手機上推廣。
權(quán)利要求
1.一種適用于GB13000.1漢字集的兩筆輸入法,其特征(1)鍵盤的基本輸入碼元25位,均由漢字中序號相鄰的兩筆畫組成,無任何分流字形。(2)漢字輸入碼最大碼長為四,輸入順序依次為字首兩筆字尾兩筆次部首兩筆三部首兩筆。(3)一個輔助輸入碼元依次在下述情況中使用①用作部分常用符號的首碼。②用作繁體字的次碼。③必要時,用作單部字的第三、第四碼和兩部字的第四碼。
2.一套定義部件的規(guī)則(1)序號連續(xù)的筆畫依序分段的必要條件①構(gòu)成字段的筆畫序號不得間斷。②各字段相互之間完全相離。很明顯,兩序號間斷的筆畫相接或相交時,序號在其間的筆畫,無論多少和是否相離,它們必須此兩筆共一字段。例如“可”字中的“口”,只能與“丁”字合為一段。(2)序號連續(xù)的字段滿足下述條件之一的字形,均可組成部件。①不少于兩筆的任一字段。不允許單筆段獨立成部件,它必須與下一段組成部件,如,二、元、忄、舊、彳、主、文、方、火、讠、戶、衤…。某些不少于兩筆的部件與其后的單筆段又處于其下部或右上方,且共同的下部不在有筆畫時,它們可作為準(zhǔn)首部處理。如,魚、馬、纟、饣、鳥、亙、犬、咸…等。②序號連續(xù)、位置緊鄰或?qū)ΨQ、不超過四筆且筆畫數(shù)與段數(shù)相同的筆畫組合。例如,川、習(xí)、小、灬、心、門、氵以及“雨”字中的末四筆、赤、東、辦、亦…的末兩筆等。但“洋”、“悶”及類似結(jié)構(gòu)的漢字,不得以首筆至四筆為部件。又如,漢字“頭”、“學(xué)”…的首兩筆和漢字“受”、“豸”…的首三筆。
3.一種單獨處理繁體字的方法,其特征(1)選定特別首部釒言糹魚飠馬鳥(烏)貝門風(fēng)。(2)將輔助碼元Z插入該字的第一和第二碼之間,使繁體字的最大碼長增加為四。
4.一種減少兩字詞組重碼數(shù)的方法,其特征(1)將非專用名詞的兩字詞組較其余詞組先見,且聯(lián)想輸入效果最佳。(2)該詞組首碼為首字首碼,三碼為次字首碼,四碼為三字次碼,次碼取一小于60的ASCII碼,例如,”/”。
全文摘要
自然兩筆輸入法是一種適用于GB13000.1字符集和無分流字形的純筆畫輸入法。其鍵盤輸入碼為26,單字的最大輸入碼長為四:字首兩筆字尾兩筆次部首兩筆三部首兩筆。本輸入法提出以字段為漢字的最小單元,并在此基礎(chǔ)上將漢字部件規(guī)則化,從而劃分漢字首部,次部和三部…;并對缺部字進行處理。為減少單字和詞組的重碼數(shù),還對繁體字進行單獨處理措施和非專用名詞的兩字詞組優(yōu)先的原則。
文檔編號G06F3/023GK1380596SQ0210639
公開日2002年11月20日 申請日期2002年2月28日 優(yōu)先權(quán)日2002年2月28日
發(fā)明者曾里崗, 郭洪, 禹清泉, 曾曉輝, 曾建明, 曾建航, 王靖楓, 董鴻珠 申請人:曾建明