專利名稱:完善漢字碼輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于電腦漢字編碼輸入方法,也就是計算機漢字輸入法。 因為本發(fā)明是對漢字碼輸入法的優(yōu)化完善,所以稱為完善漢字碼輸入 法,還涉及了為實現(xiàn)這一輸入法的鍵盤。
背景技術(shù):
鍵盤輸入法是目前漢字輸入法中技術(shù)最成熟,使用最廣泛的輸入 法。漢字編碼是指用一組代碼表示一個漢字。鍵盤輸入的特點是必須 對輸入的漢字進(jìn)行編碼,按漢字編碼所在鍵,通常要按14鍵輸入一 個漢字。鍵盤輸入按編碼劃分,可分為音碼、形碼、音形碼三類。
音碼是以漢語拼音為基礎(chǔ),利用漢字的讀音進(jìn)行編碼。音碼的優(yōu) 點是使用方便,只要會普通話,就可以進(jìn)行輸入,簡單易學(xué),所以使 用最為廣泛。缺點是同音字多,導(dǎo)致單字重碼率高,漢字輸入速度慢, 采用智能拼音輸入法也只能部分提高輸入速度,無法完全避免同音字 選擇。還有對不認(rèn)識的字無法用拼音直接輸入,對發(fā)音不準(zhǔn)的字也不 能很快輸入。
形碼利用漢字的字形特征進(jìn)行編碼,克服了音碼重碼率高、輸入 速度慢等缺點,但往往漢字部件太多,記憶麻煩,另外有時拆分也麻 煩。有的形碼采用將漢字五種基本筆畫二二組合的方法,漢字部件少, 記憶方便,但卻付出了不夠直觀,將漢字部件拆散了的代價。雖然形 碼雖然聲稱對不認(rèn)識的漢字也能迅速輸入,但對于一個文盲來說,他 打字的速度是要受限制的,根本原因是漢字的字與詞無明顯間隔,不知道哪個是詞組,無法利用詞組輸入,因此形碼輸入人員也要有文化。 音形碼利用漢字的語音特征和漢字的字形特征編碼。它利用了漢 字的音碼和形碼各自的優(yōu)點,兼顧了漢字的音和形,往往較為簡單, 容易學(xué)習(xí)和記憶,有的音形碼比如三五音碼等輸入法重碼率低,輸入 速度足以與任何形碼相比,利用整個拼音的音形碼還有利于推廣普通 話,優(yōu)點十分明顯。音形碼的缺點是打字時在音和形之間思維不斷轉(zhuǎn) 換,容易疲勞,當(dāng)然對打字熟練者來說,往往已熟記漢字的編碼,見 字識碼,根本不存在音和形之間思維轉(zhuǎn)換問題。還要指出的是,只用
漢字聲母參與編碼的音形碼,由于必須舍棄韻母,與人們的習(xí)慣思維 不符,才特別存在音形轉(zhuǎn)換問題。如果完整地利用了漢字的聲母和韻 母,即利用了漢字的整個拼音,并且規(guī)定音碼部分在先,形部編碼部 分在后的話,則思維不大需要在音和形之間不停轉(zhuǎn)換,基本不會影響 思維。因為在一般的文章中,大多數(shù)都是詞語,平常打字時,往往盡 量采用詞組輸入的方式,因此大部分內(nèi)容都可用拼音詞組輸入。還有 一些常用的字也可用拼音輸入,即便要用到形部編碼, 一般也只要輸 入形部編碼的第一碼,而形部編碼的第一碼多為漢字的偏旁,偏旁數(shù) 量是有限的,且常見偏旁數(shù)量更少, 一般都用固定編碼代碼,是很容 易記住形部編碼的第一碼的。真正需要輸入形部編碼第二碼的單字是 很少的,只有這少部分漢字才不大容易記住形部編碼,由于輸入形部 編碼的第一碼后,第二碼會提示出來,因此實際上沒有多大必要需要 記住形部編碼第二碼,因此這種音形碼基本不會影響思維。所以如果 想發(fā)明音形碼,為避免音形轉(zhuǎn)換麻煩,要盡量利用漢字的整個拼音輸入,而不要只利用拼音的首字母或聲母。受方言的影響,有些人讀不 準(zhǔn)某些漢字的拼音,但這也可通過南方模糊音解決,而且多利用拼音 輸入漢字也有利于推廣普通話。正因為如此,整個漢字拼音在先的音 形碼相對與其它音碼、形碼、只用漢字拼音首字母的音形碼來說,越 來越顯示出其優(yōu)越性。
可使用全拼的話,則存在著拼音的碼長過長,輸入不便的問題, 利用雙拼則能使碼長大為縮短,可目前的大多數(shù)雙拼都比較難記,要 記什么口訣,所幸的是本人發(fā)明了幾種新的雙拼,由于發(fā)明人是王治 陽,所以稱為王治陽雙拼,己申請專利,很簡單易學(xué),不要記口訣, 幾分鐘就可學(xué)會。所以發(fā)明音形碼的關(guān)鍵是發(fā)明出簡單易學(xué)且能有效 區(qū)分同音字的方法,這就要靠音形碼的形部編碼部分設(shè)計簡單合理, 然而目前各種利用了拼音的音形碼的形部編碼往往存在漢字部件過 多或部件不夠直觀規(guī)范或取碼規(guī)則不合理等問題。如何選用盡可能少 的漢字部件,使重碼率盡可能低,是一個未解決的大難題。
針對于此,本人發(fā)明了漢字碼輸入法,它在王治陽雙拼后,再利
用28個多筆畫部件和五種基本筆畫輸入形部編碼,具有漢字部件簡 單、直觀、規(guī)范的優(yōu)點,稍微不足的是基本部件排列時按筆畫數(shù)排列, 有點不便記憶,若用拼音或象形排列可能記憶更方便點。另外取碼規(guī) 則規(guī)定合體字的首部只有一個基本部件時才能取剩部的基本部件,這 也會造成一定的重碼,特別是以1_、 P 、鳥結(jié)尾的漢字會造成一定數(shù) 量的重碼,必須糾正,于是本人潛心研究后推出了按拼音聲母或象形 排列的優(yōu)化漢字碼輸入法,并對取碼規(guī)則做了優(yōu)化規(guī)定,規(guī)定合體字取部首的首尾二個部件或部首的前兩個部件編碼,當(dāng)部首只有一個基 本部件時,按書寫順序取剩余部分的第一個部件編碼??蛇@一規(guī)定也
有個缺點,那就是需要認(rèn)識近200個部首,并且部首在字尾的漢字在
編碼時有時會與書寫順序不符。
發(fā)明內(nèi)容
這樣,目前的漢字輸入法要么漢字部件不規(guī)范或選取漢字部件過 多;要么碼長太長;要么重碼過高,影響輸入速度;要么只利用漢字 的聲母或拼音首字母;要么不夠直觀;要么取碼規(guī)則不太合理,都沒 能很好解決簡單的不快速,快速的不簡單這一技術(shù)難題,輸入漢字不 甚方便。
本發(fā)明的目的是提供一種漢字部件規(guī)范直觀、簡單易學(xué)、輸入漢 字簡便快捷、取碼規(guī)則合理的計算機漢字編碼輸入方法,那就是完善 漢字碼輸入法。
為達(dá)到完善漢字碼輸入法的目的,本發(fā)明規(guī)定完善漢字碼的編碼 由音碼和形部編碼兩部分組成。音碼部分采用王治陽雙拼,占二碼。 形部編碼部分也最多占二碼。當(dāng)然音碼也可用全拼或其它雙拼或注音 字母。
音碼部分采用王治陽雙拼,王治陽雙拼將韻母按第一個字母分為 a、 o、 e、 i、 u區(qū),每區(qū)又按韻母個數(shù)多少以及a、 o、 e、 i、 u、 n、 g 的順序排列,極具規(guī)律性,當(dāng)然也可不按韻母的個數(shù),只考慮按a、 o、 e、 i、 u、 n、 g的順序?qū)㈨嵞阜謪^(qū)排列。唯一需要記憶的是雙拼韻 母的合并規(guī)律。在記憶雙拼韻母合并規(guī)律時,只要記住以a、 ong結(jié)尾的多個字母的韻母合并,以ang結(jié)尾的4個字母的韻母合并排列就 是,另外ui排在v上,IK)排在O上,讀音簡記為"為余"(為我), "我窩"。
形部編碼也由兩個代碼組成,本發(fā)明優(yōu)選了五種基本筆畫和27 個多筆畫部件參與編碼,這五個基本筆畫和多筆畫部件被稱為基本部 件,簡稱部件,全部選自漢字的偏旁部首,簡單常見又直觀,并且數(shù) 量少,容易記憶。由于國家語委將五種基本筆畫也歸類為漢字部件, 因此在本發(fā)明中稱五種基本筆畫稱為單筆畫部件,而27個優(yōu)選的漢 字部件由多個筆畫組成,稱為多筆畫部件。在形部編碼時要優(yōu)先按筆 -畫多的基本部件編碼,否則選取多筆畫部件就無意義。
形部編碼的取碼規(guī)則是獨體字,按書寫順序取前二個基本部件 的相應(yīng)代碼編碼,當(dāng)只有一個基本部件時,就只取這個基本部件的相 應(yīng)代碼編碼,當(dāng)然也規(guī)定獨體字按書寫順序取第一個和最末個基本部 件的相應(yīng)代碼編碼。合體字,按整體結(jié)構(gòu)將合體字一分為二,先寫部 分為首部,后寫部分為剩部,按書寫順序分別取首部的第一個基本部 件和剩部的第一個基本部件的相應(yīng)代碼編碼。
這一編碼規(guī)則既十分簡單又能有效地降低重碼。在國標(biāo)6763個 漢字中,合體字占了絕大多數(shù),約為95%。同音又同偏旁的合體字?jǐn)?shù) 量較多,約有五、六百對。、? 、 *、 口、木、矛、 、 4 、女、i 、 十、月、蟲、土、纟、火、廣、^、足、山、石、日、王、P 、魚、 氺包括豐、禾等偏旁部首產(chǎn)生的同音字較多,為降低重碼,這些偏旁 被選了出來,分別用一個字母或別的符號編碼,當(dāng)然個別偏旁也可棄而不選??紤]到才、與豐屬于不同的部首,總共只能減少五對左右的重 碼,因此在完善漢字碼輸入法編碼實例中棄而不選。而有的偏旁部首 雖然常用,可只有一、二對同音字,甚至沒有同音字,因此棄而不選。 本人研究還發(fā)現(xiàn),將合體字一分為二后,同音同偏旁部首的合體字除 偏旁部首外的部分的第一筆為同類基本筆畫的情況出乎意外的少,只
有100多對,其中部件"十"和出現(xiàn)得比較多,有四、五對重
碼,它們也可被選出,分別用別的字母或符號編碼。這一發(fā)現(xiàn)是只選
用5種基本筆畫和二三十個基本部件參與編碼的原因所在??紤]到漢 字部件"十"往往不出現(xiàn)在漢字的首部,而"^"在首部也出現(xiàn)得較 多,因此,在完善漢字碼輸入法中棄"十"而選"a",將用 一個字母或別的符號編碼。這樣,26個多筆畫部件和五種基本筆畫 被優(yōu)選出來,排列到鍵盤上,將這26個多筆畫部件分別用一個相應(yīng) 的字母或標(biāo)點符號編碼,在編碼實例中用多筆畫部件都排在字母鍵 上。部件1_、 1S 、鳥慣常出現(xiàn)在字尾,其中IS已被列為基本部件,鳥 首筆為撇,根據(jù)合體字的取碼規(guī)則取碼不大會產(chǎn)生重碼,就棄而不選, 而部件L的首筆為點,由于點在獨體字或合體字的第二部分的首尾位 置出現(xiàn)較為常見,將部件t按點編碼容易造成重碼,因此也將它列為 基本部件,為降低重碼,將1_與廣合并排列,用同一個字母或符號編 碼。這樣共優(yōu)選了 27個多筆畫部件。而五種基本筆畫則可從減少重 碼角度出發(fā),可選其中的幾個筆畫與27個多筆畫部件合并排列在同 一個鍵上,用同一個字母或符號編碼。當(dāng)然這27個多筆畫部件不是 固定的,可少于27個多筆畫部件,也可多于27個多筆畫部件,只要27個左右即可,例如也可將漢字部件"十"入選,用一個字母或標(biāo) 點符號編碼。
為便于記憶,在完善漢字碼輸入法中排列多筆畫部件時不按筆畫 數(shù)和橫、豎、撇、點、折的次序排列,而按拼音或象形排列,見附圖 3或附圖4所示。本人建議按附圖3排列,它以按基本部件的拼音字 母排列為主,對少數(shù)幾個同聲母的基本部件改按象形的方式排列。這 樣由于按基本部件的讀音編碼幾乎無需記憶,實際上只要記住少數(shù)幾 個同聲母的基本部件即可,由于這少數(shù)幾個同聲母的基本部件是按與 英文字母形似編碼,所以能很快記住,記憶量很小,當(dāng)然漢字的部件 與西文字母有所區(qū)別,只能部分相似。附圖4完全按象形排列,可漢 字的方塊筆畫部件與西文字母畢竟有所區(qū)別,難以做到十分相像,需 要按象形記憶的漢字基本部件就要多上幾倍,記憶量也相應(yīng)多上幾 倍,因此本發(fā)明也不太建議用這種方式排列經(jīng)過優(yōu)選的基本部件。當(dāng) 然有人可能更喜歡這種排列方式。橫、豎、撇、點等基本筆畫的在本 編碼中出現(xiàn)的頻率較高,為降低重碼,不宜與基本部件排在同一鍵上, 排到標(biāo)點符號鍵上,用標(biāo)點符號編碼比較合理。折因為頻率太低,與 有的多筆畫部件排在同一健上,用同一個字母或符號編碼的話,幾乎 不會導(dǎo)致重碼,因此就按拼音首字母排列。將合體字的首部、剩部分 別按書寫順序各取一碼,五種基本筆畫盡量不與優(yōu)選的多筆畫部件合 并排列,這是降低重碼的關(guān)鍵。另外之所以規(guī)定獨體字最好按書寫順 序取前兩個基本部件的相應(yīng)代碼的編碼,是為了便于頭腦反應(yīng),又不 會增加重碼。這樣,通過優(yōu)選27個多筆畫部件和五種基本筆畫,優(yōu)化規(guī)定取 碼規(guī)則,就做到了形部編碼既簡單、容易記憶,又能有效地區(qū)分同音 字,重碼率很低。這就解決了其他任何輸入法都未能解決的難題,真 正做到了簡單直觀、重碼率很低、輸入快速,是一種唯一的理想的完 善的漢字輸入法。這就是稱為完善漢字碼輸入法的根本原因。
附圖1為王治陽雙拼鍵盤排列圖之一 附圖2為王治陽雙拼鍵盤排列圖之二 附圖3為形部編碼鍵盤排列圖之一 附圖4為形部編碼鍵盤排列圖之二
具體實施例方式
完善漢字碼由兩部分組成, 一部分是音碼,即拼音,或稱拼音碼, 另一部分是形部編碼。完善漢字碼的兩部分可前可后, 一經(jīng)選定,不 能改變,為便于想打,與思維一致,又能充分利用標(biāo)點符號鍵,建議 拼音在先,形部編碼在后,在編碼實例中就采用這種方法。拼音可采 用全拼或雙拼或簡拼或不完整拼音,不想學(xué)習(xí)雙拼的人可采用全拼, 即采用一個漢字的完整拼音。為縮短碼長,提高輸入速度,建議使用 雙拼,最好采用幾分鐘可學(xué)會的王治陽雙拼。當(dāng)然也可使用全拼,它 幾乎不要記憶,現(xiàn)在漢字輸入技術(shù)有了很大的進(jìn)步,可做到全拼、雙 拼兼容,而不需要調(diào)整輸入法狀態(tài)。在實施例中選用王治陽發(fā)明的雙 拼,同時也可兼容全拼。
王治陽雙拼是一種聲母、韻母的鍵位配置合理,在鍵盤上排列規(guī)律性強的雙拼計算機漢字輸入法??蓡为氉鳛橐环N輸入法使用,也可 作為完善漢字碼的音碼部分使用。
王治陽雙拼的技術(shù)方案的特征在于
(1) 單個字母的聲母與各字母鍵一致,而翹舌音ch、 Sh、 Zh按 音序分別用i、 U、 V表示,以便于記憶,當(dāng)然也可將ch用u表示,Sh 用i表示,單韻母tl用字母v表示,根據(jù)韻母的語音互補關(guān)系,單個
字母的韻母除了可排按聲韻合并規(guī)律,被它包含的韻母外,不能再排 其它韻母。復(fù)韻母和鼻韻母也用單個字母表示,開口呼韻母配置在標(biāo)
準(zhǔn)鍵盤中排,并按第一個字母分為a、 o、 e區(qū);齊齒呼韻母配置在鍵 盤上排,稱為i區(qū),合口呼和撮口呼韻母配置在標(biāo)準(zhǔn)鍵盤下排,稱為
U區(qū),包括tl區(qū);每區(qū)又按韻母字母個數(shù)從左到右排列,字母個數(shù)相
同的韻母按a、 o、 e、 i、 u、 n、 g的次序從左到右排列。見附圖1。 當(dāng)然也可將合口呼和撮口呼韻母配置在鍵盤上排,稱為u區(qū),齊齒呼 韻母配置在鍵盤下排,稱為i區(qū)。在編碼實例中不這么排列。
(2) 各韻母與字母映射關(guān)系設(shè)定為
a-a b-uai c-un tin d-ai
e-e f-an g-ang h-ou i-i
j-ong kmg k-ei1-en m-uang iang
n-uan tian o-o uo p-ing
q-r-in er s-ao t-iao
u-u v-ti ui w-iu x-ue ile
y-ian z-ua ia ;-eng見附圖l所示。這里翹舌音ch、 sh、 zh按音序分別用i、 u、 v表
示,本人認(rèn)為這種雙拼鍵盤排列方式是比較理想的,因此在編碼實例 中采用這種雙拼。
當(dāng)然也可不考慮韻母的個數(shù),對每區(qū)按韻母字母根據(jù)a、 o、 e、 i、 u、 n、 g從左到右排列;
這時各韻母與字母映射關(guān)系設(shè)定為
a-a b-uang iang c-uan tlan d-ai
s-e f-an g-ang h-ou
i-i j-ong iong k-ei 1-en
m-un tin n-ue tie o-o uo p-ing
q-iao
u-u
-ie
v-U ui
s-ao
w-ian
x-uai
y-
畫m
z-
-ua ia
eng
在鍵盤上的排列如附圖2所示,這里為防止繞過專利,ch用u 作代碼,sh用i作代碼,zh仍用v作代碼。當(dāng)然也可將字母個數(shù)相同 的韻母按英文音序從左到右排列。還可不考慮字母個數(shù),將韻母按英 文音序排列。
(3) 只有韻母沒有聲母的,取e或o或a作聲母,還可取韻母 的第一個字母作聲母代碼,再補上韻母代碼,在編碼實例中選用e作 聲母代碼;選用e作聲母代碼有個優(yōu)點,那就是er排在r上的話,就 能做到全拼與雙拼的拼寫形式完全相同。
(4) 完善漢字碼輸入法的音碼部分的輸入步驟為按雙拼根據(jù)上述聲母或韻母與字母鍵的映射關(guān)系依次輸入單個漢字的聲母和韻 母。
下面再對形部編碼作詳細(xì)說明。
漢字可分為獨體字和合體字二類。合體字是指具有左右、上下、 包圍結(jié)構(gòu)的漢字。獨體字是指不具有左右、上下、包圍結(jié)構(gòu)的漢字。 根據(jù)整體結(jié)構(gòu)將合體字一分為二,也就是說將合體字左部與右部或者 上部與下部或者包圍部分與被包圍部分分開,含首筆畫的部分為首 部,即首部含有漢字書寫順序的第一個筆畫,除首部外的剩余部分為 剩部。這一劃分是很有用的,例如有的包圍結(jié)構(gòu)的漢字如"或"、"載" 等字,它的包圍部分按筆順要分開書寫,由于規(guī)定含有第一筆的部分 為首部,不含第一筆的部分為剩部,"或"字的首部就為"戈",余下 的部分就為剩部,"載"字的剩部就為"車",其它部分為首部。對左 中右結(jié)構(gòu)或上中下結(jié)構(gòu)的漢字,可規(guī)定將其中間部分劃為剩部,當(dāng)然 也可規(guī)定將中間部分劃分到首部,右邊部分劃分剩部,在編碼實例中 規(guī)定將中間部分劃分到剩部。對上中下結(jié)構(gòu)的漢字,將其上面部分劃 分為首部,中間部分、下面部分劃為剩部,當(dāng)然也可規(guī)定將中間部分 劃分到首部,在編碼實例中規(guī)定將中間部分劃分到剩部。
為降低重碼,本發(fā)明還規(guī)定了成字優(yōu)先的劃分原則。當(dāng)一個漢字 為上中下結(jié)構(gòu)或左中右結(jié)構(gòu)時,若兩邊都能成字的話,要按"兩邊都 成字優(yōu)先"的原則劃分,若一邊能成字的話,要按"一邊成字優(yōu)先" 劃分。如"營"字,是上中下結(jié)構(gòu),若把"^列為首部,則兩邊都不能 成字,若把"呂"列為剩部的話, 一邊能成字,因此要把"呂"列為剩部。又如"案"字,若把列為首部,則兩邊都不能成字,若 把"木"列為剩部的話,則兩邊都能成字,所以要將"安"列為首部, "木"列為剩部。當(dāng)然這類字可采用容錯碼技術(shù)予以解決。容許一個 合體漢字按不同的劃分,進(jìn)行編碼。
合體字的最佳劃分方法是根據(jù)絕大部分的合體字都為形聲字的 特點進(jìn)行劃分,將義部和聲部分為二個部分,這樣"案"字,必定聲 部"安"列為首部,義部"木"列為剩部。"營"字的話,"呂"列為 剩部。還有的合體字為會意字,也可按會意結(jié)構(gòu)拆分。
又將漢字的各種筆畫按國家語委的規(guī)定歸類為橫、豎、撇、點、 折五種基本筆畫。筆畫是書寫漢字時,不間斷地一次寫成的一個線條, 在只考慮漢字筆畫的運筆方向,而不計其輕重長短時,可將筆畫歸類 為橫、豎、撇、點、折五種基本筆畫,其中提并入橫,豎鉤并入豎, 捺并入點,其余各種帶轉(zhuǎn)折的筆畫并入折,在本發(fā)明中將橫、豎、撇、
點、折五種基本筆畫稱為單筆畫部件。為降低重碼,還優(yōu)選27個組 字頻率或?qū)嵱妙l率高的幾個筆畫結(jié)構(gòu)即國家語委規(guī)定的漢字部件排 到字母鍵上,參與編碼,在本發(fā)明中稱為多筆畫部件。
形部編碼的取碼規(guī)則是獨體字,按書寫順序取前二個基本部件 的相應(yīng)代碼編碼,當(dāng)只有一個基本部件時,就只取這個基本部件的相 應(yīng)代碼編碼,當(dāng)然也規(guī)定獨體字按書寫順序取第一個和最末個基本部 件的相應(yīng)代碼編碼,為與合體字的編碼規(guī)則保持連貫,特別是首部為 基本部件的合體字的編碼保持一致,建議規(guī)定按書寫順序取前二個基 本部件的相應(yīng)代碼編碼,這樣取碼不會導(dǎo)致重碼增加,還有利于思維一致。合體字,按整體結(jié)構(gòu)一分為二,先寫部分為首部,后寫部分為 剩部,按書寫順序分別取首部的第一個基本部件和剩部的第一個基本 部件的相應(yīng)代碼編碼。
這一編碼規(guī)則是長年潛心研究和突發(fā)靈感的結(jié)果。在漢字中,合
體字占了絕大多數(shù),約為95%。同音又同偏旁部首的合體字?jǐn)?shù)量較多, 約有五、六百對。其中? 、 *、 口、木、凈、韋、4等偏旁部首產(chǎn)生 的同音字最多,?約有六十余對同音字,其它的也有三、四十對同音 字,為降低重碼,這些偏旁部首必須被選出,分別用一個字母或別的 符號編碼。女、i 、十、月、蟲、土、鄉(xiāng)、火、廣等偏旁部首就只有 十來對同音字,為降低重碼,這些偏旁部首也要被選出,分別用一個 字母或別的符號編碼。^、足、山、石、日、王、P 、魚、禾等偏旁 部首只有五對左右的同音字,為降低重碼,這些偏旁部首也可被選了 出來,分別用一個字母或別的符號編碼,當(dāng)然個別偏旁也可棄而不選。 而有的偏旁部首如"田"、"目"、"貝"、"車"、"酉"、"多"、"t"等 雖然常用,可只有二、三對同音字,甚至沒有同音字,因此棄而不選。 部件"3 "的重碼相對較多,也可將它入選多筆畫部件,在編碼實例 中沒入選。本人研究發(fā)現(xiàn),同音同偏旁部首的漢字的除偏旁部首外部 分的第一筆為同類基本筆畫的情況更是出乎意外的少,只有100多 對,其中部件十、^出現(xiàn)得比較多,^還經(jīng)常出現(xiàn)在剩部的首位,因 此^被選了出來,接著將26個多筆畫部件分別用一個字母或別的符 號編碼,建議將這26個多筆畫部件分別用一個字母編碼。部件L慣 常出現(xiàn)在剩部,按編碼規(guī)則要取剩部1_的第一個筆畫點,按點編碼,由于點在剩部第一個位置的組字頻率很高,容易造成重碼,因此也將
它列為基本部件。這樣共有27個多筆畫部件。L慣常出現(xiàn)在字尾, 而廣慣常出現(xiàn)在字首,兩者位置不同,不會造成重碼,因此將它們合 并排列,用同一個字母或符號編碼。為便于記憶,排列時主要以多筆 畫部件的讀音的聲母為代碼。為避免重碼,還將若干聲母相同的部件 取了出來,改按象形或韻母的方式編碼。按照取碼規(guī)則,橫、豎、撇 等基本筆畫的出現(xiàn)的頻率較高,為降低重碼,不宜與多筆畫部件排在
同一個鍵上,在編碼實例中,將它們分別排到三個標(biāo)點符號","、"."、 "/"鍵上,用三個標(biāo)點符號","、"."、"/"編碼,比較有序合理。 點、折等基本筆畫的組字頻率相對較低,可將它們與多筆畫部件合并 排列,分別用兩個字母編碼。當(dāng)然由于基本筆畫點的組字頻率與撇相 差不大,而且出現(xiàn)在獨體字以及合體字的第二部分的首位和尾位的頻 率很高,也可將基本筆畫點排在其它一個標(biāo)點符號鍵上,用該標(biāo)點符 號編碼,比如排在";"上,用";"編碼,或者排在","上,用"," 編碼。在編碼實例中,點用";"編碼。還可將基本筆畫折排到其它 一個標(biāo)點符號鍵上,用該標(biāo)點符號編碼,在編碼實例中基本筆畫折按 折的聲母z編碼。將橫、豎、撇、點四個基本筆畫分別用四個標(biāo)點符 號編碼還有個好處,那就是充分利用了鍵盤上的30個鍵,擴(kuò)大了編 碼空間,又不影響指法和標(biāo)點符號的輸入。
27個多筆畫部件和五種基本筆畫在鍵盤上的優(yōu)選排列見附圖3 所示。27個多筆畫部件、五種基本筆畫與字母、標(biāo)點符號的影射關(guān) 系設(shè)定為a——魚 b——廣L c~^* d——?
e——禾 f~~t g——a h——火
i——蟲 j——, k——口 1——纟
m-木 n-女 o-日 p-15
q-月r-4 s-石 t-土
u-山v-"w-王 -十
y-i z-足宇斤;-點
,——橫 .——豎 /撇
根據(jù)設(shè)定關(guān)系將部件分別用相應(yīng)的字母和標(biāo)點符號編碼。
下面作具體解說a似魚,魚的字首又與A相似;b是廣的聲母; C是^的聲母;d是?的聲母;e是禾的韻母;f似才;g是^的聲母; h是火的聲母;i因為ch排在其上,而ch是蟲的聲母;j是韋的聲母 k是口的聲母;L似纟的首筆;m是木的聲母;n是女的聲母;O似日
即太陽的外形;p似l5 ; Q似有時殘缺有時圓的月亮,就作為月代碼 r是4的聲母;s是石的拼音的首字母;t是土的聲母u因為sh排在
U上,而sh是山的聲母;V因為zh排在U上,而zh是"的聲母;W 是王的聲母;X是十的聲母;Y是i的聲母;Z是足和折的聲母;這 些字母就分別作為相應(yīng)的部件的編碼。";"作為點的代碼;","作為 橫的代碼"."作為豎的代碼;"〃'作為撇的代碼。將四個標(biāo)點符號用 作橫、豎、撇、點的代號,有兩個好處 一是避免這四個基本筆畫與 多筆畫部件排在同一鍵上后,與多筆畫部件編碼相同,發(fā)生重碼。二 是擴(kuò)大了編碼空間,又不會影響標(biāo)點符號的輸入。當(dāng)然也可以漢字部件與英文的相似程度排列,即根據(jù)象形排列。
一種優(yōu)選的排列見附圖4。這時27個多筆畫部件、五種基本筆畫與
字母、標(biāo)點符號的影射關(guān)系設(shè)定為
a——4 b——日 c——^ d——石 e—山 f_矛 g_足 h*
i——i j——廣i_ k——械 1^個
m-木 n-月o-口 p-P
q——蟲 r——女s——? t——土
u-魚v- w-纟 x-火
y-禾 z-王、折;-點
,——橫 .——豎 /——撇
根據(jù)設(shè)定關(guān)系將基本部件分別用相應(yīng)的字母和標(biāo)點符號編碼。 下面作具體解說大寫a似4 ;大寫b似日;c似^ ; d似石,
框在下部;大寫e似山;f似凈,特別似反矛;g似足,框在上部; 大寫h似"^; i似i ; j似廣,又似1_的前二筆;k似^,似半個^ ;
l似十;m似木,似樹林,木的聲母也是m ; n似月;o似口 ; p似 IS ;大寫q似蟲,都是框內(nèi)有出筆;大寫r似女;s似?,似水流形, 聲母也是S; t似土, 土的聲母也是t; U似魚,似魚泡,讀音也似;
v似孕字頭或字尾;w似纟;x似火;y似禾,禾苗的形狀往往似y ;
z似王,也與折"乙"的外形相似。為便于記憶,就將橫、豎、撇、點
按次序分別","、"."、"/"、";"。當(dāng)然也可按別的方式分別排列,如 將橫排在";",將豎排在"〃,;將撇排在",";將點排在"."上,用相應(yīng)的標(biāo)點符號編碼。將多筆畫部件完全按形似排在字母鍵上,有個 好處,那就是不必象按讀音排那樣,為避免重碼,不得不將有些部件 按象形排,編碼原理具有一致性,有的人可能更喜歡這種方式。
有的基本部件在作為偏旁后,字形會有所改變,但必須視為同類 基本部件,用同一字母編碼,這類基本部件如^和竹,足和足,4和 人,^和言,,和金,?含水、氺,凈含手,十含心等。
由于按附圖1和附圖3排列,較為簡單易記,在編碼實例中按附
圖1和附圖3編碼。編碼實例如"漢"的編碼,聲母是h,韻母為 an,代碼是f,音碼部分就為hf,形部編碼為合體字,按整體結(jié)構(gòu)一 分為二,首部為'?,剩部為"又",首部只有一個部件?,編碼為d, 再按書寫順序取剩部"又"的第一個基本部件為筆畫"折"編碼,代 碼為z,"漢"的編碼為"hfdz"。又如"字"的編碼,音碼部分按雙 拼,為zi,形部編碼按合體字編碼,首部只有一個部件^,編碼為g, 再按書寫順序取剩部的第一個基本部件"折"編碼,代碼為z,"字" 的編碼為"zigz"。又如"封",全拼為feng,雙拼為f;,形部編碼時, 首部按書寫順序取第一個基本部件"土"、代碼為"t",剩部的第一 個基本部件為橫,代碼為",""封"的編碼就為"f;t,"。注意取基本 部件時要遵循取大優(yōu)先的編碼原則,要優(yōu)先取筆畫多的基本部件編 碼,例如"封"字的首部編碼時應(yīng)取"土",而不能取橫,因為"土" 的筆畫數(shù)多于"橫",要按"土"編碼。又如"木"的編碼,雙拼為 mu,為獨體字,只有一個基本部件"木",代碼為m,木的編碼就為 mum。本人在長期的編碼研究中早就認(rèn)識到一個漢字是否為左右結(jié)構(gòu) 是一目了然的,左右結(jié)構(gòu)的漢字很容易在其產(chǎn)生空隙處將它一分為 二,而上下、包圍結(jié)構(gòu)的漢字有時不易一分為二,甚至有時難以分清 一個字是獨體字還是上下結(jié)構(gòu)或包圍結(jié)構(gòu)。根據(jù)一個漢字是否為左右 結(jié)構(gòu)劃分是最簡單易學(xué),但這樣不利于降低重碼,實際上對于難以劃 分結(jié)構(gòu)的漢字還可以用容錯碼的技術(shù)加以解決,即容許對同一個漢字 根據(jù)不同的劃分采取不同編碼,所以還是劃分為獨體字和合體字為 好,這樣也與人們的傳統(tǒng)思維一致。需要指出的是將合體字按整體結(jié) 構(gòu)一分為二,分成二個部分別進(jìn)行編碼的技術(shù)由來已久,其他人在發(fā) 明中也對此做出了重要貢獻(xiàn)。
若將所有的漢字分為左右結(jié)構(gòu)和非左右結(jié)構(gòu)的話也可編碼,仍可
用附圖1、附圖2、附圖3、附圖4編碼,也就是說所選用的拼音、 基本部件以及代碼仍不變。編碼由拼音和形部編碼組成。形部編碼規(guī)
則是左右結(jié)構(gòu)的漢字,按書寫順序分別取左邊部分、右邊部分的第 一個基本部件的相應(yīng)代碼編碼;非左右結(jié)構(gòu)的漢字,按書寫順序取第 一個和最末個基本部件的相應(yīng)代碼編碼。這時非左右結(jié)構(gòu)的漢字,不 能按書寫順序取前二個基本部件的相應(yīng)代碼編碼,因為會造成重碼, 而應(yīng)按書寫順序取第一個和最末個基本部件的相應(yīng)代碼編碼,只有一 個基本部件就只取這個基本部件的相應(yīng)代碼編碼。由于一個漢字是否 為左右結(jié)構(gòu)是很清楚的,不會產(chǎn)生歧義,有的人可能更喜歡這種編碼 規(guī)則。
還可在形部編碼時還可根據(jù)義部即部首優(yōu)先原則編碼,即形部編碼時,先取該漢字的偏旁部首編碼,若該漢字的偏旁部首為排在鍵上 的某一個基本部件,就只取這個基本部件的代碼,再按書寫順序取漢 字中除掉該偏旁部首后的部分的第一個部件編碼,即按書寫順序取不 屬于偏旁部首部分的第一個基本部件的相應(yīng)代碼編碼。若該漢字的偏 旁部首有多個基本部件,則按書寫順序取該偏旁部首的首尾兩個部件 編碼。這些都是對本發(fā)明的變形。本人不太贊成這種方法,因為有時 會與書寫順序不符。當(dāng)然有的人可能更喜歡這種編碼方式。
為提高輸入速度,對于使用頻繁的字,設(shè)計了簡碼。簡碼就是對
常用的漢字只是取其完整編碼的前編1個、2個或3個編碼,再加1 個空格鍵就構(gòu)成了簡碼。由于規(guī)定音碼在先,形部編碼在后,許多漢 字的形部編碼并不需要全部輸入,所以單字的編碼實際上是音碼為 主,輔以形部編碼。
由于拼音的二級簡碼只有四百來個漢字,而編碼空間有729個, 因此,對于其余三百來個編碼空間,還可設(shè)立簡碼詞,以進(jìn)一步提高 打字速度。如漢字的拼音無kian的形式,雙拼編碼也就無ky的形式, 而"k"、 "y"卻分別為"可"、"以"的聲母,因此ky可以作為"可 以"的編碼。由于本輸入法設(shè)有三百多個簡碼詞,從理論上說詞組輸 入速度要比單字更快,因此這會明顯提高漢字的輸入速度。在計算機 上敲擊完某個漢字或詞組的簡碼所在的鍵后,再敲擊空格鍵,就可輸 入相應(yīng)的漢字或詞組。
詞語輸入是提高漢字輸入速度的最常用方法,由于規(guī)定音碼在 先,形部編碼在后,詞語輸入就全部利用音碼輸入,音碼選用王治陽雙拼,詞語輸入的步驟是
a、 二字詞語,取每個字的聲母、韻母的代碼依次輸入;如"編 碼"代碼為byma。
b、 三字詞語,取每個字的聲母的代碼依次輸入,再補空格輸入; 如"計算機"的代碼為"jsj"。當(dāng)然也可規(guī)定取第一字、第二字的前 一碼即聲母的代碼,再取第三字的前二碼。還可規(guī)定再第一字的前二 碼,再取第二字、第三字的前一碼即聲母的代碼。
c、四字及以上詞語,取前三個字及最后一個字的聲母的代碼依次 輸入;如"科學(xué)技術(shù)"為四字詞,取每個字的聲母的代碼為"kxju"。 又如"新疆維吾爾自治區(qū)",編碼取前三個字及最后一個字"新疆維 區(qū)"的聲母的代碼"xjwq"。
詞組輸入時會遇到重碼問題,總的來說按拼音輸入漢字的有效重 碼率要低于拼形碼,但也不是沒有,遇到同音詞時, 一個非常簡便的 方法是根據(jù)上下文采用智能處理。有時無法智能處理時,有個技巧, 可基本避免同音字選擇,那就是再輸入詞組中第一個字或最后一個字 的形部編碼的第一個代碼, 一般輸入第一個字的形部編碼的第一個代 碼。如輸入"uiji"后,其中u為sh的壓縮聲母,會出現(xiàn)"實際、事 跡、試劑、世紀(jì)、史記"等詞供挑選,這時每個詞的前面會有數(shù)字鍵 供選擇,后面會有一個字母或標(biāo)點符號供選擇,它為第一個字的形部 編碼的第一碼,采用附圖3的話,^、橫、i 、卄、口的編碼代號分 別為"g"、 ","、 "y"、 "c"、 "k"。敲擊這幾個基本部件的相應(yīng)代碼所 在的鍵后就能直接上屏,而無需再用數(shù)字鍵選擇重碼。這一創(chuàng)新方法顯然十分簡便實用,實際上能做到幾乎沒什么重碼詞。
這樣,本發(fā)明對拼音輸入法遇到的重碼字和重碼詞問題都作了成
功處理,采用附圖1和附圖3的話,十來分鐘就可學(xué)會,甚至幾分鐘 就可基本學(xué)會,比如雙拼只要記住a、 o、 e、 i、 u區(qū)開頭就可以了, 還可結(jié)合雙拼提示行進(jìn)行輸入,形部編碼只有26個多筆畫部件和五 個單筆畫部件,且大部分基本部件都用拼音的聲母作代碼。采用附圖 2和附圖4的話也只要二三十分鐘就能學(xué)會,使本發(fā)明顯示出極大的 優(yōu)越性,成為唯一理想的完善的漢字輸入法。
利用完善漢字碼輸入法軟件,在計算機鍵盤上敲擊某個漢字或詞 組的相應(yīng)的編碼所在的鍵,就可完成輸入,無重碼且達(dá)到規(guī)定碼長的 漢字或詞組自動上屏,有重碼的單字或詞組根據(jù)提示行選擇。本發(fā)明 字詞兼容,最多碼長都為4碼。" "鍵為萬能學(xué)習(xí)鍵,當(dāng)某個漢字的 編碼不知道時,可用"~"代替,幫助把正確的編碼找出來,再利用 提示行選擇。
為了便于使用,還設(shè)置了容錯碼,對一些編碼容易出錯的漢字, 在錯誤輸入時也能出現(xiàn)所要輸入的漢字。
需要指出的是在本說明書、權(quán)利要求書和說明書附圖中的字母均 不分大小寫,字母的大小寫是等效的。
權(quán)利要求
1、一種計算機漢字編碼鍵盤輸入法即完善漢字碼輸入法,將漢字的各種筆畫按國家語委的規(guī)定歸類為橫、豎、撇、點、折五種基本筆畫后,其特征是(1)、編碼由兩部分組成,一部分是音碼,即拼音,或稱拼音碼,另一部分是形部編碼,漢字碼的兩部分可前可后,一經(jīng)選定,不能改變;(2)、拼音可采用全拼或雙拼或簡拼或不完整拼音;(3)、形部編碼的取碼規(guī)則是獨體字,按書寫順序取前二個基本部件的相應(yīng)代碼編碼,當(dāng)只有一個基本部件時,也可只取這個基本部件的相應(yīng)代碼,當(dāng)然也規(guī)定獨體字按書寫順序取第一個和最末個基本部件的相應(yīng)代碼編碼,合體字,按整體結(jié)構(gòu)一分為二,先寫部分為首部,后寫部分為剩部,按書寫順序分別取合體字的首部、剩部的第一個基本部件的相應(yīng)代碼編碼;(4)形部編碼時,優(yōu)選五種基本筆畫和27個基本部件參與編碼,27個基本部件、五種基本筆畫與字母、標(biāo)點符號的一種影射關(guān)系設(shè)定為a——魚 b——疒 辶c——艸 d——氵e——禾 f——扌 g——宀 h——火i——蟲 j——钅 k——口 1————纟m——木 n——女 o——日 p——阝q——月 r——亻 s——石 t——土u——山 v—— w——王 x——忄y——讠z——、折 ;——點,——橫 .——豎 /————撇27個基本部件、五種基本筆畫與字母、標(biāo)點符號的另一種影射關(guān)系設(shè)定為a——亻b——日 c——宀 d——石e——山f——扌 g——足 h——艸i——讠j——疒辶k—— 1——忄m——木n——月 o——口 p——阝q——蟲r——女 s——氵 t——土u——魚v——钅 w——纟 x——火y——禾z——王、折 ;——點,——橫 .——豎 /——撇。
2、根據(jù)權(quán)利要求1所述的完善漢字碼輸入法,其特征是雙拼最好選用王治陽雙拼Ch、 Sh、 Zh按音序分別用i、 U、 V表示,單韻母U用字母V表示,各韻母與字母映射關(guān)系設(shè)定為a-a b-uai c-un iln d-aie-e f-an g-ang h-ou i-ij-ong iong k-ei1-en m-uang iangn-uan Uan o-o uo p-ingq-ie r-in er s-ao t-iaou-u v-U ui w-iu x-ue tiey-ian z-ua ia ;-eng當(dāng)然也可不考慮韻母的個數(shù),對每區(qū)按韻母字母根據(jù)a、 o、 e、 i、u、 n、 g從左到右排列;這時各韻母與字母映射關(guān)系設(shè)定為a-a b-uang iang c-uan lian d-aie-e f-an g-ang h-oui-i j-ong iong k-ei 1-enm-un iin n-ue ileo-o uoP——ing陽iuq-iao r-ie er s-ao t—u-u v-U ui w-ian x-uaiy—-inz—一im 13-eng當(dāng)然也可將字母個數(shù)相同的韻母按音序從左到右排列,還可不考慮字母個數(shù),將韻母按音序排列;只有韻母沒有聲母的,取e或o或a作聲母,還可取韻母的第一個字母作聲母代碼,再補上韻母代碼,建議選用e作聲母代碼。
3、 根據(jù)權(quán)利要求1所述的完善漢字碼輸入法,其特征是?、*、 口、木、凈、豐、4等發(fā)生的同音字很多的偏旁必須被選出,分別用一個字母或別的符號編碼,女、i 、十、月、蟲、土、纟、火、廣、:L等發(fā)生同音字較多的偏旁也要被選出,分別用一個字母或別的符號編碼, 、足、山、石、日、王、P 、魚、卑及* 、禾、十、等能發(fā)生幾對同音字的偏旁也可,分別用一個字母或別的符號編碼。
4、 根據(jù)權(quán)利要求2所述的完善漢字碼輸入法,其特征是?、卄、口、木、矛、,、4 、女、i 、十、月、蟲、土、纟、火、廣、^、足、山、石、日、王、P 、魚、氺包括豐、未、十、^、 1_等基本部件全部選自漢字的偏旁部首。
5、 根據(jù)權(quán)利要求1所述的完善漢字碼輸入法,其特征是對上中下結(jié)構(gòu)或上中下結(jié)構(gòu)的漢字,將其中間部分劃分到剩部,當(dāng)然也可規(guī)定將中間部分劃分到首部,還可按成字優(yōu)先的劃分原則劃分,當(dāng)一個漢字為上中下結(jié)構(gòu)或左中右結(jié)構(gòu)時,若兩邊都能成字的話,要按"兩邊都成字優(yōu)先"的原則劃分,若一邊能成字的話,要按"一邊成字優(yōu)先"劃分。
6、 根據(jù)權(quán)利要求1所述的完善漢字碼輸入法,其特征是合體字的最佳劃分方法是根據(jù)絕大部分的合體字都為形聲字的特點進(jìn)行劃分,按形聲、會意結(jié)構(gòu)拆分為二個部分。
7、 根據(jù)權(quán)利要求1所述的完善漢字碼輸入法,其特征是對于使用頻繁的字,設(shè)計了簡碼,它對常用的漢字只是取其完整編碼的前編1個、2個或3個編碼,再加1個空格鍵就構(gòu)成了簡碼。
8、 根據(jù)權(quán)利要求1所述的完善漢字碼輸入法,其特征是詞語輸入的步驟是二字詞語,取每個字的聲母、韻母的代碼依次輸入;三字詞語,取每個字的聲母的代碼依次輸入,再補空格輸入;四字及以上詞語,取前三個字及最后一個字的聲母的代碼依次輸入。
全文摘要
一種計算機漢字編碼輸入方法即完善漢字碼輸入法,它由音碼和形部編碼兩部分組成,形部編碼的取碼規(guī)則是獨體字,按書寫順序取前二個基本部件的代碼編碼;合體字,按書寫順序各取首部和剩部的第一個基本部件的代碼。由于同音同偏旁的合體字除偏旁外的部分的第一筆為同類基本筆畫的情況更是出乎意外的少,因此只需選用27個基本部件和五種基本筆畫就能做到既簡單又快速。
文檔編號G06F3/023GK101504572SQ200810080718
公開日2009年8月12日 申請日期2008年2月7日 優(yōu)先權(quán)日2008年2月7日
發(fā)明者王治陽 申請人:王治陽