專利名稱:漢字的音-形互補碼輸入法的制作方法
1、音—形互補碼輸入法是漢字編碼輸入的一種新方法;是在編碼方案中直接應(yīng)用漢字本體規(guī)律,在代碼及鍵盤設(shè)計中整合音碼與形碼特點的漢字編碼輸入技術(shù)。
2、通過檢索500余種漢字編碼輸入的方法和技術(shù),我們認為,包括幾十種實用的無理和有理編碼,都普遍存在這三方面的共性缺點。其一,形碼設(shè)計偏重于漢字特征的經(jīng)驗性總結(jié)。如漢字的五筆字型輸入法,所選“字根”實質(zhì)是漢字部首檢字法的一種套用;因后者的主要目的在于查詢、檢索漢字,并且,側(cè)重考慮偏旁、部首的組字頻率而忽視單筆劃、非成字部首與成字部首的定性標(biāo)準(zhǔn),因此,由部首轉(zhuǎn)換而來的“字根”概念缺乏說理性,也難以概括漢字在構(gòu)成上的內(nèi)在本體規(guī)律即在構(gòu)成關(guān)系中包含的各種線性與非線性特征。此外,僅以五種筆劃和三種構(gòu)型概括漢字構(gòu)造的時空序,也同樣是不完備的。這是因為,基本筆劃是漢字的一種線性組字單位,相當(dāng)于拼音文字的字母——它們除顯示五筆劃概括的共性外,更多地表現(xiàn)彼此間的個性差別;因漢字植根于中國傳統(tǒng)文化背景中,其構(gòu)型特征實質(zhì)詮釋了東方自然哲學(xué)代表的某種時空觀念,因此,僅將漢字區(qū)分為三種構(gòu)型,就很難完整地提取漢字擁有的復(fù)雜信息。再如表形碼、表音碼、賦音形碼等,在“部件”選擇上也存在類似五筆字型的缺點;盡管后者追加了音的信息,但都單向地以音作注解,即以發(fā)音作“部件”的指定性代碼,未能形成互補的、以字母鍵為中介的自然轉(zhuǎn)換關(guān)系,以致記憶量增加成了此類編碼難以避免的一種代價。如“永字八法”是書法家對漢字書寫規(guī)律的粗略總結(jié)、“二、三分體”是人們對漢字疏密結(jié)構(gòu)關(guān)系的概括性認識——凡此類及具主觀經(jīng)驗色彩,至今未能升華為真正意義的科學(xué)準(zhǔn)則,因此,有些編碼直接應(yīng)用這類知識,其歷史局限性是不言面喻的。其二,為編碼而編碼,因編碼需要而附加各種人為規(guī)定。如三維天然碼是最典型的為編碼而編碼的輸入方法,它機械而牽強附會地將漢字造形與西文字母劃等號,已經(jīng)完全偏離漢字內(nèi)在的本體規(guī)律;如是,漢字和漢語言何以保持純潔性和規(guī)范性。據(jù)統(tǒng)計,支持五筆字型輸入法的規(guī)則多達200余條,其中有些是為了服伺漢字的拆分與取碼,并明顯地有違小學(xué)漢字教學(xué)的背景知識;暫且不論規(guī)則的人為性,僅繁雜的字型譜系就與簡潔的西文輸入相去太遠——不經(jīng)較長時間的專門培訓(xùn)是難以上機操作的。再如對拼音輸入法的改進,人們曾以“緊縮”法來減少擊鍵次數(shù),卻因聲、韻母代碼的加入增加了記憶負擔(dān),同樣沒能解決重碼率高的難題;也有人在此基礎(chǔ)上增加聲調(diào)碼和區(qū)分碼,這再次增加了操作者的記憶負擔(dān),以致普遍被認為是好學(xué)卻不好用的漢字輸入技術(shù)。究其原因,就在于漢語拼音方案未能詮釋漢字固有的豐富的文化內(nèi)涵;盡管它代表著漢字改革的一種發(fā)展方向,但至少在目前存在涵蓋面窄的局限——在用于漢字輸入時,因碼長和重碼就必然要求人們附加一些人為規(guī)定。除上述外,被稱為無理編碼的電報碼等,就是更典型的一些人為設(shè)計方案,對此人們早已達成共識。事實上,在許多編碼方案,類似前述的作法隨處可見;共同的原因在于,對漢字所作的文字學(xué)研究已大大滯后于它的應(yīng)用,特別是在漢字編碼輸入中的應(yīng)用。其三,代碼設(shè)計多為指定性的。由于未能自覺地應(yīng)用漢字構(gòu)造的本體規(guī)律,無論以數(shù)字作代碼還是用音作形的注解,代碼就必然是一種強制性的;這一方面要求人們死記代碼——盡管編碼者給予種種解釋或編出某種助記口訣,另一方面已額外增加了操作者的記憶負擔(dān),十分不利于中文電腦在大規(guī)模人群中的普及。綜合上述,音—形互補碼輸入法遵循了這樣的設(shè)計思想經(jīng)驗不等科學(xué),實用首先應(yīng)該合理,合理還必須體現(xiàn)科學(xué)的一貫原則即服從科學(xué)的理性精神;以經(jīng)驗編碼向科學(xué)編碼的轉(zhuǎn)變?yōu)槟康模⒁詽h字三大本體規(guī)律為核心的漢字編碼科學(xué)的理論體系;以代碼的非指定性為目標(biāo),設(shè)計與編碼方案相適應(yīng)的通用標(biāo)準(zhǔn)鍵盤,最終獲得音—形互補碼為基礎(chǔ)的漢字編碼輸入技術(shù)。體現(xiàn)這一思想,我們還必須注意這種現(xiàn)象“速度快、重碼低”曾成為漢字編碼科學(xué)的一種代名詞,成了評價漢字編碼方案的唯一標(biāo)準(zhǔn)。我們認為,以犧牲科學(xué)性和規(guī)范性為代價的技術(shù)評價標(biāo)準(zhǔn)是不足取的;只有科學(xué)性、先進性與實用性的有機統(tǒng)一,才是一種真正科學(xué)意義的漢字編碼方案。
3、本項發(fā)明旨在向公眾提供一種簡明、規(guī)范、高效、實用的漢字編碼輸入技術(shù),這具體體現(xiàn)在以下四方面。①系統(tǒng)設(shè)計直接利用小學(xué)教育中的漢字書寫、認讀和漢語拼音背景知識(僅限于單字的第一個拼音字母的應(yīng)用),以便適合中小學(xué)生、略具中文知識的外國人和各種非專職錄入員使用。②以漢字的三大本體規(guī)律為核心,詮釋漢字的“字母”、部件、構(gòu)成單元和它們與中國傳統(tǒng)文化的內(nèi)在聯(lián)系,僅給出少量編碼規(guī)則,以便最大限度地降低記憶量、適合少兒和老人在內(nèi)的各年齡組的人使用。③給出漢字構(gòu)成單元的非指定性代碼,設(shè)計與26個形碼和23個音碼相匹配的通用標(biāo)準(zhǔn)鍵盤——在設(shè)定中文輸入狀態(tài)時,西文字母直接轉(zhuǎn)換為漢字音與形的代碼,以便于實現(xiàn)盲打、適合以快速性為目標(biāo)的專職錄入人員使用。④以兼容性獲得較好的性能價格比,以便于社會各階層的人員使用。4、音—形互補碼輸入法的基礎(chǔ)理論
1)漢字的“字母”與部件眾所周知,拼音文字是由字母這種部件排列、組合而成的,部件之間保持一種簡單、線性的系統(tǒng)關(guān)系。相比之下,背負博大精深、無以倫比的中國文化,漢字的構(gòu)造也就更為復(fù)雜、更多地呈現(xiàn)既開放又相對封閉的非線性系統(tǒng)特征。從這一意義出發(fā),漢字本身為中國傳統(tǒng)文化和東方哲學(xué)觀念的一種縮影,亦即系統(tǒng)構(gòu)造貫穿了東方整體觀和古老唯象哲學(xué)的科學(xué)文化思想。特別重要的是,在現(xiàn)代科學(xué)經(jīng)歷長足的發(fā)展之后,東西方文化正趨于匯流,當(dāng)代科學(xué)正朝向中國傳統(tǒng)科學(xué)的主導(dǎo)觀念發(fā)展;由此,再次反證了漢字及中國傳統(tǒng)文化的優(yōu)秀品質(zhì)和深藏于漢字內(nèi)部的科學(xué)文化內(nèi)核。
漢字屬象形文字,僅就其線性特征而言,與拼音文字具有一定的可比性。如英文由26個字母組成;據(jù)新編九年制義務(wù)教學(xué)大綱,漢字可拆分、還原為28個基本筆劃。這里,單筆劃就相當(dāng)于漢字的“字母”,起到類似英文字母的組字作用。
但在更多的時候,這兩種文字不具有可比性,其中之一就是漢字獨有的非線性構(gòu)成特征。例如,漢字可全部拆為單筆劃,也可在拆出單筆劃的同時,拆出由單筆劃組成的相對獨立的多筆劃結(jié)構(gòu);或在較復(fù)雜的漢字中,拆出相對獨立的單字來。這表明,漢字的“字母”不僅直接參與構(gòu)成單字,而且還通過多筆劃結(jié)構(gòu)或由相對獨立的單字構(gòu)成更復(fù)雜的漢字。換句話講,漢字比拼音文字多一套組字單位除這里的“字母”外,還有后面要講的構(gòu)成單元。
作為文字語言,漢字的載體作用也將通過字義得到表現(xiàn),亦即各種字義分別代表某種特定的文化信息。因此,我們參照遺傳學(xué)的基因編碼原理,以字義為標(biāo)準(zhǔn),將一般無字義或僅含隱義的單筆劃和多筆劃結(jié)構(gòu)稱為部件。其中,單筆劃為基本部件,多筆劃結(jié)構(gòu)為單筆劃組成的組合部件。若將部件比作編碼基因的鹼基和核苷酸,具有特定字義的單字(包括成字部首)便相當(dāng)于基因。這樣,我們不僅明確了漢字的兩套組字單位,而且還嚴(yán)格地給出了漢字部件的信息學(xué)定義。從信息科學(xué)的角度,漢字正是由部件的組合涌現(xiàn)出字義的。
2)漢字的非線性構(gòu)成單元既然單字可參與構(gòu)成比它更復(fù)雜的漢字,那么,它們起到的作用就類似于前述的部件。注重這里的共性,我們可將它們合稱為漢字的構(gòu)成單元。
構(gòu)成單元有四種,除兩類部件外,單字又可分為獨體字和合體字。其中,獨體字是指以自身為參照、整體結(jié)構(gòu)最小的單字,亦即完全由部件組成、內(nèi)部不含任何其它相對獨立的單字;相比之下,合體字可拆出部件,也可拆出一個及一個以上相對獨立的單字來。顯然,新概念有別于傳統(tǒng)的定義,它使?jié)h字的拆分與分類相統(tǒng)一——不因結(jié)構(gòu)疏密而分體不清、也避免了分體結(jié)構(gòu)可再分體的模糊性,因而具有更嚴(yán)密的科學(xué)邏輯性。
作非線性考慮,我們進一步將構(gòu)成單元分為四個層次并用級來表示1級構(gòu)成單元為基本部件,2-4級分別為組合部件、獨體字和合體字。其中,1級為2-4級共同的基礎(chǔ);2級可拆出1級或同處一級的其它2級構(gòu)成單元;3級只能拆出1-2級構(gòu)成單元,4級則可拆出1-3級來。這樣,在相對線性的四級構(gòu)成單元之間,實質(zhì)保持著一種非線性的聯(lián)系。由于“字母”同處四級構(gòu)成單元的第1級,因此,兩套組字單位形成了一種互補的聯(lián)系。正因為這一點,漢字信息處理要比西文更復(fù)雜,更困難一些。
3)漢字構(gòu)造的金字塔模式與全息規(guī)律如前所述,四級構(gòu)成單元之間保持著非線性而又相對線性的聯(lián)系。這猶如金字塔——1和4級分別為金字塔的底坐和塔尖;二者間依次有2和3級構(gòu)成單元,因此。我們稱這一規(guī)律為漢字構(gòu)成的金字塔模式(參見圖①-②)。
由該模式。我們可以獲得漢字的另一種分類方法,即以四級構(gòu)成單元的排列組合為基礎(chǔ),將漢字分成1×1、1×2、1×3、1×4、2×2、2×3、2×4、3×3、3×4、4×4這十大類。如一和
都是單筆劃亦即本文的基本部件或“字母” 或1級構(gòu)成單元,但在單獨出現(xiàn)時,各自本身又是一個單字, 因而被視為特例即非組合性質(zhì)的漢字。
特例字的存在實質(zhì)提出了另一個問題在一定條件下,一般無字義或僅含隱義的部件可以不同程度地顯示字義;亦即四級構(gòu)成單元都或潛或顯地存在某種字義,只是愈靠近塔底即第l級,能由潛到顯而表現(xiàn)字義的幾率愈小。再如讠為組合部件或2級構(gòu)成單元,隱含有“言”的字義,當(dāng)讠參與“說、話、語”等字的構(gòu)成時,即可不同程度地表現(xiàn)“言”的信息;相比之下,3-4級構(gòu)成單元的字義是顯性的,勿須經(jīng)歷這樣的轉(zhuǎn)化。因此.我們稱上述為漢字構(gòu)成的全息規(guī)律。顯然,全息只是一個相對的概念.與之對應(yīng)的是全息不全。如“說、話、語”都顯示“言”的信息,但因信號轉(zhuǎn)換中的信息損失,各字中“言”的信息量有所不同。后者即為全息不全。
4)漢字構(gòu)造的象形規(guī)律從構(gòu)成到構(gòu)型,我們可將漢字分為四大類。即上下型、左右型、外內(nèi)型和雜合型漢字。既使土與士、人與入、已與巳,巳的基本構(gòu)型相似,也因筆劃長短、是否封口而呈現(xiàn)局部及至整體的構(gòu)型差別(參見圖③)。
無疑,漢字構(gòu)型特征的出現(xiàn)不是偶然的,有其深刻的社會文化背景。亦即與中醫(yī)學(xué)同出一轍,如中醫(yī)的元氣論與陰陽五行學(xué)說、漢字造象的非線性構(gòu)成規(guī)律與構(gòu)型特征,都體現(xiàn)了整體觀和唯象哲學(xué)的古代自然主義思想。當(dāng)然。正因為自然哲學(xué)的廣泛包容性,加之特定的歷史原因,具體到每個漢字的造字背景就很復(fù)雜,亦即多因素共同決定某字區(qū)別于它字的唯一性。同樣的原因,漢字常表現(xiàn)字多音或多義、多字同音或音階模糊、書寫允許某些變形等現(xiàn)象,這也類似中醫(yī)學(xué)即存在多義、岐化、模糊、涵蓋面廣的文化特點。
簡單的講,古人造字的初衷是象形,直至形成取類比象、以形托義、具體參照兩類自然事件的造字原則,如上下、左右、外內(nèi)、前后等是古人最容易感受到的事物存在方式,在紙平面上再現(xiàn)此類時空特征。古人便創(chuàng)造了前述四種構(gòu)型的漢字。再如筆劃長短常指代各種事物的陰陽五行屬性、長筆劃也可視為外筆劃沿時空方向的一種延伸,這樣,長短筆劃依序在單字內(nèi)的出現(xiàn)、既滿足了造象對形的要求也可說明表征物對應(yīng)的自然哲學(xué)歸類。在另一方面,漢字造象還參照了各種具象物的形態(tài)特征,如日、月、人就分別形似于太陽、月亮和人體。由于此類字例十分眾多,這里不再贅述。
概括起來,形可看作構(gòu)成與構(gòu)型的總和;當(dāng)四級構(gòu)成單元相互組合或為滿足造字要求、出現(xiàn)類似筆劃長短的變化時,即可涌現(xiàn)字義、形成某字區(qū)別于它字的的唯一性。因此,構(gòu)成為漢字造象的基礎(chǔ)、形更直接地由構(gòu)型來體現(xiàn),我們稱這為漢字構(gòu)型的象形規(guī)律。
5)漢字的四種分類方法在前面,我們已介紹了這三種漢字分類方法,一是依構(gòu)成關(guān)系,將漢字分為合體字、獨體字和獨體字的特例,后者如-和
、既是部件也是單字;二是對構(gòu)成關(guān)系作數(shù)理描述,用數(shù)學(xué)語言將漢字分為1×1、1×2、1×3、1×4、2×2、2×3、2×4、3×3、3×4、4×4這十類;三是依構(gòu)型特征,將漢字分為上下型、左右型、外內(nèi)型和雜合型這四類。接下來,我們將討論第四種即首位分類法。
所謂首位,是指對應(yīng)上下型、左右型、外內(nèi)型漢字的上、左、外或內(nèi)(先寫為標(biāo)準(zhǔn))部結(jié)構(gòu)和對應(yīng)雜合型漢字的起筆或先寫結(jié)構(gòu)。無論漢字多么復(fù)雜,作為首位的結(jié)構(gòu)只有四種一個相對獨立的單字(合體字或獨體字);一個組合部件;一個基本部件;一個混合結(jié)構(gòu)。例如,音和熬的首位為立和敖,肥、間、打、語首位分別為月、門、扌和讠;邊、兇為半包圍的外內(nèi)型漢字,因力和
先寫,故力和
為首位。再如朱、中和女為雜合型漢字,它們的起筆或先寫結(jié)構(gòu)——丿、口、
分別就是首位。在有些時候,我們會遇到類似
(敖)、畐(副)、
(疆)、
(粲)、
(受)、
(帶)的首位結(jié)構(gòu)——作為相對獨立的整體,它們不是單字,也不符合另外兩種首位的定義,因而被稱為混合結(jié)構(gòu)。對大多數(shù)漢字,依據(jù)構(gòu)型的首位認定一般是明確的;如果遇到困難,可以參考筆順規(guī)則或查閱《新華字典》。如戊的首位為
咸的首位為相對于
的戊;依照慣例,
可拆為
爿和臣,故
為的首位。
這樣,首位分類法就是依首位特征對漢字作出分類的方法。它將漢字分為四大類,與前三種方法保持著互補的聯(lián)系。繼首位之后,若以同樣標(biāo)準(zhǔn)界定次一級的首位結(jié)構(gòu)或加上音的信息,這一方法即可用于漢字的檢索分類,這被稱為漢字的首位檢字法。后者將從很大程度上彌補部首檢字法的理論缺陷。例如,部首檢字法主要考慮了偏傍、部首的組字頻率,卻忽視了部首與部首的本體差異,如有些部首為本文定義的基本部件和組合部件,有些本身為單字(只是組字頻率相對較高),另一些則是本文所指的混合結(jié)構(gòu)(
忄、攴、
、采、
、疒都可拆出一個以上相對獨立的單字,作為整體卻無字義);由于組字頻率較低,還有許多與上述類似的結(jié)構(gòu)不在部首之列,因而也不具備廣泛的概括性。正因為這一原因,人們總在不斷地尋求新的漢字檢字法的出現(xiàn),這也是新的首位檢字法的意義之所在。
6)漢字拆分的基本方法在遵循筆順規(guī)則的基礎(chǔ)上,最基本的漢字拆分方法有三種。一是“字母”拆分法或稱基本部件拆分法,即拆出漢字中所有的單筆劃;二是部件拆分法,亦即分別拆出漢字中的基本部件和組合部件;三是構(gòu)成單元拆分法,除拆出兩類部件外,還直接拆出相對獨體的單字即3-4級構(gòu)成單元;由于合體字可拆為獨體字和其它的部件,因此,此法可派生出1-3級拆分法和1-4級拆分法這兩種。應(yīng)指出的是,因漢字構(gòu)造的復(fù)雜性,實際應(yīng)用可選擇上述中的一種,也可以是三種方法的綜合應(yīng)用。如用于漢字編碼,“字母”拆分法會增加碼長;既便綜合應(yīng)用這三種方法,也需要對某些細節(jié)作以規(guī)范。具體參見本文后面的單字編碼規(guī)則。
5、音—形互補碼輸入法的操作系統(tǒng)
1)“音—形互補碼”的鍵盤設(shè)計據(jù)新編九年義務(wù)教育的語文教學(xué)大綱,參與組字的單筆劃即漢字“字母”共有28個。其中,
(豎彎)可歸并為
(豎折)、
(橫折彎)被歸并為
(橫折彎鉤),從而剩下實際應(yīng)用的26個“字母”。
與通用標(biāo)準(zhǔn)鍵盤的英文字母相對照,漢字“字母”可依序排列在字母鍵的26個鍵位上,由此形成以字母鍵為中介,可以相互轉(zhuǎn)換信號的雙字符中西文鍵盤系統(tǒng)(參見圖④)。除此之外,這種鍵盤還有第三種信號轉(zhuǎn)換功能,如在漢語拼音音節(jié)索引中,用于漢字檢索分類的拼音字母有23個;后者對應(yīng)除I、U、V外的23個英文字母,因此,擊字母鍵既可輸入漢字“字母”也可輸入西文及漢語拼音字母——若設(shè)定中文輸入狀態(tài),西文字母即可成為漢字“字母”及漢語拼音字母的一種代碼,并且,是非指定性的代碼。
2)構(gòu)成單元的代碼因前述的原因,以下代碼是非指定性的,因而不需專門記憶,只要求熟悉鍵盤、具備粗淺的漢語拼音背景知識。
①1級構(gòu)成單元即基本部件的代碼作為漢字的“字母”,26個基本部件被有序地安排在字母鍵的各個鍵位上,它們的代碼即鍵位上對應(yīng)的西文字母(參見鍵盤設(shè)計)。在對鍵盤作表面處理時,其直觀的對應(yīng)關(guān)系極便于盲打。
②2級構(gòu)成單元即組合部件的代碼因組合部件由基本部件和同處一級的其它組合部件組成,因此,不另設(shè)代碼、直接借用各自結(jié)構(gòu)中第一個基本部件的代碼。如讠借用
的代碼U,艸借用一的代碼I,等等。組合部件有兩種(參見圖⑤),一是部分非成字部首,如取虍的
為組合部件,其它參見圖⑤;因
忄、攴、
、采、
丶疒為前述的首位(混合結(jié)構(gòu))
、覀、罒被視為單字羊、西、四的變形,因而都不在組合部件之列。二是連續(xù)書寫的直觀無字義的多筆劃結(jié)構(gòu),如
ナ、
等都是一些相對獨立的組合部件。顯然,組合部件本身不需要專門記憶,它們按筆順規(guī)則書寫、具有直觀無字義的特征。
③3-4級構(gòu)成單元即單字的代碼與前述形碼相互補,單字取音碼即以各字漢語拼音的第一個字母為代碼。只是應(yīng)注意這兩點,處在單字內(nèi),曰取與日相同的發(fā)音R,多音字取常用或音序排列在前的發(fā)音;因特定歷史原因,作為構(gòu)成單元的某些單字出現(xiàn)了變形,對此仍按單字處理。
3)單字的拆分與取碼本系統(tǒng)沿用漢字編碼的四碼制,即字詞編碼均含四級碼元。單字的第一碼為各字漢語拼音的第一個字母即單字自身的代碼,第二、三、四碼則視以下的拆分、取碼規(guī)則而定。
①單字拆分與取碼的直觀原則合體字的構(gòu)成關(guān)系有兩種,一是相對獨立的單字與其它結(jié)構(gòu)呈交叉、嵌合關(guān)系,如申(日、丨)、電(日、
)、大(一、人)、木(十、八);二是呈平行的相接和相離關(guān)系,如朱(
未)、土(十、一)、采(
木)、間(門、日)等。為了避免因拆分而帶來的岐義,如按筆順規(guī)則,耒至少有四種拆分結(jié)果——一、未;二、木;三、?。回S、八。我們規(guī)定,凡是前一類型的合體字,不直接拆出相對獨立的單字,如申可拆為口、一、丨,不得拆為日丶 丨;木拆為一、丨、丿、,不得拆為十、八。這樣,類似天的單字只有一種拆分結(jié)果,即一、大而非二、人。同樣,作為相對獨立的結(jié)構(gòu),曹中的
為組合部件,不得拆為艸、日;豐只能拆為一、
②首位的拆分與取碼在四種首位中,一個單字和一個基本部件的首位直接取一碼。依據(jù)筆順規(guī)則(書寫規(guī)則),首位為一組合部件的作一級拆分即取兩碼,如讠取
和
宀取
和冖、冖取
和
冫取丶和
氵取
和冫、取
和
艸取一和丨,
取
和
,辶取
和
阝取
和丨,
取
和
。同樣,若首位為混合結(jié)構(gòu),也順序取兩碼,如畐取一和口,
取
和
取
和夕,
取
和土
取
和卜,
取
和止,疒取廣和冫,其它相類似。以上表明,兩種首位的拆分應(yīng)用了“字母”拆分法和部件拆分法,首位取碼則應(yīng)用了漢字的首位分類法。由此,見字識首位、同時取1-2碼,加上前述的第一碼,即可簡化漢字拆分與取碼的步驟并降低了重碼。
③順序拆分與取碼繼首位之后,我們還需順取1-2碼。順序取碼主要采用構(gòu)成單元拆分法,具體操作注意三點。一是首位后的所有獨體字和受直觀原則限制的合體字不再拆分,直接取代碼;二是遇到類似似元、示、羽、品的合體字,均一一拆分,分別取代碼;三是遇到類似石、土和主的合體字,僅在編碼需要時作一級拆分,否則不再拆分。后者如編、首位為蟲,扁作一級拆分、取戶和
戶不得拆為
和尸;再如周中土與口相拆離,土不得再拆為十和一。如此經(jīng)歷順序拆分,首位直接取碼(首位為一個單字和個基本部件的)的單字,可順取首位后2碼;若首位拆分已取了2碼,只須另取一末位碼。末位是指順序拆分獲得的最后一個相對獨立結(jié)構(gòu),如首位后只有一個不得拆分的獨體字或合體字,二者即為末位;同樣,首位后只有一個基本部件或組合部件,它們也直接作為末位。
4)單字的編碼規(guī)則在漢字的拆分、取碼中,凡不足四碼者另補一末筆代碼,這被稱為末筆處理。如慶拆為廣、大,末筆處理取;黑拆為里、灬,末筆處理取
;卜拆為丨、
,末筆處理取
即重復(fù)取丶的代碼。此外,本系統(tǒng)堅持編碼輸入為漢字本體規(guī)律的直接應(yīng)用的原則,對預(yù)期出現(xiàn)的個別重碼,僅以序號選擇來處理;相比之下,以往的許多編碼存在這種缺陷,那就是為編碼而編碼,因編碼需要而付加各種人為規(guī)定。從科學(xué)意義上講,漢字輸入的未來發(fā)展方向有兩點,一是促使?jié)h字編碼即鍵盤輸入由經(jīng)驗走向科學(xué)、由代碼的指定性轉(zhuǎn)為非指定性亦即不要專門的代碼;二是探索更為有效的非鍵盤輸入技術(shù)。顯然,因本系統(tǒng)堅實的科學(xué)理論基礎(chǔ)和前述代碼的非指定性特點,前一目標(biāo)已在本系統(tǒng)具體地得到實現(xiàn)。
①首位為一單字(獨體字或合體字)或一基本部件的單字首位一碼,順取二碼。例如,肥→月、巴 fybj堆→土、隹dtzi熬→敖、灬 aapu柱→木、
、王 zmuw叭→口、八 bkbl吧→口、巴bkbj規(guī)→夫、見 gfjj順→川、
貝 scib多→夕、夕 dxxu碼→石、馬msmi您→你、心 nnxu眾→人、人、人zrrr取→耳、又 gcyl好→女、子hnzi間→門、日 jmri慶→廣、大qgdl近→斤、辶 jjul送→關(guān)、辶squl音→立 日 ylri天→一、大 tidl朱→
未 zpwl血→
皿 xpmi主→
一、土 zuit木→一、丨、丿 miop女→く、丿、一nspi正→一、止、zizi可→一、口、亅kikn王→一、十、一 wisi八→丿、bpll二→一、一 eiii再→一、冉ziri小→亅、
xnpu工→一、丨、一gioi下→一、卜 xibu②首位為一混合結(jié)構(gòu)或一組合部件的單字首位二碼,另取一末位碼。例如敖→
萬、攵、 aiwp 粲→
夕、米 coxm餐→
夕、良 coxl疆→弓、土、一 igti副→一、口 、 刂 fiko 受→
冖、又 sppy帶→
、冖、巾 dipj 踏→口、止、日 tkzr悉→
米、心 xpmx告→
土、 口 gptk病→廣、冫、內(nèi)bgun悟→
卜、口 wpbk疏→
止、
swzp恙→丷、王、心 yuwx趾→口、止、止zkzz補→
卜 huwb苷→一、丨、甘 giog語→
口 yuqk降→
丨、
xvoi文→
一、
wuiy寶→
冖、
bupu笑→
大 xppd給→
口gatk洋→
冫、羊 yuuy 針→
十zpts壽→一、一、寸siic曹→一、丨、日 cior殳→
又 spgy
③特例一和
的單字代碼均為Y,部件代碼分別為I和G。各自編碼為yiii和yggg。注意,處在單字內(nèi),一和
均按照部件取代碼。此外,人中借用
代碼H,人和入的編碼為rpll,rphh。
5)詞匯的編碼規(guī)則字詞混合輸入.詞匯的編碼如下述。
①雙字詞第一碼統(tǒng)一為V,第二、三碼為前后兩個單字的代碼,第四碼為后一字的末位碼。例如中國 vzgu 朱碼 vzmm科學(xué) vkxz 您好 vnhz專利 vzlo 湖北 vhbb
②三字詞第一碼統(tǒng)一為I,第二、三、四碼為前后三個單字的代碼。例如
十堰市 isys圖書館 itsg
基金會 ijjh生物學(xué) iswx
③四字詞第一碼統(tǒng)一為U,第二、三、四碼分別為1、2、末個單字的代碼。例如
五湖四海 uwhh氣象萬千uqxq
中國人民 uzgm地久天長udjc
④多字詞順取1、2、3、末單字代碼為第一、二、三、四碼。例如
中華人民共和國 zhrg
中國共產(chǎn)黨 zggd
中國人民解放軍 zgrj
6)簡碼的應(yīng)用
①一級簡碼共安排26個高頻字,給出與26個“字母”或字母對應(yīng)的代碼,輸入簡碼字的代碼,另擊一次空格鍵。
②二級簡碼共安排500余個次高頻字,分別輸入全碼的前二碼,另擊一次空格鍵。
③三級簡碼共安排2500余個國標(biāo)一級漢字,分別輸入全碼的前三碼,另擊一次空格鍵。除1-3級簡碼外,國標(biāo)二級漢字、罕見字和剩下的700余個一級漢字需全碼輸入。
7)其它技術(shù)的應(yīng)用
①重碼在出現(xiàn)個別重碼時,屏幕將依頻度顯示重碼字的排序號,此時擊數(shù)字鍵即可選擇用戶所需的漢字。
②容錯碼若輸錯簡碼以外的漢字的最后一碼,三碼相同的漢字將按排序號同時顯示在屏幕上,此時也作數(shù)字鍵選擇。
③“?”學(xué)習(xí)鍵若遇不知讀音或不會拆分的漢字,未知的1-2碼可用“?”代替。在此基礎(chǔ)上,擊數(shù)字鍵可選擇屏幕上依序號排列的某一漢字。
6、音—形互補碼輸入法的技術(shù)特點
與現(xiàn)有的同類技術(shù)相比,本系統(tǒng)具有以下優(yōu)點
1)簡明性如編碼規(guī)律強、規(guī)則少、無記憶負擔(dān)、不需專門培訓(xùn)、經(jīng)驗成份被降至最低限度,突破了沿用漢字部首檢字法的漢字認知體系。
2)快速性如代碼具有非指定性、漢字“字母”與西文字母相互對照、鍵盤設(shè)計簡潔、極易實現(xiàn)盲打、每分鐘可輸入150左右的單字、平均擊鍵次數(shù)為2.08,同時適宜文章的起草和抄錄。
3)兼容性廣義的兼容性包括編碼與標(biāo)準(zhǔn)化教育接軌、音碼與形碼互補而不受方言限制、繼承漢字傳統(tǒng)并增強其科學(xué)邏輯性、與通用電腦及鍵盤設(shè)計相兼容。
4)有效性如四碼制編碼可覆蓋所有國標(biāo)一、二級漢字和部分罕見字、三類詞匯與單字編碼絕對離散;可建立自定義詞組、重碼率僅為1.5%,在作容錯處理時、可完全消除重碼,適宜處理所有漢字書面文章。
5)經(jīng)濟性由前述派生而來,包括勿須培訓(xùn),不需另行添置專用設(shè)備等,因而具有較好的性能價格比,適宜在社會各階層中普及。
7.附
圖1-5
1)圖1為漢字構(gòu)成的金字塔模式.1.2.3.4.代表漢字的四級構(gòu)成單元,其中,
1.2.級又分別稱為基本部件和組合部件。
2)圖2為28個基本部件及其稱呼(參見九年義務(wù)教學(xué)大綱)。
3)圖3為漢字的四種構(gòu)型及字例。
4)圖4為26個基本部件的代碼及健位安排。
5)圖5為組合部件舉例。因此類皆為連續(xù)書寫且相對獨立的無字義結(jié)構(gòu),因此,見字可識,不需專門記憶。
權(quán)利要求
1、音—形互補碼輸入法是漢字編碼輸入的新方法和新技術(shù),其主要技術(shù)特征可概括為以下幾方面①設(shè)計漢字的組字單位的代碼。漢字的組字單位有兩種,一是線性的組字單位即26個單筆劃,它們又稱為漢字的“字母”;二是非線性組字單位即四級構(gòu)成單元——1級為26個單筆劃、2級為單筆劃組成的相對獨立的多筆劃結(jié)構(gòu)、3-4級分別為獨體字和合體字,其中,1-2級又分別被稱為漢字的基本部件和組合部件。與一般無字義或僅含隱義的兩類部件相比,3-4級都具有明確的字義即作為單字(包括成字部首)參與構(gòu)成更復(fù)雜的漢字;其中,獨體字是指以自身為參照、整體結(jié)構(gòu)最小的單字即完全由兩類部件組成,合體字則可從內(nèi)部拆出一個及一個以上相對獨立的單字來。將漢字“字母”置于通用標(biāo)準(zhǔn)鍵盤的字母鍵上,1級構(gòu)成單元的代碼分別為鍵位上與漢字“字母”對應(yīng)的26個西文字母;2級構(gòu)成單元不另設(shè)代碼,直接借用組合部件中第一個基本部件的代碼如讠借用
的代碼U;3-4級構(gòu)成單元皆取單字漢語拼音的第一個字母為代碼,它們分別對應(yīng)除I、U、V外的23個西文字母。②設(shè)計鍵盤。與通用標(biāo)準(zhǔn)鍵盤兼容,26個漢字“字母”被有序地排列在26個字母鍵的鍵位上;在設(shè)定中文輸入狀態(tài)下,西文字母可直接轉(zhuǎn)換為前述1-2級構(gòu)成單元的形碼代碼和3-4級構(gòu)成單元的音碼代碼,由此顯示代碼的非指定性和音與形碼的互補性特點。③單字的編碼與輸入。對應(yīng)漢字的四種構(gòu)型即上下型、左右型、外內(nèi)型和雜合型,書寫在先的上、左、外(或內(nèi))、雜合型的先寫結(jié)構(gòu)為漢字的首位。首位只有四種,一個基本部件;一個組合部件;一個單字;一個混合結(jié)構(gòu)。首位為一個基本部件和一個單字的,首位直接取一碼,順拆首位后的2個構(gòu)成單元作第三、四碼;若是另外兩種首位,首位作一級拆分、取二碼,再取順序拆分的最后一碼即末位碼。單字編碼為四碼制,第一碼統(tǒng)一為各字的代碼本身。順序拆分須遵循筆順規(guī)則和直觀原則,凡不足四碼者另補一末筆代碼。④字詞混合編碼。雙字詞的第一碼統(tǒng)一為V,第二、三碼為前后兩個單字的代碼,第四碼為后一字的末位碼。三字詞的第一碼統(tǒng)一為I,第二、三、四碼分別為三字的代碼。四字詞的第一、二、三、四碼為U、1-2、末字代碼。多字詞依次取前三個和最后一個單字的代碼為第一、二、三、四碼。
2、鍵盤設(shè)計在26個字母鍵上,同時安排兩組呈對照關(guān)系的中西文“字母”或字母。對照關(guān)系為
(Q)、フ(W)、
(E)、
(R)、
(T)、
(Y)、丶(U)、 一(I)、丨(O)、丿(P)、
(A)、
(S)、
(D)、
(F)、
(G)、
(H)、
(J)、(K)、(L)、
(Z)、
(X)、
(C)、
(V)、乛(B)、亅(N)、
(M)。說明,新編九年義務(wù)教育教學(xué)大綱共列舉28個單筆劃,在本系統(tǒng),豎彎(
)被歸并為豎折(
)、橫折彎(
)被歸并為橫折彎鉤(
)。
3、漢字的四種分類方法;依構(gòu)成關(guān)系,本系統(tǒng)將漢字分為合體字、獨體字(內(nèi)部不含任何相對獨立的單字)和獨體字的特例(一和乙)。依1-4級構(gòu)成單元的非列、組合關(guān)系,本系統(tǒng)將漢字分為十大類(不包括一和乙這種特例),即1×1、1×2、1×3、1×4、2×2、2×3、2×4、3×3、3×4、4×4。依構(gòu)型特征,本系統(tǒng)將漢字分為四種,它們的首位分別為一個基本部件、一個組合部件、一個單字和一個混合結(jié)構(gòu)。后者如副中的畐、疆中的
等。對于單字的編碼,這些分類方法將不同程度地予以支持。
4、漢字的三種拆分方法一是“字母”拆分法,即拆分出單字內(nèi)所有的基本部件。二是部件拆分法,即拆出單字內(nèi)相對獨立的基本部件和組合部件。三是構(gòu)成單元拆分法,除拆出兩類部件外,還直接拆出相對獨立的獨體字和合體字;因合體字本身可拆為獨體字和其它的部件,因此,這一方法還可派生出1-3級拆分法和1-4級拆分法。在單字的具體編碼過程中,這些拆分方法將綜合地得到應(yīng)用。
全文摘要
音-形互補碼輸入法,是在編碼方案中直接應(yīng)用漢字本體規(guī)律、在代碼及鍵盤設(shè)計中整合音與形碼特點的漢字編碼輸入技術(shù)。它一方面解決了其它方案偏重應(yīng)用經(jīng)驗知識的缺點;另一方面實現(xiàn)代碼的指定性向非指定性轉(zhuǎn)變并體現(xiàn)于鍵盤設(shè)計當(dāng)中。漢字有兩套組字單位,一是線性的漢字“字母”;二是非線性的四級構(gòu)成單元。注重二者的內(nèi)在聯(lián)系,本系統(tǒng)設(shè)計了兩種代碼并通過鍵盤設(shè)計建立音與形碼的雙向互補性聯(lián)系,以期獲得代碼的非指定性特點。本系統(tǒng)旨在提供一種大眾化的漢字編碼輸入技術(shù),以便于中文電腦在社會各階層的廣泛普及。
文檔編號G06F3/023GK1179566SQ9611965
公開日1998年4月22日 申請日期1996年10月11日 優(yōu)先權(quán)日1996年10月11日
發(fā)明者朱克剛 申請人:朱克剛