專(zhuān)利名稱(chēng)::電子計(jì)算機(jī)漢字詞語(yǔ)碼編碼技術(shù)的制作方法隨著電子計(jì)算機(jī)技術(shù)的發(fā)展,計(jì)算機(jī)已在各種信息領(lǐng)域得到廣泛應(yīng)用。語(yǔ)言文字的處理是其重要內(nèi)容。在我國(guó)現(xiàn)實(shí)生活中,大量的常規(guī)信息—報(bào)紙、刊物、書(shū)籍、科學(xué)技術(shù)文獻(xiàn)、政府日常公務(wù)、商業(yè)貿(mào)易往來(lái)以及工農(nóng)業(yè)生產(chǎn)和民眾生活等等,都涉及到漢字的電子計(jì)算機(jī)處理。中國(guó)人口達(dá)12億,加上國(guó)外會(huì)使用漢字的華人、華僑及周邊國(guó)家和地區(qū)仍在繼續(xù)使用漢字的人數(shù)幾乎占全世界總?cè)肟诘乃姆种?,因此,漢字的計(jì)算機(jī)編碼技術(shù),一直是漢字信息處理的關(guān)鍵,是中國(guó)漢語(yǔ)語(yǔ)言文字工作者及計(jì)算機(jī)編碼人員研究和解決的重要課題。八十年代初,王永明率先推出了“五筆字型輸入法”,隨后又相繼推出各種拼音碼(全拼、簡(jiǎn)拼和雙拼等)、自然碼、大眾碼等。迄今為止,已申請(qǐng)專(zhuān)利的漢字編碼輸入法已達(dá)數(shù)百種。其中,五筆字型輸入法、拼音碼和自然碼等十多種較優(yōu)秀的編碼已得到廣泛應(yīng)用和推廣,為中國(guó)的電子計(jì)算機(jī)漢字輸入和信息處理作出了重要貢獻(xiàn)。然而,目前所有已推廣應(yīng)用的編碼技術(shù)方案,多數(shù)仍停留在漢字特有的“單字”處理階段。對(duì)此,國(guó)家語(yǔ)言文字工作委員會(huì)主任許嘉璐曾指出我們要正視當(dāng)前語(yǔ)言學(xué)和中文信息處理之間距離過(guò)大的現(xiàn)實(shí),并且應(yīng)當(dāng)努力去改變它。他說(shuō)“目前,中文信息處理雖然已實(shí)現(xiàn)了‘字處理’,但這只是信息處理的初級(jí)階段。要實(shí)現(xiàn)計(jì)算機(jī)中文信息的高速處理,做到計(jì)算機(jī)在全國(guó)乃至跟世界連網(wǎng),就必須超越‘字處理’階段,對(duì)(漢語(yǔ))語(yǔ)言中的詞、短語(yǔ)和句子以及語(yǔ)言的應(yīng)用規(guī)律進(jìn)行深入的研究,同時(shí),在此基礎(chǔ)上制定電子計(jì)算機(jī)所用的語(yǔ)言和文字規(guī)范與標(biāo)準(zhǔn),并進(jìn)行嚴(yán)格的管理”(見(jiàn)《科技日?qǐng)?bào)》1997年12月1日第一版)。盡管許多編碼聲稱(chēng)可以任意編碼雙字詞、三字詞、四字詞和多字詞,并在近期推出了許多組詞更多、含多字詞詞語(yǔ)更廣的新的編碼,但在實(shí)際應(yīng)用中,有的不僅需要進(jìn)行繁雜的拆分組合(如形碼),而且重碼太多,所收漢語(yǔ)詞語(yǔ)數(shù)量也并不廣泛(如目前的各種拼音碼、自然碼等)。以最新版的“全拼”和“雙拼”來(lái)看,雖然所收的詞語(yǔ)增加較多,雙字詞組至七字八字詞語(yǔ)或短語(yǔ)都有了,但其編碼極不規(guī)范,例如,當(dāng)鍵入“zhong”這個(gè)音節(jié)加聲母“g”后,顯示屏上即出現(xiàn)“忠告”、“重工業(yè)”、“中共中央”、“中國(guó)共產(chǎn)黨”、“中國(guó)工商銀行”、“中共中央總書(shū)記”以及“中共中央政治局常委”等64個(gè)并不直接相關(guān)的詞組和詞語(yǔ),使用者必須在7次“翻頁(yè)”中的數(shù)百個(gè)詞語(yǔ)里去尋找所需要的那個(gè)詞組或短語(yǔ),即使按照拼音拼下去,由于漢語(yǔ)的同音字詞太多,仍然有著大量重碼。實(shí)際上,目前已推廣應(yīng)用的以“五筆字型”為代表的“形碼”和各類(lèi)拼音碼,除了編碼是著眼于漢字單字的“字處理”外,編碼本身依然存在著不可克服的缺點(diǎn)。首先,形碼需將一個(gè)完整的字進(jìn)行筆畫(huà)拆分,且不說(shuō)這種拆分是編制者人為規(guī)定的“形”,而且每個(gè)字的拆分過(guò)程就是一種新的組合。人們可以習(xí)慣地記住每一句話(huà)的發(fā)音和每個(gè)字的偏旁部首,卻記不住每一個(gè)字的筆畫(huà)需要按規(guī)定拆分3-4次;其次,拆分之后組合成一個(gè)完整的字或詞的編碼,還需去尋找規(guī)定的“反應(yīng)部件鍵位”,只有拆分部件正確無(wú)誤之后,才能尋找部件鍵位,再按規(guī)定鍵位擊鍵,所需的那個(gè)字才能被檢出。還有一個(gè)末筆字型交叉識(shí)別問(wèn)題,即使是熟練的專(zhuān)業(yè)錄入人員也常出錯(cuò)。相對(duì)于拼音碼,五筆字型的單字檢出重碼較少。但是,錄入者需經(jīng)較長(zhǎng)時(shí)間的專(zhuān)業(yè)訓(xùn)練,需記住許多規(guī)則、鍵盤(pán)和鍵位,否則,非專(zhuān)業(yè)人員很難記住所規(guī)定的拆分和鍵位,這就是五筆字型在非專(zhuān)業(yè)錄入人員中難以推廣和普及的原因。五筆字型編碼也編制了詞匯碼,其原理是以單字的代碼為基礎(chǔ),完全依據(jù)組成詞匯的每一個(gè)單字的筆畫(huà)拆分以后再組成與單字代碼碼型一致的詞匯編碼。其規(guī)則是雙字詞分別取兩字的前兩個(gè)字根代碼共4碼組成三字詞為前兩字各取第一個(gè)字根碼,最后一字取前兩碼,也是4碼組成四字詞則每字各取第一碼,仍然是4碼組成多字詞按“1-2-3-末”字各取第一碼的規(guī)則,依然是4碼組成。這種對(duì)詞組、詞匯和詞語(yǔ)的取碼方法,又是一種新的拆分組合,且往往是在臨用時(shí)才能進(jìn)行拆分(因?yàn)槭褂谜哂洸蛔∧敲炊嗟脑~匯應(yīng)該是何種組合),既費(fèi)神,又費(fèi)時(shí)。而且,每個(gè)字只取第一碼的弊病是重碼必然太多。因?yàn)榈谝蛔指P畫(huà)相同的漢字必然大大多于一個(gè)字拆3-4個(gè)字根的字。其結(jié)果必然是擴(kuò)展的詞匯和詞語(yǔ)越多,重碼也將越多,尤其是多字詞組成的詞語(yǔ),例如“國(guó)營(yíng)企業(yè)”、“國(guó)營(yíng)企事業(yè)”,“第十一世紀(jì)”、“第十二世紀(jì)”,“第十三世紀(jì)”、“第十五世紀(jì)”、“第十七世紀(jì)”等詞語(yǔ)都只能是重碼。而且,由于單字是4碼,雙字詞是4碼,三字詞是4碼,4字詞和多字詞也是4碼,結(jié)果必然出現(xiàn)單字、雙字詞組、三字詞組、四字詞乃至多字詞語(yǔ)同為一個(gè)編碼的多重混亂狀態(tài),這些都是“形碼”難以克服的弊病。從根本上說(shuō),形碼是不能真正解決漢語(yǔ)中存在和使用的大量詞組、詞語(yǔ)和短句的編碼的。拼音碼的優(yōu)點(diǎn)是不必拆分組合,拼讀符合人們的聽(tīng)想思維習(xí)慣,其編碼反應(yīng)直接,只需懂得拼音規(guī)則,上機(jī)即會(huì),不用培訓(xùn),不會(huì)忘記,正如英語(yǔ)國(guó)家的人用英語(yǔ)鍵盤(pán)錄入一樣。然而,由于漢語(yǔ)的發(fā)音僅限于418個(gè)音節(jié),而漢字的單字常用字為4000個(gè)左右。國(guó)家標(biāo)準(zhǔn)總局公布的《信息交換用漢字編碼字符集—基本集》(GB2312-80)1、2批,共6763個(gè)單字,其中,有1-5個(gè)單字的音節(jié)73個(gè),218個(gè)單字。其余6545個(gè)單字分布于345個(gè)音節(jié)之中,平均每個(gè)音節(jié)有19個(gè)單字,最多的“ji”音節(jié)有110個(gè)單字,其次“yi”音節(jié)有105個(gè),“yu”音節(jié)有96個(gè)等等,這就是漢字不同于其他拼音文字的“同音字”。由于同音字太多,拼音碼在按下任一拼音組合的鍵位后,屏幕的提示行即出現(xiàn)大量的重碼,不僅單字如此,詞匯中的同音詞組也如此。如“全拼”鍵入“shiji”和“雙拼”鍵入“uiji”之后,這一詞組發(fā)音相同的有“世紀(jì)”、“實(shí)際”、“時(shí)機(jī)”、“事跡”、“試劑”、“實(shí)績(jī)”、“試機(jī)”、“史籍”、“食既”、“詩(shī)集”、“市集”、“師級(jí)”、“史記”、“食積”、“石雞”等16個(gè)同音詞組,類(lèi)似的同音字詞相當(dāng)普遍,在三字詞和四字詞中同樣有。還有一些拼音碼如“簡(jiǎn)拼輸入法”,其編碼碼長(zhǎng)單字為2碼,但是,雙字詞詞組、三字詞組乃至多字詞詞組和短語(yǔ)都一律規(guī)定為4碼。雙字詞為聲-韻-聲-韻,3字詞為聲-聲-聲-韻,4字詞為聲-聲-聲-聲,5字詞以上為前三個(gè)字的聲母加末字的聲母。這種編碼的重碼,不僅同一個(gè)同音詞組相重,如上述的“世紀(jì)”等16個(gè)詞組相同,而且雙字詞與3字詞,與4字、5字詞以及多字詞互相重碼,如“世界紀(jì)錄”為“ujjl”,那么,“省級(jí)紀(jì)錄”、“射擊紀(jì)錄”、“時(shí)間距離”、“神經(jīng)節(jié)律“受精機(jī)理”等都是重碼。多字詞中如“井水不犯河水”這一詞語(yǔ),按其編碼規(guī)則應(yīng)該為“jubu”,然而,這一編碼在雙字詞中為“局部”、“拘捕”、“拒捕”、“舉步”,在3字詞中為“記事簿”、“幾十步”、“既使不”等,所以,當(dāng)鍵入“jubu”這一編碼時(shí),屏幕上將出現(xiàn)上述的多個(gè)雙字詞組、三字詞組和詞語(yǔ)。所以,在許多編碼中,當(dāng)鍵入某一個(gè)4碼的編碼時(shí),屏幕上即出現(xiàn)大量的單字、雙字詞組、三字詞乃至多字詞或短語(yǔ),錄入者不得不反復(fù)地去按“翻頁(yè)鍵”,去尋找那個(gè)自己需要的唯一詞組。還有就是許多編碼都設(shè)置有的“聯(lián)想”詞組。如“全拼”碼鍵入“zhong”和“雙拼”碼鍵入“vs”后,屏幕上除了出現(xiàn)“中、重、種、鐘”等74個(gè)單字(含有繁體字)外,還出現(xiàn)雙字詞121個(gè),三字詞28個(gè),四字詞102個(gè),五字詞12個(gè),六字詞9個(gè),七字詞15個(gè),八字詞7個(gè)和九字詞15個(gè),若所需的詞組是在最末一“頁(yè)”,則需要“翻頁(yè)”達(dá)30次之多。對(duì)于錄入者來(lái)說(shuō),如此眾多而又毫不相干的詞語(yǔ)的出現(xiàn),只能令人頭腦發(fā)昏。因?yàn)殇浫胝呤前词孪葦M寫(xiě)好的文稿或思考成熟的字或詞語(yǔ)一字一詞地錄入的,既不能出錯(cuò),又不能隨意改動(dòng),必須準(zhǔn)確無(wú)誤。錄入者不是中小學(xué)生在學(xué)做文章,哪個(gè)詞匯貼切優(yōu)美就選那個(gè)。既使是直接用計(jì)算機(jī)在屏上寫(xiě)作的人,選詞造句也已經(jīng)事先在頭腦里形成了。文字錄入時(shí),只能是要啥出啥,準(zhǔn)確無(wú)誤,百發(fā)百中。任何一種拼音碼,包括新近推出的《聯(lián)想拼音》、《微軟拼音》和《語(yǔ)音識(shí)別系統(tǒng)》等,既使加上“四聲”進(jìn)行識(shí)別,也仍然不可避免地存在大量同音字和同音詞組。以上列舉的以五筆字形為代表的形碼,其實(shí)也不是漢字結(jié)構(gòu)真正的形,而只是漢字結(jié)構(gòu)的基本筆畫(huà)“橫、豎、撇、捺、折”,與漢字的特性相距甚遠(yuǎn)。各類(lèi)拼音碼雖然抓住了發(fā)聲這一重要特征,但是,發(fā)聲是任何一種語(yǔ)言都具有的特性。那么,漢字的特性是什么呢?中國(guó)的漢字,從我國(guó)新石器時(shí)代晚期人類(lèi)的刻畫(huà)符號(hào)開(kāi)始,歷經(jīng)了3000年左右,發(fā)展到殷商時(shí)期的甲骨文象形文字。其后又經(jīng)鐘鼎文(金文)時(shí)期,在象形文字的基礎(chǔ)上發(fā)展演化而成為系統(tǒng)的漢字。漢字發(fā)展演化的方法,就是所謂“六書(shū)”?!傲鶗?shū)”者,即象形、指事、會(huì)意、形聲、假借和轉(zhuǎn)注。“象形者,畫(huà)成其物,隨體詰詘”?!爸甘抡?,視而可識(shí),查而可見(jiàn)”。“會(huì)意者,比類(lèi)合誼,以見(jiàn)指撝”。“假借者,本無(wú)其字,依聲托事”?!稗D(zhuǎn)注者,建類(lèi)一首,同意相受”(許慎《說(shuō)文解字》序)。及至現(xiàn)代,漢字雖然幾經(jīng)改革和簡(jiǎn)化,使?jié)h字的結(jié)構(gòu)和數(shù)量發(fā)生了很大變化,但基本上仍然保留上述特點(diǎn)。早在東漢時(shí)期,許慎就在其編篡的《說(shuō)文解字》敘中說(shuō)“倉(cāng)頡之初作書(shū),蓋依類(lèi)象形,故謂之文。其后形聲相益,即謂之字”。中國(guó)漢字雖非倉(cāng)頡一人所能發(fā)明,但是,這段話(huà)已表明了漢字的形成是“依類(lèi)象形”的。而“字”則是“形聲相益”的,這已經(jīng)指明了漢字的根本特性。所謂“形聲相益”,就是漢字不僅具有“聲”(即發(fā)音)的特性,而且還具有“形”的特性。根據(jù)漢語(yǔ)的發(fā)音特點(diǎn),漢字被區(qū)分為418個(gè)音節(jié)。所有的漢字,無(wú)論是當(dāng)代《新華字典》收入的8000余單字,還是國(guó)家標(biāo)準(zhǔn)局公布的《信息交換用漢字編碼字符集》所收的6763個(gè)單字,抑或象《康熙字典》所收的42000余字,其發(fā)音都未能超出這418個(gè)音節(jié),這就是漢字同音字-詞多的根本所在。以漢字編碼字符集公布的6763個(gè)字計(jì)算,平均每個(gè)音節(jié)有16個(gè)單字,最多的一個(gè)音節(jié)有110個(gè)單字同音(ji音節(jié))?!犊滴踝值洹穭t每個(gè)音節(jié)平均100個(gè)以上的單字。在如此多的同音單字中,如何去區(qū)別每一個(gè)字的意義呢?這就得依靠每一個(gè)單字的“形”。這個(gè)“形”,一是由最早的(如甲骨文時(shí)期)原初字構(gòu)成。其次是在原初字的基礎(chǔ)上經(jīng)指事、會(huì)意、形聲、假借和轉(zhuǎn)注等六書(shū)所衍生確立的偏旁部首。如一個(gè)“丁”字是最早的象形字,而現(xiàn)代語(yǔ)言中的“ding”這一音節(jié)共有22個(gè)單字(按《新華字典》),其中以“丁”這一原初象形字為發(fā)音基礎(chǔ)再加不同的偏旁部首構(gòu)成的不同意義但仍發(fā)“ding”音的單字就有16個(gè)(丁,叮,訂,盯,頂,釘,町,玎,疔,訂,仃,釘,酊,汀,釘,玎,靪),接著以“定”字加偏旁部首衍生的有5個(gè)(定,錠,腚,碇,啶)。再看一個(gè)“登”(deng)字,以“登”字為基本字形加不同部首衍生出12個(gè)發(fā)“deng”音的單字,占這一音節(jié)的80%。隨便翻開(kāi)一部以漢語(yǔ)拼音排列的字典,幾乎每個(gè)音節(jié)中的單字都是如此構(gòu)成。另一種就是從基本原初字如人字演變?yōu)椴渴住柏椤彪p人和“人”旁共有311個(gè)單字,以“草”演變?yōu)椤捌H”頭而發(fā)音不同的單字491個(gè),以“木、氵”為偏旁的單字有992個(gè)發(fā)音不同的單字等等。所以,漢語(yǔ)的每一個(gè)單字只用一種特性如發(fā)音(各種拼音碼)或“形”(包括象五筆字型等等的變型)都無(wú)法反映一個(gè)單字和同音詞組的特性。可以說(shuō),“形聲相益”是漢字在象形文字基礎(chǔ)上演化和擴(kuò)展的主要方法,現(xiàn)代的電子計(jì)算機(jī)漢字編碼也應(yīng)當(dāng)以此作為最基本的識(shí)別方法和應(yīng)當(dāng)遵循的原則和途徑。在現(xiàn)代漢語(yǔ)中,描述各類(lèi)事物并以文字作為信息傳遞而寫(xiě)成的文章,是由詞組和短語(yǔ)(包括大量的成語(yǔ)和固定短句)構(gòu)成的。實(shí)際上,在國(guó)家標(biāo)準(zhǔn)總局公布的6763個(gè)單字中,大約有1500個(gè)單字是不能單獨(dú)用的,它們只是組詞的單元,如“琵琶”、“枇杷”、“菝葜”、“荸薺”、“螞蟻”、“蟋蟀”等。有些單字雖可單用,但組詞以后就很少單用了,這類(lèi)單字也有1000多個(gè)。這樣,老是把研究的重點(diǎn)放在‘單字’的處理上,實(shí)在是有“畫(huà)蛇添足”之嫌。本發(fā)明者隨機(jī)統(tǒng)計(jì)分析了當(dāng)代政治生活及生產(chǎn)活動(dòng)中有代表性的報(bào)告、文章和一般性文稿,其中雙字詞組占41.74%(35.8-46.9%),三字詞組占20.17%,四字詞組占21.76%,五字以上多字詞及短語(yǔ)占7.08%。單字僅占9.25%,包括最常用的虛詞如“的”、“地”、“和”、“與”、“及”等,另外就是一些本身就具有詞匯性質(zhì)的單字如“金”、“銀”、“銅”、“鐵”、“煤”等。還有一類(lèi)文章就是科技文獻(xiàn)(科技論文、科學(xué)著作和科普作品),在這類(lèi)文章中,除了普通詞匯之外,還有大量的專(zhuān)業(yè)技術(shù)詞匯和科技術(shù)語(yǔ)。本技術(shù)發(fā)明者在三種不同的科技論著(科技論文、著作和科普作品)中,隨機(jī)統(tǒng)計(jì)了12397個(gè)字詞(不包括標(biāo)點(diǎn)、阿拉伯?dāng)?shù)字和拉丁字母),計(jì)有雙字詞4636個(gè),占總字?jǐn)?shù)的37.39%,比普通文章中的雙字詞數(shù)目略低。三字詞2934個(gè),占總字?jǐn)?shù)的23.67%,比普通文章多。四字詞1958個(gè),占總字?jǐn)?shù)的16.04%,大大高于普通文章中的5.25%。五字詞至八字詞或短語(yǔ)749個(gè),占總字?jǐn)?shù)的6.04%,普通文章中僅占1.51%。這個(gè)統(tǒng)計(jì)表明,在科技文章中,多字詞語(yǔ)的使用頻率要比普通文章高,而且,科學(xué)技術(shù)詞語(yǔ)本身就是以多字詞為主體的。統(tǒng)計(jì)了國(guó)家統(tǒng)一編訂出版發(fā)行的《漢語(yǔ)主題詞表》(“自然科學(xué)”增訂本,1991年),其中“B”這個(gè)聲母中16個(gè)音節(jié)共收入主題詞3456個(gè),其中雙字詞505個(gè),三字詞822個(gè),四字詞1017個(gè),五字詞567個(gè),六字詞290個(gè),七字詞139個(gè),八字詞以上116個(gè)。再看科技文章中雙字詞以上的普通詞匯與科技詞匯的比例普通詞匯與科技詞匯之比為4624∶6249=1∶1.35。這個(gè)結(jié)果表明,對(duì)于廣大科學(xué)技術(shù)工作者來(lái)說(shuō),既使普通漢語(yǔ)詞語(yǔ)的編碼問(wèn)題完全解決了,他們?cè)趯?xiě)作科技文章時(shí),仍將有占全文一半以上的專(zhuān)業(yè)技術(shù)詞語(yǔ)需一個(gè)單字一個(gè)單字地錄入。此外,目前市場(chǎng)上大量上市的各類(lèi)電子詞典,包括《金山詞霸2000》這樣的超大型辭書(shū),其漢字輸入和漢英詞典詞條的檢出,都只能一個(gè)個(gè)單字錄入在顯示屏上組合成詞語(yǔ)后才能檢出所需的詞條和進(jìn)行漢英翻譯。當(dāng)今科學(xué)技術(shù)的發(fā)展一日千里,如果漢字詞語(yǔ)的編碼忽視了科學(xué)技術(shù)詞語(yǔ)的編制和研究,這仍然是一種不完全的編碼技術(shù)。從以上背景資料的分析不難看出,迄今為止所推廣應(yīng)用的多種漢字編碼技術(shù),都沒(méi)有真正解決漢語(yǔ)漢字以詞語(yǔ)為基礎(chǔ)的編碼技術(shù),更談不上科學(xué)技術(shù)專(zhuān)業(yè)詞語(yǔ)的編碼了。本技術(shù)發(fā)明的目的,就是針對(duì)目前各種漢字編碼技術(shù)之不足,根據(jù)漢字“形聲相益”的特性和現(xiàn)代漢語(yǔ)詞語(yǔ)的應(yīng)用范圍,以現(xiàn)代漢語(yǔ)為主,參考《現(xiàn)代漢語(yǔ)辭典》(“中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所”,1997年)和《漢英詞典》(修定版),(北京外國(guó)語(yǔ)大學(xué)英語(yǔ)系詞典組編,1995年第一版)所收的詞語(yǔ)為普通漢語(yǔ)詞語(yǔ)和一般科技詞語(yǔ)版本(“漢英詞典”含有一般科技詞語(yǔ)),另外,收入中國(guó)成語(yǔ)中的6000余條成語(yǔ)詞組,“毛澤東詩(shī)詞”47首以及我國(guó)古代詩(shī)詞、曲賦和名人名言中的一些名篇名句。科學(xué)技術(shù)版則以“科學(xué)技術(shù)文獻(xiàn)出版社”出版的《漢語(yǔ)主題詞表—自然科學(xué)版(增訂本)》(1995年)所收的自然科學(xué)主題詞(8萬(wàn)余詞條)和“漢英生物學(xué)詞匯”等。在上述文獻(xiàn)的基礎(chǔ)上,參考日常報(bào)刊雜志和科技文獻(xiàn)中出現(xiàn)的新的政治、工農(nóng)業(yè)生產(chǎn)、經(jīng)濟(jì)貿(mào)易和科學(xué)技術(shù)詞語(yǔ)進(jìn)行適當(dāng)補(bǔ)充和增刪,從而編制出的一種新型的、系統(tǒng)全面的而又易于操作應(yīng)用的漢字詞語(yǔ)電子計(jì)算機(jī)用編碼。本發(fā)明的技術(shù)方案,是以現(xiàn)代漢語(yǔ)固有的詞語(yǔ)作為編碼單位,即以漢字詞組中的雙字詞、三字詞、四字詞、五字詞、六字詞、七字詞、短語(yǔ)以及一些固定的簡(jiǎn)單句作為一個(gè)編碼單位,包括普通詞語(yǔ)、科學(xué)技術(shù)詞語(yǔ)、成語(yǔ)、諺語(yǔ)、名人名言以及古今著名的詩(shī)詞曲賦等。編碼方法,采用“反切相拼定音節(jié),聲母加形識(shí)末字”?!胺辞衅匆簟笔俏覈?guó)宋朝即用于漢字注音的一種簡(jiǎn)潔明快的注音方法,為一字之聲母與另一字之韻母快速相拼?!奥暷讣有巫R(shí)末字”,即在雙字詞以上詞組、短語(yǔ)的第一個(gè)字由“反切相拼”定其所在之音節(jié),末字用其聲母和部首加以識(shí)別。4字詞以上則只需反切相拼定音節(jié),以后各字用聲母組合即可。短語(yǔ)或中間有停頓的固定短句在停頓處用后掇省略。由于許多單字具有詞匯性質(zhì)或有時(shí)可能單獨(dú)用到,所以仍將這部分單字編碼列出。文章中最常用到的虛詞、連詞、形容詞和付詞詞尾用一鍵輸入。要求保護(hù)的方案如下(1),漢字偏旁部首的調(diào)整和“0”部首的設(shè)置本發(fā)明采用“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,因?yàn)槟┳中枰貌渴走M(jìn)行識(shí)別,而我國(guó)傳統(tǒng)習(xí)用的偏旁部首有50余部不規(guī)范,不僅難以識(shí)別,且計(jì)算機(jī)的鍵位也難以合理安排,所以對(duì)漢字的部首,在原來(lái)傳統(tǒng)漢語(yǔ)字典部首設(shè)置的基礎(chǔ)上進(jìn)行了調(diào)整。將《新華字典》設(shè)置的213個(gè)部首,調(diào)整后保留規(guī)范的163部,廢除50個(gè)不規(guī)范的部首(各類(lèi)字典被列為“難檢字”表中的單字),將這些廢除的部首中的難檢字絕大部分劃為“零”部首,用鍵名“o”鍵代表,有些則歸入相應(yīng)的規(guī)范部首。(2),單字的編碼方案應(yīng)用本詞語(yǔ)碼編碼錄入文稿,已經(jīng)很少用到單字了。但是,一些具有詞匯性質(zhì)及中國(guó)人的姓氏所涉及的單字仍然不少,因此仍將其編碼列出。單字用3碼,編碼規(guī)則是,反切相拼定音節(jié),重碼部首來(lái)識(shí)別,例如“中”字,全拼為“zhong”,雙拼為“vs”,當(dāng)鍵入全拼的“zhong”或雙拼的“vs”時(shí),屏幕提示行出現(xiàn)“中,重,種,鐘,腫,眾,終,盅,忠,衷,踵,舯,螽,冢,塚”等同音字。本發(fā)明若需其中某字時(shí),只需在“vs”后面加該字的部首即可檢出。例中“中”字的部首不規(guī)范,因此加“o”為“vso”,“重”字橫底加“/”為“vs/”,“種”字禾旁加“h”為“vsh”,“鐘”字金字旁加“j”為“vsj”,“腫”字月旁加“y”為“vsy”,“眾”字人旁加“r”為“vsr”,“終”字絲旁加“s”為“vss”,“盅”字為皿底加“m”為“vsm”,“忠”字心底加“x”為“vsx”,“衷”字點(diǎn)頭加“′”為“vs′”,“踵”字足旁加“z”為“vsz”,“舯”字舟旁加“v”為“vsv”,“螽”字蟲(chóng)底加“i”為“vsi”,“?!弊瞩沟准印皍”為“vsu”,“塚”字提土旁加“t”為“vst”等。這樣,單字的重碼就可以用各字所具有的部首區(qū)分開(kāi)來(lái)。(3),雙字詞的編碼技術(shù)方案雙字詞用4碼,其規(guī)則是,反切相拼定音節(jié),聲母加形識(shí)末字。反切相拼定第一個(gè)字的音節(jié),第二個(gè)字用聲母加部首識(shí)別。如“實(shí)際”一詞,先鍵入“ui”這一音節(jié),接著鍵入“際”字的聲母“j”,“際”字的部首為“耳”旁,其對(duì)應(yīng)的聲母發(fā)音為“e”,所以加“e”為“uije”。與“實(shí)際”同音的詞組還有“世紀(jì)”的“紀(jì)”為絲旁,加“s”為“uijs”,“時(shí)機(jī)”的“機(jī)”為木旁,加“m”為“uijm”,“事跡”的“跡”為走旁,加“z”為“uijz”,“試劑”的“劑”為刀旁,加“d”為“uijd”,“史記”的“記”為言旁,加“y”為“uijy”,“史籍”的“籍”為竹頭,加“v”為“uijv”,“詩(shī)集”的“集”為“佳”上,加“j”為“uijj”,“石雞”的“雞”為鳥(niǎo)部加“n”為“uijn”,“實(shí)據(jù)”的“據(jù)”為提手加“t”為“uijt”,“詩(shī)句”的“句”為口部加“K”為“uijk”,“時(shí)局”的“局”為尸頭加“u”為“uiju”,“市井”的“井”不規(guī)范加“o”為“uijo”。這樣,本來(lái)發(fā)音相同而必然為重碼的詞組就切分開(kāi)了。由于有的同音詞組末字同形,也會(huì)出現(xiàn)少數(shù)重碼,但從未超過(guò)6個(gè),經(jīng)再次拆分即可做到全無(wú)重碼。(4),三字詞的編碼技術(shù)方案三字詞用5碼,其規(guī)則是,反切相拼定音節(jié),聲-聲加形識(shí)末字。第一字反切相拼定準(zhǔn)音節(jié),第二字只用聲母,第三字用聲母加部首識(shí)別。例如“中國(guó)人”為“vsgro”(“人”字不規(guī)范為“0”),“中國(guó)熱”為“vsgrh”,“中國(guó)字”為“vsgzg”,“中國(guó)話(huà)”為“vsghy”,“中國(guó)畫(huà)”為“vsgh/”;“第一班”為“diybw”,“第一版”為“diybp”,“第一榜”為“diybm”等等。(5),四字詞及四字以上詞組或短語(yǔ)的編碼技術(shù)方案四字詞編碼用5碼,五字詞用6碼,六字詞用7碼,七字詞用8碼,八字詞用9碼等。其規(guī)則是,四字詞及四字以上詞組、詞語(yǔ)及中間無(wú)間斷的短語(yǔ),反切相拼定音節(jié),其余聲母來(lái)識(shí)別。第一字反切相拼定準(zhǔn)音節(jié),其余各字用其聲母即可,例如“中國(guó)人民”為“vsgrm”,“改革開(kāi)放”為“glgkf”。五字詞組如“人民解放軍”為“rfmjfj”,“環(huán)境保護(hù)法”為“hrjbhf”。六字詞組如“百聞不如一見(jiàn)”為“blwbryj”,“中國(guó)人民銀行”為“vsgrmyh”。七字詞如“不到長(zhǎng)城非好漢”為“budiifhh”,“矮子里面拔將軍”為“alzlmbjj”等等。(6),固定短語(yǔ)和句子的編碼技術(shù)方案固定短語(yǔ)和句子多在成語(yǔ)或名人名言中出現(xiàn),中間往往有停斷,例如“不入虎穴,焉得虎子”,“仁者見(jiàn)仁,智者見(jiàn)智”,“橫眉冷對(duì)千夫指,俯首甘為孺子?!?,“有朋自遠(yuǎn)方來(lái),不亦樂(lè)乎”等等。編碼規(guī)則用前半句編碼加后綴..?!安蝗牖⒀?,焉得虎子”為“burhx..”,“橫眉冷對(duì)千夫指,俯首甘為孺子?!睘椤癶gmldqfv..”。如果只需要前半句,則前半句編碼鍵入后不加后綴即出現(xiàn)于提示行。有兩次停斷者,全句為后綴加3點(diǎn)...,前兩個(gè)半句加兩點(diǎn)。如“不破不立,不塞不流,不止不行”為“bupbl...”。只需“不破不立,不塞不流”為“bupbl..”。(7),詩(shī)詞曲賦的編碼技術(shù)方案從“詩(shī)經(jīng)”“楚詞”開(kāi)始的古體詩(shī)詞曲賦,是我國(guó)文化藝術(shù)的瑰寶,由于其言簡(jiǎn)意賅、格律固定,用詞優(yōu)美,發(fā)聲押韻,歷來(lái)為人民所喜愛(ài),常用于學(xué)習(xí)、詠?lái)?、引用和分析。在現(xiàn)有的各種編碼中,如果需要錄入詩(shī)句時(shí),只能一個(gè)單字一個(gè)單字地錄入。本編碼以一個(gè)完整詩(shī)句作為一個(gè)編碼單位編碼上半句,如需全句則加后綴..,例如“紅軍不怕遠(yuǎn)征難,萬(wàn)水千山只等閑”為“hsjbpyvn.”。若只需“紅軍不怕遠(yuǎn)征難”則不用加后綴..。對(duì)于四言、五言詩(shī)和詞賦,則按自然語(yǔ)句錄入,例如毛澤東的詞“沁園春一雪”“北國(guó)風(fēng)光(bzgfg),千里冰封(qmlbf),萬(wàn)里雪飄(whlxp)。望長(zhǎng)城內(nèi)外(wjiinw),唯一茫茫(wzymm),大河上下(dahux),頓失滔滔(dputt).....江山如此多嬌(jwurcdj),引無(wú)數(shù)英雄竟折腰(ybwuyxjvy)”等等。(8),單位及機(jī)構(gòu)名稱(chēng)編碼技術(shù)方案在新聞稿件及公務(wù)往來(lái)的文件中,經(jīng)常涉及世界各國(guó)、國(guó)際組織、政府機(jī)構(gòu)、高等院校、研究院所、新聞單位、金融財(cái)貿(mào)和工商企業(yè)等機(jī)構(gòu)名稱(chēng)。對(duì)于這些機(jī)構(gòu)名稱(chēng),一般情況下又多用簡(jiǎn)稱(chēng),正式場(chǎng)合如發(fā)表公報(bào)、簽訂條約等又須用全稱(chēng)。國(guó)家名稱(chēng)如“美國(guó)”為簡(jiǎn)稱(chēng),“美利堅(jiān)合眾國(guó)”為全稱(chēng)。“法國(guó)”為簡(jiǎn)稱(chēng),“法蘭西共和國(guó)”為全稱(chēng)?!安ê凇睘楹?jiǎn)稱(chēng),“波斯尼亞和黑塞哥維那共和國(guó)”為全稱(chēng)?!爸泄仓醒搿睘楹?jiǎn)稱(chēng),“中國(guó)共產(chǎn)黨中央委員會(huì)”為全稱(chēng)?!叭珖?guó)人大”為簡(jiǎn)稱(chēng),“全國(guó)人民代表大會(huì)”為全稱(chēng)?!叭珖?guó)政協(xié)”為簡(jiǎn)稱(chēng),“中國(guó)人民政治協(xié)商會(huì)議”為全稱(chēng)等等。編碼方案一律用簡(jiǎn)稱(chēng)編碼,需全稱(chēng)時(shí)加后綴.q。如“mzgo”為“美國(guó)”,“mzgo.q”為“美利堅(jiān)合眾國(guó)”?!癰ohh”為“波黑”,“bohh.q”為“波斯尼亞和黑塞哥維那共和國(guó)”?!皏sgvy”為“中共中央”,“vsgvy.q”為“中國(guó)共產(chǎn)黨中央委員會(huì)”?!皅mgrd”為“全國(guó)人大”,“qmgrd.q”為“全國(guó)人民代表大會(huì)”?!爸袊?guó)外交部”為“vsgwjb”,“vsgwjb.q”為“中華人民共和國(guó)外交部”?!發(fā)wnzv”為“糧農(nóng)組織”,“l(fā)wnzv.q”為“聯(lián)合國(guó)糧食和農(nóng)業(yè)組織”?!皏skye”為“中科院”,“vskye.q”為“中國(guó)科學(xué)院”(五字以?xún)?nèi)名稱(chēng)也可用全編碼vsgkxy),“vskydws”為“中科院動(dòng)物所”,“vskydws.q”為“中國(guó)科學(xué)院動(dòng)物研究所”。象“北大”,“清華”等簡(jiǎn)稱(chēng)和全稱(chēng)字?jǐn)?shù)差異不大的單位,需用簡(jiǎn)稱(chēng)為“bzdo”,“qyhh”,需要全稱(chēng)為“bzjdx”,“qyhdx”,不必加后綴.q。對(duì)于省、市、自治區(qū)黨政機(jī)構(gòu),部門(mén)名稱(chēng)的編碼技術(shù)方案,采用一、二級(jí)編碼。一級(jí)為一次編碼完成,如“bzjuvf”為“北京市政府”,“bzjuvf.q”為“北京市人民政府”,“hzljuvf”為“黑龍江省政府”,“hzljuvf.q”為“黑龍江省人民政府”(也可在“....省政府”前面加“人民”作二次錄入),“xbjqvf”為“新疆區(qū)政府”,“xbjqvf.q”為“新疆維吾爾族自治區(qū)人民政府”等等。二級(jí)編碼為省、市、自治區(qū)名和機(jī)構(gòu)名分別單獨(dú)編碼,如“bzj’”為“北京”,“bzju’”為“北京市”,“ujh;”為“上?!保皍jhu’”為“上海市”。“ypno”為“云南”,“ypnuu”為“云南省”。若需“北京市人民政府”則再鍵入“rfmvf”—(“人民政府”),如需“北京市經(jīng)濟(jì)貿(mào)易委員會(huì)”,先錄入“bzju’(“北京市”),再錄入“jnmwh.q”(經(jīng)貿(mào)委—經(jīng)濟(jì)貿(mào)易委員會(huì)”。自治區(qū)用簡(jiǎn)稱(chēng)編碼,需全稱(chēng)則加后綴。如“gtxqo”為“廣西區(qū)”,“gtxqo.q”為廣西壯族自治區(qū)。“xbjqo”為“新疆區(qū)”,“xbjqo.q”為“新疆維吾爾族自治區(qū)”等。上述國(guó)家、國(guó)際組織、政府、高校、研究院所以及所有單位、部門(mén)和機(jī)構(gòu)名稱(chēng)的簡(jiǎn)稱(chēng),必須按公知公用的簡(jiǎn)稱(chēng),否則不能正確檢出。(9),中文漢字詞語(yǔ)和機(jī)構(gòu)名稱(chēng)切換英語(yǔ)、法語(yǔ)等及科技拉丁語(yǔ)的技術(shù)方案中國(guó)改革開(kāi)放以來(lái),逐步擴(kuò)大了與國(guó)外的交往,特別是科技文化、經(jīng)濟(jì)貿(mào)易和旅游事業(yè)的交流和發(fā)展,新聞媒體和各行各業(yè)都經(jīng)常涉及外語(yǔ)的應(yīng)用,各級(jí)各類(lèi)學(xué)校進(jìn)一步加強(qiáng)了外語(yǔ)的教學(xué)。科技工作者發(fā)表科技論文也需要外文寫(xiě)作或作外文摘要和關(guān)鍵詞,或作注釋和索引等。新聞?dòng)浾咴诿襟w傳播中也常在文章中直接用英語(yǔ)詞語(yǔ)陳述。尤其是各類(lèi)電子詞典中的漢英詞典詞條的檢出等,都需要按中文詞語(yǔ)原意譯成英文。本編碼設(shè)計(jì)了漢語(yǔ)詞語(yǔ)(包括普通詞語(yǔ)和科技詞語(yǔ))和機(jī)構(gòu)名稱(chēng)英語(yǔ)、法語(yǔ)和科技拉丁語(yǔ)快速切換方法。編碼方案為在漢字詞語(yǔ)和機(jī)構(gòu)名稱(chēng)(簡(jiǎn)稱(chēng))編碼的基礎(chǔ)上加后綴或改變后綴即可。英語(yǔ)加后綴.e,拉丁語(yǔ)加.l,法語(yǔ)加.f,德語(yǔ)加.g和西班牙語(yǔ)加.s等等(目前僅編制了英語(yǔ)和拉丁語(yǔ))。先輸入漢語(yǔ)詞語(yǔ),屏幕的提示行即出現(xiàn)該詞語(yǔ)的漢字,若需該漢字詞語(yǔ)則擊空格鍵直接上屏,若需該詞語(yǔ)的英語(yǔ),則不擊空格鍵而在其編碼后加后綴.e。舉例如下gojg—國(guó)家,gojg.e—country。rfmo—人民,rfmo.e—people。gsidx—共產(chǎn)黨,gsidx.e—communistparty。uehvy—社會(huì)主義,uehvy.e—socialism。uehvyju—社會(huì)主義建設(shè),uehvyju.e—socalistconstruction。yiir—遺傳,yiir.e—(1)heridity,(2)genetic。yiixx—遺傳學(xué),yiixx.e—genetics。yiigi—遺傳工程,yiigi.e—geneticengineering。jiytb—基因突變,jiytb.e—genemutation。mzgo—美國(guó),mzgo.q—美利堅(jiān)合眾國(guó),mzgo.e—theUnitedStates,mzgo.eq—theUnitedStatesofAmerica。vsgo—中國(guó),vsgo.q中華人民共和國(guó),vsgo.eq—thepeople'sRepublicofChina。yngo—英國(guó),yngo.e—Britain,yngo.q大不列顛和北愛(ài)爾蘭聯(lián)合王國(guó),yngo.eq—UnitedKingomofGreatBritianandNorthenrIreland。bzys—北約,bzys.q—北大西洋公約組織,bzys.e—TheNorthAtlanticTreatyOrganization等等。vsgvy—中共中央,vsgvy.q—中國(guó)共產(chǎn)黨中央委員會(huì),vsgvy.e—theCentralCommitteeofCommunistPartyofChina。qmgrd—全國(guó)人大,qmgrd.q—全國(guó)人民代表大會(huì),qmgrd.e—theNationalPeople'sCongressofCHina。qmgrdiw—全國(guó)人大常委,qmgrdiw.q—全國(guó)人民代表大會(huì)常務(wù)委員會(huì),qmgrdiw.e—StandihgCommitteeoftheNationalPeople'sCongress。vsgwjb—中國(guó)外交部,vsgwjb.q—中華人民共和國(guó)外交部,vsgwjb.e—theMinistryofForeignAffairsofPeople'sRepublicofChina。ougtr—?dú)W共體,ougtr.q—?dú)W洲經(jīng)濟(jì)共同體,ougtr.e。vskye—中科院,vskye.q—中國(guó)科學(xué)院,vskye.e—theChineseAcademyofSciences。vskrgfzs—中科院高分子所,vskrgfzs.q—中國(guó)科學(xué)院高分子研究所,vskrgfzs.e—TheMacromoleculeInstituteoftheChineseAcademyofSciences等等。寫(xiě)作科技文章和著作,有時(shí)需要英語(yǔ)、拉丁語(yǔ)學(xué)名索引或注釋同時(shí)出現(xiàn),此時(shí),只需在該詞語(yǔ)的漢字編碼后改變后綴即可。如putai—普通鵪鶉,putai.e—commonQuail(英語(yǔ)“普通鵪鶉”),putai.l—Coturnixcoturnix(“普通鵪鶉”拉丁語(yǔ)學(xué)名)。ribai—日本鵪鶉,ribai.e—JapaneseQuail(英語(yǔ)“日本鵪鶉”),ribai.l—CoturnixJaponica(“日本鵪鶉”拉丁語(yǔ)學(xué)名)。daxmq—大熊貓,daxmq.e—giantpanda(英語(yǔ)“大熊貓”),daxmq.l—Ailuropdamalanoleucus(“大熊貓”拉丁語(yǔ)學(xué)名)。mggym—蒙古野馬,mggym.e—mongoliawildhorse(英語(yǔ)“蒙古野馬”),mggym.l—Equusprzewalskii(“蒙古野馬”拉丁語(yǔ)學(xué)名)等等。(10),外語(yǔ)縮寫(xiě)作漢字詞語(yǔ)的編碼方案在學(xué)術(shù)刊物、報(bào)章雜志、教材和科普文章中,經(jīng)常使用簡(jiǎn)潔明快的英語(yǔ)縮寫(xiě)進(jìn)行表述,如WTO(世界貿(mào)易組織),F(xiàn)AO(聯(lián)合國(guó)糧農(nóng)組織),DNA(去氧核糖核酸),RNA(核糖核酸),APEC(亞太經(jīng)合組織),OPEC(石油輸出國(guó)組織),TMD(戰(zhàn)區(qū)導(dǎo)彈防御系統(tǒng)),NMD(國(guó)家導(dǎo)彈防御系統(tǒng)),SPF(無(wú)特定病源體動(dòng)物),CCTV(中國(guó)中央電視臺(tái)),CTPC(中國(guó)電視劇制作中心)等等。本發(fā)明設(shè)計(jì)了直接用外文縮寫(xiě)作編碼的技術(shù)方案。編碼方法用縮寫(xiě)原文加前綴和后綴構(gòu)成。英語(yǔ)縮寫(xiě)前綴用e.,拉丁語(yǔ)縮寫(xiě)用l.,后綴則根據(jù)需要而變化。如e.FAO—糧農(nóng)組織,e.FAO.q—聯(lián)合國(guó)糧食和農(nóng)業(yè)組織,e.FAO.e—foodandagriculturalorganizationofUnitedNations。e.apec—亞太經(jīng)合組織,e.apec.q—亞洲和太平洋地區(qū)經(jīng)濟(jì)合作組織,e.apec.e—AsiaandPacificoceanareaEconomicCooperteorganization。e.cctv—中國(guó)中央電視臺(tái),e.cctv.e—ChinaCentreTelevition。e.ctpc—中國(guó)電視劇制作中心。e.ctpc.e—ChinaTelevitionplayPreparativeCentre。e.opec—石油輸出國(guó)組織,e.opec.e—theOrgannizationofPetroleumEuportingCountries等等。(11),漢字基數(shù)詞與序數(shù)詞的編碼技術(shù)方案在一般文稿中,漢字基數(shù)詞大小寫(xiě)一、二、三、四、五、六、七、八、九、十、十一.....,壹、貳、叁、肆、伍、陸、柒、捌、玖、拾,序數(shù)詞第一、第二、第三、第四、第五、第六、第七、第八、第九、第十.....等,尤其是在制定條約、條例、條款和合同等是經(jīng)常應(yīng)用而又不易輸入的詞語(yǔ),本編碼采用兩種編碼技術(shù)方案。一種是按常規(guī)詞語(yǔ)編碼,即一—yio,二—er/,三—sh/,四—sio,五—wu/,六—lq’,七—qio,八—bao,九—jqo,十—uio,十一—uijo,二十—eruo,二十一—eruyo;第一—diyo,第二—die/,第三—dis/,第四—diso,第五—diw/,第六—dil′,第七—diqo,第八—dibo,第九—dijo,第十—diuo,第十一—diuyo,第十二—diue/,第二十三—dieus,第一百—diyb/.,第一百0一—diybly,第一百三十八—diybsub等等。第二種方法,基數(shù)詞一—u.1,二—u.2,三—u.3,四—u.4,五—u.5,六—u.6,七—u.7,九—u.9,十—u.10,十一—u.11,十二—u.12,十三—u.13,十四—u.14,十五—u.15,十六—u.16,十七—u.17,十八—u.18,二十—u.20,三十二—u.32,一0二—u.102;第一—d.1,第二—d.2,第三—d.3,第四—d.4,第五—d.5,第六—d.6,第七—d.7,第八—d.8,第九——d.9,第十—d.10,第十一—d11,第十二—d.12,第二十三—d.23,第一百—d.100,第一百0一d.101,第一百三十八—d.138等等。如訂立條約或合同等需要,第一條—d.it,第二條—d.et,第五條—d.wt,第十一條—d.iit,第十七條—d.17t,第一百零七條—d.io7t。(12),重碼再拆分技術(shù)方案本編碼采用“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,已經(jīng)兩次降低了同音詞組的重碼率。然而,由于漢字的同音字詞太多,且有些詞組的末字同形,所以仍有部分重碼(主要是雙字詞),雖然一般沒(méi)有超過(guò)6個(gè),不必“翻頁(yè)”,但是,要實(shí)現(xiàn)快速盲打,尤其是要將重碼中的某一詞語(yǔ)切換成英語(yǔ)等語(yǔ)種時(shí),卻帶來(lái)不便。為此,特設(shè)計(jì)了重碼再拆分的兩種方法。第一種方法,再用第一字的部首進(jìn)行識(shí)別例如,當(dāng)鍵入“uiyo”時(shí),屏幕提示行將出現(xiàn)“使用,2實(shí)用,3食用,4適用,5試用,6施用”,末字都為同一或同形的字。若錄入漢字文章需要“適用”一詞時(shí),只需選“4”即上屏。但若欲將其切換成英語(yǔ)時(shí),“適用”一詞的第一字部首為“z”,則在“uiyo”后加“z”(uiyoz)即為“適用”唯一,加.e(uiyoz.e)即為“適用”的對(duì)應(yīng)英語(yǔ)“besuitable”。如是,“實(shí)用”為“uiyog.e”?!笆秤谩睘椤皍iyor.e?!霸囉谩睘椤皍iyoy.e”?!笆┯谩睘椤皍iyof.e”等。第二種方法,有的重碼不僅末字同形,且第一個(gè)字也同形或同部首,如“不用,不已,不予”等,這種情況,當(dāng)鍵入“buyo”時(shí),屏幕上即出現(xiàn)上述重碼,漢字錄入需要其中某詞語(yǔ)時(shí)只需選項(xiàng)上屏。若需切換英語(yǔ),就在編碼后加后綴.2e、.3e,例中“不用”為第一個(gè)詞不必加,以下“不已”為“buyo.2e”,“不予”為“buyo.3e”等等。三字詞和四字詞也有少量重碼,這類(lèi)詞語(yǔ)的相重不一定在末字,也不一定在第一字,其再拆分方法是鍵入正常的編碼出現(xiàn)重碼時(shí),若需中文可直接選項(xiàng)上屏,或在編碼后加字母“o”為第二個(gè)重碼唯一,加2個(gè)“o”為第三個(gè)重碼唯一。若需切換英語(yǔ),則在“o”后面加.e,如“gojcp”為“國(guó)家裁判、國(guó)際裁判”,“gojcpo”為“國(guó)際裁判”唯一,“gojcpo.e”為“國(guó)際裁判”的對(duì)應(yīng)英語(yǔ)“internationalreferee”。本發(fā)明與現(xiàn)有已推廣應(yīng)用的漢字電子計(jì)算機(jī)編碼技術(shù)比較,具有以下有益效果(1),現(xiàn)有已推廣應(yīng)用的以五筆字型為代表的形碼和各類(lèi)拼音碼,都是以漢字的單字為出發(fā)點(diǎn)進(jìn)行開(kāi)發(fā)和研究的,其單字編碼本身就存在許多不足,一旦擴(kuò)展為詞語(yǔ)編碼之后,問(wèn)題則更多。本發(fā)明是以漢語(yǔ)語(yǔ)言中固有的詞組、詞語(yǔ)和短語(yǔ)為出發(fā)點(diǎn)進(jìn)行研究和開(kāi)發(fā)的,即以漢語(yǔ)語(yǔ)言文字中能夠獨(dú)立存在、自由運(yùn)用的語(yǔ)言單位作為一個(gè)編碼單位,包括雙字詞、三字詞、四字詞和詞組,五字詞組、六字及七字以上詞組、詞語(yǔ)、固定短語(yǔ),包括成語(yǔ)、諺語(yǔ)、短句和詩(shī)詞曲賦等。由于漢字中大部分單字具有詞的性質(zhì),因此也包括具有詞性的單字。這樣以詞語(yǔ)為編碼單位,符合我國(guó)人民和懂得漢語(yǔ)漢字的人的語(yǔ)言構(gòu)詞特性和語(yǔ)言發(fā)聲的邏輯思維習(xí)慣,人們易于學(xué)習(xí)、理解、掌握和應(yīng)用。(2)本詞語(yǔ)碼編碼規(guī)范,各類(lèi)詞組和詞語(yǔ)固定其特定的碼長(zhǎng)。本發(fā)明將單鍵鍵名設(shè)置為最常使用和出現(xiàn)頻率最高的虛詞,包括介詞如“從、在、自、由”等,連詞如“和、與、而”等,助詞如“的、地、得、了”等以及副詞等。二碼設(shè)置為漢語(yǔ)418個(gè)音節(jié)能代表每個(gè)音節(jié)準(zhǔn)確發(fā)音的單字2-4個(gè)和該音節(jié)的標(biāo)準(zhǔn)漢語(yǔ)拼音。出現(xiàn)的單字既可直接上屏檢出,更可為雙字詞以上詞組、詞語(yǔ)第一個(gè)字反切相拼的音節(jié)是否正確作出提示。其余規(guī)范為雙字詞4碼,三字詞和4字詞5碼,5字詞語(yǔ)6碼,6字詞語(yǔ)7碼,7字詞語(yǔ)8碼,8字詞語(yǔ)9碼和9字詞語(yǔ)10碼,10字及10字以上詞語(yǔ)不多,錄入10碼即可檢出。這樣,各種詞組、詞語(yǔ)各行其道,不會(huì)造成混亂。本編碼碼長(zhǎng)為10碼加后綴2碼共12碼,即可全面涵蓋漢語(yǔ)語(yǔ)言中的詞匯、詞語(yǔ)和短語(yǔ)等。而目前已推廣應(yīng)用的各種編碼,全拼有的音節(jié)雙字詞即可達(dá)12碼,其余編碼為4碼者則單字、雙字及各種詞語(yǔ)一起出現(xiàn)形成編碼極大的混亂。(3),本發(fā)明采用的“反切相拼定音節(jié),聲母加形識(shí)末字”,不僅與漢字形成的歷史和漢字特有的“形聲相益”相一致,而且可以二次降低同音字詞的重碼率,使同一音節(jié)中的重碼率降低到最小限度?!胺辞邢嗥炊ㄒ艄?jié)”,其理論重碼率僅僅是同一聲母所有音節(jié)數(shù)之倒數(shù),如“L”這一聲母共有26個(gè)音節(jié),反切相拼定音節(jié)之后,其理論重碼率僅是只用聲母者的二十六分之一?!奥暷讣有巫R(shí)末字”,又使同一音節(jié)中的同音字詞可能出現(xiàn)的重碼率降為二十九分之一(即用29個(gè)部首鍵位又拆分了一次)。編碼結(jié)果表明,雙字詞的重碼最多為6個(gè)(不必翻頁(yè)即可檢出),經(jīng)再次拆分后已無(wú)重碼。例如本編碼普通版中“B”這一聲母16個(gè)音節(jié)共收詞語(yǔ)6000余條,“C”這一聲母包括“ch”共35個(gè)音節(jié),收詞語(yǔ)7000余條,結(jié)果出現(xiàn)重碼最多的為5個(gè)(雙字詞),經(jīng)再拆分后即無(wú)重碼,可以做到詞語(yǔ)和簡(jiǎn)單句的盲打,目前已推廣應(yīng)用的任何一種編碼都不可能做到。(4),編碼的技術(shù)基礎(chǔ)為中國(guó)人和學(xué)習(xí)漢語(yǔ)者所熟知且人人都會(huì)的拼音加部首,簡(jiǎn)單易學(xué),只要上過(guò)中小學(xué)校以上的學(xué)生和學(xué)習(xí)過(guò)漢語(yǔ)拼音和部首的外國(guó)人,只需熟悉一下本編碼的規(guī)則和要求,一學(xué)就會(huì),一用就熟,一般不用舉辦培訓(xùn)班。(5),本編碼容詞量大,收詞組詞語(yǔ)豐富、系統(tǒng)。單字除按國(guó)家標(biāo)準(zhǔn)總局公布的《信息交換用漢字編碼字符集—基本集》(GB2312-80)中所收的6763個(gè)外,還收入了一批未被《基本集》收進(jìn)的科技常用字詞。詞組詞語(yǔ)收詞范圍廣,普通詞組詞語(yǔ)10余萬(wàn)條(包括中國(guó)成語(yǔ)6000余條和詩(shī)詞名篇名句),科技詞語(yǔ)10余萬(wàn)條,目前已推廣應(yīng)用的其他編碼是做不到的。(6),本編碼發(fā)明的世界各國(guó)國(guó)家名稱(chēng)、國(guó)際組織、政府機(jī)構(gòu)、科研院所和各類(lèi)部門(mén)、單位名稱(chēng)以公知公用的簡(jiǎn)稱(chēng)為基礎(chǔ)按本編碼規(guī)則進(jìn)行編碼,改變后綴即可快速切換全稱(chēng)及對(duì)應(yīng)的外語(yǔ)簡(jiǎn)稱(chēng)或全稱(chēng)等,為目前任何一種編碼所沒(méi)有。(7),本編碼首創(chuàng)的在漢字詞語(yǔ)編碼基礎(chǔ)上加前綴定位和加后綴快速切換英語(yǔ)、科技拉丁語(yǔ)和其他外語(yǔ)語(yǔ)種的方法,目前沒(méi)有任何一種編碼可以做到,因?yàn)槠淝疤岜仨氉龅骄幋a所收詞語(yǔ)的重碼很少或無(wú)重碼。利用常見(jiàn)的外語(yǔ)縮寫(xiě)加前綴和后綴作漢語(yǔ)詞語(yǔ)的編碼且可以進(jìn)行各種切換,也是為本編碼所獨(dú)創(chuàng)。(8),本詞語(yǔ)碼不僅容詞量大,無(wú)重碼,而且平均碼長(zhǎng)短。根據(jù)本發(fā)明的編碼規(guī)則隨機(jī)進(jìn)行文獻(xiàn)統(tǒng)計(jì),錄入一篇普通文章,平均每個(gè)漢字擊鍵1.83次。錄入一篇科技文章,平均每個(gè)漢字擊鍵次數(shù)僅1.69次(未包括全稱(chēng)用簡(jiǎn)稱(chēng)錄入的詞語(yǔ)),而且可實(shí)現(xiàn)詞語(yǔ)、短語(yǔ)、名詩(shī)名句和常用簡(jiǎn)單短句的盲打。本編碼不僅是一種先進(jìn)的中文輸入法,既可以錄入文章,又可作為各類(lèi)電子詞典、辭書(shū)中文條目的檢出,熟練之后還可作為新聞?dòng)浾摺⑽拿毓ぷ魅藛T和學(xué)生等的速記代碼,甚或可以用本編碼直接發(fā)稿。試舉新華社的二則電訊如下xnhuqtmj;10yeo8riodmojivrlijnvsgvyzsujy,gojvxjwzmo,vgvjiw.q,qmgvxvx,1999nmotmj;uitcjbszuwhrmnyvrlirhw,jntxwztmj;ynbgutnqlogojtwzjhtmjuw,uivfggry/1999nmotmj;uijtticjbsidbgzdhqbt,bnbjxjlovsgotictdlbtoqrtiy.jwzmoqwty,ycxjisszohgz,batvec;vsyxsluobhhn。(新華社天津10月8日電,記者李靖。中共中央總書(shū)記,國(guó)家主席江澤民,中共中央政治局常委,全國(guó)政協(xié)主席,1999年天津世界體操錦標(biāo)賽組委會(huì)名譽(yù)主任李瑞環(huán),今天下午在天津迎賓館聽(tīng)取了國(guó)家體育總局和天津市委,市政府關(guān)于1999年天津世界體操錦標(biāo)賽籌備工作的匯報(bào),并接見(jiàn)了中國(guó)體操代表團(tuán)全體成員。江澤民強(qiáng)調(diào),要繼續(xù)做好工作,把這次重要賽事辦好)。共155個(gè)漢字,碼長(zhǎng)233,平均每個(gè)漢字1.5碼。再舉一則國(guó)務(wù)院和中央軍委發(fā)布的“公告”gowye.qvsyjw.qgsgk∷gfjtxmf,.qfuyogowye.qvsyjw.qduimr,yivhaomtqjbf.qgry/vsyrmvffuzglaomtq.qdfhwldgwdg,wz'wzhgjdvq,tsyohlntwv,bkitaomtq.qdwgdghfv,vsyvf.qplv;aomtq.qdbude,xmyozujwi.jxfji.qvumaom′budeliuuvsyjw.qlbdy,jwy/1999nmo12yxo20rioqizvfudfaomtq.qfhwl.jxfhi.qvumaom′budebugy/aomtq.qddifuw.aomtqvfzlbyu,keyxkvsyrmvfqnq′vumaom′budexxvlwziuhvahjqvlzirzh.vujryiuexuyzpugqrgxdfalrwlx,hlxyzpugaomtq.qdfalr.vujftydvsyrmvffudt.xbhuqbzj′llyx10rio(中華人民共和國(guó)國(guó)務(wù)院、中華人民共和國(guó)中央軍事委員會(huì)公告根據(jù)《中華人民共和國(guó)憲法》賦予中國(guó)人民解放軍的使命,依照《中華人民共和國(guó)澳門(mén)特別行政區(qū)基本法》關(guān)于中央人民政府負(fù)責(zé)管理澳門(mén)特別行政區(qū)的防務(wù)的規(guī)定,為維護(hù)國(guó)家的主權(quán)、統(tǒng)一和領(lǐng)土完整、保持澳門(mén)特別行政區(qū)的穩(wěn)定和發(fā)展,中華人民共和國(guó)中央人民政府派駐澳門(mén)特別行政區(qū)的部隊(duì),現(xiàn)已組建完成。中國(guó)人民解放軍駐澳門(mén)部隊(duì)隸屬中華人民共和國(guó)中央軍事委員會(huì)領(lǐng)導(dǎo),將于1999年12月20日起正式擔(dān)負(fù)澳門(mén)特別行政區(qū)防務(wù)。中國(guó)人民解放軍駐澳門(mén)部隊(duì)不干預(yù)澳門(mén)特別行政區(qū)的地方事務(wù)。澳門(mén)特別行政區(qū)政府在必要時(shí),可以向中央人民政府請(qǐng)求駐澳門(mén)部隊(duì)協(xié)助維持社會(huì)治安和救助自然災(zāi)害。駐軍人員除須遵守全國(guó)性的法律外,還須遵守澳門(mén)特別行政區(qū)的法律。駐軍費(fèi)用由中央人民政府負(fù)擔(dān)。新華社北京11月10日電)這則《公告》計(jì)有漢字335個(gè),用本編碼錄入或檢出僅需擊鍵405次,平均每個(gè)漢字僅為1.2碼,不僅快速,而且準(zhǔn)確,無(wú)重碼,可以實(shí)現(xiàn)盲打。用本編碼速記的文件,錄入和記錄十分容易,但人工讀出則有困難,需在安裝有本詞語(yǔ)碼的電子計(jì)算機(jī)上才能讀出。在此基礎(chǔ)上進(jìn)一步開(kāi)發(fā)研究,也許可以自動(dòng)讀出。本詞語(yǔ)碼發(fā)明的基本原理,是源于我國(guó)漢字的起源、演化、發(fā)展和形成而沿用至今的拼音加每字的部首,即“形聲相益”而實(shí)現(xiàn)的。反切相拼即聲韻相拼,這是每一個(gè)學(xué)習(xí)漢語(yǔ)漢字的人都會(huì)的,部首識(shí)別單字重碼及詞組的末字更為人人所熟悉,因此,實(shí)現(xiàn)本發(fā)明是十分容易的。只要熟悉反切拼音規(guī)則和部首識(shí)別所安排的鍵盤(pán)鍵位即可逐步掌握。反切拼音是采用我國(guó)從北宋時(shí)期即已開(kāi)始應(yīng)用的一種簡(jiǎn)易的拼音方法,即取上一字之聲母和下一字之韻母快速相拼,其優(yōu)點(diǎn)是簡(jiǎn)潔明快,節(jié)省碼長(zhǎng)。其拼法與現(xiàn)代的“雙拼”,“簡(jiǎn)拼”相似。但本編碼在鍵盤(pán)鍵位的安排上與“簡(jiǎn)拼”、“雙拼”等有所不同。漢語(yǔ)拼音按照國(guó)務(wù)院1955年公布的漢語(yǔ)拼音方案。漢語(yǔ)拼音方案中的聲母ZH、CH、SH分別用V、I、U代替。鍵盤(pán)上的26個(gè)字母鍵位剛好滿(mǎn)足26個(gè)聲母(用大寫(xiě)字母表示)。由于反切相拼只需聲韻相拼,因此,除了單韻母a、e、i、o、u外,復(fù)韻母均用一個(gè)鍵盤(pán)字母代替。在韻母鍵位位置的設(shè)置上,為了使用者方便記憶,計(jì)算機(jī)鍵盤(pán)的第一排字母鍵安排的是以“u”組合的復(fù)韻母(除單韻母e、u、i、o以外),第二排安排的是“o、e、a”組合的復(fù)韻母,第三排安排的是以“i”組合的復(fù)韻母。由于字母鍵不夠安排所有的復(fù)韻母,所以將實(shí)際拼音不會(huì)重疊的2個(gè)復(fù)韻母安排在一起由一個(gè)鍵位代替,但使用時(shí)不會(huì)互相影響。本編碼的鍵位排列,將發(fā)音相近的韻母放在相鄰位置,如uan、uang,en、eng,an、ang,in、ing,這樣安排,對(duì)于發(fā)音不準(zhǔn)的人,尤其是南方人拼讀這幾個(gè)音時(shí)容易混淆。緊靠一起,不僅容易記憶,而且擊鍵認(rèn)不準(zhǔn)時(shí)可以先擊一個(gè),錯(cuò)了即換旁邊一個(gè),非此即彼,用不著費(fèi)神思考再去反復(fù)尋找鍵位。鍵盤(pán)圖見(jiàn)下頁(yè)詞語(yǔ)碼反切拼音鍵盤(pán)圖QWERTYUIOPui威ua哇euan彎uang汪uai歪shchuo窩un暈iu憂(yōu)iang央ue約uioASDFGHJKL;aong轟ou歐en恩eng亨an安ang昂ao熬ai哀iong雍ZXCVBNM,./ei誒ie耶iao腰zhin因ing英ian煙ia呀u迂此外,了解和熟悉本編碼單字、雙字和三字詞組末字用部首識(shí)別的部首鍵位安排。具體安排見(jiàn)下表詞語(yǔ)碼漢字部首鍵盤(pán)表A山B白比貝疒鼻八C艸廾采寸D刀刂大歹斗E耳阝(左右阝)卩爾F方父風(fēng)G宀工廣弓瓜骨革鬼戈弋光谷H灬火戶(hù)禾黑虍I廠(chǎng)車(chē)蟲(chóng)臣赤辰齒J斤巾金钅見(jiàn)角臼K口克L老力立來(lái)龍鹿盧鹵里M木門(mén)馬毛母毋目皿矛米麥麻N女牛鳥(niǎo)O(不規(guī)范部首)P片丬皮疋Q犬犭礻氣其欠青R亻(雙亻)人日曰S纟厶罒覀系T扌田土士U饣石尸豕舌身矢食鼠手V舟止爪爫竹(竹頭)W王攵文瓦韋X忄心彐小夕夂西血辛Y衤衣月羊業(yè)頁(yè)又讠酉用魚(yú)羽(雨頭)Z辶廴走足子自‘亠丶;冫氵水/一最后,印刷和出版“漢字詞語(yǔ)碼編碼字典”,以便使用者及需要用本編碼出版發(fā)行各類(lèi)電子詞典、辭書(shū)的軟件生產(chǎn)廠(chǎng)家及計(jì)算機(jī)軟件制造商有一個(gè)編碼的準(zhǔn)確依據(jù)。權(quán)利要求1,一種電子計(jì)算機(jī)漢字詞語(yǔ)碼編碼技術(shù),其特征在于以現(xiàn)代漢語(yǔ)中能獨(dú)立存在、獨(dú)立應(yīng)用的雙字詞組、三字詞組、四字及四字以上詞組、詞語(yǔ)、短語(yǔ)和固定短句(包括成語(yǔ)、詩(shī)詞曲賦、名人名言、科技詞匯等)作為一個(gè)編碼單位,最大碼長(zhǎng)設(shè)定為12碼。采用“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,三次降低因漢字同音字、詞太多而出現(xiàn)的大量重碼。2,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢字單字和雙字詞組、三字詞組的末字需用部首識(shí)別,本發(fā)明將傳統(tǒng)漢字檢字習(xí)用的偏旁部首重新進(jìn)行調(diào)整。其特征是,將《新華字典》設(shè)置的213個(gè)部首,調(diào)整后保留人們一見(jiàn)就知的規(guī)范部首163部,廢除50個(gè)不規(guī)范的部首(各類(lèi)字典中列為“難檢字”表中的單字),將這些廢除的部首中的絕大部分單字設(shè)置為“零”部首,用鍵名“o”鍵代表。3,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢字單字用3碼,其特征是,反切相拼定音節(jié),重碼部首來(lái)識(shí)別。如當(dāng)鍵入“vs”(zhong)時(shí),拼音碼提示行即出現(xiàn)“中、重、種、鐘、腫、眾、終、盅、忠、衷、踵、舯、螽”等13個(gè)重碼,本發(fā)明用部首將重碼識(shí)別“中”字部首不規(guī)范為“vso”、“重”字部首“底橫”為“vs/”、“種”字部首“禾旁”為“vsh”、“鐘”字部首“金旁”為“vsj”、“腫”字部首“月旁”為“vsy”、“眾”字部首“人旁”為“vsr”、“終”字部首是“絲”旁為“vss”、“盅”字部首是“皿底”為“vsm”、“忠”字部首是“心底”為“vsx”、“衷”字部首“上點(diǎn)”為“vs′”、“踵”字部首“足旁”為“vsz”、“舯”字部首“舟旁”為“vsv”、“螽”字部首是“蟲(chóng)底”為“vsi”,這樣,上述13個(gè)同音字即無(wú)一重碼。4,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢語(yǔ)雙字詞用4碼,其特征是,反切相拼定音節(jié),末字部首來(lái)識(shí)別。如“實(shí)際”一詞,首先鍵入“ui”這一音節(jié),接著鍵入“際”字的聲母“j”,“際”字的部首為“耳”旁,其對(duì)應(yīng)的聲母發(fā)音為“e”,所以加“e”為“uije”。與“實(shí)際”同音重碼的詞組還有“世紀(jì)”的“紀(jì)”字為絲旁,加“s”為“uijs”,“時(shí)機(jī)”的“機(jī)”字為木旁,加“m”為“uijm”,“事跡”的“跡”為走旁,加“z”為“uijz”,“試劑”的“劑”為刀旁,加“d”為“uijd”,“史記”的“記”字為言旁,加“y”為“uijy”,“史籍”的“籍”字為竹頭,加“v”為“uijv”,“詩(shī)集”的“集”為“佳”上,加“j”為“uijj”,“石雞”的“雞”為鳥(niǎo)部加“n”為“uijn”,“實(shí)據(jù)”的“據(jù)”為提手加“t”為“uijt”,“詩(shī)句”的“句”為口部加“K”為“uijk”,“時(shí)局”的“局”字為尸頭,加“u”為“uiju”,“市井”的“井”字不規(guī)范加“o”為“uijo”。這樣,本來(lái)發(fā)音相同而必然為重碼的13個(gè)詞組就切分開(kāi)了。5,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢語(yǔ)三字詞編碼為5碼。其特征是,反切相拼定音節(jié),聲-聲加形識(shí)末字。第一字反切相拼定準(zhǔn)音節(jié),第二字只用聲母,第三字用聲母加部首識(shí)別。例如“中國(guó)熱”為“vsgrh”,“中國(guó)人”為“vsgro”(“人”字不規(guī)范為“0”),“中國(guó)字”為“vsgzg”,“中國(guó)話(huà)”為“vsghy”,“中國(guó)畫(huà)”為“vsgh/”;“第一班”為“diybw”,“第一版”為“diybp”,“第一榜”為“diybm”,“第一瓣”為“diybx”等等。6,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢語(yǔ)四字及四字以上詞組或短語(yǔ)的編碼技術(shù)方案為四字詞編碼用5碼,五字詞用6碼,六字詞用7碼,七字詞用8碼,八字詞用9碼等。其特征是,四字詞及四字以上詞組、詞語(yǔ),反切相拼定音節(jié),其余聲母來(lái)識(shí)別。中間無(wú)間斷的短語(yǔ),只需第一字反切相拼定準(zhǔn)音節(jié),其余各字用聲母,如“中國(guó)人民”為“vsgrm”,“改革開(kāi)放”為“glgkf”。五字詞組如“人民解放軍”為“rfmjfj”。六字詞組如“百聞不如一見(jiàn)”為“blwbryj”,。七字詞如“不到長(zhǎng)城非好漢”為“budiifhh”等。7,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢語(yǔ)固定短語(yǔ)和句子的編碼技術(shù)方案其特征是,固定短語(yǔ)和句子中間有停頓者,用前半句編碼加后綴..,如“不入虎穴,焉得虎子”為“burhx..”。如只需要前半句,則前半句編碼鍵入后不加后綴即出現(xiàn)于提示行。有兩次停頓者,全句為后綴加3點(diǎn)...,前兩個(gè)半句加兩點(diǎn)。例如“不破不立,不塞不流,不止不行”為“bupbl...”。如果只需“不破不立,不塞不流”只加兩點(diǎn)為“bupbl..”?!癰upbl”不加后綴為“不破不立”。8,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,漢語(yǔ)詩(shī)詞曲賦的編碼技術(shù)方案,其特征是,以一個(gè)完整詩(shī)句作為一個(gè)編碼單位編碼上半句,如需全句則加后綴..,如“紅軍不怕遠(yuǎn)征難,萬(wàn)水千山只等閑”為“hsjbpyvn..”。若只需“紅軍不怕遠(yuǎn)征難”則不用加后綴。詞賦中的長(zhǎng)短句,按自然語(yǔ)句錄入,如毛澤東詞“沁園春—雪”“北國(guó)風(fēng)光(bzgfg),千里冰封(qmlbf),萬(wàn)里雪飄(wjlxp)。望長(zhǎng)城內(nèi)外(whiinw),唯一茫茫(wzymm),大河上下(dahux),頓失滔滔(dputt)”,“.....江山如此多嬌(jwurcdj),引無(wú)數(shù)英雄竟折腰(ynwuyxjvy)”等等。9,根據(jù)權(quán)利要求1所述的“反切相拼定音節(jié),聲母加形識(shí)末字”的方法,單位、部門(mén)及機(jī)構(gòu)名稱(chēng)的編碼技術(shù)方案,其特征是,用公知公用的簡(jiǎn)稱(chēng)編碼,需全稱(chēng)時(shí)加后綴.q。例如“mzgo”為“美國(guó)”,“mzgo.q”為“美利堅(jiān)合眾國(guó)”。“bohh”為“波黑”,“bohh.q”為“波斯尼亞和黑塞哥維那共和國(guó)”?!皏sgvy”為“中共中央”,“vsgvy.q”為“中國(guó)共產(chǎn)黨中央委員會(huì)”?!皉fdiwh”為“人大常委會(huì)”,“rfdiwh.q”為“全國(guó)人民代表大會(huì)常務(wù)委員會(huì)”。五字以?xún)?nèi)名稱(chēng)因編碼字?jǐn)?shù)相同,可用全編碼如“北大”、“清華”需用簡(jiǎn)稱(chēng)時(shí)為“bzdo”、“qnhh”,需要全稱(chēng)為“bzjdx—北京大學(xué)”、“qnhdx—清華大學(xué)”等。省、市、自治區(qū)黨政機(jī)關(guān)、部門(mén)名稱(chēng)編碼采用一、二級(jí)編碼。一級(jí)編碼為一次完成,如“bzjuvf”為“北京市政府”,“bzjuvf.q”為“北京市人民政府”,(也可在“...市政府”前面加“人民”),“xnjqvf”為“新疆區(qū)政府”,“xnjqvf.q”為“新疆維吾爾族自治區(qū)人民政府”等等。二級(jí)編碼為省、市、自治區(qū)名稱(chēng)單獨(dú)編碼,例如“bzj’”為“北京”,“bzju’”為“北京市”。若需“北京市人民政府”,則再鍵入“rfmvf”—(“人民政府”),如果需要“北京市經(jīng)濟(jì)貿(mào)易委員會(huì)”,則先錄入“bzju’”(北京市),再錄入“jnmwh.q”(經(jīng)貿(mào)委—經(jīng)濟(jì)貿(mào)易委員會(huì)”。民族自治區(qū)用簡(jiǎn)稱(chēng)編碼,需要全稱(chēng)則加后綴。例如“gtxqo”為“廣西區(qū)”,“gdxqo.q”為“廣西壯族自治區(qū)”?!皒bjqo”為“新疆區(qū)”,“xbjqo.q”為“新疆維吾爾族自治區(qū)”等等。10,一種電子計(jì)算機(jī)漢字詞語(yǔ)和機(jī)構(gòu)名稱(chēng)切換英語(yǔ)、法語(yǔ)等及科技拉丁語(yǔ)的編碼技術(shù),其特征是,在權(quán)利要求1-9所述漢字詞語(yǔ)和機(jī)構(gòu)名稱(chēng)簡(jiǎn)稱(chēng)編碼基礎(chǔ)上加后綴或改變后綴即可實(shí)現(xiàn)英語(yǔ)等外國(guó)語(yǔ)種的快速切換。英語(yǔ)加后綴.e,拉丁語(yǔ)加.l,法語(yǔ)加.f,德語(yǔ)加.g和西班牙語(yǔ)加.s等等。方法是先輸入漢語(yǔ)詞語(yǔ)編碼,屏幕提示行即出現(xiàn)該詞語(yǔ)的漢語(yǔ)詞條,若只需該漢字詞語(yǔ),則擊空格鍵直接上屏。若需該詞語(yǔ)的英語(yǔ),則在其編碼后加后綴.e如gojg—國(guó)家,gojg.e—country。gsdx—共產(chǎn)黨,gsidx.e—communistparty。uehvy—社會(huì)主義,uehvy.e—socialism。uehvyju—社會(huì)主義建設(shè),uehvyju.e—socialistconstruction。yiigi—遺傳工程,yiigi.e—geneticengineering。mzgo—美國(guó),mzgo.q—美利堅(jiān)合眾國(guó),mzgo.e—theUnitedStates,mzgo.eq—theUnitedStatesofAmerica。vsgo—中國(guó),vsgo.q—中華人民共和國(guó),vsgo.eq—thepeople'sRepublicofChina。yngo—英國(guó),yngo.e—Britain,yngo.q—大不列顛和北愛(ài)爾蘭聯(lián)合王國(guó),yngo.eq—UnitedKingomofGreatBritianandNorthernIreland。bzys—北約,bzys.q—北大西洋公約組織,bzys.e—TheNorthAtlanticTreatyOrganization等等。vsgvy—中共中央,vsgvy.q—中國(guó)共產(chǎn)黨中央委員會(huì),vsgvy.e—theCentralCommitteeofCommunistPartyofChina。qmgrd—全國(guó)人大,qmgrd.q—全國(guó)人民代表大會(huì),qmgrd.e—theNationalPeople′sCongressofChina。qmgrdiw—全國(guó)人大常委,qmgrdiw.q—全國(guó)人民代表大會(huì)常務(wù)委員會(huì),qmgrdiw.e—StandingCommitteeoftheNationalPeople'sCongress。vsgwjb.q—中華人民共和國(guó)外交部,vsgwjb.e—theMinistryofForeignAffairsofPeople'sRepublicofChina。ougtr—?dú)W共體,ougtr.q—?dú)W洲經(jīng)濟(jì)共同體,ougtr.e—theEuropeanEconomicCommunity。vskye—中科院,vskye.q—中國(guó)科學(xué)院,vskye.e—theChineseAcademyofSciences。vskrgfzs—中科院高分子所,vskrgfzs.q—中國(guó)科學(xué)院高分子研究所,vskrgfzs.e—TheMacromoleculeInstituteoftheChineseAcademyofSciences等等。科技論文、專(zhuān)著需要英語(yǔ)、拉丁語(yǔ)學(xué)名索引或注釋同時(shí)出現(xiàn)時(shí),在該詞語(yǔ)的漢字編碼后改變后綴。如putai—普通鵪鶉,putai.e—commonquail(英語(yǔ)“普通鵪鶉”),putai.l—Coturnixcoturnix(“普通鵪鶉”拉丁語(yǔ)學(xué)名)。ribai—日本鵪鶉,ribai.e—Japanesequail(英語(yǔ)“日本鵪鶉”),ribai.1—CoturnixJaponica(“日本鵪鶉”拉丁語(yǔ)學(xué)名)。daxmq—大熊貓,daxmq.e—giantpanda(英語(yǔ)“大熊貓”),daxmq.l—Ailuropdamalanoleucus(“大熊貓”拉丁語(yǔ)學(xué)名)。mggym—蒙古野馬,mggym.e—mongoliawildhorse(英語(yǔ)“蒙古野馬”),mggym.l—Equusprzewalskii(“蒙古野馬”拉丁語(yǔ)學(xué)名)等等。11,一種利用常見(jiàn)習(xí)用外語(yǔ)縮寫(xiě)作漢字詞語(yǔ)的編碼技術(shù),其特征是用外語(yǔ)縮寫(xiě)原文加前綴和后綴構(gòu)成。英語(yǔ)縮寫(xiě)前綴用e.,拉丁語(yǔ)縮寫(xiě)用l.等,后綴則根據(jù)需要而變化。例如e.FAO—糧農(nóng)組織,e.FAO.q—聯(lián)合國(guó)糧食和農(nóng)業(yè)組織,e.FAO.e—foodandagriculturalorganizationofUnitedNations。e.apec—亞太經(jīng)合組織,e.apec.q—亞洲和太平洋地區(qū)經(jīng)濟(jì)合作組織,e.apec.e—AsiaandPacificoceanareaEconomicCooperteorganization。e.cctv—中國(guó)中央電視臺(tái),e.cctv.e—ChinaCentreTelevition。e.opec—石油輸出國(guó)組織,e.opec.e—theOrgannizationofPetroleumEuportingCountries等等。12,一種電子計(jì)算機(jī)漢字大小寫(xiě)基數(shù)詞與序數(shù)詞編碼技術(shù),其特征是,基數(shù)詞編碼用u.后加所需之阿拉伯?dāng)?shù)字,如二—u.2,三—u.3,四—u.4,十一—u.11,十二—u.12,二十三—u.23,三十二—u.32,一百0一——u.101;序數(shù)詞編碼用d.后加所需之阿拉伯?dāng)?shù)字,如第一—d.1,第二—d.2,第三—d.3,第十—d.10,第二十三—d.23,第一百—d.100,第一百一十三—d.113,第一百三十八—d.138等。第一條—d.1t,第二條—d.2t,第五條—d.5t,第十一條—d.11t,第十七條—d.17t,第一百零七條—d.107t。13,根據(jù)權(quán)利要求1-9所述之漢字詞語(yǔ)碼編碼技術(shù)仍存在部分重碼的再拆分技術(shù),其特征是,雙字詞重碼再用第一字的部首進(jìn)行識(shí)別如當(dāng)鍵入“uiyo”時(shí),屏幕提示行將出現(xiàn)“使用,2實(shí)用,3食用,4適用,5試用,6施用”6個(gè)重碼,末字都為同一或同形的字。若錄入漢字文章需要“適用”一詞時(shí),只需選“4”上屏。若欲將其切換成英語(yǔ)時(shí),“適用”的第一字部首為“z”,則在“uiyo”后加“z”(uiyoz)即為“適用”唯一,加.e(uiyoz.e)即為“適用”的對(duì)應(yīng)英語(yǔ)“besuitable”。如此,“實(shí)用”為“uiyog.e”。“食用”為“uiyor.e。“試用”為“uiyoy.e”。“施用”為“uiyof.e”等。有少數(shù)重碼不僅末字同形,且第一個(gè)字也同形或同部首,如“不用,不已,不予”等,這種情況,當(dāng)鍵入“buyo”時(shí),屏幕上即出現(xiàn)上述重碼,漢字錄入需要某詞語(yǔ)時(shí)只需選項(xiàng)上屏。若需切換英語(yǔ),在編碼后加后綴.2e、.3e,例中“不用”為第一個(gè)詞不必加,“不已”為“buyo.2e”,“不予”為“buyo.3e”等等。14,根據(jù)權(quán)利要求1-9所述之漢字詞語(yǔ)碼編碼技術(shù)仍存在部分重碼的再拆分技術(shù),三字詞和四字詞也有少量重碼,但相重不一定在末字,也不一定在第一字,其再拆分方法是鍵入正常的編碼出現(xiàn)重碼時(shí),若需要中文時(shí)可直接選項(xiàng)上屏,或在編碼后加字母鍵“o”為第二個(gè)重碼唯一,加2個(gè)“o”為第三個(gè)重碼唯一。若需切換英語(yǔ),則在“o”后面加.e,如“gojcp”為“國(guó)家裁判、國(guó)際裁判”相重,“gojcpo”為“國(guó)際裁判”唯一,“gojcpo.e”則為“國(guó)際裁判”的對(duì)應(yīng)英語(yǔ)“internationalreferee”。也可以找出重碼中發(fā)音不同的單字,用該字的韻母加在編碼后,例如“國(guó)際裁判”的“際”為“i”,則在編碼后加“i”為“gojcpi”。需切換成英語(yǔ)時(shí)為“gojcpi.e”。15,權(quán)利要求1-14所述之漢字詞語(yǔ)碼編碼技術(shù)方案同樣適用于各種拼音碼(雙拼、簡(jiǎn)拼、全拼等)或形碼詞語(yǔ)同音字、詞的識(shí)別及加前后綴切換外語(yǔ)的應(yīng)用,本編碼亦保留其發(fā)明權(quán)。本發(fā)明也同樣適用于我國(guó)香港、澳門(mén)、臺(tái)灣及國(guó)外華人華僑中仍在使用漢字繁體字的編碼技術(shù),漢字繁體字詞語(yǔ)碼的版本已另外編出。全文摘要本發(fā)明屬電子計(jì)算機(jī)軟件技術(shù)。以漢語(yǔ)言文字中能夠獨(dú)立存在和運(yùn)用的雙字詞、三字詞、四字詞及五字以上詞語(yǔ)、短語(yǔ)、成語(yǔ)和詩(shī)詞等作為一個(gè)編碼單位,采用反切相拼定音節(jié),聲母加形識(shí)末字的方法,使?jié)h語(yǔ)因同音字、詞太多而存在的大量重碼得以識(shí)別,從而實(shí)現(xiàn)詞語(yǔ)盲打;在漢字詞語(yǔ)編碼基礎(chǔ)上改變后綴,可快速切換對(duì)應(yīng)英語(yǔ)等外語(yǔ)詞匯;用單位簡(jiǎn)稱(chēng)編碼改變前綴或后綴,又可切換全稱(chēng)或?qū)?yīng)外語(yǔ)名稱(chēng)。編碼原理符合漢語(yǔ)言構(gòu)詞特性和發(fā)音邏輯思維,收詞語(yǔ)廣泛,易學(xué)易用,分普通版和科技版,適于各類(lèi)人員錄入中文,又可作各類(lèi)電子詞典的詞語(yǔ)及漢英詞典詞條的檢出,也可作新聞?dòng)浾?、文秘和學(xué)生的速記碼。文檔編號(hào)G06F3/023GK1316686SQ0010660公開(kāi)日2001年10月10日申請(qǐng)日期2000年4月4日優(yōu)先權(quán)日2000年4月4日發(fā)明者曾養(yǎng)志申請(qǐng)人:曾養(yǎng)志