專利名稱:全信息計算機漢字處理系統(tǒng)和實現(xiàn)方法
“全信息計算機漢字處理系統(tǒng)”,亦稱“F系統(tǒng)”或“F系統(tǒng)規(guī)范”(F-spec)。是由“中文字母字信息交換碼(CACII)”、“全信息漢字計算機表達(dá)式”、“中文字母字組字技術(shù)”和“中文字母字輸入技術(shù)”共四部分組成。它是我們研究多年的對中文計算機提出重新設(shè)計新思路的文字處理系統(tǒng)的總體設(shè)計思想和實現(xiàn)方法。是一系列分項發(fā)明的總體構(gòu)思和總體實現(xiàn)的途徑。
本說明書根據(jù)“全信息計算機漢字處理系統(tǒng)”地總體思想和實現(xiàn)方法,從分析高位置“1”的雙字節(jié)中文計算機設(shè)計思路給中文信息計算機數(shù)字化處理帶來的缺陷入手,給出解決這些缺陷的方法,提出對我國的中文計算機重新設(shè)計的新思路,闡述實現(xiàn)全信息計算機漢字處理系統(tǒng)的技術(shù)核心和展望由于F系統(tǒng)規(guī)范下的全信息漢字表達(dá)式的實現(xiàn)對今后計算機中文信息數(shù)字化處理領(lǐng)域的深刻影響。
一、雙字節(jié)漢字處理系統(tǒng)的缺陷分析和全信息漢字表達(dá)式的提出
1998年年底在南京召開的信息產(chǎn)業(yè)發(fā)展國際研討會上,世界計算機“三巨頭”的代表一針見血地指出,中國信息產(chǎn)業(yè)嚴(yán)重受阻的原因是中國計算機的不普及,而不能普及的原因又是計算機的操作復(fù)雜和漢字輸入難!99年6月28日,在專家云集的北京“21世紀(jì)的計算”學(xué)術(shù)研討會上,“計算機數(shù)字處理漢字難”的問題,成為會議討論的議題之一,并呼吁要花氣力解決“計算機數(shù)字處理漢字難”問題。究竟現(xiàn)行雙字節(jié)漢字處理系統(tǒng)的局限性在何處?請看如下事實
為什么會出現(xiàn)“計算機數(shù)字信息處理漢字難”這個難題?主要原因是由于中文計算機在設(shè)計初期的“高位置1”造成的。大家知道,計算機開始進(jìn)入中國時,計算機的軟硬件是專門為西文設(shè)計的,當(dāng)時根本無法處理中文。后來人們從西文計算機的高位置“0”的信息交換碼原理得到啟發(fā),得出以高位置“1”的雙字節(jié)來表示漢字和設(shè)計中文計算機的思路,并且一直應(yīng)用于整個中文計算機的設(shè)計過程?,F(xiàn)行中文計算機的軟硬件設(shè)計均是西文計算機軟硬件的二次開發(fā),是西文計算機軟硬件的附屬品和嫁接物,總算解決了“計算機處理中文問題”。殊不知在慶幸漢字在計算機中有了立腳之地時,又為計算機中文處理的發(fā)展帶來了眾多缺陷和災(zāi)難??v觀二十年來計算機中文信息處理的發(fā)展歷程,人們喜憂兼有。由于高位置“1”思路和“雙字節(jié)”概念的錯誤引導(dǎo),把人們的設(shè)計思想長期固化在一個設(shè)計模式上。
為了方便敘述,我們把“高位置1”的中文操作系統(tǒng)或中文平臺(或稱外掛平臺)統(tǒng)稱為"雙字節(jié)漢字處理系統(tǒng)"。以雙字節(jié)漢字處理系統(tǒng)為技術(shù)核心的電腦稱為“雙字節(jié)漢字電腦”,以區(qū)別于本文提出的新概念“全信息計算機漢字表達(dá)式”、“全信息計算機漢字處理系統(tǒng)”和“單字節(jié)漢字電腦”。
高位置“1”的雙字節(jié)原理所設(shè)計的中文計算機的思路給中文計算機的發(fā)展帶來的局限和災(zāi)難與計算機“千年蟲”一樣,其危害性是顯而易見的;
(一)東西方文字結(jié)構(gòu)關(guān)系的長期被顛倒
高位置“1”的雙字節(jié)設(shè)計思路,把英文的“字母”與漢字的“字”等同看侍。大家知道,計算機在處理英文時,只處理52個大小寫字母,但計算機在處理中文時,則要處理成千上萬個漢字。計算機處理英文52個大小寫字母非常容易,處理成千上萬個漢字就難了。為了解決漢字的計算機輸入和處理問題,竟把漢字的“字”等同于英文的“字母”,人為地拉開計算機處理西文與中文的技術(shù)差距,造成了漢字在內(nèi)部表達(dá)上的混亂。這種設(shè)計思路也違反了漢字的造字規(guī)律。
漢字的造字規(guī)律完全類似拉丁文字字母組單詞規(guī)律,所不同的是漢字在二維方向(平面)組字,而拉丁文在一維方向組字。95%以上的漢字都是形聲字,都由形旁和聲旁組成的。一個形聲字的形旁,可以和無數(shù)個聲旁組合成無數(shù)個漢字。如提手旁“扌”與“用”、“發(fā)”、“旨”、“旦”“困”、“罷”、“國”、“嬰”、“恩”、“門”、“臺”、“查”……等,組成“擁”、“撥”、“指”、“擔(dān)”、“捆”、“擺”、“摑”、“攖”、“摁”、“捫”、“抬”、“揸”等漢字。反之,一個聲旁,如“可”,也可以和“亻”、“阝”、“車”、“艸”、“钅”、“”、“讠”、“王”、“木”
、“氵”、“山”、“口”、“大”、“疴”、“月”、“”等形旁,組成“何”、“阿”、“軻”、“苛”、“鈳”、“坷”、“訶”、“珂”、“柯”、“河”、“岢”、“呵”、“奇”、“疴”、“胢”、“笴”等無數(shù)個漢字。顯然,大部份中國漢字是以形旁定義,以聲旁定音的。它們具有象形文字的優(yōu)點,也具有拉丁文字母組字的特性和功能。在聯(lián)合國使用的五種語種中,中文是最簡練的文字。同樣一篇發(fā)言稿,中文的篇幅比其它語種少三分之一。這就足以說明中文的簡練和內(nèi)涵的豐富。無疑,有著五千多年文化歷史的中文是世界上最優(yōu)秀的文字。但是,在計算機處理中文時卻變成最難處理的文字。這說明,目前計算機中文處理系統(tǒng)存在很大技術(shù)問題和缺陷,它不能真實反映中文的文字特點,也沒有發(fā)揮中文文字結(jié)構(gòu)優(yōu)勢。其中最主要的原因是在中文計算機的設(shè)計上,以中文的“字”長期對應(yīng)英文的“字母”,以漢字的“詞”(或句)對應(yīng)英文的“單詞”,由于文字結(jié)構(gòu)關(guān)系長期錯位,造成了計算機內(nèi)部設(shè)計沒有一個統(tǒng)一的全信息表達(dá)式,因而就存在著無法克服的缺陷。
(二)多極化的中文字符集和中文操作平臺
高位置1的設(shè)計思路,導(dǎo)致了中文字符集和中文平臺的多極化發(fā)展,出現(xiàn)了幾十種中文字符集和中文平臺,造成了人們在選擇上的無所適從和混亂,同時也造成了大量的重復(fù)開發(fā)和人力物力的極大浪費。大家知道,西文在計算機內(nèi)部被表示成單字節(jié)內(nèi)碼串,通常單字節(jié)的高位為0,西文字母及符號的內(nèi)碼被安排在0-127的范圍內(nèi),這是因為拉丁文字的字母(包括大小寫)加上常用符號總數(shù)往往不大于100個,而早期的計算機通訊是以單字節(jié)7個比特位加高位較驗位的方式進(jìn)行的。故拉丁文字符通常以0-127的碼集出現(xiàn),這就使得早期無法用單字節(jié)表達(dá)超過256碼的大字集而又要同時兼容西文字符集。設(shè)計者們很自然地想到利用高位置1的方式表示雙字節(jié)的漢字(臺灣的BIG5碼與GB碼的較大差別在于第二字節(jié)高位不置1)。由此而得到的雙字節(jié)表達(dá)空間是足夠包容當(dāng)時認(rèn)為的常用漢字空間。兩個字節(jié)的內(nèi)碼來識別每個漢字與符號(我們稱之為雙字節(jié)內(nèi)碼),即把幾千(或上萬)個漢字定義成一個大字符集。高位置“1”的雙字節(jié)規(guī)定了漢字字集的最大數(shù)量和系統(tǒng)提供訪問漢字地址的最大數(shù)是128×256=32768。在這個數(shù)目范圍內(nèi),中國制定了包括6763個漢字的國標(biāo)字符集(GB2312),臺灣也制定了包括13659個漢字的大五碼字符集(Big-5),日本制定了包括5801個漢字的日本文信息交換碼字符集,美國微軟公司制定了包括24288個漢字的聯(lián)合碼字符集(UNICODE)。形成畫地為牢,各自為政,互相不往來的混亂局面。于是,不同字?jǐn)?shù)、不同字體的東方大小字符集相繼產(chǎn)生,這些字符集包含了成千上萬個漢字字型信息,根據(jù)不同的字符集又設(shè)計出了不同的中文操作平臺或中文操作系統(tǒng)。如用GB碼作為內(nèi)碼集的PWINDOWS和PDOS和用BIG5為內(nèi)碼集的CWINDOWS和CDOS等。很顯然,中國制定6763個漢字的國標(biāo)字符集是最小字符集,它遠(yuǎn)遠(yuǎn)不能適應(yīng)用戶的需要。然而,在中國又開發(fā)了十多個超過6763個漢字的中文平臺或中文操作系統(tǒng),比較有名的有北大方正包括16300個漢字的中文操作系統(tǒng)。不同的中文操作平臺有不同的中文操作系統(tǒng)、不同的漢字內(nèi)碼和基於不同漢字內(nèi)碼的應(yīng)用軟件。這些不同的中文操作系統(tǒng),由于漢字內(nèi)碼的不一致,造成了各自系統(tǒng)的文本文件互相間不能讀出,所造新字更不能互相支持讀出和打印出來。在計算機領(lǐng)域又出現(xiàn)了所謂“跨平臺”的技術(shù)術(shù)語。其實,跨平臺的含義也是局部的,并不存在真正的跨平臺概念。它們的解決辦法是表面和不徹底的,只不過是提供了不同操作平臺的漢字內(nèi)碼轉(zhuǎn)換表而已,因為這種漢字內(nèi)碼轉(zhuǎn)換表并不能包括所有操作平臺的漢字內(nèi)碼表。所謂跨簡繁體操作平臺,它的技術(shù)難度是在一個簡體漢字等於若干個繁體漢字時,其內(nèi)外碼關(guān)系不是一一對應(yīng)關(guān)系。
(三)萬“碼”奔騰的混亂局面
西文只有一個操作平臺,一種英文輸入法。而在東方就有幾十種中文操作平臺和幾百種漢字輸入法出現(xiàn),這就足以說明計算機漢字內(nèi)碼表達(dá)是如此之混亂。據(jù)了解,至今平均每一周就有一個漢字輸入法問世。他們千篇一律把漢字的“字”與西文的“字母”相對應(yīng),多數(shù)以英文字母串對每一個漢字進(jìn)行編碼,形成一張張英文字母串和雙字節(jié)漢字內(nèi)碼映照碼表,呈現(xiàn)出似乎已經(jīng)解決了“漢字的輸入問題”。但在眾多的漢字輸入法中,至今沒有一種能夠普及到中國人和尋常百姓人家的??梢赃@樣說,漢字輸入法的大規(guī)模出現(xiàn)不是一個興興向榮的好事,而是一個更加混亂的、使人們在眾多輸入法面前無所適從的局面,是漢字輸入還沒有真正解決的標(biāo)志。20多年來,泱泱的計算機世界,漢字的信息處理,持續(xù)至今近20年而停滯徘徊。相反,英文計算機軟硬件系統(tǒng)只有一個ASCII信息交換碼和英文操作平臺,只有一種與ASCII信息交換碼一一對應(yīng)的英文鍵盤輸入法。英文沒有必要再發(fā)展另外的英文操作平臺和英文輸入法。到目前為此,我們?nèi)匀恍枰度氪罅抠Y全去研究西文早已解決了的輸入法和計算機文字處理系統(tǒng),去解決中文輸入難和計算機處理中文難的問題。由此可見,高位置“1”的雙字節(jié)設(shè)計思路所開發(fā)的中文計算機,讓我們付出了多么昂貴的代價?!叭f碼奔騰”局面何時了?
(四)中西文軟件互不兼容
高位置“1”的雙字節(jié)設(shè)計思路使計算機處理中文與西文有著本質(zhì)的區(qū)別。原因有二(1)西文系統(tǒng)軟件和應(yīng)用軟件在設(shè)計時是用ASCII碼字符集作為計算機的內(nèi)部交換碼,沒有考慮高位置“1”的雙字節(jié)漢字內(nèi)碼和安排訪問漢字的地址;(2)英文的TRUE TYPE字母字庫所占內(nèi)存字節(jié)數(shù)在100K字節(jié)以下,可以直接把幾百種字體調(diào)入內(nèi)存處理,而中文TRUE TYPE中文字庫所占內(nèi)存字節(jié)數(shù)在2000K字節(jié)以上,不可能把很多種漢字字體一次直接調(diào)入內(nèi)存處理。
由於西方的大部分軟件在制作時沒有考慮支持漢字,因此,大多數(shù)英文軟件都不能直接用于漢字處理。于是,能正常使用漢字的基本條件就變?yōu)椤爸形牟僮飨到y(tǒng)+漢化版軟件”。也就是說,西方開發(fā)商在開發(fā)一種新的軟件時,必須同時考慮開發(fā)兩種版本,一種適應(yīng)于西文計算機使用,另一種則適應(yīng)雙字節(jié)中文系統(tǒng)使用。以應(yīng)用最廣泛的微機領(lǐng)域為例,幾乎所有的開發(fā)商都開發(fā)了兩種版本的應(yīng)用軟件??傊?,不管是開發(fā)一種版本的還是開發(fā)兩種版本的軟件,運用于西文視窗上的,只能運行英文軟件;應(yīng)用于雙字節(jié)系統(tǒng)上的,也只能是雙字節(jié)的中文軟件,從而使東西方軟件的開發(fā)和應(yīng)用,人為地形成中西文兩種版本的區(qū)別和互不兼容,造成了巨大的人力物力浪費。
(五)中文信息數(shù)字化處理能力明顯弱於西文
首先請看“拉丁文系統(tǒng)與當(dāng)前中文系統(tǒng)綜合性能比較表”
拉丁文系統(tǒng)與當(dāng)前中文系統(tǒng)綜合性能比較表
從上面的論述中我們可以得出這樣的結(jié)論一種語言文字在計算機中處理的效率及擴展性和它的表達(dá)方式有著密切的關(guān)系。我們從上表可以看出,英文系統(tǒng)和當(dāng)前中文系統(tǒng)的內(nèi)碼表示是英文系統(tǒng)的內(nèi)碼為ASCII信息交換碼;當(dāng)前市場上流行的中文系統(tǒng)是雙字節(jié)0-32767內(nèi)碼。
西文系統(tǒng)的輸入碼是鍵盤鍵位英文字符本身,是1=1單一對應(yīng),不須進(jìn)行任何形式的所謂“編碼”;當(dāng)前流行的各種中文系統(tǒng)的輸入法是數(shù)百種用鍵盤字母串(或拼音字母串)對應(yīng)雙字節(jié)漢字和符號地址,千篇一律地對各自系統(tǒng)的字符集進(jìn)行各種形式的代碼編碼。
從字集的信息量看,西文每套字型只包含256個(一個單字節(jié))以下的字母字型(含符號),而當(dāng)前流行的中文系統(tǒng)的字型容量很大,有5801-24288不等的各種大字符集,占用存儲空間很大。
從字型的種類看,西文超過二千種,而當(dāng)前中文系統(tǒng)的字型種類則不足100種。
從內(nèi)碼與外碼的關(guān)系來看,當(dāng)前中文系統(tǒng)的內(nèi)碼與外碼是無關(guān)的,需建立映照關(guān)系;西文系統(tǒng)的內(nèi)碼與外碼相同。
從內(nèi)碼的擴充性和易交換性可以看出,西文由于字母的簡捷性和靈活性,極易擴充和交換,但目前中文系統(tǒng)的內(nèi)碼擴充性已經(jīng)固定不能擴充,且不易交換。
從以上比較中得出,目前流行的中文系統(tǒng)的文字處理功能明顯弱于西文。其表現(xiàn)還在于英文字母組單詞是無限的,而安排在各種字符集中的漢字是有限的。然而這些固定在字符集中的很多漢字,其利用率是相當(dāng)?shù)偷?,有很多字的使用頻度幾乎為“零”。但在各個領(lǐng)域又出現(xiàn)了永遠(yuǎn)造不完的缺字和僻字,而且各自系統(tǒng)(平臺)之間互相不能“讀出”,造成了許多尷尬和遺憾。
(六)高位置“1”的設(shè)計思路嚴(yán)重阻礙中文信息數(shù)字化處理技術(shù)的發(fā)展
從上面的分析中得出高位置“1”的設(shè)計思路嚴(yán)重阻礙中文信息數(shù)字化處理技術(shù)的發(fā)展。雙字節(jié)設(shè)計絕對不是中文系統(tǒng)的發(fā)展方向,它的進(jìn)一步發(fā)展,將導(dǎo)致中文系統(tǒng)技術(shù)的發(fā)展受到更加嚴(yán)重阻礙。二十年前中文計算機的設(shè)計者們采用高位置“1”的雙字節(jié)內(nèi)碼安排漢字的數(shù)量和地址,人為地給漢字規(guī)定了一個有限的字符集和有限的漢字地址。從理論上來講人類文字的進(jìn)步和發(fā)展是無限的。如英文“牛津字典”的英文單詞就收集了四十一萬四千八百二十五個。中國的“康熙字典”是目前收集漢最多的字典,也只不過有四萬二千多個漢字。然而,按照漢字的聲旁和形旁造字法,又可造出是無限個中國漢字?,F(xiàn)行的這種有限的字符集來定義無限個發(fā)展的字符集是不符合人類文明進(jìn)步和發(fā)展的規(guī)律的。
高位置“1”設(shè)計的第一個難題是字符集大小和漢字?jǐn)?shù)量的限定。計算機發(fā)展初期,其內(nèi)存是非常寶貴和有限的,處理速度非常慢。字符集太大,計算機處理更困難,字符集太小,所規(guī)定的漢字又不能滿足需要。在中國,經(jīng)過大量的統(tǒng)計工作,制定了國家標(biāo)準(zhǔn)(GB-2312),收集了6763個漢字。臺灣采用13659個漢字的大五碼字符集。在當(dāng)時6763個漢字是合理的,小字符集使中文系統(tǒng)的設(shè)計、中文輸入法的設(shè)計和中文字庫的制作變?yōu)楹唵稳菀?。計算機發(fā)展到今天,已經(jīng)滲透到各個領(lǐng)域,特別是在印刷出版領(lǐng)域,6763個漢字是不適應(yīng)其發(fā)展需要的。一個最簡單例子是中國總理朱镕基的“镕”字,沒有收集到6763個漢字內(nèi)。每天的新聞和出版物要處理這個缺字不是一個簡單的事。象以上情況何只“镕”一個字,在我們的報刊雜上不泛其數(shù),也經(jīng)常出現(xiàn)同樣的笑話。99年7月28日,《揚子晚報》第12版(A)刊登一篇短文,題目叫《出門早看天》,文中開頭第三行對天空的描寫有這樣一句話“早上還是晴空萬里,不久便見烏云云愛云逮”,使人百思不知其解。后來才發(fā)現(xiàn),原來是報紙在排版時,計算機字庫里沒有“叆叇”二字,只好用“云愛云逮”四個字代替“叆叇”二字了。
美國微軟公司為了解決計算機中文處理的多字集、多平臺的混亂局面,制定了聯(lián)合碼字符集(UNICODE),提供計算機訪問24288個漢字地址,它收集了包括中國國標(biāo)6763個漢字、臺灣13250個漢字和日本5801個漢字,字?jǐn)?shù)總數(shù)達(dá)到二萬多個,在WINDOWS 95得到運用,希望一統(tǒng)東方市埸。
聯(lián)合碼字符集的解決方案是否是漢字計算機處理的最終解決方案?答案是否定的。因為《康熙字典》的字仍然有半數(shù)以上的漢字沒有收集進(jìn)去,韓文中有二萬多個漢字沒有收集。高位置“1”的雙字節(jié)規(guī)定了漢字最大數(shù)量和系統(tǒng)提供訪問漢字地址的最大數(shù)是128×256=32768,如果要把這些字完全收集進(jìn)去,很顯然要定義高位置“1”的三字節(jié)地址,這顯然是不現(xiàn)實的。因為字符集愈大,使用頻度為零的漢字愈多,計算機處理中文的效率就愈底。正是由于這個原因,使用聯(lián)合碼字符集的用戶是不多的。這是美國微軟公司利用系統(tǒng)優(yōu)勢,強行制定的系統(tǒng)標(biāo)準(zhǔn)。到目前為止,沒有一種輸入法能很好地訪問聯(lián)合碼字符集。聯(lián)合碼字符集解決方案的設(shè)計思想仍然是高位置“1”的有限字符集,它不能從根本上解決因設(shè)計思想帶來的缺陷和限制。盡管聯(lián)合碼字符集包括中國、中國臺灣和日本的漢字,但由於政冶原因美國微軟公司不得不搞三個版本的聯(lián)合碼字符集,而這三個版本的漢字內(nèi)碼表示又是不相同的。
以上六點足以說明,現(xiàn)行的計算機中文處理的缺陷和問題是因為當(dāng)初計算機中文處理設(shè)計者的疏忽,只考慮簡單易行,沒有認(rèn)真思考將來的發(fā)展。這一情況類似于計算機“千年蟲”問題,由於當(dāng)初設(shè)計者的疏忽,為了節(jié)省內(nèi)存,沒有給年份足夠的字節(jié)位表示,到了2000年,給人類帶來巨大的經(jīng)濟捐失。在十五年前,就已經(jīng)有人對高位置“1”的設(shè)計思想提出質(zhì)疑,并提出了以漢字的部件組字的方案,但沒有得到應(yīng)有的重視。設(shè)想一下,英文計算機的設(shè)計者采用了高位置“1”的辦法來給英文41萬個單詞劃一個有限的字符集空間,處理英文與處理中文一樣,對每一個單詞進(jìn)行編碼,字庫占據(jù)了龐大的內(nèi)存。幾乎所有的人都會同時認(rèn)為將是一個降低計算機處理英文效率的最愚蠢的設(shè)計方案。
在計算機處理英文時,這樣一個人人都認(rèn)為愚蠢的設(shè)計方案卻伴隨計算機中文處理系統(tǒng)走了二十年。世界上最大的、技術(shù)實力最強的軟件公司——美國微軟公司也采用這樣一個愚蠢的設(shè)計方案,提出和實施了“聯(lián)合碼字符集”方案。中國人最了解中文,他們是在中文環(huán)境中長大的,可是,中文計算機要依賴美國人來設(shè)計,這就有點不可思議了。到目前為止,還沒有人用計算機的方法去揭示我們祖先創(chuàng)造漢字的規(guī)律,也沒有人在理論和實踐上證明中國的象形文字在計算機上同樣可以用52個中文母字組成無窮盡個漢字,組字規(guī)律和方法完全相同於英文,輸入中文與輸入英文一樣簡單和容易。能否尋找一種有效的方法,解決以上缺陷而使得中文信息的計算機處理起死回生呢?回答當(dāng)然是肯定的。
本文提出了“全信息計算機漢字處理系統(tǒng)的實現(xiàn)方法”,是針對目前計算機領(lǐng)域出現(xiàn)的以上問題,采用數(shù)學(xué)公式推理、漢字的計算機的“樹”表示法和軟件制作,提出了解決方案,從理論和實踐上揭示漢字的組字規(guī)律和提出全新的計算機漢字處理設(shè)計思想、觀點、規(guī)范、標(biāo)準(zhǔn)和實現(xiàn)這些設(shè)計思想、規(guī)范和標(biāo)準(zhǔn)的方法和途徑。本發(fā)明技術(shù)可以制作成系統(tǒng)軟件或系統(tǒng)芯片安裝到電腦里組成“尖端單字節(jié)漢字電腦”。本發(fā)明也是前九個發(fā)明(八個是分項發(fā)明)的總結(jié)、總體構(gòu)思和總體實現(xiàn)方法。1998年10月12日我們申請了“尖端單字節(jié)漢字電腦”(申請?zhí)?8111533.0,1999年10月20日公布)。為了解決“單字節(jié)漢字電腦”的實施技術(shù)問題,我們又分別申請了若干分項發(fā)明,它們分別是“尖端碼漢字字母字鍵盤”(1998.10.12日申請,申請?zhí)?8111531.4);“中文字母字組字技術(shù)”(1999.6.28日申請,申請?zhí)枺?9114284.5);“中文字母字編碼法”(1999.6.28日申請,申請?zhí)?9114283.7);和“一字到位檢字法”(1999.6.28日申請,申請?zhí)?9114285.3)。與本發(fā)明一起申請的另外四個分項發(fā)明,它們分別是“無編碼概念的中文字母字輸入法”、“全信息漢字表達(dá)式和實現(xiàn)方法”、“同舟自動造字法”、“九宮漢字輸入法”。本發(fā)明是一個總體構(gòu)思,并提出新的系統(tǒng)規(guī)范或標(biāo)準(zhǔn)。
下面是全信息計算機漢字處理系統(tǒng)(亦稱“F系統(tǒng)規(guī)范”)實現(xiàn)方法的全面論述。為論述方便,下面我們把全信息計算機漢字處理系統(tǒng)簡稱為“F系統(tǒng)”。
二、全信息漢字計算機表達(dá)式的提出
何謂全信息漢字表達(dá)式?我們可以認(rèn)為表達(dá)方式的含義是漢字在計算機中的信息表示,即漢字輸入代碼、漢字的中文字母字組成方式、中文字母字的存放形式、提取方式、中文字母字在計算機內(nèi)部的交換方式和這些中文字母字之間的相互關(guān)系。它用數(shù)學(xué)表示的方法揭示漢字形聲字的組字規(guī)律。這是F系統(tǒng)實現(xiàn)的理論基礎(chǔ)。見分項發(fā)明申請專利《全信息漢字表達(dá)式和實現(xiàn)方法》。
(一)拉丁體系文字與象形文字的比較
下表對兩大體系文字在基本元素、語義單位、意群、獨立概念、完整闡述等作如下比較,然后逐一剖述。
拉丁文體系文字與象形文字的結(jié)構(gòu)對照表
從上表可以看出兩種文字體系的對應(yīng)關(guān)系西文的“字母”對應(yīng)中文的“字母字”(即漢字的筆畫、部件、偏旁、部首);西文的單詞(如Home、You、Study)對應(yīng)中文的“字”和“詞”(如家、你、學(xué)習(xí)等);其余的文字結(jié)構(gòu)基本上是一樣的。西文的字母所對應(yīng)的是漢字的筆畫、部件、偏旁、部首等。我們經(jīng)過精心篩選后,把這些漢字的基本組字單元定義為“中文字母字”。中文字母字具有獨立的漢字的語義,同時具有拉丁字母的組字特性和功能。它們可以互相組合成所有的象形方塊文字。而英文字母只是一種符號,沒有任何的意思和含義,兩種文字之間的區(qū)別就在于此。英文的單詞是由拉丁文的基本元素——字母構(gòu)成的,而中文則由字母字在二維的平面關(guān)系上疊拼而成(也可以用某種一維的字符串來表示),從而產(chǎn)生了中文的“字”與西文的“單詞”有著表達(dá)上的相似性和共同點。
(二)五十二個中文字母字的確定
在計算機內(nèi)部處理上,要理順中文與英文的文字結(jié)構(gòu)對應(yīng)關(guān)系,就是尋找漢字和拼音文字的共同點,細(xì)心挖掘象形文字的造字規(guī)律以及它們也具有的簡捷性和靈活性,滿足F系統(tǒng)實現(xiàn)的必需條件。提出漢字是由52個中文字母字組成的,中文字母字對應(yīng)英文字母的新觀點和新理論,就是基於絕大部份漢字的構(gòu)成都是形旁和聲旁的左右拼合(完全相同英文組單詞)和上下疊加(類似英文組單詞,不同的是漢字是在縱方向(即Y方向)組字的。所有漢字均可用五種筆劃橫(一)、豎(丨)、撇(丿)、捺()、點(丶)組成。這是漢字構(gòu)字的兩個基本規(guī)律。52個中文字母字相當(dāng)於英文52個大小寫字母。我們用計算機統(tǒng)計挑選出35個形旁、5種單筆劃和12種復(fù)合筆劃構(gòu)成52個中文母字,解決了全信息漢字計算機表達(dá)式的關(guān)鍵技術(shù)。
在52個中文字母字中,26個對應(yīng)26個英文小寫字母,另外26個對應(yīng)26個英文大寫字母。它們的對應(yīng)關(guān)系如下a/冂;b/
;c/扌;d/;e/;f/丶;g/一;h/丨I/亠;j/丿;k/宀;l/;m/;n/;o/;p/二;q/日;r/犭;s/衤;t/阝;u/;v/艸;w/亻;x/乛;y/ナ;z/
A/月;B/門;C/車;D/木;E/魚;F/白;G/酉;H/山 I/廣;J/禾
;K/石;L/口;M/尸;N/馬;O/饣;P/王;Q/目;R/;S/火;T/十;U/讠;V/革;W/人;X/钅;Y/蟲;Z/女。
(三)全信息漢字?jǐn)?shù)學(xué)表達(dá)式
要了解全信息漢字的數(shù)學(xué)表達(dá)方式,首先必須了解漢字結(jié)構(gòu)的樹表示法。不同的漢字有不同的結(jié)構(gòu)樹,如果對樹的計算機表達(dá)搞清楚了,全信息漢字的數(shù)學(xué)表示也就不難理解了。我們把每一個漢字理解為一棵樹,漢字的集合(段落和篇章)就構(gòu)成“森林”,每棵樹都有自己的不同的結(jié)構(gòu)(分枝),不同的葉子(筆劃和部件)和不同的深度(分枝數(shù))。(如附
圖1所示)
定義樹是一個或多個結(jié)點的有限集合。
1、有一個特殊標(biāo)記的結(jié)點,稱為根。
2、剩下的結(jié)點構(gòu)成幾個不相同的集合,
F1、F2、F3、……,F(xiàn)n N≥0
每一個Fi,i=1、2、3……,N是根的分枝
3、層次;指樹的深度和分枝層次。
有許多名詞是與樹有關(guān)的,列舉如下
“結(jié)點”,通常被用耒表示某個信息以及由其出發(fā)而指向其它信息的所有分枝。如結(jié)點“覆”是指漢字“覆”加上它的三個分枝。樹可以有不同的畫法,是與日常生活植物“樹”相反的。如我們將樹的根畫在最上面的,一個結(jié)點的分枝數(shù)目,被稱為該結(jié)點的“度”或者“級”,而“覆”是一個四度結(jié)點。而結(jié)點“西”、“丿”、“亻”、“”、“日”、“女”和“攵”是0度結(jié)點,0度結(jié)點稱為葉子或者終端結(jié)點,“西、丿、亻、、日、攵”是根為“覆”所有葉子的集合。相應(yīng)地其它結(jié)點稱為非終端結(jié)點(覆、復(fù)、彳、復(fù)、)是根為“覆”的所有非終端結(jié)點的集合。
結(jié)點的層次可以遞歸地定義,即先定義根的層次為1,然后再定義分枝為第二層結(jié)點、第三層結(jié)點,直到第N層結(jié)點。一棵樹的深度或高度定義為該樹上所有結(jié)點具有的層次數(shù)的最大值。因此,以“覆”為根的樹是三層次樹,或稱其深度為“3”的樹。
N根不相交的樹(N≥0)的集合稱為森林。如果我們把漢字轉(zhuǎn)換成一棵樹,所有不能分割的漢字部件和筆畫(中文字母字)稱為葉子。顯然對一棵樹而言,葉子的集合越小,生成的樹的深度愈大,反之,葉子的集合越大,則生成的樹深度越小。在實際應(yīng)用中,為了用52個中文字母字來表示無限個漢字,“覆”字中的“西”和“夂”還可以進(jìn)一步往下分為“西”=一、冂、丿、;“夂”=
、;
在計算機科學(xué)中,有許多樹的表達(dá)方法,本文采用“表結(jié)構(gòu)”表示法。表結(jié)構(gòu)的記號為Fi{T1(A、B、C、D、)、T2(A、B、C、D)......Tn(A、B、C、D)}
其中Fi表示表的名稱,而T1、T2、……Tn表示該表的元素。A、B、C、D分別表示每個元素的結(jié)構(gòu)信息、定位信息、尺寸信息和其它信息。i=1~∽N≥1
按照樹的結(jié)構(gòu)表達(dá)式,我們可以得到全信息漢字的數(shù)學(xué)表達(dá)式F=∑fi{T1(a、b、c)、T2(a、b、c)……Tn(a、b、c)}
i=1-∽
n≤256
F定義為漢字的集合,集合的數(shù)量由i定義,可以是無限的。
Tn表示中文字母字元素。n≤256表示組成漢字的中文字母字元素小于256。在實際應(yīng)用中,n=52;
a表示中文字母字所處結(jié)點的結(jié)構(gòu)信息;
b表示中文字母字的定位信息;
c表示中文字母字尺寸信息。
我們分折漢字的樹表示法,目的是尋找一種能夠表達(dá)每個具體漢字全部信息的結(jié)構(gòu)單元和組字單元,也就是說找出語言文字的計算機處理要素和全信息漢字表達(dá)式。
(四)全信息漢字?jǐn)?shù)學(xué)表達(dá)式的實現(xiàn)方法
根據(jù)以上的全信息漢字?jǐn)?shù)學(xué)表達(dá)式,可以得到52個中文字母字組成漢字的實際表達(dá)式。在得到實際表達(dá)式之前,我們定義如下參數(shù)
缺省值表示中文字母字;
“1”表示漢字的左右結(jié)構(gòu);
“2”表示漢字的上下結(jié)構(gòu);
“3”表示漢字的左中右結(jié)構(gòu);
“4”表示漢字的上中下結(jié)構(gòu);
“5”表示漢字的獨體結(jié)構(gòu);
“6”為漢字的遞歸定義符,它表示該漢字的全信息表達(dá)式。是采用遞歸調(diào)用方法實現(xiàn)的
a(x,y)表示中文字母字的尺寸參數(shù);
b(x,y)表示中文字母字的位移參數(shù);
下面是“覆”字在實際應(yīng)用中的表達(dá)式
覆=2[5一門丿-1(2
亻3(日5(
)]
以上“覆”字的表達(dá)式中共有11個中文字母字,每個中文字母字都有一個中文字母字的二維尺寸參數(shù)和一個中文字母字的二維位移參數(shù),總數(shù)是55個字節(jié)字符串,再加上結(jié)構(gòu)符,總數(shù)是65個字節(jié)字符串。很顯然,每個漢字的平均字節(jié)字符串大約在60個字節(jié)左右。英文每個單詞的平均字節(jié)字符串在7個字節(jié)左右,再加上一維尺寸參數(shù)和一維位移參數(shù),每個英文單詞的平均字節(jié)字符串大約在20個字節(jié)左右。漢字的平均字節(jié)字符串是英文單詞的三倍。但是,從漢字“覆”的結(jié)構(gòu)中,我們看到“覆”字是一個由漢字“西”和“復(fù)”組成的上下結(jié)構(gòu)漢字,而“復(fù)”字又是由字母字“彳”和漢字“復(fù)”組成的左右型漢字,而“復(fù)”字還可以進(jìn)一步分為由“”、“日”和“夂”組成的上中下結(jié)構(gòu)漢字。漢字“夂”又可分為由中文字母字
和“”組成的獨體字。漢字的組構(gòu)形式是字組字,字中有字,而字又是由偏旁部首和筆劃組成的。我們對所有漢字進(jìn)行了詳細(xì)的拆分和組合,發(fā)現(xiàn)以形聲字為主體的中國漢字,其結(jié)構(gòu)和組字規(guī)律相當(dāng)明顯。據(jù)統(tǒng)計,在漢字中使用頻度最高的是“口”字,使用次數(shù)在1000次以上,其余的算是“氵”、“艸”、“木”、“日”、“扌”、“亻”、“月”、“钅”等,它們的使用頻度都在200-500次之間,還有為數(shù)不少的獨體字、形旁、聲旁、部首、部件和漢字筆畫,都有不同數(shù)目的使用頻度。這就給我們一個新的算法95%以上的漢字可以采用數(shù)學(xué)中的“遞歸定義算法”加以定義,只有5%使用頻度高的獨體漢字,偏旁部首需要全信息漢字表達(dá)式定義,而且只需要定義一次,不用理會它們出現(xiàn)的頻度。采用“遞歸定義算法”同樣達(dá)到用全信息漢字表達(dá)式定義每一個漢字的目的。
按照“遞歸定義算法”,漢字“覆”的全信息漢字表達(dá)式就變?yōu)槿缦卤磉_(dá)式
覆=2[6西6復(fù)]
西=5一門丿-
復(fù)=1[6彳6復(fù)]
復(fù)=3[日6夂]
夂=5
“6”表示漢字的遞歸定義符,是表示該漢字的全信息表達(dá)式。采用遞歸調(diào)用方法,其字節(jié)占用數(shù)明顯下降。a(x,y)的二維尺寸參數(shù)和b(x,y)的二維位移參數(shù)中的x值就變?yōu)?,這就告訴我們二維方向的漢字組字技術(shù)也可在一維方向上組字。從此,漢字組字與英文字母組單詞一樣簡單和容易。漢字“覆”的字符串所占用的字節(jié)總數(shù)就變?yōu)?1個字節(jié)(包括遞歸定義符,結(jié)構(gòu)定義符,尺寸參數(shù)和位移參數(shù))。由于考慮到5%漢字的全信息漢字表達(dá)式增加的字節(jié)數(shù)為65×5%近似等於4個字節(jié),“覆”字的字符串所占用的字節(jié)總數(shù)就增加到11+4=15個字節(jié)。采用遞歸定義算法,“覆”的字符串所占用的字節(jié)總數(shù)由65個字節(jié)變?yōu)?5個字節(jié),信息量壓縮了4倍,比英文單詞的平均字符串所占用的字節(jié)數(shù)(20個)減少了5個字節(jié)數(shù)。
采用遞歸定義算法,國標(biāo)字符集(GB-2312)中的6763個漢字的全信息表達(dá)式總的字節(jié)數(shù)大約可下降至100K左右,這個數(shù)加上52個TRUE TYPE中文字母字字庫的字節(jié)數(shù)30K,總字節(jié)數(shù)等於130K。目前,在雙字節(jié)中文操作系統(tǒng)和視窗(如Windows95和Windows98)中使用的TRUE TYPE中文字庫,每一種字型占用的字節(jié)總數(shù)大約在2000K(2M)字節(jié),這個數(shù)是130K的近16倍。可以肯定,遞歸定義算法的全信息漢字表達(dá)式大幅度壓縮了漢字的信息量,使東方的象形文字的信息量相同於拉丁體系文字的信息量。
下面是國標(biāo)(GB2312)字符集16區(qū)(94個漢字)采用遞歸定義算法得出的全信息漢字表達(dá)式?。?[口6阿]阿=1[阝6可]埃=1[6矣]挨=1[扌6矣]哎=1[口6艾]唉=1[口6矣]哀=5[亠口6
]皚=1[白6豈]豈=2[山6已]癌=2[疒6喦]藹=2[艸6謁]矮=1[6
6委]艾=5艸丿礙=1[6石6
]愛=2[爫冖6友]隘=1[阝6益]鞍=1[革6安]氨=2[氣6安]安=1宀女俺=1[亻6奄]按=1[扌6安]暗=1[日6音]岸=4[山廠6干]胺=1[月6安]案=2[6安木]骯=1[月6亢]昂=2[日6印]盎=2[6央6皿]凹=5凹丨-丨-敖=1[6
6攵]熬=2[6敖6灬]翱=1[6皋6羽]襖=1[衤6天]傲=1[亻6敖]奧=2[6
6大]懊=1[忄6奧]澳=1[氵6奧]芭=2[艸6巴]捌=3[扌6另6刂]扒=1[扌6八]叭=1[口八]吧=1[口6巴]笆=2[6巴]八=5丿疤=2[疒6巴]巴=5丨一拔=1[扌6
]跋=1[6
]靶=1[革6巴]把=1[扌6巴]耙=1[6
6巴]壩=1[6貝]霸=2[6
6
]罷=2[罒6去]爸=2[6父6巴]白=白柏=1[木白]百=5一白擺=1[扌6罷]佰=1[亻6百]敗=1[6貝6攵]拜=1[5
二丿5二二丨]稗=1[禾6卑]斑=3[王6文6王]班=3[王丶丿6王]搬=1[扌6般]扳=1[扌6反]般=1[6舟6殳]頒=1[6分6頁]板=1[木6反]版=1[6片6反]扮=1[扌6分]拌=1[扌6半]伴=1[亻6半]瓣=3[6
瓜6辛]半=5丷二丨辦=5[6力
丶]絆=1[纟6半]邦=1[5二一丿阝]幫=2[6邦6巾]梆=1[木6邦]榜=1[木6旁]膀=1[月6旁]綁=2[纟6邦]棒=1[木6奉]磅=1[石6旁]蚌=1[蟲6豐]鎊=1[钅6旁]傍=1[亻6旁]謗=1[讠6旁]苞=2[艸6包]胞=1[月6包]包=5勹-褒=4[亠6保6
]剝=1[6錄6刂]
采用遞歸定義后,國標(biāo)(GB-2312)16區(qū)94個漢字全信息表達(dá)式90%的漢字可以用左右型、上下型結(jié)構(gòu)像英文一樣在一維方向(X方向或Y方向)組漢字。5%的漢字是左中右和上中下型結(jié)構(gòu),也可以像英文一樣在一維方向組漢字。僅有5%的漢字需要全信息表達(dá)式,這些字絕大部份是音旁漢字或稱獨體漢字。這就足以證明用52個中文字母字可以組成所有漢字。
全信息計算機漢字表達(dá)式真實地反映了漢字是由形旁和聲旁組成形聲字的結(jié)構(gòu)規(guī)律。設(shè)想一下,如果每一個形旁和聲旁都可以組成一個形音結(jié)合的漢字,那么這種組字方法的原理是可以組成無窮盡個漢字,表現(xiàn)在計算機領(lǐng)域的概念,就是漢字的計算機中文信息數(shù)字化處理是沒有任何字符集概念的。
三、中文字母字信息交換碼(CACII)的制定
信息是記錄整個人類文明史的形式,人類一時一刻也離不開信息。信息必須在人類社會中不斷交換、比較和更新,孤立的信息是沒有意義的。因此,電子計算機和電訊科學(xué)的發(fā)展都要求世界上有一個統(tǒng)一的信息交換用的標(biāo)準(zhǔn)代碼,這是創(chuàng)立全球信息通訊網(wǎng)的必要條件。一九六三年美國標(biāo)準(zhǔn)學(xué)會率先制定了美國信息交換標(biāo)準(zhǔn)代碼(USA Standard Code for Information Interchange),簡稱為ASCII代碼,一九六八年作為美國聯(lián)邦信息處理標(biāo)準(zhǔn)而頒布。一九六七年,國際標(biāo)準(zhǔn)化組織ISO(The International Organization for Standardization)制定了ISO建議書R646-1967,一九六八年十月國際電報電話咨詢委員會CCITT通過了國際字母表5號(CCITT RV3,International Alphabet No.5),均與ASCII代碼大致相同。
目前的各大計算機公司一般均以ASCII代碼為內(nèi)部碼來設(shè)計電子計算機系統(tǒng),但也有例外的,例如IBM公司的內(nèi)部碼是EBCDIC碼(Extended Binary-Coded-Decimal Interchange Code)。因此,當(dāng)IBM系統(tǒng)的電子計算機與以ASCII碼作為內(nèi)部碼的電子計算機進(jìn)行通訊時,還必須換碼。
在東方,所有的中文操作系統(tǒng)、中文視窗、各種各樣的應(yīng)用軟件和工具軟件均是英文軟件的二次開發(fā)和嫁接。并不能獨立于英文系統(tǒng)之外而自行開發(fā),也沒有基於中文的計算機信息交換碼。由于52個中文字母字的全信息表達(dá)式的實現(xiàn),制定一個基於中文的計算機信息交換碼標(biāo)準(zhǔn)作為F系統(tǒng)的內(nèi)碼已成為可能。我們稱它為“中文字母字信息交換碼”,英文縮寫為CACII(Chinese AlphabetCodefor Information Interchange)。一個最簡單的方法是用52個中文字母字和中文的標(biāo)點符號替換ASCII交換碼的52個大小寫英文字母和英文的標(biāo)點符號而成為CACII交換碼,也可以獨立於ASCII代碼自行定義,成為中國的CACII交換碼標(biāo)準(zhǔn)。
四、F系統(tǒng)規(guī)范下的中文字母字鍵盤
計算機鍵盤在計算機的應(yīng)用中有著重要的作用,它是人與計算機溝通的橋梁和工具。用戶的各種命令的輸入,主要靠鍵盤完善的成。如我們要查看磁盤、光盤中的各類文件,通常是通過鍵盤輸入顯字文件目錄的命令,當(dāng)我們擊一下<ENTER>鍵,屏幕上立即顯示出當(dāng)前目錄下的所有文件名稱、長度和建立日期等。用下劃線標(biāo)出的“DIR”即從鍵盤輸入的“顯字文件目錄”鍵入命令。鍵盤上的“ENTER”用于表示命令輸入結(jié)束、開始執(zhí)行。稱之為“回車鍵”。
通過鍵盤,人們就可以輸入包括文字、數(shù)字、各種符號在內(nèi)的各種信息,也可以完成各種信息的編輯和信息的保存。輸入信息是文字處理工作最常見、最基本的工作。通過鍵盤實施輸入,以達(dá)到對計算機某種功能的控制。在鍵盤的鍵位中,不是所有的鍵位都是用來輸入具體內(nèi)容的,如<F1>、<PAUSE-暫停>、<CTRL-控制>等,這些鍵位是被賦予某種控制功能,或者與其它鍵位組合,起著某種控制作用的。如<PAUSE-暫停>鍵是暫停運行控制鍵,在顯示目錄的操作中,如按下此鍵,各種目錄將被暫停顯示,當(dāng)再按任意鍵時,又會被繼續(xù)暫停目錄顯示。在操作運行其它程序時,如按此鍵,同樣起著“暫停運行”的作用。
又如組合鍵<CTRL-控制>+<ALT-轉(zhuǎn)換>+<DEL-刪除>的使用,完成“系統(tǒng)熱起動”(重新起動)的功能,但鍵盤上有些鍵位功能是視不同的軟件而定的,因此,有的鍵位功能的使用,要結(jié)合各軟件具體賦予該鍵的功能而定。
人類當(dāng)前在計算機文字處理工作中的各編輯控制要求,多數(shù)是通過鍵盤來控制的,現(xiàn)代人的文字處理工作,除輸入信息外,還有很多的愿望和要求,如要查看自己輸入內(nèi)容、效果,修改、增加、刪除自己的文本文件,確定修改部位等,這一系列操作稱為編輯控制。鍵盤上的編輯控制操作鍵,通常處在鍵盤右側(cè)的編輯區(qū)域內(nèi)。要特別注意的是,在使用編輯時必須是編輯環(huán)境下(即允許進(jìn)行編輯操作的環(huán)境)才能使用,這是使用編輯鍵的首要條件。
長期以來,計算機鍵盤都是以英文為主體和以英文為符號標(biāo)記而設(shè)計的,因此,不懂英文和拼音的大部分文化水平較低的普通老百姓,在初學(xué)鍵盤輸入時,根本無法辯認(rèn)繁雜的功能鍵如何操作,初上戰(zhàn)場兩眼一般黑,造成了學(xué)習(xí)的壓力和不便。目前仍沒有一個純中文的計算機鍵盤問世。
由于全信息漢字表達(dá)式的發(fā)明和中文字母字信息交換碼(CACII)的制定,一個純中文用戶介面的、F系統(tǒng)規(guī)范下的中文字母字計算機用戶鍵盤的制作已成為現(xiàn)實。(見分項發(fā)明專利、申請?zhí)?8111531.4)
五、F系統(tǒng)規(guī)范下的中文字母字組字技術(shù)
要了解中文字母字組字技術(shù),首先要了解中文字庫的生成技術(shù)。中文字庫的生成技術(shù)有兩種流派。一種流派認(rèn)為;由偏旁部首組成的字呆板,不美觀,因而必須使用人工畫字的方法來保證每套字的風(fēng)格。另一種流派則認(rèn)為,人工寫字花費的時間太多,而且字型的隨意性太大,一次性差,不規(guī)范。在實際的造字實踐中,我們按照漢字的結(jié)構(gòu)規(guī)律,以漢字字母字距離參數(shù)來完成字型的設(shè)計。遵循這些規(guī)律和數(shù)據(jù),就可以用計算機進(jìn)行計算,這樣,生產(chǎn)出來的字型必然優(yōu)于人工畫出來的字。我們根據(jù)這一造字技術(shù),用計算機計算一套中文字母字的相關(guān)距離參數(shù)、尺寸大小參數(shù)(簡體、繁體各一套),然后根據(jù)不同的字體、字型的風(fēng)格,用計算機調(diào)整數(shù)據(jù)庫的各個字母字的參數(shù)來制成新的中文字母字的數(shù)據(jù)庫。這樣,可以大大節(jié)省制作一套新字體所需的時間。如要制作一套國標(biāo)GB-2312(80)字符集的6763個漢字的簡體字,原來需要造6763個漢字,現(xiàn)在只造52個中文字母字就可以了,借助“同舟計算機自動造字”程序自動完成,能節(jié)省十倍以上的造字時間。
(一)中文字庫的生成原理
Postscript頁描述語言是美國ADOBE公司在1986年研究開發(fā)的。全世界生產(chǎn)的打印設(shè)備、激光打印設(shè)備、圖形描述設(shè)計軟件、排版軟件等都使用該語言來設(shè)計軟件包和打印程序。Postscript中文字庫是采用該語言來描述漢字的邊緣或輪廓。
在該字庫出現(xiàn)之前,中國北大方正的王選先生發(fā)明了用矢量來描述字的輪廓,用矢量來逼近字的輪廓邊緣部分,這種字庫稱之為“矢量字庫”。在這之前,上海印刷技術(shù)研究所采用Bitmap字庫,也就是“點陣字庫”。該字庫最大點陣做到1024×1024,所占的信息量大,北大方正的“矢量字庫”,用矢量來描述,大大提高了字的質(zhì)量,減少了字庫的信息量,其基本原理如附圖形2所示。
Postscript中文字庫的曲線部分是采用貝氏函數(shù)二次方程式來描述字輪廓的曲線部分,其基本原理如圖形2所示圖示的一段曲線,A點是起始點,B點是終點。在二維座標(biāo)上知道A(X1、Y1)、B(X2、Y2)、C(X3、Y3)、D(X4、Y4)這四點的位置就可以通過貝氏函數(shù)二次近似方程式來計算該曲線的軌跡,大大提高了漢字的質(zhì)量和精度。通過這樣處理的字無限放大后不會出現(xiàn)任何拐點和失真,比“矢量字庫”的字的精度提高了六倍以上。目前尖端單字節(jié)漢字計算機的中文字母字庫,全部采用Postscript頁描述字的輪廓,用貝氏函數(shù)二次近似方程式來描述字的輪廓曲線,因此,大大提高了字庫的質(zhì)量和精度。(見附圖3)
(二)中文字母字字庫的生成原理和過程
大家知道,英文字母是由A、B、C、D等52大小寫字母通過輸入計算機,便可組成成千上萬個單詞。中國漢字?jǐn)?shù)量超過英文字母幾百倍,要把它們?nèi)糠湃胗嬎銉?nèi)存,象英文字母一樣的地輸入和處理,不減少漢字的信息量是不可能完成的。全信息漢字處理系統(tǒng),采用中文字母字組字原理,把漢字的信息量減少到只有52個中文字母字的信息量,形成與英文字母一樣的一個0-255單字節(jié)字庫,放到系統(tǒng)的軟件中,供計算機輸入、輸出調(diào)用。經(jīng)過深入的探索,科學(xué)的論證,我們認(rèn)為是非常可行的。采用新穎的漢字字庫的生成技術(shù),為計算機自動組拼漢字提供了可靠的技術(shù)保障,使?jié)h字在計算機的深層次應(yīng)用以及漢字輸入與英文字母的輸入達(dá)到真正的統(tǒng)一,一樣簡單和容易。
要了解中文字母字字庫的生成原理,首先要了解計算機是如何將英文字母組成英文單詞的。由于有了美國ADOBE公司發(fā)明的Postscript頁描述語言,使得英文字母組拼單詞非常簡單。因為英文字母是由直線段和曲線段組成的,曲線段是由起始點、終點,起始點切線控制點和終點、切線控制點共四點組成的。通過這四點的二維座標(biāo)數(shù)據(jù),就可以組成一條曲線方程式,并通過該曲線、直線等線段就可以組成一個閉合面積。單字節(jié)英文字母字庫就是存儲這樣一個描述英文字母的直線段和曲線段數(shù)據(jù)。如當(dāng)你在鍵入一個由四個英文字母組成的英文單詞“Word”時,ADOBE公司開發(fā)的ATM字庫管理軟件,能讀出Postscript的字庫描述信息,當(dāng)ATM軟件接到你鍵入的W、o、r、d這四個英文字母時,首先要根據(jù)各個字母的寬度表參數(shù)來安排這四個英文字母的相應(yīng)位置。然后,根據(jù)你所給出的各個字母的大小參數(shù)(印刷術(shù)語稱磅數(shù),英文稱POINT)來計算出各個字母的大小。如果您還給出壓偏、拉長、空心等操作,ATM根據(jù)您給出的指令來控制從字庫讀出的信息進(jìn)行您所需要的操作和計算,最后在計算機的屏幕上按照您的要求顯示出W、o、r、d這四個字母組成的單詞“Word”,并且打印出這個詞。
在這里,ATM字庫管理軟件發(fā)揮了重要作用。由于ADOBE公司發(fā)明的這套技術(shù),使得屏幕上顯示的字母可以無限放大而無任何的拐點和失真,打印出來的字與屏幕上顯示的字的信息源完全相同,真正做到了What you see is what youget,意思是“所見即所得”,它在西方排版軟件技術(shù)領(lǐng)域是一個很重要的指標(biāo),也是一句非常流行的技術(shù)術(shù)語,其意思是“您在屏幕上見到的顯示和打印出來的輸出完全吻合,沒有任何失真”。當(dāng)然,這也完全歸功于美國ADOBE公司發(fā)明的Postscript頁描述語言。這個重要的特性在西方排版軟件技術(shù)領(lǐng)域是非常熟悉的。(請見附圖4——“遞歸組字示意圖”)
根據(jù)英文組成單詞的操作,我們用這個操作模擬執(zhí)行中文字母字的組字和輸入操作。由于ADOBE有計算機頁描述語言,使得中文字母字組字與英文字母組單詞的原理完全一樣。首先我們根據(jù)全信息計算機漢字處理系統(tǒng)提供內(nèi)部碼表達(dá)的中文字母字串,采用Postscript來描述中文字母字的直線段和曲線段,用該語言描述生成一個Postscript單字節(jié)中文字母字?jǐn)?shù)據(jù)庫,排列方式和各種組字?jǐn)?shù)據(jù)格式與英文字母字庫一樣,并把它們安排在系統(tǒng)的軟件中。例如我們輸入國際字符集16區(qū)第一個字“啊”,計算機首先讀到的信息是“啊”的遞歸定義表達(dá)式“1[口6阿],口字是字母字,計算機則到中文字母字庫讀到“口”的Postscript描述數(shù)據(jù),根據(jù)1表示的左右結(jié)構(gòu)信息對字母字“口”進(jìn)行寬度壓縮處理,壓縮處理后的數(shù)據(jù)放到內(nèi)存等待“阿”字的數(shù)據(jù)?!鞍ⅰ弊智懊娴?表示調(diào)用“阿”的遞歸定義式為“1[阝6可]”,阝是字母字,計算機則到中文字母字庫讀到“阝”的Postscript描述數(shù)據(jù),根據(jù)1表示的左右結(jié)構(gòu)信息對字母字“阝”進(jìn)行寬度壓縮處理,壓縮處理后的數(shù)據(jù)放到內(nèi)存等待“可”字的數(shù)據(jù)。“可”字前面的6表示調(diào)用“可”的全信息表達(dá)式為“5一口”,計算機讀到“可”的全信息表達(dá)式為“5一口”時,認(rèn)定它是一個獨體字,根據(jù)全息表達(dá)式,計算機自動組成“可”的Postscript描述數(shù)據(jù),并進(jìn)行寬度壓縮處理,壓縮處理后的數(shù)據(jù)與“阝”組成“阿”字?!鞍ⅰ弊衷谶M(jìn)行寬度壓壓縮處理后的數(shù)據(jù)與“口”組成“啊”。如果對“啊”字還有壓偏、拉長、空心等操作,計算機會根據(jù)這些指令進(jìn)行,最后,在計算機的屏幕上按照您的要求顯示出“啊”字,并打印出該字。從上面的論述可看出,一個復(fù)雜的漢字借助全信息漢字表達(dá)式變?yōu)?2個中文字母字在一維方向的組拼漢字技術(shù),完全正實了漢字在52個中文字母字的確定之后,其組字的原理和難度是一樣的。找到了兩種文字在表達(dá)上的共同點,計算機自動造字就成為現(xiàn)實了。
六、計算機自動造字法的實現(xiàn)
只有在F系統(tǒng)規(guī)范下才能實現(xiàn)計算機自動造字過程。實現(xiàn)的條件是(1)系統(tǒng)內(nèi)生成52個中文字母字庫;(2)必需具有訪問中文字母字庫的中文字母字內(nèi)部交換碼;(3)必需建立全信息計算機漢字的表達(dá)式知識庫;(4)必需具備“中文字母字組字拼字技術(shù)”。只有具備了以上四個條件,計算機自動造字才能真正實現(xiàn)。
全信息漢字表達(dá)式提供了計算機組成每一個漢字的所有信息,它們分別是中文字母字信息、結(jié)構(gòu)信息、尺寸信息和移位信息。通過遞歸定義算法和借用全信息漢字表達(dá)式知識庫,計算機可以造出無窮無盡的、風(fēng)格完全一致的漢字,也可以造出風(fēng)格完全不同的無數(shù)種字型。下面介紹三種方法
(一)借用全信息漢字表達(dá)式知識庫
設(shè)定我們巳經(jīng)定義了一套字體的全信息漢字表達(dá)式知識庫,則新增加的漢字僅僅用遞歸定義算法加以定義。以下這些新增加漢字的全信息表達(dá)式可簡化為如下形式翈=1[6甲6羽]眆=1[目6方]睧=1[目6昏]睴=1[目6軍]矃=1[目6寧]瞚=1[目6寅]眗=1[目6句]朇=1[6會6卑]鵂=1[6休6鳥]儬=1[亻6靚]儭=1[亻6親]歟=1[6與6欠]
=2[6穴6出]冞=2[冖6米]
計算機根據(jù)遞歸定義算法自動生成這些漢字。在面向用戶的實際造字操作比以上還要簡單,詳見下節(jié)。
(二)定義新的全信息漢字表達(dá)式
如果我們新增加的漢字在全信息漢字表達(dá)式知識庫里找不到該字的定義,必須增加新的全漢信息漢字表達(dá)式補充給知識庫。舉例如下
設(shè)定“綗”字是我們需要新增加的一個左右型漢字,但在目前知識庫里并沒有右邊部件字
的全信息表達(dá)式定義,所以需要增加新的定義;
=5冂
丶口
綗=1[
6
]
計算機根據(jù)這些新的定義自動生成“綗”這個左右型結(jié)構(gòu)的漢字。
這個聲旁字,又可以與形旁字造出無數(shù)個新的形聲字。
(三)創(chuàng)造新的全信息漢字表達(dá)式知識庫
用傳統(tǒng)的造字方法生產(chǎn)一套漢字字庫是一件相當(dāng)費工費時的繁重任務(wù)。完成一套6763個漢字字庫的制作要花掉一人一年的時間。如果借助全信息漢字表達(dá)式和遞歸定義算法,只需精心制作52個中文字母字字庫和調(diào)整修正尺寸參數(shù)庫和移位參數(shù)庫,創(chuàng)造新的全信息漢字表達(dá)式知識庫,這樣,一套6763個漢字制作大概一人半個月的時間便可完成。通過改變52個中文字母字的型狀和風(fēng)格,很容易產(chǎn)生系列新的字型字體,也可以是無限擴大的字?jǐn)?shù),即由一個只有6763個漢字字符集變?yōu)橐粋€無字符集概念的無限個漢字概念的中文世界。然而,這樣一個騰空跨越,完全歸功于中文字母字的確定和全信息漢字表達(dá)式的實現(xiàn)。
“全信息漢字表達(dá)式知識庫”這個概念的提法是借助計算機能理解漢字的結(jié)構(gòu)和組成,并能寫出這個漢字,計算機具有寫漢字的智能。計算機全信息漢字表達(dá)式知識庫應(yīng)包括以下幾個內(nèi)容(1)漢字獨體字和音旁字的全信息漢字表達(dá)式;(2)所有收入到52個中文字母字的形旁字的全信息漢字表達(dá)式;(3)部份特殊復(fù)合字的遞歸定義表達(dá)式式;(4)形旁字與聲旁字互相組拼形聲字的寬度表。如果計算機全信息漢字表達(dá)式知識庫具有以上幾方面的信息,計算機就能造出無窮無盡的形聲字,這是造字領(lǐng)域的又一技術(shù)跨越,無疑將給出版印刷領(lǐng)域、計算機傳統(tǒng)文化的挖掘和整理帶來福音。(詳見發(fā)明專利《同舟自動造字法》)
七、F系統(tǒng)規(guī)范下的中文字母字輸入法
(一)目前雙字節(jié)漢字輸入法的主要缺陷
F系統(tǒng)規(guī)范下的中文字母字輸入法與現(xiàn)行英文輸入法完全相同。但與現(xiàn)行的中文輸入法有著本質(zhì)區(qū)別。這是因為現(xiàn)行的中文輸入法有著以下幾個不可克服的缺陷
1、漢字輸入編碼帶來的缺陷
現(xiàn)行的數(shù)百種中文輸入法都是在高位置“1”的雙字節(jié)中文系統(tǒng)下開發(fā)的。眾多的中文輸入法利用ASCII信息交換碼字符集中的英文字母和數(shù)字對漢字字符集中的每一個漢字進(jìn)行編碼,生成英文字母和數(shù)字串對應(yīng)漢字字符集中漢字的碼表。如果某一個漢字沒有進(jìn)行編碼,用戶是絕對無法訪問這個漢字的。如僅對國標(biāo)6763個漢字編碼的輸入法是無法調(diào)用大五碼字符集的漢字,更不可能調(diào)用聯(lián)合碼字符集中的二萬多個漢字。到目前為止,在高位置1設(shè)計思路指導(dǎo)下的數(shù)百種漢字輸入法,仍然沒有一種漢字輸入法能調(diào)用聯(lián)合碼字符集中的二萬多個漢字的,這個字庫目前仍形同虛設(shè)。調(diào)用某個漢字的前提條件是具有該漢字的編碼。因此,在現(xiàn)行的雙字節(jié)中文系統(tǒng)中,無論在任何一個平臺上造出某一個新字,到其它系統(tǒng)和平臺上永遠(yuǎn)是讀不出和打印不出這個新漢字的。西文輸入系統(tǒng)沒有這個缺點,其原因就是西文輸入無需編碼,直接輸入字母本身。漢字輸入需要編碼這個缺陷在計算機文字處理領(lǐng)域的影響不可低估。
2、無法克服的重碼現(xiàn)象
由於高位置1下的各種輸入法,都要對每一漢字進(jìn)行編碼,其編碼的工作量和復(fù)雜性是顯而易見的。“重碼”是幾百種中文輸入法設(shè)計者最難解決的問題。在對相對小的字符集6763個漢字進(jìn)行編碼時,可能只有幾十個到百把個重碼,但擴大到對聯(lián)合碼二萬個以上漢字進(jìn)行編碼,重碼率將以幾十倍的數(shù)量增加而導(dǎo)致輸入法不能使用。事實證明,在高位置1的思路下設(shè)計的任何一種漢字輸入法,都不可避免重碼的產(chǎn)生。這就是目前雙胞胎字節(jié)中文輸入法的一個致命的弱點。
3、違反漢字結(jié)構(gòu)和書寫規(guī)律,誤導(dǎo)漢字文化教學(xué)
眾多的輸入法為了追求某些指標(biāo),避免重碼,在設(shè)計漢字輸入法的過程中,無一例外不同程度地都違反漢字的結(jié)構(gòu)規(guī)律和筆畫書寫順序。為了降低重碼率,人為地造出很多生造字,或把漢字毫無規(guī)律地拆分成幾百個字根,既難學(xué)又難記,操作復(fù)雜。有些輸入法在編碼時,東西南北四角取碼,有的取首筆為碼,有的取尾筆為碼,造成漢字結(jié)構(gòu)和書寫筆順混亂,書寫和輸入脫節(jié),長此下去,幾百種輸入法繼續(xù)普及,中國漢字就有分為多門多派的可能。二十多年來,難怪沒有一種輸入法能普及到普通老百姓中去的。
(二)無編碼概念的中文字母字輸入法的特點和優(yōu)勢
目前,我們提供的尖端國際通用漢字輸入法試用版還不是在F系統(tǒng)規(guī)范下的中文字母字輸入法,它僅是模似試用版本,仍然保留很多雙字節(jié)輸入法的缺陷。一但F系統(tǒng)開發(fā)完成,在F系統(tǒng)規(guī)范下的“無編碼概念的中文字母字輸入法”將具有與目前雙字節(jié)中輸入法截然不同的特點和優(yōu)勢。
1、無編碼概念
無編碼概念就是中文字母字輸入法的主要特點和技術(shù)優(yōu)勢。我們所說的無編碼,并不意味著計算機在內(nèi)部處理時完全不依賴“碼”進(jìn)行搜索、轉(zhuǎn)移和映照處理,而是指文字輸入不須其它諸如字母、阿拉伯?dāng)?shù)字、拼音字母或者除本文字之外的其它符號作為代碼的一種直接輸入本文字的字母、組字符號的無編碼輸入過程。拉丁文字體系的計算機輸入就是典型的無編碼概念的輸入形式。無編碼概念主要表現(xiàn)在中文字母字輸入法輸入的是有限的中文字母字,而得到無限的漢字?jǐn)?shù)目。不需要人為地、事先編一個對應(yīng)無限個漢字?jǐn)?shù)目的碼表。而計算機是根據(jù)輸入的中文字母字自動組成漢字的。絕大部份漢字不存放在計算機中,漢字的輸入完全取決中文字母字的形狀。這里舉一個簡單例子漢字大約有230個形旁,500個聲旁,形旁和聲旁可組成的漢字?jǐn)?shù)是230×500=115000,現(xiàn)行的中文輸入法是無法對它們進(jìn)行編碼和調(diào)用的而我們設(shè)計的中文字母字輸入法就非常簡單和應(yīng)用自如。如以下漢字“晭、睭、晍、曎、瞯、瞯、瞤、眑、瞷、晽、睄、眫、
、眻、睅”等,都是一些偏僻漢字,中文字母字輸入法僅僅輸入形旁字和聲旁字即可。如晭=1日周瞷=1目間睭=1目周晽=1日林晍=1日同睄=1目肖曎=1日睪眫=1目半瞯=1目閒
=1目委瞤=1目閏眻=1目羊眑=1日幼睅=1目旱
按照以上漢字的右部的表達(dá)式順序輸入計算機,左部漢字就由計算機自動組合完成。用編碼概念的現(xiàn)行中文輸入法是無法調(diào)用這些沒有編碼的漢字。正如前面所談,99年7月28曰,《揚子晚報》第12版出現(xiàn)的“云愛云逮”笑話就不存在了,這四個字就自動變?yōu)椤皡Α倍€字。這充分顯示了無編碼概念的中文字母字輸入法的技術(shù)特點和優(yōu)勢。
2、無字集概念
這是由無編碼概念引伸出來的另一個特點和優(yōu)勢。中文字母字輸入法可調(diào)用的漢字是無限的,不受任何字符集的限制,可訪問漢字的多少僅受形旁字和聲旁字的多少限制,即每增加一個形旁和聲旁字,就可以幾百倍數(shù)量增加漢字的字?jǐn)?shù)。可以這樣說,中文字母字輸入法沒有您找不到的漢字。但可造出和訪問無窮無盡的、浩瀚的漢字海洋。
3、無重碼概念
無重碼概念是中文字母字輸入法又一特點和技術(shù)優(yōu)勢,全信息漢字表達(dá)式是眾多中文輸入法無法解決的技術(shù)難題的克星。目前在漢字輸入法的編碼過程中產(chǎn)生重碼的根本原因是中文輸入法的設(shè)計者想用最少的英文字母串對大字符集進(jìn)行編碼?,F(xiàn)行中國的大部份中文輸入法都采用四個等長碼來對國標(biāo)(GB2312)個6763個漢進(jìn)行編碼。重碼率是各輸入法成功的重要指標(biāo),到目前為止,還沒有一種輸入法能克服重碼的。原因之一是在大多數(shù)中文輸入法編碼中,每一個英文字母都平均承擔(dān)近8個以上不同編碼字素,它不像英文字母那樣是一一對應(yīng)關(guān)系,而是1∶8不等的非等同關(guān)系,這樣就非常容易產(chǎn)生重碼。原因之二是字符集太大。6763個漢字中每一個漢字必須編碼,用四個等長碼來編碼已經(jīng)很吃力,如果改用五個等長碼就可以消滅重碼,但又增加了擊鍵數(shù),影響輸入速度。中文輸入法的設(shè)計者又不愿意為了消滅重碼而增加擊鍵數(shù)。這與一個僅能承擔(dān)100公斤擔(dān)子的人,卻要他承擔(dān)150公斤擔(dān)子的道理是一樣的。
中文字母字輸入法為什么能達(dá)到無重碼概念 這是因為中文字母字輸入法是直接輸入中文字母字,無須對6763個漢字進(jìn)行編碼。據(jù)我們對漢字結(jié)構(gòu)的長期分析和研究,漢字的95%以上都是由形旁字、聲旁字組成形聲字或者單獨形成獨體字。每一個形聲字按結(jié)構(gòu)分為左右型(3%的漢字是左中右)和上下型(3%的漢字是上中下)。如采用遞歸算法,簡體漢字是由大約230個形旁字和500個聲旁字組成。這些形、聲字又可以由52個中文字母字定義組成。在漢字輸入時,面對用戶的是如何用52個中文字母字來區(qū)別這700多個形旁字和聲旁字。在實際輸入中,按漢字結(jié)構(gòu)從左到右,從上到下,先輸入形旁字(形旁字共有230個),其中33個已安排在鍵盤上,只需要在對應(yīng)的中文字母字鍵盤上擊打一鍵。其余的形旁字按筆順和組字的先后次序輸入兩個中文字母字。輸入完形旁字后應(yīng)輸入聲旁字。聲旁字共有500個左右,用52個中文字母字按聲旁字的筆順筆順和組字的先后次序,一鍵一個中文字母字輸入。大部份聲旁字只輸入二個中文字母字即可,少部份輸入三個字母字,組字拼字由計算機完成。在不等長的取碼原則中,如遇重復(fù)(重碼)可多取一碼,僅影響個別字,并不影響全局。這些設(shè)計思路確保中文字母字輸入法絕無重碼。這就像輸入英文單詞一樣,英文單詞是不等長字母串,使用頻度最高的代詞、介詞、副詞和動詞都用最少的英文字母串來表示的。每一個英文單詞都有唯一的字母串。
4、無簡繁體概念
由于歷史的原因,中國漢字的輸入長期存在簡體和繁體之分。臺灣、香港、澳門和日本以及海外華人,仍使用繁體輸入,而國內(nèi)用戶則使用簡體漢字輸入。兩種輸入方法互不來往,交流甚少,造成很多信息交流的不便。簡繁體輸入不統(tǒng)一的原因也是由於“編碼”的設(shè)計思路造成的。簡體漢字有三千多個是與繁體不同的。不同之處是由幾個形旁字、聲旁字和部份獨體字引起的。如簡體形旁“饣”、“馬”、“讠”、“貝”、“钅”、“門”、“車”等,又如簡體聲旁和獨體字“電”、“韋”、“頁”、“邦”、“辦”、“豐”、“錄”、“筆”、“采”、“倉”、“只”、“個”、“帶”、“當(dāng)”、“壽”、“東”、“風(fēng)”、“糞”、“干”、“龜”、“歸”、“癸”、“夯”、“耗”、“壞”、“畫”等。如把字符集擴大到所有漢字,簡繁體差別要達(dá)到上萬個?,F(xiàn)有的輸入法是無法對這些簡繁體差別進(jìn)行編碼區(qū)分的。如要區(qū)分開來,所付出的代價是相當(dāng)昂貴的,同時也是不適用的。長期以來,海峽兩岸和海外華人都盼望有一種統(tǒng)一的漢字輸入法。F系統(tǒng)的規(guī)范,把簡繁體漢字輸入統(tǒng)一在一個平臺上,簡繁體字的區(qū)別僅僅限制在形旁、聲旁和部份獨體字的區(qū)別,數(shù)量只有幾百個字,且很容易區(qū)分。在F系統(tǒng)上的簡繁體漢字的“外碼字母字”的提取原則是一致的,同樣是直接輸入簡繁體的中文字母字,組字由計算機自動完成。這就從根本上解決了長期以來漢字的簡繁體輸入不統(tǒng)一的狀況。
八、F系統(tǒng)規(guī)范對未來計算機技術(shù)發(fā)展的影響
目前,所有的中文操作系統(tǒng)、中文視窗、各種各樣的應(yīng)用軟件和工具軟件均是在英文軟件的基礎(chǔ)上進(jìn)行的二次開發(fā)和嫁接。根本不能獨立于英文系統(tǒng)之外而自行開發(fā)。F系統(tǒng)規(guī)范的實現(xiàn),使獨立于英文系統(tǒng)之外的全信息計算機漢字處理系統(tǒng)的自行開發(fā)成為可能。F系統(tǒng)的實現(xiàn),是我們經(jīng)多年思考和研究的“尖端字庫”、動態(tài)單字節(jié)中文系統(tǒng)和視窗、“中文字母字組字技術(shù)”、“尖端單字節(jié)漢字電腦”研究的繼續(xù)、延伸和統(tǒng)一,該系統(tǒng)有自己的中文字母字信息交換碼(CACII)、52個中文字母字字庫、52個中文字母字鍵盤、無編碼概念的中文字母字輸入法、全信息漢字表達(dá)式知識庫、中文字母字組字技術(shù)和計算機漢字自動生成技術(shù)。該系統(tǒng)在設(shè)計思想上完全不同於現(xiàn)行的雙字節(jié)中文系統(tǒng)或平臺。F系統(tǒng)規(guī)范的問世將逐浙取代現(xiàn)行的雙字節(jié)中文系統(tǒng)。一旦F系統(tǒng)規(guī)范被愈來愈多的人接受,它將逐漸成為F系統(tǒng)標(biāo)準(zhǔn)(F-Standard)。今后世界上的文字處理可望達(dá)到只有兩大系統(tǒng),即“F系統(tǒng)”和“非F系統(tǒng)”。F系統(tǒng)等相關(guān)技術(shù)的應(yīng)用,對人類未來的影響是相當(dāng)深遠(yuǎn)的。它的影響將表現(xiàn)在以下幾個方面
(一)F系統(tǒng)的技術(shù)特點(優(yōu)勢)
本文一開始就已經(jīng)指出了現(xiàn)行高位置“1”的雙字節(jié)中文系統(tǒng)(包括美國微軟公司的中文WINDOWS 95和WINDOWS 98)的缺陷和不足。我們用一句話來總結(jié)它們的缺陷和不足,那就是;多平臺、多字集、多編碼、多輸入法、無擴充性、無兼容性、互不往來和處理效率極低的雙字節(jié)中文系統(tǒng)。而F系統(tǒng)具有的鮮明特點和超前的優(yōu)勢,能使我國的中文信息數(shù)字化處理技術(shù)接近和超過世界先進(jìn)水平。
1、無限的擴展性
人們一直盼望著能在計算機上讀取到包括“康熙字典》在內(nèi)的所有簡繁體漢字,特別是在印刷、出版、高層次的文字、考古等領(lǐng)域,解除計算機大量的缺字和所造新字互相不能讀出的尷尬和困憾,其反應(yīng)尤為強烈。人們不忍心看到龐大的字集占據(jù)著寶貴的內(nèi)存空間。由于F系統(tǒng)固有的開放性,已完全建立在非F系統(tǒng)的“超集定義”之上,而并非只是“擴展”的概念。F系統(tǒng)能表達(dá)無限個漢字的信息,起到統(tǒng)一中西文平臺的效果。同時,F(xiàn)系統(tǒng)是操作系統(tǒng)內(nèi)核的一部分,可以內(nèi)嵌在系統(tǒng)中,或者放在任何一臺計算機或非F系統(tǒng)上。這樣,在目前的各個領(lǐng)域中的那些永遠(yuǎn)造不完的缺字、僻字將不再是計算機文字處理的難題了。
2、“六無概念”的計算機文字處理系統(tǒng)
由于F系統(tǒng)規(guī)范是文字信息處理操作系統(tǒng)的內(nèi)部核心部分(注意所指的“文字”包括中文和拉丁文體系文字),是一種“無平臺、無字集、無編碼、無重碼、無簡繁體、無單雙字節(jié)概念”的文字處理系統(tǒng)系統(tǒng)。對于不同的操作系統(tǒng)(平臺)一但被F系統(tǒng)所規(guī)范,所規(guī)范后的系統(tǒng)也就成“無平臺、無字集、無編碼、無重碼、無簡繁體、無單雙字節(jié)”概念的系統(tǒng)。下面的例子足以說明“六無概念”之深刻內(nèi)涵一個用戶的計算機只有英文的操作系統(tǒng)(或平臺)和各種英文的應(yīng)用軟件、工具軟件和網(wǎng)絡(luò)軟件。因此,這個用戶不能輸入、運行、處理中文和輸出中文。該用戶的計算機英文操作系統(tǒng)(或平臺),一但被F系統(tǒng)所規(guī)范(即安裝和運行F系統(tǒng)軟件),該用戶的英文操作系統(tǒng)和各種英文的應(yīng)用軟件、工具軟件和網(wǎng)絡(luò)軟件的英文菜單、下拉式菜單、各種英文說明和英文幫助文件自動變?yōu)橹形牟藛魏椭形恼f明和幫助文件,各種軟件得到漢化。這些軟件均能輸入、運行、處理和輸出中文。這套系統(tǒng)也就變?yōu)榫哂懈咝阅艿闹杏⑽奈淖痔幚硐到y(tǒng)。也可以同時進(jìn)行簡繁體漢字輸入,所訪問的漢字是無限的,并具有無編碼、無重碼、無簡繁體區(qū)別的中文字母字輸入法。徹底解決東西方兩種版本軟件的兼容問題,改變了以往存在的運用于西文視窗上的,只能運行英文軟件;應(yīng)用于雙字節(jié)中文系統(tǒng)上的,也只能是經(jīng)過漢化的軟件的狀況。F系統(tǒng)規(guī)范下的計算機為何具有如此神奇的效果和功能呢?(請見附圖5——“計算機系統(tǒng)的三種界面”)
從附圖5計算機的三種界面的層次可看出,一個完善的計算機系統(tǒng)是由三層組成的,它們分別是裸機、系統(tǒng)軟件和應(yīng)用軟件。系統(tǒng)軟件是包在裸機外面的軟件,也稱底層軟件,是計算機的指揮系統(tǒng)和指揮中心,由很多功能軟件和功能模塊組成,直接與裸機硬件打交道,執(zhí)行裸機硬件和各種外設(shè)的管理、文件的管理、內(nèi)存的分配、存取方式、存儲方式等一系列操作。如DOS操作系統(tǒng)和視窗系統(tǒng)(WINDOWS 95和WINDOWS 98)。應(yīng)用軟件是外層軟件,它直接與系統(tǒng)軟件打交道并面向用戶,并不理會裸機硬件和各種外設(shè),它是由系統(tǒng)軟件提供的開發(fā)環(huán)境和功能而發(fā)展的軟件。如MS-WORD、PAGEMAKER、PHOTOSHOP、3CAD、COELDRAW等。英文系統(tǒng)軟件不能處理中文的原因正如前面所述,西文系統(tǒng)軟件和應(yīng)用軟件在設(shè)計時是用ASCII碼字符集作為計算機的內(nèi)部交換碼,沒有考慮高位置“1”的雙字節(jié)漢字內(nèi)碼和安排訪問漢字的地址。西文系統(tǒng)軟件和應(yīng)用軟件要能直接處理中文就必需解決深層次軟件漢化問題。
所謂“深層次漢化”是指對設(shè)計時沒有考慮支持中文的西文系統(tǒng)軟件的目標(biāo)代碼文件(目標(biāo)代碼文件是源代碼文件經(jīng)編譯后的文件)的再加工,用反匯編的方法插入“中文輸入模塊”和能訪問雙字節(jié)漢字地址的內(nèi)存管理模塊。深層次漢化的難度是相當(dāng)大的。四通利方公司開發(fā)的中文視窗和系統(tǒng)就是一個典型的軟件漢化例子。相反,F(xiàn)系統(tǒng)規(guī)范不存在深層次漢化的問題,原因很簡單,中文字母字的內(nèi)部交換碼實際上是ASCII碼英文字母和英文標(biāo)點符號與中文母字和標(biāo)點符號的替換。我們僅僅要插入的是“中文字母字組字”模塊。系統(tǒng)軟件的開發(fā)環(huán)境已提供字庫管理模塊的功能調(diào)用入口,不存在用反匯編方法的插入問題?!爸形淖帜缸纸M字”模塊的插入類似美國ADOBE公司開發(fā)的POSTSCRIPT字庫管理ATM的插入。在F系統(tǒng)規(guī)范下的英文應(yīng)用軟件無需開發(fā)漢化版本。中文字母字的輸入和內(nèi)部處理是完全相同英文字母的輸入和處理。
3、“世紀(jì)難題”的終結(jié)
20多年來,漢字的計算機處理由于文字的差異和雙字節(jié)概念的長期誤導(dǎo),使?jié)h字的文字結(jié)構(gòu)中“字母”與“字”的關(guān)系的長期顛倒,因而出現(xiàn)了在文字處理效率上明顯弱于西文的局限。表現(xiàn)為中西文的文字處理長期處于單雙字節(jié)的分離,文字結(jié)構(gòu)的顛倒,字集信息量的大小,各種中文平臺之間的兼容,內(nèi)外碼的不等同,字形種類的懸殊,內(nèi)碼的擴展性,文字的簡捷性、靈活性,以及易交換性等方面的弱點,而這些并不是中文在信息處理過程的缺點,出現(xiàn)這種狀況是人為的因素造成的,中國的中文信息數(shù)字化處理,陰差陽錯地沿著高位置1的路走了20多年,造成所謂的“世紀(jì)難題”,成了阻礙我國信息產(chǎn)業(yè)和軟件業(yè)發(fā)展的“瓶頸”。這就是所謂“漢字輸入普及難”的真正原因。F系統(tǒng)的實現(xiàn),使中文能與英文一樣在同一平臺上用同一方式直接輸入和處理中文,再無“平臺”和“系統(tǒng)”之差異。至此,“世紀(jì)難題”得以終結(jié)。
(二)改變傳統(tǒng)的教學(xué)方法
中國的漢字教育,在漢語拼音方案和漢字簡體字的改革之后,呈現(xiàn)了前所未有的良好局面,成績是有目共睹的。但是,中國的漢字教學(xué),在教學(xué)年限、教材的創(chuàng)意和教學(xué)方法上,沒有太大的進(jìn)步。正象計算機的漢字表達(dá)方式那樣,雙字節(jié)的問題長期阻礙人們的設(shè)計思路,造成了計算機的操作和表達(dá)上沒有太大的進(jìn)步一樣。特別是各種輸入法的編碼,根本沒有考慮漢字的書寫筆畫順序,不考慮學(xué)生學(xué)習(xí)漢文化的需要,一味強調(diào)計算機輸入的特殊性,人為造成計算機的輸入與漢文學(xué)教學(xué)的不協(xié)調(diào),對傳統(tǒng)文化是一種破壞,也是對漢文化教育的一種誤導(dǎo)。
中國的漢字教育是從小學(xué)生一年級真正開始的。就是說,中國兒童滿七歲之后,進(jìn)入學(xué)校開始,老師經(jīng)過日常生活中的事物和一些簡單的道理,通過漢語拼音和漢字書寫和釋義,教會學(xué)生認(rèn)字、讀音、理解漢字的字詞句和文章的,指導(dǎo)學(xué)生寫作的技能和技巧。而學(xué)生則通過死背硬記,硬是把老師教過的字、詞、句、文章強行記憶而逐漸認(rèn)識和理解漢字的。這種教學(xué)方法,在中國沿襲了幾千年,至今仍一代接一代繼承下來。從小學(xué)至大學(xué),漢字課程有增無減,浪費了大量的學(xué)習(xí)時間,加上中國漢字素有“三難”、“三多”之“美稱”,整個教學(xué)成就還是不盡人意,成人教育比較落后,中國老百姓的科學(xué)文化素質(zhì)得不到應(yīng)有的提高。在即將進(jìn)入21世紀(jì)之際,改革漢字教學(xué),縮短漢字教學(xué)年限,使學(xué)生(除專門從事文字專業(yè)的學(xué)生外)騰出更多的時間,學(xué)習(xí)高新科技,加速知識經(jīng)濟時代的進(jìn)程,將具有極其重要的意義。
全信息計算機漢字表達(dá)式的實現(xiàn)以及計算機漢字表達(dá)式知識庫的不斷充實,漢字結(jié)構(gòu)的全信息概念以及中文字母字組字技術(shù)的實現(xiàn),揭示了漢字可由52個中文字母字(35個形旁,5種單筆劃和12種復(fù)合筆劃)組成形旁和聲旁字(部份獨體字),并通過形旁字和聲旁字又可組成無數(shù)個漢字的造字規(guī)律,給我國目前漢字的信息表達(dá)得到完善和更新。因而將對我國的漢字教學(xué)提出了新的課題,對傳統(tǒng)的教學(xué)方法提出了有力的挑戰(zhàn)。
該系統(tǒng)還提供了所有中國漢字的電子字典,把漢字的全部表達(dá)形式,如內(nèi)、外碼、字的結(jié)構(gòu)、漢字拼音、漢字同音字、外碼字母字串、漢字的含義以及每個漢字所從的部首等。今后還逐漸增加漢字的各朝代的字形、含義的演變以及文字改革后漢字的變化特征、詞組規(guī)范化和文章結(jié)構(gòu)的分析等信息,輸入計算機的知識庫,計算機漢字全信息表達(dá)式把漢字的所有信息完整表達(dá)出來,既能與英文一樣的輸入計算機,也使學(xué)習(xí)漢字提供了規(guī)范化的漢字的形、音、意表達(dá)的傳統(tǒng)解釋和先進(jìn)快速的查檢方法,將深刻地影響著我國的文字教學(xué)領(lǐng)域。
運用計算機全信息漢字表達(dá)式,償試一種漢字教學(xué)的新途經(jīng),將使得具有悠久歷史的漢字和漢文學(xué)教育更加易學(xué)、易記、易讀、將為減輕學(xué)生的學(xué)習(xí)負(fù)擔(dān)、提高教學(xué)質(zhì)量,改變傳統(tǒng)的教學(xué)習(xí)慣,縮短教育年限,造就有用人才,普及計算機,促進(jìn)人類文明進(jìn)步,將產(chǎn)生深遠(yuǎn)的影響,將是另一個偉大的希望工程。
(三)印刷出版領(lǐng)域的文字處理效率
印刷出版領(lǐng)域是一個專業(yè)性很強的行業(yè)。該領(lǐng)域的文字處理要求有高效率的文字錄入,盡可能具有擴展性的造字補字功能(如排版專業(yè)字典的排版、與古文化相關(guān)的書籍等),需要造出目前字集未收入的漢字以及高品質(zhì)、多樣化的輸出字型。但是,長期以來由于在該領(lǐng)域內(nèi)使用的中文輸入系統(tǒng)和排版軟件的字集都是國標(biāo)GB2312的6763個漢字,使這些領(lǐng)域的那些已成為他們無法解決的難題的永遠(yuǎn)造不完的缺字、僻字感到困惑和遺憾。F系統(tǒng)具有無限的擴展性,所造出的字的內(nèi)外碼完全一致,并且可直接交換。此外,F(xiàn)系統(tǒng)還具有專用的中文字母字?jǐn)?shù)據(jù)庫方便快捷的同舟造字軟件,可以造出無窮盡的漢字。F系統(tǒng)含概了所有這些方面的專業(yè)要求,無疑將是印刷出版領(lǐng)域的最佳選擇。F系統(tǒng)的實現(xiàn),給該領(lǐng)域帶來了福音。
(四)漢語的計算機自然語言理解
計算機的自然語言理解是當(dāng)今人工智能科學(xué)的一個重要組成部分。自然語言的“構(gòu)字法”和“構(gòu)詞法”對計算機的自然語言理解是極其重要的。漢字是目前世界上唯一的象形表意文字,它除具有一般文字的構(gòu)字和構(gòu)詞屬性外,本身就具有拼音文字所沒有的豐富內(nèi)涵,尤其是繁體字更為突出。遵循漢字的構(gòu)字構(gòu)詞規(guī)律,借助漢語特有的最為精煉的語法,再輔助于浩瀚的語義字典,也許漢語將是世界上最理想的自然語言與計算機語言之間溝通的橋梁。
當(dāng)今的計算機,不管它的速度和存儲量的提高多么迅猛,硬件如何高速發(fā)展,仍屬于馮·諾依曼型體系結(jié)構(gòu)的第四代產(chǎn)品時期,距離真正基于人工智能第五代計算機還有相當(dāng)一段距離。這其中關(guān)鍵的因素是人工智能技術(shù)的發(fā)展問題。而人工智能的核心環(huán)節(jié)又是計算機對語言文字的理解問題。中文的語法精練,漢字的內(nèi)涵豐富,選擇漢語及經(jīng)過形式化處理后的類漢語(類似計算機的高級語言),與計算機架起一座溝通的橋梁,從理論上講漢語應(yīng)比拼音類語言具有更大的優(yōu)勢和潛力。因為F系統(tǒng)首先解決了擠身進(jìn)入智能計算機行列的首要條件——“輸入”和“全信息表達(dá)”和“構(gòu)字”問題。
計算機自1946年問世以來,至今已在人類各個領(lǐng)域發(fā)揮巨大的作用,已經(jīng)充分顯示了它的偉大生命力。計算機如此有效地以遠(yuǎn)遠(yuǎn)超出人的能力去計算一個幾十位數(shù)與另一個幾十位數(shù)的乘法,以及超出我們想象之外的許多奇跡,使人類情不自禁地想到計算機的聰明程度是否已經(jīng)超過了人類?事實證明,比起先進(jìn)的計算機來,人腦具有極為復(fù)雜的機制。人腦不適應(yīng)做復(fù)雜的數(shù)值運算。這是因為會做幾十位數(shù)乘法的能力對人類適應(yīng)環(huán)境并沒有多大的好處。而人類的真正本能是要聽別人講話,看到別人寫字,辨別食物和躲避危險。而今天的計算機卻非常難以模擬人類做這些本能的活動,但人類有沒有可能教會計算機具有視覺、聽覺、感覺、理解和推理?使計算機也有思維活動和在某種精神思維功能方面獲得成功呢?這種智能是人賦予計算機的,這種“機器”的智能,畢竟是與人的智能完全不同。如果“機器”具有智能的前提是掌握知識,那么人工智能系統(tǒng)又可以稱為基于知識的系統(tǒng),如果是基于中文知識的系統(tǒng),我們稱之為“基于中文概念的知識系統(tǒng)”,而存儲中文信息知識的倉庫稱為“中文知識庫”。
幾十年來,人們正為此竭盡全力,但幾經(jīng)興衰沉浮,效果甚微。隨著21世紀(jì)的到來,以及全信息計算機漢字處理系統(tǒng)的實現(xiàn)和計算機技術(shù)的飛速發(fā)展,人工智能又開始展現(xiàn)美好的前景。從理論上講凡是可以使用計算機的領(lǐng)域,凡是可以用計算機代替人的體力和腦力勞動的場合,都有人工智能的用武之地。但是,過去中文計算機的設(shè)計者,往往搞設(shè)計的不搞編碼和字庫,搞編碼的又不搞設(shè)計。有的搞化學(xué)的也搞字庫和編碼的。因而出現(xiàn)了很多設(shè)計和實現(xiàn)上脫節(jié)和不協(xié)調(diào)。如長期以來,人們在文字的字詞結(jié)構(gòu)長期顛倒,包括所有的中文計算機設(shè)計者和計算機書籍,都千篇一律地認(rèn)為每個由內(nèi)碼加以編碼的方塊漢字相當(dāng)于英語中的“字母”,即Character,所以方塊字的英文譯名為(Chinese Character),認(rèn)為漢語中的字(Word)就是英語中的字母(Character),都是字母對應(yīng)漢字的“字”。由于目前中文計算機內(nèi)部表達(dá)是以“字”為最小單元的,故在幾十年來計算機內(nèi)部表達(dá)上長期處于混亂狀。
象形文字的每個字,一般都有獨立的含義,因而它的文字結(jié)構(gòu)不應(yīng)等同于西文的字母,而正確的關(guān)系應(yīng)該是“字母”相同于漢字的“部件”。漢字全信息的內(nèi)部表達(dá)的字形信息,也不一定只限在部件一級,也可以包括筆畫,筆順,包括構(gòu)成成分,也包括構(gòu)成成分的意義,也可以是使用頻度很高的獨立漢字和形旁聲旁??上?,這些文字結(jié)構(gòu)的顛倒和中文計算機的設(shè)計一開始的誤入歧途,使計算機數(shù)字化處理埋下隱患,導(dǎo)致中文處理技術(shù)長期徘徊不前,操作和輸入難度很大,以致幾百萬上網(wǎng)用戶是清一色“文化人”的嚴(yán)重局面。設(shè)想,如果在文字結(jié)構(gòu)關(guān)系能理順,把有限的字母字集,還以它與有限的“中文字母字”字集的同等地位;把英語的龐大的字集對等于漢字的“字集”;把英語的“詞”對應(yīng)中文的“字”;把組成英文單詞的一個個“字母串”,等同于一個個“中文字母字串”;把在計算機內(nèi)部表達(dá)中被長期顛倒的文字關(guān)系理順過來,即每個由內(nèi)部碼加以編碼的方塊字不應(yīng)再視為相當(dāng)于英語中的“字母”了。其理由很簡單,漢字的字素是部件(包括筆畫和組合筆畫),是以字部件或筆畫組成字的,這些組成漢字的字素大都有獨立的含義,它們只是一部分組字的方向不甚相同而已,其實構(gòu)字構(gòu)詞的原理是完全相同的。由于字詞關(guān)系的長期錯位,表現(xiàn)在漢字計算機表達(dá)上也處于長期混亂狀態(tài)。“萬碼奔騰”就是這一錯位的最好說明。因此,在目前的中文系統(tǒng)上,是不可能讓計算機真正理解漢字的。
要完成計算機理解漢語文字,是一項艱巨的“計算機文化”工程。完成了全信息計算機漢字表達(dá)式,只是完成了計算機“知識庫”的中文“構(gòu)字”知識的第一步工作。我們還要通過教會計算機中文“構(gòu)詞”知識、寫作技能、醫(yī)學(xué)知識、繪畫知識、詩詞創(chuàng)作知識等人類知識,下來的工作更加艱巨。第二步我們要教會計算機中文語言學(xué)知識、結(jié)構(gòu)語言學(xué)知識、句法分析知識、文法生成知識等。目前當(dāng)務(wù)之急是在計算機系統(tǒng)的句法平面、詞匯平面、語義平面和語音平面上,教會計算機有分析語法的能力,增加計算機的人類知識廣度和深度,使計算機理解漢語文字。要做到這一點,困難是顯而易見的。我們愿意為創(chuàng)造一門新文化——計算機文化而竭盡全力。
(五)傳統(tǒng)文化的計算機輔助整理
在當(dāng)今高科技的信息時代,對我國傳統(tǒng)文化的挖掘與整理,用計算機手段將是莫大的便利。然而,其困難也是顯而易見的。因為目前的中文計算機處理效率還是弱于西文。傳統(tǒng)文化的計算機輔助整理的關(guān)鍵問題還是要為眾多的傳統(tǒng)漢字“落實政策”,注冊戶口。解決各方面的協(xié)調(diào)以及漢字的處理標(biāo)準(zhǔn)。對于浩瀚的中華民族的古典書籍,用最現(xiàn)代化的工具一計算機進(jìn)行前無古人地整理、分析和研究,其意義之深遠(yuǎn)是不言而喻的。要運用現(xiàn)代化工具進(jìn)行傳統(tǒng)文化的輔助整理,必須首先解決一個完整的漢字信息輸入問題。F系統(tǒng)對這類場合可謂是生正逢時,當(dāng)仁不讓。只有將最基本的信息,準(zhǔn)確無誤地輸入計算機,才能充分發(fā)揮計算機的最大潛力,這種場合也同樣遵循這一規(guī)律。
(六)完全基于中文概念的智能計算機
“中文計算機”、“中文系統(tǒng)”已經(jīng)講了幾十年了。然而,當(dāng)今的計算機發(fā)展水平仍處于基于馮·諾伊曼型體系結(jié)構(gòu)的第四代時期,距真正基于人工智能的第五代計算機水平仍有一段相當(dāng)距離。除了存儲和運算的原因之外,人工智能技術(shù)的發(fā)展是一個重要的因素。中文的語法精煉,漢字的內(nèi)涵豐富,在人與計算機之間架起一座構(gòu)通的橋梁,選擇漢語及經(jīng)形式化處理后的類漢語的形式語言(類似計算機的高級語言),從理論上講應(yīng)該比拼音類語言更有優(yōu)勢和潛力。其前提條件是必須首先突破自身的“瓶頸”——輸入和內(nèi)部表達(dá)問題。F系統(tǒng)正是以上答案之所在。我們認(rèn)為如果計算機具備如下幾個特征,就是真正意義上的中文智能計算機了。
(1)具備F系統(tǒng)規(guī)范。
(2)使用類漢語的形式語言作為計算機的指令系統(tǒng),供人類向其發(fā)號施令。
(3)使用類漢語的形式語言(高級語言)開發(fā)各類智能化軟件。因為F系統(tǒng)規(guī)范本身函概了西文處理,所以無須擔(dān)心西文的處理。更確切一點,我們應(yīng)將該類計算機定義為“F型智能計算機”。
(七)對電子化造成文化“退化”現(xiàn)象的遏制作用
古代人熱于書面溝通,通過文字書信、書籍表達(dá)情感,溝通思想,賦詩繪畫,聯(lián)絡(luò)情感。因此,勤于筆下功夫,編篆不朽之作。但現(xiàn)代由于信息傳遞工具的現(xiàn)代化,使現(xiàn)代人疏于書面溝通,出現(xiàn)文字功力退化現(xiàn)象,人們對傳統(tǒng)文化的理解和興趣逐漸減弱。究其原因是計算機的操作難和不普及,在計算機上經(jīng)常使用漢字輸入、輸出的人不普遍,由于漢字計算機輸入難、操作難,學(xué)習(xí)興趣不大,中老年人更甚,造成了看多“寫”少現(xiàn)象。如何讓更多的人能多“寫”、多輸入漢字?如何防止?jié)h文化功力“退化”現(xiàn)象?普及計算機的漢字輸入,加強“書寫”、輸入意識顯得尤為重要。由于鍵盤輸入仍然是今后漢字輸入的主流,因此,F(xiàn)系統(tǒng)環(huán)境下產(chǎn)生的中文字母字輸入法愿擔(dān)起提升中華民族文化的重任。
(八)F型計算機的誕生
從以上的分析中得出了目前雙字節(jié)中文系統(tǒng)的一系列缺陷。在我們的全信息漢字處理系統(tǒng)實現(xiàn)之后,這些缺陷和難題已經(jīng)園滿解決。一種真正中文概念的F型計算機(亦稱“尖端單字節(jié)漢字電腦”)正在設(shè)計和開發(fā)之中。從附圖6中得出,單字節(jié)中文計算機的核心是由“尖端單字節(jié)中英文系統(tǒng)和視窗”、“全信息計算機漢字表達(dá)式”、“尖端國際通用漢字輸入系統(tǒng)”共三部分組成。它以嶄新的觀念組成了F型計算機的心臟。它的四周方框標(biāo)示著一系列優(yōu)秀的英文軟件的用戶層,在F系統(tǒng)規(guī)范下出現(xiàn)的全新的用戶界面——純中文的用戶界面。所有優(yōu)秀的西方軟件可以在該系統(tǒng)上不加任何修改即可極方便地直接處理中文。
全信息表達(dá)方式的實現(xiàn),打破了計算機的雙字節(jié)或多字節(jié)的概念,使計算機的信息表達(dá)以無限擴充為絕對優(yōu)勢,將使?jié)h字信息處理朝無限級和無字集方向邁進(jìn),在未來的計算機中文信息處理技術(shù)上,不僅是《康熙字典》,就是十萬、幾十萬個漢字,也能在該系統(tǒng)上得以實現(xiàn)。這完全歸功于中文字母字概念的提出和字母字?jǐn)?shù)量的合理確定。
單字節(jié)中文計算機與其它雙字節(jié)中文系統(tǒng)在西文計算機上的二次開發(fā)不同,它具有獨立的、有F系統(tǒng)規(guī)范(標(biāo)準(zhǔn))的中文操作系統(tǒng)。同時還具有獨立的純中文字母字鍵盤。在單字節(jié)中文計算機上運行的所有系統(tǒng)軟件、應(yīng)用軟件和工具類軟件都有一個純中文、親切友好的用戶界面。計算機內(nèi)部的信息交換碼是以中文字母字為標(biāo)準(zhǔn)的內(nèi)部全信息交換碼,是一種完全獨立于現(xiàn)行的西文計算機ASCII信息交換碼的中文字母字信息交換碼。它的開發(fā)成功將把中文信息數(shù)字化處理技術(shù)走在世界前列,使象形文字在國際上的地位的提高,作出重要貢獻(xiàn)。
九、兩種新穎的漢字檢索方法——“一字到位檢字法”和“九宮漢字輸入(檢索)法的問世
“一字到位檢字法”是繼“中文字母字輸入法”之后,采用中文鍵名字母字在鍵盤上排列的26個中文鍵名字母字循環(huán)組字的原理,再次創(chuàng)造發(fā)明的一種漢字檢索新技術(shù)。(該技術(shù)已申請了發(fā)明專利,專利號是991142853)。
這種檢字技術(shù),第一次突破了中國漢字傳統(tǒng)的部首、拼音、筆畫、四角號碼等檢字方法的老框框,首次采用中文字母字輸入法的26組中文鍵名字母字為部首,把國標(biāo)GB-2312(80)字符集的6763個漢字,以26個中文鍵名字母字為部首兩次循環(huán)排序。經(jīng)第一次排序后,每個大部平均只有260個漢字,然后,在26個大部下,每個大部又按照第一次排序方法,進(jìn)行第二次排序,將每個大部分解為26個小部,每個小部只有平均不到10個漢字。檢字的方法是首先在僅有一頁的檢字目錄“部首”欄中,找出需要查找漢字的起筆字母字是屬于哪個大部和該大部所處正文中的頁碼,再根據(jù)需要查找漢字的第二個外碼字母字,在檢字目錄“部首”欄中找到該字母字所處大部序號(大部與小部的序號相同)。掌握了頁碼和序號后,首先直接查頁碼,然后再查在目錄中得到的“序號”。由于每個大部下的小部只有平均不到10個漢字,因此很容易查到所需的漢字和該漢字的外碼字母字。無論查找任何一個漢字,只要您能按照漢字筆畫順序迅速確定想要查找的漢字的首個字母字和第二個字母字,就能在幾秒鐘內(nèi),查到所要查的漢字和該字的外碼字母字。這種檢索漢字的方法,一字到位,一查即得,高效神速,神奇無比。
一字到位檢字技術(shù),打破了我國辭書領(lǐng)域查檢漢字方法長期停滯不前的局面。該技術(shù)可廣泛應(yīng)用于辭書、字典、詞典、資料、檔案、文書、史料、圖書、情報等多種領(lǐng)域進(jìn)行檢索、索引、分類、排序和查檢,也可以應(yīng)用于手提式電話機和尋呼機中文信息的發(fā)送以及無鍵盤輸入的電子硬件設(shè)備等。
中文字母字輸入系統(tǒng),運用該檢字法檢索國標(biāo)字符集的所有漢字。在該電子字典中,將同時顯示出每一個漢字的漢語拼音、同音字、結(jié)構(gòu)、外碼字母字串以及每個漢字的釋義等內(nèi)容,把漢字的各種信息表達(dá)得淋漓盡致,達(dá)到幫助識字,通過識字學(xué)會漢字的計算機輸入,促進(jìn)學(xué)計算機和學(xué)漢字一體化,推進(jìn)漢字的教學(xué)改革,適應(yīng)造就跨世紀(jì)人才的需要,具有實用價值。
九宮漢字輸入法是利用象形文字“九宮”造字法的九個方格,以52個中文字母字二次循環(huán)組字的原理,經(jīng)F系統(tǒng)規(guī)范的一種漢字檢索新技術(shù),同時也是漢字鍵盤輸入的輔助輸入手段。它廣泛應(yīng)用于無線電話、有線電話和無鍵盤設(shè)備的漢字輸入和漢字信息傳輸?shù)取?詳見“一字到位檢字法”和“九宮漢字輸入法”專利申請說明書)
十、說明書附面說明
附圖1圖面說明此圖是以漢字“覆”字為例的漢字結(jié)構(gòu)的“樹表示法”的示意圖。通過對樹的結(jié)點“根”、“枝”、“葉”的形象邏輯性聯(lián)想,以樹的不同層次結(jié)點為漢字結(jié)構(gòu)的象征,找出與漢字相類似的結(jié)構(gòu)層次,使計算機設(shè)計者尋找漢字的結(jié)構(gòu)規(guī)律,得出與英文相同的文字結(jié)構(gòu)關(guān)系,為中文字母字?jǐn)?shù)量的確定提供依據(jù)。樹可以有不同的畫法,該圖的樹是與日常生活植物“樹”相反的,是將根畫在最上面的。通過樹表達(dá)式得出“覆”字組字的最小單元為“西、丿、亻、、日、攵”。所有的漢字都可用樹表示法找出每個漢字的組字單元,為漢字全信息表達(dá)式的實現(xiàn)提供依據(jù)。
附圖2圖面說明此圖是用矢量來描述曲線段和逼近曲線段輪廓的方法來描述字的邊緣輪廓的一種造字方法的描述平面。
附圖3圖面說明此圖是用貝氏函數(shù)二次方程式來描述曲線和逼近曲線的輪廓的一種造字方法的描述平面圖。
附圖4圖面說明該圖是以“遞歸定義算法”和“全信息漢字表達(dá)式”顯示中文字母字組成漢字(以“啊”字為例)的遞歸組字示意圖。以此種方法可以造出無窮盡個漢字,與英文字母造詞一樣簡單和容易。
附圖5圖面說明此圖是計算機系統(tǒng)的三種界面分析圖。用戶界面是計算機第一層界面,在用戶界面下面是系統(tǒng)界面,是系統(tǒng)軟件提供的開發(fā)環(huán)境。在系統(tǒng)界面下面是機器界面。完善的計算機系統(tǒng)是由這三層組成的。所謂深層次的軟件漢化,不是只在用戶界面的漢化,而是指包在裸機外面的西文系統(tǒng)軟件的漢化。
附圖6圖面說明該附面為一幅“F型計算機的方框圖”,是由“尖端單字節(jié)中英文系統(tǒng)和視窗”、“全信息漢字處理系統(tǒng)”、“尖端國際通用漢字輸入系統(tǒng)”共三部分組成成了F型計算機的心臟。在其外圍的是一系列優(yōu)秀的西方英文軟件不經(jīng)修改就可以在F型計算機上運行,并能直接處理中文。
權(quán)利要求
1、全信息計算機漢字處理系統(tǒng)中的“全信息漢字表達(dá)式”是該系統(tǒng)的核心技術(shù)之一,其特征是按照“樹排列法”尋找漢字的最小組字元素,并將其組成“全信息漢字表達(dá)式”。它是實現(xiàn)全信息計算機漢字處理系統(tǒng)的重要部分,是實現(xiàn)“中文字母字信息交換碼”、“中文字母字信息交換碼”、“遞歸定義算法漢字造字原理”的關(guān)鍵。
2、全信息計算機漢字處理系統(tǒng)中的“遞歸定義算法漢字造字原理”所生成的計算機筆畫造字法,是該系統(tǒng)的重要組成部分,該造字技術(shù)是專為尖端單字節(jié)漢字電腦而設(shè)計的。
3、該系統(tǒng)中的“中文字母字”、“遞歸定義算法”等造字技術(shù),已應(yīng)用于F系統(tǒng)計算機的造字程序,組成中文字母字直接輸入法和文字處理軟件等。
全文摘要
“全信息計算機漢字處理系統(tǒng)”,亦稱:“F系統(tǒng)”。是由“全信息計算機漢字表達(dá)式”、“無編碼概念中文字母字輸入法”、“中文字母字信息交換碼(CICⅡ)”、“中文字母字組拼技術(shù)”等組成。提出了對中文計算機重新設(shè)計的新思路,提供實現(xiàn)方法和核心技術(shù)。徹底克服了以“高位置1”思路設(shè)計的雙字節(jié)電腦的諸多缺陷,創(chuàng)造出一部真正基于中文概念的F型計算機,將對今后計算機領(lǐng)域產(chǎn)生深刻影響。
文檔編號G06F17/00GK1268708SQ99114499
公開日2000年10月4日 申請日期1999年10月21日 優(yōu)先權(quán)日1999年10月21日
發(fā)明者周海籌, 唐秀昌, 何慶, 吳昌森, 鄭承梁, 張彥紅 申請人:張彥紅