欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

漢字電子化中的拼部組字方法

文檔序號:6388391閱讀:312來源:國知局
專利名稱:漢字電子化中的拼部組字方法
技術領域
本發(fā)明涉及一種漢字在計算機中的生成方法,具體說是在計算機中文信息處理軟件中,漢字電子化中的拼部組字方法。
背景技術
計算機信息化趨勢是當今世界不可逆轉(zhuǎn)的發(fā)展潮流,語言文字是信息的主要形式和載體,因此語言文字的電子信息化計算機信息化的基礎工程和關鍵技術。拼音文字的計算機信息化是以字母作為信息處理的基元,以英文為例,其基元由26個字母的大小寫及常用符號構(gòu)成。由于漢字是方塊文字,平面結(jié)構(gòu)復雜,到目前為止,國際、國內(nèi)的中文信息處理軟件都是采用字庫方式,先將某一標準規(guī)定的漢字建立字庫,每一個漢字都有唯一的編碼,這個編碼通常叫做內(nèi)碼。字庫中漢字的內(nèi)碼作為計算機內(nèi)部存儲、傳輸和管理等信息處理的對象。也就是說,計算機在進行中文信息處理時是以漢字作為最小單位-----基元來進行處理的。而漢字數(shù)量巨大國家標準GB2312-80基本集收入漢字6763個,第二輔助集收入漢字7237個,第四輔助集收入漢字7039個,共2139字,稱為規(guī)范字庫。它基本滿足日常應用的基本要求。但并不能滿足全部要求,因為漢字是不斷發(fā)展的大字符集。
由上可知,要使?jié)h字都具有唯一的編碼,即使是按上述數(shù)目中最小的國家二級漢字(6763)考慮,也需要兩個字節(jié)才夠(除了由GB1988規(guī)定的32個控制字符和96個圖形字符外最多可編8836個地址碼)。這種方式使得計算機中文信息處理時存在許多問題1、在存儲方面1)只考慮常用漢字(6763個),一個漢字地址編碼須兩個字節(jié)。如果要考慮更多的漢字,就必須增加更多的字節(jié)(3字節(jié)或4字節(jié)),也就是付出更多的開銷。2)由于計算機中漢字數(shù)量的限制,很多文獻特別是歷史文化領域的文獻中用的字在現(xiàn)有字庫中找不到,電子化只能采用圖象形式,為此付出更大的代價。3)漢字也是在不斷發(fā)展的,字庫總是不能適時跟上漢字的發(fā)展,要增加一個新的漢字,至少需要增加兩個字節(jié)來儲存。這就意味著漢字字符方式很難為中文信息管理建立長期穩(wěn)定和規(guī)模合理的數(shù)據(jù)標準,這也就是我國至今尚無內(nèi)碼標準的主要原因。
在數(shù)據(jù)傳輸方面,英文等拼音文字的的平均信息熵小于4.5比特,一個字節(jié)有八個比特,因此,可以將剩余的比特用來作奇偶檢驗和抗錯。中文的漢字方式需要兩個字節(jié),在建立字庫的時候,兩個字節(jié)的比特全都用滿了,沒有剩余的比特來作檢驗和抗錯。這是中文網(wǎng)絡通訊中很容易出現(xiàn)壞碼(不是亂碼)的基本原因之一。同時,由于代碼長度大,傳輸開銷必然大,效率低。
在數(shù)據(jù)管理方面,漢字信息熵大,輸入時采用選擇方式,工作量不小,整體工作效率很低。編碼長度大,管理自然復雜。
從信息系統(tǒng)最基本的量----熵的角度分析,漢字的平均靜態(tài)信息熵為9.65,是世界上最大的信息熵,因此可以在理論上說明是效率最低的信息系統(tǒng)。
上述狀況對中文信息化提出了嚴峻的挑戰(zhàn)1、文字電子信息化是不可逆轉(zhuǎn)的歷史潮流,在社會進步過程中經(jīng)過自然選擇會不會淘汰漢字;2、在近期,中國的信息產(chǎn)業(yè)在與采用拼音文字的國家的信息產(chǎn)業(yè)進行競爭時處于不相同的競爭平臺。如何扭轉(zhuǎn)上述被動局面,是產(chǎn)生本發(fā)明的直接動因。

發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術存在的問題,提供一種漢字電子化中的拼部組字方法,以漢字部件作為計算機內(nèi)部存儲、傳輸和管理等信息處理的基元。在人機交互時,計算機按照部件進行造字而不是象目前所采用的方法進行選字。使中文在電子信息化過程中穩(wěn)定標準、提高效率,降低開銷和滿足漢字全面電子化。
本發(fā)明的漢字電子化中的拼部組字方法,是以用于造字的漢字部件作為內(nèi)部存儲、傳輸和管理等信息處理的基元;所述漢字部件是指將偏旁部首進行合并(如木旁和木字)能夠組成全部(含現(xiàn)有漢字和未來產(chǎn)生)漢字的基元集合。
采用現(xiàn)代數(shù)學工具分別對漢字的結(jié)構(gòu)(左右、上下、左中右、上中下等)、組成漢字的部件在成字中的位置(如上、下、左、右、上中、中中、中下等)、大小(以字的高度和寬度為基準的比例)和各種字體的形態(tài)(例如長寬比)進行描述,以此為依據(jù)造字。
本發(fā)明漢字電子化中的拼部組字方法是以組成漢字的部件作為計算機內(nèi)部存儲、傳輸和管理等信息處理的基元;將漢字的部件建立部件庫,人機交互時,計算機按照部件造字。
1、無字庫漢字拼合方法本發(fā)明在全面系統(tǒng)總結(jié)漢字造字規(guī)律的基礎上,結(jié)合計算機信息處理的特點,提供適合計算機信息處理特點的無字庫漢字拼部組字方法。
本發(fā)明切底甩掉字庫,采用部件庫。根據(jù)漢字的造字原理,結(jié)合計算機信息處理的特點,確定范圍在200以內(nèi)的漢字組字部件,將該部件建立在計算機內(nèi)的漢字部件庫,所有漢字都可以用部件庫中的部件組成,因此本發(fā)明沒有字庫。由此切底解決了字庫方式所引起的諸多問題。部件庫里的部件能滿足已有漢字組合的需要,也能滿足漢字不斷發(fā)展的需要。
與現(xiàn)有技術不同,本發(fā)明提供的方法,只有數(shù)量在200以內(nèi)的部件庫,沒有數(shù)以千計、萬計的龐大字庫。所有漢字都由各部件按照一定的規(guī)則組合而成。存儲、傳輸和管理時是對漢字的部件及組合編碼進行存儲、傳輸和管理。
2、漢字的拼部組字方法與拼音文字不同,漢字由于其結(jié)構(gòu)的復雜性,部件組合規(guī)則具有平面分布的特征。同時,漢字的部件除了具有平面分布特征外,各部件在平面上除了位置不同外,其大小尺寸和形狀(長、寬比)也不盡相同。
本發(fā)明根據(jù)漢字的結(jié)構(gòu)和語義,采用現(xiàn)代數(shù)學工具分別對漢字的結(jié)構(gòu)、組成漢字的部件在成字中的位置、大小和各種字體的形態(tài)進行描述,并由計算機進行智能化的變化,再根據(jù)漢字的結(jié)構(gòu)組合所有的漢字,并根據(jù)字號進行平滑縮放。
與五筆字型等輸入法不同,1)五筆字型等輸入法只是解決漢字鍵盤輸入問題,是漢字輸入法。本發(fā)明主要解決漢字的計算機造字方法,是中文信息處理的底層核心技術2)五筆字型等輸入法輸入部件代碼后計算機從字庫中檢索符合要求的集合并進行顯示,再由輸入者選擇相應的字,所以必須依靠字庫,本發(fā)明不依靠字庫,而是由部件直接組字。五筆字型等。3)五筆字型等輸入法雖然也是由部件組字,但只是一種字按部件進行分解編碼,不涉及部件在計算機中的組合問題,也就是說不解決漢字部件在計算機中處理過程中在字平面上的位置、大小和形態(tài)問題及各組字部件組合問題。本發(fā)明需全面解決漢字極其部件的上述問題。
發(fā)明與現(xiàn)有技術相比具有如下優(yōu)點1、由于基元穩(wěn)定,能為中文信息管理建立長期穩(wěn)定和規(guī)模合理的數(shù)據(jù)標準。
2、在存儲方面一個字只要一個字節(jié),大大節(jié)省了存儲空間,降低了消耗和成本。
3、由于漢字是按組字規(guī)則進行組合,其組合不再受字庫限制,因此可以完全實現(xiàn)已有漢字(特別是歷史文獻中用的出現(xiàn)頻度很低的字)的電子化,同時也能適應漢字發(fā)展的需要。
4、由于漢字所占的空間由原有的兩個字節(jié)變?yōu)橐粋€字節(jié),因此在信息傳輸過程中效率明顯提高,開銷變小。
5、由于表示漢字的一個字節(jié)中8個bit沒有用完,留有一定bit作為糾錯和抗錯,因此出現(xiàn)壞碼的幾率較現(xiàn)有字庫方式大大減小,傳輸精度提高。
由于漢字所占的存儲空間減小,平均靜態(tài)信息商減小,信息不確定性減少,因此信息管理水平和效率提高。


圖1是本發(fā)明核心模塊結(jié)構(gòu)簡圖;圖2是本發(fā)明拼部組字流程簡圖。
具體實施例方式
如圖1所示,由本發(fā)明的實施者構(gòu)建,其中部件庫存貯有組成漢字的全部部件,已有的和以后產(chǎn)生的所有漢字都可以以其中的部件組合而成。智能組字軟件包括拼部組字管理程序、漢字知識庫、漢字字體字號處理程序等模塊。拼部組字管理程序負責對信息系統(tǒng)的有關組字要求進行解釋,對組字過程進行管理;漢字知識庫包含有漢字組成的全部知識如部件的位置、形態(tài)和大小等結(jié)構(gòu)知識。漢字字體字號處理程序負責對部件進行字體的變化和對字的大小進行平滑的變換,以滿足漢字處理中各種字體和各種大小字號的需要。
附圖2是本發(fā)明的流程示意圖。下面結(jié)合附圖1-2進行詳細說明,當由人機交互接口進行漢字的輸入(人工輸入或識別)時,拼部組字管理程序根據(jù)人機交互接口輸入的部件代碼、字體代碼和字號代碼進行解釋,確定輸入的漢字些部件組成。然后進行如下操作1)從漢字部件庫中調(diào)出相應的部件;2)向漢字知識庫中咨詢該漢字的結(jié)構(gòu),包括各部件的位置、形態(tài)和大??;3)將部件、字體信息和送到字體字號程序中的字體處理程序入口處;4)由字體字號程序?qū)υ撟值慕M成部件進行處理,實現(xiàn)部件符合字體和結(jié)構(gòu)的要求,然后按照結(jié)構(gòu)信息進行組字。5)字體字號程序按照字號信息對成字進行平滑縮放。6)將符合字體和大小規(guī)格的成字送人機交互接口,再由人機交互接口進行顯示、打印等輸出操作。同時將成字的編碼信息送到拼部組字程序,再由拼部組字管理程序?qū)⒊勺值木幋a信息送到信息處理系統(tǒng)接口,由信息處理接口進行存儲等操作。
當由系統(tǒng)直接調(diào)入中文文檔時,拼部組字程序根據(jù)從信息處理接口讀入的部件代碼、字體代碼和字號代碼進行解釋,確定輸入的漢字由那些部件組成并進行如人機交互接口來的漢字組字信息相同的操作。
實施例1如要用鍵盤輸入程序的“程”字,我們分別輸入“禾”、“口”和“壬”三個部件,漢字組字程序通過知識庫知道“程”為左右結(jié)構(gòu),其中“禾”為偏旁,高度方向為字高,寬度方向為1/3字寬,右下的一撇應為一點。字的右邊為上下結(jié)構(gòu),上面的口字寬度方向近為字的2/3,高度方向為字高的1/3。下面的“壬”字高度為字的1/2,寬度方向與“口”相同,下邊與“禾”旁齊,與口字間隔1/6字寬。組字程序按照上述結(jié)構(gòu)從部件庫中提出上述三個部件送到字體字號處理程序,該程序根據(jù)輸出要求按字號進行均勻縮放和按字體進行均勻變形,即可輸出相應大小字號和字體的“程”字。
實施例2如要用鍵盤輸入“草”字,我們分別輸入“艸”、“日”和“十”三個部件,漢字組字程序通過知識庫知漢字件“草”為上中下結(jié)構(gòu),其中部件“艸”在上,高度方向為字高的1/4,寬度方向為字寬;“日”居中,高度為字高的1/4,寬度為字寬的1/2;部件“十”居下,高度為字高的1/2,寬度為字寬。組字程序按照上述結(jié)構(gòu)從部件庫中提出上述三個部件送到字體字號處理程序,該程序根據(jù)輸出要求按字號進行均勻縮放和按字體進行均勻變形,即可輸出相應大小字號和字體的“程”字。
實施例3如要用鍵盤輸入“同”字,我們分別輸入“”、“一”和“口”三個部件,漢字組字程序通過知識庫知漢字件“同”為上半包圍結(jié)構(gòu),其中部件“冂”的位置在上,左、右三個方向,高度方向為字高,寬度方向為字寬;“一”居中下,高度在上1/3處,寬度為字寬的1/2;部件“口”居中下,寬度為字寬1/3,左起于字的1/3右止于字寬的2/3(從左到右計算);高度為字高的1/3,上起于字高的1/3,下止于字高的2/3(從上到下計)。組字程序按照上述結(jié)構(gòu)從部件庫中提出上述三個部件送到字體字號處理程序,該程序根據(jù)輸出要求按字號進行均勻縮放和按字體進行均勻變形,即可輸出相應大小字號和字體的“程”字。
說明為了說明簡明易懂,三個實施例中的數(shù)字都是大致的,不是精確數(shù)字。
權利要求
1.一種漢字電子化中的拼部組字方法,其特征在于以用于造字的漢字部件作為內(nèi)部存儲、傳輸和管理等信息處理的基元;所述漢字部件是指將偏旁部首進行合并組成全部漢字的基元集合。
2.根據(jù)權利要求1所述的漢字電子化中的拼部組字方法,其特征在于分別對漢字的結(jié)構(gòu)、組成漢字的部件在成字中的位置、大小和各種字體的形態(tài)進行描述,以此為依據(jù)組字。
全文摘要
本發(fā)明涉及一種漢字電子化中的拼部組字方法,是以用于造字的漢字部件作為內(nèi)部存儲、傳輸和管理等信息處理的基元;所述漢字部件是指將偏旁部首進行合并組成全部漢字的基元集合;組字時,分別對漢字的結(jié)構(gòu)、組成漢字的部件在成字中的位置、大小和各種字體的形態(tài)進行描述,以此為依據(jù)組字。在人機交互時,計算機進行信息處理時按照部件進行造字而不是象目前所采用的方法在字庫中選字。使中文信息系統(tǒng)可以制訂穩(wěn)定的標準、提高效率,降低開銷和滿足漢字全面電子化的需要。
文檔編號G06F3/023GK1558314SQ200410015238
公開日2004年12月29日 申請日期2004年1月20日 優(yōu)先權日2004年1月20日
發(fā)明者皮佑國 申請人:華南理工大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
昌平区| 思茅市| 合水县| 章丘市| 梁平县| 南雄市| 察隅县| 台中市| 临洮县| 泰来县| 区。| 左云县| 防城港市| 根河市| 土默特左旗| 滕州市| 辽阳县| 屏东县| 西贡区| 晋州市| 灌云县| 毕节市| 岗巴县| 永州市| 泰安市| 巴里| 莎车县| 峡江县| 壤塘县| 深水埗区| 东台市| 曲周县| 昆明市| 白朗县| 广东省| 仁寿县| 武清区| 都昌县| 宁陵县| 安康市| 绥德县|