專利名稱:中文字詞典漢字英文信息排序法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬一種中文字詞典的漢字排序方法。
背景技術(shù):
在目前的中文字詞典中,漢字的排序方法多種多樣。有按部首排序的,有按拼音排序的,還有按筆畫排序的。比如《辭海》中單字照部首表分部排列,同部首的單字按筆畫數(shù)順序排列,筆劃數(shù)相同的按起筆筆形排列。在《新華字典》和《現(xiàn)代漢語小詞典》中,正文中單字的排序是按漢語拼音順序排列的,同時(shí)也有按部首排序的“部首檢字表”。其它字詞典大同小異。讀者要是使用這些字詞典查字,可以按部首查字,也可以按拼音查字,還可以按筆畫數(shù)來查字。要是按部首來查字,當(dāng)遇到一個(gè)不認(rèn)識或不懂的漢字時(shí),總是先確定該字的部首,然后在字典的部首目錄中查該部首在檢字表中的頁碼,并數(shù)一數(shù)該字的筆畫數(shù),之后才能在同筆畫數(shù)的一列字中找到該字和它在字典正文中的頁碼,最后翻到這個(gè)頁碼,才能找到該字以及相關(guān)詞條。這個(gè)過程要是順利的話,一般需一分鐘左右的時(shí)間,要是不順利的話,可能需幾分鐘,十幾分鐘,甚至有時(shí)幾個(gè)小時(shí)也查不到某字。如果按拼音來查字,認(rèn)識的字一翻就到,不認(rèn)識的字一籌莫展,可是我們查字還往往是查不認(rèn)識的字。用筆畫數(shù)來查字更困難,往往是在前述兩種方法不靈時(shí)才被迫采用的。而用英文詞典來查英語單詞可就不一樣了。無論是認(rèn)識的單詞還是不認(rèn)識的單詞基本上都是一翻就到,所需時(shí)間只有數(shù)秒,本發(fā)明的目的就是要尋找一種全新的中文字詞典漢字排序方法。旨在查漢字時(shí)也能象查英語單詞一樣又快又準(zhǔn)。
發(fā)明內(nèi)容
本發(fā)明從漢字的部首著眼,首先對漢字的部首進(jìn)行規(guī)范化,然后給規(guī)范化后的部首起一個(gè)英文名字,英文名字用單字母表示。最后對漢字進(jìn)行信息化處理。中文字詞典排序時(shí)按漢字信息化后的英文字母串來進(jìn)行排序。
(一)漢字部首的規(guī)范化漢字的部首無論是從定義上,還是從部首在漢字中的位置上,或者從部首的總量上都是極不規(guī)范的。國家語言文字應(yīng)用研究“十五”科研項(xiàng)目中就有該課題。問題是怎樣來規(guī)范漢字的部首,什么樣的規(guī)范最簡單,最能得到人們的接收。
本發(fā)明確定漢字的部首時(shí),把漢字的部首定義為漢字按照筆順規(guī)律,首先書寫的部件就是該字的部首。這里的部件可以是多筆部件,也可以是單筆部件,這些部件的選定要符合國家語委公布的“漢字部件規(guī)范”。本發(fā)明按筆順來定義部首很簡單。例如“太”字,先寫“大”,所以為“大”部;“部”字先寫“立”,所以為“立”部;“說”字先寫“讠”,所以為“讠”旁;“桿”字先寫“木”,所以為“木”部。那么“甲”字為何部呢?一般字詞典都無“甲”部,因其首筆為豎,所以定在豎部,本發(fā)明認(rèn)為定豎部也不好,能定多筆部首的要優(yōu)先定多筆部首。書寫“甲”字時(shí),首先書寫的部件是“日”,所以定“日”部。這是否違反“漢字部件規(guī)范”中“交重不拆”的原則呢?本發(fā)明認(rèn)為我們不違反這個(gè)原則,我們是避開了這個(gè)原則。因?yàn)槲覀儾皇窃诓鸱譂h字,我們是在按漢字的書寫規(guī)律來定義部首,就象寫“甲”字時(shí),先寫“日”,然后一豎則為“甲”。這是不違反“交重不拆”的原則的,這恰恰是最正確的書寫方法。如此這樣,順理成章,甲、申、電、鴨等字就都是“日”部了。還有“國”字,一般字典都是大“口”部。本發(fā)明認(rèn)為該類字首先書寫的是“同”字頭,并不是大口,所以定“冂”部。同理因、團(tuán)、回、囚、由等都是同字頭部。
任何事情都不便一刀切,過分簡單的一刀切,很可能造成對事物完美性的傷害。確定漢字部首時(shí)有一種字要特殊對待。例這、邊、選、造、速等字,它們的部首是走之旁,而走之旁又不是在起筆,如果按筆順定義成別的部首,將會感到別扭。所以本發(fā)明特別處理,凡是由走之旁與它所包圍的部分所形成的漢字,其部首仍為走之旁,但只此一種特例。
漢字首先書寫的部件有時(shí)可能存在幾個(gè)部件迭合在一起的情況。我們規(guī)定當(dāng)一個(gè)漢字的起筆有多筆部首和少筆部首迭合時(shí),優(yōu)先取多筆部首,這叫“取大優(yōu)先”的原則。例“部”字的起筆由“亠”和“立”迭合。我們?nèi)《喙P部首“立”,不取“亠”。
漢字部首的數(shù)量也要有個(gè)規(guī)范,也就是要定量。漢字有560個(gè)基礎(chǔ)部件,都作為部首,不便于記憶,而且作為一個(gè)部首它要統(tǒng)屬一定數(shù)量的漢字,可是有許多部件只在少數(shù)漢字中出現(xiàn),無代表性;部首總量也不能太少,實(shí)際上5個(gè)單筆部件,就能統(tǒng)屬所有漢字,但這不便于檢索。本人通過十?dāng)?shù)年的研究,優(yōu)化出了94個(gè)基本部首,感覺頗好。另有45個(gè)歸類部首和5個(gè)單筆部首。所謂歸類部首就是和某一基本部首非常相似或相近的部首。一般地記住了基本部首,它的歸類部首也就順便記住了。例如“人”是一個(gè)基本部首,“入”和“八”是它的歸類部首;“羊”是一個(gè)基本部首,歪尾羊( )和無尾羊“”是它的歸類部首。5個(gè)單筆部首是一、丨、丿、丶、フ。
(二)漢字部首的英文名字本發(fā)明對所選定的所有部首都定義了一個(gè)英文名字,用單字母表示。例“日”部的英文名字叫“A”;“辶”的英文名字叫“B”;“阝”的英文名字叫“C”;等等。部首的英文名字就是部首的筆畫結(jié)構(gòu)的字形信息。它與部首本身的中文名字或拼音完全無關(guān)。定義部首的英文名字是為漢字的信息化作準(zhǔn)備。
(三)漢字的信息化確定了漢字的部首,并給了每個(gè)漢字部首(也是部件)一個(gè)單字母的英文名字,就很容易實(shí)現(xiàn)漢字的信息化。通過對GB2312-80字符集6763個(gè)字符的逐字分析,這些漢字都能按筆順先后由本發(fā)明所述的部首(部件)組成。具體確定漢字的英文信息的方法是每個(gè)漢字首先書寫的部首的英文名字是該漢字信息的第一個(gè)字母;第二步書寫的部件的英文名字是該漢字信息的第二個(gè)字母;第三步書寫的部件的英文名字是該漢字信息的第三個(gè)字母,依次類推所形成的英文字母串就是該漢字的英文信息,或稱字形信息。編撰字詞典時(shí)只要按漢字的英文信息排序就可行了,排序時(shí)按A、B、C、D……的順序進(jìn)行。查找漢字時(shí)只要按照漢字的英文信息字母串,無論是認(rèn)識的,或不認(rèn)識的漢字都會一翻就到,其速度決不亞于查找英語單詞的速度。
特殊地,確定漢字的信息時(shí),如果遇到有走之旁和它所包圍的部分組成的復(fù)合部件,走之旁的英文名字要排在它所包圍的部分的信息字母串的前面。
對于繁體漢字的信息化,只要把簡體部首的英文名字命名成相應(yīng)的繁體部首的英文名字就基本解決問題。
上述中文字詞典漢字英文信息排序法,其特征在于本發(fā)明的規(guī)則是首先確定漢字的英文信息字母串,然后按各漢字的英文信息字母串的首字母照A、B、C、D……的順序排列;首字母相同的按漢字信息的第二個(gè)字母排序;第二個(gè)字母相同的,按漢字信息的第三個(gè)字母排序……,依此類推。
上述中文字詞典漢字英文信息排序法,其特征在于所述的部首為94個(gè)基本部首和45個(gè)歸類部首,還有5個(gè)單筆部首,本發(fā)明為這些部首都起了一個(gè)單字母的英文名字。
上述中文字詞典漢字英文信息排序法,其特征在于除個(gè)別特殊的部首外,它們絕大多數(shù)部首的英文名字都有以下特點(diǎn)凡是撇起筆的部首,其英文名字都是計(jì)算機(jī)標(biāo)準(zhǔn)英文鍵盤第一行左5鍵的字母,右5鍵的字母是點(diǎn)起筆部首的名字;第二行左5鍵的字母是是豎起筆部首的名字,右四鍵加上M鍵的字母是橫起筆部首的名字;第三行中間5鍵是折起筆部首的名字;Z是幾個(gè)動物類部首的名字;一、丨、丿、丶、フ的英文名字分別是B、V、C、X、Z。
上述中文字詞典漢字英文信息排序法,其特征在于,本發(fā)明確定漢字部首的規(guī)則是漢字的部首是按照筆順規(guī)范首先書寫的漢字部件。特殊情況,當(dāng)一個(gè)漢字是由走之旁和它所包圍的部分組成時(shí),漢字的部首是走之旁。
上述中文字詞典漢字英文信息排序法,其特征在于漢字的英文信息字母串的第一個(gè)字母是漢字首先書寫的部首的英文名字;第二個(gè)字母是第二步書寫的漢字部件的英文名字;第三個(gè)字母是第三步書寫的漢字部件的英文名字;依此類推所形成的英文字母串是該漢字的英文信息。特殊地對于漢字中有由走之旁和它所包圍的部分組成的復(fù)合部件時(shí),走之旁的英文名字排在該被包圍部分的英文信息字母串的前面。
本發(fā)明具有以下優(yōu)點(diǎn)1、本發(fā)明把漢字的字形信息通過漢字部首(部件)的英文名字,直接轉(zhuǎn)變成了漢字的英文信息字母串,從而實(shí)現(xiàn)了漢字的信息化。
2、漢字的信息化使得中文字詞典的漢字排序工作能象英語詞典一樣按英文字母的順序排列。
3、本發(fā)明將使?jié)h字的查字象查英語單詞一樣方便快捷。而且將對中文信息領(lǐng)域的設(shè)計(jì)、科研、圖書資料的檢索、教學(xué)和出版等方面的工作起到極大的促進(jìn)作用。
4、本發(fā)明漢字信息化后的英文字母串也就是對漢字的編碼,該編碼重碼極少,GB2312-80字庫中的6763個(gè)字符有6100多字是單字單碼,對漢字的排序極為有利。
5、本發(fā)明把漢字的部首定義為漢字按照筆順規(guī)律首先書寫的部件就是該字的部首。極大地推動了漢字部首的規(guī)范化。從此人們不再需要在一個(gè)漢字的上、下、左、右、外、中坐和左上角七個(gè)位置尋找部首,確定部首的速度和準(zhǔn)確性將極大的提高。
6、本發(fā)明將徹底解決學(xué)習(xí)漢語的外國人在查字典時(shí)所遇到的困難。為漢字走向世界助一臂之力。
7、本發(fā)明對漢字部首的規(guī)范化和漢字的信息化,將在一定程度上促進(jìn)我國的中小學(xué)的漢字教學(xué)工作。
8、要記住本發(fā)明所選定的部首的英文名字并不困難,只要依次看著每一個(gè)漢字的部首,口中讀它的英文名字,一遍、兩遍、三遍……很快就會記住,對于學(xué)習(xí)過英語字母的小學(xué)學(xué)生來說,這個(gè)問題不用一天時(shí)間就會解決。
9、漢字的英文信息的長度多數(shù)在1-5個(gè)字母之間,雖有少數(shù)漢字的信息較長,但實(shí)際查字時(shí),一般只要確定前4個(gè)字母就足可以順利地找到該字了。
四、具體實(shí)施方法(一)首先規(guī)定漢字部首的定義除走之旁外,漢字按照筆順規(guī)律首先書寫的部件是漢字的部首。由走之旁和它所包圍的部分形成的漢字的部首是走之旁。
(二)其次,確定漢字部首的總量。本發(fā)明選定了94個(gè)基本部首和45個(gè)歸類部首,還有5個(gè)單筆部首一、丨、丿、丶、フ。所謂歸類部首就是和某一基本部首非常相近或相似的部首。然后給上述所有的部首分別起一個(gè)單字母的英文名字,例“日”部的英文名字為A;“辶”部的英文名字為B;“阝”部的英文名字為C等等。下面列出本發(fā)明全部部首一覽表,部首前面的英文字母就是它們的英文名字,括號里的部首是它前面相近的一個(gè)基本部首的歸類部首。表中英文字母的排列順序是按計(jì)算機(jī)標(biāo)準(zhǔn)英文鍵盤26個(gè)字母鍵從左到右、從上到下的順序列出。
漢字部首及其英文名字一覽表Q月( )、幾(兒、 )W亻、隹、、乂;E彳、禾、竹、九、氣;R钅(金)、人、(入、八、丷)T鳥、魚、舟、身、勹( )、夕(夂) Y氵(冫、水、 )心;U讠(言)、亠、立、廣;I小( )、米、忄、;O衤、(礻)、宀(冖)、火; P羊( )、疒、門、尸;A閂、罒、 業(yè)、( )、冂( ) S貝、見、大、蟲、且( )D山( )、巾、止( )、饣(食)、黑、刂(刀);F車、目、 臼;G口、皿;H扌(手)、寸、J、艸、 十、匕、( ); K木( )、覀、廠(ㄏ)、 L土(士)、、酉;Z馬、 虍、豕、犭、(豸);X彐( )、女、母、雨; C阝(卩、耳)、子(孑)、癶( );V弓、力、石;B辶、艮( );N纟( 幺)、又(マ、厶),矛 M王、二、革、 一、|、丿、丶、フ的英文名字分別是B、V、C、X、Z。
部首表中部首“二”有一特殊規(guī)定“二”的兩橫都不與別的筆劃相交,或都與別的筆劃相交時(shí)才可以定為“二”部。例“示”字有“二"部,“韋”字有“二”部,但“于”字無“二”部,應(yīng)為橫部。
(三)漢字信息化處理的辦法是漢字按照筆順規(guī)律首先書寫的部首的英文名字是漢字信息的第一個(gè)字母;第二步書寫的漢字部件的英文名字是漢字信息的第二個(gè)字母;第三步書寫的漢字部件的英文名字是漢字信息的第三個(gè)字母,依次類推所形成的英文字母串就是這個(gè)漢字的英文信息。特殊地,由走之旁和它所包圍的部分形成的漢字或漢字的一部分,走之旁的英文名字排在它所包圍的部分的信息字母串的前面下面舉例說明根據(jù)上文漢字部首一覽表可知,下列部首的英文名字是它們后面的字母。口——G日——A艸——J 田——F禾——E火——O冖——O一——B 丨——V丷——R木——K廠——K土——L 阝——C車——F豕——Z上面的部首(部件)可以組成下面的一些漢字。把組成漢字的部件的英文名字按筆順先后排成一個(gè)字母串,這就是漢字的英文信息。唱(GAA)喵(GJF)啾(GEO)苗(JF)秋(EO) 呷(GAV)嘮(GJOV) 喳(GKAB)喱(GKAL) 噪(GGGGK)特殊地,對于有走之旁的漢字,例連、蓮、隧等,編制漢字信息時(shí),對于走之旁和它所包圍的部分,走之旁的英文名字排在它所包圍的部分的英文信息的前面。
例連(BF)、蓮(JBF)、隧(CBRZ)。
(四)當(dāng)一個(gè)漢字的某一部位是由幾個(gè)部件迭合時(shí),確定漢字的部首或部件時(shí)采取“取大優(yōu)先”的原則。
例“部”字的部首,取“立”部,而不取“亠”。
(五)編撰字詞典時(shí)依據(jù)漢字的英文信息(或稱字形信息)字母串的首字母,按A、B、C……的字母順序排列,首字母相同的按第二個(gè)字母的順序排列,第二個(gè)字母也相同的按第三個(gè)字母的順序排列。依此類推。
(六)本發(fā)明所確定的漢字英文信息,可以作為一種漢字計(jì)算機(jī)輸入編碼,作為編碼時(shí)只取漢字信息的前四個(gè)字母,不足四個(gè)字母的漢字打空格鍵結(jié)束。
權(quán)利要求
1.一種中文字詞典的漢字排序方法,其特征在于根據(jù)漢字信息化后的英文字母串的首字母,按照A、B、C、D……的順序排列首字母相同的漢字按其信息的第二個(gè)字母順序排列;第二個(gè)字母相同的按第三個(gè)字母的順序排列,依此類推。
2.根據(jù)權(quán)利要求1所述的中文字詞典漢字排序法,其特征在于所述的漢字信息化是給組成漢字的各個(gè)部首(或部件)各起了一個(gè)單字母的英文名字,然后按照筆順規(guī)律把組成每個(gè)漢字的部首(或部件)的英文名字排成一個(gè)英文字母串,從而形成了一個(gè)漢字的英文信息,或稱字形信息。
3.根據(jù)權(quán)利要求2所述的中文字詞典漢字排序法,其特征在于,所述的部首(或部件)為94個(gè)基本部首和45個(gè)歸類部首,還有5個(gè)單筆部首,這些部首和它們的英文名字如下表,表中的英文字母是它后面的部首(或部件)的英文名字,括號里的部首(或部件)是它前面相近的一個(gè)基本部首的歸類部首Q月( )、幾(兒、; ) W亻、隹、、乂;E彳、禾、竹、九、氣; R钅(金)、人、(入、八、丷)T鳥、魚、舟、身、勹( )、夕(夂) Y氵(冫、水、 )心;U讠(言)、亠、立、廣; I小(、 )、米、忄、;O衤、(礻)、宀(冖)、火P羊( )、疒、門、尸;A日、罒、 業(yè)( )、冂( ) S貝、見、大、蟲、且( );D山( )、巾、止( )、饣(食)、黑、刂(刀); F車、目、田、臼;G口、皿; H扌(手)、寸;J、艸、 十、匕( ); K木(覀、 )、 廠(ㄏ)、 L土(士)、、酉 Z馬、 虍、豕、犭(豸);X彐( )、女、母、雨; C阝(卩、耳)、子(孑)、癶( );V弓、力、石; B辶、艮( )N纟( 幺)、又(マ、厶)、矛; M王、二、革、 一、|、丿、丶、フ的英文名字分別是B、V、C、X、Z。
4.根據(jù)權(quán)利要求3所述的中文字詞典漢字排序法,其特征在于所述的部首的定義不同于一般字典,部首的定義為漢字按照筆順規(guī)律首先書寫的部件稱為部首。
5.根據(jù)權(quán)利要求3所述的中文字詞典漢字排序法,其特征在于所述的部首的中文名字,除幾個(gè)特殊的外,凡是撇起筆的部首的英文名字是計(jì)算機(jī)通用標(biāo)準(zhǔn)鍵盤26個(gè)字母鍵第一行左5鍵的英文字母,凡是點(diǎn)起筆部首的英文名字是第一行右5鍵的字母;第二行左5鍵的字母是豎起筆部首的英文名字,第二行右4鍵加M鍵的字母是橫起筆部首的英文名字;第三行中間5鍵的字母是折起筆部首的英文名字;Z是幾個(gè)動物類部首的英文名字;一、丨、丿、丶、フ的英文名字分別是B、V、C、X、Z。
6.根據(jù)權(quán)利要求書1所述的中文字詞典漢字排序法,其特征在于所述的漢字英文信息,可以作為一種新的漢字計(jì)算機(jī)輸入編碼,作為編碼時(shí)只取漢字信息的前4個(gè)字母。
全文摘要
本發(fā)明公布了一種新的中文字詞典漢字排序方法,它選定了94個(gè)基本部首和45個(gè)歸類部首,還有一、丨、丿、丶、>五個(gè)單筆部首,并為每一個(gè)部首起了一個(gè)單字母的英文名字,然后按照筆順規(guī)律把組成每個(gè)漢字的部首(或稱部件)的英文名字排成英文字母串,稱漢字的英文信息,漢字排序時(shí)依A、B、C、D……的順序排列。漢字查字時(shí)只要按照漢字的英文信息就會象查英語單詞一樣一翻就到。本發(fā)明如果只取每個(gè)漢字信息的前4個(gè)字母,就可以作為一種新的計(jì)算機(jī)漢字輸入編碼。
文檔編號B42D1/00GK1480344SQ03144019
公開日2004年3月10日 申請日期2003年7月26日 優(yōu)先權(quán)日2003年7月26日
發(fā)明者王法林 申請人:王法林