欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種字元檢索漢字的方法

文檔序號(hào):6597076閱讀:347來(lái)源:國(guó)知局
專利名稱:一種字元檢索漢字的方法
技術(shù)領(lǐng)域
本發(fā)明屬于漢語(yǔ)文字信息處理背景技術(shù)目前的漢語(yǔ)字典對(duì)于檢索漢字的方法基本上有3種l偏旁部首、2漢語(yǔ)拼音、3四角號(hào)碼。其中四角 號(hào)碼由于不容易被人們所理解,基本己經(jīng)被放棄使用了,因此就只有利用偏旁部首和漢語(yǔ)拼音來(lái)檢索和査 閱漢字這2種方法。偏旁部首從康熙字典就已經(jīng)采用,歷史悠久,根據(jù)漢字的200多個(gè)部首從字典或者詞 典檢索字、詞;而利用漢語(yǔ)拼音檢索漢字是從1958年以后,漢語(yǔ)拼音成為中國(guó)的法律后,才開(kāi)始使用。 完全按照漢字拼音的檢索漢字雖然方便快捷,但是對(duì)于常用的漢字如國(guó)標(biāo)的一級(jí)漢字3753個(gè),具有極大 的優(yōu)勢(shì),人們可以利用漢語(yǔ)拼音的英文字母順序快速的找到檢索和查詢的漢字的位置,對(duì)于小型字典如收 字在5000個(gè)左右還可以,其余的利用部首檢字表作為輔助,也是一個(gè)權(quán)益之計(jì)。但是,對(duì)于大部分字典, 該方法是不合適的,因?yàn)榧词故菍?duì)于小學(xué)生使用的《新華字典》收字也達(dá)一萬(wàn)多,更何況對(duì)于收字幾萬(wàn)以 上的大中型字詞典,因?yàn)榇蠖鄶?shù)的具有中等教育水平的中國(guó)人的認(rèn)識(shí)漢字(讀音),基本上就在4000左右, 對(duì)于"生字",就只能采用部首檢字表來(lái)檢索查找"生字"。首先要判斷這個(gè)字的部首,然后在計(jì)算出該部 首的筆畫數(shù),最后在檢字表中仔細(xì)的尋找出該字在字典正文所在的頁(yè)碼,最后才查出該字的讀音和釋義, 這幾乎是目前所有漢字檢索采用的方法,效率低下,而且需要查閱者極大的耐心;如查"貔(ju6)"字, 先要査部首目錄的"豸(7畫)"在檢字表的67頁(yè)(商務(wù)印書(shū)館《現(xiàn)代漢語(yǔ)詞典》第5版為例),在"163 豸部"找到"貔"字,在正文的1039頁(yè),整個(gè)過(guò)程費(fèi)時(shí)費(fèi)力,特別是對(duì)于當(dāng)代漢語(yǔ)走向世界和計(jì)算機(jī)的 中文處理,落后的檢索漢字手段需要根本的改進(jìn)。發(fā)明內(nèi)容本發(fā)明就是針對(duì)目前的漢字詞典的漢字檢索和査閱的落后手段,進(jìn)行了徹底的改革。無(wú)論多么 復(fù)雜漢字,其構(gòu)成或者有幾個(gè)簡(jiǎn)單的漢字或者是與偏旁部首構(gòu)成的,在漢字的全集中(古今中外的全部數(shù) 暈,估計(jì)在10-13萬(wàn)左右),都是由這些簡(jiǎn)單的漢字(大部分是國(guó)標(biāo)一級(jí)漢字3700個(gè)漢字和200個(gè)左右非 成字的偏旁部首或者部件構(gòu)成的),這些漢字與漢字或者與部首/部件的組合,理論上可以構(gòu)成百萬(wàn)以上的 漢字,當(dāng)然實(shí)際上只有十幾萬(wàn)的漢字,而且這個(gè)數(shù)量相對(duì)是穩(wěn)定的,基本不會(huì)增加。因此理論上只要掌握 了這4000個(gè)之內(nèi)的基本漢字,就可以通過(guò)這個(gè)基本漢字的子局去査詢構(gòu)成的漢字全集,因?yàn)榛旧鲜苓^(guò)9 年制教育的國(guó)人,是知道其讀音,我們把這個(gè)稱為漢字元;可以是單獨(dú)的"單字元",也可以是獨(dú)體字和 獨(dú)體字或者部件/部首構(gòu)成,我把它定義為合成字元,簡(jiǎn)稱"合字元"。如"王",可以被認(rèn)為是單字元,"尾" 字被定義為"合字元",由"尸"和"毛"構(gòu)成"邦",由豐字旁和'卞"構(gòu)成,非成字的偏旁部首/部件 不作為字元處理,理由是無(wú)法進(jìn)行拼音編碼,而且會(huì)造成字元集的龐大,如205個(gè)部首,扣掉成字的部首, 只有150個(gè),要對(duì)應(yīng)200個(gè),"[S "。字元的數(shù)量規(guī)模應(yīng)該控制在2000左右,如果字元過(guò)少,會(huì)造成一個(gè)字元對(duì)應(yīng)過(guò)多的由該字元構(gòu)成的漢字(字元集);如有1000個(gè)字元,那么平均1個(gè)字元集包括100個(gè)漢字, 會(huì)影響檢索速度,數(shù)量過(guò)多比如多于4000個(gè),會(huì)導(dǎo)致有部分人不認(rèn)識(shí)字元的讀音而無(wú)法檢索,根據(jù)目前 的《GB18030》的27000個(gè)左右漢字,發(fā)明者認(rèn)為字元的數(shù)量在2000-3000個(gè)左右比較合適,平均每個(gè)字 元集含15個(gè)左右的漢字,考慮到將來(lái)的漢字總數(shù)如果擴(kuò)展到12萬(wàn)個(gè),那么平均每個(gè)字元集有40個(gè)左右 漢字,檢索起來(lái)也不會(huì)費(fèi)太多的時(shí)間;當(dāng)然也可以適當(dāng)?shù)脑黾右恍┳衷獢?shù)作為一些特殊的偏僻漢字的檢索。 把這些字元,按照其漢語(yǔ)拼音字母(a-z)和拼音調(diào)號(hào)的順序編制成一個(gè)字元檢索表,安排在字典或者 詞典的前序部分,替代目前的筆畫檢字表。我們以3000個(gè)字元計(jì)算,按照目前字典的筆畫檢字表,平均 每頁(yè)150個(gè)漢字(字體按照5號(hào)字)計(jì)算,那么只要20頁(yè)就可以容納這些字元,篇幅和紙張都減少了; 而目前的字典如《國(guó)際標(biāo)準(zhǔn)漢字詞典》(ISBN7-5600-3130-7),收字20902,其筆畫檢字表多達(dá)80頁(yè)。我們以國(guó)標(biāo)一級(jí)漢字中的"暴"字元為例,在GB18030的漢字中"暴"字元集或者"暴"字集包括如 下的14個(gè)漢字暴、爆、爆、鑤、曝、爆、樓、楊、鑤、瀑、曝、摞、揚(yáng)和釀;如要查漢字"爆"(b6),, 該字包括字元"暴",根據(jù)其拼音"bao",在字元檢索表中找到"bdo暴120-122"(這里為說(shuō)明方便不一 定在120-122頁(yè)),說(shuō)明"暴"字集在詞典120-122頁(yè),翻閱到120-122頁(yè),査到"爆"字。字元集里的 所有漢字也是按照漢語(yǔ)拼音和調(diào)號(hào)的升序排序的,除了字元被排列在字元集的首位。
具體實(shí)施方式
可以利用Windows的Excel軟件,把所有的漢字放到B列,進(jìn)行排序后,找出全部每個(gè)漢字的字元放到 與A并列的B列,然后選中A、 B倆列,以A列重新排序之后,A列不動(dòng),再對(duì)B列的每個(gè)含有相同字元 的字元集,從以拼音字母"A"開(kāi)始的各個(gè)字元集一一進(jìn)行排列,直到排序最后的以"Z"開(kāi)始的一列。 最后把所有的字元(去掉重復(fù)的只選取一個(gè)字元字),單獨(dú)匯編成字元檢索表,并且根據(jù)具體的每個(gè)字元 集在不同字典、詞典的位置,分配給這些字元集對(duì)應(yīng)的頁(yè)碼。如果漢字?jǐn)?shù)量超過(guò)10萬(wàn)個(gè),可以將漢字集 一分為二,實(shí)現(xiàn)漢字元的排序和匯編字元檢索表,或者直接利用Access來(lái)實(shí)現(xiàn)。
權(quán)利要求
1、一種字元檢索漢字的方法,其特征在于找出所有漢字的字元,然后匯編字元檢索表,根據(jù)每個(gè)漢字包括的字元拼音,查找出該字元在字典或者詞典的字元檢索表的位置,每個(gè)字元的后面標(biāo)示出頁(yè)碼范圍來(lái)表明該字元集在字典或者詞典正文的頁(yè)碼范圍。
2、 根據(jù)權(quán)利要求1所述的方法,其特征在于把這些字元按照其漢語(yǔ)拼音和拼音調(diào)號(hào)的排序,編制成一 個(gè)字元檢索表,安排在字典或者詞典的前序部分。
3、 根據(jù)權(quán)利要求1所述的方法,其特征在于字元檢索表中,每個(gè)字元的后面標(biāo)示出頁(yè)碼范圍。
4、 根據(jù)權(quán)利要求1所述的方法,其特征在于査找某個(gè)漢字時(shí),先根據(jù)該漢字的字元拼音,査找出該字 元在字元檢索表的位置,然后按照該字元的頁(yè)碼范圍,在字典或者詞典的正文査出相應(yīng)的漢字。
全文摘要
本發(fā)明利用漢字是由簡(jiǎn)單的常用漢字和偏旁部首構(gòu)成的特點(diǎn),并且考慮到多數(shù)的國(guó)人都認(rèn)識(shí)國(guó)標(biāo)一級(jí)漢字(拼音的讀音)的事實(shí),把這些常用的基本漢字當(dāng)作構(gòu)成漢字的字元,構(gòu)成一個(gè)字元集,每個(gè)字元集包括幾十個(gè)含有相同字元的漢字;根據(jù)字元的拼音構(gòu)造一個(gè)字元檢索表,查詢漢字不是按照漢字的拼音和偏旁部首,而是根據(jù)其字元的拼音,查找出其在字元表的位置,然后在查找該字元集在詞典正文的頁(yè)碼,在字元集里查找出該漢字。徹底顛覆了傳統(tǒng)的按照偏旁部首及筆畫查找漢字的方法。該方法簡(jiǎn)單方便,而且符合國(guó)際和國(guó)際標(biāo)準(zhǔn),節(jié)省漢字的檢索時(shí)間,有利于小學(xué)生和國(guó)外人士的漢語(yǔ)教學(xué),知道漢字的傳統(tǒng)來(lái)歷,同時(shí)也節(jié)約了紙張,為漢字的計(jì)算機(jī)檢索和漢字的內(nèi)碼編碼奠定了基礎(chǔ);有利于漢語(yǔ)在時(shí)間的傳播。
文檔編號(hào)G06F3/023GK101403948SQ200810228840
公開(kāi)日2009年4月8日 申請(qǐng)日期2008年11月17日 優(yōu)先權(quán)日2008年11月17日
發(fā)明者周連惠 申請(qǐng)人:張家港市赫?qǐng)D阿拉信息技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
神农架林区| 瑞昌市| 东至县| 香格里拉县| 滁州市| 贺州市| 盈江县| 贵德县| 曲麻莱县| 秦安县| 威宁| 洪湖市| 南漳县| 纳雍县| 托克托县| 浪卡子县| 永康市| 新乡县| 肥西县| 岳阳县| 筠连县| 汉川市| 石首市| 保定市| 临西县| 观塘区| 和静县| 静安区| 荃湾区| 邵武市| 刚察县| 凌海市| 冕宁县| 门源| 台湾省| 德庆县| 顺昌县| 丹江口市| 新疆| 淅川县| 曲阜市|