一種字元檢索漢字的方法

文檔序號(hào)：6597076閱讀：347來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種字元檢索漢字的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于漢語(yǔ)文字信息處理背景技術(shù)目前的漢語(yǔ)字典對(duì)于檢索漢字的方法基本上有3種l偏旁部首、2漢語(yǔ)拼音、3四角號(hào)碼。其中四角號(hào)碼由于不容易被人們所理解，基本己經(jīng)被放棄使用了，因此就只有利用偏旁部首和漢語(yǔ)拼音來(lái)檢索和査閱漢字這2種方法。偏旁部首從康熙字典就已經(jīng)采用，歷史悠久，根據(jù)漢字的200多個(gè)部首從字典或者詞典檢索字、詞；而利用漢語(yǔ)拼音檢索漢字是從1958年以后，漢語(yǔ)拼音成為中國(guó)的法律后，才開(kāi)始使用。完全按照漢字拼音的檢索漢字雖然方便快捷，但是對(duì)于常用的漢字如國(guó)標(biāo)的一級(jí)漢字3753個(gè)，具有極大的優(yōu)勢(shì)，人們可以利用漢語(yǔ)拼音的英文字母順序快速的找到檢索和查詢的漢字的位置，對(duì)于小型字典如收字在5000個(gè)左右還可以，其余的利用部首檢字表作為輔助，也是一個(gè)權(quán)益之計(jì)。但是，對(duì)于大部分字典，該方法是不合適的，因?yàn)榧词故菍?duì)于小學(xué)生使用的《新華字典》收字也達(dá)一萬(wàn)多，更何況對(duì)于收字幾萬(wàn)以上的大中型字詞典，因?yàn)榇蠖鄶?shù)的具有中等教育水平的中國(guó)人的認(rèn)識(shí)漢字(讀音)，基本上就在4000左右，對(duì)于"生字"，就只能采用部首檢字表來(lái)檢索查找"生字"。首先要判斷這個(gè)字的部首，然后在計(jì)算出該部首的筆畫數(shù)，最后在檢字表中仔細(xì)的尋找出該字在字典正文所在的頁(yè)碼，最后才查出該字的讀音和釋義，這幾乎是目前所有漢字檢索采用的方法，效率低下，而且需要查閱者極大的耐心；如查"貔(ju6)"字，先要査部首目錄的"豸(7畫)"在檢字表的67頁(yè)(商務(wù)印書(shū)館《現(xiàn)代漢語(yǔ)詞典》第5版為例)，在"163 豸部"找到"貔"字，在正文的1039頁(yè)，整個(gè)過(guò)程費(fèi)時(shí)費(fèi)力，特別是對(duì)于當(dāng)代漢語(yǔ)走向世界和計(jì)算機(jī)的中文處理，落后的檢索漢字手段需要根本的改進(jìn)。發(fā)明內(nèi)容本發(fā)明就是針對(duì)目前的漢字詞典的漢字檢索和査閱的落后手段，進(jìn)行了徹底的改革。無(wú)論多么復(fù)雜漢字，其構(gòu)成或者有幾個(gè)簡(jiǎn)單的漢字或者是與偏旁部首構(gòu)成的，在漢字的全集中(古今中外的全部數(shù) 暈，估計(jì)在10-13萬(wàn)左右)，都是由這些簡(jiǎn)單的漢字(大部分是國(guó)標(biāo)一級(jí)漢字3700個(gè)漢字和200個(gè)左右非成字的偏旁部首或者部件構(gòu)成的)，這些漢字與漢字或者與部首/部件的組合，理論上可以構(gòu)成百萬(wàn)以上的漢字，當(dāng)然實(shí)際上只有十幾萬(wàn)的漢字，而且這個(gè)數(shù)量相對(duì)是穩(wěn)定的，基本不會(huì)增加。因此理論上只要掌握了這4000個(gè)之內(nèi)的基本漢字，就可以通過(guò)這個(gè)基本漢字的子局去査詢構(gòu)成的漢字全集，因?yàn)榛旧鲜苓^(guò)9 年制教育的國(guó)人，是知道其讀音，我們把這個(gè)稱為漢字元；可以是單獨(dú)的"單字元"，也可以是獨(dú)體字和獨(dú)體字或者部件/部首構(gòu)成，我把它定義為合成字元，簡(jiǎn)稱"合字元"。如"王"，可以被認(rèn)為是單字元，"尾" 字被定義為"合字元"，由"尸"和"毛"構(gòu)成"邦"，由豐字旁和'卞"構(gòu)成，非成字的偏旁部首/部件不作為字元處理，理由是無(wú)法進(jìn)行拼音編碼，而且會(huì)造成字元集的龐大，如205個(gè)部首，扣掉成字的部首，只有150個(gè)，要對(duì)應(yīng)200個(gè)，"[S "。字元的數(shù)量規(guī)模應(yīng)該控制在2000左右，如果字元過(guò)少，會(huì)造成一個(gè)字元對(duì)應(yīng)過(guò)多的由該字元構(gòu)成的漢字(字元集)；如有1000個(gè)字元，那么平均1個(gè)字元集包括100個(gè)漢字，會(huì)影響檢索速度，數(shù)量過(guò)多比如多于4000個(gè)，會(huì)導(dǎo)致有部分人不認(rèn)識(shí)字元的讀音而無(wú)法檢索，根據(jù)目前的《GB18030》的27000個(gè)左右漢字，發(fā)明者認(rèn)為字元的數(shù)量在2000-3000個(gè)左右比較合適，平均每個(gè)字元集含15個(gè)左右的漢字，考慮到將來(lái)的漢字總數(shù)如果擴(kuò)展到12萬(wàn)個(gè)，那么平均每個(gè)字元集有40個(gè)左右漢字，檢索起來(lái)也不會(huì)費(fèi)太多的時(shí)間；當(dāng)然也可以適當(dāng)?shù)脑黾右恍┳衷獢?shù)作為一些特殊的偏僻漢字的檢索。把這些字元，按照其漢語(yǔ)拼音字母(a-z)和拼音調(diào)號(hào)的順序編制成一個(gè)字元檢索表，安排在字典或者詞典的前序部分，替代目前的筆畫檢字表。我們以3000個(gè)字元計(jì)算，按照目前字典的筆畫檢字表，平均每頁(yè)150個(gè)漢字(字體按照5號(hào)字)計(jì)算，那么只要20頁(yè)就可以容納這些字元，篇幅和紙張都減少了；而目前的字典如《國(guó)際標(biāo)準(zhǔn)漢字詞典》(ISBN7-5600-3130-7)，收字20902,其筆畫檢字表多達(dá)80頁(yè)。我們以國(guó)標(biāo)一級(jí)漢字中的"暴"字元為例，在GB18030的漢字中"暴"字元集或者"暴"字集包括如下的14個(gè)漢字暴、爆、爆、鑤、曝、爆、樓、楊、鑤、瀑、曝、摞、揚(yáng)和釀；如要查漢字"爆"(b6)，，該字包括字元"暴"，根據(jù)其拼音"bao",在字元檢索表中找到"bdo暴120-122"(這里為說(shuō)明方便不一定在120-122頁(yè))，說(shuō)明"暴"字集在詞典120-122頁(yè)，翻閱到120-122頁(yè)，査到"爆"字。字元集里的所有漢字也是按照漢語(yǔ)拼音和調(diào)號(hào)的升序排序的，除了字元被排列在字元集的首位。
具體實(shí)施方式
可以利用Windows的Excel軟件，把所有的漢字放到B列，進(jìn)行排序后，找出全部每個(gè)漢字的字元放到與A并列的B列，然后選中A、 B倆列，以A列重新排序之后，A列不動(dòng)，再對(duì)B列的每個(gè)含有相同字元的字元集，從以拼音字母"A"開(kāi)始的各個(gè)字元集一一進(jìn)行排列，直到排序最后的以"Z"開(kāi)始的一列。最后把所有的字元(去掉重復(fù)的只選取一個(gè)字元字)，單獨(dú)匯編成字元檢索表，并且根據(jù)具體的每個(gè)字元集在不同字典、詞典的位置，分配給這些字元集對(duì)應(yīng)的頁(yè)碼。如果漢字?jǐn)?shù)量超過(guò)10萬(wàn)個(gè)，可以將漢字集一分為二，實(shí)現(xiàn)漢字元的排序和匯編字元檢索表，或者直接利用Access來(lái)實(shí)現(xiàn)。
權(quán)利要求
1、一種字元檢索漢字的方法，其特征在于找出所有漢字的字元，然后匯編字元檢索表，根據(jù)每個(gè)漢字包括的字元拼音，查找出該字元在字典或者詞典的字元檢索表的位置，每個(gè)字元的后面標(biāo)示出頁(yè)碼范圍來(lái)表明該字元集在字典或者詞典正文的頁(yè)碼范圍。
2、根據(jù)權(quán)利要求1所述的方法，其特征在于把這些字元按照其漢語(yǔ)拼音和拼音調(diào)號(hào)的排序，編制成一個(gè)字元檢索表，安排在字典或者詞典的前序部分。
3、根據(jù)權(quán)利要求1所述的方法，其特征在于字元檢索表中，每個(gè)字元的后面標(biāo)示出頁(yè)碼范圍。
4、根據(jù)權(quán)利要求1所述的方法，其特征在于査找某個(gè)漢字時(shí)，先根據(jù)該漢字的字元拼音，査找出該字元在字元檢索表的位置，然后按照該字元的頁(yè)碼范圍，在字典或者詞典的正文査出相應(yīng)的漢字。
全文摘要
本發(fā)明利用漢字是由簡(jiǎn)單的常用漢字和偏旁部首構(gòu)成的特點(diǎn)，并且考慮到多數(shù)的國(guó)人都認(rèn)識(shí)國(guó)標(biāo)一級(jí)漢字(拼音的讀音)的事實(shí)，把這些常用的基本漢字當(dāng)作構(gòu)成漢字的字元，構(gòu)成一個(gè)字元集，每個(gè)字元集包括幾十個(gè)含有相同字元的漢字；根據(jù)字元的拼音構(gòu)造一個(gè)字元檢索表，查詢漢字不是按照漢字的拼音和偏旁部首，而是根據(jù)其字元的拼音，查找出其在字元表的位置，然后在查找該字元集在詞典正文的頁(yè)碼，在字元集里查找出該漢字。徹底顛覆了傳統(tǒng)的按照偏旁部首及筆畫查找漢字的方法。該方法簡(jiǎn)單方便，而且符合國(guó)際和國(guó)際標(biāo)準(zhǔn)，節(jié)省漢字的檢索時(shí)間，有利于小學(xué)生和國(guó)外人士的漢語(yǔ)教學(xué)，知道漢字的傳統(tǒng)來(lái)歷，同時(shí)也節(jié)約了紙張，為漢字的計(jì)算機(jī)檢索和漢字的內(nèi)碼編碼奠定了基礎(chǔ)；有利于漢語(yǔ)在時(shí)間的傳播。
文檔編號(hào)G06F3/023GK101403948SQ200810228840
公開(kāi)日2009年4月8日申請(qǐng)日期2008年11月17日優(yōu)先權(quán)日2008年11月17日
發(fā)明者周連惠申請(qǐng)人:張家港市赫?qǐng)D阿拉信息技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周連惠
技術(shù)所有人：張家港市赫?qǐng)D阿拉信息技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

js拼音檢索漢字相關(guān)技術(shù)

拼音檢索漢字相關(guān)技術(shù)

js拼音首字母檢索漢字相關(guān)技術(shù)

百度檢索方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種字元檢索漢字的方法