脈絡(luò)會(huì)意法的制作方法

文檔序號(hào)：6599385閱讀：221來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：脈絡(luò)會(huì)意法的制作方法
技術(shù)領(lǐng)域：
本發(fā)明仍相關(guān)于一種中文語言輸入方法，屬中文信息輸入與處理領(lǐng)域。本發(fā)明特別適合于處理電腦上的中文信息，如中文同音字的自動(dòng)辨認(rèn);中文字轉(zhuǎn)音及語音合成系統(tǒng);語音辨認(rèn)的后處理(音轉(zhuǎn)字及容錯(cuò)系統(tǒng));光學(xué)符號(hào)讀出器的后處理系統(tǒng);各類字形輸入法同碼字的自動(dòng)選取系統(tǒng)和中文句型剖析以及斷詞系統(tǒng)。
中文的自然語言在電腦處理上是相當(dāng)復(fù)雜的。一般人在使用中文時(shí)相當(dāng)?shù)撵`活，然而，中文文法所提供的訊息經(jīng)常含混不清，例如石塊和十塊，因而造成了電腦處理上的莫大困擾。
中文字、詞的使用在文法結(jié)構(gòu)上不像英文那樣有明顯的標(biāo)示，所以句型的分析單純用語法成效不彰，必須借重上下文的語意分析，才能避免混淆。最明顯的就是，人們?cè)趯?duì)話時(shí)需要靠上下文才能辨別同音字，這種情況由于潛意識(shí)已習(xí)以為常，我們反而不清楚自己的大腦是如何作這些辨認(rèn)工作的。這也就造成了人工智能研究上的一大困擾。一般說來，上下文所提供的信息相當(dāng)?shù)囟?，而且?jīng)常有相互矛盾之處，所以如何能抽絲剝繭，去蕪存菁，歸納出最合適的結(jié)論才是最重要的。但是語意分析牽涉甚廣，所需的專業(yè)知識(shí)浩瀚無邊，即令是一般常識(shí)，也有無從下手之感。因此，時(shí)下絕大部分的句型剖析系統(tǒng)都利用統(tǒng)計(jì)頻率及語言結(jié)構(gòu)的一般規(guī)則去作無意識(shí)的運(yùn)算，以達(dá)成一種概括性的解決方法。如臺(tái)灣松下電器公司的“漢音輸入法”即采用“長辭優(yōu)先、頻率高低”此類方法。這種統(tǒng)計(jì)，在電腦處理上雖然不需要太多人力的輔助，然而其效果也相當(dāng)有限，最糟糕的是很快就遇到瓶頸一經(jīng)常會(huì)犯一些“無謂”的錯(cuò)誤，且不能輕易修正。再者，統(tǒng)計(jì)頻率無法輕易地在不同的題材上自動(dòng)調(diào)整，所以頻率所顯示的只是一個(gè)庸俗的平均值，離所謂的人工智能相去甚遠(yuǎn)，甚至于一開始就注定只能達(dá)到一個(gè)平庸的境界。
本發(fā)明的目的乃在提供一種脈絡(luò)(英文為Context)會(huì)意法，即利用上下文信息輸入中文的方法。藉此，中文語言可在電腦上獲得正確的信息，而不會(huì)混淆不清。
本發(fā)明包含一個(gè)電腦裝置、一個(gè)注音輸入裝置，以及儲(chǔ)存在電腦的儲(chǔ)存器內(nèi)的樣板資料庫，其中該樣板資料庫中儲(chǔ)存了許多樣板的基本型態(tài)。當(dāng)使用者藉由注音裝置輸入同音字所構(gòu)成的詞句時(shí)，電腦裝置即同時(shí)檢索樣板資料庫中之樣板型態(tài)，并確認(rèn)每個(gè)音轉(zhuǎn)字之正確性，以獲得一個(gè)正確的詞句，且當(dāng)同音字彼此間發(fā)生互相搶字之情形時(shí)，經(jīng)由樣板之前后所賦予之加權(quán)值，以決定何者為最適當(dāng)之樣板。
本發(fā)明與單純使用詞及統(tǒng)計(jì)頻率方法相比，最明顯的優(yōu)點(diǎn)是統(tǒng)計(jì)頻率隨不同的文章題材而有不同的分布，如果在同一篇文章中摻雜著不同的題材，使用起來就非常地不方便。相對(duì)地，本發(fā)明脈絡(luò)會(huì)意法的基本原則就是在不同的領(lǐng)域內(nèi)發(fā)掘出不同的規(guī)則，所以規(guī)則之間極少有互相矛盾的，只是變得更加細(xì)膩。因此同樣的規(guī)則資料庫可以很容易地適用于不同的使用者。
一般以詞匯配對(duì)、頻率為主的分析方法，在使用時(shí)，字詞的修正都是在剛剛輸入或修改的字旁邊的一、兩個(gè)字，無法影響到六、七字以前的部分。也就是說，這種系統(tǒng)所處理的只達(dá)到“詞”的層次。本發(fā)明的方法則可以達(dá)到“句子”(sentence)甚至“言談”(discourse)的層次。
單純的詞匯收集用在“音轉(zhuǎn)字”系統(tǒng)上所能達(dá)到的正確率僅為80～85%左右，這是因?yàn)橥粼~本身所產(chǎn)生的混淆以及詞的“界線”不清所致。這些問題不能依靠存詞來解決，有些甚至是詞存得愈多問題愈大。然而本發(fā)明則可以將此正確率不斷地提高至理論的極限。
以下將結(jié)合實(shí)施例詳述本發(fā)明之脈絡(luò)會(huì)意法。
人類的常識(shí)判斷與理解過程是人工智能研究中最不可捉摸的。本發(fā)明就是盡量模擬人類的思維方式，將常識(shí)性的邏輯判斷轉(zhuǎn)變成電腦可以理解的符號(hào)運(yùn)算。我們的基本假設(shè)是人類理解的方式主要是依“樣板”(template)記憶、聯(lián)想及推論，這里“樣板”是一個(gè)綜合了語意信息、語法及字串這些成分的某種組合單位。以下以“音轉(zhuǎn)字”系統(tǒng)為例闡述樣板理論的概念(1)引例先看一例臺(tái)北市一位小孩昨天走失了這句話如果只打出它的注音，則可能組成的詞就相當(dāng)?shù)亩?。讓我們暫且看一下前面五個(gè)音所能構(gòu)成的詞臺(tái)北市一位小孩昨天走失了臺(tái)北市臺(tái)北事宜適宜一位一味移位我們?cè)倏聪旅娴睦樱袝r(shí)長詞不一定“優(yōu)先”臺(tái)北是一個(gè)美麗的城市臺(tái)北市一位小孩走失了傳統(tǒng)的句型剖析法將所有可能的句子分解方式一一列出，再加上語意的匹配以決定最后合適的對(duì)應(yīng)漢字。這樣的作法速度非常慢，而且需要相當(dāng)多的語言學(xué)知識(shí)輔佐。
本發(fā)明的目標(biāo)是盡量模擬人類的“理解”(understanding)系統(tǒng)，避免使用難分難解的句型剖析法。我們以常識(shí)為出發(fā)點(diǎn)，再利用上下文加上適當(dāng)?shù)耐茢?、比較來得出結(jié)論。在自然語言中，一個(gè)字、詞的“樣板”就是這個(gè)字、詞所有出現(xiàn)的“情況”，也是綜合語法、語意的特征規(guī)則。下面我們以“一只非?？蓯鄣呢垺睘槔?，說明有關(guān)“只”的樣板形式。各個(gè)字、詞的詞類標(biāo)示在其下方一只非?？蓯鄣呢垟?shù)詞量詞副詞形容詞助詞名詞從這樣的詞類次序關(guān)系，我們大略可歸納出以下的樣板(其中圓括弧內(nèi)的副詞表示可有可無;“1”的記號(hào)表示緊鄰。)
數(shù)詞1只1(副詞)形容詞1的動(dòng)物如果再省略形容詞和“的”，便得到數(shù)詞1只動(dòng)物另外，也有一種用法是“他買了小貓兩只”動(dòng)物數(shù)詞1只類似這樣的樣板可以規(guī)范出“只”的使用規(guī)則。當(dāng)我們收集了足夠多“只”的樣板后，“只”字就能掌握自如了。比如，當(dāng)我們輸入了一個(gè)單音“ㄓ”(zhi)時(shí)，有許多可能對(duì)應(yīng)的字，但當(dāng)上下文里陸續(xù)出現(xiàn)了許多其它的訊息時(shí)，電腦系統(tǒng)內(nèi)存的樣板就會(huì)一一地與之對(duì)應(yīng)，如果其中一個(gè)樣板對(duì)上了，“只”字就會(huì)出現(xiàn)。
(2)樣板的基本形態(tài)“名詞片語”的樣板范例-一只非?？蓯鄣呢?b>數(shù)詞1只1(副詞)形容詞1的動(dòng)物“動(dòng)詞片語”的樣板范例-洗了一個(gè)很舒服的澡洗1(了)定詞1(副詞)形容詞1的1澡“簡(jiǎn)單句子”的樣板范例-他用斧頭把這根樹枝劈成柴火人1用工具1把物體動(dòng)詞1成物件(3)樣板的搜集原則本發(fā)明脈絡(luò)會(huì)意法可以應(yīng)用的范圍甚廣，樣板的搜集方式也不盡相同，完全視需要而定。譬如在“音轉(zhuǎn)字”系統(tǒng)中，樣板搜集的對(duì)象主要是在于區(qū)別同音字、詞以及幫助斷詞的規(guī)則。在“字轉(zhuǎn)音”系統(tǒng)中樣板則主要在于幫助斷詞點(diǎn)的確定。搜集方式則是利用電腦統(tǒng)計(jì)以及語意分析師的專業(yè)判斷。
(4)樣板的檢索原則樣板通常依附在(或記錄于)其最重要的“成分”(Key)上。如果一個(gè)樣板的重要成分多于一個(gè)時(shí)，就有可能被記錄多次。這些成分主要是由連續(xù)的字串或字和語意的組合。其中，字串是指一些習(xí)慣用的字組，當(dāng)然也包括我們通常所謂的“詞”。譬如，字串中有“有時(shí)”和“有十”以及“臺(tái)北市”和“臺(tái)北是”等等?！耙恢豢蓯鄣呢垺钡臉影蹇捎涗浽凇爸弧鄙希部捎涗浽凇柏垺鄙?，需視實(shí)際情況而定。我們可以對(duì)這些主要成分事先加以排序，以加速檢索。
(5)樣板有沖突時(shí)的處理原則兩個(gè)樣板中可能有部分重疊，造成互相抵觸的現(xiàn)象。這時(shí)在系統(tǒng)內(nèi)可事先將這兩個(gè)樣板的“強(qiáng)度”予以標(biāo)定，預(yù)先決定當(dāng)兩者同時(shí)出現(xiàn)時(shí)，何者優(yōu)先被使用。譬如在醫(yī)學(xué)名詞上有一樣板器官名稱｜科，在職業(yè)名稱上有一樣板姓氏｜職業(yè)名稱。這兩個(gè)樣板就可能造成以下的同音字“互搶”皮膚科、柯醫(yī)生。當(dāng)“皮膚科醫(yī)生”出現(xiàn)時(shí)，系統(tǒng)被告知應(yīng)該將第一個(gè)樣板的強(qiáng)度提高，使其“勝過”第二個(gè)樣板，“科”字才會(huì)辨認(rèn)正確。當(dāng)然如此的強(qiáng)度調(diào)整有可能在另一種情況下產(chǎn)生不合適的效果。這時(shí)這兩個(gè)樣板就可能需要再加以細(xì)分，使其更為精確，避免重疊。這些改變的取舍原則可以由統(tǒng)計(jì)決定之。下面就最基本的樣板-“詞”的強(qiáng)度加以說明每個(gè)雙字以上的詞都賦與“左”、“右”分?jǐn)?shù)，這個(gè)分?jǐn)?shù)是介于0和255之間的整數(shù)。當(dāng)兩個(gè)雙字以上的詞之頭、尾共用一個(gè)字音時(shí)，就可利用各個(gè)字詞的左右分?jǐn)?shù)之大小決定那個(gè)詞應(yīng)該出現(xiàn)。譬如當(dāng)使用者輸入“ㄐ\(zhòng)ㄏㄨㄚ\ㄊㄧ/”或者輸入“ji\hua\ti/”時(shí)，系統(tǒng)發(fā)現(xiàn)“計(jì)劃”可對(duì)應(yīng)到前面兩個(gè)音，而“話題”可對(duì)應(yīng)至后面兩個(gè)音。由于是“計(jì)劃”右邊的“劃”字和“話題”左邊的“話”字在搶，故決定斷詞點(diǎn)的位置就由“計(jì)劃”的右分?jǐn)?shù)和“話題”的左分?jǐn)?shù)之大小來決定。因此，如果系統(tǒng)內(nèi)定的分?jǐn)?shù)顯示“計(jì)劃”的右分?jǐn)?shù)低于“話題”的左分?jǐn)?shù)時(shí)，“話題”一詞會(huì)被選上，斷詞點(diǎn)在“ㄐ\(zhòng)”與“ㄏㄨㄚ\ㄊㄧ/”之間;反之，“計(jì)劃”會(huì)被選上，斷詞點(diǎn)將會(huì)在“ㄐ\(zhòng)ㄏㄨㄚ\”與“ㄊㄧ/”之間。
詞的左右強(qiáng)度主要用在脈絡(luò)會(huì)意法的樣板在比對(duì)(對(duì)詞)時(shí)所沒有“照顧到”的地方，這個(gè)強(qiáng)度可由統(tǒng)計(jì)學(xué)在語料庫內(nèi)計(jì)算出一“合理值”來決定。然而，如果一個(gè)詞的樣板被對(duì)應(yīng)上時(shí)，我們會(huì)將這個(gè)樣板的強(qiáng)度“加分”，以增加這個(gè)詞“搶贏”的機(jī)會(huì)。
以下說明本發(fā)明脈絡(luò)會(huì)意法的處理步驟當(dāng)使用者藉由注音輸入裝置(如鍵盤等)輸入一連串注音或拼音符號(hào)后，電腦裝置即對(duì)每一個(gè)“音”檢索其同音字及以此字開頭的同音詞，并記錄其語意特征;
由左至右地將每個(gè)音所對(duì)應(yīng)“兩個(gè)字以上之詞”的樣板從樣板資料庫中選出，并一一和目前“線上”(on-line)的資料對(duì)應(yīng)，凡對(duì)應(yīng)成功者，將其分?jǐn)?shù)記錄于所對(duì)應(yīng)之字詞上;
利用各個(gè)詞所加得的分?jǐn)?shù)決定單字詞或多字詞的位置及斷詞點(diǎn)，并將不用的詞去除;
由左而右將每個(gè)單字詞所對(duì)應(yīng)的樣板與目前“線上”的資料對(duì)應(yīng)，并將對(duì)應(yīng)成功的單字加分;
由電腦顯示裝置顯示得分最高的單字詞和多字詞，而構(gòu)成一完整無誤的詞句。
例如，輸入“一只可愛的小狗”，我們可以看到的變化過程如下(帶下劃線者表示輸入的注音符號(hào))丨\→義ㄓ→義肢ㄎㄜ∨→義肢可ㄞ\→義肢可愛ㄉㄜ·→義肢可愛的ㄒㄧㄠ∨→義肢可愛的小ㄍㄡ∨→一只可愛的小狗本發(fā)明方法輸入正確率可達(dá)96%。
本發(fā)明除用于中文輸入外，在語音輸入的后處理系統(tǒng)上，藉由使用本發(fā)明，不但在音確定的情況下能將之轉(zhuǎn)換為正確的字，并可以在音不確定時(shí)，有效地幫助其判斷正確的轉(zhuǎn)換(即所謂的容錯(cuò))，在語音合成輔助系統(tǒng)上，籍由本發(fā)明可協(xié)助其確定斷詞點(diǎn)。對(duì)于其它的中文輸入系統(tǒng)中偏高的錯(cuò)誤輸入，亦可藉由本發(fā)明加以改善。
權(quán)利要求
1.一種脈絡(luò)會(huì)意法，包含一個(gè)電腦裝置、一個(gè)注音輸入裝置、以及儲(chǔ)存在電腦的存貯器內(nèi)的樣板資料庫，其中該樣板資料庫中儲(chǔ)存了許多樣板的基本型態(tài)，其特征是a.使用者籍由注音輸入裝置輸入一連串注音或拼音符號(hào)；b.建立字、詞以及語意特征之“線上”資料結(jié)構(gòu)，即對(duì)輸入的每一個(gè)“音”檢索其同音字及以此字開頭的同音詞，并記錄其語意特征；c.由左而右地將每個(gè)音所對(duì)應(yīng)“二個(gè)字以上之詞”的樣板從資料庫中選出，并一一和目前“線上”資料對(duì)應(yīng)，凡是對(duì)應(yīng)成功者，將其分?jǐn)?shù)記錄于所對(duì)應(yīng)之字詞上；d.利用各個(gè)詞所加得的分?jǐn)?shù)決定單字詞或多字詞的位置以及斷詞點(diǎn)，并將不用的詞去掉；e.由左而右將每個(gè)單字詞所對(duì)應(yīng)的樣板一一和目前的“線上”資料對(duì)應(yīng)，并將對(duì)應(yīng)成功的單字加分；f.令電腦顯示得分最高之單字詞和多字詞。
2.根據(jù)權(quán)利要求1所述的脈絡(luò)會(huì)意法，其特征在于所說樣板資料庫可進(jìn)一步區(qū)分為許多專業(yè)的樣板資料庫，以利于各行業(yè)在其領(lǐng)域內(nèi)之專用名詞之使用。
全文摘要
本發(fā)明乃相關(guān)于一種中文語言輸入的脈絡(luò)會(huì)意法，屬中文信息輸入與處理領(lǐng)域。它包含電腦裝置、一注音輸入裝置、及儲(chǔ)存在電腦的存貯器內(nèi)的樣板資料庫，其中該樣板資料庫中儲(chǔ)存了許多樣板的基本形態(tài)。當(dāng)使用者由注音輸入裝置輸入同音字所構(gòu)成的詞句時(shí)，電腦即同時(shí)檢索樣板資料庫中之樣板形態(tài)，并確認(rèn)每個(gè)音轉(zhuǎn)字之正確性，以獲得一個(gè)正確的詞句，且當(dāng)同音字彼此間發(fā)生搶字情形時(shí)，經(jīng)由樣板之前后所賦予的加權(quán)值，以決定何者為最適當(dāng)之樣板。
文檔編號(hào)G06F3/023GK1083234SQ93108698
公開日1994年3月2日申請(qǐng)日期1993年7月23日優(yōu)先權(quán)日1993年7月23日
發(fā)明者許聞廉申請(qǐng)人:許聞廉

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許聞廉
技術(shù)所有人：許聞廉
我是此專利的發(fā)明人

上一篇：雙部首編碼法及其鍵盤的制作方法
上一篇：漢語友聲聲數(shù)系統(tǒng)的技術(shù)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

樹葉脈絡(luò)標(biāo)本制作方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

脈絡(luò)會(huì)意法的制作方法