欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

脈絡(luò)會(huì)意法的制作方法

文檔序號(hào):6599385閱讀:221來源:國知局
專利名稱:脈絡(luò)會(huì)意法的制作方法
技術(shù)領(lǐng)域
本發(fā)明仍相關(guān)于一種中文語言輸入方法,屬中文信息輸入與處理領(lǐng)域。本發(fā)明特別適合于處理電腦上的中文信息,如中文同音字的自動(dòng)辨認(rèn);中文字轉(zhuǎn)音及語音合成系統(tǒng);語音辨認(rèn)的后處理(音轉(zhuǎn)字及容錯(cuò)系統(tǒng));光學(xué)符號(hào)讀出器的后處理系統(tǒng);各類字形輸入法同碼字的自動(dòng)選取系統(tǒng)和中文句型剖析以及斷詞系統(tǒng)。
中文的自然語言在電腦處理上是相當(dāng)復(fù)雜的。一般人在使用中文時(shí)相當(dāng)?shù)撵`活,然而,中文文法所提供的訊息經(jīng)常含混不清,例如石塊和十塊,因而造成了電腦處理上的莫大困擾。
中文字、詞的使用在文法結(jié)構(gòu)上不像英文那樣有明顯的標(biāo)示,所以句型的分析單純用語法成效不彰,必須借重上下文的語意分析,才能避免混淆。最明顯的就是,人們?cè)趯?duì)話時(shí)需要靠上下文才能辨別同音字,這種情況由于潛意識(shí)已習(xí)以為常,我們反而不清楚自己的大腦是如何作這些辨認(rèn)工作的。這也就造成了人工智能研究上的一大困擾。一般說來,上下文所提供的信息相當(dāng)?shù)囟?,而且?jīng)常有相互矛盾之處,所以如何能抽絲剝繭,去蕪存菁,歸納出最合適的結(jié)論才是最重要的。但是語意分析牽涉甚廣,所需的專業(yè)知識(shí)浩瀚無邊,即令是一般常識(shí),也有無從下手之感。因此,時(shí)下絕大部分的句型剖析系統(tǒng)都利用統(tǒng)計(jì)頻率及語言結(jié)構(gòu)的一般規(guī)則去作無意識(shí)的運(yùn)算,以達(dá)成一種概括性的解決方法。如臺(tái)灣松下電器公司的“漢音輸入法”即采用“長辭優(yōu)先、頻率高低”此類方法。這種統(tǒng)計(jì),在電腦處理上雖然不需要太多人力的輔助,然而其效果也相當(dāng)有限,最糟糕的是很快就遇到瓶頸一經(jīng)常會(huì)犯一些“無謂”的錯(cuò)誤,且不能輕易修正。再者,統(tǒng)計(jì)頻率無法輕易地在不同的題材上自動(dòng)調(diào)整,所以頻率所顯示的只是一個(gè)庸俗的平均值,離所謂的人工智能相去甚遠(yuǎn),甚至于一開始就注定只能達(dá)到一個(gè)平庸的境界。
本發(fā)明的目的乃在提供一種脈絡(luò)(英文為Context)會(huì)意法,即利用上下文信息輸入中文的方法。藉此,中文語言可在電腦上獲得正確的信息,而不會(huì)混淆不清。
本發(fā)明包含一個(gè)電腦裝置、一個(gè)注音輸入裝置,以及儲(chǔ)存在電腦的儲(chǔ)存器內(nèi)的樣板資料庫,其中該樣板資料庫中儲(chǔ)存了許多樣板的基本型態(tài)。當(dāng)使用者藉由注音裝置輸入同音字所構(gòu)成的詞句時(shí),電腦裝置即同時(shí)檢索樣板資料庫中之樣板型態(tài),并確認(rèn)每個(gè)音轉(zhuǎn)字之正確性,以獲得一個(gè)正確的詞句,且當(dāng)同音字彼此間發(fā)生互相搶字之情形時(shí),經(jīng)由樣板之前后所賦予之加權(quán)值,以決定何者為最適當(dāng)之樣板。
本發(fā)明與單純使用詞及統(tǒng)計(jì)頻率方法相比,最明顯的優(yōu)點(diǎn)是統(tǒng)計(jì)頻率隨不同的文章題材而有不同的分布,如果在同一篇文章中摻雜著不同的題材,使用起來就非常地不方便。相對(duì)地,本發(fā)明脈絡(luò)會(huì)意法的基本原則就是在不同的領(lǐng)域內(nèi)發(fā)掘出不同的規(guī)則,所以規(guī)則之間極少有互相矛盾的,只是變得更加細(xì)膩。因此同樣的規(guī)則資料庫可以很容易地適用于不同的使用者。
一般以詞匯配對(duì)、頻率為主的分析方法,在使用時(shí),字詞的修正都是在剛剛輸入或修改的字旁邊的一、兩個(gè)字,無法影響到六、七字以前的部分。也就是說,這種系統(tǒng)所處理的只達(dá)到“詞”的層次。本發(fā)明的方法則可以達(dá)到“句子”(sentence)甚至“言談”(discourse)的層次。
單純的詞匯收集用在“音轉(zhuǎn)字”系統(tǒng)上所能達(dá)到的正確率僅為80~85%左右,這是因?yàn)橥粼~本身所產(chǎn)生的混淆以及詞的“界線”不清所致。這些問題不能依靠存詞來解決,有些甚至是詞存得愈多問題愈大。然而本發(fā)明則可以將此正確率不斷地提高至理論的極限。
以下將結(jié)合實(shí)施例詳述本發(fā)明之脈絡(luò)會(huì)意法。
人類的常識(shí)判斷與理解過程是人工智能研究中最不可捉摸的。本發(fā)明就是盡量模擬人類的思維方式,將常識(shí)性的邏輯判斷轉(zhuǎn)變成電腦可以理解的符號(hào)運(yùn)算。我們的基本假設(shè)是人類理解的方式主要是依“樣板”(template)記憶、聯(lián)想及推論,這里“樣板”是一個(gè)綜合了語意信息、語法及字串這些成分的某種組合單位。以下以“音轉(zhuǎn)字”系統(tǒng)為例闡述樣板理論的概念(1)引例先看一例臺(tái)北市一位小孩昨天走失了這句話如果只打出它的注音,則可能組成的詞就相當(dāng)?shù)亩?。讓我們暫且看一下前面五個(gè)音所能構(gòu)成的詞臺(tái)北市一位小孩昨天走失了臺(tái)北市臺(tái)北事宜適宜一位一味移位我們?cè)倏聪旅娴睦樱袝r(shí)長詞不一定“優(yōu)先”臺(tái)北是一個(gè)美麗的城市臺(tái)北市一位小孩走失了傳統(tǒng)的句型剖析法將所有可能的句子分解方式一一列出,再加上語意的匹配以決定最后合適的對(duì)應(yīng)漢字。這樣的作法速度非常慢,而且需要相當(dāng)多的語言學(xué)知識(shí)輔佐。
本發(fā)明的目標(biāo)是盡量模擬人類的“理解”(understanding)系統(tǒng),避免使用難分難解的句型剖析法。我們以常識(shí)為出發(fā)點(diǎn),再利用上下文加上適當(dāng)?shù)耐茢?、比較來得出結(jié)論。在自然語言中,一個(gè)字、詞的“樣板”就是這個(gè)字、詞所有出現(xiàn)的“情況”,也是綜合語法、語意的特征規(guī)則。下面我們以“一只非??蓯鄣呢垺睘槔?,說明有關(guān)“只”的樣板形式。各個(gè)字、詞的詞類標(biāo)示在其下方一只非??蓯鄣呢垟?shù)詞量詞副詞形容詞助詞名詞從這樣的詞類次序關(guān)系,我們大略可歸納出以下的樣板(其中圓括弧內(nèi)的副詞表示可有可無;“1”的記號(hào)表示緊鄰。)
數(shù)詞1只1(副詞)形容詞1的動(dòng)物如果再省略形容詞和“的”,便得到數(shù)詞1只動(dòng)物另外,也有一種用法是“他買了小貓兩只”動(dòng)物數(shù)詞1只類似這樣的樣板可以規(guī)范出“只”的使用規(guī)則。當(dāng)我們收集了足夠多“只”的樣板后,“只”字就能掌握自如了。比如,當(dāng)我們輸入了一個(gè)單音“ㄓ”(zhi)時(shí),有許多可能對(duì)應(yīng)的字,但當(dāng)上下文里陸續(xù)出現(xiàn)了許多其它的訊息時(shí),電腦系統(tǒng)內(nèi)存的樣板就會(huì)一一地與之對(duì)應(yīng),如果其中一個(gè)樣板對(duì)上了,“只”字就會(huì)出現(xiàn)。
(2)樣板的基本形態(tài)“名詞片語”的樣板范例-一只非??蓯鄣呢?b>數(shù)詞1只1(副詞)形容詞1的動(dòng)物“動(dòng)詞片語”的樣板范例-洗了一個(gè)很舒服的澡洗1(了)定詞1(副詞)形容詞1的1澡“簡(jiǎn)單句子”的樣板范例-他用斧頭把這根樹枝劈成柴火1用工具1把物體動(dòng)詞1成物件(3)樣板的搜集原則本發(fā)明脈絡(luò)會(huì)意法可以應(yīng)用的范圍甚廣,樣板的搜集方式也不盡相同,完全視需要而定。譬如在“音轉(zhuǎn)字”系統(tǒng)中,樣板搜集的對(duì)象主要是在于區(qū)別同音字、詞以及幫助斷詞的規(guī)則。在“字轉(zhuǎn)音”系統(tǒng)中樣板則主要在于幫助斷詞點(diǎn)的確定。搜集方式則是利用電腦統(tǒng)計(jì)以及語意分析師的專業(yè)判斷。
(4)樣板的檢索原則樣板通常依附在(或記錄于)其最重要的“成分”(Key)上。如果一個(gè)樣板的重要成分多于一個(gè)時(shí),就有可能被記錄多次。這些成分主要是由連續(xù)的字串或字和語意的組合。其中,字串是指一些習(xí)慣用的字組,當(dāng)然也包括我們通常所謂的“詞”。譬如,字串中有“有時(shí)”和“有十”以及“臺(tái)北市”和“臺(tái)北是”等等?!耙恢豢蓯鄣呢垺钡臉影蹇捎涗浽凇爸弧鄙希部捎涗浽凇柏垺鄙?,需視實(shí)際情況而定。我們可以對(duì)這些主要成分事先加以排序,以加速檢索。
(5)樣板有沖突時(shí)的處理原則兩個(gè)樣板中可能有部分重疊,造成互相抵觸的現(xiàn)象。這時(shí)在系統(tǒng)內(nèi)可事先將這兩個(gè)樣板的“強(qiáng)度”予以標(biāo)定,預(yù)先決定當(dāng)兩者同時(shí)出現(xiàn)時(shí),何者優(yōu)先被使用。譬如在醫(yī)學(xué)名詞上有一樣板器官名稱|科,在職業(yè)名稱上有一樣板姓氏職業(yè)名稱。這兩個(gè)樣板就可能造成以下的同音字“互搶”皮膚科、柯醫(yī)生。當(dāng)“皮膚科醫(yī)生”出現(xiàn)時(shí),系統(tǒng)被告知應(yīng)該將第一個(gè)樣板的強(qiáng)度提高,使其“勝過”第二個(gè)樣板,“科”字才會(huì)辨認(rèn)正確。當(dāng)然如此的強(qiáng)度調(diào)整有可能在另一種情況下產(chǎn)生不合適的效果。這時(shí)這兩個(gè)樣板就可能需要再加以細(xì)分,使其更為精確,避免重疊。這些改變的取舍原則可以由統(tǒng)計(jì)決定之。下面就最基本的樣板-“詞”的強(qiáng)度加以說明每個(gè)雙字以上的詞都賦與“左”、“右”分?jǐn)?shù),這個(gè)分?jǐn)?shù)是介于0和255之間的整數(shù)。當(dāng)兩個(gè)雙字以上的詞之頭、尾共用一個(gè)字音時(shí),就可利用各個(gè)字詞的左右分?jǐn)?shù)之大小決定那個(gè)詞應(yīng)該出現(xiàn)。譬如當(dāng)使用者輸入“ㄐ\(zhòng)ㄏㄨㄚ\ㄊㄧ/”或者輸入“ji\hua\ti/”時(shí),系統(tǒng)發(fā)現(xiàn)“計(jì)劃”可對(duì)應(yīng)到前面兩個(gè)音,而“話題”可對(duì)應(yīng)至后面兩個(gè)音。由于是“計(jì)劃”右邊的“劃”字和“話題”左邊的“話”字在搶,故決定斷詞點(diǎn)的位置就由“計(jì)劃”的右分?jǐn)?shù)和“話題”的左分?jǐn)?shù)之大小來決定。因此,如果系統(tǒng)內(nèi)定的分?jǐn)?shù)顯示“計(jì)劃”的右分?jǐn)?shù)低于“話題”的左分?jǐn)?shù)時(shí),“話題”一詞會(huì)被選上,斷詞點(diǎn)在“ㄐ\(zhòng)”與“ㄏㄨㄚ\ㄊㄧ/”之間;反之,“計(jì)劃”會(huì)被選上,斷詞點(diǎn)將會(huì)在“ㄐ\(zhòng)ㄏㄨㄚ\”與“ㄊㄧ/”之間。
詞的左右強(qiáng)度主要用在脈絡(luò)會(huì)意法的樣板在比對(duì)(對(duì)詞)時(shí)所沒有“照顧到”的地方,這個(gè)強(qiáng)度可由統(tǒng)計(jì)學(xué)在語料庫內(nèi)計(jì)算出一“合理值”來決定。然而,如果一個(gè)詞的樣板被對(duì)應(yīng)上時(shí),我們會(huì)將這個(gè)樣板的強(qiáng)度“加分”,以增加這個(gè)詞“搶贏”的機(jī)會(huì)。
以下說明本發(fā)明脈絡(luò)會(huì)意法的處理步驟當(dāng)使用者藉由注音輸入裝置(如鍵盤等)輸入一連串注音或拼音符號(hào)后,電腦裝置即對(duì)每一個(gè)“音”檢索其同音字及以此字開頭的同音詞,并記錄其語意特征;
由左至右地將每個(gè)音所對(duì)應(yīng)“兩個(gè)字以上之詞”的樣板從樣板資料庫中選出,并一一和目前“線上”(on-line)的資料對(duì)應(yīng),凡對(duì)應(yīng)成功者,將其分?jǐn)?shù)記錄于所對(duì)應(yīng)之字詞上;
利用各個(gè)詞所加得的分?jǐn)?shù)決定單字詞或多字詞的位置及斷詞點(diǎn),并將不用的詞去除;
由左而右將每個(gè)單字詞所對(duì)應(yīng)的樣板與目前“線上”的資料對(duì)應(yīng),并將對(duì)應(yīng)成功的單字加分;
由電腦顯示裝置顯示得分最高的單字詞和多字詞,而構(gòu)成一完整無誤的詞句。
例如,輸入“一只可愛的小狗”,我們可以看到的變化過程如下(帶下劃線者表示輸入的注音符號(hào))丨\→義ㄓ→義肢ㄎㄜ∨→義肢可ㄞ\→義肢可愛ㄉㄜ·→義肢可愛的ㄒㄧㄠ∨→義肢可愛的小ㄍㄡ∨→一只可愛的小狗本發(fā)明方法輸入正確率可達(dá)96%。
本發(fā)明除用于中文輸入外,在語音輸入的后處理系統(tǒng)上,藉由使用本發(fā)明,不但在音確定的情況下能將之轉(zhuǎn)換為正確的字,并可以在音不確定時(shí),有效地幫助其判斷正確的轉(zhuǎn)換(即所謂的容錯(cuò)),在語音合成輔助系統(tǒng)上,籍由本發(fā)明可協(xié)助其確定斷詞點(diǎn)。對(duì)于其它的中文輸入系統(tǒng)中偏高的錯(cuò)誤輸入,亦可藉由本發(fā)明加以改善。
權(quán)利要求
1.一種脈絡(luò)會(huì)意法,包含一個(gè)電腦裝置、一個(gè)注音輸入裝置、以及儲(chǔ)存在電腦的存貯器內(nèi)的樣板資料庫,其中該樣板資料庫中儲(chǔ)存了許多樣板的基本型態(tài),其特征是a.使用者籍由注音輸入裝置輸入一連串注音或拼音符號(hào);b.建立字、詞以及語意特征之“線上”資料結(jié)構(gòu),即對(duì)輸入的每一個(gè)“音”檢索其同音字及以此字開頭的同音詞,并記錄其語意特征;c.由左而右地將每個(gè)音所對(duì)應(yīng)“二個(gè)字以上之詞”的樣板從資料庫中選出,并一一和目前“線上”資料對(duì)應(yīng),凡是對(duì)應(yīng)成功者,將其分?jǐn)?shù)記錄于所對(duì)應(yīng)之字詞上;d.利用各個(gè)詞所加得的分?jǐn)?shù)決定單字詞或多字詞的位置以及斷詞點(diǎn),并將不用的詞去掉;e.由左而右將每個(gè)單字詞所對(duì)應(yīng)的樣板一一和目前的“線上”資料對(duì)應(yīng),并將對(duì)應(yīng)成功的單字加分;f.令電腦顯示得分最高之單字詞和多字詞。
2.根據(jù)權(quán)利要求1所述的脈絡(luò)會(huì)意法,其特征在于所說樣板資料庫可進(jìn)一步區(qū)分為許多專業(yè)的樣板資料庫,以利于各行業(yè)在其領(lǐng)域內(nèi)之專用名詞之使用。
全文摘要
本發(fā)明乃相關(guān)于一種中文語言輸入的脈絡(luò)會(huì)意法,屬中文信息輸入與處理領(lǐng)域。它包含電腦裝置、一注音輸入裝置、及儲(chǔ)存在電腦的存貯器內(nèi)的樣板資料庫,其中該樣板資料庫中儲(chǔ)存了許多樣板的基本形態(tài)。當(dāng)使用者由注音輸入裝置輸入同音字所構(gòu)成的詞句時(shí),電腦即同時(shí)檢索樣板資料庫中之樣板形態(tài),并確認(rèn)每個(gè)音轉(zhuǎn)字之正確性,以獲得一個(gè)正確的詞句,且當(dāng)同音字彼此間發(fā)生搶字情形時(shí),經(jīng)由樣板之前后所賦予的加權(quán)值,以決定何者為最適當(dāng)之樣板。
文檔編號(hào)G06F3/023GK1083234SQ93108698
公開日1994年3月2日 申請(qǐng)日期1993年7月23日 優(yōu)先權(quán)日1993年7月23日
發(fā)明者許聞廉 申請(qǐng)人:許聞廉
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
巴林右旗| 仙游县| 呼和浩特市| 上虞市| 巧家县| 松潘县| 沾益县| 夏邑县| 汽车| 安乡县| 象山县| 综艺| 萍乡市| 阳曲县| 盐城市| 安阳市| 大冶市| 钟山县| 钟祥市| 肃南| 康乐县| 河津市| 赣榆县| 大姚县| 大方县| 茶陵县| 桃源县| 泾阳县| 福鼎市| 兴文县| 华池县| 禄劝| 蒲江县| 华亭县| 开江县| 安乡县| 海城市| 福海县| 宝丰县| 开原市| 云安县|