欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種全自動(dòng)漢語(yǔ)分詞系統(tǒng)的制作方法

文檔序號(hào):6410094閱讀:485來(lái)源:國(guó)知局
專利名稱:一種全自動(dòng)漢語(yǔ)分詞系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種全自動(dòng)漢語(yǔ)分詞系統(tǒng),它用于漢英機(jī)器翻譯系統(tǒng)中,也可用于將漢語(yǔ)翻譯成其它語(yǔ)種(如德語(yǔ)、日語(yǔ)、俄語(yǔ)等)的翻譯系統(tǒng)中。
漢語(yǔ)不同于英語(yǔ)等其它語(yǔ)言,形式上無(wú)明顯的詞分隔符(而英語(yǔ)等語(yǔ)種的單詞之間則有空格符號(hào))。詞是翻譯理解的基礎(chǔ),因此,一個(gè)高精度、高速度的漢語(yǔ)自動(dòng)分詞系統(tǒng),是進(jìn)行全自動(dòng)漢語(yǔ)翻譯的第一步,也是一個(gè)關(guān)鍵。
本發(fā)明的目的是提供一種高效、實(shí)用靈活的全自動(dòng)漢語(yǔ)分詞系統(tǒng),它能較好地服務(wù)于機(jī)譯系統(tǒng),尤其是用于漢英機(jī)譯系統(tǒng)。
為了達(dá)到上述發(fā)明目的,本發(fā)明的全自動(dòng)漢語(yǔ)分詞系統(tǒng)包括(1)漢語(yǔ)源語(yǔ)輸入裝置;(2)根據(jù)漢語(yǔ)句末的標(biāo)點(diǎn)符號(hào)自動(dòng)斷句裝置,該裝置能自動(dòng)地識(shí)別句中的小數(shù)點(diǎn)、英文縮寫(xiě)、省略號(hào)等,不將它們誤識(shí)別為標(biāo)點(diǎn)符號(hào);(3)將句子字符轉(zhuǎn)變成圖結(jié)點(diǎn)的結(jié)點(diǎn)結(jié)構(gòu)生成裝置;(4)確定詞的邊求解裝置,該裝置在邊的求解的同時(shí),進(jìn)行歧義判斷,并做相應(yīng)歧義標(biāo)識(shí);(5)按規(guī)則推理消除歧義的推理消歧裝置;(6)遍歷結(jié)果路徑得到一定結(jié)構(gòu)的結(jié)果輸出裝置。
在上述推理消歧裝置中,設(shè)有多層入口特性規(guī)則庫(kù),共性規(guī)則庫(kù),左確定規(guī)則庫(kù),右確定規(guī)則庫(kù),虛詞規(guī)則庫(kù)和疊詞規(guī)則庫(kù)。
下面解釋一下上面出現(xiàn)的幾個(gè)術(shù)語(yǔ)。
圖結(jié)點(diǎn)一個(gè)漢字字符,數(shù)字串,西文串,或特殊字串即為一個(gè)圖結(jié)點(diǎn),或稱結(jié)點(diǎn)。
邊一個(gè)詞由若干相鄰結(jié)點(diǎn)構(gòu)成,其中首末結(jié)點(diǎn)即構(gòu)成一條邊。
歧義有多種切分情況時(shí)即產(chǎn)生歧義。它主要包括交集歧義和組合歧義兩大類(lèi)。
交集歧義形如字串AXB,其中AX構(gòu)成一個(gè)詞,同時(shí)XB也構(gòu)成一個(gè)詞,這類(lèi)歧義現(xiàn)象即為交集歧義。其中A、X、B的長(zhǎng)度可以大于等于一個(gè)字長(zhǎng)。如"有時(shí)間","不同情況","大腦袋"等。
組合歧義形如AB詞串,其中A,B分別獨(dú)立成詞。如"個(gè)人"、"把手"、"陣風(fēng)"等。
將漢語(yǔ)文本文件輸入上述全自動(dòng)分詞系統(tǒng)后,就能高效、靈活、準(zhǔn)確地將句子切分成詞序列,為準(zhǔn)確地翻譯打下了基礎(chǔ)。
下面結(jié)合附圖進(jìn)一步說(shuō)明本發(fā)明的全自動(dòng)漢語(yǔ)分詞系統(tǒng)。


圖1是本發(fā)明的全自動(dòng)漢語(yǔ)分詞系統(tǒng)的示意圖;圖2是本發(fā)明的全自動(dòng)漢語(yǔ)分詞系統(tǒng)中分詞系統(tǒng)規(guī)則庫(kù)的結(jié)構(gòu)示意圖。
如圖1所示,漢語(yǔ)源語(yǔ)輸入裝置可以是輸入鍵盤(pán),也可以是其它公知的輸入裝置,通過(guò)它輸入文件后,啟動(dòng)自動(dòng)斷句裝置開(kāi)始工作。自動(dòng)斷句裝置實(shí)際上是一個(gè)自動(dòng)斷句模塊(ReadASent)來(lái)實(shí)現(xiàn)的。其原理是依賴漢語(yǔ)的句末標(biāo)點(diǎn)符號(hào)(句號(hào)、感嘆號(hào)、問(wèn)號(hào)或引號(hào)等),同時(shí),還要參考它前后的情況,因?yàn)閷?duì)于數(shù)字中的小數(shù)點(diǎn)、英文縮寫(xiě)、省略號(hào)等,都不能簡(jiǎn)單地確定為一個(gè)標(biāo)點(diǎn)符號(hào)。
結(jié)點(diǎn)結(jié)構(gòu)生成裝置將句子字符轉(zhuǎn)變成圖結(jié)點(diǎn)的結(jié)構(gòu)。結(jié)點(diǎn)按其特征分為普通漢字、數(shù)字、時(shí)間、專有名詞、西文和標(biāo)點(diǎn)符號(hào)。這樣就將漢語(yǔ)字符串輸入構(gòu)造成結(jié)點(diǎn)結(jié)構(gòu)集合,形成待切的結(jié)點(diǎn)序列a1a2a3...an。
邊求解裝置采用正向最大匹配算法,從左到右進(jìn)行詞典匹配。根據(jù)漢字的成詞統(tǒng)計(jì)規(guī)律,絕大多數(shù)是單字詞,即漢字本身就是詞,故此,為避免不必要的詞典查詢和路徑選擇,系統(tǒng)采用最大匹配。為實(shí)現(xiàn)高速度的要求,系統(tǒng)不僅建立巧妙的詞典索引結(jié)構(gòu),同時(shí)建立了最大詞長(zhǎng)信息域,以識(shí)別以某字開(kāi)頭的詞在詞典里的最大長(zhǎng)度。詞典匹配的過(guò)程是結(jié)合詞典最大詞長(zhǎng)信息和在句中的最大可能邊長(zhǎng),確定一個(gè)最優(yōu)最大邊長(zhǎng);以該邊的結(jié)點(diǎn)串出發(fā),尋找詞典里是否有與之相同的詞,有則求得一邊;依次遞減一個(gè)字長(zhǎng),循環(huán)上述求解邊的過(guò)程,直至邊長(zhǎng)為零。這樣就求得了句中以該結(jié)點(diǎn)開(kāi)始的所有的邊。然后從已求得邊的末結(jié)點(diǎn)出發(fā),同樣求得該結(jié)點(diǎn)所發(fā)出的邊。
對(duì)一個(gè)點(diǎn)的所有邊的求解過(guò)程如下<pre listing-type="program-listing"><![CDATA[MaxHeadLen=FirstWordMaxlen(code)maxlen=Minimum(MaxHeadLen,當(dāng)前句中最大可能邊長(zhǎng))while(maxlen≥0){ FindEdge(Cur Node,maxlen) maxlen-l }]]></pre>在邊求解的同時(shí),還進(jìn)行歧義判斷,并做出相應(yīng)的歧義標(biāo)識(shí)。在句中一個(gè)結(jié)點(diǎn)包括在兩個(gè)或兩個(gè)以上的邊中時(shí),也就是說(shuō),有兩個(gè)或兩個(gè)以上的切分情況時(shí),則出現(xiàn)了歧義。正如上面所解釋的那樣,歧義主要分為兩大類(lèi)交集歧義和組合歧義。
交集歧義的判斷是根據(jù)其特征,對(duì)有向邊的結(jié)點(diǎn)作出度的計(jì)算,若出度為0,則無(wú)交集歧義,否則,對(duì)結(jié)交點(diǎn)作"前交"、"后交"的標(biāo)記。
這里,有向邊即為一個(gè)詞。
結(jié)點(diǎn)的出度即為以該結(jié)點(diǎn)為始點(diǎn)的邊的數(shù)目,亦即以該結(jié)點(diǎn)打頭的詞的個(gè)數(shù)。
組合歧義判斷是根據(jù)組合歧義詞表。該表收集了本詞典數(shù)據(jù)下幾乎所有的組合歧義詞,并按有效結(jié)構(gòu)進(jìn)行組織和查詢。
下面介紹幾個(gè)術(shù)語(yǔ)當(dāng)前邊推理模塊正在處理的邊。
前驅(qū)邊與當(dāng)前邊相鄰的左邊所有邊。
推理消歧裝置按照一定的規(guī)則進(jìn)行推理,消除歧義。其中含有歧義規(guī)則庫(kù)和疊詞規(guī)則裝置。它把當(dāng)前邊分別和它所有前驅(qū)邊進(jìn)行相應(yīng)的規(guī)則庫(kù)匹配。規(guī)則庫(kù)按其特點(diǎn)設(shè)多層入口特性規(guī)則庫(kù)、共性規(guī)則庫(kù)、左確定規(guī)則庫(kù)、右確定規(guī)則庫(kù)、虛詞處理規(guī)則庫(kù)和疊詞規(guī)則庫(kù)。
下面介紹幾個(gè)規(guī)則庫(kù)特性規(guī)則庫(kù)針對(duì)某些詞特定環(huán)境的特定切分。這些規(guī)則可以具體到詞條信息,而不是詞類(lèi),或?qū)傩缘裙残蕴卣鳌?br> 如NUL(很)NUL(多云)->W(wǎng)RCUT(A,B)這條規(guī)則的作用是將"很多云"切成"很多云",這就是由于"很多云"這種不合理的用法而決定的。
共性規(guī)則庫(kù)處理某一詞類(lèi),或具有某些屬性的一類(lèi)詞的歧義切分規(guī)則,這是主要的切分規(guī)則。并且,隨著詞典知識(shí)體系的不斷完善,共性規(guī)則的處理能力也會(huì)不斷增強(qiáng)。
如一條規(guī)則AP([size;color;shape],1)NP([physics;human])->CECUT(A)這條規(guī)則即說(shuō)明將具有語(yǔ)義為大小、顏色、形狀的單字形容詞,若后面跟一個(gè)物體,或指人的名詞時(shí),形容詞獨(dú)自成詞的程度較大,故確定形容詞這條邊。例如"這小孩子長(zhǎng)著一個(gè)圓臉盤(pán),大腦袋"切成"這小孩子長(zhǎng)著一個(gè)圓臉盤(pán),大腦袋"。當(dāng)然,出現(xiàn)滿足屬性條件而不應(yīng)該如此切分的情況時(shí),規(guī)則里有專門(mén)的符號(hào)表示否定,或在COND條件函數(shù)中加以條件否定。
虛詞規(guī)則庫(kù)結(jié)合系統(tǒng)的翻譯過(guò)程,將"著、了、過(guò)"等作時(shí)態(tài)虛詞使用的詞給虛化,轉(zhuǎn)換成相應(yīng)的時(shí)態(tài)特征標(biāo)記。從而,簡(jiǎn)潔了句子的主干,一定程度上提高了后面翻譯的精度與速度。
疊詞規(guī)則庫(kù)漢語(yǔ)中的疊詞情況有,AXA型"看一看",AXB型"結(jié)過(guò)婚",AXAB型"喜不喜歡",AABB型"高高興興"等。這些詞的形式,若作詞條加入詞典,既無(wú)窮盡也沒(méi)必要;若作專門(mén)模塊處理也有些呆板,不易處理特殊情況。本系統(tǒng)用規(guī)則加以處理,將其簡(jiǎn)化成對(duì)應(yīng)的入口詞條和特征標(biāo)志,從而大大地解決了形態(tài)上不可識(shí)別詞問(wèn)題,也具有很大的靈活性。
分詞規(guī)則設(shè)計(jì)利用詞典知識(shí)體系,屬性集測(cè)試包括各種詞法語(yǔ)法和語(yǔ)義信息,利用上下文語(yǔ)境信息測(cè)試函數(shù)來(lái)進(jìn)行范圍限制。
分詞規(guī)則的表達(dá)形式PRE_ATTRCUR_ATTR->COND()ACT_NAME前驅(qū)邊屬性集 當(dāng)前邊屬性集上下文條件測(cè)試 動(dòng)作函數(shù)名屬性集包括多層次詞法,語(yǔ)法和語(yǔ)義的一體化屬性集合,匹配規(guī)則首先要對(duì)屬性集進(jìn)行匹配運(yùn)算。
COND函數(shù)是實(shí)現(xiàn)上下文相關(guān)的關(guān)鍵。它可對(duì)當(dāng)前邊的左邊和右邊一定范圍的邊進(jìn)行屬性判斷,根據(jù)條件滿足情況來(lái)決定是否觸發(fā)動(dòng)作函數(shù)。
動(dòng)作函數(shù)是分詞模塊定義的功能函數(shù),它主要包括確定一邊,重新求解邊,合并邊和分解一邊的操作。
這里,模塊是指完成一定功能的程序段。
經(jīng)過(guò)上述推理消歧裝置,并經(jīng)該裝置處理后,漢語(yǔ)句子就被正確地切分了。最后,結(jié)果輸出裝置遍歷結(jié)果路徑,得到一定結(jié)構(gòu)的結(jié)果,經(jīng)接口輸出。
當(dāng)輸入漢語(yǔ)"門(mén)上的把手很冷。"時(shí),則經(jīng)過(guò)本發(fā)明的上述全自動(dòng)分詞系統(tǒng)后則被切分成"門(mén)上的把手很涼。";當(dāng)輸入"他把手劃破了。"時(shí),則輸出結(jié)果為"他把手劃破。"當(dāng)輸入"你按快門(mén)開(kāi)啟按鈕時(shí),不能猛按照相機(jī)。"時(shí),則輸出結(jié)果為"你按快門(mén)開(kāi)啟按鈕時(shí),不能猛按照相機(jī)。"。
當(dāng)輸入一段文章時(shí),也能正確地切分。
盡管上面對(duì)本發(fā)明作了詳細(xì)的說(shuō)明,但很明顯,在不超出本發(fā)明的范圍的前提下,可以對(duì)上述全自動(dòng)分詞系統(tǒng)作出許多改型和改進(jìn)。
權(quán)利要求
1.一種全自動(dòng)漢語(yǔ)分詞系統(tǒng),其特征在于包括(1)漢語(yǔ)源語(yǔ)輸入裝置;(2)根據(jù)漢語(yǔ)句末的標(biāo)點(diǎn)符號(hào)自動(dòng)斷句的裝置,該裝置能自動(dòng)地識(shí)別句中的小數(shù)點(diǎn)、英文縮寫(xiě),省略號(hào)等,不將它們誤識(shí)別為標(biāo)點(diǎn)符號(hào);(3)將句子字符轉(zhuǎn)變成圖結(jié)點(diǎn)的結(jié)點(diǎn)結(jié)構(gòu)生成裝置;(4)確定詞長(zhǎng)的邊求解裝置,該裝置在邊求解的同時(shí),進(jìn)行歧義判斷,并做相應(yīng)的歧義標(biāo)識(shí);(5)按規(guī)則推理消除歧義的推理消歧裝置;(6)遍歷結(jié)果路徑得到一定結(jié)構(gòu)的結(jié)果輸出裝置。
2.根據(jù)權(quán)利要求1所述的全自動(dòng)漢語(yǔ)分詞系統(tǒng),其特征在于,所述的推理消歧裝置中設(shè)有多層入口特性規(guī)則庫(kù),共性規(guī)則庫(kù),左確定規(guī)則庫(kù),右確定規(guī)則庫(kù),虛詞規(guī)則庫(kù)和疊詞規(guī)則庫(kù)。
全文摘要
一種全自動(dòng)漢語(yǔ)分詞系統(tǒng),包括(1)漢語(yǔ)源語(yǔ)輸入裝置,(2)自動(dòng)斷句裝置,(3)將句子字符轉(zhuǎn)變成圖結(jié)點(diǎn)的結(jié)點(diǎn)結(jié)構(gòu)生成裝置,(4)確定詞長(zhǎng)的邊求解裝置,在邊求解的同時(shí),進(jìn)行歧義判斷,并做相應(yīng)的歧義標(biāo)識(shí),(5)推理消歧裝置,(6)結(jié)果輸出裝置。該系統(tǒng)能高效、靈活、準(zhǔn)確地將句子切分成詞序列,為準(zhǔn)確地翻譯打下良好的基礎(chǔ)。
文檔編號(hào)G06F17/27GK1152749SQ9610083
公開(kāi)日1997年6月25日 申請(qǐng)日期1996年1月30日 優(yōu)先權(quán)日1996年1月30日
發(fā)明者陳肇雄, 黃河燕 申請(qǐng)人:陳肇雄
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
丽江市| 罗源县| 河津市| 葵青区| 烟台市| 彩票| 洱源县| 怀仁县| 谷城县| 玉树县| 朝阳县| 梅河口市| 进贤县| 鄱阳县| 东乌珠穆沁旗| 东山县| 壶关县| 台北市| 仙桃市| 郧西县| 蒲江县| 沿河| 荣昌县| 天柱县| 华坪县| 遂平县| 南雄市| 吴忠市| 蒙山县| 楚雄市| 乃东县| 衡东县| 孙吴县| 荆门市| 西安市| 南开区| 克拉玛依市| 平乐县| 兴安盟| 明星| 玛多县|