欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

機器翻譯裝置以及機器翻譯計算機程序的制作方法

文檔序號:6426082閱讀:160來源:國知局
專利名稱:機器翻譯裝置以及機器翻譯計算機程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種機器翻譯裝置,特別是在發(fā)揮范例翻譯的優(yōu)點的同時能進行高精度的翻譯的統(tǒng)計機器翻譯裝置。
背景技術(shù)
在統(tǒng)計性的翻譯中,將某一種語言的句子(J)翻譯為其它語言的句子(E)的問題,作為最大化以下附帶條件的概率的問題被定型化。
E^=argmaxEP(E|J)]]>對于此公式,通過適用貝葉斯定理得到下面的公式。
E^=argmaxEP(E)P(J|E)/P(J)]]>其中,P(J)與 的計算無關(guān)。因此,能得到下面的公式。
E^=argmaxEP(E)P(J|E)]]>右邊的第1項P(E)被稱為語言模型,表示句子E的類似度。第2項的P(J|E)被稱為翻譯模型,表示從句子E生成句子J的概率。
在這樣的思考方式下,由單詞排列(單詞的對應(yīng))這樣的概念提出了所謂使第1種語言的句子(稱為信道目標(biāo)文)映射為第2種語言的句子(稱為信道源文)的翻譯模型。此翻譯模型在法語和英語、德語和英語等相互間類似的語言之間獲得了成功。
但是,此翻譯模型例如應(yīng)用在日語和英語等相互間差異很大的語言時沒有取得成果。這樣的結(jié)果是因為在構(gòu)造相互不同的語言間進行映射時,頻繁地進行單詞的插入和刪除,各單詞的派生很多以及詞語的對應(yīng)很復(fù)雜等的原因,帶來了搜索空間龐大這樣的問題而產(chǎn)生的。因為搜索變復(fù)雜,所以如果采用根據(jù)束搜索(beam search)的解碼算法,那么在多數(shù)的情況下只能得到局部的解。
基于單詞排列(alignment)的統(tǒng)計的機器翻譯采用單詞排列A這樣的考慮方法表示2種語言的對應(yīng)。此時,允許1個單詞和多個單詞相對應(yīng)。所謂單詞排列A是指將信道目標(biāo)文的各個單詞和信道源文的哪個單詞相對應(yīng),采用信道源文的單詞指標(biāo)進行表示的排列。在此排列中,和信道源文的單詞的對應(yīng)采用賦予信道源文的單詞的指標(biāo)表示,這些指標(biāo)根據(jù)信道目標(biāo)文的單詞的順序排列。
圖7表示英語(E)以及日語(J)句子之間的單詞排列的例A。參照圖7,將第2種語言(此處為英語E)的句子110的1~7的各個單詞,和第1種語言(此處為日語J)的句子114的各個單詞1~6對應(yīng)。對應(yīng)由連接信道源文110的各個單詞和信道目標(biāo)文114的單詞的連線群112表示。例如,由信道源文110的單詞[show1]生成信道目標(biāo)文114的兩個單詞[mise5](讓看)以及[tekudasai6](請)。另外信道目標(biāo)文114的兩個單詞[no2](的)以及[o4](を)和信道源文110的哪個單詞都沒有對應(yīng),假設(shè)信道源文110的開始部分為[null0](空),作為與此對應(yīng)的單詞。這樣的話此時的排列A為[7,0,4,0,1,1]。
作為單詞排列如果假設(shè)為這樣的映射,翻譯模型P(J|E)能進一步寫成以下這樣。
P(J|E)=ΣAP(J,A|E)]]>右邊的項P(J|E)被進一步分解為、4個要素,由此4個要素構(gòu)成將信道源文E變換為具有排列A的信道目標(biāo)文J的以往技術(shù)的順序。此4個要素如下。
(1)根據(jù)派生模式,對于信道源文的各單詞決定能生成幾個翻譯詞。有由一個單詞可以生成兩個翻譯詞的情況,也有一個翻譯詞都不能生成的情況。
(2)根據(jù)NULL生成模式,在信道源文的適當(dāng)位置插入NULL。
(3)通過查找詞匯模型,進行對生成的各單詞的翻譯。
(4)通過參照變形模型,對翻譯的各單詞進行排列變換。為了保存有關(guān)句子的限制條件,此時的位置由剛才的單詞排列決定。
這樣,基于單詞排列這樣的思考方式得到翻譯模型。
另一方面,提出了最初生成按照信道目標(biāo)文的順序排列的、由最初信道目標(biāo)文的各單詞翻譯為信道源文的語言的句子,對于此文字應(yīng)用各種運算子生成多個譯文的方法。(Ulrich Germann,Michael Jahr,Kevin Knight,Daniel Marcu,Kenji Yamada“機器翻譯的快速解碼以及優(yōu)化解碼”(2001)ACL2001會議錄,圖盧茲,法國)。在此提出的方法中,在這樣生成的譯文之中,求出類似度最高的句子作為翻譯文選擇出來。
基于單詞排列的統(tǒng)計翻譯模型是對于作為例如法語和英語等相互類似的語言的兩種語言設(shè)計的。另一方面,日語和英語相互之間具有極其不同的構(gòu)造。因此,日語和英語相互翻譯的情況下,圖7所示那樣的單詞排列就變得非常復(fù)雜。此復(fù)雜度反映了語言的構(gòu)造的差異。例如對于英語采用SVO的句型,而通常日語采用SOV這樣的句型。還有,從圖7所示的例子中也可以看出,非常頻繁地產(chǎn)生插入和刪除。例如對于圖7所示的[the3]以及[the6],在日語中不存在對應(yīng)的形態(tài)要素。也就是說,對于這樣的詞當(dāng)從日語翻譯為英語時,必須進行插入。同樣,對于日語的no2以及o4也必須進行刪除。
由于這樣的排列復(fù)雜以及詞語的插入和刪除頻繁地進行,如果對每個單詞進行束搜索,會產(chǎn)生計算量增大這樣的問題。為了能在一定的時間內(nèi)得出結(jié)果,就必須進行某些形式的修改。但是,通常的搜索算法中,如果這樣在限定的空間中進行搜索的話,不可避免的會產(chǎn)生搜索誤差。我們承認(rèn)翻譯的質(zhì)量和由翻譯模型指定的類似度之間存在某種程度的相關(guān)性,但由束搜索得到更高的質(zhì)量是困難的。
另外在Germann等的方法中,存在著在搜索中得到局部的最適當(dāng)?shù)慕夂芏噙@樣的問題,不能穩(wěn)定得到高精度的解。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種采用統(tǒng)計機器翻譯的機器翻譯方法及其裝置,與語言的組合無關(guān),而可以得到高品質(zhì)的翻譯。
本發(fā)明的另一目的在于提供一種采用統(tǒng)計機器翻譯的機器翻譯方法及其裝置,其與語言的組合無關(guān),而可以在一定程度的時間內(nèi)得到高品質(zhì)的翻譯。
本發(fā)明的又一目的在于提供一種采用統(tǒng)計機器翻譯的機器翻譯方法及其裝置,其與語言的組合無關(guān),而可以穩(wěn)定得到高品質(zhì)的翻譯。
有關(guān)本發(fā)明第1方面的機器翻譯方法,其采用包含多個由第1種語言的句子和第2種語言的句子構(gòu)成對譯的對譯文集,將第1種語言輸入文翻譯為第2種語言的句子,包括以下步驟摘錄步驟,接收第1種語言輸入文,從對譯文集之中,摘錄出和輸入文之間具有規(guī)定關(guān)系的、和第1種語言的句子成對的第2種語言的句子;計算步驟,對于摘錄出的第2種語言的句子,應(yīng)用預(yù)先決定的多個變形之中的任意變形,計算由變形得到的句子的類似度;選擇步驟,從由變形得到的句子中,選擇具有滿足規(guī)定條件的類似度的句子;重復(fù)步驟,直到預(yù)先決定的結(jié)束條件成立為止,對于選擇步驟選擇的句子的每一個,重復(fù)摘錄步驟、計算步驟以及選擇步驟;和輸出步驟,在重復(fù)步驟結(jié)束時剩余的第2種語言的句子之中,具有滿足預(yù)先決定的選擇條件的類似度的句子作為對輸入文的譯文并輸出。
對于輸入文,從對譯文集之中摘錄出規(guī)定的關(guān)系成立的、和第1種語言成對的第2種語言的句子。對此第2種語言的句子進行種種的變形,重復(fù)從得到的句子中選擇具有滿足規(guī)定的條件的類似度的句子,將最終滿足選擇條件的句子作為對于輸入文的譯文輸出。因為在對譯文集之中的對譯文是兩種語言之間相互較好的對譯文,所以摘錄出的第2種語言的句子和輸入文的理想的譯文相類似的可能性很高。重復(fù)這樣摘錄出的第2種語言的句子的種種變形,從得到的句子中基于類似度選擇的譯文,成為輸入文的理想的譯文的可能性很高。因為考慮最初摘錄出的句子與理想的譯文接近,所以在重復(fù)的過程中限于局部的最適當(dāng)解的危險性很低。
優(yōu)選,摘錄步驟包括讀取步驟,其接收第1種語言的輸入文,從對譯文集之中,讀取當(dāng)表示和輸入文的類似度的規(guī)定分?jǐn)?shù)滿足預(yù)先決定的條件的、和第1種語言的句子成對的第2種語言的句子。
優(yōu)選,讀取步驟包括分?jǐn)?shù)計算步驟,其接收第1種語言的輸入文,對于對譯文集之中所包含的第1種語言的句子的每一個,計算和輸入文之間的分?jǐn)?shù);確定步驟,其確定在分?jǐn)?shù)計算步驟中算出的分?jǐn)?shù)最大的1個或者多個的第1種語言的句子;和句子讀出步驟,其將確定步驟中決定的1個或者多個第1種語言的句子和分別與其成對的1個或者多個第2種語言的句子從對譯文集之中讀出。
每當(dāng)摘錄出第2種語言的句子時,確定表示和輸入文的類似度的分?jǐn)?shù)最大的1個或者多個第1種語言的句子,將這些句子和與其分別對應(yīng)的第2種語言的句子從對譯文集之中讀出。以讀出的第2種語言的句子為種子,進行變形以及類似度計算的循環(huán),將得到的句子中滿足規(guī)定的條件的句子作為輸入文的譯文。得到的第2種語言的句子對于輸入文來講,和理想的譯文類似的可能性高,最終得到的譯文相對于輸入文來講成為理想的譯文的可能性增高。
分?jǐn)?shù)計算步驟也可以包括類似尺度計算步驟,其在輸入文和對譯文集之中所包含的第1種語言的各個之間,將對譯文集之中所包含的第1種語言的句子作為文本,對輸入文采用定義的文本頻率計算規(guī)定的類似尺度;編輯距離計算步驟,其計算輸入文、與包含在對譯文集之中的第1種語言的各個之間的編輯距離;和分?jǐn)?shù)算出步驟,其基于在類似尺度計算步驟中算出的類似尺度以及在編輯距離計算步驟中算出的編輯距離,計算分?jǐn)?shù)。
優(yōu)選,類似尺度計算步驟包括tf/idf標(biāo)準(zhǔn)Ptf/idf計算步驟,在對譯文集之中所包含的第1種語言的各句子和輸入文之間,按照下面的公式計算tf/idf標(biāo)準(zhǔn)Ptf/idf,Ptf/idf(Jk,J0)=Σi:J0,i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示輸入文,J0,i表示輸入文J0的第i個單詞,df(J0,i)表示對于單詞J0,i的文本頻率,Jk表示第k個第1種語言的句子(1≤k≤N),N表示對譯文集之中的全部對譯文數(shù)目。
進一步,編輯距離計算步驟包括進行輸入文J0和第1種語言的句子Jk之間的DP匹配,即動態(tài)編程匹配,計算編輯距離dis(Jk,J0)的步驟,編輯距離dis(Jk,J0)由以下公式?jīng)Q定,dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整數(shù),I(Jk,J0)、D(Jk,J0)以及S(Jk,J0)分別為將句子J0變換為句子Jk時,必要的詞語的插入、刪除以及置換的數(shù)量。
分?jǐn)?shù)算出步驟包括分?jǐn)?shù)求出步驟,其對第1種語言的句子Jk,基于在類似尺度計算步驟中算出的tf/idf標(biāo)準(zhǔn)Ptf/idf以及在編輯距離計算步驟算出的編輯距離dis(Jk,J0),求出由下面公式所定義的分?jǐn)?shù), 式中,α為調(diào)整參數(shù);對譯文選擇步驟,其從在分?jǐn)?shù)求出步驟中求得的分?jǐn)?shù)較大的對譯文中,作為初始備用,依次選擇預(yù)先決定個數(shù)的對譯文。
機器翻譯方法也可以進一步包括判定步驟,其判斷在讀取步驟中讀出的第1種語言的句子中是否存在分?jǐn)?shù)為1的句子;和譯文輸出步驟,其對在判定步驟中判斷為存在分?jǐn)?shù)為1的第1種語言的句子一事進行應(yīng)答,將該分?jǐn)?shù)為1的第1種語言的句子作為對于輸入文的譯文輸出。
分?jǐn)?shù)為1是指在對譯文集之中存在和輸入文一致的第1種語言的句子。即通過將此和第1種語言的句子成對的第2種語言的句子作為對于輸入文的譯文進行選擇,能夠得到很好的譯文。
重復(fù)步驟也可以包括直到看不出選擇步驟所選擇的句子的類似度改善為止,對于選擇步驟中選擇的句子的各個,重復(fù)摘錄步驟、計算步驟以及選擇步驟的步驟。
優(yōu)選,輸出步驟包括在重復(fù)步驟結(jié)束時剩余的第2種語言的句子之中,具有最大的類似度的句子作為對于輸入文的譯文輸出的步驟。
這樣,通過將具有最大類似度的句子作為對于輸入文的譯文輸出,對于輸入文來說,作為譯文得到最接近于理想的譯文的可能性增高。
有關(guān)本發(fā)明第2方面的記錄介質(zhì),記錄了讓計算機動作的機器翻譯計算機程序,在計算機執(zhí)行該程序時將實施以下機器翻譯方法,機器翻譯方法采用包含多個由第1種語言的句子和第2種語言的句子構(gòu)成對譯的對譯文集,將第1種語言輸入文翻譯為第2種語言,包括以下步驟摘錄步驟,接收第1種語言輸入文,從對譯文集之中,摘錄出和輸入文之間具有規(guī)定關(guān)系的、和第1種語言的句子成對的第2種語言的句子;計算步驟,對于摘錄出的第2種語言的句子,應(yīng)用預(yù)先決定的多個變形之中的任意變形,計算由變形得到的句子的類似度;選擇步驟,從由變形得到的句子中,選擇具有滿足規(guī)定條件的類似度的句子;重復(fù)步驟,直到預(yù)先決定的結(jié)束條件成立為止,對于選擇步驟選擇的句子的每一個,重復(fù)摘錄步驟、計算步驟以及選擇步驟;和輸出步驟,在重復(fù)步驟結(jié)束時剩余的第2種語言的句子之中,具有滿足預(yù)先決定的選擇條件的類似度的句子作為對輸入文的譯文并輸出。
通過使該記錄介質(zhì)中存儲的程序在計算機中執(zhí)行,能夠在計算機中執(zhí)行上述機器翻譯方法。
通過結(jié)合附圖進行以下的發(fā)明的詳細(xì)說明,就會清楚本發(fā)明的目的、特征、方面以及效果。


圖1表示有關(guān)本發(fā)明一實施例的機器翻譯系統(tǒng)的功能框圖。
圖2表示圖1所示的初始備用選擇部32的更詳細(xì)的功能框圖。
圖3表示圖1所示的備用修正部36的更詳細(xì)的功能框圖。
圖4表示圖3所示的排列搜索部74的處理的詳細(xì)過程的示意圖。
圖5表示實現(xiàn)有關(guān)本發(fā)明一實施例的機器翻譯系統(tǒng)的計算機的外觀圖。
圖6表示圖5所示的計算機的框圖。
圖7表示單詞排列一例的圖。
具體實施例方式
作為并非象束搜索(beam search)那樣對每個單詞都進行翻譯的系統(tǒng)的機器翻譯系統(tǒng),存在基于范例的系統(tǒng)(范例翻譯)。范例翻譯是基于對譯文集的翻譯方式的一種。在對譯文集之中,保存了多個由第1種語言的句子和第2種語言譯文構(gòu)成的對譯文。如果輸入了第1種語言的輸入文,在對譯文集之中找出和輸入文類似的第1種語言的句子,基于找出的第1種語言的句子的譯文(第2種語言的句子)生成輸出文。
本實施例的機器翻譯系統(tǒng)是基于組合了此范例翻譯系統(tǒng)和統(tǒng)計機器翻譯系統(tǒng)的新框架的系統(tǒng)。
(構(gòu)成)
圖1表示有關(guān)本實施例的機器翻譯系統(tǒng)20的框圖。參照圖1,此機器翻譯系統(tǒng)20包括包含多個由第1種語言(將此作為語言J)句子和第2種語言(將此作為語言E)句子構(gòu)成的對譯文的對譯文集34;接收第1種語言的輸入文30,為了從對譯文集34中選擇和輸入文30相似的規(guī)定數(shù)量(例如5個)的第1種語言的句子的初始備用選擇部32。
機器翻譯系統(tǒng)20進一步包括在統(tǒng)計機器翻譯中通常使用的、第2種語言的語言模型(P(E))38以及翻譯模型40(P(J|E));對于由初始備用選擇部32選擇的多個第1種語言的句子的每一個,如后述那樣在搜索的同時進行第2種語言譯文的修正,將采用語言模型38以及翻譯模型40算出的類似度最高的譯文作為對輸入文30進行翻譯的結(jié)果得到的輸出文42輸出的備選修正部36。
圖2表示初始備用選擇部32的詳細(xì)框圖。參照圖2,初始備用選擇部32包括tf/idf計算部50,其參照對譯文集34,計算作為表示輸入文30和對譯文集34的第1種語言的句子的各個之間的類似程度的類似尺度的tf/idf標(biāo)準(zhǔn)Ptf/idf。tf/idf標(biāo)準(zhǔn)Ptf/idf是將對譯文集34的第1種語言的各句子作為一個文本,利用在信息檢索算法中一般采用的被稱為文本頻率的概念由下面的公式定義的尺度。
Ptf/idf(Jk,J0)=Σi:J0.i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示輸入文,J0,i表示輸入文J0的第i個單詞,df(J0,i)表示對于輸入文J0的第i個單詞J0,i的文本頻率,N表示對譯文集之中的全部對譯文數(shù)目。所謂文本頻率df(J0,i)是指輸入文J0中的第i個單詞J0,i出現(xiàn)的文本(本實施例中指句子)的數(shù)目。
初始備用選擇部32進一步包括編輯距離計算部52,其對于在對譯文集34中包含的各對譯文(Jk,Ek)的第1種語言的句子Jk,進行和輸入文J0之間的DP(Dynamic Programing動態(tài)編程)匹配,計算編輯距離dis(Jk,J0);和分?jǐn)?shù)計算部54,其基于由tf/idf計算部50算出的tf/idf標(biāo)準(zhǔn)Ptf/idf以及由編輯距離計算部52算出的編輯距離,根據(jù)后述的公式計算各句子的分?jǐn)?shù)。
由編輯距離計算部52算出的編輯距離dis(Jk,J0)由以下的公式表示。
dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整數(shù),I(Jk,J0)、D(Jk,J0)以及S(Jk,J0)分別為從句子J0變換為句子Jk為止時的插入/刪除/置換的次數(shù)。
由分?jǐn)?shù)計算部54算出的分?jǐn)?shù)Score由以下的公式表示。
式中,α為調(diào)整參數(shù),在本實施例中α為0.2。
參照圖2,初始備用選擇部32進一步包含基于由分?jǐn)?shù)計算部54算出的分?jǐn)?shù)score,選擇分?jǐn)?shù)大的規(guī)定個數(shù)(本實施例中為5個)的對譯文,作為備選對譯文58輸出,提供給圖1所示的備選修正部36的對譯文選擇部56。
圖3表示圖1所示的備選修正部36的詳細(xì)框圖。參照圖3,備選修正部36包含接收由初始備用選擇部32輸出的備選對譯文58中所包含的各初始備選對譯文(Jk,Ek),對于各個初始備選對譯文,使用語言模型和翻譯模型,計算第1種語言輸入文和第2種語言的句子之間類似度最高的維特比排列的維特比排列部70。由維特比排列部70計算對于輸入文J0和各個備選對譯文(Jk,Ek)之中由第2種語言的句子Ek構(gòu)成的新的備選對譯文(J0,Ek)的初始排列Ak,表示排列結(jié)束的備選對譯文(J0,Ak,Ek)。
備選修正部36進一步包含一致檢測部72,由維特比排列部70判斷排列Ak算出的排列完畢的各備選對譯文(J0,Ak,Ek)之中是否有分?jǐn)?shù)為1的備選對譯文,如果一致就將第1值,如果不一致就將第2值分別作為一致檢測信號73輸出,同時如果存在分?jǐn)?shù)為1的備選對譯文時,將此備選對譯文75排列同時輸出;和排列搜索部74,當(dāng)一致檢測部72沒有檢測出一致時,對于來自維特比排列部70的排列完畢的備選對譯文(J0,Ak,Ek)進行以下所述的排列Ak以及譯文Ek的修正,最終作為對于輸入文30的譯文,將表示最高類似度的對譯文77和其排列同時輸出。排列搜索部74在此搜索時,如后述那樣使用語言模型38以及翻譯模型40。另外一致檢測部72當(dāng)檢測出一致時,由排列搜索部74停止排列搜索,使其不執(zhí)行。
備選修正部36進一步包含譯文選擇部76,對一致檢測部72輸出的一致信號73進行應(yīng)答,一致檢測信號73根據(jù)第1值或者第2值選擇一致檢測部72的輸出對譯文75或者排列搜索部74的輸出對譯文77之中的任何一個,作為輸出文42輸出。
圖4表示排列搜索部74進行的修正備選文的搜索和登山法的概略。參照圖4,排列搜索部74包含操作適用部81A、81B、…,對于來自維特比排列部70的備選對譯文58中所包含的排列完畢的對譯文80A~80N,通過應(yīng)用表示單詞的移動/刪除/置換等操作之一,修正排列,生成多個新的備選對譯文群82A、82B、…。排列搜索部74進一步包含選擇處理部84A、84B、…,對于這樣得到的備選對譯文群82A、82B、…的各個中包含的排列修正后的對譯文的各個,采用語言模型38以及翻譯模型40算出類似度,從各備選對譯文中類似度最高的對譯文開始,按照順序保留規(guī)定的個數(shù)(本實施例中為5個)將其它的備選對譯文刪除,為了從備選對譯文群82A、82B、…中生成新的備選對譯文群86A、…、86N的根據(jù)類似度。
排列搜索部74的操作適用部81A、81B、…,例如對于備選對譯文群86A中所包含的備選對譯文88A、…、88N也進行上述的動作生成新的備選對譯文90A、…、90N。然后根據(jù)類似度的選擇處理部84A、84B、…對于這些備選對譯文群94A、…、94N也采用語言模型38以及翻譯模型40,將具有最高類似度的備選對譯文96A、…、96N保留下來,生成新的備選對譯文群94A、…、94N。
這樣,排列搜索部74將最初的備選對譯文58中所包含的備選對譯文80A、…、80N作為種子(seed),將對譯文的排列不斷地應(yīng)用操作,生成新的備選對譯文。排列搜索部74按照根據(jù)類似度的選擇部84A、84B、…進行備選對譯文的選擇時,對于備選對譯文,當(dāng)判斷計算的類似度不能得到改善的時刻將上述的重復(fù)處理中止(登山法)。
這樣,排列搜索部74進行對譯文的排列的搜索、修正,根據(jù)登山法將在搜索處理中求出的備選對譯文和排列之中類似度最高的翻譯文作為輸出文42輸出。
操作適用部81A、81B、…對于排列完畢的對譯(J0,Ak,Ek)進行的操作和Germann等所記載的幾乎相同,如以下。
(1)單詞的翻譯對單詞J0,j將排列的輸出的單詞EA,j變換為單詞e。如果單詞e是NULL,單詞J0,j被配列為NULL,Aj=0。如果單詞EA,j的派生為0,此單詞EA,j被刪除。單詞e通過反向利用詞匯模型計算,從單詞備選中選擇。
(2)單詞的翻譯以及插入進行單詞的翻譯,在適當(dāng)?shù)奈恢貌迦肱缮鸀?的一連串的單詞。派生為0的一連串的單詞的備選,是對于學(xué)習(xí)文集從維特比排列中選擇的。
(3)單詞的翻譯以及排列排列中的第j個單詞Ej移動到第i個,將第i個單詞Ei修正為單詞e。
(4)排列的移動此操作不是進行輸出單詞順序的變更,而是通過排列A的移動以及交換只對排列進行修正。
(5)段的交換譯文E之中,沒有重復(fù)的部分相互交換。即將從第i0個單詞開始到第i1個單詞組成的段和從第i2個單詞開始到第i3個(其中,i1<i2)單詞組成的段進行交換。
(6)單詞(群)的刪除從譯文E中將派生為0的單詞序列刪除。
(7)單詞的組合當(dāng)譯文Ei以及Ei′中所包含的單詞的派生任何一個都為1以上時,將此兩個單詞組合。
此7種操作之中,除去(3)、(4)剩下的5種和由Germann等提出的幾乎相同。(3)和(4)的操作是在本實施例中新追加的。最初由維特比排列部70執(zhí)行的維特比排列中,將第1種語言的句子之中沒有和第2種語言的句子相對應(yīng)的譯文的單詞和NULL相對應(yīng),或者通過提高派生將其排列到不適當(dāng)?shù)膯卧~中。通過操作(3)單詞的翻譯以及排列,采用詞匯模型能找出每個適當(dāng)?shù)膯卧~的翻譯,此排列是強制地移動到其它的單詞處。同樣地,操作(4)排列的移動是通過將已經(jīng)存在的排列進行移動得到同樣的效果。
(動作)機器翻譯系統(tǒng)20是采用以下這樣的動作。在對譯文集34中預(yù)先包含由第1種語言的句子和第2種語言的譯文構(gòu)成的多個對譯文。另外語言模型38以及翻譯模型40通過某些方法預(yù)先準(zhǔn)備。
參照圖1,輸入文30輸入到初始備用選擇部32中。參照圖2,初始備用選擇部32的tf/idf計算部50計算輸入文30和對譯文集34之中全部的對譯文中的第1種語言的句子之間的tf/idf標(biāo)準(zhǔn)Ptf/idf。編輯距離計算部52同樣地計算輸入文30和全部的對譯文集34中的第1種語言的句子Jk之間的編輯距離dis(Jk,J0)。
分?jǐn)?shù)計算部54利用由tf/idf計算部50算出的tf/idf標(biāo)準(zhǔn)Ptf/idf以及由編輯距離計算部52算出的編輯距離dis(Jk,J0),根據(jù)下式計算上述的分?jǐn)?shù)score。
對譯文選擇部56選擇對譯文集34中所包含的對譯文之中分?jǐn)?shù)score高的規(guī)定個數(shù)的對譯文,作為備選對譯文58提供給圖3的維特比排列部70。
參照圖3,維特比排列部70將作為輸入文J0提供的備選對譯文58中所包含的對譯文(Jk,Ek)的各個之中的第2種語言的句子Ek計算維特比排列Ak,將結(jié)果以(J0,Ak,Ek)的形式提供給一致檢測部72以及排列搜索檢測部74。
一致檢測部7判斷來自維特比排列部70的對譯文之中是否有分?jǐn)?shù)score=1的對譯文。即一致檢測部72判斷備選對譯文之中第1語言的句子是否有和輸入文一致的,當(dāng)存在一致的對譯文時,一致檢測部72將一致檢測信號73的值作為第1值,此外的情況下,一致檢測部72將一致檢測信號73的值作為第2值。當(dāng)存在一致對譯文的情況下,一致檢測部72還將此對譯文作為對譯文75提供給譯文選擇部76。
排列搜索部74將由維特比排列部70提供的排列完畢的備選對譯文(J0,Ak,Ek)作為最初的種子,參照語言模型38以及翻譯模型40進行上述搜索,根據(jù)登山法進行直到得到類似度最高的譯文為止的搜索。搜索的過程中,排列搜索部74對于全部的排列完畢的備選對譯文,采用可能的全部的操作生成新的備選對譯文(和排列)。排列搜索部74進一步只留下這樣生成的備選對譯文(和排列)之中滿足規(guī)定條件的備選對譯文(從類似度最高的開始,規(guī)定個數(shù)的對譯文),刪除其它的對譯文。排列搜索部74進一步將剩余的備選對譯文作為種子重復(fù)同樣的處理。然后,對于生成的備選對譯文直到計算的類似度沒有改善為止,結(jié)束其路徑的搜索(登山法)。
這樣,在對于全部的路徑的搜索結(jié)束的時刻,將具有最高類似度的對譯文作為最終的輸出。排列搜索部74將此對譯文77提供給譯文選擇部76。譯文選擇部76當(dāng)一致檢測部73為第1值時,將作為一致檢測部72的輸出的對譯文75,其它的情況下將作為排列搜索部74的輸出的對譯文77,分別選擇并作為輸出文42輸出。
(評價)進行了對關(guān)于上述的實施例的系統(tǒng)的翻譯精度的評價。作為文集,采用了申請人準(zhǔn)備的旅行會話用的文集。此文集包含日語、英語、韓國語以及中文的對譯文。文集的統(tǒng)計信息在下面的表中表示。
表1

將文集全體分為3部分。即將152,169的句子用于翻譯模型以及語言模型的學(xué)習(xí)中,將4,849的句子用于文本,剩余的10,148用于參數(shù)調(diào)整。作為參數(shù)有學(xué)習(xí)時的重復(fù)的結(jié)束標(biāo)準(zhǔn)以及解碼的參數(shù)調(diào)整等的參數(shù)。
作為語言模型進行了4種語言的3元語法(Tri-gram)語言模型的學(xué)習(xí),如上面的表中所示,由復(fù)雜度(perplexity)尺度進行評價。對于4種語言的組合的全部,關(guān)于雙向翻譯進行了全部的12種的翻譯模型的學(xué)習(xí)。
下表中表示采用有關(guān)本實施例的系統(tǒng)在上述的4種語言間進行翻譯得到的結(jié)果。表中所使用的省略語的意思如下。
<WER>表示W(wǎng)ord-error-rate(單詞錯誤率)。這是反映了與標(biāo)準(zhǔn)的模范翻譯相比較時的編輯距離(插入/刪除/置換)。
<PER>表示位置獨立(Position-independent)的WER。這是除了位置的問題,只反映了關(guān)于插入和刪除的編輯距離。
<BLEU>表示BLUE分?jǐn)?shù)。這是表示翻譯結(jié)果的n—克之中,在成為標(biāo)準(zhǔn)的模范翻譯中找出的比率。上述的WER以及PER不同,BLUE分?jǐn)?shù)越高翻譯的質(zhì)量越高。
<SE>表示主觀的評價。分為A~D(A非常完美、B基本沒有問題、C還可以、D不合理)的4個等級,由說此母語的人進行的評價。此評價由說母語的人評價為A的比例(A)、評價為A或者B的比例(A+B)、評價為A、B或者C的比例(A+B+C)表示。在本實驗中,上述4種語言之中,對于英語之外的3種語言翻譯為英語,以及日語以外的3種語言翻譯為日語,作為日語—英語之間的翻譯結(jié)果進行了評價。在此表中,細(xì)體表示根據(jù)采用束搜索的機器翻譯裝置的翻譯結(jié)果,粗體表示根據(jù)有關(guān)本實施例的機器翻譯裝置的翻譯結(jié)果。
表2

從此表中能夠明白,根據(jù)本實施例的機器翻譯裝置的翻譯結(jié)果,對于全部的語言的組合,對于翻譯為任何一種語言都得到比由束搜索方式的翻譯裝置更好的結(jié)果。此差異是非常大的,根據(jù)本實施例的機器翻譯裝置的性能和采用束搜索的裝置相比是非常高的,這點已經(jīng)明確了。另外根據(jù)本實施例的翻譯結(jié)果是安定的,限于局部的最適解的情況很少。其原因被認(rèn)為作為最初的解,檢索出和輸入文最接近的,以此作為出發(fā)點通過進行和上述的登山法組合的搜索,在較大的范圍內(nèi)找出接近于最合適的翻譯結(jié)果的可能性高。
根據(jù)初始備用選擇部32的初始備用的選擇中,如果能夠根據(jù)某種標(biāo)準(zhǔn)找出和輸入文30接近的第1種語言的句子的對譯文,也可以采用和本實施例中采用的初始備用選擇部32不同的構(gòu)成的裝置。另外,也存在在對譯文集34中找不到以句子為單位的輸入文相對應(yīng)的翻譯文的情況。在這樣的以句子為單位的檢索不能實現(xiàn)的情況下,采用比輸入句子更小的單位,例如分割為詞組或者節(jié)等,以分割后的單位通過檢索對譯文集34找出和其相對應(yīng)的譯文,通過組合譯文生成初始備選也可以。
進一步,代替由初始備用選擇部32的初始備用的選擇,采用根據(jù)其它的某一種翻譯方式的翻譯裝置翻譯輸入文,將其作為初始備選也可以。例如,作為這樣的翻譯裝置采用范例翻譯裝置,將范例翻譯的結(jié)果作為初始備選也可以。此時,范例翻譯中所使用的文集可以是和對譯文集34同樣的,也可以是完全不同的文集。
另外,在上述實施例中,排列搜索部74的登山法中,采用了和幅度優(yōu)先搜索同樣的算法。但是本發(fā)明并非僅限定于這樣的實施例,采用深度優(yōu)先的算法在理論上也是可行的。
(由計算機實現(xiàn))另外有關(guān)本實施例的機器翻譯裝置也能夠通過計算機硬件、在該計算機硬件上動作的程序以及該計算機的存儲裝置中存儲的對譯文集、翻譯模型以及語言模型實現(xiàn)。特別是,圖4所示的由排列搜索部74進行的搜索通過采用循環(huán)編程能夠更有效地執(zhí)行。
根據(jù)上述的實施例的說明,這樣的程序如果是該行業(yè)的一般技術(shù)人員,應(yīng)該能夠更容易地實現(xiàn)。
圖5表示實現(xiàn)此機器翻譯裝置的計算機系統(tǒng)330的外觀。圖6是表示計算機系統(tǒng)330的內(nèi)部構(gòu)成。
參照圖5,此計算機系統(tǒng)330包括具有FD(軟盤)驅(qū)動器352以及CD-ROM(光盤讀取專用存儲器)驅(qū)動器350的計算機340、鍵盤346、鼠標(biāo)348和監(jiān)視器342。
參照圖6,計算機340除了FD驅(qū)動器352以及CD-ROM驅(qū)動器350之外,還包括CPU(中央處理器)356;連接CPU356、FD驅(qū)動器352以及CD-ROM驅(qū)動器350的總線366;存儲引導(dǎo)程序等的讀取專用存儲器(ROM)358;與總線366相連、存儲程序命令、系統(tǒng)程序以及計算數(shù)據(jù)等的隨機存取存儲器(RAM)360。計算機系統(tǒng)330進一步包括打印機344。
在此處雖然未畫出,計算機340也可以進一步包括連接局域網(wǎng)(LAN)的網(wǎng)卡。
計算機系統(tǒng)330中,為了執(zhí)行機器翻譯裝置的動作的計算機程序是存儲在插入CD-ROM驅(qū)動器350或者FD驅(qū)動器352中的CD-ROM362或者FD364中,進一步傳送到硬盤354。另外,程序通過圖中未畫出的網(wǎng)絡(luò)向計算機340發(fā)送,存儲在硬盤354中也可以。程序執(zhí)行時下載到RAM360中。也可以從CD-ROM362、FD364或者通過網(wǎng)絡(luò)直接將程序下載到RAM360中。
此程序包含計算機340執(zhí)行作為此實施例的機器翻譯裝置的動作的多個命令。執(zhí)行此方法所必要的幾個基本功能由在計算機上動作的操作系統(tǒng)(OS)或者第三方的程序、或者由計算機340中所安裝的各種工具包的模塊提供。也就是說,此程序并非必須包括實現(xiàn)此實施例的系統(tǒng)以及方法所必要的全部功能。此程序的命令之中,只需包括為了能得到所期望的結(jié)果,以控制的方法通過讀出適當(dāng)?shù)墓δ芑蛘摺肮ぞ摺?,實現(xiàn)上述的機器翻譯裝置的命令即可。因為計算機系統(tǒng)330的動作是周知的,此處不重復(fù)敘述。
此次展示的實施例只是示例,本發(fā)明并非僅限定于上述實施例。本發(fā)明的范圍是在參考發(fā)明的詳細(xì)說明的記述的基礎(chǔ)上,包括由權(quán)利要求書的各個權(quán)利要求所提到的、和其中所述具有相同的意思以及范圍內(nèi)全部的變更。
權(quán)利要求
1.一種機器翻譯方法,其采用包含多個由第1種語言的句子和第2種語言的句子構(gòu)成對譯的對譯文集,將所述第1種語言輸入文翻譯為所述第2種語言的句子,其特征在于,包括以下步驟摘錄步驟,接收所述第1種語言輸入文,從所述對譯文集之中,摘錄出和所述輸入文之間具有規(guī)定關(guān)系的、和第1種語言的句子成對的所述第2種語言的句子;計算步驟,對于所述摘錄出的所述第2種語言的句子,應(yīng)用預(yù)先決定的多個變形之中的任意變形,計算由變形得到的句子的類似度;選擇步驟,從由所述變形得到的句子中,選擇具有滿足規(guī)定條件的類似度的句子;重復(fù)步驟,直到預(yù)先決定的結(jié)束條件成立為止,對于所述選擇步驟選擇的句子的每一個,重復(fù)所述摘錄步驟、所述計算步驟以及所述選擇步驟;和輸出步驟,在所述重復(fù)步驟結(jié)束時剩余的所述第2種語言的句子之中,具有滿足預(yù)先決定的選擇條件的類似度的句子作為對所述輸入文的譯文并輸出。
2.根據(jù)權(quán)利要求1所述的機器翻譯方法,其特征在于,所述摘錄步驟包括讀取步驟,其接收所述第1種語言的輸入文,從所述對譯文集之中,讀取當(dāng)表示和所述輸入文的類似度的規(guī)定分?jǐn)?shù)滿足預(yù)先決定的條件的、和所述第1種語言的句子成對的所述第2種語言的句子。
3.根據(jù)權(quán)利要求2所述的機器翻譯方法,其特征在于,所述讀取步驟包括分?jǐn)?shù)計算步驟,其接收所述第1種語言的輸入文,對于所述對譯文集之中所包含的所述第1種語言的句子的每一個,計算和所述輸入文之間的所述分?jǐn)?shù);確定步驟,其確定在所述分?jǐn)?shù)計算步驟中算出的分?jǐn)?shù)最大的1個或者多個的所述第1種語言的句子;和句子讀出步驟,其將所述確定步驟中決定的所述1個或者多個第1種語言的句子和分別與其成對的1個或者多個所述第2種語言的句子從所述對譯文集之中讀出。
4.根據(jù)權(quán)利要求3所述的機器翻譯方法,其特征在于,所述分?jǐn)?shù)計算步驟包括類似尺度計算步驟,其在所述輸入文和所述對譯文集之中所包含的所述第1種語言的各個之間,將所述對譯文集之中所包含的所述第1種語言的句子作為文本,對所述輸入文采用定義的文本頻率計算規(guī)定的類似尺度;編輯距離計算步驟,其計算所述輸入文、與包含在所述對譯文集之中的所述第1種語言的各個之間的編輯距離;和分?jǐn)?shù)算出步驟,其基于在所述類似尺度計算步驟中算出的類似尺度以及在所述編輯距離計算步驟中算出的編輯距離,計算所述分?jǐn)?shù)。
5.根據(jù)權(quán)利要求4所述的機器翻譯方法,其特征在于,所述類似尺度計算步驟包括tf/idf標(biāo)準(zhǔn)Ptf/idf計算步驟,在所述對譯文集之中所包含的所述第1種語言的各句子和所述輸入文之間,按照下面的公式計算tf/idf標(biāo)準(zhǔn)Ptf/idf,Ptf/idf(Jk,J0)=Σi:J0,i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示輸入文,J0,i表示輸入文J0的第i個單詞,df(J0,i)表示對于單詞J0,i的文本頻率,Jk表示第k個所述第1種語言的句子,1≤k≤N,N表示對譯文集之中的全部對譯文數(shù)目。
6.根據(jù)權(quán)利要求5所述的機器翻譯方法,其特征在于,所述編輯距離計算步驟包括進行輸入文J0和所述第1種語言的句子Jk之間的DP匹配,即動態(tài)編程匹配,計算編輯距離dis(Jk,J0)的步驟,編輯距離dis(Jk,J0)由以下公式?jīng)Q定,dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整數(shù),I(Jk,J0)、D(Jk,J0)以及S(Jk,J0)分別為將句子J0變換為句子Jk時,必要的詞語的插入、刪除以及置換的數(shù)量。
7.根據(jù)權(quán)利要求6所述的機器翻譯方法,其特征在于,所述分?jǐn)?shù)算出步驟包括分?jǐn)?shù)求出步驟,其對所述第1種語言的句子Jk,基于在所述類似尺度計算步驟中算出的tf/idf標(biāo)準(zhǔn)Ptf/idf以及在所述編輯距離計算步驟算出的編輯距離dis(Jk,J0),求出由下面公式所定義的分?jǐn)?shù), 式中,α為調(diào)整參數(shù);對譯文選擇步驟,其從在所述分?jǐn)?shù)求出步驟中求得的分?jǐn)?shù)較大的對譯文中,作為所述初始備用,依次選擇預(yù)先決定個數(shù)的對譯文。
8.根據(jù)權(quán)利要求7所述的機器翻譯方法,其特征在于,進一步包括判定步驟,其判斷在所述讀取步驟中讀出的所述第1種語言的句子中是否存在所述分?jǐn)?shù)為1的句子;和譯文輸出步驟,其對在所述判定步驟中判斷為存在分?jǐn)?shù)為1的所述第1種語言的句子一事進行應(yīng)答,將該分?jǐn)?shù)為1的所述第1種語言的句子作為對于所述輸入文的譯文輸出。
9.根據(jù)權(quán)利要求7所述的機器翻譯方法,其特征在于,進一步包括對在所述判定步驟中判斷存在分?jǐn)?shù)為1的所述第2種語言的句子一事進行應(yīng)答,對所述計算步驟,所述選擇步驟,所述重復(fù)步驟以及所述輸出步驟的執(zhí)行進行抑制的步驟。
10.根據(jù)權(quán)利要求1所述的機器翻譯方法,其特征在于,所述選擇步驟包括在由所述變形得到的句子中,選擇規(guī)定個數(shù)的類似度最高的句子的步驟。
11.根據(jù)權(quán)利要求1所述的機器翻譯方法,其特征在于,所述重復(fù)步驟包括直到看不出所述選擇步驟所選擇的句子的類似度改善為止,對于所述選擇步驟中選擇的句子的各個,重復(fù)所述摘錄步驟、所述計算步驟以及所述選擇步驟的步驟。
12.根據(jù)權(quán)利要求1所述的機器翻譯方法,其特征在于,所述輸出步驟包括在所述重復(fù)步驟結(jié)束時剩余的所述第2種語言的句子之中,具有最大的類似度的句子作為對于所述輸入文的譯文輸出的步驟。
13.根據(jù)權(quán)利要求1所述的機器翻譯方法,其特征在于,所述機器翻譯方法與所述第2種語言的語言模型、以及由所述第2種語言向所述第1種語言的翻譯模型連接并使用,所述計算步驟包括對于摘錄出的所述第2種語言的句子,應(yīng)用所述預(yù)先決定的多個變形之中的任意變形,采用所述語言模型以及所述翻譯模型計算由變形得到的句子的類似度的步驟。
14.一種記錄介質(zhì),記錄了讓計算機動作的機器翻譯計算機程序,在計算機執(zhí)行該程序時將實施以下機器翻譯方法,所述機器翻譯方法采用包含多個由第1種語言的句子和第2種語言的句子構(gòu)成對譯的對譯文集,將所述第1種語言輸入文翻譯為所述第2種語言,其特征在于,包括以下步驟摘錄步驟,接收所述第1種語言輸入文,從所述對譯文集之中,摘錄出和所述輸入文之間具有規(guī)定關(guān)系的、和第1種語言的句子成對的所述第2種語言的句子;計算步驟,對于所述摘錄出的所述第2種語言的句子,應(yīng)用預(yù)先決定的多個變形之中的任意變形,計算由變形得到的句子的類似度;選擇步驟,從由所述變形得到的句子中,選擇具有滿足規(guī)定條件的類似度的句子;重復(fù)步驟,直到預(yù)先決定的結(jié)束條件成立為止,對于所述選擇步驟選擇的句子的每一個,重復(fù)所述摘錄步驟、所述計算步驟以及所述選擇步驟;和輸出步驟,在所述重復(fù)步驟結(jié)束時剩余的所述第2種語言的句子之中,具有滿足預(yù)先決定的選擇條件的類似度的句子作為對所述輸入文的譯文并輸出。
15.根據(jù)權(quán)利要求14所述的記錄介質(zhì),其特征在于,所述摘錄步驟包括讀取步驟,其接收所述第1種語言的輸入文,從所述對譯文集之中,讀取當(dāng)表示和所述輸入文的類似度的規(guī)定分?jǐn)?shù)滿足預(yù)先決定的條件的、和所述第1種語言的句子成對的所述第2種語言的句子。
16.根據(jù)權(quán)利要求15所述的記錄介質(zhì),其特征在于,所述讀取步驟包括分?jǐn)?shù)計算步驟,其接收所述第1種語言的輸入文,對于所述對譯文集之中所包含的所述第1種語言的句子的每一個,計算和所述輸入文之間的所述分?jǐn)?shù);確定步驟,其確定在所述分?jǐn)?shù)計算步驟中算出的分?jǐn)?shù)最大的1個或者多個的所述第1種語言的句子;和句子讀出步驟,其將所述確定步驟中決定的所述1個或者多個第1種語言的句子和分別與其成對的1個或者多個所述第2種語言的句子從所述對譯文集之中讀出。
17.根據(jù)權(quán)利要求16所述的記錄介質(zhì),其特征在于,所述分?jǐn)?shù)計算步驟包括類似尺度計算步驟,其在所述輸入文和所述對譯文集之中所包含的所述第1種語言的各個之間,將所述對譯文集之中所包含的所述第1種語言的句子作為文本,對所述輸入文采用定義的文本頻率計算規(guī)定的類似尺度;編輯距離計算步驟,其計算所述輸入文、與包含在所述對譯文集之中的所述第1種語言的各個之間的編輯距離;和分?jǐn)?shù)算出步驟,其基于在所述類似尺度計算步驟中算出的類似尺度以及在所述編輯距離計算步驟中算出的編輯距離,計算所述分?jǐn)?shù)。
18.根據(jù)權(quán)利要求17所述的記錄介質(zhì),其特征在于,所述類似尺度計算步驟包括tf/idf標(biāo)準(zhǔn)Ptf/idf計算步驟,在所述對譯文集之中所包含的所述第1種語言的各句子和所述輸入文之間,按照下面的公式計算tf/idf標(biāo)準(zhǔn)Ptf/idf,Ptf/idf(Jk,J0)=Σi:J0,i∈Jklog(N/df(J0,i))/logN|J0|]]>式中,J0表示輸入文,J0,i表示輸入文J0的第i個單詞,df(J0,i)表示對于單詞J0,i的文本頻率,Jk表示第k個所述第1種語言的句子,1≤k≤N,N表示對譯文集之中的全部對譯文數(shù)目。
19.根據(jù)權(quán)利要求14所述的記錄介質(zhì),其特征在于,所述編輯距離計算步驟包括進行輸入文J0和所述第1種語言的句子Jk之間的DP匹配,即動態(tài)編程匹配,計算編輯距離dis(Jk,J0)的步驟,編輯距離dis(Jk,J0)由以下公式?jīng)Q定,dis(Jk,J0)=I(Jk,J0)+D(Jk,J0)+S(Jk,J0)式中,k是1≤k≤N的整數(shù),I(Jk,J0)、D(Jk,J0)以及S(Jk,J0)分別為將句子J0變換為句子Jk時,必要的詞語的插入、刪除以及置換的數(shù)量。
20.根據(jù)權(quán)利要求19所述的記錄介質(zhì),其特征在于,所述分?jǐn)?shù)算出步驟包括分?jǐn)?shù)求出步驟,其對所述第1種語言的句子Jk,基于在所述類似尺度計算步驟中算出的tf/idf標(biāo)準(zhǔn)Ptf/idf以及在所述編輯距離計算步驟算出的編輯距離dis(Jk,J0),求出由下面公式所定義的分?jǐn)?shù), 式中,α為調(diào)整參數(shù);對譯文選擇步驟,其從在所述分?jǐn)?shù)求出步驟中求得的分?jǐn)?shù)較大的對譯文中,作為所述初始備用,依次選擇預(yù)先決定個數(shù)的對譯文。
21.根據(jù)權(quán)利要求20所述的記錄介質(zhì),其特征在于,所述機器翻譯方法進一步包括判定步驟,其判斷在所述讀取步驟中讀出的所述第1種語言的句子中是否存在所述分?jǐn)?shù)為1的句子;和譯文輸出步驟,其對在所述判定步驟中判斷為存在分?jǐn)?shù)為1的所述第1種語言的句子一事進行應(yīng)答,將該分?jǐn)?shù)為1的所述第1種語言的句子作為對于所述輸入文的譯文輸出。
22.根據(jù)權(quán)利要求21所述的記錄介質(zhì),其特征在于,所述機器翻譯方法進一步包括對在所述判定步驟中判斷存在分?jǐn)?shù)為1的所述第2種語言的句子一事進行應(yīng)答,對所述計算步驟,所述選擇步驟,所述重復(fù)步驟以及所述輸出步驟的執(zhí)行進行抑制的步驟。
23.根據(jù)權(quán)利要求14所述的記錄介質(zhì),其特征在于,所述選擇步驟包括在由所述變形得到的句子中,選擇規(guī)定個數(shù)的類似度最高的句子的步驟。
24.根據(jù)權(quán)利要求14所述的記錄介質(zhì),其特征在于,所述重復(fù)步驟包括直到看不出所述選擇步驟所選擇的句子的類似度改善為止,對于所述選擇步驟中選擇的句子的各個,重復(fù)所述摘錄步驟、所述計算步驟以及所述選擇步驟的步驟。
25.根據(jù)權(quán)利要求14所述的記錄介質(zhì),其特征在于,所述輸出步驟包括在所述重復(fù)步驟結(jié)束時剩余的所述第2種語言的句子之中,具有最大的類似度的句子作為對于所述輸入文的譯文輸出的步驟。
26.根據(jù)權(quán)利要求14所述的記錄介質(zhì),其特征在于,所述機器翻譯方法與所述第2種語言的語言模型、以及由所述第2種語言向所述第1種語言的翻譯模型連接并使用,所述計算步驟包括對于摘錄出的所述第2種語言的句子,應(yīng)用所述預(yù)先決定的多個變形之中的任意變形,采用所述語言模型以及所述翻譯模型計算由變形得到的句子的類似度的步驟。
全文摘要
本發(fā)明提供一種機器翻譯方法,采用包含由第1種語言的句子和第2種語言的句子構(gòu)成對譯的對譯文集,將第1種語言的輸入文翻譯為第2種語言的句子,其包括以下步驟接收第1種語言的輸入文,從對譯文集之中,摘錄出和輸入文最類似的、和第1種語言的句子成對的第2種語言的句子的步驟;對于摘錄出的第2種語言的句子,應(yīng)用多個變形之中的任意的變形,計算由變形得到的句子的類似度的步驟;選擇由變形得到的句子之中的、規(guī)定數(shù)目的、類似度高的句子的步驟;直到類似度沒有改善為止,對于選擇步驟中選擇的句子的各個,重復(fù)摘錄步驟、計算步驟以及選擇步驟的步驟;當(dāng)重復(fù)步驟結(jié)束時,將剩余的第2種語言的句子之中,具有最大類似度的句子作為對輸入文的譯文輸出的步驟。
文檔編號G06F17/28GK1591415SQ20041007494
公開日2005年3月9日 申請日期2004年9月1日 優(yōu)先權(quán)日2003年9月1日
發(fā)明者渡邊太郎, 隅田英一郎 申請人:株式會社國際電氣通信基礎(chǔ)技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
资兴市| 大悟县| 中卫市| 松潘县| 黔西| 尖扎县| 偏关县| 达拉特旗| 密云县| 桑植县| 府谷县| 嘉禾县| 宁化县| 凤阳县| 辽阳县| 通州市| 金溪县| 陇川县| 安丘市| 博白县| 大渡口区| 泗水县| 邵阳县| 南昌市| 积石山| 满洲里市| 方山县| 交城县| 呼伦贝尔市| 大洼县| 古交市| 荔波县| 会宁县| 延吉市| 德化县| 盐池县| 颍上县| 武鸣县| 长春市| 郁南县| 隆安县|