一種多個機器翻譯系統(tǒng)融合的方法及裝置制造方法
【專利摘要】一種多個機器翻譯系統(tǒng)融合的方法及裝置,本發(fā)明涉及到機器翻譯的相關領域。本發(fā)明是要解決傳統(tǒng)的在后處理上做系統(tǒng)融合的方法沒有充分考慮解碼過程的信息和融合不能充分考慮解碼中搜索空間的問題。多個機器翻譯系統(tǒng)融合的裝置包括預處理器,短語抽取器,語言模型生成器,多個機器翻譯系統(tǒng)訓練器與解碼器;一、機器翻譯系統(tǒng)的預處理;二、建立每個翻譯系統(tǒng)的翻譯超圖;三、融合兩個翻譯超圖并對訓練集合進行訓練;其中,所述訓練包含兩個部分:融合前的單個機器翻譯系統(tǒng)采用最大熵訓練的BTG調序模型與融合后的機器翻譯系統(tǒng)采用最小錯誤率訓練MERT;四、對測試集合進行解碼生成翻譯結果,對翻譯結果進行評分。本發(fā)明應用于機器翻譯領域。
【專利說明】一種多個機器翻譯系統(tǒng)融合的方法及裝置
【技術領域】
[0001]本發(fā)明涉及多個機器翻譯系統(tǒng)融合的方法及裝置,屬于機器翻譯的相關領域。
【背景技術】
[0002]隨著計算機的快速發(fā)展,利用計算機來實現(xiàn)不同語種之間的翻譯技術,早已為人們所熟知了。機器翻譯系統(tǒng)融合是把多個系統(tǒng)的輸出N-best結果進行融合,生成新翻譯結果。而且已證明融合的翻譯結果要好于單個系統(tǒng)的輸出。按照融合的粒度來分包括句子級,短語級和詞級,最近在基于混淆網絡的詞一級系統(tǒng)融合技術獲得了大幅性能提高,但是這些方法都是在機器翻譯的后處理上來進行融合。傳統(tǒng)的在后處理上做系統(tǒng)融合的方法沒有充分考慮解碼過程的信息,而且后處理上的融合不能充分考慮解碼中巨大的搜索空間。本發(fā)明是在模型解碼的過程中進行融合。隨著并行化技術的發(fā)展,算法時間復雜度和空間復雜度都可以接受。
[0003]超圖從19世紀70年代就開始在離散數學中許多建模問題上得到了應用,也把超圖稱為有向超圖(Gallo,1993)。它是用來抽象可以用動態(tài)規(guī)劃來解決的層次化搜索空間,也就是把一個大問題變成子問題分而治之。超圖是廣義上的圖,它的一條邊可以連接到任意數量的頂點。有向超圖是一個帶權重集W的對H = < X,E >,X是頂點的集合;£ g Ki x K是超邊的集合,E是P(X) \Φ的一個子集,其中P(X)是X的冪集,其中V*表示尾結點集合,V表示頭結點集合;W是權重的集合;每一個超邊e e E是一個三元組e = < T (e),h (e),f;>,其中T(e) e V*是尾結點的有序序列,由于尾結點可能為空集合,所以屬于尾結點的閉包。h(e) e V是頭結點,?;:Κ|τωι — R的權函數(R表示實數空間,|T(e) |表示尾結點有序序列的基數);與超邊相關聯(lián)的所有結點都稱為超結點,每個頭超節(jié)點都與多個超邊相連,把h(e)稱為源節(jié)點,定義|T(e)|是超邊的元數;如果某個超邊的元數為0,那么該超邊的權函數f; e R是一個常量。`超圖中所有超邊的最大元數為超圖的元數。元數為I的超邊是正則邊,元數為I的超圖為正則圖(格)。
[0004]詞圖(Word Lattice)就是元數為I的超圖,詞圖是最常見的超圖。在機器翻譯領域詞圖是表示從左到右翻譯解碼空間的數據結構重要工具,超圖是更加泛化的詞圖,不僅可以表示從左到右解碼空間,也可以表示從底向上解碼空間。
[0005]翻譯超圖是建立在超圖的基礎上,一個翻譯規(guī)則對應一條超邊(推導);翻譯規(guī)則的權重對應超邊的權函數。翻譯節(jié)點是在翻譯過程中生成的部分翻譯,且?guī)в懈鞣N特征值。翻譯超圖是為了雙語機器翻譯建模,不僅有源語言,也有目標語言,在翻譯超圖上可以進行推導,推導就是翻譯的過程。
【發(fā)明內容】
[0006]本發(fā)明是要解決傳統(tǒng)的在后處理上做系統(tǒng)融合的方法沒有充分考慮解碼過程的信息,和后處理上的融合不能充分考慮解碼中巨大的搜索空間的問題,而提供了一種多個機器翻譯系統(tǒng)融合的方法及裝置。[0007]—種多個機器翻譯系統(tǒng)融合的裝置包括單語或雙語預處理器、短語抽取器、語言模型生成器、多個機器翻譯系統(tǒng)訓練器與解碼器;
[0008]所述單語或雙語預處理器對單語和雙語進行預處理;短語抽取器從雙語訓練語料中抽取出短語放到短語表中;使用語言模型生成器從單語訓練語料訓練出語言模型;融合前的機器翻譯系統(tǒng)使用短語表與語言模型進行訓練,并把訓練得到的參數權重作為最終解碼器的權重;解碼器是把測試語料解碼生成翻譯結果,并對翻譯結果進行評測輸出得分。
[0009]多個機器翻譯系統(tǒng)融合的方法按以下步驟實現(xiàn):
[0010]一、機器翻譯系統(tǒng)的預處理過程;
[0011]二、建立每個翻譯系統(tǒng)的翻譯超圖;
[0012]三、融合兩個翻譯超圖并對訓練集合進行訓練;
[0013]其中,所述訓練包含兩個部分:融合前的單個機器翻譯系統(tǒng)采用最大熵訓練的BTG調序模型與融合后的機器翻譯系統(tǒng)采用最小錯誤率訓練MERT ;
[0014]四、對測試集合進行解碼生成翻譯結果,并對翻譯結果進行評分,即完成了一種多個機器翻譯系統(tǒng)融合的方法。
[0015]本發(fā)明效果:
[0016]本發(fā)明是把多個不同的機器翻譯進行融合在一起,互相提高性能,比單系統(tǒng)明顯提高了 7個百分點的BLEU分數。模型解碼的過程中進行融合的好處是不受機器翻譯模型的限制,不受訓練算法的限制,只要解碼方式相似就可以融合,有很好的可擴展性。
【專利附圖】
【附圖說明】
[0017]圖1是多個機器翻譯系統(tǒng)融合的裝置圖;
[0018]圖2是本發(fā)明流程圖;
[0019]圖3是分詞后的結果圖;
[0020]圖4是詞性標注后的結果圖;
[0021]圖5是句法分析后的結果圖;
[0022]圖6是含有句法、雙語對齊和短語信息的句子圖;
[0023]圖7是樹到串機器翻譯系統(tǒng)抽取的短語圖;
[0024]圖8是含有雙語對齊和短語信息的句子圖;
[0025]圖9是短語機器翻譯系統(tǒng)抽取的短語圖;
[0026]圖10 Ca)基于最大熵BTG生成的翻譯超圖;
[0027]圖10 (b)基于SCFG生成的翻譯超圖;
[0028]圖10 (C)融合兩種文法后生成的翻譯超圖;
[0029]圖11是機器翻譯的訓練過程圖;
[0030]圖12 Ca)是得分衡量的MERT訓練示例圖;
[0031]圖12 (b)是錯誤衡量的MERT訓練示例圖;
[0032]圖13是CYK解碼表不例圖;
[0033]圖14是使用圖13解碼表生成的翻譯結果圖;
[0034]圖15是機器翻譯融合主算法的偽代碼圖;
[0035]圖16是解碼中核心函數Add_Edge的偽代碼圖?!揪唧w實施方式】
[0036]【具體實施方式】一:本實施方式的多個機器翻譯系統(tǒng)融合的裝置包括單語或雙語預處理器,短語抽取器,語言模型生成器,多個機器翻譯系統(tǒng)訓練器與解碼器;
[0037]所述單語或雙語預處理器對單語和雙語進行預處理;短語抽取器從雙語訓練語料中抽取出短語放到短語表中;使用語言模型生成器從單語訓練語料訓練出語言模型;融合前的機器翻譯系統(tǒng)使用短語表與語言模型進行訓練,并把訓練得到的參數權重作為最終解碼器的權重;解碼器是把測試語料解碼生成翻譯結果,并對翻譯結果進行評測輸出得分。
[0038]【具體實施方式】二:本實施方式的多個機器翻譯系統(tǒng)融合的方法按以下步驟實現(xiàn):
[0039]一、機器翻譯系統(tǒng)的預處理過程;
[0040]二、建立每個翻譯系統(tǒng)的翻譯超圖;
[0041]三、融合兩個翻譯超圖并對訓練集合進行訓練;
[0042]其中,所述訓練包含兩個部分:融合前的單個機器翻譯系統(tǒng)采用最大熵訓練的BTG調序模型與融合后的機器翻譯系統(tǒng)采用最小錯誤率訓練(MERT);
[0043]四、對測試集合進行解碼生成翻譯結果,并對翻譯結果進行評分,即完成了一種多個機器翻譯系統(tǒng)融合的方法。
[0044]現(xiàn)代的機器翻譯技術都是建立在雙語文法的基礎上,文法是一個四元組
[0045]G = (VN, Vt, P,S),其中Vn是非終結符號集合,包含了源語言和目標語言的非終結符號;VT包含了源語言和目標語言的?夂結符號集合,且Vn n Vt= Φ ;整個符號集合V =Vn U Vt ;Ρ是產生式集合,Z5 G匕XFtXf時產生式集合,頭結點是Vn元素,尾結點是V*X V*兀素;S是唯一的開始符號,S e VN。
[0046]本實施方式采用兩種經典的雙語文法進行融合,由于是在解碼中進行融合,所以不受文法的限制,當然也可以擴展其他類型的雙語文法的融合,且訓練過程也是個獨立過程,可以采用經典的最小錯誤率訓練(MERT)算法。下面對于這兩種經典的機器翻譯雙語文法進行介紹:
[0047]1.括號轉錄文法(BTG):通過機器學習算法實現(xiàn)機器翻譯中的雙語調序,在解碼中按照源語言的語序生成翻譯結果,自動的完成目標語言的調序和生成過程。
[0048]例如:對于要翻譯中文句子“tianshang de yuncai ”,可以匹配上BTG規(guī)則有兩類:
[0049](a)詞匯化規(guī)則:
[0050]X—< tianshang de, in the sky > (I)
[0051]X—< yuncai, cloud > (2)
[0052](b)調序規(guī)則:
【權利要求】
1.一種多個機器翻譯系統(tǒng)融合的裝置,其特征在于多個機器翻譯系統(tǒng)融合的裝置包括單語或雙語預處理器、短語抽取器、語言模型生成器、多個機器翻譯系統(tǒng)訓練器與解碼器; 所述單語或雙語預處理器對單語和雙語進行預處理;短語抽取器從雙語訓練語料中抽取出短語放到短語表中;使用語言模型生成器從單語語料訓練出語言模型;融合前的機器翻譯系統(tǒng)使用短語表與語言模型進行訓練,并把訓練得到的參數權重作為最終解碼器的權重;解碼器是把測試語料解碼生成翻譯結果,并對翻譯結果進行評測輸出得分。
2.應用權利要求1所述的一種多個機器翻譯系統(tǒng)融合的裝置進行多個機器翻譯系統(tǒng)融合的方法,其特征在于一種多個機器翻譯系統(tǒng)融合的方法按以下步驟實現(xiàn): 一、機器翻譯系統(tǒng)的預處理過程,使用單語或雙語預處理器對單語和雙語語料處理,語言模型生成器生成語言模型,使用短語抽取器抽取出短語; 二、為每個翻譯系統(tǒng)生成翻譯超圖; 三、在多個機器翻譯系統(tǒng)訓練器中通過共享特征融合兩個翻譯超圖并對訓練集合進行訓練; 其中,所述訓練包含兩個部分:融合前的單個機器翻譯系統(tǒng)采用最大熵訓練的BTG調序模型與融合后的機器翻譯系統(tǒng)采用最小錯誤率訓練MERT ; 四、在解碼器中對測試集合進行解碼生成翻譯結果,并對翻譯結果進行評分,即完成了一種多個機器翻譯系統(tǒng)融合的方法。
3.根據權利要求2所述的一種多個機器翻譯系統(tǒng)融合的方法,其特征在于所述步驟一中機器翻譯系統(tǒng)的預處理過程具體為: (1)源語言和目標語言進行分詞; (2)需要進行詞性標注的句子進行詞性標注,同時對雙語進行對齊; (3)需要進行句法分析的句子進行句法分析; (4)把對齊信息和詞性&句法信息合并在一起; (5)抽取出短語,并計算出與短語相關的特征得分。
4.根據權利要求3所述的一種多個機器翻譯系統(tǒng)融合的方法,其特征在于所述步驟三中融合兩個翻譯超圖具體為: 通過超圖來對翻譯過程進行建模,因此首先需要引入隱含變量推導d來表示每個推導過程,于是,P (e |f)可以表示如下: 接著,對上面公式右邊和式中的每項進行使用概率公式展開為:
5.根據權利要求4所述的一種多個機器翻譯系統(tǒng)融合的方法,其特征在于所述步驟三中最大熵訓練的BTG調序模型時使用了最大熵模型進行訓練,最大熵是一個凸優(yōu)化的訓練算法,且在達到最大熵時,是在限制特征中最平均的概率分布,其基本訓練公式如下:
6.根據權利要求5所述的一種多個機器翻譯系統(tǒng)融合的方法,其特征在于所述步驟三中最小錯誤率訓練MERT訓練過程經典的訓練算法使用下面公式表示訓練過程:
7.根據權利要求2、3、4、5或6所述的一種多個機器翻譯系統(tǒng)融合的方法,其特征在于所述步驟四中對測試集合進行解碼并生成翻譯結果具體為: 整個解碼器是建立在CYK算法基礎上,采用了 beam搜索策略,如果是Viterbi,選取最高得分;如果是Crunching,把部分特征得分加和,部分特征是除了語言模型和詞懲罰公用特征以外的特征;兩個算法對于關鍵步驟都進行了標識;對于消除偽歧義解碼公式如下:
【文檔編號】G06F17/28GK103646019SQ201310751047
【公開日】2014年3月19日 申請日期:2013年12月31日 優(yōu)先權日:2013年12月31日
【發(fā)明者】劉宇鵬 申請人:哈爾濱理工大學