專利名稱:面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法
技術領域:
本發(fā)明涉及一種統(tǒng)計機器翻譯技術,具體的說是一種面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法。
背景技術:
統(tǒng)計機器翻譯(Statistical Machine Translation, SMT)系統(tǒng)的訓練需要大規(guī)模的雙語平行語料的支持,語料的質(zhì)量和數(shù)量會對機器翻譯系統(tǒng)的性能帶來很大的影響。一般來說,訓練語料規(guī)模的增加有助于獲得穩(wěn)定的模型參數(shù)并提高SMT系統(tǒng)的翻譯性能。但是語料規(guī)模越大,系統(tǒng)的執(zhí)行代價就越高,訓練和解碼需要的時間也越長。另外,更大規(guī)模的語料也就意味著可能存在更多的噪聲數(shù)據(jù),會在一定程度上影響到系統(tǒng)訓練的可靠性。
姚樹杰等人(2010)曾提出了一種基于句對質(zhì)量和覆蓋度的統(tǒng)計機器翻譯訓練語料選取的方法,他們通過綜合考慮覆蓋度和句對質(zhì)量兩方面的因素,從已有的平行語料中獲取高質(zhì)量小規(guī)模訓練子集,以達到同使用全部訓練語料相當?shù)姆g性能。在姚樹杰等人提出的模型中,有五個質(zhì)量評價特征,各個特征的權重采用人工設定經(jīng)驗值的方法得到。人工的方法需要大量的實驗支撐,耗時耗力,并且在特征數(shù)量增加的時候,變得非常不可用。
發(fā)明內(nèi)容
針對基于句對質(zhì)量和覆蓋度的統(tǒng)計機器翻譯技術中的質(zhì)量評價特征采用人工設定經(jīng)驗值的方法得到,耗時耗力,并且在特征數(shù)量增加時變得非常不可用等不足之處,本發(fā)明要解決的技術問題是提供一種可自動生成特征權重,能夠提供更豐富的句對質(zhì)量評價特征的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法。為解決上述技術問題,本發(fā)明采用的技術方案是本發(fā)明面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法包括以下步驟權重自動獲取采用小規(guī)模語料對權重自動獲取模型進行訓練,以得到特征的權重和分類臨界值;句對質(zhì)量評價將上述權重和分類臨界值與原始大規(guī)模平行語料一起做為輸入,由句對質(zhì)量評價線性模型對大規(guī)模平行語料進行分類,生成各個語料子集;高質(zhì)量語料子集選取在上述各個語料子集的基礎上,考慮覆蓋度的影響,選取高質(zhì)量語料做為統(tǒng)計機器翻譯系統(tǒng)的訓練數(shù)據(jù)。所述句對質(zhì)量評價線性模型為
權利要求
1.一種面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于包括以下步驟 權重自動獲取 采用小規(guī)模語料對權重自動獲取模型進行訓練,以得到特征的權重和分類臨界值;句對質(zhì)量評價將上述權重和分類臨界值與原始大規(guī)模平行語料一起做為輸入,由句對質(zhì)量評價線性模型對大規(guī)模平行語料進行分類,生成各個語料子集; 高質(zhì)量語料子集選取在上述各個語料子集的基礎上,考慮覆蓋度的影響,選取高質(zhì)量語料做為統(tǒng)計機器翻譯系統(tǒng)的訓練數(shù)據(jù)。
2.按權利要求I所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于所述句對質(zhì)量評價線性模型為
3.按權利要求I所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于所述高質(zhì)量句對為 句對中源語句和目標語句都是流暢的句子,且源語句和目標語句的互譯程度高。
4.按權利要求I所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于句對質(zhì)量評價特征包括高質(zhì)量翻譯短語特征和基于實詞的質(zhì)量評價特征,其中 高質(zhì)量翻譯短語 在高質(zhì)量短語翻譯表中,查找提取的短語對是否存在,其特征公式如下
5.按權利要求4所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于所述句對質(zhì)量評價特征還包括基于IBM model I的翻譯概率的質(zhì)量評價特征、基于IBM model I的最大化翻譯概率(MTP)的質(zhì)量評價特征、基于詞匯化翻譯概率(LexicalWeighting,LW)的質(zhì)量評價特征、基于詞典的質(zhì)量評價特征、基于短語表染色機制的質(zhì)量評價特征和基于語言模型的質(zhì)量評價特征,其中 基于IBM model I的最大化翻譯概率(MTP)的質(zhì)量評價特征通過以下公式實現(xiàn)
6.按權利要求5所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于詞Wi在N元語言模型下的概率P (Wi I &__,..., <)通過以下公式得到
7.按權利要求I所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于 在權重自動獲取步驟中,采用小規(guī)模語料對權重自動獲取模型進行訓練通過Pranking算法實現(xiàn),通過訓練數(shù)據(jù)自動調(diào)整各個特征的權重,訓練集中的每組數(shù)據(jù)執(zhí)行調(diào)整過程后,得到新的權重向量與臨界值向量,做為下一組數(shù)據(jù)計算的初始值;當多組訓練數(shù)據(jù)全部執(zhí)行完成后,所得的權重向量與臨界值向量即為最終結果。
8.按權利要求I所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于所述考慮基于句對質(zhì)量和覆蓋度的語料選取包括以下步驟 使用句對質(zhì)量評價模型將訓練語料分為質(zhì)量高低不同的k個等級,k為Pranking算法訓練數(shù)據(jù)標注的等級數(shù); 采用翻譯短語對作為覆蓋度的度量標準,一個句子對覆蓋度的貢獻,是其中包含的不同的未知翻譯短語對的個數(shù); 選取數(shù)據(jù)首先從質(zhì)量等級最高的數(shù)據(jù)中選取句對,當全部剩余句對已經(jīng)無法增加訓練子集的覆蓋度時,再從質(zhì)量次之的等級中選?。划敻哔|(zhì)量句對的覆蓋度貢獻值小于設定的閾值a時,優(yōu)先考慮從質(zhì)量較低集合中選取覆蓋度貢獻大的句對,同時,將高質(zhì)量的未被選取句對的覆蓋度加上一個常數(shù)b,與質(zhì)量較低的數(shù)據(jù)一同參選; 在選取數(shù)據(jù)時,從包含詞對齊信息的句對中抽取出翻譯短語對,以句子包含的翻譯短語對的數(shù)量作為各個句子的初始覆蓋度貢獻值; 訓練語料子集對應的短語對集合每增加一個新的短語對,則相應的所有包含該短語對的句子的覆蓋度貢獻減I ; 每次從語料中選取覆蓋度貢獻最大的句子加入語料子集中,然后更新所有未被選取的句子的覆蓋度貢獻值; 迭代進行此過程,直至選取的子集達到目標規(guī)模。
9.按權利要求8所述的面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,其特征在于所述考慮覆蓋度的影響選取高質(zhì)量語料還包括特征評價結果縮放步驟 對基于IBM model I的最大化翻譯概率的質(zhì)量評價特征fMTP、基于IBMmodel I翻譯概率的質(zhì)量評價特征,BM、基于語言模型的質(zhì)量評價特征φ!Λ!以及基于語言模型的質(zhì)量評價特征fLW的結果進行縮放,采用公式(14)將[O,-⑴]區(qū)間縮放至[O,I]區(qū)間
全文摘要
本發(fā)明涉及一種面向統(tǒng)計機器翻譯的訓練語料質(zhì)量評價及選取方法,步驟為權重自動獲取采用小規(guī)模語料對權重自動獲取模型進行訓練,以得到特征的權重和分類臨界值;句對質(zhì)量評價將上述權重和分類臨界值與原始大規(guī)模平行語料一起做為輸入,由句對質(zhì)量評價線性模型對大規(guī)模平行語料進行分類,生成各個語料子集;高質(zhì)量語料子集選取在上述各個語料子集的基礎上,考慮覆蓋度的影響,選取高質(zhì)量語料做為統(tǒng)計機器翻譯系統(tǒng)的訓練數(shù)據(jù)。本發(fā)明提出更豐富的句對質(zhì)量評價特征,實現(xiàn)了特征權重的自動學習,當子集規(guī)模達到30%時性能可能夠達到100%甚至更好;可以對任意輸入的句對劃分其所屬的等級,可以為高質(zhì)量語料數(shù)據(jù)選取等任務提供幫助。
文檔編號G06F17/28GK102945232SQ20121046917
公開日2013年2月27日 申請日期2012年11月16日 優(yōu)先權日2012年11月16日
發(fā)明者朱靖波, 張 浩, 肖桐, 李強 申請人:沈陽雅譯網(wǎng)絡技術有限公司