欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置、雙語(yǔ)詞對(duì)齊方法和裝置的制作方法

文檔序號(hào):6556805閱讀:207來(lái)源:國(guó)知局
專利名稱:訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置、雙語(yǔ)詞對(duì)齊方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理技術(shù),具體地,涉及自然語(yǔ)言處理中雙語(yǔ)詞對(duì)齊的技術(shù)和統(tǒng)計(jì)機(jī)器翻譯技術(shù)。
背景技術(shù)
詞對(duì)齊在自然語(yǔ)言處理中被廣泛地使用?,F(xiàn)有的詞對(duì)齊技術(shù),通常使用統(tǒng)計(jì)詞對(duì)齊模型,把雙語(yǔ)句子中互為譯文的詞對(duì)對(duì)應(yīng)起來(lái)。統(tǒng)計(jì)詞對(duì)齊模型包含用于確定雙語(yǔ)句子中互為譯文的詞對(duì)的統(tǒng)計(jì)信息。
在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年發(fā)表的文章“The Mathematics of Statistical Machine TranslationParameter Estimation”(發(fā)表于Computational Linguistics,19(2)263-311)中描述了關(guān)于統(tǒng)計(jì)機(jī)器翻譯模型和統(tǒng)計(jì)詞對(duì)齊模型以及相應(yīng)的參數(shù)估計(jì)方法。
統(tǒng)計(jì)詞對(duì)齊模型需要有足夠的雙語(yǔ)語(yǔ)料來(lái)訓(xùn)練參數(shù)。如果訓(xùn)練語(yǔ)料不充分,那么得到的參數(shù)將不能產(chǎn)生高質(zhì)量的對(duì)齊結(jié)果。但是,對(duì)于某些語(yǔ)言對(duì)來(lái)說(shuō),可用的雙語(yǔ)語(yǔ)料更少,所以雙語(yǔ)語(yǔ)料的數(shù)量制約著統(tǒng)計(jì)詞對(duì)齊模型的質(zhì)量和阻礙了統(tǒng)計(jì)詞對(duì)齊模型的進(jìn)一步應(yīng)用。

發(fā)明內(nèi)容
為了解決上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提供了利用中間語(yǔ)言的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置、雙語(yǔ)詞對(duì)齊方法和裝置。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,包括利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及根據(jù)上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及上述第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種雙語(yǔ)詞對(duì)齊方法,包括利用前面所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,根據(jù)第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料以及第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,獲得第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及利用第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,對(duì)第一和第三語(yǔ)種的雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,包括第一訓(xùn)練單元,其利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;第二訓(xùn)練單元,其利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及模型估計(jì)單元,其根據(jù)上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及上述第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
根據(jù)本發(fā)明的另一個(gè)方面,提供了一種雙語(yǔ)詞對(duì)齊裝置,其特征在于,包括前面所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,用于根據(jù)第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料以及第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,獲得第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;并且利用由上述訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置獲得的第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,對(duì)第一和第三語(yǔ)種的雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊。


相信通過(guò)以下結(jié)合附圖對(duì)本發(fā)明具體實(shí)施方式
的說(shuō)明,能夠使人們更好地了解本發(fā)明上述的特點(diǎn)、優(yōu)點(diǎn)和目的。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法的流程圖;圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的雙語(yǔ)詞對(duì)齊方法的流程圖;圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置的方框圖;以及圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的雙語(yǔ)詞對(duì)齊裝置的方框圖。
具體實(shí)施例方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施例進(jìn)行詳細(xì)的說(shuō)明。
圖1是根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法的流程圖。
如圖1所示,首先在步驟101,利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。在本實(shí)施例中的雙語(yǔ)詞對(duì)齊模型包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。
其中,詞匯翻譯子模型是詞匯翻譯概率的集合,詞匯翻譯概率p(ws|wt)是目標(biāo)語(yǔ)言詞匯wt翻譯到源語(yǔ)言語(yǔ)詞匯ws的概率。
位置扭曲子模型是位置扭曲概率的集合,位置扭曲概率p(j|i,l,m)是給定源語(yǔ)言句子的長(zhǎng)度m,目標(biāo)語(yǔ)句子的長(zhǎng)度l的情況下,目標(biāo)語(yǔ)言句子中第ith個(gè)位置對(duì)應(yīng)到源語(yǔ)言句子中第jth的位置的概率。
詞匯衍生子模型是詞匯衍生概率的集合,詞匯衍生概率p(i|wt)是目標(biāo)語(yǔ)言詞匯wt對(duì)應(yīng)i個(gè)源語(yǔ)言詞匯的概率。
在本步驟中,利用統(tǒng)計(jì)方法,根據(jù)第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,即,第一和第二語(yǔ)種的詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。
接著,在步驟105,利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。與前面步驟101類似,在本步驟中,利用統(tǒng)計(jì)方法,根據(jù)第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,即,第二和第三語(yǔ)種的詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。
在本實(shí)施例中,假定存在著大量、準(zhǔn)確的第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料以及第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,但是缺乏第一和第三語(yǔ)種的雙語(yǔ)語(yǔ)料。這樣,通過(guò)前面的步驟101和105,可以利用充足的第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料以及第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料獲得質(zhì)量好的第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
接著,在步驟110,根據(jù)第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
在本實(shí)施例中,需要分別估計(jì)詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型,具體地,包括如下步驟利用第一和第二語(yǔ)種的詞匯翻譯子模型以及第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯翻譯子模型;利用第一和第二語(yǔ)種的位置扭曲子模型以及第二和第三語(yǔ)種的位置扭曲子模型,估計(jì)第一和第三語(yǔ)種的位置扭曲子模型;以及利用第一和第二語(yǔ)種的詞匯衍生子模型以及/或者第二和第三語(yǔ)種的詞匯衍生子模型、第一和第二語(yǔ)種的詞匯翻譯子模型以及/或者第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯衍生子模型。
下面,就詳細(xì)說(shuō)明上述這些子模型的估計(jì)過(guò)程。
1)首先,關(guān)于第一和第三語(yǔ)種的詞匯翻譯子模型的估計(jì)當(dāng)設(shè)pCE(wc|we)是第二語(yǔ)種的詞we到第一語(yǔ)種的詞wc的翻譯概率,pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,C(wj,wc)是第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù),p(wc|wj)是第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率時(shí),利用公式C(wj,wc)=ΣwepEJ(we|wj)*pCE(wc|we)]]>收集第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù);以及利用公式p(wc|wj)=C(wj,wc)Σwc′C(wj,wc′)]]>計(jì)算第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率p(wc|wj)。
2)其次,關(guān)于第一和第三語(yǔ)種的位置扭曲子模型的估計(jì)當(dāng)設(shè)pEJ(k|i,l,m′)是第二語(yǔ)種的句子長(zhǎng)度為m’、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第kth個(gè)第二語(yǔ)種的詞的概率,pCE(j|k,m′,m)是第一語(yǔ)種的句子長(zhǎng)度為m、第二語(yǔ)種的句子長(zhǎng)度為m’、第kth個(gè)第二語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計(jì)算第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的位置扭曲概率。
3)最后,關(guān)于第一和第三語(yǔ)種的詞匯衍生子模型的估計(jì)當(dāng)設(shè)pJE(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,pCE(i|we)是第二語(yǔ)種的詞we對(duì)應(yīng)i個(gè)第一語(yǔ)種的詞的概率,C(i,wj)和p(i|wj)分別是第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式 獲得第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式 計(jì)算第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的詞匯衍生概率。
通過(guò)以上描述可知,對(duì)于由于訓(xùn)練語(yǔ)料不充分而無(wú)法得到高質(zhì)量的詞對(duì)齊模型的問(wèn)題,本實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法可以利用一個(gè)中間語(yǔ)種來(lái)解決。例如,通常情況下,由于中文和日文的雙語(yǔ)語(yǔ)料比較少,因此制約著中文和日文的統(tǒng)計(jì)詞對(duì)齊模型的質(zhì)量。采用本實(shí)施例的方法,可以利用語(yǔ)料豐富的中間語(yǔ)種,如英文,來(lái)解決這個(gè)問(wèn)題。因?yàn)榇嬖谥罅?、豐富的中文和英文的雙語(yǔ)語(yǔ)料以及日文和英文的雙語(yǔ)語(yǔ)料,因此可以獲得高質(zhì)量的中文和英文的詞對(duì)齊模型以及日文和英文的詞對(duì)齊模型,進(jìn)而,利用中文和英文的詞對(duì)齊模型以及日文和英文的詞對(duì)齊模型,就可以估計(jì)出中文和日文的詞對(duì)齊模型。
當(dāng)然,本發(fā)明并不限于中文、英文和日文的情況,任何語(yǔ)種都可以作為前面實(shí)施例中的第一、第二和第三語(yǔ)種。只是通常情況下,作為中間語(yǔ)種的第二語(yǔ)種,應(yīng)當(dāng)考慮語(yǔ)料豐富的國(guó)際性的語(yǔ)言,例如,英語(yǔ)、法語(yǔ)或西班牙語(yǔ)等。
在同一發(fā)明構(gòu)思下,圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的雙語(yǔ)詞對(duì)齊方法的流程圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。
如圖2所示,首先在步驟101,利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。接著,在步驟105,利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。接著,在步驟110,根據(jù)第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
以上步驟101、105和110與前面圖1所示的實(shí)施例基本相同,在此不再重復(fù)。
然后,在步驟215,利用估計(jì)出的第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,對(duì)第一和第三語(yǔ)種的雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊。具體的對(duì)齊方式為1.利用詞匯翻譯概率和位置對(duì)齊概率,為每一個(gè)源語(yǔ)言單詞尋找一個(gè)最佳的單詞對(duì)齊。這樣得到一個(gè)對(duì)齊序列A0。
2.在對(duì)齊序列Ai的基礎(chǔ)上,利用詞匯翻譯概率,位置扭曲模型和詞匯衍生模型,通過(guò)嘗試交換任意兩個(gè)對(duì)齊或改變一個(gè)對(duì)齊,來(lái)尋找更好的對(duì)齊序列Ai+1。
3.重復(fù)過(guò)程2,直到?jīng)]有更好的對(duì)齊序列被發(fā)現(xiàn)。
在此,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)可以理解,對(duì)于最佳對(duì)其序列的搜索可以采用人們已知的和將來(lái)的任何搜索算法。
從以上描述可知,采用本實(shí)施例的雙語(yǔ)詞對(duì)齊方法,通過(guò)利用一個(gè)中間語(yǔ)種解決了由于訓(xùn)練語(yǔ)料不充分而無(wú)法得到高質(zhì)量的詞對(duì)齊模型的問(wèn)題,因此即使對(duì)于語(yǔ)料稀少的雙語(yǔ)語(yǔ)種,例如,中文和英文,也可以進(jìn)行準(zhǔn)確的詞對(duì)齊。
在同一發(fā)明構(gòu)思下,圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。
如圖3所示,本實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置300,第一訓(xùn)練單元303,其利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料301,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;第二訓(xùn)練單元304,其利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料302,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及模型估計(jì)單元305,其根據(jù)由第一訓(xùn)練單元303訓(xùn)練的第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及由第二訓(xùn)練單元304訓(xùn)練的第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
具體地,由第一訓(xùn)練單元303訓(xùn)練的第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及由第二訓(xùn)練單元304訓(xùn)練的第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,分別包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型。模型估計(jì)單元305,包括詞匯翻譯子模型估計(jì)單元,其利用第一和第二語(yǔ)種的詞匯翻譯子模型以及第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯翻譯子模型;位置扭曲子模型估計(jì)單元,其利用第一和第二語(yǔ)種的位置扭曲子模型以及第二和第三語(yǔ)種的位置扭曲子模型,估計(jì)第一和第三語(yǔ)種的位置扭曲子模型;以及詞匯衍生子模型估計(jì)單元,其利用第一和第二語(yǔ)種的詞匯衍生子模型以及/或者第二和第三語(yǔ)種的詞匯衍生子模型、上述第一和第二語(yǔ)種的詞匯翻譯子模型以及/或者第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯衍生子模型。
與前面實(shí)施例類似,在本實(shí)施例中,詞匯翻譯子模型估計(jì)單元,當(dāng)設(shè)pCE(wc|we)是第二語(yǔ)種的詞we到第一語(yǔ)種的詞wc的翻譯概率,pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,C(wj,wc)是第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù),p(wc|wj)是第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率時(shí),利用公式C(wj,wc)=ΣwepEJ(we|wj)*pCE(wc|we)]]>收集第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù);并且利用公式p(wc|wj)=C(wj,wc)ΣwcC(wj,wc′)]]>計(jì)算第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率p(wc|wj)。
位置扭曲子模型估計(jì)單元,當(dāng)設(shè)pEJ(k|i,l,m′)是第二語(yǔ)種的句子長(zhǎng)度為m’、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第kth個(gè)第二語(yǔ)種的詞的概率,pCE(j|k,m′,m)是第一語(yǔ)種的句子長(zhǎng)度為m、第二語(yǔ)種的句子長(zhǎng)度為m’、第kth個(gè)第二語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);并且利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計(jì)算第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的位置扭曲概率。
詞匯衍生子模型估計(jì)單元,當(dāng)設(shè)pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,pCE(i|we)是第二語(yǔ)種的詞we對(duì)應(yīng)i個(gè)第一語(yǔ)種的詞的概率,C(i,wj)和p(i|wj)分別是第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式 獲得第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式 計(jì)算第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的詞匯衍生概率。
從以上描述可知,本實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置在操作上可以實(shí)現(xiàn)前面圖1描述的實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法。采用本實(shí)施例,可以通過(guò)利用一個(gè)中間語(yǔ)種解決由于訓(xùn)練語(yǔ)料不充分而無(wú)法得到高質(zhì)量的詞對(duì)齊模型的問(wèn)題。
在此,應(yīng)當(dāng)指出,本實(shí)施例的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置300及其各個(gè)組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過(guò)計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來(lái)實(shí)現(xiàn)。
在同一發(fā)明構(gòu)思下,圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的雙語(yǔ)詞對(duì)齊裝置的方框圖。下面就結(jié)合該圖,對(duì)本實(shí)施例進(jìn)行描述。對(duì)于那些與前面實(shí)施例相同的部分,適當(dāng)省略其說(shuō)明。
如圖4所示,本實(shí)施例的雙語(yǔ)詞對(duì)齊裝置400,包括前面圖3描述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置300和詞對(duì)齊單元406。詞對(duì)齊單元406利用由訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置300獲得的第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,對(duì)第一和第三語(yǔ)種的雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊,具體的詞對(duì)齊方式在前面實(shí)施例中已經(jīng)進(jìn)行了描述,在此不再重復(fù)。
通過(guò)以上描述可知,本實(shí)施例的雙語(yǔ)詞對(duì)齊裝置400可以實(shí)施前面描述的本發(fā)明實(shí)施例的雙語(yǔ)詞對(duì)齊方法。采用本實(shí)施例的雙語(yǔ)詞對(duì)齊裝置,通過(guò)利用一個(gè)中間語(yǔ)種解決了由于訓(xùn)練語(yǔ)料不充分而無(wú)法得到高質(zhì)量的詞對(duì)齊模型的問(wèn)題,因此即使對(duì)于語(yǔ)料稀少的雙語(yǔ)語(yǔ)種,例如,中文和英文,也可以進(jìn)行準(zhǔn)確的詞對(duì)齊。
在此,應(yīng)當(dāng)指出,本實(shí)施例的雙語(yǔ)詞對(duì)齊裝置400及其各個(gè)組成部分,可以用專用的電路或芯片構(gòu)成,也可以通過(guò)計(jì)算機(jī)(處理器)執(zhí)行相應(yīng)的程序來(lái)實(shí)現(xiàn)。
以上雖然通過(guò)一些示例性的實(shí)施例對(duì)本發(fā)明的雙語(yǔ)詞對(duì)齊方法和裝置、訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置進(jìn)行了詳細(xì)的描述,但是以上這些實(shí)施例并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施例,本發(fā)明的范圍僅由所附權(quán)利要求為準(zhǔn)。
權(quán)利要求
1.一種訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,包括利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及根據(jù)上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及上述第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
2.根據(jù)權(quán)利要求1所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,其中,上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型、第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型分別包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型;上述估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型的步驟包括利用上述第一和第二語(yǔ)種的詞匯翻譯子模型以及上述第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯翻譯子模型;利用上述第一和第二語(yǔ)種的位置扭曲子模型以及上述第二和第三語(yǔ)種的位置扭曲子模型,估計(jì)第一和第三語(yǔ)種的位置扭曲子模型;以及利用上述第一和第二語(yǔ)種的詞匯衍生子模型以及/或者上述第二和第三語(yǔ)種的詞匯衍生子模型、上述第一和第二語(yǔ)種的詞匯翻譯子模型以及/或者上述第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯衍生子模型。
3.根據(jù)權(quán)利要求2所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,其中,上述估計(jì)第一和第三語(yǔ)種的詞匯翻譯子模型的步驟,包括當(dāng)設(shè)pCE(wc|we)是第二語(yǔ)種的詞we到第一語(yǔ)種的詞wc的翻譯概率,pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,C(wj,wc)是第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj同現(xiàn)次數(shù),p(wc|wj)是第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率時(shí),利用公式C(wj,wc)=ΣwcpEJ(we|wj)*pCE(wc|we)]]>收集第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù);以及利用公式p(wc|wj)=C(wj,wc)Σwc′C(wj,wc′)]]>計(jì)算第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率p(wc|wj)。
4.根據(jù)權(quán)利要求2所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,其中,上述估計(jì)第一和第三語(yǔ)種的位置扭曲子模型的步驟,包括當(dāng)設(shè)pEJ(k|i,l,m′)是第二語(yǔ)種的句子長(zhǎng)度為m’、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第kth個(gè)第二語(yǔ)種的詞的概率,pCE(j|k,m′,m)是第一語(yǔ)種的句子長(zhǎng)度為m、第二語(yǔ)種的句子長(zhǎng)度為m’、第kth個(gè)第二語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計(jì)算第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的位置扭曲概率。
5.根據(jù)權(quán)利要求2所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,其中,上述估計(jì)第一和第三語(yǔ)種的詞匯衍生子模型的步驟,包括當(dāng)設(shè)pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,pCE(i|we)是第二語(yǔ)種的詞we對(duì)應(yīng)i個(gè)第一語(yǔ)種的詞的概率,C(i,wj)和p(i|wj)分別是第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式 獲得第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式 計(jì)算第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的詞匯衍生概率。
6.一種雙語(yǔ)詞對(duì)齊方法,包括利用權(quán)利要求1~5的任意一項(xiàng)所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,根據(jù)第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料以及第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,獲得第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及利用第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,對(duì)第一和第三語(yǔ)種的雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊。
7.一種訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,包括第一訓(xùn)練單元,其利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;第二訓(xùn)練單元,其利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及模型估計(jì)單元,其根據(jù)上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及上述第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
8.根據(jù)權(quán)利要求7所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,其中,上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型、第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型分別包括詞匯翻譯子模型、位置扭曲子模型和詞匯衍生子模型;上述模型估計(jì)單元包括詞匯翻譯子模型估計(jì)單元,其利用上述第一和第二語(yǔ)種的詞匯翻譯子模型以及上述第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯翻譯子模型;位置扭曲子模型估計(jì)單元,其利用上述第一和第二語(yǔ)種的位置扭曲子模型以及上述第二和第三語(yǔ)種的位置扭曲子模型,估計(jì)第一和第三語(yǔ)種的位置扭曲子模型;以及詞匯衍生子模型估計(jì)單元,其利用上述第一和第二語(yǔ)種的詞匯衍生子模型以及/或者上述第二和第三語(yǔ)種的詞匯衍生子模型、上述第一和第二語(yǔ)種的詞匯翻譯子模型以及/或者上述第二和第三語(yǔ)種的詞匯翻譯子模型,估計(jì)第一和第三語(yǔ)種的詞匯衍生子模型。
9.根據(jù)權(quán)利要求8所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,其中,上述詞匯翻譯子模型估計(jì)單元被被設(shè)置為當(dāng)設(shè)pCE(wc|we)是第二語(yǔ)種的詞we到第一語(yǔ)種的詞wc的翻譯概率,pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,C(wj,wc)是第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù),p(wc|wj)是第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率時(shí),利用公式C(wj,wc)=ΣwepEJ(we|wj)*pCE(wc|we)]]>收集第一語(yǔ)種的詞wc和第三語(yǔ)種的詞wj的同現(xiàn)次數(shù);以及利用公式p(wc|wj)=C(wj,wc)Σwc′C(wj,wc′)]]>計(jì)算第三語(yǔ)種的詞wj到第一語(yǔ)種的詞wc的翻譯概率p(wc|wj)。
10.根據(jù)權(quán)利要求8所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,其中,上述位置扭曲子模型估計(jì)單元被設(shè)置為當(dāng)設(shè)pEJ(k|i,l,m′)是第二語(yǔ)種的句子長(zhǎng)度為m’、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第kth個(gè)第二語(yǔ)種的詞的概率,pCE(j|k,m′,m)是第一語(yǔ)種的句子長(zhǎng)度為m、第二語(yǔ)種的句子長(zhǎng)度為m’、第kth個(gè)第二語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的概率,C(j,i,l,m)和pCJ(j|i,l,m)分別是第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式C(j,i,l,m)=∑k,m′pEJ(k|i,l,m′)*pCE(j|k,m′,m)收集第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式pCJ(j|i,l,m)=C(j,i,l,m)Σj′C(j′,i,l,m)]]>計(jì)算第一語(yǔ)種的句子長(zhǎng)度為m、第三語(yǔ)種的句子長(zhǎng)度為l、第ith個(gè)第三語(yǔ)種的詞對(duì)應(yīng)到第jth個(gè)第一語(yǔ)種的詞的位置扭曲概率。
11.根據(jù)權(quán)利要求8所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,其中,上述詞匯衍生子模型估計(jì)單元被設(shè)置為當(dāng)設(shè)pEJ(we|wj)是第三語(yǔ)種的詞wj到第二語(yǔ)種的詞we的翻譯概率,pCE(i|we)是第二語(yǔ)種的詞we對(duì)應(yīng)i個(gè)第一語(yǔ)種的詞的概率,C(i,wj)和p(i|wj)分別是第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù)和概率時(shí),利用公式 獲得第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的同現(xiàn)次數(shù);以及利用公式 計(jì)算第三語(yǔ)種的詞wj衍生出i個(gè)第一語(yǔ)種的詞的詞匯衍生概率。
12.一種雙語(yǔ)詞對(duì)齊裝置,其特征在于,包括權(quán)利要求7~11的任意一項(xiàng)所述的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置,用于根據(jù)第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料以及第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,獲得第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;并且利用由上述訓(xùn)練雙語(yǔ)詞對(duì)齊模型的裝置獲得的第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,對(duì)第一和第三語(yǔ)種的雙語(yǔ)句子對(duì)進(jìn)行詞對(duì)齊。
全文摘要
本發(fā)明提供了訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法和裝置、雙語(yǔ)詞對(duì)齊方法和裝置。本發(fā)明的訓(xùn)練雙語(yǔ)詞對(duì)齊模型的方法,包括利用第一和第二語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;利用第二和第三語(yǔ)種的雙語(yǔ)語(yǔ)料,訓(xùn)練第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型;以及根據(jù)上述第一和第二語(yǔ)種的雙語(yǔ)詞對(duì)齊模型以及上述第二和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型,估計(jì)第一和第三語(yǔ)種的雙語(yǔ)詞對(duì)齊模型。
文檔編號(hào)G06F17/28GK101030196SQ20061005806
公開(kāi)日2007年9月5日 申請(qǐng)日期2006年2月28日 優(yōu)先權(quán)日2006年2月28日
發(fā)明者王海峰, 劉占一, 吳華 申請(qǐng)人:株式會(huì)社東芝
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
洪江市| 扶沟县| 辽宁省| 济源市| 阳曲县| 格尔木市| 无极县| 海南省| 泸水县| 夏河县| 子长县| 兖州市| 那坡县| 菏泽市| 张家界市| 雷山县| 兴文县| 芮城县| 红桥区| 武胜县| 交口县| 比如县| 乡宁县| 宝应县| 册亨县| 临猗县| 扶余县| 芜湖市| 象州县| 郑州市| 辽源市| 临桂县| 四平市| 外汇| 丹凤县| 陵水| 衡南县| 读书| 台东县| 包头市| 沙湾县|