欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法

文檔序號:6523991閱讀:305來源:國知局
基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法
【專利摘要】基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,涉及機(jī)器翻譯【技術(shù)領(lǐng)域】。它解決了現(xiàn)機(jī)器翻譯技術(shù)中選取平行語料的方法中,采用余弦函數(shù)與詞頻來作為領(lǐng)域間相似性的度工具并不能反應(yīng)實(shí)際的相似程度以及忽略了文字背后的語義關(guān)聯(lián),而導(dǎo)致選取的平行語不能反映實(shí)際含義、最終影響翻譯結(jié)果準(zhǔn)確性的問題。本發(fā)明是在現(xiàn)有統(tǒng)計(jì)機(jī)器翻譯方法中,在從雙語平行的訓(xùn)練語料庫中選取與翻譯文本的領(lǐng)域相似性高的若干篇文檔作為訓(xùn)練語料,其中判斷相似性的方法為:用相對詞頻或主題模型作為特征代表,采用余弦距離數(shù)、變分距離函數(shù)、歐式距離函數(shù)、偏斜距離函數(shù)或者JS距離函數(shù)作為相似度函數(shù)進(jìn)行檔相似性度量。本發(fā)明的翻譯結(jié)果更接近于人工翻譯的結(jié)果。
【專利說明】基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及機(jī)器翻譯【技術(shù)領(lǐng)域】,具體涉及到機(jī)器翻譯領(lǐng)域中平行語料選取技術(shù)。【背景技術(shù)】
[0002]在全球化趨勢下,世界各國、各民族之間的交往越來越頻繁。而要進(jìn)行暢通無阻的交流,語言是一大障礙。于是,機(jī)器翻譯作為從一種語言到另一種語言的自動(dòng)翻譯有著巨大的市場需求和廣泛的應(yīng)用前景。
[0003]相對于基于規(guī)則的機(jī)器翻譯方法,近年來,統(tǒng)計(jì)機(jī)器翻譯研究得到了迅猛的發(fā)展,提出了很多新的模型和方法并取得了很好的效果。
[0004]統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的構(gòu)建一般分為訓(xùn)練和翻譯兩個(gè)主要步驟。訓(xùn)練步驟是從語料中學(xué)習(xí)統(tǒng)計(jì)知識(shí)并進(jìn)行參數(shù)訓(xùn)練。典型的基于短語的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的訓(xùn)練包含在大規(guī)模的雙語語料庫上的翻譯模型訓(xùn)練、在目標(biāo)語言的單語語料庫上的語言模型訓(xùn)練、參數(shù)訓(xùn)練三個(gè)主要部分。如果拋開翻譯系統(tǒng)模型的好壞而純從訓(xùn)練語料的角度來看,訓(xùn)練語料與待翻譯文本的領(lǐng)域相似性與統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的質(zhì)量有著重要關(guān)系。領(lǐng)域相似性越高,翻譯系統(tǒng)的效果越好。訓(xùn)練得到的模型在翻譯同一領(lǐng)域的文本時(shí)通常會(huì)得到質(zhì)量較高的譯文,但翻譯其他領(lǐng)域文本時(shí),翻譯質(zhì)量明顯下降。如,在商務(wù)領(lǐng)域語料上訓(xùn)練出來的模型無法較好地應(yīng)用在餐飲領(lǐng)域的翻譯上。然而,就翻譯模型的訓(xùn)練,對于某些領(lǐng)域而言,獲取大規(guī)模的平行語料是非常困難的。研究有效的領(lǐng)域自適應(yīng)策略是一個(gè)可行辦法。
[0005]一般來說,某個(gè)特定領(lǐng)域的雙語平行語料難以獲得,但領(lǐng)域混雜的平行語料較易獲得。若能從這樣的混雜語料中選取出與待翻譯文本領(lǐng)域相似的語料在訓(xùn)練時(shí)加以利用,則可想而知,翻譯效果應(yīng)能有所提升。很多相關(guān)研究都根據(jù)這種思路,利用信息檢索工具等學(xué)習(xí)方法進(jìn)行了領(lǐng)域自適應(yīng)地探索。
[0006]然而,研究者們大多都直接用余弦函數(shù)與詞頻來作為領(lǐng)域間相似性的度量工具。但是計(jì)算相似度的余弦函數(shù)實(shí)際是計(jì)算兩向量的夾角,它不考慮向量的絕對長度,著重從方向上考慮它們之間的關(guān)系。通常來說,如果兩篇文本所有的特征詞都相同,則兩篇文本的相似度為I ;如果沒有一個(gè)特征詞是相同的,則其相似度為O。一般情況下,這種方法能夠判斷出文本間的相似程度,但是由于該方法沒有對文本間相同的特征詞進(jìn)行統(tǒng)計(jì),有時(shí)可能導(dǎo)致計(jì)算值并不能反應(yīng)實(shí)際的領(lǐng)域相似度。另一方面,兩篇文檔是否相關(guān)往往不只取決于字面上的詞語重復(fù)(即詞頻),還取決于文字背后的語義關(guān)聯(lián)。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的是解決現(xiàn)有機(jī)器翻譯的領(lǐng)域自適應(yīng)技術(shù)中選取平行語料的方法中,采用余弦函數(shù)與詞頻來作為領(lǐng)域間相似性的度量工具、忽略了文字背后的語義關(guān)聯(lián),而導(dǎo)致獲得的平行語料不能夠反映實(shí)際的領(lǐng)域相似度,最終影響翻譯結(jié)果準(zhǔn)確性的問題。
[0008]本發(fā)明提出的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,是在現(xiàn)有統(tǒng)計(jì)機(jī)器翻譯方法中,在從雙語平行的訓(xùn)練語料庫中選取與翻譯文本的領(lǐng)域相似性高的若干篇文檔作為平行語料選取對象。
[0009]在從雙語平行的訓(xùn)練語料庫中選取與翻譯文本的領(lǐng)域最相似的若干篇文檔作為平行語料選取對象的過程為:將翻譯文本逐一與雙語平行訓(xùn)練語料庫中的文檔進(jìn)行相似性度量,然后對所有度量結(jié)果進(jìn)行排序,選取度量結(jié)果最佳的若干篇文檔作為平行語料選取對象。
[0010]將翻譯文本與雙語平行訓(xùn)練語料庫中的任意一個(gè)文檔進(jìn)行相似性度量的方法有兩種:
[0011]方法一:采用相對詞頻作為特征代表,采用偏斜距離函數(shù)、余弦距離函數(shù)、變分距離函數(shù)、歐式距離函數(shù)或者JS距離函數(shù)作為相似度函數(shù)進(jìn)行文檔相似性度量。
[0012]詞頻分為絕對詞頻和相對詞頻兩種,其中,絕對詞頻是指詞在文本中出現(xiàn)的頻率;相對詞頻是規(guī)范化的詞頻,即要求所有向量分量的平方和為I。本發(fā)明中采用相對詞頻作為特征代表。
[0013]所述相對詞頻的獲得方法為采用TF-1DF公式計(jì)算相對詞頻,所述TF-1DF公式為:
[0014]TF-1DF=詞頻(TF) X逆文檔頻率(IDF),其中:
[0015]
【權(quán)利要求】
1.基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述統(tǒng)計(jì)機(jī)器翻譯方法為在現(xiàn)有統(tǒng)計(jì)機(jī)器翻譯方法中,在從雙語平行的訓(xùn)練語料庫中選取與翻譯文本的領(lǐng)域相似性高的若干篇文檔作為訓(xùn)練語料。
2.根據(jù)權(quán)利要求1所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,在從雙語平行的訓(xùn)練語料庫中選取與翻譯文本的領(lǐng)域最相似的若干篇文檔作為訓(xùn)練語料的過程為:將翻譯文本逐一與雙語平行訓(xùn)練語料庫中的文檔進(jìn)行相似性度量,然后對所有度量結(jié)果進(jìn)行排序,選取度量結(jié)果最佳的若干篇文檔作為訓(xùn)練語料。
3.根據(jù)權(quán)利要求2所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,將翻譯文本與雙語平行訓(xùn)練語料庫中的任意一個(gè)文檔進(jìn)行相似性度量的方法為: 采用相對詞頻作為特征代表,采用余弦距離函數(shù)、變分距離函數(shù)、歐式距離函數(shù)、偏斜距離函數(shù)或者JS距離函數(shù)作為相似度函數(shù)進(jìn)行文當(dāng)相似性度量。
4.根據(jù)權(quán)利要求3所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述相對詞頻的獲得方法為采用TF-1DF公式計(jì)算相對詞頻(TF),所述TF-1DF公式為:TF-1DF=詞頻(TF) X逆文檔頻率(IDF),其中:詞頻(TF):某個(gè)詞在文章中的出現(xiàn)次數(shù)’
文章的總詞數(shù)
, f語料庫的文檔總數(shù))逆又檔頻率(IDF) = 1g ,.,加,就^ ο

'包含該詞的又檔數(shù)+ 1J
5.根據(jù)權(quán)利要求2所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,將翻譯文本與雙語平行訓(xùn)練語料庫中的任意一個(gè)文檔進(jìn)行相似性度量的方法為: 采用主題模型作為特征代表,采用余弦距離函數(shù)、變分距離函數(shù)、歐式距離函數(shù)、偏斜距離函數(shù)或者JS距離函數(shù)作為相似度函數(shù)進(jìn)行文當(dāng)相似性度量。
6.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述偏斜距離函數(shù)為:
Sa (q, r, a ) =D (q (y) I I a r (y) + (1- a ) q (y)), a e [0, I), 所述函數(shù)中,q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布,D (q | r)表示KL距離,a表示q(y)和r (y)這兩個(gè)分布在進(jìn)行KL距離計(jì)算時(shí)的混合程度。它是非負(fù)的、累加的、非對稱的距離函數(shù),所述非對稱是指D (q I |r)古D (r I I q),其中:
Ik) = Σ.6/(>’)丨08^4。
' r{y)
7.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述所述余弦距離函數(shù)為:
cos (q (y), r(y))=q(y) Xr(y)/ q(y) | | | r (y) | 所述余弦距離函數(shù)中:q(y)和r(y)表示兩文檔中的特征代表概率分布。
8.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述變分距離函數(shù)為:Var(q,r)= Σ y I q (y) ~r (y) , q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布。
9.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述歐式距離函數(shù)(Euclidean distance function)為:
10.根據(jù)權(quán)利要求3或5所述的基于領(lǐng)域相似性度量方法的統(tǒng)計(jì)機(jī)器翻譯方法,其特征在于,所述 JS距離函數(shù)為:JS(q, r)=l/2[D(q avg(q, r) +D(r avg(q, r)) ], q(y)和r(y)表示表示兩個(gè)文檔中的特征代表的分布。
【文檔編號】G06F17/28GK103631773SQ201310689351
【公開日】2014年3月12日 申請日期:2013年12月16日 優(yōu)先權(quán)日:2013年12月16日
【發(fā)明者】曹海龍, 劉淋, 趙鐵軍, 鄭德權(quán), 楊沐昀, 徐冰, 朱聰慧 申請人:哈爾濱工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
慈利县| 上蔡县| 大宁县| 甘南县| 绍兴市| 山西省| 丰镇市| 黔江区| 梧州市| 清原| 蛟河市| 万年县| 新津县| 马龙县| 德阳市| 石泉县| 北海市| 营口市| 威宁| 临高县| 普陀区| 时尚| 松潘县| 海安县| 丁青县| 嫩江县| 泸州市| 绥德县| 五寨县| 民县| 通海县| 乌恰县| 仁布县| 威宁| 随州市| 长春市| 贵州省| 湘潭县| 永年县| 兴隆县| 西华县|