欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于圖的雙語遞歸自編碼器的制作方法

文檔序號:11458589閱讀:217來源:國知局
基于圖的雙語遞歸自編碼器的制造方法與工藝

本發(fā)明涉及基于深度學習的自然語言處理,尤其是涉及基于圖的雙語遞歸自編碼器。



背景技術:

自然語言處理是計算機學科人工智能的一個重要研究方向。它研究如何使得人與計算機之間能夠使用自然語言進行有效通信。它是一門融語言學、計算機科學、數學于一體的學科。

本項發(fā)明主要涉及到構建基于圖的雙語遞歸自編碼器,并將其用于雙語短語嵌入表示建模。神經網絡是一種應用類似于大腦神經突觸聯結結構進行信息處理的數學模型。近年來,基于神經網絡的自然語言處理研究已經成為該學科發(fā)展的主要趨勢,各種神經網絡層出不窮。其中,遞歸神經網絡(recursiveneuralnetwork,簡稱為recnn)被廣泛用于文本的嵌入表示研究。該網絡依據文本的樹形拓撲結構(這個結構可以通過最小化還原誤差之和或者句法分析得到)來進行自底向上的語義表示遞歸合并,最終得到整個文本的語義表示。目前,recnn已經在自然語言處理的許多任務上得到廣泛應用,例如,情感分類[1]、復述檢測[2]、語義分析[3]和統(tǒng)計機器翻譯[4][5]等等。自編碼器(auto-encoder,簡稱ae)最初是作為一個降維技巧而提出的,現在,ae更多的是用于獲取維數更高且有意義的表示。ae由編碼器和解碼器兩部分組成,將輸入進行編碼之后再解碼得到輸出,通過最小化輸入和輸出之間的重構誤差來得到更加準確且有意義的語義表示。目前,ae經過不斷發(fā)展,出現了很多變種,如denoisingauto-encoder(dae),constractiveauto-encoder(cae)等。在自然語言處理中,統(tǒng)計方法占據著重要的地位,在分詞、詞性標注、句法分析等任務中都有著出色的表現。然而與統(tǒng)計語言所能描述的語言現象相比,實際應用中的自然語言要復雜得多,特別是各種各樣的約束條件。圖模型把圖論和統(tǒng)計方法結合起來,把基于圖的推理應用到概率統(tǒng)計框架中,為描述自然語言中各種復雜的約束關系提出了一種可行的思路。目前,圖模型已在自然語言處理任務中得到廣泛應用[6][7][8],如句法分析。

在雙語短語嵌入表示研究方面,傳統(tǒng)的方法[9][10][11][12]主要包括兩個步驟:1)采用遞歸自編碼器(recursiveauto-encoder,簡稱rae)分別生成單語短語的嵌入表示;具體實現中,傳統(tǒng)方法根據還原誤差之和最小的原則建立與短語相對應的二叉樹結構,然后以該樹結構為基礎進行語義表示遞歸合并,生成短語的嵌入表示向量;2)在雙語遞歸自編碼器(bilingualauto-encoder,簡稱brae)中提出的,根據雙語短語語義相同的特點來進行雙語短語嵌入表示的相互監(jiān)督訓練。然而,傳統(tǒng)方法在建模過程中僅考慮重構誤差和雙語短語的語義對應關系,而缺乏考慮更加充分的語義約束關系。因此,現有的方法仍然存在著不足,如何學習得到更好的雙語短語嵌入表示仍是一個值得研究的問題。

參考文獻:

[1]richardsocher,jeffreypennington,erich.huang,andrewy.ng,andchristopherd.manning.semi-supervisedrecursiveautoencodersforpredictingsentimentdistributions.inproc.ofemnlp,2011.

[2]richardsocher,erich.huang,jeffreypennin,christopherdmanning,andandrewy.ng.dynamicpoolingandunfoldingrecursiveautoencodersforparaphrasedetection.inproc.ofnips,pages801–809.2011.

[3]richardsocher,cliffchiung-yulin,andrewy.ng,andchristopherd.manning.parsingnaturalscenesandnaturallanguagewithrecursiveneuralnetworks.inproc.oficml,2011.

[4]jiajunzhang,shujieliu,muli,mingzhou,andchengqingzong.bilingually-constrainedphraseembeddingsformachinetranslation.inproc.ofacl,pages111–121,june2014.

[5]jinsongsu,deyixiong,biaozhang,yangliu,junfengyao,andminzhang.bilingualcorrespondencerecursiveautoencoderforstatisticalmachinetranslation.inproc.ofemnlp,pages1248–1258,september2015.

[6]andreialexandrescuandkatrinkirchhoff.2009.graph-basedlearningforstatisticalmachinetranslation.inproc.ofnaacl2009,pages119-127.

[7]shujieliu,chi-holi,muli,andmingzhou.2012.learningtranslationconsensuswithstructuredlabelpropagation.inproc.ofacl2012,pages302-310.

[8]xiaoningzhu,zhongjunhe,huawu,haifengwang,conghuizhu,andtiejunzhao.2013.improvingpivot-basedstatisticalmachinetranslationusingrandomwalk.inproc.ofemnlp2013,pages524-534.

[9]jianfenggao,xiaodonghe,wen-tauyih,andlideng.2014.learningcontinuousphraserepresentationfortranslationmodeling.inproc.ofacl2014,pages699-709

[10]kyunghyuncho,bartvanmerrienber,caglarculcehre,dzmitrybahdanau,fethibougares,holgerschwenk,andyoshuabengio.2014.learningphraserepresentationsusingrnnencoder-decoderforstatisticalmachinetranslation.inproc.ofemnlp2014,pages1724-1734.

[11]shixianglu,zhenbiaochen,andboxu.2014.learningnewsemi-superviseddeepauto-encoderfeaturesforstatisticalmachinetranslation.inproc.ofacl2014,pages122-132.

[12]xingwang,deyixiong,andminzhang.2015.learningsemanticalrepresentationsfornonterminalsinhierarchicalphrase-basedtranslation.inproc.ofemnlp2015,pages1391-1400.



技術實現要素:

本發(fā)明的目的在于提供基于圖的雙語遞歸自編碼器。

本發(fā)明包括以下步驟:

1)從平行語料中抽取雙語短語作為訓練數據,計算雙語短語之間的翻譯概率;

2)基于樞軸語言的方法,計算復述概率;

3)構造雙語短語的語義關系圖;

在步驟3)中,所述構造雙語短語的語義關系圖的具體方法可為:以源端短語和目標端短語為節(jié)點,對任一源端短語和目標端短語,如果屬于雙語短語語料中的短語對,則構造一條連邊。所有節(jié)點集和邊集構成相應的雙語短語的語義關系圖;

4)基于雙語短語的語義關系圖;

在步驟4)中,所述基于雙語短語的語義關系圖的具體方法可為:定義兩種隱式的語義約束條件,對于同一語言中的兩個不同節(jié)點,如果它們連接到另一語言的相同節(jié)點集合,則認為它們在語義空間上相互接近,此為約束一;對于一種語言的任一節(jié)點,其與另一種語言的不同相鄰節(jié)點的語義相關強度應與基于最大似然估計得到的短語翻譯概率緊密相關,此為約束二。

5)量化模型目標函數,進行模型參數訓練。

在步驟5)中,所述量化模型目標函數,進行模型參數訓練的具體方法可為:傳統(tǒng)的雙語遞歸自編碼器包含單語重構誤差和雙語對齊一致性分數;在此基礎上,同時將定義的兩個隱式的語義約束條件作用于雙語短語上,引入單語相似一致性分數和雙語翻譯分布一致性分數。

本發(fā)明以更好地學習雙語短語嵌入表示為目標,針對傳統(tǒng)方法缺乏考慮自然語言中更加充分的語義約束關系,提出了一種基于圖的雙語遞歸自編碼器。本發(fā)明算法明確、思路清晰,該方法可以提高學到的雙語短語嵌入表示,更好地作用于自然語言處理任務。

本發(fā)明首先構造雙語短語的語義關系圖,通過圖結構定義兩個隱式語義約束,用于學習更加精確的雙語短語嵌入表示,進而更好地應用于自然語言處理任務中,如機器翻譯。

本發(fā)明的具體思想如下:

圖模型往往可以描述自然語言中更加復雜的約束關系。本發(fā)明在傳統(tǒng)雙語遞歸自編碼器的基礎上,首先構造雙語短語的語義關系圖,通過圖結構探索更加充分的語義知識,并進一步定義了兩個隱式語義約束:對于同一語言中的兩個不同節(jié)點,如果它們連接到另一語言的相同節(jié)點集合,則認為它們在語義空間上相互接近,此為約束一。對于一種語言的任一節(jié)點,其與另一種語言的不同相鄰節(jié)點的語義相關強度應與基于最大似然估計得到的短語翻譯概率緊密相關,此為約束二。最后將其作用于抽取的雙語短語上,從而學習得到更加準確的雙語短語嵌入表示。

附圖說明

圖1為傳統(tǒng)的brae模型框架。

圖2為本發(fā)明的語義關系圖結構示例。在圖2中,a表示構造的雙語短語的語義關系圖,b表示隱式語義約束一的子圖示例,c表示隱式語義約束二的子圖示例,vf節(jié)點表示源端短語,ve節(jié)點表示目標端短語,黑色實線表示所連源端短語和目標端短語之間具有對齊關系,作為語義關系圖的一條連邊。

具體實施方式

本發(fā)明具體實施方式如下:

第一步,從平行語料中抽取雙語短語作為訓練數據,計算雙語短語之間的翻譯概率。

第二步,基于樞軸語言的方法,計算復述概率。

第三步,構造雙語短語的語義關系圖。以源端短語和目標端短語為節(jié)點,對任一源端短語和目標端短語,如果屬于雙語短語語料中的短語對,則構造一條連邊。所有節(jié)點集和邊集構成相應的雙語短語的語義關系圖。

第四步,基于雙語短語的語義關系圖,定義兩種隱式的語義約束條件。對于同一語言中的兩個不同節(jié)點,如果它們連接到另一語言的相同節(jié)點集合,則認為它們在語義空間上相互接近,此為約束一。對于一種語言的任一節(jié)點,其與另一種語言的不同相鄰節(jié)點的語義相關強度應與基于最大似然估計得到的短語翻譯概率緊密相關,此為約束二。

第五步,量化模型目標函數,進行模型參數訓練。傳統(tǒng)的雙語遞歸自編碼器包含單語重構誤差和雙語對齊一致性分數。在此基礎上,同時將定義的兩個隱式的語義約束條件作用于雙語短語上,引入單語相似一致性分數和雙語翻譯分布一致性分數。

下面介紹關鍵步驟的實現細節(jié):

1.構造雙語短語的語義關系圖

圖模型把圖論和統(tǒng)計方法結合起來,把基于圖的推理應用到概率統(tǒng)計框架中,為描述自然語言中的各種復雜的約束關系提出了一種可行的思路。本發(fā)明提出基于圖的雙語遞歸自編碼器,首先需要構造雙語短語的語義關系圖。如圖2的左圖a即為構造的語義關系圖的一部分。首先,以所有的源端短語和目標端短語作為圖的節(jié)點,如源端短語“如此遠(ruciyuan)”和目標端短語“sofaraway”均作為圖的節(jié)點。然后,對于任一源端短語和目標端短語,如果屬于雙語短語語料中的短語對,則構造一條連邊,如源端短語“如此遠(ruciyuan)”和目標端短語“sofaraway”是雙語語料中的對齊短語,所以節(jié)點nf1和ne1之間有一條連邊,而源端短語“如此遠(ruciyuan)”和目標端短語“uptonow”并非對齊短語,所以節(jié)點nf1和ne4之間并無連邊。

2.定義兩種隱式約束條件

傳統(tǒng)的雙語遞歸自編碼器包含單語重構誤差和雙語對齊一致性分數,這是基于顯式的語義信息而實現的,但這對于學習雙語短語的精確表示是不夠的,故此本發(fā)明提出基于圖的雙語遞歸自編碼器,從圖論出發(fā),探索更深層次的隱式語義約束信息,由此定義了兩個隱式語義約束條件。

對于同一語言中的兩個不同節(jié)點,如果它們連接到另一語言的相同節(jié)點集合,則認為它們在語義空間上相互接近,此為約束一。如圖2中右圖上方b,源端短語節(jié)點nf2和nf3同時連接到相同的目標端短語集{ne2,ne3,ne4},則認為節(jié)點nf2和nf3在語義空間上應該近可能的接近。那么計算具有相同目標端短語節(jié)點集的兩個源端短語的復述概率如下:

其中,f,fs代表源端短語,e代表目標端短語,p(f|e)和p(e|fs)代表基于最大似然估計計算的翻譯概率。然后,定義復述對f,fs之間的權重如下:

對于任一源端短語f,計算其所在的所有復述對的相關權重,最終只保留具有最大權重的復述對。對于目標端短語復述對之間權重的計算與源端短語復述對類似。之后,可以定義單語相似性的誤差函數:

其中,分別表示源端復述對和目標端復述對的歐氏距離,θ表示模型的參數。

對于一種語言的任一節(jié)點,其與另一種語言的不同相鄰節(jié)點的語義相關強度應與基于最大似然估計得到的短語翻譯概率緊密相關,此為約束二。如圖2的右下方圖c,源端節(jié)點nf3連接到目標端節(jié)點集{ne2,ne3,ne4},根據短語的嵌入表示,可分別求得nf3到ne2,ne3,ne4的語義相關強度值,并以此為基礎來估計他們之間的翻譯概率分布,這個概率分布應該與基于最大似然估計得到的概率分布盡量一致。由此,可以定義相鄰節(jié)點的語義相關強度分數如下:

其中,e,f分別表示目標端短語和源端短語,分別為其對應的嵌入表示,分別為相應的轉置矩陣和偏差,tran(f)為f的候選翻譯集合。用kl散度來刻畫源語言中該語義相關強度分數和基于最大似然估計得到的翻譯分布分數之間的相似性,如下所示:

etran(f,θ)=count(f)·kl(p(*|f),psc(*|f))

其中,p(*|f)表示基于最大似然估計得到的翻譯概率,count(f)表示f在訓練語料中出現的次數,θ為相應的模型參數。目標語言的該相似性分數計算類似,如此,可定義基于雙語翻譯分布的一致性的誤差函數如下:

etran(nf,ne,θ)=etran(f,θ)+etran(e,θ)

3.模型的目標函數和訓練方法

本發(fā)明的模型的目標函數主要包含四個部分:傳統(tǒng)的rae模型的單語重構誤差和brae模型的雙語對齊一致性誤差,以及基于本發(fā)明定義的兩個隱式語義約束的單語相似性分數和翻譯分布一致性分數。具體敘述如下:

1)單語重構誤差,該分數建模了短語嵌入表示的質量。首先,將相鄰節(jié)點生成父節(jié)點,如圖1虛線方框內,輸入短語p=(x1,x2,x3),由x1和x2生成相應的父節(jié)點如下:

其中,分別為x1、x2的詞向量表示,f為激活函數,這里選擇tanh(·),w(1)和b(1)分別為相應的權重矩陣和偏差參數。然后,由父節(jié)點重構原來的子節(jié)點,如下:

之后,由父節(jié)點和子節(jié)點再次生成新的父節(jié)點這樣不斷遞歸地進行組合和重構直到生成整個短語的表示。由此,根據重構誤差來建模短語嵌入表示的質量:

其中,t(p)為父節(jié)點的集合,為短語中初始的詞的表示,為短語中重構的詞的表示,代價函數為計算兩個表示的歐式距離。

2)雙語對齊一致性誤差,該分數建模了雙語短語在對齊一致性上的損失函數。如圖1虛線方框右邊所示,具體定義如下:

其中,f和e分別為源端短語和目標端短語,為相應的短語嵌入表示,分別為相應的轉置矩陣和偏差。

3)基于隱式語義約束的誤差函數,其定義如前面所示。

模型的整體目標函數jgbrae定義如下:

jgbrae(nf,ne)=α·erec(nf,ne;θ)+β·esem(nf,ne;θ)+g·(esyn(nf,ne;θ)+etran(nf,ne;θ))

其中,a、β、g為超參,用于平衡各項損失函數,且α+β+g=1。為避免模型過擬合,引入參數正則化項r(θ)。最終,模型的目標函數如下所示:

其中,g為所有對齊短語集合,n為訓練語料中對齊短語的個數,λ*為正則化項,r(θ)為模型參數。

該目標函數不僅考慮了傳統(tǒng)的brae中的顯式語義約束條件,還融入了本發(fā)明新定義的兩種隱式語義約束條件,可以充分利用各種語義約束信息,從而學習更精確的雙語短語嵌入表示,并用于后續(xù)的實驗中,如機器翻譯。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
荥阳市| 禄丰县| 邵武市| 河东区| 平果县| 平阴县| 车险| 吉林省| 新和县| 泊头市| 平顶山市| 沾化县| 卢湾区| 宁河县| 米泉市| 富顺县| 周至县| 郎溪县| 修文县| 镇雄县| 康平县| 武城县| 南充市| 玛沁县| 麦盖提县| 榆树市| 白水县| 冕宁县| 新竹县| 柳州市| 桐柏县| 阜南县| 满城县| 安龙县| 刚察县| 新乐市| 乳源| 乳源| 新密市| 大理市| 阿巴嘎旗|