利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法
【專利摘要】一種利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,包括:構(gòu)建基于K-Best的候選依存句法樹重排序模型,用一個(gè)基準(zhǔn)模型來(lái)產(chǎn)生一組候選依存句法分析樹,其中,每一個(gè)候選依存句法分析樹對(duì)應(yīng)一個(gè)概率,從而定義了多個(gè)依存句法分析結(jié)果的初始序列,在此序列的基礎(chǔ)上,重排序模型試圖利用目標(biāo)領(lǐng)域新增的句法特征來(lái)改進(jìn)初始的句法樹序列;進(jìn)行基于網(wǎng)絡(luò)搜索的候選依存句法樹的詞語(yǔ)依存關(guān)系評(píng)估,首先需要將一棵依存句法樹拆分為一組詞語(yǔ)關(guān)系的集合,對(duì)于集合中的每一個(gè)詞語(yǔ)語(yǔ)義關(guān)系,利用網(wǎng)絡(luò)搜索,分別計(jì)算該詞語(yǔ)語(yǔ)義關(guān)系的強(qiáng)度,然后根據(jù)詞語(yǔ)關(guān)系的權(quán)重來(lái)確定其評(píng)估值。經(jīng)過(guò)實(shí)驗(yàn)證明,在賓州中文樹庫(kù)上訓(xùn)練的依存句法器,在生物醫(yī)學(xué)數(shù)據(jù)上也表現(xiàn)出了良好的性能。
【專利說(shuō)明】利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】,尤其涉及利用了網(wǎng)絡(luò)搜索的依存句法的領(lǐng)域自適應(yīng)方法。
【背景技術(shù)】
[0002]句法分析是自然語(yǔ)言處理中的基礎(chǔ)研究問(wèn)題,對(duì)機(jī)器翻譯、問(wèn)答系統(tǒng)、信息抽取等應(yīng)用都起到重要的支撐作用。依存句法以其形式簡(jiǎn)潔、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn)而倍受重視。近年來(lái),依存句法分析的研究取得了較大進(jìn)展。目前,最好的依存句法分析器(有時(shí),也稱為“依存句法分析模型”)對(duì)英文的依存句法分析的準(zhǔn)確率已經(jīng)達(dá)到了 90%以上,對(duì)中文的依存句法分析的準(zhǔn)確率也達(dá)到了 80%以上。但是,這僅僅是在受限領(lǐng)域,比如新聞?lì)I(lǐng)域上所能實(shí)現(xiàn)的性能。而在依賴于句法分析的上層應(yīng)用中,往往面臨的是要面對(duì)不受限領(lǐng)域的數(shù)據(jù)如何進(jìn)行依存句法分析。依存句法分析方面的國(guó)際權(quán)威學(xué)者Slav Petrov等人在EMNLP2010上發(fā)表論文指出,依存句法分析器MaltParser在華爾街日?qǐng)?bào)(WSJ)上的無(wú)標(biāo)記依存正確率(Unlabeled Accuracy Score, UAS)為84.89%,當(dāng)用該依存句法分析器MaltParser來(lái)處理TREC的列表性和事實(shí)類問(wèn)句時(shí),該依存句法分析器的UAS將降至62.81%。此外,2012年,Google (注冊(cè)商標(biāo):谷歌)公司組織的SANCL評(píng)測(cè)“Parsing theWeb:網(wǎng)頁(yè)分析”中的一個(gè)關(guān)鍵任務(wù)就是利用大量未標(biāo)注的數(shù)據(jù)來(lái)改善依存句法分析器在不同領(lǐng)域的分析性能。但是,根據(jù)評(píng)測(cè)結(jié)果,該依存句法分析器的領(lǐng)域自適應(yīng)結(jié)果并不是很理想。因此,研究領(lǐng)域自適應(yīng)的依存句法分析以提高依存句法分析器在不同領(lǐng)域上的性能,是自然語(yǔ)言處理及其相關(guān)應(yīng)用中迫切需要解決的問(wèn)題之一。
[0003]領(lǐng)域自適應(yīng)的依存句法分析器主要需面對(duì)以下的兩種應(yīng)用情形,一種是目標(biāo)領(lǐng)域數(shù)據(jù)是具有有限的帶標(biāo)注的有限帶標(biāo)注數(shù)據(jù),另一種是目標(biāo)領(lǐng)域數(shù)據(jù)是沒(méi)有任何帶標(biāo)注的無(wú)標(biāo)注數(shù)據(jù)。通常,第二種情形更為普遍、在對(duì)其的領(lǐng)域自適應(yīng)的依存句法分析的難度也更大,是領(lǐng)域自適應(yīng)技術(shù)研究的難點(diǎn),也是本發(fā)明的重點(diǎn)。
[0004]在此,將制作依存句法分析器時(shí)原本所要針對(duì)的領(lǐng)域稱為源領(lǐng)域。目標(biāo)領(lǐng)域數(shù)據(jù)與源領(lǐng)域數(shù)據(jù)的不同之處主要在于:目標(biāo)領(lǐng)域數(shù)據(jù)中存在大量新的領(lǐng)域詞語(yǔ)、新搭配方式、新用法,因此,對(duì)這些新增的特征的學(xué)習(xí)是自適應(yīng)技術(shù)的主要任務(wù)。這些新增的特征可以通過(guò)協(xié)同訓(xùn)練(co-training)和自訓(xùn)練(self-training)來(lái)學(xué)習(xí)得到一部分特征,但是,無(wú)論是co-training還是self-training,它們都是以一種自舉的方式來(lái)學(xué)習(xí)這些新增特征,這種自舉的方式對(duì)新增特征在自學(xué)習(xí)方面能力不足。因此,需要引入新的方式來(lái)進(jìn)一步充分地挖掘獲得新特征。
【發(fā)明內(nèi)容】
[0005]本發(fā)明是基于上述現(xiàn)有技術(shù)中所存在的問(wèn)題而開發(fā)的,主要針對(duì)目標(biāo)領(lǐng)域沒(méi)有任何帶標(biāo)注數(shù)據(jù)或僅具有有限標(biāo)注的有限帶標(biāo)注數(shù)據(jù)的依存句法分析領(lǐng)域自適應(yīng)的情形,以網(wǎng)絡(luò)搜索為手段來(lái)挖掘目標(biāo)領(lǐng)域的新特征,通過(guò)實(shí)驗(yàn)證明,能夠有效地提高依存句法分析器在目標(biāo)領(lǐng)域的依存句法分析性能。
[0006]本發(fā)明的目的在于,提供一種利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法。
[0007]本發(fā)明的一技術(shù)方案的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,包括:訓(xùn)練得到基準(zhǔn)依存句法分析模型的步驟(SI),對(duì)于給定的源領(lǐng)域帶標(biāo)注的數(shù)據(jù),通過(guò)訓(xùn)練得到對(duì)數(shù)線性的基準(zhǔn)依存句法分析模型L ;獲取候選依存句法樹的步驟(S2),對(duì)于目標(biāo)領(lǐng)域X=Ix1, X2,…,xn}中的未標(biāo)注數(shù)據(jù)集合的每一個(gè)未標(biāo)注數(shù)據(jù)Xi,利用基準(zhǔn)依存句法分析模型L,輸出對(duì)應(yīng)于未標(biāo)注數(shù)據(jù)Xi的K個(gè)最優(yōu)候選依存句法樹作為輸出結(jié)果,將所述輸出結(jié)果表示為一組候選依存句法樹的形式,設(shè)Xik表示未標(biāo)注數(shù)據(jù)Xi的第k棵候選依存句法樹,其中,n是大于等于I的整數(shù),K是大于等于I的整數(shù),l≤i≤n,l≤k≤K ;獲取候選依存句法樹的評(píng)估值的步驟(S3 ),對(duì)于所述獲取候選依存句法樹的步驟(S2 )中輸出的每一棵候選依存句法樹xik,基于基準(zhǔn)依存句法分析模型L,獲得每一棵候選依存句法樹Xik的評(píng)估值,將對(duì)該評(píng)估值進(jìn)行歸一化得到的歸一化評(píng)估值記為L(zhǎng)(Xik);通過(guò)網(wǎng)絡(luò)搜索獲取特征向量值的步驟(S4),將每一棵候選依存句法樹Xik拆分為一組詞語(yǔ)語(yǔ)義關(guān)系的集合F= {f\,f2, -,fj},以集合中的每一個(gè)詞語(yǔ)語(yǔ)義關(guān)系fj為特征,通過(guò)網(wǎng)絡(luò)搜索計(jì)算得到該詞語(yǔ)語(yǔ)義關(guān)系fj的強(qiáng)度A(Xik),即該特征的特征向量值,其中J是大于等于I的整數(shù),I ^ j ^ J ;和構(gòu)建重排序
模型的步驟(S5):設(shè)重排序目標(biāo)函數(shù)為
【權(quán)利要求】
1.一種利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,包括: 訓(xùn)練得到基準(zhǔn)依存句法分析模型的步驟(Si),對(duì)于給定的源領(lǐng)域帶標(biāo)注的數(shù)據(jù),通過(guò)訓(xùn)練得到對(duì)數(shù)線性的基準(zhǔn)依存句法分析模型L ; 獲取候選依存句法樹的步驟(S2),對(duì)于目標(biāo)領(lǐng)域X=[x1, x2,…,xn}中的未標(biāo)注數(shù)據(jù)集合的每一個(gè)未標(biāo)注數(shù)據(jù)Xi,利用基準(zhǔn)依存句法分析模型L,輸出對(duì)應(yīng)于未標(biāo)注數(shù)據(jù)Xi的K個(gè)最優(yōu)候選依存句法樹作為輸出結(jié)果,將所述輸出結(jié)果表示為一組候選依存句法樹的形式,設(shè)Xik表示未標(biāo)注數(shù)據(jù)Xi的第k棵候選依存句法樹,其中,n是大于等于I的整數(shù),K是大于等于I的整數(shù),1≤i≤n,1≤k≤K ; 獲取候選依存句法樹的評(píng)估值的步驟(S 3 ),對(duì)于所述獲取候選依存句法樹的步驟(S2)中輸出的每一棵候選依存句法樹xik,基于基準(zhǔn)依存句法分析模型L,獲得每一棵候選依存句法樹Xik的評(píng)估值,將對(duì)該評(píng)估值進(jìn)行歸一化得到的歸一化評(píng)估值記為L(zhǎng)(Xik); 通過(guò)網(wǎng)絡(luò)搜索獲取特征向量值的步驟(S4),將每一棵候選依存句法樹Xik拆分為一組詞語(yǔ)語(yǔ)義關(guān)系的集合F= {f1,f2, -,fj},以集合中的每一個(gè)詞語(yǔ)語(yǔ)義關(guān)系fj為特征,通過(guò)網(wǎng)絡(luò)搜索計(jì)算得到該詞語(yǔ)語(yǔ)義關(guān)系&的強(qiáng)度A(Xik),即該特征的特征向量值,其中J是大于等于I的整數(shù),1≤j≤J ;和 構(gòu)建重排序t旲型的步驟(S5):設(shè)重排序目標(biāo)函數(shù)為
2.根據(jù)權(quán)利要求1所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 將每一棵候選依存句法樹Xik拆分為一組詞語(yǔ)語(yǔ)義關(guān)系的集合F= {f\,f2,…,fT},所述未標(biāo)注數(shù)據(jù)的一個(gè)句子的語(yǔ)義是由詞語(yǔ)、詞語(yǔ)關(guān)系表達(dá)出來(lái)的。
3.根據(jù)權(quán)利要求1所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 所述重排序目標(biāo)函數(shù)中的一組對(duì)應(yīng)這些特征和對(duì)數(shù)似然的權(quán)值向量參數(shù)G通過(guò)廣義迭代縮放算法得到。
4.根據(jù)權(quán)利要求1所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 所述特征向量值A(chǔ)(Xik)的計(jì)算采用網(wǎng)絡(luò)搜索對(duì)特征進(jìn)行搜索來(lái)進(jìn)行,特征向量值fj (xik)包括名詞選擇關(guān)聯(lián)向量值、介詞選擇關(guān)聯(lián)向量值、并列結(jié)果選擇向量值、和形容詞選擇關(guān)聯(lián)向量值,其中, 所述名詞選擇關(guān)聯(lián)向量值通過(guò)下述式計(jì)算得到,即,在修飾詞m是名詞(NN),它的中心詞h是名詞(NN)或者動(dòng)詞(VV)的情況下,詞語(yǔ)關(guān)系的特征向量值A(chǔ)(Xik)為:
5.根據(jù)權(quán)利要求4所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 修飾詞m和其對(duì)應(yīng)的中心詞h的語(yǔ)義關(guān)聯(lián)度通過(guò)如下方式計(jì)算:
6.根據(jù)權(quán)利要求5所述的利用了網(wǎng)絡(luò)搜索的依存句法領(lǐng)域自適應(yīng)方法,其特征在于, 對(duì)于所述概率的估計(jì),采用網(wǎng)絡(luò)搜索,將修飾詞m與中心詞h的組合“m h”二元組作為查詢的關(guān)鍵詞,利用搜索引擎進(jìn)行搜索出的檢索計(jì)數(shù)信息來(lái)估計(jì)該概率:
【文檔編號(hào)】G06F17/27GK103646112SQ201310729563
【公開日】2014年3月19日 申請(qǐng)日期:2013年12月26日 優(yōu)先權(quán)日:2013年12月26日
【發(fā)明者】周光有, 趙軍 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所