一種網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法及裝置制造方法
【專利摘要】本發(fā)明涉及網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,包括:利用網(wǎng)絡(luò)爬蟲(chóng)獲取源語(yǔ)言網(wǎng)頁(yè),經(jīng)預(yù)處理后形成源語(yǔ)言文檔;分析源語(yǔ)言文檔的跨語(yǔ)言主題的概率,產(chǎn)生對(duì)應(yīng)的目標(biāo)語(yǔ)言查詢?cè)~;將目標(biāo)語(yǔ)言查詢?cè)~提交搜索引擎,選取前N的文檔構(gòu)成目標(biāo)語(yǔ)言候選相似文檔集;計(jì)算源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的相似度,篩選出相似度較高的文檔構(gòu)建可比語(yǔ)料庫(kù)。本發(fā)明還公開(kāi)了一種實(shí)施網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法的裝置。本發(fā)明避免詞匯翻譯產(chǎn)生歧義或消耗大量時(shí)間;源語(yǔ)言文檔源自于網(wǎng)絡(luò)爬蟲(chóng)獲取的特定網(wǎng)站內(nèi)容,目標(biāo)語(yǔ)言文檔來(lái)自于整個(gè)互聯(lián)網(wǎng),有效提高對(duì)源語(yǔ)言文檔的利用率;源語(yǔ)言和目標(biāo)語(yǔ)言相似文檔匹配通過(guò)主題分布的相似性實(shí)現(xiàn),提高了語(yǔ)料庫(kù)建設(shè)的準(zhǔn)確度。
【專利說(shuō)明】一種網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及統(tǒng)計(jì)機(jī)器翻譯和跨語(yǔ)言信息檢索【技術(shù)領(lǐng)域】,尤其是一種網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法及裝置。
【背景技術(shù)】
[0002]可比語(yǔ)料庫(kù)是由語(yǔ)言不同、內(nèi)容相似但非互譯的文檔構(gòu)成的集合,從中挖掘雙語(yǔ)術(shù)語(yǔ)、命名實(shí)體、平行句對(duì)等細(xì)粒度的翻譯等價(jià)促進(jìn)了詞典編纂、跨語(yǔ)言信息檢索和統(tǒng)計(jì)機(jī)器翻譯等領(lǐng)域的發(fā)展。相對(duì)于平行語(yǔ)料,可比語(yǔ)料內(nèi)容的相似性降低了平行語(yǔ)料中源語(yǔ)言和目標(biāo)語(yǔ)言文檔互譯的要求,使可比語(yǔ)料具有語(yǔ)言真實(shí)、來(lái)源廣闊、領(lǐng)域全面、內(nèi)容新穎和易于獲取的優(yōu)勢(shì)。
[0003]現(xiàn)有的可比較語(yǔ)料構(gòu)建主要通過(guò)特征信息、跨語(yǔ)言檢索和維基百科等方法來(lái)實(shí)現(xiàn)。在特征信息方面,采用新聞發(fā)布日期、語(yǔ)言無(wú)關(guān)單元、雙語(yǔ)字典和詞頻分布等特征計(jì)算文檔對(duì)的相似性;在跨語(yǔ)言檢索方面,將某一語(yǔ)言文檔中特定頻率詞匯或關(guān)鍵詞翻譯成另一語(yǔ)言作為查詢?cè)~檢索文檔,構(gòu)成可比語(yǔ)料庫(kù);在維基百科方面,以維基百科類別信息作為主題約束,以語(yǔ)言鏈接進(jìn)行雙語(yǔ)映射采集相應(yīng)源語(yǔ)言和目標(biāo)語(yǔ)言的百科頁(yè)面。然而,上述三種方法面臨的問(wèn)題有:詞匯翻譯中的歧義、雙語(yǔ)知識(shí)的覆蓋度不足或可比語(yǔ)料局限于特定數(shù)據(jù)來(lái)源。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的首要目的在于提供一種避免詞匯翻譯歧義的產(chǎn)生,降低對(duì)雙語(yǔ)知識(shí)的依賴,提高語(yǔ)料庫(kù)建設(shè)的準(zhǔn)確度的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明采用了以下技術(shù)方案:一種網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,該方法包括下列順序的步驟:
[0006](I)利用網(wǎng)絡(luò)爬蟲(chóng)獲取源語(yǔ)言網(wǎng)頁(yè),經(jīng)預(yù)處理后形成源語(yǔ)言文檔;
[0007](2)根據(jù)已有的雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建跨語(yǔ)言主題模型,分析源語(yǔ)言文檔的跨語(yǔ)言主題的概率,利用源語(yǔ)言文檔主題信息產(chǎn)生對(duì)應(yīng)的目標(biāo)語(yǔ)言查詢?cè)~;
[0008](3)將目標(biāo)語(yǔ)言查詢?cè)~提交搜索引擎,獲取網(wǎng)絡(luò)中的目標(biāo)語(yǔ)言文檔,選取前N的文檔構(gòu)成目標(biāo)語(yǔ)言候選相似文檔集;
[0009](4)分析目標(biāo)語(yǔ)言候選相似文檔的跨語(yǔ)言主題概率分布,根據(jù)主題概率分布的KL散度計(jì)算源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的相似度,篩選出相似度較高的源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔構(gòu)建可比語(yǔ)料庫(kù)。
[0010]在所述步驟(I)中,利用網(wǎng)絡(luò)爬蟲(chóng)抓取源語(yǔ)言原始網(wǎng)頁(yè)并存儲(chǔ)至本地?cái)?shù)據(jù)庫(kù)中,對(duì)收集的網(wǎng)頁(yè)進(jìn)行除去導(dǎo)航條、相關(guān)鏈接的去噪聲處理,對(duì)網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、詞性選擇的預(yù)處理。
[0011]所述步驟(2)包括以下順序的步驟:
[0012](a)在已有的雙語(yǔ)語(yǔ)料庫(kù)的基礎(chǔ)上,利用跨語(yǔ)言隱含狄利克雷分配的方法獲取多個(gè)跨語(yǔ)言主題模型;
[0013](b)跨語(yǔ)言主題模型對(duì)源語(yǔ)言文檔進(jìn)行語(yǔ)義分析,獲取每一跨語(yǔ)言主題的概率;
[0014](c)根據(jù)源語(yǔ)言文檔的跨語(yǔ)言主題分布和每個(gè)主題中目標(biāo)語(yǔ)言詞匯的概率分布,獲取目標(biāo)語(yǔ)言候選查詢?cè)~;
[0015](d)根據(jù)目標(biāo)語(yǔ)言單語(yǔ)語(yǔ)料庫(kù)中詞匯的統(tǒng)計(jì)信息,合并目標(biāo)語(yǔ)言候選查詢?cè)~形成目標(biāo)語(yǔ)言查詢?cè)~。
[0016]在所述步驟(3)中,N為10。
[0017]在所述步驟(4)中,源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的跨語(yǔ)言主題概率分布的KL散度作為衡量源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的相似度,相似度計(jì)算公式如下:
[0018]琴'昨⑶峭噸扣叱)’
【權(quán)利要求】
1.一種網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,該方法包括下列順序的步驟: (1)利用網(wǎng)絡(luò)爬蟲(chóng)獲取源語(yǔ)言網(wǎng)頁(yè),經(jīng)預(yù)處理后形成源語(yǔ)言文檔; (2)根據(jù)已有的雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建跨語(yǔ)言主題模型,分析源語(yǔ)言文檔的跨語(yǔ)言主題的概率,利用源語(yǔ)言文檔主題信息產(chǎn)生對(duì)應(yīng)的目標(biāo)語(yǔ)言查詢?cè)~; (3)將目標(biāo)語(yǔ)言查詢?cè)~提交搜索引擎,獲取網(wǎng)絡(luò)中的目標(biāo)語(yǔ)言文檔,選取前N的文檔構(gòu)成目標(biāo)語(yǔ)言候選相似文檔集; (4)分析目標(biāo)語(yǔ)言候選相似文檔的跨語(yǔ)言主題概率分布,根據(jù)主題概率分布的KL散度計(jì)算源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的相似度,篩選出相似度較高的源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔構(gòu)建可比語(yǔ)料庫(kù)。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:在所述步驟(1)中,利用網(wǎng)絡(luò)爬蟲(chóng)抓取源語(yǔ)言原始網(wǎng)頁(yè)并存儲(chǔ)至本地?cái)?shù)據(jù)庫(kù)中,對(duì)收集的網(wǎng)頁(yè)進(jìn)行除去導(dǎo)航條、相關(guān)鏈接的去噪聲處理,對(duì)網(wǎng)頁(yè)的正文內(nèi)容進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、詞性選擇的預(yù)處理。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:所述步驟(2)包括以下順序的步驟: (a)在已有的雙語(yǔ)語(yǔ)料庫(kù)的基礎(chǔ)上,利用跨語(yǔ)言隱含狄利克雷分配的方法獲取多個(gè)跨語(yǔ)g主題模型; (b)跨語(yǔ)言主題模型對(duì)源語(yǔ)言文檔進(jìn)行語(yǔ)義分析,獲取每一跨語(yǔ)言主題的概率; (c)根據(jù)源語(yǔ)言文檔的跨語(yǔ)言主題分布和每個(gè)主題中目標(biāo)語(yǔ)言詞匯的概率分布,獲取目標(biāo)語(yǔ)言候選查詢?cè)~; Cd)根據(jù)目標(biāo)語(yǔ)言單語(yǔ)語(yǔ)料庫(kù)中詞匯的統(tǒng)計(jì)信息,合并目標(biāo)語(yǔ)言候選查詢?cè)~形成目標(biāo)語(yǔ)言查詢?cè)~。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:在所述步驟(3)中,N 為 10。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:在所述步驟(4)中,源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的跨語(yǔ)言主題概率分布的KL散度作為衡量源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔的相似度,相似度計(jì)算公式如下:
6.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:所述步驟(c)中,計(jì)算目標(biāo)語(yǔ)言詞匯對(duì)源語(yǔ)言文檔的權(quán)重并排序,形成目標(biāo)語(yǔ)言查候選詢?cè)~,權(quán)重的計(jì)算公式如下:
7.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:所述步驟(d)中,在目標(biāo)語(yǔ)言的單語(yǔ)語(yǔ)料庫(kù)中統(tǒng)計(jì)目標(biāo)語(yǔ)言候選查詢?cè)~的共現(xiàn)率,結(jié)合目標(biāo)語(yǔ)言候選查詢?cè)~對(duì)源語(yǔ)言文檔的概率,計(jì)算相鄰目標(biāo)語(yǔ)言查詢?cè)~對(duì)源語(yǔ)言文檔的權(quán)重,計(jì)算公式如下:
8.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:所述0為0.7。
9.根據(jù)權(quán)利要求6所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法,其特征在于:所述η為0.005。
10.實(shí)施權(quán)利要求1至9中任一項(xiàng)所述的網(wǎng)絡(luò)可比語(yǔ)料的挖掘方法的裝置,包括: 網(wǎng)絡(luò)源語(yǔ)言文檔獲取裝置,用于獲取源語(yǔ)言網(wǎng)頁(yè),并對(duì)網(wǎng)頁(yè)進(jìn)行去噪、詞性標(biāo)注、命名實(shí)體識(shí)別、詞性選擇的預(yù)處理獲得源語(yǔ)言文檔; 目標(biāo)語(yǔ)言查詢?cè)~獲取裝置,采用訓(xùn)練的跨語(yǔ)言主題模型分析源語(yǔ)言文檔的跨語(yǔ)言主題概率,并結(jié)合目標(biāo)語(yǔ)言詞匯對(duì)主題的分布計(jì)算對(duì)應(yīng)于源語(yǔ)言文檔的目標(biāo)語(yǔ)言查詢?cè)~; 目標(biāo)語(yǔ)言文檔搜索裝置,利用目標(biāo)語(yǔ)言查詢?cè)~通過(guò)搜索引擎獲取網(wǎng)絡(luò)中目標(biāo)語(yǔ)言文檔,選取排名前N的目標(biāo)語(yǔ)言文檔構(gòu)成目標(biāo)語(yǔ)言候選相似文檔集; 雙語(yǔ)相似文檔選擇裝置,對(duì)目標(biāo)語(yǔ)言候選相似文檔進(jìn)行語(yǔ)義分析獲取跨語(yǔ)言主題分布,根據(jù)源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔主題分布計(jì)算不同語(yǔ)言文檔的相似度,篩選相似度排序高的源語(yǔ)言文檔和目標(biāo)語(yǔ)言候選相似文檔構(gòu)建可比語(yǔ)料庫(kù)。
【文檔編號(hào)】G06F17/27GK103473280SQ201310382010
【公開(kāi)日】2013年12月25日 申請(qǐng)日期:2013年8月28日 優(yōu)先權(quán)日:2013年8月28日
【發(fā)明者】李淼, 朱澤德, 張健, 曾新華, 陳雷, 曾偉輝, 鄭守國(guó), 高會(huì)議, 胡澤林, 楊振新, 陳晟, 李華龍, 董瀚琳, 吳娜, 卞程飛, 翁士狀 申請(qǐng)人:中國(guó)科學(xué)院合肥物質(zhì)科學(xué)研究院