專利名稱:多語(yǔ)詞典構(gòu)建裝置和多語(yǔ)詞典構(gòu)建方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息融合和資源重組的技術(shù)領(lǐng)域,具體而言,涉及一種多語(yǔ)詞典構(gòu)建裝置和一種多語(yǔ)詞典構(gòu)建方法。
背景技術(shù):
包含了某一特定語(yǔ)種的單詞詞條、詞性信息、詞語(yǔ)釋義以及例句的單語(yǔ)詞典積累了豐富的單語(yǔ)專家知識(shí)。而包含兩種及兩種以上語(yǔ)種的互為譯文的單詞詞條、詞性信息、詞語(yǔ)釋義以及例句的多語(yǔ)詞典積累了單語(yǔ)和多語(yǔ)專家共同合作的語(yǔ)言知識(shí)。單語(yǔ)詞典是多語(yǔ)詞典的基礎(chǔ)。多語(yǔ)詞典對(duì)于溝通不同語(yǔ)種之間的實(shí)際應(yīng)用,起到了更為重要的作用。如何利用單語(yǔ)詞典構(gòu)建出大規(guī)模高精度的多語(yǔ)詞典,對(duì)于自然語(yǔ)言處理的具體應(yīng)用,例如機(jī)器翻譯、跨語(yǔ)言檢索等都具有重要的作用。目前多語(yǔ)詞典的構(gòu)建主要有兩種方法,分別是基于專家知識(shí)的方法和基于統(tǒng)計(jì)知識(shí)的方法。其中基于專家知識(shí)的方法,即傳統(tǒng)的詞典編撰方法,是由該領(lǐng)域的專家組織人力,進(jìn)行多語(yǔ)詞典匯編。該方法的缺點(diǎn)在于加工過(guò)程牽扯的人力多、制作周期長(zhǎng),詞典編纂者的工作標(biāo)準(zhǔn)難以取得一致,詞典義項(xiàng)的分合也無(wú)法采用統(tǒng)一的標(biāo)準(zhǔn)。基于統(tǒng)計(jì)知識(shí)的方法,有的利用大規(guī)模多語(yǔ)的平行語(yǔ)料庫(kù),從中學(xué)習(xí)多語(yǔ)詞語(yǔ)互為翻譯對(duì)的知識(shí),有的利用若干個(gè)雙語(yǔ)詞典,有的利用電子詞典和翻譯工具,直接將單語(yǔ)詞典翻譯為多語(yǔ)詞典,再利用統(tǒng)計(jì)知識(shí)進(jìn)行消歧,用以糾正翻譯過(guò)程中可能出現(xiàn)的錯(cuò)誤,構(gòu)建多語(yǔ)詞典?;诮y(tǒng)計(jì)知識(shí)的方法的缺點(diǎn)在于必須擁有大規(guī)模的詞典或者語(yǔ)料庫(kù)資源,從而從中提取統(tǒng)計(jì)信息,另外,基于目前的消歧手段,詞典義項(xiàng)的對(duì)齊精度低于基于專家知識(shí)構(gòu)建的多語(yǔ)詞典。現(xiàn)有技術(shù)中,還存在一種自動(dòng)將WordNet ( 一種英語(yǔ)詞匯知識(shí)庫(kù))中的概念翻譯為中文的方法。一個(gè)英文詞可有多個(gè)義項(xiàng),而每一個(gè)義項(xiàng)又可翻譯為多個(gè)中文詞,該方法從義項(xiàng)的粒度進(jìn)行詞匯翻譯;詞匯翻譯最常用的方法是使用雙語(yǔ)詞典資源,其中包括網(wǎng)絡(luò)在線詞典;對(duì)同一個(gè)詞的同一個(gè)義項(xiàng),不同詞典可能給出不同的翻譯,為了得到包含更多中文同義詞的義項(xiàng)翻譯結(jié)果,需要把這些義項(xiàng)翻譯進(jìn)行合并。該方法也被用于進(jìn)行詞典構(gòu)建,但其缺陷在于過(guò)度依賴WordNet,且生成的多語(yǔ)詞典也需按WordNet的形式進(jìn)行編排。因此,需要一種新的構(gòu)建多語(yǔ)詞典的方式,其既能夠節(jié)省詞典構(gòu)建工作消耗的人力物力,又能保證生成的多語(yǔ)詞典的精確度,且適用性好,基于普通的單語(yǔ)、雙語(yǔ)詞典就可完成多語(yǔ)詞典編制。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題在于,提供一種新的構(gòu)建多語(yǔ)詞典的方式,其既能夠節(jié)省詞典構(gòu)建工作消耗的人力物力,又能保證生成的多語(yǔ)詞典的精確度,且適用性好,基于普通的單語(yǔ)、雙語(yǔ)詞典就可完成多語(yǔ)詞典編制。
有鑒于此,本發(fā)明提供了一種多語(yǔ)詞典構(gòu)建裝置,可以包括單語(yǔ)詞典模塊,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),并取得與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義,以及該義項(xiàng)所對(duì)應(yīng)的詞性,構(gòu)造一個(gè)特征向量,所述特征向量包含詞條、詞性和義項(xiàng);關(guān)鍵詞提取模塊,從釋義中提取關(guān)鍵詞;雙語(yǔ)詞典模塊,從預(yù)置的雙語(yǔ)詞典中查詢出詞語(yǔ)所對(duì)應(yīng)的所有的翻譯詞語(yǔ),其中,雙語(yǔ)詞典的其中一種語(yǔ)種與單語(yǔ)詞典的語(yǔ)種相同;翻譯確認(rèn)模塊,分別計(jì)算翻譯詞語(yǔ)與詞語(yǔ)及關(guān)鍵詞的相似度,以在翻譯詞語(yǔ)中為詞語(yǔ)選出對(duì)應(yīng)每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成多語(yǔ)詞典。在該技術(shù)方案中,具體地,通過(guò)將每個(gè)翻譯詞語(yǔ)與上述詞語(yǔ)及關(guān)鍵詞的相似度進(jìn)行加權(quán)平均,選出得到值較大的翻譯詞語(yǔ)作為最終的翻譯詞語(yǔ),通過(guò)這種方式,擴(kuò)大待翻譯詞語(yǔ)和翻譯詞語(yǔ)的比對(duì)集合,從而更準(zhǔn)確地消除翻譯過(guò)程中的歧義。在上述技術(shù)方案中,優(yōu)選地,雙語(yǔ)詞典模塊可以根據(jù)與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的詞性,過(guò)濾掉翻譯詞語(yǔ)中的詞性不相同的詞語(yǔ)。在該技術(shù)方案中,由于詞性不同的翻譯詞語(yǔ)一定不適用,所以可以提前進(jìn)行過(guò)濾,這樣可以提高多語(yǔ)詞典構(gòu)建的效率。在上述技術(shù)方案中,優(yōu)選地,關(guān)鍵詞提取模塊可以對(duì)釋義進(jìn)行分詞,并根據(jù)詞頻和詞性,從分詞得到的詞語(yǔ)中提取候選關(guān)鍵詞,以及計(jì)算候選關(guān)鍵詞與候選翻譯詞語(yǔ)之間的相似度,以用于在候選關(guān)鍵詞中選出關(guān)鍵詞。通過(guò)該技術(shù)方案,具體地,可以提取出詞性與上述詞語(yǔ)相同、且詞頻低于一定值(過(guò)濾掉Of、on等常用詞語(yǔ))的詞語(yǔ),再進(jìn)行相似度計(jì)算,選出相似度高于一定值的詞語(yǔ)作為關(guān)鍵詞(此時(shí),相當(dāng)于同義詞)。同時(shí),選出同義詞的方式已知有多種,并不限于本方案中列舉的方式。在上述技術(shù)方案中,優(yōu)選地,還包括停用詞表模塊,建立停用詞表,并將預(yù)置的單語(yǔ)語(yǔ)料庫(kù)中詞頻超過(guò)預(yù)定閾值的詞語(yǔ)記錄在停用詞表中;雙語(yǔ)詞典模塊使用停用詞表,來(lái)從分詞得到的詞語(yǔ)中選出詞頻不超過(guò)預(yù)定閾值的詞語(yǔ)作為候選關(guān)鍵詞。在上述技術(shù)方案中,優(yōu)選地,在詞語(yǔ)具有唯一義項(xiàng)時(shí),翻譯確認(rèn)模塊直接將翻譯詞語(yǔ)作為詞語(yǔ)的最終翻譯詞語(yǔ)。在該技術(shù)方案中,由于上述詞語(yǔ)僅有唯一義項(xiàng)時(shí),翻譯過(guò)程中不會(huì)產(chǎn)生歧義,所以可以直接確定最終翻譯詞語(yǔ),通過(guò)此方式能夠保證多語(yǔ)詞典的構(gòu)建效率。本發(fā)明提供一種多語(yǔ)詞典構(gòu)建方法,可以包括步驟102,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),并取得與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義,以及該義項(xiàng)所對(duì)應(yīng)的詞性,構(gòu)造一個(gè)特征向量,所述特征向量包含詞條、詞性和義項(xiàng);步驟104,從釋義中提取關(guān)鍵詞;步驟106,從預(yù)置的雙語(yǔ)詞典中查詢出詞語(yǔ)所對(duì)應(yīng)的所有翻譯詞語(yǔ),其中,雙語(yǔ)詞典的其中一種語(yǔ)種與單語(yǔ)詞典的語(yǔ)種相同;步驟108,分別計(jì)算翻譯詞語(yǔ)與詞語(yǔ)及關(guān)鍵詞的相似度,以在翻譯詞語(yǔ)中為詞語(yǔ)選出對(duì)應(yīng)每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成多語(yǔ)詞典。在該技術(shù)方案中,具體地,通過(guò)將每個(gè)翻譯詞語(yǔ)與上述詞語(yǔ)及關(guān)鍵詞的相似度進(jìn)行加權(quán)平均,選出得到值較大的翻譯詞語(yǔ)作為最終的翻譯詞語(yǔ),通過(guò)這種方式,可以有效地消除翻譯過(guò)程中的歧義。在上述技術(shù)方案中,優(yōu)選地,步驟106還可以包括根據(jù)與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的詞性,過(guò)濾掉翻譯詞語(yǔ)中的詞性不相同的詞語(yǔ)。在該技術(shù)方案中,由于詞性不同的翻譯詞語(yǔ)一定不適用,所以可以提前進(jìn)行過(guò)濾,這樣可以提高多語(yǔ)詞典構(gòu)建的效率。在上述技術(shù)方案中,優(yōu)選地,步驟104可以包括對(duì)釋義進(jìn)行分詞,并根據(jù)詞頻和詞性,從分詞得到的詞語(yǔ)中提取候選關(guān)鍵詞;計(jì)算候選關(guān)鍵詞與候選翻譯詞語(yǔ)之間的相似度,以用于在候選關(guān)鍵詞中選出關(guān)鍵詞。通過(guò)該技術(shù)方案,具體地,可以提取出詞性與上述、詞語(yǔ)相同、且詞頻低于一定值(過(guò)濾掉Of、on等常用詞語(yǔ))的詞語(yǔ),再進(jìn)行相似度計(jì)算,選出相似度高于一定值的詞語(yǔ)作為關(guān)鍵詞(此時(shí),相當(dāng)于同義詞)。同時(shí),選出同義詞的方式已知有多種,并不限于本方案中列舉的方式。在上述技術(shù)方案中,優(yōu)選地,在步驟104之前,還包括建立停用詞表,并將預(yù)置的單語(yǔ)語(yǔ)料庫(kù)中詞頻超過(guò)預(yù)定閾值的詞語(yǔ)記錄在停用詞表中;在步驟104中,根據(jù)詞頻提取候選關(guān)鍵詞包括使用停用詞表,來(lái)從分詞得到的詞語(yǔ)中選出詞頻不超過(guò)預(yù)定閾值的詞語(yǔ)作為候選關(guān)鍵詞。在上述技術(shù)方案中,優(yōu)選地,還包括在詞語(yǔ)具有唯一義項(xiàng)時(shí),直接將翻譯詞語(yǔ)作為詞語(yǔ)的最終翻譯詞語(yǔ)。在該技術(shù)方案中,由于上述詞語(yǔ)僅有唯一義項(xiàng)時(shí),翻譯過(guò)程中不會(huì)產(chǎn)生歧義,所以可以直接確定最終翻譯詞語(yǔ),通過(guò)此方式能夠保證多語(yǔ)詞典的構(gòu)建效率。通過(guò)以上技術(shù)方案,可以實(shí)現(xiàn)一種多語(yǔ)詞典自動(dòng)構(gòu)建裝置和一種多語(yǔ)詞典自動(dòng)構(gòu) 建方法,既能夠節(jié)省詞典構(gòu)建工作消耗的人力物力,又能保證生成的多語(yǔ)詞典的精確度,且適用性好,基于普通的單語(yǔ)、雙語(yǔ)詞典就可完成多語(yǔ)詞典編制。
圖I是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建方法的流程圖;圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建裝置的框圖;圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建方法的示意圖;圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建方法的示意圖。
具體實(shí)施例方式為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施,因此,本發(fā)明并不限于下面公開的具體實(shí)施例的限制。圖I是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建方法的流程圖。如圖I所示,本發(fā)明提供一種多語(yǔ)詞典構(gòu)建方法,可以包括步驟102,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),并取得與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義,以及該義項(xiàng)所對(duì)應(yīng)的詞性,構(gòu)造一個(gè)特征向量,所述特征向量包含詞條、詞性和義項(xiàng)(或該義項(xiàng)的釋義);步驟104,從釋義中提取關(guān)鍵詞;步驟106,從預(yù)置的雙語(yǔ)詞典中查詢出詞語(yǔ)所對(duì)應(yīng)的所有翻譯詞語(yǔ),其中,雙語(yǔ)詞典的其中一種語(yǔ)種與單語(yǔ)詞典的語(yǔ)種相同;步驟108,分別計(jì)算翻譯詞語(yǔ)與詞語(yǔ)及關(guān)鍵詞的相似度,以在翻譯詞語(yǔ)中為詞語(yǔ)選出對(duì)應(yīng)每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成多語(yǔ)詞典。在該技術(shù)方案中,具體地,通過(guò)將每個(gè)翻譯詞語(yǔ)與上述詞語(yǔ)及關(guān)鍵詞的相似度進(jìn)行加權(quán)平均,選出得到值較大的翻譯詞語(yǔ)作為最終的翻譯詞語(yǔ),通過(guò)這種方式,可以有效地消除翻譯過(guò)程中的歧義。在上述技術(shù)方案中,步驟106還可以包括根據(jù)與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的詞性,過(guò)濾掉翻譯詞語(yǔ)中的詞性不相同的詞語(yǔ)。在該技術(shù)方案中,由于詞性不同的翻譯詞語(yǔ)一定不適用,所以可以提前進(jìn)行過(guò)濾,這樣可以提高多語(yǔ)詞典構(gòu)建的效率。
在上述技術(shù)方案中,步驟104可以包括對(duì)釋義進(jìn)行分詞,并根據(jù)詞頻和詞性,從分詞得到的詞語(yǔ)中提取候選關(guān)鍵詞;計(jì)算候選關(guān)鍵詞與候選翻譯詞語(yǔ)之間的相似度,以用于在候選關(guān)鍵詞中選出關(guān)鍵詞。通過(guò)該技術(shù)方案,具體地,可以提取出詞性與上述詞語(yǔ)相同、且詞頻低于一定值(過(guò)濾掉of、on等常用詞語(yǔ))的詞語(yǔ),再進(jìn)行相似度計(jì)算,選出相似度高于一定值的詞語(yǔ)作為關(guān)鍵詞(此時(shí),相當(dāng)于同 義詞)。同時(shí),選出同義詞的方式已知有多種,并不限于本方案中列舉的方式。在上述技術(shù)方案中,在步驟104之前,還包括建立停用詞表,并將預(yù)置的單語(yǔ)語(yǔ)料庫(kù)中詞頻超過(guò)預(yù)定閾值的詞語(yǔ)記錄在停用詞表中;在步驟104中,根據(jù)詞頻提取候選關(guān)鍵詞包括使用停用詞表,來(lái)從分詞得到的詞語(yǔ)中選出詞頻不超過(guò)預(yù)定閾值的詞語(yǔ)作為候選關(guān)鍵詞。在上述技術(shù)方案中,還包括在詞語(yǔ)具有唯一義項(xiàng)時(shí),直接將翻譯詞語(yǔ)作為詞語(yǔ)的最終翻譯詞語(yǔ)。在該技術(shù)方案中,由于上述詞語(yǔ)僅有唯一義項(xiàng)時(shí),翻譯過(guò)程中不會(huì)產(chǎn)生歧義,所以可以直接確定最終翻譯詞語(yǔ),通過(guò)此方式能夠保證多語(yǔ)詞典的構(gòu)建效率。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建裝置的框圖。如圖2所示,本發(fā)明還提供一種多語(yǔ)詞典構(gòu)建裝置200,可以包括單語(yǔ)詞典模塊202,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),并取得與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義,以及該義項(xiàng)所對(duì)應(yīng)的詞性,構(gòu)造一個(gè)特征向量,所述特征向量包含詞條、詞性和義項(xiàng);關(guān)鍵詞提取模塊204,從釋義中提取關(guān)鍵詞;雙語(yǔ)詞典模塊206,從預(yù)置的雙語(yǔ)詞典中查詢出詞語(yǔ)所對(duì)應(yīng)的所有翻譯詞語(yǔ),其中,雙語(yǔ)詞典的其中一種語(yǔ)種與單語(yǔ)詞典的語(yǔ)種相同;翻譯確認(rèn)模塊208,分別計(jì)算翻譯詞語(yǔ)與詞語(yǔ)及關(guān)鍵詞的相似度,以在翻譯詞語(yǔ)中為詞語(yǔ)選出對(duì)應(yīng)每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成多語(yǔ)詞典。在該技術(shù)方案中,具體地,通過(guò)將每個(gè)翻譯詞語(yǔ)與上述詞語(yǔ)及關(guān)鍵詞的相似度進(jìn)行加權(quán)平均,選出得到值較大的翻譯詞語(yǔ)作為最終的翻譯詞語(yǔ),通過(guò)這種方式,可以有效地消除翻譯過(guò)程中的歧義。在上述技術(shù)方案中,雙語(yǔ)詞典模塊206可以根據(jù)與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的詞性,過(guò)濾掉翻譯詞語(yǔ)中的詞性不相同的詞語(yǔ)。在該技術(shù)方案中,由于詞性不同的翻譯詞語(yǔ)一定不適用,所以可以提前進(jìn)行過(guò)濾,這樣可以提高多語(yǔ)詞典構(gòu)建的效率。在上述技術(shù)方案中,關(guān)鍵詞提取模塊204可以對(duì)釋義進(jìn)行分詞,并根據(jù)詞頻和詞性,從分詞得到的詞語(yǔ)中提取候選關(guān)鍵詞,以及計(jì)算候選關(guān)鍵詞與候選翻譯詞語(yǔ)之間的相似度,以用于在候選關(guān)鍵詞中選出關(guān)鍵詞。通過(guò)該技術(shù)方案,具體地,可以提取出詞性與上述詞語(yǔ)相同、且詞頻低于一定值(過(guò)濾掉of、on等常用詞語(yǔ))的詞語(yǔ),再進(jìn)行相似度計(jì)算,選出相似度高于一定值的詞語(yǔ)作為關(guān)鍵詞(此時(shí),相當(dāng)于同義詞)。同時(shí),選出同義詞的方式已知有多種,并不限于本方案中列舉的方式。在上述技術(shù)方案中,還包括停用詞表模塊210,建立停用詞表,并將預(yù)置的單語(yǔ)語(yǔ)料庫(kù)中詞頻超過(guò)預(yù)定閾值的詞語(yǔ)記錄在停用詞表中;雙語(yǔ)詞典模塊206使用停用詞表,來(lái)從分詞得到的詞語(yǔ)中選出詞頻不超過(guò)預(yù)定閾值的詞語(yǔ)作為候選關(guān)鍵詞。在上述技術(shù)方案中,在詞語(yǔ)具有唯一義項(xiàng)時(shí),翻譯確認(rèn)模塊208直接將翻譯詞語(yǔ)作為詞語(yǔ)的最終翻譯詞語(yǔ)。在該技術(shù)方案中,由于上述詞語(yǔ)僅有唯一義項(xiàng)時(shí),翻譯過(guò)程中不會(huì)產(chǎn)生歧義,所以可以直接確定最終翻譯詞語(yǔ),通過(guò)此方式能夠保證多語(yǔ)詞典的構(gòu)建效率。圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的多語(yǔ)詞典構(gòu)建方法的示意圖。
如圖3所示,為多語(yǔ)詞典構(gòu)建方法的示意圖。原理如下首先在單語(yǔ)詞典選取詞語(yǔ),如果該詞語(yǔ)為單義詞,則可利用對(duì)應(yīng)的雙語(yǔ)詞典1、11、III,無(wú)歧義地得到該詞語(yǔ)的對(duì)應(yīng)翻譯詞形;如果該詞語(yǔ)為多義詞,則需要進(jìn)行步驟302,從該詞語(yǔ)的每個(gè)義項(xiàng)的釋義中提取關(guān)鍵詞(可以擴(kuò)展為該詞語(yǔ)的同義詞),然后進(jìn)行步驟304,分別計(jì)算上述詞語(yǔ)與關(guān)鍵詞以及對(duì)應(yīng)翻譯詞語(yǔ)的相似度,根據(jù)相似度判斷是否將詞典中得到的對(duì)應(yīng)翻譯詞語(yǔ)作為該詞語(yǔ)的對(duì)譯詞形。以下結(jié)合圖4,以英語(yǔ)單語(yǔ)詞典,自動(dòng)生成為英漢多語(yǔ)詞典為例,闡述多語(yǔ)詞典自動(dòng)構(gòu)建的具體實(shí)施方式
。I.假設(shè)圖中的單語(yǔ)詞典中,英語(yǔ)單詞EW的到任意語(yǔ)T(以下以漢語(yǔ)為例)的雙語(yǔ)詞典為BD,若英文單詞EW:只包含一個(gè)義項(xiàng)的詞條,即為單義詞。 包含兩個(gè)或兩個(gè)以上的詞條,即為多義詞。2.若英語(yǔ)詞形EW為單義,則利用任何一種的英漢對(duì)應(yīng)雙語(yǔ)詞表,電子詞典,均可無(wú)歧義地尋找到該詞形EW的對(duì)應(yīng)語(yǔ)翻譯詞形。3.若英語(yǔ)詞形EW為多義項(xiàng),則需如圖4所示的步驟操作步驟402,按照義項(xiàng)在英語(yǔ)詞典中尋到其對(duì)應(yīng)的詞形EW、詞性EP和詞典釋義ΕΕ,建立與義項(xiàng)相對(duì)應(yīng)的特征向量(也稱之為三元組){EW,EPl,ΕΕ1},{EW,ΕΡ2,ΕΕ2},{EW,ΕΡ3,ΕΕ3}......{EW, EPn, EEnj ;步驟404,通過(guò)任一雙語(yǔ)詞表,尋找到與英語(yǔ)詞形EW相對(duì)應(yīng)的任意語(yǔ)T的所有詞條TW、詞性TP和釋義TE,建立若干個(gè)特征向量(也稱之為三元組){TW1,TPl, ΤΕ1},{TW2,ΤΡ2, ΤΕ2},{TW2, ΤΡ3, ΤΕ3}......{TWm,TPm, TEm};步驟406,詞性匹配對(duì)于任一義項(xiàng)的英文詞形{EW,EPX, EEX},去除與其詞性不同的譯文候選詞,留下與其詞性相同的的譯文候選詞,對(duì)英文和任意語(yǔ)種T的詞性某一義項(xiàng)的釋義根據(jù)如下方法處理步驟408,關(guān)鍵詞提取,具體包括步驟4082,在單語(yǔ)語(yǔ)料庫(kù),將詞頻高于一定閾值的詞語(yǔ)選入停用詞表;步驟4084,對(duì)釋義進(jìn)行分詞和詞性標(biāo)注;步驟4086,在英文詞的釋義中,去除停用詞表中的詞語(yǔ)后,選擇與英文單詞詞性相同的詞作為候選詞;步驟4088,計(jì)算英語(yǔ)單詞和候選詞之間的相似性,將高于一定閾值的詞語(yǔ)作為該英語(yǔ)單詞釋義的關(guān)鍵詞,也相當(dāng)于擴(kuò)展了英語(yǔ)單詞的同義詞。步驟408也可以采用如下的技術(shù)方案若英文詞形為名詞,則提取釋義中的關(guān)鍵詞KW,該釋義若含介詞或關(guān)系連詞,則該關(guān)鍵詞位于釋義第一個(gè)介詞或者關(guān)系連詞之前;若不含,則關(guān)鍵詞位于最后一個(gè)名詞;若英文詞形為形容詞,則提取釋義中的關(guān)鍵詞KW,該關(guān)鍵詞為釋義中的名詞、動(dòng)詞、形容詞;若英文詞形為動(dòng)詞,則提取釋義中的關(guān)鍵詞KW,該關(guān)鍵詞為釋義中的名詞、動(dòng)詞;若英文詞形為副詞,則提取釋義中的關(guān)鍵詞KW,該關(guān)鍵詞為釋義中的動(dòng)詞和形容詞;
步驟410,分別計(jì)算英文詞形EW、釋義EE中的關(guān)鍵詞KW與任意語(yǔ)義項(xiàng)的候選關(guān)鍵詞的相似度,其中,英語(yǔ)單詞和候選詞之間的相似性度,可以通過(guò)計(jì)算語(yǔ)料庫(kù)中的共現(xiàn)頻率、點(diǎn)式互信息、DICE系數(shù)等方式獲得,最后根據(jù)相似度大小,確定英文釋義的對(duì)應(yīng)翻譯詞形。按照以上步驟,以英文“l(fā)ight”為例,在英語(yǔ)單語(yǔ)詞典中,light為多義詞,對(duì)應(yīng)為以下詞形及其釋義,可構(gòu)建如下特征向量(也稱之為三元組){light,n,a tool ofillumination}、{light,adj,moving easily and quickly}、{light,adj,little physicalweight or density}。
權(quán)利要求
1.一種多語(yǔ)詞典構(gòu)建裝置,其特征在于,包括 單語(yǔ)詞典模塊,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),取得與所述詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義,以及該義項(xiàng)所對(duì)應(yīng)的詞性,構(gòu)造一個(gè)特征向量,所述特征向量包含詞條、詞性和義項(xiàng); 關(guān)鍵詞提取模塊,從所述釋義中提取關(guān)鍵詞; 雙語(yǔ)詞典模塊,從預(yù)置的雙語(yǔ)詞典中查詢出所述詞語(yǔ)所對(duì)應(yīng)的所有翻譯詞語(yǔ),其中,所述雙語(yǔ)詞典的其中一種語(yǔ)種與所述單語(yǔ)詞典的語(yǔ)種相同; 翻譯確認(rèn)模塊,分別計(jì)算所述翻譯詞語(yǔ)與所述詞語(yǔ)及所述關(guān)鍵詞的相似度,以在所述翻譯詞語(yǔ)中為所述詞語(yǔ)選出對(duì)應(yīng)所述每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成所述多語(yǔ)詞典。
2.根據(jù)權(quán)利要求I所述的多語(yǔ)詞典構(gòu)建裝置,其特征在于,所述雙語(yǔ)詞典模塊根據(jù)與所述詞語(yǔ)對(duì)應(yīng)的所述每個(gè)義項(xiàng)的詞性,過(guò)濾掉所述翻譯詞語(yǔ)中的詞性不相同的詞語(yǔ)。
3.根據(jù)權(quán)利要求I或2所述的多語(yǔ)詞典構(gòu)建裝置,其特征在于,所述關(guān)鍵詞提取模塊對(duì)所述釋義進(jìn)行分詞,并根據(jù)詞頻和詞性,從分詞得到的詞語(yǔ)中提取候選關(guān)鍵詞,以及計(jì)算所述候選關(guān)鍵詞與所述候選翻譯詞語(yǔ)之間的相似度,以用于在所述候選關(guān)鍵詞中選出所述關(guān)鍵詞。
4.根據(jù)權(quán)利要求3所述的多語(yǔ)詞典構(gòu)建裝置,其特征在于,還包括 停用詞表模塊,建立停用詞表,并將預(yù)置的單語(yǔ)語(yǔ)料庫(kù)中詞頻超過(guò)預(yù)定閾值的詞語(yǔ)記錄在所述停用詞表中;所述雙語(yǔ)詞典模塊使用所述停用詞表,來(lái)從所述分詞得到的詞語(yǔ)中選出詞頻不超過(guò)所述預(yù)定閾值的詞語(yǔ)作為所述候選關(guān)鍵詞。
5.根據(jù)權(quán)利要求4所述的多語(yǔ)詞典構(gòu)建裝置,其特征在于,在所述詞語(yǔ)具有唯一義項(xiàng)時(shí),所述翻譯確認(rèn)模塊直接將所述翻譯詞語(yǔ)作為所述詞語(yǔ)的最終翻譯詞語(yǔ)。
6.—種多語(yǔ)詞典構(gòu)建方法,其特征在于,包括 步驟102,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),并取得與所述詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義,以及該義項(xiàng)所對(duì)應(yīng)的詞性,構(gòu)造一個(gè)特征向量,所述特征向量包含詞條、詞性和義項(xiàng); 步驟104,從所述釋義中提取關(guān)鍵詞; 步驟106,從預(yù)置的雙語(yǔ)詞典中查詢出所述詞語(yǔ)所對(duì)應(yīng)的所有翻譯詞語(yǔ),其中,所述雙語(yǔ)詞典的其中一種語(yǔ)種與所述單語(yǔ)詞典的語(yǔ)種相同; 步驟108,分別計(jì)算所述翻譯詞語(yǔ)與所述詞語(yǔ)及所述關(guān)鍵詞的相似度,以在所述翻譯詞語(yǔ)中為所述詞語(yǔ)選出對(duì)應(yīng)所述每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成所述多語(yǔ)詞典。
7.根據(jù)權(quán)利要求6所述的多語(yǔ)詞典構(gòu)建方法,其特征在于,所述步驟106還包括 根據(jù)與所述詞語(yǔ)對(duì)應(yīng)的所述每個(gè)義項(xiàng)的詞性,過(guò)濾掉所述翻譯詞語(yǔ)中的詞性不相同的詞語(yǔ)。
8.根據(jù)權(quán)利要求6或7所述的多語(yǔ)詞典構(gòu)建方法,其特征在于,所述步驟104包括 對(duì)所述釋義進(jìn)行分詞,并根據(jù)詞頻和詞性,從分詞得到的詞語(yǔ)中提取候選關(guān)鍵詞; 計(jì)算所述候選關(guān)鍵詞與所述候選翻譯詞語(yǔ)之間的相似度,以用于在所述候選關(guān)鍵詞中選出所述關(guān)鍵詞。
9.根據(jù)權(quán)利要求8所述的多語(yǔ)詞典構(gòu)建方法,其特征在于,在所述步驟104之前,還包括 建立停用詞表,并將預(yù)置的單語(yǔ)語(yǔ)料庫(kù)中詞頻超過(guò)預(yù)定閾值的詞語(yǔ)記錄在所述停用詞表中;在所述步驟104中,根據(jù)所述詞頻提取所述候選關(guān)鍵詞包括 使用所述停用詞表,來(lái)從所述分詞得到的詞語(yǔ)中選出詞頻不超過(guò)所述預(yù)定閾值的詞語(yǔ)作為所述候選關(guān)鍵詞。
10.根據(jù)權(quán)利要求9所述的多語(yǔ)詞典構(gòu)建方法,其特征在于,還包括 在所述詞語(yǔ)具有唯一義項(xiàng)時(shí),直接將所述翻譯詞語(yǔ)作為所述詞語(yǔ)的最終翻譯 詞語(yǔ)。
全文摘要
本發(fā)明提供一種多語(yǔ)詞典構(gòu)建裝置,可以包括單語(yǔ)詞典模塊,從預(yù)置的單語(yǔ)詞典中選取詞語(yǔ),并取得與詞語(yǔ)對(duì)應(yīng)的每個(gè)義項(xiàng)的釋義;關(guān)鍵詞提取模塊,從釋義中提取關(guān)鍵詞;雙語(yǔ)詞典模塊,從預(yù)置的雙語(yǔ)詞典中查詢出詞語(yǔ)的翻譯詞語(yǔ),其中,雙語(yǔ)詞典的其中一種語(yǔ)種與單語(yǔ)詞典的語(yǔ)種相同;翻譯確認(rèn)模塊,分別計(jì)算翻譯詞語(yǔ)與詞語(yǔ)及關(guān)鍵詞的相似度,以在翻譯詞語(yǔ)中為詞語(yǔ)選出對(duì)應(yīng)每個(gè)義項(xiàng)的最終翻譯詞語(yǔ),生成多語(yǔ)詞典。本發(fā)明還提供一種多語(yǔ)詞典構(gòu)建方法。通過(guò)本發(fā)明,可以實(shí)現(xiàn)一種多語(yǔ)詞典的自動(dòng)構(gòu)建裝置和一種多語(yǔ)詞典自動(dòng)構(gòu)建方法,節(jié)省了詞典構(gòu)建工作消耗的人力物力,保證了生成的多語(yǔ)詞典的精確度,基于普通的單語(yǔ)、雙語(yǔ)詞典就可自動(dòng)完成多語(yǔ)詞典編制。
文檔編號(hào)G06F17/28GK102789461SQ20111013023
公開日2012年11月21日 申請(qǐng)日期2011年5月19日 優(yōu)先權(quán)日2011年5月19日
發(fā)明者于浩, 孟遙, 張潔 申請(qǐng)人:富士通株式會(huì)社