本發(fā)明涉及語(yǔ)言的信息處理技術(shù)領(lǐng)域,尤其涉及一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)。
背景技術(shù):
跨語(yǔ)言語(yǔ)料庫(kù)是開展跨語(yǔ)言自然語(yǔ)言處理研究的重要手段,根據(jù)語(yǔ)料庫(kù)互譯程度的差異,跨語(yǔ)言語(yǔ)料庫(kù)可分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)(Parallel Corpus)是由源語(yǔ)言文本和翻譯的目標(biāo)語(yǔ)言文本構(gòu)成的文本對(duì)集合,兩種語(yǔ)言文本間存在嚴(yán)格的互譯關(guān)系,語(yǔ)料庫(kù)質(zhì)量高,是進(jìn)行跨語(yǔ)言信息處理研究的重要資源,但是平行語(yǔ)料庫(kù)構(gòu)建難度大、構(gòu)建成本高;可比語(yǔ)料庫(kù)(comparable corpora)則是語(yǔ)言不同、內(nèi)容相似但非互譯的文本對(duì)集合,涉及同一主題的不同語(yǔ)言文本的詞、句子、段落不一定存在一一對(duì)應(yīng)的翻譯關(guān)系,可比語(yǔ)料較平行語(yǔ)料而言,資源較為豐富,是構(gòu)建跨語(yǔ)言語(yǔ)料庫(kù)的重要補(bǔ)充。
隨著自然語(yǔ)言處理研究的推進(jìn),研究對(duì)象也從資源豐富語(yǔ)言(High resource languages,如英語(yǔ)、漢語(yǔ)、日本語(yǔ)、西班牙語(yǔ)等)擴(kuò)展到資源稀缺語(yǔ)言(Low resource language,如豪薩語(yǔ)、孟加拉語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)等),資源稀缺語(yǔ)言不僅使用人口少,而且資源少、語(yǔ)料獲取成本高,在這種情況下構(gòu)建資源稀缺語(yǔ)言的平行語(yǔ)料庫(kù)非常困難,因此可比語(yǔ)料庫(kù)是資源稀缺語(yǔ)言的跨語(yǔ)言自然語(yǔ)言處理研究的重要資源。
對(duì)于資源豐富語(yǔ)言而言,目前構(gòu)建可比語(yǔ)料庫(kù)的方法主要有三種:內(nèi)容特征匹配、跨語(yǔ)言信息檢索、維基百科?;趦?nèi)容特征的可比語(yǔ)料構(gòu)建方法需要抽取文本特征以及雙語(yǔ)詞典的支持,由于資源稀缺語(yǔ)言的文本特征抽取技術(shù)有限,而資源稀缺語(yǔ)言的雙語(yǔ)詞典主要覆蓋一些常用詞,無(wú)法滿足翻譯文本特征的需求,因此目前沒(méi)有辦法通過(guò)基于內(nèi)容特征的方法大規(guī)模、高質(zhì)量構(gòu)建資源稀缺語(yǔ)言的可比語(yǔ)料庫(kù)。基于跨語(yǔ)言信息檢索構(gòu)建可比語(yǔ)料庫(kù)極大地提高了大規(guī)模可比語(yǔ)料采集的速度,其中關(guān)鍵問(wèn)題在于查詢?cè)~的選擇,這直接決定了源語(yǔ)言文檔和目標(biāo)語(yǔ)言文檔的關(guān)聯(lián)程度。但是對(duì)于資源稀缺語(yǔ)言而言,一方面一些資源稀缺語(yǔ)言沒(méi)有搜索引擎系統(tǒng)、另一方面查詢?cè)~的翻譯質(zhì)量也是制約利用該方法進(jìn)行資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)構(gòu)建的重要瓶頸。目前維基百科中資源稀缺語(yǔ)言的資源較少,且內(nèi)容分布不平衡,很難通過(guò)維基百科構(gòu)建大規(guī)模、高質(zhì)量的資源稀缺語(yǔ)言的可比語(yǔ)料庫(kù)。
目前構(gòu)建可比語(yǔ)料庫(kù)的方法不僅需要文本特征提取、關(guān)鍵詞抽取、跨語(yǔ)言信息檢索、機(jī)器翻譯等技術(shù)的支持,還需要詞典、維基百科、Wordnet等資源或者知識(shí)庫(kù)支持。對(duì)于資源稀缺語(yǔ)言而言,一方面詞典、知識(shí)庫(kù)、維基百科等資源較為潰泛;另一方面,資源稀缺語(yǔ)言的信息處理技術(shù),如關(guān)鍵詞抽取、跨語(yǔ)言信息檢索、機(jī)器翻譯等技術(shù)發(fā)展較為滯后,不足以支持資源稀缺語(yǔ)言的跨語(yǔ)言可比語(yǔ)料庫(kù)的構(gòu)建。即資源稀缺語(yǔ)言不僅資源少,而且資源稀缺語(yǔ)言的信息處理技術(shù)(如關(guān)鍵詞抽取、機(jī)器翻譯、信息檢索技術(shù)等)導(dǎo)致構(gòu)建資源豐富語(yǔ)言可比語(yǔ)料的方法通常不適用于資源稀缺語(yǔ)言的可比語(yǔ)料庫(kù)構(gòu)建。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為解決資源稀缺語(yǔ)言現(xiàn)有信息處理技術(shù)的不足,提出了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)。
一方面,本發(fā)明實(shí)施例提供了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法,包括:
S110,下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片;
S120,搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本;
S130,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體;
S140,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值;
S150,選取相似度值最高的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本;
重復(fù)S120至S150,直至所有含有圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)找到資源豐富語(yǔ)言的可比文本為止。
優(yōu)選地,應(yīng)用圖片搜索方法搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè)。
優(yōu)選地,S140之前還包括以下步驟:基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。
優(yōu)選地,所述基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度,具體是基于所述特征根據(jù)徑向基函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:
其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
進(jìn)一步優(yōu)選地,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:
在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在資源稀缺語(yǔ)言網(wǎng)頁(yè)和資源豐富語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。
另一方面,本發(fā)明實(shí)施例提供了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng),包括:
下載模塊,用于下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片;
搜索模塊,用于搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本;
提取模塊,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體;
計(jì)算模塊,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值;
選取模塊,選取相似度值最好的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本。
優(yōu)選地,所述搜索模塊,具體用于應(yīng)用圖片搜索方法搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè)。
優(yōu)選地,所述系統(tǒng)還包括:翻譯模塊,用于基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。
優(yōu)選地,所述計(jì)算模塊,具體用于基于所述特征根據(jù)徑向基函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:
其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
進(jìn)一步優(yōu)選地,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:
在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在較少語(yǔ)言網(wǎng)頁(yè)和較多語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。
本發(fā)明實(shí)施例提供的基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)不受一些信息處理技術(shù)(如關(guān)鍵詞抽取、機(jī)器翻譯、信息檢索)和資源(雙語(yǔ)詞典、維基百科等)的限制,可以以較低成本、快速構(gòu)建高質(zhì)量的資源稀缺語(yǔ)言的跨語(yǔ)言可比語(yǔ)料庫(kù),進(jìn)而為資源稀缺語(yǔ)言的自然語(yǔ)言處理提供資源。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例。
圖1為本發(fā)明實(shí)施例提供的基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法流程示意圖;
圖2(a)為基于圖片搜索的同一主題的中文文本舉例;
圖2(b)為基于圖片搜索的同一主題的英文文本舉例;
圖2(c)為基于圖片搜索的同一主題的阿拉伯文文本舉例;
圖2(d)為基于圖片搜索的同一主題的西班牙文本舉例;
圖2(e)為基于圖片搜索的同一主題的傳統(tǒng)蒙古文文本舉例;
圖2(f)為基于圖片搜索的同一主題的藏文文本舉例;
圖3為本發(fā)明實(shí)施例提供的一種具體實(shí)施例流程圖;
圖4為本發(fā)明實(shí)施例提供的一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖和實(shí)施例,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述。
圖1為本發(fā)明實(shí)施例提供的基于一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法流程示意圖,如圖1所述,該方法包括:
S110,下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片。
S120,搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本。
圖2為基于圖片搜索的同一主題的多語(yǔ)言文本舉例,具體地,(a)為中文文本,(b)為英文文本,(c)為阿拉伯文文本,(d)為西班牙文本,(e)為傳統(tǒng)蒙古文文本,(f)為藏文文本。由圖2可知,圖片能夠不受語(yǔ)言限制、直觀反應(yīng)文本主題,擁有相同或相似圖片的不同語(yǔ)言文本通常為同一主題,因此可以通過(guò)圖片搜索的方法搜集與資源稀缺語(yǔ)言文本相同或相似的其他語(yǔ)言網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本。
S130,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體。
S140,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值。
需要說(shuō)明的是,S140之前還包括:基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。
具體地,基于所述特征根據(jù)徑向基(Radial Basis Function,簡(jiǎn)稱RBF)函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:
其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
其中,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:
在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在較少語(yǔ)言網(wǎng)頁(yè)和較多語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。
S150,選取相似度值最好的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本。
S160,重復(fù)S120至S150,直至所有含有圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)找到資源豐富語(yǔ)言的可比文本為止。
下面通過(guò)具體的示例對(duì)本發(fā)明實(shí)施例如何基于圖片構(gòu)建資源稀缺語(yǔ)言可比資料庫(kù)的過(guò)程進(jìn)行說(shuō)明。
圖3為本發(fā)明實(shí)施例提供的一種具體實(shí)施例流程圖,如圖3所示,基于圖片構(gòu)建資源稀缺語(yǔ)言可比資料庫(kù)的過(guò)程具體如下:
S110,下載含有資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片。
在互聯(lián)網(wǎng)上,下載含有資源稀缺語(yǔ)言的網(wǎng)頁(yè),總數(shù)量為m。
首先判斷資源稀缺語(yǔ)言的第k個(gè)網(wǎng)頁(yè)中是否含有圖片信息,若不含有圖片,則判斷第k--網(wǎng)頁(yè)(第k-1網(wǎng)頁(yè),即下一個(gè)網(wǎng)頁(yè))中是否含有圖片;若第k網(wǎng)頁(yè)中含有圖片,則該網(wǎng)頁(yè)作為資源稀缺語(yǔ)言文本。
判斷所有含圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)是否已經(jīng)處理完,若已經(jīng)處理完,則構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)到此結(jié)束;若沒(méi)有處理完,則對(duì)資源稀缺語(yǔ)言文本i進(jìn)行可比語(yǔ)料庫(kù)的構(gòu)建。
對(duì)資源稀缺語(yǔ)言文本i的處理過(guò)程如下:
S120,應(yīng)用圖片搜索工具搜索包含與資源稀缺語(yǔ)言文本i相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本j。
S130,對(duì)資源稀缺語(yǔ)言文本i和特定語(yǔ)言文本j進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體。
其中,文本中的圖片屬于文本外特征,而文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體均屬于文本內(nèi)特征。
S140,首先,基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯;然后,基于所述特征根據(jù)RBF函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:
其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。
其中,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:
在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在資源稀缺語(yǔ)言網(wǎng)頁(yè)和資源豐富語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。比如:在實(shí)驗(yàn)過(guò)程的初期,可以分別賦予文中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體各占1/5的權(quán)重值,后期再根據(jù)相似情況,調(diào)整各特征的權(quán)重值,直至合適為止。
S150,選取相似度值最高的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本,放入資源稀缺語(yǔ)言的可比預(yù)料庫(kù)中。
S160,重復(fù)S120至S150,直至所有含有圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)找到資源豐富語(yǔ)言的可比文本為止。
與上述方法實(shí)施例相對(duì)應(yīng)的,本發(fā)明實(shí)施例還提供了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng),具體如圖4所示,該系統(tǒng)400包括:下載模塊401、搜索模塊402、提取模塊403、計(jì)算模塊404及選取模塊405。
下載模塊401,用于下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片。
搜索模塊402,用于搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本。
提取模塊403,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體。
計(jì)算模塊404,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值。
選取模塊405,選取相似度值最高的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本。
所述搜索模塊401,具體用于應(yīng)用圖片搜索方法搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè)。
所述系統(tǒng)還包括:翻譯模塊406,用于基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。
所述計(jì)算模塊404,具體用于基于所述特征根據(jù)徑向基函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:
其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。其中,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:
在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在較少語(yǔ)言網(wǎng)頁(yè)和較多語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。
本發(fā)明實(shí)施例提供的上述基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng)中各部件所執(zhí)行的功能均已經(jīng)在上述實(shí)施例提供的一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法中做了詳細(xì)介紹,這里不再贅述。
本發(fā)明實(shí)施例提供的基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng)不受一些信息處理技術(shù)(如關(guān)鍵詞抽取、機(jī)器翻譯、信息檢索)和資源(雙語(yǔ)詞典、維基百科等)的限制,可以以較低成本、快速構(gòu)建高質(zhì)量的資源稀缺語(yǔ)言的跨語(yǔ)言可比語(yǔ)料庫(kù),進(jìn)而為資源稀缺語(yǔ)言的自然語(yǔ)言處理提供資源。
專業(yè)人員應(yīng)該還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令處理器完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)是非短暫性(non-transitory)介質(zhì),例如隨機(jī)存取存儲(chǔ)器,只讀存儲(chǔ)器,快閃存儲(chǔ)器,硬盤,固態(tài)硬盤,磁帶(magnetic tape),軟盤(floppy disk),光盤(optical disc)及其任意組合。以上,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此。