欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)與流程

文檔序號(hào):12667151閱讀:253來(lái)源:國(guó)知局
一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)與流程

本發(fā)明涉及語(yǔ)言的信息處理技術(shù)領(lǐng)域,尤其涉及一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)。



背景技術(shù):

跨語(yǔ)言語(yǔ)料庫(kù)是開展跨語(yǔ)言自然語(yǔ)言處理研究的重要手段,根據(jù)語(yǔ)料庫(kù)互譯程度的差異,跨語(yǔ)言語(yǔ)料庫(kù)可分為平行語(yǔ)料庫(kù)和可比語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)(Parallel Corpus)是由源語(yǔ)言文本和翻譯的目標(biāo)語(yǔ)言文本構(gòu)成的文本對(duì)集合,兩種語(yǔ)言文本間存在嚴(yán)格的互譯關(guān)系,語(yǔ)料庫(kù)質(zhì)量高,是進(jìn)行跨語(yǔ)言信息處理研究的重要資源,但是平行語(yǔ)料庫(kù)構(gòu)建難度大、構(gòu)建成本高;可比語(yǔ)料庫(kù)(comparable corpora)則是語(yǔ)言不同、內(nèi)容相似但非互譯的文本對(duì)集合,涉及同一主題的不同語(yǔ)言文本的詞、句子、段落不一定存在一一對(duì)應(yīng)的翻譯關(guān)系,可比語(yǔ)料較平行語(yǔ)料而言,資源較為豐富,是構(gòu)建跨語(yǔ)言語(yǔ)料庫(kù)的重要補(bǔ)充。

隨著自然語(yǔ)言處理研究的推進(jìn),研究對(duì)象也從資源豐富語(yǔ)言(High resource languages,如英語(yǔ)、漢語(yǔ)、日本語(yǔ)、西班牙語(yǔ)等)擴(kuò)展到資源稀缺語(yǔ)言(Low resource language,如豪薩語(yǔ)、孟加拉語(yǔ)、藏語(yǔ)、維吾爾語(yǔ)等),資源稀缺語(yǔ)言不僅使用人口少,而且資源少、語(yǔ)料獲取成本高,在這種情況下構(gòu)建資源稀缺語(yǔ)言的平行語(yǔ)料庫(kù)非常困難,因此可比語(yǔ)料庫(kù)是資源稀缺語(yǔ)言的跨語(yǔ)言自然語(yǔ)言處理研究的重要資源。

對(duì)于資源豐富語(yǔ)言而言,目前構(gòu)建可比語(yǔ)料庫(kù)的方法主要有三種:內(nèi)容特征匹配、跨語(yǔ)言信息檢索、維基百科?;趦?nèi)容特征的可比語(yǔ)料構(gòu)建方法需要抽取文本特征以及雙語(yǔ)詞典的支持,由于資源稀缺語(yǔ)言的文本特征抽取技術(shù)有限,而資源稀缺語(yǔ)言的雙語(yǔ)詞典主要覆蓋一些常用詞,無(wú)法滿足翻譯文本特征的需求,因此目前沒(méi)有辦法通過(guò)基于內(nèi)容特征的方法大規(guī)模、高質(zhì)量構(gòu)建資源稀缺語(yǔ)言的可比語(yǔ)料庫(kù)。基于跨語(yǔ)言信息檢索構(gòu)建可比語(yǔ)料庫(kù)極大地提高了大規(guī)模可比語(yǔ)料采集的速度,其中關(guān)鍵問(wèn)題在于查詢?cè)~的選擇,這直接決定了源語(yǔ)言文檔和目標(biāo)語(yǔ)言文檔的關(guān)聯(lián)程度。但是對(duì)于資源稀缺語(yǔ)言而言,一方面一些資源稀缺語(yǔ)言沒(méi)有搜索引擎系統(tǒng)、另一方面查詢?cè)~的翻譯質(zhì)量也是制約利用該方法進(jìn)行資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)構(gòu)建的重要瓶頸。目前維基百科中資源稀缺語(yǔ)言的資源較少,且內(nèi)容分布不平衡,很難通過(guò)維基百科構(gòu)建大規(guī)模、高質(zhì)量的資源稀缺語(yǔ)言的可比語(yǔ)料庫(kù)。

目前構(gòu)建可比語(yǔ)料庫(kù)的方法不僅需要文本特征提取、關(guān)鍵詞抽取、跨語(yǔ)言信息檢索、機(jī)器翻譯等技術(shù)的支持,還需要詞典、維基百科、Wordnet等資源或者知識(shí)庫(kù)支持。對(duì)于資源稀缺語(yǔ)言而言,一方面詞典、知識(shí)庫(kù)、維基百科等資源較為潰泛;另一方面,資源稀缺語(yǔ)言的信息處理技術(shù),如關(guān)鍵詞抽取、跨語(yǔ)言信息檢索、機(jī)器翻譯等技術(shù)發(fā)展較為滯后,不足以支持資源稀缺語(yǔ)言的跨語(yǔ)言可比語(yǔ)料庫(kù)的構(gòu)建。即資源稀缺語(yǔ)言不僅資源少,而且資源稀缺語(yǔ)言的信息處理技術(shù)(如關(guān)鍵詞抽取、機(jī)器翻譯、信息檢索技術(shù)等)導(dǎo)致構(gòu)建資源豐富語(yǔ)言可比語(yǔ)料的方法通常不適用于資源稀缺語(yǔ)言的可比語(yǔ)料庫(kù)構(gòu)建。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明為解決資源稀缺語(yǔ)言現(xiàn)有信息處理技術(shù)的不足,提出了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)。

一方面,本發(fā)明實(shí)施例提供了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法,包括:

S110,下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片;

S120,搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本;

S130,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體;

S140,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值;

S150,選取相似度值最高的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本;

重復(fù)S120至S150,直至所有含有圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)找到資源豐富語(yǔ)言的可比文本為止。

優(yōu)選地,應(yīng)用圖片搜索方法搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè)。

優(yōu)選地,S140之前還包括以下步驟:基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。

優(yōu)選地,所述基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度,具體是基于所述特征根據(jù)徑向基函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:

其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

進(jìn)一步優(yōu)選地,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:

在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在資源稀缺語(yǔ)言網(wǎng)頁(yè)和資源豐富語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。

另一方面,本發(fā)明實(shí)施例提供了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng),包括:

下載模塊,用于下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片;

搜索模塊,用于搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本;

提取模塊,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體;

計(jì)算模塊,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值;

選取模塊,選取相似度值最好的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本。

優(yōu)選地,所述搜索模塊,具體用于應(yīng)用圖片搜索方法搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè)。

優(yōu)選地,所述系統(tǒng)還包括:翻譯模塊,用于基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。

優(yōu)選地,所述計(jì)算模塊,具體用于基于所述特征根據(jù)徑向基函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:

其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

進(jìn)一步優(yōu)選地,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:

在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在較少語(yǔ)言網(wǎng)頁(yè)和較多語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。

本發(fā)明實(shí)施例提供的基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法及系統(tǒng)不受一些信息處理技術(shù)(如關(guān)鍵詞抽取、機(jī)器翻譯、信息檢索)和資源(雙語(yǔ)詞典、維基百科等)的限制,可以以較低成本、快速構(gòu)建高質(zhì)量的資源稀缺語(yǔ)言的跨語(yǔ)言可比語(yǔ)料庫(kù),進(jìn)而為資源稀缺語(yǔ)言的自然語(yǔ)言處理提供資源。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹。顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例。

圖1為本發(fā)明實(shí)施例提供的基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法流程示意圖;

圖2(a)為基于圖片搜索的同一主題的中文文本舉例;

圖2(b)為基于圖片搜索的同一主題的英文文本舉例;

圖2(c)為基于圖片搜索的同一主題的阿拉伯文文本舉例;

圖2(d)為基于圖片搜索的同一主題的西班牙文本舉例;

圖2(e)為基于圖片搜索的同一主題的傳統(tǒng)蒙古文文本舉例;

圖2(f)為基于圖片搜索的同一主題的藏文文本舉例;

圖3為本發(fā)明實(shí)施例提供的一種具體實(shí)施例流程圖;

圖4為本發(fā)明實(shí)施例提供的一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng)結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖和實(shí)施例,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚地描述。

圖1為本發(fā)明實(shí)施例提供的基于一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法流程示意圖,如圖1所述,該方法包括:

S110,下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片。

S120,搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本。

圖2為基于圖片搜索的同一主題的多語(yǔ)言文本舉例,具體地,(a)為中文文本,(b)為英文文本,(c)為阿拉伯文文本,(d)為西班牙文本,(e)為傳統(tǒng)蒙古文文本,(f)為藏文文本。由圖2可知,圖片能夠不受語(yǔ)言限制、直觀反應(yīng)文本主題,擁有相同或相似圖片的不同語(yǔ)言文本通常為同一主題,因此可以通過(guò)圖片搜索的方法搜集與資源稀缺語(yǔ)言文本相同或相似的其他語(yǔ)言網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本。

S130,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體。

S140,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值。

需要說(shuō)明的是,S140之前還包括:基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。

具體地,基于所述特征根據(jù)徑向基(Radial Basis Function,簡(jiǎn)稱RBF)函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:

其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

其中,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:

在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在較少語(yǔ)言網(wǎng)頁(yè)和較多語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。

S150,選取相似度值最好的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本。

S160,重復(fù)S120至S150,直至所有含有圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)找到資源豐富語(yǔ)言的可比文本為止。

下面通過(guò)具體的示例對(duì)本發(fā)明實(shí)施例如何基于圖片構(gòu)建資源稀缺語(yǔ)言可比資料庫(kù)的過(guò)程進(jìn)行說(shuō)明。

圖3為本發(fā)明實(shí)施例提供的一種具體實(shí)施例流程圖,如圖3所示,基于圖片構(gòu)建資源稀缺語(yǔ)言可比資料庫(kù)的過(guò)程具體如下:

S110,下載含有資源稀缺語(yǔ)言的網(wǎng)頁(yè),并作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片。

在互聯(lián)網(wǎng)上,下載含有資源稀缺語(yǔ)言的網(wǎng)頁(yè),總數(shù)量為m。

首先判斷資源稀缺語(yǔ)言的第k個(gè)網(wǎng)頁(yè)中是否含有圖片信息,若不含有圖片,則判斷第k--網(wǎng)頁(yè)(第k-1網(wǎng)頁(yè),即下一個(gè)網(wǎng)頁(yè))中是否含有圖片;若第k網(wǎng)頁(yè)中含有圖片,則該網(wǎng)頁(yè)作為資源稀缺語(yǔ)言文本。

判斷所有含圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)是否已經(jīng)處理完,若已經(jīng)處理完,則構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)到此結(jié)束;若沒(méi)有處理完,則對(duì)資源稀缺語(yǔ)言文本i進(jìn)行可比語(yǔ)料庫(kù)的構(gòu)建。

對(duì)資源稀缺語(yǔ)言文本i的處理過(guò)程如下:

S120,應(yīng)用圖片搜索工具搜索包含與資源稀缺語(yǔ)言文本i相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本j。

S130,對(duì)資源稀缺語(yǔ)言文本i和特定語(yǔ)言文本j進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體。

其中,文本中的圖片屬于文本外特征,而文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體均屬于文本內(nèi)特征。

S140,首先,基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯;然后,基于所述特征根據(jù)RBF函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:

其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。

其中,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:

在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在資源稀缺語(yǔ)言網(wǎng)頁(yè)和資源豐富語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。比如:在實(shí)驗(yàn)過(guò)程的初期,可以分別賦予文中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體各占1/5的權(quán)重值,后期再根據(jù)相似情況,調(diào)整各特征的權(quán)重值,直至合適為止。

S150,選取相似度值最高的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本,放入資源稀缺語(yǔ)言的可比預(yù)料庫(kù)中。

S160,重復(fù)S120至S150,直至所有含有圖片的資源稀缺語(yǔ)言網(wǎng)頁(yè)找到資源豐富語(yǔ)言的可比文本為止。

與上述方法實(shí)施例相對(duì)應(yīng)的,本發(fā)明實(shí)施例還提供了一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng),具體如圖4所示,該系統(tǒng)400包括:下載模塊401、搜索模塊402、提取模塊403、計(jì)算模塊404及選取模塊405。

下載模塊401,用于下載資源稀缺語(yǔ)言的網(wǎng)頁(yè),作為資源稀缺語(yǔ)言文本,所述網(wǎng)頁(yè)包括文本中的圖片。

搜索模塊402,用于搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè),作為資源豐富語(yǔ)言文本。

提取模塊403,對(duì)所述資源稀缺語(yǔ)言和資源豐富語(yǔ)言的網(wǎng)頁(yè)進(jìn)行特征提取,所述特征包括:文本中的圖片、文本發(fā)布時(shí)間、文本中的數(shù)字、時(shí)間及命名實(shí)體。

計(jì)算模塊404,基于所述特征計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度值。

選取模塊405,選取相似度值最高的資源豐富語(yǔ)言文本作為資源稀缺語(yǔ)言文本的可比文本。

所述搜索模塊401,具體用于應(yīng)用圖片搜索方法搜索包含所述資源稀缺語(yǔ)言文本相同或相似圖片的資源豐富語(yǔ)言的網(wǎng)頁(yè)。

所述系統(tǒng)還包括:翻譯模塊406,用于基于音譯和簡(jiǎn)單意譯對(duì)文本中的數(shù)字、時(shí)間以及命名實(shí)體翻譯。

所述計(jì)算模塊404,具體用于基于所述特征根據(jù)徑向基函數(shù)計(jì)算具有相同或相似圖片的資源稀缺語(yǔ)言和資源豐富語(yǔ)言網(wǎng)頁(yè)的相似度:

其中,xid和yjd分別是資源稀缺語(yǔ)言文本i和資源豐富語(yǔ)言文本j的第d個(gè)特征值,βd是文本相似度特征的權(quán)重,σ為函數(shù)的寬度參數(shù),控制了函數(shù)的徑向作用范圍。其中,所述文本相似度特征的權(quán)重通過(guò)以下方式獲得:

在實(shí)驗(yàn)過(guò)程中,根據(jù)文本中的圖片、文本發(fā)布時(shí)間、文本中的時(shí)間、數(shù)字以及命名實(shí)體在較少語(yǔ)言網(wǎng)頁(yè)和較多語(yǔ)言網(wǎng)頁(yè)中的相似度情況,分別賦予不同的權(quán)重值。

本發(fā)明實(shí)施例提供的上述基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng)中各部件所執(zhí)行的功能均已經(jīng)在上述實(shí)施例提供的一種基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的方法中做了詳細(xì)介紹,這里不再贅述。

本發(fā)明實(shí)施例提供的基于圖片構(gòu)建資源稀缺語(yǔ)言可比語(yǔ)料庫(kù)的系統(tǒng)不受一些信息處理技術(shù)(如關(guān)鍵詞抽取、機(jī)器翻譯、信息檢索)和資源(雙語(yǔ)詞典、維基百科等)的限制,可以以較低成本、快速構(gòu)建高質(zhì)量的資源稀缺語(yǔ)言的跨語(yǔ)言可比語(yǔ)料庫(kù),進(jìn)而為資源稀缺語(yǔ)言的自然語(yǔ)言處理提供資源。

專業(yè)人員應(yīng)該還可以進(jìn)一步意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來(lái)實(shí)現(xiàn),為了清楚地說(shuō)明硬件和軟件的可互換性,在上述說(shuō)明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來(lái)執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用使用不同方法來(lái)實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令處理器完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)是非短暫性(non-transitory)介質(zhì),例如隨機(jī)存取存儲(chǔ)器,只讀存儲(chǔ)器,快閃存儲(chǔ)器,硬盤,固態(tài)硬盤,磁帶(magnetic tape),軟盤(floppy disk),光盤(optical disc)及其任意組合。以上,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沈丘县| 清丰县| 京山县| 潮州市| 衡东县| 象山县| 罗定市| 乌审旗| 南安市| 桃园县| 霍州市| 泰州市| 甘泉县| 大方县| 威宁| 阿坝县| 大冶市| 睢宁县| 兴隆县| 子洲县| 叶城县| 龙里县| 宣威市| 萨迦县| 永定县| 漳平市| 静乐县| 麻栗坡县| 顺平县| 新平| 涞源县| 楚雄市| 涪陵区| 宜阳县| 太仓市| 鹤峰县| 东莞市| 东兴市| 通渭县| 孟州市| 惠水县|