專(zhuān)利名稱(chēng):基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法
技術(shù)領(lǐng)域:
本發(fā)明屬于圖像處理技術(shù)領(lǐng)域,涉及一種基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法。
背景技術(shù):
隨著信息技術(shù)的迅猛發(fā)展,多媒體信息急劇膨脹。圖像作為一種內(nèi)涵豐富、表現(xiàn)
直觀的多媒體信息,長(zhǎng)期以來(lái)一直受到人們的關(guān)注。但是由于網(wǎng)絡(luò)上的圖像與日劇增,以
Google圖像檢索引擎為例,其可檢索的圖像已經(jīng)超過(guò)IO億張。如何在浩如煙海的圖像中,
通過(guò)有效的檢索,找到最符合用戶(hù)需求的圖像已經(jīng)成為當(dāng)前迫切需要解決的問(wèn)題。目前,圖
像檢索的技術(shù)主要有兩種基于文本的圖像檢索和基于內(nèi)容的圖像檢索。 基于文本的圖像檢索系統(tǒng)將網(wǎng)絡(luò)圖像周?chē)奈谋拘畔⑷鐖D像標(biāo)題、鏈接文本、內(nèi)
容描述等建立索引,對(duì)于用戶(hù)輸入的查詢(xún)?cè)~,使用關(guān)鍵字匹配技術(shù)進(jìn)行檢索,找到語(yǔ)義上相
關(guān)的圖像返回給用戶(hù)。然而,由于語(yǔ)義的多義性,同一關(guān)鍵字在不同的語(yǔ)義環(huán)境下代表不同
的含義,僅僅用關(guān)鍵字匹配的方式往往并不能返回給用戶(hù)理想的結(jié)果。 基于內(nèi)容的圖像檢索旨在從圖像數(shù)據(jù)庫(kù)中找出與查詢(xún)圖像內(nèi)容相似的圖像。它利用從圖像中自動(dòng)抽取出來(lái)的底層特征,如顏色、紋理、輪廓和形狀等特征,進(jìn)行計(jì)算和比較,檢索出符合用戶(hù)需求的結(jié)果圖像集。然而,由于圖像底層特征和高層語(yǔ)義之間的"語(yǔ)義鴻溝",視覺(jué)上相似的圖像往往在語(yǔ)義層面上存在著較大的差異性,這與用戶(hù)的檢索需求相違背,極大地制約了基于內(nèi)容的圖像檢索技術(shù)的發(fā)展。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)的缺陷,本發(fā)明目的是提出一種基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法。 為達(dá)成所述目的,本發(fā)明提出基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法,該方法包括步驟如下 步驟1 :對(duì)于用戶(hù)輸入的查詢(xún)圖像,提取多種底層特征; 步驟2 :針對(duì)每種特征分別進(jìn)行基于內(nèi)容的圖像檢索,找到視覺(jué)上相似的網(wǎng)絡(luò)圖像集; 步驟3 :用網(wǎng)絡(luò)圖像集中各圖像所對(duì)應(yīng)的相關(guān)文本信息進(jìn)行語(yǔ)義學(xué)習(xí),得到查詢(xún)圖像的語(yǔ)義表示; 步驟4 :判斷各種特征所對(duì)應(yīng)檢索圖像集在文本信息上的語(yǔ)義一致性,以語(yǔ)義一致性衡量各種特征的描述能力,并賦予不同的置信度; 步驟5 :使用查詢(xún)圖像的語(yǔ)義和語(yǔ)義一致性在圖像庫(kù)中進(jìn)行基于文本的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像的語(yǔ)義相關(guān)性;使用查詢(xún)圖像的底層特征對(duì)圖像庫(kù)中的圖像進(jìn)行基于內(nèi)容的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像視覺(jué)上的相關(guān)性;然后通過(guò)一個(gè)線(xiàn)性函數(shù)把語(yǔ)義相關(guān)性和視覺(jué)相關(guān)性融合,最終返回給用戶(hù)的圖像在語(yǔ)義層面上和視覺(jué)層面上都具有相似性。
優(yōu)選的實(shí)施例,所述多種底層特征是顏色特征、紋理特征和形狀特征。
優(yōu)選的實(shí)施例,所述的語(yǔ)義學(xué)習(xí)通過(guò)以下步驟來(lái)實(shí)現(xiàn)首先,對(duì)于網(wǎng)絡(luò)圖像集中的
每幅圖像抽取其中的文本信息,然后,過(guò)濾文本信息,去掉其中的無(wú)用詞語(yǔ);最后,將文本信
息中所有的有意義詞語(yǔ)作為候選,使用TF-IDF策略進(jìn)行排序,選取排名靠前的幾個(gè)詞語(yǔ)作
為查詢(xún)圖像的語(yǔ)義表示。 優(yōu)選的實(shí)施例,所述的線(xiàn)件函數(shù)為Sfinai = STBIK+a *SCBIK Sfinal表示圖像庫(kù)中圖像與查詢(xún)圖像的相似程度,STBIK為圖像庫(kù)中的圖像與查詢(xún)圖像的語(yǔ)義相關(guān)性,S^為圖像庫(kù)中的圖像與查詢(xún)圖像的視覺(jué)相關(guān)性,a是一個(gè)參數(shù),根據(jù)用戶(hù)不同的需求調(diào)整語(yǔ)義相關(guān)性和視覺(jué)相關(guān)性重要性的比例;如果用戶(hù)希望檢索得到語(yǔ)義上更相關(guān)的圖像,則調(diào)小a ,反之如果用戶(hù)更需要視覺(jué)上相似的圖像,則相應(yīng)的調(diào)大a 。
本發(fā)明的有益效果本發(fā)明基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法在傳統(tǒng)的基于內(nèi)容的圖像檢索技術(shù)基礎(chǔ)上融入語(yǔ)義分析,返回給用戶(hù)的結(jié)果與查詢(xún)圖像不僅在視覺(jué)上有較大的一致性,更重要的是,它們?cè)谡Z(yǔ)義上還具有極大的相關(guān)性。這更符合用戶(hù)的檢索需求。
圖1為本發(fā)明整體構(gòu)架流程圖; 圖2為基于內(nèi)容的網(wǎng)絡(luò)圖像檢索方法和基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法實(shí)驗(yàn)對(duì)比圖。
具體實(shí)施例方式
下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明技術(shù)方案中所涉及的各個(gè)細(xì)節(jié)問(wèn)題。應(yīng)指出的是,
所描述的實(shí)施例僅旨在便于對(duì)本發(fā)明的理解,而對(duì)其不起任何限定作用。 本發(fā)明通過(guò)對(duì)用戶(hù)輸入的查詢(xún)圖像進(jìn)行語(yǔ)義分析,得到它的語(yǔ)義特性,并結(jié)合圖
像的視覺(jué)特性進(jìn)行聯(lián)合檢索,返回給用戶(hù)語(yǔ)義和內(nèi)容上都相似的圖像。如圖l示出本發(fā)明
整體構(gòu)架流程圖包括的五個(gè)部分(l)提取圖像的底層特征,如顏色特征,紋理特征,形狀
特征。(2)對(duì)每一種特征使用基于內(nèi)容的圖像檢索找出視覺(jué)上相似的圖像集。(3)對(duì)上面
得到的視覺(jué)相似的圖像集進(jìn)行語(yǔ)義學(xué)習(xí),得到幾個(gè)關(guān)鍵字來(lái)表述查詢(xún)圖像。(4)通過(guò)語(yǔ)義一
致性來(lái)衡量各個(gè)特征的描述能力,描述能力強(qiáng)的特征給與更高的置信度。(5)使用學(xué)習(xí)到的
圖像語(yǔ)義和圖像的底層特征進(jìn)行聯(lián)合檢索,找出語(yǔ)義和視覺(jué)上都相似的圖像。 顏色特征、紋理特征和形狀特征被廣泛的應(yīng)用在基于內(nèi)容的圖像檢索中。顏色是
彩色圖像的重要特征,也是彩色圖像給人的第一印象。紋理是物體表面某種變化或分布規(guī)
律的表現(xiàn),在圖像中表現(xiàn)為顏色或明暗的某種規(guī)律變化。圖像中物體的形狀是圖像的重要
特征,根據(jù)物體的形狀可以大致判斷物體的類(lèi)型。 基于內(nèi)容的圖像檢索常用來(lái)尋找與查詢(xún)圖像視覺(jué)上相似的圖像。它首先提取圖像的底層視覺(jué)特征,并將圖像的底層特征映射為高維空間的一個(gè)點(diǎn)。然后,使用空間點(diǎn)的距離函數(shù)來(lái)衡量查詢(xún)圖像與圖像庫(kù)中的圖像視覺(jué)上的相關(guān)性,排序得到與查詢(xún)圖像最相似的圖像。但在實(shí)際應(yīng)用中,圖像的底層特征通常具有較高的維數(shù),計(jì)算圖像庫(kù)中每幅圖像與查詢(xún)圖像之間的相似性并進(jìn)行排序是一項(xiàng)費(fèi)時(shí)的工作,這對(duì)于實(shí)時(shí)性要求較高的海量網(wǎng)絡(luò)圖像
4檢索來(lái)說(shuō)是不現(xiàn)實(shí)的。本發(fā)明使用局部敏感性哈希算法(LSH)來(lái)加速這一檢索過(guò)程。LSH是一種相似性度量的近似方法,它能在線(xiàn)性時(shí)間完成相似性度量。LSH將空間劃分為若干個(gè)小區(qū)域,對(duì)圖像庫(kù)中的每幅圖像,提取得到它的底層視覺(jué)特征,然后通過(guò)一組哈希函數(shù)將這些圖像都映射到小區(qū)域內(nèi),相似的圖像映射到同一個(gè)區(qū)域或者相鄰區(qū)域內(nèi)。這樣,對(duì)于用戶(hù)輸入的查詢(xún)圖像,通過(guò)同樣的哈希函數(shù)映射到某個(gè)區(qū)域內(nèi),與它位于同一區(qū)域內(nèi)或者相鄰
區(qū)域內(nèi)的圖像就是我們要找的相似圖像。本發(fā)明所用到的哈希函數(shù)為
其中V是圖像的d維底層視覺(jué)特征,m是一個(gè)d維的隨機(jī)向量,W為歸一化參數(shù),n是[O,W]中的一個(gè)隨機(jī)數(shù)。 語(yǔ)義學(xué)習(xí)用于從每個(gè)特征得到的視覺(jué)相似的網(wǎng)絡(luò)圖像集尋找他們?cè)谡Z(yǔ)義上的共性,并抽取幾個(gè)關(guān)鍵字來(lái)描述檢索圖像。首先,對(duì)于圖像集中的每幅圖像,我們抽取其中的文本信息,如圖像標(biāo)題、圖像鏈接文本、圖像描述等。然后,將文本信息中的無(wú)用詞語(yǔ)過(guò)濾。網(wǎng)絡(luò)圖像周?chē)奈谋拘畔⑼^多的噪聲,許多詞對(duì)描述圖像沒(méi)有任何意義,我們對(duì)文本信息進(jìn)行詞性分析,將對(duì)描述圖像沒(méi)有意義的副詞、介詞、連詞、助詞、擬聲詞和嘆詞等濾除。最后,將文本信息中的有意義詞語(yǔ)作為候選,使用TF-IDF策略進(jìn)行排序,選取排名靠前的幾個(gè)詞語(yǔ)作為檢索圖像的文本表示。TF-IDF是一種統(tǒng)計(jì)方法,常用來(lái)評(píng)估字或者詞語(yǔ)對(duì)于一個(gè)文檔集的重要程度。在一份給定的文檔里,詞頻(term frequency, TF)指的是某一個(gè)給定的詞語(yǔ)在該文檔中出現(xiàn)的次數(shù)。逆向文檔頻率(inverse document frequency,IDF)是一個(gè)詞語(yǔ)普遍重要性的度量。某一特定詞語(yǔ)的IDF,可以由總文檔數(shù)目除以包含該詞語(yǔ)之文檔的數(shù)目,再將得到的商取對(duì)數(shù)得到。某一特定文檔內(nèi)的高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)文檔集合中的低文檔頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見(jiàn)的詞語(yǔ),保留重要的詞語(yǔ)。 在使用基于內(nèi)容的圖像檢索尋找視覺(jué)相似的圖像過(guò)程中,考慮到不同的特征在不同的環(huán)境下描述能力不同,使用了多個(gè)特征分別進(jìn)行檢索。這樣就需要對(duì)各個(gè)特征的描述能力進(jìn)行判斷。對(duì)于描述能力強(qiáng)的特征,我們應(yīng)該給與更高的置信度,它學(xué)習(xí)得到的圖像語(yǔ)義更可信,在最后的聯(lián)合檢索中該特征應(yīng)給與更高的權(quán)值。這里使用語(yǔ)義一致性來(lái)衡量各種特征的描述能力。對(duì)于某種特征得到的視覺(jué)相似圖像集,如果它們之間在語(yǔ)義上也有較大的相關(guān)性,表明該特征能較好的描述圖像,檢索得到的結(jié)果能更好地滿(mǎn)足用戶(hù)的需求。也就是說(shuō)圖像集的語(yǔ)義一致性越高,則該特征描述能力越強(qiáng)。我們將圖像集中每幅圖像周?chē)奈谋拘畔⒈硎境烧Z(yǔ)義向量,并映射到語(yǔ)義空間上的一個(gè)點(diǎn),這樣如果圖像集的點(diǎn)的分布越集中,表示它們的語(yǔ)義一致性越高,相應(yīng)地就給與該特征更高的置信度。
使用查詢(xún)圖像的語(yǔ)義和語(yǔ)義一致性在圖像庫(kù)中進(jìn)行基于文本的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像的語(yǔ)義相關(guān)性;使用查詢(xún)圖像的底層特征對(duì)圖像庫(kù)中的圖像進(jìn)行基于內(nèi)容的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像視覺(jué)上的相關(guān)性。然后通過(guò)一個(gè)線(xiàn)性函數(shù)把兩者融合,排名靠前的圖像與查詢(xún)圖像語(yǔ)義和視覺(jué)上都有相似性。線(xiàn)性函數(shù)的定義如下 Sfinal = STBIK+ a *SCBIK 其中Sfiw表示圖像庫(kù)中圖像與查詢(xún)圖像的相似程度,ST,表示圖像庫(kù)中圖像和查詢(xún)圖像在語(yǔ)義上的相似性,S^表示圖像庫(kù)中圖像與查詢(xún)圖像在視覺(jué)上的相似性。a是一個(gè)參數(shù),根據(jù)用戶(hù)需求調(diào)整語(yǔ)義相關(guān)性和視覺(jué)相關(guān)性重要性的比例。如果用戶(hù)需要語(yǔ)義上更相關(guān)的圖像,則調(diào)小a ,反之如果用戶(hù)更需要視覺(jué)上相似的圖像,則相應(yīng)的調(diào)大a。
ST^是圖像庫(kù)中圖像和查詢(xún)圖像在語(yǔ)義上的相似性。但在本發(fā)明中,使用了多個(gè)特征進(jìn)行檢索,且每個(gè)特征都學(xué)習(xí)到了幾個(gè)關(guān)鍵字代表查詢(xún)圖像。因此,St,定乂如下 5畫(huà)=2 q、 其中,Cj表示第j個(gè)特征的語(yǔ)義一致性,^^表示用第j個(gè)特征學(xué)習(xí)到的關(guān)鍵字作
為查詢(xún)文本,圖像庫(kù)中的所有圖像和它的語(yǔ)義相關(guān)性。
相應(yīng)地,SeBIK定義如下 SCSM = ^ 。.5"力 其中,S勺表示使用第j個(gè)特征描述時(shí),圖像庫(kù)中的所有圖像與查詢(xún)圖像的視覺(jué)相似性。 為了驗(yàn)證方法的有效性,我們分別搭建一個(gè)基于內(nèi)容的網(wǎng)絡(luò)圖像檢索平臺(tái)和基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索平臺(tái)做實(shí)驗(yàn)。實(shí)驗(yàn)中所有的數(shù)據(jù)都從Google和Flickr上爬取,圖像庫(kù)一共包含八百萬(wàn)幅圖像。 我們邀請(qǐng)了多個(gè)測(cè)試人員在這兩個(gè)平臺(tái)上實(shí)驗(yàn),并對(duì)檢索結(jié)果進(jìn)行評(píng)估。平均準(zhǔn)確率MAP (Mean Average Precision)是信息檢索的常用評(píng)價(jià)指標(biāo),常被用來(lái)衡量檢索結(jié)果的好壞,它是檢索出的每幅圖像的準(zhǔn)確率的平均值。系統(tǒng)檢索出來(lái)的相關(guān)圖像越靠前(rank越高),MAP就可能越高。結(jié)果表明,基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法(MAP = 0.27)要遠(yuǎn)好于基于內(nèi)容的圖像檢索方法(MAP = 0. 18)。圖2為基于內(nèi)容的網(wǎng)絡(luò)圖像檢索方法和基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法實(shí)驗(yàn)對(duì)比圖。 其中,左邊第一列是用戶(hù)輸入的查詢(xún)圖像,右邊的五列是查詢(xún)結(jié)果。第1,3,5行為基于內(nèi)容的網(wǎng)絡(luò)圖像檢索方法的實(shí)驗(yàn)結(jié)果,2,4,6行為基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法的實(shí)驗(yàn)結(jié)果。 以上所述,僅為本發(fā)明中的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書(shū)的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
一種基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法,其特征在于,該方法包括步驟如下步驟1對(duì)于用戶(hù)輸入的查詢(xún)圖像,提取多種底層特征;步驟2針對(duì)每種特征分別進(jìn)行基于內(nèi)容的圖像檢索,找到視覺(jué)上相似的網(wǎng)絡(luò)圖像集;步驟3用網(wǎng)絡(luò)圖像集中各圖像所對(duì)應(yīng)的相關(guān)文本信息進(jìn)行語(yǔ)義學(xué)習(xí),得到查詢(xún)圖像的語(yǔ)義表示;步驟4判斷各種特征所對(duì)應(yīng)檢索圖像集在文本信息上的語(yǔ)義一致性,以語(yǔ)義一致性衡量各種特征的描述能力,并賦予不同的置信度;步驟5使用查詢(xún)圖像的語(yǔ)義和語(yǔ)義一致性在圖像庫(kù)中進(jìn)行基于文本的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像的語(yǔ)義相關(guān)性;使用查詢(xún)圖像的底層特征對(duì)圖像庫(kù)中的圖像進(jìn)行基于內(nèi)容的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像視覺(jué)上的相關(guān)性;然后通過(guò)一個(gè)線(xiàn)性函數(shù)把語(yǔ)義相關(guān)性和視覺(jué)相關(guān)性融合,最終返回給用戶(hù)的圖像在語(yǔ)義層面上和視覺(jué)層面上都具有相似性。
2. 根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于,所述多種底層特征是顏色特征、紋理特征和形狀特征。
3. 根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于,所述的語(yǔ)義學(xué)習(xí)通過(guò)以下步驟來(lái)實(shí)現(xiàn)首先,對(duì)于網(wǎng)絡(luò)圖像集中的每幅圖像抽取其中的文本信息,然后,過(guò)濾文本信息,去掉其中的無(wú)用詞語(yǔ);最后,將文本信息中所有的有意義詞語(yǔ)作為候選,使用TF-IDF策略進(jìn)行排序,選取排名靠前的幾個(gè)詞語(yǔ)作為查詢(xún)圖像的語(yǔ)義表示。
4. 根據(jù)權(quán)利要求1所述的圖像檢索方法,其特征在于,所述的線(xiàn)性函數(shù)為Sfinal — STBIR+ Ct *SCBIRsfinal表示圖像庫(kù)中圖像與查詢(xún)圖像的相似程度,sTBIK為圖像庫(kù)中的圖像與查詢(xún)圖像的語(yǔ)義相關(guān)性,Sc,為圖像庫(kù)中的圖像與查詢(xún)圖像的視覺(jué)相關(guān)性,a是一個(gè)參數(shù),根據(jù)用戶(hù)不同的需求調(diào)整語(yǔ)義相關(guān)性和視覺(jué)相關(guān)性重要性的比例;如果用戶(hù)希望檢索得到語(yǔ)義上更相關(guān)的圖像,則調(diào)小a ,反之如果用戶(hù)更需要視覺(jué)上相似的圖像,則相應(yīng)的調(diào)大a 。
全文摘要
本發(fā)明涉及基于語(yǔ)義分析的網(wǎng)絡(luò)圖像檢索方法,對(duì)用戶(hù)輸入的查詢(xún)圖像提取底層特征。對(duì)每種特征進(jìn)行基于內(nèi)容的圖像檢索找到視覺(jué)上相似的網(wǎng)絡(luò)圖像集。用網(wǎng)絡(luò)圖像集中各圖像所對(duì)應(yīng)的相關(guān)文本信息進(jìn)行語(yǔ)義學(xué)習(xí)得到查詢(xún)圖像的語(yǔ)義表示。判斷各種特征所對(duì)應(yīng)檢索圖像集在文本信息上的語(yǔ)義一致性,以語(yǔ)義一致性衡量各種特征的描述能力,并賦予不同的置信度。用查詢(xún)圖像的語(yǔ)義和語(yǔ)義一致性在圖像庫(kù)中進(jìn)行基于文本的圖像檢索得到圖像庫(kù)中每幅圖像與查詢(xún)圖像的語(yǔ)義相關(guān)性;用底層特征對(duì)圖像庫(kù)基于內(nèi)容的圖像檢索,得到圖像庫(kù)中每幅圖像與查詢(xún)圖像視覺(jué)上的相關(guān)性;由線(xiàn)性函數(shù)把語(yǔ)義和視覺(jué)相關(guān)性融合,返回給用戶(hù)的圖像在語(yǔ)義層面上和視覺(jué)層面上都具有相似性。
文檔編號(hào)G06F17/30GK101751447SQ20091008953
公開(kāi)日2010年6月23日 申請(qǐng)日期2009年7月22日 優(yōu)先權(quán)日2009年7月22日
發(fā)明者劉靜, 盧漢清, 桂創(chuàng)華 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所