專利名稱:基于特征場景的圖像標(biāo)注方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種自動圖像標(biāo)注方法。
背景技術(shù):
圖像標(biāo)注是一項具有挑戰(zhàn)性的工作,它對于圖像分析理解和圖像檢索都有著重要 的意義。通過對已標(biāo)注圖像集的學(xué)習(xí),建立語義概念空間與視覺特征空間之間的關(guān)系模型, 并用這個模型對未標(biāo)注的圖像集進(jìn)行標(biāo)注。由于低高級語義之間的錯綜復(fù)雜的對應(yīng)關(guān)系, 致使自動標(biāo)注的精度較低。而在場景約束條件下可以簡化標(biāo)注與視覺特征之間的映射關(guān) 系,提高自動標(biāo)注的可靠性。對學(xué)習(xí)圖像進(jìn)行場景分類,僅依賴于圖像的視覺特征顯然無法保證語義內(nèi)容的一 致性。而圖像的標(biāo)注字作為一種非常寶貴的資源,較好地反映了圖像的語義信息。如何更 好更加充分地利用標(biāo)注字信息是值得關(guān)注的。圖像所能表達(dá)的語義內(nèi)容十分豐富,一幅圖 像放在不同的環(huán)境下,可能呈現(xiàn)出不同層面的信息??梢圆捎靡唤M圖像來突出所要傳遞的 語義內(nèi)容,這樣的一組圖像就可以用來構(gòu)建一個語義場景。語義場景可由視覺和語義上都 彼此相似的一組圖像來確定。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能確保在特定場景下獲得比較完善的圖像視覺描述, 提高通過圖像視覺特征進(jìn)行自動語義標(biāo)注的可靠性的基于特征場景的圖像標(biāo)注方法。步驟1,采用圖像分割算法對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行分割,獲得圖像區(qū)域的視覺 描述;步驟2,對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行自動的語義場景聚類;步驟3,對每個場景語義類別生成特征場景空間;步驟4,對每個特征場景空間建立相應(yīng)的語義樹;步驟5,對待標(biāo)注圖像向各個特征場景空間投影,并采用投影后的視覺特征對混合 模型的擬合程度確定待標(biāo)注圖像的語義類別;對確定語義內(nèi)容的圖像,通過語義樹,獲得圖 像的最終標(biāo)注。所述對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行自動的語義場景聚類的具體方法為在用于學(xué)習(xí)的標(biāo)注圖像集中,選擇高密度區(qū)域作為語義場景聚類中心;采用共享 最近鄰聚類的方法先構(gòu)造樣本相似度矩陣,每個樣本的近鄰采用其視覺近鄰和語義標(biāo)注近 鄰的交集;接著再進(jìn)行k最近鄰的稀疏處理,并以此構(gòu)造出最近鄰圖;通過統(tǒng)計出所有樣本 點的鏈接力度,以此確立聚類中心;最后依據(jù)確定的聚類中心和剩下的最近鄰圖來進(jìn)行聚 類處理,只要語義場景聚類中心選取的足夠稠密,就避免漏掉具有明顯場景的語義類別;圖 像間的視覺距離采用多區(qū)域集成匹配的相似性測度-推土機(jī)距離;圖像間的語義距離度量 采用潛在語義分析對圖像標(biāo)注字壓縮處理,通過壓縮后的標(biāo)注向量之間的距離。所述對每個場景語義類別生成特征場景空間的具體方法為
3
視覺相似并且標(biāo)注類似的圖像聚集在一起構(gòu)成了一個語義場景;視覺和語義內(nèi)容 的重點也就隨之凸顯出來,與之相應(yīng)的圖像區(qū)域和標(biāo)注字就獲得較高的權(quán)值;對每個語義 類別按照視覺特征進(jìn)行主元提取,形成特征場景空間,對每個特征場景空間采用混合模型 方法對特征空間進(jìn)行描述。所述對每個特征場景空間建立相應(yīng)的語義樹的方法為對特征場景中的標(biāo)注字,首先采用潛在語義分析方法,降低標(biāo)注字的維數(shù),將降維 后的圖像標(biāo)注字向量之間的距離作為圖像間的語義相似度;并通過計算圖像間語義距離建 立特征場景下的語義圖,進(jìn)一步采用規(guī)格化切分的二分算法將特定場景下的語義圖轉(zhuǎn)換為 相應(yīng)的語義二叉樹,樹的頂點對應(yīng)場景中所有圖像,出現(xiàn)頻度較低的標(biāo)注字的圖像對應(yīng)樹 的底端葉子節(jié)點。本發(fā)明利用圖像的視覺和語義(標(biāo)注字)兩個方面的信息對圖像的場景進(jìn)行聚 類,用一組圖像來突出一個特定的場景,增加標(biāo)注的語義內(nèi)容一致性。對于特定的場景,建 立一個與之對應(yīng)的語義樹,其中根節(jié)點對應(yīng)該場景出現(xiàn)頻率最高的常用標(biāo)注字,而葉子節(jié) 點對應(yīng)該場景內(nèi)一些較為特別標(biāo)注字。隨著樹的生長,相應(yīng)葉子節(jié)點的標(biāo)注字的出現(xiàn)頻率 逐漸降低。則在根節(jié)點處聚集了該場景的所有的訓(xùn)練圖像,在樹的不同的葉子節(jié)點處,訓(xùn)練 圖像會相應(yīng)的減少。本發(fā)明充分利用了學(xué)習(xí)圖像的標(biāo)注字信息,對學(xué)習(xí)用的標(biāo)注圖像庫進(jìn) 行自動的特征場景(eigen scenes)分類,確保在特定場景下的獲得比較完善的視覺描述, 從而提高通過圖像視覺特征進(jìn)行自動語義標(biāo)注的可靠性。一般來說,具有相似場景的圖像之間應(yīng)該存在較好的區(qū)域?qū)?yīng)關(guān)系,因此我們利 用圖像區(qū)域匹配程度來檢測圖像是否具有一致的場景。但由于描述能力的不足,圖像視覺 特征存在更加明顯的歧義性,視覺相似的圖像無法保證語義內(nèi)容的一致性。而圖像的視覺 特征和標(biāo)注字之間卻存在良好的互補(bǔ)性。兩幅圖像如果在視覺上呈現(xiàn)出一定的相似性,而 且在所表達(dá)語義的標(biāo)注字上也呈現(xiàn)出相關(guān)性,則說明這兩幅圖像的語義內(nèi)容應(yīng)該是一致 的。綜上所述,本發(fā)明利用標(biāo)注字和視覺信息對標(biāo)注圖像自動場景分類,提出了一個 特征場景(eigen scenes)的概念,通過圖像的視覺和語義(標(biāo)注字)兩方面的信息對場景 進(jìn)行聚類,每個場景得到一組圖像,由于標(biāo)注字的存在能夠保證聚類結(jié)果的語義一致性。而 對特定的場景,通過建立語義樹,對待標(biāo)注圖像,通過判別其場景歸屬,再從該場景語義樹 的根部到葉子節(jié)點,得到相應(yīng)的標(biāo)注信息。
圖1是本發(fā)明的基于特征場景的圖像標(biāo)注算法流程圖。
具體實施例方式下面結(jié)合圖1對本發(fā)明的基于特征場景的圖像標(biāo)注方法做更詳細(xì)的描述步驟1,采用圖像分割算法對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行分割,獲得圖像區(qū)域的視覺 描述。步驟2,對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行自動的語義場景聚類。具體方法如下。在用于學(xué)習(xí)的標(biāo)注圖像集中,選擇高密度區(qū)域作為語義場景聚類中心。本發(fā)明采
4用共享最近鄰聚類(Shared Nearest Neighbor, SNN)的方法先構(gòu)造樣本相似度矩陣,每個 樣本的近鄰可以采用其視覺近鄰和語義標(biāo)注近鄰的交集。接著再進(jìn)行k最近鄰的稀疏處 理,并以此構(gòu)造出最近鄰圖。通過統(tǒng)計出所有樣本點的鏈接力度,以此確立聚類中心。最 后依據(jù)確定的聚類中心和剩下的最近鄰圖來進(jìn)行聚類處理,只要語義場景聚類中心選取的 足夠稠密,就可以避免漏掉具有明顯場景的語義類別。圖像間的視覺距離采用多區(qū)域集成 匹配的相似性測度-推土機(jī)距離(Earth Mover' s Distance, EMD)。圖像間的語義距離度 量采用潛在語義分析對圖像標(biāo)注字壓縮處理,通過壓縮后的標(biāo)注向量之間的距離,對于也 可以采取類似的集成匹配方法,擬采用由美國Princeton大學(xué)的科研人員設(shè)計的英語詞典 WordNet (單詞的網(wǎng)絡(luò))來衡量。步驟3,對每個場景語義類別生成特征場景空間。具體方法如下。通過步驟2,視覺相似并且標(biāo)注類似的圖像聚集在一起,就構(gòu)成了一個語義場景。 視覺和語義內(nèi)容的重點也就隨之凸顯出來,與之相應(yīng)的圖像區(qū)域和標(biāo)注字就可以獲得較高 的權(quán)值。對每個語義類別按照視覺特征進(jìn)行PCA (Principal Component Analysis,主成分 分析)主元提取,形成特征場景空間,對每個特征場景空間采用混合模型方法對特征空間 進(jìn)行描述。步驟4,對每個特征場景空間建立相應(yīng)的語義樹。對特征場景中的標(biāo)注字,首先采用潛在語義分析方法,降低標(biāo)注字的維數(shù),將降維 后的圖像標(biāo)注字向量之間的距離作為圖像間的語義相似度;并通過計算圖像間語義距離建 立特征場景下的語義圖,進(jìn)一步采用N-Cut (Normalized Cut,規(guī)格化切分)的二分算法將 特定場景下的語義圖轉(zhuǎn)換為相應(yīng)的語義二叉樹,樹的頂點對應(yīng)場景中所有圖像,出現(xiàn)頻度 較低的標(biāo)注字的圖像對應(yīng)樹的底端葉子節(jié)點。步驟5,對待標(biāo)注圖像向各個特征場景空間投影,并采用投影后的視覺特征對混合 模型的擬合程度確定待標(biāo)注圖像的語義類別。對確定語義內(nèi)容的圖像,通過語義樹,獲得圖 像的最終標(biāo)注。
權(quán)利要求
一種基于特征場景的圖像標(biāo)注方法,其特征是包括如下步驟步驟1,采用圖像分割算法對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行分割,獲得圖像區(qū)域的視覺描述;步驟2,對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行自動的語義場景聚類;步驟3,對每個場景語義類別生成特征場景空間;步驟4,對每個特征場景空間建立相應(yīng)的語義樹;步驟5,對待標(biāo)注圖像向各個特征場景空間投影,并采用投影后的視覺特征對混合模型的擬合程度確定待標(biāo)注圖像的語義類別;對確定語義內(nèi)容的圖像,通過語義樹,獲得圖像的最終標(biāo)注。
2.根據(jù)權(quán)利要求1所述的基于特征場景的圖像標(biāo)注方法,其特征是所述對用于學(xué)習(xí)的 標(biāo)注圖像進(jìn)行自動的語義場景聚類的具體方法為在用于學(xué)習(xí)的標(biāo)注圖像集中,選擇高密 度區(qū)域作為語義場景聚類中心;采用共享最近鄰聚類的方法先構(gòu)造樣本相似度矩陣,每個 樣本的近鄰采用其視覺近鄰和語義標(biāo)注近鄰的交集;接著再進(jìn)行k最近鄰的稀疏處理,并 以此構(gòu)造出最近鄰圖;通過統(tǒng)計出所有樣本點的鏈接力度,以此確立聚類中心;最后依據(jù) 確定的聚類中心和剩下的最近鄰圖來進(jìn)行聚類處理,只要語義場景聚類中心選取的足夠稠 密,就避免漏掉具有明顯場景的語義類別;圖像間的視覺距離采用多區(qū)域集成匹配的相似 性測度_推土機(jī)距離;圖像間的語義距離度量采用潛在語義分析對圖像標(biāo)注字壓縮處理, 通過壓縮后的標(biāo)注向量之間的距離。
3.根據(jù)權(quán)利要求1或2所述的基于特征場景的圖像標(biāo)注方法,其特征是所述對每個場 景語義類別生成特征場景空間的具體方法為視覺相似并且標(biāo)注類似的圖像聚集在一起構(gòu) 成了一個語義場景;視覺和語義內(nèi)容的重點也就隨之凸顯出來,與之相應(yīng)的圖像區(qū)域和標(biāo) 注字就獲得較高的權(quán)值;對每個語義類別按照視覺特征進(jìn)行主元提取,形成特征場景空間, 對每個特征場景空間采用混合模型方法對特征空間進(jìn)行描述。
4.根據(jù)權(quán)利要求1或2所述的基于特征場景的圖像標(biāo)注方法,其特征是所述對每個特 征場景空間建立相應(yīng)的語義樹的方法為對特征場景中的標(biāo)注字,首先采用潛在語義分析 方法,降低標(biāo)注字的維數(shù),將降維后的圖像標(biāo)注字向量之間的距離作為圖像間的語義相似 度;并通過計算圖像間語義距離建立特征場景下的語義圖,進(jìn)一步采用規(guī)格化切分的二分 算法將特定場景下的語義圖轉(zhuǎn)換為相應(yīng)的語義二叉樹,樹的頂點對應(yīng)場景中所有圖像,出 現(xiàn)頻度較低的標(biāo)注字的圖像對應(yīng)樹的底端葉子節(jié)點。
5.根據(jù)權(quán)利要求3所述的基于特征場景的圖像標(biāo)注方法,其特征是所述對每個特征場 景空間建立相應(yīng)的語義樹的方法為對特征場景中的標(biāo)注字,首先采用潛在語義分析方法, 降低標(biāo)注字的維數(shù),將降維后的圖像標(biāo)注字向量之間的距離作為圖像間的語義相似度;并 通過計算圖像間語義距離建立特征場景下的語義圖,進(jìn)一步采用規(guī)格化切分的二分算法將 特定場景下的語義圖轉(zhuǎn)換為相應(yīng)的語義二叉樹,樹的頂點對應(yīng)場景中所有圖像,出現(xiàn)頻度 較低的標(biāo)注字的圖像對應(yīng)樹的底端葉子節(jié)點。
全文摘要
本發(fā)明提供的是一種基于特征場景的圖像標(biāo)注方法。1、采用圖像分割算法對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行分割,獲得圖像區(qū)域的視覺描述;2、對用于學(xué)習(xí)的標(biāo)注圖像進(jìn)行自動的語義場景聚類;3、對每個場景語義類別生成特征場景空間;4、對每個特征場景空間建立相應(yīng)的語義樹;5、對待標(biāo)注圖像向各個特征場景空間投影,并采用投影后的視覺特征對混合模型的擬合程度確定待標(biāo)注圖像的語義類別;對確定語義內(nèi)容的圖像,通過語義樹,獲得圖像的最終標(biāo)注。本發(fā)明充分利用了學(xué)習(xí)圖像的標(biāo)注字信息,對學(xué)習(xí)用的標(biāo)注圖像庫進(jìn)行自動的特征場景分類,確保在特定場景下的獲得比較完善的視覺描述,從而提高通過圖像視覺特征進(jìn)行自動語義標(biāo)注的可靠性。
文檔編號G06F17/30GK101963995SQ20101051707
公開日2011年2月2日 申請日期2010年10月25日 優(yōu)先權(quán)日2010年10月25日
發(fā)明者劉詠梅 申請人:哈爾濱工程大學(xué)