一種結(jié)構(gòu)化的圖像描述方法
【專利摘要】本發(fā)明屬于圖像檢索【技術(shù)領(lǐng)域】,尤其涉及一種結(jié)構(gòu)化的圖像描述方法,包括:獲取進(jìn)行訓(xùn)練的圖像,并對圖像中每個物體構(gòu)造3層樹狀結(jié)構(gòu)標(biāo)簽,形成訓(xùn)練集;提取訓(xùn)練集中圖像每個物體的低層特征,訓(xùn)練得到所有候選的類,子類以及屬性相對應(yīng)的分類器,形成下一步建模所需要的中間數(shù)據(jù);構(gòu)造條件隨機(jī)場模型,訓(xùn)練得到模型參數(shù);對于待描述圖像,首先進(jìn)行圖像分割,分割出待描述圖像中包含的物體,再提取待描述圖像中每個物體的低層特征;之后利用所構(gòu)造的條件隨機(jī)場模型(CRF)及訓(xùn)練得到模型參數(shù),采用使用最大積信念傳播算法,對待描述圖像中每個物體的樹狀結(jié)構(gòu)標(biāo)簽進(jìn)行預(yù)測。本發(fā)明可以提高圖像與圖像之間的區(qū)分度,產(chǎn)生更好的檢索結(jié)果。
【專利說明】一種結(jié)構(gòu)化的圖像描述方法
所屬【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于圖像檢索【技術(shù)領(lǐng)域】,尤其涉及一種結(jié)構(gòu)化的圖像描述方法。
【背景技術(shù)】
[0002]使用更加豐富的語義信息來描述一幅圖像無論對理解該圖像還是從Web上面檢索該圖像都是及其重的。一方面,當(dāng)面對一幅新的圖像時,人們首先想知道的是圖像中的物體屬于哪個類(比如是一種動物還是一種交通工具),當(dāng)獲取到它的類信息后,更進(jìn)一步人們想知道它是屬于哪個子類(屬于鳥類,還是屬于貓科動物),此外,每種物體都具有自己特有的屬性信息,比如是否具有羽毛,是否會飛,是否食肉等等。通過這些信息,人們可以從多個角度更加精確的來理解一幅圖像,同時獲取到更多關(guān)于圖像中物體的知識。另一方面,在圖像檢索領(lǐng)域,由于計算機(jī)是使用低層特征來表示一幅圖像的,這樣由計算機(jī)給出的檢索結(jié)果并不能很好的匹配用戶的檢索意圖,為了克服圖像檢索領(lǐng)域存在的這種“語義鴻溝”,也需要我們使用更加豐富更加精確的語義信息來描述一幅圖像。
[0003]在過去的幾年中已經(jīng)涌現(xiàn)出了各種各樣的圖像描述方法,比如使用單個標(biāo)簽來描述圖像中的物體屬于動物還是植物,這種描述方法雖然指定了圖像中物體的類別,但是所蘊(yùn)含的信息非常有限,為了克服這個缺點,人們就創(chuàng)建一個標(biāo)簽庫,然后選取標(biāo)簽庫中與之相關(guān)的多個標(biāo)簽來描述圖像中的某個物體,但是標(biāo)簽庫畢竟有限,不可能覆蓋自然界中的所有物體,于是就產(chǎn)生了基于屬性的圖片描述方法,這類方法使用物體的屬性信息,比如是否會飛,是否有羽毛等去描述一幅圖像,這樣做的好處是即使遇到了一幅沒有見過的圖像,人們依然可以使用一些基本的屬性信息去描述它,從而獲取對圖像的一些感性認(rèn)識。不管這些圖像描述方法是從什么角度,使用什么信息來描述圖像的,他們的目標(biāo)都是為了獲取圖像中更加豐富的語義信息。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是提供一種的新的結(jié)構(gòu)化圖像描述方法,使用一個3層的樹狀結(jié)構(gòu)語義標(biāo)簽來描述一幅圖像,從而使描述圖像的內(nèi)容更加豐富。
[0005]本發(fā)明提出的結(jié)構(gòu)化的圖像描述方法包括如下步驟:
[0006]第一步,獲取進(jìn)行訓(xùn)練的圖像,并對圖像中每個物體構(gòu)造3層樹狀結(jié)構(gòu)標(biāo)簽,形成訓(xùn)練集:
[0007](I)獲取進(jìn)行訓(xùn)練的圖像,構(gòu)建圖像集合IMG ;
[0008](2)使用圖像分割算法分割出集合IMG中每幅圖像中所包含的物體,構(gòu)成物體集合 OBJ ;
[0009](3)對集合OBJ中的每個物體進(jìn)行標(biāo)注,標(biāo)注的內(nèi)容包括物體所屬的類,子類以及具有的屬性,形成類集合CLASS,子類集合SUBCLASS以及屬性集合ATTRIBUTE ;
[0010](4)根據(jù)標(biāo)注信息對集合OBJ中的每個物體構(gòu)造包括類-子類-屬性3層樹狀結(jié)構(gòu)標(biāo)簽,形成與OBJ相對應(yīng)的標(biāo)簽集合Y,兩個集合的元素一一對應(yīng);[0011](5)類集合CLASS中有很多相同的元素,順序掃描CLASS中的每個元素,相同的元素只保留一個,形成候選的類集合Cla,對其子類集合SUBCLASS和屬性集合ATTRIBUTE做相同的掃描,得到候選的子類集合Subcl和候選的屬性集合Attri ;
[0012](6)構(gòu)造包括:物體集合0BJ,標(biāo)簽集合Y,候選的類集合Cla,候選的子類集合Subcl以及候選的屬性集合Attri的訓(xùn)練集Tr。
[0013]第二步,提取訓(xùn)練集中圖像每個物體的低層特征,訓(xùn)練得到所有候選的類,子類以及屬性相對應(yīng)的分類器,形成下一步建模所需要的中間數(shù)據(jù)的步驟如下:
[0014](I)提取物體集合OBJ中每個物體的局部二值模式特征(LBP)特征,構(gòu)造特征集合X;
[0015](2)根據(jù)特征集合X和類集合CLASS,訓(xùn)練得到集合Cla中每個元素Wi的SVM分類器SVM_Wi,構(gòu)成與類相對應(yīng)的分類器集合Sw,同理,根據(jù)特征集合X和子類集合SUBCLASS,訓(xùn)練得到子類集合Subcl中每個元素\的SVM分類器SVM_\,構(gòu)成與子類相對應(yīng)的分類器集合Sv,根據(jù)特征集合X和屬性集合ATTRIBUTE,訓(xùn)練得到集合Attri中每個元素Uk的SVM分類器SVM_uk,構(gòu)成與屬性相對應(yīng)的分類器集合Su ;
[0016](3)在訓(xùn)練集Tr上計算分類器集合Su中每個分類器SVM_uk的查準(zhǔn)率和查全率曲線(PR曲線),根據(jù)該P(yáng)R曲線得到分類器SVM_uk的閾值threk,構(gòu)成與Su對應(yīng)的閾值集合Threshold ;
[0017](4)在訓(xùn)練集Tr上統(tǒng)計候選的類集合Cla中的每一個元素Wi和候選的子類集合Subcl中每一個元素Vj的共現(xiàn)概率Pij,即標(biāo)簽集合Y中同時具有Wi和Vi的物體數(shù)量占OBJ中總物體數(shù)N111的比例;在訓(xùn)練集Tr上統(tǒng)計候選的子類集合Subcl中每一個元素Vi和候選的屬性集合Attri中每一個元素Uk的共現(xiàn)概率gjk(即集合Y中同時具有Uk和Vi的物體數(shù)量占OBJ中總物體數(shù)Nm的比例),此外,在訓(xùn)練集Tr上統(tǒng)計含有候選的子類集合Subcl中元素Vi但不含有候選的屬性集合中元素Uk的概率q#(即集合Y中具有Vi但沒有Uk的物體數(shù)量占OBJ中總物體數(shù)Nni的比例);
[0018](5)構(gòu)造包含:分類器集合Sw, Sv, Su,閾值集合Threshold,概率統(tǒng)計數(shù)據(jù)Pij, gjk(j=I,..., Nv, k = I,..., Nu), qJk的中間數(shù)據(jù),以備下一步建模使用。
[0019]第三步,構(gòu)造條件隨機(jī)場模型(CRF),訓(xùn)練得到模型參數(shù);
[0020]第四步,對于待描述圖像,首先進(jìn)行圖像分割,分割出待描述圖像中包含的物體,再按照前述的第二步的方法,提取待描述圖像中每個物體的低層特征;之后,利用第三步構(gòu)造的條件隨機(jī)場模型(CRF)及訓(xùn)練得到模型參數(shù),采用使用最大積信念傳播算法,對待描述圖像中每個物體的3層樹狀結(jié)構(gòu)標(biāo)簽進(jìn)行預(yù)測。
[0021]本發(fā)明使用一個3層的樹狀結(jié)構(gòu)語義單元來描述圖像,從該語義單元中,用戶不光可以獲取到圖像中物體所屬的類和具體的子類信息,而且可以獲取到圖像中物體具有的屬性信息,從而產(chǎn)生對圖像內(nèi)容更加豐富和更加精確的描述,這樣可以提高圖像與圖像之間的區(qū)分度,方便在圖像檢索時消除語義鴻溝,產(chǎn)生更好的檢索結(jié)果,同時本發(fā)明亦提供給了用戶一種更加直觀的圖像內(nèi)容的展示方法,即以一個3層樹狀結(jié)構(gòu)來組織圖像的類,子類,屬性信息,方便用戶更加容易的理解圖像。
【專利附圖】
【附圖說明】[0022]圖1:CRF模型結(jié)構(gòu)示意圖。
[0023]圖2:本發(fā)明使用的訓(xùn)練集中的若干例子,其中第一行的圖像為從網(wǎng)絡(luò)上下載的自然圖像,其中的物體已經(jīng)使用矩形框標(biāo)出。第二行為每個物體相對應(yīng)的3層樹狀結(jié)構(gòu)標(biāo)簽。
[0024]圖3左圖為自然圖像,其中需要描述的物體已經(jīng)使用矩形框標(biāo)出,右圖為使用本發(fā)明提出的發(fā)明預(yù)測出的3層樹狀結(jié)構(gòu)語義標(biāo)簽。
[0025]圖4左圖為自然圖像,其中需要描述的物體已經(jīng)使用矩形框標(biāo)出,右圖為使用本發(fā)明提出的發(fā)明預(yù)測出的3層樹狀結(jié)構(gòu)語義標(biāo)簽。
【具體實施方式】
[0026]這里選取兩幅圖像作為待描述圖像,分別為圖3,圖4中左邊的圖像,使用本發(fā)明中描述的方法對其進(jìn)行預(yù)測輸出3層樹狀結(jié)構(gòu)語義單元。
[0027]首先需要訓(xùn)練得到條件隨機(jī)場(CRF)的模型參數(shù):具體步驟如下:
[0028]I,構(gòu)造訓(xùn)練集步驟如下:
[0029](I)編寫爬蟲程序下載Google圖片搜索的檢索結(jié)果中的圖像,構(gòu)成圖像集合爾G = {/mage,,…JnmgexJ ,其中Nd是集合IMG中的圖像總數(shù);
[0030](2)使用圖像分割算法分割出集合IMG中每幅圖像中所包含的物體,構(gòu)成物體集合OBJ = ^ObjfiOU *其中Nm是集合OBJ中的物體總數(shù),因為一幅圖像中可能存在多個物體,所以Nm SNd;
[0031]⑶使用Amazons Mechanical Turk工具對集合OBJ中的每個物體進(jìn)行標(biāo)注,包括物體Obj1所屬的類Class1,子類SubclaSS1以及具有的屬性attru,…,attrlp, Ip表示物體Obj1具有的屬性數(shù)目,形成類集合CL4SS = Iciassl,..- ,cto氣},子類集合SlSCLiSS = {subclass^,..-,subclass^}以及屬性集合』TTRIBUTE =知叫”…,alirh>?-..,alirn,…,α--ηρ,…,atirNJ,..};
[0032](4)根據(jù)標(biāo)注信息對集合OBJ中的每個物體Obj1構(gòu)造3層樹狀結(jié)構(gòu)標(biāo)簽(類-子類-屬性)Y1 = Iclass1, SubclaSS1, attrn,…,attrlp},形成與OBJ相對應(yīng)的標(biāo)簽集合
(兩個集合的元素一一對應(yīng));
[0033](5)類集合CLASS中有很多相同的元素,順序掃描CLASS中的每個元素,相同的元素只保留一個,形成候選的類集合<^? = 1nv,wv.},其中Nw是集合Cla中不同元素的總數(shù),對子類集合SUBCLASS和屬性集合ATTRIBUTE做相同的掃描,得到候選的子類集合Subcl= !V1,…,VaJ和候選的屬性集合AM = UiJ , Nv和Nu分別是集合Subcl和Attri中不同元素的總數(shù);
[0034](6)構(gòu)造包括:物體集合OBJ=興..., Obj,m M示簽集合Y = ^…,匕> 候選的類集合Cia= {Wl,…,^},候選的子類集合Subd-{V,,...,V、}以及候選的屬性集合Attri= I的訓(xùn)練集Tr。生成的訓(xùn)練集如圖2所示。
[0035]2,處理數(shù)據(jù)步驟如下:
[0036](I)提取物體集合OBJ中每個物體Obj1 (I = I,…,Nm)的局部二值模式特征(LocalBinary Patterns) LBP 特征 X1,構(gòu)造Λ = {為,"% A乂 f 的特征集合;
[0037](2)根據(jù)特征集合 I = WdJ 和類集合=
訓(xùn)練得到集合Cla中每個元素Wi的SVM分類器SVM_Wi,構(gòu)成與類相對應(yīng)的分類器集合Sw = {SFM_uh-,Sm_wK l.同理,根據(jù)特征集合X = Pf1,…,XaJ和子類集合SUBCLASS = {subclass,..% subclass^},訓(xùn)練得到集合Subcl中a每個元素Vj的SVM分類器SVM_Vj,構(gòu)成與子類相對應(yīng)的分類器集合X = {S爾—V、, * * 'SVM—ι、J-,根據(jù)I = {Χ^,.}和屬佐集令A(yù)TTRIBUTE = {aitrw*.^attrlp,…,attrn,*.*?α?(ηρ,..,,aUr、》,…,attrNmP,,訓(xùn)練得到
集合Attri中每個元素Uk的SVM分類器SVM_uk,構(gòu)成與屬性相對應(yīng)的分類器集合Su = [SVMjh,...,SVM—u% \ s
[0038](3)在訓(xùn)練集Tr上計算集合Su中每個分類器SVM_uk的查準(zhǔn)率和查全率曲線(PR曲線),根據(jù)該P(yáng)R曲線得到SVM_uk的閾值threk,構(gòu)成與Su對應(yīng)的閾值集合Threshold = -1threl,..,Ihres \ ;
[0039](4)在訓(xùn)練集Tr上統(tǒng)計集合Cla中的每一個元素Wi (i = 1,2,...,Nw)和集合Subcla 中每一個元素 V」(j = 1,2,, Nv)的共現(xiàn)概率 PijQ = 1,...,Nw, j = 1,...,Nv)(即集合Y中同時具有Wi和Vi的物體數(shù)量占OBJ中總物體數(shù)Nm的比例);在訓(xùn)練集Tr上統(tǒng)計集合Subcla中每一個元素Vi (i = 1,2,...,Nv)和集合Attri中每一個元素uk(k =
1.2....,Nu)的共現(xiàn)概率 gjk(j = I,..., Nv, k = I,..., Nu)(即集合 Y 中同時具有 Uk 和 Vi的物體數(shù)量占OBJ中總物體數(shù)Nm的比例),此外,在訓(xùn)練集Tr上統(tǒng)計含有集合Subcla中元素 Vi (i = 1,2,...,Nv)但不含有集合 Attri 中元素 uk (k = 1,2,..., Nu)的概率 qjk(j =
1.,.., Nv, k = I,..., Nu)(即集合Y中具有Vi但沒有Uk的物體數(shù)量占OBJ中總物體數(shù)Nm的比例);
[0040]⑶構(gòu)造包含:分類器集合=
【權(quán)利要求】
1.一種結(jié)構(gòu)化的圖像描述方法,包括下列步驟: 第一步,獲取進(jìn)行訓(xùn)練的圖像,并對圖像中每個物體構(gòu)造3層樹狀結(jié)構(gòu)標(biāo)簽,形成訓(xùn)練集: (1)獲取進(jìn)行訓(xùn)練的圖像,構(gòu)建圖像集合IMG; (2)使用圖像分割算法分割出集合IMG中每幅圖像中所包含的物體,構(gòu)成物體集合OBJ; (3)對集合OBJ中的每個物體進(jìn)行標(biāo)注,標(biāo)注的內(nèi)容包括物體所屬的類,子類以及具有的屬性,形成類集合CLASS,子類集合SUBCLASS以及屬性集合ATTRIBUTE ; (4)根據(jù)標(biāo)注信息對集合OBJ中的每個物體構(gòu)造包括類-子類-屬性3層樹狀結(jié)構(gòu)標(biāo)簽,形成與OBJ相對應(yīng)的標(biāo)簽集合Y,兩個集合的元素一一對應(yīng); (5)類集合CLASS中有很多相同的元素,順序掃描CLASS中的每個元素,相同的元素只保留一個,形成候選的類集合Cl a,對其子類集合SUBCLASS和屬性集合ATTRIBUTE做相同的掃描,得到候選的子類集合Subcl和候選的屬性集合Attri ; (6)構(gòu)造包括:物體集合0BJ,標(biāo)簽集合Y,候選的類集合Cla,候選的子類集合Subcl以及候選的屬性集合Attri的訓(xùn)練集Tr。 第二步,提取訓(xùn)練集中圖像每個物體的低層特征,訓(xùn)練得到所有候選的類,子類以及屬性相對應(yīng)的分類器,形成下一步建模所需要的中間數(shù)據(jù)的步驟如下: (1)提取物體集合OBJ中每個物體的局部二值模式特征(LBP)特征,構(gòu)造特征集合X;` (2)根據(jù)特征集合X和類集合CLASS,訓(xùn)練得到集合Cla中每個元素Wi的SVM分類器SVM_wi;構(gòu)成與類相對應(yīng)的分類器集合Sw,同理,根據(jù)特征集合X和子類集合SUBCLASS,訓(xùn)練得到子類集合Subcl中每個元素\的SVM分類器SVM_\,構(gòu)成與子類相對應(yīng)的分類器集合Sv,根據(jù)特征集合X和屬性集合ATTRIBUTE,訓(xùn)練得到集合Attri中每個元素Uk的SVM分類器SVM_uk,構(gòu)成與屬性相對應(yīng)的分類器集合Su ; (3)在訓(xùn)練集Tr上計算分類器集合Su中每個分類器SVM_uk的查準(zhǔn)率和查全率曲線(PR曲線),根據(jù)該P(yáng)R曲線得到分類器SVM_uk的閾值threk,構(gòu)成與Su對應(yīng)的閾值集合Threshold ; (4)在訓(xùn)練集Tr上統(tǒng)計候選的類集合Cla中的每一個元素Wi和候選的子類集合Subcl中每一個元素 ' 的共現(xiàn)概率Pu,即標(biāo)簽集合Y中同時具有Wi和Vi的物體數(shù)量占OBJ中總物體數(shù)Nm的比例;在訓(xùn)練集Tr上統(tǒng)計候選的子類集合Subcl中每一個元素Vi和候選的屬性集合Attri中每一個元素Uk的共現(xiàn)概率gjk,即集合Y中同時具有Uk和Vi的物體數(shù)量占OBJ中總物體數(shù)Nm的比例,此外,在訓(xùn)練集Tr上統(tǒng)計含有候選的子類集合Subcl中元素Vi但不含有候選的屬性集合中元素Uk的概率(?Λ,即集合Y中具有Vi但沒有%的物體數(shù)量占OBJ中總物體數(shù)Nni的比例; (5)構(gòu)造包含:分類器集合Sw,Sv, Su,閾值集合Threshold,概率統(tǒng)計數(shù)據(jù)Pij, gJk, qJk的中間數(shù)據(jù),以備下一步建模使用。 第三步,構(gòu)造條件隨機(jī)場模型(CRF),訓(xùn)練得到模型參數(shù); 第四步,對于待描述圖像,首先進(jìn)行圖像分割,分割出待描述圖像中包含的物體,再按照前述的第二步的方法,提取待描述圖像中每個物體的低層特征;之后,利用第三步構(gòu)造的條件隨機(jī)場模型(CRF)及訓(xùn)練得到模型參數(shù),采用使用最大積信念傳播算法,對待描述圖像中每個物體的3`層樹狀結(jié)構(gòu)標(biāo)簽進(jìn)行預(yù)`測。
【文檔編號】G06F17/30GK103530403SQ201310504488
【公開日】2014年1月22日 申請日期:2013年10月23日 優(yōu)先權(quán)日:2013年10月23日
【發(fā)明者】韋星星, 韓亞洪, 操曉春 申請人:天津大學(xué)