本發(fā)明涉及計算機視覺領(lǐng)域的圖像分類識別技術(shù),特別是涉及一種基于樹結(jié)構(gòu)的圖像分類方法及其系統(tǒng)。
背景技術(shù):圖像分類是計算機視覺和機器學(xué)習(xí)領(lǐng)域的重要研究課題。對于分類任務(wù),特征起著至關(guān)重要的作用?;诰植刻卣鞯囊曈X詞袋特征(中層特征Mid-levelfeature)是處理圖像分類問題較常用的特征?,F(xiàn)有工作利用基于碼本的無監(jiān)督稀疏編碼生成中間層特征來進行分類任務(wù),取得了更好的效果。然而,傳統(tǒng)的圖像分類算法往往針對較少類別,利用無監(jiān)督稀疏編碼生成中間層特征方式結(jié)合簡單的二分型分類器模型就可以取得較好的效果。然而現(xiàn)實世界的類別極多,當(dāng)類別太多時,二分模型的分類器模型數(shù)量快速增長,分類界面容易混疊,無監(jiān)督的碼本學(xué)習(xí)生成中間層特征的方法不能挖掘?qū)ψR別有關(guān)鍵作用的視覺特征,簡單的分類器模型已經(jīng)不足以應(yīng)對海量類別的分類任務(wù)。對于海量類別,類別之間具有語義關(guān)聯(lián),利用這種關(guān)聯(lián)性對類別進行組織作為先驗結(jié)構(gòu)來指導(dǎo)分類器模型的建立。在層次結(jié)構(gòu)中,類別也具有層次化的視覺特性,有監(jiān)督的碼本更能挖掘有利于分類的視覺屬性,而先前的工作并沒有考慮這些問題。
技術(shù)實現(xiàn)要素:本發(fā)明所要解決的技術(shù)問題在于提供一種基于樹結(jié)構(gòu)的圖像分類方法及其系統(tǒng),用于克服現(xiàn)有碼本(特征)學(xué)習(xí)不能有效應(yīng)對海量類別的分類問題。為了實現(xiàn)上述目的,本發(fā)明提供了一種基于樹結(jié)構(gòu)的圖像分類方法,其特征在于,包括:步驟一,提供具有標(biāo)簽信息的樣本集合,以及根據(jù)標(biāo)簽信息的語義相關(guān)性構(gòu)建的語義樹結(jié)構(gòu);步驟二,根據(jù)該樣本集合與該語義樹結(jié)構(gòu),通過模型訓(xùn)練得到一組有監(jiān)督的碼本和分類器模型;步驟三,對于測試圖像,利用訓(xùn)練得到的有監(jiān)督的碼本組生成多個中間層特征表示,根據(jù)該中間層特征表示并利用分類器模型預(yù)測該測試圖像的類別標(biāo)簽。所述的圖像分類方法,其中,所述步驟二中,包括:對該語義樹結(jié)構(gòu)中的每個中間節(jié)點,學(xué)習(xí)對應(yīng)的一組分類器模型和碼本,該中間節(jié)點繼承祖先節(jié)點學(xué)習(xí)的碼本,該中間節(jié)點的碼本包括上層繼承的碼本和在該中間節(jié)點通過對應(yīng)的分類器模型更新得到的碼本。所述的圖像分類方法,其中,所述步驟二中,包括:根據(jù)該樣本集合與該語義樹結(jié)構(gòu),采用多項式邏輯斯蒂回歸數(shù)學(xué)模型來訓(xùn)練模型,得到一組分類器模型和碼本。所述的圖像分類方法,其中,所述步驟二中,包括:進行碼本與分類模型更新迭代,利用當(dāng)前碼本對樣本圖像中的局部特征進行編碼,利用空間融合策略將屬于該樣本圖像的點的編碼融合生成該樣本圖像的中間層特征表示,利用該中間層特征表示訓(xùn)練更新分類器模型和碼本。所述的圖像分類方法,其中,所述步驟三中,包括:對該測試圖像,在該語義樹結(jié)構(gòu)的根節(jié)點通過對應(yīng)的碼本進行編碼并利用空間融合策略生成對應(yīng)的中層特征表示,根據(jù)根節(jié)點對應(yīng)的圖像特征與判別孩子節(jié)點的分類器模型得到響應(yīng)值,選擇響應(yīng)值最大的節(jié)點,并在該節(jié)點通過對應(yīng)的碼本獲取對應(yīng)的圖像特征,以此類推,直到到達葉子節(jié)點,得到最后的類別標(biāo)簽。為了實現(xiàn)上述目的,本發(fā)明提供了一種基于樹結(jié)構(gòu)的圖像分類系統(tǒng),其特征在于,包括:信息提供模塊,用于提供具有標(biāo)簽信息的樣本集合,以及根據(jù)標(biāo)簽的語義相關(guān)性構(gòu)建的語義樹結(jié)構(gòu);模型訓(xùn)練模塊,用于根據(jù)樣本集合與語義樹結(jié)構(gòu),通過模型訓(xùn)練得到一組有監(jiān)督的碼本和分類器模型;類別預(yù)測模塊,用于對測試圖像,利用訓(xùn)練得到的有監(jiān)督的碼本組生成多個中間層特征表示,根據(jù)該中間層特征表示并利用分類器模型預(yù)測該測試圖像的類別標(biāo)簽。所述的圖像分類系統(tǒng),其中,所述模型訓(xùn)練模塊還用于:對該語義樹結(jié)構(gòu)中的每個中間節(jié)點,學(xué)習(xí)對應(yīng)的一組分類器模型和碼本,該中間節(jié)點繼承祖先節(jié)點學(xué)習(xí)的碼本,該中間節(jié)點的碼本包括上層繼承的碼本和在該中間節(jié)點通過對應(yīng)的分類器模型更新得到的碼本。所述的圖像分類系統(tǒng),其中,所述模型訓(xùn)練模塊還用于:根據(jù)該樣本集合與該語義樹結(jié)構(gòu),采用多項式邏輯斯蒂回歸數(shù)學(xué)模型來訓(xùn)練模型,得到一組分類器模型和碼本。所述的圖像分類系統(tǒng),其中,所述模型訓(xùn)練模塊還用于:進行碼本與分類模型更新迭代,利用當(dāng)前碼本對樣本圖像中的局部特征進行編碼,利用空間融合策略將屬于該樣本圖像的點的編碼融合生成該樣本圖像的中間層特征表示,利用該中間層特征表示訓(xùn)練更新分類器模型和碼本。所述的圖像分類系統(tǒng),其中,所述類別預(yù)測模塊還用于:對該測試圖像,在該樹結(jié)構(gòu)的根節(jié)點通過對應(yīng)的碼本進行編碼并利用空間融合策略生成對應(yīng)的圖像特征,根據(jù)根節(jié)點對應(yīng)的圖像特征與判別孩子節(jié)點的分類器模型得到響應(yīng)值,選擇響應(yīng)值最大的節(jié)點,并在該節(jié)點通過對應(yīng)的碼本獲取對應(yīng)的圖像特征,以此類推,直到到達葉子節(jié)點,得到最后的類別標(biāo)簽。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益技術(shù)效果:本發(fā)明涉及到海量類別的分類技術(shù)以及多層有監(jiān)督碼本學(xué)習(xí)技術(shù),提出了一種基于樹結(jié)構(gòu)的多層有監(jiān)督碼本學(xué)習(xí)方法,該方法適用于處理海量類別圖像分類問題,該方法利用有監(jiān)督的碼本學(xué)習(xí)處理極多類別的分類問題,針對海量類別的分類任務(wù)挖掘最具有判別力的視覺特征;針對海量類別分類,利用層次化結(jié)構(gòu)進行碼本以及分類器模型聯(lián)合學(xué)習(xí),挖掘利用類別的層次化視覺特性。相較于無監(jiān)督碼本學(xué)習(xí)的稀疏編碼算法,該發(fā)明利用有監(jiān)督多層碼本學(xué)習(xí)處理海量類別的分類問題,能更好挖掘針對不同層類別分類的視覺特征。利用層次結(jié)構(gòu)進行碼本學(xué)習(xí),將原始的極多類問題分解為多個較易處理的多層分類子問題來逐一求解,也大大降低運算復(fù)雜度,使得有監(jiān)督的碼本學(xué)習(xí)能適用于海量類別的分類任務(wù),在可承受的時間消耗下得到較好的分類性能。以下結(jié)合附圖和具體實施例對本發(fā)明進行詳細描述,但不作為對本發(fā)明的限定。附圖說明圖1為本發(fā)明的基于樹結(jié)構(gòu)的圖像分類方法流程圖;圖2為本發(fā)明的基于樹結(jié)構(gòu)的圖像分類系統(tǒng)結(jié)構(gòu)圖;圖3為層次先驗結(jié)構(gòu);圖4為本發(fā)明的層次分類過程;圖5a、5b為本發(fā)明的多層碼本學(xué)習(xí)示例圖。具體實施方式下面結(jié)合附圖和具體實施方式對本發(fā)明的技術(shù)方案作進一步更詳細的描述。如圖1所示,為本發(fā)明的基于樹結(jié)構(gòu)的圖像分類方法流程圖。該方法包括如下步驟:步驟101,提供具有標(biāo)簽信息的樣本集合,以及根據(jù)標(biāo)簽信息的語義相關(guān)性構(gòu)建的語義樹結(jié)構(gòu);步驟102,根據(jù)樣本集合與語義樹結(jié)構(gòu),通過模型訓(xùn)練得到一組有監(jiān)督的碼本和分類器模型;步驟103,對于測試圖像,利用訓(xùn)練得到的有監(jiān)督的碼本組生成中間層特征表示,根據(jù)該中間層特征表示并利用分類器模型預(yù)測該測試圖像的類別標(biāo)簽。如圖2所示,為本發(fā)明的基于樹結(jié)構(gòu)的圖像分類系統(tǒng)結(jié)構(gòu)圖。該系統(tǒng)200包括:信息提供模塊21,用于提供具有標(biāo)簽信息的樣本集合,以及根據(jù)標(biāo)簽的語義相關(guān)性構(gòu)建的語義樹結(jié)構(gòu);模型訓(xùn)練模塊22,用于根據(jù)樣本集合與語義樹結(jié)構(gòu),通過模型訓(xùn)練得到一組有監(jiān)督的碼本和分類器模型;類別預(yù)測模塊23,用于對測試圖像,利用訓(xùn)練得到的有監(jiān)督的碼本組生成中間層特征表示,根據(jù)該中間層特征表示并利用分類器模型預(yù)測該測試圖像的類別標(biāo)簽。如圖3所示為層次先驗結(jié)構(gòu),圖4為本發(fā)明的層次分類過程。結(jié)合圖1、2,對圖3中所述的層次先驗結(jié)構(gòu)、圖4中所述的層次分類過程進行描述。對于海量類別,信息提供模塊21首先基于類別間的關(guān)聯(lián)性(語義相關(guān)性)構(gòu)建樹結(jié)構(gòu)作為先驗,中間節(jié)點表示一個相關(guān)類別的組。在越上層節(jié)點越宏觀,越下層節(jié)點越具體,如圖3所示,例如鷯雀和鵪鶉都屬于鳥類,西鯡和鯛都屬于魚類,而魚和鳥類更宏觀講都屬于動物類。類別預(yù)測模塊23利用剪枝算法逐層確定圖像所屬的類別,即測試圖像輸入樹結(jié)構(gòu),根據(jù)根節(jié)點的孩子節(jié)點的分類器模型選擇響應(yīng)值最大的節(jié)點作為圖像在當(dāng)前層的標(biāo)簽,并以該節(jié)點為根的子樹結(jié)構(gòu)繼續(xù)判別圖像的標(biāo)簽,直到達到葉子節(jié)點。如圖4所示。本發(fā)明提出了局部編碼及有監(jiān)督的碼本學(xué)習(xí)方法,其算法是基于局部編碼特征以及有監(jiān)督的碼本學(xué)習(xí)方法,局部編碼是傳統(tǒng)稀疏編碼的一種擴展,結(jié)合局部約束性來對原始特征進行編碼。對于圖像局部特征(即圖像中局部小塊提取的特征),局部編碼利用局部約束對原始特征編碼,再利用空間融合(spatialpooling)策略(將圖像劃分成多種尺度的區(qū)域,例如,分成2×2或4×4的格,對于每塊區(qū)域,位于該區(qū)域的局部特征平均得到該區(qū)域的特征,將所有區(qū)域的特征拼接生成該圖像的特征)形成中間層特征表示。對于訓(xùn)練樣本集合X=[x1,...,xn],表示樣本xi的第p個局部描述特征。對于碼本Db,根據(jù)以下公式進行編碼:碼本Db包含Kb列(元素),dj代表第j個元素,αi,p表示得到的編碼向量,μ表示一個權(quán)重常數(shù)。利用空間融合策略將屬于同一張圖像的點的編碼融合生成該幅圖像的中間層特征,該中間層特征用字符zi表示。樣本集合X=[x1,...,xn]生成的中間層特征表示為如上內(nèi)容是先根據(jù)碼本進行編碼,再利用空間融合策略進行空間融合,編碼、空間融合是生成中間層特征表示的兩個步驟,編碼步驟在前,空間融合步驟在后。有監(jiān)督的碼本學(xué)習(xí)是利用分類器模型來更新碼本,使得碼本能挖掘更具有判別信息的元素。對于樣本集合X,其對應(yīng)的類別標(biāo)簽為Y∈Rn分屬于U個類別,即y∈{1,2,...U}。采用多項式邏輯斯蒂回歸(multinomiallogisticregression)數(shù)學(xué)模型來訓(xùn)練模型。訓(xùn)練模型的具體過程描述如下:對于樣本xi,它屬于類別u的概率可以寫為:wu代表對應(yīng)于類別u的分類器(向量),Τ表示轉(zhuǎn)置,zi表示xi對應(yīng)的特征,exp表示數(shù)學(xué)里以自然對數(shù)e為底的指數(shù)函數(shù)。公式2是一種求概率的公式,是根據(jù)一系列數(shù)學(xué)公式推導(dǎo)得到的通用的計算概率的方法。整體的損失可以形式化為:I(*)是示性函數(shù),log表示對數(shù)函數(shù)。碼本和分類器模型的聯(lián)合優(yōu)化轉(zhuǎn)化為求解下面式子:最小化負log似然函數(shù)(即最大化log似然函數(shù))作為模型損失的定義,如公式3。loss是關(guān)于W,D,X,Y四個變量的方程,在該方法中,X,Y是已知變量,W,D是待求解的變量。||*||F是表示矩陣的F-范數(shù)。如圖5a、5b所示,為本發(fā)明的多層碼本學(xué)習(xí)示例圖。結(jié)合圖1-4對該多層碼本學(xué)習(xí)的過程進行描述。本發(fā)明所提出的基于樹結(jié)構(gòu)的多層碼本學(xué)習(xí),在訓(xùn)練階段,模型訓(xùn)練模塊22基于樹結(jié)構(gòu)進行有監(jiān)督的碼本學(xué)習(xí)和分類器模型訓(xùn)練。對于層次結(jié)構(gòu)中的每個中間節(jié)點,學(xué)習(xí)對應(yīng)的一組分類器模型和一個碼本。此外,下層節(jié)點需要繼承祖先節(jié)點學(xué)習(xí)的碼本,即下層碼本由兩部分組成,一是上層繼承的碼本和在該節(jié)點所特有的通過分類器模型更新得到的碼本,如圖5中(a)所示。這種繼承方式使兄弟節(jié)點共享視覺特性,并通過分類器模型合理利用這些特性。例如,對于中間節(jié)點V1,1,其對應(yīng)于碼本D1,1。該碼本D1,1由D0和D′1,1兩部分組成。D0代表從上層繼承的碼本,D′1,1代表在節(jié)點V1,1學(xué)習(xí)得到的特殊碼本。對于樣本xi,包含了從多種不同大小的圖像塊提取的局部特征。對于該樣本,在節(jié)點V1,1生成的特征向量為其中,表示第0層(根節(jié)點)所對應(yīng)的圖像塊大小的局部特征,表示第1層(V1,1所在層)所對應(yīng)的圖像塊大小的局部特征,這兩種塊大小是不同的,在系統(tǒng)中可根據(jù)實際需要設(shè)定大小。該樣本在孩子節(jié)點V2,1的響應(yīng)方程可以寫為:(xi,D1,1)為在V1,1的孩子節(jié)點V2,1的響應(yīng)值。通過擴展公式3,基于樹結(jié)構(gòu)的損失函數(shù)定義為:代表樹中所有的中間節(jié)點(非葉子節(jié)點),C(t)代表屬于節(jié)點t的孩子節(jié)點集合(例如V2,1和V2,2是V1,1的孩子節(jié)點)。代表樣本xi在樹結(jié)構(gòu)里的標(biāo)簽集合,即標(biāo)簽yi及其祖先節(jié)點的標(biāo)簽。響應(yīng)方程f(*)定義如公式5?;跇浣Y(jié)構(gòu)的碼本和分類器模型訓(xùn)練可以通過求解下面式子得到:損失函數(shù)loss定義如公式6。D+,W分別代表需求解的碼本集合和分類器模型,X表示訓(xùn)練樣本集合,Y表示樣本對應(yīng)的類別標(biāo)簽集合。本發(fā)明提出的模型分為訓(xùn)練和預(yù)測兩個階段。模型訓(xùn)練模塊22在訓(xùn)練階段,將具有標(biāo)簽信息的樣本集合以及根據(jù)標(biāo)簽的語義關(guān)聯(lián)性建成的語義樹結(jié)構(gòu)作為輸入,通過模型訓(xùn)練得到一組有監(jiān)督的碼本和分類器模型。類別預(yù)測模塊23在預(yù)測階段,對于測試樣本圖像,利用訓(xùn)練得到的碼本組生成中間層特征表示,并利用分類器模型預(yù)測該測試樣本圖像的類別標(biāo)簽。在訓(xùn)練階段,每個中間節(jié)點(V0,V1,1,V1,2,V1,3)對應(yīng)于一個碼本和一組分類器模型,例如對于V1,1,對應(yīng)于D1,1以及用于判別孩子節(jié)點的分類器模型{w2,1,w2,2}。整個學(xué)習(xí)過程就是求解公式6和7,最后得到一組碼本集合以及分類器模型,如圖5的(a)所示。在預(yù)測階段,如圖5的(b)所示,待分類圖像從根節(jié)點輸入,通過選擇最大響應(yīng)值的節(jié)點(公式5)直到到達葉子節(jié)點。例如,輸入一幅圖像,在根節(jié)點(第0層)通過碼本D0生成圖像特征(公式1),輸入到其用來判別孩子節(jié)點(例如動物、植物、工具)的分類器模型得到響應(yīng)值(公式5),選擇響應(yīng)值最大的節(jié)點(例如動物)。在“動物”節(jié)點(V1,3),通過對應(yīng)的碼本D1,3生成另一圖像特征(公式1),輸入到其用來判別孩子節(jié)點(鳥、魚)的分類器模型得到響應(yīng)值(公式5),選擇響應(yīng)值最大的節(jié)點(例如鳥)。以此類推,直到到達葉子節(jié)點(最底層),得到最后的標(biāo)簽(“鵪鶉”)。本發(fā)明提供了一種基于樹結(jié)構(gòu)的圖像分類方法及其系統(tǒng),相較于無監(jiān)督碼本學(xué)習(xí)的稀疏編碼算法,該發(fā)明利用有監(jiān)督多層碼本學(xué)習(xí)處理海量類別的分類問題,能更好挖掘針對不同層類別分類的視覺特征。利用層次結(jié)構(gòu)進行碼本學(xué)習(xí),將原始的極多類問題分解為多個較易處理的多層分類子問題來逐一求解,也大大降低運算復(fù)雜度,使得有監(jiān)督的碼本學(xué)習(xí)能適用于海量類別的分類任務(wù),在可承受的時間消耗下得到較好的分類性能。當(dāng)然,本發(fā)明還可有其他多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護范圍。