本發(fā)明屬于計(jì)算機(jī)視覺、數(shù)字圖像處理領(lǐng)域,具體涉及一種新的場(chǎng)景識(shí)別方法。
背景技術(shù):
場(chǎng)景理解也正是計(jì)算機(jī)視覺中一個(gè)經(jīng)典話題。場(chǎng)景理解的最早目的在于使得機(jī)器能夠像人一樣能夠從視覺信息中理解當(dāng)前的情況并能夠推斷出一般性的原則。然而在計(jì)算水平落后的時(shí)代,這樣的愿望只能是空中樓閣。伴隨著過去50年間更大,更快,更便宜的計(jì)算能力以及大量的各種數(shù)據(jù)不斷得到豐富和提升解決這個(gè)經(jīng)典問題逐漸有了可行性,越來越多的研究人員不斷投入并取得了巨大的成功。這些成就使得場(chǎng)景理解逐漸成為了一個(gè)熱門話題。而且隨著發(fā)展,場(chǎng)景理解早已不限于當(dāng)初的目的。
場(chǎng)景分類的一般的做法是采用一種整體性的方法,用一種以一貫制的方式處理進(jìn)行分類。使用特征然后統(tǒng)計(jì)畫面中特征的出現(xiàn)頻率和分布情況,也就是特征分布直方圖,用直方圖的分布情況來表征這幅圖像。這也是人們常說的詞袋模型(bagofword,bow)。整個(gè)過程可以大致分為四個(gè)部分:從圖像中滑動(dòng)窗口切割出小圖像塊;在圖像塊上提取特征;使用聚類算法生成字典;根據(jù)圖像中的特征分布生成字典詞分布直方圖池化處理后進(jìn)行分類。
對(duì)于場(chǎng)景識(shí)別而言,圖像的特征描述方式起著十分關(guān)鍵的作用。在早期的工作中,圖像的描述是基于邊緣檢測(cè)或者是角點(diǎn)檢測(cè)的局部特征。然而,這類的局部特征描述往往缺乏必要的語義信息而且缺乏魯棒性。因此,將這種特征無法良好的表達(dá)整幅圖像的信息,用于分類時(shí),這樣的數(shù)據(jù)往往表達(dá)含糊。而且,用這種特征描述的時(shí)候,所有的圖像塊都具有相同的權(quán)重。然而事實(shí)上,在許多案例中,圖像中往往有許多的圖像塊對(duì)最終的場(chǎng)景分類并沒有任何的貢獻(xiàn),就比如室內(nèi)場(chǎng)景中的白墻圖像塊,幾乎會(huì)出現(xiàn)在所有的室內(nèi)場(chǎng)景中。
因此,本發(fā)明針對(duì)以上問題,解決適于圖像預(yù)處理分割階段產(chǎn)生圖像塊語義信息不明確的問題。同時(shí)提出了一種與之配合的池化處理方法。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種新的場(chǎng)景識(shí)別方法,該方法采用似物檢測(cè)提取圖像塊避免了圖像塊語義不明確的問題,同時(shí)提出了具有代表性和區(qū)別性的增強(qiáng)型k-means字典,最后提出了一種適應(yīng)似物檢測(cè)的順序池化方式,提高了分類的準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種新的場(chǎng)景識(shí)別方法,包括如下步驟,
s1、采用似物檢測(cè)中的選擇性搜索方式對(duì)場(chǎng)景圖像進(jìn)行圖像分割產(chǎn)生圖像塊;
s2、對(duì)各個(gè)圖像塊進(jìn)行深度特征提??;
s3、采用k-means聚類算法對(duì)步驟s2提取的各個(gè)圖像塊的深度特征進(jìn)行聚類;
s4、對(duì)步驟s3的聚類結(jié)果進(jìn)行篩選并生成字典;
s5、場(chǎng)景圖像的字典空間表達(dá),并對(duì)字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理;
s6、進(jìn)行svm分類,得到結(jié)果。
在本發(fā)明一實(shí)施例中,所述步驟s4的具體實(shí)現(xiàn)過程如下,
s41、通過公式
s42、統(tǒng)計(jì)步驟s3得到的各個(gè)聚類結(jié)果中場(chǎng)景樣本來自目標(biāo)場(chǎng)景類型占比的分布,得到關(guān)于以聚類中心為x軸,場(chǎng)景樣本占比為y的直方圖;一個(gè)場(chǎng)景類型對(duì)應(yīng)有一個(gè)直方圖;
s43、在每個(gè)直方圖中,采用大津二值化法的方法找到代表有效性的閾值μt,通過代表有效性的閾值μt,即可將每張直方圖內(nèi)的聚類分為兩類;其中來自目標(biāo)場(chǎng)景類型中占比高于代表有效性閾值μt的聚類為具有代表性的聚類,否則不具有代表性;
s44、由步驟s43得出的具有代表性的聚類進(jìn)行合并生成字典,具體即:對(duì)每個(gè)具有代表性的聚類的維度4096進(jìn)行二值化處理,保留k個(gè)最大值為1,其余為0;從到大到小與余下聚類的聚類中心進(jìn)行比較,為1的位置沒有重復(fù),則進(jìn)行合并,直到比對(duì)完所有聚類的聚類中心;已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理;已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列,同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列;最后排序取出前x個(gè)作為各聚類的字典數(shù)。
在本發(fā)明一實(shí)施例中,所述步驟s43中,采用大津二值化法的方法找到代表有效性的閾值μt的具體方式如下:
定義具有代表性和不具有代表性聚類的兩個(gè)類的方差的加權(quán)和:
在本發(fā)明一實(shí)施例中,所述步驟s5中,
場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣為:
k=h×mt
其中,h為場(chǎng)景圖像的表達(dá)矩陣,其具有g(shù)行,4096列,g即場(chǎng)景圖像經(jīng)似物檢測(cè)中的選擇性搜索方式產(chǎn)生的g個(gè)圖像塊;m為字典的矩陣形式,其具有x×y行,4096列,x即每一個(gè)場(chǎng)景類型的字典數(shù),y為場(chǎng)景類型數(shù);k具有g(shù)行,x×y列;
對(duì)場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理的結(jié)果,則可得最后的表達(dá)維度為:x×y×(n+1),其中,n即對(duì)g個(gè)圖像塊的分組數(shù),每組均進(jìn)行最大池化處理。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
1、現(xiàn)有圖像分割采用滑動(dòng)窗口進(jìn)行分割;分割過程死板,圖像塊語義不明確;而本發(fā)明采用似物檢測(cè)產(chǎn)生圖像塊;圖像塊語義信息較為明確,便于后續(xù)處理;每幅圖的圖像塊個(gè)數(shù)靈活好調(diào)整,適應(yīng)性廣泛;同時(shí)可適用其它圖像分類領(lǐng)域;
2、現(xiàn)有k-means聚類算法直接生成字典;而本發(fā)明采用代表性和區(qū)別性的要求,對(duì)k-means聚類中心進(jìn)行了篩選和合并的處理后才生成字典;在本字典詞的空間中各類場(chǎng)景表達(dá)線性度更高;
3、現(xiàn)沒有針對(duì)似物檢測(cè)的池化算法;而本發(fā)明提出針對(duì)似物檢測(cè)的池化算法,有效的加強(qiáng)了圖像表達(dá)與具體存在物體之間的關(guān)系,提升了分類準(zhǔn)確率。
附圖說明
圖1為本發(fā)明算法流程圖。
圖2為本發(fā)明聚類效果圖,其中a,b為各自不同聚類中心,c為a,b兩個(gè)聚類中心合并的效果,d為三個(gè)聚類合并的效果。
圖3為本發(fā)明最大順序池化示意圖,假設(shè)這時(shí)總共有16個(gè)似物檢測(cè)塊,則分成4組。
具體實(shí)施方式
下面結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說明。
本發(fā)明的一種新的場(chǎng)景識(shí)別方法,包括如下步驟,
s1、采用似物檢測(cè)中的選擇性搜索方式對(duì)場(chǎng)景圖像進(jìn)行圖像分割產(chǎn)生圖像塊;
s2、對(duì)各個(gè)圖像塊進(jìn)行深度特征提??;
s3、采用k-means聚類算法對(duì)步驟s2提取的各個(gè)圖像塊的深度特征進(jìn)行聚類;
s4、對(duì)步驟s3的聚類結(jié)果進(jìn)行篩選并生成字典;
s5、場(chǎng)景圖像的字典空間表達(dá),并對(duì)字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理;
s6、進(jìn)行svm分類,得到結(jié)果。
在本發(fā)明一實(shí)施例中,所述步驟s4的具體實(shí)現(xiàn)過程如下,
s41、通過公式
s42、統(tǒng)計(jì)步驟s3得到的各個(gè)聚類結(jié)果中場(chǎng)景樣本來自目標(biāo)場(chǎng)景類型占比的分布,得到關(guān)于以聚類中心為x軸,場(chǎng)景樣本占比為y的直方圖;一個(gè)場(chǎng)景類型對(duì)應(yīng)有一個(gè)直方圖;
s43、在每個(gè)直方圖中,采用大津二值化法的方法找到代表有效性的閾值μt,通過代表有效性的閾值μt,即可將每張直方圖內(nèi)的聚類分為兩類;其中來自目標(biāo)場(chǎng)景類型中占比高于代表有效性閾值μt的聚類為具有代表性的聚類,否則不具有代表性;
采用大津二值化法的方法找到代表有效性的閾值μt的具體方式如下:
定義具有代表性和不具有代表性聚類的兩個(gè)類的方差的加權(quán)和:
s44、由步驟s43得出的具有代表性的聚類進(jìn)行合并生成字典,具體即:對(duì)每個(gè)具有代表性的聚類的維度4096進(jìn)行二值化處理,保留k個(gè)最大值為1,其余為0;從到大到小與余下聚類的聚類中心進(jìn)行比較,為1的位置沒有重復(fù),則進(jìn)行合并,直到比對(duì)完所有聚類的聚類中心;已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理;已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列,同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列;最后排序取出前x個(gè)作為各聚類的字典數(shù)。
所述步驟s5中,
場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣為:
k=h×mt
其中,h為場(chǎng)景圖像的表達(dá)矩陣,其具有g(shù)行,4096列,g即場(chǎng)景圖像經(jīng)似物檢測(cè)中的選擇性搜索方式產(chǎn)生的g個(gè)圖像塊;m為字典的矩陣形式,其具有x×y行,4096列,x即每一個(gè)場(chǎng)景類型的字典數(shù),y為場(chǎng)景類型數(shù);k具有g(shù)行,x×y列;
對(duì)場(chǎng)景圖像的字典空間表達(dá)結(jié)果矩陣進(jìn)行順序最大池化處理的結(jié)果,則可得最后的表達(dá)維度為:x×y×(n+1),其中,n即對(duì)g個(gè)圖像塊的分組數(shù),每組均進(jìn)行最大池化處理。
以下為本發(fā)明的具體實(shí)現(xiàn)過程。
目前大部分基于bow的場(chǎng)景分類算法都是對(duì)圖像進(jìn)行滑動(dòng)窗口分割產(chǎn)生圖像塊進(jìn)行處理,從而導(dǎo)致圖像塊部分語義不明確。本發(fā)明采用似物檢測(cè)提取圖像塊避免了這個(gè)問題,同時(shí)提出了具有代表性和區(qū)別性的增強(qiáng)型k-means字典,最后提出了一種適應(yīng)似物檢測(cè)的順序池化方式,提高了分類的準(zhǔn)確率。
本算法各組成部分如圖1所示。1)似物檢測(cè)產(chǎn)生圖像塊;2)對(duì)各個(gè)圖像塊進(jìn)行深度特征提?。?)使用k-means聚類算法由各個(gè)圖像塊產(chǎn)生的深度特征進(jìn)行聚類;4)對(duì)k-means聚類結(jié)果進(jìn)行篩選并生成字典;5)場(chǎng)景圖像表達(dá);6)順序最大值池化;7)svm分類
似物識(shí)別產(chǎn)生圖像塊本文圖像預(yù)處理的過程不同于在之前類似工作中所采用的中最常見的滑動(dòng)窗口的方式,本文提出了采用似物檢測(cè)中選擇性搜索的方式取代了滑動(dòng)窗口來產(chǎn)生圖像預(yù)處理中的圖像塊。由選擇性搜索作為一種似物檢測(cè)算法,由其產(chǎn)生的圖像塊因?yàn)樽⒅貙?duì)于具有物體屬性的區(qū)域選取,因此使得由之產(chǎn)生的圖像塊相比于滑動(dòng)窗口在語義信息上的表達(dá)更加明確。除了語義上的增強(qiáng)還有一個(gè)與之而來的優(yōu)點(diǎn),選擇性搜索能夠使得每張圖像產(chǎn)生圖像塊的數(shù)量能夠順隨實(shí)際需要而任意指定。如果能夠利用這點(diǎn)將所有圖像都產(chǎn)生相同數(shù)量的圖像塊,那么后續(xù)聚類或者是池化處理的復(fù)雜度就有可能得到一定程度的降低。
實(shí)際上之前的算法為了使用滑動(dòng)窗口的時(shí)候,因?yàn)榻o定的圖像的長(zhǎng)寬比例不一,卻又有著相同的圖像塊分割大小、步進(jìn),因此每個(gè)圖像可能產(chǎn)生不同數(shù)量的圖像塊。選擇性搜索固定每個(gè)圖像產(chǎn)生的圖像塊。這點(diǎn)不但避免了后續(xù)處理的復(fù)雜性,而且保證了每副圖像對(duì)于k-means聚類時(shí)具有相同的權(quán)重。
k-means聚類將選擇性搜索得到的圖像塊,輸入caffe深度網(wǎng)絡(luò)的vgg-vd模型,該模型在imagenet進(jìn)行了預(yù)訓(xùn)練并在ilsvrc-2014上取得了極好的效果。在緊接著線性修正單元(rectifiedlinearunit,relu)的第六層fc6(全連接層的第一層)獲得非負(fù)4096維度的深度特征,然后將這些特征進(jìn)行了k-means聚類。
選取聚類結(jié)果生成字典我們希望字典視覺詞能夠同時(shí)滿足兩個(gè)要求,即區(qū)別性和代表性。區(qū)別性能夠準(zhǔn)確的分別不同類別。代表性又希望該詞有足夠的出現(xiàn)頻率。普通的k-means聚類可以直接構(gòu)建字典,但并無法實(shí)現(xiàn)這兩個(gè)要求,因此要加入這個(gè)步驟構(gòu)建更加有效的視覺字典。
聚類的結(jié)果中也往往存在對(duì)各個(gè)場(chǎng)景類型的偏向。即某個(gè)聚類結(jié)果中,大多數(shù)樣本的都是來自同一個(gè)類型中的圖像塊。把這種特定的樣本占比定義為這個(gè)聚類對(duì)于這個(gè)類型場(chǎng)景的代表有效性:
同時(shí),我們通過定義同一聚類結(jié)果中滿足一定條件的同一場(chǎng)景的占比要求的樣本量,即滿足一定要求的代表有效性的聚類才可稱之為對(duì)該場(chǎng)景具有帶代表性的聚類。通過統(tǒng)計(jì)各個(gè)聚類結(jié)果中樣本所來自某個(gè)特定場(chǎng)景類型占比的分布,得到關(guān)于以聚類中心為x軸,該場(chǎng)景樣本占比為y的直方圖。每個(gè)場(chǎng)景類型各有一個(gè)直方圖。在每個(gè)直方圖中,采用大津二值化法(otsu)[46]的方法找到代表有效性的門限值,定義為兩個(gè)類的方差的加權(quán)和:
由此每張直方圖內(nèi)的聚類分為兩類。其中來自某特定場(chǎng)景占比高于代表有效性門限的聚類為具有代表性的聚類,否則不具有代表性。
在具有代表性的基礎(chǔ)上再考慮聚類的區(qū)別性。具有代表性的聚類中心的也就是可能的字典詞,而這些聚類中心同時(shí)也是4096維的特征。同時(shí)這些特征有著稀疏的特性。往往不同的聚類中心在特征維度上具有很強(qiáng)的互補(bǔ)性。這種關(guān)系可以用圖2來比擬。
我們希望盡量可能的對(duì)各個(gè)聚類中心進(jìn)行合并生成最后的字典。每個(gè)聚類的維度4096進(jìn)行二值化處理,保留k個(gè)最大值為1,其余為0;從到大到小與余下的聚類中心進(jìn)行比較,為1的位置沒有重復(fù),則進(jìn)行合并,直到比對(duì)完所有其余聚類中心;已進(jìn)行合并的聚類中心不再進(jìn)行任何后續(xù)處理。已合并的聚類組按合并聚類中心個(gè)數(shù)進(jìn)行排列,同個(gè)數(shù)情況按聚類組中聚類中心代表有效性大小排列。最后排序取出前x個(gè)作為各類的字典數(shù)。
這個(gè)環(huán)節(jié)中,我們考慮如何根據(jù)上文產(chǎn)生的字典對(duì)由選擇性搜索產(chǎn)生圖像塊的cnn特征進(jìn)行有效的表達(dá)。給定單張場(chǎng)景圖像l,通過選擇性搜索產(chǎn)生g個(gè)圖像塊并進(jìn)行深度特征提取,我們能夠?qū)⑵浔磉_(dá)為li={l1,l2,…,lg}作為矩陣h。此時(shí)h的表達(dá)具有g(shù)行,4096列。通過k-means聚類生成了t個(gè)聚類空間/詞,并且在聚類選擇環(huán)節(jié)每類選擇了最具有區(qū)別性和代表性的x個(gè)詞。字典最終可以表示為矩陣m的形式,具有x×y行(x是每一場(chǎng)景類型的字典數(shù),y是數(shù)據(jù)庫中的場(chǎng)景類型數(shù))和4096列。將原始表達(dá)矩陣h向字典空間m的投射的結(jié)果是最終表達(dá)矩陣k=h×mt。此時(shí),矩陣k具有g(shù)行,x×y列。這邊我們加入了順序最大池化的方式進(jìn)行處理。最后的表達(dá)維度為x×y×(n+1)。見圖3。
以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時(shí),均屬于本發(fā)明的保護(hù)范圍。