圖像物體檢測方法
【技術領域】
[0001] 本發(fā)明涉及圖像識別或圖像處理技術領域,特別涉及一種圖像物體檢測方法。
【背景技術】
[0002] 在圖像識別或圖像處理技術中,圖像物體檢測應用廣泛,例如犯罪追蹤、大型體育 賽事或博覽會的人流統(tǒng)計及分析、智能城市、智能交通、智能家居、網(wǎng)購檢索、以圖搜圖、圖 像或視頻語義的實時理解等。是否能夠較好的完成對輸入圖像如人臉等的識別并找到相 關度高的匹配圖像,一方面取決于圖像數(shù)據(jù)庫是否足夠完備,海量圖像、視頻數(shù)據(jù)將有利于 提升檢索性能;另一方面與所使用的圖像檢測方法是否合適有關,這就需要計算機對圖像 數(shù)據(jù)集合理建模,以便后續(xù)快速準確的從圖像數(shù)據(jù)庫中為輸入圖像找到最為相似的搜索結 果,圖像檢測建模過程也稱圖像檢測算法學習,圖像檢測即是通過這種學習過程找到圖像 檢測的目標函數(shù)并將其用于檢測圖像中的物體。
[0003] 現(xiàn)有技術中,圖像檢測算法學習按照圖像數(shù)據(jù)集中的圖像數(shù)據(jù)是否包含先驗信息 可以分為三種類型:全部圖像數(shù)據(jù)均包含先驗信息、例如物體的種類或位置標簽等的有監(jiān) 督學習,一部分圖像數(shù)據(jù)包含先驗信息另一部分圖像數(shù)據(jù)不包含先驗信息的半監(jiān)督學習和 全部圖像數(shù)據(jù)不包含先驗信息的無監(jiān)督學習方法。
[0004] 無監(jiān)督學習方法基于無先驗信息標簽的數(shù)據(jù)集實現(xiàn),不利于在有限計算能力下獲 得較快的計算速度,較難獲得良好的檢測性能;有卷積神經(jīng)監(jiān)督學習方法基于先驗信息標 簽完備的數(shù)據(jù)集實現(xiàn),有助于提高圖像檢測性能,但受到標簽標注人工成本和硬件存儲容 量等的限制,對于樣本容量大的圖像數(shù)據(jù)集并不適用。
[0005] 半監(jiān)督學習方法基于部分圖像貼住標簽的數(shù)據(jù)集,對于人員和硬件資源的消耗適 中,但隨著圖像數(shù)據(jù)的增加,現(xiàn)有圖像檢測模型中數(shù)據(jù)集模糊性增加,通過半監(jiān)督學習得到 的目標函數(shù)對大數(shù)據(jù)集的擬合性下降,因此現(xiàn)有半監(jiān)督學習得到的圖像物體檢測方法在大 圖像數(shù)據(jù)集上對圖像的檢測性能不佳。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明提供一種圖像物體檢測方法,以實現(xiàn)在大圖像數(shù)據(jù)集上獲得較好檢測性 能。
[0007] 本發(fā)明圖像物體檢測方法,包括:
[0008] 對多個樣本圖像按照信息量級別分別進行標注,獲得對應的標注圖像;
[0009] 根據(jù)窗口提取方法提取所述標注圖像中包含物體的區(qū)域或包含物體概率最大的 區(qū)域并生成候選窗口;
[0010] 在卷積神經(jīng)網(wǎng)絡上提取所述候選窗口的特征表達并組成候選集,通過半監(jiān)督學習 對所述候選集進行擬合,獲得圖像檢測模型目標函數(shù);
[0011] 根據(jù)所述窗口提取方法提取待檢測圖像中包含目標物體的區(qū)域或包含目標物體 概率最大的區(qū)域并生成待檢測窗口,在所述卷積神經(jīng)網(wǎng)絡上提取所述待檢測窗口的特征表 達并在所述圖像檢測模型目標函數(shù)上進行檢測,獲得所述候選集中的特征表達所對應的包 含所述目標物體概率最大的所述候選窗口。
[0012] 本發(fā)明的有益效果為:
[0013] 本發(fā)明通過在更加靈活的卷積神經(jīng)網(wǎng)絡上提取候選窗口的特征表達,并基于卷積 神經(jīng)網(wǎng)絡進行半監(jiān)督學習,將圖像先驗信息量程度不同的圖像數(shù)據(jù)統(tǒng)一個框架,能夠表達 更復雜的非線性變換關系,更好的處理候選集以及待檢測窗口等輸入圖像的非線性和復雜 性,從而能夠在大量圖像所組成數(shù)據(jù)集上快速高效的檢測出目標物體,解決了如何在大圖 像數(shù)據(jù)集上獲得較好檢測性能的技術問題。
【附圖說明】
[0014] 圖1是本發(fā)明圖像物體檢測方法實施例一的流程圖;
[0015] 圖2是本發(fā)明圖像物體檢測方法實施例一的框架圖;
[0016] 圖3是本發(fā)明圖像物體檢測方法實施例一在Pascal V0C 2007測試集上前10類 物體的檢測性能對比圖;
[0017] 圖4是本發(fā)明圖像物體檢測方法實施例一在Pascal V0C 2007測試集上進行測試 的效果圖;
[0018] 圖5是本發(fā)明圖像物體檢測方法實施例二的流程圖;
[0019]圖6是本發(fā)明圖像物體檢測方法實施例二的平均檢測精度示意圖;
[0020] 圖7是本發(fā)明圖像物體檢測方法實施例三的流程圖;
[0021] 圖8是本發(fā)明圖像物體檢測方法實施例四的流程圖。
【具體實施方式】
[0022] 圖1為本發(fā)明圖像物體檢測方法實施例一的流程圖,圖2是本發(fā)明圖像物體檢測 方法實施例一的框架圖,如圖1所示,本發(fā)明圖像物體檢測方法,包括:
[0023] S101、對多個樣本圖像按照信息量級別分別進行標注,獲得對應的標注圖像;
[0024] 優(yōu)選的,所述信息量級別包括強標注和弱標注,所述對多個樣本圖像按照信息量 級別分別進行標注,獲得對應的標注圖像包括:
[0025] 對樣本圖像添加所包含物體的類別標注和位置標注,獲得強標注圖像;強標注圖 像指的是知道圖像中所包含物體的類別及其位置的圖像;
[0026]或者,
[0027] 對樣本圖像僅添加所包含物體的類別標注,獲得弱標注圖像;弱標注圖像指的是 知道所包含的物體類別的圖像,比如"人"、"椅子",但是"人"和"椅子"在圖像中的什么位 置,以及其數(shù)目,都是不知道的;
[0028] S102、根據(jù)窗口提取方法提取所述標注圖像中包含物體的區(qū)域或包含物體概率最 大的區(qū)域并生成候選窗口;需要說明的是,對任意所述標注圖像,若能提取到包含物體的區(qū) 域則提取所述標注圖像中包含物體的區(qū)域,若不能提取到包含物體的區(qū)域則提取所述標注 圖像中最可能包含物體的區(qū)域,也即對于任意一張所述標注圖像,在完成第一步驟之后即 能夠確定無疑的對提取方式二選其一而不存在無法確定唯一提取方式的情形;
[0029] 優(yōu)選的,所述根據(jù)窗口提取方法提取所述標注圖像中包含物體的區(qū)域或包含物體 概率最大的區(qū)域并生成候選窗口包括:
[0030] 根據(jù)所述類別標注和所述位置標注,提取所述強標注圖像中包含物體的區(qū)域并生 成強標注候選窗口;
[0031]或者,
[0032] 根據(jù)所述類別標注和選擇性搜索算法,提取所述弱標注圖像中包含物體概率最大 的區(qū)域并生成弱標注候選窗口,具體包括:
[0033] S1021、將輸入圖像從RGB空間轉(zhuǎn)化到不同的顏色空間,如HSV,Lab,RGI,I等;
[0034] S1022、利用基于圖的過分割算法,對轉(zhuǎn)換了顏色空間的圖像進行分割;
[0035] S1023、利用層次化組織思想,采用貪婪算法進行區(qū)塊合并,得到層次化的圖像分 塊;
[0036] S1024、將不同參數(shù)下得到的圖像分塊整合到一起并進行去重處理,得到弱標注圖 像的候選窗口;
[0037] 由此可見,所述選擇性搜索算法,是一種基于過分割,采用多種參數(shù)配置得到圖像 的多個過分割,利用層次化組織合并算法實現(xiàn)圖像塊層級合并,得到層次化的圖像分塊的 方法,而所述分塊中很可能包含有完整的物體;而對于強標注圖像,由于圖像中物體的位置 是給定的,因而可以直接根據(jù)物體的位置標注提取出相關的物體區(qū)域。
[0038] S103、在卷積神經(jīng)網(wǎng)絡上提取所述候選窗口的特征表達并組成候選集,通過半監(jiān) 督學習對所述候選集進行擬合,獲得圖像檢測模型目標函數(shù);
[0039] 優(yōu)選的,所述卷積神經(jīng)網(wǎng)絡為預先在圖像分類數(shù)據(jù)集ImageNet2013上訓練并獲 取的卷積神經(jīng)網(wǎng)絡,圖像分類數(shù)據(jù)集Imag eNet2013是一個很大的圖像分類數(shù)據(jù)集,預先在 該數(shù)據(jù)集上訓練得到的卷積神經(jīng)網(wǎng)絡能夠從候選窗口中提取得到包含更強的高層語義信 息的豐富特征表達;
[0040] 在獲取到可能包含感興趣的物體的候選區(qū)域之后,要通過計算機視覺和模式識 別算法確定某個候選窗口是否是某種物體,就需要首先對該候選窗口進行特征表達,從而 可以在之后使用分類器進行分類判斷;在圖像分類與識別技術中,常用的特征表達包括 SIFT、LBP、H0G等底層特征表達,詞包模型等中層特征表達,以及卷積神經(jīng)網(wǎng)絡、深度