欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

圖像中通用對象檢測的制作方法

文檔序號:12288287閱讀:240來源:國知局
圖像中通用對象檢測的制作方法與工藝

隨著搜索引擎能力的增加,用戶對更快且更有能力的搜索的需求也是如此。典型搜索引擎能夠執(zhí)行基于文本的搜索,這把大量圖像排除在搜索范圍外,除非這些圖像包括明確定義的且詳細(xì)的文本元數(shù)據(jù)。圖像中的對象檢測技術(shù)通常是復(fù)雜的工作,在許多情況下涉及大量的計(jì)算資源并且缺少準(zhǔn)確性。例如,現(xiàn)有深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)涉及固定大小(例如224×224)的輸入圖像。這個(gè)要求是“人工的”并且可能降低對任意大小/比例的圖像或子圖像的識別準(zhǔn)確性。

概述

提供本概述以便以簡化的形式介紹將在以下的詳細(xì)描述中進(jìn)一步描述的一些概念。該概述不意圖專門標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或基本特征,也不意圖幫助確定所要求保護(hù)的主題的范圍。

實(shí)施例涉及檢測圖像中對象的方法、設(shè)備和系統(tǒng)。一種示例方法可包括:接收輸入圖像,由處理所述輸入圖像的神經(jīng)網(wǎng)絡(luò)的卷積層上的一個(gè)或多個(gè)濾波器生成特征圖,以及在空間金字塔池化(SPP)層處對每個(gè)濾波器的響應(yīng)進(jìn)行空間池化。示例方法可進(jìn)一步包括將SPP層的輸出作為固定維度向量提供給全連接層,以及基于在全連接層處所接收到的所述固定維度向量來訓(xùn)練分類器以便檢測輸入圖像中的一個(gè)或多個(gè)對象。

從閱讀以下詳細(xì)描述及查看相關(guān)附圖后,這些及其他特征和優(yōu)點(diǎn)將顯而易見。應(yīng)當(dāng)理解,以上一般描述及以下詳細(xì)描述兩者均是說明性的,而不限制所要求保護(hù)的各方面。

附圖簡述

圖1包括對一示例圖像中各種對象的檢測;

圖2例示出對來自特征圖上任意窗口的特征進(jìn)行池化,其中所述特征圖可從整個(gè)圖像計(jì)算并且所述池化可在候選窗口中執(zhí)行;

圖3例示出根據(jù)一些實(shí)施例的執(zhí)行圖像中通用對象檢測的一示例過程;

圖4是可被用于執(zhí)行圖像中通用對象檢測的示例通用計(jì)算設(shè)備的框圖;以及

圖5例示出根據(jù)各實(shí)施例的執(zhí)行圖像中通用對象檢測的方法的邏輯流程圖。

詳細(xì)描述

如上文簡要描述的,用于圖像中對象檢測的神經(jīng)網(wǎng)絡(luò)可配備有一更原則性的池化策略——空間金字塔池化(SPP)。使用所述SPP網(wǎng)絡(luò)結(jié)構(gòu),或SPP網(wǎng),不管圖像大小與比例如何都可生成固定長度表示??蓮恼麄€(gè)圖像計(jì)算一次特征圖(feature maps),并且特征可在任意區(qū)域(子圖像)中被池化以便生成用于訓(xùn)練檢測器的固定長度表示。從而,可避免卷積特征的重復(fù)計(jì)算并且準(zhǔn)確性得到提高。

在下面的詳細(xì)描述中,參考構(gòu)成其一部分的附圖,在附圖中,通過例圖,示出了具體的實(shí)施例或示例??梢詫⑦@些方面組合起來,也可以理由其他方面,并且可以作出結(jié)構(gòu)上的改變而在不背離本公開的精神或范圍。因此,下面的詳細(xì)描述并不旨在進(jìn)行限制,并且本發(fā)明的范圍由所附權(quán)利要求書以及其等效方案來限定。

盡管將在與在個(gè)人計(jì)算機(jī)上的操作系統(tǒng)上運(yùn)行的應(yīng)用程序一起執(zhí)行的程序模塊的一般上下文中來描述一些實(shí)施例,但是,本領(lǐng)域的技術(shù)人員將認(rèn)識到,這些方面也可以與其他程序模塊相結(jié)合地實(shí)現(xiàn)。

一般而言,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、組件、數(shù)據(jù)結(jié)構(gòu)及其他類型的結(jié)構(gòu)。此外,本領(lǐng)域的技術(shù)人員將理解,各實(shí)施例可以用其他計(jì)算機(jī)系統(tǒng)配置來實(shí)現(xiàn),包括手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程的消費(fèi)者電子設(shè)備、小型計(jì)算機(jī)、大型計(jì)算機(jī)及類似的計(jì)算設(shè)備。各實(shí)施例也可以在分布式計(jì)算環(huán)境中實(shí)現(xiàn),在分布式計(jì)算環(huán)境中,多個(gè)任務(wù)由通過通信網(wǎng)絡(luò)鏈接的遠(yuǎn)程處理設(shè)備來執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可位于本地和遠(yuǎn)程的存儲(chǔ)器存儲(chǔ)設(shè)備兩者中。

一些實(shí)施例可以被實(shí)現(xiàn)為計(jì)算機(jī)實(shí)現(xiàn)的過程(方法)、計(jì)算系統(tǒng)、或者作為諸如計(jì)算機(jī)程序產(chǎn)品或計(jì)算機(jī)可讀介質(zhì)之類的制品。計(jì)算機(jī)程序產(chǎn)品可以是可由計(jì)算機(jī)系統(tǒng)讀取的計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)對包括指令的計(jì)算機(jī)程序進(jìn)行編碼,所述指令用于使計(jì)算機(jī)或計(jì)算系統(tǒng)執(zhí)行(多個(gè))示例進(jìn)程。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)是計(jì)算機(jī)可讀存儲(chǔ)器設(shè)備。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以例如通過易失性計(jì)算機(jī)存儲(chǔ)器、非易失性存儲(chǔ)器、硬盤驅(qū)動(dòng)器、閃存驅(qū)動(dòng)器、軟盤或緊致盤、以及類似硬件介質(zhì)中的一個(gè)或多個(gè)來實(shí)現(xiàn)。

貫穿本說明書,術(shù)語“平臺(tái)”可以是用于圖像處理的軟件和硬件組件的組合。平臺(tái)的示例包括、但不限于:在多個(gè)服務(wù)器上執(zhí)行的主存服務(wù)、在單個(gè)計(jì)算設(shè)備上執(zhí)行的應(yīng)用、及類似的系統(tǒng)。術(shù)語“服務(wù)器”一般是指一般在聯(lián)網(wǎng)環(huán)境中執(zhí)行一個(gè)或多個(gè)軟件程序的計(jì)算設(shè)備。然而,服務(wù)器也可以被實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算設(shè)備上執(zhí)行的虛擬服務(wù)器(軟件程序),所述虛擬服務(wù)器被視為網(wǎng)絡(luò)上的服務(wù)器。以下提供了關(guān)于這些技術(shù)和示例操作的更多細(xì)節(jié)。

圖1包括對一示例圖像中各種對象的檢測。

對深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的使用以及大規(guī)模訓(xùn)練數(shù)據(jù)的可用性正導(dǎo)致視覺技術(shù)的革命性變化,特別是在圖像分析與對象檢測方面?;谏疃染W(wǎng)絡(luò)的方法被用于圖像分類、對象檢測、以及其他識別或非識別任務(wù)。

圖1中的圖像100示出了諸如身體102、頭104、108和114、盒子106、監(jiān)視器110、以及顯微鏡112之類的不同類型對象的示例。這些對象中的每一個(gè)可具有不同的形狀、大小和顏色。從而,一種過于簡單的方法可能不足以檢測圖像中的各種各樣的對象。雖然CNN與類似方法已經(jīng)改進(jìn)了圖像分析的當(dāng)前技術(shù)水平,但CNN的訓(xùn)練與測試仍舊呈現(xiàn)出挑戰(zhàn)。例如,流行的CNN要求固定輸入圖像大小(例如224×224),這可能限制輸入圖像的寬高比和比例兩者。當(dāng)被應(yīng)用于任意大小的圖像時(shí),這樣的方法可通過裁剪或扭曲(warping)使輸入圖像適合于該固定大小。但是,經(jīng)裁剪的區(qū)域可能不包含整個(gè)對象,而經(jīng)扭曲的內(nèi)容可能導(dǎo)致不合需要的幾何失真。

由于內(nèi)容丟失或失真,識別準(zhǔn)確性可能受到損害。此外,當(dāng)對象比例變化時(shí),預(yù)定義的比例可能不合適。保持固定輸入大小可能忽略了涉及比例的挑戰(zhàn)。CNN主要由兩部分組成:卷積層以及其后續(xù)的全連接層。卷積層以滑動(dòng)窗口方式操作并輸出特征圖,特征圖表示激活值(activations)的空間排列。實(shí)際上,卷積層可不要求固定圖像大小并且可生成任何大小的特征圖。另一方面,全連接層按其定義可能需要具有固定大小/長度的輸入。因此,該固定大小約束可來自全連接層,全連接層存在于網(wǎng)絡(luò)的較深階段。

圖1中的示例圖像已被描述為具有特定大小、類型和形狀的具體對象。各實(shí)施例不限于對特定大小、形狀或類型的對象的檢測,也不限于對特定大小、類型或內(nèi)容的圖像的檢測。根據(jù)各實(shí)施例的用于圖像中對象檢測的系統(tǒng)可在能作用于任何大小、類型或內(nèi)容的圖像且能使用本文所描述的原理檢測任何大小、形狀或類型的對象的配置中實(shí)現(xiàn)。

圖2例示出對來自特征圖上任意窗口的特征進(jìn)行池化,其中所述特征圖可從整個(gè)圖像計(jì)算并且所述池化可在候選窗口中執(zhí)行。

根據(jù)各實(shí)施例的一種系統(tǒng)采用具有空間金字塔池化(SPP)的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN),如圖示200所示??紤]示例七層架構(gòu),前五層204是卷積的,其中的一些可后接池化層210。這些池化層210也可被視為“卷積的”,在這個(gè)意義上它們可使用滑動(dòng)窗口206。最后兩層214可以是全連接的,具有N路分類器(例如softmax)作為輸出,其中N是類別的數(shù)目。歸因于要求固定長度向量212作為輸入的全連接層,上述深度網(wǎng)絡(luò)需要如上討論的固定圖像大小。另一方面,卷積層204可接受任意大小的輸入202。卷積層204可使用滑動(dòng)濾波器,并且它們的輸出可具有與輸入大致相同的寬高比。這些輸出被稱為特征圖208,特征圖不僅涉及響應(yīng)的強(qiáng)度,也涉及它們的空間位置。

例如,一些特征圖208可由conv5層(第五卷積層)的一些濾波器生成。濾波器可由某種語義內(nèi)容激活。例如,一濾波器可被圓形狀激活;另一濾波器可被□形狀激活;以及又一濾波器可被□形狀激活。輸入圖像中的這些形狀可激活對應(yīng)位置處的特征圖。盡管卷積層接受任意輸入大小,卷積層可產(chǎn)生可變大小的輸出。分類器(例如SVM或softmax)或全連接層214可要求固定長度向量212。這樣的向量可由SPP生成,SPP可通過在局部空間箱(spatial bin)內(nèi)池化來維持空間信息??臻g箱可具有與圖片大小成比例的大小,所以箱的數(shù)量是固定的,而與圖片大小無關(guān)。這與卷積深度網(wǎng)絡(luò)的滑動(dòng)窗口池化相反,其中滑動(dòng)窗口的數(shù)量取決于輸入大小。

從而,在根據(jù)各實(shí)施例的一種系統(tǒng)中,最后的池化層(例如在最后的卷積層之后的池化5(pool5))可被SPP層210替換。在每個(gè)空間箱中,可池化每個(gè)濾波器的響應(yīng)。SPP的輸出可以是kM維向量,箱的數(shù)量被表示成M(k為最后的卷積層中濾波器的數(shù)量)。固定維度向量可被用作至全連接層的輸入。

利用空間金字塔池化,輸入圖像可以是任何大小。從而,不僅可允許任意寬高比,而且也可使用任意比例。輸入圖像可被調(diào)整大小成任何比例,并且相同的深度網(wǎng)絡(luò)被應(yīng)用。當(dāng)輸入圖像處于不同比例時(shí),網(wǎng)絡(luò)(具有相同的濾波器大小)可按不同比例提取特征,從而導(dǎo)致更高的準(zhǔn)確性。

圖3例示出根據(jù)一些實(shí)施例的執(zhí)行圖像中通用對象檢測的一示例過程。

如先前所述,深度神經(jīng)網(wǎng)絡(luò)可被用于對象檢測。例如,R-CNN方法首先通過選擇性搜索從每個(gè)圖像中提取約2000個(gè)候選窗口。然后,每個(gè)窗口中的圖像區(qū)域被扭曲為固定大小(227×227)并且預(yù)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)被用于提取每個(gè)窗口的特征。然后,用這些特征訓(xùn)練二元SVM分類器用于檢測。R-CNN可生成令人信服的質(zhì)量的結(jié)果,并大幅優(yōu)于現(xiàn)有方法。然而,由于R-CNN將深度卷積網(wǎng)絡(luò)重復(fù)應(yīng)用于每個(gè)圖像的約2000個(gè)窗口,這可能是耗時(shí)且計(jì)算昂貴的。在這個(gè)方法中,特征提取可能是主要的時(shí)間瓶頸。

如圖示300示出的,根據(jù)各實(shí)施例的一種對象檢測系統(tǒng)302采用SPP網(wǎng)用于對象檢測。特征圖可從整個(gè)圖像中被提取一次(任選地以多個(gè)比例)。然后,空間金字塔池化可被應(yīng)用于特征圖的每個(gè)候選窗口以便池化此窗口的固定長度表示。因?yàn)閼?yīng)用了一次潛在耗時(shí)的卷積網(wǎng)絡(luò),與諸如R-CNN之類的方法相比,該系統(tǒng)可按更快的數(shù)量級檢測對象。

在一些實(shí)施例中,可從特征圖308的諸區(qū)域中提取(310)窗口級特征(相比于R-CNN從圖像區(qū)域直接提取)。從而,在來自深度卷積特征圖308的任意窗口中啟用特征提取。接著,可使用一種“快速”模式的選擇性搜索來生成每個(gè)圖像預(yù)定義數(shù)目的候選窗口(例如2000個(gè))。圖像可被調(diào)整大小(306)使得min(w;h)=s,其中w是寬度,h是高度,s表示預(yù)定義比例(例如256),并且可從整個(gè)圖像提取conv5的特征圖。在一些示例實(shí)現(xiàn)中,4級空間金字塔(1×1、2×2、3×3和6×6,總共50個(gè)箱)可被用于每個(gè)候選窗口以便池化特征(312)。這可為每個(gè)窗口生成12800維(256×50)表示。這些表示可被提供給網(wǎng)絡(luò)的全連接層。然后,可用這些特征對每個(gè)類別訓(xùn)練(314)分類器(例如二元線性SVM分類器)。

為了分類器訓(xùn)練,基礎(chǔ)事實(shí)(ground-truth)窗口可被用于生成正樣本(positive sample)。負(fù)樣本(negative sample)可以是例如至多30%重疊于一正窗口(由交除并(intersection-over-union)比值測量)的那些。如果任一負(fù)樣本與另一負(fù)樣本重疊超過70%或另一預(yù)定義閾值,則該負(fù)樣本可被移除。在一些示例中,可采用嚴(yán)格負(fù)挖掘(hard negative mining)以便訓(xùn)練分類器。在測試中,分類器可被用于對候選窗口評分。然后,可在經(jīng)評分的窗口上使用具有預(yù)定義閾值(例如30%)的非最大抑制。

在其他實(shí)施例中,也可使用多比例特征提取。圖像可被調(diào)整大小使得min(w;h)=s∈{480;576;688;864;1200},并且可對每個(gè)比例計(jì)算conv5的特征圖。在一些示例中,可通過逐通道地(channel-by-channel)池化來自這些比例的特征來組合它們。在其它示例中,可為每個(gè)候選窗口選擇一單一比例s,使得縮放后的候選窗口具有與一預(yù)定義值(例如224×224)最接近的像素?cái)?shù)量。然后,根據(jù)這個(gè)比例提取的特征圖可被用于計(jì)算該窗口的特征。

如果預(yù)定義的比例足夠密集并且該窗口大致是正方形,則上述方法可粗略地相當(dāng)于把窗口大小調(diào)整到224×224并且然后從中提取特征。然而,特征圖從整個(gè)圖像被計(jì)算一次(以每個(gè)比例),而與候選窗口的數(shù)量無關(guān)。

在進(jìn)一步的實(shí)施例中,可微調(diào)預(yù)先訓(xùn)練的網(wǎng)絡(luò)。因?yàn)樘卣魇菑膩碜匀魏未笮〉拇翱诘腸onv5特征圖池化的,在一些示例中,全連接層可被微調(diào)。數(shù)據(jù)層可接受后跟fc6;7層和21向(一個(gè)額外的負(fù)類別)fc8層的conv5之后的固定長度經(jīng)池化的特征。fc8權(quán)重可用高斯分布初始化(例如x=0.01)。在一些示例中,對于全部三層,學(xué)習(xí)率可被固定為1e-4,然后被調(diào)節(jié)為1e-5。在微調(diào)期間,例如,正樣本可以是以[0:5;1]與基礎(chǔ)事實(shí)窗口重疊的那些,而負(fù)樣本是以[0:1;0:5)重疊的那些。在每個(gè)小批量中,25%的樣本可能是正的。在一示例實(shí)現(xiàn)中,可使用學(xué)習(xí)率1e-4訓(xùn)練250000個(gè)小批量,而隨后使用1e-5訓(xùn)練50000個(gè)小批量。因?yàn)橹挥腥B接層被微調(diào),所以訓(xùn)練可以非常快速。此外,邊界框回歸(bounding box regression)可被用于后處理(316)預(yù)測窗口。用于回歸的特征可以是來自conv5的經(jīng)池化的特征。用于回歸訓(xùn)練的窗口可以是與基礎(chǔ)事實(shí)窗口重疊例如至少50%的那些。

在又一些實(shí)施例中,模型組合方法可被用于對象檢測。可使用相同的結(jié)構(gòu)但不同的隨機(jī)初始化來預(yù)訓(xùn)練另一網(wǎng)絡(luò)。然后,可執(zhí)行上述檢測。給定這兩種模型,任一模型可首先被使用以便針對一測試圖像對候選窗口評分。然后,非最大抑制可在候選窗口(帶有它們的評分)的兩個(gè)集合的并集上執(zhí)行。由一個(gè)模型給出的更可信的窗口可抑制由另一模型給出的不太可信的那些窗口?;パa(bǔ)性可能主要是由于卷積層。相同的卷積模型的兩個(gè)經(jīng)隨機(jī)初始化的微調(diào)結(jié)果的組合可能不提供類似增益。

已經(jīng)使用具體示例、配置和過程以便執(zhí)行圖像中對象檢測描述了圖1至3中的示例。執(zhí)行對象檢測的實(shí)施例并不限于根據(jù)這些示例描述的具體示例、配置和過程。

一種采用SPP網(wǎng)來檢測圖像中對象的系統(tǒng)可有利地提高對象檢測在搜索、視覺系統(tǒng)和其他圖像分析實(shí)現(xiàn)中的可用性,以及減少諸如處理器負(fù)載、存儲(chǔ)器負(fù)載之類的計(jì)算開銷,并在例如衛(wèi)星成像、安全監(jiān)控和類似系統(tǒng)中提高對象檢測的可靠性。

圖4是可被用于執(zhí)行圖像中通用對象檢測的示例通用計(jì)算設(shè)備的框圖。

例如,計(jì)算設(shè)備400可被用作服務(wù)器、臺(tái)式計(jì)算機(jī)、便攜式計(jì)算機(jī)、智能電話、專用計(jì)算機(jī)或類似設(shè)備。在示例基本配置402中,計(jì)算設(shè)備400可包括一個(gè)或多個(gè)處理器404和系統(tǒng)存儲(chǔ)器406。存儲(chǔ)器總線408可用于處理器404與系統(tǒng)存儲(chǔ)器406之間的通信。該基本配置402在圖4中用內(nèi)部虛線內(nèi)的那些組件例示出。

取決于所期望的配置,處理器404可以是任何類型的,包括但不限于微處理器(μP)、微控制器(μC)、數(shù)字信號處理器(DSP)、或其任何組合。處理器404可包括諸如分級高速緩存存儲(chǔ)器412之類的一級或多級高速緩存、一個(gè)或多個(gè)處理器核414、以及寄存器416。示例處理器核414可(各自)包括算術(shù)邏輯單元(ALU)、浮點(diǎn)單元(FPU)、數(shù)字信號處理核(DSP核)、或其任何組合。一示例存儲(chǔ)器控制器418也可與處理器404一起使用,或在一些實(shí)現(xiàn)中,存儲(chǔ)器控制器418可以是處理器404的內(nèi)部部分。

取決于所期望的配置,系統(tǒng)存儲(chǔ)器406可以是任何類型的,包括但不限于易失性存儲(chǔ)器(諸如RAM)、非易失性存儲(chǔ)器(諸如ROM、閃存等等)、或其任何組合系統(tǒng)存儲(chǔ)器406可包括操作系統(tǒng)420、應(yīng)用422、以及程序數(shù)據(jù)424。應(yīng)用422可包括圖像處理模塊426,圖像處理模塊426可以是應(yīng)用的一個(gè)組成部分或其本身就是一個(gè)獨(dú)立應(yīng)用。圖像處理模塊426可執(zhí)行圖像大小調(diào)整、特征提取(使用深度卷積特征圖)、空間金字塔池化、以及分類器訓(xùn)練。任選地,還可執(zhí)行全連接層的微調(diào)和預(yù)測窗口的后處理。如本文所描述的,程序數(shù)據(jù)424可包括與圖像中通用對象檢測的實(shí)現(xiàn)有關(guān)的圖像數(shù)據(jù)428,以及其他數(shù)據(jù)。

計(jì)算設(shè)備400可具有附加特征或功能,以及附加接口以便促進(jìn)基本配置402與任何所需設(shè)備和接口之間的通信。例如,總線/接口控制器430可被用于促進(jìn)基本配置402與一個(gè)或多個(gè)數(shù)據(jù)存儲(chǔ)設(shè)備432之間經(jīng)由存儲(chǔ)接口總線434進(jìn)行的通信數(shù)據(jù)存儲(chǔ)設(shè)備432可以是一個(gè)或多個(gè)可移動(dòng)存儲(chǔ)設(shè)備436、一個(gè)或多個(gè)不可移動(dòng)存儲(chǔ)設(shè)備438、或其組合。僅舉數(shù)例,可移動(dòng)存儲(chǔ)和不可移動(dòng)存儲(chǔ)設(shè)備的示例包括諸如軟盤驅(qū)動(dòng)器和硬盤驅(qū)動(dòng)器(HDD)之類的磁盤設(shè)備、諸如緊致盤(CD)驅(qū)動(dòng)器或數(shù)字多功能盤(DVD)驅(qū)動(dòng)器之類的光盤驅(qū)動(dòng)器、固態(tài)驅(qū)動(dòng)器(SSD)、以及帶驅(qū)動(dòng)器。示例計(jì)算機(jī)存儲(chǔ)介質(zhì)可包括以用于存儲(chǔ)諸如計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊、或其他數(shù)據(jù)等信息的任何方法或技術(shù)實(shí)現(xiàn)的易失性和非易失性、可移動(dòng)和不可移動(dòng)介質(zhì)。

系統(tǒng)存儲(chǔ)器406、可移動(dòng)存儲(chǔ)設(shè)備436和不可移動(dòng)存儲(chǔ)設(shè)備438都是計(jì)算機(jī)存儲(chǔ)介質(zhì)的示例。計(jì)算機(jī)存儲(chǔ)介質(zhì)包括,但不限于,RAM、ROM、EEPROM、閃存或其他存儲(chǔ)器技術(shù)、CD-ROM、數(shù)字多功能盤(DVD)、固態(tài)驅(qū)動(dòng)器或其他光學(xué)存儲(chǔ)、磁盒、磁帶、磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備、或能用于存儲(chǔ)所需信息且可以由計(jì)算設(shè)備400訪問的任何其他介質(zhì)。任何此類計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是計(jì)算設(shè)備400的一部分。

計(jì)算設(shè)備400還可包括接口總線440以用于促進(jìn)經(jīng)由總線/接口控制器430從各種接口設(shè)備(例如一個(gè)或多個(gè)輸出設(shè)備442,一個(gè)或多個(gè)外圍接口444、以及一個(gè)或多個(gè)通信設(shè)備446)到基本配置402的通信。一些示例輸出設(shè)備442包括圖形處理單元448和音頻處理單元450,輸出設(shè)備442可被配置以便其經(jīng)由一個(gè)或多個(gè)A/V端口452與諸如顯示器或揚(yáng)聲器的各種外部設(shè)備通信。一個(gè)或多個(gè)示例外圍接口444可包括串行接口控制器454或并行接口控制器456,外圍接口444可被配置以便經(jīng)由一個(gè)或多個(gè)I/O端口458與諸如輸入設(shè)備(例如鍵盤、鼠標(biāo)、筆、語音輸入設(shè)備、觸摸輸入設(shè)備等等)或其他外圍設(shè)備(例如打印機(jī)、掃描儀等等)的外部設(shè)備通信。一示例通信設(shè)備446包括網(wǎng)絡(luò)控制器460,網(wǎng)絡(luò)控制器460可被安排成促進(jìn)經(jīng)由一個(gè)或多個(gè)通信端口464通過網(wǎng)絡(luò)通信鏈接與一個(gè)或多個(gè)其他計(jì)算設(shè)備462進(jìn)行通信。所述一個(gè)或多個(gè)其他計(jì)算設(shè)備462可包括服務(wù)器、客戶端設(shè)備、以及類似設(shè)備。

網(wǎng)絡(luò)通信鏈路可以是通信介質(zhì)的一個(gè)示例。通信介質(zhì)通??捎捎?jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或諸如載波或其他傳輸機(jī)制等已調(diào)制數(shù)據(jù)信號中的其他數(shù)據(jù)來體現(xiàn),并可包括任何信息傳遞介質(zhì)。“已調(diào)制數(shù)據(jù)信號”可以是通過對信號中的信息進(jìn)行編碼的方式設(shè)置或改變其具有的一個(gè)或多個(gè)特征的信號。通過示例而非限制,通信介質(zhì)可包括諸如有線網(wǎng)絡(luò)或直接有線連接之類的有線介質(zhì),以及諸如聲、射頻(RF)、微波、紅外(IR)和其他無線介質(zhì)之類的無線介質(zhì)。如此處所使用的術(shù)語計(jì)算機(jī)可讀介質(zhì)可包括存儲(chǔ)介質(zhì)和通信介質(zhì)兩者。

計(jì)算設(shè)備400可被實(shí)現(xiàn)為包括任何上述功能的通用或?qū)iT的服務(wù)器、大型機(jī)或類似的計(jì)算機(jī)的一部分。計(jì)算設(shè)備400還可被實(shí)現(xiàn)為包括膝上型計(jì)算機(jī)和非膝上型計(jì)算機(jī)配置兩者的個(gè)人計(jì)算機(jī)。

示例實(shí)施例還可包括圖像中通用對象檢測的方法。這些方法可以以任何數(shù)量的方式來實(shí)現(xiàn),包括本文中描述的結(jié)構(gòu)。一種這樣的方式可以是通過具有本公開中描述的類型的設(shè)備的機(jī)器操作。另一可任選方式可以是該方法的各個(gè)操作中的一個(gè)或多個(gè)操作結(jié)合一個(gè)或多個(gè)人類操作者執(zhí)行某些操作來執(zhí)行,同時(shí)其他操作可被機(jī)器執(zhí)行。這些人類操作者不需要彼此位于同處,但每個(gè)人類操作者可以僅具有執(zhí)行程序的一部分的一臺(tái)機(jī)器。在其他實(shí)施例中,人類交互可被自動(dòng)化,諸如通過可以是機(jī)器自動(dòng)化的預(yù)選標(biāo)準(zhǔn)。

圖5例示出根據(jù)各實(shí)施例的執(zhí)行圖像中通用對象檢測的方法的過程500的邏輯流程圖??稍诜?wù)器或其他系統(tǒng)上實(shí)現(xiàn)過程500。

過程500始于操作510,其中圖像處理應(yīng)用可接收輸入圖像以便處理。該圖像可包括各種各樣大小、形狀、類型和顏色的多個(gè)對象。圖像處理應(yīng)用可以是視覺應(yīng)用、分析應(yīng)用、監(jiān)視應(yīng)用、搜索引擎、或被配置為把檢測圖像中對象作為其操作的一部分的任何類似應(yīng)用。

在操作520,可由處理輸入圖像的神經(jīng)網(wǎng)絡(luò)的卷積層上的一個(gè)或多個(gè)濾波器生成特征圖。濾波器可以是滑動(dòng)濾波器??蓮恼麄€(gè)輸入圖像以一個(gè)或多個(gè)比例一次生成特征圖。

在操作530,圖像處理應(yīng)用在空間金字塔池化(SPP)層處對每個(gè)濾波器的響應(yīng)進(jìn)行空間池化。該SPP層可在多個(gè)空間箱中池化每個(gè)濾波器的響應(yīng)并且生成多維輸出向量,其中輸出向量的維數(shù)基于所述多個(gè)空間箱的數(shù)量乘以最后卷積層中的濾波器數(shù)量。

在操作540,SPP層的輸出可作為固定維度向量被提供給全連接層,其隨后是操作550,其中分類器可基于在全連接層處所接收到的所述固定維度向量被訓(xùn)練以便檢測輸入圖像中的一個(gè)或多個(gè)對象。

過程500中包括的操作用于說明目的。圖像中通用對象檢測的執(zhí)行可以使用此處所述的各原理通過具有更少或更多步驟以及不同的操作次序的類似過程來實(shí)現(xiàn)。

根據(jù)一些示例實(shí)施例,描述了用于檢測圖像中對象的裝置。檢測圖像中對象的示例裝置可包括:用于接收輸入圖像的裝置,用于由處理所述輸入圖像的神經(jīng)網(wǎng)絡(luò)的卷積層上的一個(gè)或多個(gè)濾波器生成特征圖的裝置,以及用于在空間金字塔池化(SPP)層處對每個(gè)濾波器的響應(yīng)進(jìn)行空間池化的裝置。檢測圖像中對象的示例裝置可進(jìn)一步包括用于將SPP層的輸出作為固定維度向量提供給全連接層的裝置,以及用于基于在全連接層處所接收到的所述固定維度向量來訓(xùn)練分類器以便檢測所述輸入圖像中的一個(gè)或多個(gè)對象的裝置。

根據(jù)一些示例實(shí)施例,描述了檢測圖像中對象的方法。一種示例方法可包括:接收輸入圖像,由處理所述輸入圖像的神經(jīng)網(wǎng)絡(luò)的卷積層上的一個(gè)或多個(gè)濾波器生成特征圖,以及在空間金字塔池化(SPP)層處對每個(gè)濾波器的響應(yīng)進(jìn)行空間池化。示例方法可進(jìn)一步包括將SPP層的輸出作為固定維度向量提供給全連接層,以及基于從全連接層處所接收到的所述固定維度向量來訓(xùn)練分類器以便檢測所述輸入圖像中的一個(gè)或多個(gè)對象。

根據(jù)其他示例,生成特征圖可包括在被配置成接受任意大小的輸入以及提供近似于輸入的寬高比的輸出的一個(gè)或多個(gè)卷積層處采用滑動(dòng)濾波器。對每個(gè)濾波器的響應(yīng)進(jìn)行空間池化可包括在多個(gè)空間箱中池化每個(gè)濾波器的響應(yīng)以及生成多維輸出向量,其中輸出向量的維數(shù)基于多個(gè)空間箱的數(shù)量乘以最后的卷積層中的濾波器的數(shù)量。

根據(jù)進(jìn)一步示例,該方法還可包括在特征圖的每個(gè)候選窗口上應(yīng)用SPP以便池化每個(gè)候選窗口的固定長度表示,和/或在特征提取之后調(diào)整圖像的大小。SPP層的輸出可以是每個(gè)窗口的表示,使得所述分類器針對所述表示的每個(gè)類別被訓(xùn)練。訓(xùn)練分類器可包括采用基礎(chǔ)事實(shí)窗口以便生成正樣本,以及基于與正窗口的重疊低于第一預(yù)定義閾值來標(biāo)識負(fù)樣本。該方法可進(jìn)一步包括移除與另一負(fù)樣本重疊高于第二預(yù)定義閾值的負(fù)樣本,和/或在測試模式中通過分類器對候選窗口評分。該方法還可包括在經(jīng)評分的候選窗口上采用具有預(yù)定義閾值的非最大抑制。

根據(jù)又一些示例,描述了用于執(zhí)行圖像中對象檢測的計(jì)算設(shè)備。所述計(jì)算設(shè)備可包括:被配置成通過有線或無線通信中的一種或多種來接收輸入圖像的輸入模塊,被配置為存儲(chǔ)指令的存儲(chǔ)器,以及耦合到所述存儲(chǔ)器和所述輸入模塊的處理器,所述處理器執(zhí)行圖像處理應(yīng)用。所述圖像處理應(yīng)用可被配置成通過在處理所述輸入圖像的神經(jīng)網(wǎng)絡(luò)的卷積層上采用一個(gè)或多個(gè)滑動(dòng)濾波器來生成特征圖;在空間金字塔池化(SPP)層處的多個(gè)空間箱中對每個(gè)濾波器的響應(yīng)進(jìn)行空間池化;將SPP層的輸出作為固定維度向量提供給全連接層;以及基于在全連接層處所接收到的所述固定維度向量來訓(xùn)練分類器以便檢測所述輸入圖像中的一個(gè)或多個(gè)對象。

根據(jù)又一些進(jìn)一步的示例,所述一個(gè)或多個(gè)滑動(dòng)濾波器可通過語義內(nèi)容被激活??蓮恼麄€(gè)輸入圖像以一個(gè)或多個(gè)比例一次生成特征圖。圖像處理應(yīng)用可進(jìn)一步被配置成調(diào)整圖像大?。粚γ總€(gè)比例生成特征圖;以及通過逐通道地池化特征來組合針對每個(gè)比例的特征。SPP層可包括1×1、2×2、3×3和6×6配置的4級空間金字塔,其產(chǎn)生總共50個(gè)空間箱。圖像處理應(yīng)用還可被配置成通過初始化所述全連接層的權(quán)重來微調(diào)所述全連接層,使用第一學(xué)習(xí)率執(zhí)行第一訓(xùn)練,以及使用細(xì)化的第二學(xué)習(xí)率執(zhí)行第二訓(xùn)練。圖像處理應(yīng)用還可進(jìn)一步被配置成使用邊界框回歸對預(yù)測窗口進(jìn)行后處理,其中用于回歸的特征是來自卷積層的經(jīng)池化的特征。

根據(jù)一些示例,描述了具有存儲(chǔ)在其上的執(zhí)行圖像中對象檢測的指令的計(jì)算機(jī)可讀存儲(chǔ)設(shè)備。所述指令可包括接收輸入圖像;由處理所述輸入圖像的第一神經(jīng)網(wǎng)絡(luò)的卷積層上的一個(gè)或多個(gè)濾波器生成特征圖;從深度卷積特征圖的區(qū)域中提取窗口級特征;執(zhí)行選擇性搜索以便生成每圖像預(yù)定義數(shù)目的候選窗口;在空間金字塔池化(SPP)層處對候選窗口的響應(yīng)進(jìn)行空間池化;將SPP層的輸出作為固定維度向量提供給全連接層;以及基于在全連接層處所接收到的所述固定維度向量來訓(xùn)練分類器以便檢測所述輸入圖像中的一個(gè)或多個(gè)對象。

根據(jù)其它示例,所述指令可進(jìn)一步包括調(diào)整所述輸入圖像的大小,使得min(w;h)=s,其中w是所述圖像的寬度,h是所述圖像的高度,以及s表示針對所述圖像的預(yù)定義比例。所述指令還可包括以不同的隨機(jī)初始化預(yù)訓(xùn)練所述第一神經(jīng)網(wǎng)絡(luò)和第二神經(jīng)網(wǎng)絡(luò);通過所述第一神經(jīng)網(wǎng)絡(luò)和所述第二神經(jīng)網(wǎng)絡(luò)在測試圖像上對候選窗口評分;在有它們相應(yīng)的評分的候選窗口的兩個(gè)集合的并集上執(zhí)行非最大抑制;以及從所述第一神經(jīng)網(wǎng)絡(luò)或所述第二神經(jīng)網(wǎng)絡(luò)中選擇具有較高評分的窗口用于對所述對象的檢測。

以上說明、示例和數(shù)據(jù)提供了各實(shí)施例的組成的制造和用途的完整描述。盡管用結(jié)構(gòu)特征和/或方法動(dòng)作專用的語言描述了本主題,但可以理解,所附權(quán)利要求書中定義的主題不必限于上述具體特征或動(dòng)作。相反,上述具體特征和動(dòng)作是作為實(shí)現(xiàn)權(quán)利要求和實(shí)施例的示例形式公開的。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
宜都市| 攀枝花市| 义乌市| 梁平县| 林口县| 麻城市| 新河县| 霍山县| 尚志市| 常州市| 台中县| 成安县| 瑞昌市| 西宁市| 平顶山市| 石林| 瑞金市| 平阴县| 龙陵县| 志丹县| 潜江市| 牡丹江市| 海口市| 德昌县| 聊城市| 新建县| 梓潼县| 彭州市| 原阳县| 特克斯县| 华容县| 墨竹工卡县| 大英县| 吉首市| 杭锦后旗| 武乡县| 苏尼特右旗| 牙克石市| 会同县| 绵竹市| 宜黄县|