欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

行人檢測方法和裝置與流程

文檔序號:12670524閱讀:301來源:國知局
行人檢測方法和裝置與流程

本發(fā)明涉及計算機領(lǐng)域,更具體地涉及一種行人檢測方法和裝置。



背景技術(shù):

在監(jiān)控領(lǐng)域,行人檢測具有非常重要的作用。目前的行人檢測算法往往通過滑窗(sliding-window)方法來從待處理圖像上提取多種不同尺度的窗口(每個窗口是一個矩形框,也可以稱為行人框),并判斷每個窗口中是否存在行人。但是這樣的方法往往沒有考慮場景的上下文(context)信息,依靠單一窗口判斷是否有行人可能會得到很多假陽性(false positive)的檢測結(jié)果。例如,場景中的樹木、建筑物等物體可能跟行人的外觀很像,這樣就有可能發(fā)生誤檢測。



技術(shù)實現(xiàn)要素:

考慮到上述問題而提出了本發(fā)明。本發(fā)明提供了一種行人檢測方法和裝置。

根據(jù)本發(fā)明一方面,提供了一種行人檢測方法。該方法包括:獲取待處理圖像;分析待處理圖像的每個像素所屬場景的場景信息;以及結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

示例性地,在分析待處理圖像的每個像素所屬場景的場景信息之前,行人檢測方法還包括:提取待處理圖像的特征;分析待處理圖像的每個像素所屬場景的場景信息包括:基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息;結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人包括:結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

示例性地,基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息包括:將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖,其中,每個場景特征圖與待處理圖像大小一致,并且每個場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的場景置信度。

示例性地,在將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖之后,行人檢測方法還包括:對于待處理圖像的每個像素,從預定數(shù)目的場景特征圖的、與該像素位置一致的像素的像素值中選擇像素值最大的像素;以及對于待處理圖像的每個像素,確定該像素屬于像素值最大的像素所屬的場景特征圖所對應的場景類別。

示例性地,提取待處理圖像的特征包括:將待處理圖像輸入卷積神經(jīng)網(wǎng)絡,以獲得至少一個圖像特征圖,其中,至少一個圖像特征圖代表待處理圖像的特征。

示例性地,結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人包括:利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積,以獲得行人特征圖,其中,行人特征圖與待處理圖像大小一致,并且行人特征圖的每個像素的像素值包括基于待處理圖像的、與該像素位置一致的像素預測出的行人框的頂點坐標和該行人框?qū)儆谛腥说男腥酥眯哦取?/p>

示例性地,利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積包括:對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行拼接;以及將拼接后的特征圖輸入一個或多個卷積層中的在先卷積層,以由一個或多個卷積層處理。

示例性地,結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人還包括:對包含同一行人的多個行人框進行篩選,以保留包含同一行人的行人框之一。

示例性地,結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人還包括:基于待處理圖像的每個像素所屬的場景類別過濾不屬于行人的行人框。

示例性地,行人檢測方法還包括:獲取訓練圖像和標注數(shù)據(jù),其中,標注數(shù)據(jù)包括訓練圖像中的每個行人所對應的行人框和訓練圖像的每個像素所屬的場景類別;以訓練圖像中的每個行人所對應的行人框作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的行人框的目標值構(gòu)建第一損失函數(shù),并以訓練圖像中的每個像素所屬的場景類別作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的場景信息的目標值構(gòu)建第二損失函數(shù);以及利用第一損失函數(shù)和第二損失函數(shù)對卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)進行訓練。

根據(jù)本發(fā)明另一方面,提供了一種行人檢測裝置。該裝置包括:待處理圖像獲取模塊,用于獲取待處理圖像;場景分析模塊,用于分析待處理圖像的每個像素所屬場景的場景信息;以及檢測模塊,用于結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

示例性地,行人檢測裝置還包括:特征提取模塊,用于提取待處理圖像的特征;場景分析模塊包括:場景分析子模塊,用于基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息;檢測模塊包括:檢測子模塊,用于結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

示例性地,場景分析子模塊包括:輸入單元,用于將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖,其中,每個場景特征圖與待處理圖像大小一致,并且每個場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的場景置信度。

示例性地,行人檢測裝置還包括:選擇模塊,用于對于待處理圖像的每個像素,從預定數(shù)目的場景特征圖的、與該像素位置一致的像素的像素值中選擇像素值最大的像素;以及場景類別確定模塊,用于對于待處理圖像的每個像素,確定該像素屬于像素值最大的像素所屬的場景特征圖所對應的場景類別。

示例性地,特征提取模塊包括:輸入子模塊,用于將待處理圖像輸入卷積神經(jīng)網(wǎng)絡,以獲得至少一個圖像特征圖,其中,至少一個圖像特征圖代表待處理圖像的特征。

示例性地,檢測子模塊包括:卷積單元,用于利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積,以獲得行人特征圖,其中,行人特征圖與待處理圖像大小一致,并且行人特征圖的每個像素的像素值包括基于待處理圖像的、與該像素位置一致的像素預測出的行人框的頂點坐標和該行人框?qū)儆谛腥说男腥酥眯哦取?/p>

示例性地,卷積單元包括:拼接子單元,用于對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行拼接;以及輸入子單元,用于將拼接后的特征圖輸入一個或多個卷積層中的在先卷積層,以由一個或多個卷積層處理。

示例性地,檢測子模塊還包括:篩選單元,用于對包含同一行人的多個行人框進行篩選,以保留包含同一行人的行人框之一。

示例性地,檢測子模塊還包括:過濾單元,用于基于待處理圖像的每個像素所屬的場景類別過濾不屬于行人的行人框。

示例性地,行人檢測裝置還包括:訓練圖像獲取模塊,用于獲取訓練圖像和標注數(shù)據(jù),其中,標注數(shù)據(jù)包括訓練圖像中的每個行人所對應的行人框和訓練圖像的每個像素所屬的場景類別;損失函數(shù)構(gòu)建模塊,用于以訓練圖像中的每個行人所對應的行人框作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的行人框的目標值構(gòu)建第一損失函數(shù),并以訓練圖像中的每個像素所屬的場景類別作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的場景信息的目標值構(gòu)建第二損失函數(shù);以及訓練模塊,用于利用第一損失函數(shù)和第二損失函數(shù)對卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)進行訓練。

根據(jù)本發(fā)明實施例的行人檢測方法和裝置,結(jié)合圖像中的場景信息來進行行人檢測,通過使用場景信息可以有效地減少行人檢測算法所產(chǎn)生的假陽性結(jié)果,同時利用場景信息可以幫助行人檢測算法提高檢測精度。

附圖說明

通過結(jié)合附圖對本發(fā)明實施例進行更詳細的描述,本發(fā)明的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。附圖用來提供對本發(fā)明實施例的進一步理解,并且構(gòu)成說明書的一部分,與本發(fā)明實施例一起用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的限制。在附圖中,相同的參考標號通常代表相同部件或步驟。

圖1示出用于實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測方法和裝置的示例電子設備的示意性框圖;

圖2示出根據(jù)本發(fā)明一個實施例的行人檢測方法的示意性流程圖;

圖3示出根據(jù)本發(fā)明另一個實施例的行人檢測方法的示意性流程圖;

圖4示出根據(jù)本發(fā)明一個實施例的行人檢測方法的數(shù)據(jù)處理流程的示意圖;

圖5示出根據(jù)本發(fā)明一個實施例的行人檢測裝置的示意性框圖;以及

圖6示出根據(jù)本發(fā)明一個實施例的行人檢測系統(tǒng)的示意性框圖。

具體實施方式

為了使得本發(fā)明的目的、技術(shù)方案和優(yōu)點更為明顯,下面將參照附圖詳細描述根據(jù)本發(fā)明的示例實施例。顯然,所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是本發(fā)明的全部實施例,應理解,本發(fā)明不受這里描述的示例實施例的限制?;诒景l(fā)明中描述的本發(fā)明實施例,本領(lǐng)域技術(shù)人員在沒有付出創(chuàng)造性勞動的情況下所得到的所有其它實施例都應落入本發(fā)明的保護范圍之內(nèi)。

為了解決上文所述的問題,本發(fā)明實施例提供一種行人檢測方法和裝置,其結(jié)合圖像中的場景信息來進行行人檢測,避免非行人物體被誤檢為行人。本發(fā)明實施例提供的行人檢測方法可以很好地應用于各種監(jiān)控領(lǐng)域。

首先,參照圖1來描述用于實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測方法和裝置的示例電子設備100。

如圖1所示,電子設備100包括一個或多個處理器102、一個或多個存儲裝置104、輸入裝置106、輸出裝置108和圖像采集裝置110,這些組件通過總線系統(tǒng)112和/或其它形式的連接機構(gòu)(未示出)互連。應當注意,圖1所示的電子設備100的組件和結(jié)構(gòu)只是示例性的,而非限制性的,根據(jù)需要,所述電子設備也可以具有其他組件和結(jié)構(gòu)。

所述處理器102可以是中央處理單元(CPU)或者具有數(shù)據(jù)處理能力和/或指令執(zhí)行能力的其它形式的處理單元,并且可以控制所述電子設備100中的其它組件以執(zhí)行期望的功能。

所述存儲裝置104可以包括一個或多個計算機程序產(chǎn)品,所述計算機程序產(chǎn)品可以包括各種形式的計算機可讀存儲介質(zhì),例如易失性存儲器和/或非易失性存儲器。所述易失性存儲器例如可以包括隨機存取存儲器(RAM)和/或高速緩沖存儲器(cache)等。所述非易失性存儲器例如可以包括只讀存儲器(ROM)、硬盤、閃存等。在所述計算機可讀存儲介質(zhì)上可以存儲一個或多個計算機程序指令,處理器102可以運行所述程序指令,以實現(xiàn)下文所述的本發(fā)明實施例中(由處理器實現(xiàn))的客戶端功能以及/或者其它期望的功能。在所述計算機可讀存儲介質(zhì)中還可以存儲各種應用程序和各種數(shù)據(jù),例如所述應用程序使用和/或產(chǎn)生的各種數(shù)據(jù)等。

所述輸入裝置106可以是用戶用來輸入指令的裝置,并且可以包括鍵盤、鼠標、麥克風和觸摸屏等中的一個或多個。

所述輸出裝置108可以向外部(例如用戶)輸出各種信息(例如圖像和/或聲音),并且可以包括顯示器、揚聲器等中的一個或多個。

所述圖像采集裝置110可以采集圖像(包括視頻幀),并且將所采集的圖像存儲在所述存儲裝置104中以供其它組件使用。圖像采集裝置110可以是監(jiān)控攝像頭。應當理解,圖像采集裝置110僅是示例,電子設備100可以不包括圖像采集裝置110。在這種情況下,可以利用其他圖像采集裝置采集用于行人檢測的圖像,并將采集的圖像發(fā)送給電子設備100。

示例性地,用于實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測方法和裝置的示例電子設備可以在諸如個人計算機或遠程服務器等的設備上實現(xiàn)。

下面,將參考圖2描述根據(jù)本發(fā)明實施例的行人檢測方法。圖2示出根據(jù)本發(fā)明一個實施例的行人檢測方法200的示意性流程圖。如圖2所示,行人檢測方法200包括以下步驟。

在步驟S210,獲取待處理圖像。

待處理圖像可以是任何合適的、需要進行行人檢測的圖像,例如針對被監(jiān)控區(qū)域采集到的圖像。待處理圖像可以是攝像頭等圖像采集裝置采集到的原始圖像,也可以是對原始圖像進行預處理之后獲得的圖像。

待處理圖像可以由客戶端設備(諸如包括監(jiān)控攝像頭的安防設備)發(fā)送到電子設備100以由電子設備100的處理器102進行處理,也可以由電子設備100包括的圖像采集裝置110(例如攝像頭)采集并傳送到處理器102進行處理。

在步驟S220,分析待處理圖像的每個像素所屬場景的場景信息。

通過對待處理圖像進行場景分析(scene parsing),可以獲知每個像素所屬場景的場景信息,例如獲知每個像素所屬的場景類別,這樣就能確定場景中每個位置的物理意義。簡單來講,通過場景分析可以獲知在待處理圖像中哪里是天空,哪里是地面,哪里是建筑物,哪里是樹木等等??梢岳斫獾氖?,行人不可能出現(xiàn)在天空或者建筑物之上。

在步驟S230,結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

如上文所述,確定待處理圖像的每個像素所屬場景的場景信息之后,就可以獲知待處理圖像中每個位置的物理意義。將所獲得的場景信息與待處理圖像中的行人的相關(guān)信息結(jié)合,可以檢測出行人所在的位置。對于非行人物體和行人來說,可以基于該非行人物體和行人所在位置處的像素所屬場景的場景信息對二者進行區(qū)分,以準確地檢測出行人所在位置。

示例性地,在步驟S230所獲得的行人檢測結(jié)果可以包括若干行人框。行人框是矩形框,用于指示待處理圖像中可能存在行人的區(qū)域。此外,行人檢測結(jié)果還可以包括與每個行人框?qū)男腥酥眯哦?,用于表示該行人框中存在行人的概率?/p>

根據(jù)本發(fā)明實施例的行人檢測方法,結(jié)合圖像中的場景信息來進行行人檢測,通過使用場景信息可以有效地減少行人檢測算法所產(chǎn)生的假陽性結(jié)果,同時利用場景信息可以幫助行人檢測算法提高檢測精度。

示例性地,根據(jù)本發(fā)明實施例的行人檢測方法可以在具有存儲器和處理器的設備、裝置或者系統(tǒng)中實現(xiàn)。

根據(jù)本發(fā)明實施例的行人檢測方法可以部署在圖像采集端處,例如,可以部署在小區(qū)門禁系統(tǒng)的圖像采集端或者部署在諸如車站、商場、銀行等公共場所的安防監(jiān)控系統(tǒng)的圖像采集端。替代地,根據(jù)本發(fā)明實施例的行人檢測方法還可以分布地部署在服務器端(或云端)和客戶端處。例如,可以在客戶端采集圖像,客戶端將采集到的圖像傳送給服務器端(或云端),由服務器端(或云端)進行行人檢測。

示例性地,在步驟S220之前,行人檢測方法200還可以包括:提取待處理圖像的特征;步驟S220可以包括:基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息;步驟S230可以包括:結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

圖3示出根據(jù)本發(fā)明另一個實施例的行人檢測方法300的示意性流程圖。如圖3所示,行人檢測方法300包括以下步驟。

在步驟S310,獲取待處理圖像。步驟S310的實施方式與步驟S210一致,不再贅述。

在步驟S320,提取待處理圖像的特征。

步驟S320可以采用任何合適的現(xiàn)有的或?qū)砜赡軐崿F(xiàn)的特征提取方法實現(xiàn)。示例性地,步驟S320可以包括:將待處理圖像輸入卷積神經(jīng)網(wǎng)絡,以獲得至少一個圖像特征圖,其中,至少一個圖像特征圖代表待處理圖像的特征。

參考圖4,示出根據(jù)本發(fā)明一個實施例的行人檢測方法的數(shù)據(jù)處理流程的示意圖。如圖4所示,在獲取待處理圖像之后,可以將待處理圖像輸入卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)中進行特征提取。待處理圖像可以是靜態(tài)的圖像,也可以是一段視頻中的任一視頻幀。在卷積神經(jīng)網(wǎng)絡的輸出端,可以獲得至少一個圖像特征圖(feature map)。卷積神經(jīng)網(wǎng)絡輸出的圖像特征圖可以代表待處理圖像的特征。示例性地,卷積神經(jīng)網(wǎng)絡可以采用在ImageNet數(shù)據(jù)集上進行預訓練獲得的VGG模型或者殘差網(wǎng)絡(ResNet)模型實現(xiàn)。在一個具體示例中,該用于特征提取的卷積神經(jīng)網(wǎng)絡通過如下方式訓練得到:首先,在通用訓練數(shù)據(jù)集(例如ImageNet數(shù)據(jù)集)上對卷積神經(jīng)網(wǎng)絡進行預訓練;然后,在行人特有的數(shù)據(jù)集(數(shù)據(jù)集中的圖片為行人圖片)上對該卷積神經(jīng)網(wǎng)絡進行微調(diào)(fine-tune)以得到最終的用于特征提取的卷積神經(jīng)網(wǎng)絡。這一訓練方法不僅可以加快網(wǎng)絡的收斂速度,而且從通常圖片學習到的一些底層網(wǎng)絡信息對于行人圖片也是有效的。采用卷積神經(jīng)網(wǎng)絡可以提取待處理圖像中的有價值的信息,隨后可以基于此信息進行場景分析和行人檢測,如下文所述。上述卷積神經(jīng)網(wǎng)絡可以是預先采用大量的訓練圖像訓練好的。

在步驟S330,基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息。

示例性地,步驟S330可以包括:將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖,其中,每個場景特征圖與待處理圖像大小一致,并且每個場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的場景置信度。

本文所述的全卷積網(wǎng)絡(Fully-Convolutional Network,FCN)可以是類似于用于語義分割的全卷積網(wǎng)絡。繼續(xù)參考圖4,可以將卷積神經(jīng)網(wǎng)絡輸出的待處理圖像的特征輸入全卷積網(wǎng)絡進行場景分析。在將待處理圖像的特征輸入全卷積網(wǎng)絡之后,可以在全卷積網(wǎng)絡的輸出端獲得待處理圖像的場景特征圖。

例如,假設預先定義場景類別共分為十種,例如馬路、建筑物、樹木、天空等,則可以在全卷積網(wǎng)絡的輸出端獲得十個場景特征圖。對于任一場景特征圖來說,該場景特征圖與待處理圖像大小一致,并且該場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的置信度(稱為場景置信度)。例如,天空特征圖的坐標為(100,200)的像素的像素值表示待處理圖像的坐標為(100,200)的像素屬于天空的置信度。

與卷積神經(jīng)網(wǎng)絡類似地,全卷積網(wǎng)絡可以是預先采用大量的訓練圖像訓練好的。卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡的訓練方式將在下文描述,此處不做贅述。

在步驟S340,結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。在檢測待處理圖像中的行人的過程中,可以將待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息結(jié)合在一起考慮,其示例性的實施方式將在下文描述。

根據(jù)本發(fā)明實施例,在將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖之后,行人檢測方法300還可以包括:對于待處理圖像的每個像素,從預定數(shù)目的場景特征圖的、與該像素位置一致的像素的像素值中選擇像素值最大的像素;以及對于待處理圖像的每個像素,確定該像素屬于像素值最大的像素所屬的場景特征圖所對應的場景類別。

假設全卷積網(wǎng)絡輸出的是十個場景特征圖,對于待處理圖像的坐標為(1,1)的像素來說,從這十個特征圖中的坐標為(1,1)的十個像素中找出像素值最大的那個像素。假設所找出的像素值最大的像素屬于樹木特征圖,則可以確定待處理圖像的坐標為(1,1)的像素屬于樹木。對于待處理圖像的其他像素執(zhí)行類似的操作,可以確定待處理圖像的每個像素所屬的場景類別。

根據(jù)本發(fā)明實施例,步驟S340可以包括:利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積,以獲得行人特征圖,其中,行人特征圖與待處理圖像大小一致,并且行人特征圖的每個像素的像素值包括基于待處理圖像的、與該像素位置一致的像素預測出的行人框的頂點坐標和該行人框?qū)儆谛腥说男腥酥眯哦取?/p>

對至少一個圖像特征圖和預定數(shù)目的場景特征圖的卷積可以由簡單的卷積層實施,也可以由包括多個卷積層的卷積神經(jīng)網(wǎng)絡實施。最終獲得的結(jié)果是行人特征圖。行人特征圖與待處理圖像大小一致,其每個像素的像素值包括四個坐標值和一個置信度值(score)。四個坐標值分別表示一個行人框的四個頂點的位置,行人框是針對待處理圖像的對應像素預測獲得的。如果待處理圖像的某個像素屬于某個行人,則針對該像素可以預測出所屬行人的行人框,如果待處理圖像的某個像素不屬于行人,而屬于諸如建筑物等的其他物體,則針對該像素也可以預測出行人框,只不過行人框的對應置信度非常低。可以理解,如果兩個距離較近的像素屬于同一行人,則針對這兩個像素預測出的兩個行人框的坐標可能是相同或相近的,因此后續(xù)可以對行人框進行過濾,將重合的、多余的行人框丟棄,以盡量針對每個行人保留一個行人框。

根據(jù)本發(fā)明實施例,利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積包括:對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行拼接;以及將拼接后的特征圖輸入一個或多個卷積層中的在先卷積層,以由一個或多個卷積層處理。

拼接可以是簡單拼接,例如一個圖像特征圖是128維,一個場景特征圖是128維,則拼接之后的一個特征圖可以是256維。拼接也可以是將圖像特征圖的每個像素的像素值與場景特征圖的對應像素的像素值相加,形成新的特征圖。當然,拼接還可以采用其他方式實現(xiàn),本發(fā)明不一一列舉。

根據(jù)本發(fā)明實施例,步驟S340還可以包括:對包含同一行人的多個行人框進行篩選,以保留包含同一行人的行人框之一。

如上文所述,在針對每個像素預測行人框之后,屬于同一行人的兩個像素可能預測出相同或相近的兩個行人框,因此可以對行人框進行篩選。篩選可以采用常規(guī)的非極大值抑制(non-maximum suppression,NMS)方法實現(xiàn)。本領(lǐng)域技術(shù)人員可以理解,NMS主要基于兩個行人框的交并集(inter-section-over-union),使用高得分(即高置信度)的行人框來過濾與此行人框有較大重疊的其他行人框。篩選屬于同一行人的行人框可以排除行人檢測結(jié)果中的多余行人框,方便用戶查看最可信的行人框。

根據(jù)本發(fā)明實施例,步驟S340還可以包括:基于待處理圖像的每個像素所屬的場景類別過濾不屬于行人的行人框。

可以理解,行人不應當出現(xiàn)在天空、建筑物等物體之上??梢曰诖幚韴D像的每個像素所屬的場景類別,分析場景的上下文信息,并利用場景的上下文信息,將一些在諸如天空、建筑物等物體上面出現(xiàn)的行人框進行過濾。過濾不屬于行人的行人框可以排除行人檢測結(jié)果中的無價值行人框,方便用戶查看最有價值的行人框。

在一個示例中,可以將所預測的所有行人框作為最終的行人檢測結(jié)果。在另一個示例中,可以篩選包含同一行人的多余行人框,將篩選后的剩余行人框作為最終的行人檢測結(jié)果。在又一示例中,可以過濾不屬于行人的行人框,將過濾后的剩余行人框作為最終的行人檢測結(jié)果。示例性地,篩選包含同一行人的多余行人框和過濾不屬于行人的行人框這兩個操作可以僅實施其中之一,也可以兩個操作一起實施。

根據(jù)本發(fā)明實施例,行人檢測方法200還可以包括:獲取訓練圖像和標注數(shù)據(jù),其中,標注數(shù)據(jù)包括訓練圖像中的每個行人所對應的行人框和訓練圖像的每個像素所屬的場景類別;以訓練圖像中的每個行人所對應的行人框作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的行人框的目標值構(gòu)建第一損失函數(shù),并以訓練圖像中的每個像素所屬的場景類別作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的場景信息的目標值構(gòu)建第二損失函數(shù);以及利用第一損失函數(shù)和第二損失函數(shù)對卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)進行訓練。

使用事先標注好的行人位置,可以計算行人檢測結(jié)果的損失函數(shù),即第一損失函數(shù)。具體的損失函數(shù)的設置可以類似于通過多任務網(wǎng)絡級聯(lián)進行圖像的實例感知語義分割(Instance-aware Semantic Segmentation via Multi-task Network Cascades)方法中所采用的設置。此外,使用事先標注好的每個像素的場景類別,可以計算場景分析結(jié)果的損失函數(shù),即第二損失函數(shù)。本領(lǐng)域技術(shù)人員可以理解,假設訓練圖像的坐標為(1,1)的像素所屬的場景類別為天空,則在全卷積網(wǎng)絡輸出的十個場景特征圖中,天空特征圖的坐標為(1,1)的像素的置信度可以設置為1,其余特征圖的對應像素的置信度可以設置為0。示例性地,第二損失函數(shù)可以是交叉熵損失函數(shù)。返回參考圖4,示出了第一損失函數(shù)和第二損失函數(shù)的位置。

利用上述兩個損失函數(shù)進行多輪訓練,卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)會逐漸收斂到一個合理值。最終訓練獲得的網(wǎng)絡模型就可以用于待處理圖像的行人檢測。在利用一個或多個卷積層對圖像特征圖和場景特征圖進行卷積的實施例中,還可以與卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡一起訓練一個或多個卷積層中的參數(shù)。

在訓練卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡(和一個或多個卷積層)中的參數(shù)的過程中,可以采用常規(guī)的反向傳播算法進行訓練,本領(lǐng)域技術(shù)人員可以理解反向傳播算法的實現(xiàn)方式,本文不對此進行贅述。

根據(jù)本發(fā)明另一方面,提供一種行人檢測裝置。圖5示出了根據(jù)本發(fā)明一個實施例的行人檢測裝置500的示意性框圖。

如圖5所示,根據(jù)本發(fā)明實施例的行人檢測裝置500包括待處理圖像獲取模塊510、場景分析模塊520和檢測模塊530。所述各個模塊可分別執(zhí)行上文中結(jié)合圖2-4描述的行人檢測方法的各個步驟/功能。以下僅對該行人檢測裝置500的各部件的主要功能進行描述,而省略以上已經(jīng)描述過的細節(jié)內(nèi)容。

待處理圖像獲取模塊510用于獲取待處理圖像。待處理圖像獲取模塊510可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn)。

場景分析模塊520用于分析待處理圖像的每個像素所屬場景的場景信息。場景分析模塊520可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn)。

檢測模塊530用于結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。檢測模塊530可以由圖1所示的電子設備中的處理器102運行存儲裝置104中存儲的程序指令來實現(xiàn)。

根據(jù)本發(fā)明實施例,行人檢測裝置500還包括:特征提取模塊,用于提取待處理圖像的特征;場景分析模塊520包括:場景分析子模塊,用于基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息;檢測模塊530包括:檢測子模塊,用于結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

根據(jù)本發(fā)明實施例,場景分析子模塊包括:輸入單元,用于將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖,其中,每個場景特征圖與待處理圖像大小一致,并且每個場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的場景置信度。

根據(jù)本發(fā)明實施例,行人檢測裝置500還包括:選擇模塊,用于對于待處理圖像的每個像素,從預定數(shù)目的場景特征圖的、與該像素位置一致的像素的像素值中選擇像素值最大的像素;以及場景類別確定模塊,用于對于待處理圖像的每個像素,確定該像素屬于像素值最大的像素所屬的場景特征圖所對應的場景類別。

根據(jù)本發(fā)明實施例,特征提取模塊包括:輸入子模塊,用于將待處理圖像輸入卷積神經(jīng)網(wǎng)絡,以獲得至少一個圖像特征圖,其中,至少一個圖像特征圖代表待處理圖像的特征。

根據(jù)本發(fā)明實施例,檢測子模塊包括:卷積單元,用于利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積,以獲得行人特征圖,其中,行人特征圖與待處理圖像大小一致,并且行人特征圖的每個像素的像素值包括基于待處理圖像的、與該像素位置一致的像素預測出的行人框的頂點坐標和該行人框?qū)儆谛腥说男腥酥眯哦取?/p>

根據(jù)本發(fā)明實施例,卷積單元包括:拼接子單元,用于對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行拼接;以及輸入子單元,用于將拼接后的特征圖輸入一個或多個卷積層中的在先卷積層,以由一個或多個卷積層處理。

根據(jù)本發(fā)明實施例,檢測子模塊還包括:篩選單元,用于對包含同一行人的多個行人框進行篩選,以保留包含同一行人的行人框之一。

根據(jù)本發(fā)明實施例,檢測子模塊還包括:過濾單元,用于基于待處理圖像的每個像素所屬的場景類別過濾不屬于行人的行人框。

根據(jù)本發(fā)明實施例,行人檢測裝置500還包括:訓練圖像獲取模塊,用于獲取訓練圖像和標注數(shù)據(jù),其中,標注數(shù)據(jù)包括訓練圖像中的每個行人所對應的行人框和訓練圖像的每個像素所屬的場景類別;損失函數(shù)構(gòu)建模塊,用于以訓練圖像中的每個行人所對應的行人框作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的行人框的目標值構(gòu)建第一損失函數(shù),并以訓練圖像中的每個像素所屬的場景類別作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的場景信息的目標值構(gòu)建第二損失函數(shù);以及訓練模塊,用于利用第一損失函數(shù)和第二損失函數(shù)對卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)進行訓練。

本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。

圖6示出了根據(jù)本發(fā)明一個實施例的行人檢測系統(tǒng)600的示意性框圖。行人檢測系統(tǒng)600包括圖像采集裝置610、存儲裝置620、以及處理器630。

圖像采集裝置610用于采集待處理圖像。圖像采集裝置610是可選的,行人檢測系統(tǒng)600可以不包括圖像采集裝置610。在這種情況下,可以利用其他圖像采集裝置采集用于行人檢測的圖像,并將采集的圖像發(fā)送給行人檢測系統(tǒng)600。

所述存儲裝置620存儲用于實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測方法中的相應步驟的程序代碼。

所述處理器630用于運行所述存儲裝置620中存儲的程序代碼,以執(zhí)行根據(jù)本發(fā)明實施例的行人檢測方法的相應步驟,并且用于實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測裝置500中的待處理圖像獲取模塊510、場景分析模塊520和檢測模塊530。

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600執(zhí)行以下步驟:獲取待處理圖像;分析待處理圖像的每個像素所屬場景的場景信息;以及結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

在一個實施例中,在所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的分析待處理圖像的每個像素所屬場景的場景信息的步驟之前,所述程序代碼被所述處理器630運行時還使所述行人檢測系統(tǒng)600執(zhí)行:提取待處理圖像的特征;所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的分析待處理圖像的每個像素所屬場景的場景信息的步驟包括:基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息;所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟包括:結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息的步驟包括:將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖,其中,每個場景特征圖與待處理圖像大小一致,并且每個場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的場景置信度。

在一個實施例中,在所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖的步驟之后,所述程序代碼被所述處理器630運行時還使所述行人檢測系統(tǒng)600執(zhí)行:對于待處理圖像的每個像素,從預定數(shù)目的場景特征圖的、與該像素位置一致的像素的像素值中選擇像素值最大的像素;以及對于待處理圖像的每個像素,確定該像素屬于像素值最大的像素所屬的場景特征圖所對應的場景類別。

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的提取待處理圖像的特征的步驟包括:將待處理圖像輸入卷積神經(jīng)網(wǎng)絡,以獲得至少一個圖像特征圖,其中,至少一個圖像特征圖代表待處理圖像的特征。

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟包括:利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積,以獲得行人特征圖,其中,行人特征圖與待處理圖像大小一致,并且行人特征圖的每個像素的像素值包括基于待處理圖像的、與該像素位置一致的像素預測出的行人框的頂點坐標和該行人框?qū)儆谛腥说男腥酥眯哦取?/p>

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積的步驟包括:對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行拼接;以及將拼接后的特征圖輸入一個或多個卷積層中的在先卷積層,以由一個或多個卷積層處理。

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟還包括:對包含同一行人的多個行人框進行篩選,以保留包含同一行人的行人框之一。

在一個實施例中,所述程序代碼被所述處理器630運行時使所述行人檢測系統(tǒng)600所執(zhí)行的結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟還包括:基于待處理圖像的每個像素所屬的場景類別過濾不屬于行人的行人框。

在一個實施例中,所述程序代碼被所述處理器630運行時還使所述行人檢測系統(tǒng)600執(zhí)行:獲取訓練圖像和標注數(shù)據(jù),其中,標注數(shù)據(jù)包括訓練圖像中的每個行人所對應的行人框和訓練圖像的每個像素所屬的場景類別;以訓練圖像中的每個行人所對應的行人框作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的行人框的目標值構(gòu)建第一損失函數(shù),并以訓練圖像中的每個像素所屬的場景類別作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的場景信息的目標值構(gòu)建第二損失函數(shù);以及利用第一損失函數(shù)和第二損失函數(shù)對卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)進行訓練。

此外,根據(jù)本發(fā)明實施例,還提供了一種存儲介質(zhì),在所述存儲介質(zhì)上存儲了程序指令,在所述程序指令被計算機或處理器運行時用于執(zhí)行本發(fā)明實施例的行人檢測方法的相應步驟,并且用于實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測裝置中的相應模塊。所述存儲介質(zhì)例如可以包括智能電話的存儲卡、平板電腦的存儲部件、個人計算機的硬盤、只讀存儲器(ROM)、可擦除可編程只讀存儲器(EPROM)、便攜式緊致盤只讀存儲器(CD-ROM)、USB存儲器、或者上述存儲介質(zhì)的任意組合。

在一個實施例中,所述計算機程序指令在被計算機或處理器運行時可以使得計算機或處理器實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測裝置的各個功能模塊,并且/或者可以執(zhí)行根據(jù)本發(fā)明實施例的行人檢測方法。

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機執(zhí)行以下步驟:獲取待處理圖像;分析待處理圖像的每個像素所屬場景的場景信息;以及結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

在一個實施例中,在所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的分析待處理圖像的每個像素所屬場景的場景信息的步驟之前,所述計算機程序指令在被計算機運行時還使所述計算機執(zhí)行:提取待處理圖像的特征;所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的分析待處理圖像的每個像素所屬場景的場景信息的步驟包括:基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息;所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的結(jié)合待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟包括:結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人,以確定待處理圖像中的行人所在的位置。

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的基于待處理圖像的特征分析待處理圖像的每個像素所屬場景的場景信息的步驟包括:將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖,其中,每個場景特征圖與待處理圖像大小一致,并且每個場景特征圖的每個像素的像素值表示待處理圖像的、與該像素位置一致的像素屬于該場景特征圖所對應的場景類別的場景置信度。

在一個實施例中,在所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的將待處理圖像的特征輸入全卷積網(wǎng)絡,以獲得與預定數(shù)目的場景類別一一對應的預定數(shù)目的場景特征圖的步驟之后,所述計算機程序指令在被計算機運行時還使所述計算機執(zhí)行:對于待處理圖像的每個像素,從預定數(shù)目的場景特征圖的、與該像素位置一致的像素的像素值中選擇像素值最大的像素;以及對于待處理圖像的每個像素,確定該像素屬于像素值最大的像素所屬的場景特征圖所對應的場景類別。

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的提取待處理圖像的特征的步驟包括:將待處理圖像輸入卷積神經(jīng)網(wǎng)絡,以獲得至少一個圖像特征圖,其中,至少一個圖像特征圖代表待處理圖像的特征。

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟包括:利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積,以獲得行人特征圖,其中,行人特征圖與待處理圖像大小一致,并且行人特征圖的每個像素的像素值包括基于待處理圖像的、與該像素位置一致的像素預測出的行人框的頂點坐標和該行人框?qū)儆谛腥说男腥酥眯哦取?/p>

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的利用一個或多個卷積層對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行卷積的步驟包括:對至少一個圖像特征圖和預定數(shù)目的場景特征圖進行拼接;以及將拼接后的特征圖輸入一個或多個卷積層中的在先卷積層,以由一個或多個卷積層處理。

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟還包括:對包含同一行人的多個行人框進行篩選,以保留包含同一行人的行人框之一。

在一個實施例中,所述計算機程序指令在被計算機運行時使所述計算機所執(zhí)行的結(jié)合待處理圖像的特征和待處理圖像的每個像素所屬場景的場景信息檢測待處理圖像中的行人的步驟還包括:基于待處理圖像的每個像素所屬的場景類別過濾不屬于行人的行人框。

在一個實施例中,所述計算機程序指令在被計算機運行時還使所述計算機執(zhí)行:獲取訓練圖像和標注數(shù)據(jù),其中,標注數(shù)據(jù)包括訓練圖像中的每個行人所對應的行人框和訓練圖像的每個像素所屬的場景類別;以訓練圖像中的每個行人所對應的行人框作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的行人框的目標值構(gòu)建第一損失函數(shù),并以訓練圖像中的每個像素所屬的場景類別作為利用卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡對訓練圖像進行處理所獲得的場景信息的目標值構(gòu)建第二損失函數(shù);以及利用第一損失函數(shù)和第二損失函數(shù)對卷積神經(jīng)網(wǎng)絡和全卷積網(wǎng)絡中的參數(shù)進行訓練。

根據(jù)本發(fā)明實施例的行人檢測系統(tǒng)中的各模塊可以通過根據(jù)本發(fā)明實施例的實施行人檢測的電子設備的處理器運行在存儲器中存儲的計算機程序指令來實現(xiàn),或者可以在根據(jù)本發(fā)明實施例的計算機程序產(chǎn)品的計算機可讀存儲介質(zhì)中存儲的計算機指令被計算機運行時實現(xiàn)。

根據(jù)本發(fā)明實施例的行人檢測方法及裝置,結(jié)合圖像中的場景信息來進行行人檢測,通過使用場景信息可以有效地減少行人檢測算法所產(chǎn)生的假陽性結(jié)果,同時利用場景信息可以幫助行人檢測算法提高檢測精度。

盡管這里已經(jīng)參考附圖描述了示例實施例,應理解上述示例實施例僅僅是示例性的,并且不意圖將本發(fā)明的范圍限制于此。本領(lǐng)域普通技術(shù)人員可以在其中進行各種改變和修改,而不偏離本發(fā)明的范圍和精神。所有這些改變和修改意在被包括在所附權(quán)利要求所要求的本發(fā)明的范圍之內(nèi)。

本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應用和設計約束條件。專業(yè)技術(shù)人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。

在本申請所提供的幾個實施例中,應該理解到,所揭露的設備和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的設備實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個設備,或一些特征可以忽略,或不執(zhí)行。

在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本發(fā)明并幫助理解各個發(fā)明方面中的一個或多個,在對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該本發(fā)明的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如相應的權(quán)利要求書所反映的那樣,其發(fā)明點在于可以用少于某個公開的單個實施例的所有特征的特征來解決相應的技術(shù)問題。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。

本領(lǐng)域的技術(shù)人員可以理解,除了特征之間相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的行人檢測裝置中的一些模塊的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。

應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。

以上所述,僅為本發(fā)明的具體實施方式或?qū)唧w實施方式的說明,本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。本發(fā)明的保護范圍應以權(quán)利要求的保護范圍為準。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
尚义县| 聂荣县| 嵩明县| 大邑县| 多伦县| 聊城市| 类乌齐县| 延庆县| 都匀市| 达州市| 民县| 白山市| 尼木县| 平遥县| 惠水县| 油尖旺区| 栾城县| 闻喜县| 隆昌县| 荃湾区| 荆门市| 峨眉山市| 新平| 新化县| 潞城市| 宝坻区| 开远市| 孙吴县| 株洲县| 慈溪市| 改则县| 潜山县| 枞阳县| 胶州市| 蒲城县| 崇文区| 辉县市| 宁南县| 宜宾市| 色达县| 旺苍县|