本發(fā)明涉及圖像處理領(lǐng)域,特別涉及一種用于密集場景行人檢測系統(tǒng)及其構(gòu)建方法。
背景技術(shù):
1、近年來,隨著計(jì)算機(jī)硬件水平和相關(guān)理論的快速發(fā)展,人工智能技術(shù)得到了廣泛的應(yīng)用。計(jì)算機(jī)視覺技術(shù)作為人工智能技術(shù)的重要組成部分,吸引廣大研究人員投身于計(jì)算機(jī)視覺領(lǐng)域。計(jì)算機(jī)視覺是一門研究如何使計(jì)算機(jī)系統(tǒng)理解和解釋數(shù)字圖像或視頻內(nèi)容的交叉學(xué)科領(lǐng)域。它涉及從圖像或視頻中提取信息,對(duì)這些信息進(jìn)行有效處理并服務(wù)于相關(guān)任務(wù)。
2、行人檢測是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究課題,其目標(biāo)是在圖像或者視頻中準(zhǔn)確定位行人位置信息。行人檢測的基礎(chǔ)模型來源于現(xiàn)有目標(biāo)檢測模型,是目標(biāo)檢測領(lǐng)域中專門為適應(yīng)行人的復(fù)雜背景、姿態(tài)等因素而設(shè)計(jì)的。目前,行人檢測技術(shù)被廣泛用于智能監(jiān)控、自動(dòng)駕駛等場景。同時(shí),行人檢測技術(shù)作為計(jì)算機(jī)視覺的基礎(chǔ)任務(wù),可以服務(wù)于行人目標(biāo)跟蹤、行人重識(shí)別等關(guān)鍵領(lǐng)域。
3、然而,由于行人檢測的應(yīng)用場景一般是地鐵站、步行街、十字路口等密集場景。這些場景行人密度大、背景復(fù)雜度高,往往會(huì)在行人和背景間產(chǎn)生類內(nèi)、類間遮擋的問題。遮擋一方面會(huì)造成行人表觀特征的缺失,使檢測器難以檢出行人。另一方面,遮擋造成了空間上行人的高度重疊,使現(xiàn)有檢測器難以分辨冗余檢測和高度重疊的真實(shí)檢測。綜合這兩方面的困難,遮擋會(huì)造成比較嚴(yán)重的漏檢和誤檢。因此,現(xiàn)階段行人檢測問題是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重難點(diǎn)。
技術(shù)實(shí)現(xiàn)思路
1、為了實(shí)現(xiàn)上述目的,本發(fā)明提供以下技術(shù)方案:
2、本發(fā)明提供一種用于密集場景行人檢測系統(tǒng),所述系統(tǒng)包括:
3、主干網(wǎng)絡(luò),用于提取圖像中的深度語義特征;
4、解耦預(yù)測模塊,包括行人的可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò),用于將主干網(wǎng)絡(luò)提取的深度語義特征分別通過行人的可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)得到行人的可視區(qū)域候選框和全身區(qū)域候選框,并分別對(duì)其進(jìn)行分類回歸計(jì)算得到全身檢測框、全身檢測框分類置信度、可視檢測框和可視檢測框分類置信度;
5、全身框可視度預(yù)測模塊,將行人全身框按照人體部位分為五個(gè)部分,通過預(yù)測該五個(gè)部分的可視度,增強(qiáng)網(wǎng)絡(luò)對(duì)遮擋行人的感知;
6、抑制檢測召回模塊,包括相似度判別網(wǎng)絡(luò)和抑制檢測的召回策略,其中相似度判別網(wǎng)絡(luò)由三個(gè)全連接層構(gòu)成,抑制檢測召回策略用于召回由于行人間高度重疊,本該被保留卻被抑制的全身框;
7、其檢測的方法為:
8、(1)輸入待檢測的圖像;
9、(2)通過主干網(wǎng)絡(luò)獲取待檢測圖像的深度語義特征;
10、(3)深度語義特征通過可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)提取出可視區(qū)域候選框和全身區(qū)域候選框;
11、(4)可視區(qū)域候選框和全身區(qū)域候選框經(jīng)過分類回歸計(jì)算得到全身檢測框、全身檢測框分類置信度、可視檢測框和可視檢測框分類置信度;
12、(5)全身檢測框、全身檢測框分類置信度、可視檢測框和可視檢測框分類置信度抑制檢測召回得到圖像檢測結(jié)果。
13、進(jìn)一步的,步驟(5)的具體過程為:
14、(51)通過對(duì)多個(gè)圖像處理后得到待檢測圖像的全身檢測框集合b、全身檢測框分類置信度集合s、可視檢測框集合h及可視檢測框分類置信度集合j,并設(shè)定待召回的行人全身檢測框集合為r,此時(shí)r是個(gè)空集;
15、(52)對(duì)全身檢測框集合b進(jìn)行非極大值抑制,得到保留的全身檢測框集合b1和被抑制的全身檢測框集合b2,并將b1和b2分別按分類置信度降序排列;
16、(53)對(duì)可視檢測框集合h進(jìn)行非極大值抑制,得到保留的可視檢測框集合h1,并將h1按分類置信度降序排列;
17、(54)從h1中按分類置信度按降序取出一個(gè)可視框hj,計(jì)算b1中所有全身框和hj的面積交比iof,并取出面積交比iof大于閾值0.6的全身框;
18、(55)提取步驟(54)中面積交比iof大于閾值0.6的全身框中對(duì)應(yīng)區(qū)域的特征,并通過相似度判別網(wǎng)絡(luò)計(jì)算取得的全身框和可視框hj對(duì)應(yīng)區(qū)域特征的相似度,若超過一定閾值beta=0.2,則從h1中刪除hj;
19、(56)從h1中按分類置信度按降序取出一個(gè)可視框hj,重復(fù)步驟(54)和(55),直至h1中全部的可視框全部執(zhí)行步驟(54)和(55);
20、(57)從剔除后的h1中按分類置信度按降序取出一個(gè)可視框hj,計(jì)算可視框hj和r中全身框?qū)?yīng)區(qū)域特征的相似度,若相似度超過閾值beta=0.2,則重新進(jìn)行步驟(57);否則進(jìn)入步驟(58);
21、(58)按照分類置信度降序取出b2中的全身檢測框bi,計(jì)算bi和hj的iof,若前景交叉值小于閾值0.6,且根據(jù)相似度判別網(wǎng)絡(luò)計(jì)算bi對(duì)應(yīng)區(qū)域特征和hj對(duì)應(yīng)區(qū)域特征的相似度小于閾值γ=0.7,則將該bi放入r中,并返回步驟(57);
22、(59)將最終得到的待召回行人全身檢測框集合r和經(jīng)過非極大值抑制保留的全身檢測框集合b1合并,得到最終的圖像檢測結(jié)果。
23、進(jìn)一步的,步驟(54)中的保留的全身檢測框集合b1中所有全身框和可視框hj的面積交比iof是指b1中的全身框和可視框hj交集的面積除以可視框hj的面積,具體公式為:
24、
25、本發(fā)明提供一種用于密集場景行人檢測系統(tǒng)的構(gòu)建方法,所述構(gòu)建方法用于上述的檢測系統(tǒng),所述構(gòu)建方法包括:
26、步驟1,獲取訓(xùn)練樣本集,訓(xùn)練樣本集包括多個(gè)訓(xùn)練樣本,每一個(gè)所述訓(xùn)練樣本包括含有行人的圖像和對(duì)應(yīng)的可視框標(biāo)注和全身框標(biāo)注;
27、步驟2,通過主干網(wǎng)絡(luò)提取訓(xùn)練樣本的深度語義特征,通過深度語義特征對(duì)可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練使其可提取出可視區(qū)域候選框和全身區(qū)域候選框;
28、然后對(duì)可視區(qū)域候選框和全身區(qū)域候選框進(jìn)行分類與回歸訓(xùn)練,通過分類與回歸得到可視檢測框和全身檢測框,并計(jì)算可視區(qū)域候選框和全身區(qū)域候選框經(jīng)過分類與回歸得到可視檢測框和全身檢測框的回歸損失函數(shù);
29、步驟3,根據(jù)訓(xùn)練樣本的訓(xùn)練得到的可視檢測框和全身檢測框以及主干網(wǎng)絡(luò)提取的深度語義特征對(duì)人體的五部分的可視度網(wǎng)絡(luò)進(jìn)行訓(xùn)練,,使其增強(qiáng)人體的五部位的可視度,增強(qiáng)網(wǎng)絡(luò)對(duì)遮擋行人的感知,并計(jì)算人體的五部分增強(qiáng)可視度的增強(qiáng)損失函數(shù);
30、步驟4,通過優(yōu)化回歸損失函數(shù)和增強(qiáng)損失函數(shù),調(diào)整其超參數(shù),直至總損失最小,得到檢測模型;
31、步驟5,凍結(jié)檢測模型,基于訓(xùn)練樣本的訓(xùn)練得到的可視檢測框和全身檢測框,采樣相互重疊的可視檢測框和全身檢測框?qū)?yīng)特征作為訓(xùn)練樣本,訓(xùn)練相似度判別網(wǎng)絡(luò)及抑制檢測的召回策略,使其輸出對(duì)全身框和可視框中特征的相似度以及召回由于行人間高度重疊,本該被保留卻被抑制的全身檢測框。
32、進(jìn)一步的,步驟2中對(duì)可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練的過程為:
33、考慮全身區(qū)域提取網(wǎng)絡(luò)中存在的錨框,計(jì)算當(dāng)前錨框與每一個(gè)訓(xùn)練樣本中全身標(biāo)注框的交并比,將與所述當(dāng)前錨框交并比最大的全身標(biāo)注框作為所述當(dāng)前全身區(qū)域提取網(wǎng)絡(luò)的分配標(biāo)簽;
34、考慮該全身標(biāo)注框?qū)?yīng)的可視標(biāo)注框,判斷可視標(biāo)注框在當(dāng)前錨框中的面積占整個(gè)可視標(biāo)注框的比例是否達(dá)到閾值,將是否達(dá)到閾值作為當(dāng)前錨框關(guān)于該全身標(biāo)注框?qū)?yīng)可視標(biāo)注框的分配標(biāo)準(zhǔn);
35、若當(dāng)前錨框存在分配的全身標(biāo)注框,且當(dāng)前錨框滿足該全身標(biāo)注框?qū)?yīng)可視標(biāo)注框的分配標(biāo)準(zhǔn),則當(dāng)前錨框分配給該全身標(biāo)注框;
36、考慮可視區(qū)域提取網(wǎng)絡(luò)中存在的錨框,計(jì)算當(dāng)前錨框與每一個(gè)可視標(biāo)注框的交并比,將與所述當(dāng)前錨框的交并比最大的可視標(biāo)注框作為所述當(dāng)前錨框的交并比分配標(biāo)簽;
37、計(jì)算當(dāng)前全身區(qū)域候選框與每一個(gè)全身標(biāo)注框的交并比,將與所述當(dāng)前全身區(qū)域候選框的交并比最大的全身標(biāo)注框作為所述當(dāng)前全身區(qū)域候選框的交并比分配標(biāo)簽;同時(shí),計(jì)算當(dāng)前可視區(qū)域候選框與每一個(gè)可視標(biāo)注框的交并比,將與所述當(dāng)前可視區(qū)域候選框的交并比最大的可視標(biāo)注框作為所述當(dāng)前可視區(qū)域候選框的交并比分配標(biāo)簽;
38、對(duì)可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,每訓(xùn)練一次,計(jì)算全身區(qū)域候選框回歸損失和可視區(qū)域候選框的回歸損失;
39、基于可視區(qū)域候選框和全身區(qū)域候選框分類與回歸的回歸損失函數(shù),調(diào)整主干網(wǎng)絡(luò)、可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)的參數(shù)。
40、進(jìn)一步的,所述全身區(qū)域提取網(wǎng)絡(luò)中的錨框分配標(biāo)簽滿足以下公式:
41、
42、其中,為第i個(gè)全身區(qū)域提取網(wǎng)絡(luò)中的錨框,為全身標(biāo)注框,為交并比分配標(biāo)簽,n為全身標(biāo)注框個(gè)數(shù),iou()為交并比函數(shù);
43、所述全身區(qū)域提取網(wǎng)絡(luò)中的錨框還需滿足以下公式:
44、
45、
46、其中,為iou最大的全身標(biāo)注框所對(duì)應(yīng)的可視標(biāo)注框,θ為給定的判斷閾值,可以為0.7,為計(jì)算在中的面積占面積比例的函數(shù);
47、可視區(qū)域提取網(wǎng)絡(luò)中的錨框分配標(biāo)簽滿足以下公式:
48、
49、其中,為第i個(gè)可視區(qū)域提取網(wǎng)絡(luò)的錨框,為可視標(biāo)注框,為交并比分配標(biāo)簽,n為可視標(biāo)注框個(gè)數(shù),iou()為交并比函數(shù);
50、全身區(qū)域候選框分配標(biāo)簽滿足以下公式:
51、
52、其中,為第i個(gè)全身區(qū)域候選框;
53、可視區(qū)域候選框分配標(biāo)簽滿足以下公式:
54、
55、其中,為第i個(gè)可視區(qū)域候選框。
56、進(jìn)一步的,全身區(qū)域提取網(wǎng)絡(luò)中錨框的回歸函數(shù)的計(jì)算式為:
57、
58、全身區(qū)域候選框經(jīng)過回歸得到全身檢測框的回歸損失函數(shù)的計(jì)算式為:
59、
60、其中,為第i個(gè)被分配為正樣本的全身區(qū)域候選框,為全身標(biāo)注框分配標(biāo)簽,k1為全身區(qū)域提取網(wǎng)絡(luò)階段正樣本的數(shù)量,m1為全身區(qū)域候選框回歸階段正樣本的數(shù)量;
61、可視區(qū)域提取網(wǎng)絡(luò)中錨框的回歸函數(shù)的計(jì)算式為:
62、
63、可視區(qū)域候選框經(jīng)過回歸得到可視檢測框的回歸損失函數(shù)的計(jì)算式為:
64、
65、其中,為第i個(gè)被分配為正樣本的可視區(qū)域候選框,為可視標(biāo)注框分配標(biāo)簽,k2為可視區(qū)域提取網(wǎng)絡(luò)階段正樣本的數(shù)量,m2為可視區(qū)域候選框回歸階段正樣本的數(shù)量。
66、進(jìn)一步的,所述可視度網(wǎng)絡(luò)包括五個(gè)獨(dú)立的子網(wǎng)絡(luò),每個(gè)子網(wǎng)絡(luò)包括兩個(gè)串接的全連接層,所述可視度網(wǎng)絡(luò)訓(xùn)練過程為:
67、將行人全身分為:頭、左右上半身,左右下半身五個(gè)部分,各部分(頭、左右上半身,左右下半身五個(gè)部分)的真實(shí)可視度根據(jù)全身區(qū)域候選框和可視框標(biāo)注計(jì)算得到,具體為:
68、
69、使用類似硬編碼的形式將真實(shí)可視度轉(zhuǎn)換為可視標(biāo)簽:
70、
71、其中,x代表計(jì)算得到的真實(shí)可視度結(jié)果,y代表根據(jù)硬編碼的轉(zhuǎn)換可視度標(biāo)簽;
72、基于每一個(gè)身體部位進(jìn)行子網(wǎng)絡(luò)的訓(xùn)練,并計(jì)算五個(gè)部位的平均損失:
73、
74、其中,yj其代表第j個(gè)部位的可視度標(biāo)簽,pj代表第j個(gè)部位的可視度預(yù)測結(jié)果。在推理過程中,舍棄可視全身區(qū)域提取模塊分支從而不增加推理成本。
75、進(jìn)一步的,所述相似度判別網(wǎng)絡(luò)包括兩個(gè)串接的全連接層,兩個(gè)全連接層的中間通道數(shù)目為1024,并通過softmax函數(shù)輸出相似度結(jié)果;
76、所述相似度判別網(wǎng)絡(luò)及抑制檢測的召回策略的訓(xùn)練過程為:
77、首先凍結(jié)檢測器,在訓(xùn)練相似度判別網(wǎng)絡(luò)過程中不更新檢測器參數(shù);之后,輸出通過可視區(qū)域提取網(wǎng)絡(luò)和全身區(qū)域提取網(wǎng)絡(luò)得到的可視區(qū)域候選框和全身區(qū)域候選框,并對(duì)可視區(qū)域候選框和全身區(qū)域候選框進(jìn)行非極大值抑制處理,計(jì)算非極大值抑制之后的可視區(qū)域提候選框和所有全身區(qū)域候選框的面積交比iof,若面積交比iof大于閾值(0.6),則認(rèn)為這是一對(duì)樣本對(duì);
78、為每一對(duì)樣本分配正標(biāo)簽:
79、
80、其中,bv是檢測器輸出的可視檢測框結(jié)果,bf是檢測器輸出的全身框結(jié)果。
81、除了正樣本之外,其他所有樣本都是負(fù)樣本;
82、基于正負(fù)樣本的定義,對(duì)訓(xùn)練樣本進(jìn)行收集,通過設(shè)計(jì)兩個(gè)存儲(chǔ)器分別存儲(chǔ)正負(fù)樣本對(duì)應(yīng)感興趣區(qū)域的特征,并按照先入先出的原則不斷更新存儲(chǔ)器;
83、基于存儲(chǔ)的特征,每次采樣固定比例的正負(fù)樣本進(jìn)行訓(xùn)練,正樣本的標(biāo)簽是1,負(fù)樣本的標(biāo)簽是0。
84、進(jìn)一步的,所述相似度判別網(wǎng)絡(luò)的損失函數(shù)為:
85、lsim=lbce(lpred,lsim);
86、其中,lpred是相似度判別網(wǎng)絡(luò)輸出的相似度結(jié)果,lsim是正負(fù)樣本的相似度標(biāo)簽,lbce指的是二值交叉熵?fù)p失函數(shù)。
87、本發(fā)明具有以下有益效果:
88、(1)本發(fā)明在現(xiàn)有目標(biāo)檢測框架的基礎(chǔ)上,聯(lián)合多個(gè)專門為行人檢測設(shè)計(jì)的模塊,形成一套行人檢測方案,有效提升了密集場景下行人檢測的能力;
89、(2)本發(fā)明在訓(xùn)練過程中利用行人全身框可視度預(yù)測模塊,隱式地使全身區(qū)域特征向可視區(qū)域特征對(duì)齊,提升了模型對(duì)行人被遮擋部位的分辨能力;
90、(3)本發(fā)明通過構(gòu)建抑制檢測召回模塊,將解耦預(yù)測模塊的可視檢測框和全身檢測框作為輸入,利用行人可視區(qū)域特征作為查詢,通過計(jì)算查詢和全身區(qū)域特征的相似度,判斷并召回被抑制的全身框檢測結(jié)果;
91、(4)本發(fā)明可以與大多數(shù)基于提案的目標(biāo)檢測框架結(jié)合,穩(wěn)定提升檢測器的檢測性能,也可以嵌入大多數(shù)基于提案和各種基于非極大值抑制的檢測器中。