本發(fā)明涉及圖像監(jiān)控領域,特別地,涉及一種基于圖像的目標檢測方法。
背景技術:
1、隨著智能監(jiān)控攝像頭的普及,目標檢測成為了一項必不可少的功能,該功能能夠有效減少人工的參與,從而實現(xiàn)預警的功能。
2、當前的智能監(jiān)控攝像頭中,通常使用了運動偵測技術來對場景中的移動物體進行檢測。由于該方法使用的技術的特殊性(幀差法以及背景建模方法),導致該方法的誤警率會非常高。比如大面積的樹葉擺動,以及日光燈產(chǎn)生的頻閃就能導致運動偵測產(chǎn)生告警。
3、為了解決上述問題,當前許多智能攝像頭通過兩個步驟來進行規(guī)避:
4、第一步驟,采用運動偵測技術偵測移動物體,
5、第二步驟,在運動偵測發(fā)現(xiàn)場景內(nèi)有移動物體之后,再使用目標檢測方法來檢測圖像中是否存在用戶感興趣的目標,以便進行第二次過濾,如果存在感興趣的目標再進行告警。
6、但第二步驟中所使用的目標檢測方法通常只利用了當前幀圖像數(shù)據(jù),因此目標檢測的漏檢率和誤檢率往往較高,從而導致出現(xiàn)誤告警和漏告警。
7、一些插電的智能攝像頭會使用前后兩幀圖像輸入到目標檢測模型中來進行檢測,從而提升目標檢測的準確性,但是對于電池類智能攝像頭來說,這樣做會帶來極高的電量消耗。對于使用電池類攝像頭的監(jiān)控場景,在不提高電量消耗的情況下降低誤告警和漏告警將有利于提高智能監(jiān)控攝像頭的性能。
技術實現(xiàn)思路
1、本發(fā)明提供一種基于圖像的目標檢測方法,以提高目標檢測的準確性。
2、本發(fā)明第一方面提供一種基于圖像的目標檢測方法,該方法包括:
3、獲取圖像數(shù)據(jù),
4、對所獲取圖像數(shù)據(jù)進行運動偵測,
5、在偵測到存在運動目標的情形下,將當前圖像幀所具有的三通道數(shù)據(jù)轉(zhuǎn)換為兩通道數(shù)據(jù),
6、將運動偵測所得到的運動偵測信息數(shù)據(jù)、所轉(zhuǎn)換的兩通道數(shù)據(jù)輸入至訓練后的目標檢測模型以進行目標檢測,
7、其中,
8、運動偵測信息數(shù)據(jù)使得目標檢測模型在特征提取時以注意力機制引導方式將運動信息被耦合至所轉(zhuǎn)換的兩通道,使得特征圖中對應于的運動邊緣的特征值含有高信息量的語義特征;
9、目標檢測模型基于運動偵測信息樣本數(shù)據(jù)、與所轉(zhuǎn)換兩通道數(shù)據(jù)具有相同轉(zhuǎn)換方式的兩通道樣本數(shù)據(jù)進行訓練得到。
10、較佳地,所述將當前圖像幀所具有的三通道數(shù)據(jù)轉(zhuǎn)換為兩通道數(shù)據(jù),包括:
11、將當前圖像幀所具有的三通道數(shù)據(jù)中的任意兩通道數(shù)據(jù)合并為合成通道數(shù)據(jù),
12、所述將運動偵測所得到的運動偵測信息數(shù)據(jù)、所轉(zhuǎn)換的兩通道數(shù)據(jù)輸入至訓練后的目標檢測模型以進行目標檢測,包括:
13、將運動偵測信息數(shù)據(jù)、合成通道數(shù)據(jù)、以及未被合并的通道數(shù)據(jù)輸入至訓練后的目標檢測模型進行目標檢測;
14、其中,所述目標檢測模型基于運動偵測信息樣本數(shù)據(jù)、合成通道樣本數(shù)據(jù)、以及未被合并的通道樣本數(shù)據(jù)進行訓練得到。
15、較佳地,所述運動偵測信息數(shù)據(jù)、合成通道數(shù)據(jù)、以及未被合并的通道數(shù)據(jù)具有相同圖像尺寸,
16、所述將當前圖像幀所具有的三通道數(shù)據(jù)中的任意兩通道數(shù)據(jù)合并為合成通道數(shù)據(jù),包括:
17、對于yuv格式圖像幀,將u通道數(shù)據(jù)和v通道數(shù)據(jù)合并為與y通道數(shù)據(jù)具有相同圖像尺寸的合成通道數(shù)據(jù),或者
18、對于rgb格式圖像幀,將rgb三通道中的任意兩通道合并為合成通道數(shù)據(jù);
19、所述相同圖像尺寸為:各通道數(shù)據(jù)在高度方向尺寸相同,各通道數(shù)據(jù)在寬度方向尺寸相同。
20、較佳地,所述yuv格式圖像幀為yuv422格式、或yuv420格式、或yuv444格式、或yuv400格式,
21、所述將u通道數(shù)據(jù)和v通道數(shù)據(jù)合并為與y通道數(shù)據(jù)具有相同圖像尺寸的合成通道數(shù)據(jù),包括:
22、對于yuv422格式圖像幀,將高度方向上的u通道數(shù)據(jù)與高度方向上的v通道數(shù)據(jù)在寬度方向上交替排列;
23、對于yuv420格式圖像幀,在高度方向上分別對u通道數(shù)據(jù)和v通道數(shù)據(jù)進行插值,使得u通道數(shù)據(jù)以及v通道數(shù)據(jù)的高度尺寸均與y通道數(shù)據(jù)的高度尺寸相同,得到插值u通道數(shù)據(jù)和插值v通道數(shù)據(jù),將高度方向上的插值u通道數(shù)據(jù)與高度方向上的插值y通道數(shù)據(jù)在寬度方向上交替排列;
24、對于yuv444格式圖像幀,將u通道數(shù)據(jù)中的每個像素點的像素值與該像素點對應v通道數(shù)據(jù)中的像素點的像素值相加,
25、對于yuv400格式圖像幀,將y通道數(shù)據(jù)進行復制為合成通道數(shù)據(jù)。
26、較佳地,所述將高度方向上的u通道數(shù)據(jù)與高度方向上的y通道數(shù)據(jù)在圖像尺寸的寬度方向上交替排列,包括:
27、將u通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i-1行數(shù)據(jù),將v通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i行數(shù)據(jù),
28、或者,
29、將v通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i-1行數(shù)據(jù),將u通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i行數(shù)據(jù);
30、所述將高度方向上的插值u通道數(shù)據(jù)與高度方向上的插值y通道數(shù)據(jù)在寬度方向上交替排列,包括:
31、將插值u通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i-1行數(shù)據(jù),將插值v通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i行數(shù)據(jù),
32、或者,
33、將插值v通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i-1行數(shù)據(jù),將插值u通道數(shù)據(jù)中的第i行數(shù)據(jù)作為合成通道數(shù)據(jù)中的第2i行數(shù)據(jù);
34、其中,i為不小于1的自然數(shù)。
35、較佳地,所述對所獲取圖像數(shù)據(jù)進行運動偵測,包括:采用幀差法、光流法、背景建模法至少之一對所獲取圖像數(shù)據(jù)進行運動偵測,得到包含有前后幀之間關系的運動偵測信息數(shù)據(jù),
36、所述將rgb三通道中的任意兩通道合并為合成通道數(shù)據(jù),包括:
37、將一通道數(shù)據(jù)中的每個像素點的像素值與該像素點對應另一通道數(shù)據(jù)中的像素點的像素值相加,得到合成通道數(shù)據(jù)。
38、本技術第二方面提供一種目標檢測模型的訓練方法,該方法包括:
39、獲取運動偵測信息樣本數(shù)據(jù)、以及兩通道樣本數(shù)據(jù),其中,兩通道樣本數(shù)據(jù)的轉(zhuǎn)換方式與訓練后的目標檢測模型在推理階段所輸入的兩通道數(shù)據(jù)的轉(zhuǎn)換方式相同,
40、將所獲取的樣本數(shù)據(jù)輸入至待訓練目標檢測模型,
41、根據(jù)待訓練目標檢測模型輸出的樣本檢測結果與期望檢測結果,確定損失函數(shù)值,
42、根據(jù)損失函數(shù)值調(diào)整待訓練目標檢測模型,直至達到預期;
43、其中,運動偵測信息樣本數(shù)據(jù)使得待訓練目標檢測模型在特征提取時以注意力機制引導方式將運動樣本信息耦合至所述兩通道樣本數(shù)據(jù),使得樣本特征圖中對應于的運動邊緣的樣本特征值含有高信息量的語義特征。
44、本技術第三方面提供一種基于圖像的目標檢測裝置,該裝置包括:
45、圖像獲取模塊,用于獲取圖像數(shù)據(jù),
46、運動偵測模塊,用于對所獲取圖像數(shù)據(jù)進行運動偵測,
47、合成模塊,用于在偵測到存在運動目標的情形下,將當前圖像幀所具有的三通道數(shù)據(jù)轉(zhuǎn)換為兩通道數(shù)據(jù),
48、目標檢測模塊,用于將運動偵測所得到的運動偵測信息數(shù)據(jù)、所轉(zhuǎn)換的兩通道數(shù)據(jù)輸入至訓練后的目標檢測模型以進行目標檢測,
49、其中,
50、目標檢測模型基于運動偵測信息樣本數(shù)據(jù)、與所轉(zhuǎn)換兩通道數(shù)據(jù)具有相同轉(zhuǎn)換方式的兩通道樣本數(shù)據(jù)進行訓練得到。
51、本技術第四方面提供一種目標檢測模型的訓練裝置,該裝置包括:
52、樣本數(shù)據(jù)獲取模塊,用于獲取運動偵測信息樣本數(shù)據(jù)、以及兩通道樣本數(shù)據(jù),其中,兩通道樣本數(shù)據(jù)的轉(zhuǎn)換方式與訓練后的目標檢測模型在推理階段所輸入的兩通道數(shù)據(jù)的轉(zhuǎn)換方式相同,
53、訓練模塊,用于將所獲取的樣本數(shù)據(jù)輸入至待訓練目標檢測模型,根據(jù)待訓練目標檢測模型輸出的樣本檢測結果與期望檢測結果,確定損失函數(shù)值,根據(jù)損失函數(shù)值調(diào)整待訓練目標檢測模型,直至達到預期;其中,運動偵測信息樣本數(shù)據(jù)使得待訓練目標檢測模型在特征提取時以注意力機制引導方式將運動樣本信息耦合至所述兩通道樣本數(shù)據(jù),使得樣本特征圖中對應于的運動邊緣的樣本特征值含有高信息量的語義特征。
54、本技術第五方面提供一種電子設備,該電子設備包括所述的目標檢測裝置。
55、本技術實施例在目標檢測過程中,不僅保留了原圖像幀的信息,還引入了運動偵測信息,在目標檢測模型結構保持不變的情形下,使得目標檢測過程中濾除了圖像幀中沒有產(chǎn)生運動的背景區(qū)域,既降低了目標檢測的難度,有降低了誤檢率和漏檢率,從而有利于提高目標檢測的準確性。