本發(fā)明涉及目標(biāo)檢測(cè),尤其涉及一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)。
背景技術(shù):
1、隨著城市治理、安防監(jiān)控、智慧交通等場(chǎng)景日趨復(fù)雜化,如何在復(fù)雜場(chǎng)景下提高開集目標(biāo)檢測(cè)的推理速度,是開集目標(biāo)檢測(cè)模型亟待解決的關(guān)鍵問題。在現(xiàn)有技術(shù)中,采用模型蒸餾的方案進(jìn)行推理加速,定位準(zhǔn)確性下降,需要額外的訓(xùn)練成本;采用模型量化的方案進(jìn)行推理加速,通用性較差;采用模型枝剪的方案進(jìn)行推理加速,需要特定的設(shè)備。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì),用以解決現(xiàn)有技術(shù)中采用模型蒸餾的方案進(jìn)行推理加速,定位準(zhǔn)確性下降,需要額外的訓(xùn)練成本;采用模型量化的方案進(jìn)行推理加速,通用性較差;采用模型枝剪的方案進(jìn)行推理加速,需要特定的設(shè)備的缺陷。
2、第一方面,本發(fā)明提供一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法,包括:
3、在開集目標(biāo)檢測(cè)模型的融合層的任意一層中嵌入多標(biāo)簽分類層,所述開集目標(biāo)檢測(cè)模型包括n層,n為大于等于1的自然數(shù);
4、將所述多標(biāo)簽分類層和所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之前的前k層轉(zhuǎn)換為第一推理層,將所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之后的n-k層轉(zhuǎn)換為第二推理層,k為大于等于1的自然數(shù);
5、將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述第一推理層,得到所述第一推理層輸出的所述目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征,以及所述m個(gè)目標(biāo)類別文本的置信度,?m為大于等于1的自然數(shù);
6、基于所述m個(gè)目標(biāo)類別文本的置信度,對(duì)所述m個(gè)文本特征進(jìn)行過濾,得到過濾后的m個(gè)文本特征,m為非負(fù)整數(shù);
7、在m值不為零的情況下,將所述過濾后的m個(gè)文本特征和所述圖像特征輸入至所述第二推理層,得到所述第二推理層輸出的所述目標(biāo)圖像的分類結(jié)果;
8、其中,所述開集目標(biāo)檢測(cè)模型是基于樣本圖像和多個(gè)樣本類別文本,以及所述樣本圖像的分類標(biāo)簽進(jìn)行訓(xùn)練得到的。
9、在一些實(shí)施例中,所述將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述第一推理層,得到所述第一推理層輸出的所述目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征,以及所述m個(gè)目標(biāo)類別文本的置信度,包括:
10、將所述目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述前k層,得到所述前k層輸出的所述目標(biāo)圖像對(duì)應(yīng)的區(qū)域級(jí)的圖像特征和m個(gè)文本特征;
11、基于所述多標(biāo)簽分類層,計(jì)算每一文本特征與對(duì)應(yīng)區(qū)域的圖像特征的相似度,基于所述每一文本特征與對(duì)應(yīng)區(qū)域的圖像特征的相似度,計(jì)算所述每一文本特征的類別置信度。
12、在一些實(shí)施例中,所述基于所述m個(gè)目標(biāo)類別文本的置信度,對(duì)所述m個(gè)文本特征進(jìn)行過濾,得到過濾后的m個(gè)文本特征,包括:
13、基于所述m個(gè)目標(biāo)類別文本的置信度和預(yù)設(shè)閾值,對(duì)所述m個(gè)文本特征進(jìn)行過濾,得到所述過濾后的m個(gè)文本特征。
14、在一些實(shí)施例中,所述得到過濾后的m個(gè)文本特征之后,還包括:
15、在m值為零的情況下,所述開集目標(biāo)檢測(cè)模型直接輸出所述目標(biāo)圖像的分類結(jié)果為空。
16、在一些實(shí)施例中,所述開集目標(biāo)檢測(cè)模型的訓(xùn)練過程包括:
17、獲取樣本圖像和多個(gè)樣本類別文本,確定樣本圖像的分類標(biāo)簽;
18、以所述樣本圖像和多個(gè)樣本類別文本為訓(xùn)練樣本,以所述樣本圖像的分類標(biāo)簽為樣本標(biāo)簽訓(xùn)練初始開集目標(biāo)檢測(cè)模型;
19、對(duì)所述初始開集目標(biāo)檢測(cè)模型的參數(shù)進(jìn)行迭代優(yōu)化,得到所述開集目標(biāo)檢測(cè)模型。
20、在一些實(shí)施例中,所述初始開集目標(biāo)檢測(cè)模型包括第一初始推理層和第二初始推理層,所述第一初始推理層包括初始多標(biāo)簽分類層和初始前k層,所述初始前k層是指所述初始開集目標(biāo)檢測(cè)模型中位于所述初始多標(biāo)簽分類層之前的k層,所述初始開集目標(biāo)檢測(cè)模型包括n層;
21、對(duì)應(yīng)地,所述訓(xùn)練初始開集目標(biāo)檢測(cè)模型,包括:
22、將所述樣本圖像和多個(gè)樣本類別文本輸入至所述初始前k層,得到所述初始前k層輸出的所述樣本圖像對(duì)應(yīng)的區(qū)域級(jí)的樣本圖像特征和多個(gè)樣本文本特征;
23、基于所述初始多標(biāo)簽分類層,計(jì)算每一樣本文本特征與對(duì)應(yīng)區(qū)域的樣本圖像特征的相似度;
24、基于所述每一文本特征與對(duì)應(yīng)區(qū)域的圖像特征的相似度和所述樣本圖像的分類標(biāo)簽,計(jì)算損失函數(shù)值;
25、基于所述損失函數(shù)值,訓(xùn)練所述初始多目標(biāo)分類層。
26、第二方面,本發(fā)明還提供一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)裝置,包括:
27、嵌入單元,用于在開集目標(biāo)檢測(cè)模型的融合層的任意一層中嵌入多標(biāo)簽分類層,所述開集目標(biāo)檢測(cè)模型包括n層,n為大于等于1的自然數(shù);
28、轉(zhuǎn)換單元,用于將所述多標(biāo)簽分類層和所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之前的前k層轉(zhuǎn)換為第一推理層,將所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之后的n-k層轉(zhuǎn)換為第二推理層,k為大于等于1的自然數(shù);
29、推理單元,用于將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述第一推理層,得到所述第一推理層輸出的所述目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征,以及所述m個(gè)目標(biāo)類別文本的置信度,?m為大于等于1的自然數(shù);
30、過濾單元,用于基于所述m個(gè)目標(biāo)類別文本的置信度,對(duì)所述m個(gè)文本特征進(jìn)行過濾,得到過濾后的m個(gè)文本特征,m為非負(fù)整數(shù);
31、分類單元,用于在m值不為零的情況下,將所述過濾后的m個(gè)文本特征和所述圖像特征輸入至所述第二推理層,得到所述第二推理層輸出的所述目標(biāo)圖像的分類結(jié)果;
32、其中,所述開集目標(biāo)檢測(cè)模型是基于樣本圖像和多個(gè)樣本類別文本,以及所述樣本圖像的分類標(biāo)簽進(jìn)行訓(xùn)練得到的。
33、第三方面,本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法。
34、第四方面,本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法。
35、第五方面,本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法。
36、本發(fā)明提供的基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì),通過在開集目標(biāo)檢測(cè)模型的融合層的任意一層中嵌入多標(biāo)簽分類層,?將多標(biāo)簽分類層和開集目標(biāo)檢測(cè)模型中的前k層轉(zhuǎn)換為第一推理層,將開集目標(biāo)檢測(cè)模型中的后n-k層轉(zhuǎn)換為第二推理層,將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至第一推理層,得到目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征,以及m個(gè)目標(biāo)類別文本的置信度,基于m個(gè)目標(biāo)類別文本的置信度,對(duì)m個(gè)文本特征進(jìn)行過濾,得到過濾后的m個(gè)文本特征,在m值不為零的情況下,將過濾后的m個(gè)文本特征和圖像特征輸入至第二推理層,得到目標(biāo)圖像的分類結(jié)果,推理加速效果好,無需額外訓(xùn)練成本,不影響定位準(zhǔn)確率,通用性強(qiáng)。