基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)與流程

文檔序號(hào)：40454050發(fā)布日期：2024-12-27 09:19閱讀：14來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)與流程

本發(fā)明涉及目標(biāo)檢測(cè)，尤其涉及一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)。

背景技術(shù)：

1、隨著城市治理、安防監(jiān)控、智慧交通等場(chǎng)景日趨復(fù)雜化，如何在復(fù)雜場(chǎng)景下提高開集目標(biāo)檢測(cè)的推理速度，是開集目標(biāo)檢測(cè)模型亟待解決的關(guān)鍵問題。在現(xiàn)有技術(shù)中，采用模型蒸餾的方案進(jìn)行推理加速，定位準(zhǔn)確性下降，需要額外的訓(xùn)練成本；采用模型量化的方案進(jìn)行推理加速，通用性較差；采用模型枝剪的方案進(jìn)行推理加速，需要特定的設(shè)備。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)，用以解決現(xiàn)有技術(shù)中采用模型蒸餾的方案進(jìn)行推理加速，定位準(zhǔn)確性下降，需要額外的訓(xùn)練成本；采用模型量化的方案進(jìn)行推理加速，通用性較差；采用模型枝剪的方案進(jìn)行推理加速，需要特定的設(shè)備的缺陷。

2、第一方面，本發(fā)明提供一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法，包括：

3、在開集目標(biāo)檢測(cè)模型的融合層的任意一層中嵌入多標(biāo)簽分類層，所述開集目標(biāo)檢測(cè)模型包括n層，n為大于等于1的自然數(shù)；

4、將所述多標(biāo)簽分類層和所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之前的前k層轉(zhuǎn)換為第一推理層，將所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之后的n-k層轉(zhuǎn)換為第二推理層，k為大于等于1的自然數(shù)；

5、將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征，以及所述m個(gè)目標(biāo)類別文本的置信度，?m為大于等于1的自然數(shù)；

6、基于所述m個(gè)目標(biāo)類別文本的置信度，對(duì)所述m個(gè)文本特征進(jìn)行過濾，得到過濾后的m個(gè)文本特征，m為非負(fù)整數(shù)；

7、在m值不為零的情況下，將所述過濾后的m個(gè)文本特征和所述圖像特征輸入至所述第二推理層，得到所述第二推理層輸出的所述目標(biāo)圖像的分類結(jié)果；

8、其中，所述開集目標(biāo)檢測(cè)模型是基于樣本圖像和多個(gè)樣本類別文本，以及所述樣本圖像的分類標(biāo)簽進(jìn)行訓(xùn)練得到的。

9、在一些實(shí)施例中，所述將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征，以及所述m個(gè)目標(biāo)類別文本的置信度，包括：

10、將所述目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述前k層，得到所述前k層輸出的所述目標(biāo)圖像對(duì)應(yīng)的區(qū)域級(jí)的圖像特征和m個(gè)文本特征；

11、基于所述多標(biāo)簽分類層，計(jì)算每一文本特征與對(duì)應(yīng)區(qū)域的圖像特征的相似度，基于所述每一文本特征與對(duì)應(yīng)區(qū)域的圖像特征的相似度，計(jì)算所述每一文本特征的類別置信度。

12、在一些實(shí)施例中，所述基于所述m個(gè)目標(biāo)類別文本的置信度，對(duì)所述m個(gè)文本特征進(jìn)行過濾，得到過濾后的m個(gè)文本特征，包括：

13、基于所述m個(gè)目標(biāo)類別文本的置信度和預(yù)設(shè)閾值，對(duì)所述m個(gè)文本特征進(jìn)行過濾，得到所述過濾后的m個(gè)文本特征。

14、在一些實(shí)施例中，所述得到過濾后的m個(gè)文本特征之后，還包括：

15、在m值為零的情況下，所述開集目標(biāo)檢測(cè)模型直接輸出所述目標(biāo)圖像的分類結(jié)果為空。

16、在一些實(shí)施例中，所述開集目標(biāo)檢測(cè)模型的訓(xùn)練過程包括：

17、獲取樣本圖像和多個(gè)樣本類別文本，確定樣本圖像的分類標(biāo)簽；

18、以所述樣本圖像和多個(gè)樣本類別文本為訓(xùn)練樣本，以所述樣本圖像的分類標(biāo)簽為樣本標(biāo)簽訓(xùn)練初始開集目標(biāo)檢測(cè)模型；

19、對(duì)所述初始開集目標(biāo)檢測(cè)模型的參數(shù)進(jìn)行迭代優(yōu)化，得到所述開集目標(biāo)檢測(cè)模型。

20、在一些實(shí)施例中，所述初始開集目標(biāo)檢測(cè)模型包括第一初始推理層和第二初始推理層，所述第一初始推理層包括初始多標(biāo)簽分類層和初始前k層，所述初始前k層是指所述初始開集目標(biāo)檢測(cè)模型中位于所述初始多標(biāo)簽分類層之前的k層，所述初始開集目標(biāo)檢測(cè)模型包括n層；

21、對(duì)應(yīng)地，所述訓(xùn)練初始開集目標(biāo)檢測(cè)模型，包括：

22、將所述樣本圖像和多個(gè)樣本類別文本輸入至所述初始前k層，得到所述初始前k層輸出的所述樣本圖像對(duì)應(yīng)的區(qū)域級(jí)的樣本圖像特征和多個(gè)樣本文本特征；

23、基于所述初始多標(biāo)簽分類層，計(jì)算每一樣本文本特征與對(duì)應(yīng)區(qū)域的樣本圖像特征的相似度；

24、基于所述每一文本特征與對(duì)應(yīng)區(qū)域的圖像特征的相似度和所述樣本圖像的分類標(biāo)簽，計(jì)算損失函數(shù)值；

25、基于所述損失函數(shù)值，訓(xùn)練所述初始多目標(biāo)分類層。

26、第二方面，本發(fā)明還提供一種基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)裝置，包括：

27、嵌入單元，用于在開集目標(biāo)檢測(cè)模型的融合層的任意一層中嵌入多標(biāo)簽分類層，所述開集目標(biāo)檢測(cè)模型包括n層，n為大于等于1的自然數(shù)；

28、轉(zhuǎn)換單元，用于將所述多標(biāo)簽分類層和所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之前的前k層轉(zhuǎn)換為第一推理層，將所述開集目標(biāo)檢測(cè)模型中位于所述多標(biāo)簽分類層之后的n-k層轉(zhuǎn)換為第二推理層，k為大于等于1的自然數(shù)；

29、推理單元，用于將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至所述第一推理層，得到所述第一推理層輸出的所述目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征，以及所述m個(gè)目標(biāo)類別文本的置信度，?m為大于等于1的自然數(shù)；

30、過濾單元，用于基于所述m個(gè)目標(biāo)類別文本的置信度，對(duì)所述m個(gè)文本特征進(jìn)行過濾，得到過濾后的m個(gè)文本特征，m為非負(fù)整數(shù)；

31、分類單元，用于在m值不為零的情況下，將所述過濾后的m個(gè)文本特征和所述圖像特征輸入至所述第二推理層，得到所述第二推理層輸出的所述目標(biāo)圖像的分類結(jié)果；

32、其中，所述開集目標(biāo)檢測(cè)模型是基于樣本圖像和多個(gè)樣本類別文本，以及所述樣本圖像的分類標(biāo)簽進(jìn)行訓(xùn)練得到的。

33、第三方面，本發(fā)明還提供一種電子設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述任一種所述基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法。

34、第四方面，本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法。

35、第五方面，本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法。

36、本發(fā)明提供的基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)，通過在開集目標(biāo)檢測(cè)模型的融合層的任意一層中嵌入多標(biāo)簽分類層，?將多標(biāo)簽分類層和開集目標(biāo)檢測(cè)模型中的前k層轉(zhuǎn)換為第一推理層，將開集目標(biāo)檢測(cè)模型中的后n-k層轉(zhuǎn)換為第二推理層，將目標(biāo)圖像和預(yù)設(shè)的m個(gè)目標(biāo)類別文本輸入至第一推理層，得到目標(biāo)圖像對(duì)應(yīng)的圖像特征和m個(gè)文本特征，以及m個(gè)目標(biāo)類別文本的置信度，基于m個(gè)目標(biāo)類別文本的置信度，對(duì)m個(gè)文本特征進(jìn)行過濾，得到過濾后的m個(gè)文本特征，在m值不為零的情況下，將過濾后的m個(gè)文本特征和圖像特征輸入至第二推理層，得到目標(biāo)圖像的分類結(jié)果，推理加速效果好，無需額外訓(xùn)練成本，不影響定位準(zhǔn)確率，通用性強(qiáng)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳其博,余立,叢鵬宇,嚴(yán)昱超,金煒眾,厲舒暢,劉夢(mèng)迪,葛建躍,郭軒江
技術(shù)所有人：中國(guó)移動(dòng)通信集團(tuán)浙江有限公司
我是此專利的發(fā)明人

上一篇：一種可調(diào)節(jié)的輔助翻身裝置的制作方法
上一篇：一種具有干手及吹風(fēng)功能的裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)與流程

基于多標(biāo)簽分類的開集目標(biāo)檢測(cè)方法、裝置、設(shè)備和介質(zhì)與流程