欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學(xué)習(xí)的零樣本目標檢測方法

文檔序號:40521922發(fā)布日期:2024-12-31 13:31閱讀:11來源:國知局
一種基于深度學(xué)習(xí)的零樣本目標檢測方法

本發(fā)明涉及計算機視覺和機器學(xué)習(xí)領(lǐng)域,尤其涉及一種基于深度學(xué)習(xí)的零樣本目標檢測系統(tǒng)。


背景技術(shù):

1、隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,目標檢測已經(jīng)取得了顯著的進展。然而,傳統(tǒng)的目標檢測方法在處理新類別目標時,往往需要大量的標注數(shù)據(jù)進行訓(xùn)練,這限制了其在實際應(yīng)用中的靈活性。為了解決這一問題,零樣本目標檢測(zero-shot?object?detection,zsd)應(yīng)運而生,旨在檢測未在訓(xùn)練集中出現(xiàn)的新類別目標。

2、現(xiàn)有的零樣本目標檢測方法主要分為基于嵌入學(xué)習(xí)的方法和基于生成對抗的方。zhou?x,girdhar?r,joulin?a,et?al.detecting?twenty-thousand?classes?usingimage-level?supervision[c]//european?conference?on?computer?vision.cham:springer?nature?switzerland,2022:350-368將圖像級別的標簽應(yīng)用于區(qū)域候選(proposal)中最大尺寸的區(qū)域。這種方法不需要復(fù)雜的基于預(yù)測的標簽分配機制,直接使用圖像級別的標注對目標檢測分類器進行約束。在圖像級別標注的約束下detic訓(xùn)練的檢測器能夠在沒有微調(diào)的情況下泛化到新的數(shù)據(jù)集,而無需額外微調(diào)。然而,這種方法由于依賴于區(qū)域候選中的最大尺寸區(qū)域,這可能導(dǎo)致在處理較小目標時的精度降低。lin?j,sheny,wang?b,et?al.weakly?supervised?open-vocabulary?object?detection[c]//proceedings?of?the?aaai?conference?on?artificial?intelligence.2024,38(4):3404-3412通過數(shù)據(jù)集級別特征適應(yīng)、圖像級別顯著對象定位和區(qū)域級別視覺-語言對齊的三個關(guān)鍵策略,實現(xiàn)了在只有圖像級標注的多樣化數(shù)據(jù)集上對開放詞匯表概念的檢測和定位。該方法在面對大規(guī)模數(shù)據(jù)集時,特征適應(yīng)和對齊過程可能成為性能瓶頸,影響檢測速度。lin?c,jiang?y,qu?l,et?al.generative?region-language?pretraining?for?open-ended?object?detection[c]//proceedings?of?the?ieee/cvf?conference?on?computervision?and?pattern?recognition.2024:13958-13968.框架通過將對象檢測問題重新定義為一個生成問題,提出了一個由視覺對象檢測器和語言模型組成的端到端學(xué)習(xí)框架,直接在自由形式下生成對象名稱,并通過偽標簽方法豐富標簽多樣性,實現(xiàn)了無需在推理階段預(yù)定義類別的開放詞匯表對象檢測。該方法中偽標簽雖然增加了標簽多樣性,但其質(zhì)量難以保證,會影響檢測效果。pham?c,vu?t,nguyen?k.lp-ovod:open-vocabulary?objectdetection?by?linear?probing[c]//proceedings?of?the?ieee/cvf?winter?conferenceon?applications?of?computer?vision.2024:779-788.通過對新的相關(guān)區(qū)域提案中檢索到的偽標簽訓(xùn)練sigmoid線性分類器來丟棄低質(zhì)量的方框,提高了新類別的檢測性能。本方法中雖然丟棄低質(zhì)量方框可以提高檢測性能,但對新類別的檢測精度仍有待提升。jeongj,park?g,yoo?j,et?al.proxydet:synthesizing?proxy?novel?classes?via?classwisemixup?for?open-vocabulary?object?detection[c]//proceedings?of?the?aaaiconference?on?artificial?intelligence.2024,38(3):2462-2470.提出通過一對基礎(chǔ)類別之間的線性混合,合成近似于新類別的代理新類別,通過使用這些合成的近似新類別來訓(xùn)練我們的檢測器,從而為不可見類在特征空間中保留位置。

3、本發(fā)明的提出能夠保證不增加訓(xùn)練開支的前提下,僅添加簡單的模塊就可以在現(xiàn)有的開放詞匯目標檢測模型的基礎(chǔ)上提高基類的檢測精度和對新類的泛化能力。


技術(shù)實現(xiàn)思路

1、寫一段本發(fā)明解決了現(xiàn)有技術(shù)中零樣本目標檢測方法在處理零樣本目標檢測任務(wù)時分類頭對新類的泛化能力不足的問題。通過對圖像和文本描述進行編碼和特征提取,利用全局分類評分模塊對圖像中的每個proposal的分類概率進行精煉,從而提高零樣本目標檢測的準確性和泛化能力。通過利用clip模型對圖像的分類概率,對零樣本目標檢測分類器得到的每個區(qū)域候選的分類概率進行精煉,從而提高檢測的準確性。

2、本發(fā)明技術(shù)方案為:一種基于深度學(xué)習(xí)的零樣本目標檢測方法,該方法包括:

3、步驟1:獲取樣本數(shù)據(jù),樣本數(shù)據(jù)包括圖像和對應(yīng)的標簽;

4、步驟2:采用clip文本編碼器對標簽進行特征提取,得到文本特征ti′;

5、步驟3:采用clip圖像編碼器對圖像進行特征提取,得到視覺特征v′;

6、步驟4:計算文本特征ti′和視覺特征v′的相似度;

7、步驟5:建立零樣本目標檢測模型,采用建立的零樣本目標檢測模型初步獲取圖像的分類結(jié)果和檢測框;

8、步驟6:將步驟5的分類結(jié)果和步驟4的相似度進行融合,根據(jù)融合結(jié)果獲得最終的檢測結(jié)果。

9、進一步的,所述步驟1獲取的數(shù)據(jù)要求為:設(shè)數(shù)據(jù)集的所有類別名稱集合為其中元素總數(shù)為n,可見類的名稱集合為不可見類的每次集合為可見類和不可見類沒有交集所有類別剛好差分為可見類和不可見類目標類別的文本描述集合為{dij}i=1,2,…n;j=1,2,…m,其中dij表示第i個類別的第j種描述。

10、進一步的,所述步驟2的具體方法為:

11、步驟2.1:將不同類別的多個文本描述進行標記化,得到標記序列;

12、步驟2.2:將標記序列通過clip文本編碼器進行編碼,每個類別得到多個不同的文本特征;假設(shè)文本編碼器為函數(shù)et,則dij文本特征向量為:eij=et(dij);

13、步驟2.3:對得到的文本特征向量進行歸一化處理,以確保每個向量的范數(shù)為1,歸一化后的特征向量為:

14、步驟2.4:對第i個類別的多種描述得到的文本特征,取其平均值作為該類別的文本特征ti;平均特征向量為最終得到該類別的文本特征ti經(jīng)過歸一化處理,以確保其范數(shù)為1:

15、進一步的,所述步驟3的具體方法為:

16、對圖像i進行預(yù)處理,調(diào)整圖像大小到clip模型所需的輸入尺寸,預(yù)處理后的圖像表示為i′;將預(yù)處理后的圖像通過clip圖像編碼器進行編碼,得到高維的視覺特征向量;假設(shè)圖像編碼器為函數(shù)ev,則圖像的視覺特征向量為:v=ev(i′);對得到的視覺特征向量進行歸一化處理,以確保每個向量的范數(shù)為1;歸一化后的視覺特征向量為:

17、進一步的,所述步驟4的相似度為si;

18、其中,d為特征向量的維度,vj′表示圖像,t′ij表示第i個類別的文本特征向量的第j個分量。

19、進一步的,所述步驟5的具體方法為:

20、步驟5.1:建立零樣本目標檢測模型;

21、步驟5.2:對圖像進行預(yù)處理,預(yù)處理后的圖像表示為x′;

22、步驟5.3:提取圖像的特征圖f=ed(x′);使用區(qū)域提案網(wǎng)絡(luò)在特征圖上生成一系列候選框;候選框的集合表示為其中bi表示圖像的第i個候選框,總共有n個候選框;

23、步驟5.4:將候選框的特征輸入到分類層中,計算每個候選框?qū)儆诟鱾€類別的初步分類概率;分類頭為函數(shù)c,則圖像的第i個候選框的初步分類概率為:pi=c(f,bi)其中,pi是一個向量,表示該候選框?qū)儆诟鱾€類別的概率;

24、步驟5.5:將候選框的特征輸入到回歸頭中,計算每個候選框的檢測框坐標;回歸頭為函數(shù)r,則圖像的第i個候選框的檢測框坐標為:bi=r(f,bi);其中,bi是一個向量,表示該候選框的左上角坐標和右下角坐標。

25、進一步的,所述步驟6的具體方法為:

26、步驟6.1:首先對零樣本目標檢測模型的分類概率進行l(wèi)ogit變換

27、步驟6.2:對步驟4得到的相似度進行冪運算和logit變換:其中α為調(diào)整因子,根據(jù)實際情況設(shè)定;

28、步驟6.3:將步驟6.1和步驟6.2的結(jié)果相加得到融合后的分類得分最后通過sigmoid函數(shù)得到最終的精煉分類概率:

29、本發(fā)明相比現(xiàn)有技術(shù),具有以下顯著優(yōu)點和積極效果:通過利用clip模型對圖像進行全局特征提取,并結(jié)合現(xiàn)有的零樣本目標檢測模型,對每個proposal的分類概率進行精,能夠有效處理未在訓(xùn)練集中出現(xiàn)的新類別,提高了新類別的檢測性能。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
赤城县| 班戈县| 新晃| 安阳市| 鸡东县| 巨鹿县| 江津市| 墨玉县| 唐山市| 酉阳| 依安县| 九寨沟县| 宜川县| 鹤峰县| 蒙山县| 会泽县| 崇礼县| 新营市| 盈江县| 乌拉特中旗| 公安县| 伊宁县| 苍南县| 栾川县| 团风县| 建始县| 乌拉特后旗| 扎赉特旗| 泸定县| 白水县| 娱乐| 卓资县| 沧州市| 柞水县| 抚顺市| 开平市| 清流县| 舞阳县| 兰考县| 读书| 云阳县|