本發(fā)明涉及圖像異常檢測定位的,更具體地,涉及一種基于預(yù)訓(xùn)練視覺-語言模型的零樣本圖像異常檢測定位方法。
背景技術(shù):
1、視覺異常檢測和定位的目的是檢測出異常圖像并定位出圖像中存在異常的圖像區(qū)域,有著廣泛的應(yīng)用場景,例如,在工業(yè)生產(chǎn)中,視覺異常檢測和定位可以檢測出生產(chǎn)元件的缺損情況,控制元件生產(chǎn)的合格率;在醫(yī)學(xué)診斷中,視覺異常檢測和定位可以輔助疾病診斷,確定病灶所處的具體位置。
2、由于在實(shí)際的應(yīng)用場景中,異常圖像可能有各種各樣的形狀、顏色、紋理,一方面,全面的異常樣本難以收集,且為每一種異常樣本進(jìn)行標(biāo)簽標(biāo)記需要大量的時(shí)間和人力成本,所以,主流的視覺異常檢測和定位的方法為無監(jiān)督檢測方法,僅利用正常樣本進(jìn)行訓(xùn)練檢測。無監(jiān)督檢測方法可以通過重構(gòu)、造偽預(yù)測、特征存儲比較等方式來進(jìn)行異常檢測和定位。但是,這種方法為每一類檢測對象單獨(dú)訓(xùn)練模型,并且需要收集用于訓(xùn)練的每一類正常樣本數(shù)據(jù),需要付出較大的人力、時(shí)間和存儲代價(jià)。另一方面,無監(jiān)督訓(xùn)練存在訓(xùn)練樣本無法獲取的情況,比如在醫(yī)療診斷應(yīng)用中,存在因病人隱私無法收集到檢查結(jié)果圖像的問題,在工業(yè)生產(chǎn)初期,無法獲取大量元件照片。所以,在這樣的場景下,零樣本圖像異常檢測方式迫切需要被提出。
3、在零樣本圖像異常檢測場景下,無法獲取檢測對象目標(biāo)域的數(shù)據(jù)樣本。但是由于網(wǎng)絡(luò)上廣泛的數(shù)據(jù)存在,我們總能夠獲取一些通用的視覺異常檢測數(shù)據(jù)集,比如一些公開的工業(yè)數(shù)據(jù)集。要對目標(biāo)檢測域進(jìn)行零樣本異常檢測和定位,用于異常檢測的模型的泛化性能十分重要。若從頭開始設(shè)計(jì)一個(gè)新的模型,并利用通用數(shù)據(jù)集進(jìn)行訓(xùn)練,則模型在目標(biāo)檢測域的檢測性能往往較差,這是因?yàn)閺念^設(shè)計(jì)的模型并沒有目標(biāo)檢測域的任何知識,會在通用數(shù)據(jù)集上過擬合,而在目標(biāo)域的檢測性能不佳,基于對該問題的考慮,選用一個(gè)魯棒性較高的大型預(yù)訓(xùn)練模型基座比較重要。同時(shí),如何利用通用的數(shù)據(jù)集,使得預(yù)訓(xùn)練模型能夠適配于目標(biāo)檢測數(shù)據(jù)集,有效地進(jìn)行零樣本檢測和定位,是本領(lǐng)域亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、為解決在樣本圖像數(shù)據(jù)難以收集的應(yīng)用需求下,如何進(jìn)行零樣本圖像異常檢測定位的問題,本發(fā)明提出一種基于預(yù)訓(xùn)練視覺-語言模型的零樣本圖像異常檢測定位方法,利用通用的視覺異常檢測數(shù)據(jù)集,使得預(yù)訓(xùn)練模型能夠適配于目標(biāo)檢測數(shù)據(jù)集,提升零樣本圖像異常檢測定位的效果和性能。
2、為了達(dá)到上述技術(shù)效果,本發(fā)明的技術(shù)方案如下:
3、一種基于預(yù)訓(xùn)練視覺-語言模型的零樣本圖像異常檢測定位方法,包括:
4、利用通用異常檢測數(shù)據(jù)集訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示,獲得訓(xùn)練好的可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示;
5、利用訓(xùn)練好的可學(xué)習(xí)文本提示分別構(gòu)建正常狀態(tài)文本提示和異常狀態(tài)文本提示;
6、利用預(yù)訓(xùn)練視覺-語言模型的文本編碼器分別對正常狀態(tài)可學(xué)習(xí)文本提示和異常狀態(tài)可學(xué)習(xí)文本提示處理,輸出正常狀態(tài)文本表征和異常狀態(tài)文本表征;
7、將圖片編碼器的層次劃分為不同模塊,利用圖片編碼器提取待檢測圖像在不同模塊的圖像塊特征序列;
8、設(shè)置不同尺度的窗口大小,聚合每一個(gè)圖像塊特征序列在不同尺度的鄰居信息,得到所有圖像塊、所有尺度的圖像特征;
9、利用訓(xùn)練好的適配器調(diào)整所有圖像塊、所有尺度的圖像特征;
10、計(jì)算圖像特征與文本特征的相似度,所述文本特征包括正常狀態(tài)文本表征和異常狀態(tài)文本表征;將相似度歸一化,獲取圖像分類為異常的概率得分;
11、根據(jù)圖像分類為異常的概率得分確定圖像是否異常,將圖像分類為異常的概率得分重組后進(jìn)行線性插值,根據(jù)線性插值結(jié)果,定位圖像異常像素。
12、優(yōu)選地,所述的可學(xué)習(xí)適配器包括三個(gè)線性投影可學(xué)習(xí)自注意力層和輸出層,可學(xué)習(xí)適配器的可學(xué)習(xí)權(quán)重參數(shù)包括wq、wk、wv及wo,其中,分別為三個(gè)線性投影可學(xué)習(xí)自注意力層的權(quán)重參數(shù),wo為輸出層的權(quán)重參數(shù);
13、所述可學(xué)習(xí)文本提示表示為:
14、
15、其中,表示第m1個(gè)可學(xué)習(xí)的詞嵌入提示表征,可學(xué)習(xí)文本提示是將文本映射為詞向量所具有的表征,一個(gè)文本詞對應(yīng)的表征為一個(gè)詞向量,不同位置的詞向量為可學(xué)習(xí)文本提示參數(shù)。
16、優(yōu)選地,利用通用異常檢測數(shù)據(jù)集訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示之前,執(zhí)行以下步驟:
17、利用可學(xué)習(xí)文本提示分別構(gòu)建正常狀態(tài)文本提示和異常狀態(tài)文本提示;
18、利用預(yù)訓(xùn)練視覺-語言模型的文本編碼器分別對正常狀態(tài)可學(xué)習(xí)文本提示和異常狀態(tài)可學(xué)習(xí)文本提示處理,輸出正常狀態(tài)文本表征和異常狀態(tài)文本表征;
19、將圖片編碼器的層次劃分為不同模塊,利用圖片編碼器提取通用異常檢測數(shù)據(jù)集中圖像在不同模塊的圖像塊特征序列;
20、設(shè)置不同尺度的窗口大小,聚合每一個(gè)圖像塊特征序列在不同尺度的鄰居信息,得到所有圖像塊、所有尺度的圖像特征;
21、利用適配器調(diào)整所有圖像塊、所有尺度的圖像特征;
22、計(jì)算圖像特征與文本特征的相似度,所述文本特征包括正常狀態(tài)文本表征和異常狀態(tài)文本表征;
23、將相似度歸一化,獲取通用異常檢測數(shù)據(jù)集中圖像分類為異常的概率得分。
24、優(yōu)選地,構(gòu)建的正常狀態(tài)文本提示pn表達(dá)式為:
25、without?defect
26、構(gòu)建的異常狀態(tài)文本提示pa表達(dá)式為:
27、with?defect
28、其中,分別表示第m1個(gè)可學(xué)習(xí)的正常詞嵌入提示表征和異常詞嵌入提示表征;
29、對正常狀態(tài)可學(xué)習(xí)文本提示和異常狀態(tài)可學(xué)習(xí)文本提示進(jìn)行處理的預(yù)訓(xùn)練視覺-語言模型的文本編碼器為ft(·),輸出的正常狀態(tài)文本表征tn和異常狀態(tài)文本表征ta分別滿足的表達(dá)式為:
30、tn=ft(pn),ta=fr(pa)。
31、根據(jù)上述技術(shù)手段,利用可學(xué)習(xí)文本提示及預(yù)訓(xùn)練視覺-語言模型的文本編碼器,可以獲得正常、異常文本表示特征,便于與后續(xù)圖像特征進(jìn)行相似度計(jì)算。
32、優(yōu)選地,圖像編碼器對通用異常檢測數(shù)據(jù)集中圖像進(jìn)行處理,獲取圖片語義信息表征[cls]及圖像塊表征,整體表示為:
33、
34、其中,為圖像語義信息表征,ai為圖像塊特征表示,i∈1,2,…,n,n表示圖像塊的個(gè)數(shù);將圖片編碼器的層次劃分為l個(gè)不同模塊,提取出所有模塊的輸出特征,表達(dá)式為:
35、
36、al表示圖片編碼器的第l個(gè)模塊輸出的圖像塊特征序列,包括:圖像語義信息表征及剩余n個(gè)圖像塊通過第l個(gè)模塊輸出的圖像塊表征
37、優(yōu)選地,設(shè)置不同尺度的窗口大小,聚合每一個(gè)圖像塊特征序列在不同尺度的鄰居信息,得到所有圖像塊、所有尺度的圖像特征的過程為:
38、獲取特征圖的寬度和高度將一維圖像塊特征序列經(jīng)reshape()函數(shù)操作,變成二維圖像特征圖
39、設(shè)尺度數(shù)為r,二維圖像特征圖的任意一個(gè)位置(h,w)上的圖像塊特征為其鄰居信息為:利用平均池化聚合每一個(gè)圖像塊特征序列的鄰居信息,得到
40、將利用reshape()函數(shù)操作,重組為一維序列與圖像語義信息表征拼接,獲得聚合后的圖像特征則不同層次、不同尺度的圖像特征表示為:
41、通過上述技術(shù)手段,可以獲得更豐富的圖像特征表示。
42、優(yōu)選地,利用適配器調(diào)整所有圖像塊、所有尺度的圖像特征的過程為:
43、利用三個(gè)線性投影可學(xué)習(xí)自注意力層將圖像特征clr映射為查詢向量qlr、鍵向量klr及值向量vlr,表達(dá)式為:
44、qlr=clr·wq,klr=clr·wk,vlr=clr·wv
45、利用自注意力機(jī)制,并通過輸出層輸出權(quán)重映射到原始維度,得到調(diào)整之后的圖像特征,表達(dá)式為:
46、
47、不同層次、不同尺度的圖像特征共享可學(xué)習(xí)適配器權(quán)重參數(shù)wq、wk、ww及wo;
48、將調(diào)整之后的圖像特征通過圖片編碼器的投影層fp(·),獲取圖像特征:
49、
50、不同層次、不同尺度的圖像特征表示為:j={ilr|l,r}}。
51、通過上述技術(shù)手段,可以將圖像特征映射到文本-圖像聯(lián)合特征空間中。
52、優(yōu)選地,計(jì)算圖像特征與文本特征的相似度的過程為:
53、計(jì)算單個(gè)圖像特征與文本特征的相似度,包括計(jì)算單個(gè)圖像特征與正常狀態(tài)文本表征的相似度,以及計(jì)算單個(gè)圖像特征與異常狀態(tài)文本表征的相似度,表達(dá)式:
54、
55、計(jì)算單個(gè)圖像特征與正常狀態(tài)文本表征的相似度,表達(dá)式:
56、
57、其中,<·>代表余弦相似度,將單個(gè)圖像特征與正常狀態(tài)文本表征、異常狀態(tài)文本表征的相似度總體表示為對所有l(wèi)和r求和,得到整體的分?jǐn)?shù)得到不同層次、不同尺度的相似度得分;將相似度歸一化,獲取圖像分類為異常的概率得分:
58、
59、其中,pcls表示圖片級別分類為異常的概率得分,為n個(gè)圖像塊分類為異常的概率得分。
60、優(yōu)選地,利用通用異常檢測數(shù)據(jù)集訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示時(shí),設(shè)通用異常檢測數(shù)據(jù)集中圖像異常的標(biāo)簽為y,y∈{0,1},利用focal?loss構(gòu)建圖片級別異常分類的損失,表達(dá)式為:
61、lglobal=focalloss(pcls,y)
62、其中,pcls表示圖片級別分類為異常的概率得分;
63、利用focal?loss及l(fā)1?loss構(gòu)建細(xì)粒度圖像異常定位的損失,表達(dá)式為:
64、
65、其中,表示重組值,由通用異常檢測數(shù)據(jù)集中圖像在不同模塊的異常的概率得分p經(jīng)reshape()函數(shù)操作得到,pcls和p均與可學(xué)習(xí)適配器的可學(xué)習(xí)權(quán)重參數(shù)包括wq、wk、ww及wo、可學(xué)習(xí)文本提示參數(shù)相關(guān);表示通用異常檢測數(shù)據(jù)集中異常圖像對應(yīng)的異常像素掩碼標(biāo)簽的下采樣;
66、利用通用異常檢測數(shù)據(jù)集訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示的總體訓(xùn)練損失l為:
67、l=lglobal+llocal
68、在訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示時(shí),以總體訓(xùn)練損失l作為訓(xùn)練的損失函數(shù),訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示,在損失函數(shù)收斂時(shí),訓(xùn)練完成,固定可學(xué)習(xí)適配器的可學(xué)習(xí)權(quán)重參數(shù)和可學(xué)習(xí)文本提示參數(shù),得到訓(xùn)練好的可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示。
69、根據(jù)上述技術(shù)手段,利用通用異常檢測數(shù)據(jù)集訓(xùn)練了可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示,使得訓(xùn)練好的可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示能夠應(yīng)用于零樣本圖像的異常檢測定位。
70、優(yōu)選地,將訓(xùn)練好的可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示用于待檢測圖像的異常檢測定位,得到待檢測圖像中圖像分類為異常的概率得分,圖像分類為異常的概率得分包括圖像級別分類為異常的概率得分pcls及圖像塊分類為異常的概率得分p,概率得分越高,圖像異常可能性越大,概率得分大于第一設(shè)定標(biāo)準(zhǔn)時(shí),判定為圖像異常;將圖像塊分類為異常的概率得分p經(jīng)reshape()函數(shù)操作重組,得到重組值然后對重組值進(jìn)行線性插值至大小的像素掩碼,像素掩碼中大于第二設(shè)定標(biāo)準(zhǔn)的位置代碼為異常的圖像區(qū)域。
71、與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案的有益效果是:
72、本發(fā)明提出一種基于預(yù)訓(xùn)練視覺-語言模型的零樣本圖像異常檢測定位方法,首先利用通用的視覺異常檢測數(shù)據(jù)集訓(xùn)練可學(xué)習(xí)適配器和可學(xué)習(xí)文本提示,在文本特征方面,利用訓(xùn)練好的可學(xué)習(xí)文本提示分別構(gòu)建正常狀態(tài)文本提示和異常狀態(tài)文本提示,并分別獲取了正常狀態(tài)文本表征和異常狀態(tài)文本表征。在圖像特征方面,獲取圖像在圖片編碼器中不同層次的表征,通過不同尺度的窗口大小,聚合不同尺度鄰居信息的圖像特征,然后利用適配器調(diào)整不同層次、不同尺度的圖像特征,以將其映射到文本-圖像共同的語義空間中。最后,計(jì)算文本-圖像特征之間的相似度,使用歸一化的方式獲取圖像分類為異常的概率得分。本發(fā)明利用通用異常數(shù)據(jù)集訓(xùn)練可學(xué)習(xí)文本提示和可學(xué)習(xí)適配器,解決訓(xùn)練樣本無法獲取時(shí)如何進(jìn)行圖像異常檢測的問題,使得預(yù)訓(xùn)練模型能夠適配于目標(biāo)檢測數(shù)據(jù)集,有效地進(jìn)行零樣本檢測和定位。