本技術(shù)屬于人工智能,尤其涉及一種基于多尺度掩碼的免訓(xùn)練缺陷檢測(cè)方法及缺陷檢測(cè)設(shè)備。
背景技術(shù):
1、工業(yè)異常檢測(cè)在實(shí)際生產(chǎn)中具有重要的地位。在對(duì)工業(yè)生產(chǎn)的物品進(jìn)行異常檢測(cè)時(shí),一般是先建立正常物品的分布特征,然后通過判斷待檢測(cè)物品的特征與該分布特征之間的相似度,判斷物品是否正常。而建立正常物品的分布特征之前,需要收集大量的正常物品,也即需要將大量物品中的異常物品檢測(cè)出來后剔除。
2、在異常檢測(cè)(anomaly?detection,ad)領(lǐng)域,目前現(xiàn)有技術(shù)通?;谏疃葘W(xué)習(xí)模型,現(xiàn)有的大多數(shù)方法采用基于單一視覺模態(tài)的深度學(xué)習(xí)模型,主要依賴于大量的高質(zhì)量有標(biāo)注圖像數(shù)據(jù)進(jìn)行訓(xùn)練。常用的深度學(xué)習(xí)方法包括自編碼、卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)等。深度學(xué)習(xí)的出現(xiàn)極大促進(jìn)了異常檢測(cè)的快速發(fā)展,但基于深度學(xué)習(xí)的異常檢測(cè)算法仍有許多困難待以解決。但是高質(zhì)量的圖像數(shù)據(jù)獲取成本極高,缺陷樣本的采集和標(biāo)注不僅費(fèi)時(shí)且昂貴。實(shí)際場(chǎng)景中,缺陷的大小形態(tài)各異,單一尺度的視覺信息不足以捕捉到復(fù)雜的缺陷特征。單一視覺模態(tài)下的特征提取可能會(huì)因?yàn)闃颖酒疃鵁o法準(zhǔn)確捕獲缺陷特征,導(dǎo)致模型的泛化能力不足。
3、零樣本異常檢測(cè)(zero-shot?anomaly?detection,zsad)是異常檢測(cè)的一項(xiàng)新興任務(wù),需要在沒有任何目標(biāo)數(shù)據(jù)集訓(xùn)練樣本的情況下檢測(cè)異常。在這種情況下,上述異常檢測(cè)的方法是不可行的。由于異常從不同的應(yīng)用場(chǎng)景來看,它們的視覺外觀通常有很大的變化,前景物體和背景特征,例如一個(gè)產(chǎn)品表面的缺陷與另一個(gè)產(chǎn)品的缺陷在其他產(chǎn)品上,不同器官上的病變/腫瘤,或工業(yè)缺陷與腫瘤/病變?cè)卺t(yī)學(xué)圖像中,對(duì)這種變化具有很強(qiáng)泛化能力的檢測(cè)模型?,F(xiàn)有的大模型在圖像理解方面展現(xiàn)了卓越的能力,但是缺乏特定領(lǐng)域知識(shí),而且對(duì)圖像中局部細(xì)節(jié)的理解較弱,這導(dǎo)致這些大模型不能直接用于工業(yè)異常檢測(cè)任務(wù)。本發(fā)明因此而來。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供一種基于多尺度掩碼的免訓(xùn)練缺陷檢測(cè)方法及缺陷檢測(cè)設(shè)備,該方法結(jié)合少量圖像數(shù)據(jù)和文本描述,顯著減少了對(duì)大規(guī)模高質(zhì)量標(biāo)注圖像數(shù)據(jù)的依賴,該方法借助已經(jīng)預(yù)訓(xùn)練好的模型權(quán)重,本方法避免了從頭開始的大規(guī)模模型訓(xùn)練,這不僅減少了訓(xùn)練時(shí)間,也優(yōu)化了計(jì)算資源的使用。
2、第一方面,本技術(shù)實(shí)施例提供了一種基于多尺度掩碼的免訓(xùn)練缺陷檢測(cè)方法,其特征在于,包括:
3、s1、數(shù)據(jù)獲取步驟:通過圖像獲取裝置獲取當(dāng)前檢測(cè)產(chǎn)品的待測(cè)圖像;
4、s2、文本圖像對(duì)齊步驟:分別對(duì)待測(cè)圖像進(jìn)行多尺度的掩碼掩蔽處理,按照基于文本-圖像對(duì)預(yù)訓(xùn)練模型進(jìn)入圖像特征編碼器進(jìn)行圖像特征編碼獲取多尺度的圖像特征編碼信息以及獲取與待測(cè)圖像對(duì)應(yīng)的文本特征編碼信息,將多尺度的圖像特征編碼信息與待測(cè)圖像對(duì)應(yīng)的文本特征編碼信息對(duì)齊;
5、s3、產(chǎn)品檢測(cè)步驟:根據(jù)編碼信息對(duì)齊的結(jié)果,確定待測(cè)圖像是否為缺陷產(chǎn)品圖像以及標(biāo)注待測(cè)圖像的缺陷位置。
6、在一些可能的實(shí)施例中,所述方法s2文本圖像對(duì)齊步驟中基于文本-圖像對(duì)預(yù)訓(xùn)練模型的初始權(quán)重參數(shù)使用已有l(wèi)aion-2b數(shù)據(jù)集訓(xùn)練后的模型權(quán)重參數(shù)。
7、在一些可能的實(shí)施例中,所述方法s2文本圖像對(duì)齊步驟中待測(cè)圖像對(duì)應(yīng)的文本信息采用文本編碼器進(jìn)行文本特征編碼;
8、優(yōu)選的,待測(cè)圖像對(duì)應(yīng)的文本特征編碼信息為與待測(cè)圖像對(duì)應(yīng)的當(dāng)前檢測(cè)物品的正常文本描述sn和異常文本描述sa,兩者同時(shí)進(jìn)入文本特征編碼器g,分別得到正常文本描述的文本特征向量gn和異常文本描述的文本特征向量ga:
9、gn=g(sn);
10、ga=g(sa)。
11、在一些可能的實(shí)施例中,所述方法s2文本圖像對(duì)齊步驟中使用的圖像特征編碼采用圖像編碼器進(jìn)行圖像特征編碼;
12、優(yōu)選的,圖像特征編碼包括以下步驟:
13、(s211)圖像網(wǎng)格化步驟:將待測(cè)圖像進(jìn)行網(wǎng)格化分割,得到相同大小的子圖塊(patch),將子圖塊按次序依次進(jìn)行拼接成子圖塊序列,并在子圖塊序列的頭部增加代表子圖塊總體信息的類別標(biāo)記(class?token);
14、(s212)掩碼構(gòu)造步驟:按照子圖塊的大小構(gòu)造k個(gè)尺度的掩碼矩陣w;
15、(s213)圖像特征編碼步驟:使用不同尺度的掩碼矩陣分別對(duì)子圖塊進(jìn)行遮蔽處理后,將遮蔽后的子圖塊輸入圖像編碼器進(jìn)行圖像特征編碼,獲取多尺度圖像特征信息,包括全局圖像特征信息fcls和子圖塊的局部圖像特征信息
16、fcls=lobal(f(x));
17、
18、其中,x是預(yù)處理后的待測(cè)圖像;wi代表第i個(gè)尺度的掩碼矩陣,為布爾矩陣,其元素的取值為0或1,1表示待測(cè)圖像所對(duì)應(yīng)的區(qū)域?yàn)檠诖a遮蓋,0代表待測(cè)圖像所對(duì)應(yīng)的區(qū)域可見;i為1到k的自然數(shù);k為尺度范圍,為大于等于2的自然數(shù);
19、f是圖像特征編碼器;⊙代表逐元素相乘;
20、代表當(dāng)前圖像的經(jīng)由第i個(gè)尺度的掩碼矩陣處理后的特征;
21、global(·)表示提取上文提到的類別標(biāo)記(class?token),用于整體圖像異常與否的判斷;
22、local(·)表示提取除類別標(biāo)記(class?token)之外的所有子圖塊的局部圖像信息。
23、在一些可能的實(shí)施例中,所述方法s2文本圖像對(duì)齊步驟中編碼信息對(duì)齊是將多尺度圖像特征信息與正常文本描述的文本特征向量gn和異常文本描述的文本特征向量ga進(jìn)行余弦相似度計(jì)算,獲取待測(cè)新圖像與正常文本描述或異常文本描述的相似分?jǐn)?shù):
24、mn=sim(fcls,gn);
25、ma=sim(fcls,ga);
26、
27、
28、其中,sim()代表余弦相似度計(jì)算,mn代表當(dāng)前整體圖像與正常文本描述的相似分?jǐn)?shù),即為正常樣本的概率;ma代表當(dāng)前整體圖像與異常文本描述的相似分?jǐn)?shù),即為異常樣本的概率;
29、是用于缺陷定位的異常分?jǐn)?shù),為k個(gè)尺度下的每個(gè)子圖塊與正常、異常文本描述的相似分?jǐn)?shù)的平均值。
30、在一些可能的實(shí)施例中,所述方法中正常文本描述包含正常提示詞模板;異常文本描述包含缺陷提示詞模板;
31、所述正常提示詞作為用于正常樣本的提示模板;所述缺陷提示詞作為用于異常樣本的提示模板;
32、所述正常提示詞表示為:
33、表示正向提示詞的編碼向量,初始化的值符合均值為0,方差為0.02的正態(tài)分布;nn表示正向提示詞(n)的數(shù)量,na表示缺陷提示詞(a)的數(shù)量,l表示每條提示詞的長(zhǎng)度,d表示每個(gè)提示詞編碼的維度;
34、優(yōu)選的,缺陷提示詞表示為:
35、表示缺陷提示詞的編碼向量,初始化的值符合均值為0,方差為0.02的正態(tài)分布;nn表示正向提示詞(n)的數(shù)量,na表示缺陷提示詞(a)的數(shù)量,l表示每條提示詞的長(zhǎng)度,d表示每個(gè)提示詞編碼的維度。
36、在一些可能的實(shí)施例中,所述方法s3產(chǎn)品檢測(cè)步驟中根據(jù)待測(cè)圖像整體與正常文本描述的相似分?jǐn)?shù)是否大于待測(cè)圖像整體與異常文本描述的相似分?jǐn)?shù)來判斷是否歸類于正常樣本還是缺陷樣本;當(dāng)待測(cè)圖像整體與正常文本描述的相似分?jǐn)?shù)大于待測(cè)圖像整體與異常文本描述的相似分?jǐn)?shù),歸類于正常樣本;反之,歸類于缺陷樣本;
37、優(yōu)選的,使用雙線性插值將用于缺陷定位的異常分?jǐn)?shù)還原成待測(cè)圖像的尺寸,進(jìn)行待測(cè)圖像的缺陷位置標(biāo)注。
38、第二方面,本發(fā)明實(shí)施例提供了一種缺陷檢測(cè)設(shè)備,其特征在于,所述設(shè)備包括圖像獲取裝置、處理器和存儲(chǔ)器,
39、所述圖像獲取裝置,用于捕獲當(dāng)前檢測(cè)產(chǎn)品的待測(cè)圖像;
40、所述處理器和存儲(chǔ)器耦合,所述存儲(chǔ)器存儲(chǔ)有程序,當(dāng)所述存儲(chǔ)器存儲(chǔ)的程序指令被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)上述所述的方法的步驟。
41、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,包括計(jì)算機(jī)程序指令,當(dāng)所述計(jì)算機(jī)程序指令由處理器執(zhí)行時(shí),所述處理器執(zhí)行上述所述的方法。
42、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,所述計(jì)算機(jī)程序產(chǎn)品包括軟件代碼,所述軟件代碼用于執(zhí)行上述所述的方法的步驟。
43、本技術(shù)提供了一種基于多尺度掩碼的免訓(xùn)練缺陷檢測(cè)方法及缺陷檢測(cè)設(shè)備,采用多尺度的掩碼掩蓋處理,可以全面提取圖像的局部與全局信息,使得模型不僅能夠捕捉到整體的異常特征,也能夠詳細(xì)識(shí)別局部的細(xì)微差異。這對(duì)于精確識(shí)別和定位各種尺寸和類型的缺陷至關(guān)重要。該方法直接使用訓(xùn)練好的模型,無需大規(guī)模訓(xùn)練,借助已經(jīng)預(yù)訓(xùn)練好的模型權(quán)重,避免了從頭開始的大規(guī)模模型訓(xùn)練,這不僅減少了訓(xùn)練時(shí)間,也優(yōu)化了計(jì)算資源的使用。此外,這種方法對(duì)于特定工業(yè)領(lǐng)域中數(shù)據(jù)稀缺的情況尤為有效。該方法擴(kuò)展了缺陷檢測(cè)模型的遷移能力,模型訓(xùn)練好后可以直接遷移到訓(xùn)練集外的其他類型的缺陷數(shù)據(jù),仍然可以保持高性能檢測(cè)。