本發(fā)明涉及一種基于輕量視覺transformer框架的驢臉識(shí)別系統(tǒng)和方法,屬于智慧農(nóng)業(yè),具體屬于畜牧智能化。
背景技術(shù):
1、傳統(tǒng)用于驢個(gè)體識(shí)別的耳標(biāo)方法,通常需要養(yǎng)殖工人接觸并控制住待識(shí)別個(gè)體,然后觀測(cè)耳標(biāo)進(jìn)行記錄,一方面耳標(biāo)易污損或脫落,另一方面觀測(cè)過程中易引起驢只的應(yīng)激反應(yīng),而rfid方法則需養(yǎng)殖工人手持識(shí)別槍靠近待識(shí)別個(gè)體,并對(duì)準(zhǔn)rfid芯片附近進(jìn)行采集。在密集養(yǎng)殖情況下個(gè)體易扎堆,影響識(shí)別效率和準(zhǔn)確度。
2、以上兩種方法都涉及到記錄完成后的分圈分群?jiǎn)栴},當(dāng)面對(duì)密集復(fù)雜養(yǎng)殖場(chǎng)景下的驢只個(gè)體識(shí)別任務(wù)時(shí),這兩類方法更顯得捉襟見肘,散養(yǎng)狀態(tài)下的驢警覺性強(qiáng),同時(shí)存在各種環(huán)境因素干擾,這些使得難以捕捉和靠近,驢的社會(huì)關(guān)系復(fù)雜易形成小群體,彼此有一定的依賴性,當(dāng)捕捉其中一只時(shí)通常會(huì)受到其他驢的干擾和阻擾,這些局限性不僅導(dǎo)致了傳統(tǒng)方法工作效率低下,增加了不必要的反復(fù)操作時(shí)間,同時(shí)也加大了現(xiàn)場(chǎng)操作的安全隱患,影響了數(shù)據(jù)采集的整體效能和穩(wěn)定運(yùn)行。
3、現(xiàn)有技術(shù)在解決畜牧養(yǎng)殖場(chǎng)景中的驢只個(gè)體識(shí)別時(shí),主要依賴于耳標(biāo)和較為先進(jìn)的電子射頻識(shí)別技術(shù)(rfid)等方法,這些方法難以有效處理密集復(fù)雜養(yǎng)殖場(chǎng)景下的識(shí)別問題。其局限性如下:
4、1、耳標(biāo)易丟失或損壞:在密集復(fù)雜的養(yǎng)殖場(chǎng)景中,驢只可能相互摩擦、碰撞,導(dǎo)致耳標(biāo)容易脫落或損壞,從而影響識(shí)別準(zhǔn)確性。
5、2、rfid信號(hào)易受干擾:盡管rfid技術(shù)可以實(shí)現(xiàn)非接觸式的個(gè)體識(shí)別,但在密集場(chǎng)景下,由于驢只之間的互相遮擋和干擾,可能導(dǎo)致rfid信號(hào)受阻或干擾,也影響了識(shí)別的準(zhǔn)確性和穩(wěn)定性。
6、3、識(shí)別速度和效率不高,數(shù)據(jù)管理不便:在大規(guī)模養(yǎng)殖場(chǎng)景中,需要對(duì)大量的驢只進(jìn)行快速、準(zhǔn)確的識(shí)別,傳統(tǒng)方法可能無法滿足高效率的識(shí)別需求,導(dǎo)致生產(chǎn)管理效率低下;同時(shí),耳標(biāo)或者rfid方法所獲取的識(shí)別數(shù)據(jù)需要進(jìn)行大量的整理、存儲(chǔ)和管理,增加養(yǎng)殖成本。
7、鑒于以上痛點(diǎn)和現(xiàn)代智慧養(yǎng)殖對(duì)高效、便捷、智能管理模式的強(qiáng)烈需求,如何開發(fā)一種能夠在密集復(fù)雜養(yǎng)殖場(chǎng)景下的驢只個(gè)體識(shí)別管理系統(tǒng)成為業(yè)界亟待解決的重要問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的在于針對(duì)上述現(xiàn)有技術(shù)的缺陷和不足,提出了一種基于輕量視覺transformer框架的驢臉識(shí)別系統(tǒng)和方法,通過融合卷積神經(jīng)網(wǎng)絡(luò)(cnn)與levit模型以及一系列的改進(jìn)操作,構(gòu)建了一種適用于復(fù)雜環(huán)境下的驢臉識(shí)別系統(tǒng),極大地提高了驢個(gè)體識(shí)別在實(shí)際應(yīng)用場(chǎng)景中的靈活性和可靠性,有力推動(dòng)了驢產(chǎn)業(yè)規(guī)?;B(yǎng)殖的技術(shù)創(chuàng)新與發(fā)展。
2、本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是:一種基于輕量視覺transformer框架的驢臉識(shí)別系統(tǒng),所述該系統(tǒng)包括:特征提取模塊、regular?stage模塊、shrink?stage模塊、分類網(wǎng)絡(luò)模塊、損失函數(shù)選擇模塊、超參數(shù)與參數(shù)初始化模塊和反向傳播機(jī)制模塊;
3、所述特征提取模塊用于保障充分提取驢臉特征信息,包括初始特征提取和骨干特征提取兩個(gè)階段;
4、所述regular?stage模塊在使用時(shí)不改變特征圖的大小,依次由regular?levit注意力模塊和兩層1×1卷積與批歸一化,和硬閾值激活串聯(lián),然后與輸入特征圖進(jìn)行殘差連接所構(gòu)成;
5、所述shrink?stage模塊用于實(shí)現(xiàn)特征圖尺寸減半的效果,在殘差連接過程中,對(duì)原始輸入特征進(jìn)行平均池化處理;
6、所述分類網(wǎng)絡(luò)模塊用于將所得到的特征圖送入分類網(wǎng)絡(luò)來實(shí)現(xiàn)驢臉識(shí)別,包括自適應(yīng)平均處理和分類頭;
7、所述反向傳播機(jī)制模塊通過利用鏈?zhǔn)椒▌t,計(jì)算損失函數(shù)關(guān)于模型參數(shù)的梯度,并且梯度通過模型逐層反向傳播,每一層的權(quán)重都會(huì)根據(jù)梯度進(jìn)行更新,以減少損失函數(shù)。
8、進(jìn)一步地,所述特征提取模塊包括:初始特征提取由mobilenetv2中的mv2單元、通道和空間注意力機(jī)制單元、帶交疊信息的transformer?as?cnn塊單元組成,所述骨干特征提取階段經(jīng)過改造后的輕量化視覺transformer結(jié)構(gòu)搭建,分類網(wǎng)絡(luò)由自適應(yīng)平均處理和由線性分類器定義的分類頭組成;
9、所述mv2單元是一個(gè)殘差結(jié)構(gòu),能夠保持算法的穩(wěn)定性且保障較深網(wǎng)絡(luò)模型的收斂性,mv2單元的主體部分是由1×1的點(diǎn)態(tài)卷積加層歸一化、3×3的深度卷積加層歸一化和1×1的點(diǎn)態(tài)卷積加層歸一化串聯(lián)而成,經(jīng)殘差連接后依次通過通道注意力和空間注意力機(jī)制,最終形成初步特征;
10、所述帶交疊信息的transformer?as?cnn塊單元包括:圖像領(lǐng)域中的transformer結(jié)構(gòu)由圖像切塊、位置編碼和詞嵌入組成的映射層,由關(guān)鍵(k)-查詢(q)-值(v)所構(gòu)成的非線性特征提取單元和mlp組成的編碼層組成,在圖像切塊部分中,通過引入stride參數(shù),實(shí)現(xiàn)塊數(shù)增加達(dá)到信息交疊的效果,保證輸入圖像局部信息的充分使用。
11、進(jìn)一步地,所述分類網(wǎng)絡(luò)模塊包括:經(jīng)過自適應(yīng)平均處理模塊使得模型能夠進(jìn)一步專注于特定區(qū)域或圖塊,提升識(shí)別準(zhǔn)確率,自適應(yīng)平均處理模塊是由轉(zhuǎn)置運(yùn)算、圖像大小調(diào)整、全局深度卷積和圖像大小再調(diào)整串聯(lián)而成,分類頭由線性網(wǎng)絡(luò)構(gòu)成。
12、進(jìn)一步地,所述損失函數(shù)選擇模塊選擇了arcface、cosface和sphereface三種損失函數(shù),arcface損失特征向量的內(nèi)積運(yùn)算和softmax函數(shù)復(fù)合實(shí)現(xiàn),cosface損失函數(shù)是將余弦函數(shù)和softmax函數(shù)復(fù)合而成,用于實(shí)現(xiàn)基于角度信息的比較,sphereface損失則是通過增加角度間隔來增強(qiáng)特征的判別能力,用于提高分類的準(zhǔn)確性。
13、進(jìn)一步地,所述超參數(shù)與參數(shù)初始化模塊包括:超參數(shù)包括層數(shù)、寬度和輸入圖像的分辨率這些模型構(gòu)建參數(shù),學(xué)習(xí)率、權(quán)重衰減策略和動(dòng)量這些優(yōu)化器參數(shù),另外還有注意力頭的數(shù)量、注意力偏差這些注意力機(jī)制參數(shù),初始特征提取部分采用kaiming初始化方法,骨干特征提取部分采用隨機(jī)初始化和xavier初始化方法,分類網(wǎng)絡(luò)結(jié)構(gòu)部分采用xavier初始化方法,網(wǎng)絡(luò)模型中的歸一化層使用常值零進(jìn)行初始化。
14、本發(fā)明還提出了一種基于輕量視覺transformer框架的驢臉識(shí)別方法,所述該方法具體如下步驟:
15、步驟1:構(gòu)建驢臉數(shù)據(jù)集,包括驢只個(gè)體數(shù)據(jù)集和驢只面部數(shù)據(jù)集;
16、步驟2:重寫torch中dataset抽象類中的方法,用戶根據(jù)給定的索引返回?cái)?shù)據(jù)集中的單個(gè)元組樣本;
17、步驟3:通過torch中的dataloader類對(duì)數(shù)據(jù)集進(jìn)行批量處理、打亂順序,多進(jìn)程數(shù)據(jù)加載;
18、步驟4:通過torch中的model模型類將初始特征提取,骨干特征提取和分類網(wǎng)絡(luò)連接到一起構(gòu)成新模型;
19、步驟5:模型訓(xùn)練與預(yù)測(cè)。
20、進(jìn)一步地,所述步驟1包括:
21、驢只個(gè)體數(shù)據(jù)集:首先,通過錄制驢只個(gè)體面部視頻方式收集含三粉驢和烏頭驢兩種類型驢只的視頻片段集合,錄制時(shí)注意左臉、右臉、正面低視角臉和高視角臉數(shù)據(jù),確保個(gè)體驢臉數(shù)據(jù)的豐富性;
22、驢只面部數(shù)據(jù)集:通過視頻抽幀,并通過ssim相似度檢驗(yàn)去掉相似度高的個(gè)體圖像數(shù)據(jù),然后通過數(shù)據(jù)標(biāo)注、圖像檢測(cè)技術(shù)手段提取各張個(gè)體圖像中的驢臉信息,并通過圖像大小調(diào)整,最終形成112×224大小的驢只面部數(shù)據(jù)集。
23、進(jìn)一步地,所述步驟2包括:元組由驢臉圖像數(shù)據(jù)和對(duì)應(yīng)編號(hào)標(biāo)簽組成,設(shè)定數(shù)據(jù)長(zhǎng)度為驢只面部數(shù)據(jù)集的大小。
24、進(jìn)一步地,所述步驟4包括:初始特征提取階段中的cbam-mv2模塊實(shí)現(xiàn)將大小為(b,3,224,112)的原始圖像塊,轉(zhuǎn)化為大小為(b,16,112,56)的初步特征圖,后續(xù)的tacblock?with?overlapping模塊進(jìn)一步將特征轉(zhuǎn)為大小的(b,32,112,56)的特征圖,最后再次使用cbam-mv2得到大小為(b,128,28,14)的最終初始特征圖;骨干特征提取網(wǎng)絡(luò)部分主要采用輕量版的levit-transformer結(jié)構(gòu),該結(jié)構(gòu)主要由常規(guī)levit注意力和縮減版levit注意力兩種類型模塊串聯(lián)而成,其中常規(guī)版本保持圖像大小不變,而減縮版本注意力機(jī)制將圖像大小調(diào)整為原來的1/2,經(jīng)過骨干特征提取網(wǎng)絡(luò),得到最終特征圖大小為(b,512,7,3);分類網(wǎng)絡(luò)由自適應(yīng)平均處理和分類頭組成,經(jīng)過自適應(yīng)平均處理后,得到大小為(b,512)的特征向量,最優(yōu)經(jīng)過由線性投影組成的分類頭,最終實(shí)現(xiàn)驢臉識(shí)別。
25、進(jìn)一步地,所述步驟5包括:通過重寫torch中的訓(xùn)練類實(shí)現(xiàn),訓(xùn)練集和測(cè)試集按照8:2進(jìn)行劃分,epoch大小選擇為300,初始學(xué)習(xí)率選擇為1e-3,權(quán)重衰減策略選為余弦下降法,損失函數(shù)在分類頭層前一層得到的特征向量使用arcface、cosface和sphereface損失加權(quán)進(jìn)行,另外利用模型類型輸出和類別標(biāo)簽使用交叉熵?fù)p失進(jìn)行綜合處理。
26、有益效果:
27、1、本發(fā)明網(wǎng)絡(luò)結(jié)構(gòu)模型的輕量化和表達(dá)能力好:通過引入注意力機(jī)制和殘差連接,進(jìn)一步提升了這類網(wǎng)絡(luò)的表達(dá)能力,另外注重深度卷積和點(diǎn)態(tài)卷積的使用,使得網(wǎng)絡(luò)進(jìn)一步輕量化。
28、2、本發(fā)明能夠提升驢臉特征提取效果:采用高和寬不同的輸入圖像格式,大大提升了原始驢臉的特有局部特征,使得網(wǎng)絡(luò)具有更好的識(shí)別率。
29、3、本發(fā)明能夠降低驢場(chǎng)驢只管理成本:將驢場(chǎng)全部驢臉信息保存,并實(shí)現(xiàn)基于圖像和深度學(xué)習(xí)的驢臉識(shí)別方案,有利于降低驢只個(gè)體管理勞動(dòng)投入和成本投入。
30、4、本發(fā)明能夠優(yōu)化驢個(gè)體身份識(shí)別流程:利用高清智能攝像頭融合深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)高效、安全的無接觸式驢只身份識(shí)別,有效簡(jiǎn)化傳統(tǒng)識(shí)別流程的復(fù)雜性并顯著提升識(shí)別效率。