本發(fā)明涉及一種基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)方法、裝置和介質(zhì),屬于計(jì)算機(jī)視覺。
背景技術(shù):
1、隨著人工智能和計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,行人識(shí)別技術(shù)在智能監(jiān)控、自動(dòng)駕駛、智能城市等領(lǐng)域得到了廣泛的應(yīng)用。行人識(shí)別旨在通過分析圖像或視頻中的行人特征,實(shí)現(xiàn)對(duì)特定個(gè)體的檢測和識(shí)別。傳統(tǒng)的行人識(shí)別方法通常依賴于手工設(shè)計(jì)的特征,如邊緣、紋理、顏色等,這些方法在簡單場景下表現(xiàn)良好,但在復(fù)雜環(huán)境中(如光照變化、遮擋、霧天、雨天)難以取得令人滿意的效果。
2、近年來,卷積神經(jīng)網(wǎng)絡(luò)(cnn)的興起為行人識(shí)別帶來了革命性的變化。通過自動(dòng)學(xué)習(xí)圖像中的多層次特征,cnn在行人檢測和識(shí)別方面取得了顯著進(jìn)展。行人識(shí)別通常會(huì)受到不同光照條件以及復(fù)雜背景環(huán)境的影響。傳統(tǒng)的cnn難以適應(yīng)這些變化,尤其是在光照條件變化劇烈時(shí),模型的穩(wěn)定性和準(zhǔn)確性會(huì)顯著降低。在實(shí)際應(yīng)用場景中,行人經(jīng)常會(huì)被部分遮擋(如由車輛、物體或其他行人遮擋)。傳統(tǒng)cnn通常無法有效處理這種部分可見的情況,尤其是無法從非遮擋部分提取足夠的有用特征,導(dǎo)致識(shí)別準(zhǔn)確性下降。盡管cnn在行人識(shí)別中表現(xiàn)出了很高的準(zhǔn)確性,但其計(jì)算和存儲(chǔ)資源的消耗較大,尤其是對(duì)于嵌入式設(shè)備或?qū)崟r(shí)系統(tǒng)而言,傳統(tǒng)cnn的復(fù)雜性可能導(dǎo)致識(shí)別速度降低或無法滿足實(shí)時(shí)性要求。
3、申請(qǐng)?zhí)枮閏n202410828405.8的中國發(fā)明專利公開了一種基于全局特征與頭肩特征多核融合的行人識(shí)別方法及裝置,涉及圖像識(shí)別領(lǐng)域,包括:采用經(jīng)訓(xùn)練的行人頭肩部檢測模型對(duì)行人圖像進(jìn)行頭肩部檢測,得到行人頭肩部圖像;在行人識(shí)別模型中,將行人圖像和行人頭肩部圖像分別輸入全局特征提取分支和頭肩特征提取分支,得到全局特征向量和頭肩特征向量并輸入多核融合模塊進(jìn)行融合,得到融合特征向量,根據(jù)全局特征向量、頭肩特征向量和融合特征向量構(gòu)建損失函數(shù),以訓(xùn)練行人識(shí)別模型,得到經(jīng)訓(xùn)練的行人識(shí)別模型;將待識(shí)別的行人圖像及其對(duì)應(yīng)的行人頭肩部圖像輸入經(jīng)訓(xùn)練的行人識(shí)別模型,得到對(duì)應(yīng)的融合特征向量,再進(jìn)行行人識(shí)別。本發(fā)明解決魚眼攝像機(jī)下圖像特征差異大、準(zhǔn)確度低的問題。然而該模型針對(duì)復(fù)雜場景的行人識(shí)別精度不高。
4、申請(qǐng)?zhí)枮閏n202410874053.x本發(fā)明提出一種基于動(dòng)態(tài)注意力的視覺語言行人重識(shí)別網(wǎng)絡(luò)方法與系統(tǒng),該方法包括獲取原始圖像中的前景特征,并進(jìn)行分割,并利用分割后的前景特征對(duì)原始圖像進(jìn)行前景感知處理,得到前景感知圖像,將原始圖像和前景感知圖像送入圖像編碼器中,得到全局圖像特征,將問題文本和原始圖像輸入文本編碼器,生成文本特征,計(jì)算全局圖像特征和文本特征的注意力權(quán)重,并根據(jù)全局圖像特征和文本特征之間的重要程度動(dòng)態(tài)分配權(quán)重,得到兩種模態(tài)的注意力加權(quán)特征,并進(jìn)行拼接,得到集成特征。本發(fā)明根據(jù)全局圖像特征和文本特征之間的重要程度動(dòng)態(tài)分配權(quán)重,克服圖像和文本信息交互過程中權(quán)重分配偏倚的問題,使模型能夠正確的關(guān)注有用的信息。該專利使用復(fù)雜的模型來處理行人識(shí)別任務(wù)導(dǎo)致模型參數(shù)大。
5、在實(shí)現(xiàn)本公開實(shí)施例的過程中,發(fā)現(xiàn)相關(guān)技術(shù)中至少存在如下問題:
6、遮擋處理:行人識(shí)別系統(tǒng)需要能夠在行人部分被遮擋的情況下依然準(zhǔn)確識(shí)別。例如,行人可能被其他物體(如汽車或其他行人)部分遮擋,這使得完整的特征無法獲取。解決這個(gè)問題通常需要使用深度學(xué)習(xí)方法來學(xué)習(xí)部分遮擋情況下的特征,或結(jié)合多個(gè)傳感器的數(shù)據(jù)。
7、光照和天氣條件:不同的光照和天氣條件(如強(qiáng)光、陰影、雨天、雪天等)會(huì)對(duì)識(shí)別系統(tǒng)的性能產(chǎn)生影響。在這些條件下,圖像的質(zhì)量和可見性可能會(huì)受到影響,導(dǎo)致識(shí)別準(zhǔn)確率降低。為了克服這些挑戰(zhàn),系統(tǒng)通常需要進(jìn)行圖像增強(qiáng)處理,或使用適應(yīng)性算法來處理不同的環(huán)境條件。
8、模型復(fù)雜度:深度學(xué)習(xí)模型通常需要處理高維特征,以捕捉行人的復(fù)雜特征。然而,使用高維特征往往會(huì)導(dǎo)致模型參數(shù)過多,從而增加計(jì)算開銷和內(nèi)存需求。這使得模型訓(xùn)練和推理變得更加困難,尤其在資源受限的環(huán)境下尤為明顯。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明目的是提供了一種基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)方法、裝置和介質(zhì),通過在不同層次提取特征并進(jìn)行特征融合,增強(qiáng)了對(duì)行人的邊緣和對(duì)比度的感知能力,提高了模型的泛化能力和魯棒性。
2、本發(fā)明為實(shí)現(xiàn)上述目的,通過以下技術(shù)方案實(shí)現(xiàn):
3、一種基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)方法,包括以下步驟:
4、采集在惡劣天氣條件和遮擋條件下拍攝的行人圖像作為原始圖像數(shù)據(jù)集,并對(duì)原始圖像數(shù)據(jù)集進(jìn)行標(biāo)記,作為訓(xùn)練數(shù)據(jù)集;
5、建立基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)模型,所述行人圖像增強(qiáng)模型依次包括多核池化層、通道卷積層、通道融合層、多核卷積層和全連接層;
6、通過訓(xùn)練集訓(xùn)練行人圖像增強(qiáng)模型,將所述訓(xùn)練數(shù)據(jù)集輸入到所述神經(jīng)網(wǎng)絡(luò)模型中,采用監(jiān)督學(xué)習(xí)的方式訓(xùn)練該網(wǎng)絡(luò),直至滿足訓(xùn)練終止條件;
7、將訓(xùn)練好的行人圖像增強(qiáng)模型部署到目標(biāo)檢測網(wǎng)絡(luò)的前端,增強(qiáng)目標(biāo)檢測網(wǎng)絡(luò)的輸入圖像。
8、優(yōu)選的,所述原始圖像數(shù)據(jù)集包括rainycityscapes數(shù)據(jù)集、foggy?zurich數(shù)據(jù)集。
9、優(yōu)選的,所述基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)模型多核池化層和多核卷積層窗口尺度均包括3x3、5x5和7x7;所述多核池化層包括平均池化和最大池化。
10、優(yōu)選的,所述行人圖像增強(qiáng)模型對(duì)圖像處理方法如下:
11、將原始圖像數(shù)據(jù)集輸入多核池化層,分別通過3x3池化層、5x5池化層和7x7池化層進(jìn)行池化操作捕獲多尺度特征,各池化層輸出特征分別通過通道卷積層提取不同通道的特征信息;
12、通過通道融合層自適應(yīng)地給每個(gè)通道分配權(quán)重,并將各通道的特征進(jìn)行融合;
13、將融合后的特征輸入多核卷積層,分別通過3x3卷積層、5x5卷積層和7x7卷積層進(jìn)行卷積操作,捕捉特征圖像中行人的特征;
14、將各卷積層輸出的特征通過全連接層輸出位增強(qiáng)后的行人圖像。
15、優(yōu)選的,所述通道卷積層中每個(gè)通道都有一個(gè)獨(dú)立的卷積核,所述卷積核分別與輸入圖像的對(duì)應(yīng)通道進(jìn)行卷積操作;計(jì)算過程如下:
16、?,
17、其中,表示通道卷積層的輸出,其通道數(shù)與該層的輸入一致,表示卷積核,示relu激活函數(shù),表示多核池化層的輸出。
18、優(yōu)選的,所述通道融合層對(duì)輸入特征處理過程如下:
19、對(duì)輸入特征每個(gè)通道都進(jìn)行獨(dú)立的全連接計(jì)算,計(jì)算過程如下:
20、?,
21、其中,表示計(jì)算得到的第個(gè)通道的權(quán)重得分,和表示相應(yīng)的權(quán)重矩陣和偏置向量;
22、將計(jì)算得到的得分分別與其對(duì)應(yīng)的通道相乘并相加,具體公式如下:
23、,
24、其中,表示通道融合層的輸出。
25、優(yōu)選的,所述多核卷積層對(duì)輸入特征處理過程如下:
26、對(duì)依次使用大小為的卷積核進(jìn)行計(jì)算,具體公式如下:
27、,
28、其中,表示卷積核大小為時(shí)的輸出,表示大小為的卷積核,表示sigmoid激活函數(shù);
29、對(duì)進(jìn)行特征融合:將分別展平成一維向量,然后通過全連接層進(jìn)行前向計(jì)算,公式如下:
30、,
31、其中,表示各個(gè)通道得權(quán)值,,表示可學(xué)習(xí)得權(quán)重矩陣;
32、將各個(gè)通道分別與對(duì)應(yīng)權(quán)值相乘并相加得到最終得輸出,公式如下:
33、,
34、其中,表示最終輸出得到的增強(qiáng)圖片。
35、優(yōu)選的,所述行人圖像增強(qiáng)模型訓(xùn)練過程采用均方差損失函數(shù)作為訓(xùn)練目標(biāo),并通過adam優(yōu)化算法進(jìn)行梯度更新。
36、一種基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)裝置,包括處理器和存儲(chǔ)有程序指令的存儲(chǔ)器,所述處理器被配置為在運(yùn)行所述程序指令時(shí),執(zhí)行所述的基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)方法。
37、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于多核特征融合卷積神經(jīng)網(wǎng)絡(luò)的行人圖像增強(qiáng)方法。
38、本發(fā)明的優(yōu)點(diǎn)在于:
39、多核特征融合能力強(qiáng)
40、相比單核卷積神經(jīng)網(wǎng)絡(luò),多核cnn能夠同時(shí)處理不同尺度的特征,從局部到全局,通過在不同層次提取特征并進(jìn)行特征融合,增強(qiáng)了對(duì)行人的邊緣和對(duì)比度的感知能力。這樣的多尺度處理機(jī)制使得網(wǎng)絡(luò)能夠更好地適應(yīng)不同尺度和形態(tài)的行人,提高了行人成像的清晰度和識(shí)別準(zhǔn)確性。多核cnn還能夠增強(qiáng)網(wǎng)絡(luò)的魯棒性,降低過擬合的風(fēng)險(xiǎn),并提高模型在不同圖像變換下的適應(yīng)能力。
41、特征表達(dá)能力強(qiáng)
42、通道卷積層能夠在每個(gè)通道上獨(dú)立地應(yīng)用卷積操作,從而更好地捕獲圖像中不同通道的特征信息,增強(qiáng)了對(duì)行人的感知能力。通道融合層將不同通道的特征組合在一起,產(chǎn)生更豐富和全面的特征表示,能夠更準(zhǔn)確地描述行人的形態(tài)。通過減少特征之間的冗余性,特征表示更具代表性和穩(wěn)定性,提高了模型的泛化能力和魯棒性。
43、適應(yīng)復(fù)雜環(huán)境
44、該方法能夠有效處理行人部分遮擋和復(fù)雜光照條件下的行人識(shí)別問題,在惡劣環(huán)境下拍攝的模糊或低質(zhì)量圖像上也能夠取得較高的增強(qiáng)效果。通過全面的數(shù)據(jù)采集和標(biāo)注工作,方法覆蓋了各種復(fù)雜環(huán)境和條件,能夠滿足實(shí)際應(yīng)用場景的需求。與傳統(tǒng)方法相比,該方法在復(fù)雜環(huán)境下表現(xiàn)更加出色,具有較強(qiáng)的實(shí)用價(jià)值。