本發(fā)明涉及深度學(xué)習(xí)領(lǐng)域,尤其涉及一種面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)訓(xùn)練方法。
背景技術(shù):
1、隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深層卷積神經(jīng)網(wǎng)絡(luò)模型在目標(biāo)分類、實例分割等領(lǐng)域表現(xiàn)出良好性能,收到各界學(xué)者的廣泛關(guān)注。針對目標(biāo)任務(wù)構(gòu)建合適的網(wǎng)絡(luò)模型要求研究人員有扎實的深度學(xué)習(xí)基礎(chǔ)及豐富的模型構(gòu)建經(jīng)驗。因此,一些缺乏經(jīng)驗的非深度學(xué)習(xí)研究人員會傾向于使用大規(guī)模網(wǎng)絡(luò)模型,但是這可能會增加非必要的參數(shù)量和計算量,浪費運算資源;此外,還可能導(dǎo)致過擬合問題,削弱模型能力。
2、確定網(wǎng)絡(luò)模型結(jié)構(gòu)后,需要設(shè)定合適的超參數(shù)進行模型訓(xùn)練。超參數(shù)的設(shè)置將直接影響模型訓(xùn)練結(jié)果。以學(xué)習(xí)率為例,如果學(xué)習(xí)率過大,則可能導(dǎo)致網(wǎng)絡(luò)模型出現(xiàn)訓(xùn)練不穩(wěn)定、跳過最優(yōu)解等問題;學(xué)習(xí)率過小則可能導(dǎo)致訓(xùn)練時間過長、無法收斂等問題。而超參數(shù)的設(shè)置同樣要求實驗人員有豐富的調(diào)參經(jīng)驗。
3、通過對現(xiàn)有技術(shù)進行分析,明確了以下已有技術(shù)及缺點:
4、《用于圖像分類的卷積神經(jīng)網(wǎng)絡(luò)的自適應(yīng)優(yōu)化訓(xùn)練方法》提出了一種參數(shù)更新方式。該方法先從訓(xùn)練集中取一子集,基于該子集訓(xùn)練模型并計算梯度及梯度與梯度差的無偏二階矩估計,使用梯度和梯度差的無偏二階矩估計構(gòu)建參數(shù)更新表達式。該方法只考慮了訓(xùn)練過程中參數(shù)的調(diào)整,而忽略了在訓(xùn)練過程中對網(wǎng)絡(luò)模型復(fù)雜度以及超參數(shù)的自適應(yīng)調(diào)整。
5、《一種基于層數(shù)自適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)的圖像分類方法》介紹了一種網(wǎng)絡(luò)模型層數(shù)的自適應(yīng)調(diào)整方法。該方法先構(gòu)建一個含3個或以上卷積塊的基礎(chǔ)網(wǎng)絡(luò),而后在該網(wǎng)絡(luò)模型基礎(chǔ)上拼接層數(shù)自適應(yīng)模塊,實現(xiàn)低層特征共享,而高層特征相互獨立的目的。該方法考慮到了模型對不同類別數(shù)據(jù)的適應(yīng)能力,但針對特定類別數(shù)據(jù)而言,模型結(jié)構(gòu)相對固定,且忽略了對訓(xùn)練超參數(shù)的自適應(yīng)調(diào)整。
6、《一種基于粒子群算法的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索方法及系統(tǒng)》將網(wǎng)絡(luò)模型結(jié)構(gòu)編碼為粒子,將模型的分類精度定義為適應(yīng)值,通過更新個體歷史最優(yōu)解和種群歷史最優(yōu)解來尋找最優(yōu)的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。這一方法可以實現(xiàn)最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)的自適應(yīng)探索,但是由于解空間巨大,因此可能需要較長探索時間。
7、《large-scale?evolution?ofimage?classifiers》提出了一種基于進化算法的網(wǎng)絡(luò)模型結(jié)構(gòu)設(shè)計方法。該方法將模型定義為種群中的個體,通過重復(fù)評價、選擇、進化的過程探索問題最優(yōu)解。該方法雖然為自適應(yīng)算法,但是在問題解空間較大時,需要較長時間才能找到最優(yōu)解。
8、綜上所述,現(xiàn)有技術(shù)中對于卷積神經(jīng)網(wǎng)絡(luò)模型進行訓(xùn)練時,未對其結(jié)構(gòu)和參數(shù)未進行自適應(yīng)選擇,導(dǎo)致網(wǎng)絡(luò)模型出現(xiàn)訓(xùn)練不穩(wěn)定、跳過最優(yōu)解、訓(xùn)練時間過長以及無法收斂等問題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)訓(xùn)練方法,以克服上述技術(shù)問題。
2、一種面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)訓(xùn)練方法,包括,
3、s1、獲取待分類圖像數(shù)據(jù)集,確定基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型,
4、s2、基于待分類圖像數(shù)據(jù)集確定基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型的子結(jié)構(gòu),
5、s3、基于待分類圖像數(shù)據(jù)集對已確定子結(jié)構(gòu)的基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)進行確定,根據(jù)已確定子結(jié)構(gòu)和超參數(shù)的基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型對待分類圖像數(shù)據(jù)集進行分類。
6、優(yōu)選地,所述s2包括,
7、s2.1將基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型的不同子結(jié)構(gòu)的編碼為個體,其中每個子結(jié)構(gòu)中包含不同的卷積層數(shù)和一層卷積層中包含不同的通道數(shù),根據(jù)子結(jié)構(gòu)的卷積層數(shù)和通道數(shù)定義狀態(tài)指示向量,所述狀態(tài)指示向量用于指示卷積層或通道的去留,并將該狀態(tài)指示向量定義為個體染色體,將卷積層和通道表示為染色體中的基因,其中,卷積層以及通道的個數(shù)分別進行隨機設(shè)定;
8、s2.2將待分類圖像數(shù)據(jù)集劃分為訓(xùn)練集和測試集,定義適應(yīng)度評價函數(shù),基于測試集分別對基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型的不同子結(jié)構(gòu)進行測試并計算適應(yīng)度評價函數(shù)的取值,
9、s2.3將所有個體作為當(dāng)前世代,基于當(dāng)前世代生成下一世代,所述基于當(dāng)前世代生成下一世代包括基于個體選擇機制從新的個體中選擇適應(yīng)度評價函數(shù)取值滿足第一閾值的個體,將滿足第一閾值的個體保存在下一世代中,對于適應(yīng)度評價函數(shù)取值不滿足第一閾值但滿足第二閾值的個體通過進化算法對染色體中的基因進行基因突變,將基因突變后的染色體作為新的個體,將新的個體保存在下一世代中,對于適應(yīng)度評價函數(shù)取值不滿足第二閾值的個體進行重新初始化,將重新初始化后的個體保存在下一世代中,
10、s2.4分別計算下一世代中個體的適應(yīng)度評價函數(shù)的取值,根據(jù)個體的適應(yīng)度評價函數(shù)的取值計算狀態(tài)指示向量,并判斷當(dāng)前狀態(tài)指示向量是否為最優(yōu)狀態(tài)指示向量,是則將所述最優(yōu)狀態(tài)指示向量記為α*,并執(zhí)行s2.6;否則執(zhí)行s2.5;
11、s2.5返回s2.3,重新生成下一世代,直到獲取最優(yōu)狀態(tài)指示向量并記為α*,
12、s2.6基于通道注意力機制對每一卷積層中的各通道的重要性進行評價,并將評價結(jié)果表示為γ;
13、s2.7計算γ和α*的歐式距離,根據(jù)歐式距離對γ進行調(diào)整,并根據(jù)設(shè)定的第三閾值判斷是否得到了最優(yōu)評價結(jié)果γ*,是則將所述最優(yōu)評價結(jié)果記為γ*,并執(zhí)行s2.8;否則返回執(zhí)行s2.6;
14、s2.8根據(jù)最優(yōu)狀態(tài)指示向量α*和最優(yōu)評價結(jié)果γ*確定卷積層數(shù)和通道數(shù),根據(jù)確定的卷積層數(shù)和通道數(shù)構(gòu)建基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型。
15、優(yōu)選地,所述s3包括
16、s3.1將基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型編碼為種群中的個體,每個個體的模型結(jié)構(gòu)都是相同的,但是攜帶的學(xué)習(xí)率不同,
17、s3.2初始化種群,按照η=η*(1+λ)的方式初始化個體學(xué)習(xí)率,其中η是基礎(chǔ)學(xué)習(xí)率,λ是在(-0.01,0.01)范圍中取的隨機數(shù),
18、s3.3定義適應(yīng)度評價函數(shù),所述適應(yīng)度評價函數(shù)為計算個體的準(zhǔn)確率,并將個體的準(zhǔn)確率作為其適應(yīng)度值,其中基于待分類圖像數(shù)據(jù)集計算個體的準(zhǔn)確率,
19、s3.4定義進化機制,所述進化機制用于模擬交叉和變異操作,所述模擬交叉和變異操包括一部分個體的學(xué)習(xí)率,通過計算兩個適應(yīng)度取值滿足閾值的個體的學(xué)習(xí)率均值獲得;一部分個體的學(xué)習(xí)率通過在適應(yīng)度取值滿足閾值的個體的基礎(chǔ)上進行隨機擾動獲得;一部分個體的學(xué)習(xí)率通過隨機初始化獲得,其中每一部分的個體通過隨機選擇進行獲取,
20、s3.5定義選擇機制,根據(jù)選擇機制選擇個體,其中根據(jù)選擇機制選擇個體為每個世代根據(jù)適應(yīng)度評價函數(shù)的取值選擇5%的個體保存,選擇6%-20%的個體通過進化產(chǎn)生新的個體,剩余個體重新初始化,
21、s3.6種群的每個世代先對每個個體進行訓(xùn)練,然后計算個體的適應(yīng)度評價函數(shù)值;按照選擇機制篩選個體,按照進化機制實現(xiàn)種群進化,直到達到終止條件,將達到終止條件的超參數(shù)作為基礎(chǔ)卷積神經(jīng)網(wǎng)絡(luò)模型的超參數(shù)。
22、優(yōu)選地,所述個體選擇機制為精英選擇機制。
23、優(yōu)選地,所述選擇機制為錦標(biāo)賽選擇機制。
24、本發(fā)明提供一種面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)自適應(yīng)訓(xùn)練方法,從模型結(jié)構(gòu)和訓(xùn)練超參數(shù)兩方面出發(fā),完成模型的自適應(yīng)訓(xùn)練,即先自適應(yīng)調(diào)整網(wǎng)絡(luò)模型結(jié)構(gòu),然后再自適應(yīng)調(diào)整網(wǎng)絡(luò)模型訓(xùn)練參數(shù),降低了網(wǎng)絡(luò)模型調(diào)參的難度,減少了人工干預(yù)和試錯成本,并提高了訓(xùn)練效率和準(zhǔn)確性;本發(fā)明從網(wǎng)絡(luò)模型的深度和寬度兩方面考慮,調(diào)整網(wǎng)絡(luò)模型結(jié)構(gòu);借助進化算法對模型的結(jié)構(gòu)和超參數(shù)進行調(diào)整,使得模型具有良好的適應(yīng)性和魯棒性,引入了注意力機制,幫助縮短進化算法所需的探索時間,在有效時間內(nèi)得到較優(yōu)解。