本發(fā)明屬于網(wǎng)絡(luò)安全,具體涉及一種用于小樣本惡意流量分類的輕量化模型設(shè)計方法。
背景技術(shù):
1、大數(shù)據(jù)時代的到來伴隨著網(wǎng)絡(luò)流量井噴式增長,惡意程序產(chǎn)生的惡意流量混雜其中,危害著網(wǎng)絡(luò)安全。惡意流量分類能夠?qū)阂饬髁颗c其生成程序的惡意家族相關(guān)聯(lián),作為網(wǎng)絡(luò)惡意資源檢測任務(wù)的第一步,一直被廣泛關(guān)注。隨著加密技術(shù)的廣泛使用,傳統(tǒng)流量分類方法包括基于端口的方法、有效載荷檢查技術(shù)以及基于機(jī)器學(xué)習(xí)的方法,由于受先驗(yàn)知識的限制效果不佳。近年來,深度學(xué)習(xí)方法在各個領(lǐng)域被廣泛研究,一些端到端的深度學(xué)習(xí)模型,能夠?qū)⑻卣鞴こ膛c模型訓(xùn)練結(jié)合成一個整體,直接從原始輸入中學(xué)習(xí)特征,更適合處理加密數(shù)據(jù)。因此基于深度學(xué)習(xí)的流量分類技術(shù)也不斷發(fā)展成為惡意流量分類問題的重要解決方法。
2、然而,有兩個問題阻礙了深度學(xué)習(xí)在惡意流量分類領(lǐng)域的應(yīng)用。首先基于深度學(xué)習(xí)的方法依賴大量數(shù)據(jù)驅(qū)動,而惡意流量隱蔽性強(qiáng),更新速度快,導(dǎo)致能夠捕獲的惡意流量體量小且數(shù)據(jù)標(biāo)簽難以準(zhǔn)確標(biāo)注,這在學(xué)術(shù)領(lǐng)域稱之為小樣本問題,小樣本問題常導(dǎo)致深度學(xué)習(xí)模型訓(xùn)練不充分,分類準(zhǔn)確率低。其次,當(dāng)前深度學(xué)習(xí)模型逐漸趨于大模型方向,需要充足的存儲和計算資源支撐訓(xùn)練。例如,經(jīng)典的流量分類模型deeppacket有超過3000萬個參數(shù),需要多達(dá)21億次計算,這使得基于深度學(xué)習(xí)訓(xùn)練的模型對部署環(huán)境及設(shè)備的要求比較高。然而,一些邊緣性網(wǎng)絡(luò)設(shè)備(如路由器),可用的計算資源有限,難以滿足深度學(xué)習(xí)所需資源。同時由于大模型帶來的與目標(biāo)任務(wù)不成比例的計算量,其與近實(shí)時分類的需求(如對于延遲敏感的流量)相沖突。因此,輕量化小樣本惡意流量分類模型設(shè)計方法的研究具有顯著意義。
3、事實(shí)上,對于上述任一問題的研究都伴隨著一個不可忽視的問題,即模型泛化問題。豐富的訓(xùn)練數(shù)據(jù)量使得模型能夠關(guān)注到特征的多樣性,然而使用小樣本數(shù)據(jù)訓(xùn)練模型時,由于對錯誤項(xiàng)的懲罰系數(shù)高,容易導(dǎo)出一個過擬合的模型,在應(yīng)用其他任務(wù)時準(zhǔn)確性不佳。輕量化模型旨在不影響準(zhǔn)確率的情況下最大限度的去除對于當(dāng)前任務(wù)無關(guān)的模型結(jié)構(gòu),這導(dǎo)致一些提取基本特征的神經(jīng)元被去除,使得輕量化后的模型結(jié)構(gòu)僅適用于當(dāng)前任務(wù)。以上兩種目標(biāo)特性使得小樣本任務(wù)中輕量化模型泛化性問題的解決成為挑戰(zhàn)。
4、基于深度遷移學(xué)習(xí)的小樣本流量分類:自深度網(wǎng)絡(luò)的可遷移性被證實(shí)后,針對小樣本分類任務(wù),歸納遷移學(xué)習(xí)成為一個有前途的框架。它利用預(yù)訓(xùn)練的源模型(通常為大數(shù)據(jù)集訓(xùn)練出的大模型),遷移其提取源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集共同特征的部分網(wǎng)絡(luò)參數(shù),使用目標(biāo)數(shù)據(jù)集微調(diào)剩余參數(shù),得到適用于目標(biāo)數(shù)據(jù)集的模型,方法通過遷移源模型參數(shù)上并進(jìn)行微調(diào)來減少對目標(biāo)數(shù)據(jù)集量的需求。不斷有研究人員針對流量數(shù)據(jù)的特性使用深度遷移學(xué)習(xí)來解決小樣本流量分類問題。idriss等人(accelerating?the?update?of?a?dl-based?ids?for?iot?using?deep?transfer?learning[j].indones.j.electr.eng.comput.sci.,2021,23(2):1059-1067)將遷移學(xué)習(xí)方法應(yīng)用到入侵檢測系統(tǒng)中,更新了基于深度學(xué)習(xí)的入侵檢測系統(tǒng)(dl-ids)的解決方案,該方法在檢測率等多個指標(biāo)上取得了良好的效果。eva等人(transfer-learning-based?intrusion?detection?framework?in?iotnetworks.sensors.22,5621)提出了一種基于遷移學(xué)習(xí)、知識遷移和模型細(xì)化的高效入侵檢測框架。該框架適用于具有不平衡和稀缺的標(biāo)記數(shù)據(jù)集5g物聯(lián)網(wǎng)場景。實(shí)驗(yàn)證明,該方法實(shí)現(xiàn)了高精度和低錯誤預(yù)測率。與以往任何基于深度學(xué)習(xí)的入侵檢測系統(tǒng)相比,所提出的解決方案對已知和零日攻擊的不同系列具有更好的檢測率。
5、模型輕量化:隨著深度學(xué)習(xí)的不斷發(fā)展,神經(jīng)網(wǎng)絡(luò)的龐大結(jié)構(gòu)逐漸無法與邊緣設(shè)備資源匹配,輕量化小樣本分類模型的需求被提出。近年來,研究人員提出了很多方法來輕量化模型,包括低秩分解、知識提取、量化和剪枝等。對于遷移模型輕量化來說,應(yīng)該尋找遷移過程針對目標(biāo)任務(wù)出現(xiàn)的冗余的模型結(jié)構(gòu),有選擇的進(jìn)行模型“瘦身”,而非壓縮模型,精準(zhǔn)的模型結(jié)構(gòu)對于模型能夠提供的分類準(zhǔn)確率也具有一定的意義。因此,對于輕量化遷移模型,剪枝方法具有一定的參考性。模型剪枝通過一定方法篩選出對分類任務(wù)貢獻(xiàn)性高的神經(jīng)元,剪去冗余神經(jīng)元的方式得到新的模型結(jié)構(gòu),使用目標(biāo)數(shù)據(jù)集微調(diào)模型便可達(dá)到輕量化目的。當(dāng)前在惡意流量分類領(lǐng)域基于剪枝的模型輕量化方法研究較少。liu等人("learning?efficient?convolutional?networks?through?network?slimming,"2017ieeeinternational?conference?on?computer?vision(iccv),venice,italy,2017,pp.2755-2763)率先提出了一種輕量化方法稱作網(wǎng)絡(luò)瘦身,以簡單而有效的方法強(qiáng)制通道級稀疏性來實(shí)現(xiàn)。該方法在幾種最先進(jìn)的圖像領(lǐng)域cnn模型上進(jìn)行實(shí)驗(yàn),證明了其有效性,對于vggnet,該方法使模型尺寸減少了約20倍,計算操作減少了5倍。隨后,liao等人("convolution?filter?pruning?for?transfer?learning?on?small?dataset,"2020international?computer?symposium(ics),2020,pp.79-84)提出一種方案,對于小樣本分類模型減少預(yù)訓(xùn)練的全尺寸模型大小。該方案結(jié)合了模型壓縮和遷移學(xué)習(xí),構(gòu)造了一個簡化的自定義模型。實(shí)驗(yàn)表明,在對60%的網(wǎng)絡(luò)進(jìn)行剪枝處理時,使用該方案,在圖片數(shù)據(jù)集flowers-102的準(zhǔn)確率下降不到2%。
6、當(dāng)前基于遷移學(xué)習(xí)的分類方法,大多數(shù)默認(rèn)訓(xùn)練遷移模型的源數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集之間的數(shù)據(jù)差異性不大,在此假設(shè)下,相似度高的數(shù)據(jù)集之間一般具有相同的基礎(chǔ)特征,將遷移模型用以提取基礎(chǔ)特征的淺層網(wǎng)絡(luò)參數(shù)直接復(fù)制是有益的。然而,流量數(shù)據(jù)集間相似性判別方法有待挖掘,若數(shù)據(jù)集相關(guān)性低,直接遷移源模型的部分參數(shù)容易產(chǎn)生負(fù)遷移效果,源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的相關(guān)性成為限制模型準(zhǔn)確率的因素。因此,針對基于遷移學(xué)習(xí)的小樣本惡意流量分類任務(wù),需要更有效的方法選取在模型遷移過程中應(yīng)該被保留的參數(shù)。
7、其次,傳統(tǒng)的彩票假說普遍認(rèn)為,一個大參數(shù)量的網(wǎng)絡(luò),包含良好的稀疏子網(wǎng)的可能性就大,對于小樣本分類任務(wù),遷移學(xué)習(xí)取得良好效益基于微調(diào)后的遷移網(wǎng)絡(luò)包含適用于目標(biāo)小樣本數(shù)據(jù)分類的良好稀疏子網(wǎng)。而小樣本數(shù)據(jù)集與遷移模型的復(fù)雜度常處于一種高度不匹配的情況,因此對遷移模型中針對目標(biāo)小樣本任務(wù)冗余結(jié)構(gòu)的修剪,能夠提供更好的模型性能。
8、針對剪枝任務(wù),剪枝的效果依賴于對冗余神經(jīng)元的準(zhǔn)確判斷,這就要求訓(xùn)練后的模型神經(jīng)元權(quán)重與目標(biāo)分類任務(wù)成正相關(guān)。而傳統(tǒng)遷移方式中,淺層網(wǎng)絡(luò)的參數(shù)直接復(fù)制源網(wǎng)絡(luò),僅深層網(wǎng)絡(luò)是經(jīng)由目標(biāo)數(shù)據(jù)集微調(diào)的。將淺層網(wǎng)絡(luò)神經(jīng)元依照源網(wǎng)絡(luò)訓(xùn)練結(jié)果剪枝可能導(dǎo)致剪去所謂的“冗余神經(jīng)元”后,模型對于目標(biāo)任務(wù)分類準(zhǔn)確率下降。因此,需要一個更合理的方法對遷移網(wǎng)絡(luò)的神經(jīng)元重要性排序。
9、再次,當(dāng)前大多數(shù)流量分類模型,由卷積神經(jīng)網(wǎng)絡(luò)和全連接層構(gòu)成,而剪枝多是針對卷積層神經(jīng)元的“瘦身”,將結(jié)構(gòu)優(yōu)化后的卷積層網(wǎng)絡(luò)與原始全連接層進(jìn)行拼接,這種方法依然保留了參數(shù)量龐大的全連接層。這是由于全連接層每個神經(jīng)元都與上層所有神經(jīng)元相連,對于樣本使用全局信息,其全相連的特性使得難以對其進(jìn)行結(jié)構(gòu)重塑。因此,對于全連接層結(jié)構(gòu)的優(yōu)化成為輕量化模型的挑戰(zhàn)性問題之一。
技術(shù)實(shí)現(xiàn)思路
1、為了解決當(dāng)前小樣本惡意流量分類任務(wù)中對于準(zhǔn)確、輕量且具有泛化性模型的需求,本發(fā)明提出了一種用于小樣本惡意流量分類的輕量化模型設(shè)計方法,包括如下步驟:
2、步驟一、源模型構(gòu)建及訓(xùn)練:設(shè)計一種基于全卷積神經(jīng)網(wǎng)絡(luò)的模型作為遷移學(xué)習(xí)的源模型,使用大型數(shù)據(jù)集訓(xùn)練源模型以得到針對分類任務(wù)良好的模型參數(shù);
3、步驟二、源模型分步遷移:將源模型的淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)分別作為公共特征提取器和私有特征提取器進(jìn)行遷移和微調(diào),公共特征提取器的微調(diào)目標(biāo)為生成能夠提取源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集的公共特征,同時該特征作為分辨目標(biāo)小樣本任務(wù)的有益特征,使用源數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集共同指導(dǎo)微調(diào);私有特征提取器以提取目標(biāo)任務(wù)的高級特征為目標(biāo),使用目標(biāo)數(shù)據(jù)集進(jìn)行微調(diào);
4、步驟三、遷移模型剪枝:在公共特征提取器和私有特征提取器遷移完成后,在微調(diào)后的模型上對神經(jīng)元重要性排序并進(jìn)行模型剪枝,使用目標(biāo)數(shù)據(jù)集對新模型結(jié)構(gòu)進(jìn)行重塑,以得到最終的小樣本惡意流量分類輕量化模型。
5、進(jìn)一步地,在步驟一中,設(shè)計的源模型為一個端到端的全卷積神經(jīng)網(wǎng)絡(luò)模型,使用一維cnn作為神經(jīng)網(wǎng)絡(luò)主干架構(gòu),一維cnn能夠捕獲網(wǎng)絡(luò)數(shù)據(jù)包中字節(jié)間的依賴關(guān)系,找到不同類別的鑒別方式,源模型由多層一維卷積層和多層最大池化層組成,每一層卷積層后都添加一層bn層,經(jīng)過bn層處理后的特征將被輸入到relu激活函數(shù)層;同時,使用兩層卷積層代替全連接層,卷積層中的神經(jīng)元只與輸入數(shù)據(jù)中的一個局部區(qū)域連接,并且與卷積列中的神經(jīng)元共享參數(shù)。
6、進(jìn)一步地,所述一維卷積層為10層,所述最大池化層為7層,所述最大池化層步長設(shè)置為2,卷積層在淺層和深層分別使用200和100個神經(jīng)元處理輸入數(shù)據(jù),其中每個神經(jīng)元的尺寸為[6,1],每個神經(jīng)元在一次卷積運(yùn)算后移動1步。
7、進(jìn)一步地,在步驟二中,
8、對于公有特征提取器,使用預(yù)訓(xùn)練網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)提取特征,將樣本的域分類作為網(wǎng)絡(luò)的分類任務(wù)1,引入梯度翻轉(zhuǎn)層,對于淺層網(wǎng)絡(luò)提取特征函數(shù)f(x),x為流量樣本,梯度反轉(zhuǎn)層形式上表示為:
9、
10、同時,構(gòu)建分類任務(wù)2,目標(biāo)是得出源域和目標(biāo)域中樣本對應(yīng)分類標(biāo)簽的預(yù)測結(jié)果,網(wǎng)絡(luò)的最終訓(xùn)練目標(biāo)是減少如下?lián)p失:
11、
12、其中,是控制損失項(xiàng)相互作用的參數(shù),為損失函數(shù),為分類任務(wù)1的損失項(xiàng),為分類任務(wù)2的損失項(xiàng),在兩個損失項(xiàng)的作用下,損失函數(shù)輸出網(wǎng)絡(luò)當(dāng)前參數(shù)對于域分類和樣本類別分類的共同損失,進(jìn)行反向傳播,指導(dǎo)網(wǎng)絡(luò)進(jìn)行參數(shù)調(diào)整,以提取有益的公共特征。
13、對于私有特征提取器:凍結(jié)微調(diào)好的公有特征提取器參數(shù),使其能夠直接輸出公共特征,使用目標(biāo)數(shù)據(jù)集微調(diào)遷移網(wǎng)絡(luò)的剩余層作為私有特征提取器,最小化每個目標(biāo)數(shù)據(jù)集樣本y與預(yù)測值的差距,損失函數(shù)被定義為:
14、
15、式中,dt為目標(biāo)數(shù)據(jù)。
16、進(jìn)一步地,在步驟三中,具體包括:
17、對于公有特征提取器,獲取遷移后的網(wǎng)絡(luò)bn層γ參數(shù),按照閾值進(jìn)行剪枝,得到能夠提取出有效公共特征的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu);
18、對于私有特征提取器,獲取遷移后的網(wǎng)絡(luò)bn層γ參數(shù),按照閾值進(jìn)行剪枝,得到能夠提取出有效私有特征的最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu);
19、將兩個所述最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)整合,得到新網(wǎng)絡(luò)后,使用目標(biāo)數(shù)據(jù)集對新網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重塑。
20、進(jìn)一步地,在步驟三中,具體包括:利用bn層中的γ參數(shù)作為評價神經(jīng)元的指標(biāo),對所有bn層γ值進(jìn)行統(tǒng)計排序,獲取指定保留bn層數(shù)量,即取得排序后權(quán)重閾值,遍歷模型中的bn層γ值權(quán)重,制作各層掩碼,獲取非零值的索引,保留值為1的神經(jīng)元權(quán)重,根據(jù)掩碼構(gòu)建新模型結(jié)構(gòu),加載剪枝后模型,對新模型賦予剪枝后的權(quán)重,并進(jìn)行模型重塑。
21、不同于傳統(tǒng)的基于預(yù)訓(xùn)練微調(diào)的遷移方法,本發(fā)明根據(jù)淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)的不同特征提取目標(biāo)分別進(jìn)行模型遷移和微調(diào),以提升不同遷移網(wǎng)絡(luò)層對于目標(biāo)分類任務(wù)的擬合。針對輕量化任務(wù),提出一種適用于流量分類的一維全卷積神經(jīng)網(wǎng)絡(luò)作為源網(wǎng)絡(luò),通過分步剪枝捕捉冗余神經(jīng)元并剔除,從而降低模型復(fù)雜度。另外,針對模型對于小樣本數(shù)據(jù)過擬合導(dǎo)致模型泛化能力不足的問題,在對遷移模型進(jìn)行訓(xùn)練時,本發(fā)明通過尋找一種對于數(shù)據(jù)的基本表示來提升模型泛化能力。
22、本發(fā)明具有如下有益效果:
23、1、本發(fā)明提出了一種基于分步遷移和剪枝的小樣本惡意流量分類輕量化模型方法,使得遷移后的模型參數(shù)和模型結(jié)構(gòu)更加匹配目標(biāo)小樣本分類任務(wù)。
24、2、本發(fā)明設(shè)計了一個全卷積網(wǎng)絡(luò)作為遷移的源網(wǎng)絡(luò),并在此基礎(chǔ)上進(jìn)行分步剪枝,使得模型輕量化更加充分。
25、3、一種對抗學(xué)習(xí)的思想被引入模型淺層網(wǎng)絡(luò)的訓(xùn)練中,用以尋找訓(xùn)練源模型的數(shù)據(jù)集與目標(biāo)數(shù)據(jù)集之間的不變特征,使得模型在不同任務(wù)間能夠具有更好的泛化性。
26、4、本方法能夠在多個小樣本數(shù)據(jù)集上保持96%以上的分類準(zhǔn)確率,分類精度超過當(dāng)前主流的小樣本流量分類方法。在精度下降不超過1%的情況下,該方法減少了超過80%的模型參數(shù),且較其他輕量化方法更具泛化性。