本技術(shù)涉及數(shù)字信息傳輸領(lǐng)域,特別是涉及一種加密網(wǎng)站流量抗噪識(shí)別方法、系統(tǒng)、設(shè)備、介質(zhì)及產(chǎn)品。
背景技術(shù):
1、網(wǎng)站流量識(shí)別是一種能夠有效應(yīng)對(duì)隱私增強(qiáng)技術(shù)的手段。隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)在網(wǎng)站流量識(shí)別領(lǐng)域的應(yīng)用,網(wǎng)站流量識(shí)別技術(shù)得到了飛速發(fā)展。然而現(xiàn)階段對(duì)網(wǎng)站流量識(shí)別的研究仍然存在設(shè)置上的不合理。在現(xiàn)有對(duì)網(wǎng)站流量識(shí)別的研究中,大多數(shù)研究人員都會(huì)在“無(wú)背景噪聲”的假設(shè)下開展研究,以簡(jiǎn)化研究課題的難度和明確研究目標(biāo)。而在實(shí)際網(wǎng)絡(luò)環(huán)境中,尤其是在tls/ssl網(wǎng)絡(luò)環(huán)境下,背景噪聲往往是存在的,這顯著地降低了基于此類假設(shè)的研究成果在應(yīng)用時(shí)的預(yù)測(cè)準(zhǔn)確率,限制了研究成果的應(yīng)用和部署。如在tls/ssl網(wǎng)絡(luò)環(huán)境下背景噪聲流量存在時(shí),進(jìn)行有效的網(wǎng)站流量識(shí)別,對(duì)于推行網(wǎng)站流量識(shí)別技術(shù)在tls/ssl網(wǎng)絡(luò)環(huán)境下的部署和應(yīng)用來(lái)說(shuō),是一個(gè)不容忽視的問(wèn)題。
2、目前網(wǎng)站流量識(shí)別技術(shù)主要包括基于機(jī)器學(xué)習(xí)的網(wǎng)站流量識(shí)別方法和基于深度學(xué)習(xí)的網(wǎng)站流量識(shí)別方法?;跈C(jī)器學(xué)習(xí)的網(wǎng)站流量識(shí)別方法主要通過(guò)構(gòu)建對(duì)流量數(shù)據(jù)敏感的特征分類器進(jìn)行流量識(shí)別,通常這些方法會(huì)利用監(jiān)督式的機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(support?vector?machine,svm),k最近鄰(k-nearestneighbor,knn)等,這些方法的關(guān)鍵在于需要從特征工程的加密流量中提取能夠完成分類任務(wù)的流量特征,機(jī)器學(xué)習(xí)的網(wǎng)站流量識(shí)別方法面臨的挑戰(zhàn)包括需要大量的人工進(jìn)行特征篩選,以選擇出最有效的特征組合,這對(duì)專家的專業(yè)知識(shí)和數(shù)據(jù)分析技能都是非常大的考驗(yàn)。其次是人工選擇的特征組合魯棒性不強(qiáng),無(wú)法應(yīng)對(duì)各種各樣的場(chǎng)景。
3、采用深度學(xué)習(xí)技術(shù)實(shí)施網(wǎng)站流量識(shí)別的方法主要可以分為基于傳統(tǒng)深度學(xué)習(xí)技術(shù)的網(wǎng)站流量識(shí)別和基于圖表示的網(wǎng)站流量識(shí)別技術(shù)。
4、基于傳統(tǒng)深度學(xué)習(xí)的網(wǎng)站流量識(shí)別方法主要包括從側(cè)信道提取網(wǎng)站指紋的流量識(shí)別方法以及直接從加密載荷提取網(wǎng)站指紋的方法。從側(cè)信道提取網(wǎng)站指紋的研究人員認(rèn)為流量的加密過(guò)程只加密了用戶傳輸?shù)妮d荷信息,而對(duì)于數(shù)據(jù)包首部的側(cè)信道信息并沒(méi)有進(jìn)行加密,借助不同網(wǎng)站在側(cè)信道信息上表現(xiàn)出來(lái)的差異,可以實(shí)現(xiàn)對(duì)不同網(wǎng)站的識(shí)別任務(wù)。采用加密載荷提取特征的研究人員認(rèn)為,側(cè)信道信息會(huì)隨著網(wǎng)絡(luò)用戶使用的設(shè)備以及網(wǎng)絡(luò)狀況的不同而發(fā)生改變,這將會(huì)導(dǎo)致基于側(cè)信道的網(wǎng)站流量識(shí)別在泛用性上表現(xiàn)較差。而加密載荷并不會(huì)隨著網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)設(shè)備的不同而發(fā)生較大地波動(dòng)和改變,所以從加密載荷中提取到的網(wǎng)站指紋具有更高的魯棒性?;趥鹘y(tǒng)深度學(xué)習(xí)的網(wǎng)站流量識(shí)別技術(shù)在近些年的網(wǎng)站流量識(shí)別技術(shù)研究當(dāng)中已經(jīng)成為主流。深度學(xué)習(xí)技術(shù)的黑盒特性是當(dāng)前基于深度學(xué)習(xí)技術(shù)的網(wǎng)站流量識(shí)別面臨的主要挑戰(zhàn),黑盒特性使得深度學(xué)習(xí)技術(shù)提取到的網(wǎng)站指紋難以解釋。
5、圖表示方法是一種采用非歐幾何數(shù)據(jù)結(jié)構(gòu)表示對(duì)象本身和對(duì)象之間聯(lián)系的方法,其在數(shù)據(jù)化表達(dá)現(xiàn)實(shí)場(chǎng)景時(shí),擁有傳統(tǒng)歐式空間幾何無(wú)法比擬的優(yōu)越性。在網(wǎng)站流量識(shí)別領(lǐng)域,采用圖表示加密流量并采用圖神經(jīng)技術(shù)實(shí)現(xiàn)網(wǎng)站流量識(shí)別逐漸成為研究熱點(diǎn)之一。然而,在采用圖結(jié)構(gòu)表示加密流量的方式上目前仍然難以做到統(tǒng)一。
6、在針對(duì)含有背景噪聲的數(shù)據(jù)流量進(jìn)行網(wǎng)站流量識(shí)別的研究當(dāng)中,wang等人提出了采用基于記數(shù)和基于分類兩種解決方法,然而實(shí)驗(yàn)結(jié)果表明這兩種方案在分離噪聲的同時(shí)也刪除了大量的非噪聲數(shù)據(jù)節(jié)點(diǎn),這說(shuō)明采用凈化加密流量的方法根本無(wú)法完成有效的抗噪聲網(wǎng)站流量識(shí)別。
7、以上提到的網(wǎng)站流量識(shí)別方法當(dāng)中,大多是在無(wú)背景噪聲的前提假設(shè)下開展的,雖然wang等人考慮到了背景噪聲的存在,然而并沒(méi)有提出非常有效的解決方法。在現(xiàn)實(shí)的網(wǎng)絡(luò)環(huán)境下,由于大量的網(wǎng)絡(luò)應(yīng)用使用tls/ssl加密流量傳輸數(shù)據(jù),背景噪聲問(wèn)題幾乎難以避免。因此提供一種在有背景噪聲的前提,能夠?qū)嵤┯行У木W(wǎng)站流量識(shí)別的方法或系統(tǒng)成為本領(lǐng)域亟待解決的一個(gè)技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的是提供一種加密網(wǎng)站流量抗噪識(shí)別方法、系統(tǒng)、設(shè)備、介質(zhì)及產(chǎn)品,能夠在有背景噪聲的前提,有效實(shí)施網(wǎng)站流量的識(shí)別。
2、為實(shí)現(xiàn)上述目的,本技術(shù)提供了如下方案:
3、第一方面,本技術(shù)提供了一種加密網(wǎng)站流量抗噪識(shí)別方法,包括:
4、獲取用戶訪問(wèn)網(wǎng)站時(shí)產(chǎn)生的加密流量,并按照設(shè)定規(guī)則將所述加密流量保存成包含多個(gè)數(shù)據(jù)包的pcap文件;
5、對(duì)所述pcap文件中的數(shù)據(jù)包進(jìn)行清洗,得到清洗后的加密流量;
6、基于pcap文件中數(shù)據(jù)包的五元組信息對(duì)清洗后的加密流量進(jìn)行數(shù)據(jù)流重組,得到多條數(shù)據(jù)流;所述五元組信息包括源ip、目的ip、源端口、目的端口和協(xié)議類型;
7、分別對(duì)每條數(shù)據(jù)流中的每一數(shù)據(jù)包進(jìn)行網(wǎng)站特征提取,得到網(wǎng)站指紋提取結(jié)果;
8、基于所述網(wǎng)站指紋提取結(jié)果生成圖結(jié)構(gòu)數(shù)據(jù);
9、對(duì)所述圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行圖分類任務(wù),并根據(jù)分類結(jié)果完成對(duì)用戶訪問(wèn)站點(diǎn)的預(yù)測(cè)。
10、可選地,對(duì)所述pcap文件中的數(shù)據(jù)包進(jìn)行清洗,得到清洗后的加密流量,具體包括:
11、確定pcap文件中數(shù)據(jù)包的類型,并刪除類型是局域網(wǎng)環(huán)境產(chǎn)生的數(shù)據(jù)包,保留類型是tls加密流量的數(shù)據(jù)包,得到清洗后的pcap文件;
12、保留清洗后的pcap文件中的前1024個(gè)數(shù)據(jù)包;
13、基于保留的前1024個(gè)數(shù)據(jù)包生成清洗后的加密流量。
14、可選地,分別對(duì)每條數(shù)據(jù)流中的每一數(shù)據(jù)包進(jìn)行網(wǎng)站特征提取,得到網(wǎng)站指紋提取結(jié)果,具體包括:
15、采用0字節(jié)填充每條數(shù)據(jù)流中的敏感信息;所述敏感信息包括:源ip、目的ip、源端口、目的端口和服務(wù)器名稱指示;
16、將填充敏感信息后的每條數(shù)據(jù)流中每一數(shù)據(jù)包的前256個(gè)字節(jié)轉(zhuǎn)化成二進(jìn)制數(shù)值;
17、將二進(jìn)制數(shù)值作為網(wǎng)站指紋提取結(jié)果,根據(jù)每條數(shù)據(jù)流中數(shù)據(jù)包的傳輸方向保存每個(gè)數(shù)據(jù)包的傳輸方向信息。
18、可選地,基于pcap文件中數(shù)據(jù)包的五元組信息對(duì)清洗后的加密流量進(jìn)行數(shù)據(jù)流重組,得到多條數(shù)據(jù)流,具體包括:
19、將所述五元組信息中的源ip調(diào)整為本地用戶的地址,將源端口調(diào)整為本地用戶的端口,將目標(biāo)ip調(diào)整為服務(wù)器的地址以及將目標(biāo)端口調(diào)整為服務(wù)器的端口,得到調(diào)整后的五元組信息;
20、將調(diào)整后的五元組信息作為數(shù)據(jù)流標(biāo)識(shí),并依據(jù)所述數(shù)據(jù)流標(biāo)識(shí)將清洗后的加密流量劃分為多個(gè)pcap數(shù)據(jù)流文件,以得到多條數(shù)據(jù)流。
21、可選地,基于所述網(wǎng)站指紋提取結(jié)果生成圖結(jié)構(gòu)數(shù)據(jù),具體包括:
22、針對(duì)每條數(shù)據(jù)流,將數(shù)據(jù)流中的數(shù)據(jù)包作為節(jié)點(diǎn),按照數(shù)據(jù)流中數(shù)據(jù)包的傳輸方向設(shè)置有向邊,并根據(jù)數(shù)據(jù)流的突發(fā)關(guān)系,采用所述有向邊連接首節(jié)點(diǎn)和末尾節(jié)點(diǎn),得到初始圖結(jié)構(gòu);
23、針對(duì)清洗后的加密流量,在所述初始圖結(jié)構(gòu)中增加一個(gè)虛擬主節(jié)點(diǎn);
24、在所述虛擬主節(jié)點(diǎn)與數(shù)據(jù)流的第一個(gè)數(shù)據(jù)包間建立有向邊,得到所述圖結(jié)構(gòu)數(shù)據(jù)。
25、可選地,對(duì)所述圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行圖分類任務(wù),并根據(jù)分類結(jié)果完成對(duì)用戶訪問(wèn)站點(diǎn)的預(yù)測(cè),具體包括:
26、針對(duì)每條數(shù)據(jù)流對(duì)應(yīng)的圖結(jié)構(gòu)數(shù)據(jù),通過(guò)自編碼器從節(jié)點(diǎn)載荷當(dāng)中獲取節(jié)點(diǎn)特征,節(jié)點(diǎn)的連接關(guān)系不變,形成新的加密流量特征圖,并采用解碼器限制所述新的加密流量特征圖的信息,得到新的加密流量的圖表示;
27、針對(duì)新的加密流量的圖表示進(jìn)行圖級(jí)別的特征提取,獲得整個(gè)加密流量的全圖特征;
28、采用兩層全連接層作為分類器對(duì)所述全圖特征進(jìn)行分類,得到分類結(jié)果,并并根據(jù)分類結(jié)果完成對(duì)用戶訪問(wèn)站點(diǎn)的預(yù)測(cè)。
29、第二方面,本技術(shù)提供了一種加密網(wǎng)站流量抗噪識(shí)別系統(tǒng),包括:
30、流量采集裝置,用于獲取用戶訪問(wèn)網(wǎng)站時(shí)產(chǎn)生的加密流量,并按照設(shè)定規(guī)則將所述加密流量保存成包含多個(gè)數(shù)據(jù)包的pcap文件;
31、流量清洗裝置,與所述流量采集裝置連接,用于對(duì)所述pcap文件中的數(shù)據(jù)包進(jìn)行清洗,得到清洗后的加密流量;
32、流量重組裝置,與所述流量清洗裝置連接,用于基于pcap文件中數(shù)據(jù)包的五元組信息對(duì)清洗后的加密流量進(jìn)行數(shù)據(jù)流重組,得到多條數(shù)據(jù)流;所述五元組信息包括源ip、目的ip、源端口、目的端口和協(xié)議類型;
33、網(wǎng)站指紋提取裝置,與流量重組裝置連接,用于分別對(duì)每條數(shù)據(jù)流中的每一數(shù)據(jù)包進(jìn)行網(wǎng)站特征提取,得到網(wǎng)站指紋提取結(jié)果;
34、網(wǎng)站預(yù)測(cè)裝置,與所述網(wǎng)站指紋提取裝置連接,用于基于所述網(wǎng)站指紋提取結(jié)果生成圖結(jié)構(gòu)數(shù)據(jù),并對(duì)所述圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行圖分類任務(wù),并根據(jù)分類結(jié)果完成對(duì)用戶訪問(wèn)站點(diǎn)的預(yù)測(cè)。
35、第三方面,本技術(shù)提供了一種計(jì)算機(jī)設(shè)備,包括:存儲(chǔ)器、處理器以及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)上述中任一項(xiàng)所述的加密網(wǎng)站流量抗噪識(shí)別方法的步驟。
36、第四方面,本技術(shù)提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述中任一項(xiàng)所述的加密網(wǎng)站流量抗噪識(shí)別方法的步驟。
37、第五方面,本技術(shù)提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述中任一項(xiàng)所述的加密網(wǎng)站流量抗噪識(shí)別方法的步驟。
38、根據(jù)本技術(shù)提供的具體實(shí)施例,本技術(shù)公開了以下技術(shù)效果:
39、本技術(shù)提供了一種加密網(wǎng)站流量抗噪識(shí)別方法、系統(tǒng)、設(shè)備、介質(zhì)及產(chǎn)品,通過(guò)對(duì)生成的pcap文件中的數(shù)據(jù)包進(jìn)行清洗,得到清洗后的加密流量,能夠盡可能縮小采集到的加密流量的容量,減少無(wú)關(guān)流量對(duì)網(wǎng)站流量識(shí)別的干擾;通過(guò)基于pcap文件中數(shù)據(jù)包的五元組信息對(duì)清洗后的加密流量進(jìn)行數(shù)據(jù)流重組,得到多條數(shù)據(jù)流,考慮了加密流量的數(shù)據(jù)流信息(即噪聲的表現(xiàn)),并對(duì)每條數(shù)據(jù)流中的每一數(shù)據(jù)包進(jìn)行網(wǎng)站特征提取,得到網(wǎng)站指紋提取結(jié)果,基于網(wǎng)站指紋提取結(jié)果生成圖結(jié)構(gòu)數(shù)據(jù),充分降低了噪聲流量帶來(lái)的影響,進(jìn)而對(duì)圖結(jié)構(gòu)數(shù)據(jù)進(jìn)行圖分類任務(wù),并根據(jù)分類結(jié)果完成對(duì)用戶訪問(wèn)站點(diǎn)的預(yù)測(cè),有效實(shí)施了網(wǎng)站流量的識(shí)別。