本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤其涉及的是一種基于云服務(wù)的實(shí)時(shí)僵尸網(wǎng)絡(luò)檢測(cè)方法。
背景技術(shù):
僵尸網(wǎng)絡(luò)是指采用一種或多種傳播手段,將大量主機(jī)感僵尸程序病毒,從而在控制者和被感染主機(jī)之間所形成的一個(gè)可一對(duì)多控制的網(wǎng)絡(luò)。攻擊者通過(guò)各種途徑傳播僵尸程序感染互聯(lián)網(wǎng)上的大量主機(jī),而被感染的主機(jī)將通過(guò)一個(gè)控制信道接收攻擊者的指令,組成一個(gè)僵尸網(wǎng)絡(luò)。之所以用僵尸網(wǎng)絡(luò)這個(gè)名字,是為了更形象地讓人們認(rèn)識(shí)到這類危害的特點(diǎn):眾多的計(jì)算機(jī)在不知不覺(jué)中如同僵尸群一樣被人驅(qū)趕和指揮著,成為被人利用的一種工具。
根據(jù)《今日美國(guó)》報(bào)紙2008年的一篇報(bào)告稱,平均每天連接到互聯(lián)網(wǎng)的8億臺(tái)電腦中有40%的電腦是用來(lái)發(fā)送垃圾郵件、病毒和竊取敏感個(gè)人數(shù)據(jù)的僵尸電腦。如何快速和大批量的檢測(cè)僵尸網(wǎng)絡(luò)并進(jìn)行攔截已經(jīng)成為互聯(lián)網(wǎng)行業(yè)亟待解決的重要課題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供了一種基于云服務(wù)的實(shí)時(shí)僵尸網(wǎng)絡(luò)檢測(cè)方法。
本發(fā)明是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的:一種基于云服務(wù)的實(shí)時(shí)僵尸網(wǎng)絡(luò)檢測(cè)方法,其特征在于步驟如下:
步驟一、數(shù)據(jù)采集,通過(guò)數(shù)據(jù)采集系統(tǒng)采集硬件防火墻受到的攻擊行為的原始數(shù)據(jù),并上傳至ElasticSearch云系統(tǒng)儲(chǔ)存;
步驟二、數(shù)據(jù)分析,利用ElasticSearch云系統(tǒng),使用DBSCAN算法對(duì)步驟一中上傳至ElasticSearch云系統(tǒng)的數(shù)據(jù)進(jìn)行處理,將處理結(jié)果中數(shù)據(jù)中類別最多的一類數(shù)據(jù)定義為僵尸網(wǎng)絡(luò)類別,僵尸網(wǎng)絡(luò)類別的聚類數(shù)據(jù)稱為模板數(shù)據(jù),比對(duì)模板數(shù)據(jù)和原始數(shù)據(jù),獲得僵尸網(wǎng)絡(luò)類別的源IP數(shù)組;
步驟三、提取僵尸網(wǎng)絡(luò)類別的源IP數(shù)組中僵尸網(wǎng)絡(luò)肉機(jī)的IP地址,制作黑名單儲(chǔ)存于ElasticSearch云系統(tǒng)中;
步驟四、將ElasticSearch云系統(tǒng)中儲(chǔ)存的黑名單分發(fā)到硬件防火墻和數(shù)據(jù)采集系統(tǒng)。
作為對(duì)上述方案的進(jìn)一步改進(jìn),所述步驟一中,通過(guò)數(shù)據(jù)采集系統(tǒng)采集硬件防火墻受到的攻擊行為的原始數(shù)據(jù)的過(guò)程中,基于時(shí)間序列進(jìn)行抽樣,形成采樣樣本,采樣樣本中每個(gè)樣本的字段信息包括源IP地址,源PORT,目的IP地址,目的PORT,協(xié)議類型、采樣時(shí)間、數(shù)據(jù)大小和數(shù)據(jù)包內(nèi)容信息,其中除數(shù)據(jù)包內(nèi)容信息外其他參數(shù)均為數(shù)值型,數(shù)據(jù)包內(nèi)容信息為字符型數(shù)據(jù);
對(duì)數(shù)據(jù)包內(nèi)容信息進(jìn)行DJBhash計(jì)算,得到DJBhash值;
對(duì)采樣樣本的每個(gè)樣本的各個(gè)字段信息進(jìn)行Simhash計(jì)算,得到內(nèi)容Simhash值,記錄simhash值的二進(jìn)制數(shù)字段為該樣本的數(shù)據(jù)庫(kù)ID,Simhash值中1出現(xiàn)的個(gè)數(shù)為該樣本的類別標(biāo)志;
將DJBhash值、Simhash值和樣本的所有字段信息作為原始數(shù)據(jù)上傳至數(shù)據(jù)分析系統(tǒng)。
作為對(duì)上述方案的進(jìn)一步改進(jìn),所述步驟三中,提取類別標(biāo)識(shí)數(shù)字出現(xiàn)次數(shù)最多的三類樣本的源IP地址,去重后制作成黑名單儲(chǔ)存在ElasticSearch云系統(tǒng)中。
作為對(duì)上述方案的進(jìn)一步改進(jìn),在所述步驟二中,計(jì)算原始數(shù)據(jù)中每一個(gè)樣本和其他所有樣本之間的相似度,獲得全部相似度的集合后,按相似度大小升序排列,取相似度大小位于前10%的所有數(shù)值的均值作為DBSCAN算法的密度半徑,DBSCAN算法的樣本閾值取采樣樣本中所含字段數(shù)加1。
作為對(duì)上述方案的進(jìn)一步改進(jìn),所述相似度用海明距離表示。
作為對(duì)上述方案的進(jìn)一步改進(jìn),所述步驟三中,每隔1小時(shí)制作一次黑名單。
作為對(duì)上述方案的進(jìn)一步改進(jìn),所述步驟四,定期分發(fā)更新黑名單,更新頻率分為3個(gè)級(jí)別:1小時(shí)更新一次,12小時(shí)更新一次,24小時(shí)更新一次;當(dāng)防火墻被DDos一天之內(nèi)攻擊次數(shù)不大于1次,24小時(shí)更新一次,當(dāng)防火墻被DDos一天之內(nèi)攻擊次數(shù)為2~10次,12小時(shí)更新一次,當(dāng)防火墻被DDos一天之內(nèi)攻擊次數(shù)大于10次,1小時(shí)更新一次。
本發(fā)明相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn):利用ElasticSearch云遠(yuǎn)遠(yuǎn)超出單個(gè)服務(wù)器的計(jì)算和存儲(chǔ)能力處理海量采樣數(shù)據(jù),利用僵尸網(wǎng)絡(luò)短時(shí)間、大流量的攻擊特點(diǎn),使用DBSCAN聚類算法,找出目標(biāo)數(shù)據(jù)類別,提取IP地址,能夠快速篩查出僵尸網(wǎng)絡(luò)肉機(jī)的IP地址,使用Simhash和DJBhash對(duì)樣本字段信息進(jìn)行加工,獲得可用數(shù)據(jù)用于標(biāo)記樣本數(shù)據(jù)庫(kù),幫助簡(jiǎn)化計(jì)算流程,識(shí)別效率大大提升。
具體實(shí)施方式
下面對(duì)本發(fā)明的實(shí)施例作詳細(xì)說(shuō)明,本實(shí)施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過(guò)程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
一種基于云服務(wù)的實(shí)時(shí)僵尸網(wǎng)絡(luò)檢測(cè)方法,其特征在于步驟如下:
步驟一、數(shù)據(jù)采集,通過(guò)數(shù)據(jù)采集系統(tǒng)采集硬件防火墻受到的攻擊行為的原始數(shù)據(jù),并上傳至ElasticSearch云系統(tǒng)儲(chǔ)存;
通過(guò)數(shù)據(jù)采集系統(tǒng)采集硬件防火墻受到的攻擊行為的原始數(shù)據(jù)的過(guò)程中,基于時(shí)間序列進(jìn)行抽樣,形成采樣樣本,采樣樣本中每個(gè)樣本的字段信息包括源IP地址,源PORT,目的IP地址,目的PORT,協(xié)議類型、采樣時(shí)間、數(shù)據(jù)大小和數(shù)據(jù)包內(nèi)容信息,其中除數(shù)據(jù)包內(nèi)容信息外其他參數(shù)均為數(shù)值型,數(shù)據(jù)包內(nèi)容信息為字符型數(shù)據(jù);
對(duì)數(shù)據(jù)包內(nèi)容信息進(jìn)行DJBhash計(jì)算,得到DJBhash值;
對(duì)采樣樣本的每個(gè)樣本的各個(gè)字段信息進(jìn)行Simhash計(jì)算,得到內(nèi)容Simhash值,記錄simhash值的二進(jìn)制數(shù)字段為該樣本的數(shù)據(jù)庫(kù)ID,Simhash值中1出現(xiàn)的個(gè)數(shù)為該樣本的類別標(biāo)志;
將DJBhash值、Simhash值和樣本的所有字段信息作為原始數(shù)據(jù)上傳至數(shù)據(jù)分析系統(tǒng)。
步驟二、數(shù)據(jù)分析,利用ElasticSearch云系統(tǒng),使用DBSCAN算法對(duì)步驟一中上傳至ElasticSearch云系統(tǒng)的數(shù)據(jù)進(jìn)行處理,將處理結(jié)果中數(shù)據(jù)中類別最多的一類數(shù)據(jù)定義為僵尸網(wǎng)絡(luò)類別,僵尸網(wǎng)絡(luò)類別的聚類數(shù)據(jù)稱為模板數(shù)據(jù),比對(duì)模板數(shù)據(jù)和原始數(shù)據(jù),獲得僵尸網(wǎng)絡(luò)類別的源IP數(shù)組;
計(jì)算原始數(shù)據(jù)中每一個(gè)樣本和其他所有樣本之間的海明距離,獲得全部海明距離的集合后,按海明距離大小升序排列,取大小位于前10%的所有數(shù)值的均值作為DBSCAN算法的密度半徑,DBSCAN算法的樣本閾值取采樣樣本中所含字段數(shù)加1。
步驟三、每隔1小時(shí)制作一次黑名單,提取類別標(biāo)識(shí)數(shù)字出現(xiàn)次數(shù)最多的三類樣本的源IP地址,去重后制作成黑名單儲(chǔ)存在ElasticSearch云系統(tǒng)中;
步驟四、將ElasticSearch云系統(tǒng)中儲(chǔ)存的黑名單分發(fā)到硬件防火墻和數(shù)據(jù)采集系統(tǒng),定期分發(fā)更新黑名單,更新頻率分為3個(gè)級(jí)別:1小時(shí)更新一次,12小時(shí)更新一次,24小時(shí)更新一次;當(dāng)防火墻被DDos一天之內(nèi)攻擊次數(shù)不大于1次,24小時(shí)更新一次,當(dāng)防火墻被DDos一天之內(nèi)攻擊次數(shù)為2~10次,12小時(shí)更新一次,當(dāng)防火墻被DDos一天之內(nèi)攻擊次數(shù)大于10次,1小時(shí)更新一次。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。