本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,特別涉及一種預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測系統(tǒng)和方法。
背景技術(shù):
在網(wǎng)絡(luò)安全中,惡意軟件被用在殺傷鏈的上游以獲得對系統(tǒng)的訪問。在典型的企業(yè)環(huán)境中,員工的工作站也稱為主機(jī),或互聯(lián)網(wǎng)上的服務(wù)器每天都會遭到惡意軟件攻擊。來自Symantec,Intel安全(以前為MacAfee),趨勢科技,Sophos,卡巴斯基實(shí)驗(yàn)室等供應(yīng)商的商業(yè)端點(diǎn)保護(hù)軟件用于檢測惡意軟件,并采取盡可能多的措施進(jìn)行修復(fù)。然而,它們的有效性遠(yuǎn)低于100%。
而且,這些商業(yè)端點(diǎn)保護(hù)軟件不具有對個(gè)體員工在未來被惡意軟件感染的可預(yù)見性,以便企業(yè)安全操作中心采取預(yù)防措施。從首席信息安全官(CISO)的角度來看,需要針對惡意軟件風(fēng)險(xiǎn)識別出關(guān)鍵統(tǒng)計(jì)性驅(qū)動因素,并相應(yīng)地制定風(fēng)險(xiǎn)治理政策。
一般來說,在企業(yè)環(huán)境中,與惡意軟件有關(guān)的工作可歸為四個(gè)不同類型。第一類工作是如何分類一個(gè)軟件是否是惡意。傳統(tǒng)上,大多數(shù)軟件是基于簽名進(jìn)行分類的,然而,這種方法會錯(cuò)過“零日漏洞”惡意軟件和已知惡意軟件的新變種。這在今天仍然廣泛使用。最近,機(jī)器學(xué)習(xí)算法用于檢查數(shù)百萬的文件屬性,以確定某個(gè)文件具有惡意的概率。第二類工作是基于病毒和網(wǎng)絡(luò)日志對病毒傳播進(jìn)行建模。第三類工作是由Verizon等行業(yè)咨詢公司生成報(bào)告。這些報(bào)告通常按年提供統(tǒng)計(jì)信息,例如統(tǒng)計(jì)不同行業(yè)和不同類型惡意軟件的攻擊總數(shù)/平均數(shù),以及攻擊的影響和歷年來的趨勢。與企業(yè)信息安全工作最密切相關(guān)但仍有明顯區(qū)別的第四類工作,其是基于不同的主機(jī)服務(wù),例如應(yīng)用程序、網(wǎng)絡(luò)服務(wù)或在主機(jī)上運(yùn)行的其他程序來描述主機(jī)風(fēng)險(xiǎn),并設(shè)置個(gè)性化安全策略,或者基于用戶行為來描述風(fēng)險(xiǎn),例如用戶是否將隨機(jī)導(dǎo)航到可能具有惡意的URL,之前是否已經(jīng)點(diǎn)擊隨機(jī)彈出的窗口或使用已經(jīng)被惡意軟件感染的虛擬化Web瀏覽器。
因此,有必要針對現(xiàn)狀設(shè)計(jì)一種企業(yè)環(huán)境中預(yù)測惡意軟件感染的新型統(tǒng)計(jì)預(yù)測方法和系統(tǒng),以便對高風(fēng)險(xiǎn)員工采取預(yù)防措施和針對性的提供策略。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問題,本發(fā)明提出一種預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測系統(tǒng)和方法,可根據(jù)員工的統(tǒng)計(jì)數(shù)據(jù)來預(yù)測其在企業(yè)網(wǎng)絡(luò)中被惡意軟件感染的風(fēng)險(xiǎn),以便對高風(fēng)險(xiǎn)員工采取主動預(yù)防措施或針對惡意軟件感染識別出統(tǒng)計(jì)性驅(qū)動因素,協(xié)助設(shè)置安全策略或監(jiān)視當(dāng)前策略的有效性。
為了達(dá)到上述目的,本發(fā)明提出如下技術(shù)方案:
一種預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測系統(tǒng),包括:
作為數(shù)據(jù)源的員工信息數(shù)據(jù)庫;
對員工信息數(shù)據(jù)、端點(diǎn)保護(hù)軟件日志的惡意軟件感染數(shù)據(jù)、主機(jī)分配信息數(shù)據(jù)進(jìn)行數(shù)據(jù)聚合的數(shù)據(jù)聚合器;
對聚合數(shù)據(jù)的進(jìn)行特征提取的特征提取器;
對提取的特征數(shù)據(jù)進(jìn)行建立惡意軟件感染風(fēng)險(xiǎn)預(yù)測模型的預(yù)測建模器。
一種預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測方法,其步驟包括利用上述統(tǒng)計(jì)預(yù)測系統(tǒng)進(jìn)行員工統(tǒng)計(jì)數(shù)據(jù)建立風(fēng)險(xiǎn)預(yù)測模型以預(yù)測網(wǎng)絡(luò)個(gè)體被惡意軟件感染的可能性。
一種使用預(yù)測模型識別企業(yè)環(huán)境中惡意軟件感染的關(guān)鍵驅(qū)動因素的方法,利用預(yù)測模型獲取惡意軟件感染的關(guān)鍵驅(qū)動因素分析,協(xié)助網(wǎng)絡(luò)安全風(fēng)險(xiǎn)管控團(tuán)隊(duì)設(shè)置和實(shí)施安全策略。
一種在SIEM環(huán)境中使用預(yù)測結(jié)果的方法,利用預(yù)測模型獲取預(yù)測結(jié)果,利用安全信息和事件管理工具來協(xié)助SOC采取主動監(jiān)控操作。
本發(fā)明是使用員工的統(tǒng)計(jì)數(shù)據(jù)來預(yù)測員工在未來一段時(shí)間內(nèi)將面臨多少高風(fēng)險(xiǎn)惡意軟件,并且確定特定員工的風(fēng)險(xiǎn),在預(yù)測中,根據(jù)員工將面臨的惡意軟件數(shù)量及其嚴(yán)重程度對員工進(jìn)行風(fēng)險(xiǎn)排名。為提高對高風(fēng)險(xiǎn)組預(yù)測的準(zhǔn)確性,本發(fā)明提出一種新的統(tǒng)計(jì)學(xué)習(xí)方法-基于方差調(diào)整加權(quán)泊松的一般線性模型,采用a.時(shí)間偏移;b.加權(quán)方差調(diào)整;c.分層抽樣;a.智能變量分組策略提高預(yù)測準(zhǔn)確性。
對于被模型識別出的高風(fēng)險(xiǎn)的員工,系統(tǒng)會自動將信息發(fā)送到SIEM系統(tǒng),安全操作中心可以對其進(jìn)行主動監(jiān)控。同時(shí),本發(fā)明還針對惡意軟件感染識別出統(tǒng)計(jì)性驅(qū)動因素,協(xié)助設(shè)置安全策略或監(jiān)視當(dāng)前策略的有效性。
有益效果:
本發(fā)明提出一種預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測系統(tǒng)和方法,可根據(jù)員工的統(tǒng)計(jì)數(shù)據(jù)來預(yù)測其在企業(yè)網(wǎng)絡(luò)中被惡意軟件感染的風(fēng)險(xiǎn),以便對高風(fēng)險(xiǎn)員工采取主動預(yù)防措施或針對惡意軟件感染識別出統(tǒng)計(jì)性驅(qū)動因素,協(xié)助設(shè)置安全策略或監(jiān)視當(dāng)前策略的有效性。
附圖說明
圖1是本發(fā)明的系統(tǒng)框圖;
具體實(shí)施方式
下面將結(jié)合本發(fā)明的實(shí)施例和附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
一種預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測系統(tǒng),所述的統(tǒng)計(jì)預(yù)測系統(tǒng)包括:
作為數(shù)據(jù)源的員工信息數(shù)據(jù)庫;
對員工信息數(shù)據(jù)、端點(diǎn)保護(hù)軟件日志的惡意軟件感染數(shù)據(jù)、主機(jī)分配信息數(shù)據(jù)進(jìn)行數(shù)據(jù)聚合的數(shù)據(jù)聚合器;
對聚合數(shù)據(jù)的進(jìn)行特征提取的特征提取器;
對提取的特征數(shù)據(jù)進(jìn)行建立惡意軟件感染風(fēng)險(xiǎn)預(yù)測模型的預(yù)測建模器。
所述的員工信息數(shù)據(jù)庫不僅限于員工信息數(shù)據(jù)庫,還包括員工福利數(shù)據(jù)庫,員工協(xié)議數(shù)據(jù)庫。
利用上述統(tǒng)計(jì)預(yù)測系統(tǒng)進(jìn)行員工統(tǒng)計(jì)數(shù)據(jù)建立風(fēng)險(xiǎn)預(yù)測模型以預(yù)測網(wǎng)絡(luò)個(gè)體被惡意軟件感染的可能性,并使用預(yù)測輸出來對高風(fēng)險(xiǎn)員工組采取主動應(yīng)對行為或設(shè)置和監(jiān)視安全策略,其具體步驟為:
1)利用員工信息數(shù)據(jù)庫對的員工信息數(shù)據(jù)、端點(diǎn)保護(hù)日志、主機(jī)分配信息數(shù)據(jù)進(jìn)行數(shù)據(jù)聚合,利用數(shù)據(jù)聚合器負(fù)責(zé)鏈接不同的數(shù)據(jù)源,得到友好的可分析格式組織數(shù)據(jù);
2)利用特征提取器對可分析格式組織數(shù)據(jù)進(jìn)行特征提?。?/p>
3)將輸入數(shù)據(jù)輸入到預(yù)測建模器中建立惡意軟件感染風(fēng)險(xiǎn)預(yù)測模型進(jìn)行預(yù)測,得到預(yù)測結(jié)果。
在此方法中,其中,員工統(tǒng)計(jì)數(shù)據(jù)來源于員工信息數(shù)據(jù)庫,但不僅限于員工信息數(shù)據(jù)庫,還可以使用其他數(shù)據(jù)源,例如員工福利數(shù)據(jù)庫,員工是否簽署相關(guān)協(xié)議,或員工簽署了哪些部分的協(xié)議等。員工信息數(shù)據(jù)庫中存儲員工姓名和員工ID,可以作為密鑰鏈接其他數(shù)據(jù)源,包括但不限于:
員工的工作類型:員工是臨時(shí)員工還是正式全職員工。
員工是來自供應(yīng)商還是合作伙伴,例如那幫輔助設(shè)施,建筑,清潔,食堂里的工人等。
員工是否具有管理人員或個(gè)人貢獻(xiàn)者。
員工履行的職責(zé),如軟件開發(fā)人員,軟件質(zhì)量保證工程師,產(chǎn)品所有者,營銷人員或銷售人員等。
工作的長度:員工在公司的年限。
業(yè)務(wù)功能:在典型的企業(yè)中,它包括IT,財(cái)務(wù),營銷,銷售(現(xiàn)場銷售或銷售支持),研發(fā),制造,法律,人力資源等。
工作地點(diǎn):國內(nèi)工作地點(diǎn)與國際工作地點(diǎn)。對于跨國公司,包括員工所在地區(qū),例如美洲,歐亞非或亞太區(qū),以及國家。
業(yè)務(wù)部門:對于大型企業(yè),可能有多個(gè)業(yè)務(wù)部門,每個(gè)部門自負(fù)盈虧。
在此方法中,其中,端點(diǎn)保護(hù)日志主要包括來自端點(diǎn)保護(hù)軟件日志的惡意軟件感染數(shù)據(jù)。由于端點(diǎn)保護(hù)產(chǎn)品是基于主機(jī)的產(chǎn)品,其日志捕獲主機(jī)名,日志還包括:
不同類型惡意軟件的名稱(基于簽名的已知惡意軟件),例如Trojan,adware,Yontoo,EICAR測試字符串,多重風(fēng)險(xiǎn)惡意軟件及其嚴(yán)重性級別。對于那些不為簽名所知的,它將被放入一個(gè)通用類別。
端點(diǎn)保護(hù)產(chǎn)品采取的動作,例如“清除”,“隔離”或“l(fā)eft alone”等?!發(fā)eft alone”類別是一組終端保護(hù)軟件沒有辦法處理的惡意軟件,并可能在將來導(dǎo)致安全漏洞。在這里,我們預(yù)測在將來某一時(shí)間段內(nèi)一位員工將面臨多少惡意軟件。然而,本發(fā)明中提出的方法可以應(yīng)用于其他類別的惡意軟件,或任何類別的組合。
端點(diǎn)保護(hù)軟件掃描主機(jī)的時(shí)間和日期。提供了病毒感染的趨勢和季節(jié)性信息,在風(fēng)險(xiǎn)治理時(shí)可以實(shí)施基于時(shí)間的監(jiān)控和執(zhí)行。
在本發(fā)明中,采用將HR數(shù)據(jù)庫的數(shù)據(jù)(每個(gè)員工具有唯一的員工ID)和端點(diǎn)保護(hù)軟件日志(主機(jī)名是唯一的密鑰)進(jìn)行鏈接,結(jié)合主機(jī)分配信息數(shù)據(jù)(主機(jī)名和員工ID之間的關(guān)系),進(jìn)行數(shù)據(jù)聚合。數(shù)據(jù)聚合器負(fù)責(zé)鏈接不同的數(shù)據(jù)源,并以友好的可分析格式組織數(shù)據(jù)。
特征提取器將特征輸出給建模器以構(gòu)建模型,該模型用來預(yù)測每個(gè)員工將面臨的“l(fā)eft alone”病毒數(shù)量。
此時(shí),預(yù)測建模器的輸入數(shù)據(jù)包括了員工名稱,ID和根據(jù)統(tǒng)計(jì)數(shù)據(jù)生成的特征,以及6個(gè)月內(nèi)(可配置)由端點(diǎn)保護(hù)軟件生成的歷史數(shù)據(jù)——感染但“l(fā)eft alone”的惡意軟件的計(jì)數(shù)。該輸入數(shù)據(jù)具有兩個(gè)特點(diǎn):
1.有些員工可能剛剛進(jìn)入公司,工作時(shí)間還沒有到6個(gè)月,實(shí)際上,他們可能在公司被感染的時(shí)間長度是可以變化的
2.列中的條目之間會有巨大的差異,其“l(fā)eft alone”病毒的計(jì)數(shù)或者很低、甚至為零,或者具有很大的“l(fā)eft alone”病毒計(jì)數(shù)。
使用統(tǒng)計(jì)方法來盡可能準(zhǔn)確地預(yù)測員工將被感染的“l(fā)eft alone”病毒,那么高風(fēng)險(xiǎn)感染組的準(zhǔn)確性將是最為重要的,為此甚至可能需要在某種程度上犧牲低風(fēng)險(xiǎn)感染組的準(zhǔn)確性,此時(shí),對于高風(fēng)險(xiǎn)感染組建立基于方差調(diào)整加權(quán)泊松的一般線性模型進(jìn)行預(yù)測。為提高預(yù)測的準(zhǔn)確性,采用以下四種改進(jìn)方法:
log(E(Y|x))=log(exposure)+θ′x
a.時(shí)間補(bǔ)償—員工往往在更長的時(shí)間內(nèi)面臨更多的病毒感染。例如,1年6次病毒感染不應(yīng)等于1個(gè)月6次病毒感染。在具有對數(shù)鏈接函數(shù)的泊松回歸模型中使用時(shí)間作為補(bǔ)償變量或“exposure”,即算法實(shí)際上對于每天的惡意軟件感染率進(jìn)行建模,因此能夠正確描述不同時(shí)間段內(nèi)的病毒感染。
b.加權(quán)方差調(diào)整—準(zhǔn)確預(yù)測被潛在病毒感染的高風(fēng)險(xiǎn)員工更為重要。使用惡意軟件計(jì)數(shù)作為權(quán)重變量來訓(xùn)練數(shù)據(jù),使模型更多地關(guān)注高風(fēng)險(xiǎn)的病毒感染,并為測試保留數(shù)據(jù)中的高風(fēng)險(xiǎn)員工提供更準(zhǔn)確的預(yù)測。
對于泊松分布,隨機(jī)變量計(jì)數(shù)yi的方差等于yi的期望(平均)值,利用“加權(quán)方差調(diào)整”進(jìn)行加權(quán)。在統(tǒng)計(jì)預(yù)測方法中,人們對輸入表格中的某些記錄(也稱為觀察值)使用權(quán)重。在此,以使用目標(biāo)作為權(quán)重。此加權(quán)方法未被用于網(wǎng)絡(luò)安全中的惡意軟件感染問題,而且也未被用于其他領(lǐng)域中的任何其他問題,應(yīng)用這種加權(quán)方法,可使高風(fēng)險(xiǎn)感染組的預(yù)測準(zhǔn)確性得到顯著提高。
c.分層抽樣方法—解決許多員工具有低或零計(jì)數(shù)的“l(fā)eft alone”病毒感染的問題。使用分層抽樣方法對過去低風(fēng)險(xiǎn)感染人群進(jìn)行抽樣,減少了低風(fēng)險(xiǎn)感染人群對預(yù)測的影響,從而間接提高了對高風(fēng)險(xiǎn)感染組預(yù)測的準(zhǔn)確性。
d.智能變量分組—原始變量在模型構(gòu)建中可能不是非常有用。我們使用高級決策樹方法對一些連續(xù)變量進(jìn)行智能分組。例如,決策樹檢測到工作少于1年的員工比工作超過4年的員工更容易被惡意軟件感染,那么將員工的工作年限分為三組:<=1年;1至4年;>=4年,對變量分組也會提高模型的性能。
在上述預(yù)測惡意軟件感染的統(tǒng)計(jì)預(yù)測系統(tǒng)和方法中,可通過預(yù)測建模器獲得一組具有從輸入到預(yù)測建模器的大量特征池中選擇的統(tǒng)計(jì)意義特征的模型包,在統(tǒng)計(jì)意義特征選擇時(shí)選擇方法可以在GLM建模的框架中前向,后向或逐步的。這些選定的特征可被認(rèn)作是惡意軟件感染的關(guān)鍵驅(qū)動因素。與每個(gè)驅(qū)動因素相關(guān)的是其相應(yīng)權(quán)重(系數(shù))。將驅(qū)動因素和其權(quán)重相結(jié)合,能夠形成一個(gè)可量化的測量方案、用以評估該驅(qū)動因素的重要性,對各驅(qū)動因素進(jìn)行排名,并提供風(fēng)險(xiǎn)管控團(tuán)隊(duì),看看是否有測量覆蓋這些領(lǐng)域,如果有,員工是否遵守了這些策略。
例如,當(dāng)找到一個(gè)與供應(yīng)商相關(guān)的驅(qū)動因素時(shí),可以檢查供應(yīng)商是否使用公司映像機(jī),是否遵循了命名規(guī)則。在這種情況下,風(fēng)險(xiǎn)管控團(tuán)隊(duì)可以強(qiáng)迫執(zhí)行策略使用公司映像機(jī)和命名規(guī)則。另一個(gè)例子是預(yù)測模型將工作角色作為驅(qū)動因素。例如,軟件開發(fā)人員和QA工程師被發(fā)現(xiàn)具有惡意軟件感染的高風(fēng)險(xiǎn),風(fēng)險(xiǎn)管控團(tuán)隊(duì)可以要求這些工程師遵循開發(fā)流程,定期檢查源代碼,并確保源代碼存儲的安全可靠。再例,當(dāng)出現(xiàn)與工作年限相關(guān)的驅(qū)動因素時(shí),它顯示新員工組和長期員工組的惡意軟件感染率較高,而中期員工組則相對較少地被惡意軟件感染?;谶@些信息,風(fēng)險(xiǎn)管控團(tuán)隊(duì)可以為新員工和長期員工設(shè)計(jì)有針對性的安全培訓(xùn)策略。
同時(shí),作為預(yù)測模型的另一個(gè)應(yīng)用,可利用預(yù)測模型獲取預(yù)測結(jié)果,利用安全信息和事件管理工具來協(xié)助SOC采取主動監(jiān)控操作。利用預(yù)測建模器使用模型包對單個(gè)員工打分,并計(jì)算“l(fā)eft alone”惡意軟件的預(yù)測計(jì)數(shù)。預(yù)測計(jì)數(shù)高的員工就是高風(fēng)險(xiǎn)員工,可以提供給SIEM工具。SOC團(tuán)隊(duì)可以對這組員工進(jìn)行主動監(jiān)控,留意他們的網(wǎng)絡(luò)行為,特別是那些基于威脅情報(bào),例如Deepsight或病毒總量的惡意站點(diǎn),同時(shí)監(jiān)控他們的網(wǎng)絡(luò)流量,特別是流出數(shù)據(jù),來確保公司的機(jī)密數(shù)據(jù)不會泄漏。除了用來直接監(jiān)視員工的主機(jī)和網(wǎng)絡(luò)行為之外,每個(gè)員工的預(yù)測計(jì)數(shù)還能夠和來自防火墻日志、VPN日志、HTTP日志,Windows事件日志等的數(shù)據(jù)一起,用作其他機(jī)器學(xué)習(xí)算法的輸入,以檢測主機(jī)是處于安全狀態(tài)或受攻擊狀態(tài)。
最終,以上實(shí)施例和附圖僅用以說明本發(fā)明的技術(shù)方案而非限制,盡管通過上述實(shí)施例已經(jīng)對本發(fā)明進(jìn)行了詳細(xì)的描述,但本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,可以在形式上和細(xì)節(jié)上對其作出各種各樣的改變,而不偏離本發(fā)明權(quán)利要求書所限定的范圍。