分布式特征收集與關(guān)聯(lián)引擎的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般性地涉及了電氣、電子及計算機技術(shù),更為特別的是涉及了獲取以及處理數(shù)據(jù)的技術(shù)。
【背景技術(shù)】
[0002]很多企業(yè)面臨著轉(zhuǎn)向復雜和演變中的網(wǎng)絡(luò)安全威脅的挑戰(zhàn)。攻擊者越來越多的使用秘密的攻擊技術(shù)來幫助隱藏它們的外表,或至少減少被檢測到的可能性,例如,通過跨多個機器隱藏他們的攻擊步驟,以及使用不同的應(yīng)用協(xié)議,或者在長時間期間分布他們的行為。許多這樣的威脅被稱為高級持續(xù)性威脅(APT)。
[0003]檢測和調(diào)查這樣的復雜攻擊模式需要收集、存儲、以及分析來自各種薄弱點、不同數(shù)據(jù)源和多個抽象層的事件。經(jīng)常以每秒數(shù)千事件的速率輸出的監(jiān)測數(shù)據(jù),需要被收集、存儲以及可提供用于實時分析和歷史分析。由于這樣的負擔以及各種各樣的相關(guān)數(shù)據(jù)類型和不同的收集延遲,網(wǎng)絡(luò)安全調(diào)查已經(jīng)成為重要的數(shù)據(jù)問題。許多收集的事件只有當他們被放入到經(jīng)過可能的大時間窗口(例如幾個星期或幾個月)的跨不同數(shù)據(jù)源的上下文中,以形成網(wǎng)絡(luò)中正在進行的和過去行為的全貌(big picture)并過濾掉錯誤警報或具有很小或沒有影響的異常時,才會變得有意義。
[0004]對這種安全事件的及時響應(yīng),需要近乎實時的數(shù)據(jù)分析,而調(diào)查則需要訪問跨大時間窗口的歷史數(shù)據(jù)。然而,現(xiàn)有的方案用相對小的時間窗口實時處理數(shù)據(jù)或者歷史數(shù)據(jù)并且需要順序訪問所存儲的數(shù)據(jù)。輸入/輸出(1)的限制變成了主要因素,現(xiàn)有方案通過在大的機器集群上分散1來解決此問題,而這會增加建立和重組合數(shù)據(jù)的成本。
[0005]存在對用來獲取和處理原始數(shù)據(jù)的技術(shù)改進的需求。對于數(shù)據(jù)處理系統(tǒng),還存進一步需求從而允許:(i)基本上實時的數(shù)據(jù)分析以提供對事件的及時響應(yīng);以及(ii)訪問跨大的時間窗口的歷史數(shù)據(jù)以允許調(diào)查。
【發(fā)明內(nèi)容】
[0006]—般的,提供了用于分布式特征收集和關(guān)聯(lián)的方法及裝置。根據(jù)該發(fā)明的一個方面,特征抽取數(shù)據(jù)處理方法包括步驟:獲取一個或多個數(shù)據(jù)記錄;基于領(lǐng)域知識從所述一個或多個數(shù)據(jù)記錄抽取信息;將所述抽取的信息轉(zhuǎn)換為包括鍵K和值V的鍵/值對,其中所述鍵包括特征標識符;以及如果所述鍵/值對尚未存在于使用去重機制的特征存儲數(shù)據(jù)庫中,則在所述特征存儲數(shù)據(jù)庫中存儲所述鍵/值對。
[0007].根據(jù)本發(fā)明的一個方面,用于查詢從一個或多個數(shù)據(jù)記錄中抽取的一個或多個特征的方法包括步驟:獲取包括所述抽取的特征的特征存儲數(shù)據(jù)庫,所述抽取的特征存儲為包括鍵K和值V的鍵/值對,其中所述鍵包括特征標識符;接收包括至少一個查詢鍵的查詢;從所述特征存儲數(shù)據(jù)庫中檢索匹配所述查詢鍵的值;返回一個或多個檢索到的鍵/值對。
[0008]通過參考下列詳細的描述以及附圖,將會獲得對本發(fā)明、以及進一步的特征和本發(fā)明的優(yōu)勢的更為全面的理解。
【附圖說明】
[0009]圖1是示例性的采用了本發(fā)明各個方面的特征收集和關(guān)聯(lián)引擎(FCCE)系統(tǒng)100的框圖;
[0010]圖2是描述了采用本發(fā)明各個方面的特征抽取器的示范性實現(xiàn)的流程圖;
[0011]圖3A和圖3B是描述了采用本發(fā)明各個方面的特征收集器的示范性實施方式的流程圖;
[0012]圖4A示出了采用本發(fā)明各個方面的示范性的特征存儲器;
[0013]圖4B是描述了采用本發(fā)明各個方面的寫過程示范性實現(xiàn)的流程圖;
[0014]圖4C描述了采用本發(fā)明各個方面的讀過程的示范性實現(xiàn)的流程圖;
[0015]圖5A和圖5B分別是描述了查詢服務(wù)器注冊過程以及客戶機查詢服務(wù)器發(fā)現(xiàn)過程的示范性實現(xiàn)的流程圖;
[0016]圖6是描述了采用本發(fā)明各個方面的查詢服務(wù)器過程的示范性實現(xiàn)的流程圖;
[0017]圖7A和圖7B分別是描述了通過示范性的訂閱服務(wù)器提供的新的客戶機/模式訂閱過程以及新的匹配特征流過程的示范性實現(xiàn)的流程圖;
[0018]圖8示出了根據(jù)本發(fā)明的各個方面的安全威脅的示范性分析。
【具體實施方式】
[0019]本發(fā)明的各個方面提供了特征收集和關(guān)聯(lián)引擎(FCCE)。根據(jù)本發(fā)明的一個方面,該示例性公開的FCCE系統(tǒng)包括抽取、正規(guī)化、存儲、獲取以及關(guān)聯(lián)來自多種數(shù)據(jù)源的特征(features)的分布式數(shù)據(jù)管理系統(tǒng)。該示例性FCCE系統(tǒng)支持地理上分布的數(shù)據(jù)源,不需要源之間的持續(xù)的連接,并且在分布式的引擎架構(gòu)中提供對個別節(jié)點故障的恢復。
[0020]根據(jù)本發(fā)明的另一方面,能夠在數(shù)據(jù)攝取點應(yīng)用領(lǐng)域知識來抽取核心特征,應(yīng)用去重復機制從而能夠大大地減少數(shù)據(jù)量,用層級結(jié)構(gòu)的收集系統(tǒng),使得去重的跨所有數(shù)據(jù)集的核心特征到達概念上的中心地點,在那里,他們或者近乎實時地可用,或能以歷史方式得到訪問,從而能夠探測或調(diào)查網(wǎng)絡(luò)威脅。
[0021]根據(jù)本發(fā)明的另一方面,為每個抽取的特征定義鍵和值。所述鍵被用于識別被作為數(shù)學集合的值的特定桶(bucket)。所述數(shù)學集合允許不考慮時序地來采集數(shù)據(jù)。按照這種方式,舊的歷史數(shù)據(jù)能連同實時數(shù)據(jù)一起被攝入系統(tǒng)中。
[0022]圖1是示例性的采用了本發(fā)明的方面的特征收集和關(guān)聯(lián)引擎(FCCE)系統(tǒng)100的框圖。如圖1所示,F(xiàn)CCE系統(tǒng)100的示例性實施例包括特征抽取120的數(shù)據(jù)攝取框架105 (攝取并處理來自數(shù)據(jù)源110的原始數(shù)據(jù)以抽象抽取的特征125);特征聚合130 (收集和合并來自不同數(shù)據(jù)源110的所抽取的特征125);以及特征存儲器140(存儲該聚合的以及去重復的結(jié)果135)。此外,F(xiàn)CCE系統(tǒng)100的該示例性的實施例包括數(shù)據(jù)獲取框架150,其包括特征獲取層160,為數(shù)據(jù)消費者170有效地查詢感興趣的特征提供接口。
[0023]如圖1所示,示范性的FCCE系統(tǒng)100包括:至少一個特征抽取器200,會在下面結(jié)合圖2進一步討論;至少一個特征收集器300,會在下面結(jié)合圖3進一步討論;至少一個特征庫400,會在下面結(jié)合圖4進一步討論;可選的一個或更多個注冊服務(wù)器(RS) 500,會在下面結(jié)合圖5進一步討論;可選的一個或更多個查詢服務(wù)器(QS) 600,會在下面結(jié)合圖6進一步討論;以及可選的一個或更多個訂閱服務(wù)器(SS) 700,會在下面結(jié)合圖7進一步討論。
[0024]—般的,如下文所討論的,示范性的特征庫(FS) 400以鍵-值庫為基礎(chǔ),存儲與原始數(shù)據(jù)相關(guān)的特征,用于以后以高伸縮性(highly scalable)的方式獲取相關(guān)的特征。通常,該示范性特征抽取器200連接至原始數(shù)據(jù)源110 (現(xiàn)場或批次/存儲的)(live orbatch/stored)并且抽取被轉(zhuǎn)發(fā)至至少一個特征收集器300的特征。在一個示范性實施例中,該數(shù)據(jù)源110包括域名服務(wù)器(DNS)數(shù)據(jù)110-1,入侵防護系統(tǒng)(IPS)警報110-2以及網(wǎng)絡(luò)流數(shù)據(jù)(netflow data)110-N。該示范性特征收集器300進而驗證該特征并將它們存儲在至少一個特征庫400中。
[0025]FCCE系統(tǒng)100的數(shù)據(jù)獲取框架150支持關(guān)聯(lián)特征的獲取??蛻魴C(例如分析應(yīng)用180以及可視化工具)能夠查詢所選擇的特征庫400或讓一個或多個查詢服務(wù)器600從該特征庫400返回與所提供的鍵匹配的特征。查詢服務(wù)器600將會返回在其特征存儲器中的與所提供的鍵相匹配的當前可用的任意特征。客戶機還能夠從一個或多個訂閱服務(wù)器700請求特征,訂閱服務(wù)器700會連續(xù)返回與該鍵匹配的進入該特征存儲器的任何新的特征。查詢提供者/訂閱提供者165為客戶機提供前端或中間層以與特征庫400、注冊服務(wù)器500、查詢服務(wù)器600以及訂閱服務(wù)器700通信。
[0026]注冊服務(wù)器500能夠在任何組件之間代理連接(broker connect1ns)。組件向注冊服務(wù)器500注冊,并且將它們的能力通知給注冊服務(wù)器500。其它組件或客戶機從而能夠基于所提供的能力在該注冊服務(wù)器500中查詢?nèi)魏巫缘慕M件。
[0027]能夠提供一個或多個分析應(yīng)用從而有效率的訪問該特征。
[0028]特征柚取
[0029]圖2是描述了采用本發(fā)明方面的特征抽取器200的示范性實現(xiàn)的流程圖。通常,如在下面進一步討論的,在特征抽取階段120中,對于每個輸入數(shù)據(jù)源110,領(lǐng)域?qū)<沂褂锰卣鞒槿∑?00指定從原始數(shù)據(jù)抽象特