本發(fā)明涉及數據挖掘與應用領域,具體而言涉及一種基于多標簽組合多分類器的恐怖行為預測方法。
背景技術:
恐怖行為是指實施者對非武裝人員有組織地使用暴力或以暴力相威脅,通過將一定的對象置于恐怖之中,來達成宗教、政治或意識形態(tài)上的目的??植酪u擊自上世紀九十年代以來,有在全球范圍內迅速蔓延的嚴峻趨勢??植酪u擊的發(fā)生不僅會直接造成巨大的人員傷亡和財產損失,同時也會給受害國帶來巨大的反恐壓力,造成受害國人員的極大恐慌。如何利用現有的技術預測將會發(fā)生的恐怖行為,成為一個重要的研究方向。
恐怖行為預測是知識挖掘的典型應用,它根據已有的知識信息并利用數據挖掘和機器學習等相關智能技術,預測恐怖組織實施恐怖行為的發(fā)展趨勢。研究恐怖行為預測的目的主要是預測組織未來的活動,為決策者提供決策支持,從而可以采取有效的預防措施,降低恐怖襲擊行為造成的生命財產損失??植酪u擊事件發(fā)生的原因包括政治、經濟、文化等方面的因素,各種原因交織在一起,導致恐怖行為的預測變得更加復雜。對恐怖行為預測的研究不能僅僅考慮事件發(fā)生的時間、地點及影響程度等信息,應該在考慮這些因素的基礎上,綜合考慮恐怖組織的政治、經濟、文化等背景因素,從而為決策者提供更有效的決策支持。
目前,基于背景知識預測恐怖行為的預測方法大都把背景數據中的行為屬性看作一個整體,然后利用背景向量之間的相似度預測對應的行為向量,再對預測的行為向量進行某種計算,得到行為向量中各行為的概率,然后根據各行為的發(fā)生概率給出預測結果。然而,采用這種方式進行恐怖行為的預測,將多個行為屬性分解到多個行為子空間,在每個子空間進行單獨恐怖行為的預測,沒有考慮同一時間段可能發(fā)生多種行為屬性,忽略了行為屬性之間的聯系對預測結果造成的影響。再者預測的模型大多采用單一模型及其模型改進或者通過修改參數來提高系統(tǒng)的預測效果。但是單一模型的預測只能考慮行為的單個方面,沒有考慮到不同行為屬性之間的關聯對恐怖行為預測準確度造成的影響。
技術實現要素:
本發(fā)明的目的在于提出一種基于多標簽組合多分類器的恐怖行為預測方法,針對以往通過數據分解方式將行為屬性分解到多個行為子空間,在每個子空間單獨進行恐怖行為預測造成預測結果的片面性問題,提出一種基于多標簽的恐怖行為預測算法,充分利用背景數據,同時預測多個恐怖行為。對于通過單一模型進行分類預測造成預測精度低的問題,采用組合多分類器的方式,利用多個分類器模型預測方式的多樣性,組合多個分類模型的預測結果,提高分類預測的精度。具體技術方案如下:
一種基于多標簽組合多分類器的恐怖行為預測方法,包括以下步驟:
步驟1,原始數據的預處理:原始數據由恐怖組織的基本信息、背景知識和行為知識構成,提取背景知識和行為知識,構成背景知識與恐怖行為的多標簽數據集;
步驟2,訓練多標簽決策樹和隨機游走模型:基于步驟1獲得的背景知識與恐怖行為的多標簽數據集,定義背景屬性關聯重要度,并根據背景屬性關聯重要度訓練決策樹分類器,利用標簽之間的關聯訓練隨機游走模型;
步驟3,測試多標簽決策樹和隨機游走模型:使用步驟2獲得的多標簽決策樹和隨機游走模型預測在每種訓練模型下待分類標簽樣本,獲得所有恐怖行為的概率;
步驟4,組合基分類器預測模型:通過步驟3在多標簽決策樹分類器中獲得每種恐怖行為的權值與預測的隨機游走分類器對應的標簽相乘,生成決策函數,根據決策函數得到最終恐怖行為的預測結果。
進一步地,所述步驟1中,原始數據的預處理包括以下步驟:
步驟1.1,提取原始數據中的背景知識和恐怖行為,構成三元組(U,CS,AS),其中U={X1,X2,...Xt}代表樣本集,CS={C1,C2,...,Cn}表示背景數據中的背景屬性,AS={A1,A2,...,Am}表示背景數據中涉及的恐怖行為;其中t代表樣本的個數,n代表屬性的個數,m代表標簽的個數;
步驟1.2,采用基于鄰域粗糙集的特征選擇方法去除數據集中大量的冗余與無關背景知識;其中,多標簽屬性依賴度定義為:其中B代表背景屬性子集,選擇條件屬性Ci∈CS-B的重要度的屬性作為背景屬性,獲得最終的數據集(U,CS,AS)。
進一步地,所述步驟2中,建立多標簽決策樹和隨機游走模型包括以下步驟:
步驟2.1,采用自頂向下的貪婪搜索方法訓練多標簽決策樹,具體步驟如下:
步驟2.1.1,選擇背景屬性關聯重要度作為屬性選擇度量:選擇當前屬性關聯重要度最大的屬性作為分類屬性,反復迭代形成最終的多標簽決策樹模型;
步驟2.1.2,計算訓練集中每個標簽的概率作為標簽預測的權重增加因子。
步驟2.2,訓練隨機游走模型,具體步驟如下:
步驟2.2.1,利用背景數據集映射為多標簽隨機游走圖G:將每個訓練樣本映射為游走圖中的一個點Xi,如果兩個訓練數據Xi、Xj具有相同的標簽,則將這兩個訓練數據對應的頂點Xi、Xj相連,形成隨機游走圖G=(V,E);其中V={Xi|Xi∈U,1≤i≤t},E={(Xi,Xj)|Xi,Xj∈V,Yi∩Yj≠Φ,i≠j},Yi,Yj是Xi,Xj的真實標簽集,Φ表示空集;
步驟2.2.2,計算隨機游走圖G上的權重矩陣并進行歸一化處理轉化成鄰接矩陣;其中,權重矩陣中邊的權值
進一步地,所述步驟3中測試多標簽決策樹和隨機游走模型,包括以下步驟:
步驟3.1,多標簽決策樹中預測標簽的權重因子:在多標簽決策樹預測實例的過程中將所有的標簽設置相同的基礎權重因子其中從樹的根節(jié)點開始,根據測試屬性選擇分支,到達葉節(jié)點,得到標簽預測結果R=(r1,r2,...,rm),其中,ri為0或1,0表示標簽不被命中,1表示命中;根據R生成m×m矩陣R’,使R’ii=ri,ri∈R,其他元素為0;然后,統(tǒng)計每種標簽在訓練數據集中出現的頻次fi,構造矩陣F=(f1,f2,...,fm);最后,計算每個標簽的權重增加因子Δw=R’FT/t,修改權重因子wA=wA+Δw;
步驟3.2,使用隨機游走模型預測實例的標簽概率,包括以下步驟:
步驟3.2.1,構建多標簽隨機游走圖系列:輸入測試實例X,將X記作U,隨機游走過程以U為起點構成多標簽隨機游走圖系列,該多標簽隨機游走圖系列T={Gk|k=1,2,...,m},Gk=(Vk,Ek),Vk=V∪{X},Ek=E∪{(X,Xi)|Ak∈Yi,1≤i≤m};
步驟3.2.2,設置初始概率分布向量s0、跳轉發(fā)生概率α、發(fā)生跳轉時跳轉到圖中每個頂點的概率分布向量d;
步驟3.2.3,隨機游走過程中,輸入步驟3.2.2各參數,迭代更新輸出概率分布向量s,直到s收斂;其中s計算公式如下:s=(1-α)pTs0+αd,0<α<1,p表示鄰接矩陣;
步驟3.2.4,運用條件概率模型獲得恐怖行為標簽概率分布結果:待分類樣本X具有標簽Ak的概率計算公式為:其中,λk表示第k個隨機游走圖,先驗概率p(X<Ak)使用U點和具有標簽Ak的數據對應頂點的平均距離計算,最終將概率進行歸一化處理獲得各恐怖行為概率
進一步地,所述步驟4中的具體實現方法如下:
將多標簽決策樹中的權重因子wA中每個權值與隨機游走模型對應的標簽概率pA加權組合p=wApA,并將該概率歸一化處理獲得最終的預測恐怖行為標簽的概率;設置概率選擇閾值k,概率大于該閾值的恐怖行為作為該測試實例的預測恐怖行為集。
進一步地,步驟2.1.1中所述的背景屬性關聯重要度的計算表達式為:
進一步地,所述步驟3.2.2中初始概率分布向量s0的計算方法為:首先計算s'0,s'0是一個m維向量,它的第i個元素為然后對該s'0進行歸一化處理得到s0;
所述發(fā)生跳轉時跳轉到圖中每個頂點的概率分布向量d的計算方法為:設從某個頂點出發(fā)跳轉到圖中任意一個頂點的概率是相等的,得到隨機跳轉到每個頂點的概率分布向量
進一步地,所述α設置為0.15。
進一步地,所述閾值k的選取方法為:根據兩個分類器預測結果的取值范圍,選擇每個分類器預測概率大于0.5的組合函數的最小值,并對該值進行歸一化處理獲得閾值k。
本發(fā)明的有益效果:
采用多標簽組合多分類器的方法進行恐怖行為預測,一方面充分考慮在同一時間段可能發(fā)生多種恐怖行為,并利用恐怖行為之間的聯系建立了多標簽恐怖行為預測算法,改善了恐怖行為預測結果的片面性。另一方面,針對恐怖行為預測結果精度低的問題,采用組合多分類器方法,在建立恐怖行為預測算法的過程中既利用了背景知識之間的關聯性,又利用恐怖行為之間的關聯性,綜合考慮多種分類器的預測結果,采用概率組合方式構成決策函數,提高了恐怖行為預測的準確性。與以往采用數據分解方式進行單獨預測的方法相比,本方法通過多種方式相結合,充分利用背景數據的特點,提高了恐怖行為預測的準確性和客觀性,提高了預測精度。
附圖說明
圖1為本發(fā)明實施例提供的基于多標簽組合多分類器的恐怖行為預測方法的流程示意圖。
圖2為本發(fā)明實施例中的關于多標簽組合多分類器預測標簽集合方法的流程圖。
具體實施方式
為使本發(fā)明要解決的技術問題、技術方案和優(yōu)勢更加清楚,下面將結合附圖及具體實施例進行詳細描述。
如圖1所示,根據本發(fā)明的實施例,基于多標簽組合多分類器的恐怖行為預測方法包括四個基本步驟:原始數據的預處理;建立并訓練多標簽決策樹和隨機游走模型,獲得恐怖行為預測模型;預測某一時間段中各種恐怖行為發(fā)生的概率;組合基分類器中某一時間段內各種行為發(fā)生的概率,給出最終的恐怖行為預測結果。
一、原始數據的預處理
原始數據由恐怖組織的基本信息、背景知識和行為知識構成?;拘畔ńM織代號、名字等,背景屬性包括恐怖組織所處地理位置、該組織的意識形態(tài)、宗教信仰、政治主張、經濟情況等,恐怖組織實施的各種恐怖行為包括武裝沖突、綁架、自殺襲擊等。
經過特征選擇以后獲得如下表1所示的背景數據子集,本實施例中共設置了11個字段,分別標記為ID、C1、C2、C3、C4、C5、C6和A1、A2、A3,其中ID標記為記錄在表中的編號,{C1,C2,C3,C4,C5,C6}屬于背景知識屬性,{A1,A2,A3}屬于恐怖行為。其中,1表示包含該屬性,0表示不包含。
二、訓練多標簽決策樹和隨機游走模型為基分類器的多標簽分類模型
將樣本數據集分為訓練數據集和測試數據集,使用訓練樣本訓練多標簽決策樹和隨機游走模型。
1、本實施例中訓練多標簽決策樹的具體步驟如下:
(1)選擇背景屬性關聯重要度為分裂條件:選擇當前最大值屬性作為分類屬性。反復迭代得到多標簽決策樹模型。背景屬性關聯重要度的計算表達式為:
(2)計算訓練集中每個標簽的概率并作為相應標簽權重增加因子:假設訓練集的對象為Xt,類別標簽Ai的權重為
2、本實施例中訓練多標簽隨機游走模型的具體步驟如下:
(1)將訓練數據集映射成為多標簽隨機游走圖G:將訓練集中的每個訓練實例Xi∈X映射成為圖中的一個點Xi,如果兩個訓練實例Xi、Xj具有相同的標簽,則將這兩個訓練實例對應的頂點Xi、Xj相連。
(2)計算隨機游走圖G上的權重矩陣并將權重矩陣轉化成鄰接矩陣,其中,權重矩陣中邊的權值Ca表示屬性,Xi,a表示第i個點的第a個屬性,Xj,a表示第j個點的第a個屬性;權重矩陣中元素的權重計算公式如下:獲得權重矩陣的各元素對Mij歸一化處理得到M'ij=(Mij-avg(Mij))/std{Mi},其中avg(Mij)代表Mij的平均值,std(Mi)代表Mi的標準偏差,最終得到鄰接矩陣中元素
三、使用測試集獲得基分類器的預測概率。將測試數據集分別在兩個分類模型中進行測試,獲得每個基分類器的預測概率。本實施例中具體包括以下步驟:
1、獲得多標簽決策樹中預測標簽的權重因子:在多標簽決策樹預測實例的過程中將所有的標簽設置相同的基礎權重因子其中從樹的根節(jié)點開始,根據測試屬性選擇分支,到達葉節(jié)點,得到標簽預測結果R=(r1,r2,...,rm)(其中,ri為0或1,1表示標簽被命中,0表示未被命中)。根據R生成m×m矩陣R’,使R’ii=ri(ri∈R),其他元素為0。然后,統(tǒng)計每種標簽在訓練數據集中出現的頻次,構成矩陣F=(f1,f2,...,fm)。那么,每個標簽的權重增加因子Δw=R’FT/t(t為實例的總數),修改權重因子wA=wA+Δw。
2、使用隨機游走模型預測實例的類別標簽集合,包括以下步驟:
(1)構建多標簽隨機游走圖系列:輸入測試實例X,將X記作U,隨機游走過程將以U為起點構成多標簽隨機游走圖系列,T={Gk|k=1,2,...,m},其中Gk=(Vk,Ek),Vk=V∪{U},Ek=E∪{(U,Xi)|Ak∈Yi,1≤i≤m}。
(2)初始化初始概率分布向量s0,跳轉發(fā)生概率α,發(fā)生跳轉時跳轉到圖中每個頂點的概率分布向量d。
初始概率分布向量s0,首先計算s'0,s'0是一個m維向量,它的第i個元素為然后對該s'0進行歸一化處理得到s0。
跳轉發(fā)生概率:本實施例中α設置為0.15。
發(fā)生跳轉時跳轉到圖中每個頂點的概率分布向量d:設從某個頂點出發(fā)跳轉到圖中任意一個頂點的概率是相等的,得到隨機跳轉到每個頂點的概率分布向量
(3)隨機游走過程:輸入(2)各參數,迭代更新輸出概率分布向量s,直到s收斂。s計算公式如下:s=(1-α)pTs0+αd,0<α<1。
(4)運用條件概率模型得到標簽概率分布結果:根據條件概率模型,數據X具有標簽λk的概率為:其中,先驗概率p(X<Ak)使用U點和具有標簽Ak的數據對應頂點的平均距離計算。最終將概率進行歸一化處理得到最終的概率分布結果
四、組合基分類器Ci的分類結果。本實施例中,如附圖2所示,組合基分類器Ci的分類結果采用加權組合概率函數實施,首先在決策樹基分類器中通過測試數據獲得標簽的權重因子wA=wA+Δw。將該權重因子中的每個權值與隨機游走模型對應的標簽概率加權組合,即p=wApA,其中獲得的結果進行歸一化處理pi=(pi-avgp)/std{p},本實施例中pi的閾值k設置為0.375,pi概率大于該閾值的預測為該測試實例的預測恐怖行為集。
以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明所述原理的前提下,還可以進行多種變化、修改、替換和變型,均應視為本發(fā)明的保護范圍。