本發(fā)明涉及視頻異常檢測,尤其涉及一種基于因果正態(tài)性學習的視頻異常檢測方法。
背景技術:
1、視頻異常檢測(videoanomaly?detection,vad)旨在利用深度學習技術自動分析監(jiān)控視頻的時空模式以檢測任何可能造成人身傷害或經濟損失的異常事件,比如交通事故、違規(guī)操作和暴力行為等,在公共安全防護和信息取證等領域具有廣闊的應用前景。由于現(xiàn)實世界中異常實例的多樣性和相較于正常事件的低頻性,收集數(shù)量充足的所有種類的異常用于建模是不現(xiàn)實的,因此現(xiàn)有方法通常將vad視為一個半監(jiān)督的分布外檢測任務。此類方法無需收集和標注異常樣本,僅使用易于收集的常規(guī)事件(負樣本,標簽為0)來訓練深度神經網絡以表征正常視頻的原型時空模式,即正態(tài)性,在測試階段通過衡量輸入樣本與學習到的正態(tài)性之間的偏差來定量計算異常分數(shù)。然而,此類深度學習方法旨在建立常規(guī)事件與負標簽之間的統(tǒng)計關聯(lián),缺乏對正態(tài)性學習的因果關系的探索,使得訓練好的深度神經網絡模型可能由于泛化性能過強而具備表征異常樣本的能力進而導致漏檢。
2、盡管近年來記憶網絡被引入到vad中以削弱深度模型對未曾見過的異常的表征能力,但是改進后的模型仍僅能處理單一場景的監(jiān)控視頻,無法應對多樣化正常事件中的標簽無關的數(shù)據(jù)偏置,在面對多場景數(shù)據(jù)時導致高誤報率。研究者提出使用目標檢測或實例分割模型來將值得關注的前景目標從背景場景中剝離并單獨分析其外觀和運動模式來學習正態(tài)性,但是額外的數(shù)據(jù)處理工作使得模型的計算和存儲成本顯著增加。此外,目標級方法需要預先定義所有前景目標,這對于涉及多種主體的復雜場景或者未知的新場景而言是不現(xiàn)實的。相比之下,因果性學習嘗試挖掘數(shù)據(jù)域標簽之間的潛在因果關系,在域適應等任務中已被證明相較于深度學習建立的統(tǒng)計關聯(lián)更加有效。盡管已有研究將因果性引入到vad任務,但是其依舊未考慮現(xiàn)世界中普遍存在的場景偏置,僅在單一場景數(shù)據(jù)集上表現(xiàn)良好而在面對多場景或者新場景時遭遇顯著的性能下降。
技術實現(xiàn)思路
1、為了解決上述技術問題,本發(fā)明提出一種基于因果正態(tài)性學習的視頻異常檢測方法,利用因果表征學習來提高視頻異常檢測在多場景環(huán)境等現(xiàn)實設定下的檢測性能,以解決深度表征學習方法由于場景偏執(zhí)等標簽無關數(shù)據(jù)偏置導致的高誤報等問題,顯著提升無監(jiān)督vad方法在現(xiàn)實應用中的可部署性,為多場景vad提供了新的解決方案。
2、為了達到上述目的,本發(fā)明的技術方案如下:
3、一種基于因果正態(tài)性學習的視頻異常檢測方法,包括如下步驟:
4、獲取多場景的監(jiān)控視頻并裁剪為統(tǒng)一尺寸的b幀連續(xù)片段作為訓練樣本;
5、構建crcl模型,所述crcl模型包括m1場景編碼器、m3運動感知特征抽取器、場景去偏學習模塊、因果性啟發(fā)正態(tài)性學習模塊和m5聚類模塊,所述場景去偏學習模塊包括m2-1場景分類器和m2-2場景分類器,所述因果性啟發(fā)正態(tài)性學習模塊包括m4-1記憶網絡、m4-2原型分解器和m4-3因果性啟發(fā)的表征器,將訓練樣本輸入crcl模型中訓練,計算相關性矩陣和損失函數(shù)并利用梯度反向傳播優(yōu)化模型參數(shù);達到預設輪次后,通過m5聚類模塊計算因果表征的聚類中心并最小化聚類損失來求最佳簇;反復進行輪次訓練,直至訓練中相鄰兩輪迭代之間損失函數(shù)的下降值滿足設定閾值或達到最大迭代次數(shù)停止訓練,輸出訓練好的crcl模型;
6、將待檢測視頻輸入訓練好的crcl模型中的m3運動感知特征抽取器、因果性啟發(fā)正態(tài)性學習模塊和m5聚類模塊,計算與學習到的因果表征一致性的偏差并計算范圍為[0,1]的異常分數(shù),若異常分數(shù)大于設定閾值,則所述待檢測視頻為不正常事件。
7、優(yōu)選地,還包括如下步驟,判定為不正常事件后,啟動語音報警機制以提醒管理人員注意并自動截取和存儲相應的片段。
8、優(yōu)選地,所述crcl模型的處理過程,具體包括如下步驟:
9、m1場景編碼器和m3運動感知特征抽取器以同一批次b個視頻片段為輸入,分別輸出場景特征fsce和糾纏表征fent;
10、m4-1記憶網絡以fent為輸入來更新記憶條目并輸出原型特征f',m4-2原型分解器以fent和f'為輸入來計算私有特征fp和共享特征fs,所述私有特征fp和共享特征fs被同時輸入給m4-3因果性啟發(fā)的表征器來計算對應的因果表征和相關性矩陣,m5聚類模塊以因果表征為輸入來計算聚類中心;
11、m2-1場景分類器以場景特征fsce為輸入來執(zhí)行場景分類,m2-2場景分類器以fent為輸入來執(zhí)行場景分類;場景特征fsce輸入因果性啟發(fā)正態(tài)性學習模塊并確定與糾纏表征fent產生的相關性矩陣的差異以模擬tde過程來去除場景偏置。
12、優(yōu)選地,所述m4-1記憶網絡以fent為輸入來更新記憶條目并輸出原型特征f',m4-2原型分解器以fent和f'為輸入來計算私有特征fp和共享特征fs,所述私有特征fp和共享特征fs被同時輸入給m4-3因果性啟發(fā)的表征器來計算對應的因果表征和相關性矩陣,具體包括如下步驟:
13、m4-2原型分解器包括兩個池化操作和兩個結構相同的多層感知機,兩個結構相同的多層感知機,由3層全連接網絡構成且以sigmoid為最后一層的激活函數(shù);糾纏表征fent和原型特征f'沿著通道維度分別進行平均池化和全局池化,得到favg,f'avg,fmax,f'max,然后輸入到多層感知機中計算差異性系數(shù)α和β:
14、α=mlp(favg-f′avg;θ1),β=mlp(fmax-f′max;θ2)
15、其中mlp表示用于計算差異性系數(shù)α和β的多層感知機,其對應的可學習參數(shù)分別記為θ1和θ2;
16、沿著通道維度進行乘法操作,計算得到私有特征fp和共享特征fs:
17、
18、m4-3因果性啟發(fā)的表征器由深度神經網絡構成,以同一批次b個視頻片段的fp和fs為輸入,利用二者指向同一常規(guī)事件進而具有相同語義標簽的特征來計算因果表征,過程如下所示:
19、
20、其中r和分別表示fs和fp的因果表征,維度均為b×n,因果性損失來優(yōu)化m4-3因果性啟發(fā)的表征器,公式如下:
21、
22、其中c1,c2,c3分別表示的對應列向量的相關性矩陣,即c1(i,j)表示r的第i列與的第j列向量之間的余弦相關性,相關性矩陣的維度為n×n,i是單元矩陣,λ為平衡超參數(shù)。
23、優(yōu)選地,所述m2-1場景分類器以場景特征fsce為輸入來執(zhí)行場景分類,m2-2場景分類器以fent為輸入來執(zhí)行場景分類;場景特征fsce輸入因果性啟發(fā)正態(tài)性學習模塊并確定與糾纏表征fent產生的相關性矩陣的差異以模擬tde過程來去除場景偏置,具體如下步驟:
24、在收到來自同一批次b個視頻片段的場景特征后,m2-1場景分類器在場景標簽的監(jiān)督下通過以下交叉熵損失函數(shù)進行參數(shù)優(yōu)化:
25、
26、其中yij表示樣本i是否屬于類別j,其中0表示屬于而1表示不屬于,pij表示m2-1場景分類器預測的樣本i屬于類別j的概率,ns表示數(shù)據(jù)集中所包含的場景總數(shù);m2-2場景分類器以糾纏表征fent為輸入,通過分類任務來執(zhí)行互學習以感知fent中的場景偏置:
27、
28、其中和分別表示m2-1場景分類器和m2-2場景分類器的場景分類概率;
29、通過模擬tde過程來消除fent中的偏置,將fsce也輸入到cinl中計算相關性矩陣,記為{c'1,c'2,c'3},場景去偏學習的優(yōu)化方程如下:
30、min(d({c1,c2,c3},i)-d({c′1,c′2,c′3},i)+ε,0)
31、其中d()表示距離度量函數(shù),ε為控制最小距離的裕度參數(shù)。
32、優(yōu)選地,所述異常分數(shù)st,計算公式:
33、
34、其中d表示輸入樣本的因果表征與最近的聚類中心的距離,而g()表示在同一視頻的所有幀的偏離上執(zhí)行最大最小歸一化。
35、基于上述技術方案,本發(fā)明的有益效果是:
36、1)本發(fā)明利用因果表征學習來挖掘正態(tài)性學習的潛在因果性,提升了模型在單場景真實監(jiān)控視頻上的檢測性能:本發(fā)明利用運動感知特征抽取器來獲取監(jiān)控視頻的時空特征并利用因果性啟發(fā)正態(tài)性學習模塊來挖掘因果正態(tài)性,相較于基于重建或預測的深度表征學習方法可以消除非因果變量的影響,在高效描述常規(guī)事件和有限地泛化異常實例之間取得了更佳的平衡。在單一場景數(shù)據(jù)集ucsd?ped2和cuhkavenue上的測試表明所提因果表征一致性學習分別取得了99.1%和92.9%的幀級auc,優(yōu)于當前最佳的深度學習方法,比如stm-ae(98.1%,89.8)、hn-mum(97.1%,88.2%)和maam-net(97.7%,90.9%);
37、2)本發(fā)明提出場景去偏學習來消除場景偏執(zhí)并學習正態(tài)性內生特征,顯著提高在多場景數(shù)據(jù)集上的檢測性能:本發(fā)明構建了用于場景魯棒vad的結構因果模型并提出場景去偏學習來消除深度編碼器獲取的時空表征中所糾纏的場景偏置。場景去偏學習為因果性啟發(fā)正態(tài)性學習模塊提供了更具有判別性的正態(tài)性內生特征以用于后續(xù)建模學習,顯著提升了crcl在現(xiàn)實環(huán)境下的部署潛能。在多場景數(shù)據(jù)集shanghaitech(含13個場景)的定量實驗結果表明所提crcl的幀級auc為81.7%,領先現(xiàn)有深度表征學習方法至少6%。此外,crcl在基于ucsd?ped2h和cuhkavenue的混合數(shù)據(jù)集上實現(xiàn)了77.3%的幀級auc,而目前最先進的深度vad模型(stm-ae)僅為68.3%,展示出所提crcl在處理具有場景偏執(zhí)的視頻時的顯著優(yōu)勢;
38、3)本發(fā)明利用因果一致性而非重建或預測誤差來檢測視頻異常,不僅提升模型對微小異常的檢測能力還顯著減少模型訓練對大量正常視頻的依賴:深度學習方法通常需要使用大量的正常視頻來訓練生成式模型表征常規(guī)事件的時空模式,并在測試階段將不可被有效表征(即造成較大的重建與預測誤差)的樣本視為異常,然而其成立的前提是模型能夠學習到任意常規(guī)事件的原型模式,因此通常需要數(shù)量充足的各種可能的正常視頻用于模型訓練。而本發(fā)明提出的crcl利用特征的標簽一致性和因果原則來學習視頻正態(tài)性,實驗表明所提方法在僅有有限正常視頻可用時仍可學習到高性能的檢測模型。在cuhkavenue數(shù)據(jù)集上的案例研究證明crcl在僅有80%和50%訓練數(shù)據(jù)可用時的幀級auc分別為92.1%和90.1%,下降分別為0.8%和2.8%,優(yōu)于stm-ae的1.6%與10.6%的降幅。