本發(fā)明屬于計算機視頻分類,涉及融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)、多媒體技術(shù)的蓬勃發(fā)展,每天都會有海量的視頻被記錄分享,人體動作作為表征視頻內(nèi)容的重要特征,對人體動作進行分析與識別成為視頻理解的關(guān)鍵與難點問題。當(dāng)前的數(shù)據(jù)集盡量涵蓋了各種動作,但與真實世界中行為仍然存在巨大差距,現(xiàn)有數(shù)據(jù)集內(nèi)收集的行人行為大多是由工作人員表演和模擬產(chǎn)生的,即使是從真實世界中提取的樣本集,也無法完全解決動作的多義性、不確定性等特點帶來的精度下降。
2、傳統(tǒng)的機器學(xué)習(xí)算法中,所有的訓(xùn)練樣本都是隨機呈現(xiàn)給模型的,忽略了數(shù)據(jù)樣本的各種復(fù)雜性和當(dāng)前模型的學(xué)習(xí)狀態(tài)?,F(xiàn)有的視頻動作識別方法主要集中于對模型修改,通過設(shè)計巧妙的模型來提升對人體行為的識別精度,忽視了數(shù)據(jù)集的質(zhì)量與訓(xùn)練方法的修改對于挖掘模型潛力的重要性。
3、因此,亟需研制一種新的訓(xùn)練方法,在現(xiàn)有數(shù)據(jù)集的場景下,縮小模擬數(shù)據(jù)和真實事件之間的鴻溝,更好地適應(yīng)實際極端場景中的動作識別。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是提供融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,解決了現(xiàn)有技術(shù)在處理高難度動作視頻時,對人體行為的識別精度低,而且不易于重用(復(fù)用)的問題。
2、本發(fā)明所采用的技術(shù)方案是,融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,按照以下步驟實施:
3、步驟1、從kinetics400數(shù)據(jù)集中提幀,獲取描述視頻的幀圖像;
4、步驟2、使用simplevqa視頻質(zhì)量評估算法,對處理后的數(shù)據(jù)集內(nèi)的所有視頻進行評估;
5、步驟3、使用fast?vqa視頻質(zhì)量評估算法,對處理后的數(shù)據(jù)集內(nèi)的所有視頻進行評估;
6、步驟4、將得到的視頻質(zhì)量評估分?jǐn)?shù)進行加權(quán)綜合,按照“退火”組織方法,進行數(shù)據(jù)子集劃分;
7、步驟5、修改video?swin?transformer模型的訓(xùn)練調(diào)度方法,當(dāng)模型收斂后訓(xùn)練方法開啟下一難度階段訓(xùn)練子集的調(diào)度,直至完成全部的kinetics400數(shù)據(jù)集。
8、本發(fā)明的有益效果是,一是將視頻質(zhì)量評估方法融合退火方法,提出一種新的深度學(xué)習(xí)模型訓(xùn)練方法,在保留原有處理速度的情況下,提高video?swin?transformer視頻動作識別模型在測試集的識別精度。二是將課程學(xué)習(xí)思想融入深度學(xué)習(xí)訓(xùn)練過程,這種課程組織機制訓(xùn)練可以較好地消除訓(xùn)練過程中對簡單知識的災(zāi)難性遺忘問題,挖掘videoswin?transformer模型面對高難度動作識別的識別潛力。
1.融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,其特征在于,按照以下步驟實施:
2.根據(jù)權(quán)利要求1所述的融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,其特征在于,步驟1中,具體過程是,
3.根據(jù)權(quán)利要求1所述的融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,其特征在于,步驟2中,具體過程是,
4.根據(jù)權(quán)利要求1所述的融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,其特征在于,步驟3中,具體過程是,
5.根據(jù)權(quán)利要求1所述的融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,其特征在于,步驟4中,具體過程是,
6.根據(jù)權(quán)利要求1所述的融合退火方式的視頻分類模型課程學(xué)習(xí)訓(xùn)練方法,其特征在于,步驟5中,具體過程是,