本技術屬于多模態(tài)識別領域,更具體地,涉及一種動態(tài)修正的課堂學生狀態(tài)多模態(tài)識別方法及系統(tǒng)。
背景技術:
1、隨著教育信息化的不斷深入,在課堂上學生的狀態(tài)的實時監(jiān)測和具體評估分析成了評估學生上課狀態(tài)和提高教學質量的關鍵?,F(xiàn)有的技術在識別學生的狀態(tài)方面仍存在較多的局限。目前常用的手段是通過獲取課堂的視頻圖像進行圖像分析和圖像識別等,然而目前的圖像處理過程中由于多模態(tài)融合的復雜性、樣本獲取的困難性以及系統(tǒng)計算資源消耗等缺陷,導致課堂學生狀態(tài)識別過程中存在著識別結果不精確以及識別效率較差的問題。
2、因此,如何提高學生狀態(tài)識別的準確度和效率,是當前亟需解決的技術問題。
技術實現(xiàn)思路
1、針對現(xiàn)有技術的缺陷,本技術的目的在于提供一種動態(tài)修正的課堂學生狀態(tài)多模態(tài)識別方法及系統(tǒng),旨在解決課堂學生狀態(tài)識別準確度和效率不佳的問題。
2、第一方面,本技術提供了一種動態(tài)修正的課堂學生狀態(tài)多模態(tài)識別方法,包括:
3、本技術提供一種動態(tài)修正的課堂學生狀態(tài)多模態(tài)識別方法,包括:
4、獲取課堂內的視頻圖像,對所述視頻圖像進行人物檢測和截取,得到視頻中攜帶學生信息的截取圖像;
5、基于所述截取圖像對學生狀態(tài)進行分類,得到分類結果,基于所述截取圖像對學生身份進行識別,得到學生身份信息;
6、利用多模態(tài)大語言模型對所述分類結果進行動態(tài)修正,得到學生狀態(tài)時間軸;
7、基于所述學生身份信息和學生狀態(tài)時間軸進行學生狀態(tài)識別,得到課堂內學生的狀態(tài)識別結果和行為評價結果。
8、本技術通過人物檢測與截取、身份識別、狀態(tài)粗分類、多模態(tài)大語言模型修正以及狀態(tài)評價多個步驟,分步驟實現(xiàn)高效的人物檢測、精確的狀態(tài)分類、準確的身份識別和智能的動態(tài)修正,從多個不同的角度進行處理,有效地提高了對學生狀態(tài)的識別準確度和效率,并且先通過模型進行初步的檢測,再由多模態(tài)大語言模型進行修正,減少了計算資源的需求,進而提高了識別效率。
9、可選地,所述利用多模態(tài)大語言模型對所述分類結果進行動態(tài)修正之前,還包括:
10、根據(jù)每幀截取圖像的時間信息,確定學生的初始狀態(tài)時間軸;
11、所述利用多模態(tài)大語言模型對所述分類結果進行動態(tài)修正,得到學生狀態(tài)時間軸,包括:
12、判斷所述分類結果的置信度是否低于預設閾值;
13、在所述置信度低于所述預設閾值的情況下,對所述狀態(tài)時間軸進行標記,將標記對應的截取圖像輸入到多模態(tài)大語言模型中,得到學生的詳細狀態(tài)信息;
14、利用所述詳細狀態(tài)信息和修正前的初始狀態(tài)時間軸進行組合,得到修正后的學生狀態(tài)時間軸。
15、本技術通過用多模態(tài)大語言模型對分類結果進行動態(tài)修正,能夠在判斷置信度低于預設閾值時,進一步優(yōu)化狀態(tài)時間軸的準確性。通過將不確定的分類結果輸入模型,系統(tǒng)可以從多模態(tài)數(shù)據(jù)中獲取更多的語境信息,從而更準確地識別學生的狀態(tài)。
16、可選地,所述基于所述學生身份信息和學生狀態(tài)時間軸進行學生狀態(tài)識別,得到課堂內學生的狀態(tài)識別結果和行為評價結果,包括:
17、將所述學生身份信息和學生狀態(tài)時間軸輸入到所述多模態(tài)大語言模型中進行識別和評價,得到該學生的狀態(tài)識別結果和行為評價結果。
18、可選地,所述獲取課堂內的視頻圖像,對所述視頻圖像進行人物檢測和截取,得到視頻中攜帶學生信息的截取圖像,包括:
19、從攝像機中獲取課堂內的視頻圖像;
20、將所述視頻圖像輸入到人物檢測模型中,得到所述視頻圖像的檢測結果;
21、確定所述檢測結果為人物圖像,將所述人物圖像進行截取,得到多個攜帶學生信息的小圖像作為所述截取圖像。
22、可選地,所述基于所述截取圖像對學生狀態(tài)進行分類,得到分類結果,包括:
23、將所述截取圖像輸入到分類模型中,對學生狀態(tài)進行八分類,得到所述分類結果;
24、其中,所述分類模型是基于目標檢測技術yolo建立,并基于圖像樣本和所述圖像樣本對應的分類標簽進行訓練得到的。
25、可選地,所述基于所述截取圖像對學生身份進行識別,得到學生身份信息,包括:
26、將所述截取圖像輸入到識別模型中,對所述截取圖像對應的代碼進行識別,得到所述學生身份信息;
27、其中,所述識別模型是基于人臉識別算法arcface建立,收集所有學生的面部信息作為身份信息樣本,并基于所述身份信息樣本和所述身份信息樣本對應的識別標簽進行訓練得到的。
28、可選地,所述學生狀態(tài)八分類的分類結果包括:專注狀態(tài)、閱讀狀態(tài)、書寫狀態(tài)、睡眠狀態(tài)、環(huán)視狀態(tài)、舉手狀態(tài)、站立狀態(tài)以及休閑狀態(tài)。
29、第二方面,本技術還提供一種動態(tài)修正的課堂學生狀態(tài)多模態(tài)識別系統(tǒng),包括:
30、檢測與截取單元,用于獲取課堂內的視頻圖像,對所述視頻圖像進行人物檢測和截取,得到視頻中攜帶學生信息的截取圖像;
31、分類與識別單元,用于基于所述截取圖像對學生狀態(tài)進行分類,得到分類結果,基于所述截取圖像對學生身份進行識別,得到學生身份信息;
32、修正單元,用于利用多模態(tài)大語言模型對所述分類結果進行動態(tài)修正,得到學生狀態(tài)時間軸;
33、狀態(tài)評價單元,用于基于所述學生身份信息和學生狀態(tài)時間軸進行學生狀態(tài)識別,得到課堂內學生的狀態(tài)識別結果和行為評價結果。
34、第三方面,本技術提供一種電子設備,包括:至少一個存儲器,用于存儲程序;至少一個處理器,用于執(zhí)行存儲器存儲的程序,當存儲器存儲的程序被執(zhí)行時,處理器用于執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。
35、第四方面,本技術提供一種計算機可讀存儲介質,計算機可讀存儲介質存儲有計算機程序,當計算機程序在處理器上運行時,使得處理器執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。
36、第五方面,本技術提供一種計算機程序產(chǎn)品,當計算機程序產(chǎn)品在處理器上運行時,使得處理器執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。
37、可以理解的是,上述第二方面至第五方面的有益效果可以參見上述第一方面中的相關描述,在此不再贅述。
38、總體而言,通過本技術所構思的以上技術方案與現(xiàn)有技術相比,具有以下有益效果:
39、(1)本技術通過人物檢測與截取、身份識別、狀態(tài)粗分類、多模態(tài)大語言模型修正以及狀態(tài)評價多個步驟,分步驟實現(xiàn)高效的人物檢測、精確的狀態(tài)分類、準確的身份識別和智能的動態(tài)修正,從多個不同的角度進行處理,有效地提高了對學生狀態(tài)的識別準確度和效率,并且先通過模型進行初步的檢測,再由多模態(tài)大語言模型進行修正,減少了計算資源的需求,進而提高了識別效率。
40、(2)本技術通過人物檢測技術,可以準確識別課堂視頻中的學生,確保截取圖像與學生的相關性,從而提高了后續(xù)處理的效率和準確性,利用截取的學生圖像,對學生的狀態(tài)進行分類并結合人臉識別技術,可以準確識別學生的身份信息,通過多模態(tài)大語言模型可以結合學生的狀態(tài)分類結果和時間軸信息,動態(tài)修正學生的狀態(tài)識別結果,通過動態(tài)修正可以使得狀態(tài)識別更為精準和細致,進一步地提高學生狀態(tài)識別的準確度。
41、(3)本技術通過接入多模態(tài)大語言模型對學生整個上課狀態(tài)進行評價,對每個同學都能提供一個課堂狀態(tài)報告,有助于教學管理與評估。