本發(fā)明涉及深度學(xué)習(xí)?,尤其涉及一種基于視覺語言模型的電路習(xí)題分類方法、裝置及電子設(shè)備。
背景技術(shù):
1、在教育領(lǐng)域,特別是在教師教學(xué)和學(xué)生學(xué)習(xí)的過程中,電路習(xí)題的知識點分類是非常重要的,然而,由于電路知識的高度專業(yè)性和電路題目的復(fù)雜性,識別和分類電路習(xí)題的知識點成為一項繁瑣且費時的任務(wù)。
2、受限于訓(xùn)練數(shù)據(jù),國際最強的通用多模態(tài)模型gpt4v、claude3均無法針對電路學(xué)科的圖像進行知識點的分類。
3、因此,如何解決現(xiàn)有技術(shù)無法針對電路習(xí)題進行快速且準確的分類問題,是深度學(xué)習(xí)領(lǐng)域亟待解決的重要課題。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供一種基于視覺語言模型的電路習(xí)題分類方法、裝置及電子設(shè)備,用以克服現(xiàn)有技術(shù)無法針對電路習(xí)題進行快速且準確的分類的缺陷,實現(xiàn)電路習(xí)題的快速、準確分類。
2、一方面,本發(fā)明提供基于視覺語言模型的電路習(xí)題分類方法,包括:獲取待進行分類的電路習(xí)題;基于預(yù)先訓(xùn)練的視覺語言模型,預(yù)測得到所述電路習(xí)題對應(yīng)的知識點類別;其中,所述視覺語言模型基于預(yù)訓(xùn)練模型根據(jù)題圖及其對應(yīng)的知識點標簽構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進行微調(diào)得到。
3、進一步地,微調(diào)所述視覺語言模型,具體包括:收集來自不同分布域的原始習(xí)題集;對所述原始習(xí)題集進行預(yù)處理,得到訓(xùn)練樣本數(shù)據(jù)集,所述訓(xùn)練樣本數(shù)據(jù)集中每一個訓(xùn)練樣本均包括題圖及其對應(yīng)的知識點標簽,所述題圖包括題干和配圖;將所述訓(xùn)練樣本數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集;根據(jù)所述訓(xùn)練集、驗證集和測試集,分別對所述預(yù)訓(xùn)練模型進行微調(diào)和測試,得到預(yù)先訓(xùn)練的視覺語言模型。
4、進一步地,所述對所述原始習(xí)題集進行預(yù)處理,得到訓(xùn)練樣本數(shù)據(jù)集,包括:將所述原始習(xí)題集轉(zhuǎn)換為可編輯文本,并從所述可編輯文本中提取出電路原理習(xí)題;根據(jù)所述電路原理習(xí)題,從預(yù)存知識點庫中匹配對應(yīng)的知識點標簽,以得到所述訓(xùn)練樣本數(shù)據(jù)集。
5、進一步地,所述預(yù)存知識點庫至少包括二級知識點和三級知識點;其中,所述二級知識點下包含多個三級知識點。
6、進一步地,根據(jù)所述驗證集對所述預(yù)訓(xùn)練模型進行微調(diào)的步驟,具體包括:監(jiān)測所述預(yù)訓(xùn)練模型在驗證集上的性能指標;在所述性能指標不再提高或開始下降時提前終止訓(xùn)練。
7、進一步地,微調(diào)所述視覺語言模型,具體包括:收集來自不同分布域的原始習(xí)題集;對所述原始習(xí)題集進行預(yù)處理,得到訓(xùn)練樣本數(shù)據(jù)集,所述訓(xùn)練樣本數(shù)據(jù)集中每一個訓(xùn)練樣本均包括題圖及其對應(yīng)的知識點標簽,所述題圖包括題干、配圖以及配圖文本描述;將所述訓(xùn)練樣本數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集;根據(jù)所述訓(xùn)練集、驗證集和測試集,分別對所述預(yù)訓(xùn)練模型進行微調(diào)和測試,得到預(yù)先訓(xùn)練的視覺語言模型。
8、第二方面,本發(fā)明還提供一種基于視覺語言模型的電路習(xí)題分類裝置,包括:電路習(xí)題獲取模塊,用于獲取待進行分類的電路習(xí)題;電路習(xí)題分類模塊,用于基于預(yù)先訓(xùn)練的視覺語言模型,預(yù)測得到所述電路習(xí)題對應(yīng)的知識點類別;其中,所述視覺語言模型基于預(yù)訓(xùn)練模型根據(jù)題圖及其對應(yīng)的知識點標簽構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進行微調(diào)得到。
9、第三方面,本發(fā)明還提供一種電子設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述任一種所述的基于視覺語言模型的電路習(xí)題分類方法。
10、第四方面,本發(fā)明還提供一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的基于視覺語言模型的電路習(xí)題分類方法。
11、第五方面,本發(fā)明還提供一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述任一種所述的基于視覺語言模型的電路習(xí)題分類方法。
12、本發(fā)明提供的基于視覺語言模型的電路習(xí)題分類方法,通過獲取待進行分類的電路習(xí)題,并基于預(yù)先訓(xùn)練的視覺語言模型,預(yù)測得到電路習(xí)題對應(yīng)的知識點類別;其中,視覺語言模型基于預(yù)訓(xùn)練模型根據(jù)題圖及其對應(yīng)的知識點標簽構(gòu)成的訓(xùn)練樣本數(shù)據(jù)集進行微調(diào)得到。該方法通過視覺和文字兩種類型輸入的方式,以此辨識電路圖中的各類元件和拓撲結(jié)構(gòu),同時提取電路習(xí)題的題干中的關(guān)鍵信息,進而實現(xiàn)對電路習(xí)題的快速、準確分類。
1.一種基于視覺語言模型的電路習(xí)題分類方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于視覺語言模型的電路習(xí)題分類方法,其特征在于,微調(diào)所述視覺語言模型,具體包括:
3.根據(jù)權(quán)利要求2所述的基于視覺語言模型的電路習(xí)題分類方法,其特征在于,所述對所述原始習(xí)題集進行預(yù)處理,得到訓(xùn)練樣本數(shù)據(jù)集,包括:
4.根據(jù)權(quán)利要求3所述的基于視覺語言模型的電路習(xí)題分類方法,其特征在于,所述預(yù)存知識點庫至少包括二級知識點和三級知識點;其中,所述二級知識點下包含多個三級知識點。
5.根據(jù)權(quán)利要求2所述的基于視覺語言模型的電路習(xí)題分類方法,其特征在于,根據(jù)所述驗證集對所述預(yù)訓(xùn)練模型進行微調(diào)的步驟,具體包括:
6.根據(jù)權(quán)利要求1所述的基于視覺語言模型的電路習(xí)題分類方法,其特征在于,微調(diào)所述視覺語言模型,具體包括:
7.一種基于視覺語言模型的電路習(xí)題分類裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6中任一項所述的基于視覺語言模型的電路習(xí)題分類方法。
9.一種非暫態(tài)計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的基于視覺語言模型的電路習(xí)題分類方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6中任一項所述的基于視覺語言模型的電路習(xí)題分類方法。