本申請涉及計算機,尤其涉及一種對比語言圖像模型的訓練方法、裝置、電子設備及介質。
背景技術:
1、對比語言-圖像預訓練模型(contrastive?language-image?pretraining,clip)通過對比學習的方式,有效地融合了圖像和文本的語義信息,成為領先的視覺語言預訓練模型。clip的這一特性使其在圖像識別、視覺問題解答和圖像描述生成等多個多模態(tài)任務中展現出卓越的性能。盡管如此,大型的clip模型由于資源消耗較大,難以在資源受限的環(huán)境中部署。而小型的clip模型雖然資源消耗較小,但其性能往往無法滿足實際應用的需求,這樣導致對比語言圖像模型在實際場景中應用受限。
技術實現思路
1、有鑒于此,本申請?zhí)峁┝艘环N對比語言圖像模型的訓練方法、裝置、電子設備及介質,以解決現有技術中對比語言圖像模型應用潛力受限的問題。
2、本申請的第一方面,提供了一種對比語言圖像模型的訓練方法,包括:獲取文本樣本和圖像樣本,文本樣本和圖像樣本相對應;根據第一對比語言圖像模型,分別對文本樣本和圖像樣本進行處理,得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征;根據第二對比語言圖像模型,分別對文本樣本和圖像樣本進行處理,得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征;基于第一文本樣本特征和第二文本樣本特征構建第一損失函數,基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數,基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數;基于第一損失函數、第二損失函數以及第三損失函數,對第二對比語言圖像模型進行訓練,得到訓練后的第二對比語言圖像模型。
3、本申請的第二方面,提供了一種對比語言圖像模型的訓練裝置,包括:獲取模塊,被配置為獲取文本樣本和圖像樣本,文本樣本和圖像樣本相對應;第一處理模塊,被配置為根據第一對比語言圖像模型,分別對文本樣本和圖像樣本進行處理,得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征;第二處理模塊,被配置為根據第二對比語言圖像模型,分別對文本樣本和圖像樣本進行處理,得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征;損失構建模塊,被配置為基于第一文本樣本特征和第二文本樣本特征構建第一損失函數,基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數,基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數;訓練模塊,被配置為基于第一損失函數、第二損失函數以及第三損失函數,對第二對比語言圖像模型進行訓練,得到訓練后的第二對比語言圖像模型。
4、本申請的第三方面,提供了一種電子設備,包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序,該處理器執(zhí)行計算機程序時實現上述方法的步驟。
5、本申請的第四方面,提供了一種介質,該介質存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現上述方法的步驟。
6、本申請采用的上述至少一個技術方案能夠達到以下有益效果:
7、通過獲取文本樣本和圖像樣本,文本樣本和圖像樣本相對應;根據第一對比語言圖像模型,分別對文本樣本和圖像樣本進行處理,得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征;根據第二對比語言圖像模型,分別對文本樣本和圖像樣本進行處理,得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征;基于第一文本樣本特征和第二文本樣本特征構建第一損失函數,基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數,基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數;基于第一損失函數、第二損失函數以及第三損失函數,對第二對比語言圖像模型進行訓練,得到訓練后的第二對比語言圖像模型。這樣,可以通過引入多個損失函數來衡量第一對比語言圖像模型和第二對比語言圖像模型之間特征對齊情況,優(yōu)化第二對比語言圖像模型的文本和圖像特征表示,使其能夠接近或匹配第一對比語言圖像模型的表現,基于此可以通過對比學習和知識蒸餾的方法,幫助第二對比語言圖像模型學習到第一對比語言圖像模型的知識,拓寬其在實際應用中的潛力,可以避免第一對比語言圖像模型因為資源消耗較大環(huán)境部署困難,第二對比語言圖像模型資源消耗較小但其性能無法滿足實際應用需求的問題,使得即使第二對比語言圖像模型就算在資源受限的情況下也可以保持較好的性能。
1.一種對比語言圖像模型的訓練方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述根據第二對比語言圖像模型,分別對所述文本樣本和所述圖像樣本進行處理,得到與所述文本樣本對應的第二文本樣本特征和與所述圖像樣本對應的第二圖像樣本特征,包括:
3.根據權利要求2所述的方法,其特征在于,所述對所述第三文本樣本特征進行擴展,得到第四文本樣本特征,包括:
4.根據權利要求2所述的方法,其特征在于,所述第二對比語言圖像模型還包括跨模態(tài)注意力模塊,所述基于所述第一文本樣本特征和所述第二文本樣本特征對所述第三圖像樣本特征進行跨模態(tài)學習,得到所述第二圖像樣本特征,包括:
5.根據權利要求1所述的方法,其特征在于,所述根據第一對比語言圖像模型,對所述文本樣本和所述圖像樣本進行處理,分別得到與所述文本樣本對應的第一文本樣本特征和與所述圖像樣本對應的第一圖像樣本特征,包括:
6.根據權利要求2所述的方法,其特征在于,所述基于所述第一損失函數、所述第二損失函數以及所述第三損失函數,對所述第二對比語言圖像模型進行訓練,得到訓練后的第二對比語言圖像模型,包括:
7.根據權利要求6所述方法,其特征在于,在所述對所述第二對比語言圖像模型進行訓練,得到訓練后的第二對比語言圖像模型之后,還包括:
8.一種對比語言圖像的訓練裝置,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器中并且可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現如權利要求1至7中任一項所述方法的步驟。
10.一種介質,所述介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現如權利要求1至7中任一項所述方法的步驟。