對比語言圖像模型的訓練方法、裝置、電子設備及介質與流程

文檔序號：40527945發(fā)布日期：2024-12-31 13:38閱讀：12來源：國知局

本申請涉及計算機，尤其涉及一種對比語言圖像模型的訓練方法、裝置、電子設備及介質。

背景技術：

1、對比語言-圖像預訓練模型(contrastive?language-image?pretraining，clip)通過對比學習的方式，有效地融合了圖像和文本的語義信息，成為領先的視覺語言預訓練模型。clip的這一特性使其在圖像識別、視覺問題解答和圖像描述生成等多個多模態(tài)任務中展現出卓越的性能。盡管如此，大型的clip模型由于資源消耗較大，難以在資源受限的環(huán)境中部署。而小型的clip模型雖然資源消耗較小，但其性能往往無法滿足實際應用的需求，這樣導致對比語言圖像模型在實際場景中應用受限。

技術實現思路

1、有鑒于此，本申請?zhí)峁┝艘环N對比語言圖像模型的訓練方法、裝置、電子設備及介質，以解決現有技術中對比語言圖像模型應用潛力受限的問題。

2、本申請的第一方面，提供了一種對比語言圖像模型的訓練方法，包括：獲取文本樣本和圖像樣本，文本樣本和圖像樣本相對應；根據第一對比語言圖像模型，分別對文本樣本和圖像樣本進行處理，得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征；根據第二對比語言圖像模型，分別對文本樣本和圖像樣本進行處理，得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征；基于第一文本樣本特征和第二文本樣本特征構建第一損失函數，基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數，基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數；基于第一損失函數、第二損失函數以及第三損失函數，對第二對比語言圖像模型進行訓練，得到訓練后的第二對比語言圖像模型。

3、本申請的第二方面，提供了一種對比語言圖像模型的訓練裝置，包括：獲取模塊，被配置為獲取文本樣本和圖像樣本，文本樣本和圖像樣本相對應；第一處理模塊，被配置為根據第一對比語言圖像模型，分別對文本樣本和圖像樣本進行處理，得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征；第二處理模塊，被配置為根據第二對比語言圖像模型，分別對文本樣本和圖像樣本進行處理，得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征；損失構建模塊，被配置為基于第一文本樣本特征和第二文本樣本特征構建第一損失函數，基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數，基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數；訓練模塊，被配置為基于第一損失函數、第二損失函數以及第三損失函數，對第二對比語言圖像模型進行訓練，得到訓練后的第二對比語言圖像模型。

4、本申請的第三方面，提供了一種電子設備，包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序，該處理器執(zhí)行計算機程序時實現上述方法的步驟。

5、本申請的第四方面，提供了一種介質，該介質存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現上述方法的步驟。

6、本申請采用的上述至少一個技術方案能夠達到以下有益效果：

7、通過獲取文本樣本和圖像樣本，文本樣本和圖像樣本相對應；根據第一對比語言圖像模型，分別對文本樣本和圖像樣本進行處理，得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征；根據第二對比語言圖像模型，分別對文本樣本和圖像樣本進行處理，得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征；基于第一文本樣本特征和第二文本樣本特征構建第一損失函數，基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數，基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數；基于第一損失函數、第二損失函數以及第三損失函數，對第二對比語言圖像模型進行訓練，得到訓練后的第二對比語言圖像模型。這樣，可以通過引入多個損失函數來衡量第一對比語言圖像模型和第二對比語言圖像模型之間特征對齊情況，優(yōu)化第二對比語言圖像模型的文本和圖像特征表示，使其能夠接近或匹配第一對比語言圖像模型的表現，基于此可以通過對比學習和知識蒸餾的方法，幫助第二對比語言圖像模型學習到第一對比語言圖像模型的知識，拓寬其在實際應用中的潛力，可以避免第一對比語言圖像模型因為資源消耗較大環(huán)境部署困難，第二對比語言圖像模型資源消耗較小但其性能無法滿足實際應用需求的問題，使得即使第二對比語言圖像模型就算在資源受限的情況下也可以保持較好的性能。

技術特征：

1.一種對比語言圖像模型的訓練方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述根據第二對比語言圖像模型，分別對所述文本樣本和所述圖像樣本進行處理，得到與所述文本樣本對應的第二文本樣本特征和與所述圖像樣本對應的第二圖像樣本特征，包括：

3.根據權利要求2所述的方法，其特征在于，所述對所述第三文本樣本特征進行擴展，得到第四文本樣本特征，包括：

4.根據權利要求2所述的方法，其特征在于，所述第二對比語言圖像模型還包括跨模態(tài)注意力模塊，所述基于所述第一文本樣本特征和所述第二文本樣本特征對所述第三圖像樣本特征進行跨模態(tài)學習，得到所述第二圖像樣本特征，包括：

5.根據權利要求1所述的方法，其特征在于，所述根據第一對比語言圖像模型，對所述文本樣本和所述圖像樣本進行處理，分別得到與所述文本樣本對應的第一文本樣本特征和與所述圖像樣本對應的第一圖像樣本特征，包括：

6.根據權利要求2所述的方法，其特征在于，所述基于所述第一損失函數、所述第二損失函數以及所述第三損失函數，對所述第二對比語言圖像模型進行訓練，得到訓練后的第二對比語言圖像模型，包括：

7.根據權利要求6所述方法，其特征在于，在所述對所述第二對比語言圖像模型進行訓練，得到訓練后的第二對比語言圖像模型之后，還包括：

8.一種對比語言圖像的訓練裝置，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器以及存儲在所述存儲器中并且可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述計算機程序時實現如權利要求1至7中任一項所述方法的步驟。

10.一種介質，所述介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現如權利要求1至7中任一項所述方法的步驟。

技術總結
本申請涉及計算機技術領域，提供了一種對比語言圖像模型的訓練方法、裝置、電子設備及介質。該方法包括：獲取文本樣本和圖像樣本；根據第一對比語言圖像模型，得到與文本樣本對應的第一文本樣本特征和與圖像樣本對應的第一圖像樣本特征；根據第二對比語言圖像模型，得到與文本樣本對應的第二文本樣本特征和與圖像樣本對應的第二圖像樣本特征；基于第一文本樣本特征和第二文本樣本特征構建第一損失函數，基于第一圖像樣本特征和第二圖像樣本特征構建第二損失函數，基于第二文本樣本特征和第二圖像樣本特征構建第三損失函數；對第二對比語言圖像模型進行訓練，得到訓練后的第二對比語言圖像模型。本申請解決對比語言圖像模型應用潛力受限的問題。

技術研發(fā)人員：石雅潔
受保護的技術使用者：北京龍智數科科技服務有限公司
技術研發(fā)日：
技術公布日：2024/12/30

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：石雅潔
技術所有人：北京龍智數科科技服務有限公司
我是此專利的發(fā)明人

上一篇：一種塑料廢料回收利用破碎設備的制作方法
上一篇：多層次復合結構公路路基及其施工方法與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

對比語言圖像模型的訓練方法、裝置、電子設備及介質與流程

對比語言圖像模型的訓練方法、裝置、電子設備及介質與流程