本發(fā)明屬于跨模態(tài)檢索,特別是涉及一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法。
背景技術(shù):
1、哈薩克語圖文檢索研究作為信息科學(xué)、計(jì)算機(jī)科學(xué)與語言學(xué)的交叉領(lǐng)域,面臨著諸多挑戰(zhàn)。首先,哈薩克語屬于阿爾泰語系,其語法結(jié)構(gòu)、詞匯構(gòu)成和表達(dá)習(xí)慣都獨(dú)具特色,這為構(gòu)建精準(zhǔn)的圖像理解和文本檢索模型帶來了難度。此外,相較于資源豐富的語言,哈薩克語的信息資源相對(duì)匱乏,語料庫(kù)、詞典等資源的不足限制了哈薩克語圖文檢索系統(tǒng)的性能。這些挑戰(zhàn)都表明,構(gòu)建一個(gè)能夠深度理解哈薩克語圖文數(shù)據(jù)的圖文檢索關(guān)鍵技術(shù)具有挑戰(zhàn)性。
2、近年來,視覺和語言聯(lián)合的多模態(tài)表示學(xué)習(xí)推動(dòng)了預(yù)訓(xùn)練模型的發(fā)展,如efficientclip、clip-adapter和blip-2等。尤其是通過對(duì)比學(xué)習(xí)對(duì)齊圖像和文本特征的clip模型,clip在零樣本視覺語言任務(wù)上具有最先進(jìn)的性能。盡管這些模型具有良好的泛化能力,但訓(xùn)練clip等模型需要大量的數(shù)據(jù)和計(jì)算資源。大模型訓(xùn)練通常需要數(shù)億個(gè)圖像-文本對(duì)進(jìn)行訓(xùn)練。目前圖文數(shù)據(jù)集只涉及英語、漢語、西班牙語等高資源語言,缺乏外國(guó)哈薩克語等低資源語言的圖文資料庫(kù)。
3、隨著機(jī)器翻譯(mt)的流行,通過mt生成偽視覺和目標(biāo)語言對(duì),并建立它們之間的對(duì)應(yīng)關(guān)系成為一種解決方案。具體而言,使用大量視覺數(shù)據(jù)和翻譯后的目標(biāo)語言圖文對(duì)(v+t)對(duì)模型進(jìn)行預(yù)訓(xùn)練,但是這種方法忽略了翻譯噪聲的影響。
4、盡管當(dāng)前在多語言跨模態(tài)檢索領(lǐng)域已經(jīng)取得了一定的進(jìn)展,但針對(duì)哈薩克語的圖文檢索工作仍存在一些不足之處:一方面,盡管多語言視覺語言模型實(shí)現(xiàn)了多種語言的視覺語言對(duì)齊,但由于在預(yù)訓(xùn)練階段不同語言數(shù)據(jù)的不平衡,預(yù)訓(xùn)練模型傾向于資源豐富語言的視覺文本對(duì)齊,對(duì)低資源語言如哈薩克語的對(duì)齊性能較差。另一方面,現(xiàn)有研究通過機(jī)器翻譯得到非英語數(shù)據(jù),以滿足跨模態(tài)檢索任務(wù)的需求。然而,這類方法忽略了機(jī)器翻譯中的噪音問題,這種翻譯偏差將會(huì)導(dǎo)致在圖文對(duì)齊過程中,文本內(nèi)容無法準(zhǔn)確對(duì)齊相應(yīng)的圖像,從而降低了最終的圖文檢索效果。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是提供一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,以解決上述現(xiàn)有技術(shù)存在的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,包括:
3、獲取圖文訓(xùn)練數(shù)據(jù),所述圖文訓(xùn)練數(shù)據(jù)包括文字描述及對(duì)應(yīng)的圖像,所述文字描述包括源語言標(biāo)題及對(duì)應(yīng)的目標(biāo)語言標(biāo)題,所述源語言標(biāo)題為英語標(biāo)題,所述目標(biāo)語言標(biāo)題為哈薩克語標(biāo)題;
4、基于英語源語言編碼器的模型參數(shù)構(gòu)建目標(biāo)語言編碼器,并在所述目標(biāo)語言編碼器中嵌入噪聲過濾模型;
5、基于所述英語源語言編碼器和圖像編碼器之間的圖文對(duì)齊知識(shí)和所述圖文訓(xùn)練數(shù)據(jù)對(duì)目標(biāo)語言編碼器進(jìn)行知識(shí)遷移和訓(xùn)練,得到訓(xùn)練后的目標(biāo)語言編碼器;
6、基于所述圖像編碼器和訓(xùn)練后的目標(biāo)語言編碼器構(gòu)建哈薩克語圖文檢索模型,基于所述哈薩克語圖文檢索模型進(jìn)行哈薩克語圖文檢索。
7、可選的,所述目標(biāo)語言標(biāo)題的獲取過程,具體包括:
8、基于機(jī)器翻譯的方式對(duì)所述源語言標(biāo)題進(jìn)行翻譯,得到所述目標(biāo)語言標(biāo)題。
9、可選的,所述英語源語言編碼器是基于xlm-robertabase模型構(gòu)建的,所述圖像編碼器是基于openclipvit-b模型構(gòu)建的。
10、可選的,基于所述英語源語言編碼器和圖像編碼器之間的圖文對(duì)齊知識(shí)和所述圖文訓(xùn)練數(shù)據(jù)對(duì)目標(biāo)語言編碼器進(jìn)行知識(shí)遷移和訓(xùn)練,具體包括:
11、將源語言輸入英語源語言編碼器中進(jìn)行文本特征提取,得到源語言文本特征,將對(duì)應(yīng)圖像輸入所述圖像編碼器中進(jìn)行圖像特征提取,得到圖像特征,將哈薩克語文本輸入所述目標(biāo)語言編碼器中,通過噪聲過濾模型對(duì)輸入的哈薩克語文本進(jìn)行過濾,得到過濾數(shù)據(jù),對(duì)所述過濾數(shù)據(jù)進(jìn)行文本特征提取,得到目標(biāo)語言文本特征;
12、基于對(duì)比學(xué)習(xí)策略對(duì)齊所述目標(biāo)語言編碼器輸出的目標(biāo)語言特征與所述圖像編碼器輸出的圖像特征;
13、將所述目標(biāo)語言編碼器輸出的目標(biāo)語言特征與所述英語源語言編碼器輸出的源語言特征進(jìn)行對(duì)齊;
14、基于雙向kl散度損失將英語源語言編碼器和所述圖像編碼器之間的圖文對(duì)齊知識(shí)遷移至所述目標(biāo)語言編碼器中,得到訓(xùn)練后的目標(biāo)語言編碼器。
15、可選的,所述噪聲過濾模型的處理過程,具體包括:
16、提取所述英語源語言編碼器中的源語言正確語義特征;
17、基于注意力機(jī)制和源語言正確語義特征篩選哈薩克語中的正確語義特征,得到所述過濾數(shù)據(jù)。
18、可選的,所述哈薩克語圖文檢索模型的訓(xùn)練過程,具體包括:
19、將源語言文本輸入英語源語言編碼器進(jìn)行特征提取,得到源語言文本特征,將哈薩克語文本輸入目標(biāo)語言編碼器進(jìn)行特征過濾和提取,得到哈薩克語文本特征,將圖像輸入到圖像編碼器中進(jìn)行圖像特征提取,得到對(duì)應(yīng)圖像特征,計(jì)算所述目標(biāo)語言特征和圖像特征之間的跨模態(tài)損失,計(jì)算所述源語言特征和目標(biāo)語言特征之間的跨語言損失,計(jì)算三者特征之間的雙向kl散度損失,最后將三個(gè)損失加權(quán)之和作為最終損失,以所述最終損失最小化為目標(biāo)進(jìn)行訓(xùn)練,得到訓(xùn)練后的哈薩克語圖文檢索模型。
20、本發(fā)明的技術(shù)效果為:
21、本發(fā)明基于人工和機(jī)器翻譯方式構(gòu)建外國(guó)哈薩克語圖文數(shù)據(jù)集,為研究外國(guó)哈薩克語的ai智能分析相關(guān)工作提供數(shù)據(jù)基礎(chǔ)。
22、本發(fā)明采用知識(shí)遷移方法,提取預(yù)訓(xùn)練模型在英語上的豐富語言無關(guān)對(duì)齊知識(shí),將其遷移至哈薩克語編碼器中,增強(qiáng)其和視覺編碼器的對(duì)齊能力,提高當(dāng)前圖文檢索任務(wù)在外國(guó)哈薩克語上的檢索精度。
23、本發(fā)明面對(duì)翻譯噪音問題,采用基于注意力機(jī)制思想構(gòu)建的噪音過濾模塊(nfm),過濾帶有翻譯噪音的哈薩克語文本。再通過跨語言對(duì)齊方式,加強(qiáng)哈薩克語文本特征與英語文本特征,增強(qiáng)模型對(duì)翻譯噪音的魯棒性。
1.一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,其特征在于,所述目標(biāo)語言標(biāo)題的獲取過程,具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,其特征在于,所述英語源語言編碼器是基于xlm-roberta?base模型構(gòu)建的,所述圖像編碼器是基于openclipvit-b模型構(gòu)建的。
4.根據(jù)權(quán)利要求1所述的一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,其特征在于,基于所述英語源語言編碼器和圖像編碼器之間的圖文對(duì)齊知識(shí)和所述圖文訓(xùn)練數(shù)據(jù)對(duì)目標(biāo)語言編碼器進(jìn)行知識(shí)遷移和訓(xùn)練,具體包括:
5.根據(jù)權(quán)利要求4所述的一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,其特征在于,所述噪聲過濾模型的處理過程,具體包括:
6.根據(jù)權(quán)利要求1所述的一種基于遷移學(xué)習(xí)的哈薩克語圖文檢索方法,其特征在于,所述哈薩克語圖文檢索模型的訓(xùn)練過程,具體包括: