欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

深度語義引導的無監(jiān)督多模態(tài)哈希檢索方法

文檔序號:40607324發(fā)布日期:2025-01-07 20:48閱讀:7來源:國知局
深度語義引導的無監(jiān)督多模態(tài)哈希檢索方法

本發(fā)明屬于多模態(tài)信息檢索領域,具體是涉及一種深度語義引導的無監(jiān)督多模態(tài)哈希檢索方法。


背景技術:

1、隨著信息爆炸和云計算的興起,跨模態(tài)哈希方法因其低存儲成本和快速檢索而在互聯(lián)網(wǎng)上高效檢索大量異構和高維數(shù)據(jù)的過程中受到越來越多研究人員的青睞。哈希技術可以將高維數(shù)據(jù)投影到緊湊的二進制哈希碼中。有了它,在多媒體檢索過程中最耗時的語義相似度計算可以通過快速漢明距離計算顯著加速,同時通過二進制嵌入可以大大降低存儲成本。同樣重要的是要注意,幾乎所有現(xiàn)有的跨模態(tài)哈希技術都將學習到的特征向量均勻地投影到漢明空間中,以進行語義和模態(tài)對齊,從而盡量減少模態(tài)間隙。

2、根據(jù)訓練階段采用的特征,當前的跨模態(tài)哈希技術可以分為非深度和深度技術。非深度方法學習的特征是手動提取的,原始數(shù)據(jù)的語義信息往往不夠全面,無法生成最佳的二進制哈希碼,從而限制了檢索性能。與非深度哈希方法相比,深度哈希方法利用神經網(wǎng)絡充分準確地捕獲原始數(shù)據(jù)的語義內容,提高了記錄特征的判別能力。鑒于深度神經網(wǎng)絡強大的非線性表示能力,近年來發(fā)表了許多關于基于深度的跨模態(tài)哈希技術的研究,如論文“song?g,zhang?w,wang?b.deep?cross-modal?hashing?with?contrast?learning?andfeature?fusion”中提出了一種結合圖像和文本數(shù)據(jù)的中級特征的方法,減輕了特征學習過程中的語義損失,并注意模式之間和模式內部的語義相關性?!皃eng?y,jiang?x,zhangn,et?al.graph?convolutional?networks?based?muti-label?deep?cross-modalhashing”引入圖卷積網(wǎng)絡來捕獲多個標簽的類相關性,并監(jiān)督哈希圖的訓練,以避免標簽中豐富的語義信息丟失。但當前的深度跨模態(tài)哈希技術仍然存在一些問題與挑戰(zhàn):許多深度跨模態(tài)哈希技術優(yōu)先考慮單個模態(tài)中的特征提取,忽視了模態(tài)間的相關性,導致特征表示不足。vlp模型(radford?a,kim?j?w,hallacy?c,et?al.learning?transferable?visualmodels?from?natural?language?supervision)的出現(xiàn)為解決這些問題提供了一條新的路徑。vlp(視覺-語言預訓練)模型通過在大規(guī)模的多模態(tài)數(shù)據(jù)集上進行聯(lián)合訓練,能夠捕捉到圖像和文本之間更深層次的語義關聯(lián)。這種模型不僅考慮了每個模態(tài)內部的特征提取,還通過共享的表示空間將不同模態(tài)的數(shù)據(jù)有效地融合在一起,從而實現(xiàn)了跨模態(tài)特征的高度一致性和語義對齊。雖然所使用的vlp模型擁有卓越的多模態(tài)處理能力,但其對超參數(shù)調整的大量要求和復雜的模型結構或高昂的計算成本使其無法用于大規(guī)模無監(jiān)督檢索任務。此外,實值空間與漢明空間之間的空間差距會對語義轉換的效率產生深遠影響。在許多實際應用中,例如圖像檢索、文本檢索等,數(shù)據(jù)通常以實值向量的形式存在于連續(xù)的實值空間中。實值向量空間具有連續(xù)性和較高的維度,而漢明空間則是由二進制碼組成的離散空間,通常用于存儲和計算時的緊湊表示;當數(shù)據(jù)從實值空間映射到漢明空間時,由于兩者的性質差異,可能會導致語義信息丟失,影響模型在檢索或分類任務中的效率。因此,如何在轉換過程中盡可能地保留原始數(shù)據(jù)的語義信息是一個重要的研究問題。


技術實現(xiàn)思路

1、為解決上述技術問題,本發(fā)明提供了深度語義引導的無監(jiān)督多模態(tài)哈希檢索方法,構建知識蒸餾技術在深度跨模態(tài)哈希模型(簡稱:skdh模型),主要包含教師模型和學生模型,教師模型采用vlp模型提供的強大模態(tài)交互信息,構建了一個相似矩陣和一個圖卷積神經網(wǎng)絡(gcn網(wǎng)絡),彌補了實值空間和漢明空間之間的語義差距;采用知識蒸餾的方式將教師模型中豐富語義信息傳遞給學生模型,通過從大型模型中提取哈希碼和細粒度語義信息來優(yōu)化學生模型,從而促進小型模型的高效學習,進而學生模型能夠繼承教師模型的優(yōu)良特性,而不需要復雜的模型結構或高昂的計算成本;學生模型在繼承教師模型的優(yōu)點的同時,避免了大規(guī)模模型的超參數(shù)調整壓力,從而更適用于實際應用中的大規(guī)模數(shù)據(jù)場景。對漢明距離設計優(yōu)化策略,確保在實值空間中的復雜語義關系在漢明空間中得到合理的量化和表達,避免實值空間到漢明空間的過度壓縮。

2、本發(fā)明所述的深度語義引導的無監(jiān)督多模態(tài)哈希檢索方法,包括以下步驟:

3、步驟1、獲取多模態(tài)數(shù)據(jù)集,并對多模態(tài)圖像數(shù)據(jù)集進行標準化處理;

4、步驟2、構建skdh模型,所述skdh模型中的教師模型通過vlp模型分別提取多模態(tài)數(shù)據(jù)集中圖像數(shù)據(jù)和文本數(shù)據(jù)的多模態(tài)特征,捕捉不同模態(tài)間的語義關聯(lián);

5、步驟3、基于提取的多模態(tài)特征構建相似矩陣并輸入圖卷積神經網(wǎng)絡gcn,生成二進制哈希碼;

6、步驟4、通過知識蒸餾增強skdh模型中的學生模型的能力,構建損失函數(shù),實現(xiàn)在不同模態(tài)之間精確的語義對齊;

7、步驟5、基于學生模型,優(yōu)化生成哈希碼的漢明距離分配策略,構建綜合目標函數(shù),實現(xiàn)精確檢索。

8、進一步地,步驟1具體為:

9、步驟1-1、獲取多模態(tài)數(shù)據(jù)集,數(shù)據(jù)集包括成對的圖像文本數(shù)據(jù)其中v表示圖像模態(tài),t表示文本模態(tài),vi代表第i個圖像數(shù)據(jù),ti代表第i個文本數(shù)據(jù),n為圖像文本對的總個數(shù),表示實數(shù)空間,dv表示圖像模態(tài)數(shù)據(jù)的維度;dt表示文本模態(tài)數(shù)據(jù)的維度;

10、步驟1-2、對多模態(tài)數(shù)據(jù)集進行數(shù)據(jù)預處理,將圖像縮放成256x256的尺寸,保持圖像的寬高比不變有助于標準化輸入圖像的大小,再從調整大小后的圖像中隨機裁剪出一個224×224像素的區(qū)域,使用給定的均值和標準差對圖像進行歸一化。

11、進一步地,步驟2具體為:利用vlp視覺模型提取多模態(tài)數(shù)據(jù)集中n個圖像數(shù)據(jù)的特征,構成圖像特征同時,利用vlp文本模型提取多模態(tài)數(shù)據(jù)集中n個文本數(shù)據(jù)的特征,構成文本特征通過vlp視覺模型和vlp文本模型,教師模型對圖像和文本之間的深層次語義關聯(lián)進行捕捉,為后續(xù)的哈希碼學習提供富含語義信息的特征表示。

12、進一步地,步驟3具體為:

13、步驟3-1、基于圖像特征和文本特征構建相似矩陣,包括兩部分,第一部分捕捉模態(tài)內相似性信息包含圖像自相似矩陣sv和文本自相似矩陣st,分別揭示視覺模態(tài)和文本模態(tài)內的數(shù)據(jù)關系,第二部分包含跨模態(tài)相似性信息,用于彌合視覺模態(tài)和文本模態(tài)之間的語義差距,包含跨模態(tài)相似矩陣sinter,其中代表計算和的兩個特征之間的余弦相似度;

14、將sv、st、sinter三個相似矩陣聯(lián)合構造學習指導矩陣sg,則構成過程如下:

15、sg=λ1sv+λ2st+λ3sinter∈[-1,+1]m×m

16、s.t.λ1,λ2,λ3≥0,λ1+λ2+λ3=1

17、式中,λ1,λ2,和λ3都表示可調超參數(shù),其調節(jié)分配給從不同模態(tài)導出的相似性信息的相對權重,m為學習指導矩陣sg的維度;

18、步驟3-2、將圖像特征和文本特征輸入圖卷積神經網(wǎng)絡gcn從而得到特征z*,并通過相似矩陣sg指導圖卷積神經網(wǎng)絡的學習;具體為:

19、圖卷積神經網(wǎng)絡利用前一步生成的相似矩陣來捕捉數(shù)據(jù)樣本之間的語義關聯(lián),并通過多層圖卷積操作,將這些語義信息融入到哈希碼的學習過程中,從而將圖像特征和文本特征變成二進制哈希碼

20、

21、式中,α是控制迭代次數(shù)的超參數(shù),tanh是一個非線性激活函數(shù),c為二進制哈希碼的維度,z*為圖像特征和文本特征經過gcn從而得到。

22、進一步地,步驟4具體為:

23、步驟4-1、學生模型的視覺模型采用vgg-16視覺模型,文本模型采用全連接層文本模型即mlp文本模型,從多模態(tài)數(shù)據(jù)集中提取特征;

24、vgg-16視覺模型將輸入的圖像數(shù)據(jù)vi轉換為特征向量bv,而mlp文本模型則將輸入的文本數(shù)據(jù)ti轉化為文本向量bt;為了提高學生模型哈希碼的質量,采用知識蒸餾的方式構成二進制表示對齊損失模型稱之為如下所示:

25、

26、其中表示二進制表示對齊損失,表示矩陣的f范式,和分別表示教師模型的圖像和文本哈希碼;

27、步驟4-2、分別計算跨模態(tài)蒸餾損失和模態(tài)內的蒸餾損失以引導學生模型中哈希碼生成器的優(yōu)化,具體如下所示:

28、

29、式中,表示hadamard積運算,代表學生模型跨模態(tài)相似圖,由學生模型的圖像哈希碼bv和學生模型的文本哈希碼的轉置點乘得來;表示教師模型圖像自相似圖,分別由教師模型的圖像哈希碼和教師模型的圖像哈希碼的轉置點乘得來;分別表示教師模型的文本自相似圖,分別由教師模型的文本哈希碼和教師模型的文本哈希碼的轉置點乘得來;μ是一個超參數(shù),用于靈活調整給定矩陣的量化范圍。

30、進一步地,步驟5具體為:

31、步驟5-1、定義漢明距離的形式為λij=c/2(1-sij),其中c代表哈希碼長度,sij表示相似矩陣sg中第i個和第j個實例之間的成對相似性,λij表示新建立的漢明距離;

32、引入語義通道寬度,為相似和不相似的數(shù)據(jù)對重新分配漢明距離,如下所示:

33、

34、式中⊙表示矩陣的點積運算,σ代表取最大值函數(shù),分別表示語義通道的下界和上界,由分別構建上界矩陣和下界矩陣并為數(shù)據(jù)對提供相應的漢明約束;wl為下界權重矩陣,wu為上界權重矩陣;

35、當sij=0時,假設任意兩個不相似的樣本,分別對應的哈希碼為bi和在這種情況下,下界權重矩陣wl設置為0,上界權重矩陣wu設置為α;為確保哈希碼不相似性,而不受過于嚴格的空間限制,表示為dh代表參數(shù)之間的漢明距離;

36、當sij∈(0,1)時,假設任意兩個不完全相似的樣本,分別對應的哈希碼為bi和下界權重矩陣wl和上界權重矩陣wu都設置為1;利用上下界同時約束哈希碼的距離,表示為

37、當sij=1時,假設任意兩個完全相似的樣本,分別對應的哈希碼為bi和下界權重wl設置為β,上界權重wu設置為0;只關注上界,以保證完全語義正樣本之間的漢明距離最小化,表示為

38、步驟5-2、構建綜合目標函數(shù)如下所示:

39、

40、s.t.bv,bt∈{-1,+1}m×c

41、其中μ1、μ2、μ3和μ4分別表示平衡各損失項的參數(shù)。

42、本發(fā)明所述的有益效果為:

43、(1)傳統(tǒng)的vlp模型雖然具備視覺和語言模態(tài)特征提取的能力,但由于預訓練模型的特性,其在跨模態(tài)特征融合時可能存在一定的不足,尤其是在多模態(tài)數(shù)據(jù)之間的深層語義關系建模方面。本發(fā)明所述方法利用vlp模型提供的強大模態(tài)交互信息,建立了教師模型,通過vlp(視覺-語言預訓練)模型在大規(guī)模數(shù)據(jù)集上進行的預訓練,能夠充分捕捉圖像和文本之間的復雜語義關聯(lián)。教師模型利用其復雜的網(wǎng)絡結構和更強的表征能力,在實值空間中對數(shù)據(jù)進行深度挖掘,構建出一個綜合的相似矩陣,該矩陣有效地反映了不同模態(tài)數(shù)據(jù)之間的內在關聯(lián),不僅保留了數(shù)據(jù)的原始語義信息,還能有效彌合實值空間與漢明空間之間的差距;通過這些特征和相似度信息,進一步結合圖卷積神經網(wǎng)絡(gcn)框架,通過聚合相似數(shù)據(jù)的特征,提升了生成哈希碼的魯棒性和語義表達能力,從而生成更加魯棒和語義豐富的二進制哈希碼,彌補了vlp模型在處理復雜多模態(tài)交互時的局限性。本發(fā)明不僅提升了特征融合的效果,還顯著增強了模型生成哈希碼的穩(wěn)定性和語義保真度,有效彌補了vlp模型在跨模態(tài)檢索中的性能不足,使得整體模型在復雜多模態(tài)數(shù)據(jù)處理中具有更強的表現(xiàn)和更高的檢索精度。

44、(2)傳統(tǒng)的哈希方法在實值空間和漢明空間之間進行直接映射,容易在轉換過程中丟失數(shù)據(jù)的語義信息,導致不同模態(tài)之間的特征無法被充分對齊,影響最終的檢索效果。本發(fā)明所述方法為了減輕學生模型中從實值空間到漢明空間的簡單轉換所產生的空間差距所造成的語義損失,提出了引入精細化的漢明距離分配策略,通過優(yōu)化漢明距離的分配方式,根據(jù)數(shù)據(jù)對之間的語義相似度靈活調整漢明距離,使得相似的數(shù)據(jù)對在漢明空間中具有較短的距離,而不相似的數(shù)據(jù)對則具有較長的距離。這種精細化的漢明距離分配策略不僅能夠有效利用漢明空間的容量,在離散化過程中減輕語義信息的損失,通過減少相似實例在漢明空間中的距離偏差,最大化保留數(shù)據(jù)間的語義關系,從而顯著提升跨模態(tài)檢索的精度。通過結合相似矩陣和圖卷積神經網(wǎng)絡(gcn)捕捉到的數(shù)據(jù)全局語義信息,精準地反映數(shù)據(jù)間的語義關系,確保在實值空間中的復雜語義關系在漢明空間中得到合理的量化和表達,避免實值空間到漢明空間的過度壓縮,減少了由于簡單空間轉換而導致的語義損失,使得生成的哈希碼更加符合實際的語義需求。

45、(3)本發(fā)明采用的知識蒸餾技術,通過將大規(guī)模預訓練教師模型中豐富的語義信息有效傳遞給更輕量化的學生模型,使得學生模型在保持計算效率的同時,能夠繼承教師模型的強大特征提取能力。學生模型即使在無監(jiān)督的條件下,仍能夠學習到接近教師模型的高質量特征表示,從而生成準確且語義豐富的二進制哈希碼;不僅提升了學生模型在處理多模態(tài)數(shù)據(jù)時的表現(xiàn),還顯著減少了模型所需的計算資源和時間成本,使得系統(tǒng)在大規(guī)模數(shù)據(jù)集上的高效檢索成為可能。這種技術的應用,保證了系統(tǒng)在有限資源下仍能維持高效的檢索性能,同時大大降低了實際應用中的硬件需求和能耗,拓展了系統(tǒng)的應用范圍和可操作性,特別是在大規(guī)模無監(jiān)督場景下表現(xiàn)尤為出色。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
五大连池市| 青神县| 木兰县| 高雄市| 商丘市| 克拉玛依市| 叙永县| 历史| 孙吴县| 云梦县| 石林| 二连浩特市| 深圳市| 南郑县| 红原县| 阿拉善左旗| 宁河县| 来凤县| 南京市| 武定县| 汉川市| 南通市| 双桥区| 和硕县| 报价| 禄劝| 崇阳县| 介休市| 温宿县| 丹寨县| 荣成市| 尚志市| 华阴市| 台前县| 岚皋县| 历史| 墨竹工卡县| 基隆市| 商城县| 高阳县| 西乡县|