本發(fā)明屬于多模態(tài)自然圖像檢測領域,具體地說,涉及基于思維鏈條的圖像級自動提示生成目標檢測方法。
背景技術:
1、圖像分類、目標檢測和語義分割等視覺識別任務一直是計算機視覺研究中長期存在的問題,也是自動駕駛、遙感、機器人技術等眾多計算機視覺應用的基礎。隨著深度學習的出現(xiàn),視覺識別研究通過利用端到端可訓練深度神經(jīng)網(wǎng)絡(dnn,deep?neural?networks)取得了巨大成功。然而,從傳統(tǒng)機器學習向深度學習轉變的過程中,又面臨著從零開始訓練dnn網(wǎng)絡收斂速度緩慢以及收集大規(guī)模、特定任務和人工標記的訓練數(shù)據(jù)難度大,這兩大困難。
2、近年來,一種新的“預訓練-微調-預測”學習范式逐漸興起并在很多視覺識別任務中展現(xiàn)出很強的有效性。在這種新的范式下,首先使用某些現(xiàn)成的大規(guī)模數(shù)據(jù)對dnn模型進行預訓練。這些數(shù)據(jù)有些帶標注,有些不帶標注。之后,再使用針對某特定任務的帶標注訓練數(shù)據(jù)對模型進行微調。因為在預訓練階段,模型已經(jīng)學習到較全面的知識,所以根據(jù)這種范式可以加速網(wǎng)絡收斂,并能更容易訓練出針對各種下游任務性能良好的模型。
3、盡管如此,這種“預訓練-微調-預測”范式仍然需要一個額外的微調階段,使用源自下游任務的標注數(shù)據(jù)進行微調,才能達到預期的效果。之后,隨著自然語言處理領域中大語言模型的迅速發(fā)展,一種新的深度學習范式——視覺語言模型預訓練-零樣本預測,近來吸引了很多人的關注。在這個范式中,使用大規(guī)模的圖像文本對視覺語言模型(vlms,visual?language?models)進行預訓練。這些圖像文本對幾乎全部來源于網(wǎng)絡,因此,經(jīng)過預訓練后的模型能夠直接應用于下游的視覺識別任務中,而且不需要進行進一步的微調。
4、首先,視覺語言模型的核心技術之一是視覺特征提取。通過使用卷積神經(jīng)網(wǎng)絡(cnn,convolutional?neural?network)和變換器(transformer)等先進的深度學習架構,vlms能夠從圖像中提取高維度的視覺特征,這些特征能夠捕捉圖像中的物體、場景和細節(jié)信息。例如,殘差網(wǎng)絡(resnet)和視覺變換器(vit,vision?transformer)是常見的視覺特征提取模型,它們在各種視覺任務中表現(xiàn)出色。
5、預訓練vlm通常是由特定的視覺語言目標來引導完成的,通過大量的圖像文本對讓模型學習到圖像和文本之間的聯(lián)系。例如,clip應用了圖像文本對比目標,在隱空間中,通過縮小匹配的圖片和文本之間的距離,并增大不匹配的對之間的距離來實現(xiàn)。通過這種方式,預訓練的視覺語言模型可以捕獲大量視覺和語言之間的關聯(lián)知識,并能夠通過給定的圖像文本的嵌入向量來進行匹配,從而給出零樣本預測結果。這種新的學習范式能夠有效利用網(wǎng)絡數(shù)據(jù),并且不需要借助特定任務的微調就可以直接進行零樣本預測,不僅方便部署,而且效果很理想。例如,預訓練后的clip已經(jīng)在36個視覺識別任務中達到了最好的零樣本預測效果,這些任務從經(jīng)典的圖像分類到人體動作識別,再到視覺符號識別等,均有涉及。
6、其次,語言特征的處理通常依賴于預訓練的語言模型,如bert、gpt等。這些模型通過大規(guī)模的語料庫訓練,具備強大的語言理解和生成能力。在視覺語言模型中,語言特征和視覺特征通常通過跨模態(tài)注意力機制進行融合,使得模型能夠生成與圖像內容緊密相關的描述或進行視覺問答等任務。
7、大語言模型(llms,large-scale?language?models)是基于神經(jīng)網(wǎng)絡的大規(guī)模、預訓練的統(tǒng)計語言模型。近來大語言模型的成功是數(shù)十年的對語言模型的研究和發(fā)展的積累。根據(jù)不同的起點和發(fā)展速度,可以大致分成四個階段。分別為統(tǒng)計語言模型、神經(jīng)語言模型、預訓練語言模型和大語言模型。
8、統(tǒng)計語言模型(slms,statistical?language?models)將文本視為單詞序列,并將文本的概率估計為其單詞概率的乘積。slm的主要形式是被稱為n-gram模型的馬爾可夫鏈模型,它根據(jù)接下來要處理的(n-1)個單詞來計算一個單詞的概率。由于單詞概率是使用從文本語料庫收集的單詞和n-gram計數(shù)來估計的,因此模型需要通過使用平滑處理數(shù)據(jù)稀疏性(即,為未見過的單詞或n-gram分配零概率),其中模型要為一些不可見的n-gram單詞保留概率冗余。n-gram模型廣泛應用于許多nlp系統(tǒng)中。然而,這些模型因為存在數(shù)據(jù)稀疏性而是不完整的,它們無法完全捕捉自然語言的多樣性和可變性。
9、早期的神經(jīng)語言模型(nlms,neural?language?models)通過將單詞映射到低維連續(xù)向量,也叫嵌入向量,來處理數(shù)據(jù)稀疏性,并根據(jù)單詞的聚合來預測下一個單詞,使用神經(jīng)網(wǎng)絡嵌入其后續(xù)單詞的向量。nlm學習到的嵌入向量定義了一個隱藏空間,其中向量之間的語義相似性可以很容易地計算為它們的距離。這為計算任何兩個輸入的語義相似性打開了大門,無論其形式(例如,網(wǎng)絡搜索中的查詢與文檔、機器翻譯中不同語言的句子)或模式(例如,圖像字幕中的圖像和文本)。早期的nlm是特定于任務的模型,因為它們是根據(jù)特定于任務的數(shù)據(jù)進行訓練的,并且它們學習的隱藏空間是特定于任務的。
10、與早期nlm不同,預訓練語言模型(plms,pre-trained?language?models)與任務無關。這種泛化性也延伸到了學習到的隱藏嵌入空間。plm的訓練和推理遵循“預訓練-微調”的范式,其中具有循環(huán)神經(jīng)網(wǎng)絡或轉換器的語言模型在網(wǎng)絡規(guī)模的未標記文本集合上進行預訓練,用于一般任務(例如單詞預測),然后使用少量有標記的、針對特定任務的數(shù)據(jù)進行微調。
11、大語言模型主要指的是基于transformer的神經(jīng)語言模型,包含數(shù)百至數(shù)億個參數(shù),在海量文本數(shù)據(jù)上進行過預訓練,例如,palm、llama和gpt-4。和預訓練語言模型相比,大語言模型不僅在模型規(guī)模上大得多,而且展現(xiàn)出了更強的語言理解和生成能力。更重要的是,大語言模型擁有不曾出現(xiàn)在小規(guī)模語言模型上的新興能力,包括(1)上下文學習,其中l(wèi)lm在推理階段通過提示中的一小部分示例來學習新任務;(2)指令遵循,其中l(wèi)lm在進行指令微調后可以遵循沒有明確示例的新任務指令;(3)多步推理,其中l(wèi)lm根據(jù)思維鏈條提示將一個復雜的任務分解為多個中間推理步驟。大語言模型還可以通過外部知識和工具來進行增強,從而實現(xiàn)和用戶、環(huán)境的有效交互,并使用互動過程中收集到的反饋數(shù)據(jù)不斷進行自我優(yōu)化。
12、通過先進的使用和增強技術,大語言模型可以部署為所謂的人工智能代理端,可以感知環(huán)境、做出決策并采取行動的人工實體。前的研究主要集中在開發(fā)特定任務和領域的代理。大語言模型展示出的新興能力是的基于llm構建通用人工智能代理成為可能。雖然大語言模型是經(jīng)過訓練可以在靜態(tài)環(huán)境中產(chǎn)生響應,但人工智能代理需要采取行動與動態(tài)環(huán)境進行交互。因此,基于llm的代理通常需要對llm進行增強,例如,從外部知識庫獲取更新的信息,驗證系統(tǒng)操作是否產(chǎn)生預期結果,以及在事情沒有按預期進行時進行處理等。
13、隨著計算機視覺領域和自然語言領域大模型都得到了飛速的發(fā)展,多模態(tài)領域大模型也逐漸涌現(xiàn),其中以視覺語言模型最為典型。
14、視覺語言模型是一種分析圖像塊空間相關信息的模型。一幅圖像可以分成很多區(qū)域,每個區(qū)域可以根據(jù)它的視覺特征用一個視覺單詞表達。這些視覺單詞之間不僅存在空間依賴性,也存在共發(fā)頻率。利用視覺單詞間的這些特性,可方便地挖掘圖像的語義。
15、自然語言處理的最小語義單位是單詞,與此相對應,圖像的最小語義單位是視覺單詞。假設圖像的視覺單詞按照某種規(guī)律排列,如果這種排列是完全隨機的,則無法反映有意義的圖像語義。為方便起見,假設視覺單詞并非相互獨立,鄰近的視覺單詞服從某種排列規(guī)律,通過對視覺單詞排列規(guī)律的建模來挖掘圖像的語義。
16、在此過程中,需要用到文本作為提示來引導模型挖掘圖像的視覺特征,因此,提示學習應運而生。提示學習方法首先在自然語言處理領域被提出,旨在實現(xiàn)大模型在多個下游任務中的高效應用,具體而言,其通過在模型的輸入層或者中間層嵌入任務相關的信息,從而引導大模型解決多個任務。通過繼承預訓練形式實現(xiàn)了保持下游任務與預訓練一致性的應用。我們在本節(jié)首先簡要介紹自然語言處理領域的預訓練模型,其次介紹基于預訓練模型的提示學習方法,其中包括基本概念、下游應用形式和提示模版種類。
17、預訓練模型是指在大規(guī)模數(shù)據(jù)上通過具體代理任務進行訓練后得到的模型,通常具有較強的特征提取和數(shù)據(jù)理解能力,可廣泛應用于各類下游任務當中。在自然語言處理領域,目前有四種典型的預訓練模型,分別是:
18、(1)自回歸語言模型:在預訓練階段,通過從左至右逐一預測詞的方式進行語言表征學習。具體來說,給定一個文本序列,模型需要在每個位置根據(jù)此前左側的可見文本序列預測當前位置的詞。這類工作的代表模型有gpt-3、retro、gpt-neo等。
19、(2)掩碼語言模型:自回歸語言模型只能從左至右對文本進行表征學習,限制了模型對文本雙向建的能力。為此,掩碼語言模型在預訓練階段通過對文本中的詞或片段進行隨機掩碼,根據(jù)前后文來預測掩碼處的詞,實現(xiàn)了對文本的雙向理解表征.這類代表模型有bert、ernie等。
20、(3)前綴序列語言模型:面向如機器翻譯或者文本總結等基于給定的條件文本進行新的文本生成任務,將給定文本作為前綴序列經(jīng)過雙向文本建模后,利用自回歸的方式來預測后續(xù)的目標文本。這類工作的代表模型有unilm、unilmv2、erniem等。
21、(4)編碼-解碼語言模型:類似于前綴序列語言模型的處理,這類模型將給定的條件文本利用編碼器進行雙向文本建模,之后利用獨立的解碼器通過自回歸的方式預測后續(xù)的文本。這類工作的代表模型有mass、t5、bart等。
22、為了以參數(shù)高效、數(shù)據(jù)高效并且減少預訓練與下游任務差距的方式來利用大規(guī)模語言模型進行下游任務,templatener和kpt等相繼被提出,這些方法借助提示模版將各類下游任務重構成預訓練任務的形式,之后通過預訓練階段的預測方式求解下游任務。對于文本分類和命名體識別等任務,提示學習將任務重構并進行預測的過程主要包括三個部分:
23、(1)添加提示模版:給定一個任務的文本輸入,我們需要針對任務形式添加對應的提示模版。例如,針對分類任務,我們可以將模版設定為:“這個文本的分類結果是”。之后將提示模版與待分類的文本串接起來作為掩碼語言模型的輸入。
24、(2)答案搜索:基于添加了提示模版的文本輸入,大規(guī)模語言模型可以通過與預訓練階段的預測任務一致的方式預測空白處的詞匯。例如,針對第一步的文本分類任務以及掩碼語言模型,我們可以定義答案空間為預訓練階段的全體詞匯庫,或者是由先驗知識引導確定的更加精細的小范圍詞匯庫。通過掩碼預測任務在詞匯庫中搜索掩碼預測概率最高的詞作為候選答案。
25、(3)答案映射:大規(guī)模語言模型預測出的結果有可能不會完全對應到下游任務的標簽,因此提示學習需要設計答案映射這一步。例如,針對文本的分類任務而言,它的分類標簽只有“正向情感”和“反向情感”兩類,我們需要將模版空白處預測的結果映射到這兩類標簽中。如“好的”、“開心的”、“興奮的”等詞匯可以映射到“正向情感”標簽;“壞的”、“消極的”、“難過的”等詞匯可以映射到“負向情感”標簽。
26、對于不同的自然語言處理下游任務、不同類型的預訓練模型,研究人員通常會選擇不同形式的提示模版對任務進行重構,從而保證下游任務與預訓練任務的一致性。典型的提示模版形式有兩種:
27、(1)完形填空模版:在一個文本中設置空白部分用于答案預測。完形填空模版通常適配掩碼語言模型,例如lama、template等大規(guī)模語言模型中使用這種完形填空模版作為提示模版,它的預測方式與預訓練任務的方式完全一致。從下游任務角度來看,文本分類、自然語言推理、命名體識別、常識推理、問答等任務都可以通過輸入文本串接完形填空模版后,以掩碼預測的方式在空白處生成對應答案的相關詞匯,之后通過答案映射獲得最終結果,完成下游任務。
28、(2)前綴序列模版:將一個文本串接到原始輸入上,用于引導之后的文本生成。前綴序列模版適用于如t5等預訓練模型,例如prefix-tuning、prompt-tuning等方法中采用這種前綴序列模版,它的預測形式與自回歸語言模型、前綴序列語言模型以及編碼-解碼語言模型的預訓練任務高度一致。作為一種可以根據(jù)前序文本生成新的文本的提示模版,前綴序列模版適用于文本生成、信息提取、文本生成評等任務。
29、除了從形式上可以將提示模版劃分為完形填空和前綴序列模版,我們還可以從提示模版本身參數(shù)是否會被優(yōu)化角度對提示模版的種類進行分類:
30、(1)離散模版的每個詞都是有實際語義的,并且存在于預訓練詞庫中的,這些詞對應的詞表征的模型參數(shù)在預訓練階段優(yōu)化后被固定住,在下游應用中不會被進一步優(yōu)化。離散模版適用于零樣本場景的任務中。
31、(2)連續(xù)模板的每個詞都是不具有實際語義的,并且不存在于預訓練詞庫中的,這些詞對應的詞表征的模型參數(shù)在下游應用中可以針對特定任務和特定數(shù)據(jù)被優(yōu)化。這個優(yōu)化過程稱為提示調優(yōu)。在有對應下游數(shù)據(jù)可以用來輔助提示調優(yōu)的場景下,連續(xù)模板能夠展現(xiàn)出對特定任務和特定數(shù)據(jù)針對性的優(yōu)勢。連續(xù)模板被之后的視覺以及多模態(tài)提示學習方法廣泛使用。
32、視覺語言多模態(tài)提示學習方法面向不同的下游應用進行了特定于任務的設計,有純文本提示學習、視覺信息引導單文本提示學習、文本或外部知識引導的文本提示學習、文本和視覺聯(lián)合提示學習、面向特定成分的組合提示學習等。
33、純文本提示學習技術最先在如clip這種雙塔結構的多模態(tài)預訓練模型上得以應用。最開始的設計則是如“a?photo?of?a[__].”的人工提示模版,通過在空白處添加類別詞并將提示句輸入到文本編碼器中提取文本特征,同時將圖片輸入到視覺編碼器中提取特征,之后便可以實現(xiàn)提示文本與圖片的相似度計算,從而應用于零樣本視覺分類任務。由于人工模版通常需要大量的嘗試,并且不能針對下游數(shù)據(jù)集進行特定的優(yōu)化,受自然語言領域處理里的prefix-tuning等連續(xù)提示學習方法啟發(fā),純文本連續(xù)提示學習方法被提出。這類方法將提示模版設置為一系列可以在連續(xù)空間進行優(yōu)化的提示向量,在下游數(shù)據(jù)集上面向特定任務根據(jù)優(yōu)化損失實現(xiàn)提示調優(yōu)。
34、在多模態(tài)場景下,只針對文本進行特定于任務的提示學習容易導致泛化性差、圖文特征不對齊等問題。為了解決這些問題,可以將視覺信息引入到文本空間作為文本提示學習的引導。cocoop、dpl、stylip設計網(wǎng)絡學習特定于圖片樣本的表征,并且整合到純文本的連續(xù)提示向量上實現(xiàn)靈活的、泛化性強的提示學習。mapl、pl-uic、lvp-m3將圖片特征經(jīng)過映射網(wǎng)絡傳遞到文本空間輔助語言模型對視覺的理解。img2prompt利用現(xiàn)有的圖片描述模型將針對圖片樣本生成的描述輸入到語言模型中加強模態(tài)之間的理解。
35、在純文本的連續(xù)提示調優(yōu)過程中,特定于下游數(shù)據(jù)集的提示向量容易產(chǎn)生過擬合的問題。受人工提示文本具有強泛化性特點的啟發(fā),las和kgcoop在除了圖文匹配的優(yōu)化損失之外,還設計了對應的文本與文本或外部知識之間的相似度損失,使得提示向量與一系列人工提示文本或者外部知識保持一定的相似度,從而保留提示調優(yōu)的泛化能力。
36、以上的多模態(tài)提示學習都只限制于在文本上進行設計,由于文本特征和視覺信息內部的差異,這種單模態(tài)的方式限制了兩個模態(tài)在下游任務上做靈活的適配,容易陷入次優(yōu)解。為此,許多方法提出在文本和視覺部分都進行提示學習。upt設計了視覺和文本統(tǒng)一的提示向量。maple、cavpt、metaprompt、p3ovd在文本和視覺分別設計了各自的提示向量,并且maple將視覺信息通過耦合函數(shù)傳遞到文本空間進一步加強模態(tài)之間的交互。yang等人基于ofa模型設計了模態(tài)一致的提示向量串接到輸入序列上。這些雙模態(tài)的提示向量在下游數(shù)據(jù)集上針對任務相關的損失函數(shù)進行提示調優(yōu),實現(xiàn)了模態(tài)聯(lián)合的提示學習。
37、對于一個任務只設計一組提示可能會造成對類別數(shù)量多、視覺多樣性高、領域來源廣、特征屬性豐富的數(shù)據(jù)表征能力不夠的問題。為了解決此問題,ptp對視覺特征相似的圖片設置相同的提示,對視覺特征不同的圖片設置不同的提示。lee等人面向模態(tài)可能缺失的真實場景,對模態(tài)齊全、只有圖片、只有文本三種類型輸入分別設置對應的提示。在使用時根據(jù)模態(tài)的缺失選擇對應的提示向量加入到模型中。其中包括在輸入層可以串接到輸入序列上的提示向量以及在transformer注意力層中串接在key和value上的提示向量,通過控制query的長度不變而使得輸出序列的長度不變。在下游應用過程中通過優(yōu)化提示向量參數(shù)以及綜合分類表征cls上外接的分類頭的參數(shù)實現(xiàn)提示調優(yōu)。dualcoop將多分類問題建模成正負二分類問題,并對正與負特征分別設置對應的提示。tai設置了全局和局部的提示分別學習整圖與區(qū)域的信息。r-tunin將大規(guī)模數(shù)據(jù)集按類別分組,對每個組分別設置不同的提示向量。wang等人為不同領域的數(shù)據(jù)設置不同的提示。為了實現(xiàn)對多個任務的提示學習,cpl分別設置了任務通用的以及任務特定的提示。針對領域適應任務,dapl分別設置了領域通用、領域特定以及類別對應的提示。csp、promptcompvl針對組合零樣本學習任務對屬性以及類別信息分別設置了不同的提示。
38、除了將特征相似的數(shù)據(jù)通過聚類后對不同類設置不同提示,還有一類方法將屬性等特征通過建模成滿足某種分布來實現(xiàn)提示學習。proda將圖片以及可學習的提示文本分別輸入到視覺以及文本編碼器提取對應的特征,通過將兩個模態(tài)對應的特征建模成高斯分布進行匹配實現(xiàn)視覺分類。derakhshani等人將圖片特征建模成高斯分布,并且從該分布中隨機采樣一個向量作為視覺信息的可泛化表征,并與純文本提示向量相加從而保證提示向量具有視覺信息引導的多樣性。plot和zegot將視覺特征和提示對應的文本特征看成兩個離散的分布,通過最優(yōu)運輸來實現(xiàn)跨模態(tài)的匹配。liu等人提出pbprompt,將每個標簽建模成一個變分分布從而將不確定性引入到標簽空間,之后從該分布中隨機采樣得到對應的提示。類似地,pbprompt最后通過最優(yōu)運輸來實現(xiàn)視覺與文本分布的匹配。
39、以上方法都是針對不同任務設計不同的提示,忽略了任務之間的相關性,限制了信息共享。為了更好地利用不同任務之間的關聯(lián)信息,shen等人提出mvlpt方法將多個源任務合并聯(lián)合優(yōu)化一組提示,從而實現(xiàn)多任務共享,之后將共享提示作為目標任務提示的初始化。soft-cpt提出了一個針對多個任務的元網(wǎng)絡,在該網(wǎng)絡中,每個任務的名稱與任務元提示串接,對應的數(shù)據(jù)標簽與標簽元提示串接后輸入到文本編碼器后進行特征融合,即可得到最終的文本提示,之后在下游任務上進行提示調優(yōu)。
40、由于在連續(xù)空間進行調優(yōu)會導致提示朝著下游數(shù)據(jù)產(chǎn)生過擬合現(xiàn)象,為了解決這個問題,對提示調優(yōu)過程中的梯度變化進行分析并且實現(xiàn)梯度引導的提示學習成為一個解決方案。pro-grad將調優(yōu)過程中每一步的梯度方向正交分解為代表通用知識的方向以及其垂直方向,如果梯度方向與通用知識方向夾角為銳角,則在該步更新提示參數(shù),否則不更新。ma等人發(fā)現(xiàn)提示調優(yōu)初始階段能夠保留泛化性,而靠后的階段會逐漸損失泛化性。為此,其提出subpt,定義靠前階段的梯度方向為泛化性強的主特征方向,在靠后階段將梯度正交投影到主特征方向上進行提示調優(yōu)。
41、現(xiàn)有的提示學習方法都依賴于下游有標簽的數(shù)據(jù)進行提示調優(yōu),為了在無標簽數(shù)據(jù)的場景下實現(xiàn)提示學習,huang等人提出了無監(jiān)督的提示學習方法upl。其利用人工提示模版對下游數(shù)據(jù)進行零樣本預測,從而給無標簽的數(shù)據(jù)打上偽標簽,之后參考coop基于偽標簽在連續(xù)空間上進行提示調優(yōu)。
42、在自然語言處理領域,大部分模型都通過掩碼語言建模進行預訓練。為了實現(xiàn)基于這種形式的跨模態(tài)提示學習,從掩碼部分預測出視覺區(qū)域目標的類別,cpt將圖片中的目標按類別使用不同的顏色塊覆蓋,并且建立目標類別與顏色的映射。在提示學習中通過在提示語句設置的空白處預測出對應目標所覆蓋的顏色,之后根據(jù)映射關系實現(xiàn)最終目標類別的預測。
43、為了讓大規(guī)模語言預訓練模型能夠理解視覺信息,tsimpoukelli等人提出frozen模型。該模型將圖片通過視覺編碼器提取的特征映射到語言空間,形成視覺信息提示。在下游數(shù)據(jù)上進行優(yōu)化的過程中,保持語言模型的參數(shù)不變,只有視覺編碼器的參數(shù)需要從頭訓練。
44、在自然語言處理領域,提示學習方法通過將各類下游任務重構成預訓練任務的形式,實現(xiàn)多任務統(tǒng)一的下游應用,并且取得了出色的效果。這得益于自然語言處理領域的兩個特性:(1)各類大規(guī)模語言模型的預訓練任務相似度高,即通過語言建模的方式,基于可見的文本序列預測生成不可見的目標文本。這些預訓練任務有效實現(xiàn)了模型對語料的綜合理解表征能力。(2)下游任務的解都可以作為語言輸出表達,因此可以很自然地將不同的語言下游任務都重構成預訓練階段的語言建模任務,將下游的解通過預訓練方式進行生成式預測。
45、我們基于視覺及多模態(tài)的提示學習方法與自然語言處理領域提示學習方法的對比,從以下幾個方面進行分析:
46、首先,目前視覺及多模態(tài)提示學習方法均是面向特定任務進行特殊設計的方法,少有實現(xiàn)多任務統(tǒng)一的且與預訓練任務保持一致的提示學習方法。我們認為存在以下兩個主要原因:(1)視覺和多模態(tài)模型的預訓練任務繁多復雜,例如有監(jiān)督的分類預訓練任務、對比式自監(jiān)督預訓練任務、圖像恢復式的生成式預訓練任務等,這些預訓練任務形式各不相同;(2)下游任務的解的形式也各不相同,如圖像分類任務需要輸出分類標簽,目標檢測任務需要輸出具體的目標坐標位置及對應類別,語義分割任務需要輸出分割的區(qū)域圖等。由于預訓練任務之間的巨大差異、下游任務的解之間的巨大差異,以及預訓練和下游任務形式之間的巨大差異,要基于現(xiàn)有的視覺或多模態(tài)預訓練模型實現(xiàn)多任務統(tǒng)一且保留預訓練和下游任務一致性的提示學習方法存在很大的困難。
47、其次,雖然在自然語言處理、視覺以及多模態(tài)領域中,提示學習可以實現(xiàn)參數(shù)高效的微調,但是在基于下游數(shù)據(jù)調優(yōu)的整個過程中梯度依舊需要進行回傳優(yōu)化,并沒有帶來時間上的高效性。
48、此外,目前視覺和多模態(tài)領域的大部分模型參數(shù)規(guī)模都要遠小于自然語言處理領域模型的參數(shù)規(guī)模,限制了模型可學習的知識量以及最終對數(shù)據(jù)的理解表征能力。
49、目前,提示學習領域還有很多未來可以研究的可行方向,利用思維鏈條思想建立自動生成提示是其中的一種方式。
技術實現(xiàn)思路
1、針對視覺語言模型針對數(shù)據(jù)集使用統(tǒng)一的默認輸入,將所有類別標簽作為提示進行目標檢測導致嚴重的幻覺或者誤分類問題,提出了基于思維鏈條的圖像級自動提示生成目標檢測方法,以充分發(fā)揮大模型的圖像理解和文本生成能力,從而減輕人為設計提示的主觀性和繁重工作量,并提高目標檢測準確性能。該方法靈活,不受場景限制,并可遷移到其他領域完成其他場景下的視覺認知任務,適用于目前流行的多任務現(xiàn)狀。
2、本發(fā)明提出了圖像級自動提示生成方法,其特征在于,將大規(guī)模視覺模型強大的圖像理解能力以及大語言模型的常識推理能力結合,利用思維鏈條思想將一階段的目標檢測任務分解為多步,針對特定數(shù)據(jù)集自動生成圖像級的提示,從而提高目標檢測準確率,包括以下步驟:
3、1)將待檢測圖像以及備選標簽輸入概念提取模塊,初步識別圖像中包含的物體,得到初步提示praw。
4、2)建立常識知識圖譜gc,對praw進行進一步篩選,利用常識共存關系去除不合理的概念,得到處理后的提示pprune。
5、3)使用大語言模型進行推理,根據(jù)處理后的提示pprune合理聯(lián)想,對可能遺漏的概念進行補充,得到補充后的提示psearch。
6、4)設計自適應閾值算法,對經(jīng)過圖像理解與常識推理提取到的概念進行篩選,將預測置信度較低的概念刪除,得到最終的圖像級提示pimage。
7、5)將自動生成的pimage與對應的圖像i成對輸入視覺語言模型中進行完成最后的目標檢測任務。
8、上述的概念提取模塊包含兩個主要模塊,前景物體提取器和預訓練文本圖像匹配對,其特征在于,前景物體提取器使用視覺變換器作為基礎網(wǎng)絡,使用尺寸為14*14的無重疊窗口提取特征圖,并利用感興趣區(qū)域(roi,region?of?interest)頭篩選預選框,從而獲得前景物體所在區(qū)域。預訓練文本圖像匹配對繼承自對比學習語言圖像預訓練(clip,contrastive?language?image?pretraining)結果,該方法使用4億個文本-圖像對進行預訓練,具有強大的泛化性和域遷移能力。常識知識圖譜gc基于常識知識庫conceptnet建立,通過統(tǒng)計兩個單詞之間的關聯(lián)詞條數(shù)量,從而表示兩概念的相關性。多步提示生成流程根據(jù)思維鏈條流程生成各個模塊的提示,引導生成最終的目標檢測文本提示pimage。
9、上述的基于思維鏈條的圖像級提示自動生成方法,其特征在于,適用于零樣本多模態(tài)目標檢測任務,完成檢測推理前,不需要額外針對特定數(shù)據(jù)集進行預訓練以及模型微調處理。并且,不需要人為輸入文本進行引導,模型可以完全自主地針對不同圖像生成特定提示,輔助視覺語言模型完成檢測。
10、本發(fā)明的特點:
11、由上述方案可以看出,本發(fā)明應用于多模態(tài)目標場景,但是不需要人為輸入文本作為提示引導視覺語言模型進行推理,文本提示來自輸入圖像自動生成,操作簡單。本方法可以在零樣本條件下完成檢測,不需要預訓練和微調模型,占用顯存較小,對硬件要求低。本方法在多個目標檢測領域常用的公開數(shù)據(jù)集上進行了測試,準確率超過默認提示以及其他提示生成方法,簡潔有效。此外,本發(fā)明不僅可以用于提高目標檢測準確率,也可以拓展到計算機視覺的其他領域,例如,語義分割、物體追蹤等任務,且受模型結構限制小,可以滿足實際生產(chǎn)生活的需要,具有實用價值。