本發(fā)明涉及具身智能、多模態(tài)、導(dǎo)航領(lǐng)域,尤其涉及一種基于目標層級樹的無人機視覺語言導(dǎo)航方法。
背景技術(shù):
1、視覺語言導(dǎo)航是一個跨學(xué)科的研究領(lǐng)域,它融合了自然語言處理、計算機視覺和機器學(xué)習(xí)等多個學(xué)科的前沿技術(shù)。視覺語言導(dǎo)航的核心挑戰(zhàn)在于,智能體必須能夠理解人類通過自然語言傳達的復(fù)雜指令,并將這些指令與從實際環(huán)境中捕獲的視覺信息結(jié)合起來,從而做出準確的導(dǎo)航?jīng)Q策。隨著人工智能技術(shù)的不斷進步,視覺語言導(dǎo)航已經(jīng)成為一個研究熱點,它不僅具有重要的科學(xué)探索意義,還具有廣泛的應(yīng)用前景。
2、目前的視覺語言導(dǎo)航方法中導(dǎo)航場景感知是實現(xiàn)智能體自主導(dǎo)航的關(guān)鍵環(huán)節(jié),它要求智能體通過視覺輸入理解環(huán)境,并結(jié)合自然語言指令進行決策。這不僅涉及到智能體對視覺信息的準確解讀,還包括將這些信息與導(dǎo)航指令相結(jié)合,以實現(xiàn)對場景的全面理解。例如,智能體識別當前場景中的各類目標,并將它們與指令中提及的描述相匹配。通過采用先進的視覺語言跨模態(tài)對齊方法,以各種預(yù)訓(xùn)練代理任務(wù)為手段對齊導(dǎo)航指令中的實體與視覺觀測中的目標,從而實現(xiàn)精準的導(dǎo)航場景感知。這些方法強化了視覺與文本信息的融合,輔助智能體在復(fù)雜環(huán)境中捕捉導(dǎo)航指令提及的關(guān)鍵目標,使得智能體在未知環(huán)境中也能做出合乎邏輯的導(dǎo)航?jīng)Q策。
3、在無人機視覺語言導(dǎo)航的場景感知方面,由于無人機能夠從不同的高度和角度觀測參照物,這增加了從復(fù)雜環(huán)境中準確識別和理解同一目標的難度。同時,鑒于場景中包含的各類目標粒度更雜,在將導(dǎo)航指令中短語對應(yīng)的實體映射到相應(yīng)的視覺目標時,現(xiàn)有的方法很難實現(xiàn)多模態(tài)在細粒度上的對齊。為了解決這個關(guān)鍵問題,無人機需要理解復(fù)雜環(huán)境下各類物體之間的空間關(guān)系和導(dǎo)航指令中對應(yīng)的語義信息。這包括對物體間相對位置的判別、對場景布局的解析以及對動態(tài)變化的適應(yīng)。
技術(shù)實現(xiàn)思路
1、針對多視角目標粒度更雜導(dǎo)致的視覺語言模態(tài)在細粒度下難以對齊問題,以實現(xiàn)導(dǎo)航指令中短語對應(yīng)實體在視覺觀測中關(guān)鍵目標的準確定位為目標,本發(fā)明提供一種基于目標層級樹的無人機視覺語言導(dǎo)航方法。
2、為達到上述目的,本發(fā)明采用如下的技術(shù)方案:
3、一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,包括如下步驟:
4、s1、通過目標解析模塊獲取導(dǎo)航指令中目標的一階邏輯程序,并利用文本編碼器獲取導(dǎo)航指令的文本特征;
5、s2、通過目標定位模塊構(gòu)建前視圖像中各類目標對應(yīng)的層級樹,并根據(jù)目標的一階邏輯程序定位關(guān)鍵目標并獲取對應(yīng)視覺特征,接著利用視覺編碼器提取前視圖像的視覺特征;
6、s3、利用視覺文本特征通過多模態(tài)編碼器獲取導(dǎo)航各個時刻對應(yīng)的導(dǎo)航動作輸出。
7、進一步地,所述目標解析模塊實現(xiàn):
8、利用大語言模型構(gòu)建參照物的一階邏輯解釋器,將自然語言查詢轉(zhuǎn)換為一階邏輯程序,這些程序可以在后續(xù)的場景感知中用于指導(dǎo)參照物的準確識別。該解釋器的關(guān)鍵在于其能夠接受導(dǎo)航領(lǐng)域通用的語言查詢,所生成的程序則由一系列可嵌套的函數(shù)組成,其中每個函數(shù)的輸出可以作為另一個函數(shù)的輸入,從而實現(xiàn)關(guān)于參照物的多層級描述。
9、進一步地,所述目標定位模塊實現(xiàn):
10、通過一階邏輯執(zhí)行器運行之前解釋器生成的邏輯程序,將通用的邏輯推理語言以遞歸地的形式執(zhí)行,模擬了邏輯推理過程的層次結(jié)構(gòu),能夠?qū)?dǎo)航場景中關(guān)于參照物的復(fù)雜查詢進行轉(zhuǎn)化并對相應(yīng)的視覺目標進行精確識別。
11、有益效果:
12、1、從模型效果角度來說,本發(fā)明利用目標解析和定位模塊極大地提升了無人機在復(fù)雜視覺場景中對關(guān)鍵目標的定位準確性,同時增強了無人機對導(dǎo)航場景的理解能力,使其能夠處理和解析場景中關(guān)鍵目標更為細致的導(dǎo)航信息,從而提升了導(dǎo)航?jīng)Q策的質(zhì)量。
13、2、從技術(shù)理論角度來說,本發(fā)明通過邏輯解釋器和執(zhí)行器的協(xié)同工作,實現(xiàn)了對導(dǎo)航文本和視覺觀測信息的全面分析。這種技術(shù)手段不僅提高了無人機對導(dǎo)航指令的邏輯推理能力,還增強了其在復(fù)雜環(huán)境中做出快速、準確導(dǎo)航?jīng)Q策的能力。
14、3、從應(yīng)用角度來說,本發(fā)明對于目標描述采用層級樹結(jié)構(gòu)的設(shè)計使得無人機導(dǎo)航系統(tǒng)在面對新的導(dǎo)航目標或場景變化仍具備較強的可擴展性,降低了系統(tǒng)升級和維護的成本。
1.一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,其特征在于,所述s1中,所述目標解析模塊實現(xiàn):
3.根據(jù)權(quán)利要求1所述的一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,其特征在于,所述s2中,所述目標定位模塊實現(xiàn):