一種基于目標層級樹的無人機視覺語言導(dǎo)航方法

文檔序號：40519018發(fā)布日期：2024-12-31 13:28閱讀：13來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>測量裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及具身智能、多模態(tài)、導(dǎo)航領(lǐng)域，尤其涉及一種基于目標層級樹的無人機視覺語言導(dǎo)航方法。

背景技術(shù)：

1、視覺語言導(dǎo)航是一個跨學(xué)科的研究領(lǐng)域，它融合了自然語言處理、計算機視覺和機器學(xué)習(xí)等多個學(xué)科的前沿技術(shù)。視覺語言導(dǎo)航的核心挑戰(zhàn)在于，智能體必須能夠理解人類通過自然語言傳達的復(fù)雜指令，并將這些指令與從實際環(huán)境中捕獲的視覺信息結(jié)合起來，從而做出準確的導(dǎo)航?jīng)Q策。隨著人工智能技術(shù)的不斷進步，視覺語言導(dǎo)航已經(jīng)成為一個研究熱點，它不僅具有重要的科學(xué)探索意義，還具有廣泛的應(yīng)用前景。

2、目前的視覺語言導(dǎo)航方法中導(dǎo)航場景感知是實現(xiàn)智能體自主導(dǎo)航的關(guān)鍵環(huán)節(jié)，它要求智能體通過視覺輸入理解環(huán)境，并結(jié)合自然語言指令進行決策。這不僅涉及到智能體對視覺信息的準確解讀，還包括將這些信息與導(dǎo)航指令相結(jié)合，以實現(xiàn)對場景的全面理解。例如，智能體識別當前場景中的各類目標，并將它們與指令中提及的描述相匹配。通過采用先進的視覺語言跨模態(tài)對齊方法，以各種預(yù)訓(xùn)練代理任務(wù)為手段對齊導(dǎo)航指令中的實體與視覺觀測中的目標，從而實現(xiàn)精準的導(dǎo)航場景感知。這些方法強化了視覺與文本信息的融合，輔助智能體在復(fù)雜環(huán)境中捕捉導(dǎo)航指令提及的關(guān)鍵目標，使得智能體在未知環(huán)境中也能做出合乎邏輯的導(dǎo)航?jīng)Q策。

3、在無人機視覺語言導(dǎo)航的場景感知方面，由于無人機能夠從不同的高度和角度觀測參照物，這增加了從復(fù)雜環(huán)境中準確識別和理解同一目標的難度。同時，鑒于場景中包含的各類目標粒度更雜，在將導(dǎo)航指令中短語對應(yīng)的實體映射到相應(yīng)的視覺目標時，現(xiàn)有的方法很難實現(xiàn)多模態(tài)在細粒度上的對齊。為了解決這個關(guān)鍵問題，無人機需要理解復(fù)雜環(huán)境下各類物體之間的空間關(guān)系和導(dǎo)航指令中對應(yīng)的語義信息。這包括對物體間相對位置的判別、對場景布局的解析以及對動態(tài)變化的適應(yīng)。

技術(shù)實現(xiàn)思路

1、針對多視角目標粒度更雜導(dǎo)致的視覺語言模態(tài)在細粒度下難以對齊問題，以實現(xiàn)導(dǎo)航指令中短語對應(yīng)實體在視覺觀測中關(guān)鍵目標的準確定位為目標，本發(fā)明提供一種基于目標層級樹的無人機視覺語言導(dǎo)航方法。

2、為達到上述目的，本發(fā)明采用如下的技術(shù)方案：

3、一種基于目標層級樹的無人機視覺語言導(dǎo)航方法，包括如下步驟：

4、s1、通過目標解析模塊獲取導(dǎo)航指令中目標的一階邏輯程序，并利用文本編碼器獲取導(dǎo)航指令的文本特征；

5、s2、通過目標定位模塊構(gòu)建前視圖像中各類目標對應(yīng)的層級樹，并根據(jù)目標的一階邏輯程序定位關(guān)鍵目標并獲取對應(yīng)視覺特征，接著利用視覺編碼器提取前視圖像的視覺特征；

6、s3、利用視覺文本特征通過多模態(tài)編碼器獲取導(dǎo)航各個時刻對應(yīng)的導(dǎo)航動作輸出。

7、進一步地，所述目標解析模塊實現(xiàn)：

8、利用大語言模型構(gòu)建參照物的一階邏輯解釋器，將自然語言查詢轉(zhuǎn)換為一階邏輯程序，這些程序可以在后續(xù)的場景感知中用于指導(dǎo)參照物的準確識別。該解釋器的關(guān)鍵在于其能夠接受導(dǎo)航領(lǐng)域通用的語言查詢，所生成的程序則由一系列可嵌套的函數(shù)組成，其中每個函數(shù)的輸出可以作為另一個函數(shù)的輸入，從而實現(xiàn)關(guān)于參照物的多層級描述。

9、進一步地，所述目標定位模塊實現(xiàn)：

10、通過一階邏輯執(zhí)行器運行之前解釋器生成的邏輯程序，將通用的邏輯推理語言以遞歸地的形式執(zhí)行，模擬了邏輯推理過程的層次結(jié)構(gòu)，能夠?qū)?dǎo)航場景中關(guān)于參照物的復(fù)雜查詢進行轉(zhuǎn)化并對相應(yīng)的視覺目標進行精確識別。

11、有益效果：

12、1、從模型效果角度來說，本發(fā)明利用目標解析和定位模塊極大地提升了無人機在復(fù)雜視覺場景中對關(guān)鍵目標的定位準確性，同時增強了無人機對導(dǎo)航場景的理解能力，使其能夠處理和解析場景中關(guān)鍵目標更為細致的導(dǎo)航信息，從而提升了導(dǎo)航?jīng)Q策的質(zhì)量。

13、2、從技術(shù)理論角度來說，本發(fā)明通過邏輯解釋器和執(zhí)行器的協(xié)同工作，實現(xiàn)了對導(dǎo)航文本和視覺觀測信息的全面分析。這種技術(shù)手段不僅提高了無人機對導(dǎo)航指令的邏輯推理能力，還增強了其在復(fù)雜環(huán)境中做出快速、準確導(dǎo)航?jīng)Q策的能力。

14、3、從應(yīng)用角度來說，本發(fā)明對于目標描述采用層級樹結(jié)構(gòu)的設(shè)計使得無人機導(dǎo)航系統(tǒng)在面對新的導(dǎo)航目標或場景變化仍具備較強的可擴展性，降低了系統(tǒng)升級和維護的成本。

技術(shù)特征：

1.一種基于目標層級樹的無人機視覺語言導(dǎo)航方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于目標層級樹的無人機視覺語言導(dǎo)航方法，其特征在于，所述s1中，所述目標解析模塊實現(xiàn)：

3.根據(jù)權(quán)利要求1所述的一種基于目標層級樹的無人機視覺語言導(dǎo)航方法，其特征在于，所述s2中，所述目標定位模塊實現(xiàn)：

技術(shù)總結(jié)
本發(fā)明提供一種基于目標層級樹的無人機視覺語言導(dǎo)航方法，包括如下步驟：S1、通過目標解析模塊獲取導(dǎo)航指令中目標的一階邏輯程序，并利用文本編碼器獲取導(dǎo)航指令的文本特征；S2、通過目標定位模塊構(gòu)建前視圖像中各類目標對應(yīng)的層級樹，并根據(jù)目標的一階邏輯程序定位關(guān)鍵目標并獲取對應(yīng)視覺特征，接著利用視覺編碼器提取前視圖像的視覺特征；S3、利用視覺文本特征通過多模態(tài)編碼器獲取導(dǎo)航各個時刻對應(yīng)的導(dǎo)航動作輸出。本發(fā)明提升了導(dǎo)航?jīng)Q策的質(zhì)量。

技術(shù)研發(fā)人員：羅曉燕,薛瑞,周亮宇
受保護的技術(shù)使用者：北京航空航天大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅曉燕,薛瑞,周亮宇
技術(shù)所有人：北京航空航天大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、邢老師：1.機械設(shè)計及理論 2.生物醫(yī)學(xué)材料及器械 3.聲發(fā)射檢測技術(shù)。
2、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
3、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
4、張老師：1.機械設(shè)計的應(yīng)力分析、強度校核的計算機仿真 2.生物反應(yīng)器研制 3.生物力學(xué)
5、趙老師：檢測與控制技術(shù)、機器人技術(shù)、機電一體化技術(shù)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

<big id="vkyyz"></big>^{<bdo id="vkyyz"></bdo>}

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于目標層級樹的無人機視覺語言導(dǎo)航方法