欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于目標層級樹的無人機視覺語言導(dǎo)航方法

文檔序號:40519018發(fā)布日期:2024-12-31 13:28閱讀:13來源:國知局
一種基于目標層級樹的無人機視覺語言導(dǎo)航方法

本發(fā)明涉及具身智能、多模態(tài)、導(dǎo)航領(lǐng)域,尤其涉及一種基于目標層級樹的無人機視覺語言導(dǎo)航方法。


背景技術(shù):

1、視覺語言導(dǎo)航是一個跨學(xué)科的研究領(lǐng)域,它融合了自然語言處理、計算機視覺和機器學(xué)習(xí)等多個學(xué)科的前沿技術(shù)。視覺語言導(dǎo)航的核心挑戰(zhàn)在于,智能體必須能夠理解人類通過自然語言傳達的復(fù)雜指令,并將這些指令與從實際環(huán)境中捕獲的視覺信息結(jié)合起來,從而做出準確的導(dǎo)航?jīng)Q策。隨著人工智能技術(shù)的不斷進步,視覺語言導(dǎo)航已經(jīng)成為一個研究熱點,它不僅具有重要的科學(xué)探索意義,還具有廣泛的應(yīng)用前景。

2、目前的視覺語言導(dǎo)航方法中導(dǎo)航場景感知是實現(xiàn)智能體自主導(dǎo)航的關(guān)鍵環(huán)節(jié),它要求智能體通過視覺輸入理解環(huán)境,并結(jié)合自然語言指令進行決策。這不僅涉及到智能體對視覺信息的準確解讀,還包括將這些信息與導(dǎo)航指令相結(jié)合,以實現(xiàn)對場景的全面理解。例如,智能體識別當前場景中的各類目標,并將它們與指令中提及的描述相匹配。通過采用先進的視覺語言跨模態(tài)對齊方法,以各種預(yù)訓(xùn)練代理任務(wù)為手段對齊導(dǎo)航指令中的實體與視覺觀測中的目標,從而實現(xiàn)精準的導(dǎo)航場景感知。這些方法強化了視覺與文本信息的融合,輔助智能體在復(fù)雜環(huán)境中捕捉導(dǎo)航指令提及的關(guān)鍵目標,使得智能體在未知環(huán)境中也能做出合乎邏輯的導(dǎo)航?jīng)Q策。

3、在無人機視覺語言導(dǎo)航的場景感知方面,由于無人機能夠從不同的高度和角度觀測參照物,這增加了從復(fù)雜環(huán)境中準確識別和理解同一目標的難度。同時,鑒于場景中包含的各類目標粒度更雜,在將導(dǎo)航指令中短語對應(yīng)的實體映射到相應(yīng)的視覺目標時,現(xiàn)有的方法很難實現(xiàn)多模態(tài)在細粒度上的對齊。為了解決這個關(guān)鍵問題,無人機需要理解復(fù)雜環(huán)境下各類物體之間的空間關(guān)系和導(dǎo)航指令中對應(yīng)的語義信息。這包括對物體間相對位置的判別、對場景布局的解析以及對動態(tài)變化的適應(yīng)。


技術(shù)實現(xiàn)思路

1、針對多視角目標粒度更雜導(dǎo)致的視覺語言模態(tài)在細粒度下難以對齊問題,以實現(xiàn)導(dǎo)航指令中短語對應(yīng)實體在視覺觀測中關(guān)鍵目標的準確定位為目標,本發(fā)明提供一種基于目標層級樹的無人機視覺語言導(dǎo)航方法。

2、為達到上述目的,本發(fā)明采用如下的技術(shù)方案:

3、一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,包括如下步驟:

4、s1、通過目標解析模塊獲取導(dǎo)航指令中目標的一階邏輯程序,并利用文本編碼器獲取導(dǎo)航指令的文本特征;

5、s2、通過目標定位模塊構(gòu)建前視圖像中各類目標對應(yīng)的層級樹,并根據(jù)目標的一階邏輯程序定位關(guān)鍵目標并獲取對應(yīng)視覺特征,接著利用視覺編碼器提取前視圖像的視覺特征;

6、s3、利用視覺文本特征通過多模態(tài)編碼器獲取導(dǎo)航各個時刻對應(yīng)的導(dǎo)航動作輸出。

7、進一步地,所述目標解析模塊實現(xiàn):

8、利用大語言模型構(gòu)建參照物的一階邏輯解釋器,將自然語言查詢轉(zhuǎn)換為一階邏輯程序,這些程序可以在后續(xù)的場景感知中用于指導(dǎo)參照物的準確識別。該解釋器的關(guān)鍵在于其能夠接受導(dǎo)航領(lǐng)域通用的語言查詢,所生成的程序則由一系列可嵌套的函數(shù)組成,其中每個函數(shù)的輸出可以作為另一個函數(shù)的輸入,從而實現(xiàn)關(guān)于參照物的多層級描述。

9、進一步地,所述目標定位模塊實現(xiàn):

10、通過一階邏輯執(zhí)行器運行之前解釋器生成的邏輯程序,將通用的邏輯推理語言以遞歸地的形式執(zhí)行,模擬了邏輯推理過程的層次結(jié)構(gòu),能夠?qū)?dǎo)航場景中關(guān)于參照物的復(fù)雜查詢進行轉(zhuǎn)化并對相應(yīng)的視覺目標進行精確識別。

11、有益效果:

12、1、從模型效果角度來說,本發(fā)明利用目標解析和定位模塊極大地提升了無人機在復(fù)雜視覺場景中對關(guān)鍵目標的定位準確性,同時增強了無人機對導(dǎo)航場景的理解能力,使其能夠處理和解析場景中關(guān)鍵目標更為細致的導(dǎo)航信息,從而提升了導(dǎo)航?jīng)Q策的質(zhì)量。

13、2、從技術(shù)理論角度來說,本發(fā)明通過邏輯解釋器和執(zhí)行器的協(xié)同工作,實現(xiàn)了對導(dǎo)航文本和視覺觀測信息的全面分析。這種技術(shù)手段不僅提高了無人機對導(dǎo)航指令的邏輯推理能力,還增強了其在復(fù)雜環(huán)境中做出快速、準確導(dǎo)航?jīng)Q策的能力。

14、3、從應(yīng)用角度來說,本發(fā)明對于目標描述采用層級樹結(jié)構(gòu)的設(shè)計使得無人機導(dǎo)航系統(tǒng)在面對新的導(dǎo)航目標或場景變化仍具備較強的可擴展性,降低了系統(tǒng)升級和維護的成本。



技術(shù)特征:

1.一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,其特征在于,包括如下步驟:

2.根據(jù)權(quán)利要求1所述的一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,其特征在于,所述s1中,所述目標解析模塊實現(xiàn):

3.根據(jù)權(quán)利要求1所述的一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,其特征在于,所述s2中,所述目標定位模塊實現(xiàn):


技術(shù)總結(jié)
本發(fā)明提供一種基于目標層級樹的無人機視覺語言導(dǎo)航方法,包括如下步驟:S1、通過目標解析模塊獲取導(dǎo)航指令中目標的一階邏輯程序,并利用文本編碼器獲取導(dǎo)航指令的文本特征;S2、通過目標定位模塊構(gòu)建前視圖像中各類目標對應(yīng)的層級樹,并根據(jù)目標的一階邏輯程序定位關(guān)鍵目標并獲取對應(yīng)視覺特征,接著利用視覺編碼器提取前視圖像的視覺特征;S3、利用視覺文本特征通過多模態(tài)編碼器獲取導(dǎo)航各個時刻對應(yīng)的導(dǎo)航動作輸出。本發(fā)明提升了導(dǎo)航?jīng)Q策的質(zhì)量。

技術(shù)研發(fā)人員:羅曉燕,薛瑞,周亮宇
受保護的技術(shù)使用者:北京航空航天大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/30
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
信宜市| 泰和县| 宜兴市| 成武县| 新泰市| 台北县| 兴宁市| 黔江区| 隆昌县| 夏津县| 天等县| 宾阳县| 定边县| 炉霍县| 灵宝市| 彩票| 波密县| 仙居县| 北京市| 福安市| 名山县| 长子县| 鄂托克前旗| 长泰县| 柘荣县| 嘉善县| 沅江市| 博白县| 连江县| 滁州市| 谷城县| 汤原县| 佛教| 乐业县| 毕节市| 泽普县| 大埔区| 塔河县| 滦南县| 渭源县| 资中县|