本申請(qǐng)涉及人工智能?,尤其涉及一種具身智能控制方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
背景技術(shù):
1、具身智能(embodied?ai)是一種以物理機(jī)器人身體為基礎(chǔ)的智能系統(tǒng),通過(guò)與環(huán)境的互動(dòng)實(shí)現(xiàn)感知和行動(dòng),該系統(tǒng)通過(guò)機(jī)器人智能體與周圍環(huán)境的交互,獲取信息、理解問(wèn)題、做出決策并執(zhí)行相應(yīng)行動(dòng),從而展現(xiàn)出智能行為和適應(yīng)性。具身智能控制是指將感知到的信息,包括任務(wù)指令、目標(biāo)物體和當(dāng)前場(chǎng)景,轉(zhuǎn)化為適當(dāng)?shù)臎Q策,并制定步驟規(guī)劃,這一過(guò)程需要考慮機(jī)器人的執(zhí)行能力以及環(huán)境中的變化,以確保規(guī)劃的行動(dòng)能夠在實(shí)施中順利執(zhí)行。
2、機(jī)器人主要分為工業(yè)機(jī)器人和服務(wù)機(jī)器人。工業(yè)機(jī)器人主要用于工業(yè)制造場(chǎng)景,比如汽車制造、零部件加工等,其工作環(huán)境是結(jié)構(gòu)化的,通常在一個(gè)固定且適合機(jī)器人手臂開(kāi)展工作的空間。服務(wù)機(jī)器人主要用于人們的工作和生活場(chǎng)景,工作環(huán)境較為復(fù)雜,比如酒店、餐廳、寫(xiě)字樓等,且服務(wù)機(jī)器人的控制精度和重復(fù)精度也低于工業(yè)機(jī)器人。隨著機(jī)器人在生活中愈加廣泛的應(yīng)用,如何控制機(jī)器人更高效快速地完成復(fù)雜任務(wù)成為了亟需解決的問(wèn)題。
3、在一些相關(guān)技術(shù)中,具身智能控制方案主要基于運(yùn)動(dòng)學(xué)原理,通常依賴于預(yù)設(shè)規(guī)則和有限的反應(yīng)模式。但是,現(xiàn)有的具身智能控制方案的適用性差,難以在多變的現(xiàn)實(shí)環(huán)境中實(shí)現(xiàn)任務(wù)的執(zhí)行。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施例提供一種具身智能控制方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,用以解決現(xiàn)有的具身智能控制方案的適用性差,難以在多變的現(xiàn)實(shí)環(huán)境中實(shí)現(xiàn)任務(wù)的執(zhí)行的技術(shù)問(wèn)題。
2、第一方面,本申請(qǐng)實(shí)施例提供一種具身智能控制方法,包括:獲取圖像特征和文本特征;圖像特征是基于機(jī)器人采集的環(huán)境圖像確定的,文本特征是基于用戶的語(yǔ)音指令確定的;將圖像特征和文本特征輸入至高階目標(biāo)規(guī)劃網(wǎng)絡(luò),獲得高階目標(biāo)規(guī)劃網(wǎng)絡(luò)輸出的目標(biāo)隱變量和多模態(tài)特征;?目標(biāo)隱變量是基于多個(gè)子任務(wù)的高階目標(biāo)確定的,所有子任務(wù)具有相同的高階目標(biāo),高階目標(biāo)是基于多模態(tài)特征確定的;將目標(biāo)隱變量和多模態(tài)特征輸入至低階執(zhí)行網(wǎng)絡(luò),獲得低階執(zhí)行網(wǎng)絡(luò)輸出的當(dāng)前子任務(wù)對(duì)應(yīng)的動(dòng)作序列;控制機(jī)器人執(zhí)行動(dòng)作序列,獲得動(dòng)作序列的執(zhí)行結(jié)果,并基于執(zhí)行結(jié)果,判斷當(dāng)前子任務(wù)是否完成;若當(dāng)前子任務(wù)已完成,則基于低階執(zhí)行網(wǎng)絡(luò)生成下一個(gè)子任務(wù)對(duì)應(yīng)的動(dòng)作序列,直至所有子任務(wù)均完成。
3、在一個(gè)實(shí)施例中,高階目標(biāo)規(guī)劃網(wǎng)絡(luò)包括特征融合解碼器,特征融合解碼器包括多個(gè)神經(jīng)網(wǎng)絡(luò)層,每一神經(jīng)網(wǎng)絡(luò)層包括依次連接的transformer解碼器層和交叉注意力層;高階目標(biāo)規(guī)劃網(wǎng)絡(luò),用于對(duì)圖像特征和文本特征進(jìn)行特征融合處理,生成多模態(tài)特征;基于多模態(tài)特征,生成多個(gè)子任務(wù)的高階目標(biāo);基于高階目標(biāo),生成目標(biāo)隱變量;輸出目標(biāo)隱變量和多模態(tài)特征。
4、在一個(gè)實(shí)施例中,低階執(zhí)行網(wǎng)絡(luò)包括依次連接的長(zhǎng)短期記憶網(wǎng)絡(luò)和多層感知機(jī);將目標(biāo)隱變量和多模態(tài)特征輸入至低階執(zhí)行網(wǎng)絡(luò),獲得低階執(zhí)行網(wǎng)絡(luò)輸出的當(dāng)前子任務(wù)對(duì)應(yīng)的動(dòng)作序列,包括:將目標(biāo)隱變量和多模態(tài)特征輸入至低階執(zhí)行網(wǎng)絡(luò)的長(zhǎng)短期記憶網(wǎng)絡(luò),獲得長(zhǎng)短期記憶網(wǎng)絡(luò)輸出的中間信息;將中間信息輸入至低階執(zhí)行網(wǎng)絡(luò)的多層感知機(jī),獲得多層感知機(jī)輸出的當(dāng)前子任務(wù)對(duì)應(yīng)的動(dòng)作序列。
5、在一個(gè)實(shí)施例中,獲取圖像特征和文本特征,包括:基于機(jī)器人的視覺(jué)傳感器,采集環(huán)境圖像;將環(huán)境圖像輸入至圖像編碼器,獲得圖像編碼器輸出的圖像特征;獲取用戶的語(yǔ)音指令;將語(yǔ)音指令轉(zhuǎn)換成文本數(shù)據(jù);對(duì)文本數(shù)據(jù)進(jìn)行特征提取,獲得文本特征。
6、在一個(gè)實(shí)施例中,環(huán)境圖像包括第一圖像和第二圖像,第一圖像為機(jī)器人的全局視角圖像,第二圖像為機(jī)器人的夾爪視角圖像,圖像編碼器包括依次連接的transformer層和重采樣器;將環(huán)境圖像輸入至圖像編碼器,獲得圖像編碼器輸出的圖像特征,包括:將第一圖像和第二圖像輸入至圖像編碼器的transformer層,獲得transformer層輸出的圖像特征序列;將圖像特征序列輸入至圖像編碼器的重采樣器,獲得重采樣器輸出的圖像特征。
7、在一個(gè)實(shí)施例中,對(duì)文本數(shù)據(jù)進(jìn)行特征提取,獲得文本特征,包括:對(duì)文本數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,獲得待處理文本;數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗處理、分詞處理、詞形還原處理和去停用詞處理;將待處理文本輸入至文本編碼器,獲得文本編碼器輸出的文本特征。
8、第二方面,本申請(qǐng)實(shí)施例提供一種具身智能控制裝置,包括:獲取模塊,用于獲取圖像特征和文本特征;圖像特征是基于機(jī)器人采集的環(huán)境圖像確定的,文本特征是基于用戶的語(yǔ)音指令確定的;第一生成模塊,用于將圖像特征和文本特征輸入至高階目標(biāo)規(guī)劃網(wǎng)絡(luò),獲得高階目標(biāo)規(guī)劃網(wǎng)絡(luò)輸出的目標(biāo)隱變量和多模態(tài)特征;?目標(biāo)隱變量是基于多個(gè)子任務(wù)的高階目標(biāo)確定的,所有子任務(wù)具有相同的高階目標(biāo),高階目標(biāo)是基于多模態(tài)特征確定的;第二生成模塊,用于將目標(biāo)隱變量和多模態(tài)特征輸入至低階執(zhí)行網(wǎng)絡(luò),獲得低階執(zhí)行網(wǎng)絡(luò)輸出的當(dāng)前子任務(wù)對(duì)應(yīng)的動(dòng)作序列;執(zhí)行模塊,用于控制機(jī)器人執(zhí)行動(dòng)作序列,獲得動(dòng)作序列的執(zhí)行結(jié)果,并基于執(zhí)行結(jié)果,判斷當(dāng)前子任務(wù)是否完成;若當(dāng)前子任務(wù)已完成,則基于低階執(zhí)行網(wǎng)絡(luò)生成下一個(gè)子任務(wù)對(duì)應(yīng)的動(dòng)作序列,直至所有子任務(wù)均完成。
9、第三方面,本申請(qǐng)實(shí)施例提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種具身智能控制方法。
10、第四方面,本申請(qǐng)實(shí)施例提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種具身智能控制方法。
11、第五方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種具身智能控制方法。
12、本申請(qǐng)實(shí)施例提供的具身智能控制方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,采用高階規(guī)劃和低階執(zhí)行的層級(jí)策略,先基于采集的環(huán)境圖像確定圖像特征,基于用戶的語(yǔ)音指令確定文本特征,將圖像特征和文本特征輸入至高階目標(biāo)規(guī)劃網(wǎng)絡(luò),獲得高階目標(biāo)規(guī)劃網(wǎng)絡(luò)輸出的目標(biāo)隱變量和多模態(tài)特征,再將目標(biāo)隱變量和多模態(tài)特征輸入至低階執(zhí)行網(wǎng)絡(luò),目標(biāo)隱變量的傳遞使得高階目標(biāo)規(guī)劃網(wǎng)絡(luò)和低階執(zhí)行網(wǎng)絡(luò)之間實(shí)現(xiàn)了有效的信息交互,可確保機(jī)器人能夠準(zhǔn)確理解并執(zhí)行每一個(gè)子任務(wù),提高控制效率,同時(shí),在具身智能控制的過(guò)程中充分考慮現(xiàn)實(shí)環(huán)境的變化,在多模態(tài)特征中融合了當(dāng)前環(huán)境信息,使得低階執(zhí)行網(wǎng)絡(luò)可根據(jù)目標(biāo)隱變量和多模態(tài)特征中融合的當(dāng)前環(huán)境信息生成當(dāng)前子任務(wù)對(duì)應(yīng)的動(dòng)作序列,并根據(jù)當(dāng)前子任務(wù)對(duì)應(yīng)的動(dòng)作序列的執(zhí)行情況逐步完成每一個(gè)子任務(wù),?使得機(jī)器人能夠在多變的現(xiàn)實(shí)環(huán)境中完成復(fù)雜任務(wù)的執(zhí)行,具身智能控制方法適用性強(qiáng),且控制效率高。
1.一種具身智能控制方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的具身智能控制方法,其特征在于,所述高階目標(biāo)規(guī)劃網(wǎng)絡(luò)包括特征融合解碼器,所述特征融合解碼器包括多個(gè)神經(jīng)網(wǎng)絡(luò)層,每一所述神經(jīng)網(wǎng)絡(luò)層包括依次連接的transformer解碼器層和交叉注意力層;
3.根據(jù)權(quán)利要求1所述的具身智能控制方法,其特征在于,所述低階執(zhí)行網(wǎng)絡(luò)包括依次連接的長(zhǎng)短期記憶網(wǎng)絡(luò)和多層感知機(jī);
4.根據(jù)權(quán)利要求1所述的具身智能控制方法,其特征在于,所述獲取圖像特征和文本特征,包括:
5.根據(jù)權(quán)利要求4所述的具身智能控制方法,其特征在于,所述環(huán)境圖像包括第一圖像和第二圖像,所述第一圖像為所述機(jī)器人的全局視角圖像,所述第二圖像為所述機(jī)器人的夾爪視角圖像,所述圖像編碼器包括依次連接的transformer層和重采樣器;
6.根據(jù)權(quán)利要求4所述的具身智能控制方法,其特征在于,所述對(duì)所述文本數(shù)據(jù)進(jìn)行特征提取,獲得所述文本特征,包括:
7.一種具身智能控制裝置,其特征在于,包括:
8.一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述具身智能控制方法。
9.一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述具身智能控制方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述具身智能控制方法。