一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置與流程

文檔序號(hào)：40646159發(fā)布日期：2025-01-10 18:52閱讀：5來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>五金工具產(chǎn)品及配附件制造技術(shù)

一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置與流程

本技術(shù)涉及機(jī)器人，特別涉及一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置。

背景技術(shù)：

1、機(jī)器人已成為連接物理世界與數(shù)字世界的橋梁，它們?cè)诩彝?、工業(yè)、醫(yī)療、教育等多個(gè)領(lǐng)域中扮演著越來(lái)越重要的角色。這些應(yīng)用場(chǎng)景要求機(jī)器人能夠理解和響應(yīng)復(fù)雜的自然語(yǔ)言指令，同時(shí)處理來(lái)自視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種傳感器的數(shù)據(jù)，以實(shí)現(xiàn)高度仿真和自然的交互。

2、相關(guān)技術(shù)中，機(jī)器人的操作系統(tǒng)僅支持單一的模態(tài)信息處理，例如僅依賴視覺(jué)或聽(tīng)覺(jué)信息，無(wú)法全面整合視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種傳感器數(shù)據(jù)，限制了機(jī)器人在復(fù)雜環(huán)境中的感知和交互能力。同時(shí)現(xiàn)有系統(tǒng)難以實(shí)現(xiàn)對(duì)用戶意圖的深層次理解，導(dǎo)致機(jī)器人在提供交互體驗(yàn)時(shí)缺乏自然性和個(gè)性化，無(wú)法滿足用戶對(duì)智能化交互的期待。

技術(shù)實(shí)現(xiàn)思路

1、本技術(shù)實(shí)施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置。為了對(duì)披露的實(shí)施例的一些方面有一個(gè)基本的理解，下面給出了簡(jiǎn)單的概括。該概括部分不是泛泛評(píng)述，也不是要確定關(guān)鍵／重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡(jiǎn)單的形式呈現(xiàn)一些概念，以此作為后面的詳細(xì)說(shuō)明的序言。

2、第一方面，本技術(shù)實(shí)施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法，方法包括：

3、響應(yīng)于用戶輸入的控制指令，接收并預(yù)處理預(yù)先設(shè)置在機(jī)器人上的多類傳感器反饋的感知信息，得到多模態(tài)數(shù)據(jù)；

4、動(dòng)態(tài)調(diào)整各模態(tài)數(shù)據(jù)的權(quán)重，并提取各模態(tài)數(shù)據(jù)的特征向量，各模態(tài)數(shù)據(jù)的權(quán)重是基于各模態(tài)數(shù)據(jù)的可靠性評(píng)分計(jì)算的，各模態(tài)數(shù)據(jù)的可靠性評(píng)分是基于機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景確定的，當(dāng)前應(yīng)用場(chǎng)景是根據(jù)預(yù)先訓(xùn)練的環(huán)境分析模型分析的，預(yù)先訓(xùn)練的環(huán)境分析模型是基于機(jī)器人在不同環(huán)境下執(zhí)行任務(wù)時(shí)的歷史傳感器數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)得到的；

5、根據(jù)動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重，對(duì)提取的各模態(tài)數(shù)據(jù)的特征向量進(jìn)行融合，生成用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量；

6、根據(jù)綜合特征向量，通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析，得到機(jī)器人的最終決策結(jié)果；

7、根據(jù)最終決策結(jié)果，調(diào)用并執(zhí)行機(jī)器人所需執(zhí)行的指令集，以驅(qū)動(dòng)機(jī)器人完成指令集對(duì)應(yīng)的相關(guān)動(dòng)作。

8、可選的，動(dòng)態(tài)調(diào)整各模態(tài)數(shù)據(jù)的權(quán)重，包括

9、獲取各類傳感器的初始默認(rèn)權(quán)重，作為各模態(tài)數(shù)據(jù)的初始權(quán)重；

10、將多模態(tài)數(shù)據(jù)輸入預(yù)先訓(xùn)練的環(huán)境分析模型中；

11、輸出多模態(tài)數(shù)據(jù)對(duì)應(yīng)的場(chǎng)景作為機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景；

12、根據(jù)機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景，確定各模態(tài)數(shù)據(jù)的可靠性評(píng)分；

13、根據(jù)各模態(tài)數(shù)據(jù)的初始權(quán)重與各模態(tài)數(shù)據(jù)的可靠性評(píng)分，計(jì)算動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重；動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重計(jì)算公式為：

14、

15、其中，為第個(gè)模態(tài)數(shù)據(jù)的最終調(diào)整后的權(quán)重，為調(diào)整因子，該調(diào)整因子用于控制權(quán)重調(diào)整的敏感度，是第個(gè)模態(tài)數(shù)據(jù)在當(dāng)前應(yīng)用場(chǎng)景下的可靠性評(píng)分函數(shù)，是索引變量，該索引變量用于在求和過(guò)程中遍歷所有模態(tài)數(shù)據(jù)，表示模態(tài)數(shù)據(jù)的總數(shù)。

16、可選的，按照以下步驟生成預(yù)先訓(xùn)練的環(huán)境分析模型，包括：

17、收集并預(yù)處理機(jī)器人在不同環(huán)境下執(zhí)行任務(wù)時(shí)的歷史傳感器數(shù)據(jù)；

18、針對(duì)預(yù)處理的歷史傳感器數(shù)據(jù)，標(biāo)注對(duì)應(yīng)的場(chǎng)景標(biāo)簽，得到多個(gè)樣本數(shù)據(jù)；

19、采用神經(jīng)網(wǎng)絡(luò)，創(chuàng)建環(huán)境分析模型；

20、將多個(gè)樣本數(shù)據(jù)，輸入環(huán)境分析模型中進(jìn)行機(jī)器學(xué)習(xí)，學(xué)習(xí)完成時(shí)輸出模型損失值；

21、在模型損失值到達(dá)最小時(shí)，生成預(yù)先訓(xùn)練的環(huán)境分析模型；或者，在損失值未到達(dá)最小時(shí)，繼續(xù)執(zhí)行將多個(gè)樣本數(shù)據(jù)，輸入環(huán)境分析模型中的步驟，直到模型損失值到達(dá)最??；

22、環(huán)境分析模型的模型損失函數(shù)為：

23、

24、其中，為模型損失值，為超參數(shù)，該超參數(shù)用于控制損失函數(shù)從平方損失到線性損失的轉(zhuǎn)換點(diǎn)，為標(biāo)注的場(chǎng)景標(biāo)簽，為神經(jīng)網(wǎng)絡(luò)所預(yù)測(cè)的場(chǎng)景標(biāo)簽，表示標(biāo)注的場(chǎng)景標(biāo)簽與預(yù)測(cè)的場(chǎng)景標(biāo)簽之間的誤差大小，為當(dāng)誤差小于等于超參數(shù)時(shí)，損失函數(shù)使用平方誤差，即，為當(dāng)誤差大于超參數(shù)時(shí)，損失函數(shù)使用線性誤差，即。

25、可選的，各模態(tài)數(shù)據(jù)包括視覺(jué)模態(tài)數(shù)據(jù)、聽(tīng)覺(jué)模態(tài)數(shù)據(jù)以及觸覺(jué)模態(tài)數(shù)據(jù)；

26、根據(jù)機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景，確定各模態(tài)數(shù)據(jù)的可靠性評(píng)分，包括：

27、獲取機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景對(duì)應(yīng)的當(dāng)前視覺(jué)狀態(tài)、當(dāng)前聽(tīng)覺(jué)狀態(tài)以及當(dāng)前觸覺(jué)狀態(tài)；

28、加載預(yù)先建立的視覺(jué)狀態(tài)與可靠性評(píng)分的第一映射關(guān)系、聽(tīng)覺(jué)狀態(tài)與可靠性評(píng)分的第二映射關(guān)系以及觸覺(jué)狀態(tài)與可靠性評(píng)分的第三映射關(guān)系；

29、從第一映射關(guān)系中，獲取當(dāng)前視覺(jué)狀態(tài)對(duì)應(yīng)的可靠性評(píng)分；

30、從第二映射關(guān)系中，獲取當(dāng)前聽(tīng)覺(jué)狀態(tài)對(duì)應(yīng)的可靠性評(píng)分；

31、從第三映射關(guān)系中，獲取當(dāng)前觸覺(jué)狀態(tài)對(duì)應(yīng)的可靠性評(píng)分；

32、將以上獲取的各可靠性評(píng)分作為各模態(tài)數(shù)據(jù)的可靠性評(píng)分，其中，

33、視覺(jué)狀態(tài)包括室內(nèi)或室外，聽(tīng)覺(jué)狀態(tài)包括安靜或嘈雜，觸覺(jué)狀態(tài)包括硬質(zhì)物體或軟質(zhì)物體。

34、可選的，各模態(tài)數(shù)據(jù)的特征向量是采用特征提取技術(shù)獲取的；

35、根據(jù)動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重，對(duì)提取的各模態(tài)數(shù)據(jù)的特征向量進(jìn)行融合，生成用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量，包括：

36、從提取的各模態(tài)數(shù)據(jù)的特征向量與動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重中，獲取各模態(tài)數(shù)據(jù)的特征向量及其權(quán)重；

37、對(duì)各模態(tài)數(shù)據(jù)的特征向量及其權(quán)重進(jìn)行加權(quán)求和，得到初級(jí)融合的中間特征向量；其中，初級(jí)融合的中間特征向量的計(jì)算公式為：

38、

39、其中，是初級(jí)融合的中間特征向量，為模態(tài)數(shù)據(jù)的總數(shù)量，是第個(gè)模態(tài)數(shù)據(jù)的特征向量，是第個(gè)模態(tài)數(shù)據(jù)的權(quán)重；

40、使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)初級(jí)融合的特征向量進(jìn)行非線性映射，以提取更高層次的特征表示；

41、將提取的更高層次的特征表示進(jìn)行拼接，得到用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量。

42、可選的，根據(jù)綜合特征向量，通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析，得到機(jī)器人的最終決策結(jié)果，包括：

43、在控制指令為文本對(duì)象的情況下，獲取文本對(duì)象的描述文本；

44、在控制指令為語(yǔ)音對(duì)象的情況下，采用語(yǔ)音識(shí)別asr系統(tǒng)將語(yǔ)音對(duì)象轉(zhuǎn)換為描述文本；其中，描述文本用于描述文本對(duì)象或語(yǔ)音對(duì)象的對(duì)象內(nèi)容；

45、根據(jù)描述文本以及綜合特征向量，通過(guò)預(yù)設(shè)大語(yǔ)言模型生成控制指令對(duì)應(yīng)的決策結(jié)果，作為機(jī)器人的最終決策結(jié)果。

46、可選的，根據(jù)描述文本以及綜合特征向量，通過(guò)預(yù)設(shè)大語(yǔ)言模型生成控制指令對(duì)應(yīng)的決策結(jié)果，包括：

47、根據(jù)綜合特征向量，構(gòu)建用于表征機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景的上下文信息的提示信息集；

48、對(duì)描述文本進(jìn)行分詞處理，以提取多個(gè)任務(wù)關(guān)鍵詞；

49、將多個(gè)任務(wù)關(guān)鍵詞與提示信息集進(jìn)行拼接，得到任務(wù)序列；

50、將任務(wù)序列輸入預(yù)設(shè)大語(yǔ)言模型中，通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)任務(wù)序列進(jìn)行分析，輸出控制指令對(duì)應(yīng)的決策結(jié)果。

51、可選的，根據(jù)綜合特征向量，構(gòu)建用于表征機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景的上下文信息的提示信息集，包括：

52、獲取預(yù)先定義的多個(gè)上下文場(chǎng)景標(biāo)簽；多個(gè)上下文場(chǎng)景標(biāo)簽包括光照條件、環(huán)境噪音；

53、通過(guò)綜合特征向量，確定光照條件的統(tǒng)計(jì)學(xué)參數(shù)，環(huán)境噪音的分位數(shù)，

54、將統(tǒng)計(jì)學(xué)參數(shù)、分位數(shù)和預(yù)設(shè)參數(shù)值進(jìn)行比較，將滿足預(yù)設(shè)參數(shù)值的特征向量作為每個(gè)上下文場(chǎng)景標(biāo)簽的子特征；

55、將每個(gè)上下文場(chǎng)景標(biāo)簽的子特征轉(zhuǎn)換為自然語(yǔ)言描述，得到每個(gè)上下文場(chǎng)景標(biāo)簽對(duì)應(yīng)的提示信息；

56、將每個(gè)上下文場(chǎng)景標(biāo)簽對(duì)應(yīng)的提示信息存儲(chǔ)為json對(duì)象，得到用于表征機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景的上下文信息的提示信息集。

57、可選的，光照條件的統(tǒng)計(jì)學(xué)參數(shù)包括平均光照強(qiáng)度；環(huán)境噪音的分位數(shù)為基于綜合特征向量中關(guān)于環(huán)境噪音的特征所計(jì)算的四分位數(shù)；

58、平均光照強(qiáng)度的計(jì)算公式為：

59、

60、其中，是平均光照強(qiáng)度，為綜合特征向量中關(guān)于光照條件的特征數(shù)量，是關(guān)于光照條件的總特征中第個(gè)特征。

61、第二方面，本技術(shù)實(shí)施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制裝置，裝置包括：

62、多模態(tài)數(shù)據(jù)獲取模塊，用于響應(yīng)于用戶輸入的控制指令，接收并預(yù)處理預(yù)先設(shè)置在機(jī)器人上的多類傳感器反饋的感知信息，得到多模態(tài)數(shù)據(jù)；

63、權(quán)重動(dòng)態(tài)調(diào)整模塊，用于動(dòng)態(tài)調(diào)整各模態(tài)數(shù)據(jù)的權(quán)重，并提取各模態(tài)數(shù)據(jù)的特征向量，各模態(tài)數(shù)據(jù)的權(quán)重是基于各模態(tài)數(shù)據(jù)的可靠性評(píng)分計(jì)算的，各模態(tài)數(shù)據(jù)的可靠性評(píng)分是基于機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景確定的，當(dāng)前應(yīng)用場(chǎng)景是根據(jù)預(yù)先訓(xùn)練的環(huán)境分析模型分析的，預(yù)先訓(xùn)練的環(huán)境分析模型是基于機(jī)器人在不同環(huán)境下執(zhí)行任務(wù)時(shí)的歷史傳感器數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)得到的；

64、綜合特征向量生成模塊，用于根據(jù)動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重，對(duì)提取的各模態(tài)數(shù)據(jù)的特征向量進(jìn)行融合，生成用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量；

65、決策模塊，用于根據(jù)綜合特征向量，通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析，得到機(jī)器人的最終決策結(jié)果；

66、指令集調(diào)用模塊，用于根據(jù)最終決策結(jié)果，調(diào)用并執(zhí)行機(jī)器人所需執(zhí)行的指令集，以驅(qū)動(dòng)機(jī)器人完成指令集對(duì)應(yīng)的相關(guān)動(dòng)作。

67、本技術(shù)實(shí)施例提供的技術(shù)方案可以包括以下有益效果：

68、在本技術(shù)實(shí)施例中，一方面，動(dòng)態(tài)權(quán)重調(diào)整使得融合過(guò)程能夠根據(jù)每個(gè)模態(tài)的動(dòng)態(tài)重要性來(lái)調(diào)整其貢獻(xiàn)，使融合后的特征向量能夠更準(zhǔn)確地反映不同模態(tài)的綜合信息，融合后的綜臺(tái)特征向量能夠更全面地表征當(dāng)前環(huán)境狀態(tài)，為機(jī)器人提供更豐富的上下文信息；另一方面，利用綜合特征向量，通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析，使得機(jī)器人能夠深層次理解用戶的控制指令，同時(shí)機(jī)器人能夠提供更自然、更符合用戶預(yù)期的交互體驗(yàn)。

69、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的，并不能限制本技術(shù)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱小芳,楊隱峰,梁亮
技術(shù)所有人：杭州泛嘉科技有限公司
我是此專利的發(fā)明人

上一篇：一種超低能耗建筑外墻用真空絕熱復(fù)合外模板的制作方法
上一篇：一種具有恒溫功能的浴缸的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、平老師：1.功能涂層設(shè)計(jì)與應(yīng)用 2.柔性電子器件設(shè)計(jì)與應(yīng)用 3.結(jié)構(gòu)動(dòng)態(tài)參數(shù)測(cè)試與裝置研發(fā) 4.智能機(jī)電一體化產(chǎn)品研發(fā) 5.3D打印工藝與設(shè)備
2、潘老師：1.機(jī)電一體化裝備及其控制技術(shù) 2.多傳感器信息融合與質(zhì)量評(píng)定
3、王老師：機(jī)械制造
4、袁老師：1.薄膜氣敏傳感器 2.薄膜太陽(yáng)能電池
5、李老師：新型電力電子技術(shù)在微網(wǎng)中的應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置與流程