本技術(shù)涉及機(jī)器人,特別涉及一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置。
背景技術(shù):
1、機(jī)器人已成為連接物理世界與數(shù)字世界的橋梁,它們?cè)诩彝?、工業(yè)、醫(yī)療、教育等多個(gè)領(lǐng)域中扮演著越來(lái)越重要的角色。這些應(yīng)用場(chǎng)景要求機(jī)器人能夠理解和響應(yīng)復(fù)雜的自然語(yǔ)言指令,同時(shí)處理來(lái)自視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種傳感器的數(shù)據(jù),以實(shí)現(xiàn)高度仿真和自然的交互。
2、相關(guān)技術(shù)中,機(jī)器人的操作系統(tǒng)僅支持單一的模態(tài)信息處理,例如僅依賴視覺(jué)或聽(tīng)覺(jué)信息,無(wú)法全面整合視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等多種傳感器數(shù)據(jù),限制了機(jī)器人在復(fù)雜環(huán)境中的感知和交互能力。同時(shí)現(xiàn)有系統(tǒng)難以實(shí)現(xiàn)對(duì)用戶意圖的深層次理解,導(dǎo)致機(jī)器人在提供交互體驗(yàn)時(shí)缺乏自然性和個(gè)性化,無(wú)法滿足用戶對(duì)智能化交互的期待。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法及裝置。為了對(duì)披露的實(shí)施例的一些方面有一個(gè)基本的理解,下面給出了簡(jiǎn)單的概括。該概括部分不是泛泛評(píng)述,也不是要確定關(guān)鍵/重要組成元素或描繪這些實(shí)施例的保護(hù)范圍。其唯一目的是用簡(jiǎn)單的形式呈現(xiàn)一些概念,以此作為后面的詳細(xì)說(shuō)明的序言。
2、第一方面,本技術(shù)實(shí)施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制方法,方法包括:
3、響應(yīng)于用戶輸入的控制指令,接收并預(yù)處理預(yù)先設(shè)置在機(jī)器人上的多類傳感器反饋的感知信息,得到多模態(tài)數(shù)據(jù);
4、動(dòng)態(tài)調(diào)整各模態(tài)數(shù)據(jù)的權(quán)重,并提取各模態(tài)數(shù)據(jù)的特征向量,各模態(tài)數(shù)據(jù)的權(quán)重是基于各模態(tài)數(shù)據(jù)的可靠性評(píng)分計(jì)算的,各模態(tài)數(shù)據(jù)的可靠性評(píng)分是基于機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景確定的,當(dāng)前應(yīng)用場(chǎng)景是根據(jù)預(yù)先訓(xùn)練的環(huán)境分析模型分析的,預(yù)先訓(xùn)練的環(huán)境分析模型是基于機(jī)器人在不同環(huán)境下執(zhí)行任務(wù)時(shí)的歷史傳感器數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)得到的;
5、根據(jù)動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重,對(duì)提取的各模態(tài)數(shù)據(jù)的特征向量進(jìn)行融合,生成用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量;
6、根據(jù)綜合特征向量,通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析,得到機(jī)器人的最終決策結(jié)果;
7、根據(jù)最終決策結(jié)果,調(diào)用并執(zhí)行機(jī)器人所需執(zhí)行的指令集,以驅(qū)動(dòng)機(jī)器人完成指令集對(duì)應(yīng)的相關(guān)動(dòng)作。
8、可選的,動(dòng)態(tài)調(diào)整各模態(tài)數(shù)據(jù)的權(quán)重,包括
9、獲取各類傳感器的初始默認(rèn)權(quán)重,作為各模態(tài)數(shù)據(jù)的初始權(quán)重;
10、將多模態(tài)數(shù)據(jù)輸入預(yù)先訓(xùn)練的環(huán)境分析模型中;
11、輸出多模態(tài)數(shù)據(jù)對(duì)應(yīng)的場(chǎng)景作為機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景;
12、根據(jù)機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景,確定各模態(tài)數(shù)據(jù)的可靠性評(píng)分;
13、根據(jù)各模態(tài)數(shù)據(jù)的初始權(quán)重與各模態(tài)數(shù)據(jù)的可靠性評(píng)分,計(jì)算動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重;動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重計(jì)算公式為:
14、
15、其中,為第個(gè)模態(tài)數(shù)據(jù)的最終調(diào)整后的權(quán)重,為調(diào)整因子,該調(diào)整因子用于控制權(quán)重調(diào)整的敏感度,是第個(gè)模態(tài)數(shù)據(jù)在當(dāng)前應(yīng)用場(chǎng)景下的可靠性評(píng)分函數(shù),是索引變量,該索引變量用于在求和過(guò)程中遍歷所有模態(tài)數(shù)據(jù),表示模態(tài)數(shù)據(jù)的總數(shù)。
16、可選的,按照以下步驟生成預(yù)先訓(xùn)練的環(huán)境分析模型,包括:
17、收集并預(yù)處理機(jī)器人在不同環(huán)境下執(zhí)行任務(wù)時(shí)的歷史傳感器數(shù)據(jù);
18、針對(duì)預(yù)處理的歷史傳感器數(shù)據(jù),標(biāo)注對(duì)應(yīng)的場(chǎng)景標(biāo)簽,得到多個(gè)樣本數(shù)據(jù);
19、采用神經(jīng)網(wǎng)絡(luò),創(chuàng)建環(huán)境分析模型;
20、將多個(gè)樣本數(shù)據(jù),輸入環(huán)境分析模型中進(jìn)行機(jī)器學(xué)習(xí),學(xué)習(xí)完成時(shí)輸出模型損失值;
21、在模型損失值到達(dá)最小時(shí),生成預(yù)先訓(xùn)練的環(huán)境分析模型;或者,在損失值未到達(dá)最小時(shí),繼續(xù)執(zhí)行將多個(gè)樣本數(shù)據(jù),輸入環(huán)境分析模型中的步驟,直到模型損失值到達(dá)最??;
22、環(huán)境分析模型的模型損失函數(shù)為:
23、
24、其中,為模型損失值,為超參數(shù),該超參數(shù)用于控制損失函數(shù)從平方損失到線性損失的轉(zhuǎn)換點(diǎn),為標(biāo)注的場(chǎng)景標(biāo)簽,為神經(jīng)網(wǎng)絡(luò)所預(yù)測(cè)的場(chǎng)景標(biāo)簽,表示標(biāo)注的場(chǎng)景標(biāo)簽與預(yù)測(cè)的場(chǎng)景標(biāo)簽之間的誤差大小,為當(dāng)誤差小于等于超參數(shù)時(shí),損失函數(shù)使用平方誤差,即,為當(dāng)誤差大于超參數(shù)時(shí),損失函數(shù)使用線性誤差,即。
25、可選的,各模態(tài)數(shù)據(jù)包括視覺(jué)模態(tài)數(shù)據(jù)、聽(tīng)覺(jué)模態(tài)數(shù)據(jù)以及觸覺(jué)模態(tài)數(shù)據(jù);
26、根據(jù)機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景,確定各模態(tài)數(shù)據(jù)的可靠性評(píng)分,包括:
27、獲取機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景對(duì)應(yīng)的當(dāng)前視覺(jué)狀態(tài)、當(dāng)前聽(tīng)覺(jué)狀態(tài)以及當(dāng)前觸覺(jué)狀態(tài);
28、加載預(yù)先建立的視覺(jué)狀態(tài)與可靠性評(píng)分的第一映射關(guān)系、聽(tīng)覺(jué)狀態(tài)與可靠性評(píng)分的第二映射關(guān)系以及觸覺(jué)狀態(tài)與可靠性評(píng)分的第三映射關(guān)系;
29、從第一映射關(guān)系中,獲取當(dāng)前視覺(jué)狀態(tài)對(duì)應(yīng)的可靠性評(píng)分;
30、從第二映射關(guān)系中,獲取當(dāng)前聽(tīng)覺(jué)狀態(tài)對(duì)應(yīng)的可靠性評(píng)分;
31、從第三映射關(guān)系中,獲取當(dāng)前觸覺(jué)狀態(tài)對(duì)應(yīng)的可靠性評(píng)分;
32、將以上獲取的各可靠性評(píng)分作為各模態(tài)數(shù)據(jù)的可靠性評(píng)分,其中,
33、視覺(jué)狀態(tài)包括室內(nèi)或室外,聽(tīng)覺(jué)狀態(tài)包括安靜或嘈雜,觸覺(jué)狀態(tài)包括硬質(zhì)物體或軟質(zhì)物體。
34、可選的,各模態(tài)數(shù)據(jù)的特征向量是采用特征提取技術(shù)獲取的;
35、根據(jù)動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重,對(duì)提取的各模態(tài)數(shù)據(jù)的特征向量進(jìn)行融合,生成用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量,包括:
36、從提取的各模態(tài)數(shù)據(jù)的特征向量與動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重中,獲取各模態(tài)數(shù)據(jù)的特征向量及其權(quán)重;
37、對(duì)各模態(tài)數(shù)據(jù)的特征向量及其權(quán)重進(jìn)行加權(quán)求和,得到初級(jí)融合的中間特征向量;其中,初級(jí)融合的中間特征向量的計(jì)算公式為:
38、
39、其中,是初級(jí)融合的中間特征向量,為模態(tài)數(shù)據(jù)的總數(shù)量,是第個(gè)模態(tài)數(shù)據(jù)的特征向量,是第個(gè)模態(tài)數(shù)據(jù)的權(quán)重;
40、使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)初級(jí)融合的特征向量進(jìn)行非線性映射,以提取更高層次的特征表示;
41、將提取的更高層次的特征表示進(jìn)行拼接,得到用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量。
42、可選的,根據(jù)綜合特征向量,通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析,得到機(jī)器人的最終決策結(jié)果,包括:
43、在控制指令為文本對(duì)象的情況下,獲取文本對(duì)象的描述文本;
44、在控制指令為語(yǔ)音對(duì)象的情況下,采用語(yǔ)音識(shí)別asr系統(tǒng)將語(yǔ)音對(duì)象轉(zhuǎn)換為描述文本;其中,描述文本用于描述文本對(duì)象或語(yǔ)音對(duì)象的對(duì)象內(nèi)容;
45、根據(jù)描述文本以及綜合特征向量,通過(guò)預(yù)設(shè)大語(yǔ)言模型生成控制指令對(duì)應(yīng)的決策結(jié)果,作為機(jī)器人的最終決策結(jié)果。
46、可選的,根據(jù)描述文本以及綜合特征向量,通過(guò)預(yù)設(shè)大語(yǔ)言模型生成控制指令對(duì)應(yīng)的決策結(jié)果,包括:
47、根據(jù)綜合特征向量,構(gòu)建用于表征機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景的上下文信息的提示信息集;
48、對(duì)描述文本進(jìn)行分詞處理,以提取多個(gè)任務(wù)關(guān)鍵詞;
49、將多個(gè)任務(wù)關(guān)鍵詞與提示信息集進(jìn)行拼接,得到任務(wù)序列;
50、將任務(wù)序列輸入預(yù)設(shè)大語(yǔ)言模型中,通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)任務(wù)序列進(jìn)行分析,輸出控制指令對(duì)應(yīng)的決策結(jié)果。
51、可選的,根據(jù)綜合特征向量,構(gòu)建用于表征機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景的上下文信息的提示信息集,包括:
52、獲取預(yù)先定義的多個(gè)上下文場(chǎng)景標(biāo)簽;多個(gè)上下文場(chǎng)景標(biāo)簽包括光照條件、環(huán)境噪音;
53、通過(guò)綜合特征向量,確定光照條件的統(tǒng)計(jì)學(xué)參數(shù),環(huán)境噪音的分位數(shù),
54、將統(tǒng)計(jì)學(xué)參數(shù)、分位數(shù)和預(yù)設(shè)參數(shù)值進(jìn)行比較,將滿足預(yù)設(shè)參數(shù)值的特征向量作為每個(gè)上下文場(chǎng)景標(biāo)簽的子特征;
55、將每個(gè)上下文場(chǎng)景標(biāo)簽的子特征轉(zhuǎn)換為自然語(yǔ)言描述,得到每個(gè)上下文場(chǎng)景標(biāo)簽對(duì)應(yīng)的提示信息;
56、將每個(gè)上下文場(chǎng)景標(biāo)簽對(duì)應(yīng)的提示信息存儲(chǔ)為json對(duì)象,得到用于表征機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景的上下文信息的提示信息集。
57、可選的,光照條件的統(tǒng)計(jì)學(xué)參數(shù)包括平均光照強(qiáng)度;環(huán)境噪音的分位數(shù)為基于綜合特征向量中關(guān)于環(huán)境噪音的特征所計(jì)算的四分位數(shù);
58、平均光照強(qiáng)度的計(jì)算公式為:
59、
60、其中,是平均光照強(qiáng)度,為綜合特征向量中關(guān)于光照條件的特征數(shù)量,是關(guān)于光照條件的總特征中第個(gè)特征。
61、第二方面,本技術(shù)實(shí)施例提供了一種基于多模態(tài)數(shù)據(jù)融合的機(jī)器人控制裝置,裝置包括:
62、多模態(tài)數(shù)據(jù)獲取模塊,用于響應(yīng)于用戶輸入的控制指令,接收并預(yù)處理預(yù)先設(shè)置在機(jī)器人上的多類傳感器反饋的感知信息,得到多模態(tài)數(shù)據(jù);
63、權(quán)重動(dòng)態(tài)調(diào)整模塊,用于動(dòng)態(tài)調(diào)整各模態(tài)數(shù)據(jù)的權(quán)重,并提取各模態(tài)數(shù)據(jù)的特征向量,各模態(tài)數(shù)據(jù)的權(quán)重是基于各模態(tài)數(shù)據(jù)的可靠性評(píng)分計(jì)算的,各模態(tài)數(shù)據(jù)的可靠性評(píng)分是基于機(jī)器人的當(dāng)前應(yīng)用場(chǎng)景確定的,當(dāng)前應(yīng)用場(chǎng)景是根據(jù)預(yù)先訓(xùn)練的環(huán)境分析模型分析的,預(yù)先訓(xùn)練的環(huán)境分析模型是基于機(jī)器人在不同環(huán)境下執(zhí)行任務(wù)時(shí)的歷史傳感器數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)得到的;
64、綜合特征向量生成模塊,用于根據(jù)動(dòng)態(tài)調(diào)整的各模態(tài)數(shù)據(jù)的權(quán)重,對(duì)提取的各模態(tài)數(shù)據(jù)的特征向量進(jìn)行融合,生成用于表征當(dāng)前環(huán)境全面狀態(tài)的綜合特征向量;
65、決策模塊,用于根據(jù)綜合特征向量,通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析,得到機(jī)器人的最終決策結(jié)果;
66、指令集調(diào)用模塊,用于根據(jù)最終決策結(jié)果,調(diào)用并執(zhí)行機(jī)器人所需執(zhí)行的指令集,以驅(qū)動(dòng)機(jī)器人完成指令集對(duì)應(yīng)的相關(guān)動(dòng)作。
67、本技術(shù)實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
68、在本技術(shù)實(shí)施例中,一方面,動(dòng)態(tài)權(quán)重調(diào)整使得融合過(guò)程能夠根據(jù)每個(gè)模態(tài)的動(dòng)態(tài)重要性來(lái)調(diào)整其貢獻(xiàn),使融合后的特征向量能夠更準(zhǔn)確地反映不同模態(tài)的綜合信息,融合后的綜臺(tái)特征向量能夠更全面地表征當(dāng)前環(huán)境狀態(tài),為機(jī)器人提供更豐富的上下文信息;另一方面,利用綜合特征向量,通過(guò)預(yù)設(shè)大語(yǔ)言模型對(duì)控制指令進(jìn)行分析,使得機(jī)器人能夠深層次理解用戶的控制指令,同時(shí)機(jī)器人能夠提供更自然、更符合用戶預(yù)期的交互體驗(yàn)。
69、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。