本發(fā)明涉及機器學習智能迭代數(shù)據(jù)處理信息傳輸控制,更具體地說,本發(fā)明涉及一種多源視頻數(shù)據(jù)機器人技能學習方法及系統(tǒng)。
背景技術(shù):
1、虛擬機器人的技能學習旨在使其具備多種運動技能關(guān)鍵詞(如行走、跑步、抓取物體等),這些運動技能關(guān)鍵詞可用于生成符合人類運動模式且符合物理規(guī)律的機器人角色動畫。由于機器人的運動過程往往需要多個關(guān)節(jié)的聯(lián)合控制,且運動過程中與環(huán)境發(fā)生的碰撞交互通常是不可微分的,因此現(xiàn)有方法通常采用強化學習技術(shù)來學習機器人的控制策略。強化學習方法的訓練信號來自機器人執(zhí)行某個動作后得到的獎勵反饋,并根據(jù)反饋逐步調(diào)整機器人的控制策略以獲取更高的期望獎勵。其中的模仿學習方法提供了一種簡單有效的獎勵計算方法,即基于機器人動作序列與示例動作序列(通常來自人類示例)之間的相似度計算獎勵:相似度越高,獎勵越大;反之相似度越低,則獎勵越??;
2、機器人動作序列與示例動作序列的相似度有兩種常用的計算方法:一種是基于追蹤誤差,即計算對應(yīng)時刻下機器人各個關(guān)節(jié)與示例個體關(guān)節(jié)間l2距離的平均值;另一種是基于分布間距離,即度量機器人運動時產(chǎn)生的狀態(tài)轉(zhuǎn)移分布與示例個體產(chǎn)生的狀態(tài)轉(zhuǎn)移分布間的距離,具體可通過對抗學習方法中的判別器進行量化估計。計算這兩種獎勵的前提是獲得示例個體各個關(guān)節(jié)的三維運動軌跡,該數(shù)據(jù)往往需要通過動作捕捉裝置或者動作重建算法恢復得到?,F(xiàn)有的基于視頻數(shù)據(jù)的技能學習方法通常包含兩個步驟:首先從示例視頻中重建出示例個體的運動位姿序列,然后基于追蹤誤差或者分布間距離為機器人計算獎勵信號。由于動作捕捉和動作重建方法對訓練視頻采集均有較高要求,現(xiàn)有的視頻技能學習方法大多只適用于固定視角錄制、人物運動較小的視頻。因此改進現(xiàn)有的視頻技能學習方法以更好地利用海量互聯(lián)網(wǎng)數(shù)據(jù)是重要的研究挑戰(zhàn);現(xiàn)有的視頻技能學習方法通常依賴三維位姿序列進行訓練,即在三維空間中計算獎勵信號輔助機器人學習;然而三維位姿序列通常需借助復雜的動作捕捉設(shè)備,或動作重建算法恢復得到;這兩種方式均對訓練視頻的采集過程有著較高的要求;這一限制使得現(xiàn)有算法難以有效利用互聯(lián)網(wǎng)上的海量運動技能展示視頻,從而限制了機器人可學習的技能范圍等問題尚待解決;因此,有必要提出一種多源視頻數(shù)據(jù)機器人技能系統(tǒng)及方法,以至少部分地解決現(xiàn)有技術(shù)中存在的問題。
技術(shù)實現(xiàn)思路
1、在
技術(shù)實現(xiàn)要素:
部分中引入了一系列簡化形式的概念,這將在具體實施方式部分中進一步詳細說明;本發(fā)明的發(fā)明內(nèi)容部分并不意味著要試圖限定出所要求保護的技術(shù)方案的關(guān)鍵特征和必要技術(shù)特征,更不意味著試圖確定所要求保護的技術(shù)方案的保護范圍。
2、為至少部分地解決上述問題,本發(fā)明提供了一種多源視頻數(shù)據(jù)機器人技能學習方法,包括:
3、s100,通過示例視頻搜集模塊根據(jù)運動技能文本描述,自動搜集與該技能相關(guān)的示例視頻并進行數(shù)據(jù)擴充,獲取運動示例視頻數(shù)據(jù);
4、s200,構(gòu)建虛擬機器人及虛擬攝像機并實例化,協(xié)同機器人控制策略與攝像機運鏡策略并組合智能體,生成并錄制機器人運動視頻錄制數(shù)據(jù);
5、s300,通過運動技能視頻打分模塊,構(gòu)建視頻智能打分模型,生成對機器人運動視頻錄制數(shù)據(jù)的評分結(jié)果;
6、s400,通過智能體學習模塊,設(shè)置神經(jīng)網(wǎng)絡(luò)打分模型的獎勵反饋協(xié)同優(yōu)化機器人控制策略和攝像機運鏡策略,并更新到智能體中。
7、優(yōu)選的,s100包括:
8、s101,設(shè)置運動技能文本描述;通過關(guān)鍵詞提取算法,結(jié)合大語言模型從運動技能文本描述中解析提取運動文本描述中的運動技能關(guān)鍵詞;
9、s102,對運動技能關(guān)鍵詞進行標簽內(nèi)容聚合,獲取運動技能標簽;
10、s103,根據(jù)運動技能關(guān)鍵詞及運動技能標簽,搜集運動示例視頻并進行數(shù)據(jù)擴充,獲取運動示例視頻數(shù)據(jù)及運動視頻擴充數(shù)據(jù)。
11、優(yōu)選的,s200包括:
12、s201,利用仿真實驗平臺,根據(jù)機器人參數(shù)信息,進行機器人虛擬建模,構(gòu)建由多個剛體組合虛擬結(jié)構(gòu)的虛擬機器人;
13、s202,根據(jù)攝像機參數(shù)信息,進行攝像機建模,構(gòu)建無碰撞屬性的針孔模型攝像機,獲取虛擬攝像機;
14、s203,將虛擬機器人和虛擬攝像機進行實例化,協(xié)同機器人控制策略與攝像機運鏡策略并將實例化后的虛擬機器人和虛擬攝像機組合為智能體,進行虛擬機器人控制和運動視頻錄制,生成并錄制仿真環(huán)境中攝像機捕捉到的機器人運動視頻,獲取機器人運動視頻錄制數(shù)據(jù);將機器人運動視頻錄制數(shù)據(jù)傳輸?shù)竭\動技能視頻打分模塊。
15、優(yōu)選的,s300包括:
16、s301,對機器人運動視頻錄制數(shù)據(jù)、機器人運動示例視頻數(shù)據(jù)及運動視頻擴充數(shù)據(jù)進行特征提取及存儲;
17、s302,構(gòu)建神經(jīng)網(wǎng)絡(luò)打分模型,對比機器人運動視頻錄制數(shù)據(jù)與機器人運動示例視頻數(shù)據(jù)及運動視頻擴充數(shù)據(jù)的特征相似度,生成運動視頻錄制數(shù)據(jù)評分結(jié)果。
18、優(yōu)選的,s400包括:
19、s401,智能體學習模塊基于神經(jīng)網(wǎng)絡(luò)打分模型的運動視頻錄制數(shù)據(jù)評分結(jié)果反饋,通過神經(jīng)網(wǎng)絡(luò)打分模型的獎勵反饋協(xié)同優(yōu)化機器人控制策略和攝像機運鏡策略,獲取優(yōu)化機器人控制策略和優(yōu)化攝像機運鏡策略;
20、s402,根據(jù)優(yōu)化機器人控制策略和優(yōu)化攝像機運鏡策略,迭代優(yōu)化智能體策略,更新到虛擬機器人及虛擬攝像機組合智能體中。
21、本發(fā)明提供了一種多源視頻數(shù)據(jù)機器人技能系統(tǒng),包括:
22、視頻搜集數(shù)據(jù)擴充子系統(tǒng),通過示例視頻搜集模塊根據(jù)運動技能文本描述,自動搜集與該技能相關(guān)的示例視頻并進行數(shù)據(jù)擴充,獲取運動示例視頻數(shù)據(jù);
23、虛擬構(gòu)建控制策略子系統(tǒng),構(gòu)建虛擬機器人及虛擬攝像機并實例化,協(xié)同機器人控制策略與攝像機運鏡策略并組合智能體,生成并錄制機器人運動視頻錄制數(shù)據(jù);
24、運動技能智能評分子系統(tǒng),通過運動技能視頻打分模塊,構(gòu)建視頻智能打分模型,生成對機器人運動視頻錄制數(shù)據(jù)的評分結(jié)果;
25、策略優(yōu)化智能體更新子系統(tǒng),通過智能體學習模塊,設(shè)置神經(jīng)網(wǎng)絡(luò)打分模型的獎勵反饋協(xié)同優(yōu)化機器人控制策略和攝像機運鏡策略,并更新到智能體中。
26、優(yōu)選的,視頻搜集數(shù)據(jù)擴充子系統(tǒng),包括:
27、關(guān)鍵詞提取解析單元,設(shè)置運動技能文本描述;通過關(guān)鍵詞提取算法,結(jié)合大語言模型從運動技能文本描述中解析提取運動文本描述中的運動技能關(guān)鍵詞;
28、標簽內(nèi)容聚合單元,對運動技能關(guān)鍵詞進行標簽內(nèi)容聚合,獲取運動技能標簽;
29、搜集視頻標簽擴充單元,根據(jù)運動技能關(guān)鍵詞及運動技能標簽,搜集運動示例視頻并進行數(shù)據(jù)擴充,獲取運動示例視頻數(shù)據(jù)及運動視頻擴充數(shù)據(jù)。
30、優(yōu)選的,虛擬構(gòu)建控制策略子系統(tǒng),包括:
31、機器人結(jié)構(gòu)建模單元,利用仿真實驗平臺,根據(jù)機器人參數(shù)信息,進行機器人虛擬建模,構(gòu)建由多個剛體組合虛擬結(jié)構(gòu)的虛擬機器人;
32、虛擬攝像機建模單元,根據(jù)攝像機參數(shù)信息,進行攝像機建模,構(gòu)建無碰撞屬性的針孔模型攝像機,獲取虛擬攝像機;
33、實例化智能體組合單元,將虛擬機器人和虛擬攝像機進行實例化,協(xié)同機器人控制策略與攝像機運鏡策略并將實例化后的虛擬機器人和虛擬攝像機組合為智能體,進行虛擬機器人控制和運動視頻錄制,生成并錄制仿真環(huán)境中攝像機捕捉到的機器人運動視頻,獲取機器人運動視頻錄制數(shù)據(jù);將機器人運動視頻錄制數(shù)據(jù)傳輸?shù)竭\動技能視頻打分模塊。
34、優(yōu)選的,運動技能智能評分子系統(tǒng),包括:
35、特征提取存儲單元,對機器人運動視頻錄制數(shù)據(jù)、機器人運動示例視頻數(shù)據(jù)及運動視頻擴充數(shù)據(jù)進行特征提取及存儲;
36、打分模型特征評分單元,構(gòu)建神經(jīng)網(wǎng)絡(luò)打分模型,對比機器人運動視頻錄制數(shù)據(jù)與機器人運動示例視頻數(shù)據(jù)及運動視頻擴充數(shù)據(jù)的特征相似度,生成運動視頻錄制數(shù)據(jù)評分結(jié)果。
37、優(yōu)選的,策略優(yōu)化智能體更新子系統(tǒng),包括:
38、智能體學習優(yōu)化單元,智能體學習模塊基于神經(jīng)網(wǎng)絡(luò)打分模型的運動視頻錄制數(shù)據(jù)評分結(jié)果反饋,通過神經(jīng)網(wǎng)絡(luò)打分模型的獎勵反饋協(xié)同優(yōu)化機器人控制策略和攝像機運鏡策略,獲取優(yōu)化機器人控制策略和優(yōu)化攝像機運鏡策略;
39、智能體策略迭代更新單元,根據(jù)優(yōu)化機器人控制策略和優(yōu)化攝像機運鏡策略,迭代優(yōu)化智能體策略,更新到虛擬機器人及虛擬攝像機組合智能體中。
40、相比現(xiàn)有技術(shù),本發(fā)明至少包括以下有益效果:
41、本發(fā)明一種多源視頻數(shù)據(jù)機器人技能學習方法及系統(tǒng),通過示例視頻搜集模塊根據(jù)運動技能文本描述,自動搜集與該技能相關(guān)的示例視頻并進行數(shù)據(jù)擴充,獲取運動示例視頻數(shù)據(jù);構(gòu)建虛擬機器人及虛擬攝像機并實例化,協(xié)同機器人控制策略與攝像機運鏡策略并組合智能體,生成并錄制機器人運動視頻錄制數(shù)據(jù);通過運動技能視頻打分模塊,構(gòu)建視頻智能打分模型,生成對機器人運動視頻錄制數(shù)據(jù)的評分結(jié)果;通過智能體學習模塊,設(shè)置神經(jīng)網(wǎng)絡(luò)打分模型的獎勵反饋協(xié)同優(yōu)化機器人控制策略和攝像機運鏡策略,并更新到智能體中;本專利提出了一種基于多源視頻數(shù)據(jù)的技能學習方法,旨在使虛擬機器人從多源視頻示例中學習統(tǒng)一的運動控制策略;該方法不僅訓練機器人的控制策略,還訓練攝像機運鏡策略對機器人進行錄制,并通過錄制結(jié)果對動作打分輔助其學習;該方法無需恢復出示例視頻中的三維運動軌跡來進行訓練,顯著降低了數(shù)據(jù)采集和預處理的復雜度,從而有效利用多源視頻數(shù)據(jù)進行學習;該方法有效規(guī)避了訓練數(shù)據(jù)來源不同所導致的數(shù)據(jù)異構(gòu)性問題,使得虛擬機器人能夠從不同來源的海量示例視頻中學習統(tǒng)一的運動技能關(guān)鍵詞。該方法簡化了傳統(tǒng)方法在訓練數(shù)據(jù)采集和預處理階段的復雜流程,提高了訓練數(shù)據(jù)的處理效率;多源視頻數(shù)據(jù)類型;該方法將基于多源視頻數(shù)據(jù)的技能學習問題建模為一個多智能體強化學習問題,在訓練機器人運動控制策略的同時,還訓練攝像機運鏡策略,以輔助機器人完成技能學習;該方法訓練出的攝像機運鏡策略無需人為控制,可根據(jù)機器人的運動軌跡調(diào)整自身的錄制軌跡,自然地展示虛擬機器人的技能學習成果;從多源視頻數(shù)據(jù)中學習統(tǒng)一運動技能關(guān)鍵詞的方法;聯(lián)合訓練機器人運動控制和攝像機運鏡策略的方法;實現(xiàn)了一個基于多源視頻數(shù)據(jù)的運動技能關(guān)鍵詞學習方法,該方法可利用從互聯(lián)網(wǎng)上收集的多源運動技能關(guān)鍵詞視頻,監(jiān)督虛擬機器人通過模仿學習獲得新的運動技能關(guān)鍵詞;由于該方法不要求以特定的方式采集訓練視頻,因此可利用海量的網(wǎng)絡(luò)數(shù)據(jù)學習多樣技能;此外,該方法還能在訓練機器人學習運動技能關(guān)鍵詞的同時生成一種自然的攝像機運鏡策略,該策略可為機器人錄制運動視頻,用于直觀地展示其學習成果。
42、本發(fā)明所述的一種多源視頻數(shù)據(jù)機器人技能學習方法及系統(tǒng),本發(fā)明的其它優(yōu)點、目標和特征將部分通過下面的說明體現(xiàn),部分還將通過對本發(fā)明的研究和實踐而為本領(lǐng)域的技術(shù)人員所理解。