本發(fā)明涉及機器學習,具體涉及基于保守模型強化學習的機器人控制方法。
背景技術:
1、傳統(tǒng)的基于模型強化學習方法僅限于通過量化模型不確定性或采用保守近似來被動地利用低不確定性的模型模擬樣本。因此,它們未能積極阻止現(xiàn)行政策引致的軌跡進入高不確定性區(qū)域。這種無法避開高不確定性區(qū)域會導致低質量樣本的產(chǎn)生,從而提供不穩(wěn)定的學習目標,這會阻礙最優(yōu)控制策略網(wǎng)絡的學習。這個問題在使用估計模型進行多步預測時變得更加突出。問題出現(xiàn)的原因在于,該控制策略網(wǎng)絡甚至利用較小的模型誤差做出次優(yōu)決策,這反過來又促使估計模型在多步預測中產(chǎn)生更多的外推誤差。因此,基于模型的強化學習算法仍然面臨著生成高質量的多步模型模擬樣本以提高樣本效率的挑戰(zhàn)。
技術實現(xiàn)思路
1、為了至少克服現(xiàn)有技術中的上述不足,本申請的目的在于提供基于保守模型強化學習的機器人控制方法。
2、本申請?zhí)峁┝艘环N基于保守模型強化學習的機器人控制方法,該方法包括:
3、步驟1:構建多個真實環(huán)境估計模型、多個q值、一個控制策略網(wǎng)絡、一個真實數(shù)據(jù)緩沖池和一個模擬數(shù)據(jù)緩沖池;
4、步驟2:根據(jù)控制策略網(wǎng)絡機器人與真實環(huán)境進行交互時,在執(zhí)行動作后進行狀態(tài)轉移時,將狀態(tài)轉移的交互軌跡存儲到真實數(shù)據(jù)緩沖池;
5、步驟3:通過所述多個真實環(huán)境估計模型構建保守環(huán)境估計模型的的優(yōu)化目標;
6、步驟4:使用真實數(shù)據(jù)緩沖池中的數(shù)據(jù)對保守環(huán)境估計模型進行優(yōu)化;
7、步驟5:通過所述控制策略網(wǎng)絡與保守環(huán)境估計模型進行多步交互軌跡預測生成預測數(shù)據(jù),并將所得數(shù)據(jù)存入模擬數(shù)據(jù)緩沖池;
8、步驟6:通過所述模擬數(shù)據(jù)緩沖池中的數(shù)據(jù)對q值和控制策略網(wǎng)絡進行優(yōu)化;
9、步驟7:持續(xù)迭代優(yōu)化保守環(huán)境估計模型、q值和控制策略網(wǎng)絡直至當前控制策略網(wǎng)絡性能達到預期要求;
10、步驟8:根據(jù)最終的控制策略網(wǎng)絡進行機器人運動的控制。
11、進一步的,所述步驟1的具體方法為:
12、使用多個概率神經(jīng)網(wǎng)絡來表示真實環(huán)境估計模型,即其中n表示概率估計模型的數(shù)量,并且每個概率神經(jīng)網(wǎng)絡將轉移概率密度建模為高斯模型,其均值和對角協(xié)方差由神經(jīng)網(wǎng)絡給出:
13、
14、其中θ表示神經(jīng)網(wǎng)絡的可優(yōu)化參數(shù),s表示當前狀態(tài),a表示在狀態(tài)s下執(zhí)行得動作,s′和r表示在執(zhí)行動作后發(fā)生環(huán)境轉移后到達的狀態(tài)和智能體收到回報值,和表示第n個估計模型的均值和對角協(xié)方差,表示均值為和協(xié)方差為的正態(tài)分布;
15、q值函數(shù)使用多個全連接神經(jīng)網(wǎng)絡,表示為qi,控制策略網(wǎng)絡由多層全連接神經(jīng)網(wǎng)絡組成,真實數(shù)據(jù)緩沖池和模擬數(shù)據(jù)緩沖池為內存中的儲存區(qū)域。
16、進一步的,所述步驟2中根據(jù)控制策略網(wǎng)絡機器人與真實環(huán)境進行交互后獲取的軌跡數(shù)據(jù)包括:
17、將所述機器人在真實環(huán)境中的當前狀態(tài)數(shù)據(jù)s輸入到控制策略網(wǎng)絡,并接收控制策略網(wǎng)絡輸出的動作數(shù)據(jù)a;控制策略網(wǎng)絡將控制策略網(wǎng)絡最后的全連接層輸出的多維高斯分布的均值和方差采樣獲取;
18、控制機器人以動作數(shù)據(jù)a在真實環(huán)境中運行,并獲取機器人在下一時刻的狀態(tài)數(shù)據(jù)s′以及執(zhí)行動作數(shù)據(jù)a之后得回報值r;
19、將狀態(tài)數(shù)據(jù)、動作數(shù)據(jù)、下一時刻狀態(tài)數(shù)據(jù)、回報值記為(s,a,s′,r)并作為所述軌跡數(shù)據(jù)。
20、進一步的,所述步驟3的具體方法為:
21、從多個真實環(huán)境估計模型中隨機選擇2個真實環(huán)境估計模型和用于計算被選真實環(huán)境估計模型均值的平均值μz和方差的平均值σz,即下式:
22、
23、
24、根據(jù)計算的μz和σz構建被選真實環(huán)境估計模型的上界μu和下界μl:
25、μu=μz+σz
26、μl=μz-σz
27、然后,讓被選真實環(huán)境估計模型的上界μu向下界μl靠近:
28、
29、式中μl在優(yōu)化時不傳播梯度信息;
30、根據(jù)下式獲取所述保守環(huán)境估計模型的優(yōu)化目標
31、
32、式中,表示從真實緩沖區(qū)中采樣交互軌跡樣本的期望值,表示使用最大似然函數(shù)優(yōu)化估計模型的損失,st+1表示真實環(huán)境中的下一時刻狀態(tài),st+1中包含了回報值r,η為可調節(jié)超參數(shù),表示估計模型協(xié)方差的平方值。
33、進一步的,所述步驟5的具體方法為:
34、步驟5.1:在真實數(shù)據(jù)緩沖池中隨機采樣狀態(tài)數(shù)據(jù)、動作數(shù)據(jù)記為(s,a);
35、步驟5.2:將采樣的(s,a)輸入到保守環(huán)境估計模型中,產(chǎn)生下一時刻模擬狀態(tài)和回報值
36、步驟5.3:將保守環(huán)境估計模型產(chǎn)生的下一時刻模擬狀態(tài)輸入到控制策略網(wǎng)絡,并接收控制策略網(wǎng)絡輸出的動作數(shù)據(jù)a′;
37、步驟5.4:將數(shù)據(jù)再次輸入到保守環(huán)境估計模型中,產(chǎn)生后續(xù)模型模擬樣本;
38、步驟5.5:將數(shù)據(jù)作為軌跡數(shù)據(jù)儲存到模擬數(shù)據(jù)緩沖池。
39、進一步的,所述步驟6的具體方法為:
40、使用模擬數(shù)據(jù)緩沖池中的數(shù)據(jù)對所述q值進行優(yōu)化,優(yōu)化目標為
41、
42、式中,φi表示對應q值函數(shù)的可優(yōu)化參數(shù),表示模擬數(shù)據(jù)緩沖池,表示從模擬數(shù)據(jù)緩沖區(qū)中采樣樣本的期望值,表示估計模型預測的狀態(tài)值,i表示q值函數(shù)集合的索引值,表示索引值為i且參數(shù)為φ的q值函數(shù),表示估計模型預測的回報值,qi(.)表示對于狀態(tài)-動作評估的索引值為i的q值,q′1(.),q′2(.)分別表示下一時刻對應的q值;
43、控制策略網(wǎng)絡的更新由最大化q值完成,即下式:
44、
45、式中,表示策略函數(shù)的損失函數(shù),表示控制策略網(wǎng)絡函數(shù),為控制策略網(wǎng)絡函數(shù)的可優(yōu)化參數(shù)。
46、本發(fā)明基于保守模型強化學習的機器人控制方法,通過在每個模型學習步驟中,從集成概率模型中隨機選擇具有保守近似的估計模型。它以概率估計模型的集合形式出現(xiàn),但包含了懲罰高估或過度樂觀預測的機制。這保證了基于模型強化學習算法在保守性和泛化性之間的平衡,進而解決基于模型強化學習中模擬環(huán)境產(chǎn)生多步模型模擬樣本嚴重偏離真實環(huán)境數(shù)據(jù)的問題。
1.一種基于保守模型強化學習的機器人控制方法,其特征在于,該方法包括:
2.如權利要求1所示的一種基于保守模型強化學習的機器人控制方法,其特征在于,所述步驟1的具體方法為:
3.如權利要求1所示的一種基于保守模型強化學習的機器人控制方法,其特征在于,所述步驟2中根據(jù)控制策略網(wǎng)絡機器人與真實環(huán)境進行交互后獲取的軌跡數(shù)據(jù)包括:
4.如權利要求1所示的一種基于保守模型強化學習的機器人控制方法,其特征在于,所述步驟3的具體方法為:
5.如權利要求1所示的一種基于保守模型強化學習的機器人控制方法,其特征在于,所述步驟5的具體方法為:
6.如權利要求1所示的一種基于保守模型強化學習的機器人控制方法,其特征在于,所述步驟6的具體方法為: