本發(fā)明屬于戰(zhàn)場(chǎng)仿真,具體涉及一種基于ppo算法和transformer-xl框架的空戰(zhàn)格斗策略訓(xùn)練方法。
背景技術(shù):
1、傳統(tǒng)空戰(zhàn)策略主要指的是在沒(méi)有現(xiàn)代智能技術(shù)支持的情況下,基于經(jīng)驗(yàn)和戰(zhàn)術(shù)規(guī)則形成的空中作戰(zhàn)方法。一般而言,這個(gè)方法會(huì)首先提取原始的空中戰(zhàn)斗數(shù)據(jù)中的相關(guān)特征,然后利用這些特征來(lái)定量評(píng)估本方對(duì)敵方的偵測(cè)和攻擊威脅能力,或者評(píng)估敵方對(duì)本方的威脅水平,以此來(lái)評(píng)估整體的空中戰(zhàn)斗態(tài)勢(shì)。接下來(lái),據(jù)空戰(zhàn)經(jīng)驗(yàn)和理論制定出一系列操作步驟。傳統(tǒng)算法包括微分對(duì)策法、專家系統(tǒng)和影響圖法等。但是,傳統(tǒng)算法面臨著計(jì)算效率低下的問(wèn)題,限制了其應(yīng)對(duì)復(fù)雜空戰(zhàn)環(huán)境的能力。
2、強(qiáng)化學(xué)習(xí)在各個(gè)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,特別是在復(fù)雜動(dòng)態(tài)環(huán)境下的決策和控制問(wèn)題中顯示出了巨大的潛力。到目前為止,強(qiáng)化學(xué)習(xí)已廣泛應(yīng)用于游戲、機(jī)器人、自動(dòng)駕駛、推薦系統(tǒng)和資源管理等領(lǐng)域。
3、自2016年以來(lái),深度強(qiáng)化學(xué)習(xí)(drl)方法在智能決策領(lǐng)域取得了顯著成功。alphago系列算法在圍棋領(lǐng)域擊敗了人類冠軍,引起全球關(guān)注。alphafold?v2在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域取得了突出成果,而alphatensor在矩陣快速算法領(lǐng)域?qū)崿F(xiàn)了突破。著名學(xué)者silver曾表示,基于drl方法的通用人工智能(agi)的基礎(chǔ)已經(jīng)具備。drl在高維度決策任務(wù)中的卓越表現(xiàn),為解決傳統(tǒng)空戰(zhàn)決策方法的維度受限問(wèn)題帶來(lái)了新的機(jī)遇,促使一系列研究的開(kāi)展。2019年,kurniawan采用行動(dòng)者-批評(píng)者(actor-critic,ac)架構(gòu)進(jìn)行空戰(zhàn)決策,結(jié)合了基于價(jià)值和基于策略的方法的優(yōu)勢(shì)。同年,yang等人使用深度確定性策略梯度(ddpg)方法,解決了傳統(tǒng)空戰(zhàn)決策中的“維度爆炸”問(wèn)題,實(shí)現(xiàn)了在連續(xù)空間下的動(dòng)作輸出。piao等人通過(guò)強(qiáng)化學(xué)習(xí)方法自我進(jìn)化空戰(zhàn)動(dòng)作,實(shí)現(xiàn)了戰(zhàn)術(shù)創(chuàng)新。
4、現(xiàn)有的解決方案中,提出了基于價(jià)值近似網(wǎng)絡(luò)的格斗策略研究方法。在復(fù)雜的空戰(zhàn)格斗過(guò)程中,需要無(wú)人機(jī)進(jìn)行連續(xù)多步的決策。如果采用深度強(qiáng)化學(xué)習(xí),需要得到動(dòng)作價(jià)值函數(shù)q(s,a)。由于無(wú)人機(jī)飛行狀態(tài)中每一個(gè)維度都是連續(xù)值,無(wú)法使用表格記錄,一個(gè)常見(jiàn)的解決方法是使用函數(shù)擬合(function?approximation)的思想。該算法在較困難任務(wù)下格斗策略單一且勝率較低,策略適用性不強(qiáng)。因此,需要選擇更適合復(fù)雜空戰(zhàn)環(huán)境的格斗策略訓(xùn)練方法,使智能體在更復(fù)雜和多變的空戰(zhàn)環(huán)境中表現(xiàn)更為出色。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明的目的是提供一種基于ppo算法和transformer-xl框架的空戰(zhàn)格斗策略訓(xùn)練方法。
2、一種空戰(zhàn)格斗策略訓(xùn)練方法,包括:
3、將飛機(jī)的狀態(tài)向量首先作為輸入傳入多層感知機(jī),將其調(diào)整到transformer編碼器塊所需的嵌入維度,然后再輸入到多個(gè)堆疊而成的transformer編碼器塊中,得到輸入狀態(tài)向量編碼后的上下文信息,作為狀態(tài)的表征結(jié)果;
4、將狀態(tài)的表征結(jié)果分別輸入到ppo框架下的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò),價(jià)值網(wǎng)絡(luò)計(jì)算優(yōu)勢(shì)函數(shù)adv(s,a);策略網(wǎng)絡(luò)輸出動(dòng)作的概率分布,智能體根據(jù)概率分布隨機(jī)選取動(dòng)作;接著,策略網(wǎng)絡(luò)計(jì)算動(dòng)作比率,即新策略和舊策略之間的比值,用以衡量某個(gè)狀態(tài)s下選擇某動(dòng)作a的概率的變化;
5、基于優(yōu)勢(shì)函數(shù)adv(s,a)和動(dòng)作比率計(jì)算一個(gè)損失函數(shù),所述價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)采用該同一個(gè)損失函數(shù)用于訓(xùn)練更新各自的網(wǎng)絡(luò)參數(shù);該損失函數(shù)為策略損失、價(jià)值損失和熵正則項(xiàng)加權(quán)求和構(gòu)成;所述策略損失表示為比較當(dāng)前策略和舊策略的概率比率;所述價(jià)值損失表示為當(dāng)前價(jià)值估計(jì)與目標(biāo)價(jià)值之間的差異;所述熵正則項(xiàng)用于鼓勵(lì)策略的探索性。
6、較佳的,所述策略損失表示為:
7、
8、其中,πθ(a∣s)是當(dāng)前策略下動(dòng)作a的概率,是舊策略下的概率,adv(s,a)是優(yōu)勢(shì)函數(shù),clip()表示裁剪處理,∈是設(shè)定的裁剪范圍。
9、較佳的,所述價(jià)值損失表示為:
10、
11、其中,vt是狀態(tài)價(jià)值函數(shù)v(st),表示累計(jì)回報(bào)的真實(shí)值,∈是裁剪范圍;第一項(xiàng)表示當(dāng)前價(jià)值函數(shù)v(st)和實(shí)際回報(bào)之間的標(biāo)準(zhǔn)平方誤差;第二項(xiàng)是一個(gè)經(jīng)過(guò)剪輯后的誤差,限制vt在vt-∈和vt+∈之間。
12、較佳的,所述熵正則項(xiàng)表示為:
13、
14、其中,entropy(p(a∣s))是策略的熵,對(duì)于一個(gè)給定狀態(tài)st下的策略π(a∣st),entropy(p(a∣s))=-∑aπ(a∣st)logπ(a∣st);其中,π(a∣st)表示策略π在狀態(tài)st下選擇動(dòng)作a的概率;表示對(duì)狀態(tài)s根據(jù)狀態(tài)分布p(s)求期望,即對(duì)所有可能狀態(tài)的熵進(jìn)行加權(quán)平均。
15、較佳的,所述損失函數(shù)表示為:
16、loss=(l_p-α·l_v+β·entropy_bonus)
17、其中,α是價(jià)值損失的權(quán)重系數(shù),β是熵正則項(xiàng)的系數(shù)。
18、本發(fā)明具有如下有益效果:
19、1、通過(guò)gated?transformer-xl框架中分段記憶和長(zhǎng)程依賴關(guān)系的建模,使智能體在長(zhǎng)時(shí)間序列數(shù)據(jù)的處理上更具優(yōu)勢(shì),增強(qiáng)智能體對(duì)長(zhǎng)時(shí)依賴關(guān)系的捕捉能力。
20、2、智能體能夠更好地適應(yīng)動(dòng)態(tài)變化的戰(zhàn)場(chǎng)環(huán)境,提高策略的適用性和魯棒性。
1.一種空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,包括:
2.如權(quán)利要求1所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述策略損失表示為:
3.如權(quán)利要求2所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述價(jià)值損失表示為:
4.如權(quán)利要求3所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述熵正則項(xiàng)表示為:
5.如權(quán)利要求4所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述損失函數(shù)表示為: