基于PPO算法和Transformer-XL框架的空戰(zhàn)格斗策略訓(xùn)練方法

文檔序號(hào)：40610722發(fā)布日期：2025-01-07 20:53閱讀：8來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于戰(zhàn)場(chǎng)仿真，具體涉及一種基于ppo算法和transformer-xl框架的空戰(zhàn)格斗策略訓(xùn)練方法。

背景技術(shù)：

1、傳統(tǒng)空戰(zhàn)策略主要指的是在沒(méi)有現(xiàn)代智能技術(shù)支持的情況下，基于經(jīng)驗(yàn)和戰(zhàn)術(shù)規(guī)則形成的空中作戰(zhàn)方法。一般而言，這個(gè)方法會(huì)首先提取原始的空中戰(zhàn)斗數(shù)據(jù)中的相關(guān)特征，然后利用這些特征來(lái)定量評(píng)估本方對(duì)敵方的偵測(cè)和攻擊威脅能力，或者評(píng)估敵方對(duì)本方的威脅水平，以此來(lái)評(píng)估整體的空中戰(zhàn)斗態(tài)勢(shì)。接下來(lái)，據(jù)空戰(zhàn)經(jīng)驗(yàn)和理論制定出一系列操作步驟。傳統(tǒng)算法包括微分對(duì)策法、專家系統(tǒng)和影響圖法等。但是，傳統(tǒng)算法面臨著計(jì)算效率低下的問(wèn)題，限制了其應(yīng)對(duì)復(fù)雜空戰(zhàn)環(huán)境的能力。

2、強(qiáng)化學(xué)習(xí)在各個(gè)領(lǐng)域中的應(yīng)用越來(lái)越廣泛，特別是在復(fù)雜動(dòng)態(tài)環(huán)境下的決策和控制問(wèn)題中顯示出了巨大的潛力。到目前為止，強(qiáng)化學(xué)習(xí)已廣泛應(yīng)用于游戲、機(jī)器人、自動(dòng)駕駛、推薦系統(tǒng)和資源管理等領(lǐng)域。

3、自2016年以來(lái)，深度強(qiáng)化學(xué)習(xí)(drl)方法在智能決策領(lǐng)域取得了顯著成功。alphago系列算法在圍棋領(lǐng)域擊敗了人類冠軍，引起全球關(guān)注。alphafold?v2在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域取得了突出成果，而alphatensor在矩陣快速算法領(lǐng)域?qū)崿F(xiàn)了突破。著名學(xué)者silver曾表示，基于drl方法的通用人工智能(agi)的基礎(chǔ)已經(jīng)具備。drl在高維度決策任務(wù)中的卓越表現(xiàn)，為解決傳統(tǒng)空戰(zhàn)決策方法的維度受限問(wèn)題帶來(lái)了新的機(jī)遇，促使一系列研究的開(kāi)展。2019年，kurniawan采用行動(dòng)者-批評(píng)者(actor-critic，ac)架構(gòu)進(jìn)行空戰(zhàn)決策，結(jié)合了基于價(jià)值和基于策略的方法的優(yōu)勢(shì)。同年，yang等人使用深度確定性策略梯度(ddpg)方法，解決了傳統(tǒng)空戰(zhàn)決策中的“維度爆炸”問(wèn)題，實(shí)現(xiàn)了在連續(xù)空間下的動(dòng)作輸出。piao等人通過(guò)強(qiáng)化學(xué)習(xí)方法自我進(jìn)化空戰(zhàn)動(dòng)作，實(shí)現(xiàn)了戰(zhàn)術(shù)創(chuàng)新。

4、現(xiàn)有的解決方案中，提出了基于價(jià)值近似網(wǎng)絡(luò)的格斗策略研究方法。在復(fù)雜的空戰(zhàn)格斗過(guò)程中，需要無(wú)人機(jī)進(jìn)行連續(xù)多步的決策。如果采用深度強(qiáng)化學(xué)習(xí)，需要得到動(dòng)作價(jià)值函數(shù)q(s,a)。由于無(wú)人機(jī)飛行狀態(tài)中每一個(gè)維度都是連續(xù)值，無(wú)法使用表格記錄，一個(gè)常見(jiàn)的解決方法是使用函數(shù)擬合(function?approximation)的思想。該算法在較困難任務(wù)下格斗策略單一且勝率較低，策略適用性不強(qiáng)。因此，需要選擇更適合復(fù)雜空戰(zhàn)環(huán)境的格斗策略訓(xùn)練方法，使智能體在更復(fù)雜和多變的空戰(zhàn)環(huán)境中表現(xiàn)更為出色。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本發(fā)明的目的是提供一種基于ppo算法和transformer-xl框架的空戰(zhàn)格斗策略訓(xùn)練方法。

2、一種空戰(zhàn)格斗策略訓(xùn)練方法，包括：

3、將飛機(jī)的狀態(tài)向量首先作為輸入傳入多層感知機(jī)，將其調(diào)整到transformer編碼器塊所需的嵌入維度，然后再輸入到多個(gè)堆疊而成的transformer編碼器塊中，得到輸入狀態(tài)向量編碼后的上下文信息，作為狀態(tài)的表征結(jié)果；

4、將狀態(tài)的表征結(jié)果分別輸入到ppo框架下的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)，價(jià)值網(wǎng)絡(luò)計(jì)算優(yōu)勢(shì)函數(shù)adv(s,a)；策略網(wǎng)絡(luò)輸出動(dòng)作的概率分布，智能體根據(jù)概率分布隨機(jī)選取動(dòng)作；接著，策略網(wǎng)絡(luò)計(jì)算動(dòng)作比率，即新策略和舊策略之間的比值，用以衡量某個(gè)狀態(tài)s下選擇某動(dòng)作a的概率的變化；

5、基于優(yōu)勢(shì)函數(shù)adv(s,a)和動(dòng)作比率計(jì)算一個(gè)損失函數(shù)，所述價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)采用該同一個(gè)損失函數(shù)用于訓(xùn)練更新各自的網(wǎng)絡(luò)參數(shù)；該損失函數(shù)為策略損失、價(jià)值損失和熵正則項(xiàng)加權(quán)求和構(gòu)成；所述策略損失表示為比較當(dāng)前策略和舊策略的概率比率；所述價(jià)值損失表示為當(dāng)前價(jià)值估計(jì)與目標(biāo)價(jià)值之間的差異；所述熵正則項(xiàng)用于鼓勵(lì)策略的探索性。

6、較佳的，所述策略損失表示為:

7、

8、其中，πθ(a∣s)是當(dāng)前策略下動(dòng)作a的概率，是舊策略下的概率，adv(s,a)是優(yōu)勢(shì)函數(shù)，clip()表示裁剪處理，∈是設(shè)定的裁剪范圍。

9、較佳的，所述價(jià)值損失表示為：

10、

11、其中，vt是狀態(tài)價(jià)值函數(shù)v(st)，表示累計(jì)回報(bào)的真實(shí)值，∈是裁剪范圍；第一項(xiàng)表示當(dāng)前價(jià)值函數(shù)v(st)和實(shí)際回報(bào)之間的標(biāo)準(zhǔn)平方誤差；第二項(xiàng)是一個(gè)經(jīng)過(guò)剪輯后的誤差，限制vt在vt-∈和vt+∈之間。

12、較佳的，所述熵正則項(xiàng)表示為：

13、

14、其中，entropy(p(a∣s))是策略的熵,對(duì)于一個(gè)給定狀態(tài)st下的策略π(a∣st)，entropy(p(a∣s))＝-∑aπ(a∣st)logπ(a∣st)；其中，π(a∣st)表示策略π在狀態(tài)st下選擇動(dòng)作a的概率；表示對(duì)狀態(tài)s根據(jù)狀態(tài)分布p(s)求期望，即對(duì)所有可能狀態(tài)的熵進(jìn)行加權(quán)平均。

15、較佳的，所述損失函數(shù)表示為：

16、loss＝(l_p-α·l_v+β·entropy_bonus)

17、其中，α是價(jià)值損失的權(quán)重系數(shù)，β是熵正則項(xiàng)的系數(shù)。

18、本發(fā)明具有如下有益效果：

19、1、通過(guò)gated?transformer-xl框架中分段記憶和長(zhǎng)程依賴關(guān)系的建模，使智能體在長(zhǎng)時(shí)間序列數(shù)據(jù)的處理上更具優(yōu)勢(shì)，增強(qiáng)智能體對(duì)長(zhǎng)時(shí)依賴關(guān)系的捕捉能力。

20、2、智能體能夠更好地適應(yīng)動(dòng)態(tài)變化的戰(zhàn)場(chǎng)環(huán)境，提高策略的適用性和魯棒性。

技術(shù)特征：

1.一種空戰(zhàn)格斗策略訓(xùn)練方法，其特征在于，包括：

2.如權(quán)利要求1所述的空戰(zhàn)格斗策略訓(xùn)練方法，其特征在于，所述策略損失表示為:

3.如權(quán)利要求2所述的空戰(zhàn)格斗策略訓(xùn)練方法，其特征在于，所述價(jià)值損失表示為：

4.如權(quán)利要求3所述的空戰(zhàn)格斗策略訓(xùn)練方法，其特征在于，所述熵正則項(xiàng)表示為：

5.如權(quán)利要求4所述的空戰(zhàn)格斗策略訓(xùn)練方法，其特征在于，所述損失函數(shù)表示為：

技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于PPO算法和Transformer?XL框架的空戰(zhàn)格斗策略訓(xùn)練方法，通過(guò)Gated?Transformer?XL框架中分段記憶和長(zhǎng)程依賴關(guān)系的建模，使智能體在長(zhǎng)時(shí)間序列數(shù)據(jù)的處理上更具優(yōu)勢(shì)，增強(qiáng)智能體對(duì)長(zhǎng)時(shí)依賴關(guān)系的捕捉能力；智能體能夠更好地適應(yīng)動(dòng)態(tài)變化的戰(zhàn)場(chǎng)環(huán)境，提高策略的適用性和魯棒性。

技術(shù)研發(fā)人員：王博,顧彥航
受保護(hù)的技術(shù)使用者：北京理工大學(xué)
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王博,顧彥航
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于PPO算法和Transformer-XL框架的空戰(zhàn)格斗策略訓(xùn)練方法