欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于PPO算法和Transformer-XL框架的空戰(zhàn)格斗策略訓(xùn)練方法

文檔序號(hào):40610722發(fā)布日期:2025-01-07 20:53閱讀:8來(lái)源:國(guó)知局
基于PPO算法和Transformer-XL框架的空戰(zhàn)格斗策略訓(xùn)練方法

本發(fā)明屬于戰(zhàn)場(chǎng)仿真,具體涉及一種基于ppo算法和transformer-xl框架的空戰(zhàn)格斗策略訓(xùn)練方法。


背景技術(shù):

1、傳統(tǒng)空戰(zhàn)策略主要指的是在沒(méi)有現(xiàn)代智能技術(shù)支持的情況下,基于經(jīng)驗(yàn)和戰(zhàn)術(shù)規(guī)則形成的空中作戰(zhàn)方法。一般而言,這個(gè)方法會(huì)首先提取原始的空中戰(zhàn)斗數(shù)據(jù)中的相關(guān)特征,然后利用這些特征來(lái)定量評(píng)估本方對(duì)敵方的偵測(cè)和攻擊威脅能力,或者評(píng)估敵方對(duì)本方的威脅水平,以此來(lái)評(píng)估整體的空中戰(zhàn)斗態(tài)勢(shì)。接下來(lái),據(jù)空戰(zhàn)經(jīng)驗(yàn)和理論制定出一系列操作步驟。傳統(tǒng)算法包括微分對(duì)策法、專家系統(tǒng)和影響圖法等。但是,傳統(tǒng)算法面臨著計(jì)算效率低下的問(wèn)題,限制了其應(yīng)對(duì)復(fù)雜空戰(zhàn)環(huán)境的能力。

2、強(qiáng)化學(xué)習(xí)在各個(gè)領(lǐng)域中的應(yīng)用越來(lái)越廣泛,特別是在復(fù)雜動(dòng)態(tài)環(huán)境下的決策和控制問(wèn)題中顯示出了巨大的潛力。到目前為止,強(qiáng)化學(xué)習(xí)已廣泛應(yīng)用于游戲、機(jī)器人、自動(dòng)駕駛、推薦系統(tǒng)和資源管理等領(lǐng)域。

3、自2016年以來(lái),深度強(qiáng)化學(xué)習(xí)(drl)方法在智能決策領(lǐng)域取得了顯著成功。alphago系列算法在圍棋領(lǐng)域擊敗了人類冠軍,引起全球關(guān)注。alphafold?v2在蛋白質(zhì)結(jié)構(gòu)領(lǐng)域取得了突出成果,而alphatensor在矩陣快速算法領(lǐng)域?qū)崿F(xiàn)了突破。著名學(xué)者silver曾表示,基于drl方法的通用人工智能(agi)的基礎(chǔ)已經(jīng)具備。drl在高維度決策任務(wù)中的卓越表現(xiàn),為解決傳統(tǒng)空戰(zhàn)決策方法的維度受限問(wèn)題帶來(lái)了新的機(jī)遇,促使一系列研究的開(kāi)展。2019年,kurniawan采用行動(dòng)者-批評(píng)者(actor-critic,ac)架構(gòu)進(jìn)行空戰(zhàn)決策,結(jié)合了基于價(jià)值和基于策略的方法的優(yōu)勢(shì)。同年,yang等人使用深度確定性策略梯度(ddpg)方法,解決了傳統(tǒng)空戰(zhàn)決策中的“維度爆炸”問(wèn)題,實(shí)現(xiàn)了在連續(xù)空間下的動(dòng)作輸出。piao等人通過(guò)強(qiáng)化學(xué)習(xí)方法自我進(jìn)化空戰(zhàn)動(dòng)作,實(shí)現(xiàn)了戰(zhàn)術(shù)創(chuàng)新。

4、現(xiàn)有的解決方案中,提出了基于價(jià)值近似網(wǎng)絡(luò)的格斗策略研究方法。在復(fù)雜的空戰(zhàn)格斗過(guò)程中,需要無(wú)人機(jī)進(jìn)行連續(xù)多步的決策。如果采用深度強(qiáng)化學(xué)習(xí),需要得到動(dòng)作價(jià)值函數(shù)q(s,a)。由于無(wú)人機(jī)飛行狀態(tài)中每一個(gè)維度都是連續(xù)值,無(wú)法使用表格記錄,一個(gè)常見(jiàn)的解決方法是使用函數(shù)擬合(function?approximation)的思想。該算法在較困難任務(wù)下格斗策略單一且勝率較低,策略適用性不強(qiáng)。因此,需要選擇更適合復(fù)雜空戰(zhàn)環(huán)境的格斗策略訓(xùn)練方法,使智能體在更復(fù)雜和多變的空戰(zhàn)環(huán)境中表現(xiàn)更為出色。


技術(shù)實(shí)現(xiàn)思路

1、有鑒于此,本發(fā)明的目的是提供一種基于ppo算法和transformer-xl框架的空戰(zhàn)格斗策略訓(xùn)練方法。

2、一種空戰(zhàn)格斗策略訓(xùn)練方法,包括:

3、將飛機(jī)的狀態(tài)向量首先作為輸入傳入多層感知機(jī),將其調(diào)整到transformer編碼器塊所需的嵌入維度,然后再輸入到多個(gè)堆疊而成的transformer編碼器塊中,得到輸入狀態(tài)向量編碼后的上下文信息,作為狀態(tài)的表征結(jié)果;

4、將狀態(tài)的表征結(jié)果分別輸入到ppo框架下的價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò),價(jià)值網(wǎng)絡(luò)計(jì)算優(yōu)勢(shì)函數(shù)adv(s,a);策略網(wǎng)絡(luò)輸出動(dòng)作的概率分布,智能體根據(jù)概率分布隨機(jī)選取動(dòng)作;接著,策略網(wǎng)絡(luò)計(jì)算動(dòng)作比率,即新策略和舊策略之間的比值,用以衡量某個(gè)狀態(tài)s下選擇某動(dòng)作a的概率的變化;

5、基于優(yōu)勢(shì)函數(shù)adv(s,a)和動(dòng)作比率計(jì)算一個(gè)損失函數(shù),所述價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)采用該同一個(gè)損失函數(shù)用于訓(xùn)練更新各自的網(wǎng)絡(luò)參數(shù);該損失函數(shù)為策略損失、價(jià)值損失和熵正則項(xiàng)加權(quán)求和構(gòu)成;所述策略損失表示為比較當(dāng)前策略和舊策略的概率比率;所述價(jià)值損失表示為當(dāng)前價(jià)值估計(jì)與目標(biāo)價(jià)值之間的差異;所述熵正則項(xiàng)用于鼓勵(lì)策略的探索性。

6、較佳的,所述策略損失表示為:

7、

8、其中,πθ(a∣s)是當(dāng)前策略下動(dòng)作a的概率,是舊策略下的概率,adv(s,a)是優(yōu)勢(shì)函數(shù),clip()表示裁剪處理,∈是設(shè)定的裁剪范圍。

9、較佳的,所述價(jià)值損失表示為:

10、

11、其中,vt是狀態(tài)價(jià)值函數(shù)v(st),表示累計(jì)回報(bào)的真實(shí)值,∈是裁剪范圍;第一項(xiàng)表示當(dāng)前價(jià)值函數(shù)v(st)和實(shí)際回報(bào)之間的標(biāo)準(zhǔn)平方誤差;第二項(xiàng)是一個(gè)經(jīng)過(guò)剪輯后的誤差,限制vt在vt-∈和vt+∈之間。

12、較佳的,所述熵正則項(xiàng)表示為:

13、

14、其中,entropy(p(a∣s))是策略的熵,對(duì)于一個(gè)給定狀態(tài)st下的策略π(a∣st),entropy(p(a∣s))=-∑aπ(a∣st)logπ(a∣st);其中,π(a∣st)表示策略π在狀態(tài)st下選擇動(dòng)作a的概率;表示對(duì)狀態(tài)s根據(jù)狀態(tài)分布p(s)求期望,即對(duì)所有可能狀態(tài)的熵進(jìn)行加權(quán)平均。

15、較佳的,所述損失函數(shù)表示為:

16、loss=(l_p-α·l_v+β·entropy_bonus)

17、其中,α是價(jià)值損失的權(quán)重系數(shù),β是熵正則項(xiàng)的系數(shù)。

18、本發(fā)明具有如下有益效果:

19、1、通過(guò)gated?transformer-xl框架中分段記憶和長(zhǎng)程依賴關(guān)系的建模,使智能體在長(zhǎng)時(shí)間序列數(shù)據(jù)的處理上更具優(yōu)勢(shì),增強(qiáng)智能體對(duì)長(zhǎng)時(shí)依賴關(guān)系的捕捉能力。

20、2、智能體能夠更好地適應(yīng)動(dòng)態(tài)變化的戰(zhàn)場(chǎng)環(huán)境,提高策略的適用性和魯棒性。



技術(shù)特征:

1.一種空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,包括:

2.如權(quán)利要求1所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述策略損失表示為:

3.如權(quán)利要求2所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述價(jià)值損失表示為:

4.如權(quán)利要求3所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述熵正則項(xiàng)表示為:

5.如權(quán)利要求4所述的空戰(zhàn)格斗策略訓(xùn)練方法,其特征在于,所述損失函數(shù)表示為:


技術(shù)總結(jié)
本發(fā)明公開(kāi)了一種基于PPO算法和Transformer?XL框架的空戰(zhàn)格斗策略訓(xùn)練方法,通過(guò)Gated?Transformer?XL框架中分段記憶和長(zhǎng)程依賴關(guān)系的建模,使智能體在長(zhǎng)時(shí)間序列數(shù)據(jù)的處理上更具優(yōu)勢(shì),增強(qiáng)智能體對(duì)長(zhǎng)時(shí)依賴關(guān)系的捕捉能力;智能體能夠更好地適應(yīng)動(dòng)態(tài)變化的戰(zhàn)場(chǎng)環(huán)境,提高策略的適用性和魯棒性。

技術(shù)研發(fā)人員:王博,顧彥航
受保護(hù)的技術(shù)使用者:北京理工大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/6
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
民和| 岳阳县| 西吉县| 洪泽县| 霍城县| 邛崃市| 莱芜市| 鄂伦春自治旗| 河池市| 五峰| 靖边县| 商南县| 舞钢市| 曲水县| 济宁市| 常山县| 朝阳区| 瓮安县| 江山市| 内黄县| 龙山县| 万山特区| 长治县| 泸溪县| 老河口市| 云龙县| 图片| 芮城县| 新民市| 蕉岭县| 东阳市| 霍城县| 巴彦县| 家居| 罗定市| 孟州市| 开封市| 永丰县| 德清县| 锦州市| 渭南市|