基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法與流程

文檔序號(hào)：40598547發(fā)布日期：2025-01-07 20:39閱讀：5來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于多智能體火力資源分配，具體是涉及一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法。

背景技術(shù)：

1、火力目標(biāo)分配問題是軍事指揮作戰(zhàn)領(lǐng)域的關(guān)鍵。近年來，無(wú)人機(jī)在戰(zhàn)場(chǎng)的廣泛應(yīng)用使得火力目標(biāo)分配的重要性與日俱增，因此如何基于戰(zhàn)場(chǎng)態(tài)勢(shì)，合理分配攔截?cái)撤絾挝?，避免遺漏目標(biāo)，重復(fù)打擊目標(biāo)是當(dāng)前研究的重點(diǎn)。在過去相當(dāng)長(zhǎng)一段時(shí)間內(nèi)，研究人員往往會(huì)使用遺傳算法、蟻群算法、粒子群算法等來進(jìn)行目標(biāo)分配。然而實(shí)際作戰(zhàn)環(huán)境與目標(biāo)策略是難以量化的，傳統(tǒng)的分析模型和算法在處理決策時(shí)存在不確定性和非線性的瓶頸，難以適應(yīng)不斷變化的戰(zhàn)場(chǎng)環(huán)境。在研究過程中研究人員發(fā)現(xiàn)火力目標(biāo)分配問題是一個(gè)典型的面向不完全信息博弈的順序決策過程，可以歸結(jié)為解決馬爾可夫決策過程問題，因此強(qiáng)化學(xué)習(xí)可以應(yīng)用于火力目標(biāo)分配問題。過去通常會(huì)構(gòu)建深度q網(wǎng)絡(luò)模型(dqn)實(shí)現(xiàn)火力目標(biāo)分段分配，但應(yīng)對(duì)復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境時(shí)，dqn往往會(huì)陷入局部最優(yōu)解的問題當(dāng)中。研究人員嘗試采用q-learning模型方法對(duì)火力分配場(chǎng)景做出智能決策，希望實(shí)現(xiàn)多智能體的協(xié)同工作，但在實(shí)際情況下，每個(gè)智能體的不同策略會(huì)使得環(huán)境變得不穩(wěn)定從而難以進(jìn)行學(xué)習(xí)。多智能體深度確定性策略梯度模型(maddpg)通過集中訓(xùn)練分布執(zhí)行的思想，實(shí)現(xiàn)了訓(xùn)練時(shí)采用全局觀測(cè)評(píng)價(jià)，而執(zhí)行時(shí)各智能體僅考慮自身策略的機(jī)制。但maddpg在智能體數(shù)量增多時(shí)，單個(gè)智能體訓(xùn)練時(shí)需要考慮的其余智能體的狀態(tài)動(dòng)作等信息會(huì)指數(shù)增加；maddpg也常會(huì)陷入局部最優(yōu)解的問題，無(wú)法很好地利用有學(xué)習(xí)價(jià)值的經(jīng)驗(yàn)。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在處理決策時(shí)存在不確定性和非線性的瓶頸，難以適應(yīng)不斷變化戰(zhàn)場(chǎng)環(huán)境的缺點(diǎn)，而提出的一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法。該基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法可在復(fù)雜和快速變化的戰(zhàn)斗環(huán)境中顯著提高自主決策的反應(yīng)速度和靈活性。

2、為了實(shí)現(xiàn)上述目的，本發(fā)明采用了如下技術(shù)方案：

3、一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型，步驟為：

4、包括如下步驟：

5、步驟1：為每個(gè)智能體初始化其策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)，這兩個(gè)網(wǎng)絡(luò)分別負(fù)責(zé)決定動(dòng)作和評(píng)估動(dòng)作的價(jià)值；

6、步驟2：初始化經(jīng)驗(yàn)回放緩沖區(qū)，用于存儲(chǔ)智能體的經(jīng)歷，以及在訓(xùn)練過程中隨機(jī)采樣；

7、步驟3：在環(huán)境中執(zhí)行，每個(gè)智能體根據(jù)當(dāng)前狀態(tài)通過雙噪聲機(jī)制與策略網(wǎng)絡(luò)至少選擇一個(gè)動(dòng)作，所有智能體同時(shí)采取行動(dòng)，并觀察新的狀態(tài)和獎(jiǎng)勵(lì)，將每個(gè)智能體的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中；

8、步驟4：從優(yōu)先經(jīng)驗(yàn)池中抽取某一個(gè)批次的經(jīng)驗(yàn)，對(duì)每一個(gè)智能體使用目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算目標(biāo)q值，目標(biāo)q值由即時(shí)獎(jiǎng)勵(lì)和下一狀態(tài)的目標(biāo)策略網(wǎng)絡(luò)輸出的動(dòng)作通過目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算得到；

9、步驟5：使用帶有時(shí)延算法的目標(biāo)函數(shù)，最小化當(dāng)前q值和目標(biāo)q值之間的均方誤差，用于更新價(jià)值網(wǎng)絡(luò)的參數(shù)；

10、步驟6：策略網(wǎng)絡(luò)的更新基于策略梯度，通過最大化策略網(wǎng)絡(luò)輸出動(dòng)作在價(jià)值網(wǎng)絡(luò)中的評(píng)分來更新策略網(wǎng)絡(luò)的參數(shù)；

11、步驟7：定期評(píng)估算法的性能，并根據(jù)表現(xiàn)保存最優(yōu)模型，通過與歷史最好的平均獎(jiǎng)勵(lì)值進(jìn)行比較，決定是否保存當(dāng)前的模型參數(shù)。

12、進(jìn)一步的，在步驟1中，所述策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)初步定義為：

13、π＝{π1,…,πn}

14、θ＝{θ1,…,θn}

15、進(jìn)一步的，在步驟2中，所述初始化經(jīng)驗(yàn)回放緩沖區(qū)定義為：

16、

17、式中，為經(jīng)驗(yàn)回放緩沖區(qū)，st,at,rt,st+1分別表示智能體狀態(tài)、動(dòng)作、即時(shí)獎(jiǎng)勵(lì)、下一步動(dòng)作。

18、進(jìn)一步的，在步驟3中，智能體通過策略網(wǎng)絡(luò)選擇動(dòng)作的公式如下：

19、

20、式中，ai是智能體i在時(shí)間步t選擇的動(dòng)作；是智能體i的確定性策略網(wǎng)絡(luò)；oi是智能體i在時(shí)間步t觀測(cè)到的狀態(tài)；nt是探索噪聲，采用ornstein-uhlenbeck隨機(jī)噪聲，對(duì)于nt的定義為：

21、dnt＝θ(μ―nt)dt+δdbt

22、式中，μ為nt回歸到的均值，在探索噪聲的背景下，噪聲會(huì)隨著時(shí)間趨向于零平均值；θ控制nt回歸到均值的速度；δ為噪聲波動(dòng)程度；bt是標(biāo)準(zhǔn)布朗運(yùn)動(dòng)，在動(dòng)作空間中加入均值為0，方差為δ2的隨機(jī)高斯白噪聲：

23、ε～n(0,δ2)

24、在選擇動(dòng)作后，進(jìn)行環(huán)境狀態(tài)的更新以及獎(jiǎng)勵(lì)計(jì)算，公式如下：

25、st+1,rt＝env.step(ai)

26、進(jìn)入經(jīng)驗(yàn)池前，將環(huán)境對(duì)于各智能體的影響集體處理，同時(shí)最大化其他智能體的收益，公式如下：

27、

28、式中，為智能體j的平均動(dòng)作，代表了相鄰智能體所采取動(dòng)作的平均值；nj為相鄰智能體的集合，最后將這些信息存入經(jīng)驗(yàn)池中：

29、

30、進(jìn)一步的，在步驟4中，所述優(yōu)先經(jīng)驗(yàn)池公式如下：

31、

32、

33、式中，σi對(duì)應(yīng)了經(jīng)驗(yàn)的優(yōu)先權(quán)重；pi為經(jīng)驗(yàn)的抽樣概率；α作為一個(gè)超參數(shù)用于調(diào)整優(yōu)先級(jí)的重要性；為所有經(jīng)驗(yàn)的優(yōu)先級(jí)的總和，用于歸一化每個(gè)經(jīng)驗(yàn)的優(yōu)先級(jí)，使得所有經(jīng)驗(yàn)的采樣概率之和為1；優(yōu)先經(jīng)驗(yàn)池的抽取采用重要性抽樣，其重要性抽樣權(quán)值為：

34、

35、式中，s是優(yōu)先經(jīng)驗(yàn)池的大小，β是一個(gè)基于優(yōu)先級(jí)控制經(jīng)驗(yàn)重播級(jí)別的超參數(shù)；

36、由優(yōu)先經(jīng)驗(yàn)池提取某一批次經(jīng)驗(yàn)后會(huì)對(duì)每一個(gè)智能體使用目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算目標(biāo)q值yi：

37、yi＝r(st,ai)+γνi(st+1)

38、

39、式中，是智能體i在給定狀態(tài)st+1和其他智能體的平均動(dòng)作下選擇動(dòng)作ai的概率；π―i指除了i智能體外其他智能體的所采取的策略；指這個(gè)公式表示在下一狀態(tài)st+1下，智能體i的策略πi和其他智能體的策略π―i所產(chǎn)生的q值的期望。

40、進(jìn)一步的，在步驟5中，所述更新價(jià)值網(wǎng)絡(luò)的公式如下：

41、

42、式中表示從優(yōu)先經(jīng)驗(yàn)池中采樣得到的數(shù)據(jù)的期望值。通過最小化目標(biāo)函數(shù)來優(yōu)化價(jià)值網(wǎng)絡(luò)的參數(shù)θi：

43、θ′i←τθi+(1―τ)θ′i

44、進(jìn)一步的，在步驟6中，所述更新策略網(wǎng)絡(luò)的公式如下：

45、

46、式中，表示將這兩個(gè)梯度相乘并對(duì)經(jīng)驗(yàn)回放緩沖區(qū)中的所有采樣進(jìn)行加權(quán)平均，得到策略梯度使用梯度上升法更新策略網(wǎng)絡(luò)的參數(shù)πi，使得期望的累積回報(bào)j最大化；

47、改進(jìn)后的模型需更新平均動(dòng)作策略網(wǎng)絡(luò)，更新平均動(dòng)作策略網(wǎng)絡(luò)的公式如下：

48、

49、最后對(duì)策略網(wǎng)絡(luò)，平均動(dòng)作策略網(wǎng)絡(luò)的參數(shù)更新：

50、π′i←τπi+(1―τ)π′i

51、

52、與現(xiàn)有技術(shù)相比，采用本發(fā)明提出的一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，有益效果在于：本發(fā)明通過設(shè)計(jì)了一種雙噪聲平均動(dòng)作探索機(jī)制，結(jié)合優(yōu)先經(jīng)驗(yàn)池對(duì)maddpg進(jìn)行了改進(jìn)，實(shí)現(xiàn)了多智能體在不同危險(xiǎn)度多目標(biāo)環(huán)境下的火力資源分配。相較于maddpg訓(xùn)練成本高，容易陷入局部最優(yōu)解的問題，本發(fā)明在動(dòng)作探索模塊將ornstein-uhlenbeck隨機(jī)噪聲與高斯噪聲結(jié)合，確保了動(dòng)作探索的穩(wěn)定性。針對(duì)多智能體多目標(biāo)環(huán)境下策略價(jià)值網(wǎng)絡(luò)輸入維度高，難以學(xué)習(xí)的問題，本發(fā)明采用了平均動(dòng)作機(jī)制，將環(huán)境對(duì)于各智能體的影響集體處理，最大化其他智能體的收益。同時(shí)，對(duì)于那些表現(xiàn)差的訓(xùn)練樣本，在經(jīng)驗(yàn)重播時(shí)給予了更高的權(quán)重。本發(fā)明在實(shí)際中可以根據(jù)多個(gè)任務(wù)目標(biāo)的優(yōu)先程度、距離等因素實(shí)現(xiàn)合理的火力資源分配，幫助實(shí)際軍事作戰(zhàn)例如無(wú)人機(jī)空中火力分配環(huán)境下做出及時(shí)有效的應(yīng)對(duì)。對(duì)軍事資源高效利用，軍事作戰(zhàn)智能化、協(xié)同化有著重要意義。具體地：

53、1)、本發(fā)明設(shè)計(jì)了一種能夠在多目標(biāo)多智能體下處理火力資源分配的新型強(qiáng)化學(xué)習(xí)模型。該模型可以根據(jù)目標(biāo)的危險(xiǎn)度同時(shí)考慮距離以及其余智能體的位置選擇最佳分配方式，相較于傳統(tǒng)maddpg訓(xùn)練容易陷入局部最優(yōu)解以及訓(xùn)練成本高的問題，本發(fā)明可以在較短時(shí)間內(nèi)實(shí)現(xiàn)多智能體的協(xié)同火力資源分配。

54、2)、本發(fā)明設(shè)計(jì)了一種雙噪聲平均動(dòng)作探索機(jī)制。本發(fā)明中決定智能體下一步動(dòng)作時(shí)，除了采用常規(guī)的高斯噪聲外，還使用了ornstein-uhlenbeck噪聲。這種設(shè)計(jì)使得生產(chǎn)下一步動(dòng)作時(shí)可以考慮過去動(dòng)作的均值，依據(jù)慣性在某一方向進(jìn)行探索，確保了動(dòng)作探索的穩(wěn)定性。考慮到隨著智能體數(shù)量提高，輸入給網(wǎng)絡(luò)的動(dòng)作、狀態(tài)信息也會(huì)指數(shù)提高的問題，本發(fā)明設(shè)計(jì)了平均動(dòng)作機(jī)制，在單智能體的策略價(jià)值網(wǎng)絡(luò)中，以相鄰智能體的動(dòng)作平均值代替其余智能體的動(dòng)作作為輸入。這樣做的好處是將環(huán)境對(duì)于各智能體的影響集體處理，最大化其他智能體的收益。

55、3)、本發(fā)明設(shè)計(jì)了一種優(yōu)先經(jīng)驗(yàn)池機(jī)制。與傳統(tǒng)經(jīng)驗(yàn)重播機(jī)制從經(jīng)驗(yàn)池中均勻采樣不同，本發(fā)明對(duì)能夠?qū)δ切┚W(wǎng)絡(luò)在與環(huán)境交互過程中表現(xiàn)較差的數(shù)據(jù)賦予更高的權(quán)重來促使模型充分利用。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉華軍
技術(shù)所有人：海空防務(wù)科技（南京）有限公司
我是此專利的發(fā)明人

上一篇：發(fā)動(dòng)機(jī)變速箱與后橋的連接結(jié)構(gòu)的制作方法
上一篇：灑水車后置灑水結(jié)構(gòu)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法與流程