基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法與流程

文檔序號(hào)：40598547發(fā)布日期：2025-01-07 20:39閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法與流程

技術(shù)特征：

1.基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，包括如下步驟：

2.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，在步驟1中，所述策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)初步定義為：

3.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，在步驟2中，所述初始化經(jīng)驗(yàn)回放緩沖區(qū)定義為：

4.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，在步驟3中，智能體通過策略網(wǎng)絡(luò)選擇動(dòng)作的公式如下：

5.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，在步驟4中，所述優(yōu)先經(jīng)驗(yàn)池公式如下：

6.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，在步驟5中，所述更新價(jià)值網(wǎng)絡(luò)的公式如下：

7.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法，其特征在于，在步驟6中，所述更新策略網(wǎng)絡(luò)的公式如下：

技術(shù)總結(jié)
本發(fā)明公開了一種基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法，涉及多智能體火力資源分配技術(shù)領(lǐng)域，包括：為每個(gè)智能體初始化其策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)；初始化經(jīng)驗(yàn)回放緩沖區(qū)；每個(gè)智能體通過雙噪聲機(jī)制與策略網(wǎng)絡(luò)選擇一個(gè)動(dòng)作；從優(yōu)先經(jīng)驗(yàn)池中抽取一個(gè)批次的經(jīng)驗(yàn)，對(duì)每一個(gè)智能體使用目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算目標(biāo)Q值；最小化當(dāng)前Q值和目標(biāo)Q值之間的均方誤差；通過最大化策略網(wǎng)絡(luò)輸出動(dòng)作在價(jià)值網(wǎng)絡(luò)中的評(píng)分來更新策略網(wǎng)絡(luò)的參數(shù)；通過與歷史最好的平均獎(jiǎng)勵(lì)值進(jìn)行比較，決定是否保存當(dāng)前的模型參數(shù)。本發(fā)明減少對(duì)人類指揮的依賴，在復(fù)雜和快速變化的戰(zhàn)斗環(huán)境中，這種自主決策能力可以顯著提高反應(yīng)速度和靈活性。

技術(shù)研發(fā)人員：劉華軍
受保護(hù)的技術(shù)使用者：?？辗绖?wù)科技（南京）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/6

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法與流程