技術(shù)特征:1.基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,在步驟1中,所述策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)初步定義為:
3.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,在步驟2中,所述初始化經(jīng)驗(yàn)回放緩沖區(qū)定義為:
4.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,在步驟3中,智能體通過策略網(wǎng)絡(luò)選擇動(dòng)作的公式如下:
5.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,在步驟4中,所述優(yōu)先經(jīng)驗(yàn)池公式如下:
6.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,在步驟5中,所述更新價(jià)值網(wǎng)絡(luò)的公式如下:
7.根據(jù)權(quán)利要求書1所述的基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,其特征在于,在步驟6中,所述更新策略網(wǎng)絡(luò)的公式如下:
技術(shù)總結(jié)本發(fā)明公開了一種基于MADDPG的雙噪聲平均動(dòng)作火力資源分配模型方法,涉及多智能體火力資源分配技術(shù)領(lǐng)域,包括:為每個(gè)智能體初始化其策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù);初始化經(jīng)驗(yàn)回放緩沖區(qū);每個(gè)智能體通過雙噪聲機(jī)制與策略網(wǎng)絡(luò)選擇一個(gè)動(dòng)作;從優(yōu)先經(jīng)驗(yàn)池中抽取一個(gè)批次的經(jīng)驗(yàn),對(duì)每一個(gè)智能體使用目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算目標(biāo)Q值;最小化當(dāng)前Q值和目標(biāo)Q值之間的均方誤差;通過最大化策略網(wǎng)絡(luò)輸出動(dòng)作在價(jià)值網(wǎng)絡(luò)中的評(píng)分來更新策略網(wǎng)絡(luò)的參數(shù);通過與歷史最好的平均獎(jiǎng)勵(lì)值進(jìn)行比較,決定是否保存當(dāng)前的模型參數(shù)。本發(fā)明減少對(duì)人類指揮的依賴,在復(fù)雜和快速變化的戰(zhàn)斗環(huán)境中,這種自主決策能力可以顯著提高反應(yīng)速度和靈活性。
技術(shù)研發(fā)人員:劉華軍
受保護(hù)的技術(shù)使用者:??辗绖?wù)科技(南京)有限公司
技術(shù)研發(fā)日:技術(shù)公布日:2025/1/6