本發(fā)明屬于多智能體火力資源分配,具體是涉及一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法。
背景技術(shù):
1、火力目標(biāo)分配問題是軍事指揮作戰(zhàn)領(lǐng)域的關(guān)鍵。近年來,無(wú)人機(jī)在戰(zhàn)場(chǎng)的廣泛應(yīng)用使得火力目標(biāo)分配的重要性與日俱增,因此如何基于戰(zhàn)場(chǎng)態(tài)勢(shì),合理分配攔截?cái)撤絾挝?,避免遺漏目標(biāo),重復(fù)打擊目標(biāo)是當(dāng)前研究的重點(diǎn)。在過去相當(dāng)長(zhǎng)一段時(shí)間內(nèi),研究人員往往會(huì)使用遺傳算法、蟻群算法、粒子群算法等來進(jìn)行目標(biāo)分配。然而實(shí)際作戰(zhàn)環(huán)境與目標(biāo)策略是難以量化的,傳統(tǒng)的分析模型和算法在處理決策時(shí)存在不確定性和非線性的瓶頸,難以適應(yīng)不斷變化的戰(zhàn)場(chǎng)環(huán)境。在研究過程中研究人員發(fā)現(xiàn)火力目標(biāo)分配問題是一個(gè)典型的面向不完全信息博弈的順序決策過程,可以歸結(jié)為解決馬爾可夫決策過程問題,因此強(qiáng)化學(xué)習(xí)可以應(yīng)用于火力目標(biāo)分配問題。過去通常會(huì)構(gòu)建深度q網(wǎng)絡(luò)模型(dqn)實(shí)現(xiàn)火力目標(biāo)分段分配,但應(yīng)對(duì)復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境時(shí),dqn往往會(huì)陷入局部最優(yōu)解的問題當(dāng)中。研究人員嘗試采用q-learning模型方法對(duì)火力分配場(chǎng)景做出智能決策,希望實(shí)現(xiàn)多智能體的協(xié)同工作,但在實(shí)際情況下,每個(gè)智能體的不同策略會(huì)使得環(huán)境變得不穩(wěn)定從而難以進(jìn)行學(xué)習(xí)。多智能體深度確定性策略梯度模型(maddpg)通過集中訓(xùn)練分布執(zhí)行的思想,實(shí)現(xiàn)了訓(xùn)練時(shí)采用全局觀測(cè)評(píng)價(jià),而執(zhí)行時(shí)各智能體僅考慮自身策略的機(jī)制。但maddpg在智能體數(shù)量增多時(shí),單個(gè)智能體訓(xùn)練時(shí)需要考慮的其余智能體的狀態(tài)動(dòng)作等信息會(huì)指數(shù)增加;maddpg也常會(huì)陷入局部最優(yōu)解的問題,無(wú)法很好地利用有學(xué)習(xí)價(jià)值的經(jīng)驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中存在處理決策時(shí)存在不確定性和非線性的瓶頸,難以適應(yīng)不斷變化戰(zhàn)場(chǎng)環(huán)境的缺點(diǎn),而提出的一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法。該基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法可在復(fù)雜和快速變化的戰(zhàn)斗環(huán)境中顯著提高自主決策的反應(yīng)速度和靈活性。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采用了如下技術(shù)方案:
3、一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型,步驟為:
4、包括如下步驟:
5、步驟1:為每個(gè)智能體初始化其策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù),這兩個(gè)網(wǎng)絡(luò)分別負(fù)責(zé)決定動(dòng)作和評(píng)估動(dòng)作的價(jià)值;
6、步驟2:初始化經(jīng)驗(yàn)回放緩沖區(qū),用于存儲(chǔ)智能體的經(jīng)歷,以及在訓(xùn)練過程中隨機(jī)采樣;
7、步驟3:在環(huán)境中執(zhí)行,每個(gè)智能體根據(jù)當(dāng)前狀態(tài)通過雙噪聲機(jī)制與策略網(wǎng)絡(luò)至少選擇一個(gè)動(dòng)作,所有智能體同時(shí)采取行動(dòng),并觀察新的狀態(tài)和獎(jiǎng)勵(lì),將每個(gè)智能體的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一個(gè)狀態(tài)存儲(chǔ)到經(jīng)驗(yàn)回放緩沖區(qū)中;
8、步驟4:從優(yōu)先經(jīng)驗(yàn)池中抽取某一個(gè)批次的經(jīng)驗(yàn),對(duì)每一個(gè)智能體使用目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算目標(biāo)q值,目標(biāo)q值由即時(shí)獎(jiǎng)勵(lì)和下一狀態(tài)的目標(biāo)策略網(wǎng)絡(luò)輸出的動(dòng)作通過目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算得到;
9、步驟5:使用帶有時(shí)延算法的目標(biāo)函數(shù),最小化當(dāng)前q值和目標(biāo)q值之間的均方誤差,用于更新價(jià)值網(wǎng)絡(luò)的參數(shù);
10、步驟6:策略網(wǎng)絡(luò)的更新基于策略梯度,通過最大化策略網(wǎng)絡(luò)輸出動(dòng)作在價(jià)值網(wǎng)絡(luò)中的評(píng)分來更新策略網(wǎng)絡(luò)的參數(shù);
11、步驟7:定期評(píng)估算法的性能,并根據(jù)表現(xiàn)保存最優(yōu)模型,通過與歷史最好的平均獎(jiǎng)勵(lì)值進(jìn)行比較,決定是否保存當(dāng)前的模型參數(shù)。
12、進(jìn)一步的,在步驟1中,所述策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)初步定義為:
13、π={π1,…,πn}
14、θ={θ1,…,θn}
15、進(jìn)一步的,在步驟2中,所述初始化經(jīng)驗(yàn)回放緩沖區(qū)定義為:
16、
17、式中,為經(jīng)驗(yàn)回放緩沖區(qū),st,at,rt,st+1分別表示智能體狀態(tài)、動(dòng)作、即時(shí)獎(jiǎng)勵(lì)、下一步動(dòng)作。
18、進(jìn)一步的,在步驟3中,智能體通過策略網(wǎng)絡(luò)選擇動(dòng)作的公式如下:
19、
20、式中,ai是智能體i在時(shí)間步t選擇的動(dòng)作;是智能體i的確定性策略網(wǎng)絡(luò);oi是智能體i在時(shí)間步t觀測(cè)到的狀態(tài);nt是探索噪聲,采用ornstein-uhlenbeck隨機(jī)噪聲,對(duì)于nt的定義為:
21、dnt=θ(μ―nt)dt+δdbt
22、式中,μ為nt回歸到的均值,在探索噪聲的背景下,噪聲會(huì)隨著時(shí)間趨向于零平均值;θ控制nt回歸到均值的速度;δ為噪聲波動(dòng)程度;bt是標(biāo)準(zhǔn)布朗運(yùn)動(dòng),在動(dòng)作空間中加入均值為0,方差為δ2的隨機(jī)高斯白噪聲:
23、ε~n(0,δ2)
24、在選擇動(dòng)作后,進(jìn)行環(huán)境狀態(tài)的更新以及獎(jiǎng)勵(lì)計(jì)算,公式如下:
25、st+1,rt=env.step(ai)
26、進(jìn)入經(jīng)驗(yàn)池前,將環(huán)境對(duì)于各智能體的影響集體處理,同時(shí)最大化其他智能體的收益,公式如下:
27、
28、式中,為智能體j的平均動(dòng)作,代表了相鄰智能體所采取動(dòng)作的平均值;nj為相鄰智能體的集合,最后將這些信息存入經(jīng)驗(yàn)池中:
29、
30、進(jìn)一步的,在步驟4中,所述優(yōu)先經(jīng)驗(yàn)池公式如下:
31、
32、
33、式中,σi對(duì)應(yīng)了經(jīng)驗(yàn)的優(yōu)先權(quán)重;pi為經(jīng)驗(yàn)的抽樣概率;α作為一個(gè)超參數(shù)用于調(diào)整優(yōu)先級(jí)的重要性;為所有經(jīng)驗(yàn)的優(yōu)先級(jí)的總和,用于歸一化每個(gè)經(jīng)驗(yàn)的優(yōu)先級(jí),使得所有經(jīng)驗(yàn)的采樣概率之和為1;優(yōu)先經(jīng)驗(yàn)池的抽取采用重要性抽樣,其重要性抽樣權(quán)值為:
34、
35、式中,s是優(yōu)先經(jīng)驗(yàn)池的大小,β是一個(gè)基于優(yōu)先級(jí)控制經(jīng)驗(yàn)重播級(jí)別的超參數(shù);
36、由優(yōu)先經(jīng)驗(yàn)池提取某一批次經(jīng)驗(yàn)后會(huì)對(duì)每一個(gè)智能體使用目標(biāo)價(jià)值網(wǎng)絡(luò)計(jì)算目標(biāo)q值yi:
37、yi=r(st,ai)+γνi(st+1)
38、
39、式中,是智能體i在給定狀態(tài)st+1和其他智能體的平均動(dòng)作下選擇動(dòng)作ai的概率;π―i指除了i智能體外其他智能體的所采取的策略;指這個(gè)公式表示在下一狀態(tài)st+1下,智能體i的策略πi和其他智能體的策略π―i所產(chǎn)生的q值的期望。
40、進(jìn)一步的,在步驟5中,所述更新價(jià)值網(wǎng)絡(luò)的公式如下:
41、
42、式中表示從優(yōu)先經(jīng)驗(yàn)池中采樣得到的數(shù)據(jù)的期望值。通過最小化目標(biāo)函數(shù)來優(yōu)化價(jià)值網(wǎng)絡(luò)的參數(shù)θi:
43、θ′i←τθi+(1―τ)θ′i
44、進(jìn)一步的,在步驟6中,所述更新策略網(wǎng)絡(luò)的公式如下:
45、
46、式中,表示將這兩個(gè)梯度相乘并對(duì)經(jīng)驗(yàn)回放緩沖區(qū)中的所有采樣進(jìn)行加權(quán)平均,得到策略梯度使用梯度上升法更新策略網(wǎng)絡(luò)的參數(shù)πi,使得期望的累積回報(bào)j最大化;
47、改進(jìn)后的模型需更新平均動(dòng)作策略網(wǎng)絡(luò),更新平均動(dòng)作策略網(wǎng)絡(luò)的公式如下:
48、
49、最后對(duì)策略網(wǎng)絡(luò),平均動(dòng)作策略網(wǎng)絡(luò)的參數(shù)更新:
50、π′i←τπi+(1―τ)π′i
51、
52、與現(xiàn)有技術(shù)相比,采用本發(fā)明提出的一種基于maddpg的雙噪聲平均動(dòng)作火力資源分配模型方法,有益效果在于:本發(fā)明通過設(shè)計(jì)了一種雙噪聲平均動(dòng)作探索機(jī)制,結(jié)合優(yōu)先經(jīng)驗(yàn)池對(duì)maddpg進(jìn)行了改進(jìn),實(shí)現(xiàn)了多智能體在不同危險(xiǎn)度多目標(biāo)環(huán)境下的火力資源分配。相較于maddpg訓(xùn)練成本高,容易陷入局部最優(yōu)解的問題,本發(fā)明在動(dòng)作探索模塊將ornstein-uhlenbeck隨機(jī)噪聲與高斯噪聲結(jié)合,確保了動(dòng)作探索的穩(wěn)定性。針對(duì)多智能體多目標(biāo)環(huán)境下策略價(jià)值網(wǎng)絡(luò)輸入維度高,難以學(xué)習(xí)的問題,本發(fā)明采用了平均動(dòng)作機(jī)制,將環(huán)境對(duì)于各智能體的影響集體處理,最大化其他智能體的收益。同時(shí),對(duì)于那些表現(xiàn)差的訓(xùn)練樣本,在經(jīng)驗(yàn)重播時(shí)給予了更高的權(quán)重。本發(fā)明在實(shí)際中可以根據(jù)多個(gè)任務(wù)目標(biāo)的優(yōu)先程度、距離等因素實(shí)現(xiàn)合理的火力資源分配,幫助實(shí)際軍事作戰(zhàn)例如無(wú)人機(jī)空中火力分配環(huán)境下做出及時(shí)有效的應(yīng)對(duì)。對(duì)軍事資源高效利用,軍事作戰(zhàn)智能化、協(xié)同化有著重要意義。具體地:
53、1)、本發(fā)明設(shè)計(jì)了一種能夠在多目標(biāo)多智能體下處理火力資源分配的新型強(qiáng)化學(xué)習(xí)模型。該模型可以根據(jù)目標(biāo)的危險(xiǎn)度同時(shí)考慮距離以及其余智能體的位置選擇最佳分配方式,相較于傳統(tǒng)maddpg訓(xùn)練容易陷入局部最優(yōu)解以及訓(xùn)練成本高的問題,本發(fā)明可以在較短時(shí)間內(nèi)實(shí)現(xiàn)多智能體的協(xié)同火力資源分配。
54、2)、本發(fā)明設(shè)計(jì)了一種雙噪聲平均動(dòng)作探索機(jī)制。本發(fā)明中決定智能體下一步動(dòng)作時(shí),除了采用常規(guī)的高斯噪聲外,還使用了ornstein-uhlenbeck噪聲。這種設(shè)計(jì)使得生產(chǎn)下一步動(dòng)作時(shí)可以考慮過去動(dòng)作的均值,依據(jù)慣性在某一方向進(jìn)行探索,確保了動(dòng)作探索的穩(wěn)定性。考慮到隨著智能體數(shù)量提高,輸入給網(wǎng)絡(luò)的動(dòng)作、狀態(tài)信息也會(huì)指數(shù)提高的問題,本發(fā)明設(shè)計(jì)了平均動(dòng)作機(jī)制,在單智能體的策略價(jià)值網(wǎng)絡(luò)中,以相鄰智能體的動(dòng)作平均值代替其余智能體的動(dòng)作作為輸入。這樣做的好處是將環(huán)境對(duì)于各智能體的影響集體處理,最大化其他智能體的收益。
55、3)、本發(fā)明設(shè)計(jì)了一種優(yōu)先經(jīng)驗(yàn)池機(jī)制。與傳統(tǒng)經(jīng)驗(yàn)重播機(jī)制從經(jīng)驗(yàn)池中均勻采樣不同,本發(fā)明對(duì)能夠?qū)δ切┚W(wǎng)絡(luò)在與環(huán)境交互過程中表現(xiàn)較差的數(shù)據(jù)賦予更高的權(quán)重來促使模型充分利用。