本發(fā)明屬于水下探測(cè)領(lǐng)域,尤其是一種基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法與系統(tǒng)。
背景技術(shù):
1、水下探測(cè)器集群系統(tǒng)在海洋資源勘探、水下目標(biāo)搜索、海洋環(huán)境監(jiān)測(cè)等領(lǐng)域具有廣泛的應(yīng)用前景。與單個(gè)探測(cè)器相比,探測(cè)器集群能夠在更大范圍內(nèi)同時(shí)開(kāi)展探測(cè)任務(wù),具有更強(qiáng)的環(huán)境適應(yīng)能力和任務(wù)執(zhí)行效率。特別是在復(fù)雜的水下環(huán)境中,集群系統(tǒng)通過(guò)多點(diǎn)協(xié)同探測(cè),可以有效克服聲學(xué)信道帶寬受限、通信延遲大、定位精度低等問(wèn)題,顯著提升探測(cè)數(shù)據(jù)的可靠性和完整性。因此,研究基于強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,對(duì)提升水下探測(cè)能力、促進(jìn)海洋開(kāi)發(fā)具有重要的現(xiàn)實(shí)意義。
2、目前,水下探測(cè)器集群控制主要采用基于規(guī)則的確定性控制方法和基于行為的分布式控制方法?;谝?guī)則的方法通過(guò)預(yù)設(shè)的控制規(guī)則指導(dǎo)探測(cè)器運(yùn)動(dòng),如人工勢(shì)場(chǎng)法、虛擬結(jié)構(gòu)法等,這類(lèi)方法實(shí)現(xiàn)簡(jiǎn)單但缺乏環(huán)境適應(yīng)能力。基于行為的方法將復(fù)雜的集群任務(wù)分解為基本行為單元,如避障、跟隨、聚集等,通過(guò)行為協(xié)調(diào)實(shí)現(xiàn)群體控制,具有一定的環(huán)境適應(yīng)能力但難以實(shí)現(xiàn)復(fù)雜任務(wù)的優(yōu)化執(zhí)行。隨著強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展,一些研究開(kāi)始將深度強(qiáng)化學(xué)習(xí)應(yīng)用于水下探測(cè)器的控制,通過(guò)與環(huán)境交互來(lái)學(xué)習(xí)最優(yōu)控制策略,但這些方法主要針對(duì)單個(gè)探測(cè)器,在群體協(xié)同控制方面的研究還較為有限。
3、現(xiàn)有技術(shù)在水下探測(cè)器集群控制方面存在以下具體問(wèn)題:首先,在狀態(tài)表征方面,現(xiàn)有方法往往采用簡(jiǎn)單的狀態(tài)拼接或固定權(quán)重的特征組合,難以準(zhǔn)確刻畫(huà)探測(cè)器之間復(fù)雜的空間關(guān)系和互動(dòng)模式,導(dǎo)致群體協(xié)同性能不足;其次,在動(dòng)作空間設(shè)計(jì)方面,大多采用離散化的固定動(dòng)作空間,無(wú)法根據(jù)任務(wù)需求和環(huán)境變化動(dòng)態(tài)調(diào)整動(dòng)作精度和范圍,限制了控制的靈活性和精確性;再次,在獎(jiǎng)勵(lì)設(shè)計(jì)方面,現(xiàn)有方法通常使用簡(jiǎn)單的加權(quán)組合方式構(gòu)建獎(jiǎng)勵(lì)函數(shù),難以平衡探測(cè)效率、安全性和協(xié)同性等多個(gè)目標(biāo),且權(quán)重的選擇過(guò)于依賴(lài)經(jīng)驗(yàn);最后,在知識(shí)積累和遷移方面,缺乏有效的經(jīng)驗(yàn)提取和優(yōu)化機(jī)制,無(wú)法充分利用歷史任務(wù)中積累的經(jīng)驗(yàn)知識(shí)來(lái)提升新任務(wù)的學(xué)習(xí)效率,導(dǎo)致每次任務(wù)都需要重新學(xué)習(xí),適應(yīng)性和效率較低。這些問(wèn)題嚴(yán)重制約了水下探測(cè)器集群系統(tǒng)在實(shí)際應(yīng)用中的性能發(fā)揮。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的,提供一種基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法與系統(tǒng),以解決現(xiàn)有技術(shù)存在的上述問(wèn)題。
2、技術(shù)方案,基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,包括如下步驟:
3、s1、獲取探測(cè)器特征數(shù)據(jù),通過(guò)自適應(yīng)標(biāo)準(zhǔn)化處理,得到標(biāo)準(zhǔn)化狀態(tài)矩陣;基于標(biāo)準(zhǔn)化狀態(tài)矩陣,構(gòu)建空間關(guān)系量化矩陣;基于空間關(guān)系量化矩陣,生成群體拓?fù)涮卣骶仃?;將群體拓?fù)涮卣骶仃囖D(zhuǎn)換為概率分布矩陣并計(jì)算熵特征向量;將標(biāo)準(zhǔn)化狀態(tài)矩陣、群體拓?fù)涮卣骶仃嚭挽靥卣飨蛄窟M(jìn)行特征融合,得到最終特征表示;其中探測(cè)器特征數(shù)據(jù)包括探測(cè)器基礎(chǔ)狀態(tài)數(shù)據(jù)、環(huán)境參數(shù)數(shù)據(jù)和探測(cè)器群位置數(shù)據(jù);
4、s2、基于最終特征表示,構(gòu)建動(dòng)作原型矩陣和動(dòng)作耦合張量;基于動(dòng)作原型矩陣和動(dòng)作耦合張量,生成約束條件集合;基于約束條件集合,對(duì)動(dòng)作耦合張量進(jìn)行優(yōu)化,得到優(yōu)化后的動(dòng)作空間;基于優(yōu)化后的動(dòng)作空間,構(gòu)建動(dòng)作評(píng)估矩陣,通過(guò)篩選算法得到可行動(dòng)作集合;對(duì)可行動(dòng)作集合進(jìn)行多層次編碼,生成編碼后的動(dòng)作空間;
5、s3、基于最終特征表示、群體拓?fù)涮卣骶仃嚭途幋a后的動(dòng)作空間,構(gòu)建包含效率獎(jiǎng)勵(lì)、安全獎(jiǎng)勵(lì)、協(xié)同獎(jiǎng)勵(lì)和信息獲取獎(jiǎng)勵(lì)的基礎(chǔ)獎(jiǎng)勵(lì)張量;基于基礎(chǔ)獎(jiǎng)勵(lì)張量,構(gòu)建動(dòng)態(tài)權(quán)重調(diào)整矩陣,生成綜合獎(jiǎng)勵(lì)函數(shù);基于綜合獎(jiǎng)勵(lì)函數(shù),進(jìn)行策略?xún)?yōu)化,得到優(yōu)化后的策略參數(shù);基于優(yōu)化后的策略參數(shù),構(gòu)建分層經(jīng)驗(yàn)緩沖區(qū)并進(jìn)行經(jīng)驗(yàn)優(yōu)化,得到優(yōu)化后的經(jīng)驗(yàn)池;基于優(yōu)化后的經(jīng)驗(yàn)池,進(jìn)行多策略集成,得到最終優(yōu)化策略;
6、s4、基于最終優(yōu)化策略,構(gòu)建包含即時(shí)決策層、戰(zhàn)術(shù)決策層和戰(zhàn)略決策層的決策評(píng)估張量,并通過(guò)多層次融合得到融合決策矩陣;基于融合決策矩陣,構(gòu)建實(shí)時(shí)監(jiān)控矩陣,進(jìn)行異常檢測(cè)和處理,得到調(diào)整后的執(zhí)行參數(shù);基于調(diào)整后的執(zhí)行參數(shù),構(gòu)建多維度評(píng)估指標(biāo)系統(tǒng),通過(guò)自適應(yīng)權(quán)重算法得到評(píng)估權(quán)重和性能指標(biāo);基于調(diào)整后的執(zhí)行參數(shù)、評(píng)估權(quán)重和性能指標(biāo),獲取執(zhí)行數(shù)據(jù),構(gòu)建經(jīng)驗(yàn)知識(shí)庫(kù),通過(guò)知識(shí)提煉算法得到優(yōu)化后的知識(shí)庫(kù)和更新規(guī)則。
7、基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)系統(tǒng),包括:
8、至少一個(gè)處理器;以及,
9、與至少一個(gè)所述處理器通信連接的存儲(chǔ)器;其中,
10、所述存儲(chǔ)器存儲(chǔ)有可被所述處理器執(zhí)行的指令,所述指令用于被所述處理器執(zhí)行以實(shí)現(xiàn)所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法。
11、有益效果,本發(fā)明實(shí)現(xiàn)了對(duì)群體狀態(tài)的精確表征,提高了群體行為的協(xié)同效果;實(shí)現(xiàn)了群體行為的持續(xù)優(yōu)化,保證了系統(tǒng)運(yùn)行的可靠性和效率;實(shí)現(xiàn)了從狀態(tài)感知、動(dòng)作優(yōu)化、策略學(xué)習(xí)到?jīng)Q策執(zhí)行的全流程智能化控制。
1.基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s1進(jìn)一步為:
3.根據(jù)權(quán)利要求2所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s2進(jìn)一步為:
4.根據(jù)權(quán)利要求3所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s3進(jìn)一步為:
5.根據(jù)權(quán)利要求4所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s4進(jìn)一步為:
6.根據(jù)權(quán)利要求5所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s11進(jìn)一步為:
7.根據(jù)權(quán)利要求5所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s12進(jìn)一步為:
8.根據(jù)權(quán)利要求5所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s21進(jìn)一步為:
9.根據(jù)權(quán)利要求6所述的基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)方法,其特征在于,步驟s23進(jìn)一步為:
10.基于分布式強(qiáng)化學(xué)習(xí)的水下探測(cè)器集群自適應(yīng)探測(cè)系統(tǒng),其特征在于,包括: