本發(fā)明屬于但不限于通信,尤其涉及一種基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法及系統(tǒng)。
背景技術(shù):
1、近年來,隨著物聯(lián)網(wǎng)設(shè)備的激增,傳統(tǒng)的地面網(wǎng)絡(luò)越來越不能滿足廣泛的需求,同時也面臨著許多挑戰(zhàn):(1)時延敏感性:許多智能物聯(lián)網(wǎng)應(yīng)用對服務(wù)響應(yīng)時間具有嚴(yán)格的要求,即低延遲需求。然而,由于設(shè)備體積和能力的限制,終端設(shè)備往往難以滿足這些嚴(yán)苛的時延要求。(2)能耗密集型應(yīng)用:智能應(yīng)用通常是能耗密集型或計算密集型,需要消耗大量能量。這導(dǎo)致用戶終端或物聯(lián)網(wǎng)設(shè)備的電池壽命大幅縮短。(3)無線資源稀缺性:隨著大量智能終端和物聯(lián)網(wǎng)設(shè)備的接入,有限的無線頻譜資源變得日益緊張。當(dāng)前網(wǎng)絡(luò)在容納這些迅速增加的終端設(shè)備時面臨巨大壓力。在這種背景下,空地一體化網(wǎng)絡(luò)的概念應(yīng)運(yùn)而生。通過結(jié)合不同層以提供更大的覆蓋范圍、更高的吞吐量、靈活的部署和強(qiáng)大的彈性。其中,無人機(jī)的集成為空地一體化網(wǎng)絡(luò)帶來了獨(dú)特的價值。無人機(jī)作為一種典型的機(jī)載設(shè)備,已成為執(zhí)行各種智能任務(wù)的關(guān)鍵工具,如實時圖像處理、環(huán)境監(jiān)測和應(yīng)急響應(yīng)。然而,為了使空地一體化網(wǎng)絡(luò)高效運(yùn)行,必須處理和分析無人機(jī)在執(zhí)行任務(wù)期間產(chǎn)生的大量數(shù)據(jù)。在這種需求的推動下,mec技術(shù)被引入空地一體化網(wǎng)絡(luò)。mec通過將計算能力部署在離數(shù)據(jù)源更近的網(wǎng)絡(luò)邊緣,可以顯著降低數(shù)據(jù)處理延遲,提高系統(tǒng)響應(yīng)速度。因此,在無人機(jī)上部署mec可以使數(shù)據(jù)處理更接近數(shù)據(jù)源,從而減少數(shù)據(jù)傳輸延遲和帶寬需求。這種部署方法允許無人機(jī)在任務(wù)執(zhí)行期間進(jìn)行實時數(shù)據(jù)分析和決策。
2、將mec和無人機(jī)結(jié)合到空地一體化網(wǎng)絡(luò)架構(gòu)使用時,還需要解決一些挑戰(zhàn)。
3、1)能耗及設(shè)備壽命問題
4、當(dāng)mec和無人機(jī)相結(jié)合時,無人機(jī)在執(zhí)行任務(wù)期間需進(jìn)行密集的計算和數(shù)據(jù)處理。特別是在任務(wù)卸載和資源分配的過程中,其計算資源的高消耗顯著增加。無人機(jī)的硬件資源和預(yù)期使用壽命受限,頻繁的計算和數(shù)據(jù)存儲活動會加速硬件的磨損,縮短其壽命。在執(zhí)行任務(wù)時涉及大量的數(shù)據(jù)寫入和存儲操作,不僅對無人機(jī)的即時性能構(gòu)成挑戰(zhàn),還可能導(dǎo)致其性能下降甚至失效。因此,mec系統(tǒng)中頻繁的任務(wù)執(zhí)行和數(shù)據(jù)存儲活動,限制了無人機(jī)的可靠性和持久性。
5、2)處理能力問題
6、在無人機(jī)執(zhí)行任務(wù)期間,需要進(jìn)行密集的實時數(shù)據(jù)流處理和決策制定,這對其計算能力提出了顯著的挑戰(zhàn)。受限于無人機(jī)如中央處理單元(cpu)和隨機(jī)存取內(nèi)存(ram)的硬件資源,其在處理復(fù)雜任務(wù)時能力面臨挑戰(zhàn)。由于無人機(jī)的能源供應(yīng)主要依賴于電池,從而限制了其在高負(fù)載計算任務(wù)中的持續(xù)運(yùn)行能力。此外,頻繁的任務(wù)卸載和資源分配決策增加了計算資源的負(fù)擔(dān),導(dǎo)致數(shù)據(jù)處理的延遲和系統(tǒng)性能的降低。
7、3)數(shù)據(jù)實時更新問題
8、無人機(jī)在動態(tài)任務(wù)執(zhí)行中需頻繁獲取和處理數(shù)據(jù),這對mec系統(tǒng)的即時數(shù)據(jù)處理能力提出了高要求。數(shù)據(jù)傳輸?shù)难舆t、分布式mec環(huán)境中的數(shù)據(jù)一致性問題、有限的通信帶寬限制了數(shù)據(jù)傳輸速率,進(jìn)而影響數(shù)據(jù)的實時更新。同時,頻繁的數(shù)據(jù)傳輸和處理增加了無人機(jī)的能耗,可能縮短其電池壽命。此外,系統(tǒng)在面對環(huán)境干擾時的可靠性也是確保數(shù)據(jù)更新連續(xù)性和準(zhǔn)確性的關(guān)鍵挑戰(zhàn)。
9、4)動態(tài)優(yōu)化問題
10、在基于無人機(jī)和mec的場景中,環(huán)境通常具有高度動態(tài)性,并且目標(biāo)通常被定義為長期目標(biāo)。在這種情況下,我們需要設(shè)計性能更高的算法,以實現(xiàn)目標(biāo)優(yōu)化,同時具有低復(fù)雜度和良好的性能。
11、鑒于上述分析,現(xiàn)有技術(shù)存在的急需解決的技術(shù)問題為:現(xiàn)有文獻(xiàn)沒有考慮到由于無人機(jī)本地存儲資源受限而引起的資源分配問題,也沒有深入探討ues與無人機(jī)關(guān)聯(lián)策略、卸載模式選擇和任務(wù)卸載比例的優(yōu)化問題,以及盡管部分文獻(xiàn)考慮了數(shù)據(jù)分配和卸載優(yōu)化問題,但是忽略了過程中產(chǎn)生的經(jīng)濟(jì)開銷。在空地一體化網(wǎng)絡(luò)賦能mec的場景中其他設(shè)備往往具有高動態(tài)性,這對算法提出更高的性能,因而難以求解。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法及系統(tǒng)。
2、本發(fā)明是這樣實現(xiàn)的,一種基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法,利用深度強(qiáng)化學(xué)習(xí)(deep?reinforcementlearning,drl)的主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)進(jìn)行智能體的學(xué)習(xí)與決策;初始化策略網(wǎng)絡(luò)和評估網(wǎng)絡(luò)的參數(shù),并設(shè)置訓(xùn)練相關(guān)超參數(shù);智能體根據(jù)當(dāng)前策略與環(huán)境交互,執(zhí)行動作并更新狀態(tài);利用經(jīng)驗回放緩沖區(qū)存儲經(jīng)驗,并在達(dá)到容量時更新以保持最新的學(xué)習(xí)經(jīng)驗;采用損失函數(shù)計算和梯度下降法對主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)進(jìn)行參數(shù)更新;定期進(jìn)行目標(biāo)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)參數(shù)的軟更新,以確保學(xué)習(xí)穩(wěn)定性;持續(xù)訓(xùn)練至策略收斂,隨后應(yīng)用該策略完成任務(wù)分配與軌跡規(guī)劃。
3、進(jìn)一步,基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法具體包括:
4、s101、初始化智能體的主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù)θj和ωj,目標(biāo)策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù)和回合數(shù)mp,最大訓(xùn)練步數(shù)tmax,初始化評論家網(wǎng)絡(luò)和策略網(wǎng)絡(luò)對應(yīng)的學(xué)習(xí)率α和β,折扣因子γ,初始化回放緩沖區(qū)大小w、mini-batch的大小n、和用于動作探索的噪聲ψ(t);初始化網(wǎng)絡(luò)布局參數(shù),如ue數(shù)量i、無人機(jī)的數(shù)量j等參數(shù)。
5、s102、初始化智能體狀態(tài),智能體與環(huán)境交互,主策略網(wǎng)絡(luò)根據(jù)當(dāng)前策略生成動作。
6、s103、智能體執(zhí)行主策略網(wǎng)絡(luò)生成的動作,獲得獎勵,并更新狀態(tài)。
7、s104、將經(jīng)驗元組存入經(jīng)驗回放緩沖區(qū)。當(dāng)緩沖區(qū)達(dá)到容量上限時,通過覆蓋最舊的經(jīng)驗數(shù)據(jù)來引入最新獲取的經(jīng)驗。
8、s105、更新主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)參數(shù)。
9、s106、根據(jù)td目標(biāo)和評論家網(wǎng)絡(luò)預(yù)測的價值函數(shù)計算評論家網(wǎng)絡(luò)的損失函數(shù),從經(jīng)驗回放緩沖區(qū)中抽取樣本,采用梯度下降法更新目標(biāo)策略網(wǎng)絡(luò)和評估網(wǎng)絡(luò)。
10、s107、過小批量經(jīng)驗樣本更新主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù)。
11、s108、采用軟更新機(jī)制實現(xiàn)目標(biāo)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的參數(shù)更新。
12、s109、迭代訓(xùn)練直至算法穩(wěn)定收斂,應(yīng)用該策略于智能體,實現(xiàn)最優(yōu)的任務(wù)分配和軌跡規(guī)劃。
13、進(jìn)一步,所述s102、初始化智能體的狀態(tài),智能體與環(huán)境互動,主策略網(wǎng)絡(luò)基于當(dāng)前策略生成動作,智能體的狀態(tài)表示為:
14、
15、其中uj(t-1)=(xj(t-1),yj(t-1),hj(t-1)),表示無人機(jī)j在時隙t-1結(jié)束時的三維坐標(biāo),對應(yīng)于時隙t的起始點(diǎn);d(t)={di(t)},表示ue在時隙t內(nèi)的任務(wù)輸入數(shù)據(jù)大??;λ(t)={λi(t)},表示時隙t內(nèi)ue的任務(wù)處理密度;表示時隙t內(nèi)計算資源分配;表示無人機(jī)j在時隙t結(jié)束時的剩余能量;;表示每架無人機(jī)的時間壽命指標(biāo),且規(guī)定每架無人機(jī)的初始壽命為0。
16、進(jìn)一步,所述s103:智能體執(zhí)行主策略網(wǎng)絡(luò)生成的動作,獲得獎勵,并更新狀態(tài),狀態(tài)更新中獎勵reward的計算公式如下:
17、
18、上式中代表系統(tǒng)中每個智能體載重執(zhí)行動作后獲得的即時獎勵。
19、進(jìn)一步,所述s105:更新主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)參數(shù);通過梯度上升更新當(dāng)前策略網(wǎng)絡(luò)如下:
20、
21、進(jìn)一步,所述s106:根據(jù)td目標(biāo)和評論家網(wǎng)絡(luò)預(yù)測的價值函數(shù)計算評論家網(wǎng)絡(luò)的損失函數(shù),從經(jīng)驗回放緩沖區(qū)中抽取樣本,采用梯度下降法更新目標(biāo)策略網(wǎng)絡(luò)和評估網(wǎng)絡(luò)。td目標(biāo)可由下式給出:
22、
23、損失函數(shù)可以由下式給出:
24、
25、然后通過梯度下降更新主價值網(wǎng)絡(luò)當(dāng)前價值網(wǎng)絡(luò)的參數(shù)wj如下:
26、
27、進(jìn)一步,所述s108:采用軟更新機(jī)制實現(xiàn)目標(biāo)網(wǎng)絡(luò)中策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)的參數(shù)更新;軟更新公式如下:
28、
29、
30、其中θj代表當(dāng)前策略網(wǎng)絡(luò)的參數(shù),代表目標(biāo)策略網(wǎng)絡(luò)的參數(shù),wj代表當(dāng)前價值網(wǎng)絡(luò)的參數(shù),代表目標(biāo)價值網(wǎng)絡(luò)的參數(shù),χ∈[0,1]。
31、本發(fā)明的另一目的在于提供一種實現(xiàn)所述基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法的基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化系統(tǒng),包括:
32、系統(tǒng)初始化模塊,用于用于初始化深度確定性策略梯度算法參數(shù),包含設(shè)置回合數(shù)mp,最大訓(xùn)練步數(shù)tmax,初始化評論家網(wǎng)絡(luò)和策略網(wǎng)絡(luò)對應(yīng)的學(xué)習(xí)率α和β,折扣因子γ,初始化回放緩沖區(qū)大小w、mini-batch的大小n;
33、網(wǎng)絡(luò)構(gòu)建模塊,用于動作探索的噪聲ψ(t);初始化網(wǎng)絡(luò)布局參數(shù),如ue數(shù)量i、無人機(jī)的數(shù)量j等網(wǎng)絡(luò)布局參數(shù);
34、智能體模塊,用于每個周期開始時基于當(dāng)前網(wǎng)絡(luò)狀態(tài)生成動作,具備在這些行為中添加探索性噪聲的功能,以便在執(zhí)行過程中引入一定的隨機(jī)性;
35、動作執(zhí)行模塊,用于執(zhí)行資源分配和任務(wù)卸載策略;
36、獎勵獲取模塊,用于執(zhí)行動作并計算即時獎勵,根據(jù)系統(tǒng)所有設(shè)備的長期平均效用來評估獎勵,并將系統(tǒng)從當(dāng)前狀態(tài)轉(zhuǎn)移至下一狀態(tài)的狀態(tài)轉(zhuǎn)移模塊;
37、經(jīng)驗回放模塊,用于存儲每一次的系統(tǒng)狀態(tài)、執(zhí)行的動作、所獲獎勵和下一狀態(tài)的經(jīng)驗元組;
38、數(shù)據(jù)抽樣模塊,用于從存儲的經(jīng)驗回放模塊中抽取mini-batch經(jīng)驗進(jìn)行學(xué)習(xí);
39、網(wǎng)絡(luò)更新模塊,用于根據(jù)經(jīng)驗回放模塊的數(shù)據(jù)更新主策略網(wǎng)絡(luò)和主價值網(wǎng)絡(luò),包括一個參數(shù)優(yōu)化單元,使用梯度上升法和梯度下降法來調(diào)整網(wǎng)絡(luò)參數(shù);
40、參數(shù)更新模塊,用于將主網(wǎng)絡(luò)的參數(shù)更新同步到目標(biāo)策略網(wǎng)絡(luò)和目標(biāo)價值網(wǎng)絡(luò),采用軟更新策略,使得目標(biāo)網(wǎng)絡(luò)的參數(shù)是主網(wǎng)絡(luò)參數(shù)的加權(quán)平均值,并通過參數(shù)同步單元實現(xiàn)這一同步過程。
41、本發(fā)明的另一目的在于提供一種計算機(jī)設(shè)備,計算機(jī)設(shè)備包括存儲器和處理器,存儲器存儲有計算機(jī)程序,計算機(jī)程序被處理器執(zhí)行時,使得處理器執(zhí)行所述的基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法的步驟。
42、本發(fā)明的另一目的在于提供一種計算機(jī)可讀存儲介質(zhì),存儲有計算機(jī)程序,計算機(jī)程序被處理器執(zhí)行時,使得處理器執(zhí)行所述的基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法的步驟。
43、本發(fā)明的另一目的在于提供一種信息數(shù)據(jù)處理終端,信息數(shù)據(jù)處理終端包括所述的基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化系統(tǒng)。
44、結(jié)合上述的技術(shù)方案和解決的技術(shù)問題,本發(fā)明所要保護(hù)的技術(shù)方案所具備的優(yōu)點(diǎn)及積極效果為:
45、第一,本發(fā)明提升了網(wǎng)絡(luò)覆蓋范圍和服務(wù)質(zhì)量。在空地一體化網(wǎng)絡(luò)架構(gòu)中,無人機(jī)作為關(guān)鍵的空中節(jié)點(diǎn),能夠為偏遠(yuǎn)地區(qū)提供更廣闊的網(wǎng)絡(luò)覆蓋。通過無人機(jī)輔助的邊緣緩存系統(tǒng),我們能夠高效地處理計算任務(wù),合理分配計算資源和任務(wù)劃分,從而彌補(bǔ)地面基站覆蓋范圍的不足。本發(fā)明的整合對于在空地一體化環(huán)境中加強(qiáng)網(wǎng)絡(luò)的覆蓋范圍和服務(wù)質(zhì)量具有重要意義
46、本發(fā)明將mec與無人機(jī)輔助的空地一體化網(wǎng)絡(luò)相結(jié)合,為網(wǎng)絡(luò)服務(wù)提供了更高效和可擴(kuò)展的解決方案。無人機(jī)的強(qiáng)大網(wǎng)絡(luò)覆蓋性可以改善僅通過地面基站處理任務(wù)的局限性。通過將mec系統(tǒng)與無人機(jī)輔助的空地一體化網(wǎng)絡(luò)的結(jié)合,可以實現(xiàn)更快速的任務(wù)處理,減少任務(wù)處理時延。這種結(jié)合為網(wǎng)絡(luò)服務(wù)的可擴(kuò)展性提供了更大的空間,能夠更好地應(yīng)對不斷增長的數(shù)據(jù)處理需求,并且能夠滿足偏遠(yuǎn)地區(qū)的任務(wù)需求,使整個系統(tǒng)更具有可持續(xù)性。
47、本發(fā)明通過采用數(shù)字孿生技術(shù),實現(xiàn)了對物理網(wǎng)絡(luò)環(huán)境的實時監(jiān)控和動態(tài)映射,從而提高了網(wǎng)絡(luò)管理的效率和響應(yīng)速度。通過將物理網(wǎng)絡(luò)映射到數(shù)字網(wǎng)絡(luò),實現(xiàn)對網(wǎng)絡(luò)狀態(tài)的全面監(jiān)控和實時映射,從而優(yōu)化網(wǎng)絡(luò)性能和資源分配。數(shù)字孿生技術(shù)的應(yīng)用不僅提高了網(wǎng)絡(luò)的智能化水平,也為網(wǎng)絡(luò)的預(yù)測性維護(hù)和故障診斷提供了強(qiáng)有力的支持。
48、本發(fā)明根據(jù)實際的動態(tài)環(huán)境,為無人機(jī)和地面基站之間的協(xié)同工作提供了優(yōu)化策略。通過與實驗數(shù)據(jù)比較,證實該動態(tài)的資源分配方法比傳統(tǒng)的靜態(tài)資源分配方法更加準(zhǔn)確,能夠更好地模擬實際環(huán)境,操作簡便,具有更高的實時性,更接近真實場景,有利于網(wǎng)絡(luò)優(yōu)化和系統(tǒng)性能的提升。
49、第二,本發(fā)明具體取得的顯著技術(shù)進(jìn)步,在于實現(xiàn)了一種由無人機(jī)輔助的空地一體化網(wǎng)絡(luò)結(jié)合邊緣計算系統(tǒng)與數(shù)字孿生的聯(lián)合優(yōu)化方法,該方法在以下幾個關(guān)鍵方面取得了顯著的進(jìn)步:
50、1)高效的資源分配:
51、該方法通過優(yōu)化資源分配,顯著提升了無人機(jī)輔助的空地一體化網(wǎng)絡(luò)中的資源利用率。這包括更有效地分配帶寬資源給無人機(jī)和基站,以實現(xiàn)高效協(xié)同處理任務(wù)。這種優(yōu)化不僅提升了系統(tǒng)性能,還降低了能耗。
52、2)合理的任務(wù)劃分策略:
53、通過將輸入數(shù)據(jù)進(jìn)行合理分配,實現(xiàn)了一種智能的任務(wù)劃分策略,系統(tǒng)能夠根據(jù)無人機(jī)的能力和網(wǎng)絡(luò)條件動態(tài)調(diào)整任務(wù)處理,智能地調(diào)整是由無人機(jī)還是基站進(jìn)行處理,從而適應(yīng)網(wǎng)絡(luò)的動態(tài)變化。這增強(qiáng)了網(wǎng)絡(luò)的穩(wěn)定性和用戶體驗。
54、3)強(qiáng)化學(xué)習(xí)的集成:
55、通過結(jié)合drl算法與mec,無人機(jī)輔助的空地一體化網(wǎng)絡(luò)能夠?qū)崟r分析數(shù)據(jù)并自主適應(yīng)環(huán)境變化,從而在復(fù)雜動態(tài)的條件下做出最優(yōu)的決策。
56、4)系統(tǒng)效用優(yōu)化:
57、方法中包含的獎勵機(jī)制特別關(guān)注于減少無人機(jī)及地面設(shè)備的系統(tǒng)總效用,通過獎勵機(jī)制優(yōu)化能耗,提高能效,同時對環(huán)境友好。
58、5)系統(tǒng)穩(wěn)定性和可靠性的提升:
59、通過精確計算無人機(jī)執(zhí)行任務(wù)后的即時反饋,并優(yōu)化其狀態(tài)轉(zhuǎn)移過程,該方法顯著提升了系統(tǒng)在面對大規(guī)模數(shù)據(jù)處理和高密度請求時的穩(wěn)定性與可靠性。
60、6)網(wǎng)絡(luò)的自主學(xué)習(xí)和優(yōu)化能力:
61、該方法通過不斷的迭代訓(xùn)練和基于經(jīng)驗的網(wǎng)絡(luò)更新,使得系統(tǒng)能夠不斷優(yōu)化其決策過程,從而提高整體性能。
62、7)數(shù)字孿生技術(shù)的應(yīng)用:
63、該方法利用數(shù)字孿生技術(shù),構(gòu)建了一個高度精確的虛擬網(wǎng)絡(luò)映射系統(tǒng),實現(xiàn)了對物理網(wǎng)絡(luò)環(huán)境的實時監(jiān)控和動態(tài)映射,提高了網(wǎng)絡(luò)管理的效率和響應(yīng)速度。
64、這些技術(shù)的綜合應(yīng)用顯著提升了無人機(jī)輔助的mec網(wǎng)絡(luò)系統(tǒng)在多個方面的表現(xiàn),包括性能、能源效率、穩(wěn)定性和適應(yīng)性,有效支持了現(xiàn)代計算的復(fù)雜需求。
65、第三,本發(fā)明提供的基于空地一體化網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí)相結(jié)合的邊緣計算系統(tǒng)優(yōu)化方法,其核心在于使用數(shù)學(xué)模型來指導(dǎo)系統(tǒng)的行為和學(xué)習(xí)過程。可以根據(jù)這些數(shù)學(xué)模型的特點(diǎn)來探討它們帶來的技術(shù)效果:
66、1)即時獎勵的計算
67、本方法通過即時獎勵的計算,專注于提升系統(tǒng)所有設(shè)備的總體效用。
68、能效優(yōu)化:通過將獎勵機(jī)制與系統(tǒng)效用直接相關(guān)聯(lián),鼓勵系統(tǒng)探索減少能耗的策略,實現(xiàn)更高的能源效率。
69、成本節(jié)約:隨著系統(tǒng)效用的持續(xù)優(yōu)化,長期來看,可以顯著降低運(yùn)營成本,尤其在能源消耗較高的邊緣計算環(huán)境中。
70、2)主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的更新
71、采用隨機(jī)抽樣的小批量經(jīng)驗數(shù)據(jù),通過梯度上升法對當(dāng)前策略網(wǎng)絡(luò)進(jìn)行更新。
72、策略優(yōu)化:系統(tǒng)通過不斷調(diào)整策略網(wǎng)絡(luò)的參數(shù),學(xué)習(xí)并采納更高效的決策策略。
73、響應(yīng)性提高:利用小批量數(shù)據(jù)更新策略,使網(wǎng)絡(luò)能夠迅速響應(yīng)環(huán)境變化,提升了系統(tǒng)的即時調(diào)整能力。
74、3)td目標(biāo)和評論家網(wǎng)絡(luò)的損失函數(shù)
75、基于時間差分(td)目標(biāo)和評論家網(wǎng)絡(luò)預(yù)測的q值來計算損失函數(shù),并通過梯度下降法更新。
76、學(xué)習(xí)穩(wěn)定性:采用td目標(biāo)作為學(xué)習(xí)的基礎(chǔ),有助于平衡學(xué)習(xí)過程,減少因預(yù)測誤差過大引起的學(xué)習(xí)波動。
77、性能優(yōu)化:通過精確計算損失函數(shù)并及時更新網(wǎng)絡(luò)參數(shù),系統(tǒng)能夠提高決策的準(zhǔn)確性和執(zhí)行效率。
78、4)參數(shù)更新公式
79、描述了主策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)如何更新目標(biāo)網(wǎng)絡(luò)的參數(shù),涉及到當(dāng)前網(wǎng)絡(luò)與目標(biāo)網(wǎng)絡(luò)參數(shù)的同步。
80、策略逐漸逼近:通過逐步調(diào)整目標(biāo)網(wǎng)絡(luò)參數(shù),系統(tǒng)能夠平穩(wěn)地采納新策略,避免因策略突變而引發(fā)的性能波動。
81、持續(xù)學(xué)習(xí)和適應(yīng):這種持續(xù)的參數(shù)更新機(jī)制使系統(tǒng)能夠長期適應(yīng)環(huán)境的變化,保持學(xué)習(xí)與適應(yīng)的連續(xù)性。
82、本發(fā)明提供的數(shù)學(xué)模型的應(yīng)用,不僅提高了系統(tǒng)的運(yùn)行效率和決策質(zhì)量,還增強(qiáng)了系統(tǒng)對環(huán)境變化的適應(yīng)能力和長期穩(wěn)定性,并通過整合3d軌跡優(yōu)化、卸載和緩存策略優(yōu)化以及數(shù)字孿生技術(shù),實現(xiàn)了對網(wǎng)絡(luò)狀態(tài)的實時監(jiān)控和映射。這些技術(shù)效果對于現(xiàn)代邊緣計算環(huán)境中處理大量數(shù)據(jù)和高頻交互至關(guān)重要。
83、第四,本發(fā)明提供的基于mec與數(shù)字孿生的空地網(wǎng)絡(luò)優(yōu)化方法及系統(tǒng)采用了深度強(qiáng)化學(xué)習(xí)技術(shù),通過智能體與環(huán)境的交互來優(yōu)化網(wǎng)絡(luò)的性能。
84、初始化智能體的狀態(tài),智能體的狀態(tài)包括多個變量,例如:任務(wù)輸入數(shù)據(jù)量、任務(wù)處理密度、任務(wù)處理截止時間、估計計算資源分配量、每架無人機(jī)初始剩余能量、iot設(shè)備與無人機(jī)的水平距離、無人機(jī)的飛行高度、環(huán)境相關(guān)參數(shù)、路徑損耗參數(shù)。這些變量共同定義了智能體在特定時刻的環(huán)境狀態(tài),進(jìn)而影響智能體的決策。
85、智能體依據(jù)主策略網(wǎng)絡(luò)確定的動作執(zhí)行任務(wù),執(zhí)行相應(yīng)動作后,智能體根據(jù)所獲結(jié)果獲得相應(yīng)的獎勵,并根據(jù)獎勵和執(zhí)行結(jié)果,進(jìn)行狀態(tài)的更新和轉(zhuǎn)移。獎勵的計算基于系統(tǒng)所有設(shè)備的長期平均效用,這是系統(tǒng)設(shè)計的核心目標(biāo),目的是最小化整個系統(tǒng)的總效用。
86、通過梯度上升方法調(diào)整策略網(wǎng)絡(luò)的參數(shù),有助于策略網(wǎng)絡(luò)生成更優(yōu)的動作,通過優(yōu)化策略網(wǎng)絡(luò),進(jìn)一步實現(xiàn)對整個系統(tǒng)運(yùn)行性能的優(yōu)化。
87、利用時間差分(td)目標(biāo)和評論家網(wǎng)絡(luò)預(yù)測的價值函數(shù)來計算損失函數(shù),并通過梯度下降法更新目標(biāo)策略網(wǎng)絡(luò)和評論家網(wǎng)絡(luò)的參數(shù),是深度強(qiáng)化學(xué)習(xí)中價值函數(shù)更新的關(guān)鍵步驟,這一過程通過提高預(yù)測的準(zhǔn)確性來引導(dǎo)策略的持續(xù)改進(jìn),從而優(yōu)化整個系統(tǒng)的運(yùn)行性能。
88、軟更新法更新目標(biāo)網(wǎng)絡(luò),軟更新法是一種漸進(jìn)式參數(shù)更新技術(shù),它通過計算目標(biāo)網(wǎng)絡(luò)參數(shù)與當(dāng)前網(wǎng)絡(luò)參數(shù)的加權(quán)平均值來平滑地調(diào)整目標(biāo)網(wǎng)絡(luò),這種方法有助于減少學(xué)習(xí)過程中可能出現(xiàn)的劇烈波動,確保了整個學(xué)習(xí)過程的平穩(wěn)性和穩(wěn)定性。
89、這些步驟和數(shù)學(xué)模型的應(yīng)用,帶來了顯著的技術(shù)進(jìn)步:
90、策略優(yōu)化:深度強(qiáng)化學(xué)習(xí)使系統(tǒng)能夠自主學(xué)習(xí)并優(yōu)化策略,以適應(yīng)無人機(jī)輔助的空地一體化網(wǎng)絡(luò)環(huán)境中的動態(tài)變化。
91、資源高效利用:通過優(yōu)化任務(wù)卸載與資源分配,確保了無人機(jī)網(wǎng)絡(luò)中有限的資源得到高效利用,尤其是在3d軌跡優(yōu)化和數(shù)據(jù)卸載、緩存策略中。
92、系統(tǒng)效用最小化:系統(tǒng)通過優(yōu)化長期平均效用,支持綠色通信,減少對環(huán)境的影響,這對于無人機(jī)的能源管理和mec的能效優(yōu)化尤為重要。
93、系統(tǒng)穩(wěn)定性:采用軟更新方法確保了學(xué)習(xí)過程的平穩(wěn),降低了因參數(shù)快速更新帶來的系統(tǒng)不穩(wěn)定風(fēng)險,這對于維護(hù)數(shù)字孿生映射的準(zhǔn)確性和網(wǎng)絡(luò)狀態(tài)監(jiān)控至關(guān)重要。
94、網(wǎng)絡(luò)狀態(tài)實時監(jiān)控:數(shù)字孿生技術(shù)的應(yīng)用實現(xiàn)了對物理網(wǎng)絡(luò)狀態(tài)的實時映射和監(jiān)控,為系統(tǒng)提供了對網(wǎng)絡(luò)運(yùn)行狀況的深入洞察,使得策略優(yōu)化和資源分配能夠基于最準(zhǔn)確的網(wǎng)絡(luò)信息進(jìn)行。
95、這些進(jìn)步體現(xiàn)了深度強(qiáng)化學(xué)習(xí)在構(gòu)建智能、高效的空地一體化通信網(wǎng)絡(luò)中的潛力,特別是在無人機(jī)輔助、mec支持和數(shù)字孿生技術(shù)集成的復(fù)雜網(wǎng)絡(luò)系統(tǒng)中。
96、第五,作為本發(fā)明的權(quán)利要求的創(chuàng)造性輔助證據(jù),還體現(xiàn)在以下幾個重要方面:
97、1、填補(bǔ)技術(shù)空白:
98、本發(fā)明的技術(shù)方案通過集成mec與數(shù)字孿生技術(shù),為空地網(wǎng)絡(luò)優(yōu)化領(lǐng)域提供了一種全新的解決方案。這種融合方法利用了mec的低延遲和高帶寬特性,以及數(shù)字孿生在虛擬空間中對實體世界的映射和仿真能力,解決了現(xiàn)有技術(shù)中單一網(wǎng)絡(luò)架構(gòu)的局限性。
99、2、解決技術(shù)難題:
100、該技術(shù)方案針對空地網(wǎng)絡(luò)中的高時延敏感性、能耗密集型應(yīng)用以及無線資源稀缺性等挑戰(zhàn),提出了有效的解決策略。它通過mec的邊緣計算能力,實現(xiàn)了業(yè)務(wù)的本地化處理,降低了時延,并通過數(shù)字孿生技術(shù)對網(wǎng)絡(luò)進(jìn)行實時監(jiān)控和優(yōu)化,提高了資源利用率和系統(tǒng)性能。
101、3、克服技術(shù)偏見:
102、本發(fā)明的技術(shù)方案克服了傳統(tǒng)網(wǎng)絡(luò)優(yōu)化方法中對中心化處理的依賴,通過mec實現(xiàn)了去中心化的數(shù)據(jù)處理和決策。同時,它還利用數(shù)字孿生技術(shù)提供了一種新的網(wǎng)絡(luò)狀態(tài)評估和預(yù)測手段,克服了以往技術(shù)中對于單一維度優(yōu)化的偏見,實現(xiàn)了對網(wǎng)絡(luò)性能的全面優(yōu)化。