本發(fā)明屬于無線通信,尤其涉及一種基于深度進化策略的ris輔助增強通信方法,具體涉及一種使用深度進化策略(deep?evolution?policy,dep)對發(fā)送端預編碼矩陣和ris端反射相移矩陣聯(lián)合優(yōu)化的方法。
背景技術(shù):
1、ris是一種亞波長厚度的人造電磁功能表面,由多個獨立可重構(gòu)的無源反射單元構(gòu)成,具有易于設(shè)計和加工制造的特點,并可以人為的定制其表面的電磁特性。不同于傳統(tǒng)需要被動的適應(yīng)無線傳播信道的技術(shù)手段,利用ris輔助的通信鏈路可以通過改變無線信道特性,使得無線環(huán)境成為通信系統(tǒng)設(shè)計參量的一部分,從而帶來無線信道容量上限的提升。
2、在對ris輔助通信系統(tǒng)的相移矩陣進行優(yōu)化時,由于反射單元的非凸約束以及與預編碼矩陣之間的耦合,傳統(tǒng)凸優(yōu)化算法不再適用?,F(xiàn)有的解決方法主要為將非凸優(yōu)化問題轉(zhuǎn)換為凸優(yōu)化問題或采用交替優(yōu)化的方式進行求解,如半定松弛(sdr)、黎曼共軛梯度(rcg)、分式規(guī)劃(fp)等。然而這種優(yōu)化方式通常需要較高的計算復雜度,對于時效性要求較高以及硬件計算資源不足的端點來說不可行。另外,發(fā)送端多天線的情況下需要聯(lián)合優(yōu)化基站端有源發(fā)送波束成形以及ris端無源反射波束成形,而傳統(tǒng)優(yōu)化算法通常采用交替優(yōu)化的方式,分開對二者進行迭代優(yōu)化,其求解的結(jié)果依賴于初始值的選取,且計算復雜度隨著通信系統(tǒng)的復雜度而急劇增加,對大規(guī)模系統(tǒng)效率低下。
3、隨著計算機科學以及人工智能(artificial?intelligence,ai)技術(shù)的發(fā)展,各種機器學習(machine?learning,ml)算法被廣泛應(yīng)用到通信系統(tǒng)中以解決復雜的非線性非凸優(yōu)化問題。目前深度學習(deep?learning,dl)在ris輔助通信系統(tǒng)中的應(yīng)用主要包括資源管理、安全通信、波束賦形以及信道估計等方面?;赿l的方法能夠利用離線預測顯著降低復雜性和計算時間,但是需要在訓練前獲得大量有效的數(shù)據(jù)集,從而帶來一定的硬件存儲壓力,同時數(shù)據(jù)集中的高質(zhì)量標簽通常很難獲取。不同于dl,深度強化學習(deepreinforcement?learning,drl)是一種在線訓練算法,且并不需要提前獲取標簽。drl主要通過智能體與環(huán)境的交互得到經(jīng)驗訓練數(shù)據(jù),并在交互過程中不斷迭代改進智能體。基于梯度下降的機器學習算法如dl、drl等,需要對于損失函數(shù)的最小化以及梯度的反向傳播。鑒于通信環(huán)境和網(wǎng)絡(luò)的復雜度,創(chuàng)建一個包含正確超參數(shù)的智能體可能非常困難。例如在drl中,不管是值函數(shù)學習還是策略函數(shù)學習,智能體和環(huán)境交互、收集經(jīng)驗,然后使用反向傳播來提高神經(jīng)網(wǎng)絡(luò)(策略)的準確性。需要仔細調(diào)整超參數(shù),包括選擇正確的優(yōu)化器函數(shù)、小批量尺寸和學習率,從而保證訓練的穩(wěn)定和成功。同時,由于為了在神經(jīng)網(wǎng)絡(luò)中使用梯度下降和反向傳播,因此所創(chuàng)建的優(yōu)化模型必須可微,有些模型可能會因為缺乏可微性而無法通過梯度下降進行訓練。
技術(shù)實現(xiàn)思路
1、針對ris輔助通信系統(tǒng)中傳統(tǒng)優(yōu)化算法計算復雜度高,現(xiàn)有drl優(yōu)化算法對于梯度下降以及超參數(shù)的依賴問題,本發(fā)明提出一種基于深度進化策略的ris輔助增強通信方法。本發(fā)明基于進化學習的思想,在單個世代內(nèi)創(chuàng)建包含多個不同特征智能體的種群,通過重組變異的種群迭代方式,得出最優(yōu)智能體策略。本發(fā)明優(yōu)化算法框架簡潔,實現(xiàn)復雜度低,且無需進行梯度下降和反向傳播,是一種ris輔助通信系統(tǒng)聯(lián)合優(yōu)化的新方式。
2、為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案為:
3、一種基于深度進化策略的ris輔助增強通信方法,包括以下過程:
4、步驟1:獲取t時刻反射鏈路信道狀態(tài)信息及分別表示基站到ris和ris到用戶k之間的鏈路;并初始化世代g、種群規(guī)模p、隨機子空間比例η和個體突變率μ;其中,0≤η≤1;
5、步驟2:生成包含p個智能體的初始種群,并令g=1;其中,智能體采用深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每個智能體由各個神經(jīng)元中不同權(quán)重w和偏置b構(gòu)成的參數(shù)向量表示,參數(shù)向量維度為dp,深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的輸入為反射鏈路信道狀態(tài)信息,輸出為發(fā)送端預編碼矩陣w(t)和ris反射相移矩陣φ(t);
6、步驟3:智能體和環(huán)境進行交互得到相應(yīng)的適應(yīng)性分數(shù),即獎勵值r(t),從而得到匹配種群;
7、步驟4:根據(jù)隨機子空間策略以及子空間比例η,并結(jié)合獎勵值,從匹配種群中選取父代智能體para1,para2;
8、步驟5:不斷對父代智能體進行雜交重組,直到雜交子代智能體個數(shù)達到種群規(guī)模p;
9、步驟6:遍歷雜交子代種群個體,進行突變,并令g=g+1;
10、
11、其中,mut()表示突變過程,為某個雜交子代智能p;突變過程為:隨機選取某個雜交子代智能p的參數(shù)向量中μ*dp個參數(shù)進行隨機突變得到
12、步驟7:返回步驟3,直到g=g;
13、步驟8:輸出t時刻獎勵值最高智能體對應(yīng)的發(fā)送端預編碼矩陣w(t)以及ris反射相移矩陣φ(t);
14、步驟9:在t時刻,基站采用預編碼矩陣w(t)對發(fā)送信號x(t)進行處理,將處理后的發(fā)送信號入射至ris,經(jīng)由ris反射相移矩陣φ(t)調(diào)控后最終到達用戶,用戶k的接收信號表示為為發(fā)送端預編碼矩陣w(t)中用戶k對應(yīng)的向量,σk為用戶k處的噪聲。
15、進一步的,其特征在于,步驟3中獎勵值rt的計算方式為:
16、
17、式中,k為用戶總數(shù),為t時刻發(fā)送端預編碼矩陣w(t)中用戶m對應(yīng)的向量。
18、進一步的,其特征在于,步驟4具體過程為:
19、根據(jù)隨機子空間策略按照子空間比例η在匹配種群中隨機抽取ηp個智能體組成子空間,并按照智能體的適應(yīng)性分數(shù)進行排序,然后選取適應(yīng)性分數(shù)最高的兩個智能體作為父代智能體。
20、本發(fā)明具有以下優(yōu)點:
21、1、本發(fā)明所提出基于深度進化策略的ris輔助增強通信方法,通過進化學習的思想在種群迭代的過程中對發(fā)送端預編碼矩陣以及ris端反射相移矩陣進行聯(lián)合優(yōu)化,相較于傳統(tǒng)優(yōu)化算法簡潔明了,無需復雜的公式推導以及交替迭代優(yōu)化,可同時得到優(yōu)化后的預編碼矩陣及反射相移矩陣。
22、2、本發(fā)明基于深度學習的強擬合特性以及強化學習的交互特性,通過種群重組和變異進行迭代優(yōu)化,無需進行梯度下降和反向傳播。相較于現(xiàn)有的深度強化學習算法具有更強的探索性以及更快的收斂特性,能夠?qū)崿F(xiàn)更優(yōu)的系統(tǒng)性能。
23、3、本發(fā)明所需狀態(tài)空間僅由信道狀態(tài)信息構(gòu)成,相較于基于梯度下降的drl算法,無需大量的交互開銷。同時針對進化學習的強探索性,提出了一種隨機子空間策略進行父代選擇,有效的平衡了算法的探索性和利用性。
1.一種基于深度進化策略的ris輔助增強通信方法,其特征在于,包括以下過程:
2.根據(jù)權(quán)利要求1所述的一種基于深度進化策略的ris輔助增強通信方法,其特征在于,步驟3中獎勵值rt的計算方式為:
3.根據(jù)權(quán)利要求1所述的一種基于深度進化策略的ris輔助增強通信方法,其特征在于,步驟4具體過程為: