動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法

文檔序號(hào)：7838892閱讀：699來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法
技術(shù)領(lǐng)域：
本發(fā)明涉及無線通信技術(shù)中的認(rèn)知無線電領(lǐng)域，具體講是基于多智能體強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)在動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)合分配的新方法。
背景技術(shù)：
目前，隨著無線通信業(yè)務(wù)種類的快速增長，對無線頻譜資源的需求也呈指數(shù)增長，使得未來無線通信中的頻譜資源“匱乏”問題日益突出。認(rèn)知無線電技術(shù)在保證主用戶服務(wù)質(zhì)量的條件下以“伺機(jī)接入”的方式利用授權(quán)用戶的空閑頻段，大大提高了頻譜的使用效率，是解決“頻譜匱乏”問題的有效方法。認(rèn)知網(wǎng)絡(luò)中(cognitive radio networks簡稱 CRN)的頻率功率聯(lián)合分配技術(shù)通過合理的分配各認(rèn)知用戶或次級(jí)用戶(secondary user, 簡稱SU)所使用的頻率和功率，盡可能的減少SU之間的干擾，提升認(rèn)知無線網(wǎng)絡(luò)的吞吐量。因此，頻率功率聯(lián)合分配技術(shù)是保證認(rèn)知無線網(wǎng)絡(luò)傳輸效率的前提和基礎(chǔ)。頻率功率聯(lián)合分配是實(shí)現(xiàn)認(rèn)知網(wǎng)絡(luò)共享CRN頻譜資源的主要方法之一。通過合理配置SU的接入信道以及發(fā)射功率，實(shí)現(xiàn)在不干擾主用戶(primary user，簡稱PU)的前提下，優(yōu)化認(rèn)知網(wǎng)絡(luò)的吞吐量性能。然而與非認(rèn)知系統(tǒng)的資源分配不同，由于PU占用狀態(tài)的動(dòng)態(tài)變化，認(rèn)知用戶的可用頻譜資源同樣是動(dòng)態(tài)的，因此SU必須根據(jù)PU狀態(tài)實(shí)時(shí)的調(diào)整策略。此時(shí)給聯(lián)合分配方法的設(shè)計(jì)帶來許多新的挑戰(zhàn)。強(qiáng)化學(xué)習(xí)(reinforcement learning，簡稱RL)采用對外界環(huán)境和自身決策不斷探測的方式，獲取在動(dòng)態(tài)環(huán)境中，能最優(yōu)化長遠(yuǎn)收益的決策。通過采用RL學(xué)習(xí)方法，單個(gè)SU 能夠適應(yīng)頻譜資源的動(dòng)態(tài)性，實(shí)現(xiàn)最大化長遠(yuǎn)收益的頻率功率聯(lián)合決策。然而在多個(gè)SU并存時(shí)，由于各SU的頻率功率聯(lián)和決策互相影響，互相制約，且處于動(dòng)態(tài)變化之中，因此RL學(xué)習(xí)方法的性能將大打折扣，甚至無法收斂。多智能體強(qiáng)化學(xué)習(xí)方法(multi-agent reinforcement learning,簡稱MARL)考慮了在多個(gè)學(xué)習(xí)者共存時(shí)，對環(huán)境的動(dòng)態(tài)變化和其它學(xué)習(xí)者策略動(dòng)態(tài)變化的學(xué)習(xí)問題。其主要思想是將RL學(xué)習(xí)方法中的單個(gè)用戶決策學(xué)習(xí)擴(kuò)展至多個(gè)用戶的聯(lián)合決策學(xué)習(xí)，因此能有效地解決單個(gè)用戶決策學(xué)習(xí)的低效性和不穩(wěn)定性。近年來MARL方法在無線資源分配領(lǐng)域得到了廣泛應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明的目的是針對PU占用信道狀態(tài)動(dòng)態(tài)變化時(shí)，多個(gè)SU共存的CRN網(wǎng)絡(luò)中的頻率功率聯(lián)和分配問題，提出一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法。本發(fā)明的技術(shù)方案是一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法，實(shí)現(xiàn)動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時(shí)隙結(jié)構(gòu)包括三個(gè)時(shí)隙感知決策時(shí)隙、傳輸時(shí)隙和確認(rèn)時(shí)隙；感知決策時(shí)隙實(shí)現(xiàn)主用戶狀態(tài)的感知，并獲取傳輸時(shí)隙的頻率功率聯(lián)和決策；傳輸時(shí)隙實(shí)現(xiàn)信息傳輸，并且在接收端估計(jì)鏈路增益，計(jì)算當(dāng)前回報(bào)值和度量所受干擾大小；確認(rèn)時(shí)隙用于接收ACK信號(hào)、鏈路增益、當(dāng)前回報(bào)值和所受干擾大小的反饋信息，并且更新多智能體強(qiáng)化學(xué)習(xí)過程中所需要的行為回報(bào)函數(shù)，歷史干擾表，以及對其他認(rèn)知鏈路頻率策略的估計(jì)值。一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法，包括下列步驟步驟1.參數(shù)初始化，完成以下工作1. 1網(wǎng)絡(luò)中每個(gè)認(rèn)知鏈路i，i e {1，...，N}初始化其行為回報(bào)函數(shù)即Q函數(shù)Qij0 (x, fw) = 0, χ e χ, f1 e Fi其中χ表示狀態(tài)變量，而X表示所有狀態(tài)集合，#表示與認(rèn)知鏈路i以及與其存在干擾關(guān)系的所有認(rèn)知鏈路的聯(lián)合頻率決策，而Fi則表示聯(lián)和頻率選擇fi所有可能組合的聯(lián)合頻率決策集合；1. 2初始化認(rèn)知鏈路的歷史干擾大小即I值表Iij0 (x, f1) = N0, X e X, f1 e Fi其中Ntl表示表示噪聲功率；1. 3初始化其他認(rèn)知鏈路頻率策略的估計(jì)值元0(x,y;.)= l/|巧I,N、,jti其中。表示認(rèn)知鏈路j的頻率選擇，F(xiàn)j表示認(rèn)知鏈路j可選的頻率集合，I · I表示求解集合的勢，If」表示用戶j可選頻率集的大小；步驟2.感知決策時(shí)隙之頻率決策實(shí)現(xiàn)主用戶狀態(tài)的感知和認(rèn)知鏈路的頻率決策，通過執(zhí)行以下分布式方法實(shí)現(xiàn)在t，t = 0，1，2，...次迭代中，首先，每個(gè)認(rèn)知鏈路i，i e {1，...，N}通過執(zhí)行
2. 1求解出針對每一個(gè)狀態(tài)和聯(lián)合頻率決策的平均Q函數(shù)；然后基于2. 1獲取的平均Q函數(shù)，通過執(zhí)行2. 2求解認(rèn)知鏈路的頻率策略；根據(jù)鏈路的頻率策略，執(zhí)行2. 3獲取最終的頻率決策；2. 1計(jì)算平均Q函數(shù)這(x,/)
權(quán)利要求
1.一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法，其特征在于實(shí)現(xiàn)動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時(shí)隙結(jié)構(gòu)包括三個(gè)時(shí)隙感知決策時(shí)隙、傳輸時(shí)隙和確認(rèn)時(shí)隙；感知決策時(shí)隙實(shí)現(xiàn)主用戶狀態(tài)的感知，并獲取傳輸時(shí)隙的頻率功率聯(lián)和決策；傳輸時(shí)隙實(shí)現(xiàn)信息傳輸，并且在接收端估計(jì)鏈路增益，計(jì)算當(dāng)前回報(bào)值和度量所受干擾大??；確認(rèn)時(shí)隙用于接收ACK信號(hào)、鏈路增益、當(dāng)前回報(bào)值和所受干擾大小的反饋信息，并且更新多智能體強(qiáng)化學(xué)習(xí)過程中所需要的行為回報(bào)函數(shù)，歷史干擾表，以及對其他認(rèn)知鏈路頻率策略的估計(jì)值。
2.根據(jù)權(quán)利要求1所述的動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法，其特征在于，包括下列步驟步驟1.參數(shù)初始化，完成以下工作·1.1網(wǎng)絡(luò)中每個(gè)認(rèn)知鏈路i，i e {1，...，N}初始化其行為回報(bào)函數(shù)即Q函數(shù)Α,“χ， f1) = 0, χ e X, f1 e Fi其中χ表示狀態(tài)變量，而X表示所有狀態(tài)集合，f"表示與認(rèn)知鏈路i以及與其存在干擾關(guān)系的所有認(rèn)知鏈路的聯(lián)合頻率決策，而Fi則表示聯(lián)和頻率決策f"所有可能組合的聯(lián)合頻率決策集合；·1. 2初始化認(rèn)知鏈路的歷史干擾大小即I值表 Iii0 (X， = N0, X e X，f1 e Fi 其中Ntl表示表示噪聲功率；·1.3初始化其他認(rèn)知鏈路頻率策略的估計(jì)值
全文摘要
一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法，實(shí)現(xiàn)動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時(shí)隙結(jié)構(gòu)包括三個(gè)時(shí)隙感知決策時(shí)隙、傳輸時(shí)隙和確認(rèn)時(shí)隙；感知決策時(shí)隙實(shí)現(xiàn)主用戶狀態(tài)的感知，并獲取傳輸時(shí)隙的頻率功率聯(lián)和決策；傳輸時(shí)隙實(shí)現(xiàn)信息傳輸，并且在接收端估計(jì)鏈路增益，計(jì)算當(dāng)前回報(bào)值和度量所受干擾大??；確認(rèn)時(shí)隙用于接收ACK信號(hào)、鏈路增益、當(dāng)前回報(bào)值和所受干擾大小的反饋信息，并且更新多智能體強(qiáng)化學(xué)習(xí)過程中所需要的行為回報(bào)函數(shù)，歷史干擾表，以及對其他認(rèn)知鏈路頻率策略的估計(jì)值。本發(fā)明能夠在動(dòng)態(tài)的頻譜環(huán)境中實(shí)現(xiàn)實(shí)時(shí)的，性能優(yōu)越的頻率功率聯(lián)和分配。
文檔編號(hào)H04W72/04GK102448070SQ201210006680
公開日2012年5月9日申請日期2012年1月11日優(yōu)先權(quán)日2012年1月11日
發(fā)明者劉鑫, 吳啟暉, 王金龍, 鄭學(xué)強(qiáng) 申請人:中國人民解放軍理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王金龍;吳啟暉;劉鑫;鄭學(xué)強(qiáng)
技術(shù)所有人：中國人民解放軍理工大學(xué)
我是此專利的發(fā)明人

上一篇：基于開窗異或的微懸臂梁陣列紅外圖像重構(gòu)方法
上一篇：一種降低ofdm信號(hào)峰均功率比的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法