欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法

文檔序號(hào):7838892閱讀:699來源:國知局
專利名稱:動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法
技術(shù)領(lǐng)域
本發(fā)明涉及無線通信技術(shù)中的認(rèn)知無線電領(lǐng)域,具體講是基于多智能體強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)在動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)合分配的新方法。
背景技術(shù)
目前,隨著無線通信業(yè)務(wù)種類的快速增長,對無線頻譜資源的需求也呈指數(shù)增長, 使得未來無線通信中的頻譜資源“匱乏”問題日益突出。認(rèn)知無線電技術(shù)在保證主用戶服務(wù)質(zhì)量的條件下以“伺機(jī)接入”的方式利用授權(quán)用戶的空閑頻段,大大提高了頻譜的使用效率,是解決“頻譜匱乏”問題的有效方法。認(rèn)知網(wǎng)絡(luò)中(cognitive radio networks簡稱 CRN)的頻率功率聯(lián)合分配技術(shù)通過合理的分配各認(rèn)知用戶或次級(jí)用戶(secondary user, 簡稱SU)所使用的頻率和功率,盡可能的減少SU之間的干擾,提升認(rèn)知無線網(wǎng)絡(luò)的吞吐量。 因此,頻率功率聯(lián)合分配技術(shù)是保證認(rèn)知無線網(wǎng)絡(luò)傳輸效率的前提和基礎(chǔ)。頻率功率聯(lián)合分配是實(shí)現(xiàn)認(rèn)知網(wǎng)絡(luò)共享CRN頻譜資源的主要方法之一。通過合理配置SU的接入信道以及發(fā)射功率,實(shí)現(xiàn)在不干擾主用戶(primary user,簡稱PU)的前提下,優(yōu)化認(rèn)知網(wǎng)絡(luò)的吞吐量性能。然而與非認(rèn)知系統(tǒng)的資源分配不同,由于PU占用狀態(tài)的動(dòng)態(tài)變化,認(rèn)知用戶的可用頻譜資源同樣是動(dòng)態(tài)的,因此SU必須根據(jù)PU狀態(tài)實(shí)時(shí)的調(diào)整策略。此時(shí)給聯(lián)合分配方法的設(shè)計(jì)帶來許多新的挑戰(zhàn)。強(qiáng)化學(xué)習(xí)(reinforcement learning,簡稱RL)采用對外界環(huán)境和自身決策不斷探測的方式,獲取在動(dòng)態(tài)環(huán)境中,能最優(yōu)化長遠(yuǎn)收益的決策。通過采用RL學(xué)習(xí)方法,單個(gè)SU 能夠適應(yīng)頻譜資源的動(dòng)態(tài)性,實(shí)現(xiàn)最大化長遠(yuǎn)收益的頻率功率聯(lián)合決策。然而在多個(gè)SU并存時(shí),由于各SU的頻率功率聯(lián)和決策互相影響,互相制約,且處于動(dòng)態(tài)變化之中,因此RL學(xué)習(xí)方法的性能將大打折扣,甚至無法收斂。多智能體強(qiáng)化學(xué)習(xí)方法(multi-agent reinforcement learning,簡稱MARL)考慮了在多個(gè)學(xué)習(xí)者共存時(shí),對環(huán)境的動(dòng)態(tài)變化和其它學(xué)習(xí)者策略動(dòng)態(tài)變化的學(xué)習(xí)問題。其主要思想是將RL學(xué)習(xí)方法中的單個(gè)用戶決策學(xué)習(xí)擴(kuò)展至多個(gè)用戶的聯(lián)合決策學(xué)習(xí),因此能有效地解決單個(gè)用戶決策學(xué)習(xí)的低效性和不穩(wěn)定性。近年來MARL方法在無線資源分配領(lǐng)域得到了廣泛應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明的目的是針對PU占用信道狀態(tài)動(dòng)態(tài)變化時(shí),多個(gè)SU共存的CRN網(wǎng)絡(luò)中的頻率功率聯(lián)和分配問題,提出一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法。本發(fā)明的技術(shù)方案是一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法,實(shí)現(xiàn)動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時(shí)隙結(jié)構(gòu)包括三個(gè)時(shí)隙感知決策時(shí)隙、傳輸時(shí)隙和確認(rèn)時(shí)隙;感知決策時(shí)隙實(shí)現(xiàn)主用戶狀態(tài)的感知,并獲取傳輸時(shí)隙的頻率功率聯(lián)和決策;傳輸時(shí)隙實(shí)現(xiàn)信息傳輸,并且在接收端估計(jì)鏈路增益,計(jì)算當(dāng)前回報(bào)值和度量所受干擾大小;確認(rèn)時(shí)隙用于接收ACK信號(hào)、鏈路增益、當(dāng)前回報(bào)值和所受干擾大小的反饋信息,并且更新多智能體強(qiáng)化學(xué)習(xí)過程中所需要的行為回報(bào)函數(shù),歷史干擾表,以及對其他認(rèn)知鏈路頻率策略的估計(jì)值。一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法,包括下列步驟步驟1.參數(shù)初始化,完成以下工作1. 1網(wǎng)絡(luò)中每個(gè)認(rèn)知鏈路i,i e {1,...,N}初始化其行為回報(bào)函數(shù)即Q函數(shù)Qij0 (x, fw) = 0, χ e χ, f1 e Fi其中χ表示狀態(tài)變量,而X表示所有狀態(tài)集合,#表示與認(rèn)知鏈路i以及與其存在干擾關(guān)系的所有認(rèn)知鏈路的聯(lián)合頻率決策,而Fi則表示聯(lián)和頻率選擇fi所有可能組合的聯(lián)合頻率決策集合;1. 2初始化認(rèn)知鏈路的歷史干擾大小即I值表Iij0 (x, f1) = N0, X e X, f1 e Fi其中Ntl表示表示噪聲功率;1. 3初始化其他認(rèn)知鏈路頻率策略的估計(jì)值元0(x,y;.)= l/|巧I,N、,jti其中。表示認(rèn)知鏈路j的頻率選擇,F(xiàn)j表示認(rèn)知鏈路j可選的頻率集合,I · I表示求解集合的勢,If」表示用戶j可選頻率集的大小;步驟2.感知決策時(shí)隙之頻率決策實(shí)現(xiàn)主用戶狀態(tài)的感知和認(rèn)知鏈路的頻率決策,通過執(zhí)行以下分布式方法實(shí)現(xiàn)在t,t = 0,1,2,...次迭代中,首先,每個(gè)認(rèn)知鏈路i,i e {1,...,N}通過執(zhí)行
2. 1求解出針對每一個(gè)狀態(tài)和聯(lián)合頻率決策的平均Q函數(shù);然后基于2. 1獲取的平均Q函數(shù),通過執(zhí)行2. 2求解認(rèn)知鏈路的頻率策略;根據(jù)鏈路的頻率策略,執(zhí)行2. 3獲取最終的頻率決策;2. 1計(jì)算平均Q函數(shù)這(x,/)
權(quán)利要求
1.一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法,其特征在于實(shí)現(xiàn)動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時(shí)隙結(jié)構(gòu)包括三個(gè)時(shí)隙感知決策時(shí)隙、傳輸時(shí)隙和確認(rèn)時(shí)隙;感知決策時(shí)隙實(shí)現(xiàn)主用戶狀態(tài)的感知,并獲取傳輸時(shí)隙的頻率功率聯(lián)和決策;傳輸時(shí)隙實(shí)現(xiàn)信息傳輸,并且在接收端估計(jì)鏈路增益,計(jì)算當(dāng)前回報(bào)值和度量所受干擾大??;確認(rèn)時(shí)隙用于接收ACK信號(hào)、鏈路增益、當(dāng)前回報(bào)值和所受干擾大小的反饋信息,并且更新多智能體強(qiáng)化學(xué)習(xí)過程中所需要的行為回報(bào)函數(shù),歷史干擾表,以及對其他認(rèn)知鏈路頻率策略的估計(jì)值。
2.根據(jù)權(quán)利要求1所述的動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法,其特征在于,包括下列步驟步驟1.參數(shù)初始化,完成以下工作·1.1網(wǎng)絡(luò)中每個(gè)認(rèn)知鏈路i,i e {1,...,N}初始化其行為回報(bào)函數(shù)即Q函數(shù)Α,“χ, f1) = 0, χ e X, f1 e Fi其中χ表示狀態(tài)變量,而X表示所有狀態(tài)集合,f"表示與認(rèn)知鏈路i以及與其存在干擾關(guān)系的所有認(rèn)知鏈路的聯(lián)合頻率決策,而Fi則表示聯(lián)和頻率決策f"所有可能組合的聯(lián)合頻率決策集合;·1. 2初始化認(rèn)知鏈路的歷史干擾大小即I值表 Iii0 (X, = N0, X e X,f1 e Fi 其中Ntl表示表示噪聲功率;·1.3初始化其他認(rèn)知鏈路頻率策略的估計(jì)值
全文摘要
一種動(dòng)態(tài)頻譜環(huán)境中基于多智能體強(qiáng)化學(xué)習(xí)的頻率功率聯(lián)合分配方法,實(shí)現(xiàn)動(dòng)態(tài)頻譜環(huán)境中頻率功率聯(lián)和分配的時(shí)隙結(jié)構(gòu)包括三個(gè)時(shí)隙感知決策時(shí)隙、傳輸時(shí)隙和確認(rèn)時(shí)隙;感知決策時(shí)隙實(shí)現(xiàn)主用戶狀態(tài)的感知,并獲取傳輸時(shí)隙的頻率功率聯(lián)和決策;傳輸時(shí)隙實(shí)現(xiàn)信息傳輸,并且在接收端估計(jì)鏈路增益,計(jì)算當(dāng)前回報(bào)值和度量所受干擾大??;確認(rèn)時(shí)隙用于接收ACK信號(hào)、鏈路增益、當(dāng)前回報(bào)值和所受干擾大小的反饋信息,并且更新多智能體強(qiáng)化學(xué)習(xí)過程中所需要的行為回報(bào)函數(shù),歷史干擾表,以及對其他認(rèn)知鏈路頻率策略的估計(jì)值。本發(fā)明能夠在動(dòng)態(tài)的頻譜環(huán)境中實(shí)現(xiàn)實(shí)時(shí)的,性能優(yōu)越的頻率功率聯(lián)和分配。
文檔編號(hào)H04W72/04GK102448070SQ201210006680
公開日2012年5月9日 申請日期2012年1月11日 優(yōu)先權(quán)日2012年1月11日
發(fā)明者劉鑫, 吳啟暉, 王金龍, 鄭學(xué)強(qiáng) 申請人:中國人民解放軍理工大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
扎兰屯市| 曲阳县| 长岛县| 衡东县| 麦盖提县| 潞城市| 剑川县| 于都县| 文成县| 阳山县| 永平县| 山西省| 万山特区| 巩留县| 伊宁县| 丹凤县| 久治县| 轮台县| 玉门市| 宜昌市| 沧州市| 安顺市| 达拉特旗| 蒙城县| 礼泉县| 建德市| 监利县| 灵山县| 乃东县| 洛扎县| 威信县| 灵台县| 稻城县| 全南县| 分宜县| 贡觉县| 广东省| 崇信县| 全州县| 兖州市| 巢湖市|