一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法

文檔序號：40459227發(fā)布日期：2024-12-27 09:24閱讀：來源：國知局

技術特征：

1.一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，在所述步驟1中，控制器輸出影響前饋的過程為逆擾動模型、逆擾動和外部擾動構成的復合擾動對系統(tǒng)輸出的影響為復合擾動模型，以被控模型、逆擾動模型和復合擾動模型作為子模型，構建所述前饋雙向關聯(lián)下的系統(tǒng)動力學模型。

3.根據權利要求2所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，所述前饋雙向關聯(lián)下的系統(tǒng)動力學模型的狀態(tài)空間模型形式的表達式如下：

4.根據權利要求2或3任一所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，所述步驟2中，包括以下子步驟：

5.根據權利要求4所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，所述步驟2.1中的所述誤差系統(tǒng)模型表達式如下：

6.根據權利要求2、3或5任一所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，所述步驟3中，包括以下子步驟：

7.根據權利要求6所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，所述步驟4中，包括以下子步驟：

8.根據權利要求7所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，其特征在于，所述步驟4.2中獎勵函數r(t)為：

9.一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制系統(tǒng)，其特征在于，包括存儲模塊，所述存儲模塊包括由處理器加載并執(zhí)行的指令,所述指令在被執(zhí)行時使所述處理器執(zhí)行根據權利要求1-8任一項所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制的各個步驟。

10.一種電子設備，其特征在于，包括根據權利要求9所述的一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制系統(tǒng)。

技術總結
本發(fā)明涉及自動控制技術領域，公開了一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法，包括以下步驟：建立控制輸出對擾動的逆擾動模型和復合擾動模型，獲得前饋雙向關聯(lián)下的系統(tǒng)動力學模型；將設定跟蹤問題轉化到系統(tǒng)誤差框架下，從狀態(tài)自轉移產生的誤差中，分解出擾動導致的分量作為中間變量；將系統(tǒng)誤差、中間變量增廣為新的狀態(tài)，基于增廣狀態(tài)設計反饋控制器保證有限的穩(wěn)定性，剩余的穩(wěn)定性問題轉化為僅與前饋控制輸出有關的增廣系統(tǒng)狀態(tài)收斂問題；在前饋控制作為動作、增廣系統(tǒng)狀態(tài)作為反饋的環(huán)境下，利用DQN強化學習算法獲得最優(yōu)動作下的最優(yōu)增廣狀態(tài)，從最優(yōu)增廣狀態(tài)再連接到最優(yōu)反饋控制器輸出，本發(fā)明控制效果更好、求解速度更快。

技術研發(fā)人員：李勇剛,程賽葛,王凱,黃科科,陽春華,袁小鋒,王雅琳
受保護的技術使用者：中南大學
技術研發(fā)日：
技術公布日：2024/12/26

完整全部詳細技術資料下載

當前第2頁1 2

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種前饋雙向關聯(lián)下的前饋反饋同步強化學習控制方法