一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法

文檔序號：40459227發(fā)布日期：2024-12-27 09:24閱讀：15來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>控制;調(diào)節(jié)裝置的制造及其應(yīng)用技術(shù)

本技術(shù)涉及自動控制，具體公開了一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法。

背景技術(shù)：

1、前饋反饋控制是一種廣泛應(yīng)用的控制系統(tǒng)結(jié)構(gòu)，在工業(yè)控制領(lǐng)域、機(jī)械控制領(lǐng)域、智能駕駛領(lǐng)域取得了廣泛的應(yīng)用。反饋控制部分是控制系統(tǒng)設(shè)計的基礎(chǔ)，能夠通過收集調(diào)節(jié)誤差，按照反饋控制率執(zhí)行相應(yīng)的動作，不斷減小跟蹤誤差。前饋控制用于克服外界擾動帶來的消極影響，通過監(jiān)測外部擾動的變化，提前對控制器的輸出進(jìn)行補(bǔ)償，實現(xiàn)快速抵消擾動的效果。實際應(yīng)用過程中，擾動具有普遍性和復(fù)雜性，不同擾動的特性需要設(shè)計特異的前饋控制方法。

2、通常情況下，擾動完全來自于系統(tǒng)外部，即遵循外部影響系統(tǒng)內(nèi)部的方向，前饋控制只需要根據(jù)外部擾動特性進(jìn)行設(shè)計即可實現(xiàn)目標(biāo)。但是，當(dāng)系統(tǒng)內(nèi)部的執(zhí)行機(jī)構(gòu)調(diào)節(jié)還能影響外部擾動變化時，前饋變量既存在外部影響系統(tǒng)內(nèi)部的方向，又存在系統(tǒng)內(nèi)部影響外部擾動的方向，即前饋是雙向關(guān)聯(lián)的。這種現(xiàn)象廣泛存在于許多實際控制過程中，例如，鍋爐提供的異常蒸汽壓力波動視為后端換熱器內(nèi)部壓力的外部擾動，通過調(diào)節(jié)閥門來抵消擾動的同時還會造成外部蒸汽壓力的變化；污水處理過程風(fēng)機(jī)提供的異常壓力視為多路曝氣管道壓力的外部擾動，通過調(diào)節(jié)閥門來抵消擾動的同時還會影響風(fēng)機(jī)的壓力變化。這種情況下，現(xiàn)有的前饋控制設(shè)計方法已經(jīng)不再適用，前饋雙向關(guān)聯(lián)下的控制器設(shè)計問題面臨挑戰(zhàn)。主要有：挑戰(zhàn)一、前饋控制用于改善系統(tǒng)在擾動發(fā)生時的快速調(diào)節(jié)能力，反饋控制用于解決穩(wěn)定跟蹤問題，快速性和穩(wěn)定性之間不可兼容的特性，使得兩個控制器在性能之間存在權(quán)衡。挑戰(zhàn)二、解決兩個控制器性能之間的協(xié)同問題需要借助優(yōu)化算法或強(qiáng)化學(xué)習(xí)算法，由于決策變量是二維的，且存在不可量化的內(nèi)部關(guān)聯(lián)，增加了求解的負(fù)擔(dān)。

3、因此，發(fā)明人有鑒于此，提供了一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法，以便解決上述問題。

技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種前饋雙向關(guān)聯(lián)下，控制效果更好、求解速度更快的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法。

2、為了達(dá)到上述目的，本發(fā)明的基礎(chǔ)方案提供一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法，包括以下步驟：

3、步驟1，建立控制輸出對擾動的逆擾動模型和復(fù)合擾動模型，獲得前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型；

4、步驟2，將設(shè)定跟蹤問題轉(zhuǎn)化到系統(tǒng)誤差框架下，從狀態(tài)自轉(zhuǎn)移產(chǎn)生的誤差中，分解出擾動導(dǎo)致的分量作為中間變量；

5、步驟3，將系統(tǒng)誤差、中間變量增廣為新的狀態(tài)，基于增廣狀態(tài)設(shè)計反饋控制器保證有限的穩(wěn)定性，剩余的穩(wěn)定性問題轉(zhuǎn)化為僅與前饋控制輸出有關(guān)的增廣系統(tǒng)狀態(tài)收斂問題；

6、步驟4，在前饋控制作為動作、增廣系統(tǒng)狀態(tài)作為反饋的環(huán)境下，利用dqn強(qiáng)化學(xué)習(xí)算法獲得最優(yōu)動作下的最優(yōu)增廣狀態(tài)，從最優(yōu)增廣狀態(tài)再連接到最優(yōu)反饋控制器輸出。

7、進(jìn)一步，在所述步驟1中，控制器輸出影響前饋的過程為逆擾動模型、逆擾動和外部擾動構(gòu)成的復(fù)合擾動對系統(tǒng)輸出的影響為復(fù)合擾動模型，以被控模型、逆擾動模型和復(fù)合擾動模型作為子模型，構(gòu)建所述前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型。

8、進(jìn)一步，所述前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型的狀態(tài)空間模型形式的表達(dá)式如下：

9、

10、式中，表示狀態(tài)空間模型中的狀態(tài)，x1(t)表示被控模型狀態(tài)，x2(t)表示逆擾動模型狀態(tài)，x3(t)表示復(fù)合擾動模型狀態(tài)，u(t)＝ug(t)+ue(t)，表示控制器輸出，且由前饋控制器輸出ug(t)和反饋控制器輸出之和ue(t)組成，表示復(fù)合擾動，且由外部擾動g(t)和逆擾動模型輸出c2x2(t)，c2表示逆擾動模型從狀態(tài)到輸出之間的輸出矩陣，y(t)是系統(tǒng)的輸出，x(t+1)是發(fā)生一次狀態(tài)轉(zhuǎn)移一次后的新狀態(tài)，a,b,c,e分別為狀態(tài)空間模型參數(shù)。

11、進(jìn)一步，所述步驟2中，包括以下子步驟：

12、步驟2.1，利用狀態(tài)空間模型中將系統(tǒng)跟蹤設(shè)定值與系統(tǒng)輸出轉(zhuǎn)化到誤差系統(tǒng)框架下，獲得誤差系統(tǒng)模型；

13、步驟2.2，在誤差系統(tǒng)模型中，通過遞推得到狀態(tài)自轉(zhuǎn)移過程對誤差系統(tǒng)的影響的積分形式；

14、步驟2.3，從積分形式中，分解出擾動導(dǎo)致的分量作為中間變量，并進(jìn)一步推到至差分形式。

15、進(jìn)一步，所述步驟2.1中的所述誤差系統(tǒng)模型表達(dá)式如下：

16、e(t+1)＝r(t+1)-y(t+1)

17、＝r(t+1)-cx(t+1)

18、＝r(t+1)-[cax(t)+cb(ue(t)+ug(t))+ceg(t)]

19、式中，e(t+1)表示t+1時刻系統(tǒng)誤差，cbue(t)、cbug(t)和ceg(t)分別為t時刻反饋控制器、前饋控制器和外部擾動對誤差系統(tǒng)的影響，cax(t)為狀態(tài)自轉(zhuǎn)移過程對誤差系統(tǒng)的影響；

20、所述步驟2.2的表達(dá)式如下：

21、

22、式中，i表示求和參數(shù)；

23、所述步驟2.3中，分解出擾動導(dǎo)致的分量作為中間變量的表達(dá)式如下：

24、

25、推到至差分形式的表達(dá)式如下：

26、

27、式中，代表偽逆運(yùn)算。

28、進(jìn)一步，所述步驟3中，包括以下子步驟：

29、步驟3.1，將系統(tǒng)誤差、中間變量增廣為新的狀態(tài)的表達(dá)式如下：

30、

31、式中，e(t)為系統(tǒng)誤差、為中間變量；

32、步驟3.2，基于增廣狀態(tài)設(shè)計反饋控制器的表達(dá)式如下：

33、

34、式中，κ1、κ2分別為控制器參數(shù)；

35、步驟3.3，基于lyapnuov誤差能量函數(shù)分析誤差系統(tǒng)的穩(wěn)定性，代入反饋控制器后的能量函數(shù)差分形式為：

36、

37、式中，δve(e(t))＝et(t+1)e(t+1)-et(t)e(t)表示差分形式；

38、基于lyapnuov中間變量系統(tǒng)能量函數(shù)分析中間變量的穩(wěn)定性，代入中間變量后的能量函數(shù)差分形式為：

39、

40、式中，表示差分形式；

41、基于lyapnuov整體系統(tǒng)能量函數(shù)分析增廣狀態(tài)的穩(wěn)定性，代入前兩式后的整體能量函數(shù)差分形式為：

42、

43、式中，

44、表示差分形式；

45、步驟3.4，將整體系統(tǒng)能量函數(shù)的差分形式轉(zhuǎn)化為增廣系統(tǒng),且從控制器角度增廣系統(tǒng)的輸入僅與前饋控制ug(t)有關(guān)，系統(tǒng)的收斂性問題轉(zhuǎn)化為增廣系統(tǒng)狀態(tài)的收斂性問題：

46、

47、式中，ζ1,1(t)＝e(t)，表示增廣狀態(tài)第一行第一列元素，表示增廣狀態(tài)第一行第一列元素的一種非線性形式。

48、進(jìn)一步，所述步驟4中，包括以下子步驟：

49、步驟4.1，以前饋控制作為強(qiáng)化學(xué)習(xí)的動作，以增廣系統(tǒng)狀態(tài)作為dqn強(qiáng)化學(xué)習(xí)算法的反饋，計算狀態(tài)價值函數(shù)表達(dá)式如下：

50、

51、式中，ug(t)為前饋控制，為增廣系統(tǒng)狀態(tài)，πk表示執(zhí)行到環(huán)境中的強(qiáng)化學(xué)習(xí)策略，表示綜合獎勵，rt表示t時刻執(zhí)行策略所獲得的狀態(tài)獎勵，表示從t+1時刻開始到策略執(zhí)行結(jié)束所預(yù)測的狀態(tài)獎勵，表示在策略πk下第t時刻獲得關(guān)于狀態(tài)獎勵gt的條件期望；

52、步驟4.2，在狀態(tài)價值函數(shù)的基礎(chǔ)上計算動作狀態(tài)價值函數(shù)表達(dá)式如下：

53、

54、式中，γ表示折扣因子，r(t)為獎勵函數(shù)，表示折扣獎勵，表示在策略πk下第t時刻獲得關(guān)于折扣狀態(tài)獎勵的條件期望；

55、步驟4.3，使用在線深度神經(jīng)網(wǎng)絡(luò)和目標(biāo)深度神經(jīng)網(wǎng)絡(luò)代替動作狀態(tài)價值函數(shù)，固定周期兩個網(wǎng)絡(luò)參數(shù)進(jìn)行一次同步操作，并構(gòu)建用以更新網(wǎng)絡(luò)參數(shù)的目標(biāo)函數(shù)為：

56、

57、式中，θi為在線深度神經(jīng)網(wǎng)絡(luò)參數(shù)，為目標(biāo)深度神經(jīng)網(wǎng)絡(luò)參數(shù)，i表示利用目標(biāo)函數(shù)進(jìn)行參數(shù)更新的次數(shù)，l(θi)表示關(guān)于參數(shù)θi的目標(biāo)函數(shù)，ak表示動作集合，表示目標(biāo)深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值函數(shù)，表示在線深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值函數(shù)，表示動作ug(t)使目標(biāo)深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值函數(shù)最大化；

58、步驟4.4，將訓(xùn)練后的在線深度神經(jīng)網(wǎng)絡(luò)用于前饋控制器輸出的決策過程：

59、

60、式中，表示使在線深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值最大的前饋控制器輸出；

61、步驟4.5，獲得最優(yōu)的前饋控制輸出ug(t)，對應(yīng)獲得最優(yōu)增廣系統(tǒng)狀態(tài)再連接到最優(yōu)反饋控制輸出ue(t)，從而同步獲得前饋反饋控制器的輸出。

62、進(jìn)一步，所述步驟4.2中獎勵函數(shù)r(t)為：

63、r(t)＝ωaa?a(t)+τsvs(t)

64、式中，ωa和τs均是常系數(shù)，表示誤差跟蹤效果獲得的獎勵，其中，emr和emax表示誤差允許的上下界，da是一個常數(shù)，表示增廣狀態(tài)收斂速度的獎勵，其中，dv是一個常數(shù)。

65、基于同一發(fā)明構(gòu)思，本發(fā)明提供一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制系統(tǒng)，包括存儲模塊，所述存儲模塊包括由處理器加載并執(zhí)行的指令,所述指令在被執(zhí)行時使所述處理器執(zhí)行根據(jù)上述的一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制的各個步驟。

66、基于同一發(fā)明構(gòu)思，本發(fā)明提供一種電子設(shè)備，包括上述的一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制系統(tǒng)。

67、與現(xiàn)有技術(shù)相比，本發(fā)明效果在于：

68、1、在本發(fā)明中，在步驟1中建立前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型，在步驟2中從誤差系統(tǒng)狀態(tài)自轉(zhuǎn)移部分中，分離出擾動的影響形式作為中間變量，在步驟3中將中間變量和系統(tǒng)誤差增廣為新的狀態(tài)，基于增廣狀態(tài)設(shè)計反饋控制器保證有限的穩(wěn)定性，用增廣狀態(tài)和僅包含前饋控制器的輸入構(gòu)成增廣系統(tǒng)，并將增廣系統(tǒng)的收斂性等價代替系統(tǒng)的收斂性，在步驟4中，利用dqn強(qiáng)化學(xué)習(xí)算法對前饋控制器進(jìn)行學(xué)習(xí)，并同步經(jīng)增廣狀態(tài)連接到反饋控制器中，能夠?qū)崿F(xiàn)以較低的求解負(fù)擔(dān)解決前饋控制和反饋控制性能之間的最優(yōu)權(quán)衡問題，并提升控制效果。

69、2、本發(fā)明通過構(gòu)建增廣系統(tǒng)實現(xiàn)了前饋控制器學(xué)習(xí)到增廣狀態(tài)確定再到反饋控制器確定的連接路徑，將二個控制器的決策問題降低到一個控制器學(xué)習(xí)的維度上，減少待學(xué)習(xí)變量的個數(shù)，減少求解負(fù)擔(dān)。另外，通過強(qiáng)化學(xué)習(xí)對前饋控制進(jìn)行優(yōu)化決策的過程中，反饋控制器能夠保證有限的穩(wěn)定性，進(jìn)一步減少了強(qiáng)化學(xué)習(xí)需要探索的動作空間，進(jìn)一步加速學(xué)習(xí)過程，能夠?qū)崿F(xiàn)以較低的求解負(fù)擔(dān)解決前饋控制和反饋控制性能之間的最優(yōu)權(quán)衡問題，并提升控制效果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李勇剛,程賽葛,王凱,黃科科,陽春華,袁小鋒,王雅琳
技術(shù)所有人：中南大學(xué)
我是此專利的發(fā)明人

上一篇：一種多功能風(fēng)梳的制作方法
上一篇：一種用于汽車模型生產(chǎn)的打磨拋光裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、唐老師：1.高效節(jié)能裝備 2.流動穩(wěn)定性 3.汽車流場分析和淀粉糖工藝技術(shù)。
2、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
3、王老師：電子信息處理、先進(jìn)檢測方法和智能化儀表
4、周老師：1.智能電網(wǎng) 2.新能源利用 3.泛在電力物聯(lián)網(wǎng)
5、趙老師：檢測與控制技術(shù)、機(jī)器人技術(shù)、機(jī)電一體化技術(shù)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法