欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法

文檔序號:40459227發(fā)布日期:2024-12-27 09:24閱讀:15來源:國知局
一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法

本技術(shù)涉及自動控制,具體公開了一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法。


背景技術(shù):

1、前饋反饋控制是一種廣泛應(yīng)用的控制系統(tǒng)結(jié)構(gòu),在工業(yè)控制領(lǐng)域、機(jī)械控制領(lǐng)域、智能駕駛領(lǐng)域取得了廣泛的應(yīng)用。反饋控制部分是控制系統(tǒng)設(shè)計的基礎(chǔ),能夠通過收集調(diào)節(jié)誤差,按照反饋控制率執(zhí)行相應(yīng)的動作,不斷減小跟蹤誤差。前饋控制用于克服外界擾動帶來的消極影響,通過監(jiān)測外部擾動的變化,提前對控制器的輸出進(jìn)行補(bǔ)償,實現(xiàn)快速抵消擾動的效果。實際應(yīng)用過程中,擾動具有普遍性和復(fù)雜性,不同擾動的特性需要設(shè)計特異的前饋控制方法。

2、通常情況下,擾動完全來自于系統(tǒng)外部,即遵循外部影響系統(tǒng)內(nèi)部的方向,前饋控制只需要根據(jù)外部擾動特性進(jìn)行設(shè)計即可實現(xiàn)目標(biāo)。但是,當(dāng)系統(tǒng)內(nèi)部的執(zhí)行機(jī)構(gòu)調(diào)節(jié)還能影響外部擾動變化時,前饋變量既存在外部影響系統(tǒng)內(nèi)部的方向,又存在系統(tǒng)內(nèi)部影響外部擾動的方向,即前饋是雙向關(guān)聯(lián)的。這種現(xiàn)象廣泛存在于許多實際控制過程中,例如,鍋爐提供的異常蒸汽壓力波動視為后端換熱器內(nèi)部壓力的外部擾動,通過調(diào)節(jié)閥門來抵消擾動的同時還會造成外部蒸汽壓力的變化;污水處理過程風(fēng)機(jī)提供的異常壓力視為多路曝氣管道壓力的外部擾動,通過調(diào)節(jié)閥門來抵消擾動的同時還會影響風(fēng)機(jī)的壓力變化。這種情況下,現(xiàn)有的前饋控制設(shè)計方法已經(jīng)不再適用,前饋雙向關(guān)聯(lián)下的控制器設(shè)計問題面臨挑戰(zhàn)。主要有:挑戰(zhàn)一、前饋控制用于改善系統(tǒng)在擾動發(fā)生時的快速調(diào)節(jié)能力,反饋控制用于解決穩(wěn)定跟蹤問題,快速性和穩(wěn)定性之間不可兼容的特性,使得兩個控制器在性能之間存在權(quán)衡。挑戰(zhàn)二、解決兩個控制器性能之間的協(xié)同問題需要借助優(yōu)化算法或強(qiáng)化學(xué)習(xí)算法,由于決策變量是二維的,且存在不可量化的內(nèi)部關(guān)聯(lián),增加了求解的負(fù)擔(dān)。

3、因此,發(fā)明人有鑒于此,提供了一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法,以便解決上述問題。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的在于提供一種前饋雙向關(guān)聯(lián)下,控制效果更好、求解速度更快的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法。

2、為了達(dá)到上述目的,本發(fā)明的基礎(chǔ)方案提供一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制方法,包括以下步驟:

3、步驟1,建立控制輸出對擾動的逆擾動模型和復(fù)合擾動模型,獲得前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型;

4、步驟2,將設(shè)定跟蹤問題轉(zhuǎn)化到系統(tǒng)誤差框架下,從狀態(tài)自轉(zhuǎn)移產(chǎn)生的誤差中,分解出擾動導(dǎo)致的分量作為中間變量;

5、步驟3,將系統(tǒng)誤差、中間變量增廣為新的狀態(tài),基于增廣狀態(tài)設(shè)計反饋控制器保證有限的穩(wěn)定性,剩余的穩(wěn)定性問題轉(zhuǎn)化為僅與前饋控制輸出有關(guān)的增廣系統(tǒng)狀態(tài)收斂問題;

6、步驟4,在前饋控制作為動作、增廣系統(tǒng)狀態(tài)作為反饋的環(huán)境下,利用dqn強(qiáng)化學(xué)習(xí)算法獲得最優(yōu)動作下的最優(yōu)增廣狀態(tài),從最優(yōu)增廣狀態(tài)再連接到最優(yōu)反饋控制器輸出。

7、進(jìn)一步,在所述步驟1中,控制器輸出影響前饋的過程為逆擾動模型、逆擾動和外部擾動構(gòu)成的復(fù)合擾動對系統(tǒng)輸出的影響為復(fù)合擾動模型,以被控模型、逆擾動模型和復(fù)合擾動模型作為子模型,構(gòu)建所述前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型。

8、進(jìn)一步,所述前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型的狀態(tài)空間模型形式的表達(dá)式如下:

9、

10、式中,表示狀態(tài)空間模型中的狀態(tài),x1(t)表示被控模型狀態(tài),x2(t)表示逆擾動模型狀態(tài),x3(t)表示復(fù)合擾動模型狀態(tài),u(t)=ug(t)+ue(t),表示控制器輸出,且由前饋控制器輸出ug(t)和反饋控制器輸出之和ue(t)組成,表示復(fù)合擾動,且由外部擾動g(t)和逆擾動模型輸出c2x2(t),c2表示逆擾動模型從狀態(tài)到輸出之間的輸出矩陣,y(t)是系統(tǒng)的輸出,x(t+1)是發(fā)生一次狀態(tài)轉(zhuǎn)移一次后的新狀態(tài),a,b,c,e分別為狀態(tài)空間模型參數(shù)。

11、進(jìn)一步,所述步驟2中,包括以下子步驟:

12、步驟2.1,利用狀態(tài)空間模型中將系統(tǒng)跟蹤設(shè)定值與系統(tǒng)輸出轉(zhuǎn)化到誤差系統(tǒng)框架下,獲得誤差系統(tǒng)模型;

13、步驟2.2,在誤差系統(tǒng)模型中,通過遞推得到狀態(tài)自轉(zhuǎn)移過程對誤差系統(tǒng)的影響的積分形式;

14、步驟2.3,從積分形式中,分解出擾動導(dǎo)致的分量作為中間變量,并進(jìn)一步推到至差分形式。

15、進(jìn)一步,所述步驟2.1中的所述誤差系統(tǒng)模型表達(dá)式如下:

16、e(t+1)=r(t+1)-y(t+1)

17、=r(t+1)-cx(t+1)

18、=r(t+1)-[cax(t)+cb(ue(t)+ug(t))+ceg(t)]

19、式中,e(t+1)表示t+1時刻系統(tǒng)誤差,cbue(t)、cbug(t)和ceg(t)分別為t時刻反饋控制器、前饋控制器和外部擾動對誤差系統(tǒng)的影響,cax(t)為狀態(tài)自轉(zhuǎn)移過程對誤差系統(tǒng)的影響;

20、所述步驟2.2的表達(dá)式如下:

21、

22、式中,i表示求和參數(shù);

23、所述步驟2.3中,分解出擾動導(dǎo)致的分量作為中間變量的表達(dá)式如下:

24、

25、推到至差分形式的表達(dá)式如下:

26、

27、式中,代表偽逆運(yùn)算。

28、進(jìn)一步,所述步驟3中,包括以下子步驟:

29、步驟3.1,將系統(tǒng)誤差、中間變量增廣為新的狀態(tài)的表達(dá)式如下:

30、

31、式中,e(t)為系統(tǒng)誤差、為中間變量;

32、步驟3.2,基于增廣狀態(tài)設(shè)計反饋控制器的表達(dá)式如下:

33、

34、式中,κ1、κ2分別為控制器參數(shù);

35、步驟3.3,基于lyapnuov誤差能量函數(shù)分析誤差系統(tǒng)的穩(wěn)定性,代入反饋控制器后的能量函數(shù)差分形式為:

36、

37、式中,δve(e(t))=et(t+1)e(t+1)-et(t)e(t)表示差分形式;

38、基于lyapnuov中間變量系統(tǒng)能量函數(shù)分析中間變量的穩(wěn)定性,代入中間變量后的能量函數(shù)差分形式為:

39、

40、式中,表示差分形式;

41、基于lyapnuov整體系統(tǒng)能量函數(shù)分析增廣狀態(tài)的穩(wěn)定性,代入前兩式后的整體能量函數(shù)差分形式為:

42、

43、式中,

44、表示差分形式;

45、步驟3.4,將整體系統(tǒng)能量函數(shù)的差分形式轉(zhuǎn)化為增廣系統(tǒng),且從控制器角度增廣系統(tǒng)的輸入僅與前饋控制ug(t)有關(guān),系統(tǒng)的收斂性問題轉(zhuǎn)化為增廣系統(tǒng)狀態(tài)的收斂性問題:

46、

47、式中,ζ1,1(t)=e(t),表示增廣狀態(tài)第一行第一列元素,表示增廣狀態(tài)第一行第一列元素的一種非線性形式。

48、進(jìn)一步,所述步驟4中,包括以下子步驟:

49、步驟4.1,以前饋控制作為強(qiáng)化學(xué)習(xí)的動作,以增廣系統(tǒng)狀態(tài)作為dqn強(qiáng)化學(xué)習(xí)算法的反饋,計算狀態(tài)價值函數(shù)表達(dá)式如下:

50、

51、式中,ug(t)為前饋控制,為增廣系統(tǒng)狀態(tài),πk表示執(zhí)行到環(huán)境中的強(qiáng)化學(xué)習(xí)策略,表示綜合獎勵,rt表示t時刻執(zhí)行策略所獲得的狀態(tài)獎勵,表示從t+1時刻開始到策略執(zhí)行結(jié)束所預(yù)測的狀態(tài)獎勵,表示在策略πk下第t時刻獲得關(guān)于狀態(tài)獎勵gt的條件期望;

52、步驟4.2,在狀態(tài)價值函數(shù)的基礎(chǔ)上計算動作狀態(tài)價值函數(shù)表達(dá)式如下:

53、

54、式中,γ表示折扣因子,r(t)為獎勵函數(shù),表示折扣獎勵,表示在策略πk下第t時刻獲得關(guān)于折扣狀態(tài)獎勵的條件期望;

55、步驟4.3,使用在線深度神經(jīng)網(wǎng)絡(luò)和目標(biāo)深度神經(jīng)網(wǎng)絡(luò)代替動作狀態(tài)價值函數(shù),固定周期兩個網(wǎng)絡(luò)參數(shù)進(jìn)行一次同步操作,并構(gòu)建用以更新網(wǎng)絡(luò)參數(shù)的目標(biāo)函數(shù)為:

56、

57、式中,θi為在線深度神經(jīng)網(wǎng)絡(luò)參數(shù),為目標(biāo)深度神經(jīng)網(wǎng)絡(luò)參數(shù),i表示利用目標(biāo)函數(shù)進(jìn)行參數(shù)更新的次數(shù),l(θi)表示關(guān)于參數(shù)θi的目標(biāo)函數(shù),ak表示動作集合,表示目標(biāo)深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值函數(shù),表示在線深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值函數(shù),表示動作ug(t)使目標(biāo)深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值函數(shù)最大化;

58、步驟4.4,將訓(xùn)練后的在線深度神經(jīng)網(wǎng)絡(luò)用于前饋控制器輸出的決策過程:

59、

60、式中,表示使在線深度神經(jīng)網(wǎng)絡(luò)計算的動作狀態(tài)價值最大的前饋控制器輸出;

61、步驟4.5,獲得最優(yōu)的前饋控制輸出ug(t),對應(yīng)獲得最優(yōu)增廣系統(tǒng)狀態(tài)再連接到最優(yōu)反饋控制輸出ue(t),從而同步獲得前饋反饋控制器的輸出。

62、進(jìn)一步,所述步驟4.2中獎勵函數(shù)r(t)為:

63、r(t)=ωaa?a(t)+τsvs(t)

64、式中,ωa和τs均是常系數(shù),表示誤差跟蹤效果獲得的獎勵,其中,emr和emax表示誤差允許的上下界,da是一個常數(shù),表示增廣狀態(tài)收斂速度的獎勵,其中,dv是一個常數(shù)。

65、基于同一發(fā)明構(gòu)思,本發(fā)明提供一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制系統(tǒng),包括存儲模塊,所述存儲模塊包括由處理器加載并執(zhí)行的指令,所述指令在被執(zhí)行時使所述處理器執(zhí)行根據(jù)上述的一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制的各個步驟。

66、基于同一發(fā)明構(gòu)思,本發(fā)明提供一種電子設(shè)備,包括上述的一種前饋雙向關(guān)聯(lián)下的前饋反饋同步強(qiáng)化學(xué)習(xí)控制系統(tǒng)。

67、與現(xiàn)有技術(shù)相比,本發(fā)明效果在于:

68、1、在本發(fā)明中,在步驟1中建立前饋雙向關(guān)聯(lián)下的系統(tǒng)動力學(xué)模型,在步驟2中從誤差系統(tǒng)狀態(tài)自轉(zhuǎn)移部分中,分離出擾動的影響形式作為中間變量,在步驟3中將中間變量和系統(tǒng)誤差增廣為新的狀態(tài),基于增廣狀態(tài)設(shè)計反饋控制器保證有限的穩(wěn)定性,用增廣狀態(tài)和僅包含前饋控制器的輸入構(gòu)成增廣系統(tǒng),并將增廣系統(tǒng)的收斂性等價代替系統(tǒng)的收斂性,在步驟4中,利用dqn強(qiáng)化學(xué)習(xí)算法對前饋控制器進(jìn)行學(xué)習(xí),并同步經(jīng)增廣狀態(tài)連接到反饋控制器中,能夠?qū)崿F(xiàn)以較低的求解負(fù)擔(dān)解決前饋控制和反饋控制性能之間的最優(yōu)權(quán)衡問題,并提升控制效果。

69、2、本發(fā)明通過構(gòu)建增廣系統(tǒng)實現(xiàn)了前饋控制器學(xué)習(xí)到增廣狀態(tài)確定再到反饋控制器確定的連接路徑,將二個控制器的決策問題降低到一個控制器學(xué)習(xí)的維度上,減少待學(xué)習(xí)變量的個數(shù),減少求解負(fù)擔(dān)。另外,通過強(qiáng)化學(xué)習(xí)對前饋控制進(jìn)行優(yōu)化決策的過程中,反饋控制器能夠保證有限的穩(wěn)定性,進(jìn)一步減少了強(qiáng)化學(xué)習(xí)需要探索的動作空間,進(jìn)一步加速學(xué)習(xí)過程,能夠?qū)崿F(xiàn)以較低的求解負(fù)擔(dān)解決前饋控制和反饋控制性能之間的最優(yōu)權(quán)衡問題,并提升控制效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
郎溪县| 昌乐县| 无锡市| 奉贤区| 阿拉善左旗| 泸水县| 湛江市| 奉新县| 大化| 即墨市| 虞城县| 启东市| 冕宁县| 封丘县| 堆龙德庆县| 子洲县| 西宁市| 长阳| 寿光市| 卢龙县| 芦山县| 开江县| 内黄县| 游戏| 平原县| 镇巴县| 邢台市| 图们市| 蒙山县| 平利县| 沂源县| 和顺县| 安庆市| 涟源市| 肇庆市| 宁武县| 霍邱县| 密山市| 奉新县| 蒙山县| 平昌县|