欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種感應(yīng)電機參數(shù)辨識系統(tǒng)及方法與流程

文檔序號:11234096閱讀:780來源:國知局
一種感應(yīng)電機參數(shù)辨識系統(tǒng)及方法與流程

本發(fā)明涉及電機控制技術(shù)領(lǐng)域,特別是涉及一種感應(yīng)電機參數(shù)辨識系統(tǒng)及方法。



背景技術(shù):

感應(yīng)電機的參數(shù)辨識是電機控制領(lǐng)域的重點和難點問題。參數(shù)辨識的準確性直接影響電機輸出性能的好壞。而在感應(yīng)電機的參數(shù)辨識中,最重要的辨識參數(shù)是轉(zhuǎn)子電阻和勵磁電感,因為電機運行過程中轉(zhuǎn)子的溫度會時刻變化,從而導致轉(zhuǎn)子電阻值時刻變化,而轉(zhuǎn)子電阻辨識精度直接影響了電機輸出轉(zhuǎn)矩的大??;同樣,在感應(yīng)電機弱磁運行的過程中,勵磁電感值也會時刻變化,而勵磁電感的辨識精度也會影響電機輸出性能的優(yōu)劣。

當今的參數(shù)辨識方法可以分為兩大分支方法:

(1)離線參數(shù)辨識,主要應(yīng)用于電機控制器研發(fā)初期,對電機參數(shù)完全不了解的情況,此時,可以采用離線參數(shù)辨識的方法,在實驗室場合對電機的冷態(tài)參數(shù)進行辨識。現(xiàn)如今主流的離線參數(shù)辨識方法為靜止自學習+旋轉(zhuǎn)自學習的方式,即對電機先施加直流電流和單相交流電辨識定、轉(zhuǎn)子電阻或定、轉(zhuǎn)子漏感,在對電機施加三相空載電流辨識勵磁電感。上述方法簡便易行,但是辨識的是電機的冷態(tài)參數(shù),即物理參數(shù),并且需要用到電機模型。專利:三相異步電機的參數(shù)離線辨識方法及裝置(公開號cn102594253a)公開了一種電機離線參數(shù)辨識方法,其優(yōu)點是直接利用變頻器便可以對電機參數(shù)進行辨識,辨識時間短。但是缺點也是極其明顯的:此方法無法對在線運行的電機進行參數(shù)辨識。并且只能辨識電機的物理參數(shù),并非實際運行中最優(yōu)性能的參數(shù)。

(2)在線參數(shù)辨識,主要應(yīng)用于電機實際運行工況,由于電機在實際工況運行的過程中,經(jīng)常出現(xiàn)弱磁運行、重載運行的情況,此時電機的磁場和溫度變化較大,受磁場和溫度變化的影響,電機實際運行時參數(shù)隨時間變化較明顯。此時需要用在線參數(shù)辨識方法。在線辨識方法種類較多??傮w來說分為兩類:數(shù)據(jù)驅(qū)動方法和模型驅(qū)動方法。數(shù)據(jù)驅(qū)動方法包括神經(jīng)網(wǎng)絡(luò)方法,支持向量機方法等。其優(yōu)點是無需特定電機的數(shù)學模型,因此,通用性和精確性都較高;其缺點是需要預選準備數(shù)據(jù)集進行訓練,而數(shù)據(jù)集的獲取一般都是比較困難的。模型驅(qū)動的方法包括模型參考自適應(yīng),卡爾曼濾波器,有功/無功法等,其優(yōu)點是運算量小,無需預先訓練。其缺點是依賴電機模型,而電機模型的不精確會導致結(jié)果出現(xiàn)嚴重誤差。專利:一種基于elman神經(jīng)網(wǎng)絡(luò)的感應(yīng)電機轉(zhuǎn)子電阻參數(shù)辨識方法(公開號:cn102937670a)公開了一種基于神經(jīng)網(wǎng)絡(luò)的感應(yīng)電機轉(zhuǎn)子電阻參數(shù)辨識方法,此方法屬于數(shù)據(jù)驅(qū)動的在線辨識方法,其優(yōu)點是不需要明確的電機模型,并可以實現(xiàn)在線參數(shù)辨識,但是其缺點也十分明顯:需要數(shù)據(jù)集對神經(jīng)網(wǎng)絡(luò)進行訓練,而可靠的數(shù)據(jù)集的獲取是非常困難的。專利:一種高速列車牽引感應(yīng)電機參數(shù)辨識方法(公開號:cn104201962a)公開了一種基于電機磁鏈觀測器的辨識方法,此方法屬于模型驅(qū)動的在線辨識方法,其優(yōu)點是不需要訓練,運算量小,但是缺點也極其明顯:模型驅(qū)動的方法極大的依賴于電機的數(shù)學模型,但是電機的數(shù)學模型沒有考慮電機的非線性損耗,因此實際使用中存在著較大的誤差。

綜上,感應(yīng)電機的參數(shù)辨識問題是電機控制領(lǐng)域的關(guān)鍵問題,以往的感應(yīng)電機辨識方法都存在著辨識精度和訓練集獲取難度的矛盾,即要么采用電機模型驅(qū)動的方法,此類方法不需要數(shù)據(jù)集,但是模型的不精確導致辨識精度較低,通用性差;要么采用電機數(shù)據(jù)驅(qū)動的方法,此類方法通用性高,辨識精度較為準確,但是需要提前獲取數(shù)據(jù)集,而數(shù)據(jù)集的獲取較為困難。



技術(shù)實現(xiàn)要素:

本發(fā)明技術(shù)解決問題:克服上述現(xiàn)有技術(shù)的不足,提供一種感應(yīng)電機參數(shù)辨識方法,其方法不依賴于具體的電機數(shù)學模型,通用性強,可以實時生成數(shù)據(jù)集,無需提前準備數(shù)據(jù)集;辨識的參數(shù)是以輸出性能最優(yōu)為前提,不受實際物理參數(shù)變化的影響,辨識精度高;既可以辨識感應(yīng)電機的轉(zhuǎn)子電阻,也可以辨識感應(yīng)電機的勵磁電感。

本發(fā)明所采用的技術(shù)方案是:運用電機的同步旋轉(zhuǎn)坐標系模型(d-q軸模型,相關(guān)理論請參考文獻《電力拖動自動控制系統(tǒng)-運動控制系統(tǒng)》第四版,阮毅、陳伯時主編),在設(shè)定轉(zhuǎn)速下,根據(jù)當前的d軸電流(以下簡稱id)、q軸電流(以下簡稱iq)、d軸電壓(以下簡稱ud)、q軸電壓(以下簡稱uq)以及電機溫度(以下簡稱t)作為環(huán)境變量(以下簡稱s),電機的參數(shù)估計值的調(diào)整作為動作(以下簡稱a),電機轉(zhuǎn)矩信號(以下簡稱te)作為獎勵值(以下簡稱r)。然后,采用本發(fā)明中的算法,根據(jù)環(huán)境變量和獎勵值的變化對動作不斷調(diào)整,當算法結(jié)束時,輸出結(jié)果便為辨識的電機參數(shù)。

本發(fā)明中的一種感應(yīng)電機的參數(shù)辨識系統(tǒng),包含的設(shè)備及功能如下:

電機對拖臺架一臺、臺架上同軸安裝測功機電機和被測電機,使測功機電機可以拖動被測電機同時運行;

電機控制器兩個,分別控制對拖臺架上的被測電機和測功機電機;

轉(zhuǎn)速-轉(zhuǎn)矩傳感器一臺,安裝在測功機電機和被測電機之間;

電機數(shù)據(jù)采集器一個,功能為:與電機控制器、轉(zhuǎn)速-轉(zhuǎn)矩傳感器進行通訊,采集電機d軸電流信號id,q軸電流信號iq,d軸電壓信號ud,q軸電壓信號uq,電機溫度信號t,轉(zhuǎn)速-轉(zhuǎn)矩傳感器上的轉(zhuǎn)矩信號te,并將上述信號傳送至電腦以供電腦進行運算;電腦運算結(jié)束后,接收電腦運算后的電機勵磁電感值或電機轉(zhuǎn)子電阻值,將接收的電機勵磁電感值或電機轉(zhuǎn)子電阻值傳送給電機控制器;

電腦一臺,用于搭建強化學習框架,并在此強化學習框架內(nèi)運行基于q學習的感應(yīng)電機參數(shù)辨識算法,得到任意狀態(tài)下的電機參數(shù)辨識值。

所述電腦接收電機數(shù)據(jù)采集器的數(shù)據(jù)后,搭建的電機參數(shù)辨識的強化學習框架的構(gòu)成如下:

(1)環(huán)境變量的選擇為電機控制器的電機d軸電流id,q軸電流iq,d軸電壓ud,q軸電壓uq,電機溫度信號t,其中,如果無法檢測電機溫度信號t,本發(fā)明提出方法仍然可以適用,只需將環(huán)境變量剔除電機溫度信號即可,但是id,iq,ud,uq四個變量是環(huán)境的最基本的變量,缺一不可;

(2)將動作設(shè)置為三種模式,可以選擇以下三種模式中的任意一種,三種模式分別為:

①共2個動作,即當前的電機參數(shù)辨識值增加0.1或減少0.1,記為a=[y-0.01,y+0.01],y可以是電機轉(zhuǎn)子電阻,也可以是電機的勵磁電感,根據(jù)所需辨識的參數(shù)而定;

②共400個動作,即當前電機的參數(shù)值每次增加或減小的間隔為0.01,總變化范圍為-2.0~2.0,記為a=[y-2.0,y-1.99......y+1.99,y+2.0],變化范圍和動作間隔可以自由電機調(diào)整;

③共200個動作,即當前電機的參數(shù)值分別為0~2.0,每個動作間隔為0.01。記為a=[y=0.0,y=0.01......y=2.0],參數(shù)范圍和動作間隔可以自由調(diào)整;

(3)將電機參數(shù)調(diào)整對電機輸出轉(zhuǎn)矩的影響稱之為獎勵,獎勵設(shè)置為三種模式,可以選擇以下三種模式中的任意一種,三種模式分別為:

①直接為電機輸出的轉(zhuǎn)矩值,記為r=te;

②電機輸出的轉(zhuǎn)矩值和某一個參考值之差,記為r=te-te*,參考值約為當前工況下最大轉(zhuǎn)矩的90%;

③電機當前輸出轉(zhuǎn)矩與最大輸出轉(zhuǎn)矩之差,記為r=te-tmax;

電機測試系統(tǒng)采集電機的環(huán)境變量和獎勵值,并送入算法,算法根據(jù)輸入不算調(diào)整動作值,使獎勵值不斷增大。

所述腦中運行的基于q學習的感應(yīng)電機參數(shù)辨識算法,具體實現(xiàn)步驟如下:

(1)一共迭代i個回合,每個回合又迭代j次,迭代次數(shù)i和j根據(jù)實際情況而定;

(2)每個回合中,首先初始化電機參數(shù)值,電機參數(shù)可以為勵磁電感或轉(zhuǎn)子電阻,根據(jù)需要辨識的電機參數(shù)而定,電機參數(shù)的初始值可以為經(jīng)驗值,如果沒有經(jīng)驗值,可以設(shè)為0.001;

(3)初始化電機參數(shù)值后,進入每個回合的算法迭代,具體的迭代步驟為:

①在強化學習框架中,采集環(huán)境變量,計算獎勵值;

②選擇一隨機數(shù)ε,ε取值范圍為(0,1);

③計算當前估計價值函數(shù)q(s,a),q(s,a)采用多層神經(jīng)網(wǎng)絡(luò)算法求得,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以是反向傳播神經(jīng)網(wǎng)絡(luò)(bp),循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),或者是長短記憶型神經(jīng)網(wǎng)絡(luò)(lstm-rnn),或者其他類型神經(jīng)網(wǎng)絡(luò);

④計算目標價值函數(shù)qtarget,記為qtarget=[r+γmaxq*(s',a')|s,a],其中,γ為貼現(xiàn)因子,s、a表示當前的環(huán)境變量和動作,s′、a′為下次的環(huán)境變量和下次的預動作。maxq*(s',a')|s,a表示當前的環(huán)境變量為s,當前動作為a時,下次環(huán)境變量變化成s′后,s′狀態(tài)下的估計價值函數(shù)的最大值;

⑤若ε<0.1時,隨機選擇當前動作;

若ε>0.1時,選擇動作為:a=maxaq*(s,a),即使當前估計價值函數(shù)q(s,a)為最大值的那個動作;

⑥使用梯度下降法,更新(qtarget-q(s,a))2;

⑦如果獎勵值小于-20,直接退出本回合;

⑧一次迭代結(jié)束,記錄運算結(jié)果;

(4)完成所有步驟(3)的迭代運算后,選擇所有記錄的運算結(jié)果中,出現(xiàn)頻率最多的值,即為當前狀態(tài)下能使電機輸出轉(zhuǎn)矩最優(yōu)的電機參數(shù)辨識值。

本發(fā)明中的一種感應(yīng)電機的參數(shù)辨識方法,于步驟如下:

(1)兩臺電機控制器上電,控制對拖臺架的兩臺電機工作。同時,轉(zhuǎn)速-轉(zhuǎn)矩傳感器、電機數(shù)據(jù)采集器以及電腦也上電工作;

(2)將系統(tǒng)中的測功電機運行于轉(zhuǎn)速模式,并限制在設(shè)定的轉(zhuǎn)速下;

(3)被測電機的電機控制器采用帶轉(zhuǎn)速反饋的矢量控制算法,使得被測電機運行于轉(zhuǎn)矩模式,并將d、q軸參考電流設(shè)為一固定值;

(4)被測電機的電機控制器采集被測電機的id,iq,ud,uq,t,并送入電機數(shù)據(jù)采集器;

(5)轉(zhuǎn)速-轉(zhuǎn)矩傳感器采集被測電機的轉(zhuǎn)矩信號te并送入電機數(shù)據(jù)采集器;

(6)電機數(shù)據(jù)采集器將上述信號傳送至電腦;

(7)電腦根據(jù)采集的信號搭建強化學習框架,強化學習框架中的獎勵模式和動作模式可以自由選擇;

(8)強化學習框架搭建完成后,電腦再根據(jù)基于q學習的電機參數(shù)辨識算法進行參數(shù)辨識;

(9)電機控制器采用更新后的電機參數(shù)辨識值迭代運行,重復(3)至(7)步驟;

(10)運行若干次,當達到設(shè)定條件時結(jié)束,此時辨識出的電機參數(shù)值則認為是此轉(zhuǎn)速下的實際的電機參數(shù)值;

(11)改變轉(zhuǎn)速限定值和限定值,在不同轉(zhuǎn)速,不同下重復上述步驟,最終得到全狀態(tài)下的電機參數(shù)辨識值;

(12)所有狀態(tài)辨識完成后,記錄下不同狀態(tài)下的id,iq,ud,uq,t與參數(shù)辨識值的對應(yīng)關(guān)系,并以表格形式記錄至電機控制器中,至此,電機參數(shù)辨識完成;

辨識工作完成后,電機便可以脫離測試系統(tǒng)運行于實際工況中,運行時,電機控制器只需采集電機的id,iq,ud,uq,t信號,并根據(jù)生成的表格便獲得電機參數(shù)的當前值。

與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:

(1)本發(fā)明提出的方法具有通用性的特征。即本方法不依賴電機的具體數(shù)學模型。無論何種功率,何種型號的感應(yīng)電機,均可采用本發(fā)明的方法進行參數(shù)辨識,無需對方法進行較大修改;同時,本方法既可以辨識轉(zhuǎn)子電阻,也可以辨識勵磁電感,針對不同的參數(shù),無需對算法進行修改。

(2)本發(fā)明提出的方法具有自動化的特征,即只要將設(shè)備安裝完成后,電腦自動進行電機參數(shù)的辨識,無需提供訓練數(shù)據(jù)集,無需人員進行操作,大大減小了研發(fā)人員的工作量。

(3)本發(fā)明所用的方法具有泛化性的特征,本發(fā)明雖然在測試系統(tǒng)中進行的電機參數(shù)辨識,但辨識的結(jié)果可以運用于實際運行中,即可以實現(xiàn)在線參數(shù)辨識的功能。

附圖說明

圖1為設(shè)備結(jié)構(gòu)圖;

圖2為適用于感應(yīng)電機參數(shù)辨識的強化學習框架;

圖3為基于q學習的感應(yīng)電機參數(shù)辨識算法的偽代碼圖;

圖4為單一采樣方法的q神經(jīng)網(wǎng)絡(luò)收斂誤差;

圖5為minibatch方法的q神經(jīng)網(wǎng)絡(luò)收斂誤差;

圖6為minibatch方法的電機參數(shù)辨識結(jié)果。

具體實施方式

下面結(jié)合附圖對本發(fā)明進一步說明。

感應(yīng)電機的參數(shù)辨識問題是電機控制領(lǐng)域的關(guān)鍵問題,以往的感應(yīng)電機辨識方法都存在著辨識精度和訓練集獲取難度的矛盾,即要么采用電機模型驅(qū)動的方法,此類方法不需要數(shù)據(jù)集,但是模型的不精確導致辨識精度較低,通用性差;要么采用電機數(shù)據(jù)驅(qū)動的方法,此類方法通用性高,辨識精度較為準確,但是需要提前準備訓練數(shù)據(jù)集,而訓練數(shù)據(jù)集的獲取較為困難。本發(fā)明公開了一種感應(yīng)電機參數(shù)在線辨識的系統(tǒng)及方法。包括:一種可以進行感應(yīng)電機參數(shù)在線辨識的測試系統(tǒng),可以采集在線辨識算法所需的電機實時電壓、實時電流、實時溫度、實時轉(zhuǎn)矩等數(shù)據(jù),用于參數(shù)辨識;一種適用于電機參數(shù)辨識的強化學習框架,包括強化學習環(huán)境中的狀態(tài)變量、獎勵值及動作方式的選擇;一種基于q-學習感應(yīng)電機參數(shù)辨識方法,可以使測試系統(tǒng)在運行的過程中實時的生成數(shù)據(jù)集并進行參數(shù)辨識。本發(fā)明解決了辨識精度和訓練集獲取難度的矛盾問題,不依賴于具體的電機數(shù)學模型,通用性強,可以實時生成數(shù)據(jù)集,無需提前準備數(shù)據(jù)集;辨識的參數(shù)是以輸出性能最優(yōu)為前提,不受實際物理參數(shù)變化的影響,辨識精度高;既可以辨識感應(yīng)電機的轉(zhuǎn)子電阻,也可以辨識感應(yīng)電機的勵磁電感。

如圖1所示,本發(fā)明系統(tǒng)需要的儀器設(shè)備有:

1、電機對拖臺架一臺、臺架上同軸安裝測功機電機和被測電機,使測功機電機可以拖動被測電機同時運行;

2、電機控制器兩個,分別控制對拖臺架上的被測電機和測功機電機;

3、轉(zhuǎn)速-轉(zhuǎn)矩傳感器一臺,安裝在測功機電機和被測電機之間;

4、電機數(shù)據(jù)采集器一個,其功能為:

(1)采集電機控制器的id,iq,ud,uq,t,

(2)采集轉(zhuǎn)速-轉(zhuǎn)矩傳感器上轉(zhuǎn)矩信號te,

(3)將上述信號傳送至電腦,

(4)接收電腦運算后的電機參數(shù),

(5)將接收的電機參數(shù)傳送給電機控制器。

5、電腦一臺,用于運行感應(yīng)電機參數(shù)辨識算法。

本發(fā)明方法實現(xiàn)具體步驟為:

步驟一、將測功電機運行于轉(zhuǎn)速模式,并限制在一固定轉(zhuǎn)速。被測電機運行于轉(zhuǎn)矩模式。被測電機控制方式為矢量控制算法。例如300轉(zhuǎn)/分鐘,轉(zhuǎn)速范圍根據(jù)電機本身而定,例如某臺電機的最高轉(zhuǎn)速為7000轉(zhuǎn)/分鐘,則轉(zhuǎn)速的范圍為0~7000轉(zhuǎn)/分鐘;

步驟二、被測電機的電機控制器采集被測電機的id,iq,ud,uq,t,將其傳送給電機數(shù)據(jù)采集器,通訊方式可以為串口通訊,can總線通訊,無線通訊等方式;

步驟三、電機數(shù)據(jù)采集器同時采集轉(zhuǎn)速-轉(zhuǎn)矩傳感器的轉(zhuǎn)矩信號te,通訊方式為根據(jù)轉(zhuǎn)速-轉(zhuǎn)矩傳感器本身所具備的通訊方式而定;

步驟四、電機數(shù)據(jù)采集器將上述信號傳送至電腦。電腦根據(jù)采集的信號運行本發(fā)明提出的算法。并將算法更新出的電機參數(shù)的辨識值回傳至電機數(shù)據(jù)采集器,電機數(shù)據(jù)采集器再將電機參數(shù)辨識值回傳給被測電機的電機控制器;

步驟五、電機控制器采用更新后的電機參數(shù)辨識值迭代運行,重復二至四步驟;

步驟六、運行若干次,當達到特定條件時,算法結(jié)束,此時辨識出的電機參數(shù)值可認為是實際的電機參數(shù)值;

步驟七、在不同轉(zhuǎn)速,不同id,iq下重復上述步驟,最終得到全狀態(tài)下的電機參數(shù)辨識值;

步驟八、所有狀態(tài)辨識完成后,記錄下不同狀態(tài)下的id,iq,ud,uq,t與參數(shù)辨識值的對應(yīng)關(guān)系。并以表格形式記錄至電機控制器中。至此,電機參數(shù)辨識完成。

辨識工作完成后,電機便可以脫離測試系統(tǒng)運行于實際工況中,運行時,電機控制器只需采集電機的id,iq,ud,uq,t信號,并根據(jù)生成的表格便可以獲得電機參數(shù)的當前值。

如圖2所示,是適用于電機參數(shù)辨識的強化學習框架結(jié)構(gòu)圖,由于本發(fā)明使用的q學習算法是一種強化學習算法,遵循強化學習規(guī)律,因此,首先需要搭建適合于電機參數(shù)辨識的強化學習框架。

強化學習框架整體思想為:電機測試系統(tǒng)采集電機的環(huán)境變量和獎勵值,并送入算法,算法根據(jù)輸入不算調(diào)整動作值,使獎勵值不斷增大。其中,具體部分為:

(1)將電機數(shù)據(jù)采集器采集的電機信號稱之為環(huán)境變量。環(huán)境變量的選擇為電機控制器的電機d軸電流id,q軸電流iq,d軸電壓ud,q軸電壓uq,電機溫度信號t。其中,如果無法檢測電機溫度信號t,本發(fā)明提出方法仍然可以適用,只需將環(huán)境變量剔除電機溫度信號即可,但是id,iq,ud,uq四個變量是環(huán)境的最基本的變量,缺一不可。

(2)將電機參數(shù)的不斷調(diào)整稱之為動作。動作可以設(shè)置為三種模式,分別為:

①共2個動作,即當前的電機參數(shù)辨識值增加0.1或減少0.1,記為a=[y-0.01,y+0.01],y可以是電機轉(zhuǎn)子電阻,也可以是電機的勵磁電感,根據(jù)所需辨識的參數(shù)而定。若要辨識轉(zhuǎn)子電阻,只需將勵磁電感設(shè)為一特定值,動作設(shè)為轉(zhuǎn)子電阻的變化即可。若要辨識勵磁電感,同樣只需將轉(zhuǎn)子電阻設(shè)為一特定值,動作設(shè)為勵磁電感的變化即可;

②共400個動作,即當前電機的參數(shù)值每次增加或減小的間隔為0.01,總變化范圍為-2.0~2.0,記為a=[y-2.0,y-1.99......y+1.99,y+2.0],變化范圍和動作間隔可以自由電機調(diào)整;

③共200個動作,即當前電機的參數(shù)值分別為0~2.0,每個動作間隔為0.01。記為a=[y=0.0,y=0.01......y=2.0],參數(shù)范圍和動作間隔可以自由調(diào)整。

選擇動作模式時,第一種動作模式更為通用,適合于不同功率不同種類的電機,但是運算量最大,時間最長,并且有誤差。第三種動作模式通用性較差,只適用于電機參數(shù)在所設(shè)參數(shù)范圍內(nèi)的電機,但是運算量最小,也最精確。第二種動作模式介于一,三之間。

(3)將電機參數(shù)調(diào)整對電機輸出轉(zhuǎn)矩的影響稱之為獎勵。獎勵值可以設(shè)置為三種模式:

①直接為電機輸出的轉(zhuǎn)矩值:,記為r=te;

②電機輸出的轉(zhuǎn)矩值和某一個參考值之差,記為r=te-te*,參考值約為當前工況下最大轉(zhuǎn)矩的90%;

③電機當前輸出轉(zhuǎn)矩與最大輸出轉(zhuǎn)矩之差,記為r=te-tmax。

獎勵值可以選擇三種模式中的任意一種。

選擇獎勵模式時,第一種獎勵模式更為通用,適合于不同功率不同種類的電機,但是辨識精度較差,有時無法得到精確的辨識值。第二種模式辨識準確性最高,運算量最小,但是需要預先估計電機的最大轉(zhuǎn)矩,因此通用性較差。第三種模式通用性和第一種模式相同,辨識準確性較第一種模式更高,略低于第二種模式,但是運算量最大。

如圖3所示為基于q學習的感應(yīng)電機參數(shù)辨識算法的流程圖,具體實現(xiàn)為:

(1)一共迭代i個回合,每個回合又迭代j次,迭代次數(shù)i和j根據(jù)實際情況而定;

(2)每個回合中,首先初始化電機參數(shù)值,電機參數(shù)可以為勵磁電感或轉(zhuǎn)子電阻,根據(jù)需要辨識的電機參數(shù)而定,電機參數(shù)的初始值可以為經(jīng)驗值,如果沒有經(jīng)驗值,可以設(shè)為0.001;

(3)初始化電機參數(shù)值后,進入每個回合的算法迭代,具體的迭代步驟為:

①采集環(huán)境變量,計算獎勵值;

②選擇一隨機數(shù)ε,ε取值范圍為(0,1);

③計算當前估計價值函數(shù)q(s,a),q(s,a)采用多層神經(jīng)網(wǎng)絡(luò)算法求得,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)可以是反向傳播神經(jīng)網(wǎng)絡(luò)(bp),循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn),或者是長短記憶型神經(jīng)網(wǎng)絡(luò)(lstm-rnn),或者其他類型神經(jīng)網(wǎng)絡(luò);

④計算目標價值函數(shù)qtarget,記為qtarget=[r+γmaxq*(s',a')|s,a],其中,γ為貼現(xiàn)因子,s、a表示當前的環(huán)境變量和動作,s′、a′為下次的環(huán)境變量和下次的預動作。maxq*(s',a')|s,a表示當前的環(huán)境變量為s,當前動作為a時,下次環(huán)境變量變化成s′后,s′狀態(tài)下的估計價值函數(shù)的最大值;

⑤若ε<0.1時,隨機選擇當前動作a;

若ε>0.1時,選擇動作為:a=maxaq*(s,a),即使當前估計價值函數(shù)q(s,a)為最大值的那個動作;

⑥使用梯度下降法,更新(qtarget-q(s,a))2

⑦如果獎勵值小于-20,直接退出本回合;

⑧一次迭代結(jié)束,記錄運算結(jié)果;

(4)完成所有步驟(3)的迭代運算后,選擇所有記錄的運算結(jié)果中,出現(xiàn)頻率最多的值,即為當前狀態(tài)下能使電機輸出轉(zhuǎn)矩最優(yōu)的電機參數(shù)辨識值。

在進行梯度下降的過程中,可以直接對當前單一采樣值進行梯度下降(以下簡稱單一采樣法),也可以采用設(shè)立經(jīng)驗池(experiencepool),并隨機重復采樣取平均值的方法進行梯度下降(以下簡稱minibatch方法),即①將以前所有采集的數(shù)據(jù)均存儲至一數(shù)據(jù)庫內(nèi),作為經(jīng)驗池。②采集的當前狀態(tài)的環(huán)境變量和獎勵值,并從經(jīng)驗池隨機選擇先前若干個時刻的環(huán)境變量和獎勵值共同組成一個樣本(minibatch),對這個樣本分別取平均值后再進行梯度下降。若使用單一采樣法方法運算量小,速度快,但是q神經(jīng)網(wǎng)絡(luò)不一定收斂,因此可靠性不能保證。而使用minibatch方法雖然運算量大,速度慢,但是q神經(jīng)網(wǎng)絡(luò)一定收斂。從而保證了辨識的可靠性。舉例說明,已知電機轉(zhuǎn)子電阻的實際值為0.338ω,圖4是用單一采樣方法的q神經(jīng)網(wǎng)絡(luò)的收斂誤差,圖5是用minibatch方法q神經(jīng)網(wǎng)絡(luò)收斂誤差??梢钥闯?,450次迭代后,單一采樣法q神經(jīng)網(wǎng)絡(luò)的誤差仍未收斂;而minibatch方法q神經(jīng)網(wǎng)絡(luò)已經(jīng)收斂。并且從圖6得知,minibatch方法已經(jīng)得到了較為精確的辨識值。

提供以上實施例僅僅是為了描述本發(fā)明的目的,而并非要限制本發(fā)明的范圍。本發(fā)明的范圍由所附權(quán)利要求限定。不脫離本發(fā)明的精神和原理而做出的各種等同替換和修改,均應(yīng)涵蓋在本發(fā)明的范圍之內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
肃宁县| 桦甸市| 金溪县| 丹凤县| 临颍县| 璧山县| 达尔| 宜章县| 藁城市| 临清市| 南昌市| 佳木斯市| 斗六市| 楚雄市| 醴陵市| 南宫市| 丘北县| 丹江口市| 锡林郭勒盟| 历史| 抚远县| 石阡县| 阿尔山市| 临武县| 南漳县| 雷州市| 西华县| 水富县| 都兰县| 长阳| 隆林| 建阳市| 怀宁县| 外汇| 乌审旗| 邵东县| 钟祥市| 玉环县| 湾仔区| 海盐县| 淮安市|