一種互聯(lián)電網(wǎng)cps指令動態(tài)分配優(yōu)化方法
【專利摘要】本發(fā)明公開了一種互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,包括以下步驟:步驟1、確定控制目標;步驟2、確定狀態(tài)離散集S;步驟3、選擇平衡機組并確定聯(lián)合動作離散集A;步驟4、計算該區(qū)域ACE(k)的瞬時值與CPS(k)的瞬時值;步驟5、獲得每個智能體的立即獎勵值Ri(k);步驟6、由線性均衡和均衡選擇函數(shù)求取相關均衡聯(lián)動策略;步驟7、對所有機組j執(zhí)行相應操作;步驟8、在下一次控制周期到來時,返回步驟4。具有能有效降低各類機組的頻繁調(diào)節(jié)次數(shù),提高了AGC系統(tǒng)的CPS控制性能,特別適用于火電占優(yōu)、機組組合復雜的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化等優(yōu)點。
【專利說明】—種互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法
【技術領域】
[0001]本發(fā)明涉及電力系統(tǒng)自動發(fā)電控制【技術領域】(即二次調(diào)頻),特別涉及一種互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,該動態(tài)分配優(yōu)化方法適用于火電占優(yōu)、機組組合復雜的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化。
【背景技術】
[0002]自從在互聯(lián)電網(wǎng)自動發(fā)電控制(Automatic Generation Control, AGC)中提出控制性能標準(Control Performance Standard, CPS)后,CPS的合格率就成為影響AGC控制策略的重要因素。AGC控制系統(tǒng)的關鍵步驟之一就是把CPS總調(diào)節(jié)指令根據(jù)一定的優(yōu)化算法分配到各臺AGC機組。
[0003]傳統(tǒng)的AGC調(diào)節(jié)功率在進行分配時采用了平均分配法,并沒有考慮各機組間的差異,并不能滿足CPS調(diào)節(jié)需要。除強化學習外,現(xiàn)有關于CPS控制策略的設計多數(shù)為經(jīng)典PI控制結(jié)構(gòu),均能提高CPS指標,其中文還引入NARX神經(jīng)網(wǎng)絡預測及模糊控制原理對CPS控制策略進行了研究,在提高CPS考核率的基礎上,一定程度降低了機組的頻繁動作。傳統(tǒng)PI控制和NARX神經(jīng)網(wǎng)絡預測及模糊控制可保證對受控對象存在的模型不確定性具有較高的魯棒性,但在最優(yōu)化設計方面還存在一定欠缺。已有理論研究表明,強化學習方法所具有的高度自學習與自尋優(yōu)能力在解決調(diào)度端最優(yōu)發(fā)電控制方面具有更好的協(xié)調(diào)性與魯棒性。余濤,王宇名,劉前進在《互聯(lián)電網(wǎng)CPS調(diào)節(jié)指令動態(tài)最優(yōu)分配Q-學習算法》(中國電機工程學報)中提出了一種基于Q學習的CPS指令動態(tài)最優(yōu)分配方法,能很好地適應運行環(huán)境的變化,分配行為不固定,提高了整個AGC系統(tǒng)的控制適應性及魯棒性。針對單步Q學習在火電占優(yōu)、機組時延較大的自動發(fā)電控制(AGC)功率指令動態(tài)優(yōu)化分配中的應用表現(xiàn)出收斂速度慢等不足而影響最優(yōu)策略的獲取,余濤,王宇名,甄衛(wèi)國,等在《基于多步回溯Q學習的自動發(fā)電控制指令動態(tài)優(yōu)化分配算法》(控制理論與應用)中引入了資格跡解決了火電機組大時滯環(huán)節(jié)帶來的延時回報問題,提高算法收斂速度,滿足在線應用的實時性要求,并在保持AGC高合格率的前提下節(jié)省系統(tǒng)調(diào)節(jié)成本。為解決基于Q學習多臺機組下的分配過程中的維數(shù)災難問題,余濤,王宇名,葉文加,劉前進在《基于改進分層強化學習的CPS指令多目標動態(tài)優(yōu)化分配算法》中將全網(wǎng)機組按調(diào)頻時延做初次分類,CPS指令逐層分配形成任務分層結(jié)構(gòu),在分層Q學習算法層與層之間引入一個時變協(xié)調(diào)因子,改進的分層Q學習算法有效提高原算法收斂速度。雖然經(jīng)典強化學習可以在滿足電網(wǎng)CPS考核標準前提下得到收斂的均衡點,但在分配過程中采用機組出力組合空間有限的分配因子動作策略,使得尋到的均衡點并不一定是最優(yōu)的均衡點,各類機組的調(diào)節(jié)較頻繁,收斂步數(shù)也相對較長,收斂后CPSl和ACE實時曲線不夠平滑。此外,Q學習、QU)學習和分層Q學習在本質(zhì)上都是單智能體強化學習算法,并未涉及到各智能體之間的協(xié)同學習,各智能體的動作組合并不一定是聯(lián)合最優(yōu)動作。本發(fā)明方法CEQO ) (Correlated-Equilibrium-QO))是通過相關均衡強化學習在多個智能體之間對策博弈可以形成比單智能體Q學習、傳統(tǒng)PI控制和NARX神經(jīng)網(wǎng)絡預測及模糊控制更優(yōu)的均衡點,更適用于煤電占優(yōu)、機組組合復雜的互聯(lián)電網(wǎng)CPS指令動態(tài)最優(yōu)分配,有效提高了系統(tǒng)的適應性和魯棒性。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,提供一種互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,該優(yōu)化方法是一種基于CEQ(X)多智能體協(xié)同學習的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法;CEQ( λ )學習算法,是對CEQ算法的改進,也是強化學習從單智能體向多智能體發(fā)展的重要分水嶺,每個智能體的動態(tài)動作策略不再單純地決定于自身的歷史動作策略和獎勵值,而是依賴于其它智能體的動作概率所形成的動態(tài)平衡點。此外,在CEQ(A)在CPS指令動態(tài)分配應用中,每種類型AGC機組的指令分配動作不再是前面提到文獻里所采用的比例系數(shù),而是實際機組動作的增減出力,所有類型AGC機組的聯(lián)合動作組合空間比前面提到文獻中的要大得多,提高了尋找更優(yōu)均衡點的概率。
[0005]本發(fā)明的目的通過以下技術方案實現(xiàn):一種互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,包括以下步驟:
[0006]步驟1、確定控制目標;
[0007]步驟2、確定狀態(tài)離散集S ;
[0008]步驟3、選擇一類機組為平衡機組,其他機組參與CEQ( λ )協(xié)同學習,同時確定聯(lián)合動作離散集A ;
[0009]步驟4、在每個控制周期開始時采集所控制區(qū)域電網(wǎng)的實時運行數(shù)據(jù),所述實時運行數(shù)據(jù)包括頻率偏差Λ f、功率偏差Λ P和各臺機組的實際調(diào)節(jié)出力Λ Pei,計算該區(qū)域控制誤差ACE (k)的瞬時值與控制性能標準CPS (k)的瞬時值;
[0010]步驟5、由當前狀態(tài)S,獲得機組i的立即獎勵值RiGO ;
[0011]步驟6、由線性均衡約束
【權利要求】
1.一種互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,包括以下步驟: 步驟1、確定控制目標; 步驟2、確定狀態(tài)離散集S ; 步驟3、選擇一類機組為平衡機組,其他機組參與CEQ(X )協(xié)同學習,同時確定聯(lián)合動作離散集A ; 步驟4、在每個控制周期開始時采集所控制區(qū)域電網(wǎng)的實時運行數(shù)據(jù),所述實時運行數(shù)據(jù)包括頻率偏差Af、功率偏差ΛΡ和各臺機組的實際調(diào)節(jié)出力ΛPei,計算該區(qū)域控制誤差ACE (k)的瞬時值與控制性能標準CPS (k)的瞬時值; 步驟5、由當前狀態(tài)S,獲得機組i的立即獎勵值Ri (k); 步驟6、由線性均衡約束
2.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟I中的控制目標選擇區(qū)域控制誤差ACE最小、發(fā)電成本最低或控制性能指標CPS最高。
3.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟2中的狀態(tài)離散集S具體可以通過所控制區(qū)域電網(wǎng)的區(qū)域控制誤差ACE(k)、控制性能指標CPS(k)值以及其各機組的功率偏差值I APototJ的范圍劃分來確定。
4.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟3中的平衡機組選用燃煤機組,而選用水電和液化天然氣等調(diào)節(jié)容量上下限較小但時延性較小、調(diào)節(jié)速率較高、調(diào)節(jié)費用較小的機組參與均衡學習。
5.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟3中的聯(lián)合動作離散集A的表達式為: A=A1XA2X- XAiX …XAlri, 其中,Ai為智能體i的輸出離散動作集,η為智能體個數(shù)。
6.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟4中的實時運行數(shù)據(jù)通過計算機和監(jiān)控系統(tǒng)來采集。
7.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟5中的的RiGO是按所控制區(qū)域電網(wǎng)第k步ACE和CPSl的差分值以及各機組功率偏差值Δ Perror-1的線性組合來設計。
8.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟6中引入了相關均衡策略的線性約束和適合用于CPS指令動態(tài)分配優(yōu)化的uCEQ均衡選擇函數(shù),使智能體之間的協(xié)調(diào)聯(lián)合動作達到最優(yōu)。
9.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟7中的07_0,5)值的迭代更新公式為:
10.如權利要求1所述的互聯(lián)電網(wǎng)CPS指令動態(tài)分配優(yōu)化方法,其特征在于,所述步驟7中的資格跡矩陣値的迭代更新公式為:
【文檔編號】H02J3/46GK103683337SQ201310656811
【公開日】2014年3月26日 申請日期:2013年12月5日 優(yōu)先權日:2013年12月5日
【發(fā)明者】余濤, 張孝順 申請人:華南理工大學