本發(fā)明涉及基于模仿和強化學(xué)習(xí)的預(yù)防控制領(lǐng)域,尤其涉及基于模仿和強化學(xué)習(xí)的預(yù)防控制方法、裝置、介質(zhì)及設(shè)備。
背景技術(shù):
1、近年來電力規(guī)模持續(xù)高速擴大,用電需求和電能穩(wěn)定性需求不斷增大,電網(wǎng)結(jié)構(gòu)日益復(fù)雜,以同步機為主導(dǎo)的傳統(tǒng)電力系統(tǒng)正逐步向以分布式可再生能源主導(dǎo)的新型電力系統(tǒng)轉(zhuǎn)型。新型電力系統(tǒng)可控對象從以源為主擴展到源網(wǎng)荷儲能各個環(huán)節(jié),當(dāng)前針對傳統(tǒng)基于模仿和強化學(xué)習(xí)的預(yù)防控制的傳統(tǒng)方法大部分基于考慮暫態(tài)穩(wěn)定性的最優(yōu)潮流方法,新型電力系統(tǒng)相比傳統(tǒng)電力系統(tǒng),其控制難度和規(guī)模呈指數(shù)級增長,傳統(tǒng)方法因計算效率低下而無法直接沿用;另一方面,太陽能、風(fēng)能等多元分布式新型電源在新型電力系統(tǒng)的滲透率日益攀升,但可再生能源與常規(guī)電源相比,電力的支撐能力存在較大差距,在可再生能源和電力電子設(shè)備高比例滲透下電力系統(tǒng)呈現(xiàn)低慣量、低阻尼等特性,重塑了電力系統(tǒng)安全穩(wěn)定運行穩(wěn)定域,安全穩(wěn)定運行面臨嚴(yán)峻的風(fēng)險挑戰(zhàn)。因此,提出一種實時高效的基于模仿和強化學(xué)習(xí)的預(yù)防控制方法迫在眉睫。
2、與此同時,近年來,人工智能技術(shù)高速發(fā)展并在電力系統(tǒng)領(lǐng)域取得了一定的理論突破。與傳統(tǒng)依靠物理建模分析的暫態(tài)穩(wěn)定預(yù)防控制方法相比,人工智能如深度強化學(xué)習(xí)技術(shù)能夠?qū)﹄娏ο到y(tǒng)的海量數(shù)據(jù)進行升維計算、分析,擺脫求解復(fù)雜的非線性微分方程,從數(shù)據(jù)角度揭示電力系統(tǒng)暫態(tài)穩(wěn)定的物理特性,將大規(guī)模數(shù)據(jù)集轉(zhuǎn)變成高效的決策方案,在電力行業(yè)快速發(fā)展的當(dāng)下被業(yè)界認(rèn)為是應(yīng)對基于模仿和強化學(xué)習(xí)的預(yù)防控制實時性挑戰(zhàn)的關(guān)鍵。但深度神經(jīng)網(wǎng)絡(luò)存在模型不透明、網(wǎng)絡(luò)參數(shù)意義不明確、決策過程無法通過物理知識推導(dǎo)等不可解釋性問題,阻礙了深度強化學(xué)習(xí)的在基于模仿和強化學(xué)習(xí)的預(yù)防控制領(lǐng)域的工程落地應(yīng)用。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了基于模仿和強化學(xué)習(xí)的預(yù)防控制方法、裝置、介質(zhì)及終端設(shè)備,以提高基于模仿和強化學(xué)習(xí)的預(yù)防控制策略的可靠性。
2、第一方面,本技術(shù)提供了基于模仿和強化學(xué)習(xí)的預(yù)防控制方法,包括:
3、獲取電力系統(tǒng)的實時運行狀態(tài)信息;
4、將所述實時運行狀態(tài)信息輸入到第三深度強化學(xué)習(xí)智能體中,以使第三所述深度強化學(xué)習(xí)智能體輸出預(yù)防控制的控制信號;
5、其中,所述第三深度強化學(xué)習(xí)智能體是由第二深度強化學(xué)習(xí)智能體,與電力系統(tǒng)仿真模型構(gòu)建的環(huán)境進行交互訓(xùn)練得到的;所述第二深度強化學(xué)習(xí)智能體是由第一深度強化學(xué)習(xí)智能體,根據(jù)專家經(jīng)驗數(shù)據(jù)集合模仿學(xué)習(xí)預(yù)訓(xùn)練得到的;
6、根據(jù)所述控制信號,調(diào)整電力系統(tǒng)中發(fā)電機和無功電源的輸出功率及投切,使電力系統(tǒng)運行在安全穩(wěn)定的工作狀態(tài)。
7、本技術(shù)通過實時獲取電力系統(tǒng)的運行狀態(tài)信息,確保了控制策略的及時性和準(zhǔn)確性。其次,這些信息被輸入到經(jīng)過專家經(jīng)驗數(shù)據(jù)預(yù)訓(xùn)練的第一深度強化學(xué)習(xí)智能體中,該智能體通過模仿學(xué)習(xí)掌握了專家的決策模式,提高了決策的可靠性和效率。然后,第一智能體與電力系統(tǒng)仿真模型構(gòu)建的環(huán)境進行交互訓(xùn)練,形成第二智能體,進一步優(yōu)化和調(diào)整其決策策略,以適應(yīng)實際運行環(huán)境。最終,第二智能體輸出的控制信號被用于指導(dǎo)第三智能體,該智能體綜合實時狀態(tài)信息和經(jīng)過訓(xùn)練的策略,輸出精確的預(yù)防控制信號。這些信號指導(dǎo)電力系統(tǒng)中的發(fā)電機和無功電源調(diào)整輸出功率及投切,確保電力系統(tǒng)在各種運行條件下都能維持在安全穩(wěn)定的工作狀態(tài),從而有效預(yù)防了大規(guī)模停電等電力系統(tǒng)故障的發(fā)生,提高了整個電力系統(tǒng)的穩(wěn)定性和可靠性。
8、作為第一方面的一個優(yōu)選實施例,所述第二深度強化學(xué)習(xí)智能體是由第一深度強化學(xué)習(xí)智能體,根據(jù)專家經(jīng)驗數(shù)據(jù)集合模仿學(xué)習(xí)預(yù)訓(xùn)練得到的,具體為:
9、根據(jù)電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束,求解在多個不同狀態(tài)下以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到多個專家策略;其中,所述n為大于1的正整數(shù);
10、根據(jù)所述多個專家策略計算得到專家經(jīng)驗數(shù)據(jù)集合;
11、根據(jù)所述專家經(jīng)驗數(shù)據(jù)集合對所述第一深度強化學(xué)習(xí)智能體以最小化動作策略誤差為目標(biāo)進行模仿學(xué)習(xí)預(yù)訓(xùn)練;
12、當(dāng)所述最小化動作策略誤差收斂,停止訓(xùn)練,得到第二深度強化學(xué)習(xí)智能體。
13、此優(yōu)選實施例中,本技術(shù)的第一深度強化學(xué)習(xí)智能體通過模仿學(xué)習(xí),利用專家經(jīng)驗數(shù)據(jù)集合,這些數(shù)據(jù)集合是基于電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束,通過求解以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù)得到的多個專家策略。這種預(yù)訓(xùn)練方法使得智能體能夠?qū)W習(xí)到在復(fù)雜電力系統(tǒng)環(huán)境下的高效決策模式。通過模仿學(xué)習(xí)最小化動作策略誤差,智能體進一步優(yōu)化其決策能力,直到誤差收斂,確保了智能體的決策精度和可靠性。最終,訓(xùn)練得到的第二深度強化學(xué)習(xí)智能體能夠輸出高質(zhì)量的控制信號,這些信號能夠指導(dǎo)電力系統(tǒng)中的發(fā)電機和無功電源進行精確調(diào)整,確保系統(tǒng)在各種工況下均能維持安全穩(wěn)定的運行狀態(tài),有效預(yù)防了電力系統(tǒng)的不穩(wěn)定和故障,提高了整個系統(tǒng)的運行效率和安全性。
14、作為第一方面的一個優(yōu)選實施例,所述根據(jù)電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束,求解在多個不同狀態(tài)下以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到多個專家策略;根據(jù)所述多個專家策略計算得到專家經(jīng)驗數(shù)據(jù)集合,具體為:
15、將電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束作為最優(yōu)潮流限制條件,限定所述優(yōu)化目標(biāo)中發(fā)電機、線路、母線等各元件工作在指定范圍內(nèi);
16、根據(jù)所述最優(yōu)潮流限制條件,求解以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到電力系統(tǒng)在多個運行狀態(tài)下的多個最優(yōu)潮流結(jié)果;
17、通過差值采樣算法,計算所述多個最優(yōu)潮流結(jié)果的多步?jīng)Q策動作,得到多個專家策略軌跡;其中,每個專家策略軌跡包含狀態(tài)序列和動作序列;
18、所述多個專家軌跡構(gòu)成所述專家經(jīng)驗數(shù)據(jù)集合。
19、此優(yōu)選實施例中,本技術(shù)將電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束綜合考慮,作為最優(yōu)潮流的限制條件,確保了發(fā)電機、線路、母線等電力系統(tǒng)各元件在安全穩(wěn)定的工作范圍內(nèi)運行。然后,在這些約束條件下,求解以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到電力系統(tǒng)在不同運行狀態(tài)下的最優(yōu)潮流結(jié)果。接著,利用差值采樣算法對這些最優(yōu)潮流結(jié)果進行多步?jīng)Q策動作的計算,形成多個專家策略軌跡,每個軌跡包含了詳細(xì)的狀態(tài)序列和動作序列。這些專家策略軌跡匯總構(gòu)成了專家經(jīng)驗數(shù)據(jù)集合,它們?yōu)樯疃葟娀瘜W(xué)習(xí)智能體提供了豐富的、基于實際電力系統(tǒng)運行情況的學(xué)習(xí)樣本。通過模仿這些專家策略,智能體能夠?qū)W習(xí)到在各種復(fù)雜工況下如何做出最優(yōu)的控制決策,從而在實際應(yīng)用中提高電力系統(tǒng)的運行效率和穩(wěn)定性,減少因操作不當(dāng)導(dǎo)致的系統(tǒng)故障風(fēng)險。
20、作為第一方面的一個優(yōu)選實施例,所述第三深度強化學(xué)習(xí)智能體是由第二深度強化學(xué)習(xí)智能體,與電力系統(tǒng)仿真模型構(gòu)建的環(huán)境進行交互訓(xùn)練得到的,具體為:
21、獲取經(jīng)驗回放組件信息;其中,所述經(jīng)驗回放組件信息是通過所述專家經(jīng)驗數(shù)據(jù)集合初始化得到的;
22、根據(jù)所述經(jīng)驗回放組件信息,對第二深度學(xué)習(xí)智能體訓(xùn)練,并優(yōu)化初始深度學(xué)習(xí)智能體的損失函數(shù);
23、當(dāng)所述第二深度學(xué)習(xí)智能體的損失函數(shù)收斂至預(yù)設(shè)目標(biāo)值,停止訓(xùn)練,得到第三深度學(xué)習(xí)強化智能體。
24、此優(yōu)選實施例中,本技術(shù)通過獲取由專家經(jīng)驗數(shù)據(jù)集合初始化得到的經(jīng)驗回放組件信息,為第二深度學(xué)習(xí)智能體的訓(xùn)練提供了一個豐富的、接近實際運行情況的數(shù)據(jù)基礎(chǔ)。接著,利用這些經(jīng)驗回放信息,對第二深度學(xué)習(xí)智能體進行訓(xùn)練,同時優(yōu)化其損失函數(shù),使得智能體能夠更快速、更準(zhǔn)確地學(xué)習(xí)到在各種電力系統(tǒng)狀態(tài)下的最優(yōu)控制策略。訓(xùn)練過程中,智能體不斷調(diào)整和優(yōu)化其決策模型,直至損失函數(shù)收斂至預(yù)設(shè)的目標(biāo)值,此時智能體的訓(xùn)練達(dá)到最優(yōu)狀態(tài),形成第三深度學(xué)習(xí)強化智能體。這個訓(xùn)練有素的智能體能夠根據(jù)電力系統(tǒng)的實時運行狀態(tài),快速輸出精確的預(yù)防控制信號,指導(dǎo)系統(tǒng)中的發(fā)電機和無功電源等設(shè)備進行必要的調(diào)整,確保電力系統(tǒng)在各種復(fù)雜條件下都能維持安全穩(wěn)定的運行狀態(tài),有效預(yù)防了潛在的電力系統(tǒng)故障,提高了電力系統(tǒng)的可靠性和經(jīng)濟運行效率。
25、第二方面,本技術(shù)提供了基于模仿和強化學(xué)習(xí)的預(yù)防控制裝置,所述基于模仿和強化學(xué)習(xí)的預(yù)防控制裝置包括獲取模塊、輸入輸出模塊和調(diào)整模塊;
26、獲取模塊用于獲取電力系統(tǒng)的實時運行狀態(tài)信息;
27、輸入輸出模塊用于將所述實時運行狀態(tài)信息輸入到第三深度強化學(xué)習(xí)智能體中,以使第三所述深度強化學(xué)習(xí)智能體輸出預(yù)防控制的控制信號;
28、其中,所述第三深度強化學(xué)習(xí)智能體是由第二深度強化學(xué)習(xí)智能體,與電力系統(tǒng)仿真模型構(gòu)建的環(huán)境進行交互訓(xùn)練得到的;所述第二深度強化學(xué)習(xí)智能體是由第一深度強化學(xué)習(xí)智能體,根據(jù)專家經(jīng)驗數(shù)據(jù)集合模仿學(xué)習(xí)預(yù)訓(xùn)練得到的;
29、調(diào)整模塊用于根據(jù)所述控制信號,調(diào)整電力系統(tǒng)中發(fā)電機和無功電源的輸出功率及投切,使電力系統(tǒng)運行在安全穩(wěn)定的工作狀態(tài)。
30、本裝置使用三個模塊分工并協(xié)調(diào)工作可以更好地為電力系統(tǒng)提供預(yù)防控制策略。本技術(shù)通過實時獲取電力系統(tǒng)的運行狀態(tài)信息,確保了控制策略的及時性和準(zhǔn)確性。其次,這些信息被輸入到經(jīng)過專家經(jīng)驗數(shù)據(jù)預(yù)訓(xùn)練的第一深度強化學(xué)習(xí)智能體中,該智能體通過模仿學(xué)習(xí)掌握了專家的決策模式,提高了決策的可靠性和效率。然后,第一智能體與電力系統(tǒng)仿真模型構(gòu)建的環(huán)境進行交互訓(xùn)練,形成第二智能體,進一步優(yōu)化和調(diào)整其決策策略,以適應(yīng)實際運行環(huán)境。最終,第二智能體輸出的控制信號被用于指導(dǎo)第三智能體,該智能體綜合實時狀態(tài)信息和經(jīng)過訓(xùn)練的策略,輸出精確的預(yù)防控制信號。這些信號指導(dǎo)電力系統(tǒng)中的發(fā)電機和無功電源調(diào)整輸出功率及投切,確保電力系統(tǒng)在各種運行條件下都能維持在安全穩(wěn)定的工作狀態(tài),從而有效預(yù)防了大規(guī)模停電等電力系統(tǒng)故障的發(fā)生,提高了整個電力系統(tǒng)的穩(wěn)定性和可靠性。
31、作為第二方面的一個優(yōu)選實施例,所述第二深度強化學(xué)習(xí)智能體是由第一深度強化學(xué)習(xí)智能體,根據(jù)專家經(jīng)驗數(shù)據(jù)集合模仿學(xué)習(xí)預(yù)訓(xùn)練得到的,具體為:
32、根據(jù)電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束,求解在多個不同狀態(tài)下以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到多個專家策略;其中,所述n為大于1的正整數(shù);
33、根據(jù)所述多個專家策略計算得到專家經(jīng)驗數(shù)據(jù)集合;
34、根據(jù)所述專家經(jīng)驗數(shù)據(jù)集合對所述第一深度強化學(xué)習(xí)智能體以最小化動作策略誤差為目標(biāo)進行模仿學(xué)習(xí)預(yù)訓(xùn)練;
35、當(dāng)所述最小化動作策略誤差收斂,停止訓(xùn)練,得到第二深度強化學(xué)習(xí)智能體。
36、此優(yōu)選實施例中,本技術(shù)的第一深度強化學(xué)習(xí)智能體通過模仿學(xué)習(xí),利用專家經(jīng)驗數(shù)據(jù)集合,這些數(shù)據(jù)集合是基于電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束,通過求解以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù)得到的多個專家策略。這種預(yù)訓(xùn)練方法使得智能體能夠?qū)W習(xí)到在復(fù)雜電力系統(tǒng)環(huán)境下的高效決策模式。通過模仿學(xué)習(xí)最小化動作策略誤差,智能體進一步優(yōu)化其決策能力,直到誤差收斂,確保了智能體的決策精度和可靠性。最終,訓(xùn)練得到的第二深度強化學(xué)習(xí)智能體能夠輸出高質(zhì)量的控制信號,這些信號能夠指導(dǎo)電力系統(tǒng)中的發(fā)電機和無功電源進行精確調(diào)整,確保系統(tǒng)在各種工況下均能維持安全穩(wěn)定的運行狀態(tài),有效預(yù)防了電力系統(tǒng)的不穩(wěn)定和故障,提高了整個系統(tǒng)的運行效率和安全性。
37、作為第二方面的一個優(yōu)選實施例,所述根據(jù)電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束,求解在多個不同狀態(tài)下以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到多個專家策略;根據(jù)所述多個專家策略計算得到專家經(jīng)驗數(shù)據(jù)集合,具體為:
38、將電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束作為最優(yōu)潮流限制條件,限定所述優(yōu)化目標(biāo)中發(fā)電機、線路、母線等各元件工作在指定范圍內(nèi);
39、根據(jù)所述最優(yōu)潮流限制條件,求解以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到電力系統(tǒng)在多個運行狀態(tài)下的多個最優(yōu)潮流結(jié)果;
40、通過差值采樣算法,計算所述多個最優(yōu)潮流結(jié)果的多步?jīng)Q策動作,得到多個專家策略軌跡;其中,每個專家策略軌跡包含狀態(tài)序列和動作序列;
41、所述多個專家軌跡構(gòu)成所述專家經(jīng)驗數(shù)據(jù)集合。
42、此優(yōu)選實施例中,本技術(shù)將電力系統(tǒng)安全穩(wěn)定基本約束、n-1故障下安全穩(wěn)定約束和暫態(tài)穩(wěn)定約束綜合考慮,作為最優(yōu)潮流的限制條件,確保了發(fā)電機、線路、母線等電力系統(tǒng)各元件在安全穩(wěn)定的工作范圍內(nèi)運行。然后,在這些約束條件下,求解以經(jīng)濟效益為優(yōu)化目標(biāo)的目標(biāo)函數(shù),得到電力系統(tǒng)在不同運行狀態(tài)下的最優(yōu)潮流結(jié)果。接著,利用差值采樣算法對這些最優(yōu)潮流結(jié)果進行多步?jīng)Q策動作的計算,形成多個專家策略軌跡,每個軌跡包含了詳細(xì)的狀態(tài)序列和動作序列。這些專家策略軌跡匯總構(gòu)成了專家經(jīng)驗數(shù)據(jù)集合,它們?yōu)樯疃葟娀瘜W(xué)習(xí)智能體提供了豐富的、基于實際電力系統(tǒng)運行情況的學(xué)習(xí)樣本。通過模仿這些專家策略,智能體能夠?qū)W習(xí)到在各種復(fù)雜工況下如何做出最優(yōu)的控制決策,從而在實際應(yīng)用中提高電力系統(tǒng)的運行效率和穩(wěn)定性,減少因操作不當(dāng)導(dǎo)致的系統(tǒng)故障風(fēng)險。
43、作為第二方面的一個優(yōu)選實施例,所述第三深度強化學(xué)習(xí)智能體是由第二深度強化學(xué)習(xí)智能體,與電力系統(tǒng)仿真模型構(gòu)建的環(huán)境進行交互訓(xùn)練得到的,具體為:
44、獲取經(jīng)驗回放組件信息;其中,所述經(jīng)驗回放組件信息是通過所述專家經(jīng)驗數(shù)據(jù)集合初始化得到的;
45、根據(jù)所述經(jīng)驗回放組件信息,對第二深度學(xué)習(xí)智能體訓(xùn)練,并優(yōu)化初始深度學(xué)習(xí)智能體的損失函數(shù);
46、當(dāng)所述第二深度學(xué)習(xí)智能體的損失函數(shù)收斂至預(yù)設(shè)目標(biāo)值,停止訓(xùn)練,得到第三深度學(xué)習(xí)強化智能體。
47、此優(yōu)選實施例中,本技術(shù)通過獲取由專家經(jīng)驗數(shù)據(jù)集合初始化得到的經(jīng)驗回放組件信息,為第二深度學(xué)習(xí)智能體的訓(xùn)練提供了一個豐富的、接近實際運行情況的數(shù)據(jù)基礎(chǔ)。接著,利用這些經(jīng)驗回放信息,對第二深度學(xué)習(xí)智能體進行訓(xùn)練,同時優(yōu)化其損失函數(shù),使得智能體能夠更快速、更準(zhǔn)確地學(xué)習(xí)到在各種電力系統(tǒng)狀態(tài)下的最優(yōu)控制策略。訓(xùn)練過程中,智能體不斷調(diào)整和優(yōu)化其決策模型,直至損失函數(shù)收斂至預(yù)設(shè)的目標(biāo)值,此時智能體的訓(xùn)練達(dá)到最優(yōu)狀態(tài),形成第三深度學(xué)習(xí)強化智能體。這個訓(xùn)練有素的智能體能夠根據(jù)電力系統(tǒng)的實時運行狀態(tài),快速輸出精確的預(yù)防控制信號,指導(dǎo)系統(tǒng)中的發(fā)電機和無功電源等設(shè)備進行必要的調(diào)整,確保電力系統(tǒng)在各種復(fù)雜條件下都能維持安全穩(wěn)定的運行狀態(tài),有效預(yù)防了潛在的電力系統(tǒng)故障,提高了電力系統(tǒng)的可靠性和經(jīng)濟運行效率。
48、第三方面,本技術(shù)提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的計算機程序,其中,在所述計算機程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行如所述的基于模仿和強化學(xué)習(xí)的預(yù)防控制方法。其有益效果與本技術(shù)中第一方面提供的基于模仿和強化學(xué)習(xí)的預(yù)防控制方法相同。
49、第四方面,本技術(shù)提供一種終端設(shè)備,包括處理器、存儲器以及存儲在所述存儲器中且被配置為由所述處理器執(zhí)行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)如第一方面所述的任意一項基于模仿和強化學(xué)習(xí)的預(yù)防控制方法。