專利名稱:用于計算機支持地學(xué)習(xí)技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于計算機支持地學(xué)習(xí)技術(shù)系統(tǒng)的控制和/或調(diào)節(jié) 的方法以及一種用于運行技術(shù)系統(tǒng)的相應(yīng)方法和一種計算機程序產(chǎn) ff口 0背景技術(shù)由現(xiàn)有技術(shù)已知不同的方法,利用這些方法可以基于預(yù)先確定的、 代表技術(shù)系統(tǒng)的運行的訓(xùn)練數(shù)據(jù)來對該系統(tǒng)的最優(yōu)運行進行建模。在 此,技術(shù)系統(tǒng)通過狀態(tài)、行為和隨后狀態(tài)來描述,其中狀態(tài)是技術(shù)系 統(tǒng)的確定的技術(shù)參數(shù)或者所觀察的狀態(tài)變量,而行為代表相應(yīng)的操縱 變量,這些操縱變量在技術(shù)系統(tǒng)上可以被改變。由現(xiàn)有技術(shù)已知一般 強化學(xué)習(xí)方法(英語Reinforcement Learning),這些方法針對技術(shù) 系統(tǒng)基于訓(xùn)練數(shù)據(jù)根據(jù)最優(yōu)性標準來學(xué)習(xí)最優(yōu)的行為選擇規(guī)則。已知 的方法具有以下缺點,即它們不提供關(guān)于所學(xué)習(xí)的行為選擇規(guī)則的統(tǒng) 計不確定性的任何陳述。這種不確定性特別是在少量的訓(xùn)練數(shù)據(jù)的情 況下非常大。發(fā)明內(nèi)容因此本發(fā)明的任務(wù)在于,提出一種用于學(xué)習(xí)技術(shù)運行的控制和/或 調(diào)節(jié)的方法,該方法考慮在學(xué)習(xí)中所使用的訓(xùn)練數(shù)據(jù)的統(tǒng)計不確定性,該任務(wù)通過獨立權(quán)利要求解決。本發(fā)明的改進方案在從屬權(quán)利要 求中進行限定。在根據(jù)本發(fā)明的方法中,計算機支持地學(xué)習(xí)技術(shù)系統(tǒng)的控制或調(diào) 節(jié),其中技術(shù)系統(tǒng)的運行的特征在于狀態(tài),技術(shù)系統(tǒng)在運行中能夠 呈現(xiàn)該狀態(tài);以及行為,這些行為在技術(shù)系統(tǒng)的運行中被執(zhí)行并且將 技術(shù)系統(tǒng)的相應(yīng)狀態(tài)轉(zhuǎn)化到隨后狀態(tài)中。在根據(jù)本發(fā)明的方法中,基 于在技術(shù)系統(tǒng)的運行中所采集的、包括狀態(tài)、行為和隨后狀態(tài)的訓(xùn)練 數(shù)據(jù)來學(xué)習(xí)質(zhì)量函數(shù)和行為選擇規(guī)則,其中特別是利用強化學(xué)習(xí)方法 來進行學(xué)習(xí)。在此,質(zhì)量函數(shù)鑒于對于技術(shù)系統(tǒng)來說特定的標準來對技術(shù)系統(tǒng)的最優(yōu)運行進行建模,并且行為選擇規(guī)則說明在技術(shù)系統(tǒng)的 運行中針對技術(shù)系統(tǒng)的相應(yīng)狀態(tài)應(yīng)優(yōu)選地執(zhí)行或應(yīng)執(zhí)行的行為。在根據(jù)本發(fā)明的方法中,在學(xué)習(xí)質(zhì)量函數(shù)和行為選擇規(guī)則期間, 借助不確定性傳播來確定質(zhì)量函數(shù)的統(tǒng)計不確定性的度量,并且根據(jù) 統(tǒng)計不確定性的度量和對應(yīng)于質(zhì)量函數(shù)的統(tǒng)計最低要求的確定性參數(shù) 來確定修改后的質(zhì)量函數(shù)。統(tǒng)計不確定性的度量特別被理解為統(tǒng)計方 差或者標準偏差的度量,優(yōu)選的是統(tǒng)計方差或者標準偏差本身。本發(fā) 明將學(xué)習(xí)方法與統(tǒng)計不確定性結(jié)合,其中基于本身已知的不確定性傳播(英語uncertainty propagation)來確定質(zhì)量函數(shù)的統(tǒng)計不確定性 的度量,其中該不確定性傳播也稱為高斯誤差傳播?;谟纱舜_定的 修改后的質(zhì)量函數(shù),學(xué)習(xí)行為選擇規(guī)則。根據(jù)本發(fā)明的方法具有的優(yōu)點是,考慮統(tǒng)計不確定性,其中可以 通過相應(yīng)地改變確定性參數(shù)來設(shè)置用于運行技術(shù)系統(tǒng)的不同情況。該 方法特別是提供一種新的確定性最優(yōu)的行為選擇規(guī)則,該行為選擇規(guī) 則在考慮統(tǒng)計不確定性的情況下將技術(shù)系統(tǒng)的性能最大化。在根據(jù)本發(fā)明的方法的一個優(yōu)選的變型方案中,學(xué)習(xí)質(zhì)量函數(shù)和 行為選擇規(guī)則在考慮評價和狀態(tài)-行為概率的情況下進行。相應(yīng)的評 價在此在考慮到技術(shù)系統(tǒng)的最優(yōu)運行的情況下對狀態(tài)、在該狀態(tài)中執(zhí) 行的行為以及隨后狀態(tài)的組合的質(zhì)量進行評價,并且通常也被稱為獎 勵(Reward)。狀態(tài)-行為概率根據(jù)狀態(tài)和在該狀態(tài)中執(zhí)行的行為說 明隨后狀態(tài)的概率。優(yōu)選地,在此,狀態(tài)-行為概率作為狀態(tài)-行為 概率分布來建模和/或評價作為評價概率分布來建模。在根據(jù)本發(fā)明的 方法的一個變型方案中,狀態(tài)-行為概率分布或評價概率分布的建模 作為相對頻率根據(jù)訓(xùn)練數(shù)據(jù)來進行。如果在學(xué)習(xí)時考慮評價,則在訓(xùn) 練數(shù)據(jù)中包含這些評價,或者存在函數(shù),該函數(shù)根據(jù)狀態(tài)、行為和隨 后狀態(tài)輸出相應(yīng)的評價。替代基于用于對概率分布建模的相對頻率的頻率論方法,在本發(fā) 明的另一變型方案中也可以選擇貝葉斯方法,其中狀態(tài)-行為概率分 布和/或評價概率分布基于具有后驗參數(shù)的先驗分布來估計,其中后驗 參數(shù)取決于訓(xùn)練數(shù)據(jù)。特別是Dirichlet分布和/或正態(tài)分布可以被用作 先驗分布。在一個特別優(yōu)選的實施形式中,使用本身已知的Bellman迭代來學(xué)習(xí)質(zhì)量函數(shù)和行為選擇規(guī)則。在已知的Bellman迭代中,在每個迭 代步驟中確定新的質(zhì)量函數(shù),其中根據(jù)本發(fā)明現(xiàn)在附加地在相應(yīng)的迭 代步驟中確定質(zhì)量函數(shù)的統(tǒng)計不確定性的新的度量,并且由此確定新 的修改后的質(zhì)量函數(shù)。在此,確定統(tǒng)計不確定性的新的度量特別是通 過如下方式來進行在Bellman迭代的每個迭代步驟中,根據(jù)在迭代 步驟中確定的質(zhì)量函數(shù)、狀態(tài)-行為概率和評價來確定協(xié)方差矩陣。
在本發(fā)明的一個特別優(yōu)選的變型方案中,要學(xué)習(xí)的行為選擇規(guī)則 是隨機的行為選擇規(guī)則,該行為選擇規(guī)則針對技術(shù)系統(tǒng)的狀態(tài)說明可 執(zhí)行的行為的概率分布。如果為了學(xué)習(xí)而使用上面提及的Bellman迭 代,則在每個迭代步驟中確定一種概率分布作為可執(zhí)行的行為的新的 概率分布,該概率分布修改最后的迭代步驟的概率分布,使得將更高 的概率分配給將修改后的質(zhì)量函數(shù)的值最大化的行為。
在本發(fā)明的另一特別優(yōu)選的實施形式中,基于確定性參數(shù),該方 法還提供對質(zhì)量函數(shù)的統(tǒng)計最低要求。雖然已知確定性參數(shù)與統(tǒng)計最 低要求相關(guān),但是這種相互關(guān)系并未被明確地說明。然而本發(fā)明的一 種實施形式能夠?qū)崿F(xiàn)明確地計算該相互關(guān)系。在此,統(tǒng)計最低要求優(yōu) 選地通過最小質(zhì)量函數(shù)值以及概率值來代表,其中概率值說明質(zhì)量函 數(shù)的值以何種概率大于或等于最小質(zhì)量函數(shù)值。優(yōu)選地,為了確定對 質(zhì)量函數(shù)的統(tǒng)計最低要求,假設(shè)質(zhì)量函數(shù)的高斯正態(tài)分布.
根據(jù)本發(fā)明的方法可以被用于任意的技術(shù)系統(tǒng)。在一個特別優(yōu)選 的變型方案中,使用該方法來學(xué)習(xí)渦輪機、特別是燃氣渦輪機的控制 或調(diào)節(jié)。燃氣渦輪機的狀態(tài)在此例如是所輸送的燃料的量和/或渦輪機 的噪聲(Brummen)。在此,行為例如是改變所輸送的燃料量或者改 變渦輪機的葉片的設(shè)置。
除了上面描述的學(xué)習(xí)方法之外,本發(fā)明此外還包括一種用于運行 技術(shù)系統(tǒng)的方法,其中該技術(shù)系統(tǒng)基于控制或調(diào)節(jié)來運行,該控制或 調(diào)節(jié)利用上面描述的學(xué)習(xí)方法的任意變型方案來進行學(xué)習(xí)。在此,利 用所學(xué)習(xí)的行為選擇規(guī)則在技術(shù)系統(tǒng)的相應(yīng)狀態(tài)中選擇要執(zhí)行的行 為。在隨機的行為選擇規(guī)則的情況下,這例如通過根據(jù)相應(yīng)的概率對 行為的隨機選擇來進行。在該運行的一個優(yōu)選的變型方案中,上述學(xué) 習(xí)方法在此以間隔重復(fù),其中在每次重復(fù)時,技術(shù)系統(tǒng)新呈現(xiàn)的狀態(tài) 和所執(zhí)行的行為被考慮作為訓(xùn)練數(shù)據(jù)。除了上面所描述的方法之外,本發(fā)明此外還涉及一種計算機程序 產(chǎn)品,該計算機程序產(chǎn)品具有存儲于機器可讀載體上的程序代碼,用 于當該程序在計算機上運行時執(zhí)行根據(jù)本發(fā)明的方法。
下面借助附圖來詳細地描述本發(fā)明的實施例。
圖1示出說明在本發(fā)明的一個實施形式中Q函數(shù)的確定性參數(shù)的 含義的圖;以及
圖2示出表格,該表格示出針對燃氣渦輪機的實例根據(jù)本發(fā)明的 方法的實施形式的結(jié)果。
具體實施例方式
下面借助技術(shù)系統(tǒng)的離子來闡述本發(fā)明,該技術(shù)系統(tǒng)的特征在于 狀態(tài)空間S和行為空間A。狀態(tài)空間是技術(shù)系統(tǒng)的參數(shù)形式的多個離 散或連續(xù)的狀態(tài),這些狀態(tài)在技術(shù)系統(tǒng)的運行期間表征技術(shù)系統(tǒng)。在 燃氣渦輪機的情況下,這些參數(shù)例如可以是所輸送的燃料燃料的量或 者渴輪機的噪聲.行為空間表示在技術(shù)系統(tǒng)上可執(zhí)行的可能的行為, 其中可以利用行為來改變技術(shù)系統(tǒng)的狀態(tài)。行為可以是改變技術(shù)系統(tǒng) 的操縱變量,例如改變?nèi)細鉁u輪機的導(dǎo)向葉片的位置,改變?nèi)剂陷斔?等等。
技術(shù)系統(tǒng)的動態(tài)在這里所描述的實施形式中作為馬爾可夫決策過 程通過轉(zhuǎn)移概率分布A:Sxv4xS卄
來表征,該轉(zhuǎn)移概率分布取決于 技術(shù)系統(tǒng)的當前狀態(tài)、在當前狀態(tài)中執(zhí)行的行為以及由此得出的技術(shù) 系統(tǒng)的隨后狀態(tài)。在根據(jù)本發(fā)明的方法的這里所描述的實施形式中, 以計算機支持的方式基于訓(xùn)練數(shù)據(jù)來學(xué)習(xí)行為選擇規(guī)則,其中行為選 擇規(guī)則一般說明在技術(shù)系統(tǒng)的預(yù)先給定的狀態(tài)中應(yīng)優(yōu)選地執(zhí)行哪個行 為。在此,行為選擇規(guī)則可以是確定性的,即通過規(guī)則確定某一行為, 然而行為選擇規(guī)則也可以是隨機的,也即行為選擇規(guī)則說明基于狀態(tài) 要執(zhí)行的行為的概率分布。根據(jù)本發(fā)明的方法的目的在于學(xué)習(xí)所謂的 確定性最優(yōu)的行為選擇規(guī)則,該行為選擇規(guī)則不一定在期望性能方面 是最優(yōu)的,而是滿足對行為選擇規(guī)則的統(tǒng)計上的最低要求。以這種方 式,可以學(xué)習(xí)行為選擇規(guī)則,這些行為選擇規(guī)則雖然并不滿足最大期
8望性能的最優(yōu)性標準(Optimal他tskriterium),然而將保證性能最大 化。
下面首先闡述根據(jù)現(xiàn)有技術(shù)的強化學(xué)習(xí)方法,其中基于相應(yīng)的最 優(yōu)性標準學(xué)習(xí)行為選擇規(guī)則。最優(yōu)性標準在此通過相應(yīng)的評價R代表, 其中該評價針對狀態(tài)、在該狀態(tài)中執(zhí)行的行為a和隨后狀態(tài)s'說明考 慮到技術(shù)系統(tǒng)的最優(yōu)運行,所執(zhí)行的行為a有多值得。最優(yōu)運行可以 根據(jù)所觀察的技術(shù)系統(tǒng)來任意地確定,例如這種運行的標準是沒有導(dǎo) 致?lián)p害或損壞技術(shù)系統(tǒng)的狀態(tài)出現(xiàn),或者在技術(shù)系統(tǒng)的運行中達到最 優(yōu)效率。在燃氣渦輪機的情況下,最優(yōu)運行例如可以通過如下方式來 規(guī)定達到高的效率,而沒有出現(xiàn)渦輪機的噪聲。
在最優(yōu)行為選擇規(guī)則的強化學(xué)習(xí)的情況下,考慮將來的評價的期 望折扣和(erwartete diskontierte Summe),該期望折扣和內(nèi)容如下
r (》=《ft 4('〕) ,+1))、
這種所謂的值函數(shù)必須在行為選擇規(guī)則的空間n s (s — z)上針對所 有可能的狀態(tài)s被最大化,其中0,<1是折扣因子,s'是s的隨后狀態(tài),
而;ren是所使用的行為選擇規(guī)則。此外適用s .乂'人..j。作為中
間步驟,構(gòu)造所謂的Q函數(shù)f(s,fl),該函數(shù)對應(yīng)于在權(quán)利要求1的意 義上的質(zhì)量函數(shù)的一種實施形式。Q函數(shù)取決于技術(shù)系統(tǒng)的當前狀態(tài)
和在該狀態(tài)中選擇的行為。最優(yōu)質(zhì)量函數(shù)2* =2^被確定為所謂的 Bellman最優(yōu)性方程的解,其內(nèi)容如下
a)=五5, (A", a, + = A, (4s, a, y) + ;K m x Q* , a'))
由此,考慮到所觀察的最優(yōu)性標準,通過下式給出最佳的行為選擇規(guī) 則
;r* (》=arg maxa(s, a)
Bellman最優(yōu)性方程通過由現(xiàn)有技術(shù)充分已知的Bellman迭代來求 解,Bellman迭代在下面還將更詳細闡述。以下將T定義為Bellman算子,其針對每個任意的質(zhì)量函數(shù)Q內(nèi)容如下
<formula>formula see original document page 10</formula>
在下面所描述的本發(fā)明的實施形式中,附加地考慮統(tǒng)計不確定性, 該統(tǒng)計不確定性由技術(shù)系統(tǒng)中的測量的不確定性得到,這些測量被作 為訓(xùn)練數(shù)據(jù)用于確定技術(shù)系統(tǒng)的行為選擇規(guī)則。
該統(tǒng)計不確定性導(dǎo)致所觀察的Q函數(shù)的不確定性,并且由此導(dǎo)致 所學(xué)習(xí)的行為選擇規(guī)則的不確定性。在強化學(xué)習(xí)中存在的不確定性是
由于不知道技術(shù)系統(tǒng)的真正特性,即由于技術(shù)系統(tǒng)所基于的真正的馬 爾可夫決策過程。關(guān)于技術(shù)系統(tǒng)的訓(xùn)練數(shù)據(jù)形式的觀察越多,則具有 關(guān)于馬爾可夫決策過程的更多信息。隨機性越大,則對于預(yù)先給定的 觀察數(shù)目,關(guān)于馬爾可夫決策過程更大的不確定性繼續(xù)存在。
在下面所描述的本發(fā)明的變型方案中,基于訓(xùn)練數(shù)據(jù)的測量的不 確定性、即在使用行為和與此關(guān)聯(lián)的評價的情況下從一個狀態(tài)向下一 個狀態(tài)轉(zhuǎn)變的不確定性傳播到Q函數(shù)中,更確切地說,通過不確定性 傳播。不確定性傳播(也稱為不確定性的高斯傳播或者高斯誤差傳播) 的原理在現(xiàn)有技術(shù)中被充分公開,并且基于圍繞相應(yīng)的估計點的一階
泰勒展開。在此,基于以下協(xié)方差來計算函數(shù)值/W的不確定性(其中 在自變量x的預(yù)先給定的不確定性情況下/:<formula>formula see original document page 10</formula>在此,<formula>formula see original document page 10</formula>表示f根據(jù)其自變量x的雅科比矩陣。利用
<formula>formula see original document page 10</formula>表示自變量X的協(xié)方差,該協(xié)方差又取決于X的不確定 性。于是,函數(shù)f具有對稱的和正定的協(xié)方差和不確定性Cov(/)。
在根據(jù)本發(fā)明的方法的這里所描述的實施形式中,測量中存在的 不確定性通過將高斯誤差傳播應(yīng)用于Bellman迭代而在強化學(xué)習(xí)中實 現(xiàn)。
通常,對于第m個迭代步驟,Bellman迭代內(nèi)容如下 在此考慮離散的馬爾可夫決策過程,然而本發(fā)明也可以應(yīng)用于非
<formula>formula see original document page 10</formula>離散的馬爾可夫決策過程。為了確定最優(yōu)的行為選擇規(guī)則,尋找具有
最大Q值的行為。也就是說,適用r^^g"(y,40),其中7t是 所使用的行為選擇規(guī)則,并且適用r^^max。"g^,")。在此,假設(shè) 有限數(shù)目的狀態(tài)^/e仏…,l4和行為"^'e(1,…,1^。 Bellman迭代對于 m —①收斂為估計的狀態(tài)-行為概率分布P (對應(yīng)于在給定狀態(tài)和給 定行為的情況下到隨后狀態(tài)的轉(zhuǎn)移概率分布)和評價概率分布R的最 優(yōu)Q函數(shù)。在一般的隨機情況下(其中7T代表在狀態(tài)S中可執(zhí)行的行為 ai的概率分布),適用^"(》=1^7^,",)^^,",),其中7i(s, a) 是在狀態(tài)s中選擇行為a的概率。
為了現(xiàn)在將存在的不確定性實現(xiàn)到Q函數(shù)中,如上面已經(jīng)提及的 那樣,與Bellman迭代并行地應(yīng)用不確定性傳播或高斯誤差傳播技術(shù)。 利用給定的針對轉(zhuǎn)移概率P和評價R的協(xié)方差矩陣Cov("、 Cov(i )和 Cov(P,/ ),得到以下初始的完整的協(xié)方差矩陣
、 0 0 、
0 Cov(尸) Cov(尸,A)
、0 Cov(尸,W)7 乂
Cov(20 )=
在笫m個Bellman迭代步驟之后,基于高斯誤差傳播的完整的協(xié) 方差矩陣內(nèi)容如下
Cov(gw,") = IT-tov(『1,尸,i X,-1 f 在此,D""是雅科比矩陣,其內(nèi)容如下
D附
0I0
00I
、乂
以這種方式,針對每個Bellman迭代步驟,確定Q函數(shù)、轉(zhuǎn)移概 率P和評價R之間的相應(yīng)的協(xié)方差。為了現(xiàn)在適當?shù)乜紤]技術(shù)系統(tǒng)中的測量的不確定性,必須預(yù)先給定合適的、初始的協(xié)方差矩陣Cw((P,7 ))。 下面,不同的狀態(tài)-行為對的所有轉(zhuǎn)移及其評價被假設(shè)為彼此獨立, 使得這些轉(zhuǎn)移可以作為多項式分布來建模。在一個實施形式中,使用 用于多項式分布的建模的貝葉斯方法。在此,基于針對預(yù)先給定的i
和j的、在參數(shù)空間上的先驗分布尸(^I《,A)。在一個特別的實施形式 中,使用具有以下密度(Dichte)的Dirichlet分布作為先驗分布
尸尸&
、, 、、 r(",.,.)
,isi
卩i
,'.廠1
""是所謂的"共輒先驗",其具有以下的后驗參數(shù)
"二,,=^,,,,+ |,,^ 。在此情況下,根據(jù)訓(xùn)練數(shù)據(jù)""卜a存在在執(zhí)行行 為aj時所觀察到的從Si向Sk的轉(zhuǎn)移。于是,P的初始的協(xié)方差矩陣內(nèi)
容如下(cov(")(',m),(/,,") 二《v《,~""H +1)
在此,以轉(zhuǎn)移概率的后驗估計量尸(^卜,,~)= "t/QC為出發(fā)點。 以類似的方式,將評價假設(shè)為正態(tài)分布,其中正態(tài)Gamma分布作為共 軛先驗。
替代基于貝葉斯方法確定初始的協(xié)方差,也可以使用頻率論方法 來確定初始的協(xié)方差。在頻率論方法中,尸(斗,")通過所觀察的轉(zhuǎn)移的
相對頻率來建模,即適用尸^ 于是協(xié)方差得出為
化.巧
…&、、" ^y^fe,"-4"A》
"。.一1
12在此,Poisson近似是必要的簡化,因為Cov(尸(卜,,a』由此變?yōu)閷?角矩陣。Poisson近似在于以下的估計
該近似譬如對于大的狀態(tài)空間來說可能是令人感興趣的,因為不 確定性傳播可以明顯更快地進行。
為了對評價建模,在頻率論方法中出發(fā)點是,從相同的狀態(tài)-行 為對出發(fā)的不同轉(zhuǎn)移的評價在統(tǒng)計上彼此獨立。于是,頻率論近似在
于平均觀察的評價,其中Cov("變?yōu)閷蔷仃嚥⑶页尸F(xiàn)以下形式
使用共軛先驗的貝葉斯方法以及頻率論方法具有的優(yōu)點是,它們 可以以計算機支持的方式較好地處理。然而根據(jù)本發(fā)明的方法并不限
于這些方法,并且任何有說服力的協(xié)方差矩陣a^((尸,力)都是允許的。特
別地,如果在狀態(tài)-行為空間中存在鄰近(Nachbarschaft)的度量時, 使用在以不同狀態(tài)-行為對開始的轉(zhuǎn)移之間以及在狀態(tài)和評價之間的 協(xié)方差可以是有意義并且有說服力的。
現(xiàn)在可以針對具有折扣因子0 < y < 1的有限馬爾可夫決策過程 M"S乂尸,i )和作為任意的初始的對稱的并且正定的協(xié)方差矩陣C°來 證明,函數(shù)
幾乎總是與初始的Q無關(guān)地為Bellman迭代提供唯一的固定點(Q* C"。
如果因此達到了 Bellman迭代的固定點,即收斂的Q函數(shù)Q',則也 得到針對協(xié)方差的固定點,該固定點通過Cov(Q')給出?,F(xiàn)在通過協(xié)方 差矩陣的對角項來說明通過Bellman迭代確定的Q函數(shù)Q'的不確定 性,因為對角線示出Q,的方差,由此,對于(^說明以下的不確定性
根據(jù)本發(fā)明規(guī)定了可調(diào)節(jié)的確定性參數(shù)g ,該確定性參數(shù)代表根據(jù)應(yīng)用情況所期望的、對Q函數(shù)的統(tǒng)計上的最低要求?;谠搮?shù)纟(該 參數(shù)根據(jù)Q的分布代表概率),現(xiàn)在考慮以下的修改過的Q函數(shù)
該Q函數(shù)是根據(jù)本發(fā)明的方法的一個重要結(jié)果。當嚴格遵循行為 選擇規(guī)則Z(s^argmaXaf(s,a)時,該函數(shù)在狀態(tài)Si中執(zhí)行行為aj時 提供所保證的期望性能。如果從Q的正態(tài)分布出發(fā),則在選擇^ = 2的 情況下得到概率P(2) 0.977的保證性能Q;。這意味著,Q函數(shù)以97.7% 的概率呈現(xiàn)如下的值在正態(tài)分布中在比期望值Q、、兩個標準偏差的 位置處,該值至少與Q函數(shù)的值一樣大。
在圖1中示例性地再現(xiàn)了 Q函數(shù)的假設(shè)的正態(tài)分布。圖1示出g 的一個值,該值對應(yīng)于該分布的標準偏差cj的兩倍。在期望值Q'左邊 兩個標準偏差的值Q、于是如下對應(yīng)于保證性能,即以P-0.977的概率 (該概率通過圖1中的陰影面積表明),質(zhì)量函數(shù)的值大于或等于Q、。 通過改變參數(shù)g,由此可以改變所保證的最低性能。借助利用參數(shù)《 來修改Q函數(shù),現(xiàn)在可以確定合適的、確定性最優(yōu)的行為選擇規(guī)則, 這將保證性能最大化。
由此,尋找行為選擇規(guī)則,該行為選擇規(guī)則關(guān)于事先規(guī)定的置信 水平P ( S )將保證性能Z (s, a)最大化。也就是說,尋找行為選擇 規(guī)則7T,使得Z變得最大,并且適用
V^a: P^""Cs,a) > Z(s,a》> 尸QO
在此,『表示7T的真實性能函數(shù),而P ( g )是基于確定性參數(shù) 《的預(yù)先確定的概率。根據(jù)本發(fā)明,可以通過以下方式來得到這種解, 即通過《對Z進行近似以及在。"=2《是丌e的有效Q函數(shù)、即適用
的條件下,求解以下關(guān)系式
;r《(y) = argmaxmaxg:(y,a) = argmaxmax^ -《aQ;r)^,a)
關(guān)于Bellman迭代,因此Q應(yīng)當是固定點,不是相對于值函數(shù)作 為所有可能的Q值的最大值,而是作為Q值的最大值減去其加權(quán)的不 確定性。由此,在每個迭代步驟中,行為選擇規(guī)則被選擇為<formula>formula see original document page 15</formula>
更確切地說,與關(guān)于兀*"的不確定性的更新一同通過應(yīng)用不確定性 傳播來進行。以這種方式,產(chǎn)生由Bellman迭代和不確定性傳播得到 的交疊迭代。
為了確定行為選擇規(guī)則丌m應(yīng)考慮的是,行為選擇規(guī)則可以是確定 的或者隨機的??梢宰C明,使Q函數(shù)最大化的最優(yōu)行為選擇規(guī)則對于 馬爾可夫決策過程始終是確定的。然而對于上面的確定性最優(yōu)的行為 選擇規(guī)則,情況并非如此。特別地,如果7T是所確定的行為選擇規(guī)則,
則對于g>0,與^e(s,4"^4^)相比存在有利于^Gfe40)的高度的
偏差,因為與# ;r (》相比,評價4y,;r(4力更強地取決于 r(s')=G(s、(s'》。值函數(shù)暗示針對所有將來出現(xiàn)的狀態(tài)s的行為的選擇。 因此,在使用確定的行為選擇規(guī)則時,并不確保收斂。也就是說,行
為選擇規(guī)則7T至丌'的變化(其中
<formula>formula see original document page 15</formula>會導(dǎo)致在狀態(tài)s上 7T'的更大的不確定性,這在下一迭代步驟中對于Q'導(dǎo)致 gG,;r'(》)-^tS'G, ;r'(》)< Q'_ fW這引起振蕩, 該振蕩可以通過使用隨機的行為選擇規(guī)則來避免。
可以直觀地看出,確定性最優(yōu)的行為選擇規(guī)則通常必須是隨機的, 因為性能的增益及其不確定性必須被均衡。最后,也通過將行為選擇 規(guī)則分散到合適的行為的集合上來降低差的行為選擇規(guī)則的風(fēng)險。最 后,確定性參數(shù)g決定確定性的成本。當5>0為大時,確定性最優(yōu)的 行為選擇規(guī)則更可能是隨機的,然而由此實現(xiàn)的確定性的增益導(dǎo)致更 低的性能,而? <0保證確定的確定性最優(yōu)的行為選擇規(guī)則。然而這些 行為選擇規(guī)則關(guān)于性能不太確定,然而具有更大的實現(xiàn)更好的性能的 機會。在這里所描述的實施形式中,隨機的不確定性作為隨機的行為 選擇規(guī)則在Bellman迭代中如下實現(xiàn)
<formula>formula see original document page 15</formula>
其中<formula>formula see original document page 16</formula>
并且"e (》=arg max。 fe - ^70)(y, a)。 一致地減小的改變行為選擇 概率的速率保證每個隨機的行為選擇規(guī)則的可實現(xiàn)性以及收斂。 下面再次總結(jié)前面描述的、Q函數(shù)以及行為選擇規(guī)則的學(xué)習(xí) 初始化基于訓(xùn)練數(shù)據(jù)預(yù)先給定了轉(zhuǎn)移概率P和評價R的估計以 及初始的協(xié)方差矩陣Cw(P)、 Cov^)和Cov(P^)。此外,確定了確定性參 數(shù)g。
在假設(shè)通過Cov(尸)、Cov(i )和Cov(尸,i )給出的觀察和后驗參數(shù)的情況 下,執(zhí)行確定性最優(yōu)的Q函數(shù)和行為選擇規(guī)則7T的如下計算
設(shè)c-
,0 0 0 、
0 Cov(尸) Cov(尸,A)
、0Cov(P,/ )r C。v(i )乂
重復(fù)以下循環(huán),直到達到了期望精度
得到v/:",,謹=argmax fe - ^g)^, )
0 / 、' 設(shè)V/:《,礎(chǔ)二mm :,1 —4AA,mJ
設(shè)
diff
設(shè)V/:Va, a"max
1 —;r(s.,". )
16說V/,_/: ^(A A) = t尸(A卜,A) (4《=4,,"/))
設(shè) 設(shè)M
設(shè)
廣D D D 、
"2,e "!2,尸 "G,
0 I 0 、0 0 I
設(shè)C = DCZ/ 循環(huán)結(jié)束
返回Q- g cjQ和7T 。
上述方法的時間復(fù)雜性比在標準Bellman迭代的情況下更高,針
對離散馬爾可夫決策過程,該時間復(fù)雜性為olsl214)?;ㄙM最高的過程 在于利用4Hiog(《44i)))和c^44i)"1之間的時間復(fù)雜性來更新協(xié)
方差矩陣,因為Q的每項取決于P和R中的最多Q^I)個項。然而由此 時間復(fù)雜性總體上仍然通過這些數(shù)量級來限制。如果將行為的數(shù)目視 為通過常數(shù)來限制,則與標準Bellman迭代相比,這里所描述的方法 至少慢Q(logils|》,然而最多慢o|s|Q 376 )。
如果在行為aj之后遵循隨機的行為選擇規(guī)則715 ,則在使用行為aj 的情況下以及在由先驗假設(shè)和觀察得到的后驗假設(shè)的情況下,函數(shù) a+,,"X^其中(^,C《,;r勺作為針對給定的確定性參數(shù)
g € R的隨機交疊Bellman迭代的固定點)在狀態(tài)Si提供保證的期望性 能(具有概率P( ^ ))。特別地,該性能對于確定性參數(shù)^的特殊選 擇而言是最大的。
在前面針對離散情況、即針對具有有限的狀態(tài)空間的馬爾可夫決 策過程描述了根據(jù)本發(fā)明的方法。然而,該方法也可以以簡單的方式 應(yīng)用于其他應(yīng)用情況,在這些情況中狀態(tài)或行為是連續(xù)的,并且狀態(tài) 空間或者行為空間不受限制。
利用前面所描述的方法,可以根據(jù)應(yīng)用情況針對技術(shù)系統(tǒng)實現(xiàn)不 同類型的控制方案或調(diào)節(jié)方案。
一種應(yīng)用情況是通過不確定性傳播的質(zhì)量保證。對于給定的或者 最優(yōu)的行為選擇規(guī)則,利用正的g來確定保證的最低性能。此外,確定性最優(yōu)的方案能夠?qū)崿F(xiàn)對該最低性能進行優(yōu)化。對此的主要動機在 于,利用根據(jù)本發(fā)明的方法不產(chǎn)生低質(zhì)量的行為選擇規(guī)則,并且減小 盡管看起來性能良好但得到不合適的行為選擇規(guī)則的風(fēng)險。正是對不 確定性的具體量化的訪問能夠?qū)崿F(xiàn)對結(jié)果的可信性
(Vertrauenswuerdigkeit)的判斷。如果在規(guī)定的起始狀態(tài)的保證性能 不夠,則必須從技術(shù)系統(tǒng)收集訓(xùn)練數(shù)據(jù)形式的其他觀察。
如果研究昂貴,然而要控制的技術(shù)系統(tǒng)是確定性關(guān)鍵的,使得必 須決定性地滿足某一性能概率,則有意義的是,利用確定性最優(yōu)的方 案。為了有利于規(guī)定的百分位(即可能的改進的Q值的確定百分比) 的最優(yōu)性,放棄期望值的最優(yōu)性。
第二種應(yīng)用情況是竟賽和研究的對稱情況。在此,對于負的g, 通過利用高性能的機會以相反方式來使用不確定性。這對于有目的性 的研究而言是特別感興趣的,使得加強地研究狀態(tài)-行為對,對于這 些狀態(tài)-行為對GfCs,")是大的,因為對于相應(yīng)的Q值而言估計量已經(jīng) 是大的,但是真實性能還可以明顯更好。
另一應(yīng)用領(lǐng)域是竟賽情況,這些竟賽情況可以與質(zhì)量保證準確對 稱地來描述。在此應(yīng)當遵循一種行為選擇規(guī)則,該行為選擇規(guī)則提供 極好地切斷(abschneiden)并且最終贏得竟賽的機會。在這種情況下, 確定性最優(yōu)的方案也開始起作用,因為不是期望性能而是百分位性能 為決定性的標準并且應(yīng)當被最大化。
另一應(yīng)用情況是在實際應(yīng)用中提高信息效率。除了質(zhì)量保證之外, 這里所描述的方法的一個主要目的在于改進信息效率。考慮不確定性
在強化學(xué)習(xí)方法的情況下甚至可以改進在許多實際的和工業(yè)的應(yīng)用中 具體馬爾可夫決策過程的期望性能,其中在這些應(yīng)用中研究昂貴并且
只能在規(guī)定的工作點附近的有限范圍中進行。因此,可用的數(shù)據(jù)集是 小的并且研究以部分極其不對稱的方式進行,使得僅僅在如下狀態(tài)范 圍內(nèi)收集數(shù)據(jù),對于這些狀態(tài)范圍在技術(shù)系統(tǒng)中已經(jīng)優(yōu)選地進行了操 作。許多這些不充分地研究的所謂的邊緣狀態(tài)雖然在期望值中是不受 歡迎的,但是在個別情況中并非必然如此。當邊緣足夠大時,則離群 值(Ausreisser)之一假冒高的評價至少發(fā)生數(shù)次。要注意的是,邊緣 區(qū)的大小隨著狀態(tài)空間的維數(shù)而增大。因此,對不確定性的謹慎考慮 導(dǎo)致該方法使這種離群值在其行為選擇規(guī)則中不被考慮,并且執(zhí)行可靠地導(dǎo)致高性能的行為。
根據(jù)本發(fā)明的方法的上述實施形式被應(yīng)用于具有連續(xù)狀態(tài)空間和 有限行為集合的燃氣渦輪機控制。內(nèi)部的狀態(tài)空間根據(jù)三個精確度、
即精確度C-粗糙(對應(yīng)于256個狀態(tài))、精確度M-中等(對應(yīng)于 625個狀態(tài))和精確度F-精細(對應(yīng)于1296個狀態(tài))來應(yīng)用。高維 數(shù)的狀態(tài)空間在此被降低到近似的四維馬爾可夫狀態(tài)空間。在出版物[1
中可以找到對最小馬爾可夫狀態(tài)空間的問題和結(jié)構(gòu)的準確的描述。
所確定的性能(具有短的隨機事件(Episode)的50次運行,這些 事件在不同的工作點開始)在根據(jù)圖2的表格中被再現(xiàn)為平均的評價。 在此,在行L1中使用了轉(zhuǎn)移概率的頻率論建模,而在行L2中使用了 貝葉斯建模。評價利用均勻的正態(tài)Gamma分布被估計為共軛先驗,其 中cr-oo并且a - p-0。在相應(yīng)的行L1和L2中可以找到粗離散化C、 中等離散化M和精細離散化F的結(jié)果。在列0中給出了觀察的數(shù)目, 其始終為104。在列O的右邊的列中以針對確定性參數(shù)g的不同值的平 均評價的形式再現(xiàn)了平均性能,其中g(shù) =0對應(yīng)于根據(jù)標準Bellman迭 代對行為選擇規(guī)則的傳統(tǒng)確定。利用粗離散化C,性能最高。如果對 所有離散化求平均,則頻率論方法的結(jié)果好于貝葉斯方法的結(jié)果。總 體上最佳的性能在g =5的情況下利用頻率論方法的粗離散化C來實 現(xiàn),然而在g =3的情況下貝葉斯方法也提供可比較的結(jié)果。由圖2特 別可以看出,利用根據(jù)本發(fā)明的方法(即g #0)實現(xiàn)的性能好于利用 傳統(tǒng)方法(S =0)實現(xiàn)的性能。文獻索引
[12007年關(guān)于神經(jīng)網(wǎng)絡(luò)的國際聯(lián)合會議的論文集(Proc. Ofthe International Joint Conference on Neural Networks, 2007 )中由Anton Maximilian Schaefer, Daniel Schneegass, Volkmar Sterzing和Steffen Udluft所著的A neural reinforcement learning approach to gas turbine control 。
權(quán)利要求
1.一種用于計算機支持地學(xué)習(xí)技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法,其中所述技術(shù)系統(tǒng)的運行的特征在于狀態(tài)(s),所述技術(shù)系統(tǒng)在運行中能夠呈現(xiàn)該狀態(tài);以及行為,這些行為在所述技術(shù)系統(tǒng)的運行中被執(zhí)行并且將所述技術(shù)系統(tǒng)的相應(yīng)狀態(tài)(s)轉(zhuǎn)化到隨后狀態(tài)中,其中-基于在所述技術(shù)系統(tǒng)的運行中所采集的、包括狀態(tài)(s)、行為(a)和隨后狀態(tài)(s′)的訓(xùn)練數(shù)據(jù)來學(xué)習(xí)質(zhì)量函數(shù)(Q)和行為選擇規(guī)則(π(s)),其中所述質(zhì)量函數(shù)(Q)對所述技術(shù)系統(tǒng)的最優(yōu)運行進行建模,并且所述行為選擇規(guī)則(π(s))說明在所述技術(shù)系統(tǒng)的運行中針對所述技術(shù)系統(tǒng)的相應(yīng)狀態(tài)(s)應(yīng)優(yōu)選地執(zhí)行的行為(a)或應(yīng)執(zhí)行的行為(a);-在學(xué)習(xí)所述質(zhì)量函數(shù)(Q)和所述行為選擇規(guī)則(π(s))期間,借助不確定性傳播來確定所述質(zhì)量函數(shù)(Q)的統(tǒng)計不確定性的度量(σQ),并且根據(jù)所述統(tǒng)計不確定性的度量(σQ)和對應(yīng)于對所述質(zhì)量函數(shù)(Q)的統(tǒng)計最低要求的確定性參數(shù)(ξ)來確定修改后的質(zhì)量函數(shù);-其中基于所述修改后的質(zhì)量函數(shù)來學(xué)習(xí)所述行為選擇規(guī)則(π(s))。
2. 根據(jù)權(quán)利要求1所述的方法,其中在考慮評價(R)和狀態(tài)-行為概率(P)的情況下學(xué)習(xí)所述質(zhì)量函數(shù)(Q),其中相應(yīng)的評價(R) 鑒于所述技術(shù)系統(tǒng)的最優(yōu)運行對狀態(tài)(s )、在該狀態(tài)中執(zhí)行的行為(a ) 以及隨后狀態(tài)(s')的組合的質(zhì)量進行評價,并且相應(yīng)的狀態(tài)-行為概 率(P)根據(jù)狀態(tài)和在該狀態(tài)中執(zhí)行的行為(a)說明隨后狀態(tài)(s')的 概率(P)。
3. 根據(jù)權(quán)利要求2所述的方法,其中所述狀態(tài)-行為概率(P) 作為狀態(tài)-行為概率分布來建模和/或所述評價(R)作為評價概率分 布來建模。
4. 根據(jù)權(quán)利要求3所述的方法,其中所述狀態(tài)-行為概率分布和 /或所述評價概率分布作為相對頻率根據(jù)所述訓(xùn)練數(shù)據(jù)來建模。
5. 根據(jù)權(quán)利要求3或4所述的方法,其中所述狀態(tài)-行為概率分 布和/或所述評價概率分布基于具有后驗參數(shù)的先驗分布來估計,其中 所述后驗參數(shù)取決于所述訓(xùn)練數(shù)據(jù)。
6. 根據(jù)權(quán)利要求5所述的方法,其中所述先驗分布是Dirichlet 分布和/或正態(tài)分布。
7. 根據(jù)上述權(quán)利要求之一所述的方法,其中基于Bellman迭代來 學(xué)習(xí)所述質(zhì)量函數(shù)(Q)和所述行為選擇規(guī)則(7C (s)),其中在每個 迭代步驟中確定新的質(zhì)量函數(shù)(Q)以及該質(zhì)量函數(shù)(Q)的統(tǒng)計不確 定性的新的度量,并且由此確定新的修改后的質(zhì)量函數(shù)。
8. 根據(jù)權(quán)利要求7結(jié)合權(quán)利要求2至6之一所述的方法,其中在 Bellman迭代的每個迭代步驟中,為了確定統(tǒng)計不確定性的新的度量, 根據(jù)在迭代步驟中確定的質(zhì)量函數(shù)(Q)、狀態(tài)-行為概率(P)和評 價(R)來確定協(xié)方差矩陣。
9. 根據(jù)上述權(quán)利要求之一所述的方法,其中要學(xué)習(xí)的行為選擇規(guī) 則是隨機的行為選擇規(guī)則(7C(S)),該行為選擇規(guī)則針對所述技術(shù) 系統(tǒng)的狀態(tài)(s)說明可執(zhí)行的行為(a)的概率分布。
10. 根據(jù)權(quán)利要求9結(jié)合權(quán)利要求7或8所述的方法,其中在 Bellman迭代的每個迭代步驟中確定一種概率分布作為可執(zhí)行的行為(a)的新的概率分布,該概率分布修改最后的迭代步驟的概率分布, 使得將更高的概率分配給使修改后的質(zhì)量函數(shù)的值最大化的行為(a )。
11. 根據(jù)上述權(quán)利要求之一所述的方法,其中基于所述確定性參 數(shù)(g )確定對所述質(zhì)量函數(shù)(Q)的統(tǒng)計最低要求。
12. 根據(jù)權(quán)利要求11所述的方法,其中對所述質(zhì)量函數(shù)(Q)的 統(tǒng)計最低要求通過最小質(zhì)量函數(shù)值以及概率值來代表,其中所述概率 值說明所述質(zhì)量函數(shù)的值以何種概率大于或等于所述最小質(zhì)量函數(shù) 值。
13. 根據(jù)權(quán)利要求11或12所述的方法,其中為了確定對所述質(zhì) 量函數(shù)(Q)的統(tǒng)計最低要求,假設(shè)所述質(zhì)量函數(shù)(Q)的高斯分布。
14. 根據(jù)上述權(quán)利要求之一所述的方法,其中利用該方法來學(xué)習(xí) 渦輪機、特別是燃氣渦輪機的控制和/或調(diào)節(jié)。
15. —種用于運行技術(shù)系統(tǒng)的方法,其中該技術(shù)系統(tǒng)基于利用根 據(jù)上述權(quán)利要求之一所述的方法來學(xué)習(xí)的控制和/或調(diào)節(jié)通過以下方式 來運行,即利用所學(xué)習(xí)的行為選擇規(guī)則在所述技術(shù)系統(tǒng)的相應(yīng)狀態(tài)(s ) 中選擇要執(zhí)行的行為(a)。
16. 根據(jù)權(quán)利要求15所述的方法,其中在所述技術(shù)系統(tǒng)的運行期間重復(fù)根據(jù)權(quán)利要求1至14之一所述的方法,其中在每次重復(fù)時,所 述技術(shù)系統(tǒng)新呈現(xiàn)的狀態(tài)(s)和所執(zhí)行的行為(a)被考慮作為訓(xùn)練數(shù) 據(jù)。
17. —種計算機程序產(chǎn)品,該計算機程序產(chǎn)品具有存儲于機器可 讀載體上的程序代碼,用于當該程序在計算機上運行時執(zhí)行根據(jù)上述 權(quán)利要求之一所述的方法。
全文摘要
本發(fā)明涉及一種用于計算機支持地學(xué)習(xí)技術(shù)系統(tǒng)的控制和/或調(diào)節(jié)的方法,其中技術(shù)系統(tǒng)的運行的特征在于技術(shù)系統(tǒng)在運行中能夠呈現(xiàn)的狀態(tài)以及在技術(shù)系統(tǒng)的運行中被執(zhí)行并且將技術(shù)系統(tǒng)的相應(yīng)狀態(tài)轉(zhuǎn)化到隨后狀態(tài)中的行為。本發(fā)明方法的特征在于,在學(xué)習(xí)技術(shù)系統(tǒng)的控制時適當?shù)乜紤]在學(xué)習(xí)中使用的訓(xùn)練數(shù)據(jù)的統(tǒng)計不確定性。這通過如下方式進行對技術(shù)系統(tǒng)的最優(yōu)運行進行建模的質(zhì)量函數(shù)的統(tǒng)計不確定性借助不確定性傳播來確定,并且在學(xué)習(xí)時并入行為選擇規(guī)則。通過相應(yīng)地可選的確定性參數(shù),學(xué)習(xí)方法可以與在統(tǒng)計要求方面不同的應(yīng)用情況匹配。本發(fā)明方法可以被用于學(xué)習(xí)任意技術(shù)系統(tǒng)的控制或調(diào)節(jié)。在優(yōu)選變型方案中,該方法被用于控制或調(diào)節(jié)渦輪機的運行。
文檔編號G06N5/00GK101566830SQ200910132169
公開日2009年10月28日 申請日期2009年4月23日 優(yōu)先權(quán)日2008年4月23日
發(fā)明者D·施尼加斯, S·尤德盧夫特 申請人:西門子公司