專利名稱:基于支持向量機的生物發(fā)酵過程狀態(tài)變量軟預報方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種生物發(fā)酵過程的預報方法,特別是一種基于支持向量機的生物發(fā)酵過程狀態(tài)變量軟預報方法,屬于生物技術(shù)和信息科學交叉領(lǐng)域。
背景技術(shù):
生物發(fā)酵是一類重要的工業(yè)生產(chǎn)過程,提供了與國計民生休戚相關(guān)的藥品(抗生素、基因工程重組藥物、疫苗、維生素等)、各種氨基酸(核酸)及其它產(chǎn)品(酒精飲料、醬油醋、生物保健品)。其典型特征是內(nèi)在機理復雜、可重復性差、生產(chǎn)波動大,具有高度的非線性和時變特性。生物發(fā)酵的狀態(tài)變量如產(chǎn)物濃度、基質(zhì)消耗速率等反映了過程所處狀態(tài),對其進行在線測量,是進行補料、供氧等動態(tài)控制的重要依據(jù),同時也是進行優(yōu)化調(diào)度的前提和基礎(chǔ)。但是,在實際生產(chǎn)中,這些變量通常采用離線取樣分析獲得,取樣時間間隔長、數(shù)據(jù)滯后大且精度低,不能滿足實時控制和優(yōu)化的需要。因此,對這些關(guān)鍵變量進行高精度寬區(qū)間軟預報,對生產(chǎn)過程的監(jiān)控有重要意義。
經(jīng)檢索,未發(fā)現(xiàn)利用支持向量機技術(shù)對生物發(fā)酵過程關(guān)鍵狀態(tài)變量進行預報的直接報導,但有相關(guān)文獻。Yan et al.2004年發(fā)表的“Soft sensing modeling basedon support vector machine and Bayesian model selection”(Yan WW,Shao HH andWang XF,Soft sensing modeling based on support vector machine and Bayesianmodel selection,Computers and Chemical Engineering,28,1489-1498,2004)(YanWW,Shao HH and Wang XF,基于支持向量機的軟測量建模和貝葉斯模型選擇,計算機與工業(yè)過程,28,1489-1498,2004)一文基于支持向量機回歸技術(shù),提出了一種用于工業(yè)過程軟測量方法,并以石油分餾過程為例進行了驗證。該方法首先通過貝葉斯判據(jù)選擇最優(yōu)支持向量機軟測量模型,然后利用分餾塔中石油蒸氣溫度、回流蒸氣溫度和回流量等易測量變量,組成訓練向量,對支持向量機進行訓練,最后對難以直接測量的輕柴油的凝固點進行在線估計,獲得了滿意的精度(相對估計誤差低于5%)。但該文研究的只是在線軟測量問題,未涉及變量的寬區(qū)間的軟預報。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的不足,提供一種基于支持向量機的生物發(fā)酵過程狀態(tài)變量軟預報方法。使其綜合利用了支持向量機回歸技術(shù)在特征映射方面的突出優(yōu)點,實現(xiàn)產(chǎn)量、基質(zhì)消耗等發(fā)酵過程關(guān)鍵狀態(tài)變量的高精度寬區(qū)間預報,預報誤差僅在2%~4%之間。
本發(fā)明所提出的軟預報方法包括動態(tài)訓練數(shù)據(jù)庫建立、支持向量機訓練、狀態(tài)變量預報以及訓練數(shù)據(jù)庫更新四個基本步驟。
第一步動態(tài)訓練數(shù)據(jù)庫建立。動態(tài)訓練數(shù)據(jù)庫包括靜態(tài)訓練數(shù)據(jù)庫和待預報罐批所有已知的輸入輸出向量對兩部分。靜態(tài)訓練數(shù)據(jù)庫是相同工藝下若干歷史罐批(一般30罐批左右)的輸入輸出向量對的集合,它構(gòu)成訓練數(shù)據(jù)庫的主體部分;截至當前發(fā)酵時間為止,待預報罐批的所有輸入輸出向量對和靜態(tài)訓練數(shù)據(jù)庫共同組成支持向量機的動態(tài)訓練數(shù)據(jù)庫。輸入輸出向量對的詳細說明見下文。
第二步支持向量機訓練。支持向量機訓練的實質(zhì)是利用生成的動態(tài)訓練數(shù)據(jù)庫,求出支持向量和非線性最優(yōu)回歸函數(shù),利用這些支持向量和非線性最優(yōu)回歸函數(shù)將能復現(xiàn)訓練數(shù)據(jù)的輸入輸出關(guān)系。
第三步狀態(tài)變量預報。利用已訓練好的支持向量機,根據(jù)當前待預報罐批的最新輸入向量,獲得狀態(tài)變量的預報值。
第四步訓練數(shù)據(jù)庫更新。訓練數(shù)據(jù)庫的更新包括兩個方面一是在線更新,即一旦待預報罐批有新的輸入輸出數(shù)據(jù)向量對生成,該向量對將被充實到動態(tài)訓練數(shù)據(jù)庫中;二是離線更新,即當一個罐批發(fā)酵結(jié)束,要按照一定的原則離線更新歷史罐批數(shù)據(jù)。訓練數(shù)據(jù)庫的更新技術(shù)也即本發(fā)明中的智能數(shù)據(jù)庫技術(shù)。
所述的步驟四,具體做法為(a)若該停罐罐批為極端異常罐批和故障罐批,不更新歷史罐批數(shù)據(jù);(b)在發(fā)酵中后期,若該停罐罐批的產(chǎn)量曲線與已劃定的置信域內(nèi)某一較早的歷史罐批相似,則用該罐批取代較早的罐批;(c)在發(fā)酵中后期,若該停罐罐批的產(chǎn)量曲線在已劃定的置信域內(nèi)不與任何歷史罐批相似,則直接將該罐批增補為歷史罐批。
本發(fā)明設(shè)計了一種動態(tài)支持向量機狀態(tài)預報器,能夠?qū)崿F(xiàn)產(chǎn)量、基質(zhì)消耗等發(fā)酵過程關(guān)鍵狀態(tài)變量的高精度寬區(qū)間預報。驗證結(jié)果表明,該預報器的預報誤差在2%~4%之間,預報區(qū)間占整個發(fā)酵周期的15%左右,每一輪預報的計算時間不超過1分鐘(其中預報用時為10~20秒,數(shù)據(jù)處理、預報輸出和界面顯示等輔助功能用時為40秒左右)。該發(fā)明需利用發(fā)酵車間現(xiàn)有的測量和分析數(shù)據(jù),但無需額外增加測量儀表投資。在線實施本發(fā)明時,要求提供現(xiàn)有測量和分析數(shù)據(jù)與上位機通信的設(shè)備。上位機讀取和處理采樣分析數(shù)據(jù),完成支持向量機的訓練和狀態(tài)變量的預報,輸出預報結(jié)果。
圖1本發(fā)明的詳細實施流程2輸入輸出數(shù)據(jù)窗口示意3產(chǎn)量的置信域劃分示意圖,其中符號表示產(chǎn)量,曲線為置信限具體實施方式
以下結(jié)合青霉素產(chǎn)量預報的實施例子和圖1所示的實施流程圖,對本發(fā)明實施例作出詳細描述1.動態(tài)訓練數(shù)據(jù)庫建立(1)輸入輸出向量對的生成如圖1、2所示,某抗生素廠一個青霉素發(fā)酵罐批的主要過程變量的離線采樣分析值,分別是青霉素產(chǎn)量(P)、碳源消耗量(S)和前體消耗量(PAA),它們均為累積量并已無量綱化,t指發(fā)酵時間,該罐批的采樣周期TS為4小時。圖2中有兩個數(shù)據(jù)窗口,實線框為輸入數(shù)據(jù)窗口,窗口寬度為TD(圖中TD為40小時),虛線框為輸出數(shù)據(jù)窗口(同預報窗口),窗口寬度為TP(TP亦為40小時)。輸入輸出向量對通過移動數(shù)據(jù)窗口技術(shù)獲得,即輸入數(shù)據(jù)窗口和輸出數(shù)據(jù)窗口一起以TM/步的速度向右移動(在本發(fā)明中TM=TS),獲取不同發(fā)酵時間的動態(tài)過程數(shù)據(jù)片斷,從而得到相應的輸入輸出向量對。定義對應第k個數(shù)據(jù)窗口的輸入輸出向量對為{X(Tk),Y(Tk)},其中輸入向量x(Tk)由Tk以及數(shù)據(jù)窗口閉區(qū)間覆蓋的(m+1)個采樣時刻過程變量的離散值組成,見式(1)。式(1)中Tk是數(shù)據(jù)窗口右端對應的發(fā)酵時間(小時),τ是離散化步長,m是數(shù)據(jù)窗口的等分數(shù),m=TD/τ,除Tk外的元是與待預報變量有動態(tài)關(guān)聯(lián)的變量,在本例中,除P、S、PAA以外,還有氧消耗量(O2)、二氧化碳產(chǎn)生量(CO2)等,見式(2)。輸出向量Y(Tk)為輸出數(shù)據(jù)窗口右端對應發(fā)酵時間(Tk+TP)小時的待預報變量(這里指產(chǎn)量)采樣分析值,見式(3)。
X(Tk)=[Tkx(Tk)x(Tk-1τ)x(Tk-2τ)…x(Tk-mτ)]T(1)x(Tk)=[P(Tk)S(Tk)PAA(Tk)O2(Tk)CO2(Tk)…]T(2)Y(Tk)=[P(Tk+TP)]T(3)(2)生成靜態(tài)訓練數(shù)據(jù)庫按照給定原則選取n個歷史罐批。這些原則是(a)時效性,即所選歷史罐批屬于近1~3個月內(nèi)的生產(chǎn)罐批;(b)代表性,即所選歷史罐批不屬于極端異常罐批和故障罐批,且盡可能均勻地分布于已知波動范圍。經(jīng)過數(shù)據(jù)預處理,再應用1(1)描述的方法可獲得這些歷史罐批的輸入輸出向量對。假定某歷史罐批的發(fā)酵周期為Tf,式(4)給出了該罐批最多可生成的輸入輸出向量對的對數(shù)N。n個歷史罐批的所有輸入輸出向量對的集合即構(gòu)成靜態(tài)訓練數(shù)據(jù)庫θ1~n,見式(5)。式(5)中,下標i代表罐批號,Ni表示第i個歷史罐批的輸入輸出向量對的組數(shù)。
N=int((Tf-TD-TP)/TM) (4)θ1~n={Xi(Tk),Yi(Tk},k=1,2,…,Ni,i=1,2,…,n(5)(3)生成動態(tài)訓練數(shù)據(jù)庫定義當前處于運行狀態(tài)的待預報罐批為第(n+1)個罐批,假設(shè)其最近發(fā)酵時間為Tk,按1(1)描述的方法獲得截至Tk為止,該罐批的輸入輸出向量對,定義這些向量對的集合為θn+1。在TP=40小時、TM=4小時的情況下,θn+1如式(6)所示。對于輸入向量Xn+1(Tk-9)~Xn+1(Tk),與之對應的輸出向量尚為到來,而這些未知的輸出向量正是支持向量機將要預報的。顯然,第一組輸入輸出向量對是在發(fā)酵時間達(TD+TP)小時后取得的,且隨著發(fā)酵的進行,新形成的輸入輸出向量對越來越多,亦即反映待預報罐批個性特征的訓練樣本越來越多。
θn+1={Xn+1(T1),Yn+1(T1);Xn+1(T2),Yn+1(T2);…;Xn+1(Tk-10),Yn+1(Tk-10)} (6)靜態(tài)訓練數(shù)據(jù)庫θ1~n和待預報罐批的已知輸入輸出向量對的集θn+1共同組成支持向量機的動態(tài)訓練數(shù)據(jù)庫{θ1~nθn+1},它既考慮到了共性規(guī)律(θ1~n)、又兼顧了個性特征(θn+1)。
2.支持向量機訓練支持向量機非線性回歸的基本思想是將原始的非線性數(shù)據(jù)映射高維空間,然后在高維空間進行線性回歸。在本發(fā)明中,即是基于動態(tài)訓練數(shù)據(jù)庫{θ1~nθn+1}和標準支持向量機回歸算法,獲得式(7)描述的非線性最優(yōu)回歸函數(shù),該函數(shù)復現(xiàn)了訓練向量的輸入輸出關(guān)系。式(7)中,Y為函數(shù)的輸出,X為函數(shù)的輸入,Xi(Tk)為訓練數(shù)據(jù)庫中的任一輸入向量,αi,k為對應該輸入向量的系數(shù),K(Xi(Tk),X)為核函數(shù),b為常數(shù)項。核函數(shù)需預先選定,本發(fā)明采用的核函數(shù)為K(Xi(Tk),X)=(Xi(Tk)TX+1)3。待定系數(shù)αi,k和常數(shù)項b可由支持向量機的標準算法容易解得。對應αi,k≠0的訓練向量即為支持向量,在整個訓練數(shù)據(jù)庫中,它所占的比例跟系統(tǒng)的復雜程度有關(guān)。
Y=Σi=1nΣk=1Niαi,kK(Xi(Tk),X)+b---(7)]]>3.狀態(tài)變量預報支持向量機訓練完畢后,即可將待預報罐批的最新輸入向量Xn+1(Tk)(與之相對應的輸出向量Yn+1(Tk)尚未到來)代入非線性最優(yōu)回歸函數(shù),獲得一個對應的輸出,該輸出即為產(chǎn)量的超前TP小時的預報值。在獲得下一組采樣分析值以后,重復執(zhí)行1(3)和2描述的過程,此即滾動學習-預報。顯然,第一組預報僅在發(fā)酵時間Tf,n+1>TD后才能進行,因為此時方可獲得第一組輸入向量Xn+1(T1)。
4.訓練數(shù)據(jù)庫離線更新當一個處于運行狀態(tài)的罐批發(fā)酵結(jié)束時,要離線更新歷史罐批數(shù)據(jù)。具體做法為(a)若該停罐罐批為極端異常罐批和故障罐批,不更新歷史罐批數(shù)據(jù);(b)在發(fā)酵中后期,若該停罐罐批的產(chǎn)量曲線與已劃定的置信域內(nèi)某一較早的歷史罐批相似,則用該罐批取代較早的罐批;(c)在發(fā)酵中后期,若該停罐罐批的產(chǎn)量曲線在已劃定的置信域內(nèi)不與任何歷史罐批相似,則直接將該罐批增補為歷史罐批。置信域是指由不同置信限形成的相鄰兩根包絡線圍成的區(qū)域,一般5~15個,圖3給出某抗生素廠青霉素產(chǎn)量的置信域劃分示意圖。圖中劃出了產(chǎn)量平均值曲線和3對置信限(40%、80%和95%置信限),共組成6個置信域,歷史罐批數(shù)據(jù)的更新即是通過新停罐罐批和這些置信域內(nèi)歷史罐批的比較來進行的。當新的罐批數(shù)據(jù)累積較多時,舊的置信限已經(jīng)不能準確反映青霉素產(chǎn)量的統(tǒng)計規(guī)律,需重新計算置信限并重新劃定置信域。
實施結(jié)果測試對象青霉素發(fā)酵中產(chǎn)量超前40小時預報,并以某廠青霉素發(fā)酵車間59個罐批為例進行測試。罐批數(shù)據(jù)包括初始裝料體積、初始葡萄糖濃度和初始前體PAA(苯乙酸)濃度、發(fā)酵液體積、中間出料體積,發(fā)酵罐中青霉素濃度、葡萄糖濃度和PAA濃度,以及葡萄糖、硫銨、氨水、PAA的流加速率和濃度等。
測試方法擬在線測試。任選10個正常罐批作為待測罐批,再按發(fā)明說明中1(2)描述的原則,從余下罐批中挑選30個罐批作為歷史罐批數(shù)據(jù)。模擬車間實際運行情況,將10個待測罐批依次投入運行,進行產(chǎn)量超前40小時預報。
測試步驟1)設(shè)定離散化步長τ為8小時,窗口等分數(shù)m為5,輸入數(shù)據(jù)窗口寬度和輸出數(shù)據(jù)窗口(預報窗口)寬度均為40小時。選取青霉素產(chǎn)量、碳源消耗量、前體消耗量和當前采樣時間Tk為輸入變量,應用發(fā)明說明中1(1)描述的移動數(shù)據(jù)窗口技術(shù),生成指定格式的輸入輸出向量對。
2)設(shè)定支持向量機核函數(shù)為K(X1(Tk),X)=X1(Tk)TX+1)3,分類精度為0.001。
3)執(zhí)行發(fā)明說明中1(2)、1(3)、2和3描述的過程,建立動態(tài)訓練數(shù)據(jù)庫,完成支持向量機訓練,獲得產(chǎn)量的超前40小時預報值。
4)當一個待預報罐批運行結(jié)束后,依據(jù)發(fā)明說明中4所述原則,離線更新歷史罐批數(shù)據(jù)。
測試結(jié)果定義e和e分別為罐批的相對預報誤差和平均相對預報誤差,見式(8)-(9)。
e=PSVM(Tk+TP)-PM(Tk+TP)PM(Tk+TP)---(8)]]>
e‾=Σi=1me2m---(9)]]>式(8)-(9)中,PM(Tk+TP)為發(fā)酵時間(Tk+TP)時的產(chǎn)量實測值,PSVM(Tk+TP)為對應的支持向量機預報值。
表1給出了對10個處于正常波動范圍內(nèi)的罐批的產(chǎn)量預報結(jié)果。從中可見,支持向量機回歸預報技術(shù)有著較高的預報精度,平均相對預報誤差在4%以內(nèi)。采用主頻為1.4G的PC機預報一次耗機時10~20秒。
表1產(chǎn)量預報誤差(%)和預報計算時間(秒)
權(quán)利要求
1.一種基于支持向量機的生物發(fā)酵過程關(guān)鍵狀態(tài)變量軟預報方法,其特征在于,具體步驟如下1)動態(tài)訓練數(shù)據(jù)庫建立,將相同工藝下若干歷史罐批數(shù)據(jù),處理成指定格式的輸入輸出向量對,生成靜態(tài)訓練數(shù)據(jù)庫;對待預報罐批,獲取截至當前發(fā)酵時間為止的所有輸入輸出向量對,這些向量對和靜態(tài)訓練數(shù)據(jù)庫合并生成支持向量機的動態(tài)訓練數(shù)據(jù)庫;2)支持向量機訓練,利用動態(tài)訓練數(shù)據(jù)庫,對支持向量機預報器進行訓練,求出支持向量和非線性最優(yōu)回歸函數(shù);3)狀態(tài)變量預報,利用已訓練好的支持向量機,根據(jù)當前待預報罐批的最新輸入向量,獲得狀態(tài)變量的預報值;4)智能數(shù)據(jù)庫技術(shù)的采用,也即訓練數(shù)據(jù)庫的在線更新和離線更新,在線更新指隨著每一輪預報結(jié)束后,當前待預報罐批新生成的輸入輸出數(shù)據(jù)向量對被充實到動態(tài)訓練數(shù)據(jù)庫中;離線更新指每當一個罐批發(fā)酵結(jié)束后,離線更新歷史罐批數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的基于支持向量機的生物發(fā)酵過程關(guān)鍵狀態(tài)變量軟預報方法,其特征是,所述的步驟4),具體做法為(a)若該停罐罐批為極端異常罐批和故障罐批,不更新歷史罐批數(shù)據(jù);(b)在發(fā)酵中后期,若該停罐罐批的產(chǎn)量曲線與已劃定的置信域內(nèi)某一較早的歷史罐批相似,則用該罐批取代較早的罐批;(c)在發(fā)酵中后期,若該停罐罐批的產(chǎn)量曲線在已劃定的置信域內(nèi)不與任何歷史罐批相似,則直接將該罐批增補為歷史罐批。
全文摘要
一種生物發(fā)酵過程關(guān)鍵狀態(tài)變量的軟預報方法屬于生物技術(shù)和信息科學交叉領(lǐng)域。本發(fā)明綜合利用支持向量機回歸技術(shù)的優(yōu)勢,提出了一種發(fā)酵過程關(guān)鍵狀態(tài)變量的軟預報方法。該方法首先利用歷史罐批數(shù)據(jù)和當前待預報罐批的已知數(shù)據(jù),建立支持向量機動態(tài)訓練數(shù)據(jù)庫;利用該訓練數(shù)據(jù)庫對支持向量機進行訓練,求出支持向量和非線性最優(yōu)回歸函數(shù);然后根據(jù)待預報罐批的最新輸入向量,實現(xiàn)狀態(tài)變量的超前預報;另外,每次訓練前需對訓練數(shù)據(jù)庫作在線更新,獲得新的動態(tài)訓練數(shù)據(jù)庫,而每當一個完整的罐批結(jié)束需對訓練數(shù)據(jù)庫作離線更新,重新獲得靜態(tài)訓練數(shù)據(jù)庫。本發(fā)明實現(xiàn)了生物發(fā)酵過程關(guān)鍵狀態(tài)變量高精度寬區(qū)間的預報,對提高生產(chǎn)過程的監(jiān)控水平有重要意義。
文檔編號C12P1/00GK1687428SQ20051002458
公開日2005年10月26日 申請日期2005年3月24日 優(yōu)先權(quán)日2005年3月24日
發(fā)明者袁景淇, 李運鋒 申請人:上海交通大學