一種厭氧數(shù)學(xué)建模過程缺失數(shù)據(jù)的預(yù)處理方法
【專利摘要】本發(fā)明提供一種厭氧數(shù)學(xué)建模過程缺失數(shù)據(jù)的預(yù)處理方法,對缺失數(shù)據(jù)提出數(shù)據(jù)分組處理算法,并用拉格朗日插值法對缺失值進(jìn)行插補(bǔ)。首先從原始數(shù)據(jù)集中確定因變量和自變量,然后取缺失值前后5個(gè)數(shù)據(jù),剔除掉缺損值后的10個(gè)數(shù)據(jù)組成一組,將剩下的數(shù)據(jù)依次排序,并基于拉格朗日多項(xiàng)式插值法,建立插值模型,對全部缺失數(shù)據(jù)依次進(jìn)行插補(bǔ),通過Java編程實(shí)現(xiàn)大量數(shù)據(jù)的自動插補(bǔ)處理,直到缺失值不存在。
【專利說明】一種厭氧數(shù)學(xué)建模過程缺失數(shù)據(jù)的預(yù)處理方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及厭氧消化領(lǐng)域數(shù)學(xué)建模預(yù)測沼氣產(chǎn)氣速率和產(chǎn)氣量,實(shí)現(xiàn)厭氧消化過 程關(guān)鍵參數(shù)的軟件傳感,具體涉及一種厭氧數(shù)學(xué)建模過程缺失數(shù)據(jù)的預(yù)處理方法。
【背景技術(shù)】
[0002] 在厭氧沼氣工程運(yùn)行過程中,由于通訊中斷、信號干擾、傳感器故障或者人為誤操 作會造成一些監(jiān)測數(shù)據(jù)的缺失。管理者和技術(shù)支持者希望通過對缺失數(shù)據(jù)的計(jì)算與分析, 能夠準(zhǔn)確地評估系統(tǒng)運(yùn)行效率,通過數(shù)學(xué)建模預(yù)測產(chǎn)氣過程和關(guān)鍵指標(biāo)的軟件傳感。如,在 進(jìn)行產(chǎn)氣異常智能分析建模時(shí),時(shí)間、進(jìn)水量、產(chǎn)氣量等指標(biāo)的數(shù)據(jù)質(zhì)量直接影響到模型的 結(jié)果精度與評價(jià)標(biāo)準(zhǔn),因此,對數(shù)據(jù)進(jìn)行預(yù)處理就顯得非常重要。
[0003] 缺失值是造成臟數(shù)據(jù)的主要因素之一,是對以數(shù)據(jù)挖掘?yàn)橹饕侄蔚臄?shù)學(xué)處理方 法應(yīng)用的巨大威脅。數(shù)據(jù)缺失造成的影響主要有:系統(tǒng)丟失了大量的有用信息;系統(tǒng)中表 現(xiàn)出的不確定性更加顯著,系統(tǒng)中蘊(yùn)含的確定性成分更難把握;包含空值的數(shù)據(jù)會使挖掘 過程陷入混亂,導(dǎo)致不可靠的輸出。因此,沒有高質(zhì)量的數(shù)據(jù),就沒有高質(zhì)量的挖掘結(jié)果,也 就沒有高質(zhì)量的決策。對缺失值進(jìn)行插補(bǔ)是處理缺失數(shù)據(jù)、提高數(shù)據(jù)質(zhì)量的方法之一???能值插補(bǔ)缺失值的思想來源于以最可能的值來插補(bǔ)缺失值比全部刪除不完全樣本所產(chǎn)生 的信息丟失要少。在數(shù)據(jù)挖掘中,面對的通常是大型的數(shù)據(jù)庫,它的屬性有幾十個(gè)甚至幾百 個(gè),因?yàn)橐粋€(gè)屬性值的缺失而放棄大量的其他屬性值,這種刪除是對信息的極大浪費(fèi),所以 產(chǎn)生了以可能值對缺失值進(jìn)行插補(bǔ)的思想和方法。對缺失數(shù)據(jù)的預(yù)處理,通常是采用基于 加權(quán)平均值的方法進(jìn)行數(shù)據(jù)補(bǔ)齊,即用某段時(shí)間內(nèi)的數(shù)據(jù)加權(quán)平均得到缺損值,對于很多 情況,補(bǔ)值效果并不理想,因而這種方法具有很大的局限性。
[0004] 基于以上所述,針對規(guī)?;託膺\(yùn)行過程中的一些產(chǎn)氣量無法正常采集,如果丟 失這部分?jǐn)?shù)據(jù),將影響產(chǎn)氣量的計(jì)算結(jié)果,最終導(dǎo)致產(chǎn)氣率數(shù)據(jù)誤差很大。為了達(dá)了較好的 建模和分析效果,需要對厭氧消化過程指標(biāo)數(shù)據(jù)進(jìn)行預(yù)處理,即需通過合適算法對缺失數(shù) 據(jù)進(jìn)行補(bǔ)齊,之后再算出厭氧消化過程的產(chǎn)氣率。
[0005] 本發(fā)明針對用戶在厭氧消化建模過程的缺失數(shù)據(jù)進(jìn)行分析,而挖掘目標(biāo)是實(shí)現(xiàn)不 完整數(shù)據(jù)到完整數(shù)據(jù),有效地完備了數(shù)據(jù),從而使模型構(gòu)建得更精確,預(yù)測效果更好。
【發(fā)明內(nèi)容】
[0006] 數(shù)據(jù)分組處理算法是一種自組織的數(shù)據(jù)挖掘算法,用到了自組織數(shù)據(jù)挖掘主要原 理。本發(fā)明通過數(shù)據(jù)分組處理算法對缺失值前后5個(gè)共10個(gè)數(shù)據(jù)為一組的進(jìn)水量和產(chǎn)氣 量數(shù)據(jù)進(jìn)行插補(bǔ),從而實(shí)現(xiàn)對酒精廢水產(chǎn)氣量缺失數(shù)據(jù)的預(yù)處理。
[0007] 方法包括以下步驟:首先將導(dǎo)入的原始數(shù)據(jù)分組,再確定因變量和自變量,剔除組 里的缺失值并將剩下數(shù)據(jù)依次排序,然后基于拉格朗日插值算法確定插值模型,再將缺失 數(shù)據(jù)依次進(jìn)行插補(bǔ)。然后往下一組同理處理,直到所有組數(shù)據(jù)處理完。
[0008] 所述的厭氧消化建模過程缺失數(shù)據(jù)的預(yù)處理方法,其特征在于,所述的基于拉格 朗日算法對缺失值逼近插值,在結(jié)點(diǎn)上給出結(jié)點(diǎn)基函數(shù),然后做基函數(shù)的線性組合,組合系 數(shù)為結(jié)點(diǎn)函數(shù)值,構(gòu)造多項(xiàng)式逼近原函數(shù),從而插值逼近缺失值,直到完備所有數(shù)據(jù)。且拉 格朗日算法容易實(shí)現(xiàn)和操作,結(jié)果插值逼近地較精準(zhǔn)。
[0009]基于拉格朗日算法,本技術(shù)用JAVA代碼實(shí)現(xiàn)數(shù)據(jù)缺失值插補(bǔ)的全自動化處理,并 將它完備為一個(gè)數(shù)據(jù)處理平臺。(算法偽代碼見附件1)
【權(quán)利要求】
1. 一種厭氧數(shù)學(xué)建模過程缺失數(shù)據(jù)的預(yù)處理方法,其特征在于,對厭氧消化過程建模 前的原始數(shù)據(jù)提出數(shù)據(jù)分組處理算法,并用拉格朗日插值法對缺失值進(jìn)行插補(bǔ)。
2. 根據(jù)權(quán)利要求1所述的厭氧建模過程中缺失數(shù)據(jù)的預(yù)處理方法,其特征在于,首先 從原始數(shù)據(jù)集中確定因變量和自變量,然后取缺失值前后5個(gè)數(shù)據(jù)(若前后不滿5個(gè)數(shù)據(jù), 則將僅有的數(shù)據(jù)組成一組),剔除掉缺損值后的10個(gè)數(shù)據(jù)組成一組,將剩下的數(shù)據(jù)依次排 序,并建立拉格朗日多項(xiàng)式插值模型,對全部缺失數(shù)據(jù)依次進(jìn)行插補(bǔ),直到缺失值不存在。
3. 根據(jù)權(quán)利要求1所述的厭氧建模過程缺失數(shù)據(jù)的預(yù)處理方法,包括以下步驟: (1) 導(dǎo)入兩組相關(guān)屬性數(shù)據(jù)并確定自變量和因變量: Xn - {x〇,Xi,· · ·,Xi,......,xj Yn- {y〇,yp…,yp......,yJ 提取缺失值Ixi,yj前后5個(gè)數(shù)據(jù)組為一組: Xn-I- {Xi-5?Xi-4? Xi-3? Xi-2? Xi-1? Xi?Xi+1?Xi+2?Xi+3?Xi+4? Xi+5^ Yn-I- ^Ti-5,Yi-4, Yi-3, Yi-2, Yi-1,Yi,Yi+l,Yi+2,Yi+3,Yi+4, (2) 將缺失值Ixi,yj去掉,剩下數(shù)據(jù)為: Xn-I - (Xi-5, Xi-4, Xi-3, Xi-2, Xi-1,Xi+1,Xi+2?Xi+3,Xi+4?Xi+5^ Yn-I - ^Ti-5, Yi-4, Yi-3, Yi-2, Yi-1,Yi+l,Yi+2, Yi+3, Yi+4, 將上述兩組數(shù)據(jù)重新依次排序: Xn-I - {x0, i-5,X1, i-4,···? X4, i-1? X5?i+1···? ^9,1+5} Yn-I- {y〇,i-5,Yl,i-4,…,又4,i-I,又5,i+Γ· ·,又9,i+5} 其中:i= 0,1,2,···,!! 注:xa,b:a為重新排序后序號,b為排序如序號; 同理對于缺失值{xk,yk},{xk+1,yk+1},…{xk+m,yk+m},提取它們的前后5個(gè)數(shù)據(jù)組成一 組,再重新依次排序?yàn)椋? ^-n-111-l - ?χ0, k-5? Xl, k-4? ···,X4, k-1,X5, k+m+1,*** ? X9, k+m+5^ ? Yn-m-1 -iy〇,k-5,Yl,k-4, ···,又4,k-1,又5,k+m+1, ···,又9,k+m+5}, 其中:k,m= 0,1,2,···,n. 記重新排序后的自變量數(shù)據(jù)列和因變量數(shù)據(jù)列分別為:X%f⑶建立模型人(4=?^ (χ)兄 i=0 ⑷將缺失值f代入插值模型,則得到因變量插值#=人?1^?,· /=() 同理依次對各組數(shù)據(jù)進(jìn)行插補(bǔ)直到所有組插補(bǔ)完成,然后導(dǎo)出完整數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的厭氧建模過程中缺失數(shù)據(jù)的預(yù)處理方法,其特征在于,通過 Java編程實(shí)現(xiàn)對原始數(shù)據(jù)進(jìn)行自動分組、建模、插值補(bǔ)數(shù)、對缺失值依次插補(bǔ)直到所有組插 補(bǔ)完成。利用該算法可以實(shí)現(xiàn)大量數(shù)據(jù)的全自動插補(bǔ),進(jìn)行缺失值的高效處理。
【文檔編號】G06F19/00GK104318101SQ201410570879
【公開日】2015年1月28日 申請日期:2014年10月23日 優(yōu)先權(quán)日:2014年10月23日
【發(fā)明者】李兵, 程言君, 鄭曉偉, 肖佳旭, 廖曉霞, 吳鎮(zhèn)佳 申請人:輕工業(yè)環(huán)境保護(hù)研究所