一種近紅外光譜的多模型建模方法
【專利摘要】一種近紅外光譜多模型建模方法,把采集的近紅外光譜及對(duì)應(yīng)的被測(cè)成分濃度數(shù)據(jù)分成訓(xùn)練集和預(yù)測(cè)集;利用boosting方法對(duì)訓(xùn)練集進(jìn)行重采樣,一開始賦予所有波長(zhǎng)點(diǎn)相同的取樣權(quán)重,從中選取一定數(shù)目的波長(zhǎng)點(diǎn)建立PLS子模型;通過PLS子模型的得分和載荷乘積得到預(yù)測(cè)光譜;利用預(yù)測(cè)光譜和建模子集光譜的差值的指數(shù)損失函數(shù)對(duì)訓(xùn)練子集的每個(gè)波長(zhǎng)點(diǎn)賦予權(quán)重;下次選取波長(zhǎng)點(diǎn)時(shí),權(quán)重越大的樣本取樣概率越大;重復(fù)以上步驟,建立多個(gè)子模型;通過這些模型預(yù)測(cè)結(jié)果的加權(quán)平均值作為預(yù)測(cè)集樣本的預(yù)測(cè)濃度值。該方法通過從波長(zhǎng)方向建立子模型,采用boosting方法不斷進(jìn)行訓(xùn)練最終建立多模型,提高了定量分析模型的預(yù)測(cè)精度,為近紅外光譜多元校正分析提供了一種新的定量分析方法。
【專利說明】一種近紅外光譜的多模型建模方法
【技術(shù)領(lǐng)域】
[0001]本方法發(fā)明屬于分析化學(xué)領(lǐng)域的無(wú)損分析技術(shù),特別涉及一種近紅外光譜建模方法。
【背景技術(shù)】
[0002]復(fù)雜樣本的定量分析一直是分析化學(xué)領(lǐng)域及工業(yè)生產(chǎn)中極具挑戰(zhàn)性的問題。復(fù)雜樣本一般基體復(fù)雜、組分繁多,傳統(tǒng)的分析方法難以適用于復(fù)雜樣本組分的定量分析,亟待發(fā)展新的、快速的定量分析技術(shù)。近紅外光譜是一種無(wú)損分析技術(shù),以其分析速度快、樣本預(yù)處理簡(jiǎn)單、穩(wěn)定性好等優(yōu)點(diǎn)而在眾多的分析方法中脫穎而出,廣泛應(yīng)用于農(nóng)業(yè)、石油化工、醫(yī)藥、食品等領(lǐng)域。然而,由于近紅外光譜譜帶重疊現(xiàn)象嚴(yán)重,信號(hào)吸收較弱,且背景干擾嚴(yán)重等問題,必須借助于化學(xué)計(jì)量學(xué)方法才能進(jìn)行定量分析。在近紅外光譜定量分析中,建立一個(gè)預(yù)測(cè)未知樣本組分濃度的可靠的定量模型是最重要的任務(wù),因此,需要進(jìn)一步研究建模方法。
[0003]在近紅外光譜定量分析中,常用于建模的方法有多元線性回歸(MLR)、主成分回歸方法(PCR)、偏最小二乘回歸(PLS)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量回歸(SVR)等。由于近紅外光譜檢測(cè)到的信號(hào)除樣品信息外,還有噪聲、背景等干擾信息,并且并不是所有的光譜信息都是有用信息,由此發(fā)展了一系列預(yù)處理以及波長(zhǎng)選擇技術(shù),前者有標(biāo)準(zhǔn)正態(tài)變量(SNV)、多元散射校正(MSC)、SG平滑、一階或二階導(dǎo)數(shù)、正交信號(hào)校正(OSC)、連續(xù)小波變換(CWT)等,后者有遺傳算法(GA)、無(wú)信息變量消除(UVE)、蒙特卡羅-無(wú)信息變量消除(MC-UVE)、隨機(jī)檢驗(yàn)-偏最小二乘(RT-PLS)等。然而這些傳統(tǒng)的建模方法僅產(chǎn)生單個(gè)校正模型,即采用一定的訓(xùn)練集建立一個(gè)最優(yōu)模型用于預(yù)測(cè),當(dāng)訓(xùn)練集樣本數(shù)目有限或測(cè)定組分含量較低時(shí),單模型建模方法的預(yù)測(cè)精度與穩(wěn)定性往往不能令人滿意。然而,在許多情況下,模型的預(yù)測(cè)精度至關(guān)重要,近年來(lái),起源于機(jī)器學(xué)習(xí)領(lǐng)域的多模型建模技術(shù),受到了學(xué)者的廣泛關(guān)注。多模型建模就是從同一訓(xùn)練集中產(chǎn)生多個(gè)訓(xùn)練子集,然后利用這些訓(xùn)練子集建立多個(gè)子模型分別進(jìn)行預(yù)測(cè),并將多個(gè)預(yù)測(cè)結(jié)果通過一定的集成方法,形成一個(gè)最終結(jié)果。這種方法利用多個(gè)子模型協(xié)同的方式提升了預(yù)測(cè)模型精度,穩(wěn)健性以及穩(wěn)定性。
[0004]Bagging和boosting是兩種典型的多模型算法。Bagging中訓(xùn)練子集的樣本是隨機(jī)選擇的,各訓(xùn)練子集間相互獨(dú)立,并行生成,子模型沒有權(quán)重,最終的預(yù)測(cè)結(jié)果采用簡(jiǎn)單平均的方式集成,該方法可以減小模型的預(yù)測(cè)方差。而boosting樣本選擇與前輪訓(xùn)練有關(guān),訓(xùn)練子集不獨(dú)立,順序生成,子模型權(quán)重不同,最終的預(yù)測(cè)結(jié)果采用權(quán)重中位值的方式集成。該方法不僅可以減小模型的預(yù)測(cè)方差,還可以減少模型的預(yù)測(cè)偏差。自從Massart等(參見:Zhang M H, Xu Q S, Massart D L.Boosting partial least squares.Anal Chem,2005,77:1423?1431)將boosting PLS方法引入到分析化學(xué)領(lǐng)域后,近年來(lái)在化學(xué)計(jì)量學(xué)領(lǐng)域發(fā)展了一系列基于bagging和boosting的多模型建模方法,如bagging PLS、baggingKPLS、boosting KPLS、boosting SVR、boosting ANN 等,用于煙草樣本、土壤樣本、谷物樣本、發(fā)酵過程和QSAR研究中,并且都取得了比單一模型更好的預(yù)測(cè)結(jié)果。[0005]以上基于bagging和boosting的多模型建模方法,都是利用對(duì)訓(xùn)練集的樣本進(jìn)行不同方式重采樣來(lái)構(gòu)建訓(xùn)練子集,以此實(shí)現(xiàn)多模型建模中精度和差異性的折中。如果不對(duì)樣本進(jìn)行重采樣,而對(duì)光譜的波長(zhǎng)變量采樣來(lái)構(gòu)建不同的訓(xùn)練子集,這不僅可以降低計(jì)算的復(fù)雜度,還可以避免全譜建模時(shí)出現(xiàn)的困難。譚等(參見:Tan C,Li M L,Qin X.Randomsubspace regression ensemble for near-1nfrared spectroscopic calibration oftobacco samples.Anal Sci, 2008, 24:647?653)首次提出對(duì)波長(zhǎng)隨機(jī)米樣的方式來(lái)建立近紅外光譜定量分析的bagging多模型,通過對(duì)波長(zhǎng)隨機(jī)采樣,再建立多元線性回歸子模型,產(chǎn)生了較好的預(yù)測(cè)效果。后來(lái)又發(fā)展了采用聚類算法對(duì)波長(zhǎng)重采樣(參見:Tan C,QinX, Li M L.Subspace regression ensemble method based on variable clustering fornear-1nfrared spectroscopic calibration.Anal Lett, 2009,42:1693 ?1710)以及劃分波段建立 bagging 多模型(參見:Jing M, Cai W S, Shao X G.Multiblock partial leastsquares regression based on wavelet transform for quantitative analysis of nearinfrared spectra.Chemometr Intell Lab Syst, 2010,100:22 ?27)的方法。boosting方法作為一種性能優(yōu)良的多模型建模方法,其中基于樣本重采樣的boosting多模型建模取得了很好的效果,但當(dāng)樣本數(shù)目較少時(shí),對(duì)樣本的重采樣就顯得困難,因此,有必要進(jìn)一步發(fā)展基于波長(zhǎng)重采樣的boosting多模型建模方法,以解決尤其是小數(shù)目樣本時(shí)模型的預(yù)測(cè)精度。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的是針對(duì)上述存在問題,提供一種用于近紅外光譜定量分析的多模型建模方法,該方法可以模型的預(yù)測(cè)能力、增強(qiáng)模型的穩(wěn)定性,尤其在樣本數(shù)目較少時(shí),可以充分發(fā)揮優(yōu)勢(shì)。
[0007]本發(fā)明利用boosting方法重采樣,通過各個(gè)光譜點(diǎn)的預(yù)測(cè)誤差來(lái)更新樣本的權(quán)重,采樣加權(quán)平均的方式來(lái)集成子模型,實(shí)現(xiàn)近紅外光譜的多模型建模。
[0008]為實(shí)現(xiàn)本發(fā)明所提供的技術(shù)方案包括以下步驟:
[0009]I)采集被測(cè)物樣本的近紅外光譜數(shù)據(jù),隨機(jī)分成兩部分,包括訓(xùn)練集和預(yù)測(cè)集樣本,用常規(guī)方法測(cè)定訓(xùn)練集中樣本的被測(cè)成分濃度含量,得到訓(xùn)練集樣本的被測(cè)成分濃度向量,其中訓(xùn)練集樣本用來(lái)建立模型并優(yōu)化參數(shù),預(yù)測(cè)集樣本用來(lái)檢驗(yàn)?zāi)P偷念A(yù)測(cè)能力;
[0010]2)對(duì)訓(xùn)練集樣本進(jìn)行波長(zhǎng)點(diǎn)boosting重采樣,建立多個(gè)基于波長(zhǎng)空間子模型;
[0011]①將訓(xùn)練集光譜矩陣Xmxn中所有波長(zhǎng)點(diǎn)賦予相等的取樣權(quán)重Wu,
[0012]wia = l/n(i = I,..., η) (I)
[0013]其中m和η分別為訓(xùn)練集中樣本數(shù)目和波長(zhǎng)點(diǎn)的數(shù)目。
[0014]②根據(jù)波長(zhǎng)點(diǎn)的取樣權(quán)重Wi從原始訓(xùn)練集樣本中通過概率取樣的方式挑選出一定數(shù)目的波長(zhǎng)點(diǎn)作為一個(gè)訓(xùn)練子集。
[0015]③用訓(xùn)練子集的樣本建立一個(gè)偏最小二乘回歸(PLS)子模型,得到PLS子模型的得分和載荷,利用得分和載荷的乘積得到訓(xùn)練集的預(yù)測(cè)光譜矩陣DmXn。
[0016]④計(jì)算訓(xùn)練子集中光譜與預(yù)測(cè)光譜的誤差的絕對(duì)值Emxn= IXmxn-DmxnI,并取每個(gè)波長(zhǎng)點(diǎn)下的平均值 ei = mean(Emxn),(i = I, , η)
[0017]⑤根據(jù)ei,采用計(jì)算損失函數(shù)Li。[0018]Li = 1-exp [- e^max (ej ] (i = 1,...,n) (2)
[0019]⑥計(jì)算平均損失L
【權(quán)利要求】
1.一種用于近紅外光譜的多模型建模方法,其特征在于:它是從波長(zhǎng)方法選取一定數(shù)目的波長(zhǎng)點(diǎn)建立子模型,之后用boosting學(xué)習(xí)方法建立多個(gè)子模型,最后用所有子模型預(yù)測(cè)結(jié)果的加權(quán)平均得到未知樣本濃度的最終預(yù)測(cè)結(jié)果。其中波長(zhǎng)點(diǎn)權(quán)重的更新是基于偏最小二乘建立子模型的得分與載荷乘積得到的預(yù)測(cè)光譜與建模子集光譜的差值。
2.根據(jù)權(quán)利要求1所述的近紅外光譜的多模型建模方法,其特征在于:所述一定數(shù)目的波長(zhǎng)點(diǎn)的選取方法是:固定模型總數(shù),按總波長(zhǎng)點(diǎn)數(shù)的5%?100%,每間隔5%,改變被選取的波長(zhǎng)點(diǎn)的數(shù)目(非整數(shù)時(shí)去尾法取整),計(jì)算RMSECV值,RMSECV最小值對(duì)應(yīng)的波長(zhǎng)點(diǎn)數(shù)為每次循環(huán)選取的波長(zhǎng)點(diǎn)數(shù)。
3.根據(jù)權(quán)利要求1所述的近紅外光譜的多模型建模方法,其特征在于:子模型個(gè)數(shù)的確定方式是:給定一個(gè)足夠大的模型數(shù)目值,計(jì)算訓(xùn)練集采用多模型建模交叉驗(yàn)證均方根誤差(RMSECV)隨著模型個(gè)數(shù)的變化,RMSECV值不變或者幾乎不變(趨于穩(wěn)定)時(shí)為應(yīng)建立的模型個(gè)數(shù)。
【文檔編號(hào)】G01N21/359GK103528990SQ201310537968
【公開日】2014年1月22日 申請(qǐng)日期:2013年10月31日 優(yōu)先權(quán)日:2013年10月31日
【發(fā)明者】卞?;? 劉巍, 王秋男, 譚小耀, 郭玉高 申請(qǐng)人:天津工業(yè)大學(xué)