本發(fā)明公開了屬于近紅外光譜分析技術(shù)領(lǐng)域,尤其涉及一種近紅外光譜數(shù)據(jù)預(yù)處理的新方法,主要用于建立近紅外定量和定性模型時對近紅外光譜數(shù)據(jù)的預(yù)處理。
背景技術(shù):
近紅外光譜技術(shù)具有分析速度快、樣本制作簡單的特點(diǎn),目前,近紅外光譜技術(shù)在煙草、中藥、食品領(lǐng)域得以實(shí)際應(yīng)用,隨著近紅外光譜技術(shù)應(yīng)用范圍不斷拓展,大量相對準(zhǔn)確的近紅外定量模型需要建立,一個預(yù)測精度高、穩(wěn)定性好的模型受近紅外光譜數(shù)據(jù)的影響較大。近紅外光譜數(shù)據(jù)除含有樣品自身的化學(xué)信息外,還包含其他無關(guān)信息和噪聲,如樣品背景和雜散光等。因此,在建立近紅外定量模型時,旨在消除光譜數(shù)據(jù)無關(guān)信息和噪聲的預(yù)處理方法變得十分關(guān)鍵和必要。多元散射校正(msc)方法主要是用來消除固定顆粒大小不均勻、表面散射對近紅外漫反射的影響。傳統(tǒng)的多元散射校正方法是針對全波段光譜數(shù)據(jù)進(jìn)行多元散射校正,該方法的缺點(diǎn)是,全波段光譜數(shù)據(jù)進(jìn)行多元散射校正時得到的結(jié)果受局部波長點(diǎn)對應(yīng)的吸光度值影響較大。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是尋找一種光譜數(shù)據(jù)預(yù)處理的新方法,傳統(tǒng)的多元散射校正方法是針對全波段光譜數(shù)據(jù)進(jìn)行散射校正,該方法的缺點(diǎn)是全波段光譜數(shù)據(jù)進(jìn)行多元散射校正時得到的結(jié)果受局部波長點(diǎn)對應(yīng)的吸光度值影響較大。本發(fā)明是為了解決傳統(tǒng)多元散射校正的缺點(diǎn),而提出一種新的光譜數(shù)據(jù)預(yù)處理方法來對光譜數(shù)據(jù)進(jìn)行預(yù)處理。
為了實(shí)現(xiàn)上述的目的,本發(fā)明采用了以下的技術(shù)方案:
一種近紅外光譜數(shù)據(jù)預(yù)處理方法,該方法包括以下的步驟:
1)采集樣本的近紅外光譜數(shù)據(jù);
2)采用經(jīng)典方法檢測樣本的化學(xué)值數(shù)據(jù);
3)每個樣本的近紅外光譜數(shù)據(jù)為x(1×m),m為連續(xù)波長變量數(shù);
4)將連續(xù)波長變量(m)分成k個子區(qū)間;
5)計(jì)算樣品光譜數(shù)據(jù)每個子區(qū)間的平均光譜
6)對一條光譜x(1×m)的子區(qū)間光譜xi與對應(yīng)的子區(qū)間平均光譜
7)計(jì)算一條光譜子區(qū)間的多元散射校正光譜xi,msc=(xi-b0)/b;
8)得到一條光譜經(jīng)過多元散射校正預(yù)處理后的光譜xmsc=[x1,msc,x2,msc,…,xk,msc];
9)最后將得到的近紅外光譜預(yù)處理后的數(shù)據(jù)和化學(xué)值對應(yīng)建立近紅外定量模型并對該模型進(jìn)行評價。
作為進(jìn)一步改進(jìn),所述步驟4)將波長變量(m)分成k個子區(qū)間,具體方法是:設(shè)置每個子區(qū)間寬度為w,那么k=m/w,當(dāng)m/w的結(jié)果是小數(shù)時,k的取值是m/w的整數(shù)加1。因此,xi(1×w),當(dāng)m/w的結(jié)果是小數(shù)時,那么
作為進(jìn)一步改進(jìn),所述步驟5)計(jì)算樣品光譜數(shù)據(jù)每個子區(qū)間的平均光譜
作為進(jìn)一步改進(jìn),所述步驟8)得到一條光譜經(jīng)過多元散射校正預(yù)處理后的光譜xmsc=[x1,msc,x2,msc,…,xk,msc],具體方法是:將每個子區(qū)間依次組合成全波段的多元散射校正數(shù)據(jù),xmsc(1×m)=[x1,msc,x2,msc,…,xk,msc]。
本發(fā)明采用的是分段使用多元散射校正來對近紅外光譜數(shù)據(jù)進(jìn)行預(yù)處理,消除了局部波長點(diǎn)吸光度值對全波段光譜數(shù)據(jù)的影響,采用該方法可以很好的消除固定顆粒大小不均勻、表面散射對近紅外漫反射的影響,提高近紅外光譜數(shù)據(jù)的信噪比。對于近紅外光譜數(shù)據(jù)預(yù)處理建立預(yù)測精度高的模型具有重要的意義,有助于近紅外光譜分析技術(shù)的推廣和應(yīng)用。
附圖說明
圖1是原始近紅外光譜圖。
圖2是化學(xué)值分布圖。
圖3是經(jīng)分段多元散射校正處理之后光譜圖。
圖4是導(dǎo)數(shù)預(yù)處理光譜圖。
圖5是導(dǎo)數(shù)預(yù)處理后建立的近紅外模型真實(shí)值和預(yù)測值對比圖。
圖6是分段多元散射校正后建立的近紅外模型真實(shí)值和預(yù)測值對比圖。
圖7外部驗(yàn)證對比圖。
具體實(shí)施方式
下面采用附圖和實(shí)施例對本發(fā)明作進(jìn)一步說明。
本實(shí)例采用煙草在線近紅外光譜作為測試對象,對一種新的近紅外光譜數(shù)據(jù)預(yù)處理方法進(jìn)行詳細(xì)的說明。
1)采集樣本的近紅外光譜數(shù)據(jù),具體過程:在線近紅外光譜儀安裝在原煙鋪葉生產(chǎn)皮帶上,生產(chǎn)過程中原煙經(jīng)過在線近紅外探頭,在線近紅外光譜儀采集原煙近紅外光譜數(shù)據(jù)。在線近紅外光譜儀設(shè)置每5秒鐘生成一條光譜數(shù)據(jù),5秒內(nèi)抓取1個樣本并標(biāo)號,放入自封袋,共取樣358個樣本,光譜數(shù)據(jù)見圖1。
2)采用經(jīng)典方法檢測樣本的化學(xué)值數(shù)據(jù),具體過程:將樣本煙葉去梗、剪碎放入烘箱中,烘箱溫度設(shè)置為40℃,烘干3小時,將從烘箱中取出的煙葉放入干燥器中進(jìn)行冷卻到常溫,之后將煙葉樣本用粉碎機(jī)進(jìn)行粉碎,過40目的篩子,最后利用流動分析儀檢測煙葉的煙堿含量,煙堿值見圖2。
3)生成的一條光譜數(shù)據(jù)為x(1×256),256為連續(xù)波長點(diǎn)數(shù)。
4)將256個連續(xù)波長點(diǎn)對應(yīng)的吸光度值的子區(qū)間寬度設(shè)置為50,那么k=6。
5)對原始近紅外光譜數(shù)據(jù)進(jìn)行分段多元散射校正處理,處理后的圖見圖3。
6)對原始近紅外光譜數(shù)據(jù)進(jìn)行導(dǎo)數(shù)預(yù)處理,導(dǎo)數(shù)參數(shù)選擇1階導(dǎo),平滑點(diǎn)選擇13,擬合方程的次數(shù)選擇1次,處理后的結(jié)果見圖4。
7)將兩種預(yù)處理后的近紅外光譜數(shù)據(jù)與化學(xué)值分別建立兩個模型,建模方法為pls(偏最小二乘法),波長選擇方法為cars(自適應(yīng)競爭重加權(quán)采樣法),選擇前面的光譜258條作為建模集,后面100條光譜作為驗(yàn)證集,pls的參數(shù)選擇成分?jǐn)?shù)為12。其中,r是相關(guān)系數(shù),se是標(biāo)準(zhǔn)誤差,rsd是相對標(biāo)準(zhǔn)差。
8)外部驗(yàn)證對比表: