本發(fā)明涉及一種模型轉(zhuǎn)移方法,具體涉及一種基于多算法推薦的不同地區(qū)間土壤養(yǎng)分模型轉(zhuǎn)移方法。
背景技術(shù):
光譜中包含豐富的物質(zhì)信息,且光譜分析技術(shù)具有無損、快速等優(yōu)點(diǎn),在農(nóng)業(yè)、食品、工業(yè)等領(lǐng)域已有廣泛的應(yīng)用。采用光譜數(shù)據(jù)以及相關(guān)化學(xué)值進(jìn)行建模,能夠快速實(shí)現(xiàn)對未知樣品化學(xué)值的預(yù)測,但這種光譜模型對未知樣品的預(yù)測具有一定的局限性,只能夠針對一定范圍內(nèi)的未知樣品進(jìn)行預(yù)測。不同溫度、不同儀器、不同測量條件、不同地區(qū)間樣品的光譜均會導(dǎo)致預(yù)測結(jié)果不準(zhǔn)確。為解決這一問題,一種方法是采集樣品光譜及化學(xué)值重新建立模型,該方法耗時耗力;另一種方法對原模型進(jìn)行模型轉(zhuǎn)移解決模型不適配等問題,簡單、快速的提高未知樣品的預(yù)測結(jié)果。
針對不同溫度、不同儀器、不同測量條件下的模型轉(zhuǎn)移主要采用直接校正法(ds)、分段直接校正(pds)、正交信號法(osc)、小波變換(wt)、專利算法(shenk's)等算法,在一定程度上能解決模型受儀器性能變化、分析時間、測量條件等方面的影響。針對不同地區(qū)間樣品的模型轉(zhuǎn)移主要為添加新樣本于原模型中,重新建立模型,這種方法不僅耗時,同時修訂后的模型預(yù)測效果會降低,不能夠?qū)崿F(xiàn)對不同地區(qū)間未知樣品的準(zhǔn)確預(yù)測。目前基于光譜技術(shù)針對不同地區(qū)間土壤養(yǎng)分進(jìn)行模型轉(zhuǎn)移尚沒有成熟的算法較好的預(yù)測結(jié)果,因此提供一種快速、準(zhǔn)確實(shí)現(xiàn)不同地區(qū)間土壤養(yǎng)分模型轉(zhuǎn)移方法是很有必要的。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為解決不同地區(qū)間土壤養(yǎng)分模型轉(zhuǎn)移的問題,采用以下述技術(shù)方案予以實(shí)現(xiàn):
一種基于多算法推薦的不同地區(qū)間土壤養(yǎng)分模型轉(zhuǎn)移方法,步驟如下:
(1)采集某一地區(qū)土壤樣品,測得其光譜數(shù)據(jù)和養(yǎng)分化學(xué)值,并將該土壤樣品作為主樣品,用于主樣品模型的建立;
(2)采集其他地區(qū)土壤樣品,采用與主樣品同樣的光譜儀測得其光譜數(shù)據(jù)和養(yǎng)分化學(xué)值,將其作為從樣品,用于對主樣品模型的預(yù)測;
(3)采用kennard-stone算法劃分土壤主樣品的校正集和檢驗(yàn)集;以偏最小二乘法(pls)建立主樣品校正集模型,并對主樣品檢驗(yàn)集進(jìn)行預(yù)測,根據(jù)絕對系數(shù)r2和相對分析誤差rpd判斷主樣品模型效果;
(4)采用kennard-stone算法劃分土壤從樣品的標(biāo)準(zhǔn)集和未知集,其中標(biāo)準(zhǔn)集用于主樣品校正集模型轉(zhuǎn)移的標(biāo)準(zhǔn)樣品,未知集用于檢驗(yàn)?zāi)P娃D(zhuǎn)移后土壤樣品的預(yù)測結(jié)果;
(5)對主樣品建模集和檢驗(yàn)集及從樣品標(biāo)準(zhǔn)集和未知集進(jìn)行光譜預(yù)處理;
(6)分別采用多種算法對從樣品進(jìn)行模型轉(zhuǎn)移,代入原主樣品校正模型,得到土壤從樣品未知集的預(yù)測結(jié)果;
(7)對從樣品未知集化學(xué)值和預(yù)測值進(jìn)行評價分析,推薦出效果最好的模型轉(zhuǎn)移算法,將此算法用于該從樣品地區(qū)土壤的樣品預(yù)測,用校準(zhǔn)后的模型進(jìn)行大批量速測。
步驟(1)、(2)中,采用可見-近紅外光譜、近紅外光譜等光譜數(shù)據(jù)。
步驟(1)、(2)中,測量全氮、全磷、全鉀等土壤養(yǎng)分含量。
步驟(5)中,光譜預(yù)處理包括無預(yù)處理、譜區(qū)選擇、平滑求導(dǎo)、snv、msc、歸一化等。
步驟(6)中,多算法包括分段直接矯正結(jié)合線性插值(pds-li)、直接矯正結(jié)合線性插值(ds-li)、典型相關(guān)性分析結(jié)合線性插值(cca-li)、分段直接矯正結(jié)合斜率/截距修正法(pds-s/b)、直接矯正結(jié)合斜率/截距修正法(ds-s/b)、典型相關(guān)性分析結(jié)合斜率/截距修正法(cca-s/b)等算法。
步驟(6)中,典型相關(guān)性分析結(jié)合線性插值(cca-li)算法具體步驟為:
1)采用cca算法求出轉(zhuǎn)移矩陣f。采用kennard-stone算法從主樣品校正集x主中篩選出與從樣品標(biāo)準(zhǔn)集x標(biāo)樣品個數(shù)一樣的矩陣x主cca,根據(jù)x主cca和x標(biāo)計算矩陣c,由矩陣c計算特征值與特征向量,其相關(guān)公式如下:
將每一個非零特征值ρ所對應(yīng)的特征向量wm和ws分別歸為矩陣wm和ws,即為x主cca和x標(biāo)的典型相關(guān)系數(shù)wm和ws,對x主cca和x標(biāo)進(jìn)行cca分解,計算出x主cca和x標(biāo)的典型相關(guān)成分lm和ls,最終得到轉(zhuǎn)移矩陣f,公式如下:
lm=x主cca×wm
ls=x標(biāo)×ws
f=ws×f1×f2
2)根據(jù)轉(zhuǎn)移矩陣f,分別對從樣品標(biāo)準(zhǔn)集x標(biāo)和未知集x未光譜進(jìn)行轉(zhuǎn)換,得到經(jīng)cca算法轉(zhuǎn)換后的標(biāo)準(zhǔn)集x標(biāo)f和未知集x未f相關(guān)公式如下:
x標(biāo)f=x標(biāo)·f
x未f=x未·f
3)建立預(yù)測值校正函數(shù)。用主模型分別對從樣品標(biāo)準(zhǔn)集和未知集轉(zhuǎn)化后的光譜矩陣進(jìn)行預(yù)測。分別計算標(biāo)準(zhǔn)集中每個樣品與未知集中的第i個樣品的共生距離d(i),共生距離d(i)為轉(zhuǎn)化光譜的歐氏距離與化學(xué)預(yù)測值的絕對偏差之和,計算公式為:
d2(p,i)=|y標(biāo)f(p)-y未f(i)|
其中,m為光譜波長點(diǎn)數(shù),x標(biāo)f和x未f分別為標(biāo)準(zhǔn)集和未知集的轉(zhuǎn)換后的光譜矩陣,y標(biāo)f和y未f分別為標(biāo)準(zhǔn)集和未知集經(jīng)轉(zhuǎn)換矩陣f轉(zhuǎn)換后的預(yù)測值,d1(p,i)為標(biāo)準(zhǔn)集中第p個樣品與未知集中第i個樣品之間光譜的歐式距離,d2(p,i)為標(biāo)準(zhǔn)樣品中第p個樣品與未知樣品中第i個樣品之間預(yù)測值的絕對值偏差,d1(i)和d2(i)分別為d1(p,i)和d2(p,i)中p取1-n所有值組成的向量,n為標(biāo)準(zhǔn)集的樣品個數(shù)。
尋找d(i)中2個最小值對應(yīng)的序列p1和p2,根據(jù)標(biāo)準(zhǔn)集中的第p1、p2個樣品對應(yīng)的預(yù)測值和實(shí)測值,建立插值函數(shù)。將未知集中第i個樣品的預(yù)測值代入插值函數(shù),得到校正后的預(yù)測值y未p,相關(guān)公式如下:
其中,y標(biāo)(p1)和y標(biāo)(p2)為標(biāo)準(zhǔn)集養(yǎng)分含量的實(shí)測值。
步驟(6)中,分段直接矯正結(jié)合斜率/截距修正法(pds-s/b)算法具體步驟為:
1)采用pds算法求出轉(zhuǎn)移矩陣f。分別計算主樣品校正集x主和從樣品標(biāo)準(zhǔn)集x標(biāo)的平均光譜,對主樣品第j個波長點(diǎn)處的光譜值求其平均光譜m1,在從樣品標(biāo)準(zhǔn)集平均光譜m2的第j個波長點(diǎn)附近截取窗口寬度為(j-k~j+k)的波段,令zj=[m2,j-k,…,m2,j,m2,j+1,…m2,j+k],然后構(gòu)建m1(j)與zj之間的多元線性回歸方程m1(j)=zj×fj,由pls算法求得回歸系數(shù)fj,然后循環(huán)j,求出所有的fj。將fj置于轉(zhuǎn)移矩陣f的主對角線上,并將其他元素置0,得到轉(zhuǎn)移矩陣f,相關(guān)公式如下:
m1=m2·f
其中,n1和n2分別為x主和x標(biāo)的樣品個數(shù),x(i,j)為光譜矩陣x中第i行第j列處的光譜值。
2)根據(jù)轉(zhuǎn)移矩陣f,分別對從樣品標(biāo)準(zhǔn)集x標(biāo)和未知集x未光譜進(jìn)行轉(zhuǎn)換,得到經(jīng)pds算法轉(zhuǎn)換后的標(biāo)準(zhǔn)集x標(biāo)f和未知集x未f相關(guān)公式如下:
x標(biāo)f=x標(biāo)·f
x未f=x未·f
3)采用s/b算法計算最終預(yù)測值,用一元線性回歸方程來擬合轉(zhuǎn)換后的標(biāo)準(zhǔn)集x標(biāo)f和轉(zhuǎn)換后標(biāo)準(zhǔn)集的實(shí)測值y標(biāo),求得此線性方程的最小二乘解,即為該線性模型的斜率slope和截距bias,根據(jù)計算的斜率和截距求得未知集的預(yù)測值y未p,相關(guān)公式如下:
y未p=slope·x未f+bias
步驟(6)中,典型相關(guān)性分析結(jié)合斜率/截距修正法(cca-s/b)算法具體步驟為:
1)采用cca算法求出轉(zhuǎn)移矩陣f。采用kennard-stone算法從主樣品校正集x主中篩選出與從樣品標(biāo)準(zhǔn)集x標(biāo)樣品個數(shù)一樣的矩陣x主cca,根據(jù)x主cca和x標(biāo)計算矩陣c,由矩陣c計算特征值與特征向量,其相關(guān)公式如下:
將每一個非零特征值ρ所對應(yīng)的特征向量wm和ws分別歸為矩陣wm和ws,即為x主cca和x標(biāo)的典型相關(guān)系數(shù)wm和ws,對x主cca和x標(biāo)進(jìn)行cca分解,計算出x主cca和x標(biāo)的典型相關(guān)成分lm和ls,最終得到轉(zhuǎn)移矩陣f,公式如下:
lm=x主cca×wm
ls=x標(biāo)×ws
f=ws×f1×f2
2)根據(jù)轉(zhuǎn)移矩陣f,分別對從樣品標(biāo)準(zhǔn)集x標(biāo)和未知集x未光譜進(jìn)行轉(zhuǎn)換,得到經(jīng)cca算法轉(zhuǎn)換后的標(biāo)準(zhǔn)集x標(biāo)f和未知集x未f相關(guān)公式如下:
x標(biāo)f=x標(biāo)·f
x未f=x未·f
3)采用s/b算法計算最終預(yù)測值,用一元線性回歸方程來擬合轉(zhuǎn)換后的標(biāo)準(zhǔn)集x標(biāo)f和轉(zhuǎn)換后標(biāo)準(zhǔn)集的實(shí)測值y標(biāo),求得此線性方程的最小二乘解,即為該線性模型的斜率slope和截距bias,根據(jù)計算的斜率和截距求得未知集的預(yù)測值y未p,相關(guān)公式如下:
y未p=slope·x未f+bias
基于不同品種或地區(qū)間的模型轉(zhuǎn)移現(xiàn)有算法有分段直接矯正結(jié)合線性插值(pds-li)、直接矯正結(jié)合線性插值(ds-li)、斜率/截距修正法(s/b)、直接矯正結(jié)合斜率/截距修正法(ds-s/b)等。分段直接矯正結(jié)合線性插值(pds-li)算法是采用pds算法對從樣品進(jìn)行校正,然后在從樣品標(biāo)準(zhǔn)樣品中選擇與未知樣品最接近的兩個樣品,根據(jù)其預(yù)測值和實(shí)測值,建立li函數(shù),實(shí)現(xiàn)對未知樣品的預(yù)測。直接矯正結(jié)合線性插值(ds-li)與pds-li算法類似,區(qū)別在于采用ds算法對從樣品進(jìn)行校正,然后再建立li函數(shù)。斜率/截距修正法(s/b)算法是主樣品模型對從樣品標(biāo)準(zhǔn)集的預(yù)測值和實(shí)測值用一條直線擬合得到斜率和截距,將其作為模型轉(zhuǎn)移未知樣品修正的系數(shù)。直接矯正結(jié)合斜率/截距修正法(ds-s/b)是先對從樣品進(jìn)行ds校正,然后采用s/b算法得到模型轉(zhuǎn)移未知樣品的修正系數(shù)。這些算法也可用于本技術(shù)方案。
步驟(7)中,評價分析采用平均相對誤差、最大相對誤差、預(yù)測均方根誤差(rmsep)綜合進(jìn)行評價分析。
本發(fā)明基于光譜技術(shù),采用多種模型轉(zhuǎn)移算法,實(shí)現(xiàn)不同地區(qū)間土壤的養(yǎng)分含量值預(yù)測。在現(xiàn)有儀器間模型轉(zhuǎn)移算法應(yīng)用的基礎(chǔ)上,通過結(jié)合和改進(jìn)現(xiàn)有模型轉(zhuǎn)移算法,提出一些新的模型轉(zhuǎn)移算法,如pds-s/b、cca-li、cca-s/b等,將其作為多算法推薦的基礎(chǔ)。通過采用多種模型轉(zhuǎn)移算法實(shí)現(xiàn)不同地區(qū)間土壤養(yǎng)分含量的預(yù)測,根據(jù)平均相對誤差、預(yù)測均方根誤差等評價標(biāo)準(zhǔn)推薦出一種最優(yōu)模型轉(zhuǎn)移方法,能夠更加全面、準(zhǔn)確的實(shí)現(xiàn)土壤養(yǎng)分含量的預(yù)測。本發(fā)明運(yùn)用一個土壤養(yǎng)分含量模型,提出了新的模型轉(zhuǎn)移算法,結(jié)合多種模型轉(zhuǎn)移算法推薦出最優(yōu)算法,解決了不同地區(qū)間土壤養(yǎng)分含量預(yù)測的難題,在保證該模型預(yù)測效果的同時,減少了土壤養(yǎng)分化學(xué)方法測量的時間,降低成本,節(jié)省人力物力,快速、簡單的實(shí)現(xiàn)土壤養(yǎng)分的預(yù)測。
附圖說明
圖1:一種基于多算法推薦的不同地區(qū)間土壤養(yǎng)分模型轉(zhuǎn)移方法流程圖;
圖2:主樣品土壤可見近紅外反射光譜曲線圖;
圖3:從樣品土壤可見近紅外反射光譜曲線圖;
圖4:主樣品與從樣品第一主成分和第二主成分空間分布圖
圖5:主樣品土壤養(yǎng)分(全氮)校正集的擬合結(jié)果圖;
圖6:主樣品土壤養(yǎng)分(全氮)檢驗(yàn)集的擬合結(jié)果圖;
圖7:從樣品未知集土壤養(yǎng)分(全氮)預(yù)測值與實(shí)測值對比圖。
具體實(shí)施方式
結(jié)合附圖和具體實(shí)施方式對本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)的說明:
一種基于多算法推薦的不同地區(qū)間土壤養(yǎng)分模型轉(zhuǎn)移方法,以基于可見近紅外光譜對不同地區(qū)間土壤全氮含量值實(shí)現(xiàn)多算法推薦模型轉(zhuǎn)移為例,包括下列步驟:
(1)采集土壤樣品
采集青島浮山山麓、青島李村河畔土壤樣品各60份。對土壤樣品去除石塊等異物,55℃干燥4-8小時后過0.45mm尼龍篩,將過濾后的土壤樣本置入樣品袋中,并填寫相應(yīng)的樣品編號。設(shè)定青島李村河畔土壤為主樣品,設(shè)定青島浮山山麓為從樣品。
(2)測定土壤樣品養(yǎng)分含量及可見-近紅外光譜
從土壤樣品中分別取出5-10g,采用碳氮分析儀測定土壤樣品的全氮含量。
采用海洋光學(xué)qe65000光譜儀測定土壤樣品的光譜,譜區(qū)范圍是200-1100nm(光譜范圍主要為可見近紅外光譜,包含小部分紫外光譜)。每個土壤樣品測定5次光譜反射率,取平均值,主、從樣品土壤可見近紅外反射光譜的曲線圖分別如圖2、圖3所示,主、從樣品土壤第一主成分與第二主成分在主成分空間的分布見圖2,主、從樣品在主成分空間中分成了兩個區(qū)域,說明兩樣品光譜有明顯差異。
(3)建立主樣品校正模型
采用kennard-stone算法以3:1的比例劃分主樣品的校正集和檢驗(yàn)集,即校正集45份,檢驗(yàn)集15份。以偏最小二乘法(pls)建立主樣品校正集模型,并對主樣品檢驗(yàn)集進(jìn)行預(yù)測,主樣品土壤養(yǎng)分(全氮)校正集和檢驗(yàn)集的擬合結(jié)果分別如圖5、6所示,校正集和檢驗(yàn)集的絕對系數(shù)r2分別為0.9603、0.9053,相對分析誤差rpd為2.506。該模型校正集和檢驗(yàn)集的絕對系數(shù)均在0.9以上,且rpd值在2.5以上,該校正模型為極好的模型,可以用于極好的預(yù)測。
(4)劃分從樣品標(biāo)準(zhǔn)集、驗(yàn)證集和未知集
剔除從樣品中的異常土壤樣品后,共計58個土壤樣品,采用kennard-stone算法以1:2的比例劃分從樣品的已知集和未知集,即已知集20份,未知集38份;再將從樣品已知集采用kennard-stone算法以1:1比例劃分為從樣品標(biāo)準(zhǔn)集和驗(yàn)證集,即標(biāo)準(zhǔn)集10份,驗(yàn)證集10份。
(5)模型轉(zhuǎn)移
主、從樣品無光譜預(yù)處理,采用多種算法對主、從樣品進(jìn)行模型轉(zhuǎn)移,包括li、pds-li、ds-li、cca-li、s/b、pds-s/b、ds-s/b、cca-s/b等算法,得到土壤從樣品未知集的預(yù)測結(jié)果,然后對從樣品未知集化學(xué)值和預(yù)測值進(jìn)行評價分析,見下表。
由上表可知,經(jīng)任意一種模型轉(zhuǎn)移算法處理后,rmsep、平均相對誤差、相對誤差最大值都有大幅度的減小,平均相對誤差由462.87%均下降到45%以下,以上算法都能夠提高預(yù)測值的準(zhǔn)確性。在以上八種模型轉(zhuǎn)移算法中,pds-s/b算法效果最好,rmsep、平均相對誤差、相對誤差最大值均最小,分別為0.063、9.02%、24.94%,推薦pds-s/b算法用于該從樣品地區(qū)土壤的樣品預(yù)測。
(6)模型轉(zhuǎn)移算法驗(yàn)證
根據(jù)上述推薦算法,采用pds-s/b算法對從樣品驗(yàn)證集進(jìn)行模型轉(zhuǎn)移,然后用主樣品模型進(jìn)行預(yù)測,得到預(yù)測值。下表為未經(jīng)模型轉(zhuǎn)移預(yù)測結(jié)果、進(jìn)行模型轉(zhuǎn)移后預(yù)測結(jié)果及其相對誤差。
由上表可知,平均相對誤差和最大相對誤差明顯減少,平均相對誤差由462.86%降為8.19%,最大相對誤差為23.42%,遠(yuǎn)小于無模型轉(zhuǎn)移每個樣品預(yù)測值的相對誤差;rmsep由2.526下降到0.053,因此多算法推薦能夠全面、準(zhǔn)確實(shí)現(xiàn)不同地區(qū)間土壤養(yǎng)分含量預(yù)測。
以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其進(jìn)行任何限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,對于本領(lǐng)域的普通技術(shù)人員來說,依然可以對前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明所要求保護(hù)的技術(shù)方案的精神和范圍。