本發(fā)明涉及物質(zhì)成分、含量的定量分析方法的技術(shù)領(lǐng)域,具體地說是一種利用樣本中的多種化學(xué)信號(hào)建立定量分析模型進(jìn)行分析的方法。
背景技術(shù):
物質(zhì)的定量分析是研究物質(zhì)性質(zhì)的重要手段。通常是單獨(dú)利用色譜或光譜建立偏最小二乘回歸定量分析模型。但是僅僅利用一種化學(xué)信號(hào)并不能完整的反映物質(zhì)的特性,因此偏最小二乘回歸定量分析模型的誤差就較大。
但是傳統(tǒng)的偏最小二乘模型及其改進(jìn)的方法包括方差約束的偏最小二乘,正交信號(hào)校正偏最小二乘,只能針對單獨(dú)信號(hào)進(jìn)行建模,并不能有效、綜合地利用樣本的多種化學(xué)信息建立模型。針對上述問題我們提出一種新的偏最小二乘回歸模型對樣本進(jìn)行定量分析。不同類型的化學(xué)信號(hào)都是從同一個(gè)樣本獲取的,因此具有內(nèi)在的相關(guān)性。比如對于液體物質(zhì)由于有水的存在中紅外3300cm-1就會(huì)出現(xiàn)吸收峰,氣相色譜質(zhì)譜中也會(huì)檢測到水的存在。該模型利用同一個(gè)樣本的不同類型的化學(xué)信號(hào)進(jìn)行建模,提高了定量分析的精度。
中國專利申請?zhí)枮镃N200710307532.X,該發(fā)明提供了一種物質(zhì)定量分析方法,包括以下步驟,用質(zhì)譜分析裝置對至少兩份標(biāo)定物質(zhì)進(jìn)行分析已得到分析結(jié)果,每一標(biāo)定物質(zhì)含有第一物質(zhì)成分和第二物質(zhì)成分,每一標(biāo)定物質(zhì)所含有的第一物質(zhì)成分和第二物質(zhì)成分的濃度是已知的,以所述質(zhì)譜分析裝置分析含有第一物質(zhì)成分和第二物質(zhì)成分的被測物質(zhì),該被測物質(zhì)中第一物質(zhì)成分的濃度為已知,然后根據(jù)被測物質(zhì)中第一物質(zhì)成分的濃度及所述分析結(jié)果計(jì)算出該被測物質(zhì)中第二物質(zhì)成分的濃度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是:建立一種能綜合利用各種化學(xué)信號(hào)的模型;相比以往的模型定量分析精度更高。
為了實(shí)現(xiàn)本發(fā)明以上發(fā)明目的,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
一種物質(zhì)含量分析方法,包括以下步驟:
S100:根據(jù)兩種不同物質(zhì)含量分析儀器獲取同一樣品的采集信號(hào);
S200:根據(jù)兩組不同所述采集信號(hào)生成數(shù)學(xué)模型:
arg max<Y,α1X1w1+α2X2w2>+λ<X1w1,X2w2>
s.t||w1||2=1,||w2||2=1,
其中,符號(hào)“<·>”表示求內(nèi)積運(yùn)算,λ是正則化常數(shù),符號(hào)s.t表示約束條件,||·||2表示求2范數(shù);
S300:求解所述數(shù)學(xué)模型,獲得結(jié)果函數(shù):
β=(α1X1W1+α2X2W2)+Y,其中,β為回歸系數(shù),(.)+表示廣義逆。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述S100步驟包括如下步驟:
S101:第一物質(zhì)含量分析儀器對所述樣品的n個(gè)樣本采集n個(gè)所述信號(hào):每個(gè)所述信號(hào)的長度是p1,組成n×p1矩陣X1;
S102:第二物質(zhì)含量分析儀器對所述樣品的n個(gè)所述樣本采集n個(gè)所述信號(hào):每個(gè)所述信號(hào)的長度是p1,組成n×p2矩陣X2;
S103:每個(gè)所述樣本對應(yīng)的物質(zhì)濃度數(shù)值組成n×1矩陣Y。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述S200步驟包括如下步驟:
S201:引入方向向量w1、w2,使得w1、w2分別能提取到所述矩陣X1、X2的最大信息,即X1、X2在w1、w2上的投影t1=X1w1、t2=X2w2方差最大;
S202:引入線性組合的系數(shù)α1,α2,使得α1X1w1+α2X2w2與Y的相關(guān)性達(dá)到最大;
S203:同時(shí),使得X1w1,X2w2之間的相關(guān)性達(dá)到最大。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述S300步驟包括如下步驟:
S310:對所述數(shù)學(xué)模型,根據(jù)拉格朗日乘數(shù)法得拉格朗日函數(shù)為:
其中,α1,α2是線性組合的系數(shù),λ是正則化常數(shù),參數(shù)γ1,γ2又稱作拉格朗日乘子;
其中,分別表示對w1,w2,γ1,γ2求偏導(dǎo)數(shù),式③和式④表示w1,w2的長度歸一化為1。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述S310步驟包括如下步驟:
S301:初始化迭代次數(shù)k,
其中,w1和w2上標(biāo)(0)表示w1和w2初始值,以此類推表示第一次迭代值,表示第二次迭代值,....表示第k次迭代值;
S302:利用w2第i次迭代的值和式①更新得到利用和式②更新得到計(jì)算將和的長度歸一化到1,迭代k次,得到最終的w1,w2;
S303:更新X1,X2分別為
其中,t1=X1w1,t2=X2w2,
再進(jìn)一步,所述的物質(zhì)含量分析方法,所述S400步驟包括步驟S401:
重復(fù)S301、S302、S303,h次,得到的h個(gè)向量w1,w2,組成矩陣W1,W2。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述結(jié)果函數(shù)為α1X1W1+α2X2W2與Y之間的最小二乘法回歸模型。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述S300步驟包括如下步驟:S400:生成所述物質(zhì)含量分析的二維曲線,其中,縱坐標(biāo)為“誤差”,橫坐標(biāo)為向量w1或w2的個(gè)數(shù)。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述物質(zhì)含量分析儀器為紅外光譜儀、光譜分析儀、氣相色譜質(zhì)譜儀、液相色譜質(zhì)譜儀或者核磁共振譜儀。
進(jìn)一步,所述的物質(zhì)含量分析方法,所述樣品為固體、液體或者氣體。
本發(fā)明與國內(nèi)外現(xiàn)有同類產(chǎn)品的相比,其有益效果在于以下幾點(diǎn):
1、該模型能綜合利用多種化學(xué)信號(hào)的模型,而傳統(tǒng)的偏最小二乘法回歸卻不具備這種性能;
2、相比以往的模型定量分析精度更高;
3、計(jì)算復(fù)雜度較低。
附圖說明
下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)說明:
圖1為本發(fā)明第一實(shí)施例模型原理示意圖;
圖2為本發(fā)明第一實(shí)施例流程示意圖;
圖3為本發(fā)明第三實(shí)施例藥片活性物質(zhì)含量分析結(jié)果示意圖(橫坐標(biāo)表示向量w1或w2的個(gè)數(shù));
圖4為本發(fā)明第三實(shí)施例紅酒乙酸乙酯含量分析結(jié)果示意圖(橫坐標(biāo)表示向量w1或w2的個(gè)數(shù));
圖5為本發(fā)明第三實(shí)施例紅酒乙醇含量分析結(jié)果示意圖(橫坐標(biāo)表示向量w1或w2的個(gè)數(shù))。
具體實(shí)施方式
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,以下說明和附圖對于本發(fā)明是示例性的,并且不應(yīng)被理解為限制本發(fā)明。以下說明描述了眾多具體細(xì)節(jié)以方便對本發(fā)明理解。然而,在某些實(shí)例中,熟知的或常規(guī)的細(xì)節(jié)并未說明,以滿足說明書簡潔的要求。
在本申請一個(gè)典型的配置中,用于模型計(jì)算和圖形曲線生成的運(yùn)算終端包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
本發(fā)明中的用于模型計(jì)算和圖形曲線生成的運(yùn)算終端包括處理器,含單核處理器或多核處理器。處理器也可稱為一個(gè)或多個(gè)微處理器、中央處理單元(CPU)等等。更具體地,處理器可為復(fù)雜的指令集計(jì)算(CISC)微處理器、精簡指令集計(jì)算(RISC)微處理器、超長指令字(VLIW)微處理器、實(shí)現(xiàn)其他指令集的處理器,或?qū)崿F(xiàn)指令集組合的處理器。處理器還可為一個(gè)或多個(gè)專用處理器,諸如專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、數(shù)字信號(hào)處理器(DSP)、網(wǎng)絡(luò)處理器、圖形處理器、網(wǎng)絡(luò)處理器、通信處理器、密碼處理器、協(xié)處理器、嵌入式處理器、或能夠處理指令的任何其他類型的邏輯部件。處理器用于執(zhí)行本發(fā)明所討論的操作和步驟的指令。
本發(fā)明中的用于模型計(jì)算和圖形曲線生成的運(yùn)算終端包括存儲(chǔ)器,可包括一個(gè)或多個(gè)易失性存儲(chǔ)設(shè)備,如隨機(jī)存取存儲(chǔ)器(RAM)、動(dòng)態(tài)RAM(DRAM)、同步DRAM(SDRAM)、靜態(tài)RAM(SRAM)或其他類型的存儲(chǔ)設(shè)備。存儲(chǔ)器可存儲(chǔ)包括由處理器或任何其他設(shè)備執(zhí)行的指令序列的信息。例如,多種操作系統(tǒng)、設(shè)備驅(qū)動(dòng)程序、固件(例如,輸入輸出基本系統(tǒng)或BIOS)和/或應(yīng)用程序的可執(zhí)行代碼和/或數(shù)據(jù)可被加載在存儲(chǔ)器中并且由處理器執(zhí)行。
本發(fā)明中的用于模型計(jì)算和圖形曲線生成的運(yùn)算終端的操作系統(tǒng)可為任何類型的操作系統(tǒng),例如微軟公司的Windows、Windows Phone,蘋果公司IOS,谷歌公司的Android,以及Linux、Unix操作系統(tǒng)或其他實(shí)時(shí)或嵌入式操作系統(tǒng)諸如VxWorks等。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,以下說明和附圖對于本發(fā)明是示例性的,并且不應(yīng)被理解為限制本發(fā)明。以下說明描述了眾多具體細(xì)節(jié)以方便對本發(fā)明理解。然而,在某些實(shí)例中,熟知的或常規(guī)的細(xì)節(jié)并未說明,以滿足說明書簡潔的要求。本發(fā)明的具體判斷系統(tǒng)及方法參見下述實(shí)施例:
第一實(shí)施例
如圖1第一實(shí)施例流程示意圖所示:
一種物質(zhì)含量分析方法,包括以下步驟:
S100:根據(jù)兩種不同物質(zhì)含量分析儀器獲取同一樣品的采集信號(hào);
S200:根據(jù)兩組不同所述采集信號(hào)生成數(shù)學(xué)模型:
arg max<Y,α1X1w1+α2X2w2+λ<X1w1,X2w2>
s.t||w1||2=1,||w2||2=1,
其中,符號(hào)“<·>”表示求內(nèi)積運(yùn)算,λ是正則化常數(shù),符號(hào)s.t表示約束條件,||·||2表示求2范數(shù);
S300:求解所述數(shù)學(xué)模型,獲得結(jié)果函數(shù):
β=(α1X1W1+α2X2W2)+Y,其中,β為回歸系數(shù),(.)+表示廣義逆。
優(yōu)選地,所述的物質(zhì)含量分析方法,所述S100步驟包括如下步驟:
S101:第一物質(zhì)含量分析儀器對所述樣品的n個(gè)樣本采集n個(gè)所述信號(hào):每個(gè)所述信號(hào)的長度是p1,組成n×p1矩陣X1;
S102:第二物質(zhì)含量分析儀器對所述樣品的n個(gè)所述樣本采集n個(gè)所述信號(hào):每個(gè)所述信號(hào)的長度是p1,組成n×p2矩陣X2;
S103:每個(gè)所述樣本對應(yīng)的物質(zhì)濃度數(shù)值組成n×1矩陣Y。
優(yōu)選地,所述的物質(zhì)含量分析方法,所述S200步驟包括如下步驟:
S201:引入方向向量w1、w2,使得w1、w2分別能提取到所述矩陣X1、X2的最大信息,即X1、X2在w1、w2上的投影t1=X1w1、t2=X2w2方差最大;
S202:引入線性組合的系數(shù)α1,α2,使得α1X1w1+α2X2w2與Y的相關(guān)性達(dá)到最大;
S203:同時(shí),使得X1w1,X2w2之間的相關(guān)性達(dá)到最大。
優(yōu)選地,所述的物質(zhì)含量分析方法,所述S300步驟包括如下步驟:
S310:對所述數(shù)學(xué)模型,根據(jù)拉格朗日乘數(shù)法有:
其中,α1,α2是線性組合的系數(shù),λ是正則化常數(shù),參數(shù)γ1,γ2又稱作拉格朗日乘子;
其中,分別表示對w1,w2,γ1,γ2求偏導(dǎo)數(shù),式③和式④表示w1,w2的長度歸一化為1。
優(yōu)選地,所述的物質(zhì)含量分析方法,所述S310步驟包括如下步驟:
S301:初始化迭代次數(shù)k,
其中,w1和w2上標(biāo)(0)表示w1和w2初始值,以此類推表示第一次迭代值,表示第二次迭代值,....表示第k次迭代值;
S302:利用w2第i次迭代的值和式①更新得到利用和式②更新得到計(jì)算將和的長度歸一化到1,迭代k次,得到最終的w1,w2;
S303:更新X1,X2分別為
其中,t1=X1w1,t2=X2w2,
再進(jìn)一步優(yōu)選地,所述的物質(zhì)含量分析方法,所述S300步驟包括步驟S320:
重復(fù)S301、S302、S303,h次,得到的h個(gè)向量w1,w2,組成矩陣W1,W2。
優(yōu)選地,所述的物質(zhì)含量分析方法,所述結(jié)果函數(shù)為α1X1W1+α2X2W2與Y之間的最小二乘法回歸模型。
優(yōu)選地,所述的物質(zhì)含量分析方法,所述S300步驟后還有如下步驟:S400:生成所述物質(zhì)含量分析的二維曲線,其中,縱坐標(biāo)為“誤差”,橫坐標(biāo)為向量w1或w2的個(gè)數(shù)。
進(jìn)一步可選地,所述的物質(zhì)含量分析方法,所述物質(zhì)含量分析儀器為紅外光譜儀、光譜分析儀、氣相色譜質(zhì)譜儀、液相色譜質(zhì)譜儀或者核磁共振譜儀。
進(jìn)一步可選地,所述的物質(zhì)含量分析方法,所述樣品為固體、液體或者氣體。
第二實(shí)施
本實(shí)施例的實(shí)現(xiàn)步驟如下:
(1)用第一種儀器對n個(gè)樣本采集信號(hào)得到其中上標(biāo)1表示的是第一種儀器采集的信號(hào)。每一個(gè)信號(hào)的長度是p1,將組成大小為n×p1矩陣X1;用第二種儀器對n個(gè)樣本采集信號(hào)得到其中上標(biāo)2表示的是第二種儀器采集的信號(hào)。每一個(gè)信號(hào)的長度是p2,將組成大小為n×p2矩陣X2;每個(gè)樣本都對應(yīng)的物質(zhì)濃度數(shù)值組成一個(gè)n×1矩陣的矩陣Y;
(2)尋找方向向量w1,w2使得w1,w2分別能提取到X1,X2的最大信息,即X1,X2在w1,w2上的投影t1=X1w1,t2=X2w2方差最大;
(3)為了定量分析的需要α1X1w1+α2X2w2與u的相關(guān)性達(dá)到最大,其中α1,α2是線性組合的系數(shù);
(4)同時(shí)X1w1,X2w2之的相關(guān)性達(dá)到最大;
(5)上述(2)-(4)步驟歸結(jié)起來就是求解如下模型:
arg max<Y,α1X1w1+α2X2w2>+λ<X1w1,X2w2>
s.t||w1||2=1,||w2||2=1
其中符號(hào)<·>表示求內(nèi)積運(yùn)算,λ是正則化常數(shù),符號(hào)s.t表示約束條件,||·||2表示求2范數(shù)。
(6)求解步驟(5)中所表示的模型,具體過程是這樣的,根據(jù)拉格朗日乘數(shù)法有:
其中α1,α2是線性組合的系數(shù),λ是正則化常數(shù),參數(shù)γ1,γ2又稱作拉格朗日乘子。
其中,分別表示對w1,w2,γ1,γ2求偏導(dǎo)數(shù),式③和式④表示w1,w2的長度歸一化為1。
(a)初始化迭代次數(shù)k,其中w1和w2上標(biāo)(0)表示w1和w2初始值,以此類推表示第一次迭代值,表示第二次迭代值,....表示第k次迭代值.
(b)利用w2第i次迭代的值和式(1)更新得到利用和式(2)更新得到計(jì)算將和的長度歸一化到1,迭代k次,得到最終的w1,w2
(c)t1=X1w1,t2=X2w2,更新X1,X2分別為
(a)-(c)重復(fù)h次,將h次得到的各h個(gè)向量w1,w2組成矩陣W1,W2
(d)建立α1X1W1+α2X2W2與Y之間的最小二乘回歸模型,定義β為回歸系數(shù),β=(α1X1W1+α2X2W2)+Y,(.)+表示廣義逆;
對新的樣本X1test,X2test,預(yù)測的結(jié)果R為:
R=(α1X1testW1+α2X2testW2)(α1X1W1+α2X2W2)+Y
第三實(shí)施例
基于上述分析方法,三次具體實(shí)驗(yàn)分析對比結(jié)果如下:
1、藥片光譜分析,數(shù)據(jù)集由320個(gè)近紅外光譜和120個(gè)拉曼光譜組成,分析指標(biāo)是活性成分的含量,選出116個(gè)具有相同活性成分的近紅外光譜和拉曼光譜,設(shè)116個(gè)近紅外光譜組成的矩陣為X1,116個(gè)拉曼光譜組成的矩陣為X2,參數(shù)α1=0.5,α2=100,λ1=10,γ1=100,γ2=150,
k=20,h=15對比本文方法和其他三種方法的誤差如圖3為本發(fā)明第三實(shí)施例藥片活性物質(zhì)含量分析結(jié)果示意圖所示,從圖3中可以看出,本文提供的具體算法方案的誤差最小。
2、紅酒光譜分析,數(shù)據(jù)集由44個(gè)近紅外光譜和44氣相色譜組成,分析指標(biāo)是乙酸乙酯的含量,設(shè)44個(gè)近紅外光譜組成的矩陣為X1,44個(gè)氣相色譜組成的矩陣為X2,參數(shù)α1=0.5,α2=100,λ1=10,γ1=100,γ2=150,k=20,h=15對比本文方法和其他三種方法的誤差如圖4為本發(fā)明第三實(shí)施例紅酒乙酸乙酯含量分析結(jié)果示意圖所示,從圖4中可以看出,本文算法的誤差最小。
3、數(shù)據(jù)集和參數(shù)和實(shí)驗(yàn)2中一樣,本實(shí)驗(yàn)3分析乙醇含量,結(jié)果如圖5為本發(fā)明第三實(shí)施例紅酒乙醇含量分析結(jié)果示意圖所示,從圖5中可以看出,本文算法的誤差最小。
對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無論從哪一點(diǎn)來看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個(gè)單元或裝置也可以由一個(gè)單元或裝置通過軟件或者硬件來實(shí)現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。