本發(fā)明涉及一種用于谷氨酰胺定量分析的波長選擇方法及裝置,屬于太赫茲光譜技術領域。
背景技術:
在對谷氨酰胺樣品進行太赫茲吸收譜定量分析中,通過實驗得到的谷氨酰胺樣品的原始太赫茲吸收譜通常涵蓋一段較寬的頻段,包含大量的波長點數(shù)據(jù),其中不僅包括信噪比較高的有用數(shù)據(jù),也包含信噪比較低的噪聲數(shù)據(jù)以及不屬于任一組分特征的冗余數(shù)據(jù),若直接將原始吸收譜用于定量分析勢必導致較高誤差,因此需要進行適當選擇。由于吸收譜是由一系列波長點數(shù)據(jù)組成的,對吸收譜數(shù)據(jù)的選擇實際上就是對波長的選擇,因而在光譜學中被定義為波長選擇(Wavelength selection)。對于太赫茲光譜定量分析領域而言,波長選擇對定量分析的準確度至關重要,若選擇不恰當,會導致較大誤差。但是目前在太赫茲光譜定量分析中,波長選擇常用的做法是人為地依據(jù)經(jīng)驗從原始光譜中選取某一波段數(shù)據(jù)用于定量計算,而對太赫茲光譜波長選擇的機理及方法缺乏系統(tǒng)性的深入研究。
中國計量學院的王強教授等人分別利用偏最小二乘法(partial least squares,PLS)、區(qū)間偏最小二乘法(interval PLS,iPLS)、向后區(qū)間偏最小二乘法(backward iPLS,biPLS)以及移動窗口偏最小二乘法(moving window PLS,mwPLS)對噻苯咪唑位于0.3-1.6THz頻段內(nèi)的太赫茲特征光譜進行了波長選擇,并對四種算法的性能進行了細致的比較。桂林電子科技大學的陳濤等人就太赫茲光譜定量分析中的特征譜區(qū)篩選進行了相關研究。除上述王強等人提出的波長選擇方法外,又采用了聯(lián)合區(qū)間偏最小二乘法(siPLS)并進行了一系列對比。但是基于偏最小二乘的波長選擇方法,通過將原始光譜分割成若干區(qū)間加以篩選,難免會將部分無意義數(shù)據(jù)含入其中,甚至將一些有意義數(shù)據(jù)錯誤地拋棄。
公布號為CN105136714A的專利申請文件公開了一種基于遺傳算法的太赫茲光譜波長選擇方法,該方法采用遺傳算法進行波長選擇,其所采用的遺傳算法中交叉概率與變異概率的值為固定值,導致算法過早收斂,使得搜索的目標范圍變小,影響所選取的波長的準確性,最終導致谷氨酰胺定量分析的誤差增大。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種用于谷氨酰胺定量分析的波長選擇方法及裝置,以解決目前波長選擇方法所選取到的波長不夠準確的問題。
本發(fā)明為解決上述技術問題而提供一種用于谷氨酰胺定量分析的波長選擇方法,該波長選擇方法的步驟如下:
1)隨機生成一個大小為S的初始種群,利用該初始種群從谷氨酰胺樣品的太赫茲吸收譜中進行選取,以得到種群中每個個體相對應的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜;
2)根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應度函數(shù);
3)利用所構(gòu)造的適應度函數(shù)從種群中選擇出適應度較高的個體遺傳到下一代,組成新一代種群;
4)以能夠根據(jù)適應度自適應調(diào)節(jié)的交叉概率和變異概率分別對新一代種群進行交叉和變異操作;
5)以預設的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則算法終止,并挑選出具有最大適應度值的個體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復步驟3)—4),直到滿足終止條件為止。
進一步地,所述步驟4)中的交叉概率PC和變異概率PM為:
Δ=Faverage-Fmax
其中Faverage是種群中所有個體適應度值的平均值,F(xiàn)max是種群中所有個體適應度值的最大值,Δ是上述二者之差。
進一步地,所述步驟2)構(gòu)建的適應度函數(shù)為:
qe=|ccal-creal|
其中F是適應度值,m是校正集中谷氨酰胺樣品的總數(shù)量(校正集是由若干個成分濃度信息已知的谷氨酰胺樣品組成的),qe是每個谷氨酰胺樣品對應的定量分析誤差,n代表校正集中混合物樣品的某一個。
進一步地,步驟3)中個體遺傳到下一代的個數(shù)num(i)為:
其中num(i)是第i個個體遺傳到下一代種群中的個數(shù),S0.2是種群大小的20%,i代表種群中所有個體的某一個,F(xiàn)(i)代表其所對應的適應度值。
進一步地,所述的收斂條件為連續(xù)N代的適應度最大值F_Max的標準差小于設定閾值TH。
本發(fā)明還提供了一種用于谷氨酰胺定量分析的波長選擇裝置,該選擇裝置包括生成模塊、適應度函數(shù)構(gòu)造模塊、選擇模塊、交叉和變異操作模塊和終止模塊,
所述生成模塊用于隨機生成一個大小為S的初始種群,利用該初始種群從谷氨酰胺樣品的太赫茲吸收譜中進行選取,以得到種群中每個個體相對應的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜;
所述適應度函數(shù)構(gòu)造模塊用于根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應度函數(shù);
所述選擇模塊用于利用所構(gòu)造的適應度函數(shù)從種群中選擇出適應度較高的個體遺傳到下一代,組成新一代種群;
所述的交叉和變異操作模塊用于以能夠根據(jù)適應度自適應調(diào)節(jié)的交叉概率和變異概率分別對新一代種群進行交叉和變異操作;
所述的終止模塊用于以預設的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則算法終止,并挑選出具有最大適應度值的個體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復執(zhí)行選擇模塊與交叉和變異操作模塊,直到滿足終止條件為止。
進一步地,所述交叉和變異操作模塊中采用的交叉概率PC和變異概率PM為:
Δ=Faverage-Fmax
其中Faverage是種群中所有個體適應度值的平均值,F(xiàn)max是種群中所有個體適應度值的最大值,Δ是上述二者之差。
進一步地,所述的適應度函數(shù)構(gòu)造模塊構(gòu)造的適應度函數(shù)為:
qe=|ccal-creal
其中F是適應度值,m是校正集中谷氨酰胺樣品的總數(shù)量,qe是每個谷氨酰胺樣品對應的定量分析誤差,n代表校正集中混合物樣品的某一個,ccal和creal分別是谷氨酰胺樣品的計算濃度和真實濃度。
進一步地,所述的選擇模塊中個體遺傳到下一代的個數(shù)num(i)為:
其中num(i)是第i個個體遺傳到下一代種群中的個數(shù),S0.2是種群大小的20%,i代表種群中所有個體的某一個,F(xiàn)(i)代表其所對應的適應度值。
進一步地,所述終止模塊選用的收斂條件為連續(xù)N代的適應度最大值F_Max的標準差小于設定閾值TH。
本發(fā)明的有益效果是:本發(fā)明采用遺傳算法進行波長選擇,通過隨機生成一個大小為S的初始種群,并得到種群中每個個體相對應的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜,根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應度函數(shù),利用該適應度函數(shù)從上述種群中挑選出適應度較高的個體遺傳到下一代,組成新一代種群,以能夠根據(jù)適應度自適應調(diào)節(jié)的交叉和變異概率分別對新一代種群進行交叉和變異操作,并以預設的收斂條件作為遺傳操作的終止條件。本發(fā)明在進行交叉和變異的遺傳操作時,叉概率與變異概率的值根據(jù)算法的收斂和發(fā)散情況進行自適應調(diào)整,避免算法陷入過早收斂,能夠在大范圍內(nèi)尋求目標問題的最優(yōu)解。通過上述過程,本發(fā)明從中挑選出的波長信息為具有較高信噪比的樣品有用信息,從而提高了谷氨酰胺定量分析的準確度。
附圖說明
圖1是本發(fā)明用于谷氨酰胺定量分析的波長選擇方法的流程圖;
圖2是未經(jīng)波長選擇的谷氨酰胺樣品的太赫茲吸收譜;
圖3是采用本發(fā)明波長選擇后的重構(gòu)谷氨酰胺太赫茲吸收譜。
具體實施方式
下面結(jié)合附圖對本發(fā)明的具體實施方式做進一步的說明。
本發(fā)明用于谷氨酰胺定量分析的波長選擇方法的實施例
本發(fā)明采用遺傳算法進行波長選擇,通過隨機生成一個大小為S的初始種群,并得到種群中每個個體相對應的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜,根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應度函數(shù),利用該適應度函數(shù)從上述種群中挑選出適應度較高的個體遺傳到下一代,組成新一代種群,以能夠根據(jù)適應度自適應調(diào)節(jié)的交叉和變異概率分別對新一代種群進行交叉和變異操作,并以預設的收斂條件作為遺傳操作的終止條件。該方法的流程如圖1所示,具體過程如下:
1.隨機生成一個大小為S的初始種群,并得到種群中每個個體相對應的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜。
該步驟中的初始種群由S個長度為fl的二進制字符串組成,該二進制字符串與谷氨酰胺樣品的太赫茲吸收譜中的fl個頻率點一一對應,若二進制字符串某位上為“1”,則對應頻率點被保留,否則該頻率點則被拋棄,將所有保留下的頻率點數(shù)據(jù)整合在一起,組成經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜。
2.根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應度函數(shù)。
本發(fā)明所構(gòu)造的適應度函數(shù)為:
其中F是適應度值,m是校正集中谷氨酰胺樣品的總數(shù)量(校正集是由若干個成分濃度信息已知的谷氨酰胺樣品組成的),qe是每個谷氨酰胺樣品對應的定量分析誤差,n代表校正集中混合物樣品的某一個。
qe=|ccal-creal| (2)
ccal和creal分別是谷氨酰胺樣品的計算濃度和真實濃度,谷氨酰胺樣品的計算濃度ccal是通過對谷氨酰胺樣品的太赫茲吸收譜進行偏最小二乘線性回歸得到,谷氨酰胺樣品的真實濃度creal是預先配制的。
3.對上述種群進行選擇操作,利用適應度函數(shù)從中挑選中適應度值較高的個體組成新一代種群。
本實施例中的選擇操作個體遺傳到下一代種群中的個數(shù)為:
其中num(i)是第i個個體遺傳到下一代種群中的個數(shù),S0.2是種群大小的20%,i代表種群中所有個體的某一個,F(xiàn)(i)代表其所對應的適應度值,直接用公式(3)計算得到的數(shù)值一般為小數(shù),為使下一代的種群個數(shù)保持不變并使盡可能多的優(yōu)秀個體遺傳下去,設計了如下操作:
對num向下取整,將其和計為n1;計算n1與S的差值,計為n2;將num的小數(shù)部分剝離出來并按照從大到小排列,取前n2個,將其對應個體的num分別加1,從而產(chǎn)生一個大小不變的新種群。
4.對新一代種群執(zhí)行交叉與變異操作,
本實施例中交叉概率PC和變異概率PM為:
Δ=Faverage-Fmax
其中Faverage是種群中所有個體適應度值的平均值,F(xiàn)max是種群中所有個體適應度值的最大值,Δ是上述二者之差??梢姡緦嵤├械慕徊娓怕屎妥儺惛怕誓軌螂S著個體適應度值的變化而進行自適應調(diào)整。
5.以預設的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則終止,并挑選出具有最大適應度值的個體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復步驟3—4,直到滿足終止條件為止。
本實施例中的收斂條件為當連續(xù)N代的適應度最大值F_Max的標準差小于設定閾值TH的時候,使得程序終止。
為了驗證本發(fā)明的優(yōu)越性,設計了一系列定量分析的實驗。實驗選取了10個不同含量的谷氨酰胺樣品的太赫茲吸收譜(其中前7個為校正集,后3個為驗證集),分別利用不經(jīng)選擇的谷氨酰胺全吸收譜以及經(jīng)過本發(fā)明提出的波長選擇方法選擇后的谷氨酰胺重構(gòu)太赫茲吸收譜對谷氨酰胺樣品進行定量分析,谷氨酰胺樣品含量以及定量分析的誤差如表1所示。本實驗中,谷氨酰胺樣品(具體包括谷氨酸和組氨酸)的原始太赫茲吸收譜范圍為0.3-3THz,分辨率約為4.5GHz,共有590個頻率點,所以種群中二進制字符串個體的長度為590,種群大小為50,收斂條件中,N為100,TH為1×10-4。
表1.樣品的組成以及定量分析的誤差
上述實驗數(shù)據(jù)表明,利用本發(fā)明提出的波長選擇方法,能夠有效降低對谷氨酰胺樣品太赫茲吸收譜進行定量分析的誤差,誤差大致在4%以下,取得了優(yōu)異的效果。
本發(fā)明用于谷氨酰胺定量分析的波長選擇裝置的實施例
本實施例中的波長選擇裝置包括生成模塊、適應度函數(shù)構(gòu)造模塊、選擇模塊、交叉和變異操作模塊和終止模塊,生成模塊用于隨機生成一個大小為S的初始種群,利用該初始種群從谷氨酰胺樣品的太赫茲吸收譜中進行選取,以得到種群中每個個體相對應的經(jīng)過波長選擇的谷氨酰胺樣品的重構(gòu)太赫茲吸收譜;適應度函數(shù)構(gòu)造模塊用于根據(jù)谷氨酰胺樣品定量分析的誤差構(gòu)造適應度函數(shù);選擇模塊用于利用所構(gòu)造的適應度函數(shù)從種群中選擇出適應度較高的個體遺傳到下一代,組成新一代種群;交叉和變異操作模塊用于以能夠根據(jù)適應度自適應調(diào)節(jié)的交叉概率和變異概率分別對新一代種群進行交叉和變異操作;終止模塊用于以預設的收斂條件作為遺傳操作的終止條件,若滿足終止條件,則算法終止,并挑選出具有最大適應度值的個體作為所選擇的谷氨酰胺太赫茲吸收譜波長的最優(yōu)解,若不滿足終止條件,則重復執(zhí)行選擇模塊與交叉和變異操作模塊,直到滿足終止條件為止。
這里的波長選擇裝置可以采用單片機、DSP、PLC或MCU等,波長選擇裝置執(zhí)行有上述五個模塊,這里的模塊可以位于RAM存儲器、閃存、ROM存儲器、EPROM存儲器、EEPROM存儲器、寄存器、硬盤、移動磁盤、CD-ROM或者本領域已知的任何其他形式的存儲介質(zhì),可以將該存儲介質(zhì)耦接至波長選擇裝置,使波長選擇裝置能夠從該存儲介質(zhì)讀取信息,或者該存儲介質(zhì)可以是波長選擇裝置的組成部分。各模塊的具體實現(xiàn)手段已在方法的實施例中進行了詳細說明,這里不再贅述。