本發(fā)明屬于人工智能技術領域,尤其是一種模糊kohonen鑒別聚類網(wǎng)絡的茶葉紅外光譜分類方法。
背景技術:
茶葉是我國主要的作物之一,茶葉的采后處理、品質(zhì)判斷及檢測一直是茶葉品質(zhì)保證的重要手段。目前中國的茶葉市場由于缺乏有效的茶葉鑒別方法所以在茶葉市場中貼牌現(xiàn)象,以次充好和以假亂真現(xiàn)象比較嚴重,因此茶葉品種的鑒別變得越來越重要,而研究一種簡單快速的茶葉品種鑒別方法是非常必要的。
紅外光譜技術具有檢測速度快,可同時檢測多種成分等優(yōu)點。不同品種的茶葉,其組分及含量往往存在差別,那么在不同品種的茶葉上獲得的漫反射光譜是有差異的,利用這個原理,可以實現(xiàn)不同品種的茶葉分類。
模糊kohonen聚類網(wǎng)絡是一種無監(jiān)督的學習方法(tsaoec,bezdekjc,palnr.fuzzykohonenclusteringnetworks.patternrecognition,1994,27(5):757–764.)。模糊kohonen聚類網(wǎng)絡是將模糊c-均值聚類(fcm)引入到kohonen聚類網(wǎng)絡的學習速率和更新策略中。作為一種無監(jiān)督的聚類方法,模糊kohonen聚類網(wǎng)絡只能實現(xiàn)對數(shù)據(jù)的模糊聚類,而無法在模糊聚類過程中提取數(shù)據(jù)的鑒別信息,從而無法得到高的聚類準確率。
技術實現(xiàn)要素:
針對上述現(xiàn)有的模糊kohonen聚類網(wǎng)絡存在的缺陷和不足,本發(fā)明的目的是提出一種模糊kohonen鑒別聚類網(wǎng)絡的茶葉紅外光譜分類方法。該方法用紅外光譜技術獲取茶葉的紅外光譜,用主成分分析對茶葉的紅外光譜進行降維處理,用線性判別方法進行光譜信息的特征提取,運行模糊c-均值聚類以得到初始聚類中心,用一種模糊kohonen鑒別聚類網(wǎng)絡方法進行茶葉品種的分類。
根據(jù)上述原理,采用的技術方案包括以下步驟:
步驟一、在恒溫恒濕環(huán)境下采集茶葉樣本的紅外光譜:針對不同品種的茶葉樣本,用紅外光譜儀對這些茶葉樣本做采集紅外光譜實驗,獲取茶葉樣本的紅外漫反射光譜信息,將光譜信息存儲在計算機里。
步驟二、對茶葉樣本紅外光譜預處理:用多元散射校正(msc)對茶葉樣本紅外光譜進行預處理。
步驟三、對茶葉樣本紅外光譜進行降維處理:采用主成分分析方法(pca)將茶葉樣本紅外光譜從高維數(shù)據(jù)降到相對較低的低維數(shù)據(jù),并保存這些數(shù)據(jù),再用線性判別方法進一步提取特征和降維。
步驟四、模糊c-均值聚類以得到初始聚類中心:對降維后的茶葉紅外數(shù)據(jù)運行模糊c-均值聚類,得到初始的聚類中心。
步驟五、用一種模糊kohonen鑒別聚類網(wǎng)絡方法進行茶葉品種的分類:根據(jù)步驟四的初始的聚類中心運行一種模糊kohonen鑒別聚類網(wǎng)絡方法得到模糊隸屬度,根據(jù)模糊隸屬度可將不同品種茶葉進行分類。
所述步驟五中的一種模糊kohonen鑒別聚類網(wǎng)絡方法如下:
1.初始化
固定茶葉紅外光譜樣本類別數(shù)c和權(quán)重指數(shù)m0的值,n為樣本數(shù),n>c>1,+∞>m0>1,設置最大迭代次數(shù)tmax和誤差上限的值ε,設置初始聚類中心vi,0(i=1,2,…c)。設置特征向量數(shù)為q;
2.計算第t(t=1,2,…,tmax)次迭代時的學習速率αik,t
其中mt=m0-tδm,t為迭代次數(shù),δm=(m0-1)/tmaxuik,t表示第t次迭代計算時第k個樣本隸屬于第i類的模糊隸屬度值。uik,t計算如下:
xk為第k個茶葉紅外光譜樣本,xk∈rp,即xk的維數(shù)為p。vi,t為第t次迭代計算時第i類的類中心,vj,t為第t次迭代計算時第j類的類中心。
3.計算第t次迭代時的類中心vi,t
vi,t-1為第t-1次迭代計算時第i類的類中心。
4.計算模糊類間散射矩陣sfb模糊總體散射矩陣sft
5.根據(jù)式:
6.將樣本xk投影到q個特征向量ψ1,ψ2,...,ψq上得到
xk′=xkt[ψ1,ψ2,...,ψq]
將類中心vi,t投影到q個特征向量ψ1,ψ2,...,ψq上得到
vi,t′=vi,t[ψ1,ψ2,...,ψq]
7.若maxi||v′i,t-v′i,t-1||<ε或者t>tmax,迭代結(jié)束,否則,t=t+1,將xk′的值賦給xk,vi,t′的值賦給vi,t,返回步驟2繼續(xù)迭代計算。
本發(fā)明的有益效果:
本發(fā)明解決了模糊kohonen聚類網(wǎng)絡在對數(shù)據(jù)進行模糊聚類過程中無法提取數(shù)據(jù)的鑒別信息,導致聚類準確率不高的問題。本發(fā)明可實現(xiàn)在聚類過程中動態(tài)提取茶葉光譜數(shù)據(jù)的鑒別信息,茶葉分類準確率高。
附圖說明
圖1是本發(fā)明的流程圖;
圖2是茶葉樣本的紅外光譜圖;
圖3是茶葉紅外光譜經(jīng)過msc預處理后的光譜圖;
圖4是線性判別方法處理后得到的二維圖;
圖5是一種模糊kohonen鑒別聚類網(wǎng)絡方法產(chǎn)生的模糊隸屬度圖。
具體實施方式
下面結(jié)合附圖以及具體實施例對本發(fā)明作進一步的說明,但本發(fā)明的保護范圍并不限于此。
本發(fā)明適用于不同品種茶葉的品種分類,實施流程如圖1所示,具體實施如下:
實施例:
步驟一、茶葉樣本紅外光譜采集:采集優(yōu)質(zhì)樂山竹葉青、劣質(zhì)樂山竹葉青和峨眉山毛峰三種茶葉,每種茶葉的樣本數(shù)為32,合計96個樣本。所有茶葉樣本被研磨粉粹后經(jīng)40目篩過濾,每個樣本取0.5g分別與溴化鉀按1:100均勻混合后取混合物1g進行壓膜處理。在采集茶葉紅外光譜時,實驗室溫度和相對濕度保持恒定,ftir-7600型傅里葉紅外光譜分析儀開機預熱1h。光譜分析儀掃描每個茶葉樣本32次,光譜掃描的波數(shù)范圍為4001.569~401.1211cm-1,掃描間隔為1.9285cm-1,每個茶葉樣本的紅外光譜是1868維的高維數(shù)據(jù)。每個樣本采樣3次,取其平均值作為后續(xù)模型建立的實驗數(shù)據(jù)。每種樣本選取22個為測試集,則測試樣本數(shù)n為66。剩余10個樣本為訓練集,則訓練樣本數(shù)nr為30。測試集為待鑒別的茶葉樣本,訓練集為已知的優(yōu)劣茶葉樣本。設置類別數(shù)c=3。茶葉樣本的紅外光譜圖如圖2所示。
步驟二、對茶葉樣本紅外光譜預處理:用多元散射校正(msc)對茶葉樣本紅外光譜進行預處理。預處理后的茶葉紅外光譜圖如圖3所示。
步驟三、茶葉樣本紅外光譜的降維處理:采用主成分分析方法將茶葉樣本紅外光譜從1868維降到14維數(shù)據(jù),并保存這些數(shù)據(jù)。再用線性判別方法進一步提取特征,將數(shù)據(jù)降維到二維,該二維數(shù)據(jù)如圖4所示。
步驟四、模糊c-均值聚類以得到初始聚類中心:對步驟三的二維數(shù)據(jù)運行模糊c-均值聚類(fcm),fcm迭代終止后的聚類中心作為一種模糊kohonen鑒別聚類網(wǎng)絡方法初始聚類中心vi,0。
步驟五、采用一種模糊kohonen鑒別聚類網(wǎng)絡方法進行茶葉品種的分類:根據(jù)步驟四的初始的聚類中心運行一種模糊kohonen鑒別聚類網(wǎng)絡方法得到模糊隸屬度,根據(jù)模糊隸屬度可將不同品種茶葉進行分類。
所述步驟五中的一種模糊kohonen鑒別聚類網(wǎng)絡方法如下:
1.初始化
固定茶葉紅外光譜樣本類別數(shù)c=3和權(quán)重指數(shù)m0=2,n為樣本數(shù),n>c>1,+∞>m0>1,設置最大迭代次數(shù)tmax=100和誤差上限的值ε=0.00001,設置初始聚類中心vi,0(i=1,2,3)如步驟四所示。設置特征向量數(shù)為q=2;
2.計算第t(t=1,2,…,tmax)次迭代時的學習速率αik,t
xk為第k個茶葉紅外光譜樣本,xk∈rp,即xk的維數(shù)為p。vi,t為第t次迭代計算時第i類的類中心,vj,t為第t次迭代計算時第j類的類中心。
3.計算第t次迭代時的類中心vi,t:
其中,vi,t-1為第t-1次迭代計算時第i類的類中心。
4.計算模糊類間散射矩陣sfb、模糊總體散射矩陣sft;
其中,
5.根據(jù)式:
6.將樣本xk投影到q個特征向量ψ1,ψ2,...,ψq上得到
xk′=xkt[ψ1,ψ2,...,ψq]
將類中心vi,t投影到q個特征向量ψ1,ψ2,...,ψq上得到vi,t′=vi,t[ψ1,ψ2,...,ψq]。
7.若maxi||v′i,t-v′i,t-1||<ε或者t>tmax,迭代結(jié)束,否則,t=t+1,將xk′的值賦給xk,vi,t′的值賦給vi,t,返回步驟2繼續(xù)迭代計算。
計算結(jié)果:迭代終止后的模糊隸屬度如圖5所示,根據(jù)模糊隸屬度得到茶葉品種的分類準確率為93.9%。
上文所列出的一系列的詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說明,它們并非用以限制本發(fā)明的保護范圍,凡未脫離本發(fā)明技藝精神所作的等效實施方式或變更均應包含在本發(fā)明的保護范圍之內(nèi)。