本發(fā)明涉及毒品開集識別,具體涉及一種基于間隔無變量消除特征選擇算法的毒品開集識別方法。
背景技術:
1、隨著加拿大、美國、歐洲多國相繼大麻合法化,毒品全球化的風險持續(xù)升高。境外毒品滲透形勢的加劇,對國內毒品濫用問題和制毒活動的打擊提出了新要求。部分販毒分子向冰毒、海洛因等常見毒品中在制作過程中無意或刻意摻入雜質,意圖干擾精神活性物質的檢測,增加海洛因、冰毒等物質的檢測難度,導致市場監(jiān)管難度大。傳統(tǒng)方法費時費力,實現(xiàn)毒品與非毒品的現(xiàn)場快速、準確識別分析檢測方法對提升公安部門的執(zhí)法效率、有力打擊毒品犯罪活動具有重要意義。
2、近紅外光譜技術因其快速、非侵入性和多組分同時分析等特點,在醫(yī)療、環(huán)境、石油和生物領域被廣泛應用。但大多數(shù)的分類模型基于實際采集樣品構成的樣品數(shù)據(jù)庫實現(xiàn),對于毒品這類獲取困難、雜質添加物種類繁多,數(shù)據(jù)庫無法全部覆蓋的樣品,僅獲取毒品自身光譜數(shù)據(jù)以實現(xiàn)毒品與非毒品的開集識別困難較大。如何有效選取目標成分的特征信號并與雜質信號進行可靠的區(qū)別是一大難題,當前常用的特征選取方法如uve、vip等,其特征選取邏輯是選擇光譜信息中與響應變量(濃度、種類標簽)相關性較高的波段,這類方法更適用于從環(huán)境噪音中選取有效化學信息的情況,而不同毒品樣品中雜質不同、含量不同、雜質信號對響應變量信號的掩蓋等因素造成的光譜變量與響應變量之間的“假相關”問題無法得到有效解決。
3、基于上述情況,本發(fā)明提出了一種基于間隔無變量消除特征選擇算法的毒品開集識別方法,可有效解決以上問題。
技術實現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于間隔無變量消除特征選擇算法的毒品開集識別方法。本發(fā)明的基于間隔無變量消除特征選擇算法的毒品開集識別方法使用方便,間隔無變量消除特征選擇算法能夠有效挖掘樣品庫光譜中與種類相關性較高的信息,提高模型開集識別分類的準確性和可靠性,從而有效解決不同毒品樣品中雜質不同、含量不同、雜質信號對響應變量信號的掩蓋等因素造成的光譜變量與響應變量之間的“假相關”問題。
2、本發(fā)明通過下述技術方案實現(xiàn):
3、一種基于間隔無變量消除特征選擇算法的毒品開集識別方法,包括以下步驟:
4、步驟s1:準備多個冰毒樣品、海洛因樣品和非毒品樣品;
5、步驟s2:光譜儀預熱后,設置波長分辨率和波長范圍進行樣品光譜采集;
6、步驟s3:剔除異常的海洛因樣品和冰毒樣品,完成剔除后的海洛因樣品和冰毒樣品使用高斯濾波初步降低樣品光譜數(shù)據(jù)中的噪音,使光譜更加平滑、連續(xù);
7、步驟s4:使用間隔無變量消除特征選擇算法對預處理后的光譜進行特征選擇,確定特征譜段;
8、步驟s5:選取5個冰毒樣品、5個海洛因樣品、50個非毒品樣品構建成預測集,剩余毒品樣本作為校正集;
9、步驟s6:采用偏最小二乘法建立種類識別模型;
10、步驟s7:使用建立好的種類識別模型,對經(jīng)過相同處理的預測集數(shù)據(jù)進行驗證,比較對兩種毒品的種類識別正確率,以及對毒品和非毒品的識別正確率。
11、本發(fā)明的目的在于提供一種基于間隔無變量消除特征選擇算法的毒品開集識別方法。本發(fā)明的基于間隔無變量消除特征選擇算法的毒品開集識別方法使用方便,間隔無變量消除特征選擇算法能夠有效挖掘樣品庫光譜中與種類相關性較高的信息,提高模型開集識別分類的準確性和可靠性,從而有效解決不同毒品樣品中雜質不同、含量不同、雜質信號對響應變量信號的掩蓋等因素造成的光譜變量與響應變量之間的“假相關”問題。
12、優(yōu)選的,所述步驟s2中光譜儀預熱時間為30min,波長分辨率設置為12nm,波長范圍設置為900nm~1700nm。
13、優(yōu)選的,所述步驟s2中包括以下步驟:
14、步驟s21:以聚苯乙烯純物質壓片為背景進行檢測,每個樣品進行7次掃描,取其均值作為當次的光譜掃描結果;
15、步驟s22:每個樣品重復測試5遍,取平均值作為建模的輸入光譜變量;
16、步驟s23:非毒品樣品按照上述步驟每隔2天進行1次采集,每種非毒品樣品共采集10次。
17、優(yōu)選的,所述步驟s3中剔除異常的海洛因樣品和冰毒樣品的具體步驟包括:
18、步驟s31:使用pca算法對58組光譜數(shù)據(jù)進行異常值檢測后,獲得霍特林統(tǒng)計量和f-殘差;
19、步驟s32:靠霍特林統(tǒng)計量和f-殘差繪制散點圖用以異常值觀測,剔除超出兩種統(tǒng)計量臨界值的異常樣品。
20、優(yōu)選的,所述間隔無變量消除特征選擇算法包括以下步驟:
21、步驟s41:給定光譜矩陣x∈rn×m,其中n代表樣本數(shù),m代表光譜變量數(shù),響應變量向量y∈rn,通過構建pls模型尋找光譜變量x與響應變量y之間相關性較大的潛在特征,該特征同時考慮x與y之間的最大協(xié)方差:
22、wk=arg?maxwcov(xw,y),subject?to?wtxtxw=1
23、其中,k表示第k個pls成分;
24、步驟s42:對于每個光譜變量xj,計算其在所有pls成分中的重要性:
25、
26、其中,wkj是第k個pls成分中第j個特征的權重;
27、步驟s43:選擇重要性ij較高的特征構成特征集s:
28、s={j:ij>γ}
29、其中,γ是一個預先設定的閾值;
30、步驟s44:該閾值γ使用貝葉斯正則化的思想,將先驗知識融入到閾值選擇過程中,假設每個特征ij遵循一個正態(tài)分布的先驗分布,μ表示先驗均值,σ表示先驗標準差:
31、p(ij)~n(μ,σ2)
32、步驟s45:在觀測到的數(shù)據(jù)中,計算每個特征的ij值,并更新其重要性,最終閾值γ選擇后驗分布中超過ij值的40%分位數(shù):
33、γ=φ-1(0.4)·σ+μ
34、其中,φ是標準正態(tài)分布的分位數(shù)函數(shù);
35、步驟s46:最終將特征集s根據(jù)重要性ij的值進行分割,形成多個子集s1,s2,…,sp,每個子集包含具有相似重要性范圍的特征,對每個子集si使用uve算法進行優(yōu)化,確定每個子集中的無效變量,剔除無法提供額外信息的特征:
36、
37、
38、其中,ω是選擇的特征子集,xω是x中選擇的特征子集對應的子矩陣,β是回歸系數(shù);
39、步驟s47:將選擇出的子集進行合并,形成最終的特征集f;
40、步驟s48:使用最終特征集f構建pls模型,以實現(xiàn)對響應變量y的有效預測。
41、優(yōu)選的,所述步驟s6包括以下步驟:
42、步驟s61:為不同種類毒品樣品進行賦值(冰毒為0,海洛因為1);
43、步驟s62:使用擬合方法對不同種類樣品進行擬合和映射;
44、步驟s63:根據(jù)光譜數(shù)據(jù)x矩陣和描述光譜類的因變量y矩陣構建模型,使y=xb+e;
45、其中,b是回歸系數(shù)矩陣,e是殘差矩陣,x矩陣有n行和m列,每行與樣本相關,也與每個波數(shù)值的信號強度相關,而y矩陣有n行,每行都是指定樣本類型的分類變量。
46、本發(fā)明與現(xiàn)有技術相比,具有以下優(yōu)點及有益效果:
47、1、通過間隔無變量消除特征選擇算法提取有效信息,可以減少特征變量數(shù)量,減小模型復雜度,并且能夠將數(shù)據(jù)庫內樣品與庫外樣品進行顯著的空間分割,模型預測結果體現(xiàn)為數(shù)據(jù)庫外樣品的預測結果遠超數(shù)據(jù)庫內樣品本身的賦值范圍。
48、2、首先使用權重結合貝葉斯正則化思想對變量進行初步篩選,設定40%分位數(shù)選擇閾值確保了篩選出信息的可靠性并對后續(xù)進程能夠提供足夠的信息。按照特征值的變化范圍進行分割,形成多個子集,每個子集包含具有相似變化范圍的特征。對每個子集應用uve算法,以剔除相似變化范圍內不提供額外信息的特征。uve算法的目標是最小化模型的復雜度,同時保留最具信息量的特征。將所有子集中通過uve算法篩選出的特征合并,形成最終的特征集,用于后續(xù)的建模和分析。通過這種間隔式uve特征選取方法,可以更有效地從光譜數(shù)據(jù)中提取出對樣品分類有顯著影響的特征,從而提高模型對庫外樣品識別的性能。
49、3、根據(jù)每個波長的權重結合貝葉斯正則化思想篩選關注變量的重要性,有時可能會選擇一些在模型中不穩(wěn)定的變量。uve則通過去除這些不穩(wěn)定變量,對相似變化范圍的特征進行篩選,進一步優(yōu)化了特征選擇的結果。兩者互補、結合可以提高特征選取的可靠性和模型的預測能力。