本發(fā)明涉及水質(zhì)類型識別技術(shù),尤其涉及一種基于隨機森林的水質(zhì)分類方法及系統(tǒng)。
背景技術(shù):
水是生命之源,水資源作為人類賴以生存的重要條件之一,在生活中扮演著極其重要的角色。但隨著工業(yè)化、城市化等進程的加快,水資源的匱乏及污染程度日益加重,淡水資源面臨巨大挑戰(zhàn)。這不僅影響到人類的日常生活,同時也阻礙了社會的正常發(fā)展。因此,建立一種能快速、準(zhǔn)確、實時的水質(zhì)分類方法具有緊迫性與必要性,不僅能為水資源的管理以及合理利用提供科學(xué)準(zhǔn)確的信息,也能為水資源保護法律法規(guī)的檢測提供可靠的依據(jù)。
近年來,新技術(shù)新方法的發(fā)展對水質(zhì)的分析起到了重要的推動作用。目前國家地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)(gb3838-2002)依據(jù)地表水水域環(huán)境功能和保護目標(biāo)將其劃分為ⅰ、ⅱ、ⅲ、ⅳ、ⅴ五類。傳統(tǒng)用于水質(zhì)分類的方法主要有單因子評價法、模糊評價法、灰色評價法、指數(shù)評價法和分級評價法等,但是,這些傳統(tǒng)水質(zhì)類別鑒定方法通常需要繁多指標(biāo)包括化學(xué)需氧量、氨氮、總磷、銅、鋅、鉻、砷、鉛等,操作復(fù)雜,費時費力,效率極低。
技術(shù)實現(xiàn)要素:
為了解決上述技術(shù)問題,本發(fā)明的目的是提供一種基于隨機森林的水質(zhì)分類方法。
本發(fā)明的另一目的是提供一種基于隨機森林的水質(zhì)分類系統(tǒng)。
本發(fā)明所采用的技術(shù)方案是:一種基于隨機森林的水質(zhì)分類方法,該方法包括以下步驟:
利用電噴霧萃取電離質(zhì)譜技術(shù),獲取得到待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù);
通過基于隨機森林算法而建立得到的水質(zhì)類別判定模型,對獲取得到的水樣質(zhì)譜數(shù)據(jù)進行類別判定處理,從而得到待測水質(zhì)的分類結(jié)果。
進一步,還包括建立水質(zhì)類別判定模型這一步驟,所述建立水質(zhì)類別判定模型這一步驟,其包括以下步驟:
對不同質(zhì)量類別的水樣進行質(zhì)譜分析,從而獲取得到對應(yīng)的水樣質(zhì)譜數(shù)據(jù),將由獲取得到的水樣質(zhì)譜數(shù)據(jù)所構(gòu)成的數(shù)據(jù)集作為水樣質(zhì)譜數(shù)據(jù)集;
將獲得的水樣質(zhì)譜數(shù)據(jù)隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型;
利用驗證集對隨機森林模型進行驗證。
進一步,所述將獲得的水樣質(zhì)譜數(shù)據(jù)隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型這一步驟,其包括有以下步驟:
通過建立多棵自助采樣形成的決策樹,從而建立得到隨機森林模型。
進一步,所述建立自助采樣形成的決策樹這一步驟,其具體包括以下步驟:
通過自助采樣法,從水樣質(zhì)譜數(shù)據(jù)集所包含的n個水樣質(zhì)譜數(shù)據(jù)中,以有放回隨機選取方式選取k個水樣質(zhì)譜數(shù)據(jù),利用選取出的k個水樣質(zhì)譜數(shù)據(jù)來訓(xùn)練生成一棵決策樹;
當(dāng)決策樹的每個節(jié)點需要分裂時,隨機從水樣質(zhì)譜數(shù)據(jù)所包含的m個變量中選取m個變量,其中,m<<m;然后,從選取出的m個變量中,采用信息增益或基尼指數(shù)來選取一個變量作為對應(yīng)節(jié)點的分裂變量。
進一步,所述通過基于隨機森林算法而建立得到的水質(zhì)類別判定模型,對獲取得到的水樣質(zhì)譜數(shù)據(jù)進行類別判定處理,從而得到待測水質(zhì)的分類結(jié)果這一步驟,其具體包括:
將待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù)輸入至所述水質(zhì)類別判定模型進行處理,從而導(dǎo)出對應(yīng)的水樣相似度矩陣;
采用多維標(biāo)度分析法對導(dǎo)出的水樣相似度矩陣進行降維,降維后得到的矩陣為待測水質(zhì)的分類結(jié)果。
本發(fā)明所采用的另一技術(shù)方案是:一種基于隨機森林的水質(zhì)分類系統(tǒng),該系統(tǒng)包括:
采樣模塊,用于利用電噴霧萃取電離質(zhì)譜技術(shù),獲取得到待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù);
分類模塊,用于通過基于隨機森林算法而建立得到的水質(zhì)類別判定模型,對獲取得到的水樣質(zhì)譜數(shù)據(jù)進行類別判定處理,從而得到待測水質(zhì)的分類結(jié)果。
進一步,還包括用于建立水質(zhì)類別判定模型的模型建立模塊,所述模型建立模塊具體包括:
建模數(shù)據(jù)獲取子模塊,用于對不同質(zhì)量類別的水樣進行質(zhì)譜分析,從而獲取得到對應(yīng)的水樣質(zhì)譜數(shù)據(jù),將由獲取得到的水樣質(zhì)譜數(shù)據(jù)所構(gòu)成的數(shù)據(jù)集作為水樣質(zhì)譜數(shù)據(jù)集;
建模處理子模塊,用于將獲得的水樣質(zhì)譜數(shù)據(jù)隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型;
驗證子模塊,用于利用驗證集對隨機森林模型進行驗證。
進一步,所述建模處理子模塊包括用于通過建立多棵自助采樣形成的決策樹,從而建立得到隨機森林模型的建模單元。
進一步,所述自助采樣形成的決策樹,其建立步驟包括有:
通過自助采樣法,從水樣質(zhì)譜數(shù)據(jù)集所包含的n個水樣質(zhì)譜數(shù)據(jù)中,以有放回隨機選取方式選取k個水樣質(zhì)譜數(shù)據(jù),利用選取出的k個水樣質(zhì)譜數(shù)據(jù)來訓(xùn)練生成一棵決策樹;
當(dāng)決策樹的每個節(jié)點需要分裂時,隨機從水樣質(zhì)譜數(shù)據(jù)所包含的m個變量中選取m個變量,其中,m<<m;然后,從選取出的m個變量中,采用信息增益或基尼指數(shù)來選取一個變量作為對應(yīng)節(jié)點的分裂變量。
進一步,所述分類模塊具體包括:
分類處理子模塊,用于將待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù)輸入至所述水質(zhì)類別判定模型進行處理,從而導(dǎo)出對應(yīng)的水樣相似度矩陣;
降維處理子模塊,用于采用多維標(biāo)度分析法對導(dǎo)出的水樣相似度矩陣進行降維,降維后得到的矩陣為待測水質(zhì)的分類結(jié)果。
本發(fā)明的有益效果是:本發(fā)明方法能在無需對樣品進行繁多指標(biāo)檢測條件下,直接實現(xiàn)水質(zhì)類別的快速鑒定,而且該方法具有操作簡單、分析速度快、精確度高等優(yōu)點。
本發(fā)明的另一有益效果是:通過本系統(tǒng)能夠在無需對樣品進行繁多指標(biāo)檢測條件下,直接實現(xiàn)水質(zhì)類別的快速鑒定,該系統(tǒng)具有操作簡單、分析速度快、精確度高等優(yōu)點。
附圖說明
圖1是本發(fā)明一種基于隨機森林的水質(zhì)分類方法流程圖;
圖2是本發(fā)明一種基于隨機森林的水質(zhì)分類方法一具體實施流程步驟示意圖;
圖3是本發(fā)明一種基于隨機森林的水質(zhì)分類系統(tǒng)的結(jié)構(gòu)框圖;
圖4是為ⅰ類水質(zhì)質(zhì)譜圖;
圖5是為ⅱ類水質(zhì)質(zhì)譜圖;
圖6是為ⅲ類水質(zhì)質(zhì)譜圖;
圖7是為ⅳ類水質(zhì)質(zhì)譜圖;
圖8是為ⅴ類水質(zhì)質(zhì)譜圖;
圖9是隨機森林模型的參數(shù)優(yōu)化示意圖;
圖10是不同類別水質(zhì)的分類結(jié)果示意圖。
具體實施方式
如圖1所示,一種基于隨機森林的水質(zhì)分類方法,該方法包括以下步驟:
利用電噴霧萃取電離質(zhì)譜技術(shù),獲取得到待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù);
通過基于隨機森林算法而建立得到的水質(zhì)類別判定模型,對獲取得到的水樣質(zhì)譜數(shù)據(jù)進行類別判定處理,從而得到待測水質(zhì)的分類結(jié)果。
進一步作為本發(fā)明方法的優(yōu)選實施方式,還包括建立水質(zhì)類別判定模型這一步驟,所述建立水質(zhì)類別判定模型這一步驟,其包括以下步驟:
對不同質(zhì)量類別的水樣進行質(zhì)譜分析,從而獲取得到對應(yīng)的水樣質(zhì)譜數(shù)據(jù),將由獲取得到的水樣質(zhì)譜數(shù)據(jù)所構(gòu)成的數(shù)據(jù)集作為水樣質(zhì)譜數(shù)據(jù)集;
將獲得的水樣質(zhì)譜數(shù)據(jù)隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型;
利用驗證集對隨機森林模型進行驗證。
進一步作為本發(fā)明方法的優(yōu)選實施方式,所述將獲得的水樣質(zhì)譜數(shù)據(jù)隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型這一步驟,其包括有以下步驟:
通過建立多棵自助采樣形成的決策樹,從而建立得到隨機森林模型。
進一步作為本發(fā)明方法的優(yōu)選實施方式,所述建立自助采樣形成的決策樹這一步驟,其具體包括以下步驟:
通過自助采樣法,從水樣質(zhì)譜數(shù)據(jù)集所包含的n個水樣質(zhì)譜數(shù)據(jù)中,以有放回隨機選取方式選取k個水樣質(zhì)譜數(shù)據(jù),利用選取出的k個水樣質(zhì)譜數(shù)據(jù)來訓(xùn)練生成一棵決策樹;
當(dāng)決策樹的每個節(jié)點需要分裂時,隨機從水樣質(zhì)譜數(shù)據(jù)所包含的m個變量中選取m個變量,其中,m<<m;然后,從選取出的m個變量中,采用信息增益或基尼指數(shù)來選取一個變量作為對應(yīng)節(jié)點的分裂變量。
進一步作為本發(fā)明方法的優(yōu)選實施方式,所述通過基于隨機森林算法而建立得到的水質(zhì)類別判定模型,對獲取得到的水樣質(zhì)譜數(shù)據(jù)進行類別判定處理,從而得到待測水質(zhì)的分類結(jié)果這一步驟,其具體包括:
將待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù)輸入至所述水質(zhì)類別判定模型進行處理,從而導(dǎo)出對應(yīng)的水樣相似度矩陣;
采用多維標(biāo)度分析法對導(dǎo)出的水樣相似度矩陣進行降維,降維后得到的矩陣為待測水質(zhì)的分類結(jié)果。
本發(fā)明方法一具體實施例
如圖2所示,一種基于隨機森林的水質(zhì)分類方法,其具體包括以下步驟:
第一步驟:建立水質(zhì)類別判定模型
所述第一步驟具體包括以下步驟:
s101、通過電噴霧萃取電離技術(shù),對不同質(zhì)量類別水樣進行質(zhì)譜分析,從而獲取得到不同質(zhì)量類別水樣的質(zhì)譜數(shù)據(jù),即水樣質(zhì)譜數(shù)據(jù),而這些數(shù)據(jù)為用于建立水質(zhì)類型判定模型的數(shù)據(jù);如圖4至圖8所示,其分別依次為ⅰ類水質(zhì)質(zhì)譜圖、ⅱ類水質(zhì)質(zhì)譜圖、ⅲ類水質(zhì)質(zhì)譜圖、ⅳ類水質(zhì)質(zhì)譜圖、ⅴ類水質(zhì)質(zhì)譜圖;
其中,將由步驟s101獲取得到的所有水樣質(zhì)譜數(shù)據(jù)所構(gòu)成的數(shù)據(jù)集作為水樣質(zhì)譜數(shù)據(jù)集;
s102、將獲得的水樣質(zhì)譜數(shù)據(jù)進行預(yù)處理后,隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型;
其中,對于所述隨機森林模型,其是由多棵自助采樣形成的決策樹組合而成,而所述自助采樣形成的決策樹,其建立生成步驟包括:
s1021、通過自助采樣法,從水樣質(zhì)譜數(shù)據(jù)集所包含的n個水樣質(zhì)譜數(shù)據(jù)中,以有放回隨機選取方式選取k個水樣質(zhì)譜數(shù)據(jù),利用選取出的k個水樣質(zhì)譜數(shù)據(jù)來訓(xùn)練生成一棵決策樹,作為決策樹根節(jié)點處的樣本,而未抽到的樣本可作為包外數(shù)據(jù)用于預(yù)測,評估其誤差;
s1022、當(dāng)決策樹的每個節(jié)點需要分裂時,隨機從水樣質(zhì)譜數(shù)據(jù)所包含的m個變量中選取m個變量,其中,m<<m;然后,從選取出的m個變量中,采用信息增益或基尼指數(shù)來選取一個變量作為對應(yīng)節(jié)點的分裂變量;
可見,通過重復(fù)執(zhí)行上述步驟s1021~s1022,便可建立n棵決策樹,構(gòu)成隨機森林模型;具體地,在水樣質(zhì)譜數(shù)據(jù)集中用于訓(xùn)練建立隨機森林模型的數(shù)據(jù)構(gòu)成訓(xùn)練集,而其它剩余的數(shù)據(jù)則構(gòu)成驗證集;
在本實施例隨機森林自助采樣過程中,每棵樹建立時僅使用了水樣質(zhì)譜初始訓(xùn)練集63.2%的樣本,而剩余的36.8%的樣本作為構(gòu)成驗證集來對泛化性能進行“包外估計”,這36.8%的數(shù)據(jù)稱為袋外數(shù)據(jù),可以用于取代測試集進行誤差估計和作為評價指標(biāo)來優(yōu)化參數(shù),本實施例中得到的隨機森林算法模型的參數(shù)優(yōu)化如圖9所示;其中,對于隨機森林分類器,其主要需要優(yōu)化兩個參數(shù):決策樹的數(shù)量及每棵樹生長時的變量數(shù);當(dāng)隨機森林中子樹的數(shù)量增加時,模型的穩(wěn)定性和預(yù)測準(zhǔn)確率增長,但同時占用更大的內(nèi)存,運行速度變慢,而當(dāng)變量數(shù)增加時,每棵樹更強壯,一般能提高模型性能,但是同時增加了樹之間的相關(guān)性,降低了單個樹的多樣性;
s103、通過多維標(biāo)度分析法(mds)對隨機森林模型所得到的水樣相似度矩陣進行降維;
s104、利用驗證集對隨機森林模型進行驗證;
通過上述步驟建立得到的隨機森林模型則為所需的水質(zhì)類別判定模型。
第二步驟:利用上述建立好的水質(zhì)類別判定模型來實現(xiàn)水質(zhì)分類
s201、利用電噴霧萃取電離質(zhì)譜技術(shù),獲取得到待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù);
s202、將待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù)輸入至所述水質(zhì)類別判定模型進行處理,從而導(dǎo)出對應(yīng)的水樣相似度矩陣;
s203、采用多維標(biāo)度分析法對導(dǎo)出的水樣相似度矩陣進行降維,降維后得到的矩陣為待測水質(zhì)的分類結(jié)果,其為一可視化圖。每棵樹建成后,所有的水樣質(zhì)譜數(shù)據(jù)都達到該樹的某個葉節(jié)點上,若兩個水樣落在每棵樹的同一個葉子節(jié)點的頻率越大,表明相似度越高,所以,從決策樹導(dǎo)出的水樣相似度矩陣能收集水樣之間的相似性,從而將原始空間樣本映射到相似性空間;而為了能直觀方便地觀測隨機森林模型所導(dǎo)出的分類結(jié)果,本實施例還通過多維標(biāo)度分析法(mds)對隨機森林模型所得到的水樣相似度矩陣進行降維;由于采用mds來實現(xiàn)水樣相似度矩陣的降維,能盡可能地保留原始對象之間的相似性,也就是說,通過設(shè)有降維步驟,在達到直觀方便觀測分類結(jié)果這一效果的同時,還能保證這降維結(jié)果的精確性。本實施例中最終得到的不同類別水質(zhì)的分類圖如圖10所示,本實施例得到的隨機森林模型對未知樣本驗證得到的混淆矩陣則如表1所示。所述表1如下所示:
表1
對于上述第二步驟,其實現(xiàn)水質(zhì)類別識別的過程約為1分鐘,達到快速鑒別、處理效率高等效果。
上述方法實施例中的內(nèi)容均適用于以下的系統(tǒng)實施例中。
如圖3所示,一種基于隨機森林的水質(zhì)分類系統(tǒng),該系統(tǒng)包括:
采樣模塊,用于利用電噴霧萃取電離質(zhì)譜技術(shù),獲取得到待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù);
分類模塊,用于通過基于隨機森林算法而建立得到的水質(zhì)類別判定模型,對獲取得到的水樣質(zhì)譜數(shù)據(jù)進行類別判定處理,從而得到待測水質(zhì)的分類結(jié)果。所述采樣模塊和分類模塊,其可為程序模塊,也可為硬件模塊,通過采用處理器等硬件載體來實現(xiàn)。
進一步作為本發(fā)明系統(tǒng)的優(yōu)選實施方式,還包括用于建立水質(zhì)類別判定模型的模型建立模塊,所述模型建立模塊具體包括:
建模數(shù)據(jù)獲取子模塊,用于對不同質(zhì)量類別的水樣進行質(zhì)譜分析,從而獲取得到對應(yīng)的水樣質(zhì)譜數(shù)據(jù),將由獲取得到的水樣質(zhì)譜數(shù)據(jù)所構(gòu)成的數(shù)據(jù)集作為水樣質(zhì)譜數(shù)據(jù)集;
建模處理子模塊,用于將獲得的水樣質(zhì)譜數(shù)據(jù)隨機劃分成訓(xùn)練集和驗證集,利用隨機森林算法對訓(xùn)練集進行建模處理,從而建立得到隨機森林模型;
驗證子模塊,用于利用驗證集對隨機森林模型進行驗證。
進一步作為本發(fā)明系統(tǒng)的優(yōu)選實施方式,所述建模處理子模塊包括用于通過建立多棵自助采樣形成的決策樹,從而建立得到隨機森林模型的建模單元。
進一步作為本發(fā)明系統(tǒng)的優(yōu)選實施方式,所述自助采樣形成的決策樹,其建立步驟包括有:
通過自助采樣法,從水樣質(zhì)譜數(shù)據(jù)集所包含的n個水樣質(zhì)譜數(shù)據(jù)中,以有放回隨機選取方式選取k個水樣質(zhì)譜數(shù)據(jù),利用選取出的k個水樣質(zhì)譜數(shù)據(jù)來訓(xùn)練生成一棵決策樹;
當(dāng)決策樹的每個節(jié)點需要分裂時,隨機從水樣質(zhì)譜數(shù)據(jù)所包含的m個變量中選取m個變量,其中,m<<m;然后,從選取出的m個變量中,采用信息增益或基尼指數(shù)來選取一個變量作為對應(yīng)節(jié)點的分裂變量。
進一步作為本發(fā)明系統(tǒng)的優(yōu)選實施方式,所述分類模塊具體包括:
分類處理子模塊,用于將待測水質(zhì)所對應(yīng)的水樣質(zhì)譜數(shù)據(jù)輸入至所述水質(zhì)類別判定模型進行處理,從而導(dǎo)出對應(yīng)的水樣相似度矩陣;
降維處理子模塊,用于采用多維標(biāo)度分析法對導(dǎo)出的水樣相似度矩陣進行降維,降維后得到的矩陣為待測水質(zhì)的分類結(jié)果。
由上述可得,本發(fā)明為一種基于隨機森林算法的水質(zhì)分類技術(shù),它能在無需對樣品進行繁多指標(biāo)檢測條件下,直接實現(xiàn)水質(zhì)類別的快速鑒定,具有操作簡單、分析速度快、精確度高等優(yōu)點,解決了傳統(tǒng)水質(zhì)類別鑒定方法操作復(fù)雜、指標(biāo)繁多、分析速度慢等局限性,將在環(huán)境保護、水產(chǎn)業(yè)、食品安全等相關(guān)技術(shù)領(lǐng)域具有巨大的潛在應(yīng)用前景。而且利用隨機森林算法來實現(xiàn)水質(zhì)分類判別模型的建立,針對水質(zhì)鑒別這一領(lǐng)域中,能達到步驟更簡化、更易實現(xiàn)等有益效果。
以上是對本發(fā)明的較佳實施進行了具體說明,但本發(fā)明創(chuàng)造并不限于所述實施例,熟悉本領(lǐng)域的技術(shù)人員在不違背本發(fā)明精神的前提下還可做作出種種的等同變形或替換,這些等同的變形或替換均包含在本申請權(quán)利要求所限定的范圍內(nèi)。