專(zhuān)利名稱(chēng):集成分類(lèi)器及該裝置的分類(lèi)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遙感與地理信息系統(tǒng)領(lǐng)域。
背景技術(shù):
在現(xiàn)有空間柵格數(shù)據(jù)監(jiān)督分類(lèi)領(lǐng)域中,主要應(yīng)用的技術(shù)包括神經(jīng)網(wǎng)、支持向量機(jī)、決策樹(shù)、貝葉斯、KNN等算法。這些算法采用的主要手段就是輸入訓(xùn)練數(shù)據(jù)算法進(jìn)行學(xué)習(xí)產(chǎn)生“分類(lèi)模型”,通過(guò)“分類(lèi)模型”可以進(jìn)一步預(yù)測(cè)位置數(shù)據(jù)的類(lèi)別信息。對(duì)于高維度數(shù)據(jù),通常采用“屬性選取”算法,降低維度提高速度。當(dāng)前所采用的另外一項(xiàng)重要技術(shù)就是“集成分類(lèi)器”,集成分類(lèi)器通過(guò)異構(gòu)的多個(gè)分類(lèi)器組合進(jìn)行投票,期望獲得比單一分類(lèi)器更高的分類(lèi)精度。 .在處理空間柵格數(shù)據(jù)過(guò)程中,經(jīng)常需要面對(duì)海量的、超高維度的數(shù)據(jù),如某些空間數(shù)據(jù)包含2000個(gè)以上的空間屬性,數(shù)據(jù)量在幾個(gè)TB以上,要快速有效的處理這些數(shù)據(jù)將會(huì)面臨一些困難(I)速度問(wèn)題數(shù)據(jù)量過(guò)大時(shí),尤其是維度加大的時(shí)候,算法訓(xùn)練分類(lèi)模型的開(kāi)銷(xiāo)也將加大,當(dāng)前流行的基于C++的SVM算法程序(如=LIBSVM)可能數(shù)個(gè)小時(shí)也不能獲得訓(xùn)練結(jié)果,或者直到內(nèi)存空間耗盡也無(wú)法存儲(chǔ)分析結(jié)果。(2)屬性子集問(wèn)題為了提高速度,很多算法均采用“屬性選取”。一方面,從一個(gè)很大的屬性集選取合適的屬性子集是一個(gè)非確定多項(xiàng)式問(wèn)題,組合數(shù)目過(guò)多難以窮舉;近似最優(yōu)的子屬性通常具有“偏置”特性,某些類(lèi)目的預(yù)測(cè)精度會(huì)有一定損失。(3)精度問(wèn)題為了解決精度問(wèn)題,很多算法采用“集成分類(lèi)器”技術(shù),就是將訓(xùn)練數(shù)據(jù)劃分為多個(gè)子集,然后在進(jìn)行訓(xùn)練,投票。對(duì)于高維度數(shù)據(jù)柵格,一方面,由于數(shù)據(jù)量較大,所以難以保證子分類(lèi)器之間的差異,而多個(gè)子分類(lèi)器過(guò)于近似將達(dá)不到“集成”和“投票”的目的;另一方面,大量的屬性對(duì)應(yīng)部分的訓(xùn)練數(shù)據(jù)子集,將導(dǎo)致“過(guò)度擬合”現(xiàn)象;這兩種問(wèn)題均導(dǎo)致分類(lèi)精度降低。綜上所述在現(xiàn)有空間柵格數(shù)據(jù)監(jiān)督分類(lèi)領(lǐng)域中存在速度慢、精度低、屬性子集具有偏置特性以及屬性子集為非確定多項(xiàng)式的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明為了解決現(xiàn)有空間柵格數(shù)據(jù)監(jiān)督分類(lèi)領(lǐng)域中存在速度慢、精度低、屬性子集具有偏置特性以及屬性子集為非確定多項(xiàng)式的問(wèn)題,從而提出了集成分類(lèi)器及該裝置的分類(lèi)方法。集成分類(lèi)器的分類(lèi)方法,它包括下述步驟步驟一、采用多進(jìn)程和多線程組合的方式讀取待處理的柵格數(shù)據(jù),具體過(guò)程包括如下步驟A、輸入集成分類(lèi)器的子分類(lèi)器個(gè)數(shù)η ;η為子分類(lèi)器的個(gè)數(shù),η大于等于2,通過(guò)期望算法將柵格數(shù)據(jù)的所有空間屬性按照決策能力分為η份,每個(gè)分類(lèi)器均具備全集全部的分類(lèi)能力,B、啟動(dòng)η+1個(gè)進(jìn)程;其中,η+1個(gè)進(jìn)程為 Rank O、Rank I…Rankn ;RankO 為管理進(jìn)程,Rank I…Rankn均為運(yùn)算進(jìn)程,運(yùn)算進(jìn)程Rank L··· Rankn分別與η個(gè)子分類(lèi)器一一對(duì)應(yīng),C、在當(dāng)前進(jìn)程為管理進(jìn)程Rank O時(shí),構(gòu)造空的粗糙關(guān)系表,將待處理的柵格數(shù)據(jù)均勻劃分給每個(gè)運(yùn)算進(jìn)程;啟動(dòng)η個(gè)線程,每個(gè)線程單獨(dú)對(duì)應(yīng)一個(gè)運(yùn)算進(jìn)程;其中,線程包括第I線程、第2線程…第η線程,
D、在當(dāng)前進(jìn)程為運(yùn)算進(jìn)程時(shí),每個(gè)進(jìn)程均同時(shí)讀取待處理的柵格數(shù)據(jù);步驟二、管理進(jìn)程RankO維護(hù)屬性離散化區(qū)間表,并將該屬性離散化區(qū)間表均勻劃分給多個(gè)線程,所述多個(gè)線程同時(shí)啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化;步驟三、管理進(jìn)程RankO將空間屬性均勻分給η個(gè)運(yùn)算進(jìn)程處理,并收集η個(gè)運(yùn)算進(jìn)程的處理結(jié)果、構(gòu)建完整的粗糙關(guān)系表,將該粗糙關(guān)系表發(fā)給每個(gè)運(yùn)算進(jìn)程,每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集;步驟四、管理進(jìn)程RankO將每個(gè)運(yùn)算進(jìn)程根據(jù)所對(duì)應(yīng)的屬性子集進(jìn)行并行訓(xùn)練子分類(lèi)器產(chǎn)生模型,該子分類(lèi)器為與所述的進(jìn)程一一對(duì)應(yīng)的子分類(lèi)器,每個(gè)子分類(lèi)器進(jìn)行預(yù)測(cè)該子分類(lèi)器對(duì)應(yīng)的屬性子集的類(lèi)型,統(tǒng)計(jì)所有子分類(lèi)器預(yù)測(cè)結(jié)果,以投票選舉的方式選取投票最多的預(yù)測(cè)結(jié)果。集成分類(lèi)器,它包括下述裝置用于多進(jìn)程和多線程組合的方式讀取待處理的柵格數(shù)據(jù)的裝置,該裝置包括如下模塊用于輸入集成分類(lèi)器的子分類(lèi)器個(gè)數(shù)η的模塊;其中,η為子分類(lèi)器的個(gè)數(shù),η大于等于2,通過(guò)期望算法將柵格數(shù)據(jù)的所有空間屬性按照決策能力分為η份,每個(gè)分類(lèi)器均具備全集全部的分類(lèi)能力,用于啟動(dòng)η+1個(gè)進(jìn)程的模塊;其中,η+1個(gè)進(jìn)程為 Rank O、Rank I…Rankn ;RankO 為管理進(jìn)程,Rank I…Rankn均為運(yùn)算進(jìn)程,運(yùn)算進(jìn)程Rank L··· Rankn分別與η個(gè)子分類(lèi)器一一對(duì)應(yīng),用于在當(dāng)前進(jìn)程為管理進(jìn)程Rank O時(shí),構(gòu)造空的粗糙關(guān)系表,將待處理的柵格數(shù)據(jù)均勻劃分給每個(gè)運(yùn)算進(jìn)程;啟動(dòng)η個(gè)線程,每個(gè)線程單獨(dú)對(duì)應(yīng)一個(gè)運(yùn)算進(jìn)程的模塊;其中,線程包括第I線程、第2線程…第η線程,用于在當(dāng)前進(jìn)程為運(yùn)算進(jìn)程時(shí),每個(gè)進(jìn)程均同時(shí)讀取待處理的柵格數(shù)據(jù)的模塊;用于管理進(jìn)程RankO維護(hù)屬性離散化區(qū)間表,并將該屬性離散化區(qū)間表均勻劃分給多個(gè)線程,所述多個(gè)線程同時(shí)啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化的裝置;用于管理進(jìn)程RankO將空間屬性均勻分給η個(gè)運(yùn)算進(jìn)程處理,并收集η個(gè)運(yùn)算進(jìn)程的處理結(jié)果、構(gòu)建完整的粗糙關(guān)系表,將該粗糙關(guān)系表發(fā)給每個(gè)運(yùn)算進(jìn)程,每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集的裝置;用于管理進(jìn)程RankO將每個(gè)運(yùn)算進(jìn)程根據(jù)所對(duì)應(yīng)的屬性子集進(jìn)行并行訓(xùn)練子分類(lèi)器產(chǎn)生模型,該子分類(lèi)器為與所述的進(jìn)程一一對(duì)應(yīng)的子分類(lèi)器,每個(gè)子分類(lèi)器進(jìn)行預(yù)測(cè)該子分類(lèi)器對(duì)應(yīng)的屬性子集的類(lèi)型,統(tǒng)計(jì)所有子分類(lèi)器預(yù)測(cè)結(jié)果,以投票選舉的方式選取投票最多的預(yù)測(cè)結(jié)果的裝置。本發(fā)明具有以下優(yōu)勢(shì)(I)采用屬性劃分方式,而不是樣本劃分方式構(gòu)造訓(xùn)練數(shù)據(jù)子集。(2)將訓(xùn)練數(shù)據(jù)子集與并行計(jì)算技術(shù)結(jié)合起來(lái),應(yīng)用于高緯度柵格數(shù)據(jù)。(3)應(yīng)用模糊粗集理論作為高緯度屬性并行劃分的標(biāo)準(zhǔn),使得每個(gè)子集即有自己獨(dú)立特性,又保持了決策完整性。(4)適應(yīng)于離散型、連續(xù)型的異構(gòu)數(shù)據(jù)。
圖I為集成分類(lèi)器的分類(lèi)方法的流程圖;圖2為采用多進(jìn)程和多線程組合的方式讀取待處理的柵格數(shù)據(jù)具體步驟的流程圖;圖3為每個(gè)線程啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化的具體步驟流程圖;圖4為離散化過(guò)程中各線程之間的關(guān)系圖,圖中2彡I彡n,;·
圖5為粗糖關(guān)系表的構(gòu)造和屬性使用表的關(guān)系圖;圖6為訓(xùn)練產(chǎn)生模型階段的流程圖。
具體實(shí)施例方式具體實(shí)施方式
一、結(jié)合圖I和圖2具體說(shuō)明本實(shí)施方式,本實(shí)施方式所述的集成分類(lèi)器的分類(lèi)方法,它包括下述步驟步驟一、采用多進(jìn)程和多線程組合的方式讀取待處理的柵格數(shù)據(jù),具體過(guò)程包括如下步驟A、輸入集成分類(lèi)器的子分類(lèi)器個(gè)數(shù)η ;η為子分類(lèi)器的個(gè)數(shù),η大于等于2,通過(guò)期望算法將柵格數(shù)據(jù)的所有空間屬性按照決策能力分為η份,每個(gè)分類(lèi)器均具備全集全部的分類(lèi)能力,B、啟動(dòng)η+1個(gè)進(jìn)程;其中,η+1個(gè)進(jìn)程為 Rank O、Rank I…Rankn ;RankO 為管理進(jìn)程,Rank I…Rankn均為運(yùn)算進(jìn)程,運(yùn)算進(jìn)程Rank L··· Rankn分別與η個(gè)子分類(lèi)器一一對(duì)應(yīng),C、在當(dāng)前進(jìn)程為管理進(jìn)程Rank O時(shí),構(gòu)造空的粗糙關(guān)系表,將待處理的柵格數(shù)據(jù)均勻劃分給每個(gè)運(yùn)算進(jìn)程;啟動(dòng)η個(gè)線程,每個(gè)線程單獨(dú)對(duì)應(yīng)一個(gè)運(yùn)算進(jìn)程;其中,線程包括第I線程、第2線程…第η線程,D、在當(dāng)前進(jìn)程為運(yùn)算進(jìn)程時(shí),每個(gè)進(jìn)程均同時(shí)讀取待處理的柵格數(shù)據(jù);步驟二、管理進(jìn)程RankO維護(hù)屬性離散化區(qū)間表,并將該屬性離散化區(qū)間表均勻劃分給多個(gè)線程,所述多個(gè)線程同時(shí)啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化;步驟三、管理進(jìn)程RankO將空間屬性均勻分給η個(gè)運(yùn)算進(jìn)程處理,并收集η個(gè)運(yùn)算進(jìn)程的處理結(jié)果、構(gòu)建完整的粗糙關(guān)系表,將該粗糙關(guān)系表發(fā)給每個(gè)運(yùn)算進(jìn)程,每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集;步驟四、管理進(jìn)程RankO將每個(gè)運(yùn)算進(jìn)程根據(jù)所對(duì)應(yīng)的屬性子集進(jìn)行并行訓(xùn)練子分類(lèi)器產(chǎn)生模型,該子分類(lèi)器為與所述的進(jìn)程一一對(duì)應(yīng)的子分類(lèi)器,每個(gè)子分類(lèi)器進(jìn)行預(yù)測(cè)該子分類(lèi)器對(duì)應(yīng)的屬性子集的類(lèi)型,統(tǒng)計(jì)所有子分類(lèi)器預(yù)測(cè)結(jié)果,以投票選舉的方式選取投票最多的預(yù)測(cè)結(jié)果。本實(shí)施方式在步驟三之后,各個(gè)進(jìn)程均獲得“屬性子集”,各個(gè)進(jìn)程通過(guò)屬性子集并行訓(xùn)練一個(gè)指定的分類(lèi)器(如ID3,SVM,神經(jīng)網(wǎng)此類(lèi)模型為傳統(tǒng)算法),可以用相對(duì)較小的數(shù)據(jù)量(相對(duì)數(shù)百維,本算法每個(gè)子集的大小通常10-20個(gè),數(shù)據(jù)量縮小數(shù)十被倍)快速訓(xùn)練產(chǎn)生模型。這些模型在決策過(guò)程中可以只用投票選舉的形式如圖6所示,可以有效的防止過(guò)度擬合,增加分類(lèi)精度。本實(shí)施方式所述的投票選舉方式為假如目前有η個(gè)分類(lèi)器,對(duì)于一個(gè)需要預(yù)測(cè)的對(duì)象X,這η個(gè)分類(lèi)器分別作出預(yù)測(cè),期中ml個(gè)分類(lèi)器決策認(rèn)為是”A類(lèi)型”,m2個(gè)分類(lèi)器
決策認(rèn)為是“B”類(lèi)型,。這時(shí)以投票,少數(shù)服從多數(shù)為原則,取較多分類(lèi)器認(rèn)同的決策為集成分類(lèi)器整體的決策。就是投票選舉過(guò)程。
具體實(shí)施方式
二、本實(shí)施方式與具體實(shí)施方式
一所述的集成分類(lèi)器的分類(lèi)方法的區(qū)別在于,步驟A所述的柵格數(shù)據(jù)是高維度柵格數(shù)據(jù)。本實(shí)施方式對(duì)于海量的高維度的柵格數(shù)據(jù),傳統(tǒng)算法速度慢精度低,而本專(zhuān)利達(dá)到快速處理柵格數(shù)據(jù),獲取分類(lèi)模型,而且由于采用異構(gòu)決策機(jī)制,所以分類(lèi)精度也較高。
具體實(shí)施方式
三、結(jié)合圖3具體說(shuō)明本實(shí)施方式,本實(shí)施方式與具體實(shí)施方式
一或二所述的集成分類(lèi)器的分類(lèi)方法的區(qū)別在于,步驟二所述每個(gè)線程啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化的具體步驟為步驟二一、設(shè)置聚類(lèi)個(gè)數(shù)為ceil ;步驟二二、在該線程啟動(dòng)的空間連續(xù)屬性的最大值和最小值之間求取均勻分布聚類(lèi)初始中心;步驟二三、根據(jù)K-Means算法對(duì)均勻分布聚類(lèi)初始中心進(jìn)行聚類(lèi),形成ceil個(gè)聚類(lèi);步驟二四、對(duì)于每一個(gè)聚類(lèi)輸出其最小和最大值,形成ceil個(gè)值域區(qū)間;步驟二五、將所述ceil個(gè)值域區(qū)間構(gòu)成一個(gè)區(qū)間列表。本實(shí)施方式通過(guò)離散化,獲得離散化區(qū)間,通過(guò)這組區(qū)間就可以將原有的連續(xù)數(shù)據(jù)變?yōu)橛邢迋€(gè)數(shù)的1,2,3,4等數(shù)字,明晰關(guān)系,加快比對(duì)分析速度。對(duì)于多進(jìn)程情況下,所有數(shù)據(jù)的處理流程如圖4。
具體實(shí)施方式
四、本實(shí)施方式與具體實(shí)施方式
一或二所述的集成分類(lèi)器的分類(lèi)方法的區(qū)別在于,所述的步驟三中所述的粗糙關(guān)系表是一個(gè)二維表,表示二個(gè)屬性直接的交置程度,粗糖關(guān)系為I表不屬性直接相關(guān)性最強(qiáng),粗糖關(guān)系為O表不最不相關(guān),粗糖關(guān)系表如下
權(quán)利要求
1.集成分類(lèi)器的分類(lèi)方法,其特征在于,它包括下述步驟步驟一、采用多進(jìn)程和多線程組合的方式讀取待處理的柵格數(shù)據(jù),具體過(guò)程包括如下步驟A、輸入集成分類(lèi)器的子分類(lèi)器個(gè)數(shù)η;η為子分類(lèi)器的個(gè)數(shù),η大于等于2,通過(guò)期望算法將柵格數(shù)據(jù)的所有空間屬性按照決策能力分為η份,每個(gè)分類(lèi)器均具備全集全部的分類(lèi)能力,B、啟動(dòng)η+1個(gè)進(jìn)程;其中,η+1個(gè)進(jìn)程為Rank O> Rank I…Rankn ;RankO為管理進(jìn)程,Rank I…Rankn均為運(yùn)算進(jìn)程,運(yùn)算進(jìn)程Rank I…Rankn分別與η個(gè)子分類(lèi)器--對(duì)應(yīng),C、在當(dāng)前進(jìn)程為管理進(jìn)程RankO時(shí),構(gòu)造空的粗糙關(guān)系表,將待處理的柵格數(shù)據(jù)均勻劃分給每個(gè)運(yùn)算進(jìn)程;啟動(dòng)η個(gè)線程,每個(gè)線程單獨(dú)對(duì)應(yīng)一個(gè)運(yùn)算進(jìn)程;其中,線程包括第I線程、第2線程…第η線程,D、在當(dāng)前進(jìn)程為運(yùn)算進(jìn)程時(shí),每個(gè)進(jìn)程均同時(shí)讀取待處理的柵格數(shù)據(jù);步驟二、管理進(jìn)程RankO維護(hù)屬性離散化區(qū)間表,并將該屬性離散化區(qū)間表均勻劃分給多個(gè)線程,所述多個(gè)線程同時(shí)啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化;步驟三、管理進(jìn)程RankO將空間屬性均勻分給η個(gè)運(yùn)算進(jìn)程處理,并收集η個(gè)運(yùn)算進(jìn)程的處理結(jié)果、構(gòu)建完整的粗糙關(guān)系表,將該粗糙關(guān)系表發(fā)給每個(gè)運(yùn)算進(jìn)程,每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集;步驟四、管理進(jìn)程RankO將每個(gè)運(yùn)算進(jìn)程根據(jù)所對(duì)應(yīng)的屬性子集進(jìn)行并行訓(xùn)練子分類(lèi)器產(chǎn)生模型,該子分類(lèi)器為與所述的進(jìn)程一一對(duì)應(yīng)的子分類(lèi)器,每個(gè)子分類(lèi)器進(jìn)行預(yù)測(cè)該子分類(lèi)器對(duì)應(yīng)的屬性子集的類(lèi)型,統(tǒng)計(jì)所有子分類(lèi)器預(yù)測(cè)結(jié)果,以投票選舉的方式選取投票最多的預(yù)測(cè)結(jié)果。
2.根據(jù)權(quán)利要求I所述的集成分類(lèi)器的分類(lèi)方法,其特征在于,步驟A所述的柵格數(shù)據(jù)是高維度柵格數(shù)據(jù)。
3.根據(jù)權(quán)利要求I或2所述的集成分類(lèi)器的分類(lèi)方法,其特征在于,步驟二所述每個(gè)線程啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化的具體步驟為步驟二一、設(shè)置聚類(lèi)個(gè)數(shù)為ceil ;步驟二二、在該線程啟動(dòng)的空間連續(xù)屬性的最大值和最小值之間求取均勻分布聚類(lèi)初始中心;步驟二三、根據(jù)K-Means算法對(duì)均勻分布聚類(lèi)初始中心進(jìn)行聚類(lèi),形成ceil個(gè)聚類(lèi);步驟二四、對(duì)于每一個(gè)聚類(lèi)輸出其最小和最大值,形成ceil個(gè)值域區(qū)間;步驟二五、將所述ceil個(gè)值域區(qū)間構(gòu)成一個(gè)區(qū)間列表。
4.根據(jù)權(quán)利要求I或2所述的集成分類(lèi)器的分類(lèi)方法,其特征在于,所述的步驟三中所述的粗糙關(guān)系表是一個(gè)二維表,表示二個(gè)屬性直接的交疊程度,粗糙關(guān)系為I表示屬性直接相關(guān)性最強(qiáng),粗糖關(guān)系為O表不最不相關(guān),粗糖關(guān)系表如下粗糙關(guān)系表 屬性I 屬性2...屬性《屬性11000屬性20100 ...OOIO 屬性"0001O
5.根據(jù)權(quán)利要求4所述的集成分類(lèi)器的分類(lèi)方法,其特征在于,步驟三中每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集的具體步驟為 步驟三一、在所述運(yùn)算進(jìn)程的粗糙關(guān)系表中隨機(jī)選擇一對(duì)粗糙關(guān)系不相關(guān)的屬性,該屬性的狀態(tài)為“未使用”,將該屬性加入所述運(yùn)算進(jìn)程的屬性子集中,該子集為與所述運(yùn)算進(jìn)程一一對(duì)應(yīng)的子集,并將其標(biāo)記為“已使用”, 屬性的狀態(tài)為“已使用”或“未使用”; 步驟三二、在所述運(yùn)算進(jìn)程中,根據(jù)公式(8)計(jì)算每一對(duì)“未使用”的屬性與所述運(yùn)算進(jìn)程的屬性子集的關(guān)系, 屬性與屬性子集的粗糙關(guān)系為 RTD=I; RTib ao)(8) I 其中,b表示所述運(yùn)算進(jìn)程的屬性子集,an表示任意一對(duì)“未使用”的屬性,RT(b,an)表示所述運(yùn)算進(jìn)程的屬性子集與任意一對(duì)“未使用”的屬性的粗糙關(guān)系; 步驟三三、選出計(jì)算結(jié)果最小的屬性,將該屬性加入到所述運(yùn)算進(jìn)程的屬性子集中,并將所述運(yùn)算進(jìn)程的屬性子集標(biāo)記為“已使用”; 步驟三四、根據(jù)公式(6)計(jì)算所述運(yùn)算進(jìn)程的屬性子集與維度全集D的關(guān)系; CanK U IOSJX)) ——£ )- (6) DCani(U)' ' 其中,w表示所述運(yùn)算進(jìn)程的屬性子集,IND(w)為w子集所對(duì)應(yīng)的不可區(qū)分關(guān)系,Card(U)為計(jì)算集合的秩,POSd(X)為X對(duì)應(yīng)于D的正域; 步驟三五、當(dāng)Yd(W)=I時(shí),輸出所述運(yùn)算進(jìn)程的屬性子集; 步驟三六、當(dāng)Yd(W)=O時(shí),在所述運(yùn)算進(jìn)程中,根據(jù)公式(8)計(jì)算每一對(duì)“未使用”的屬性與所述運(yùn)算進(jìn)程的屬性子集的關(guān)系。
6.集成分類(lèi)器,其特征在于,它包括下述裝置 用于多進(jìn)程和多線程組合的方式讀取待處理的柵格數(shù)據(jù)的裝置,該裝置包括如下模塊 用于輸入集成分類(lèi)器的子分類(lèi)器個(gè)數(shù)η的模塊; 其中,η為子分類(lèi)器的個(gè)數(shù),η大于等于2,通過(guò)期望算法將柵格數(shù)據(jù)的所有空間屬性按照決策能力分為η份,每個(gè)分類(lèi)器均具備全集全部的分類(lèi)能力,用于啟動(dòng)η+1個(gè)進(jìn)程的模塊;其中,η+1個(gè)進(jìn)程為Rank O、Rank I…Rankn ;RankO為管理進(jìn)程,Rank I…Rankn均為運(yùn)算進(jìn)程,運(yùn)算進(jìn)程Rank I…Rankn分別與η個(gè)子分類(lèi)器--對(duì)應(yīng),用于在當(dāng)前進(jìn)程為管理進(jìn)程Rank O時(shí),構(gòu)造空的粗糙關(guān)系表,將待處理的柵格數(shù)據(jù)均勻劃分給每個(gè)運(yùn)算進(jìn)程;啟動(dòng)η個(gè)線程,每個(gè)線程單獨(dú)對(duì)應(yīng)一個(gè)運(yùn)算進(jìn)程的模塊;其中,線程包括第I線程、第2線程…第η線程,用于在當(dāng)前進(jìn)程為運(yùn)算進(jìn)程時(shí),每個(gè)進(jìn)程均同時(shí)讀取待處理的柵格數(shù)據(jù)的模塊;用于管理進(jìn)程RankO維護(hù)屬性離散化區(qū)間表,并將該屬性離散化區(qū)間表均勻劃分給多個(gè)線程,所述多個(gè)線程同時(shí)啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化的裝置;用于管理進(jìn)程RankO將空間屬性均勻分給η個(gè)運(yùn)算進(jìn)程處理,并收集η個(gè)運(yùn)算進(jìn)程的處理結(jié)果、構(gòu)建完整的粗糙關(guān)系表,將該粗糙關(guān)系表發(fā)給每個(gè)運(yùn)算進(jìn)程,每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集的裝置;用于管理進(jìn)程RankO將每個(gè)運(yùn)算進(jìn)程根據(jù)所對(duì)應(yīng)的屬性子集進(jìn)行并行訓(xùn)練子分類(lèi)器產(chǎn)生模型,該子分類(lèi)器為與所述的進(jìn)程一一對(duì)應(yīng)的子分類(lèi)器,每個(gè)子分類(lèi)器進(jìn)行預(yù)測(cè)該子分類(lèi)器對(duì)應(yīng)的屬性子集的類(lèi)型,統(tǒng)計(jì)所有子分類(lèi)器預(yù)測(cè)結(jié)果,以投票選舉的方式選取投票最多的預(yù)測(cè)結(jié)果的裝置。
7.根據(jù)權(quán)利要求6所述的集成分類(lèi)器,其特征在于,所述的柵格數(shù)據(jù)是高維度柵格數(shù)據(jù)。
8.根據(jù)權(quán)利要求6或7所述集成分類(lèi)器,其特征在于,用于管理進(jìn)程RankO維護(hù)屬性離散化區(qū)間表,并將該屬性離散化區(qū)間表均勻劃分給多個(gè)線程,所述多個(gè)線程同時(shí)啟動(dòng)對(duì)相應(yīng)的空間連續(xù)屬性的柵格數(shù)據(jù)進(jìn)行離散化的裝置,包括如下模塊用于設(shè)置聚類(lèi)個(gè)數(shù)為ceil的模塊;用于在該線程啟動(dòng)的空間連續(xù)屬性的最大值和最小值之間求取均勻分布聚類(lèi)初始中心的模塊;用于根據(jù)K-Means算法對(duì)均勻分布聚類(lèi)初始中心進(jìn)行聚類(lèi),形成ceil個(gè)聚類(lèi)的模塊;用于將每一個(gè)聚類(lèi)輸出其最小和最大值,形成ceil個(gè)值域區(qū)間的模塊;用于將所述ceil個(gè)值域區(qū)間構(gòu)成一個(gè)區(qū)間列表的模塊。
9.根據(jù)權(quán)利要求6所述的集成分類(lèi)器,其特征在于,所述的粗糙關(guān)系表是一個(gè)二維表,表示二個(gè)屬性直接的交疊程度,粗糙關(guān)系為I表示屬性直接相關(guān)性最強(qiáng),粗糙關(guān)系為O表示最不相關(guān),粗糖關(guān)系表如下
10.根據(jù)權(quán)利要求9所述的面向柵格數(shù)據(jù)的分類(lèi)的集成分類(lèi)器的分類(lèi)方法,其特征在于,用于管理進(jìn)程RankO將空間屬性均勻分給η個(gè)運(yùn)算進(jìn)程處理并收集η個(gè)運(yùn)算進(jìn)程的處理結(jié)果、構(gòu)建完整的粗糙關(guān)系表,將該粗糙關(guān)系表發(fā)給每個(gè)運(yùn)算進(jìn)程,每個(gè)運(yùn)算進(jìn)程根據(jù)粗糙關(guān)系表建立一個(gè)屬性子集的裝置,包括如下模塊 用于在所述運(yùn)算進(jìn)程的粗糙關(guān)系表中隨機(jī)選擇一對(duì)粗糙關(guān)系不相關(guān)的屬性,該屬性的狀態(tài)為“未使用”,將該屬性加入所述運(yùn)算進(jìn)程的屬性子集中,該子集為與所述運(yùn)算進(jìn)程一一對(duì)應(yīng)的子集,并將其標(biāo)記為“已使用”的模塊, 屬性的狀態(tài)為“已使用”或“未使用”; 用于在所述運(yùn)算進(jìn)程中,根據(jù)公式(8)計(jì)算每一對(duì)“未使用”的屬性與所述運(yùn)算進(jìn)程的屬性子集的關(guān)系的模塊, 屬性與屬性子集的粗糙關(guān)系為
全文摘要
本發(fā)明涉及集成分類(lèi)器及該裝置的分類(lèi)方法。本發(fā)明為了解決現(xiàn)有空間柵格數(shù)據(jù)監(jiān)督分類(lèi)領(lǐng)域中存在速度慢、精度低、屬性子集具有偏置特性以及屬性子集為非確定多項(xiàng)式的問(wèn)題。本發(fā)明采用屬性劃分方式,將訓(xùn)練數(shù)據(jù)子集與并行計(jì)算技術(shù)結(jié)合起來(lái),且能應(yīng)用于高緯度柵格數(shù)據(jù);并采用模糊粗糙集理論作為高緯度屬性并行劃分的標(biāo)準(zhǔn),使得每個(gè)子集即有自己獨(dú)立特性,又保持了決策完整性,適應(yīng)于離散型、連續(xù)型的異構(gòu)數(shù)據(jù)。本發(fā)明應(yīng)用于遙感與地理信息系統(tǒng)領(lǐng)域。
文檔編號(hào)G06K9/62GK102930290SQ201210379640
公開(kāi)日2013年2月13日 申請(qǐng)日期2012年10月9日 優(yōu)先權(quán)日2012年10月9日
發(fā)明者張淑清, 潘欣, 張策, 姜春雷 申請(qǐng)人:中國(guó)科學(xué)院東北地理與農(nóng)業(yè)生態(tài)研究所