專利名稱:用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
背景技術(shù):
數(shù)據(jù)挖掘致力在海量的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)。目前已經(jīng)有不少基于計(jì)算機(jī)的數(shù)據(jù)挖掘(或知識(shí)發(fā)現(xiàn))系統(tǒng)應(yīng)用到電力、金融、商業(yè)、軍事、醫(yī)藥、生命等領(lǐng)域。一個(gè)典型的基于計(jì)算機(jī)的數(shù)據(jù)挖掘過程由準(zhǔn)備數(shù)據(jù)和預(yù)處理、數(shù)據(jù)挖掘、結(jié)果分析與知識(shí)應(yīng)用等步驟組成。在實(shí)際應(yīng)用中,數(shù)據(jù)表中每一列稱為一個(gè)屬性。特征選擇是數(shù)據(jù)挖掘重要的預(yù)處理步驟,從高維屬性空間中選取少量主要屬性,作為數(shù)據(jù)挖掘的輸入屬性,可以有效提高數(shù)據(jù)挖掘的精度和效率。(data mining)或知識(shí)發(fā)現(xiàn)(knowledge discovery in database)中的特征選擇(featureselection)。
本申請(qǐng)人曾于2005年8月26日申請(qǐng)的、申請(qǐng)?zhí)枮?00510092983.7、發(fā)明名稱為“數(shù)據(jù)挖掘中一種混合互信息的特征選擇方法”,考慮屬性能夠提供的新信息量,還兼顧屬性與類別標(biāo)號(hào)屬性的相關(guān)度,但它具有大多數(shù)特征選擇方法共有的缺點(diǎn)不具備很好的剔除冗余屬性的能力,在選擇過程中添加了冗余量,造成數(shù)據(jù)挖掘精度和簡(jiǎn)易度的降低,尤其當(dāng)?shù)谝粋€(gè)被選擇屬性不夠好時(shí),將導(dǎo)致特征選擇過程的失敗。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,針對(duì)已有技術(shù)的缺陷,采用一種基于Parzen窗的統(tǒng)一型互信息估計(jì)方法(以下簡(jiǎn)稱PG法)估計(jì)互信息,用前進(jìn)后退(以下簡(jiǎn)稱FB)法搜索最優(yōu)特征集合,既可以處理目標(biāo)屬性為離散屬性的分類問題,也可以直接處理目標(biāo)屬性為連續(xù)屬性的回歸問題。
本發(fā)明提出的用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,包括(1)建立一個(gè)由待處理數(shù)據(jù)的N個(gè)輸入屬性組成的集合F,所述的待處理數(shù)據(jù)含有N個(gè)輸入屬性和一個(gè)目標(biāo)屬性C,所述的輸入屬性為連續(xù)屬性或離散屬性,建立一個(gè)空集合S0,用以存放從集合F中選擇的屬性;(2)對(duì)上述集合F中的每個(gè)輸入屬性fi,用基于帕森窗的統(tǒng)一型互信息估計(jì)法計(jì)算第一互信息值I(C;S0∪{fi}),其中S0∪{fi}為向上述空集合S0中增加fi后的集合,并從計(jì)算的互信息值中得到為待處理數(shù)據(jù)分類貢獻(xiàn)最大的輸入屬性fj,即,使I(C;S0∪{fi})值為最大的屬性fj;(3)計(jì)算上述輸入屬性fj的信息增益比α′,α′=I(C;S0∪{fi})-I(C;S0)H(C),]]>當(dāng)滿足α′>α+,或滿足I(C;S0)/H(C)<ε時(shí),則在上述空集合S0中添加屬性fj,并將S0記為Sa1,并在集合F中刪除fj,其中α+和ε為設(shè)定的信息增益值,H(C)為目標(biāo)屬性C的熵;(4)對(duì)上述集合Sa1中的每個(gè)屬性si,用基于帕森窗的統(tǒng)一型互信息估計(jì)方法計(jì)算第二互信息值I(C;Sa1\{si}),其中Sa1\{si}表示在集合Sa1中刪除屬性si后的集合,并計(jì)算信息減少值α″,α′′=I(C;Sa1)-I(C;Sa1\{si})H(C),]]>將α″與α-的大小進(jìn)行判斷,若滿足α″<α-,則從集合Sa1中刪除si,在集合F中添加si,若不滿足,則不操作,新建一個(gè)與判斷后的Sa1相同的集合,記為Sb1,其中α-為設(shè)定的信息減少值;(5)重復(fù)上述步驟(2)(3)(4),每次重復(fù)時(shí),步驟(2)中,使Sbi替換S0,步驟(3)中,使Sa(i+1)替換Sai,步驟(4)的集合記為Sb(i+1),直到步驟(3)中不再有屬性fj添加到Sai中,停止循環(huán),記最后得到的Sbi為Slast;(6)對(duì)于每一次重復(fù)得到的集合Sbi,用基于帕森窗的統(tǒng)一型互信息估計(jì)方法計(jì)算第三互信息值I(C;Si)和信噪比SNRatio(C,Si)=I(C;Si)H(Si)-I(C;Si),]]>其中H(Si)為集合Si的熵,若步驟(1)集合F中的N個(gè)屬性為離散屬性,則選擇使I(C;Si)≥I(C;Slast)且信噪比最大的集合Si作為選擇的特征屬性集合;若第(1)步中F中的N個(gè)屬性不全是離散屬性,則選擇使I(C;Si)≥I(C;Slast)且H(Si)最小的集合Si作為選擇的特征屬性集合。
本發(fā)明提出的用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,統(tǒng)稱為PGFB法,其優(yōu)點(diǎn)是能夠直接處理目標(biāo)屬性為連續(xù)屬性的回歸問題;能夠直接處理輸入屬性為離散、連續(xù)屬性混合的情況;能夠動(dòng)態(tài)剔除冗余屬性。采用本方法從數(shù)據(jù)表大量候選屬性中選出少量特征屬性作為數(shù)據(jù)挖掘的輸入屬性,不但可提高數(shù)據(jù)挖掘的速度,還可提高數(shù)據(jù)挖掘的精度。很好地克服了PG-HMI剔除冗余等方面的缺陷。
具體實(shí)施例方式
本發(fā)明提出的用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,包括(1)建立一個(gè)由待處理數(shù)據(jù)的N個(gè)輸入屬性組成的集合F,所述的待處理數(shù)據(jù)含有N個(gè)輸入屬性和一個(gè)目標(biāo)屬性C,所述的輸入屬性為連續(xù)屬性或離散屬性,建立一個(gè)空集合S0,用以存放從集合F中選擇的屬性;(2)對(duì)上述集合F中的每個(gè)輸入屬性fi,用基于帕森窗(Parzen Window).的統(tǒng)一型互信息估計(jì)法計(jì)算第一互信息值I(C;S0∪{fi}),其中S0∪{fi}為向上述空集合S0中增加fi后的集合,并從計(jì)算的互信息值中得到為待處理數(shù)據(jù)分類貢獻(xiàn)最大的輸入屬性fj,即,使I(C;S0∪{fi})值為最大的屬性fj;(3)計(jì)算上述輸入屬性fj的信息增益比α′,α′=I(C;S0∪{fi})-I(C;S0)H(C),]]>當(dāng)滿足α′>α+,或滿足I(C;S0)/H(C)<ε時(shí),則在上述空集合S0中添加屬性fj,并將S0記為Sa1,并在集合F中刪除fj,其中α+和ε為設(shè)定的信息增益值,H(C)為目標(biāo)屬性C的熵;(4)對(duì)上述集合Sa1中的每個(gè)屬性si,用基于帕森窗(Parzen Window)的統(tǒng)一型互信息估計(jì)方法計(jì)算第二互信息值I(C;Sa1\{si}),其中Sa1\{si}表示在集合Sa1中刪除屬性si后的集合,并計(jì)算信息減少值α″,α′′=I(C;Sa1)-I(C;Sa1\{si})H(C),]]>將α″與α-的大小進(jìn)行判斷,若滿足α″<α-,則從集合Sa1中刪除si,在集合F中添加si,若不滿足,則不操作,新建一個(gè)與判斷后的Sa1相同的集合,記為Sb1,其中α-為設(shè)定的信息減少值;本發(fā)明方法中,將上述步驟(3)和(4)稱為前進(jìn)后退(以下簡(jiǎn)稱FB)搜索法,以下將詳細(xì)介紹。
(5)重復(fù)上述步驟(2)(3)(4),每次重復(fù)時(shí),步驟(2)中,使Sbi替換S0,步驟(3)中,使Sa(i+1)替換Sai,步驟(4)的集合記為Sb(i+1),直到步驟(3)中不再有屬性fj添加到Sai中,停止循環(huán),記最后得到的Sbi為Slast;(6)對(duì)于每一次重復(fù)得到的集合Sbi,用基于帕森窗(Parzen Window)的統(tǒng)一型互信息估計(jì)方法計(jì)算第三互信息值I(C;Si)和信噪比SNRatio(C,Si)=I(C;Si)H(Si)-I(C;Si),]]>其中H(Si)為集合Si的熵,若步驟(1)集合F中的N個(gè)屬性為離散屬性,則選擇使I(C;Si)≥I(C;Slast)且信噪比最大的集合Si作為選擇的特征屬性集合;若第(1)步中F中的N個(gè)屬性不全是離散屬性,則選擇使I(C;Si)≥I(C;Slast)且H(Si)最小的集合Si作為選擇的特征屬性集合。
以下進(jìn)一步詳細(xì)說明本發(fā)明方法的各個(gè)步驟。
一個(gè)數(shù)據(jù)庫中每一條數(shù)據(jù)可以用一個(gè)向量來表示M(c;v1,v2,……,vN),其中vi為該數(shù)據(jù)輸入屬性Vi的值,Vi既可以是離散屬性也可以是連續(xù)屬性,它們共同確立目標(biāo)屬性C的狀況,c為該數(shù)據(jù)分類屬性C的值,當(dāng)C為離散屬性時(shí),數(shù)據(jù)挖掘處理的是分類問題,C為連續(xù)屬性時(shí),數(shù)據(jù)挖掘處理的是回歸問題。特征選擇的目的為從N個(gè)輸入屬性中選擇出對(duì)目標(biāo)屬性C影響最大的若干個(gè)屬性。
本發(fā)明方法中,關(guān)于熵和互信息的基本概念為根據(jù)香農(nóng)的信息理論,熵(entropy)是隨機(jī)變量不確定性的度量。一個(gè)離散隨機(jī)變量X,其可能取值集合記為Sx,對(duì)應(yīng)于x∈Sx其概率密度函數(shù)為p(x),則X的熵定義為H(X)=-Σx∈sxp(x)logp(x)...(1)]]>當(dāng)變量Y已知,變量X中剩余的不確定性用條件熵(conditional entropy)來度量H(X|Y)=-Σx∈SxΣy∈Syp(x,y)logp(x|y)...(2)]]>條件熵與熵有如下關(guān)系H(X|Y)=H(XY)-H(Y) (3)兩個(gè)隨機(jī)變量X和Y的統(tǒng)計(jì)依存關(guān)系用互信息(mutual information)來度量
I(X;Y)=Σx∈SxΣy∈Syp(x,y)logp(x,y)p(x)p(y)...(4)]]>如果兩個(gè)隨機(jī)變量的互信息較大,則這兩個(gè)隨機(jī)變量相關(guān)性較大。互信息和熵有如下關(guān)系I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) (5)=H(X)+H(Y)-H(XY)在Z已知的條件下,X和Y的統(tǒng)計(jì)依存度可以用條件互信息來表示I(X;Y|Z)=Σx∈SxΣy∈SyΣz∈Szp(x,y,z)logp(x,y|z)p(x|z)p(y|z)...(6)]]>條件互信息與熵有如下關(guān)系I(X;Y|Z)=H(XZ)+H(YZ)-H(Z)-H(XYZ)(7)互信息的單調(diào)性I(X;Y)≤I(X;YZ)(8)對(duì)于連續(xù)隨機(jī)變量,微分熵、互信息、條件互信息分別定義如下H(X)=-∫xp(x)logp(x)dx...(9)]]>I(X;Y)=∫∫x,yp(x,y)logp(x,y)p(x)p(y)dxdy...(10)]]>I(X;Y|Z)=∫∫∫x,y,zp(x,y,z)logp(x,y|z)p(x|z)p(y|z)dxdydz...(11)]]>式(1)~(11)給出了隨機(jī)變量X、Y、Z的熵、互信息、條件互信息的計(jì)算公式及關(guān)系,對(duì)于隨機(jī)矢量X、Y、Z,公式形式保持一致。
本發(fā)明提出了一種PG互信息計(jì)算方法,可以處理離散連續(xù)屬性混合時(shí)互信息的計(jì)算問題。下面以計(jì)算I(X;Y)為例統(tǒng)一說明PG法計(jì)算互信息的步驟。在計(jì)算I(X;Y)時(shí),只要先計(jì)算出H(X),H(Y)以及H(XY)便可利用下式得到互信息I(X;Y)。
I(X;Y)=H(X)+H(Y)-H(XY) (12)因此只討論統(tǒng)一型互信息的計(jì)算就足夠了。不失一般性,假設(shè)矢量Z的前K個(gè)屬性為離散屬性,后D-K個(gè)屬性為連續(xù)屬性Z=UX=U1...UK,X1,...XD-K,H(Z)可以分成H(U)和H(X|U)兩項(xiàng),參見式(3)。下面分別討論這兩項(xiàng)的計(jì)算方法。
H(Z)=H(UX)=H(U)+H(X|U) (13)
H(U)的估計(jì)是簡(jiǎn)單而直接的,可以按照互信息的定義式直接計(jì)算如下H(U)=-Σu∈Sup(u)logp(u)=-Σu∈Sununlognun]]>=logn-1nΣu∈Sunulognu]]>(14)其中nu為樣本空間中U值取u的樣本數(shù),n為樣本總數(shù)。
H(X|U)可按定義寫成式(15)的形式。計(jì)算H(X|U)需要解決兩個(gè)問題1、如何獲得p(x|u);2、如何計(jì)算積分。
H(X|U)=-Σu∈Su∫xp(u,x)logp(x|u)dx]]>=-Σu∈Sup(u)∫xp(x|u)logp(x|u)dx]]>=Σu∈Sup(u)H(X|u)]]>(15)其中H(X|u)=-∫xp(x|u)logp(x|u)dx;]]>Su為u所有可能取值的集合;p(x|u)可以用Parzen窗函數(shù)估計(jì),如用高斯窗函數(shù),則p(x|u)的估計(jì)式 可以寫成式(16)的形式,其中Iu是U值取u的樣本的編號(hào)集合;∑為協(xié)方差矩陣,概率密度估計(jì)時(shí)通常只考慮對(duì)角項(xiàng)(非對(duì)角項(xiàng)誤差較大)。若連續(xù)屬性進(jìn)行了標(biāo)準(zhǔn)化處理(方差為1),則本法中的∑為單位矩陣。
p^(x|u)=1nuΣi∈Iuφ(x-xi,h)=1nu(2π)D/2hD|Σ|Σi∈Iuexp(-(x-xi)TΣ-1(x-xi)2h2)...(16)]]>上述積分運(yùn)算是很困難的,本方法將積分運(yùn)算簡(jiǎn)化為代數(shù)和。 值大的區(qū)域表示該區(qū)域樣本出現(xiàn)概率高、分布較為密集,因而在積分轉(zhuǎn)化為代數(shù)和的時(shí)候每個(gè)樣本所代表的區(qū)域相應(yīng)地較小。在積分轉(zhuǎn)化為代數(shù)和的轉(zhuǎn)換中,本方法假設(shè)每個(gè)樣本所能代表的區(qū)域與該樣本所在點(diǎn)的概率密度成反比,即Δxj∝1p^(xj|u),]]>從而得到p^(xj|u)Δxj=const.]]>因?yàn)?是概率密度函數(shù)的估計(jì)式,積分轉(zhuǎn)化為代數(shù)和的過程中,理論上應(yīng)滿足概率密度函數(shù)的歸一性,即1=∫xp(x|u)dx=Σj∈1up^(xj|u)Δxj,]]>又因?yàn)閖∈Iu的樣本共有nu個(gè),從而得到p^(xj|u)Δxj=1/nu.]]>按以上方式簡(jiǎn)化后,H(X|u)的估計(jì)值 可用式(17)得H^(X|u)]]>=-∫xp^(x|u)logp^(x|u)dx]]>到=-Σj∈Iup^(xj|u)logp^(xj|u)Δxj]]>=-1nuΣj∈Iulogp^(xj|u)]]>(17)將式(16)代入式(17),則得到H(X|U)的估計(jì)式如(18)。表1給出了H(X|U)的計(jì)算步驟。
H^(X|U)]]>=Σu∈Sup(u)H^(X|u)]]>=-1nΣu∈SuΣj∈Iulogp^(xj|u)]]>=-1nΣu∈SuΣj∈Iulog1nu(2π)D/2hD|Σ|Σi∈Iuexp(-(xj-xi)TΣ-1(xj-xi)2h2)]]>(18)表1H(X|U)的計(jì)算步驟 本發(fā)明方法中在特征集合搜索方式上,提出了FB搜索方法。FB搜索方法是根據(jù)順序動(dòng)態(tài)前進(jìn)法(以下簡(jiǎn)稱SFFS法)的思想,針對(duì)特征選擇需要而進(jìn)行的改進(jìn)。在介紹搜索方法之前,首先給出有效、冗余屬性的定義。在搜索過程中,已選屬性集合S中一般是有效、冗余屬性并存的,即S=Si∪Sr,其中Si是有效屬性集合,Sr是冗余屬性集合。定義有效屬性集合Si是S中能夠有效提供信息的屬性組成的集合,滿足以下兩個(gè)條件I.I(C;S)-I(C;Si)H(C)<α-...(19)]]>II.f∈Si、TSr,有I(C;T∪Si)-I(C;T∪(Si\{f}))H(C)≥α-...(20)]]>其中α-為一較小的正常數(shù)。定義冗余屬性集合Sr為S中除Si集合外的元素組成的集合。由于TSr,由互信息單調(diào)性(8)知,I(C;T∪Si)≤I(C;Sr∪Si)=I(C;S),故I(C;T∪Si)-I(C;Si)H(C)<α-...(21)]]>即Sr集合的任一子集T均不能在Si的基礎(chǔ)上有效提供互信息。符合該定義的有效/冗余屬性是在已知S條件下的局部有效/冗余的屬性,并不一定是全局有效/冗余屬性。但這種定義是在當(dāng)前已有信息基礎(chǔ)上的合理猜測(cè),工程實(shí)際中這些屬性為有效/冗余屬性的可能性較大。本方法這樣認(rèn)定有效/冗余屬性是為了縮小搜索空間,簡(jiǎn)化計(jì)算。另外,如果在搜索過程中刪除了當(dāng)前認(rèn)為冗余的屬性,后續(xù)的搜索還有可能將其重新選入;當(dāng)前認(rèn)為有效的屬性,后來也可以剔除。
已有的SFFS搜索方法幾乎與分枝定界(branch-and-bound)方法效果一樣好,然而計(jì)算量較少。本方法提出的FB搜索借鑒了SFFS的思想,并根據(jù)“有效”、“冗余”屬性的定義對(duì)SFFS法進(jìn)行了調(diào)整。FB法“前進(jìn)”、“后退”交替進(jìn)行?!扒斑M(jìn)”過程中逐個(gè)選入能夠有效提供互信息的屬性,直至F中沒有屬性滿足(22)為止?!扒斑M(jìn)”過程閾值α+阻止了冗余屬性進(jìn)入S。
I(C;S∪{f})-I(C;S)H(C)>α+...(22)]]>“后退”過程中去除已選屬性集合中的冗余屬性,直至S中沒有屬性滿足式(23)為止。
“后退”閾值α-使得有效屬性不會(huì)被剔除。
I(C;S)-I(C;S\{f})H(C)<α-...(23)]]>
α+和α-均為非負(fù)常數(shù)(例如可以設(shè)置為0.01)。FB法搜索步驟參見(表2)。當(dāng)α-≤α+時(shí),步驟3中的終止條件可以簡(jiǎn)化為若前進(jìn)步驟中沒有添加屬性,則算法終止。
表2SFFS搜索方法的步驟
本發(fā)明方法中,α+和α-兩個(gè)參數(shù)需要設(shè)定。α+設(shè)置的越小,則選入的屬性越多,混入不良屬性的可能性越大;α+設(shè)置的越大,則選入的屬性越少,少選優(yōu)良屬性的可能性越大。同樣地,合理設(shè)置α-值對(duì)特征選擇結(jié)果也有很大的影響,應(yīng)使得α-的設(shè)置能夠有效去除冗余屬性,而不會(huì)剔除優(yōu)良屬性。
權(quán)利要求
1.一種用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,其特征在于該方法包括以下步驟(1)建立一個(gè)由待處理數(shù)據(jù)的N個(gè)輸入屬性組成的集合F,所述的待處理數(shù)據(jù)含有N個(gè)輸入屬性和一個(gè)目標(biāo)屬性C,所述的輸入屬性為連續(xù)屬性或離散屬性,建立一個(gè)空集合S0,用以存放從集合F中選擇的屬性;(2)對(duì)上述集合F中的每個(gè)輸入屬性fi,用基于帕森窗的統(tǒng)一型互信息估計(jì)法計(jì)算第一互信息值I(C;S0∪{fi}),其中S0∪{fi}為向上述空集合S0中增加fi后的集合,并從計(jì)算的互信息值中得到為待處理數(shù)據(jù)分類貢獻(xiàn)最大的輸入屬性fj,即,使I(C;S0∪{fi})值為最大的屬性fj;(3)計(jì)算上述輸入屬性fj的信息增益比α′,α′=I(C;S0∪{fi})-I(C;S0)H(C),]]>當(dāng)滿足α′>α+,或滿足I(C;S0)/H(C)<ε時(shí),則在上述空集合S0中添加屬性fj,并將S0記為Sa1,并在集合F中刪除fj,其中α+和ε為設(shè)定的信息增益值,H(C)為目標(biāo)屬性C的熵;(4)對(duì)上述集合Sa1中的每個(gè)屬性si,用基于帕森窗的統(tǒng)一型互信息估計(jì)方法計(jì)算第二互信息值I(C;Sa1\{si}),其中Sa1\{si}表示在集合Sa1中刪除屬性si后的集合,并計(jì)算信息減少值α″,α′′=I(C;Sa1)-I(C;Sa1\{si})H(C),]]>將α″與α_的大小進(jìn)行判斷,若滿足α″<α_,則從集合Sa1中刪除si,在集合F中添加si,若不滿足,則不操作,新建一個(gè)與判斷后的Sa1相同的集合,記為Sb1,其中α_為設(shè)定的信息減少值;(5)重復(fù)上述步驟(2)(3)(4),每次重復(fù)時(shí),步驟(2)中,使Sbi替換S0,步驟(3)中,使Sa(i+1)替換Sai,步驟(4)的集合記為Sb(i+1),直到步驟(3)中不再有屬性fj添加到Sai中,停止循環(huán),記最后得到的Sbi為Slast;(6)對(duì)于每一次重復(fù)得到的集合Sbi,用基于帕森窗的統(tǒng)一型互信息估計(jì)方法計(jì)算第三互信息值I(C;Si)和信噪比SNRatio(C,Si)=I(C;Si)H(Si)-I(C;Si),]]>其中H(Si)為集合Si的熵,若步驟(1)集合F中的N個(gè)屬性為離散屬性,則選擇使I(C;Si)≥I(C;Slast)且信噪比最大的集合Si作為選擇的特征屬性集合;若第(1)步中F中的N個(gè)屬性不全是離散屬性,則選擇使I(C;Si)≥I(C;Slast)且H(Si)最小的集合Si作為選擇的特征屬性集合。
全文摘要
本發(fā)明涉及一種用于數(shù)據(jù)挖掘的具有冗余剔除能力的混合特征選擇方法,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。該法對(duì)輸入屬性集合F進(jìn)行前進(jìn)搜索,用基于帕森窗的統(tǒng)一型互信息估計(jì)方法計(jì)算信息增益比(見式1)來選擇特征屬性,對(duì)已選屬性集合S進(jìn)行后退搜索,用基于帕森窗的統(tǒng)一型互信息估計(jì)法計(jì)算信息減少值(見式2)來動(dòng)態(tài)剔除冗余屬性。本發(fā)明方法,統(tǒng)稱為PGFB法,其優(yōu)點(diǎn)是能夠直接處理目標(biāo)屬性為連續(xù)屬性的回歸問題;能夠直接處理輸入屬性為離散、連續(xù)屬性混合的情況;能夠動(dòng)態(tài)剔除冗余屬性,得到全局最優(yōu)解。采用本方法從數(shù)據(jù)表大量候選屬性中選出少量特征屬性作為數(shù)據(jù)挖掘的輸入屬性,不但可以提高數(shù)據(jù)挖掘的速度,還可提高數(shù)據(jù)挖掘的精度。
文檔編號(hào)G06F17/30GK101030219SQ20071006519
公開日2007年9月5日 申請(qǐng)日期2007年4月6日 優(yōu)先權(quán)日2007年4月6日
發(fā)明者孫宏斌, 王皓, 張伯明, 吳文傳, 王康 申請(qǐng)人:清華大學(xué)