欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于互信息估計(jì)的屬性選擇方法

文檔序號(hào):6378340閱讀:691來(lái)源:國(guó)知局
專利名稱:基于互信息估計(jì)的屬性選擇方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于互信息估計(jì)的屬性選擇方法,用于從一系列屬性集合中選擇關(guān)鍵屬性。
背景技術(shù)
通過剔除與被預(yù)測(cè)變量無(wú)關(guān)的屬性列,并在相關(guān)性較強(qiáng)的屬性集合中,選出與被預(yù)測(cè)變量之間最相關(guān)的一組最小的屬性列集合,主屬性選擇方法減少了計(jì)算過程復(fù)雜度,提升了計(jì)算效率和計(jì)算的準(zhǔn)確度。因而,主屬性選擇算法有著相當(dāng)普遍的應(yīng)用。
在眾多的主屬性選擇算法中,有一類選擇算法是基于信息熵相關(guān)理論實(shí)現(xiàn)的。信息熵表述的是描述某一事件所需的平均信息量大小,是該事件不確定性的一種度量?;バ畔t描述的是一個(gè)事件中包含另一事件的信息量。信息論基本原理表明,互信息值越大,則表明兩個(gè)事件的相關(guān)性越大。因而,可以通過度量被預(yù)測(cè)變量與屬性子集之間的互信息,設(shè)計(jì)屬性選擇算法。兩個(gè)單列屬性間的互信息易于計(jì)算,然而由于計(jì)算復(fù)雜度較高、計(jì)算精準(zhǔn)度較低等原因,單列屬性與屬性集合間的互信息計(jì)算非常困難。因而實(shí)際用互信息做屬性選擇的時(shí)候,往往采用估計(jì)的方式,估算待選屬性與已選屬性集之間的互信息?,F(xiàn)有的估算方法一般遵從“相關(guān)度-冗余度”的模型。其中,“相關(guān)度”指待選屬性與被預(yù)測(cè)變量之間的互信息,一般可通過直接計(jì)算的方式求得?!叭哂喽取眲t指待選屬性與已選屬性集之間的互信息?,F(xiàn)有的冗余度估計(jì)方法大多是此種方法的變形待選屬性列與已選屬性集中元素的互信息。常見的變形為,待選屬性列與已選屬性集中元素互信息的幾何平均。事實(shí)上,信息論的基本理論證明,待選屬性列與已選屬性集中元素互信息的幾何平均是一個(gè)確定的值,是被預(yù)測(cè)變量與已選屬性集間互信息值的一部分?,F(xiàn)有方法通過在該確定值上添加系數(shù)的方式調(diào)整冗余度的值,有著明顯的缺陷。

發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種基于互信息估計(jì)的屬性選擇方法,用于解決現(xiàn)有技術(shù)中單列屬性與屬性集合間的互信息計(jì)算非常困難的問題。本發(fā)明的目的在于針對(duì)單列屬性與屬性集合間互信息難以計(jì)算的問題,將該計(jì)算問題化為可計(jì)算部分和不可計(jì)算部分,通過對(duì)不可計(jì)算部分進(jìn)行估計(jì),實(shí)現(xiàn)對(duì)兩者互信息值的估算。本發(fā)明采用如下技術(shù)方案一種基于互信息估計(jì)的屬性選擇方法,其特征在于,該方法包括以下步驟I)提供一數(shù)據(jù)集D=F U {T};其中,F(xiàn)=If1, f2, - ,fj為屬性集,其中,η為屬性的個(gè)數(shù),T為目標(biāo)屬性;從F中選擇屬性子集S=Is1, S2,…,sk}k < η用于模型的輸入,其中,k為屬性選擇算法保留的屬性個(gè)數(shù),令待選屬性子集R滿足F=S U R, R=Ir1, r2,…,rn_k};選擇第一個(gè)屬性,得S=IsJ,對(duì)于R中的每個(gè)屬性,計(jì)算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得S=S U {r},R=R/{r};重復(fù)步驟2直至滿足終止條件;2)當(dāng)|S|彡2時(shí),待選屬性r與S之間的互信息難以計(jì)算,在此稱為不可計(jì)算部分;而r與S中任意元素s之間的互信息MI (r;s)計(jì)算相對(duì)容易,在此稱為可計(jì)算部分;3)將 MI(r;S)的定義為 MI (r; S) = β SsesMI (r,S,),S,=S/{s};其中,β為用戶輸入?yún)?shù),用于調(diào)整待選屬性!■與已選屬性子集S之間冗余度在屬性選擇公式中的權(quán)重;4)設(shè)置訓(xùn)練參數(shù)β,根據(jù)上述方法求得待選屬性r與已選屬性集S的互信息MI (r; S),選取使得MI (r; T) -MI (r; S)值最大的屬性r,添加到已選屬性集中,并從待選屬性集中刪除;
分別得到已選屬性集序列S1, S2。優(yōu)選地,該方法進(jìn)一步包括驗(yàn)證步驟,即利用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行交叉驗(yàn)證,選出結(jié)果最佳的屬優(yōu)選地,估算待選屬性與已選屬性集合子集間互信息采用遞歸的方式。為達(dá)上述目的,本方法首先計(jì)算可計(jì)算部分的值,然后調(diào)整參數(shù)的方式,得到待選屬性與已選屬性集合子集間互信息的估值。其中,待選屬性列與已選屬性集合子集間互信息的估算以遞歸的方式進(jìn)行。接著,根據(jù)可計(jì)算部分值與估計(jì)值部分的和,選出一系列備選的屬性子集。最后,通過具體的驗(yàn)證方法,利用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行交叉驗(yàn)證,選出結(jié)果最佳的屬性子集。


圖I為本發(fā)明的流程示意圖.
具體實(shí)施例方式以下通過特定的具體實(shí)例說(shuō)明本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可由本說(shuō)明書所揭露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點(diǎn)與功效。本發(fā)明還可以通過另外不同的具體實(shí)施方式
加以實(shí)施或應(yīng)用,本說(shuō)明書中的各項(xiàng)細(xì)節(jié)也可以基于不同觀點(diǎn)與應(yīng)用,在沒有背離本發(fā)明的精神下進(jìn)行各種修飾或改變。請(qǐng)參閱圖I。需要說(shuō)明的是,本實(shí)施例中所提供的圖示僅以示意方式說(shuō)明本發(fā)明的基本構(gòu)想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實(shí)際實(shí)施時(shí)的組件數(shù)目、形狀及尺寸繪制,其實(shí)際實(shí)施時(shí)各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也可能更為復(fù)雜。以下通過具體圖例說(shuō)明本發(fā)明的實(shí)施方式,所屬領(lǐng)域的普通技術(shù)人員可由本說(shuō)明書所揭示的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點(diǎn)與功效。本發(fā)明亦可通過其他不同的具體實(shí)例加以施行或應(yīng)用,本說(shuō)明書中的各項(xiàng)細(xì)節(jié)亦可基于不同觀點(diǎn)與應(yīng)用,在不背離本發(fā)明的精神下進(jìn)行各種修飾與變更。圖I中所示,首先根據(jù)待選屬性f計(jì)算出互信息中可計(jì)算的部分,然后對(duì)f與已選屬性集合S子集的互信息進(jìn)行估遞歸估算。在滿足終止條件時(shí),遞歸結(jié)束并返回結(jié)果?;诨バ畔?Mutual Information,記為MI)的屬性選擇算法可概括表述為對(duì)于數(shù)據(jù)集D=F U-,fn}為屬性集,其中,η為屬性的個(gè)數(shù),T為目標(biāo)屬性。利用
屬性之間的互信息關(guān)系,從F中選擇合適的屬性子集S=Is1, S2, -,SkIk^ η用于模型的輸入。其中,k為屬性選擇算法保留的屬性個(gè)數(shù),令待選屬性子集R滿足F=S U R,R={ri,r2^··
,rn-lJ。典型的基于互信息的選擇算法步驟分為1)S為空集,根據(jù)不同的算法,選擇第一個(gè)屬性,得S={Sl};2)對(duì)于R中的每個(gè)屬性,計(jì)算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得 S=S U {r},R=R/Ir};3)重復(fù)步驟2直至滿足終止條件。
·
上述第2步中,當(dāng)|S|彡2時(shí),待選屬性r與S之間的互信息難以計(jì)算,在此稱為不可計(jì)算部分;而r與S中任意元素s之間的互信息MI (r; s)計(jì)算相對(duì)容易,在此稱為可計(jì)算部分。本方法根據(jù)數(shù)學(xué)公式推導(dǎo),將MI (r;S)的定義為MI (r; S) = β Σ seSMI (r,S’),S’=S/{s};其中,β為用戶輸入?yún)?shù),用于調(diào)整待選屬性!■與已選屬性子集S之間冗余度在屬性選擇公式中的權(quán)重。設(shè)置訓(xùn)練參數(shù)β,根據(jù)上述方法求得待選屬性r與已選屬性集S的互信息MI (r; S),選取使得MI (r; T) -MI (r; S)值最大的屬性r,添加到已選屬性集中,并從待選屬性集中刪除。以此方法分別得到已選屬性集序列S1, S2等等。本方法將數(shù)據(jù)集分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。利用測(cè)試數(shù)據(jù)集,將步驟4中的屬性序列作為輸入?yún)?shù)傳入到訓(xùn)練模型中,選取結(jié)果最好的屬性集作為屬性選擇的結(jié)果。具體來(lái)說(shuō),待選屬性與被預(yù)測(cè)變量之間的互信息可以直接通過計(jì)算得到。但由于計(jì)算復(fù)雜度較大,待選屬性與已選屬性子集之間的互信息通過估計(jì)的方式實(shí)現(xiàn)。一般使用待選屬性與已選屬性子集元素間互信息值的幾何平均或和的部分值。本發(fā)明的特征在于,對(duì)待選屬性與已選屬性子集互信息進(jìn)行估計(jì)時(shí),除考慮待選屬性與已選屬性集合元素間的互信息外,還考慮到其與已選屬性集合子集的關(guān)系。通過遞歸的方式,估計(jì)待選屬性與已選屬性集合的互信息值。綜上所述,本發(fā)明有效克服了現(xiàn)有技術(shù)中的種種缺點(diǎn)而具高度產(chǎn)業(yè)利用價(jià)值。上述實(shí)施例僅例示性說(shuō)明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對(duì)上述實(shí)施例進(jìn)行修飾或改變。因此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識(shí)者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
權(quán)利要求
1.一種基于互信息估計(jì)的屬性選擇方法,其特征在于,該方法包括以下步驟 1)提供一數(shù)據(jù)集D=FU {T};其中,F(xiàn)={fi,f2,…,fn}為屬性集,其中,η為屬性的個(gè)數(shù),T為目標(biāo)屬性;從F中選擇屬性子集S=Is1, S2, -,SkIk^ η,其中,k為屬性選擇算法保留的屬性個(gè)數(shù),所述屬性子集S用于模型的輸入,令待選屬性子集R滿足F=S U R, R={ri,r2,…,rn_J,k為;選擇第一個(gè)屬性,得S=IsJ,對(duì)于R中的每個(gè)屬性,計(jì)算其與S的互信息,根據(jù)算法條件選取合適的屬性r,得S=S U {r},R=R/ Ir};重復(fù)步驟2直至滿足終止條件; 2)當(dāng)|S|彡2時(shí),待選屬性r與S之間的互信息難以計(jì)算,在此稱為不可計(jì)算部分;而r與S中任意元素s之間的互信息MI (r;s)計(jì)算相對(duì)容易,在此稱為可計(jì)算部分; 3)將MI(r;S)的定義為祖(1*;8) = @ 2sesMI(r;S’ ),S,=S/{s}; 其中,β為用戶輸入?yún)?shù),用于調(diào)整待選屬性r與已選屬性子集S之間冗余度在屬性選擇公式中的權(quán)重; 4)設(shè)置訓(xùn)練參數(shù)β,根據(jù)上述方法求得待選屬性r與已選屬性集S的互信息MI(r; S),選取使得祖匕^^^^)值最大的屬性r,添加到已選屬性集中,并從待選屬性集中刪除; 分別得到已選屬性集序列S1, S2。
2.根據(jù)權(quán)利要求I所述的基于互信息估計(jì)的屬性選擇方法,其特征在于,該方法進(jìn)一步包括驗(yàn)證步驟,即利用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行交叉驗(yàn)證,選出結(jié)果最佳的屬性子集。
3.根據(jù)權(quán)利要求I所述的基于互信息估計(jì)的屬性選擇方法,其特征在于,估算待選屬性與已選屬性集合子集間互信息采用遞歸的方式。
全文摘要
本發(fā)明提供一種基于互信息估計(jì)的主屬性選擇方法。方法首先通過計(jì)算數(shù)據(jù)集兩兩屬性間的互信息,得到互信息矩陣。然后通過調(diào)整參數(shù)設(shè)置,利用互信息矩陣中兩兩之間互信息對(duì)待選屬性與已選屬性子集之間的互信息進(jìn)行估計(jì)。根據(jù)互信息估值,依次選擇待選屬性,從而得到一系列備選屬性子集。最后,發(fā)明利用交叉驗(yàn)證的方式,將得到的屬性子集系列用于成本預(yù)測(cè),并將預(yù)測(cè)結(jié)果最好的子集作為最終選擇的主屬性集合。
文檔編號(hào)G06F17/30GK102902795SQ20121037865
公開日2013年1月30日 申請(qǐng)日期2012年10月8日 優(yōu)先權(quán)日2012年10月8日
發(fā)明者劉琴, 朱宏明, 楊筱雯, 肖葭凱, 石仕海 申請(qǐng)人:同濟(jì)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
沁阳市| 都江堰市| 桦甸市| 江安县| 界首市| 伊宁县| 闽侯县| 呈贡县| 磐石市| 台南市| 社会| 台中县| 定陶县| 临澧县| 溧阳市| 诏安县| 图木舒克市| 广东省| 日照市| 南京市| 维西| 彭泽县| 罗山县| 宜宾市| 海原县| 凤台县| 通州区| 禄劝| 枣阳市| 乌苏市| 龙海市| 阳江市| 延吉市| 临汾市| 墨脱县| 东港市| 鄂伦春自治旗| 陈巴尔虎旗| 新河县| 阜康市| 洞头县|