專利名稱:一種提高決策樹建模準(zhǔn)確率的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域,適用于提高決策樹建模準(zhǔn)確率的方法。
背景技術(shù):
數(shù)據(jù)分類被描述為一個兩步的過程。首先的一步是建立一個模型,來描述已有的數(shù)據(jù)集。數(shù)據(jù)集中的每個元組都有一個類標(biāo)記,用來標(biāo)記元組的類別。其次的一步就是使用已經(jīng)構(gòu)造好的模型進(jìn)行分類。首先要評估分類方法的準(zhǔn)確性,如果準(zhǔn)確性可以接受,那么下一步就是用它對類標(biāo)號未知的數(shù)據(jù)元組進(jìn)行分離。在分類的過程中,我們可能需要注意一些問題。首先是需要根據(jù)數(shù)據(jù)的特點而對數(shù)據(jù)做預(yù)處理,比如做數(shù)據(jù)清理,進(jìn)行特征選擇等等。其次就是對分類方法的評估,需要選擇合適的方法來評價方法的好壞,評價方法的選擇對最終的結(jié)果很有影響。決策樹模型(Decision Tree)是數(shù)據(jù)建模時常用的一種方法,基本思想是選取一個最能區(qū)分不同類別樣本的屬性,讓其最為樹根,并把樣本集分為相應(yīng)的幾塊,接下來再依次在每一塊樣本集中選出區(qū)分度最大的屬性,作為數(shù)的第二層節(jié)點,以此類推,直到所有的葉節(jié)點都只包括一類樣本時終止。這樣構(gòu)建起來的一棵樹就叫決策樹。它是一種直觀的知識表示方法,同時也是高效的分類器。決策樹著眼于從一組無序無規(guī)則的事例之中推理出樹形式的分類規(guī)則,它采用自頂向下的遞歸方式,在每個內(nèi)部結(jié)點進(jìn)行屬性值的比較并判斷該結(jié)點以下的分支,在葉子結(jié)點得到分類的結(jié)論。樹上的每一個節(jié)點說明了對實例的某個屬性的測試,并且該節(jié)點的每一個后續(xù)分支對應(yīng)于該屬性的一個可能值。對決策樹的評價一般采用分類準(zhǔn)確率衡量其有效性,使用建樹時間和樹結(jié)點數(shù)來衡量決策樹的復(fù)雜程度。決策樹中最重要的就是對大區(qū)分度屬性的選擇方法,通常認(rèn)為有最高信息增益的屬性是給定數(shù)據(jù)集中既有最高區(qū)分度的屬性。通過計算信息增益,可以得到屬性的順序。定義信息增益如下
權(quán)利要求
1.本發(fā)明所述的一種提高決策樹建模準(zhǔn)確率的方法,其主要特征如下步驟1、對所有數(shù)據(jù)進(jìn)行方差分析,獲得P值步驟2、按P值有大到小排序,逐個地加入到模型中。步驟3、計算模型交叉證實的準(zhǔn)確度,并確定并確定合適的數(shù)據(jù)量。步驟4、建立決策樹。步驟5、計算該決策樹4倍交叉的正確率。步驟6、將模型進(jìn)行隨機(jī)預(yù)測,并且與隨機(jī)猜測的結(jié)果做比較。
全文摘要
本發(fā)明為了提高決策樹建樹模型的準(zhǔn)確性,設(shè)計了一種新方法,該方法主要的分析步驟為步驟1、對所有數(shù)據(jù)進(jìn)行方差分析,獲得p值;步驟2、按P值有大到小排序,逐個地加入到模型中;步驟3、計算模型交叉證實的準(zhǔn)確度,并確定并確定合適的數(shù)據(jù)量;步驟4、建立決策樹;步驟5、計算該決策樹4倍交叉的正確率;步驟6、將模型進(jìn)行隨機(jī)預(yù)測,并且與隨機(jī)猜測的結(jié)果做比較。通過以上方法建立決策樹模型,能明顯提高模型的準(zhǔn)確率。
文檔編號G06F17/30GK102270209SQ20101021404
公開日2011年12月7日 申請日期2010年6月29日 優(yōu)先權(quán)日2010年6月29日
發(fā)明者曾華宗 申請人:上海聚類生物科技有限公司