欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

隨機森林分類模型的可視化優(yōu)化處理方法及裝置的制造方法

文檔序號:8258658閱讀:766來源:國知局
隨機森林分類模型的可視化優(yōu)化處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別是涉及一種隨機森林分類模型的可視化優(yōu)化 處理方法及裝置。
【背景技術(shù)】
[0002] 分類問題是統(tǒng)計學、數(shù)據(jù)分析、機器學習和數(shù)據(jù)挖掘研究領(lǐng)域常遇到的最基本任 務之一。該任務的主要目標是利用訓練數(shù)據(jù)構(gòu)建一個具有較強泛化能力的預測模型(即學 習機),集成學習在該方面具有顯著優(yōu)勢。集成學習的基本思路是使用多個學習機來解決同 一問題。兩個前提條件決定集成學習之可行性:一是單個基學習機是有效的,也就是說單個 基學習機的精度應該大于隨機猜對的概率;二是各基學習機之間的差異性。
[0003] 隨機森林是一種有監(jiān)督的集成學習分類技術(shù),其分類模型由一組決策樹分類器組 成,模型對數(shù)據(jù)的分類是通過單個決策樹的分類結(jié)果進行集體投票來決定最終結(jié)果。它結(jié) 合了LeoBreiman的Bagging集成學習理論與Ho提出的隨機子空間方法,通過對訓練樣本 空間和屬性空間注入隨機性,充分保證了每個決策樹之間的獨立性和差異性,很好地克服 了決策樹過擬合問題,同時對噪聲和異常值也有較好的魯棒性。
[0004] 本申請的發(fā)明人在長期的研發(fā)中發(fā)現(xiàn),隨機森林預測效果顯著優(yōu)于單個決策樹, 但存在一些缺點:與單個決策樹相比,預測速度明顯下降,并且隨著決策樹數(shù)目的增多,所 需的存儲空間也急劇增多。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明主要解決的技術(shù)問題是提供一種隨機森林分類模型的可視化優(yōu)化處理方 法及裝置,能夠減少隨機森林分類模型中決策樹的數(shù)目,降低隨機森林分類模型所需的內(nèi) 存空間,同時還能提高預測速度和精度。
[0006] 第一方面,本發(fā)明提供一種隨機森林分類模型的可視化優(yōu)化處理方法,包括:對于 已構(gòu)建的隨機森林分類模型,通過袋外數(shù)據(jù)估計所述隨機森林分類模型各個決策樹之間的 相關(guān)度;利用所述隨機森林分類模型各個決策樹之間的相關(guān)度,構(gòu)建相關(guān)性矩陣;根據(jù)所 述相關(guān)性矩陣,通過降維技術(shù)獲取三維以下空間的所述隨機森林分類模型的可視化圖形; 根據(jù)所述隨機森林分類模型的可視化圖形,對所述隨機森林分類模型進行優(yōu)化處理,以使 得所述處理后的隨機森林分類模型第二泛化誤差上界不超過處理前的隨機森林分類模型 的第一泛化誤差上界。
[0007] 在第一方面的第一種可能的實現(xiàn)方式中,所述根據(jù)所述相關(guān)性矩陣,通過降維技 術(shù)獲取三維以下空間的所述隨機森林分類模型的可視化圖形的步驟,包括:根據(jù)所述相關(guān) 性矩陣,通過多維尺度分析MDS降維技術(shù)獲取三維以下空間的所述隨機森林分類模型的可 視化圖形。
[0008] 結(jié)合第一方面的第一種可能的實現(xiàn)方式,在第一方面的第二種可能的實現(xiàn)方式 中,所述可視化圖形是散點圖,所述散點圖的每個點代表一個決策樹,所述散點圖每兩個點 之間的距離代表所述隨機森林分類模型對應的決策樹之間的相關(guān)度。
[0009] 結(jié)合第一方面的第二種可能的實現(xiàn)方式,在第一方面的第三種可能的實現(xiàn)方式 中,所述散點圖的點用不同顏色表示,以表達所述散點圖的點所對應的決策樹的分類強度 信息。
[0010] 結(jié)合第一方面的第二種可能的實現(xiàn)方式,在第一方面的第四種可能的實現(xiàn)方式 中,所述散點圖是密度分布的熱力圖。
[0011] 在第一方面的第五種可能的實現(xiàn)方式中,所述根據(jù)所述隨機森林分類模型的可視 化圖形,對所述隨機森林分類模型進行優(yōu)化處理的步驟包括:根據(jù)所述隨機森林分類模型 的可視化圖形,選擇一個決策樹;將距離所述選擇的決策樹最近的K個決策樹刪除,獲得處 理后所述隨機森林分類模型對應的第二泛化誤差上界;將所述處理后所述隨機森林分類 模型對應的第二泛化誤差上界與處理前的隨機森林分類模型的第一泛化誤差上界進行比 較;若處理后所述隨機森林分類模型對應的第二泛化誤差上界減小,則返回所述根據(jù)所述 隨機森林分類模型的可視化圖形,選擇一個決策樹的步驟進行循環(huán),直到處理后所述隨機 森林分類模型對應的第二泛化誤差上界不再減小。
[0012] 結(jié)合第一方面的第五種可能的實現(xiàn)方式,在第一方面的第六種可能的實現(xiàn)方式 中,所述與處理前的隨機森林分類模型的第一泛化誤差上界進行比較的步驟之后,包括:若 處理后所述隨機森林分類模型對應的第二泛化誤差上界增大,則撤銷所述與處理前的隨機 森林分類模型的第一泛化誤差上界進行比較的步驟之前的步驟;采用決策樹規(guī)則匹配算法 將所述隨機森林分類模型中結(jié)構(gòu)相似的決策樹刪除。
[0013] 在第一方面的第七種可能的實現(xiàn)方式中,所述相關(guān)性矩陣的第i行第j列的元素 是所述隨機森林分類模型第i個決策樹和第j個決策樹之間的相關(guān)度,其中,所述i和j是 不為零的自然數(shù)。
[0014] 第二方面,本發(fā)明提供一種隨機森林分類模型的可視化優(yōu)化處理裝置,所述裝置 包括:估計模塊、構(gòu)建模塊、獲取模塊以及優(yōu)化模塊;所述估計模塊用于對于已構(gòu)建的隨機 森林分類模型,通過袋外數(shù)據(jù)估計所述隨機森林分類模型各個決策樹之間的相關(guān)度;所述 構(gòu)建模塊用于利用所述估計模塊估計的所述隨機森林分類模型各個決策樹之間的相關(guān)度, 構(gòu)建相關(guān)性矩陣;所述獲取模塊用于根據(jù)所述構(gòu)建模塊構(gòu)建的所述相關(guān)性矩陣,通過降維 技術(shù)獲取三維以下空間的所述隨機森林分類模型的可視化圖形;所述優(yōu)化模塊用于根據(jù)所 述獲取模塊獲取的所述隨機森林分類模型的可視化圖形,對所述隨機森林分類模型進行優(yōu) 化處理,以使得所述處理后的隨機森林分類模型第二泛化誤差上界不超過處理前的隨機森 林分類模型的第一泛化誤差上界。
[0015] 在第二方面的第一種可能的實現(xiàn)方式中,所述獲取模塊具體用于根據(jù)所述相關(guān)性 矩陣,通過多維尺度分析MDS降維技術(shù)獲取三維以下空間的所述隨機森林分類模型的可視 化圖形。
[0016] 結(jié)合第二方面的第一種可能的實現(xiàn)方式,在第二方面的第二種可能的實現(xiàn)方式 中,所述可視化圖形是散點圖,所述散點圖的每個點代表一個決策樹,所述散點圖每兩個 點之間的距離代表所述隨機森林分類模型對應的決策樹之間的相關(guān)度。
[0017] 結(jié)合第二方面的第二種可能的實現(xiàn)方式,在第二方面的第三種可能的實現(xiàn)方式 中,所述散點圖的點用不同顏色表示,以表達所述散點圖的點所對應的決策樹的分類強度 信息。
[0018] 結(jié)合第二方面的第三種可能的實現(xiàn)方式,在第二方面的第四種可能的實現(xiàn)方式 中,所述散點圖是密度分布的熱力圖。
[0019] 在第二方面的第五種可能的實現(xiàn)方式中,所述優(yōu)化模塊包括:選擇單元、獲得單 元、比較單元以及返回單元;所述選擇單元用于根據(jù)所述隨機森林分類模型的可視化圖形, 選擇一個決策樹;所述獲得單元用于將距離所述選擇單元選擇的決策樹最近的K個決策樹 刪除,獲得處理后所述隨機森林分類模型對應的第二泛化誤差上界;所述比較單元用于將 所述獲得單元獲得的所述處理后所述隨機森林分類模型對應的第二泛化誤差上界與處理 前的隨機森林分類模型的第一泛化誤差上界進行比較;所述返回單元用于在所述比較單元 的比較結(jié)果是處理后所述隨機森林分類模型對應的第二泛化誤差上界減小時,返回所述選 擇單元進行循環(huán),直到處理后所述隨機森林分類模型對應的第二泛化誤差上界不再減小。
[0020] 結(jié)合第二方面的第五種可能的實現(xiàn)方式,在第二方面的第六種可能的實現(xiàn)方式 中,所述優(yōu)化模塊還包括:撤銷單元和刪除單元;所述撤銷單元用于在所述比較單元的比 較結(jié)果是處理后所述隨機森林分類模型對應的第二泛化誤差上界增大時,撤銷所述比較單 元之前的所有操作;所述刪除單元用于在所述撤銷單元撤銷所述比較單元之前的所有操作 后,采用決策樹規(guī)則匹配算法將所述隨機森林分類模型中結(jié)構(gòu)相似的決策樹刪除。
[0021] 在第二方面的第七種可能的實現(xiàn)方式中,所述相關(guān)性矩陣的第i行第j列的元素 是所述隨機森林分類模型第i個決策樹和第j個決策樹之間的相關(guān)度,其中,所述i和j是 不為零的自然數(shù)。
[0022] 本發(fā)明的有益效果是:區(qū)別于現(xiàn)有技術(shù)的情況,本發(fā)明由于獲得隨機森林分類模 型的可視化圖形,在根據(jù)隨機森林分類模型的可視化圖形,對隨機森林分類模型進行優(yōu)化 處理時,不僅能夠提高隨機森林分類模型的學習性能,減少隨機森林分類模型中決策樹的 數(shù)目,同時由于可視化圖形的形象、直觀,在根據(jù)隨機森林分類模型的可視化圖形優(yōu)化時, 可以直接看到優(yōu)化的效果,因此所以能夠提高預測速度和精度,不需要大量的內(nèi)存空間存 儲優(yōu)化算法的結(jié)果,能夠降低隨機森林分類模型所需的內(nèi)存空間。
【附圖說明】
[0023] 圖1是本發(fā)明隨機森林分類模型的可視化優(yōu)化處理方法一實施方式的流程圖;
[0024] 圖2是本發(fā)明隨機森林分類模型的可視化優(yōu)化處理方法中決策樹的訓練過程示 意圖;
[0025] 圖3是本發(fā)明隨機森林分類模型的可視化優(yōu)化處理方法另一實施方式的流程圖;
[0026] 圖4是本發(fā)明隨機森林分類模型的可視化優(yōu)化處理方法中密度分布熱力圖可視 化的示意圖;
[0027] 圖5是本發(fā)明隨機森林分類模型的
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
黎川县| 宜宾市| 若尔盖县| 敖汉旗| 苏尼特右旗| 德州市| 磴口县| 庆元县| 祁阳县| 临邑县| 咸宁市| 龙州县| 潍坊市| 彭水| 丹棱县| 潞城市| 新竹县| 于都县| 且末县| 江油市| 芷江| 庆云县| 吉林省| 宁津县| 贺州市| 和顺县| 荥阳市| 浙江省| 五大连池市| 和平县| 兰考县| 辛集市| 兴文县| 巴彦淖尔市| 密云县| 铅山县| 浠水县| 乌拉特后旗| 宁海县| 迁安市| 洪雅县|