用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法
【專利摘要】本發(fā)明提出了一種用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法,包括如下步驟:S1,獲取海量數(shù)據(jù),根據(jù)該數(shù)據(jù)的屬性通過貝葉斯網(wǎng)絡進行訓練學習;S2,向貝葉斯分類器中引入了屬性分級的策略方法,將樹增廣貝葉斯分類器擴展成為二階的貝葉斯分類器;S3,建立二階依賴樹增廣貝葉斯分類器,將建立完成的二階依賴樹增廣貝葉斯分類器導入所獲取的數(shù)據(jù),根據(jù)數(shù)據(jù)的屬性對該數(shù)據(jù)進行分類匹配,從而準確得到該屬性的數(shù)據(jù)。本發(fā)明選擇TAN分類器為研究對象,將TAN屬性間的依賴關系擴展至二階,并采用屬性分級的策略,提出了二階依賴樹增廣樸素貝葉斯分類器結(jié)構(gòu)的設計方法。本發(fā)明提高了數(shù)據(jù)挖掘的準確性。
【專利說明】
用于大數(shù)據(jù)挖掘的二階依賴樹増廣貝葉斯分類器工作方法
技術領域
[0001] 本發(fā)明設及大數(shù)據(jù)挖掘領域,尤其設及一種用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝 葉斯分類器工作方法。
【背景技術】
[0002] 大數(shù)據(jù)與我們的生活密不可分,而基于大數(shù)據(jù)挖掘的相關技術也已經(jīng)在實際的場 景中有了一定的應用。例如醫(yī)療方面,通過研究大量病人的不同癥狀和病人的診斷結(jié)果之 間的數(shù)據(jù)可W更好的為醫(yī)生的診斷提供依據(jù)。而數(shù)據(jù)分類作為大數(shù)據(jù)挖掘過程中的關鍵技 術,也受到了國內(nèi)外廣泛的研究。數(shù)據(jù)分類的本質(zhì)是對已有數(shù)據(jù)進行學習 W獲得所需知識, 合理的使用運些學習到的知識設計一個相應的函數(shù)或者構(gòu)建一個相應的模型結(jié)構(gòu),運個函 數(shù)或結(jié)構(gòu)體現(xiàn)的是一種映射關系,在獲得正確的映射關系后,觀測實例的部分已知數(shù)據(jù)便 可通過它們映射得到該實例的類,運個過程稱之為數(shù)據(jù)分類。
[0003] 目前已有的很多數(shù)據(jù)挖掘技術都無法給出各個數(shù)據(jù)屬性間的因果關系。在基于貝 葉斯網(wǎng)絡的數(shù)據(jù)分類器中,數(shù)據(jù)之間不同的屬性被建模為貝葉斯網(wǎng)絡中不同的變量節(jié)點。 貝葉斯網(wǎng)絡通過使用屬性間的互信息來尋找相關性,并通過圖形化網(wǎng)絡展示出屬性間的相 關性,并將運種相關性稱為依賴關系。
[0004] 將貝葉斯網(wǎng)絡數(shù)據(jù)分類器中的數(shù)據(jù)分類屬性變量節(jié)點C稱為分類屬性節(jié)點,分類 屬性節(jié)點是網(wǎng)絡中所有其他節(jié)點的父節(jié)點,變量C的取值表示的是數(shù)據(jù)分類的結(jié)果;貝葉斯 網(wǎng)絡數(shù)據(jù)分類器中的屬性變量X0,X1,…,XN-I等節(jié)點稱為屬性節(jié)點,其中各個屬性變量的 取值表示的是數(shù)據(jù)的某一項屬性的情況;表示各個屬性節(jié)點間依賴關系的有向連線稱為 弧。而前文提到的對已有數(shù)據(jù)進行學習的過程,在基于貝葉斯網(wǎng)絡的數(shù)據(jù)分類器中被稱作 訓練。在訓練的過程中,需要將大量的數(shù)據(jù)根據(jù)貝葉斯網(wǎng)絡的結(jié)構(gòu),進行統(tǒng)計分析;網(wǎng)絡中 的所有變量均為離散變量,在經(jīng)過訓練W后我們將得到分類屬性變量C的先驗概率的概率 質(zhì)量函數(shù)P(C),和各個屬性變量的條件概率質(zhì)量函數(shù)P(Xi IC)。
[0005] 基于貝葉斯網(wǎng)絡結(jié)構(gòu)的數(shù)據(jù)分類方法也有很多種。最簡單的貝葉斯分類器是樸素 貝葉斯分類器(NaYveBayesian化twork,NBKNB的網(wǎng)絡結(jié)構(gòu)如附圖1所示?;贜B的數(shù)據(jù) 分類器的核屯、是條件獨立性假設,它假設所有屬性之間都是條件獨立的(即沒有關聯(lián)的), 也就是說,網(wǎng)絡結(jié)構(gòu)中所有屬性節(jié)點之間都不存在弧。樸素貝葉斯分類器的條件獨立性假 設使得模型的復雜度較低,無需擔屯、過擬合現(xiàn)象。雖然它的結(jié)構(gòu)非常簡單,但是在很多應用 中的表現(xiàn)卻不弱于那些更為復雜的分類算法。然而運種條件獨立性假設在現(xiàn)實中是不成立 的,并且其結(jié)構(gòu)也導致樸素貝葉斯無法在訓練數(shù)據(jù)中獲得更多的分類信息,運將嚴重影響 分類準確率。
[0006] 樹增廣樸素貝葉斯分類器(IYee-Augmented NaWeBayes,TAN)是NB的擴展,它通 過貪屯、策略逐步的構(gòu)建了一個最優(yōu)的樹形結(jié)構(gòu),進而獲取到屬性間一些最為重要的依賴關 系。TAN的網(wǎng)絡結(jié)構(gòu)如附圖2所示。TAN由于包含了各個屬性之間的部分關聯(lián)信息,所W相比 于NB, TAN普遍被認為具有更優(yōu)秀的分類性能和更高的復雜度。TAN的設計方法很好的權(quán)衡 了網(wǎng)絡的復雜度和屬性間的依賴關系,構(gòu)造了一個相對完美的一階貝葉斯網(wǎng)絡分類器。但 是到目前為止,TAN仍然只能局限于一階依賴關系。因此,在面對較大的數(shù)據(jù)量時,TA州尋會 由于模型的限制而出現(xiàn)擬合度不足的情況,導致了 TAN在面對大數(shù)據(jù)時的乏力。
[0007] 由于數(shù)據(jù)在累積過程中,其屬性和參數(shù)都在不斷的增加和改變,用戶在對數(shù)據(jù)進 行分析的過程中,如果分類器運算的效率低下,必將導致數(shù)據(jù)挖掘過程中的運算冗余和效 率低下,給用戶帶來不便,運就亟需本領域技術人員解決相應的技術問題。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明旨在至少解決現(xiàn)有技術中存在的技術問題,特別創(chuàng)新地提出了一種用于大 數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法。
[0009] 為了實現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種用于大數(shù)據(jù)挖掘的二階依賴樹增 廣貝葉斯分類器工作方法,包括如下步驟:
[0010] SI,獲取海量數(shù)據(jù),根據(jù)該數(shù)據(jù)的屬性通過貝葉斯網(wǎng)絡進行訓練學習;
[0011] S2,向貝葉斯分類器中引入了屬性分級的策略方法,將樹增廣貝葉斯分類器擴展 成為二階的貝葉斯分類器;
[0012] S3,建立二階依賴樹增廣貝葉斯分類器,將建立完成的二階依賴樹增廣貝葉斯分 類器導入所獲取的數(shù)據(jù),根據(jù)數(shù)據(jù)的屬性對該數(shù)據(jù)進行分類匹配,從而準確得到該屬性的 數(shù)據(jù)。
[0013] 所述的用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法,優(yōu)選的,所述 S2中向貝葉斯分類器中引入了屬性分級的策略包括:
[0014] 在2D-TAN中,每一個屬性變量都將歸屬于某一個屬性等級;在2D-TAN中,首先需要 對各個屬性變量依照其與類變量之間的互信息/(乂:;〇排序;之后每個屬性變量《都將生 成一個信息集合Y巧馬足
;運一集 合中包括了該屬性變量雜與類變量C之間的互信息/(不;〇, W及秦與所有排序在其之前 的屬性變量的條件互信息值馬式;;O巧信息集合Yi*中,數(shù)值最大的元素決定了屬性 變量《的屬性等級;若數(shù)值最大的元素為/(乂;則屬性變量《的屬性等級為1級;若數(shù) 值最大的元素為巧義^. I O,且屬性變量的屬性等級為n級,則屬性變量苯的屬性等 級為n+1級,其中下標i,j分別表示第i個或第j個屬性變量的序號。
[0015] 所述的用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法,優(yōu)選的,所述 樹增廣貝葉斯分類器擴展成為二階的貝葉斯分類器包括:
[0016] 在2D-TAN中,2級及2級W上的屬性變量不,需要在其上一屬性等級的屬性變量或 同級且排序在X之前的屬性變量中選擇至多兩個條件互信息量巧IO的數(shù)值最大或 第二大的屬性變量為.作為屬性變量^^^的父節(jié)點。
[0017] 所述的用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法,優(yōu)選的,所述 S3中二階依賴樹增廣貝葉斯分類器工作方法包括:
[001引步驟1,開始;
[0019] 步驟2,通過訓練得到,分類屬性變量C的先驗概率的概率質(zhì)量函數(shù)P(C),其他屬性 變量的先驗概率的概率質(zhì)量函數(shù)P(Xi)及其條件概率質(zhì)量函數(shù)P(XilC),每個屬性之間的聯(lián) 合先驗概率質(zhì)量函數(shù)P(Xi,Xj),W及各屬性間的條件聯(lián)合概率質(zhì)量函數(shù)P(Xi,Xj IC);
[0020] 步驟3,經(jīng)過計算得到各個屬性變量Xi與類變量C之間的互信息I(Xi;C)和各個屬性 變量之間的條件互信息KXi :? IC);
[0021] 步驟4,依據(jù)I (Xi; C)對所有屬性變量進行排序得到有序的屬性變量 ,...,又^_1,其中下標N為正整數(shù);
[0022] 步驟5,在依賴樹網(wǎng)絡結(jié)構(gòu)中添加類變量C節(jié)點;
[0023] 步驟6,向依賴樹網(wǎng)絡中添加第一個屬性變量節(jié)點;,并在;^與(:之間添加一條 弧,指向,并將其歸類為1級屬性;
[0024] 重復步驟7至步驟9,直到所有屬性變量節(jié)點均添加到了依賴樹網(wǎng)絡中;
[0025] 步驟7,建立屬性變量《的信息集合Yi*,滿足
[0026]
[0027]步驟8,找出Yi*中最大的元素;若該元素為乃^;〇,則在為與C之間添加一條弧, 指向《,并將《向類為1級屬性;若該元素為巧名;^ I 0(/< A,則在聲與C之間添加一條 弧,指向.《,并在苯與考之間添加一條弧,指向《龍《屬于第n級屬性,則將《歸類為第n +1級屬性,其中n為大于等于1的正整數(shù);
[002引步驟9,若n+1 > 2,則需要建立屬性變量式的屬性級別信息集合Yi^Wassl,其中僅包 含了 n級與n+1級的已添加至網(wǎng)絡中的屬性變量與疋的條件互信息,找出Yi^elassl中第二大 的元秦
,并在本與《之間添加一條弧,指向;C;
[0029] 步驟10,判斷是否還有屬性變量尚未添加到網(wǎng)絡中,若沒有,貝峭巧專步驟11;若有 則按照之前的排序,選擇下一屬性變量并回到步驟7;
[0030] 步驟11,結(jié)束。
[0031] 綜上所述,由于采用了上述技術方案,本發(fā)明的有益效果是:
[0032] 首先,通過將原有的TAN擴展至二階貝葉斯分類器,其數(shù)據(jù)擬合度將大大提升,從 而在面對大數(shù)據(jù)問題時能夠有更優(yōu)的表現(xiàn)。
[0033] 其次,采用屬性分級的策略,有助于網(wǎng)絡在訓練數(shù)據(jù)不夠充分的情況下,降低稀有 數(shù)據(jù)樣本對網(wǎng)絡的影響,從而減小分類器的數(shù)據(jù)敏感度,能夠防止過擬合的現(xiàn)象發(fā)生。
[0034] 由于TAN受限于其階數(shù),面對大數(shù)據(jù)時會出現(xiàn)擬合度不足的情況,故而將其擴展至 二階W期提升其擬合度,進而增加分類的準確性,同時采用屬性分級的策略來降低網(wǎng)絡的 數(shù)據(jù)敏感度,防止其出現(xiàn)過擬合的情況,通過該方法對獲取數(shù)據(jù)的準確性方面得到顯著提 升,提高了數(shù)據(jù)提煉或者數(shù)據(jù)挖掘的匹配概率,在大數(shù)據(jù)環(huán)境下降低了過擬合現(xiàn)象,能夠更 加準確的抓取數(shù)據(jù),提高了數(shù)據(jù)挖掘精確度。
[0035] 本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0036] 本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得 明顯和容易理解,其中:
[0037] 圖1為現(xiàn)有技術樸素貝葉斯分類器的結(jié)構(gòu)示意圖;
[0038] 圖2為現(xiàn)有技術樹增廣貝葉斯分類器的結(jié)構(gòu)示意圖;
[0039] 圖3本發(fā)明二階依賴樹增廣貝葉斯分類器的網(wǎng)絡構(gòu)建流程圖;
[0040] 圖4本發(fā)明二階依賴樹增廣貝葉斯分類器的網(wǎng)絡結(jié)構(gòu)示意圖。
【具體實施方式】
[0041] 下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[00創(chuàng)在本發(fā)明的描述中,需要理解的是,術語"縱向"、"橫向"、"上"、"下"、"前"、"后'、 "左"、"右"、"豎直"、"水平"、"頂"、"底""內(nèi)"、"外"等指示的方位或位置關系為基于附圖所 示的方位或位置關系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝 置或元件必須具有特定的方位、W特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限 制。
[0043] 在本發(fā)明的描述中,除非另有規(guī)定和限定,需要說明的是,術語"安裝"、"相連"、 "連接"應做廣義理解,例如,可W是機械連接或電連接,也可W是兩個元件內(nèi)部的連通,可 W是直接相連,也可W通過中間媒介間接相連,對于本領域的普通技術人員而言,可W根據(jù) 具體情況理解上述術語的具體含義。
[0044] 如圖3所示,本發(fā)明提供了一種用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器 工作方法,包括如下步驟:
[0045] Sl,獲取海量數(shù)據(jù),根據(jù)該數(shù)據(jù)的屬性通過貝葉斯網(wǎng)絡進行訓練學習;
[0046] 假設一個考生就是一個數(shù)據(jù)單元,考試通過與否的結(jié)果對應的就是分類屬性變量 C,C=1表示該生考上了,C = O表示該生沒有考上。同時,又通過一些屬性變量X來進行描述 考生運樣一個數(shù)據(jù)單元,比如,用Xi表示考生的筆試成績,拉表示考生的面試成績等等?,F(xiàn)在 假設我的數(shù)據(jù)庫中共有N個運樣的考生作為數(shù)據(jù)單元,我能夠知道每一個考生的各個分類 屬性變量C的取值。假設運N個考生中有P個通過了考試,而N-P個沒有通過,我就能夠從統(tǒng)計 學的角度計算出
,運樣就得到了分類屬性變量C的先驗概率 P(C)。另一方面,此時我知道每一個考生的屬性變量的取值,我們WXi = I表示運個考生的 筆試成績優(yōu)秀,Xi = O,表示該考生筆試成績不優(yōu)秀,再假設筆試成績優(yōu)秀并通過了考試的 考生有Pi個,筆試成績不優(yōu)秀通過了考試的考生為P2個,進而從統(tǒng)計學的角度可W得到
,通過更多的運樣的統(tǒng)計參數(shù)就可W利用統(tǒng)計學 原理得到條件概率質(zhì)量函數(shù)P(Xi I C)。得到了運兩個參數(shù)網(wǎng)絡的訓練就完成了。就可W進入 網(wǎng)絡構(gòu)建的階段了。
[0047]或者假設一組海量的醫(yī)療病例圖片就是一個數(shù)據(jù)單元,該海量圖片對同一區(qū)域或 者類似區(qū)域進行圖像采集,是否存在病灶的圖片就是分類屬性變量C,C=1表示產(chǎn)生病變壞 死區(qū)域,C = O表示沒有產(chǎn)生病變壞死區(qū)域,或者解釋為正常的生理圖片。同時,又通過其它 一些屬性變量Xi來進行描述相關區(qū)域的狀態(tài)信息,比如,用Xi表示血紅蛋白偏高,恥表示血 小板數(shù)量偏低等等?,F(xiàn)在假設圖片數(shù)據(jù)庫中共有N個運樣的病例圖片作為數(shù)據(jù)單元,我能夠 知道每一個疑似患病區(qū)域圖片的分類屬性變量C的取值。假設運N個疑似患病區(qū)域圖片中有 P個匹配為已經(jīng)產(chǎn)生病變壞死區(qū)域,而N-P個沒有產(chǎn)生病變壞死區(qū)域,我就能夠從統(tǒng)計學的 角度計算出
運樣就得到了分類屬性變量C的先驗概率P (C)。另一方面,此時我知道每一個疑似患病區(qū)域圖片的屬性變量的取值,我們WXi = I表示 運個產(chǎn)生病變壞死區(qū)域很嚴重,Xi = O,表示該產(chǎn)生病變壞死區(qū)域不嚴重,再假設產(chǎn)生病變 壞死區(qū)域很嚴重有Pi個,產(chǎn)生病變壞死區(qū)域不嚴重為P2個,進而從統(tǒng)計學的角度可W得到
通過更多的運樣的統(tǒng)計參數(shù)就可W利用統(tǒng)計學 原理得到條件概率質(zhì)量函數(shù)P(Xi I C)。得到了運兩個參數(shù)網(wǎng)絡的訓練就完成了。就可W進入 網(wǎng)絡構(gòu)建的階段了。
[004引從抽象的角度來講,敘述如下:
[0049] 在網(wǎng)絡建立之前,需要選擇好與分類屬性C相關的屬性變量Xi(此處假設共有N個 屬性變量)。然后,獲取得到數(shù)據(jù)庫中各個數(shù)據(jù)單元的屬性變量Xi到Xn的取值,再從運用統(tǒng)計 學的方法來計算分類屬性變量C的先驗概率P(C)和各個屬性變量Xi的條件概率質(zhì)量函數(shù)P (XilOo
[0050] S2,向貝葉斯分類器中引入了屬性分級的策略方法,將樹增廣貝葉斯分類器擴展 成為二階的貝葉斯分類器;
[0051] 向貝葉斯分類器中引入了屬性分級的策略包括:
[0052] 在2D-TAN中,每一個屬性變量都將歸屬于某一個屬性等級;在2D-TAN中,首先需要 對各個屬性變量依照其與類變量之間的互信息
排序;之后每個屬性變量薦都將有 一個信息集合Y巧馬足,
;運一 集合中包括了該屬性變量又^與類變量C之間的互信息及菊與所有排序在其之 前的屬性變量的條件互信息值乃式;店^.1 O ;在信息集合¥1^中,數(shù)值最大的元素決定了屬性 變量名的屬性等級;若數(shù)值最大的元素為/(《:0,則屬性變量%t的屬性等級為1級;若數(shù) 值最大的元素為巧考;Q,且屬性變量的屬性等級為n級,則屬性變量朵的屬性等級 為n+1級。
[0053] 將原有的樹增廣貝葉斯分類器擴展成為一個二階的貝葉斯分類器,包括:
[0054] 在2D-TAN中,2級及2級W上的屬性變量,需要在其上一屬性等級的屬性變量或 同級且排序在《之前的屬性變量中選擇至多兩個條件互信息量0的數(shù)值最大或 第二大的屬性變量當滿足要求的節(jié)點少于兩個時,可W只選擇一個)作為屬性變量秦 的父節(jié)點。
[0055] 如圖4所示,S3,建立二階依賴樹增廣貝葉斯分類器,將建立完成的二階依賴樹增 廣貝葉斯分類器導入所獲取的數(shù)據(jù),根據(jù)數(shù)據(jù)的屬性對該數(shù)據(jù)進行分類匹配,從而準確得 到該屬性的數(shù)據(jù)。
[0056] 二階依賴樹增廣貝葉斯分類器的結(jié)構(gòu)設計方法的流程包括:
[0057] 步驟1,開始;
[0058] 步驟2,通過訓練得到,分類屬性變量C的先驗概率的概率質(zhì)量函數(shù)P(C),其他屬性 變量的先驗概率的概率質(zhì)量函數(shù)P(Xi)及其條件概率質(zhì)量函數(shù)P(XilC),各個屬性之間的聯(lián) 合先驗概率質(zhì)量函數(shù)P(Xi,Xj),W及各屬性間的條件聯(lián)合概率質(zhì)量函數(shù)P(Xi,Xj IC);
[0059] 步驟3,經(jīng)過計算得到各個屬性變量Xi與類變量C之間的互信息I(Xi;C)和各個屬性 變量之間的條件互信息KXi :? IC);
[0060] 步驟4,依據(jù)I ( X i ; C )對所有屬性變量進行排序得到有序的屬性變量 [0061 ]步驟5,在網(wǎng)絡結(jié)構(gòu)中添加類變量C節(jié)點;
[0062] 步驟6,向網(wǎng)絡中添加第一個屬性變量節(jié)點萬,并在或與C之間添加一條弧,指向 .萬,并將其歸類為1級屬性;
[0063] 重復步驟7至步驟9,直到所有屬性變量節(jié)點均添加到了網(wǎng)絡中;
[0064] 步驟7,建立屬性變量或的信息集合Yi*,滿足
[00 化]
;
[0066] 步驟8,找出¥1^中最大的元素;若該元素為/(式;〇,則在或與(:之間添加一條弧, 指向韋,并將《向類為1級屬性;若該元素為JTJ 〇〇'</),則在《與C之間添加一條 弧,指向名,并在則在霉《之間添加一條弧,指向4,若考屬于第n級屬性,則將秦歸類 為第n+1級屬性;
[0067] 步驟9,若n+1 > 2,則需要建立屬性變量考的屬性級別信息集合Yi^Wassl,其中僅包 含了n級與n+1級的已添加至網(wǎng)絡中的屬性變量與秦的條件互信息,找出Yi^Wass;中第二大 的元素
,并在則在秦與考 1之間添加一條弧,指向或。
[0068] 步驟10,判斷是否還有屬性變量尚未添加到網(wǎng)絡中,若沒有,貝峭巧專步驟11;若有 則按照之前的排序,選擇下一屬性變量并回到步驟7;
[0069] 步驟11,結(jié)束。
[0070] S4,網(wǎng)絡搭建完成后的貝葉斯網(wǎng)絡的使用方法。
[0071] 在網(wǎng)絡搭建完成后,又怎么使用運個網(wǎng)絡來進行數(shù)據(jù)分類呢。還是沿用之前的考 生的例子?,F(xiàn)在我們有了一批還沒有參加公務員考試的考生,他們想知道自己考上的概率 有多大。于是,他們就按照自己的情況,把網(wǎng)絡中各項分類屬性變量的取值填入了網(wǎng)絡中, 比如某一考生筆試成績優(yōu)秀,則此時向網(wǎng)絡中的屬性變量Xi賦值為1,運一考生的面試成績 不優(yōu)秀,貝化2賦值為0,等等。他將所有的屬性變量完成賦值后,網(wǎng)絡將會計算得到分類屬性 變量C的一個后驗概率,而運一概率就表征了運一考生通過運次考試的概率。
[0072] 或者W海量的醫(yī)療病例圖片為例子。現(xiàn)在我們有了一批還沒有對同一區(qū)域進行圖 片分析的海量圖像數(shù)據(jù),如果想知道患病概率有多大。于是,他們就按照自己的情況,把依 賴樹網(wǎng)絡中各項分類屬性變量的取值填入了依賴樹網(wǎng)絡中,比如某一血紅蛋白偏高,則此 時向網(wǎng)絡中的屬性變量Xi賦值為1,某一血小板數(shù)量偏低,貝化2賦值為0,等等。他將所有的屬 性變量完成賦值后,網(wǎng)絡將會計算得到分類屬性變量C的一個后驗概率,而運一概率就表征 了運一區(qū)域是否為產(chǎn)生病變壞死的區(qū)域。
[0073] 從抽象的角度敘述如下:
[0074] 網(wǎng)絡搭建完成后,當數(shù)據(jù)單元需要經(jīng)過網(wǎng)絡進行數(shù)據(jù)分類時,需要根據(jù)運一數(shù)據(jù) 的實際情況,向網(wǎng)絡中的各個屬性變量賦值,網(wǎng)絡經(jīng)過計算W后,將會得到運一數(shù)據(jù)的分類 屬性變量C的后驗概率。
[0075] 在本說明書的描述中,參考術語"一個實施例"、"一些實施例"、"示例"、"具體示 例"、或"一些示例"等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特 點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不 一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可W在任何 的一個或多個實施例或示例中W合適的方式結(jié)合。
[0076] 盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領域的普通技術人員可W理解:在不 脫離本發(fā)明的原理和宗旨的情況下可W對運些實施例進行多種變化、修改、替換和變型,本 發(fā)明的范圍由權(quán)利要求及其等同物限定。
【主權(quán)項】
1. 一種用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法,其特征在于,包括 如下步驟: Sl,獲取海量數(shù)據(jù),根據(jù)該數(shù)據(jù)的屬性通過貝葉斯網(wǎng)絡進行訓練學習; S2,向貝葉斯分類器中引入了屬性分級的策略方法,將樹增廣貝葉斯分類器擴展成為 二階的貝葉斯分類器; S3,建立二階依賴樹增廣貝葉斯分類器,將建立完成的二階依賴樹增廣貝葉斯分類器 導入所獲取的數(shù)據(jù),根據(jù)數(shù)據(jù)的屬性對該數(shù)據(jù)進行分類匹配,從而準確得到該屬性的數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法, 其特征在于,所述S2中向貝葉斯分類器中引入了屬性分級的策略包括: 在2D-TAN中,每一個屬性變量都將歸屬于某一個屬性等級;在2D-TAN中,首先需要對各 個屬性變量依照其與類變量之間的互信息/(A;; O排序;之后每個屬性變量都將生成 一個信息集合滿足,= /(X:;^|〇 …/(XK1IC)Ls- 集合中包括了該屬性變量 <與類變量C之間的互信息以及名與所有排序在其 之前的屬性變量的條件互信息值/(<;< I O;在信息集合:中,數(shù)值最大的元素決定了 屬性變量名的屬性等級;若數(shù)值最大的元素為則屬性變量X的屬性等級為1級; 若數(shù)值最大的元素為/(尤;^ I O,且屬性變量#的屬性等級為η級,則屬性變量名的屬 性等級為η+1級,其中下標i,j分別表示第i個或第j個屬性變量的序號。3. 根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法, 其特征在于,所述S2樹增廣貝葉斯分類器擴展成為二階的貝葉斯分類器包括: 在2D-TAN中,2級及2級以上的屬性變量;<,需要在其上一屬性等級的屬性變量或同級 且排序在;^之前的屬性變量中選擇至多兩個條件互信息量I O的數(shù)值最大或第 二大的屬性變量 作為屬性變量X的父節(jié)點。4. 根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)挖掘的二階依賴樹增廣貝葉斯分類器工作方法, 其特征在于,所述S3中二階依賴樹增廣貝葉斯分類器工作方法包括: 步驟1,開始; 步驟2,通過訓練得到,分類屬性變量C的先驗概率的概率質(zhì)量函數(shù)P(C),其他屬性變量 的先驗概率的概率質(zhì)量函數(shù)P(X1)及其條件概率質(zhì)量函數(shù)PU11C),每個屬性之間的聯(lián)合先 驗概率質(zhì)量函數(shù)P(X 1Jj),以及各屬性間的條件聯(lián)合概率質(zhì)量函數(shù)PU11Xj Ic); 步驟3,經(jīng)過計算得到各個屬性變量Xi與類變量C之間的互信息I (Xi; C)和各個屬性變量 之間的條件互信息I(x1;xdc); 步驟4,依據(jù)I ( X i ; C )對所有屬性變量進行排序得到有序的屬性變量 XV.., ,其中下標N為正整數(shù),表示網(wǎng)絡中共有N個屬性變量; 步驟5,在依賴樹網(wǎng)絡結(jié)構(gòu)中添加類變量C節(jié)點; 步驟6,向依賴樹網(wǎng)絡中添加第一個屬性變量節(jié)點<,并在與C之間添加一條弧,指 向X,并將其歸類為1級屬性; 重復步驟7至步驟9,直到所有屬性變量節(jié)點均添加到了依賴樹網(wǎng)絡中; 步驟7,建立屬性變量的信息集合Ff,滿足 Y;={l{X;;C) I{X];X;\C) ,. 步驟8,找出中最大的元素;若該元素為/(;<;〇,則在尤與C之間添加一條弧,指向 寫,并將尤歸類為1級屬性;若該元素為/(A::;冬| 〇(./</) ,則在劣與C之間添加一條弧,指 向名,并在名與^之間添加一條弧,指向;^,若^屬于第η級屬性,則將名歸類為第n+1級 屬性,其中η為大于等于1的正整數(shù); 步驟9,若η+1彡2,則需要建立屬性變量4的屬性級別信息集合y^U'/a·^,其中僅包含 了 η級與n+1級的已添加至網(wǎng)絡中的屬性變量與名的條件互信息,找出}^(cte)中第二大的 元素 /?:;《I c)(/ < /),并在;^與;^之間添加一條弧,指向;; 步驟10,判斷是否還有屬性變量尚未添加到網(wǎng)絡中,若沒有,則跳轉(zhuǎn)步驟11;若有則按 照之前的排序,選擇第i+Ι個屬性變量并回到步驟7; 步驟11,結(jié)束。
【文檔編號】G06K9/62GK106021524SQ201610351706
【公開日】2016年10月12日
【申請日】2016年5月24日
【發(fā)明人】趙立, 廖勇, 沈軒帆
【申請人】成都希盟泰克科技發(fā)展有限公司