欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用表格來(lái)學(xué)習(xí)樹的制作方法

文檔序號(hào):6542808閱讀:259來(lái)源:國(guó)知局
專利名稱:使用表格來(lái)學(xué)習(xí)樹的制作方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及數(shù)據(jù)建模和分析,尤其涉及使用完整的數(shù)據(jù)表格來(lái)創(chuàng)建模型(或模式)。
背景技術(shù)
隨著因特網(wǎng),尤其是因特網(wǎng)上的電子商務(wù)(“e商務(wù)”)的出現(xiàn),數(shù)據(jù)分析工具的使用也隨之顯著地增加。在e商務(wù)和其它因特網(wǎng)和非因特網(wǎng)應(yīng)用中,生成并維護(hù)具有非常大量信息的數(shù)據(jù)庫(kù)。這類信息通常被分析或“挖掘(mine)”來(lái)了解關(guān)于顧客、用戶、產(chǎn)品等的額外信息。這一信息允許商家和其它用戶更好地實(shí)現(xiàn)其產(chǎn)品和/或思想。
數(shù)據(jù)挖掘(也稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)-KDD)被定義為“從數(shù)據(jù)中對(duì)隱含的、先前未知的和可能有用的信息的非平凡提取”。數(shù)據(jù)挖掘可采用機(jī)器學(xué)習(xí)、統(tǒng)計(jì)和/或可視化技術(shù)來(lái)發(fā)現(xiàn)并呈現(xiàn)容易被人類理解的形式的知識(shí)。一般而言,人類能夠比文本項(xiàng)更容易地識(shí)別或轉(zhuǎn)換圖形項(xiàng)。因此,使用這一手段可比其它方法傳播更大量的信息。由此,圖形統(tǒng)計(jì)模型被證明在數(shù)據(jù)挖掘中是無(wú)價(jià)的。
計(jì)算機(jī)科學(xué)中人工智能的出現(xiàn)帶來(lái)了豐富的決策支持系統(tǒng)。決策支持系統(tǒng)是其中建議并有時(shí)候作出通常由人類托付的決策的計(jì)算機(jī)系統(tǒng)。在創(chuàng)建決策支持系統(tǒng)時(shí),計(jì)算機(jī)科學(xué)家試圖提供具有最大可能準(zhǔn)確性的決策。由此,計(jì)算機(jī)科學(xué)家努力創(chuàng)建等效于人類專家或比其更準(zhǔn)確的決策支持系統(tǒng)。決策支持系統(tǒng)的應(yīng)用包括醫(yī)學(xué)診斷、計(jì)算機(jī)網(wǎng)絡(luò)故障診斷、或其中決策是基于可標(biāo)識(shí)準(zhǔn)則的其它系統(tǒng)。
決策支持系統(tǒng)中用于研究的最有希望的新領(lǐng)域之一是貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)是關(guān)于世界的區(qū)別中概率關(guān)系的表示。每一區(qū)別(也稱為變量)可采用一手動(dòng)排他且窮盡的可能的狀態(tài)集合之一。貝葉斯網(wǎng)絡(luò)被表達(dá)為非循環(huán)有向圖,其中,變量對(duì)應(yīng)于節(jié)點(diǎn),而節(jié)點(diǎn)之間的關(guān)系對(duì)應(yīng)于弧。
貝葉斯網(wǎng)絡(luò)是對(duì)感興趣的變量之間的概率關(guān)系進(jìn)行編碼的圖形統(tǒng)計(jì)模型。在過(guò)去的十年中,貝葉斯網(wǎng)絡(luò)已經(jīng)成為了編碼專家系統(tǒng)中不確定專家知識(shí)的流行表示。最近,研究人員開發(fā)了用于從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的方法。當(dāng)結(jié)合統(tǒng)計(jì)技術(shù)使用時(shí),圖形模型具有用于數(shù)據(jù)分析的若干優(yōu)點(diǎn)。首先,由于模型對(duì)所有變量之間的依賴性進(jìn)行編碼,因此它可以容易地處理缺少某些數(shù)據(jù)條目的情況。其次,貝葉斯網(wǎng)絡(luò)可用于學(xué)習(xí)因果關(guān)系,并因此可用于獲取關(guān)于問(wèn)題域的理解和預(yù)測(cè)干預(yù)的結(jié)果。第三,由于模型具有因果和概率語(yǔ)義兩者,它是用于組合現(xiàn)有知識(shí)(通常以因果形式出現(xiàn))和數(shù)據(jù)的理想表示。第四,貝葉斯統(tǒng)計(jì)方法結(jié)合貝葉斯網(wǎng)絡(luò)提供了用于避免數(shù)據(jù)的過(guò)擬合(over fitting)的有效且有原則的方法。
有兩種用于構(gòu)造統(tǒng)計(jì)模型的傳統(tǒng)方法,即基于知識(shí)的方法和基于數(shù)據(jù)的方法,如決策樹或決策圖。使用基于知識(shí)的方法,一個(gè)人(也稱為知識(shí)工程師)采訪給定領(lǐng)域的專家以獲得該專家關(guān)于其專長(zhǎng)的領(lǐng)域的知識(shí)。知識(shí)工程師和專家首先確定世界中對(duì)于專家的領(lǐng)域中決策制定是重要的各種區(qū)別。這些區(qū)別對(duì)應(yīng)于感興趣的域中的變量。例如,如果決策圖用于基于顧客在商店中購(gòu)買的產(chǎn)品來(lái)預(yù)測(cè)顧客的年齡,則有一用于“年齡”的變量和一用于所有相關(guān)產(chǎn)品的變量。知識(shí)工程師和專家接下來(lái)確定決策圖的結(jié)構(gòu)和定量化條件概率分布所對(duì)應(yīng)的參數(shù)值。
在基于數(shù)據(jù)的方法中,知識(shí)工程師和專家首先確定域的變量。下一步,對(duì)那些變量累計(jì)數(shù)據(jù),并且應(yīng)用從該數(shù)據(jù)創(chuàng)建一個(gè)或多個(gè)決策圖的算法。累計(jì)的數(shù)據(jù)來(lái)自域的真實(shí)世界實(shí)例。即,給定領(lǐng)域中決策制定的真實(shí)世界實(shí)例。
通常,從一般的觀點(diǎn)來(lái)看,基于數(shù)據(jù)的方法更常用。然而,在過(guò)去的幾年中,當(dāng)更有效地收集數(shù)據(jù)的能力增長(zhǎng)時(shí),這些數(shù)據(jù)庫(kù)也呈指數(shù)地增長(zhǎng)。盡管計(jì)算機(jī)處理技術(shù)和存儲(chǔ)訪問(wèn)技術(shù)中得到的速度不斷提高,這仍產(chǎn)生了花費(fèi)極大時(shí)間來(lái)分析的龐大的數(shù)據(jù)庫(kù)。

發(fā)明內(nèi)容
以下提出了本發(fā)明的簡(jiǎn)化概述,以提供對(duì)本發(fā)明的某些方面的基本理解。本概述并非本發(fā)明的廣泛綜述。它并不意味著標(biāo)識(shí)本發(fā)明的關(guān)鍵/決定性元素,或描述本發(fā)明的范圍。其唯一的目的是以簡(jiǎn)化的形式提出本發(fā)明的某些概念,作為以后給出的更詳細(xì)描述的序言。
本發(fā)明一般涉及數(shù)據(jù)建模和分析,尤其涉及使用包括完整表格的貝葉斯網(wǎng)絡(luò)來(lái)創(chuàng)建包含決策樹的貝葉斯網(wǎng)絡(luò)模型(或模式)。依照本發(fā)明的一個(gè)方面,具有完整表格的貝葉斯網(wǎng)絡(luò)中的邊可被反轉(zhuǎn),以便于糾正添加到該網(wǎng)絡(luò)的邊。例如,貝葉斯網(wǎng)絡(luò)可使用完整的表格作為分布來(lái)學(xué)習(xí),其中學(xué)習(xí)算法使用了可反轉(zhuǎn)邊的搜索算法。所得的有向非循環(huán)圖(DAG)可用于限制使用決策樹作為局部分布的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法。依照這一方面,在從決策樹和/或完整表格搜索中得到的DAG中考慮完整表格DAG的偏序。以這一方式,如果在完整表格DAG中存在從X到Y(jié)的有向路徑,則可阻止在X的樹中對(duì)Y的分裂。
依照本發(fā)明的另一方面,具有完整表格的貝葉斯網(wǎng)絡(luò)中的邊可被求值,以評(píng)估與其相關(guān)聯(lián)的得分。這一得分可以指示由邊連接的節(jié)點(diǎn)之間的相關(guān)程度??煽紤]替換的節(jié)點(diǎn)/邊排列,并可確定現(xiàn)有的邊是否具有最佳可能得分。如果邊得分可被改進(jìn),則現(xiàn)有的邊可以被操縱(如,反轉(zhuǎn)、移除或用新邊替換等等),以達(dá)到增加的得分。以這一方式,本發(fā)明可確保貝葉斯網(wǎng)絡(luò)具有良好的排序。
為實(shí)現(xiàn)上述和相關(guān)目的,此處結(jié)合以下詳細(xì)描述和附圖描述了本發(fā)明的某些說(shuō)明性方面。然而,這些方面僅指示了可在其中采用本發(fā)明的原理的各種方法中的幾種,并且本發(fā)明并不試圖包括所有這樣的方面及其等效方面。當(dāng)結(jié)合附圖閱讀以下本發(fā)明的詳細(xì)描述時(shí),可以清楚本發(fā)明的其它優(yōu)點(diǎn)和新穎特征。


圖1是依照本發(fā)明的一個(gè)方面的示例性貝葉斯網(wǎng)絡(luò)的圖示。
圖2是依照本發(fā)明的一個(gè)方面的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的框圖。
圖3是依照本發(fā)明的一個(gè)方面的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)的另一框圖。
圖4是依照本發(fā)明的一個(gè)方面的示例性節(jié)點(diǎn)-邊配置的圖示。
圖5示出了依照本發(fā)明的一個(gè)方面的葉-節(jié)點(diǎn)連接。
圖6所示是依照本發(fā)明的一個(gè)方面學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)的方法的流程圖。
圖7所示是依照本發(fā)明的一個(gè)方面學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)的方法的另一流程圖。
圖8示出了本發(fā)明可在其中運(yùn)作的示例操作環(huán)境。
圖9示出了本發(fā)明可在其中運(yùn)作的另一示例操作環(huán)境。
具體實(shí)施例方式
現(xiàn)在參考附圖來(lái)描述本發(fā)明,貫穿附圖,相同的標(biāo)號(hào)用于引用相同的元素。在以下描述中,為解釋目的,陳述了眾多具體細(xì)節(jié)來(lái)提供對(duì)本發(fā)明的徹底理解。然而,很明顯,本發(fā)明可以不使用這些具體細(xì)節(jié)來(lái)實(shí)施。在其它實(shí)例中,以框圖的形式示出了眾所周知的結(jié)構(gòu)和設(shè)備,以便于描述本發(fā)明。
如本申請(qǐng)中所使用的,術(shù)語(yǔ)“計(jì)算機(jī)組件”指的是計(jì)算機(jī)相關(guān)的實(shí)體,無(wú)論是硬件、硬件和軟件的組合、軟件還是執(zhí)行中的軟件。例如,計(jì)算機(jī)組件可以是,但不限于,運(yùn)行在處理器上的進(jìn)程、處理器、對(duì)象、可執(zhí)行碼、執(zhí)行線程、程序和/或計(jì)算機(jī)。作為說(shuō)明,運(yùn)行在服務(wù)器上的應(yīng)用程序和服務(wù)器都可以是組件。一個(gè)或多個(gè)組件可駐留在進(jìn)程和/或執(zhí)行線程中,并且組件可位于一個(gè)計(jì)算機(jī)上和/或在兩個(gè)或多個(gè)計(jì)算機(jī)之間分布??梢岳斫?,此處所描述的模型、網(wǎng)絡(luò)、查詢引擎、用戶界面、比較器、模型(或模式)可以是計(jì)算機(jī)組件。
本發(fā)明方便了從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò),它涉及搜索最好地表示數(shù)據(jù)中的不依賴性的模型結(jié)構(gòu)(如,DAG)。貝葉斯網(wǎng)絡(luò)包括一DAG和對(duì)應(yīng)的一組局部分布,該組局部分布共同定義了聯(lián)合分布,在聯(lián)合分布中,由DAG蘊(yùn)含的不相關(guān)性約束都被考慮在內(nèi)。例如,當(dāng)每一局部分布p(X|parents)是完整表格時(shí)(如,對(duì)于parent_values的所有可能的值,我們有單獨(dú)的分布p(X|parents=parent_vales)),典型的搜索過(guò)程可考慮添加、刪除和反轉(zhuǎn)邊。
當(dāng)局部分布是決策樹時(shí),搜索問(wèn)題可以更困難。只要某一目標(biāo)T的決策樹包含變量R上的分裂,R就可以是DAG中T的父節(jié)點(diǎn)。在這一情況下,與完整表格分布相反,父節(jié)點(diǎn)集合不唯一地標(biāo)識(shí)該節(jié)點(diǎn)的局部分布。因此,搜索算法也可搜索分布的“子結(jié)構(gòu)”(如,樹的結(jié)構(gòu)等)。
在許多情況下,經(jīng)學(xué)習(xí)的模型的質(zhì)量取決于導(dǎo)出DAG中正確的偏序。例如,如果學(xué)習(xí)了結(jié)構(gòu)X→Y←Z,則這一模型結(jié)構(gòu)可以優(yōu)于X→Y→Z、X→Z,因?yàn)樗幋a了X和Z的邊緣不相關(guān)性。當(dāng)局部分布是完整表格時(shí),搜索操作符可反轉(zhuǎn)邊的方向。以這一方式,如果算法最初不正確地應(yīng)用了邊的方向,則它可在稍后就糾正這一錯(cuò)誤。在上述示例中,如果貪婪算法從空網(wǎng)絡(luò)開始,則添加X(jué)→Y的得分將與添加Y←X的得分相同,因?yàn)槟P蚗→YZ和X←YZ編碼了同一不相關(guān)性約束。假定這兩個(gè)操作符都是最佳的,貪婪算法將在它們之間任意選擇。如果最優(yōu)模型是X→Y←Z,則算法可通過(guò)稍后反轉(zhuǎn)它以從添加X(jué)←Y中恢復(fù)。如上所述,如果結(jié)合適當(dāng)?shù)牟僮鞣褂昧薉AG的等效類,則算法可從任何這樣的錯(cuò)誤中恢復(fù)。
然而,當(dāng)局部分布是樹時(shí),常規(guī)的系統(tǒng)和方法不提供邊反轉(zhuǎn)的良好定義的概念。反轉(zhuǎn)邊X→Y包括(1)刪除作為Y的父節(jié)點(diǎn)的Z,以及(2)添加Y作為X的父節(jié)點(diǎn)。刪除作為Y的父節(jié)點(diǎn)的X包括在Y的決策樹中消除X上的任何分裂。如果在X上的分裂的下級(jí)有其它分裂,則這一消除也會(huì)消除其它父節(jié)點(diǎn)。此外,“添加Y作為X的父節(jié)點(diǎn)”對(duì)于使用常規(guī)系統(tǒng)和/或方法的決策樹分布不是良好定義的;相反在X的樹中對(duì)Y的分裂是必需的。
作為上述缺點(diǎn)的結(jié)果,學(xué)習(xí)具有決策樹分布的貝葉斯網(wǎng)絡(luò)的傳統(tǒng)搜索操作符通??紤]向樹添加分裂;這一操作符或者在其為新的父節(jié)點(diǎn)時(shí)向DAG添加邊,或者在父節(jié)點(diǎn)上已經(jīng)存在分裂時(shí)不向DAG添加任何邊。不幸的是,由于傳統(tǒng)的系統(tǒng)僅添加邊,使用這一常規(guī)系統(tǒng)從在錯(cuò)誤的方向上添加邊中恢復(fù)是不可能的。此外,如在完整表格的情況下一樣,邊的方向之間的選擇(如,在Y的樹中分裂X或在X的樹中分裂Y等)在貪婪搜索的早期階段是任意的。
本發(fā)明方便了學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò),同時(shí)減輕了上述許多困難。例如,可使用分布中的完整表格,使用可反轉(zhuǎn)邊的搜索算法來(lái)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)。所得的DAG可用于限制決策樹搜索算法。具體地,本發(fā)明的系統(tǒng)和方法可要求在從決策樹搜索中得到的DAG中考慮完整表格DAG的偏序。換言之,如果存在完整表格DAG中從X到Y(jié)的有向路徑,則可阻止X的樹中對(duì)Y的分裂。
圖1描述了貝葉斯網(wǎng)絡(luò)100的一個(gè)示例。在圖1中,有三個(gè)變量X1、X2和X3,它們分別由節(jié)點(diǎn)102、106和110表示。該貝葉斯網(wǎng)絡(luò)包括兩條弧104和108。與貝葉斯網(wǎng)絡(luò)中每一變量相關(guān)聯(lián)的是一組概率分布。使用條件概率的符號(hào),變量的概率分布集合可以由p(xi|∏i,ξ)來(lái)表示,其中,“p”指概率分布,“∏i”表示變量Xi的父節(jié)點(diǎn),“ξ”表示專家知識(shí)。希臘字母“ξ”表示貝葉斯網(wǎng)絡(luò)反映了給定領(lǐng)域的專家知識(shí)。由此,這一表達(dá)式可作以下解釋給定Xi的父節(jié)點(diǎn)和專家知識(shí),變量Xi的概率分布。例如,X1是X2的父節(jié)點(diǎn)。概率分布指定了變量之間的關(guān)系的強(qiáng)度。例如,如果X1具有兩種狀態(tài)(真和假),則與X1相關(guān)聯(lián)的是單個(gè)概率分布p(x1|ξ),而與X2相關(guān)聯(lián)的是兩個(gè)概率分布p(x2|x1=t,ξ)和p(x2|x1=f,ξ)。在這一規(guī)定的剩余部分,ξ未特別地提及。
貝葉斯網(wǎng)絡(luò)中的弧表明了節(jié)點(diǎn)之間的依賴性。當(dāng)兩個(gè)節(jié)點(diǎn)之間有一條弧時(shí),當(dāng)弧的方向從第二節(jié)點(diǎn)指向第一節(jié)點(diǎn)時(shí),第一節(jié)點(diǎn)的概率分布取決于第二節(jié)點(diǎn)的值。例如,節(jié)點(diǎn)106依賴于節(jié)點(diǎn)102。因此,節(jié)點(diǎn)102和106被認(rèn)為是條件依賴的。貝葉斯網(wǎng)絡(luò)中缺少弧表明條件獨(dú)立性。例如,給定節(jié)點(diǎn)106,節(jié)點(diǎn)102和110是條件獨(dú)立的。然而,通過(guò)中間變量間接連接在一起的兩個(gè)變量在缺少中間節(jié)點(diǎn)的值的知識(shí)(“狀態(tài)”)的情況下是條件依賴的。因此,如果已知節(jié)點(diǎn)106的值,節(jié)點(diǎn)102和節(jié)點(diǎn)110是條件依賴的。
換言之,給定一組變量Z,如果給定Z時(shí)X的概率分布不依賴于Y,則變量X和Y的組被認(rèn)為是條件獨(dú)立的。然而,如果Z為空,X和Y被認(rèn)為是“獨(dú)立的”,與“條件獨(dú)立”相反。如果X和Y不是條件獨(dú)立的,則給定Z,X和Y被認(rèn)為是在給定Z是條件依賴的。
用于每一節(jié)點(diǎn)的變量可以具有不同的類型。具體地,變量可以具有兩種類型離散的或連續(xù)的。離散變量是具有有限或可計(jì)數(shù)的狀態(tài)數(shù)的變量,而連續(xù)變量是具有無(wú)限狀態(tài)數(shù)的變量。離散變量的一個(gè)示例是布爾變量。這一變量只能采用兩個(gè)狀態(tài)中的一個(gè)“真”和“假”。連續(xù)變量的一個(gè)示例是可采用-1和1之間的任何實(shí)數(shù)值的變量。離散變量具有相關(guān)聯(lián)的概率分布。然而,連續(xù)變量具有相關(guān)聯(lián)的概率密度函數(shù)(“密度”)。當(dāng)事件是一可能的結(jié)果的集合時(shí),變量“x”和事件“a”和“b”的密度被定義為p(x)=Lima→b[p(a≤x≤b)|(a-b)|]]]>其中,p(a≤x≤b)是x位于a和b之間的概率。
圖2示出了依照本發(fā)明的一個(gè)方面的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)200。圖2描述了分析由數(shù)據(jù)集204組成的數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)構(gòu)造器202。貝葉斯網(wǎng)絡(luò)構(gòu)造器202可基于從數(shù)據(jù)集204收集的信息開發(fā)一具有完整表格的貝葉斯網(wǎng)絡(luò)206,以確定數(shù)據(jù)的偏序。貝葉斯網(wǎng)絡(luò)構(gòu)造器202然后可使用搜索算法分析數(shù)據(jù)集204和具有完整表格的貝葉斯網(wǎng)絡(luò),以標(biāo)識(shí)該貝葉斯網(wǎng)絡(luò)內(nèi)的邊的潛在排列,并可將這些其它排列與由具有完整表格的貝葉斯網(wǎng)絡(luò)206定義的偏序進(jìn)行比較。如果確定存在一個(gè)更好的順序,則貝葉斯網(wǎng)絡(luò)構(gòu)造器202可操縱(如,反轉(zhuǎn)、移除和/或替換等)貝葉斯網(wǎng)絡(luò)中的邊,以構(gòu)造一具有形成邏輯分布的決策樹的新的貝葉斯網(wǎng)絡(luò)208。新貝葉斯網(wǎng)絡(luò)208的決策樹可以用依照確定的較好排序所排列的邊來(lái)生長(zhǎng)。從完整表格中導(dǎo)出的有向非循環(huán)圖(DAG)可用于限制貝葉斯網(wǎng)絡(luò)構(gòu)造器202使用的學(xué)習(xí)算法,使得具有決策樹的新貝葉斯網(wǎng)絡(luò)208的構(gòu)造可以用在從決策樹和/或完整表格搜索中得到的DAG中考慮完整表格DAG的偏序的堅(jiān)持主張來(lái)實(shí)現(xiàn)。例如,如果完整表格的DAG包括從X到Y(jié)的有向路徑,則貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法可阻止在具有決策樹的貝葉斯網(wǎng)絡(luò)208中在X的樹中Y上的分裂。
構(gòu)造器202可包括一處理器(未示出),便于分析數(shù)據(jù)集、DAG、貝葉斯網(wǎng)絡(luò)等等。此外,處理器可采用人工智能技術(shù)以便于推導(dǎo),例如貝葉斯網(wǎng)絡(luò)中邊的潛在排列。如此處所使用的,術(shù)語(yǔ)“推導(dǎo)”一般指從通過(guò)事件和/或數(shù)據(jù)捕捉的一組觀察中推論或推導(dǎo)系統(tǒng)、環(huán)境和/或用戶的狀態(tài)的過(guò)程。例如,推導(dǎo)可用于標(biāo)識(shí)特定的環(huán)境或行動(dòng),或可生成狀態(tài)的概率分布。推導(dǎo)可以是概率性的一即,基于數(shù)據(jù)和事件的考慮計(jì)算感興趣的狀態(tài)的概率分布。推導(dǎo)也可以指用于從一組事件和/或數(shù)據(jù)組成更高級(jí)事件的技術(shù)。這類推導(dǎo)能夠從一組觀察的事件和/或儲(chǔ)存的事件數(shù)據(jù)中構(gòu)造新的事件或行動(dòng),不論事件是否在鄰近的時(shí)間上相關(guān),也不論事件和數(shù)據(jù)是否來(lái)自一個(gè)或若干個(gè)事件和數(shù)據(jù)源。各種分類方案和/或系統(tǒng)(如,支持矢量機(jī)、神經(jīng)網(wǎng)絡(luò)、專家系統(tǒng)、貝葉斯信任網(wǎng)絡(luò)、模糊邏輯、數(shù)據(jù)融合引擎、回歸方法……)可用于執(zhí)行結(jié)合本發(fā)明的自動(dòng)和/或推導(dǎo)的行動(dòng)。
盡管此處描述的本發(fā)明強(qiáng)調(diào)使用決策樹作為局部分布,然而可以理解,提供這一強(qiáng)調(diào)以簡(jiǎn)化本發(fā)明的解釋,并且本發(fā)明可用于促進(jìn)包括除決策樹之外的條件分布的貝葉斯網(wǎng)絡(luò)的構(gòu)造和/或改進(jìn)。例如,條件分布可以是神經(jīng)網(wǎng)絡(luò)、邏輯/線性回歸模型、支持矢量機(jī)(SMV)等等。此外,在一個(gè)節(jié)點(diǎn)上采用的條件分布的類型可以不同于在另一節(jié)點(diǎn)上采用的條件分布的類型。如本領(lǐng)域的技術(shù)人員可理解的,對(duì)于上述分布類型,學(xué)習(xí)算法需要一種特征選擇算法來(lái)標(biāo)識(shí)對(duì)分布的相關(guān)輸入,它進(jìn)而定義了貝葉斯網(wǎng)絡(luò)中的父節(jié)點(diǎn)。由于在決策樹中在一個(gè)變量上的分裂具有選擇從其始發(fā)分裂的變量作為輸入的效果,因此傳統(tǒng)的決策樹學(xué)習(xí)算法自動(dòng)執(zhí)行特征選擇。此處所揭示的系統(tǒng)和方法促進(jìn)了貝葉斯網(wǎng)絡(luò)的改進(jìn)的啟發(fā)式搜索算法,它克服了常規(guī)方法的缺陷。為此,本發(fā)明可增強(qiáng)包含一組SVM分布的統(tǒng)計(jì)模型的標(biāo)識(shí),它促進(jìn)了例如計(jì)算機(jī)系統(tǒng)中的語(yǔ)音和/或手寫識(shí)別、蛋白質(zhì)結(jié)構(gòu)和/或序列分析、基因排序等等。這一可能應(yīng)用的列表不是窮盡的,但是本質(zhì)上是示例性的,并非以任何方式限制本發(fā)明的范圍。
圖3是依照本發(fā)明的一個(gè)方面,描述便于從數(shù)據(jù)集構(gòu)造具有決策樹的貝葉斯網(wǎng)絡(luò)的各個(gè)數(shù)據(jù)操作階段的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)300的圖示。學(xué)習(xí)系統(tǒng)300包括數(shù)據(jù)集302;包含完整表格的貝葉斯網(wǎng)絡(luò)304,其具有從數(shù)據(jù)集中提取信息的裝置306;以及包括決策樹的貝葉斯網(wǎng)絡(luò)308,其具有使用由具有完整表格的貝葉斯網(wǎng)絡(luò)304定義的偏序來(lái)學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)308的學(xué)習(xí)裝置310。依照一個(gè)示例,學(xué)習(xí)系統(tǒng)300可分析由數(shù)據(jù)集302組成的信息,并通過(guò)學(xué)習(xí)算法構(gòu)造具有完整表格的貝葉斯網(wǎng)絡(luò)304。學(xué)習(xí)算法可包括可反轉(zhuǎn)完整表格網(wǎng)絡(luò)304中的邊的搜索算法?;谶@一貝葉斯網(wǎng)絡(luò)304,可通過(guò)分析具有完整表格304的貝葉斯網(wǎng)絡(luò)中的邊,確定和/或定義完整表格DAG的偏序。一旦估算了偏序,可通過(guò)裝置312再次訪問(wèn)并再次評(píng)估數(shù)據(jù)集302,以估算由具有完整表格的貝葉斯網(wǎng)絡(luò)304定義的DAG和/或?qū)⑵渑c數(shù)據(jù)集302的其它部分排列進(jìn)行比較,以便于分析是否改進(jìn)了偏序。例如,可確定對(duì)具有完整表格的貝葉斯網(wǎng)絡(luò)304中的特定邊的操縱(如,反轉(zhuǎn)、刪除、添加等)是否有利于實(shí)現(xiàn)更優(yōu)化的排序。如果這一確定表明可改進(jìn)排序,則可操縱邊并可學(xué)習(xí)具有邏輯分布的決策樹的新貝葉斯網(wǎng)絡(luò)308,以便于實(shí)現(xiàn)更好的排序。這可以通過(guò)采用在構(gòu)造決策樹DAG時(shí)考慮完整表格DAG的偏序的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)算法來(lái)促進(jìn)。
圖4是包括完整表格的簡(jiǎn)單示例性貝葉斯網(wǎng)絡(luò)400的圖示。完整表格可用于學(xué)習(xí)貝葉斯網(wǎng)絡(luò)中的邊,因?yàn)樗鼈兛砂P(guān)于分布的形狀的信息。例如,決策樹可包括不完整的邏輯分布,這可導(dǎo)致缺少形狀信息。通過(guò)采用完整表格來(lái)學(xué)習(xí)貝葉斯網(wǎng)絡(luò),可執(zhí)行比常規(guī)方法所需的更不貪婪的搜索,以便于確定數(shù)據(jù)依賴性的較佳排序。圖4所示的“V”結(jié)構(gòu)是一個(gè)這樣的信息豐富排序結(jié)構(gòu)。依照該圖,X和Z必須在Y之前。一旦學(xué)習(xí)了這一排序,它可作為約束應(yīng)用到例如決策樹學(xué)習(xí)模型。例如,這一約束可堅(jiān)持如果一個(gè)變量是原始排序中的子節(jié)點(diǎn),則不能向該變量添加邊。以這一方式,可提供并然后細(xì)調(diào)排序的高質(zhì)量逼近,以生長(zhǎng)決策樹,如貝葉斯網(wǎng)絡(luò)。
依照本發(fā)明的這一方面,如圖4所示,最初X和Z彼此不相關(guān)(如,關(guān)于X的知識(shí)不能通過(guò)知道Z來(lái)獲得)。例如,如果X表示下雨的出現(xiàn),Z表示隨機(jī)定時(shí)間的人工降雨系統(tǒng),而Y表示濕的草地,則下雨(如,X為真)的知識(shí)不能退定人工降雨系統(tǒng)尚未被激活(如,Z也為真)。然而,第二示意圖示出給定Z,X在統(tǒng)計(jì)上依賴于Z,使得如果已知人工降雨系統(tǒng)已被激活,并且草地是濕的,則出現(xiàn)下雨的概率降低。以這一方式,本發(fā)明可在完整表格搜索期間收集關(guān)于數(shù)據(jù)排序的信息,然后可采用排序信息以便于決策樹擴(kuò)展。
依照本發(fā)明的一個(gè)方面,用從第一示意圖定向到第二示意圖的虛線箭頭示出了圖4,以示出可發(fā)生一行動(dòng),由此可積極地反轉(zhuǎn)兩個(gè)變量之間的邊的方向。在學(xué)習(xí)貝葉斯網(wǎng)絡(luò)時(shí),這一邊反轉(zhuǎn)便于達(dá)到葉節(jié)點(diǎn)、樹等的最佳得分。
圖5示出了依照本發(fā)明的一個(gè)方面的邊反轉(zhuǎn)協(xié)議500。最初,在X和Y之間插入邊,表明X依賴于Y。在Y和Z之間插入第二條邊,表明Y依賴于Z,現(xiàn)在給定Y,X依賴于Z??上騒-Y-Z葉節(jié)點(diǎn)分配一得分,以便于學(xué)習(xí)例如上文所述的貝葉斯網(wǎng)絡(luò)。在這一點(diǎn)上,可確定最初添加的邊是在不正確的方向上插入的(如,X應(yīng)當(dāng)不依賴于Y等)。這一確定可通過(guò)例如相對(duì)于葉節(jié)點(diǎn)中的變量之間的其它可能依賴性關(guān)系確定葉節(jié)點(diǎn)的得分來(lái)作出。如果替換組合產(chǎn)生了更高的得分(如,更大的正確性似然性),則這一組合可通過(guò)反轉(zhuǎn)邊的方向來(lái)實(shí)現(xiàn)。以這一方式,本發(fā)明可克服與采用常規(guī)決策樹相關(guān)聯(lián)的問(wèn)題,由于缺少邊方向的考慮,常規(guī)決策樹以前是不能被糾正的。
依照這一示例,如果學(xué)習(xí)了結(jié)構(gòu)Z→Y←X,則這一模型結(jié)構(gòu)可以優(yōu)于例如Z→Y→X、Z→X,因?yàn)樗鼘?duì)X和Z的邊緣不相關(guān)性進(jìn)行了編碼。當(dāng)局部分布是完整表格時(shí),搜索操作符可反轉(zhuǎn)邊的方向以便于這一較優(yōu)的排序或結(jié)構(gòu)。以這一方式,如果算法最初不正確地向邊應(yīng)用了方向,則它可稍后糾正這一錯(cuò)誤。在上述示例中,如果貪婪算法從空網(wǎng)絡(luò)開始,則添加X(jué)→Y的得分可以與添加Y→X的得分相同,因?yàn)槟P蚗→YZ和X←YZ對(duì)同一獨(dú)立性約束進(jìn)行了編碼。假定這兩個(gè)操作符都是最佳的,則貪婪算法將在它們之間進(jìn)行任意選擇。如果最優(yōu)模型是X→Y←Z,則算法可通過(guò)稍后反轉(zhuǎn)它從添加X(jué)←Y中恢復(fù)。如上所述,如果DAG的等效類結(jié)合適當(dāng)?shù)牟僮鞣麃?lái)使用,則算法可從這類錯(cuò)誤中恢復(fù)。
鑒于上文示出并描述的示例性系統(tǒng),參考圖6和7的流程圖,可以更好地理解可依照本發(fā)明實(shí)現(xiàn)的方法。盡管為了簡(jiǎn)化說(shuō)明的目的,方法被示出并描述為一系列塊,然而可以理解和明白,本發(fā)明不被塊的順序所限制,因?yàn)橐勒毡景l(fā)明,某些塊可以不同的順序和/或與此處所示并描述的其它塊一起出現(xiàn)。此外,并非需要所有示出的塊來(lái)實(shí)現(xiàn)依照本發(fā)明的方法。
本發(fā)明可以在諸如由一個(gè)或多個(gè)組件執(zhí)行的程度模塊等計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述。一般而言,程序模塊包括例程、程序、對(duì)象、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。通常,如各個(gè)實(shí)施例中所需要的,程序模塊的功能可以組合或分布。
圖6示出了依照本發(fā)明的一個(gè)方面,用于學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)以表示局部分布的方法600。依照方法600,在602輸入完整的數(shù)據(jù)集。在604,可采用反轉(zhuǎn)邊的搜索算法來(lái)學(xué)習(xí)具有完整表格的貝葉斯網(wǎng)絡(luò)。在606,可分析從完整表格貝葉斯網(wǎng)絡(luò)中得到的DAG來(lái)確定在604處學(xué)習(xí)的貝葉斯網(wǎng)絡(luò)的偏序。
DAG可用于描繪在608處決策樹生長(zhǎng)的邊界和/或限制。例如,如果完整表格貝葉斯網(wǎng)絡(luò)的DAG不包括從X到Y(jié)的有向路徑,則決策樹貝葉斯網(wǎng)絡(luò)中X的樹中Y上的分裂可以被阻止。以這一方式,可應(yīng)用從完整表格貝葉斯網(wǎng)絡(luò)中導(dǎo)出的排序,作為對(duì)決策樹生長(zhǎng)的約束,使得可通過(guò)完整表格貝葉斯網(wǎng)絡(luò)獲得排序的高質(zhì)量逼近,并隨后可細(xì)調(diào)該逼近以生長(zhǎng)決策樹作為貝葉斯網(wǎng)絡(luò)中的局部分布。在610,可生長(zhǎng)考慮由完整表格DAG定義的偏序的決策樹,以構(gòu)造使用局部分布的決策樹的新的貝葉斯網(wǎng)絡(luò)。
圖7是依照本發(fā)明的一個(gè)方面,用于使用完整數(shù)據(jù)表格學(xué)習(xí)貝葉斯網(wǎng)絡(luò)的方法700的圖示。在702,輸入完整的數(shù)據(jù)集,并在704使用學(xué)習(xí)算法來(lái)標(biāo)識(shí)其中的節(jié)點(diǎn)之間的邊,以確定具有完整表的貝葉斯網(wǎng)絡(luò)的偏序。學(xué)習(xí)算法還可包括一可操縱完整表格貝葉斯網(wǎng)絡(luò)中的邊的搜索算法。在706,確定完整表格貝葉斯網(wǎng)絡(luò)中是否可提高邊的得分。這一確定可例如通過(guò)測(cè)量節(jié)點(diǎn)之間的相關(guān)性以評(píng)估節(jié)點(diǎn)統(tǒng)計(jì)上依賴的程度來(lái)作出。這一確定便于以比常規(guī)可用的方法更有效的方式確定排序結(jié)構(gòu)。例如,確定在兩個(gè)節(jié)點(diǎn)之間存在邊可表明節(jié)點(diǎn)是統(tǒng)計(jì)相關(guān)的,但是不能提供關(guān)于相關(guān)度的信息。通過(guò)評(píng)估邊的得分,可以定量化相關(guān)程度。這進(jìn)而準(zhǔn)許確定最佳排序以便于學(xué)習(xí)統(tǒng)計(jì)模型,如貝葉斯網(wǎng)絡(luò)。
如果在706的考慮表明可增加邊的得分,則可在708遵循這一考慮,其中,可移除和替換、反轉(zhuǎn)等低得分的邊,以提高特定邊的得分,由此便于對(duì)統(tǒng)計(jì)模型進(jìn)行良好的排序。當(dāng)操縱了邊以獲得更高的邊得分時(shí),該方法回退到704,用于該方法的進(jìn)一步潛在的迭代。以這一方式,方法700可使用反饋/前饋循環(huán)來(lái)準(zhǔn)許迭代性的邊替換和/或調(diào)整,來(lái)實(shí)現(xiàn)數(shù)據(jù)表格中頂點(diǎn)的最優(yōu)排序。另外,如果在706確定不能改進(jìn)邊得分(如,現(xiàn)有的邊展示出比其它可能的排列更高的正確性概率,等等),則該方法可前進(jìn)到710,其中通過(guò)至少部分地基于從具有完整數(shù)據(jù)表格的貝葉斯網(wǎng)絡(luò)獲得的部分排序生長(zhǎng)的決策樹來(lái)學(xué)習(xí)貝葉斯網(wǎng)絡(luò)。在學(xué)習(xí)了具有最優(yōu)決策樹的貝葉斯網(wǎng)絡(luò)之后,可在712輸出該貝葉斯網(wǎng)絡(luò)。由此,方法700可操縱具有完整數(shù)據(jù)表格的貝葉斯網(wǎng)絡(luò)中的邊,以便于標(biāo)識(shí)準(zhǔn)許學(xué)習(xí)更高得分模型的排序,這進(jìn)而便于學(xué)習(xí)改進(jìn)的決策樹貝葉斯網(wǎng)絡(luò)。
為提供用于實(shí)現(xiàn)本發(fā)明的各方面的附加環(huán)境,圖8和9以及以下討論旨在提供其中可實(shí)現(xiàn)本發(fā)明的各方面的合適的計(jì)算環(huán)境800和900的簡(jiǎn)要、通用的描述。盡管上文在運(yùn)行在本地計(jì)算機(jī)和/或遠(yuǎn)程計(jì)算機(jī)上的計(jì)算機(jī)程序的計(jì)算機(jī)可執(zhí)行指令的通用上下文中描述了本發(fā)明,然而本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,本發(fā)明也可組合其它程序模塊來(lái)實(shí)現(xiàn)。一般而言,程序模塊包括例程、程序、組件、數(shù)據(jù)結(jié)構(gòu)等,它們執(zhí)行特定的任務(wù)或?qū)崿F(xiàn)特定的抽象數(shù)據(jù)類型。此外,本領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的方法可以用其它計(jì)算機(jī)系統(tǒng)配置來(lái)實(shí)施,包括單處理器或多處理器計(jì)算機(jī)系統(tǒng)、小型機(jī)、大型機(jī)以及個(gè)人計(jì)算機(jī)、手持式計(jì)算設(shè)備、基于微處理器或可編程消費(fèi)者電子設(shè)備等等,其每一個(gè)都在操作上與一個(gè)或多個(gè)相關(guān)聯(lián)的設(shè)備通信。所示的本發(fā)明的各方面也可在分布式計(jì)算環(huán)境中實(shí)施,其中,任務(wù)由通過(guò)通信網(wǎng)絡(luò)連接的遠(yuǎn)程處理設(shè)備來(lái)執(zhí)行。然而,本發(fā)明的某些(如果不是全部)方面可以在獨(dú)立的計(jì)算機(jī)上實(shí)施。在分布式計(jì)算環(huán)境中,程序模塊可以位于本地和/或遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備中。
如本發(fā)明中所使用的,術(shù)語(yǔ)“組件”指的是計(jì)算機(jī)相關(guān)的實(shí)體,無(wú)論是硬件、硬件和軟件的組合、軟件還是執(zhí)行中的軟件。例如,組件可以是,但不限于,運(yùn)行在處理器上的進(jìn)程、處理器、對(duì)象、可執(zhí)行碼、執(zhí)行線程、程序和/或計(jì)算機(jī)。作為說(shuō)明,運(yùn)行在服務(wù)器上的應(yīng)用程序和服務(wù)器都可以是組件。另外,組件可包括一個(gè)或多個(gè)子組件。
參考圖8,用于實(shí)現(xiàn)本發(fā)明的各方面的示例性系統(tǒng)包括常規(guī)計(jì)算機(jī)402,包括處理單元804、系統(tǒng)存儲(chǔ)器806以及將包括系統(tǒng)存儲(chǔ)器806的各類系統(tǒng)組件耦合至處理單元804的系統(tǒng)總線808。處理單元804可以是任何可購(gòu)買或?qū)S玫奶幚砥鳌A硗?,處理單元可被?shí)現(xiàn)為例如可并行連接的一個(gè)以上處理器形成的多處理器。
系統(tǒng)總線808可以是若干種總線結(jié)構(gòu)類型的任一種,包括存儲(chǔ)器總線或存儲(chǔ)器控制器、外圍總線以及使用各類總線體系結(jié)構(gòu)的局部總線,僅舉幾個(gè)例子,這類體系結(jié)構(gòu)如PCI、VESA、微通道、ISA和EISA。系統(tǒng)存儲(chǔ)器包括只讀存儲(chǔ)器(ROM)810和隨機(jī)存取存儲(chǔ)器(RAM)812?;据斎?輸出系統(tǒng)(BIOS)814,包含如在啟動(dòng)時(shí)協(xié)助在計(jì)算機(jī)802內(nèi)的元件之間傳輸信息的基本例程,儲(chǔ)存在ROM 810中。
計(jì)算機(jī)802也可包括例如硬盤驅(qū)動(dòng)器816、例如用于對(duì)可移動(dòng)磁盤820進(jìn)行讀寫的磁盤驅(qū)動(dòng)器818、以及例如用于對(duì)CD-ROM盤824或其它光介質(zhì)進(jìn)行讀寫的光盤驅(qū)動(dòng)器822。硬盤驅(qū)動(dòng)器816、磁盤驅(qū)動(dòng)器818以及光盤驅(qū)動(dòng)器822分別通過(guò)硬盤驅(qū)動(dòng)器接口826、磁盤驅(qū)動(dòng)器接口828和光盤驅(qū)動(dòng)器接口830連接至系統(tǒng)總線808。驅(qū)動(dòng)器816-822及其相關(guān)的計(jì)算機(jī)可讀介質(zhì)為計(jì)算機(jī)802提供了計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊和其它數(shù)據(jù)的非易失存儲(chǔ)。盡管這里描述的計(jì)算機(jī)可讀介質(zhì)指硬盤、可移動(dòng)磁盤和CD,然而本領(lǐng)域的技術(shù)人員可以理解,可由計(jì)算機(jī)讀取的其它類型的介質(zhì),諸如盒式磁帶、閃存卡、數(shù)字視頻盤、Bernoulli盒式磁盤等等,也可以用于示例性操作環(huán)境800,并且任何這樣介質(zhì)可包括用于執(zhí)行本發(fā)明的方法的計(jì)算機(jī)可執(zhí)行指令。
多個(gè)程序模塊可儲(chǔ)存在驅(qū)動(dòng)器816-822和RAM 425中,包括操作系統(tǒng)832、一個(gè)或多個(gè)應(yīng)用程序834、其它程序模塊836以及程序數(shù)據(jù)838。操作系統(tǒng)832可以是任一合適的操作系統(tǒng)或操作系統(tǒng)的組合。作為示例,應(yīng)用程序834和程序模塊836可包括依照本發(fā)明的一個(gè)方面使用數(shù)據(jù)集的模型(或模式)和/或依賴性網(wǎng)絡(luò)。另外,程序數(shù)據(jù)838可包括輸入數(shù)據(jù),依照本發(fā)明的一個(gè)方面,從該數(shù)據(jù)可生成模型(或模式)和/或在該數(shù)據(jù)上執(zhí)行查詢。
用戶可以通過(guò)諸如鍵盤840和定位設(shè)備(如,鼠標(biāo)842)等一個(gè)或多個(gè)用戶輸入設(shè)備向計(jì)算機(jī)802輸入命令和信息。其它輸入設(shè)備(未示出)可包括麥克風(fēng)、操縱桿、游戲墊、圓盤式衛(wèi)星天線、無(wú)線遙控器、掃描儀等等。這些和其它輸入設(shè)備通常通過(guò)耦合至系統(tǒng)總線808的串行端口接口844連接到處理單元804,但也可以通過(guò)其它接口連接,如并行端口、游戲端口或通用串行總線(USB)。監(jiān)視器846或其它類型的顯示設(shè)備也通過(guò)接口,如視頻適配器848連接到系統(tǒng)總線808。除監(jiān)視器之外,計(jì)算機(jī)802可包括其它外圍輸出設(shè)備(未示出),如揚(yáng)聲器和打印機(jī)等等。
可以理解,計(jì)算機(jī)802可以在使用到一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)860的邏輯連接的網(wǎng)絡(luò)化環(huán)境中操作。遠(yuǎn)程計(jì)算機(jī)860可以是工作站、服務(wù)器計(jì)算機(jī)、路由器、對(duì)等設(shè)備或其它公用網(wǎng)絡(luò)節(jié)點(diǎn),并通常包括許多或所有上述與計(jì)算機(jī)802相關(guān)的元件,盡管為簡(jiǎn)明的目的,在圖8中僅示出了存儲(chǔ)器存儲(chǔ)設(shè)備862。圖8描述的邏輯連接包括局域網(wǎng)(LAN)864和廣域網(wǎng)(WAN)866。這類網(wǎng)絡(luò)環(huán)境常見于辦公室、企業(yè)范圍計(jì)算機(jī)網(wǎng)絡(luò)、內(nèi)聯(lián)網(wǎng)以及因特網(wǎng)。
當(dāng)在LAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)802通過(guò)網(wǎng)絡(luò)接口或適配器868連接至局域網(wǎng)864。當(dāng)在WAN網(wǎng)絡(luò)環(huán)境中使用時(shí),計(jì)算機(jī)802通常包括調(diào)制解調(diào)器(如電話、DSL、電纜等)870,或連接到LAN上的通信服務(wù)器,或具有用于通過(guò)WAN866,如因特網(wǎng)建立通信的其它裝置。調(diào)制解調(diào)器870可以對(duì)計(jì)算機(jī)802是內(nèi)置或外置的,通過(guò)串行端口接口844連接至系統(tǒng)總線808。在網(wǎng)絡(luò)化環(huán)境中,程序模塊(包括應(yīng)用程序834)和/或程序數(shù)據(jù)838可儲(chǔ)存在遠(yuǎn)程存儲(chǔ)器存儲(chǔ)設(shè)備862中??梢岳斫?,示出的網(wǎng)絡(luò)連接是示例性的,當(dāng)實(shí)現(xiàn)本發(fā)明的各方面時(shí),也可以使用在計(jì)算機(jī)802和860之間建立通信鏈路的其它裝置(如有線或無(wú)線)。
依照計(jì)算機(jī)編程領(lǐng)域的技術(shù)人員的實(shí)踐,參考由諸如計(jì)算機(jī)802或遠(yuǎn)程計(jì)算機(jī)806等計(jì)算機(jī)執(zhí)行的動(dòng)作和操作的符號(hào)表示描述了本發(fā)明,除非另外指明。這類動(dòng)作和操作有時(shí)候被稱為計(jì)算機(jī)執(zhí)行的??梢岳斫猓瑒?dòng)作和符號(hào)表示的操作包括處理單元804對(duì)表示數(shù)據(jù)比特的電信號(hào)的操縱,導(dǎo)致了對(duì)電信號(hào)表示的變換或轉(zhuǎn)化,并且在存儲(chǔ)器系統(tǒng)(包括系統(tǒng)存儲(chǔ)器806、硬盤驅(qū)動(dòng)器816、軟盤820、CD-ROM 824和遠(yuǎn)程存儲(chǔ)器862)中的存儲(chǔ)器位置維護(hù)數(shù)據(jù)比特,由此重新配置或改變計(jì)算機(jī)系統(tǒng)的操作,以及信號(hào)的其它處理。維護(hù)這類數(shù)據(jù)比特的存儲(chǔ)器位置是具有對(duì)應(yīng)于數(shù)據(jù)比特的特定電、磁或光屬性的物理位置。
圖9是本發(fā)明可交互的示例計(jì)算環(huán)境900的另一框圖。系統(tǒng)900還示出了包括一個(gè)或多個(gè)客戶機(jī)902的系統(tǒng)??蛻魴C(jī)902可以是硬件和/或軟件(如,線程、進(jìn)程、計(jì)算裝置)。系統(tǒng)900也包括一個(gè)或多個(gè)服務(wù)器904。服務(wù)器904也可以是硬件和/或軟件(如,線程、進(jìn)程、計(jì)算裝置)。例如,服務(wù)器904可容納線程,以通過(guò)使用本發(fā)明執(zhí)行變換。客戶機(jī)902和服務(wù)器904之間的一個(gè)可能的通信可以是適用于在兩個(gè)或多個(gè)計(jì)算機(jī)進(jìn)程之間傳輸?shù)臄?shù)據(jù)分組的形式。系統(tǒng)900包括可用于便于在客戶機(jī)902和服務(wù)器904之間通信的通信框架908??蛻魴C(jī)902操作上連接至可用于儲(chǔ)存對(duì)客戶機(jī)902本地的信息的一個(gè)或多個(gè)客戶機(jī)數(shù)據(jù)存儲(chǔ)910。類似地,服務(wù)器904操作上連接至可用于儲(chǔ)存對(duì)服務(wù)器904本地的信息的一個(gè)或多個(gè)服務(wù)器數(shù)據(jù)存儲(chǔ)906。
可以理解,本發(fā)明的裝置、系統(tǒng)和/或方法可用于同樣便于計(jì)算機(jī)組件和非計(jì)算機(jī)相關(guān)組件的總體功率轉(zhuǎn)換方案。此外,本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,本發(fā)明的裝置、系統(tǒng)和/或方法可用于大量的電子相關(guān)技術(shù),包括但不限于,計(jì)算機(jī)、服務(wù)器和/或手持式電子設(shè)備等等。
上文所描述的包括了本發(fā)明的示例。當(dāng)然,不可能為了描述本發(fā)明而描述組件或方法的每一可構(gòu)想的組合,但是本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到,本發(fā)明的許多其它的組合和置換也是可能的。因此,本發(fā)明旨在包含落入所附權(quán)利要求書的精神和范圍之內(nèi)的所有這樣的代換、修改和變化。此外,在詳細(xì)描述或權(quán)利要求書中使用了術(shù)語(yǔ)“包括”的意義上,該術(shù)語(yǔ)是包含性的,與術(shù)語(yǔ)“包含”在用作權(quán)利要求書中的過(guò)渡詞時(shí)解釋的“包含”相類似。
權(quán)利要求
1.一種便于學(xué)習(xí)具有局部分布的貝葉斯網(wǎng)絡(luò)的系統(tǒng),其中,至少一個(gè)分布不是完整表格,所述系統(tǒng)包括一完整數(shù)據(jù)集;一貝葉斯網(wǎng)絡(luò)構(gòu)造器組件,它構(gòu)造完整表格貝葉斯網(wǎng)絡(luò)以表示所述完整數(shù)據(jù)集中的數(shù)據(jù)的局部分布,并采用一可反轉(zhuǎn)完整表格貝葉斯網(wǎng)絡(luò)中的邊的學(xué)習(xí)算法來(lái)便于學(xué)習(xí)決策樹貝葉斯網(wǎng)絡(luò)。
2.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述貝葉斯網(wǎng)絡(luò)構(gòu)造器組件還分析一從所述完整表格貝葉斯網(wǎng)絡(luò)中得出的有向非循環(huán)圖,以確定所述完整表格貝葉斯網(wǎng)絡(luò)的偏序。
3.如權(quán)利要求2所述的系統(tǒng),其特征在于,所述學(xué)習(xí)算法準(zhǔn)許對(duì)所述完整表格貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖的偏序的所述局部分布的構(gòu)造。
4.如權(quán)利要求1所述的系統(tǒng),其特征在于,所述貝葉斯網(wǎng)絡(luò)構(gòu)造器組件對(duì)所述完整表格貝葉斯網(wǎng)絡(luò)中的每一邊確定一得分。
5.如權(quán)利要求4所述的系統(tǒng),其特征在于,所述貝葉斯網(wǎng)絡(luò)構(gòu)造器組件為所述完整表格貝葉斯網(wǎng)絡(luò)中的至少一個(gè)其它潛在的邊配置確定一得分,以評(píng)估是否可以改進(jìn)邊的得分。
6.如權(quán)利要求5所述的系統(tǒng),其特征在于,如果邊的操縱將改進(jìn)所述邊的得分,則所述貝葉斯網(wǎng)絡(luò)構(gòu)造器組件操作所述完整表格貝葉斯網(wǎng)絡(luò)中的至少一條邊。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述局部分布包括至少一個(gè)決策樹。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述局部分布包括至少一個(gè)支持矢量機(jī)。
9.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述局部分布包括至少一個(gè)邏輯回歸。
10.一種用于學(xué)習(xí)具有至少一個(gè)是非完整表格的分布的貝葉斯網(wǎng)絡(luò)的方法,其特征在于,包括輸入一完整數(shù)據(jù)集;學(xué)習(xí)包括完整表格的第一貝葉斯網(wǎng)絡(luò);分析完整表格貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖;以及學(xué)習(xí)包括至少一個(gè)非完整表格分布的第二貝葉斯網(wǎng)絡(luò)。
11.如權(quán)利要求10所述的方法,其特征在于,學(xué)習(xí)所述第一貝葉斯網(wǎng)絡(luò)包括采用一可反轉(zhuǎn)所述完整表格貝葉斯網(wǎng)絡(luò)中的邊的搜索算法。
12.如權(quán)利要求11所述的方法,其特征在于,還包括為所述完整表格貝葉斯網(wǎng)絡(luò)中的至少一條邊確定一得分。
13.如權(quán)利要求12所述的方法,其特征在于,還包括為所述完整表格貝葉斯網(wǎng)絡(luò)中的其它潛在的邊配置確定得分。
14.如權(quán)利要求13所述的方法,其特征在于,還包括將所述至少一條邊的得分與另一潛在邊配置的得分進(jìn)行比較,以確定是否可改進(jìn)所述至少一條邊的得分。
15.如權(quán)利要求14所述的方法,其特征在于,還包括如果確定可以改進(jìn)所述至少一條邊的得分,則通過(guò)操作所述至少一條邊以改進(jìn)所述至少一條邊的得分,來(lái)細(xì)化所述完整表格貝葉斯網(wǎng)絡(luò)。
16.如權(quán)利要求15所述的方法,其特征在于,還包括如果確定沒(méi)有邊得分可被改進(jìn),則制止操縱所述完整表格貝葉斯網(wǎng)絡(luò)中的邊。
17.如權(quán)利要求16所述的方法,其特征在于,還包括一旦確定了沒(méi)有邊得分可被改進(jìn),則基于所述完整表格貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖,導(dǎo)出所述第二貝葉斯網(wǎng)絡(luò)中的局部分布構(gòu)造上的一組約束。
18.如權(quán)利要求17所述的方法,其特征在于,導(dǎo)出所述的一組約束包括估算所述完整表格貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖,以標(biāo)識(shí)經(jīng)細(xì)化的完整表格貝葉斯網(wǎng)絡(luò)中的所有邊。
19.如權(quán)利要求18所述的方法,其特征在于,學(xué)習(xí)所述第二貝葉斯網(wǎng)絡(luò)包括采用一考慮所述經(jīng)細(xì)化的完整表格貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖的偏序的受約束的學(xué)習(xí)算法。
20.如權(quán)利要求19所述的方法,其特征在于,還包括生長(zhǎng)決策樹,作為定義所述第二貝葉斯網(wǎng)絡(luò)的局部分布。
21.如權(quán)利要求12所述的方法,其特征在于,為至少一條邊確定得分包括確定由所述至少一條邊連接的節(jié)點(diǎn)之間的依賴性程度;確定由所述至少一條邊連接的節(jié)點(diǎn)之間的依賴性方向;以及至少部分地基于由所述至少一條邊連接的節(jié)點(diǎn)之間的依賴性方向,評(píng)估該至少一條邊的方向是否正確。
22.如權(quán)利要求21所述的方法,其特征在于,還包括通過(guò)將所述至少一條邊的得分與所述各節(jié)點(diǎn)和所述至少一條邊的所有其它可能的排列的得分進(jìn)行比較,來(lái)確定所述至少一條邊的得分是否為最佳可能得分。
23.如權(quán)利要求22所述的方法,其特征在于,還包括如果所述至少一條邊的得分低于所述各節(jié)點(diǎn)和所述至少一條邊的另一可能排列的得分,則反轉(zhuǎn)所述邊的方向以改進(jìn)邊得分。
24.一種在兩個(gè)或多個(gè)計(jì)算機(jī)組件之間傳輸?shù)?、便于?shù)據(jù)訪問(wèn)的數(shù)據(jù)分組,所述數(shù)據(jù)分組包括至少部分地基于一基于完整數(shù)據(jù)表格的模型或模式的數(shù)據(jù)集信息。
25.如權(quán)利要求24所述的數(shù)據(jù)分組,其特征在于,所述數(shù)據(jù)分組還包括直接來(lái)自所述數(shù)據(jù)集所基于的數(shù)據(jù)集信息。
26.如權(quán)利要求25所述的數(shù)據(jù)分組,其特征在于,所述數(shù)據(jù)分組還包括基于一完整數(shù)據(jù)表格的數(shù)據(jù)集信息。
27.一種在兩個(gè)或多個(gè)計(jì)算機(jī)組件之間傳輸?shù)摹⒈阌跀?shù)據(jù)訪問(wèn)的數(shù)據(jù)分組,所述數(shù)據(jù)分組包括可用于至少部分地基于具有完整數(shù)據(jù)表格的貝葉斯網(wǎng)絡(luò)學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)集信息。
28.一種采用權(quán)利要求1所述的系統(tǒng)的設(shè)備,包括計(jì)算機(jī)、服務(wù)器和手持式電子設(shè)備中的至少一個(gè)。
29.一種便于學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)的系統(tǒng),其特征在于,包括用于從一數(shù)據(jù)集學(xué)習(xí)完整表格貝葉斯網(wǎng)絡(luò)的裝置;用于細(xì)化從所述完整表格貝葉斯網(wǎng)絡(luò)中得到的有向非循環(huán)圖的裝置;以及用于學(xué)習(xí)具有至少一個(gè)非完整表格分布的貝葉斯網(wǎng)絡(luò)的裝置,由此,依照由所述完整表格貝葉斯網(wǎng)絡(luò)的有向非循環(huán)圖的偏序施加的約束構(gòu)造局部分布。
全文摘要
揭示了便于通過(guò)采用一種學(xué)習(xí)具有完整表格的貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)算法來(lái)學(xué)習(xí)具有決策樹的貝葉斯網(wǎng)絡(luò)的系統(tǒng)和方法。該學(xué)習(xí)算法可包括一搜索算法,它可反轉(zhuǎn)具有完整表格的貝葉斯網(wǎng)絡(luò)中的邊,以細(xì)化與其相關(guān)聯(lián)的有向非循環(huán)圖。細(xì)化的完整表格DAG然后可用于導(dǎo)出用于在決策樹貝葉斯網(wǎng)絡(luò)中生長(zhǎng)決策樹的學(xué)習(xí)算法的一組約束。
文檔編號(hào)G06N7/00GK1674008SQ20051006016
公開日2005年9月28日 申請(qǐng)日期2005年3月25日 優(yōu)先權(quán)日2004年3月25日
發(fā)明者D·M·奇克林 申請(qǐng)人:微軟公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
樟树市| 当雄县| 凌海市| 峨山| 鄂伦春自治旗| 伊川县| 酒泉市| 迁西县| 棋牌| 页游| 安多县| 深圳市| 霸州市| 长治市| 潜山县| 罗江县| 噶尔县| 南木林县| 甘谷县| 南岸区| 贺兰县| 永康市| 临朐县| 资兴市| 江川县| 庆阳市| 蒙城县| 馆陶县| 班戈县| 平阴县| 海兴县| 武夷山市| 朝阳市| 宁南县| 长子县| 阳泉市| 郎溪县| 洛浦县| 丹凤县| 麻栗坡县| 汉中市|