本發(fā)明涉及概率網(wǎng)絡技術領域,尤其涉及一種貝葉斯網(wǎng)絡構建方法和系統(tǒng)。
背景技術:
貝葉斯網(wǎng)絡又稱信度網(wǎng)絡,是Bayes方法的擴展,用來表示變量之間概率依賴關系的圖形模型,它描述的是一組隨機變量所遵從的聯(lián)合概率分布,并通過一組條件概率來指定一組條件獨立性假設,是目前不確定知識表達和推理領域最有效的理論模型之一。從1988年由Pearl提出后,已經(jīng)成為近幾年來研究的熱點。
一個貝葉斯網(wǎng)絡模型由兩部分組成:網(wǎng)絡結構圖和條件概率表。網(wǎng)絡結構圖是一個有向無環(huán)圖(DAG),圖中的所有節(jié)點分別對應隨機變量,有向邊表示變量間的直接依賴關系,體現(xiàn)了領域知識定性方面的特征。在有向無環(huán)圖中,給定的父節(jié)點,每個獨立于它的非后繼節(jié)點;條件概率表或稱局部概率分布,是與每個變量關聯(lián)的局部概率分布的集合,集合中的元素是給定每個變量的父節(jié)點。
目前,構建貝葉斯網(wǎng)絡一般包括兩種方法:
一、指定網(wǎng)絡結構的貝葉斯網(wǎng)絡方法。
該方法由相關領域?qū)<腋鶕?jù)經(jīng)驗知識確定貝葉斯網(wǎng)絡的結構和參數(shù),早期的貝葉斯網(wǎng)絡構造大多采用這種方式。這種方式適合于問題領域的復雜性不高,變量很少且關系清晰的應用領域。但是,這種法不僅需要人工參與確定各參數(shù)間的依賴關系,而且在有新的節(jié)點加入時也需要人工參與,智能化水平較弱。
二、通用結構學習的貝葉斯網(wǎng)絡方法。
貝葉斯網(wǎng)絡的結構通過機器學習算法從大量訓練數(shù)據(jù)中學習得到。這種方法是由數(shù)據(jù)驅(qū)動的,特別適合于可利用的領域數(shù)據(jù)量較大,而對領域知識難以完全掌握的情況。但是,該方法可能學習得到用領域知識難以理解與解釋的貝葉斯網(wǎng)絡圖,而且受數(shù)據(jù)采集與數(shù)據(jù)集有偏性的影響較大,并且由于因果關系表現(xiàn)在數(shù)據(jù)的關聯(lián)性上呈現(xiàn)對稱的情形,所以不能夠體現(xiàn)網(wǎng)絡中節(jié)點的因果關系,進而常常能得到多種等價的網(wǎng)絡拓撲,部分網(wǎng)絡拓撲是逆因果的。
可見,上述兩種方法中,方法一的智能化水平太低,而方法二受數(shù)據(jù)影響較大,呈現(xiàn)兩個極端,均難以滿足現(xiàn)實應用的需求。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種貝葉斯網(wǎng)絡的構建方法和系統(tǒng),以解決上述問題。
本發(fā)明所公開的貝葉斯網(wǎng)絡的構建方法,包括:
步驟一、統(tǒng)一原始數(shù)據(jù)格式,獲得具有標簽化屬性值的節(jié)點;
步驟二、根據(jù)領域知識對所述節(jié)點進行排序,獲得邏輯序列;
步驟三、提取所述邏輯序列中排序最高的節(jié)點作為根節(jié)點;
步驟四、對所述邏輯序列中的節(jié)點進行獨立性驗證;
步驟五、依次將所述邏輯序列中的節(jié)點作為當前節(jié)點,依據(jù)獨立性驗證結果提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點,并提取沒有子節(jié)點的節(jié)點作為葉子節(jié)點;
步驟六、以所述根節(jié)點、父節(jié)點和葉子節(jié)點構建貝葉斯網(wǎng)絡。
本發(fā)明所公開的貝葉斯網(wǎng)絡構建系統(tǒng),包括:
數(shù)據(jù)轉換模塊,所述數(shù)據(jù)轉換模塊用于統(tǒng)一原始數(shù)據(jù)格式,獲得具有標簽化屬性值的節(jié)點;
邏輯排序模塊,所述邏輯排序模塊與所述數(shù)據(jù)轉換模塊相連,用于接收所述節(jié)點,并由人工根據(jù)領域知識對所述節(jié)點進行排序,獲得邏輯序列;
根節(jié)點選擇模塊,所述根節(jié)點選擇模塊與所述邏輯排序模塊相連,用于接收所述邏輯序列,并提取所述邏輯序列中排序最高的節(jié)點作為根節(jié)點,在所述邏輯序列中將所述根節(jié)點刪除;
獨立性驗證模塊,所述獨立性驗證模塊與所述根節(jié)點選擇模塊相連,用于接收所述邏輯序列,并對所述邏輯序列中的節(jié)點進行獨立性驗證;
父節(jié)點選擇模塊,所述父節(jié)點選擇模塊與所述獨立性驗證模塊相連,用于依次將所述邏輯序列中的節(jié)點作為當前節(jié)點,提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點,并提取沒有子節(jié)點的節(jié)點作為葉子節(jié)點;
貝葉斯網(wǎng)絡構建模塊,所述貝葉斯網(wǎng)絡構建模塊分別與根節(jié)點選擇模塊、父節(jié)點選擇模塊相連,用于接收所述根節(jié)點、父節(jié)點和葉子節(jié)點,并以所述根節(jié)點、父節(jié)點和葉子節(jié)點構建貝葉斯網(wǎng)絡。
本發(fā)明所公開的貝葉斯網(wǎng)絡的構建方法和系統(tǒng),在前期統(tǒng)一參數(shù)格式后,根據(jù)領域知識確認各節(jié)點間的邏輯關系并排序,避免了數(shù)據(jù)對所述貝葉斯網(wǎng)絡帶來的影響,在后期利用自動化的方式,依據(jù)相關領域的邏輯關系,將各節(jié)點進行排序以獲得根節(jié)點,并根據(jù)各節(jié)點間的相關度,確認節(jié)點間的網(wǎng)絡結構關系,以此構建貝葉斯網(wǎng)絡,減少了人工輸入的麻煩,提高了智能化水平。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對本發(fā)明實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例公開的一種貝葉斯網(wǎng)絡構建方法流程示意圖;
圖2為本發(fā)明實施例公開的貝葉斯網(wǎng)絡構建方法步驟五的流程示意圖;
圖3為本發(fā)明實施例公開的一種貝葉斯網(wǎng)絡構建系統(tǒng)結構示意圖;
圖4為本發(fā)明實施例公開的貝葉斯網(wǎng)絡構建系統(tǒng)父節(jié)點選擇模塊結構示意圖;
圖5為本發(fā)明實施例公開的另一種貝葉斯網(wǎng)絡構建系統(tǒng)結構示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
實施例一
本實施例公開了一種貝葉斯網(wǎng)絡的構建方法,如圖1所示,該方法包括:
步驟一、統(tǒng)一原始數(shù)據(jù)格式,獲得具有標簽化屬性值的節(jié)點。所述具有標簽化屬性值的節(jié)點為統(tǒng)一的逗號分隔符格式的文件,以便提取屬性,標簽化屬性值?;蛘撸鼍哂袠撕灮瘜傩灾档墓?jié)點也可以為其他能夠?qū)?jié)點屬性進行標簽化的格式文件。
步驟二、根據(jù)領域知識對所述節(jié)點進行排序,獲得邏輯序列。即,根據(jù)領域知識確定各個屬性節(jié)點在貝葉斯網(wǎng)絡中的可能存在的邊的方向,進而表示在一個或多個相互關聯(lián)的事件中的因果的順序。例如:“告警類別”字段,在因果序上,高于“CPU”,因為告警類別決定了告警正文中是否出現(xiàn)“CPU”這樣的單詞。
根據(jù)領域知識的多少,順序可以是完全有序的,也可以是以分級形式給出的。在本實施例中,所述領域知識為企業(yè)級網(wǎng)絡管理中的領域知識。
步驟三、提取所述邏輯序列中排序最高的節(jié)點作為根節(jié)點。所述根節(jié)點的個數(shù)為一個或多個,則在所述貝葉斯網(wǎng)絡中可以由一棵樹組成,也可以有多棵樹組成。
步驟四、對所述邏輯序列中的節(jié)點進行獨立性驗證。
對所述邏輯序列中的節(jié)點進行獨立性驗證也就是對所述邏輯序列中的節(jié)點進行兩兩獨立性驗證,即在所述邏輯序列中所有的節(jié)點之間,對兩兩節(jié)點彼此間的相關或相互獨立的驗證,進而判斷兩個節(jié)點間的獨立關系。所述對所述節(jié)點進行獨立性驗證的方法為卡方驗證法,或,協(xié)方差系數(shù)法,或,Pearson積距系數(shù)法。
例如,卡方驗證法,其計算公式如下:
其中,Observed是兩個特征上取某種值的組合的發(fā)生次數(shù),也就是觀測頻度,expected是期望頻度,來自于兩個特征單獨取相應值的頻度的乘積(獨立假設下兩者相等)。
步驟五、除所述根節(jié)點外,依次將所述邏輯序列中的節(jié)點作為當前節(jié)點,依據(jù)獨立性驗證結果提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點,并提取沒有子節(jié)點的節(jié)點作為葉子節(jié)點。
如圖2所示,所述步驟五包括:
步驟51、提取所述邏輯序列中順序在所述根節(jié)點之后的節(jié)點,作為當前節(jié)點。例如,在邏輯序列a、b、c、d、e…n中,節(jié)點a為根節(jié)點,則在此提取節(jié)點b作為當前節(jié)點。
步驟52、將所述當前節(jié)點在邏輯序列中刪除,生成暫存邏輯序列。例如,在邏輯序列a、b、c、d、e…n中,若節(jié)點c為當前節(jié)點,則在邏輯序列a、b、c、d、e…中將節(jié)點c刪除,生成的暫存邏輯序列為a、b、d、e…n。
步驟53、在所述暫存邏輯序列中,提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點。在步驟四中,已經(jīng)對所述邏輯序列中的節(jié)點進行獨立性驗證,獲得每兩個節(jié)點間的相關度,在此利用步驟四的輸出,在所述暫存邏輯序列中,提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點。
若存在兩個或多個相關度最大的節(jié)點,則選取使貝葉斯網(wǎng)絡樹結構高度最高的節(jié)點作為當前節(jié)點的父節(jié)點。對于貝葉斯網(wǎng)絡樹結構而言,其結構高度越高,利用的關聯(lián)性就越充分,距離樸素貝葉斯的情況就越遠,樹結構中蘊含的條件獨立信息也就越多。選取使貝葉斯網(wǎng)絡樹結構高度最高的節(jié)點作為當前節(jié)點的父節(jié)點也就充分利用了節(jié)點間相關性的信息,而且意味著每個節(jié)點的子節(jié)點數(shù)量更少,有利于計算的簡化。
若所述相關度最大的節(jié)點為當前節(jié)點的子節(jié)點,則提取相關度的次大項節(jié)點作為當前節(jié)點的父節(jié)點。例如,在邏輯序列a、b、c、d、e…n中,驗證節(jié)點b時,與節(jié)點b相關度最大的是節(jié)點d,則節(jié)點b的父節(jié)點是節(jié)點d,即節(jié)點b是節(jié)點d的子節(jié)點。在驗證節(jié)點d時,與節(jié)點d相關度最大的是節(jié)點b,與節(jié)點d相關度的次大項節(jié)點是節(jié)點c,則選擇節(jié)點c作為節(jié)點d的父節(jié)點,從而避免選擇節(jié)點b而破壞貝葉斯網(wǎng)絡樹結構的情況。
步驟54、判斷所述當前節(jié)點是否為邏輯序列中最后一個節(jié)點,
如果是,則將沒有子節(jié)點的節(jié)點作為葉子節(jié)點,
如果否,則選擇順序在所述當前節(jié)點之后的節(jié)點作為新的當前節(jié)點,轉至步驟52。
其中,如果所述當前節(jié)點不是邏輯序列中最后一個節(jié)點,則表明邏輯序列中還有節(jié)點沒有處理(所謂的“處理”是指對尋找節(jié)點的父節(jié)點的過程,其結果可能會找到父節(jié)點,也可能沒有父節(jié)點)完畢,需要對其繼續(xù)處理,此時需要選擇順序在所述當前節(jié)點之后的節(jié)點作為新的當前節(jié)點,轉至步驟52對其繼續(xù)處理。所謂的“選擇順序在所述當前節(jié)點之后的節(jié)點作為新的當前節(jié)點”即為,例如在邏輯序列a、b、c、d、e…n中,若當前節(jié)點為節(jié)點d,在步驟54中已經(jīng)確定了節(jié)點d的父節(jié)點,在節(jié)點d后面還有節(jié)點e、節(jié)點f等節(jié)點需要驗證,此時,在當前節(jié)點d之后,按照順序選擇節(jié)點e為新的當前節(jié)點,即在處理完節(jié)點d后,處理節(jié)點e,尋找節(jié)點e的父節(jié)點,直至按照在邏輯序列中存在的順序,依次將所有的節(jié)點處理完畢。
如果所述當前節(jié)點是邏輯序列中最后一個節(jié)點,則表明已經(jīng)把邏輯序列中所有節(jié)點的父節(jié)點都已經(jīng)驗證完畢,此時,會出現(xiàn)沒有子節(jié)點的節(jié)點。例如,在邏輯序列a、b、c、d、e…n中,節(jié)點e的父節(jié)點是節(jié)點n,而在邏輯序列a、b、c、d、e…n中,除節(jié)點e之外,與其他節(jié)點相關度最大的節(jié)點都不是節(jié)點e,即其他節(jié)點的父節(jié)點均不會是節(jié)點e,則節(jié)點e即為葉子節(jié)點。
步驟六、以所述根節(jié)點、父節(jié)點和葉子節(jié)點構建貝葉斯網(wǎng)絡。在確定了根節(jié)點、父節(jié)點和葉子節(jié)點后,即已經(jīng)確認了所述邏輯序列中所有節(jié)點間相互的相關度信息,而此處的父節(jié)點為上述步驟所輸出的父節(jié)點,所述父節(jié)點不僅包括一個節(jié)點信息,還包括與此節(jié)點相關節(jié)點的方向信息,據(jù)此以確認所述貝葉斯網(wǎng)絡中的節(jié)點及邊的方向信息。此時,所述根節(jié)點和葉子節(jié)點作為所述貝葉斯網(wǎng)絡的兩端,再加以所述父節(jié)點確認所述貝葉斯網(wǎng)絡中的節(jié)點及邊的方向信息,則足以構建貝葉斯網(wǎng)絡。最后,再依據(jù)現(xiàn)有技術計算得出相應的條件概率表,完成所述貝葉斯網(wǎng)絡的構建。
本實施例所公開的貝葉斯網(wǎng)絡的構建方法,在前期統(tǒng)一參數(shù)格式后,根據(jù)領域知識確認各節(jié)點間的邏輯關系并排序,避免了數(shù)據(jù)對所述貝葉斯網(wǎng)絡帶來的影響,在后期利用自動化的方式,依據(jù)相關領域的邏輯關系,將各節(jié)點進行排序以獲得根節(jié)點,并根據(jù)各節(jié)點間的相關度,確認節(jié)點間的網(wǎng)絡結構關系,以此構建貝葉斯網(wǎng)絡,減少了人工輸入的麻煩,提高了智能化水平。
在本實施例中,所述領域知識為企業(yè)級網(wǎng)絡管理中的領域知識。則本實施例所述貝葉斯網(wǎng)絡構建方法相應的可以用于網(wǎng)管系統(tǒng)中事件的過濾。即:依據(jù)網(wǎng)管采集到的事件數(shù)據(jù)構建貝葉斯網(wǎng)絡,在相應事件發(fā)生時,根據(jù)已構建的貝葉斯網(wǎng)絡判斷這些事件是否值得維護人員關注。如果值得關注,則該事件將通過工單系統(tǒng)派發(fā)給運維人員進行人工干預,否則該事件將被篩選掉。經(jīng)過試驗,本發(fā)明結合運維人員經(jīng)驗判斷,可以過濾75%以上的無效事件。
此外,根據(jù)領域知識的不同,本發(fā)明所公開的貝葉斯網(wǎng)絡的構建方法還可以應用在其他不同的領域當中,在此不做具體限制。
實施例二
本實施例公開了一種貝葉斯網(wǎng)絡構建系統(tǒng),如圖3所示,該貝葉斯網(wǎng)絡構建系統(tǒng)包括:
數(shù)據(jù)轉換模塊,所述數(shù)據(jù)轉換模塊用于統(tǒng)一原始數(shù)據(jù)格式,獲得具有標簽化屬性值的節(jié)點;
邏輯排序模塊,所述邏輯排序模塊與所述數(shù)據(jù)轉換模塊相連,用于接收所述節(jié)點,并由人工根據(jù)領域知識對所述節(jié)點進行排序,獲得邏輯序列;
根節(jié)點選擇模塊,所述根節(jié)點選擇模塊與所述邏輯排序模塊相連,用于接收所述邏輯序列,并提取所述邏輯序列中排序最高的節(jié)點作為根節(jié)點,在所述邏輯序列中將所述根節(jié)點刪除;
獨立性驗證模塊,所述獨立性驗證模塊與所述根節(jié)點選擇模塊相連,用于接收所述邏輯序列,并對所述邏輯序列中的節(jié)點進行獨立性驗證;
父節(jié)點選擇模塊,所述父節(jié)點選擇模塊與所述獨立性驗證模塊相連,用于依次將所述邏輯序列中除根節(jié)點之外的節(jié)點作為當前節(jié)點,依據(jù)獨立性驗證結果提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點,并提取沒有子節(jié)點的節(jié)點作為葉子節(jié)點;
貝葉斯網(wǎng)絡構建模塊,所述貝葉斯網(wǎng)絡構建模塊分別與根節(jié)點選擇模塊、父節(jié)點選擇模塊相連,用于接收所述根節(jié)點、父節(jié)點和葉子節(jié)點,并以所述根節(jié)點、父節(jié)點和葉子節(jié)點構建貝葉斯網(wǎng)絡。
如圖4所示,所述父節(jié)點選擇模塊,包括:
第一當前節(jié)點提取單元,所述第一當前節(jié)點提取單元與所述獨立性驗證模塊相連,用于接收所述邏輯序列,提取所述邏輯序列中順序在所述根節(jié)點之后的節(jié)點,作為當前節(jié)點;
第二當前節(jié)點提取單元,所述第二當前節(jié)點提取單元與所述獨立性驗證模塊相連,用于接收所述邏輯序列,選擇順序在所述當前節(jié)點之后的節(jié)點作為新的當前節(jié)點;
暫存邏輯序列生成單元,所述暫存邏輯序列生成單元分別與所述第一當前節(jié)點提取單元和第二當前節(jié)點提取單元相連,用于將所述當前節(jié)點在邏輯序列中刪除,生成暫存邏輯序列;
父節(jié)點選擇單元,所述父節(jié)點選擇單元分別與所述暫存邏輯序列生成單元和獨立性驗證模塊相連,用于接收所述當前節(jié)點、暫存邏輯序列和獨立性驗證模塊的獨立性驗證結果,并在所述暫存邏輯序列中,提取與所述當前節(jié)點相關度最大的節(jié)點作為當前節(jié)點的父節(jié)點,若存在兩個或多個相關度最大的節(jié)點,則選取使貝葉斯網(wǎng)絡樹結構高度最高的節(jié)點作為當前節(jié)點的父節(jié)點,若所述相關度最大的節(jié)點為當前節(jié)點的子節(jié)點,則提取相關度的次大項節(jié)點作為當前節(jié)點的父節(jié)點;
葉子節(jié)點選擇單元,所述葉子節(jié)點選擇單元分別與所述第一當前節(jié)點提取單元、第二當前節(jié)點提取單元和父節(jié)點選擇單元相連,用于接收所述邏輯序列、當前節(jié)點和父節(jié)點,并判斷所述當前節(jié)點是否為所述邏輯序列的最后一個節(jié)點,
如果是,則將所述邏輯序列中沒有子節(jié)點的節(jié)點作為葉子節(jié)點,
如果否,則轉至第二當前節(jié)點提取單元。
如圖5所示,所述貝葉斯網(wǎng)絡構建系統(tǒng)還包括:
貝葉斯網(wǎng)絡輸出模塊,所述貝葉斯網(wǎng)絡輸出模塊與所述貝葉斯網(wǎng)絡構建模塊相連,用于接收并輸出已構建完成的貝葉斯網(wǎng)絡。
本實施例所公開的貝葉斯網(wǎng)絡的構建系統(tǒng),在前期統(tǒng)一參數(shù)格式后,根據(jù)領域知識確認各節(jié)點間的邏輯關系并排序,避免了數(shù)據(jù)對所述貝葉斯網(wǎng)絡帶來的影響,在后期利用自動化的方式,依據(jù)相關領域的邏輯關系,將各節(jié)點進行排序以獲得根節(jié)點,并根據(jù)各節(jié)點間的相關度,確認節(jié)點間的網(wǎng)絡結構關系,以此構建貝葉斯網(wǎng)絡,減少了人工輸入的麻煩,提高了智能化水平。
以上對本發(fā)明所提供的貝葉斯網(wǎng)絡構建方法和系統(tǒng)進行了詳細介紹。本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應當指出,對于本技術領域的技術人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進行若干改進和修飾,這些改進和修飾也落入本發(fā)明權利要求的保護范圍內(nèi)。