專利名稱:基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法
技術(shù)領(lǐng)域:
本發(fā)明公開了一種基于概率圖模型(Probabilistic Graphical Model)的頻繁模式關(guān)聯(lián)分類方法,涉及一種基于概率圖模型的頻繁模式之間相互關(guān)系的表示、并在不同抽象層次上進(jìn)行關(guān)聯(lián)分類的方法。屬于數(shù)據(jù)挖掘及信息處理技術(shù)領(lǐng)域。
背景技術(shù):
實(shí)際中的數(shù)據(jù)對象,除了本身的屬性外,對象的行為、以及由于行為而產(chǎn)生的相互關(guān)系,也是對其進(jìn)行分類的重要依據(jù)。利用頻繁模式挖掘算法得到頻繁出現(xiàn)在數(shù)據(jù)集中的模式,利用關(guān)聯(lián)規(guī)則表達(dá)頻繁模式之間的相互關(guān)系,經(jīng)典分類算法以對象本身的屬性為基礎(chǔ)、未考慮由于對象之間行為而產(chǎn)生的相互關(guān)系,為此,將表示對象間相互關(guān)系的關(guān)聯(lián)規(guī)則用于數(shù)據(jù)的分類中,公知的關(guān)聯(lián)分類方法基于關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)對象的分類分析。董杰 (大連理工大學(xué)博士論文,2009)提出了一種基于位表的關(guān)聯(lián)規(guī)則挖掘及關(guān)聯(lián)分類算法;陳國青等(〈信息資源管理學(xué)報(bào)〉,2011(2))介紹了基于信息熵的關(guān)聯(lián)分類方法;霍緯綱等(〈 計(jì)算機(jī)研究與發(fā)展〉,2011,48(4) =567-575)提出了一種基于多目標(biāo)進(jìn)化算法的模糊關(guān)聯(lián)分類方法。作為關(guān)聯(lián)分類的基礎(chǔ)性技術(shù)手段,頻繁模式的關(guān)聯(lián)規(guī)則表示方法不能從全局的角度有效表達(dá)頻繁模式間較復(fù)雜的相互關(guān)系,不能描述所涉及頻繁模式的全局概率分布及相互關(guān)系的不確定性,為此,公知的方法利用圖模型擴(kuò)展頻繁模式和關(guān)聯(lián)規(guī)則的挖掘算法。耿汝年等(〈計(jì)算機(jī)集成制造系統(tǒng)〉,2008,14 (6) =1220-1229)提出了一種基于全局圖遍歷的頻繁模式挖掘算法;陳文等(〈計(jì)算機(jī)工程〉,2010,36 (13) 9-6)提出了一種基于關(guān)聯(lián)圖的加權(quán)關(guān)聯(lián)規(guī)則模型,并利用關(guān)聯(lián)圖存儲(chǔ)頻繁模式集;胡春玲等(〈軟件學(xué)報(bào)〉,2011,22 (12) 2934-2950)提出了一種基于貝葉斯網(wǎng)這一概率圖模型的頻繁模式興趣度計(jì)算和剪枝策略, 并有效利用貝葉斯網(wǎng)的推理算法來計(jì)算關(guān)聯(lián)規(guī)則的支持度。相對公知的頻繁模式表示方法,基于概率圖模型可以表示頻繁模式之間任意形式的全局相互關(guān)系、以及相互關(guān)系的不確定性,基于概率圖模型分析頻繁模式間相互關(guān)系的緊密程度、并進(jìn)行結(jié)點(diǎn)的合并,可以在不同抽象層次進(jìn)行頻繁模式分類。以頻繁模式之間的因果關(guān)系為出發(fā)點(diǎn),提出了頻繁模式的概率圖模型表示方法,建立了從頻繁模式到概率圖模型的等價(jià)轉(zhuǎn)換機(jī)制,給出了基于概率圖模型性質(zhì)的頻繁模式層次聚集方法,將其用于學(xué)術(shù)論文和論文作者聯(lián)系的自動(dòng)分類的問題中,具有較高的效率和分類準(zhǔn)確率。此方法能以一個(gè)統(tǒng)一的模型方便高效地實(shí)現(xiàn)頻繁模式之間相互依賴關(guān)系的全局表示,可滿足不同抽象層次用戶的關(guān)聯(lián)分類需求,具有較好的伸縮性,為后續(xù)研發(fā)提供理論依據(jù)和技術(shù)基礎(chǔ)。
發(fā)明內(nèi)容
本發(fā)明提供一種基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法。在Apriori頻繁模式挖掘算法的執(zhí)行結(jié)果之上,提供一種基于概率圖模型的頻繁模式間相互關(guān)系的表示及頻繁模式的關(guān)聯(lián)分類方法。以馬爾可夫網(wǎng)(Markov network)這一重要概率圖模型作為知識(shí)表示的基本框架,建立頻繁模式與概率圖模型的內(nèi)在聯(lián)系,構(gòu)建頻繁模式中蘊(yùn)含的馬爾可夫網(wǎng),通過結(jié)點(diǎn)自底向上的聚集對頻繁模式進(jìn)行不同抽象層次上的關(guān)聯(lián)分類??梢詮娜值慕嵌确奖愀咝У乇硎绢l繁模式間任意形式的相互關(guān)系,不同抽象層次用戶的關(guān)聯(lián)分類具有較好的伸縮性,為后續(xù)研發(fā)提供理論依據(jù)和技術(shù)基礎(chǔ)。本發(fā)明按以下步聚完成本發(fā)明工藝流程為首先,基于Apriori頻繁模式挖掘算法、設(shè)置支持度,獲得極大頻繁項(xiàng)目集;接著,對每個(gè)極大頻繁項(xiàng)目集分別構(gòu)建初始無向圖,并根據(jù)它們之間的公共項(xiàng)目集進(jìn)行初始無向圖的合并,進(jìn)而測試圖中結(jié)點(diǎn)之間的條件獨(dú)立性,刪除條件獨(dú)立的邊, 得到頻繁項(xiàng)目集中蘊(yùn)含的馬爾可夫網(wǎng);然后,對得到的馬爾可夫網(wǎng)進(jìn)行弦化處理,將弦化的馬爾可夫網(wǎng)表示為連接樹,以一個(gè)弦化子圖作為連接樹的一個(gè)頂點(diǎn),從而得到頻繁模式的初始分類;進(jìn)一步以自底向上的方式,對連接樹的頂點(diǎn)進(jìn)行聚集合并,得到反映更高抽象層次的分類,直到滿足用戶需求為止。(I)獲得頻繁模式基于Apriori頻繁模式挖掘算法,并設(shè)置支持度閾值,得到 I-頻繁項(xiàng)集,2-頻繁項(xiàng)集,……,直到不能得到更大的頻繁項(xiàng)集為止,從而獲得極大頻繁項(xiàng)集?;贏priori頻繁模式挖掘算法,針對項(xiàng)集I = U1,…,in},設(shè)置支持度閾值ε (O < ε < I),若I的子集X滿足概率P(X)彡ε,則X為頻繁項(xiàng)集。首先得到含有I個(gè)項(xiàng)的 I-頻繁項(xiàng)目集,再得到含有2個(gè)項(xiàng)的2-頻繁項(xiàng)目集,……,依次執(zhí)行,直到不能得到更大的頻繁項(xiàng)集為止。從而獲得極大頻繁項(xiàng)目集;(2)構(gòu)建頻繁模式中蘊(yùn)含的馬爾可夫網(wǎng)針對每個(gè)極大頻繁項(xiàng)目集,首先構(gòu)建以其中各頻繁項(xiàng)目作為結(jié)點(diǎn)的全連通無向圖,再將各極大頻繁項(xiàng)目集所對應(yīng)的完全子圖進(jìn)行合并,然后根據(jù)頻繁項(xiàng)目之間是否條件獨(dú)立來確定邊的刪除與保留,從而得到反應(yīng)頻繁項(xiàng)目之間全局相互關(guān)聯(lián)的馬爾可夫網(wǎng)。①對每個(gè)極大頻繁項(xiàng)目集分別構(gòu)建無向圖對極大頻繁項(xiàng)集Ai,以其中的項(xiàng)作為圖的結(jié)點(diǎn),用無向邊連接Ai中任意兩個(gè)不同的項(xiàng),得到Ai對應(yīng)的全連通無向圖G(Ai),如圖
2、圖3和圖4所示;②合并所有頻繁項(xiàng)集對應(yīng)的無向圖對于存在公共項(xiàng)的任意兩個(gè)Ai和Ap將Ai中的每個(gè)項(xiàng)與 中的其他項(xiàng)用無向邊相連,從而將每個(gè)極大頻繁項(xiàng)集對應(yīng)的無向圖進(jìn)行合并,得到全局無向圖G,如圖5所示;③刪去條件獨(dú)立結(jié)點(diǎn)對應(yīng)的邊,得到馬爾可夫網(wǎng)用<α Z β> 表示“ α 與 β 條件獨(dú)立于 Ζ”,若 P ( α,Ζ,β) =Ρλ (α,Ζ) ·Ρ λ (β,
ο P(X) < λ
Ζ)/Ρλ⑵,其中= j, X為頻繁項(xiàng)集,λ為給定的概率閾值。
L尸(Ji ) γ(Λ ) > Λ若X為極大頻繁項(xiàng)集,α,β e X,有〈α I χ- α - β I β >總成立。對于所有頻繁項(xiàng)集對應(yīng)的無向圖,考查G(Ai)中的任意無向邊(ail; aik),若〈ajAi-aifaiklaik〉成立(即an 與aik條件獨(dú)立于G(Ai)中其他結(jié)點(diǎn)),則從G中刪除邊(ail; aik);若an和aik又是Aj中的頻繁項(xiàng)且〈a^Ai-aifaiklaik〉成立(即an與aik條件獨(dú)立于G (Aj)中其他結(jié)點(diǎn)),則也從G 中刪除邊(ail; aik)。從而建立了頻繁模式與條件獨(dú)立性之間的關(guān)系,得到了表示頻繁項(xiàng)之間相互依賴關(guān)系的無向圖結(jié)構(gòu),該圖結(jié)構(gòu)滿足概率圖模型的必要條件、為有效的頻繁項(xiàng)馬爾可夫網(wǎng),將其稱為項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)(Item Association Markov Network),如圖6所不。(3)頻繁模式的層次聚集根據(jù)弦化的定義,(一個(gè)無向圖稱為弦圖,當(dāng)圖中任一長度大于3的環(huán)都至少有一個(gè)弦),將構(gòu)建的馬爾可夫網(wǎng)弦化處理,同時(shí)建立馬爾可夫網(wǎng)中各結(jié)點(diǎn)極大完全子圖的無環(huán)序,進(jìn)而得到以極大完全子圖為結(jié)點(diǎn)的聯(lián)接樹,根據(jù)聯(lián)接樹中極大完全子圖的無環(huán)序進(jìn)行聯(lián)接樹中結(jié)點(diǎn)的聚集合并,自底向上的方式重復(fù)此過程,直到滿足用戶所需抽象程度為止。①用弦化(Chordal)作為頻繁項(xiàng)聯(lián)系緊密的衡量標(biāo)準(zhǔn),得到弦化的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)及弦化子圖的序基于無向圖弦化的概念,對每個(gè)長度不少于4的環(huán)都進(jìn)行弦化(即三角化,使得每個(gè)環(huán)的長度不大于3),每個(gè)長度不超過3的環(huán)中的結(jié)點(diǎn)構(gòu)成一個(gè)弦化子圖Xi,每個(gè)弦化子圖包含聯(lián)系緊密的頻繁項(xiàng)且對應(yīng)一個(gè)初始的類,如圖7所示;進(jìn)一步基于以下標(biāo)準(zhǔn)得到弦化子圖的序(Xl,…,xm),為得到更高抽象層次的類奠定基礎(chǔ)
其中 I 彡 j 彡 i ;②將弦化無向圖表示為連接樹(Join Tree):弦化的馬爾可夫網(wǎng)可以用樹結(jié)構(gòu)來描述,稱為連接樹;而連接樹本身是弦化的,包括了聯(lián)系緊密的頻繁項(xiàng)。將弦化子圖作為頂點(diǎn),若Ci與有公共頻繁項(xiàng),則Ci與之間有一條無向邊,得到連接樹Τ,如圖8所示;③連接樹結(jié)點(diǎn)聚集合并,實(shí)現(xiàn)不同抽象層次的頻繁模式關(guān)聯(lián)分類按照弦化子圖的序,將連接樹T中各無向邊末端的頂點(diǎn)與頭端結(jié)點(diǎn)合并,得到新的連接樹Τ,,其中每個(gè)結(jié)點(diǎn)對應(yīng)更高抽象層次的一個(gè)類,如圖9和圖10所示。以自底向上的方式重復(fù)此過程,得到越來越大的類,直到滿足用戶所需抽象程度為止。與公知技術(shù)相比本發(fā)明具有的優(yōu)點(diǎn)及積極效果(I)通過構(gòu)建概率圖模型,以一個(gè)統(tǒng)一的模型、從全局的角度描述了頻繁模式之間的相互關(guān)系,是頻繁模式及關(guān)聯(lián)規(guī)則挖掘方法的擴(kuò)展,更容易地實(shí)現(xiàn)了頻繁模式間任意形式相互關(guān)系的建模,彌補(bǔ)了基于關(guān)聯(lián)規(guī)則的頻繁模式間相互關(guān)系表示機(jī)制的不足。(2)以頻繁模式間的因果關(guān)系為出發(fā)點(diǎn),建立了從頻繁模式到概率圖模型的等價(jià)轉(zhuǎn)換機(jī)制、頻繁模式聯(lián)合概率分布的表示機(jī)制,定量地反映了頻繁模式間相互依賴的不確定性。(3)基于概率圖模型的結(jié)點(diǎn)聚集來實(shí)現(xiàn)關(guān)聯(lián)分類,避免了基于關(guān)聯(lián)規(guī)則進(jìn)行關(guān)聯(lián)分類時(shí)由于僅考慮局部相關(guān)性帶來的分類或聚類結(jié)果的片面性和不準(zhǔn)確性,提高了關(guān)聯(lián)分類的易實(shí)現(xiàn)性和結(jié)果的正確性;實(shí)現(xiàn)了頻繁模式不同抽象層次的關(guān)聯(lián)分類,具有更好的可伸縮性,能滿足用戶的不同需求。(4)成熟的概率圖模型推理方法可為關(guān)聯(lián)分類提供定量的分析和計(jì)算的支撐技術(shù),為解決自動(dòng)關(guān)聯(lián)分類及基于關(guān)聯(lián)分類的社會(huì)計(jì)算等目前亟待解決的熱點(diǎn)問題提供了有力的技術(shù)支持。
四
圖I本發(fā)明的技術(shù)路線圖。包括以下三個(gè)主要部分獲得頻繁模式(預(yù)處理)、構(gòu)建概率圖模型和層次關(guān)聯(lián)分類;圖2、圖3和圖4分別為三個(gè)頻繁項(xiàng)目集對應(yīng)的初始無向圖圖2全連通無向子圖①。結(jié)點(diǎn)為極大頻繁項(xiàng)集(Α,B, C)中的頻繁項(xiàng);
圖3全連通無向子圖②。結(jié)點(diǎn)為極大頻繁項(xiàng)集(C,D)中的頻繁項(xiàng);圖4全連通無向子圖③。結(jié)點(diǎn)為極大頻繁項(xiàng)集(D,E,F(xiàn))中的頻繁項(xiàng);圖5所有頻繁項(xiàng)的無向圖。合并圖2、圖3和圖4得到圖5,結(jié)點(diǎn)為所有頻繁項(xiàng)集 U = (A,B, C,D,E,F(xiàn))中的頻繁項(xiàng),合并全連通無向子圖時(shí)添加的邊用雙線表示;圖6關(guān)鍵詞頻繁項(xiàng)目集U的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)。對圖5進(jìn)行條件獨(dú)立測試后得到;圖7弦化的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)G。對圖6進(jìn)行弦化處理得到,其中X1 =“頻繁項(xiàng)”, x2 = “Apriori”,X3 = “剪枝”,X4 = “分類”,X5 = “貝葉斯網(wǎng)”,X6 = “團(tuán)樹”;圖8弦化的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)G的連接樹1\。其中C1 = (x1;x2,X3)代表“關(guān)聯(lián)規(guī)則”,C2 = (x2, x3, x5)代表“圖模型挖掘”,C3 = (x2, X4)代表“分類分析”,C4 = (x5, x6)代表“概率圖模型”;圖9新的連接樹圖T2。對圖8中T1的頂點(diǎn)聚集合并得到,其中CflC1, C2)代表“關(guān)
聯(lián)規(guī)則挖掘”,C21HC2, C4)代表“不確定性知識(shí)發(fā)現(xiàn)”,C3tHCu C3)代表“關(guān)聯(lián)分類”;圖10新的連接樹T3和最高抽象層次的連接樹Τ4。分別對T2和T3的頂點(diǎn)聚集合
并得到,其中cYUc/, 代表“人工智能”,fV=(r/,c/)代表“數(shù)據(jù)挖掘”;C24) 表示“數(shù)據(jù)與知識(shí)工程”。
五具體實(shí)施例方式實(shí)施例I :學(xué)術(shù)論文關(guān)鍵詞關(guān)聯(lián)分類(I)項(xiàng)目集從發(fā)表的學(xué)術(shù)論文中抽取關(guān)鍵詞(Keywords)并對各詞出現(xiàn)的頻繁度分別進(jìn)行統(tǒng)計(jì),若兩個(gè)關(guān)鍵詞出現(xiàn)在同一篇論文中,則表示兩個(gè)關(guān)鍵字同時(shí)出現(xiàn)的支持度計(jì)算加I ;(2)極大頻繁項(xiàng)目集設(shè)置最小支持度閾值,使用Apriori算法,掃描關(guān)鍵詞并計(jì)數(shù),得到I-頻繁項(xiàng)目集的集合,進(jìn)一步得到2-頻繁項(xiàng)目集的集合,……,不斷執(zhí)行直到不能再找到k-頻繁項(xiàng)目集為止;(3)針對每個(gè)關(guān)鍵詞極大頻繁項(xiàng)目集,首先構(gòu)建以其中各頻繁項(xiàng)目作為結(jié)點(diǎn)的全連通無向圖,然后根據(jù)頻繁項(xiàng)之間是否條件獨(dú)立來確定邊的刪除與保留,從而得到各極大頻繁項(xiàng)目集的子圖,再將各極大頻繁項(xiàng)目集所對應(yīng)子圖進(jìn)行合并,得到反映頻繁項(xiàng)目之間全局相互關(guān)系的馬爾可夫網(wǎng),U= (A,B,C,D,E,F(xiàn))為關(guān)鍵詞的I-頻繁項(xiàng)目集,首先得到分別如圖2、圖3和圖4所示的3個(gè)全連通無向子圖,再根據(jù)各子圖的公共結(jié)點(diǎn)將這3個(gè)子圖合并,得到對應(yīng)于U中所有頻繁項(xiàng)的無向圖,如圖5所示,對關(guān)鍵詞頻繁項(xiàng)目進(jìn)行條件獨(dú)立測試,若條件獨(dú)立,則刪去相應(yīng)的邊,(A,E)、(A,F(xiàn))、(B,E)和(B,F(xiàn))這4對結(jié)點(diǎn)間的邊不存在,對于圖5中的無向圖,<E|C,D|F>(即E和F條件獨(dú)立于C和D),則刪去E和F之間的邊,得到關(guān)鍵詞頻繁項(xiàng)目集U的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng),如圖6所示;(4)若弦化的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)如圖7所示,按照弦化子圖的序(C1, C2,C3,C4),得到連接樹T1,如圖8所示,圖8中連接樹頂點(diǎn)極大完全子圖的無環(huán)序?yàn)?C/,c2',C3,), 則對T1中的頂點(diǎn)進(jìn)行聚集合并,得到新的、描述更高抽象層次關(guān)鍵詞頻繁項(xiàng)目分類的連接樹1~2,如圖9所示。對T2中的頂點(diǎn)進(jìn)行聚集合并,得到新的連接樹T3,進(jìn)而得到C1",=(C1",C2"),即得到最高抽象層次類的連接樹T4,如圖10所示。性能選擇ScienceDirect數(shù)據(jù)庫中5個(gè)“主題(Subject) ”中的學(xué)術(shù)論文400 篇,選取其中的1500個(gè)關(guān)鍵詞,記錄這些論文的主題及其下的子主題信息,執(zhí)行以上步驟
(1) (4),從1000個(gè)頻繁項(xiàng)構(gòu)建項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng)只需15毫秒,獲得論文所述子主題和上一級(jí)主題分類信息,在這兩個(gè)分類的抽象層次分別與論文本身所述類相比,本研究所得結(jié)果的誤差分別為2. 5%和I. 2%。
權(quán)利要求
1.一種基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法,其特征在于其按以下步驟完成,(1)獲得頻繁模式基于Apriori頻繁模式挖掘算法,并設(shè)置支持度閾值,得到1_頻繁項(xiàng)集,2-頻繁項(xiàng)集,……,直到不能得到更大的頻繁項(xiàng)集為止,從而獲得極大頻繁項(xiàng)集;(2)構(gòu)建頻繁模式中蘊(yùn)含的馬爾可夫網(wǎng)針對每個(gè)極大頻繁項(xiàng)目集,首先構(gòu)建以其中各頻繁項(xiàng)目作為結(jié)點(diǎn)的全連通無向圖,再將各極大頻繁項(xiàng)目集所對應(yīng)的完全子圖進(jìn)行合并,然后根據(jù)頻繁項(xiàng)目之間是否條件獨(dú)立來確定邊的刪除與保留,從而得到反應(yīng)頻繁項(xiàng)目之間全局相互關(guān)聯(lián)的馬爾可夫網(wǎng);(3)頻繁模式的層次聚集根據(jù)弦化的定義,將構(gòu)建的馬爾可夫網(wǎng)弦化處理,同時(shí)建立馬爾可夫網(wǎng)中各結(jié)點(diǎn)極大完全子圖的無環(huán)序,進(jìn)而得到以極大完全子圖為結(jié)點(diǎn)的聯(lián)接樹, 根據(jù)聯(lián)接樹中極大完全子圖的無環(huán)序進(jìn)行聯(lián)接樹中結(jié)點(diǎn)的聚集合并,自底向上的方式重復(fù)此過程,直到滿足用戶所需抽象程度為止。
2.根據(jù)權(quán)利要求I所述的基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法,其特征在于一種學(xué)術(shù)論文關(guān)鍵詞關(guān)聯(lián)分類法按以下步驟完成,(1)項(xiàng)目集從發(fā)表的學(xué)術(shù)論文中抽取關(guān)鍵詞(Keywords)并對各詞出現(xiàn)的頻繁度分別進(jìn)行統(tǒng)計(jì),若兩個(gè)關(guān)鍵詞出現(xiàn)在同一篇論文中,則表示兩個(gè)關(guān)鍵字同時(shí)出現(xiàn)的支持度計(jì)算加I ;(2)極大頻繁項(xiàng)目集設(shè)置最小支持度閾值,使用Apriori算法,掃描關(guān)鍵詞并計(jì)數(shù),得到I-頻繁項(xiàng)目集的集合,進(jìn)一步得到2-頻繁項(xiàng)目集的集合,……,不斷執(zhí)行直到不能再找到k-頻繁項(xiàng)目集為止;(3)針對每個(gè)關(guān)鍵詞極大頻繁項(xiàng)目集,首先構(gòu)建以其中各頻繁項(xiàng)目作為結(jié)點(diǎn)的全連通無向圖,然后根據(jù)頻繁項(xiàng)之間是否條件獨(dú)立來確定邊的刪除與保留,從而得到各極大頻繁項(xiàng)目集的子圖,再將各極大頻繁項(xiàng)目集所對應(yīng)子圖進(jìn)行合并,得到反映頻繁項(xiàng)目之間全局相互關(guān)系的馬爾可夫網(wǎng),U = A,B, C,D,E,F(xiàn)為關(guān)鍵詞的I-頻繁項(xiàng)目集,首先得到3個(gè)全連通無向子圖,再根據(jù)各子圖的公共結(jié)點(diǎn)將這3個(gè)子圖合并,得到對應(yīng)于U中所有頻繁項(xiàng)的無向圖,對關(guān)鍵詞頻繁項(xiàng)目進(jìn)行條件獨(dú)立測試,若條件獨(dú)立,則刪去相應(yīng)的邊,(A,E)、(A,F(xiàn))、 (B,E)和(B,F(xiàn))這4對結(jié)點(diǎn)間的邊不存在,對于圖5中的無向圖,<E|C,D|F>,則刪去E和F 之間的邊,得到關(guān)鍵詞頻繁項(xiàng)目集U的項(xiàng)關(guān)聯(lián)馬爾可夫網(wǎng);(4)按照弦化子圖的序C1,C2, C3, C4,得到連接樹T1,圖8中連接樹頂點(diǎn)極大完全子圖的無環(huán)序?yàn)镃/, C21, Cl則對T1中的頂點(diǎn)進(jìn)行聚集合并,得到新的、描述更高抽象層次關(guān)鍵詞頻繁項(xiàng)目分類的連接樹T2,對T2中的頂點(diǎn)進(jìn)行聚集合并,得到新的連接樹T3,進(jìn)而得到 C1" ' =C1" ,C2",即得到最高抽象層次類的連接樹T4。
全文摘要
本發(fā)明涉及一種基于概率圖模型的頻繁模式關(guān)聯(lián)分類方法。在Apriori頻繁模式挖掘算法的執(zhí)行結(jié)果之上,提供一種基于概率圖模型的頻繁模式間相互關(guān)系的表示及頻繁模式的關(guān)聯(lián)分類方法。以馬爾可夫網(wǎng)這一重要概率圖模型作為知識(shí)表示的基本框架,建立頻繁模式與概率圖模型的內(nèi)在聯(lián)系,構(gòu)建頻繁模式中蘊(yùn)含的馬爾可夫網(wǎng),通過結(jié)點(diǎn)自底向上的聚集對頻繁模式進(jìn)行不同抽象層次上的關(guān)聯(lián)分類,可以從全局的角度方便高效地表示頻繁模式間任意形式的相互關(guān)系,不同抽象層次用戶的關(guān)聯(lián)分類具有較好的伸縮性,為后續(xù)研發(fā)提供理論依據(jù)和技術(shù)基礎(chǔ)。
文檔編號(hào)G06F17/30GK102609528SQ20121003166
公開日2012年7月25日 申請日期2012年2月14日 優(yōu)先權(quán)日2012年2月14日
發(fā)明者劉惟一, 岳昆 申請人:云南大學(xué)