專利名稱:一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理,是一種關(guān)聯(lián)規(guī)則及其元規(guī)則的綜合挖掘方法背景技術(shù)數(shù)據(jù)挖掘是人工智能領(lǐng)域的一個(gè)重要分支,而關(guān)聯(lián)規(guī)則的挖掘則是許多數(shù)據(jù)挖掘問題的重要任務(wù),然而,現(xiàn)有的各種單一算法上不能同時(shí)滿足挖掘關(guān)聯(lián)規(guī)則、元規(guī)則、關(guān)聯(lián)規(guī)則變化趨勢等方面的任務(wù),如果將各種算法進(jìn)行組合挖掘,則挖掘效率將大大降低,而對于元規(guī)則的挖掘,現(xiàn)存的算法只能適應(yīng)同一數(shù)據(jù)域上進(jìn)行挖掘。
目前國際上較為有影響的頻繁模式挖掘的方法是Apriori算法(R.Agrawal and R.Srikant.Fast algorithms for mining association rules.In VLDB’94,pages 487-499)及其相關(guān)的改進(jìn)算法,如DCP(S.Orlando,P.Palmerini and R.Perego,Enhancing the apriori algorithm for frequentset counting.Proceeding of 3rdinternational conference on DaWaK2001.Munich,GermanySpriger,2001.1-17)、FP-Tree算法(J.Han,J.Pei,and Y.Yin.Mining frequent patterns withoutcandidate generation.In SIGMOD’00,pages 1-12)。這些算法主要針對關(guān)聯(lián)規(guī)則的挖掘方法和效率進(jìn)行研究,只是適合于挖掘整體上平均水平的支持度來說的關(guān)聯(lián)規(guī)則。但是,有些關(guān)聯(lián)規(guī)則是會(huì)隨著時(shí)間的改變而發(fā)生變化的,例如一些關(guān)聯(lián)規(guī)則是周期性出現(xiàn)的,在某一特定的時(shí)段內(nèi)會(huì)周期性的出現(xiàn),如每周一等,而對整個(gè)周期如一周的平均支持度來說,不能形成強(qiáng)關(guān)聯(lián)規(guī)則;再比如一些關(guān)聯(lián)規(guī)則會(huì)隨著時(shí)間的變化,關(guān)聯(lián)程度是逐漸增強(qiáng)的,就整個(gè)時(shí)間段的平均的支持度來說也許不能形成強(qiáng)關(guān)聯(lián)規(guī)則,但就趨勢來說,下一時(shí)間將形成強(qiáng)關(guān)聯(lián)規(guī)則;同樣,一些規(guī)則的關(guān)聯(lián)程度呈下降趨勢,也許就挖掘整個(gè)時(shí)間段來說是強(qiáng)規(guī)則,但根據(jù)趨勢,下一時(shí)間段將不形成強(qiáng)規(guī)則。對于這些知識(shí)的發(fā)現(xiàn),以上算法是無法實(shí)現(xiàn)的。因此,這些趨勢的挖掘需要特定的挖掘算法來實(shí)現(xiàn)。
為了能夠發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的變化,Abraham于1999年在“從大臨時(shí)數(shù)據(jù)集中增量元挖掘”中提出了元挖掘思想(Abraham,T.,& Roddick,J.F.,Incremental Meta-mining from LargeTemporal Data Sets[C],Advances in Database Technologies,Proceedings of the 1st InternationalWorkshop on Data Warehousing and Data Mining(DWDM′98),pp.41-54,1999),元挖掘是從規(guī)則集中發(fā)現(xiàn)知識(shí)的方法,它是對數(shù)據(jù)挖掘結(jié)果的分析或者說再挖掘,通過元挖掘可以獲得元規(guī)則。Abraham等研究了基于空間臨時(shí)數(shù)據(jù)庫的元規(guī)則的挖掘,對于在同一數(shù)據(jù)域上的不同時(shí)間片斷上產(chǎn)生的規(guī)則集上的元規(guī)則的挖掘提出了相應(yīng)的方法,但這種方法尚不適用于一般交易數(shù)據(jù)庫的元規(guī)則的挖掘。
Banu Ozden等在“周期關(guān)聯(lián)規(guī)則挖掘”中針對周期性關(guān)聯(lián)規(guī)則的挖掘進(jìn)行了研究(B.Ozden,S.Ramaswamy,and A.Silberschatz.Cyclic Association Rules.In Proc.of the 14th Int.Conf.on Data Engineering,Orlando,F(xiàn)lorida,F(xiàn)ebruary 1998),在研究中提出的相關(guān)算法只能對具有周期性的關(guān)聯(lián)規(guī)則的變化趨勢進(jìn)行分析,而不能對非周期性的關(guān)聯(lián)規(guī)則的變化趨勢進(jìn)行分析及其他一些關(guān)聯(lián)規(guī)則,例如穩(wěn)定出現(xiàn)的關(guān)聯(lián)規(guī)則。
本發(fā)明針對目前關(guān)聯(lián)規(guī)則挖掘存在的問題,提出一種基于超結(jié)構(gòu)的關(guān)聯(lián)規(guī)則及其元挖掘的綜合方法,使用該方法既可以挖掘整體上的強(qiáng)關(guān)聯(lián)規(guī)則,也可以挖掘其它一些強(qiáng)關(guān)聯(lián)規(guī)則及其元規(guī)則,如周期性、有增強(qiáng)(或)下降趨勢的關(guān)聯(lián)規(guī)則,本發(fā)明中提出的方法只需要整體掃描數(shù)據(jù)庫兩次就可形成相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則集及其元規(guī)則集。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有關(guān)聯(lián)規(guī)則挖掘算法中存在的不足,提出了基于的超結(jié)構(gòu)關(guān)聯(lián)規(guī)則挖掘綜合算法。使用該發(fā)明的算法,只需要掃描數(shù)據(jù)庫兩次就可以挖掘出各類強(qiáng)規(guī)則集及元規(guī)則集。
為達(dá)到上述目的,本發(fā)明包括如下步驟(1)將時(shí)序數(shù)據(jù)庫按照時(shí)間片斷劃分成若干部分;(2)依次對各個(gè)部分分別掃描,并在各個(gè)部分分別形成頻繁1-項(xiàng)集;(3)再次分別掃描各部分,形成頻繁1-項(xiàng)集超結(jié)構(gòu);(4)采用遞歸分解法形成完全構(gòu)建超結(jié)構(gòu);(5)挖掘超結(jié)構(gòu)形成關(guān)聯(lián)規(guī)則及元規(guī)則。
將元規(guī)則輸入到BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得出分類的元規(guī)則。
頻繁1-項(xiàng)集超結(jié)構(gòu)的基本構(gòu)建如下在掃描交易數(shù)據(jù)庫一遍得到頻繁1-項(xiàng)集的基礎(chǔ)上再一次掃描數(shù)據(jù)庫,并在掃描過程中將頻繁1-項(xiàng)集投影到每條交易,得到每條交易的頻繁1-項(xiàng)集的投影交易,這樣每條投影交易就是一個(gè)頻繁1-項(xiàng)集的一個(gè)子集,然后,項(xiàng)集中的項(xiàng)數(shù)即集合的勢大于1的項(xiàng)集按照式h(k1,k2,···,km)=(Σi=1mα(ki))modp]]>計(jì)算哈希地址,并依此構(gòu)建或存儲(chǔ)Count1m和X(m)到哈希鏈結(jié)構(gòu)中,第二次數(shù)據(jù)庫掃描結(jié)束時(shí),頻繁1-項(xiàng)集投影超結(jié)構(gòu)構(gòu)建完成。
超結(jié)構(gòu)完全構(gòu)建如下依據(jù)超結(jié)構(gòu)頭表,從最長項(xiàng)哈希鏈結(jié)構(gòu)開始,使用遞歸分解方,將分解得出的子集的相關(guān)信息記錄到相應(yīng)的哈希鏈結(jié)構(gòu)中去,直到n-項(xiàng)哈希鏈分解完畢后。
本發(fā)明提出的關(guān)聯(lián)規(guī)則及元規(guī)則挖掘方法,只需要掃描數(shù)據(jù)庫兩次,就可以獲得整體的強(qiáng)關(guān)聯(lián)規(guī)則集、各時(shí)間段的強(qiáng)關(guān)聯(lián)規(guī)則集、元規(guī)則集及其元規(guī)則的分類,該方法不需要產(chǎn)生候選項(xiàng)集,與現(xiàn)有的公認(rèn)關(guān)聯(lián)規(guī)則挖掘算法相比,在產(chǎn)生頻繁項(xiàng)集階段至少具有基本相同的時(shí)間效率。如與Apriori類算法相比具有更高的效率,因Apriori類算法對數(shù)據(jù)庫的掃描次數(shù)與產(chǎn)生的頻繁項(xiàng)集的項(xiàng)數(shù)相同,這樣Apriori類算法會(huì)有高的I/O開銷;如與FP-Tree方法相比,對于數(shù)據(jù)庫的整體掃描次數(shù)相同,也需要兩次。但在形成關(guān)聯(lián)規(guī)則階段,也就是計(jì)算置信度階段,本發(fā)明直接在超結(jié)構(gòu)中獲得相關(guān)頻繁項(xiàng)集的支持度用來計(jì)算置信度這樣減少了I/O的開銷,從而使得在挖掘關(guān)聯(lián)規(guī)則方面具有更高的效率。同時(shí),該方法還可以直接從超結(jié)構(gòu)中獲得各時(shí)段的強(qiáng)關(guān)聯(lián)規(guī)則集以及元規(guī)則集,可以獲得目前關(guān)聯(lián)規(guī)則挖掘算法不能挖掘到的一些強(qiáng)關(guān)聯(lián)規(guī)則。
本發(fā)明與目前元規(guī)則挖掘算法相比,現(xiàn)有的元挖掘算法是首先采用現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法,對于各時(shí)間段的數(shù)據(jù)庫分別進(jìn)行挖掘,輸出各自的關(guān)聯(lián)規(guī)則,然后對各時(shí)間段的規(guī)則集進(jìn)行比較分析,獲得元規(guī)則集,而且目前僅僅限于對相同數(shù)據(jù)域上的元挖掘,顯然,其綜合效率將低于本發(fā)明。
與目前關(guān)聯(lián)規(guī)則趨勢分析算法,如周期關(guān)聯(lián)規(guī)則挖掘算法,這些算法的基礎(chǔ)是Apriori算法,Apriori算法的缺陷在這類算法中仍然存在,且這類算法只能準(zhǔn)對某一類關(guān)聯(lián)規(guī)則進(jìn)行挖掘,例如周期關(guān)聯(lián)規(guī)則挖掘則只能挖掘具有周期變化的那些關(guān)聯(lián)規(guī)則,而放棄了其它類型關(guān)聯(lián)規(guī)則的挖掘。顯然,本發(fā)明提出的方法更具有優(yōu)越性。
圖1是超級哈希鏈結(jié)構(gòu)圖;圖2是1-項(xiàng)頭表節(jié)點(diǎn)結(jié)構(gòu)圖;圖3是1-項(xiàng)鏈表節(jié)點(diǎn)圖;圖4是多項(xiàng)頭表節(jié)點(diǎn)結(jié)構(gòu)結(jié)構(gòu)圖;圖5是多項(xiàng)鏈表節(jié)點(diǎn)結(jié)構(gòu)圖。
具體實(shí)施例方式
本發(fā)明的步驟如下(1)將時(shí)序數(shù)據(jù)庫按照時(shí)間片斷劃分成若干部分;(2)依次對各個(gè)部分分別掃描,并在各個(gè)部分分別形成頻繁1-項(xiàng)集;(3)再次分別掃描各部分,形成頻繁1-項(xiàng)集超結(jié)構(gòu);(4)采用遞歸分解法形成完全構(gòu)建超結(jié)構(gòu);(5)挖掘超結(jié)構(gòu)形成關(guān)聯(lián)規(guī)則及元規(guī)則。
緊一步將元規(guī)則輸入到BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得出分類的元規(guī)則。
下面為具體構(gòu)建過程(1)超結(jié)構(gòu)的構(gòu)造(a)超結(jié)構(gòu)頭表的構(gòu)建超結(jié)構(gòu)頭表包含兩個(gè)域項(xiàng)長度域和指針域。指針域中的指針指向?qū)?yīng)的哈希鏈結(jié)構(gòu)。超結(jié)構(gòu)頭表如表1所示。
(b)哈希函數(shù)的構(gòu)造以下所說的項(xiàng)集均按照項(xiàng)編號(hào)從小到大的次序排列,項(xiàng)集的哈希函數(shù)都是對項(xiàng)集中的項(xiàng)的編號(hào)進(jìn)行計(jì)算的。
①1-項(xiàng)集的哈希函數(shù)構(gòu)造1-頻繁項(xiàng)ik(這里k是項(xiàng)編號(hào))的哈希函數(shù)如下h(k)=k (1-1)②多項(xiàng)集的哈希函數(shù)構(gòu)造設(shè)某n-項(xiàng)集X=i1i2...in,項(xiàng)編號(hào)集合B={1,2,...,n},其某一子集X’=ik1ik2...ikm,項(xiàng)編號(hào)集合B’={k1,k2,...,km},顯然,X′X,B′B,則項(xiàng)集X’采用除留余數(shù)法的基于項(xiàng)集X的哈希函數(shù)如下h(k1,k2,···,km)=(Σi=1mα(ki))modp---(1-2)]]>式中,α(ki)可根據(jù)需要取值,如2ki-1,2ki-1,10ki-1等;P為某一素?cái)?shù)。
(c)鏈地址結(jié)構(gòu)設(shè)X(m)表示項(xiàng)集X包含m項(xiàng),即|X(m)|=m,1-頻繁項(xiàng)集的頭表節(jié)點(diǎn)結(jié)構(gòu)和鏈表節(jié)點(diǎn)結(jié)構(gòu)分別如圖2和圖3所示。
圖3中的“鏈地址”是由式(1-1)計(jì)算得到,“指針”指向鏈表節(jié)點(diǎn)結(jié)構(gòu),Count11為項(xiàng)X(1)的累計(jì)計(jì)數(shù)。
頻繁多項(xiàng)集的頭表節(jié)點(diǎn)結(jié)構(gòu)如圖4所示,頻繁多項(xiàng)集得鏈表節(jié)點(diǎn)結(jié)構(gòu)如圖5所示。
圖4中的“鏈地址”由頻繁多項(xiàng)集X(m)基于所有頻繁項(xiàng)構(gòu)成的集合計(jì)算的哈希函數(shù)h(k1,k2,...,km)得到,頭表節(jié)點(diǎn)中的“指針”指向鏈表節(jié)點(diǎn)結(jié)構(gòu);圖5中的Count1m為第m項(xiàng)哈希鏈鏈表節(jié)點(diǎn)中項(xiàng)集X(m)通過掃描數(shù)據(jù)庫得到的原始累計(jì)計(jì)數(shù),稱為“計(jì)數(shù)”。Count2m用于記錄第m項(xiàng)哈希鏈中的項(xiàng)集X(m)來自其原始超集(即不包括分解得出的集合)的累計(jì)計(jì)數(shù),稱為“分解計(jì)數(shù)”。鏈表節(jié)點(diǎn)結(jié)構(gòu)中的“指針”指向具有相同鏈地址值的下一鏈表節(jié)點(diǎn)。
(d)哈希鏈結(jié)構(gòu)的基本構(gòu)建過程首先掃描交易數(shù)據(jù)庫一遍得到頻繁1-項(xiàng)集,然后再一次掃描數(shù)據(jù)庫,并在掃描過程中將頻繁1-項(xiàng)集投影到每條交易,得到每條交易的頻繁1-項(xiàng)集的投影交易,這樣每條投影交易就是一個(gè)頻繁1-項(xiàng)集的一個(gè)子集,然后,項(xiàng)集中的項(xiàng)數(shù)(即集合的勢)大于1的項(xiàng)集按照式(1-2)計(jì)算哈希地址,并依此構(gòu)建或存儲(chǔ)Count1m和X(m)到超結(jié)構(gòu)中的哈希鏈結(jié)構(gòu)中,第二次數(shù)據(jù)庫掃描結(jié)束時(shí),頻繁1-項(xiàng)集投影超結(jié)構(gòu)構(gòu)建完成。然后首先依據(jù)超結(jié)構(gòu)頭表,從最長項(xiàng)哈希鏈結(jié)構(gòu)開始,使用遞歸分解方,將分解得出的子集的相關(guān)信息記錄到相應(yīng)的哈希鏈結(jié)構(gòu)中去。這樣,直到3-項(xiàng)哈希鏈分解完畢后,超結(jié)構(gòu)構(gòu)建過程結(jié)束。
(2)超結(jié)構(gòu)構(gòu)建和頻繁項(xiàng)集挖掘算法(MHSC-Mine)算法MHSC-Mine輸入事務(wù)數(shù)據(jù)庫TDB;最小支持?jǐn)?shù)min_sup。
輸出頻繁項(xiàng)集的完全集。
方法掃描事務(wù)數(shù)據(jù)庫TDB一次,收集頻繁項(xiàng)的集合I′和它們的支持?jǐn)?shù),并構(gòu)建1-項(xiàng)哈希鏈;n′=1,N=0;while事務(wù)數(shù)據(jù)庫交易記錄尚未結(jié)束{掃描一條紀(jì)錄得到一個(gè)項(xiàng)集Xn′={ik1,ik2,···,ikn};]]>求頻繁1-項(xiàng)集投影交易An′=I′∪Xn′={iq1n′,iq2n′,···,iqn′n′};]]>n2=|An′|;if n2>N then N=n2 //N用于記錄最長的頻繁1-項(xiàng)集投影的項(xiàng)數(shù)按照式(1-2)求項(xiàng)集An′哈希地址;If An′哈希地址上的指針不為空{(diào)If 在該指針?biāo)傅逆湵砉?jié)點(diǎn)找到項(xiàng)集An′{Count1n2=Count1n2+1;}else{創(chuàng)建新的鏈表節(jié)點(diǎn),并將項(xiàng)集An′作為X(n2)保存到相應(yīng)的n2-項(xiàng)哈希鏈的節(jié)點(diǎn)中,同時(shí)保存n2,令Count1n2=1;}}else{在該地址上創(chuàng)建立鏈表節(jié)點(diǎn),并將項(xiàng)集An′作為X(n2)保存到相應(yīng)的n2-項(xiàng)哈希鏈的節(jié)點(diǎn)中,同時(shí)保存n2,令Count1n2=1;}n′=n′+1;}For(i=N;i<=3;i--){
for all Count1i大于0的項(xiàng)集X(i){遞歸分解成2-項(xiàng)集到(N-1)-項(xiàng)集,每分解得出一個(gè)項(xiàng)集An后就計(jì)算各項(xiàng)集An的“鏈地址”,并在n-項(xiàng)哈希鏈搜索在該地址中是否已經(jīng)存在項(xiàng)集,如果已經(jīng)存在,則將項(xiàng)集Ai的Count1i累加到在該節(jié)點(diǎn)的Count2n中,否則,增加新的節(jié)點(diǎn),并在節(jié)點(diǎn)中保存項(xiàng)集An和Count2n的信息;}For(i=1;i<=N;i++){掃描i-項(xiàng)哈希鏈結(jié)構(gòu);總計(jì)數(shù)=Count1i+Count2iIf 項(xiàng)集X(i)的總計(jì)數(shù)>=min_sup then輸出項(xiàng)集X(i)和總計(jì)數(shù);}關(guān)聯(lián)規(guī)則的挖掘主要是頻繁項(xiàng)集的挖掘,在獲得頻繁項(xiàng)集之后,對頻繁項(xiàng)集形成相應(yīng)的子集并計(jì)算相應(yīng)的置信度,對于滿足置信度域值的,則形成相應(yīng)的規(guī)則。對于數(shù)據(jù)集D0={D1,D2,...,Dn}的關(guān)聯(lián)規(guī)則挖掘,首先從超結(jié)構(gòu)中獲得相應(yīng)的項(xiàng)集X的支持?jǐn)?shù),在對應(yīng)時(shí)間段數(shù)據(jù)集在超結(jié)構(gòu)中形成的累計(jì)支持?jǐn)?shù)分別為Sup1(X),Sup2(X),...,Supn(X),對于整個(gè)時(shí)間段的數(shù)據(jù)D0而言,其支持?jǐn)?shù)是項(xiàng)集X在各時(shí)間段數(shù)據(jù)集中的支持?jǐn)?shù)之和Sup0(X)=Σi=1nSupi(X).]]>這樣根據(jù)定義4就很容易形成整體頻繁項(xiàng)集以及在各部分形成相應(yīng)的頻繁項(xiàng)集,最后可以在頻繁的部分形成相應(yīng)的規(guī)則。
關(guān)聯(lián)規(guī)則的形成對于在數(shù)據(jù)集Di中的項(xiàng)集X={ik1,ik2,...,ikn}在形成相應(yīng)的規(guī)則時(shí),是根據(jù)相應(yīng)的子集來計(jì)算支持度的。例如,對于項(xiàng)集X中的子集ik1ik2形成的規(guī)則ik1ik2,其置信度的計(jì)算如下confiik1⇒ik2=Supi(ik1ik2)Supi(ik1)×100%---(5)]]>式(5)中confiik1ik2表示關(guān)聯(lián)規(guī)則ik1ik2在數(shù)據(jù)集Di中的置信度。式(5)中的Supi(ik1ik2)和Supi(ik1)均已在超結(jié)構(gòu)中存在,這樣,利用超結(jié)構(gòu)很容易就可計(jì)算得到相應(yīng)的規(guī)則的置信度,如此,可以在數(shù)據(jù)集D1,D2,...,Dn分別得到相應(yīng)的支持度Sup1(ik1ik2),Sup2(ik1ik2),...,Supn(ik1ik2)和Sup1(ik1),Sup2(ik2),...,Supn(ik1)以及置信度conf1ik1ik2,conf2ik1ik2,...,confnik1ik2。這樣,就很容易在超結(jié)構(gòu)中獲得相應(yīng)頻繁項(xiàng)集在相關(guān)數(shù)據(jù)集Di上的相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則集。
而對于數(shù)據(jù)集D0上可以得到相應(yīng)的支持度Sup0(ik1ik2)=Σi=1nSupi(ik1ik2),]]>Sup0(ik1)=Σi=1nSupi(ik1),]]>如果Sup0(ik1ik2)≥Sup0_min,則需要計(jì)算置信度,而對于關(guān)聯(lián)規(guī)則ik1ik2在數(shù)據(jù)集D0上的置信度為conf0ik1⇒ik2=Σi=1nSupi(ik1ik2)Σi=1nSupi(ik1)×100%---(6)]]>因此,在數(shù)據(jù)集D0上可以從超結(jié)構(gòu)上相應(yīng)的頻繁項(xiàng)集ik1ik2形成的置信度conf0ik1ik2,如果滿足conf0ik1⇒ik2≥conf_min]]>獲得在數(shù)據(jù)集D0上的相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。
根據(jù)定義6,如果存在一個(gè)i(i=1,2,...,n),使得(Supi(X)≥si×di)且使得形成的規(guī)則集R′存在r∈R′的confir≥conf_min,即vi=1,則可以獲得元規(guī)則r{v1,v2,...,vn} (7)(3)利用神經(jīng)網(wǎng)絡(luò)按規(guī)則變化趨勢分析進(jìn)行分類利用神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,首先需要選用訓(xùn)練樣本,樣本數(shù)據(jù)按照如下幾類來選取1)隨時(shí)間變化穩(wěn)定出現(xiàn)的規(guī)則集,其輸出結(jié)果為y1;2)隨時(shí)間變化呈增強(qiáng)趨勢規(guī)則集,其輸出結(jié)果為y2;3)隨時(shí)間變化呈減弱趨勢規(guī)則集,其輸出結(jié)果為y3;4)循環(huán)變化的規(guī)則集,其輸出結(jié)果為y4;5)季節(jié)性變化的規(guī)則集,其輸出結(jié)果為y5;6)隨機(jī)變化的規(guī)則集,其輸出結(jié)果為y6。
然后,在以下BP網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行訓(xùn)練其BP網(wǎng)絡(luò)的訓(xùn)練和使用將分別對于相應(yīng)的時(shí)間屬性t0={t1,t2,...,tn}來進(jìn)行,例如時(shí)間段是按小時(shí)為單位來劃分,則選用相應(yīng)n個(gè)小時(shí)的樣本數(shù)據(jù)及神經(jīng)元個(gè)數(shù)(n及p的取值)來進(jìn)行訓(xùn)練,如果時(shí)間段是按照月份來進(jìn)行的,則選用相應(yīng)的n個(gè)月份的樣本數(shù)據(jù)來進(jìn)行訓(xùn)練,這樣,按照圖6所示的BP網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練獲得各種情況下的網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的權(quán)值Wij和Wjt。使用時(shí)采用對應(yīng)的訓(xùn)練好的網(wǎng)絡(luò)來進(jìn)行分類。這樣在元規(guī)則的挖掘過程中,將在超結(jié)構(gòu)中挖掘得到的元規(guī)則直接作為相應(yīng)的問題定義的神經(jīng)網(wǎng)絡(luò)的輸入,進(jìn)行關(guān)聯(lián)規(guī)則的分類,通過神經(jīng)網(wǎng)絡(luò)的分類得到六類不同的元規(guī)則集。
通過這樣的元規(guī)則分類之后,大大體高了規(guī)則的可用性,也將大大方便用戶對于規(guī)則的應(yīng)用和對規(guī)則進(jìn)行進(jìn)一步的挖掘。
權(quán)利要求
1.一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法,其特征在于包括如下步驟(1)將時(shí)序數(shù)據(jù)庫按照時(shí)間片斷劃分成若干部分;(2)依次對各個(gè)部分分別掃描,并在各個(gè)部分分別形成頻繁1-項(xiàng)集;(3)再次分別掃描各部分,形成頻繁1-項(xiàng)集超結(jié)構(gòu);(4)采用遞歸分解法形成完全超結(jié)構(gòu);(5)挖掘超結(jié)構(gòu)形成關(guān)聯(lián)規(guī)則及元規(guī)則。
2.根據(jù)權(quán)利要求1所述的一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法,其特征在于將元規(guī)則輸入到BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得出分類的元規(guī)則。
3.根據(jù)權(quán)利要求1所述的一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法,其特征在于頻繁1-項(xiàng)集超結(jié)構(gòu)的基本構(gòu)建如下在第二次掃描數(shù)據(jù)庫過程中將頻繁1-項(xiàng)集投影到每條交易,得到每條交易的頻繁1-項(xiàng)集的投影交易,這樣每條投影交易就是一個(gè)頻繁1-項(xiàng)集的一個(gè)子集,項(xiàng)集中的項(xiàng)數(shù)即集合的勢大于1的項(xiàng)集按照式h(k1,k2,···,km)=(Σi=1mα(ji))modp]]>計(jì)算哈希地址,并依此構(gòu)建或存儲(chǔ)Count1m和X(m)到哈希鏈結(jié)構(gòu)中,第二次數(shù)據(jù)庫掃描結(jié)束時(shí),頻繁1-項(xiàng)集投影超結(jié)構(gòu)構(gòu)建完成。
4.根據(jù)權(quán)利要求3所述的一種關(guān)聯(lián)規(guī)則及其元規(guī)則的綜合挖掘方法,其特征在于完全超結(jié)構(gòu)構(gòu)建如下依據(jù)超結(jié)構(gòu)頭表,從最長項(xiàng)哈希鏈結(jié)構(gòu)開始,使用遞歸分解方,將分解得出的子集的相關(guān)信息記錄到相應(yīng)的哈希鏈結(jié)構(gòu)中去,直到n-項(xiàng)哈希鏈分解完畢后。
全文摘要
一種關(guān)聯(lián)規(guī)則及元規(guī)則的綜合挖掘方法,包括如下步驟(1)將時(shí)序數(shù)據(jù)庫按照時(shí)間片斷劃分成若干部分;(2)依次對各個(gè)部分分別掃描,并在各個(gè)部分分別形成頻繁1-項(xiàng)集;(3)再次分別掃描各部分,形成頻繁1-項(xiàng)集超結(jié)構(gòu);(4)采用遞歸分解法形成完全超結(jié)構(gòu);(5)挖掘超結(jié)構(gòu)形成關(guān)聯(lián)規(guī)則及元規(guī)則。本發(fā)明只需要掃描數(shù)據(jù)庫兩次,就可以獲得整體的強(qiáng)關(guān)聯(lián)規(guī)則集、各時(shí)間段的強(qiáng)關(guān)聯(lián)規(guī)則集、元規(guī)則集及其元規(guī)則的分類,該方法不需要產(chǎn)生候選項(xiàng)集,與現(xiàn)有的公認(rèn)關(guān)聯(lián)規(guī)則挖掘算法相比,在產(chǎn)生頻繁項(xiàng)集階段至少具有基本相同的時(shí)間效率。
文檔編號(hào)G06F17/30GK101042698SQ200710019879
公開日2007年9月26日 申請日期2007年2月1日 優(yōu)先權(quán)日2007年2月1日
發(fā)明者葉飛躍 申請人:江蘇技術(shù)師范學(xué)院