一種基于總量控制的頻繁項集數(shù)據(jù)挖掘方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體涉及一種基于總量控制的頻繁項集數(shù)據(jù)挖掘 方法。
【背景技術(shù)】
[0002] 關(guān)聯(lián)規(guī)則是美國IBMAlmadenResearchCenter的RakeshAgrawal等人于1993 年首先提出來的Κ孤研究的一個重要課題,經(jīng)過多年的發(fā)展,各國的學者提出了眾多的關(guān) 聯(lián)規(guī)則挖掘算法,其中Apriori算法無疑是其中最有影響力的算法之一。
[0003]Apriori算法將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩個步驟;第一步是通過迭代檢索出事 務(wù)數(shù)據(jù)庫中的所偶頻繁項集,即支持度不低于用戶設(shè)定的闊值的項集;第二步是利用頻繁 項集構(gòu)造出滿足用戶最小置信度的規(guī)則,其中,挖掘和識別所有頻繁項集是該算法的核必, 占據(jù)了整個計算量的大部分。Apriori算法運用頻繁項集的子集必然是頻繁項集的思想,通 過已知的頻繁項集構(gòu)造更大的項集,并將其稱為候選頻繁項集,W后只計算候選項集的支 持度。
[0004] 然而,包括Apriori算法在內(nèi)的許多關(guān)聯(lián)規(guī)則挖掘算法在進行頻繁項集發(fā)現(xiàn)時都 是采用人為設(shè)定域值的方式,送樣對頻繁項集挖掘來說就存在W下問題:如果挖掘的最小 支持度定得較高,郝么覆蓋較少數(shù)據(jù)但卻有意義的關(guān)聯(lián)知識將不能被發(fā)現(xiàn);如果最小支持 度定得過低,郝么大量的無實際意義的數(shù)據(jù)關(guān)聯(lián)將充斥在挖掘過程中,會大大降低挖掘的 效率和得到規(guī)則的可用性。數(shù)據(jù)挖掘是針對海量數(shù)據(jù)進行的,如何提高算法效率是數(shù)據(jù)挖 掘算法的核必問題。針對W上問題,最早在1996年就有學者提出采用變支持度和變置信 度闊值來進行關(guān)聯(lián)規(guī)則挖掘的算法,送些算法都是根據(jù)屬性的重視程度不同,進而在支持 度和置信度的計算中的權(quán)重也不相同的思想,來進行關(guān)聯(lián)規(guī)則挖掘的。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的在于提供一種根據(jù)總量控制指標來確定項集取舍,在減少頻繁項集 數(shù)量的同時,得到有意義的高質(zhì)量頻繁項集,從而消除人為設(shè)定域值帶來的頻繁項集發(fā)現(xiàn) 的缺陷。
[0006] 為此,本發(fā)明所采取的解決方案是:
[0007] -種基于總量控制的頻繁項集數(shù)據(jù)挖掘方法,其特征在于,由W下五步構(gòu)成:
[000引 (1)數(shù)據(jù)預處理:
[0009] 根據(jù)數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域進行相應(yīng)的歸一化、奇異值剔除數(shù)據(jù)預處理,按照 ApriorLgen算法計算候選各項集數(shù)量。
[0010] (2)確定總量控制指標Μ和選擇因子:
[0011] 根據(jù)數(shù)據(jù)挖掘的需要,設(shè)定頻繁項集總量控制指標Μ,選擇因子為候選項集序號的 倒數(shù),總量控制指標Μ是進行頻繁項集數(shù)據(jù)挖掘感興趣的頻繁項集范圍大小,選擇因子為 調(diào)控指標。
[0012] (3)頻繁項集總體數(shù)量生成:
[0013] 掃描數(shù)據(jù)庫生成候選項集C,根據(jù)候選項集總數(shù)量N和總量控制指標M,確定頻繁 項集總體數(shù)量Q=NXM,若出現(xiàn)小數(shù),則按照向上取整原則,進而根據(jù)Q的數(shù)量來確定頻繁 項集數(shù)量;
[0014] (4)頻繁一項集生成:
[001引根據(jù)頻繁項集總體數(shù)量Q和選擇因子確定頻繁一項集數(shù)量Qi=NXMX(1/Ni),其 中,Ni為候選一項集數(shù)量;
[001引 巧)循環(huán)處理:
[0017]第k步,根據(jù)k-1步頻繁的k-1項集Lk1,按照ApriorLgen產(chǎn)生候選的k項集Ck 集,根據(jù)候選k項集數(shù)量Nk,確定頻繁k項集數(shù)量化=NXMX(1/Nk),進而根據(jù)化的數(shù)量確 定頻繁k項集,若出現(xiàn)候選項集只有一項,則直接定義為頻繁項集。
[001引本發(fā)明的有益效果為:
[0019] 本發(fā)明提出一種新型的基于總量控制和選擇因子的頻繁項集數(shù)據(jù)挖掘算法 TQ-Apriori算法(Total如antityApriori)。此算法應(yīng)用Apriori算法的基本思想,采用 總量控制和選擇因子進行頻繁項集數(shù)據(jù)挖掘,即首先采用總量控制指標和選擇因子進行頻 繁項集的數(shù)量確定,然后根據(jù)確定的頻繁項集確定相應(yīng)支持度。本發(fā)明TQ-Apriori算法能 夠很好的進行頻繁項集發(fā)現(xiàn),發(fā)現(xiàn)的頻繁項集質(zhì)量上為支持度相對較高的郝部分項集,而 數(shù)量上則可大幅度減少。
【附圖說明】
[0020] 圖1是TQ-Apriori算法發(fā)現(xiàn)頻繁項集過程;
[0021] 圖2是TQ-Apriori算法流程圖。
【具體實施方式】
[0022] 為了說明本發(fā)明TQ-Ariori算法的有效性,故選取了Apriori算法發(fā)現(xiàn)頻繁項集 的例子。事務(wù)數(shù)據(jù)庫所有項集如表1所示,數(shù)據(jù)庫中有12個事務(wù)。
[0023] 表1事務(wù)數(shù)據(jù)庫所有項集
[0024]
[00巧]表1中的支持度計數(shù)為支持度與總的事物數(shù)的乘積,利用TQ-Apriori算法,對表1 的數(shù)據(jù)進行頻繁相集的發(fā)現(xiàn),其流程如圖1。圖1為TQ-Apriori算法發(fā)現(xiàn)頻繁項集過程,總 量控制指標Μ為50 %,候選項集共有25項,候選一項集共有5項,所W選擇因子為1/5, 一 項集的域值為Qi= 50% *25*1/5 = 2. 5。候選二項集共有10項,所WQ2 = 50%巧5*1/10 =1. 25。候選Η項集只有Η項,所WQ3 = 50% *25*1/3 = 4. 15,在候選Η項集中,只有一 項支持數(shù)近似4.15,所W直接確定(Ιι,?2,?3)為頻繁Η項集。表2是TQ-Apriori算法頻繁 項集數(shù)量結(jié)果表。
[0026] 表2TQ-Apriori算法發(fā)現(xiàn)的頻繁項集數(shù)量
[0027]
[0028] 附圖1是TQ-Apriori算法發(fā)現(xiàn)頻繁項集過程,從圖中可W看出,TQ-Apriori算法 發(fā)現(xiàn)的項集都是支持度相對較高的郝部分項集,送也正是數(shù)據(jù)挖掘的主流問題。
【主權(quán)項】
1. 一種基于總量控制的頻繁項集數(shù)據(jù)挖掘方法,其特征在于,由以下五步構(gòu)成: (1) 數(shù)據(jù)預處理: 根據(jù)數(shù)據(jù)挖掘應(yīng)用的領(lǐng)域進行相應(yīng)的歸一化、奇異值剔除數(shù)據(jù)預處理,按照Apri〇ri_gen算法計算候選各項集數(shù)量; (2) 確定總量控制指標Μ和選擇因子: 根據(jù)數(shù)據(jù)挖掘的需要,設(shè)定頻繁項集總量控制指標Μ,選擇因子為候選項集序號的倒 數(shù),總量控制指標Μ是進行頻繁項集數(shù)據(jù)挖掘感興趣的頻繁項集范圍大小,選擇因子為調(diào) 控指標; (3) 頻繁項集總體數(shù)量生成: 掃描數(shù)據(jù)庫生成候選項集C,根據(jù)候選項集總數(shù)量Ν和總量控制指標Μ,確定頻繁項集 總體數(shù)量Q=ΝΧΜ,若出現(xiàn)小數(shù),則按照向上取整原則,進而根據(jù)Q的數(shù)量來確定頻繁項集 數(shù)量; (4) 頻繁一項集生成: 根據(jù)頻繁項集總體數(shù)量Q和選擇因子確定頻繁一項集數(shù)量Qi=ΝΧΜΧ(1/Χ),其中,K為候選一項集數(shù)量; (5) 循環(huán)處理: 第k步,根據(jù)k-Ι步頻繁的k-Ι項集Lki,按照Apriori_gen產(chǎn)生候選的k項集Ck集, 根據(jù)候選k項集數(shù)量Nk,確定頻繁k項集數(shù)量Qk =NXMX(1/Nk),進而根據(jù)Qk的數(shù)量確定 頻繁k項集,若出現(xiàn)候選項集只有一項,則直接定義為頻繁項集。
【專利摘要】一種基于總量控制的頻繁項集數(shù)據(jù)挖掘方法,包括數(shù)據(jù)預處理、設(shè)定總量控制指標M和選擇因子、頻繁項集總體數(shù)量生成、頻繁一項集生成及循環(huán)處理五步驟,即根據(jù)需要設(shè)定頻繁項集總量控制指標M,選擇因子為候選項集序號的倒數(shù),掃描數(shù)據(jù)庫生成候選項集C,根據(jù)候選項集總數(shù)量N和總量控制指標M,確定頻繁項集總體數(shù)量Q,進而確定頻繁一項集數(shù)量Q1,根據(jù)k-1步頻繁的k-1項集Lk-1,按照Apriori_gen產(chǎn)生候選的k項集Ck集,從而確定頻繁k項集數(shù)量Qk,若候選項集只有一項,則直接定義為頻繁項集。本發(fā)明采用總量控制和選擇因子進行頻繁項集數(shù)據(jù)挖掘,能夠很好的進行頻繁項集發(fā)現(xiàn),發(fā)現(xiàn)的頻繁項集質(zhì)量上為支持度相對較高的那部分項集,而數(shù)量上則大幅度減少。
【IPC分類】G06F17/30
【公開號】CN105279184
【申請?zhí)枴緾N201410337670
【發(fā)明人】柴明亮, 張巖, 劉寶權(quán), 宋君, 秦大偉, 李連成, 許寒冰, 吳萌, 王奎越, 金耀輝
【申請人】鞍鋼股份有限公司
【公開日】2016年1月27日
【申請日】2014年7月16日