專利名稱:一種基于模式挖掘的噪音數(shù)據(jù)過濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)處理方法,具體地說是一種基于模式挖掘的噪音數(shù)據(jù)過濾方法。
背景技術(shù):
數(shù)據(jù)質(zhì)量指數(shù)據(jù)滿足明確或隱含需求程度的指標(biāo),是對于現(xiàn)實(shí)世界的真實(shí)寫照。數(shù)據(jù)質(zhì)量問題不僅僅指出現(xiàn)不正確的數(shù)據(jù)還指數(shù)據(jù)不一致性問題,隨著數(shù)據(jù)量的增加,數(shù)據(jù)的內(nèi)部一致性問題變得極為重要,是廣泛存在于各學(xué)科數(shù)據(jù)使用中的 一個主題。噪聲作為測量誤差的隨機(jī)部分,它可能涉及到值的失真或加入了偽造的對象數(shù)據(jù)。關(guān)聯(lián)分析作為數(shù)挖掘中的核心問題之一,用于尋找給定數(shù)據(jù)記錄集中數(shù)據(jù)項(xiàng)間隱藏的關(guān)聯(lián)關(guān)系及描述數(shù)據(jù)間有意義的聯(lián)系,對于關(guān)聯(lián)規(guī)則挖掘往往轉(zhuǎn)化為基于支持度-置信度框架的頻繁模式挖掘,但是,頻繁模式往往不是真正用戶感興趣的模式,所以,興趣模式挖掘的研究和應(yīng)用得到人們的重視,在購物籃事物(market basket transaction)、生物信息學(xué)、公共健康及Web挖掘中等領(lǐng)域有著廣泛的應(yīng)用。設(shè)數(shù)據(jù)集二 {11,12,…,In}由/ 個事務(wù)構(gòu)成,對于每一個去除詞頻的實(shí)例看作一個事Ii 二 {w11, W2,…,W11 Ii\} 0設(shè)\Hpl,p2,. . . ,/7衫表示興趣模式集合,若實(shí)例/i中不包含任何興趣模式,即(
Pfil),則實(shí)例n為數(shù)據(jù)集的噪音數(shù)據(jù)。為此,需要通過去除D中所有噪音實(shí)例的噪
音過濾獲得高質(zhì)量數(shù)據(jù)以確保數(shù)據(jù)的正確性、一致性。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)中采用頻繁模式挖掘噪音數(shù)據(jù)存在的問題,本發(fā)明的目的是提供一種基于模式挖掘的噪音數(shù)據(jù)過濾方法。該方法根據(jù)興趣度指標(biāo)條件,將興趣度指標(biāo)直接進(jìn)行剪枝,一步到位地挖掘出興趣模式,有效實(shí)現(xiàn)噪音數(shù)據(jù)過濾,獲得高質(zhì)量數(shù)據(jù),提高了數(shù)據(jù)的正確性、一致性。本發(fā)明的目的是通過以下技術(shù)方案來實(shí)現(xiàn)的
一種基于模式挖掘的噪音數(shù)據(jù)過濾方法,其特征在于該方法首先建立由詞袋數(shù)據(jù)集D構(gòu)成的預(yù)處理數(shù)據(jù)結(jié)構(gòu)FP樹,該FP樹包含了詞袋數(shù)據(jù)集及其相應(yīng)的事物數(shù)據(jù)集;其次,根據(jù)FP-2INF算法,最終將所有2-項(xiàng)集興趣模式添加到興趣模式集L中,完成噪音數(shù)據(jù)過濾;具體步驟如下
1)預(yù)處理輸入數(shù)據(jù)集;輸入數(shù)據(jù)由二元組<Word_ID,F(xiàn)requency}的詞袋數(shù)據(jù)集組成的Word_ID-Instance矩陣,該矩陣每一行由Word_ID及其相關(guān)的實(shí)例數(shù)據(jù)構(gòu)成,進(jìn)而轉(zhuǎn)化為構(gòu)建FP樹的事務(wù)數(shù)據(jù)集;
2)根據(jù)預(yù)處理的數(shù)據(jù)集,通過頻繁集中頻率降序的順序建立FP樹,設(shè)立基于2-項(xiàng)集余弦相似度興趣模式噪音數(shù)據(jù)挖掘^^%Mn_supp、min_cos ;
3)使用算法FP-2INF,將FP樹分成前綴路徑FP樹P和多綴路徑FP樹Q,算法開始試圖尋找單路徑樹,遍歷單路徑樹P上的任意2-項(xiàng)集盧U ,如果滿足cos (AUff) ^min_cos興趣模式,則將其添加至興趣模式集L中;在多綴路 徑樹Q中,對路徑上的任意元素若為單項(xiàng)集,建立條件模式基及條件FP樹Tree^,對非空的FP樹Tree^繼續(xù)FP-2INF迭代;否則,對滿足2-項(xiàng)集模式且符合余弦相似度條件的2-項(xiàng)集添加至興趣模式集L中;
4)根據(jù)FP-2INF返回的2-項(xiàng)集余弦相似度興趣模式,比較數(shù)據(jù)集D和模式集L中的數(shù)
據(jù);對于任意數(shù)據(jù)彡而言,如果存在彳|£|則|即為被興趣模式過濾的噪音數(shù)據(jù),完成噪音數(shù)據(jù)過濾。本發(fā)明的初始輸入是數(shù)據(jù)集合D、D上構(gòu)建的FP樹,及閾值。由興趣度評估關(guān)聯(lián)規(guī)則的定義,潛在興趣模式的最小長度為2。對于D中的實(shí)例Ji,為了能夠證明當(dāng)存在一個左-項(xiàng)集請的興趣模式下而不包含任意2-項(xiàng)集興趣模式的情況存在,進(jìn)而從很大程度上簡化興趣模式發(fā)現(xiàn)。本發(fā)明首先引入噪音數(shù)據(jù)過濾適用的條件及度量方法構(gòu)建FP樹,在此基礎(chǔ)上通過定理證明了對于滿足余弦相似度度量條件的2-項(xiàng)集調(diào)用 FP-2INFbased 2~Itemsets Noise Filter)算法可以有效達(dá)到噪音數(shù)據(jù)過濾的目的。為了驗(yàn)證噪音數(shù)據(jù)過濾的高效性,本發(fā)明使用了來自Flickr的圖像數(shù)據(jù)集0xford_5Ko該數(shù)據(jù)集由標(biāo)注了 11類不同牛津地標(biāo)的5060張圖片組成,由含有IM屬性的詞袋表示,特征值即為視覺詞的出現(xiàn)頻率。去除出現(xiàn)頻率不足3次的屬性,最終獲得由658346個特征的數(shù)據(jù)集,其中數(shù)據(jù)密度0. 0228%,噪音91. 58%。本發(fā)明根據(jù)興趣度指標(biāo)條件,將興趣度指標(biāo)直接進(jìn)行剪枝,一步到位地挖掘出興趣模式,有效實(shí)現(xiàn)噪音數(shù)據(jù)過濾,獲得高質(zhì)量數(shù)據(jù),提高了數(shù)據(jù)的正確性、一致性。
圖I是本發(fā)明具體的流程圖。圖2是不同參數(shù)設(shè)置情況下噪音過濾前后聚類性能對比圖。
具體實(shí)施例方式一種本發(fā)明所述的基于模式挖掘的噪音數(shù)據(jù)過濾方法,該方法首先建立由詞袋數(shù)據(jù)集D構(gòu)成的預(yù)處理數(shù)據(jù)結(jié)構(gòu)FP樹,該FP樹包含了詞袋數(shù)據(jù)集及其相應(yīng)的事物數(shù)據(jù)集;其次,根據(jù)FP-2INF算法,最終將所有2-項(xiàng)集興趣模式添加到興趣模式集L中,完成噪音數(shù)據(jù)過濾;圖I是本發(fā)明具體的流程圖,具體步驟如下
1)預(yù)處理輸入數(shù)據(jù)集;輸入數(shù)據(jù)由二元組<Word_ID,F(xiàn)requency}的詞袋數(shù)據(jù)集組成的Word_ID-Instance矩陣,該矩陣每一行由Word_ID及其相關(guān)的實(shí)例數(shù)據(jù)構(gòu)成,進(jìn)而轉(zhuǎn)化為構(gòu)建FP樹的事務(wù)數(shù)據(jù)集;
2)根據(jù)預(yù)處理的數(shù)據(jù)集,通過頻繁集中頻率降序的順序建立FP樹,設(shè)立基于2-項(xiàng)集余弦相似度興趣模式噪音數(shù)據(jù)挖掘熱參lmin_supp、min_cos ;
3)使用算法FP-2INF,將FP樹分成前綴路徑FP樹P和多綴路徑FP樹Q,算法開始試圖尋找單路徑樹,遍歷單路徑樹P上的任意2-項(xiàng)集βUα,如果滿足cos (βUα ) ≥min_cos興趣模式,則將其添加至興趣模式集L中;在多綴路徑樹Q中,對路徑上的任意元素若為單項(xiàng)集,建立條件模式基及條件FP樹Tree^,對非空的FP樹Tree^繼續(xù)FP-2INF迭代;否則,對滿足2-項(xiàng)集模式且符合余弦相似度條件的2-項(xiàng)集添加至興趣模式集L中;
4)根據(jù)FP-2INF返回的2-項(xiàng)集余弦相似度興趣模式,比較數(shù)據(jù)集D和模式集L中的數(shù)
據(jù);對于任意數(shù)據(jù){而言,如果存在彳eJ) 則I即為被興趣模式過濾的噪音數(shù)據(jù),完成噪
音數(shù)據(jù)過濾。興趣度指標(biāo)條件如下
為了揭示對2-項(xiàng)集興趣模式具有足夠的噪音過濾能力,給出以下兩個滿足度量的條件。對于所有滿足條件I或條件2的指標(biāo)都可以作為興趣度衡量指標(biāo),同時(shí),由于余弦相似 度很好的滿足了條件反單調(diào)性、交叉支持等性質(zhì),將選用余弦度量作為噪音數(shù)據(jù)過濾的方法。;# /f 2 :令V是項(xiàng)的集合,/=Z是V的冪集。對于興趣度量/,如果VX, Yefi (I CY)^ 卿 > /(F),則(7 G L) — Cr G L)。這表明度量/滿足反單調(diào)性,從而有助于修剪無興趣候選項(xiàng)的超集。;# /f :令V是項(xiàng)的集合,/=Z是V的冪集。對于興趣度量/,如果
vl.re Iw e 尤且 Wf e F\J,(j(m-3 < ff(wf) (Xe Y)-^ /(I) >/{F),則(Y g l) — (X g L)。其中,a CwJ是數(shù)據(jù)集D上的支持度度量/滿足條件反單調(diào)性質(zhì)。鑒于余弦度量方法很好的滿足了以上性質(zhì),本發(fā)明主要采用余弦度量方法的噪音數(shù)據(jù)過濾。證明如定理I所示
定理I :設(shè)項(xiàng)集多2、模式/7 w2,.., ffAy,則關(guān)于/7的cosine度量如公式(I)所示滿足條件2。 =
證明設(shè)左-項(xiàng)集模式w2,.., wkj及由其超集IM wl, w2,.., wk, wk+1,…,wk+m]構(gòu)成的(k+m)-項(xiàng)集 Os 彡 2)。由條件 2 可知W e (k,lc + m] and j e [I,k], _+) > a(w/}。
ws(A)=-畫;.....................................................................................................> ;....................................................................................................> ;■...............................................................................— = cos ())
) Wsl 5(w:j,nsf 電)
\ \ \也即<(96* ⑵ >〔(OS* ⑵,得證。算法如下
FP樹通過頻繁集中頻率降序的順序添加興趣模式中的每一個事務(wù)構(gòu)成,設(shè)FP樹中的路徑抑從i二W11,W12,…,wk},則 o (w11) ^ o (w12) ^^ o (w1 k)。由條件2簡化2-項(xiàng)集興趣模式,然后利用支持度的反單調(diào)性以及余弦相似度的條件反單調(diào)性一步到位進(jìn)行興趣模式的挖掘。由于本發(fā)明只要求對2-項(xiàng)集興趣模式挖掘,且對FP樹中滿足支持度條件和余弦相似度條件的2-項(xiàng)集雙剪枝操作,所以比傳統(tǒng)先對滿足支持度條件剪枝,進(jìn)而在所得到頻繁模式基礎(chǔ)上做興趣度分析的方法而言本發(fā)明速度更快、效率更高。定理2證明了本發(fā)明對滿足cosine度量條件的2_項(xiàng)集可以有效達(dá)到噪音數(shù)據(jù)過濾的目的。定湮算法僅需挖掘滿足以下條件的2-項(xiàng)集模式對于2-項(xiàng)集
P={wi, ,若滿足支持度ff(p)>M cosine如果可以將所有的2-項(xiàng)
集興趣模式添加到L中,則滿足了噪音數(shù)據(jù)過濾要求。證明設(shè)2-項(xiàng)集模式X= {wi, wjj及以{wi, wjj結(jié)尾的左-項(xiàng)集模式Y(jié)= {wI, ,wk-2,wi, wjj ,根據(jù)條件 I 和 2 可得a ⑵ > o (Y) > cos (X) ^ cos (TJ。所以,當(dāng)7滿足閾值加入L時(shí),Z同時(shí)也存在于L中,S卩如果一個實(shí)例包括7,這個實(shí)例必定也包括
I。所以只需添加2-項(xiàng)集興趣模式到L就可過濾噪音數(shù)據(jù)。明為了驗(yàn)證算法的高效性,使用了來自Flickr的圖像數(shù)據(jù)集0xford_5K。該數(shù)據(jù)集由標(biāo)注了 11類不同牛津地標(biāo)的5060張圖片組成,由含有IM屬性的詞袋表示,特征值即為視覺詞的出現(xiàn)頻率。去除出現(xiàn)頻率不足3次的屬性,最終獲得由658346個特征的數(shù)據(jù)集,其中數(shù)據(jù)密度0. 0228%,噪音91. 58%。為了評估本文所提出算法的有效性,首先在不同參數(shù)設(shè)置下使用本發(fā)明過濾方法得到剩余圖片的數(shù)及在0Xford_5K中標(biāo)注“Good”或“0K”的清晰圖片數(shù),其中,“Good”表示圖像清晰可見,“0K”表示圖像超過25%的部分清晰可見,結(jié)果如表I所示。在示例I中,當(dāng)沒有過濾時(shí)顯示剩余圖片5060張圖片及標(biāo)注清晰圖片568張,隨著參數(shù)閾值imin_suPP,min_cos)的持續(xù)增長,2-項(xiàng)集模式、剩余圖片及清晰圖片也穩(wěn)步增長。特別地,在示例8中本發(fā)明過濾了將近82. 5%的噪音圖片。表I.不同參數(shù)設(shè)置下的結(jié)果
權(quán)利要求
1.一種基于模式挖掘的噪音數(shù)據(jù)過濾方法,其特征在于該方法首先建立由詞袋數(shù)據(jù)集D構(gòu)成的預(yù)處理數(shù)據(jù)結(jié)構(gòu)FP樹,該FP樹包含了詞袋數(shù)據(jù)集及其相應(yīng)的事物數(shù)據(jù)集;其次,根據(jù)FP-2INF算法,最終將所有2-項(xiàng)集興趣模式添加到興趣模式集L中,完成噪音數(shù)據(jù)過濾;具體步驟如下 1)預(yù)處理輸入數(shù)據(jù)集;輸入數(shù)據(jù)由二元組<Word_ID,F(xiàn)requency}的詞袋數(shù)據(jù)集組成的Word_ID-Instance矩陣,該矩陣每一行由Word_ID及其相關(guān)的實(shí)例數(shù)據(jù)構(gòu)成,進(jìn)而轉(zhuǎn)化為構(gòu)建FP樹的事務(wù)數(shù)據(jù)集; 2)根據(jù)預(yù)處理的數(shù)據(jù)集,通過頻繁集中頻率降序的順序建立FP樹,設(shè)立基于2-項(xiàng)集余弦相似度興趣模式噪音數(shù)據(jù)挖掘熱參lmin_supp、min_cos ; 3)使用算法FP-2INF,將FP樹分成前綴路徑FP樹P和多綴路徑FP樹Q,算法開始試圖尋找單路徑樹,遍歷單路徑樹P上的任意2-項(xiàng)集盧U ,如果滿足cos (AUff) ^min_cos興趣模式,則將其添加至興趣模式集L中;在多綴路徑樹Q中,對路徑上的任意元素若為單項(xiàng)集,建立條件模式基及條件FP樹Tree^,對非空的FP樹Tree^繼續(xù)FP-2INF迭代;否則,對滿足2-項(xiàng)集模式且符合余弦相似度條件的2-項(xiàng)集添加至興趣模式集L中; 4)根據(jù)FP-2INF返回的2-項(xiàng)集余弦相似度興趣模式,比較數(shù)據(jù)集D和模式集L中的數(shù)據(jù);對于任意數(shù)據(jù){而言,如果存在|g|> |£/卟即為被興趣模式過濾的噪音數(shù)據(jù),完成噪音數(shù)據(jù)過濾。
全文摘要
本發(fā)明公開了一種基于模式挖掘的噪音數(shù)據(jù)過濾方法,該方法首先建立由詞袋數(shù)據(jù)集D構(gòu)成的預(yù)處理數(shù)據(jù)結(jié)構(gòu)FP樹,該FP樹包含了詞袋數(shù)據(jù)集及其相應(yīng)的事物數(shù)據(jù)集;其次,根據(jù)FP-2INF算法,最終將所有2-項(xiàng)集興趣模式添加到興趣模式集L中,完成噪音數(shù)據(jù)過濾。本發(fā)明根據(jù)興趣度指標(biāo)條件,將興趣度指標(biāo)直接進(jìn)行剪枝,一步到位地挖掘出興趣模式,有效實(shí)現(xiàn)噪音數(shù)據(jù)過濾,獲得高質(zhì)量數(shù)據(jù),提高了數(shù)據(jù)的正確性、一致性。
文檔編號G06F17/30GK102637208SQ20121008472
公開日2012年8月15日 申請日期2012年3月28日 優(yōu)先權(quán)日2012年3月28日
發(fā)明者伍之昂, 曹杰, 李秀怡, 楊風(fēng)召, 毛波 申請人:南京財(cái)經(jīng)大學(xué)