專利名稱:一種基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法
技術(shù)領(lǐng)域:
本發(fā)明所涉及數(shù)據(jù)挖掘的技術(shù)領(lǐng)域,特別是設(shè)計(jì)一種基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法。
背景技術(shù):
粗糙集理論是用來處理不確定和不完整數(shù)據(jù)信息的數(shù)學(xué)工具,而模糊集也可以描述信息和知識的不確定性,由于兩者有很強(qiáng)的互補(bǔ)性,因此可以把它們結(jié)合起來對信息進(jìn)行不確定性處理。在決策表中,粗糙集挖掘,條件屬性和決策屬性之間的依賴關(guān)系,約簡屬性,找出哪些條件屬性對決策屬性比較重要,主要的理論基礎(chǔ)是等價(jià)關(guān)系,由于等價(jià)關(guān)系的局限性,許多人提出了不同的約簡關(guān)系,T. Y. Lin等人提出了領(lǐng)域和相容關(guān)系,S. Greco等人提出了優(yōu)勢關(guān)系,D. Dubois等人提出了模糊等價(jià)關(guān)系等。事實(shí)上條件屬性和決策屬性之間往往還存在量的單調(diào)依賴關(guān)系。例如在生化反應(yīng)中,條件成分和成品之間在一定范圍內(nèi)有單調(diào)遞增或者遞減依賴關(guān)系,一般情況下越多的成品需要越多的條件成分,而是否凡是包含成品成分的條件成分都與成品之間有這樣的單調(diào)遞增關(guān)系。顯然不是,有些條件成分雖然包含成品中的成分,但它們并不參與生成成品,當(dāng)然在某些情況下可以通過確定的生化反應(yīng)方程較精確的計(jì)算出來,但大多數(shù)情況下,生化反應(yīng)處于一個(gè)復(fù)雜的環(huán)境中,受到很多物理、化學(xué)和生物等不確定因素的影響,可以采用模糊粗糙的方法,先計(jì)算出條件成分與成品之間的單調(diào)遞增或者遞減關(guān)系,從而精簡掉冗余的條件成分,然后再進(jìn)行相應(yīng)的分析, 也就是挖掘出哪些條件屬性的增加或減少會(huì)影響到?jīng)Q策屬性的量的變化,并且挖掘出哪些量影響程度大,得出主要控制哪些條件屬性的量會(huì)影響決策屬性量增加或者減少,從而達(dá)到控制目的。1997年和1998年C. J. ffu, Te-Shun Chou分別介紹和討論了模糊單調(diào)函數(shù)及在邏輯控制中的應(yīng)用,某些文獻(xiàn)討論了 Mamdani-Assilians模型和T-S推斷方法中與模糊單調(diào)相關(guān)的理論,近年來許多人討論了決策表屬性約簡的不少算法等,在決策表中,假設(shè)決策屬性量的增加與減少依賴于某些條件屬性量的增加與減少,那么需要挖掘出對決策屬性量的變化產(chǎn)生重要影響的條件屬性,稱這樣的決策屬性和條件屬性之間有重要的單調(diào)依賴關(guān)系,而這種單調(diào)依賴關(guān)系在決策表中并非一定嚴(yán)格單調(diào),也就是說在相鄰兩點(diǎn)的條件屬性值單調(diào)性并不一定能一一映射到?jīng)Q策屬性相應(yīng)兩點(diǎn)的單調(diào)性,因?yàn)閷?shí)際數(shù)據(jù)中存在各種干擾因素和誤差,但是現(xiàn)有技術(shù)中還沒有能有效的挖掘出對決策屬性變化產(chǎn)生重要影響的條件屬性,并可以通過控制這些條件屬性去影響決策屬性。現(xiàn)有的技術(shù)模型主要是圍繞著等價(jià)關(guān)系進(jìn)行一些拓展和改變,因此在采用這些技術(shù)模型進(jìn)行知識約簡和數(shù)據(jù)挖掘時(shí)都存在一些問題,具體歸納如下(I)面對眾多的輸入與輸出屬性和復(fù)雜龐大的數(shù)據(jù),如何在屬性數(shù)據(jù)之間構(gòu)建等價(jià)關(guān)系及其現(xiàn)有的一些拓展關(guān)系是比較難的問題;(2)復(fù)雜數(shù)據(jù)構(gòu)成的決策表一般都是不一致的決策表,而現(xiàn)有屬性約簡算法一般是建立在一致的決策表上;(3)復(fù)雜環(huán)境的數(shù)據(jù)一般都是連續(xù)性的數(shù)據(jù),而現(xiàn)有的屬性約簡算法一般都要對連續(xù)性的數(shù)據(jù)離散化處理,而對于不規(guī)則的復(fù)雜、多變和大量的數(shù)據(jù),這是一個(gè)難題;(4)對于現(xiàn)有的啟發(fā)式知識約簡方法,多數(shù)以核屬性作為出發(fā)點(diǎn),每步把相對重要的最大屬性優(yōu)先加入要求約簡結(jié)果中,而因?yàn)?I)所提的問題,所以核屬性不容易求出,相對重要性在的復(fù)雜環(huán)境中也比較難獲取,因?yàn)樵诒姸嗟膶傩灾?,屬性的重要性不容易觀察出來,而且輸入和輸出數(shù)據(jù)很復(fù)雜,很難通過人為統(tǒng)計(jì)而得出屬性的相對重要性或者通過現(xiàn)有的分析方法得到;(5)由于復(fù)雜環(huán)境中的數(shù)據(jù)基本都是不完備的, 而這對現(xiàn)有的屬性約簡方法來說一個(gè)難題;(6)現(xiàn)有的屬性約簡算法一般針對有限的數(shù)據(jù)值集,不適用大量不規(guī)則的數(shù)據(jù)值集,而在復(fù)雜環(huán)境中所測出的數(shù)據(jù)往往是大量不規(guī)則的數(shù)據(jù)集。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法。為了實(shí)現(xiàn)上述發(fā)明目的,采用的技術(shù)方案如下—種基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,包括對決策屬性集合D和條件屬性集合Ci分別根據(jù)決策屬性值按行進(jìn)行排序后,獲得第二決策屬性集合D,和第二條件屬性集合C, 步驟;第二決策屬性集合D'劃分為2 ( P < η個(gè)區(qū)間,并計(jì)算出相鄰區(qū)間的距離和各個(gè)區(qū)間的中心點(diǎn),以及根據(jù)決策屬性與條件屬性之間的映射關(guān)系對第二條件屬性集合C, i 劃分區(qū)間的步驟,并計(jì)算出第二條件屬性集合c' i相鄰區(qū)間的距離和各個(gè)區(qū)間的中心點(diǎn), 其中P為區(qū)間數(shù),η為決策表的對象數(shù);從P到2循環(huán)計(jì)算出第二條件屬性集合C' i在每個(gè)P值下各個(gè)區(qū)間的平均值,判斷各個(gè)區(qū)間平均值依區(qū)間劃分是否為升序關(guān)系,若是則通過區(qū)間的平均值求出求這次劃分條件屬性的隸屬函數(shù)值,否則將該P(yáng)值劃分下條件屬性的隸屬函數(shù)值置零的步驟;求出最大的隸屬函數(shù)值以及其對應(yīng)的P值的步驟;根據(jù)所述隸屬函數(shù)的最大值計(jì)算出干擾因素的穩(wěn)定作用范圍的步驟;根據(jù)干擾因素的作用范圍設(shè)定過濾規(guī)則,求約簡的數(shù)據(jù)和最優(yōu)數(shù)據(jù)的步驟。其中,決策表根據(jù)決策屬性值的遞增順序按行進(jìn)行排序?;蛘撸谒鰶Q策屬性值前加上負(fù)號,然后決策表根據(jù)添加負(fù)號后的決策屬性值的遞增順序按行進(jìn)行排序。優(yōu)選地,所述劃分區(qū)間的方法為等距離設(shè)定決策屬性集的P個(gè)區(qū)間的中心點(diǎn),把
權(quán)利要求
1.一種基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,包括對決策屬性集合D和條件屬性集合Ci分別根據(jù)決策屬性值按行進(jìn)行排序后,獲得第二決策屬性集合D,和第二條件屬性集合C, 1的步驟;第二決策屬性集合D'劃分為2 ( P < η個(gè)區(qū)間,并計(jì)算出相鄰區(qū)間的距離和各個(gè)區(qū)間的中心點(diǎn),以及根據(jù)決策屬性與條件屬性之間的映射關(guān)系對第二條件屬性集合C, i劃分區(qū)間的步驟,并計(jì)算出第二條件屬性集合C' 1相鄰區(qū)間的距離和各個(gè)區(qū)間的中心點(diǎn),其中 P為區(qū)間數(shù),η為決策表的對象數(shù);從P到2循環(huán)計(jì)算出第二條件屬性集合C',在每個(gè)P值下各個(gè)區(qū)間的平均值,判斷各個(gè)區(qū)間平均值依區(qū)間劃分是否為升序關(guān)系,若是則通過區(qū)間的平均值求出求這次劃分條件屬性的隸屬函數(shù)值,否則將該P(yáng)值劃分下條件屬性的隸屬函數(shù)值置零的步驟;求出最大的隸屬函數(shù)值以及其對應(yīng)的P值的步驟;根據(jù)所述隸屬函數(shù)的最大值計(jì)算出干擾因素的穩(wěn)定作用范圍的步驟;根據(jù)干擾因素的作用范圍設(shè)定過濾規(guī)則,求約簡的數(shù)據(jù)和最優(yōu)數(shù)據(jù)的步驟。
2.根據(jù)權(quán)利要求I所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,決策表根據(jù)決策屬性值的遞增順序按行進(jìn)行排序。
3.根據(jù)權(quán)利要求I所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,在所述決策屬性值前加上負(fù)號,然后決策表根據(jù)添加負(fù)號后的決策屬性值的遞增順序按行進(jìn)行排序。
4.根據(jù)權(quán)利要求2或3所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法, 其特征在于,所述劃分區(qū)間的方法為等距離設(shè)定決策屬性集的P個(gè)區(qū)間的中心點(diǎn),把
5.根據(jù)權(quán)利要求4所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,所述循環(huán)計(jì)算的內(nèi)容為(1)求區(qū)間的平均值,并判斷區(qū)間平均值是否依區(qū)間劃分是升序關(guān)系,如果是,那么進(jìn)入下一步;否則,這次劃分的隸屬函數(shù)值賦0,進(jìn)入P的下次循環(huán);(2)求出第二條件屬性集合C'1每次劃分所有相鄰區(qū)間的隸屬函數(shù)值,從這些相鄰區(qū)間的隸屬函數(shù)值中找出最小值作為每次劃分的隸屬函數(shù)值;(3)判斷循環(huán)是否結(jié)束,若是就結(jié)束循環(huán),否則進(jìn)入下一次循環(huán)。
6.根據(jù)權(quán)利要求I所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,通過以下公式獲取條件屬性各個(gè)區(qū)間的隸屬函數(shù)值臟(avg(r h )>ΓΓ )/|ΓΓ I, num(avg(F h )>ΓΓ )>β\Τ, I
7.根據(jù)權(quán)利要求6所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,計(jì)算出所述干擾因素的穩(wěn)定作用范圍的方法為根據(jù)從P到2的循環(huán)計(jì)算中得出的隸屬函數(shù)值,在所述的隸屬函數(shù)值不為0,且當(dāng)模糊遞增隸屬函數(shù)的值在P = k — 2的過程中,后面的值大于等于前面的值,并且當(dāng)P = 2或P = 3時(shí),所述隸屬函數(shù)值最大時(shí),記錄k的值并根據(jù)k的值求出所述干擾因素的穩(wěn)定作用范圍。
8.根據(jù)權(quán)利要求7所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,所述干擾因素的穩(wěn)定作用范圍為maX(C;)~mm(C;) OK
9.根據(jù)權(quán)利要求6所述的基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,其特征在于,所述過濾規(guī)則具體為當(dāng)P值越小時(shí),設(shè)定的隸屬函數(shù)過濾值則越大與P值呈反比;當(dāng)P值越大時(shí),設(shè)定的隸屬函數(shù)過濾值則越小與P值呈反比;所述過濾值至少大于O. 5,用于把不符合設(shè)定要求的條件屬性過濾掉,達(dá)到屬性約簡和數(shù)據(jù)挖掘的目的。
全文摘要
本發(fā)明參照模糊粗糙集的理論,提出基于區(qū)間平均值的模糊粗糙單調(diào)數(shù)據(jù)挖掘方法,通過對決策屬性與條件屬性重新排列后,然后對重新排列后的集合進(jìn)行區(qū)間劃分,并通過每個(gè)區(qū)間的平均值進(jìn)行單調(diào)判斷,然后求出條件屬性的隸屬函數(shù)值,并根據(jù)區(qū)間的循環(huán)劃分求出適合的劃分?jǐn)?shù),進(jìn)而得出干擾因素的作用范圍,然后設(shè)定過濾規(guī)則,對不適合的數(shù)據(jù)進(jìn)行過濾,從而獲得約簡的數(shù)據(jù)集和最優(yōu)的數(shù)據(jù)。
文檔編號G06F17/30GK102609470SQ20121001492
公開日2012年7月25日 申請日期2012年1月16日 優(yōu)先權(quán)日2012年1月16日
發(fā)明者梁瑾 申請人:華南師范大學(xué)