基于屬性權(quán)重相似度的分類變量聚類方法
【專利摘要】基于屬性權(quán)重相似度的分類變量聚類方法,在屬性權(quán)重相似度的基礎(chǔ)上,將聚類的過程轉(zhuǎn)化為尋找圖連通分量的過程,以數(shù)據(jù)集中的數(shù)據(jù)點(diǎn)為節(jié)點(diǎn),當(dāng)數(shù)據(jù)集中兩數(shù)據(jù)點(diǎn)的屬性權(quán)重相似度大于等于θ時(shí)認(rèn)為兩數(shù)據(jù)點(diǎn)間有一條連線(參數(shù)θ預(yù)先給定),當(dāng)數(shù)據(jù)集中兩數(shù)據(jù)點(diǎn)的相似度小于θ時(shí),認(rèn)為兩點(diǎn)數(shù)點(diǎn)間無(wú)連線。確定無(wú)向圖后,無(wú)向圖的每個(gè)連通分量即為一個(gè)簇,簇中的記錄為連通分量中的各頂點(diǎn)。本發(fā)明實(shí)質(zhì)是尋找無(wú)向圖各連通分量所包含的頂點(diǎn),可以采用圖遍歷算法的思想指導(dǎo)聚類過程,因此,時(shí)間空間復(fù)雜度低、聚類結(jié)果精度高。
【專利說明】基于屬性權(quán)重相似度的分類變量聚類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)數(shù)據(jù)處理方法【技術(shù)領(lǐng)域】,涉及一種基于屬性權(quán)重相似度的分類變量聚類方法。
【背景技術(shù)】
[0002]聚類是數(shù)據(jù)挖掘的一個(gè)重要研究課題,早期的聚類方法采用距離來(lái)度量?jī)蓷l記錄間的相異度,如k-means、DBSCAN等方法。對(duì)于分類變量數(shù)據(jù)集,可以利用已有的標(biāo)準(zhǔn)化方法將其轉(zhuǎn)化成區(qū)間標(biāo)度變量,從而可以采用傳統(tǒng)方法進(jìn)行聚類。但分類變量屬性值之間通常不存在數(shù)量關(guān)系,因此標(biāo)準(zhǔn)化工作帶有很大的盲目性。因此,采用傳統(tǒng)方法處理分類變量會(huì)影響聚類效果。
[0003]Guha S等提出的ROCK聚類方法引入了鏈接(link)的概念,鏈接概念地引入使得可以利用相關(guān)的全局信息來(lái)度量記錄間相似度。實(shí)驗(yàn)表明,利用ROCK聚類方法對(duì)分類變量數(shù)據(jù)集進(jìn)行聚類,得到的聚類結(jié)果明顯優(yōu)于傳統(tǒng)聚類方法。但是它也存在一些缺陷,如要預(yù)先給定判定是否為近鄰的參數(shù)Θ和聚類數(shù)k。已經(jīng)有一些學(xué)者提出了基于ROCK方法思想的改進(jìn)方法,如VBACC、QROCK、DNNS和GE-ROCK。VBACC采用基于商品價(jià)格的相似度定義,對(duì)維度較高的商品數(shù)據(jù)集聚類效果較好,而對(duì)于一般分類變量數(shù)據(jù)集(如UCI標(biāo)準(zhǔn)數(shù)據(jù)集)的聚類效果不及ROCK。QROCK認(rèn)為期望得到的聚類數(shù)k依賴于相似度閾值Θ,通過適當(dāng)選擇Θ可以消除參數(shù)k。與ROCK相比,QROCK速度較快,但精度和ROCK相同。DNNS利用動(dòng)態(tài)近鄰選擇模型,將相似度作為權(quán)重作用于聚類的全過程。此外,DNNS引入內(nèi)聚度度量函數(shù)指導(dǎo)聚類過程,可以自動(dòng)尋找最佳聚類效果,并且得到較高的聚類精度。但是,由于DNNS在執(zhí)行的過程中考慮了更多的近鄰,導(dǎo)致該方法通常慢于ROCK。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種基于屬性權(quán)重相似度的分類變量聚類方法,該方法具有較高的聚類精度和較快的聚類速度。
[0005]本發(fā)明的技術(shù)方案,基于屬性權(quán)重相似度的分類變量聚類方法,將數(shù)據(jù)集和相似度閾值Θ輸入計(jì)算機(jī)中,數(shù)據(jù)集是指各種信息表,信息表中的每條記錄表示一個(gè)數(shù)據(jù)點(diǎn);具體步驟如下:
[0006]步驟I,求每一個(gè)數(shù)據(jù)點(diǎn)與其他所有數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度,將所有數(shù)據(jù)點(diǎn)標(biāo)記為未聚類;
[0007]步驟2,將各數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度與Θ作比較,當(dāng)兩數(shù)據(jù)點(diǎn)的屬性權(quán)重相似度大于或等于Θ,則認(rèn)為這兩個(gè)數(shù)據(jù)點(diǎn)屬于同一類;構(gòu)建無(wú)向圖,無(wú)向圖的構(gòu)建方法為,兩數(shù)據(jù)點(diǎn)的相似度大于或等于Θ,則在它們之間建立一條連線,一個(gè)或多個(gè)連線組成通路;將某一數(shù)據(jù)點(diǎn)以及所有與該數(shù)據(jù)點(diǎn)之間有通路的數(shù)據(jù)點(diǎn)標(biāo)記為已聚類,并認(rèn)為它們形成了一個(gè)簇C,同理,再尋找其他的簇。
[0008]步驟3,在數(shù)據(jù)集中剔除孤立的數(shù)據(jù)點(diǎn);若數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)已被標(biāo)記為已聚類,則將聚類數(shù)和每個(gè)簇中的數(shù)據(jù)點(diǎn)輸出,簇是相似度較大的數(shù)據(jù)點(diǎn)的集合,各個(gè)存放數(shù)據(jù)點(diǎn)的簇就是最終的聚類結(jié)果。
[0009]本發(fā)明的特點(diǎn)還在于,
[0010]步驟I中,通過下面公式計(jì)算屬性權(quán)重相似度,
【權(quán)利要求】
1.基于屬性權(quán)重相似度的分類變量聚類方法,其特征在于,將數(shù)據(jù)集和相似度閾值Θ輸入計(jì)算機(jī)中,數(shù)據(jù)集是指各種信息表,信息表中的每條記錄表示一個(gè)數(shù)據(jù)點(diǎn);具體步驟如下: 步驟I,求每一個(gè)數(shù)據(jù)點(diǎn)與其他所有數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度,將所有數(shù)據(jù)點(diǎn)標(biāo)記為未聚類; 步驟2,將各數(shù)據(jù)點(diǎn)之間的屬性權(quán)重相似度與Θ作比較,當(dāng)兩數(shù)據(jù)點(diǎn)的屬性權(quán)重相似度大于或等于Θ,則認(rèn)為這兩個(gè)數(shù)據(jù)點(diǎn)屬于同一類;構(gòu)建無(wú)向圖,無(wú)向圖的構(gòu)建方法為,兩數(shù)據(jù)點(diǎn)的相似度大于或等于Θ,則在它們之間建立一條連線,一個(gè)或多個(gè)連線組成通路;將某一數(shù)據(jù)點(diǎn)以及所有與該數(shù)據(jù)點(diǎn)之間有通路的數(shù)據(jù)點(diǎn)標(biāo)記為已聚類,并放入一個(gè)簇C ;同理,再尋找其他的簇。 步驟3,在數(shù)據(jù)集中剔除孤立的數(shù)據(jù)點(diǎn);若數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)已被標(biāo)記為已聚類,則將聚類數(shù)和每個(gè)簇中的數(shù)據(jù)點(diǎn)輸出,簇是相似度較大的數(shù)據(jù)點(diǎn)的集合,各個(gè)存放數(shù)據(jù)點(diǎn)的簇就是最終的聚類結(jié)果。
2.如權(quán)利要求1所述的基于屬性權(quán)重相似度的分類變量聚類方法,其特征在于,步驟I中,通過下面公式計(jì)算屬性權(quán)重相似度,
3.如權(quán)利要求1或2所述的基于屬性權(quán)重相似度的分類變量聚類方法,其特征在于,Θ的取值范圍為(0.5714,0.7142]。
【文檔編號(hào)】G06F17/30GK104035983SQ201410234518
【公開日】2014年9月10日 申請(qǐng)日期:2014年5月29日 優(yōu)先權(quán)日:2014年5月29日
【發(fā)明者】周紅芳, 段文聰, 周揚(yáng) 申請(qǐng)人:西安理工大學(xué)