基于特征歸納的高維數(shù)據(jù)超圖模型構(gòu)造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種高維數(shù)據(jù)聚類算法,具體地涉及一種基于特征歸納的高維數(shù)據(jù)超 圖模型構(gòu)造方法。
【背景技術(shù)】
[0002] 隨著社會(huì)的發(fā)展,數(shù)據(jù)量急劇膨脹,數(shù)據(jù)的時(shí)效性和復(fù)雜性遠(yuǎn)遠(yuǎn)超過(guò)了當(dāng)前信息 處理能力。"信息化"和"全球化"成為二十一世紀(jì)的兩個(gè)重要特征。在網(wǎng)絡(luò)技術(shù)的推動(dòng)下, 近十幾年來(lái),人們生產(chǎn)和搜集數(shù)據(jù)的能力大幅地提高,而數(shù)據(jù)獲得和生產(chǎn)能力大大超過(guò)了 數(shù)據(jù)處理的能力。在數(shù)據(jù)生產(chǎn)、傳輸能力遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)分析能力的今天,人們雖然被數(shù)據(jù)所 淹沒(méi),可是人們卻又饑餓于知識(shí)。于是數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)技術(shù)應(yīng)運(yùn)而生,并蓬勃發(fā)展,越 來(lái)越顯示出其強(qiáng)大的生命力。
[0003] 聚類分析作為數(shù)據(jù)挖掘中的一個(gè)重要研究?jī)?nèi)容,它是一種重要的人類行為,人就 是通過(guò)不斷地改進(jìn)下意識(shí)中的聚類模式來(lái)學(xué)會(huì)如何區(qū)分各種事物。聚類(Clustering)就 是將數(shù)據(jù)對(duì)象分組成多個(gè)類或者簇(Cluster),在同一個(gè)簇中的對(duì)象之間具有較高的相似 度,而不同簇中對(duì)象的差別(或相異度)較大。聚類分析源于許多研究領(lǐng)域,其中包括數(shù)據(jù) 挖掘、統(tǒng)計(jì)學(xué)、生物學(xué)、以及機(jī)器學(xué)習(xí)。與數(shù)據(jù)挖掘中分類不相同的是,聚類是一種無(wú)指導(dǎo)的 學(xué)習(xí)過(guò)程,每個(gè)訓(xùn)練樣本的類標(biāo)號(hào)是未知的,要學(xué)習(xí)的類集合或數(shù)量也往往是事先不知道 的;而分類是一種有指導(dǎo)的學(xué)習(xí)過(guò)程,每個(gè)訓(xùn)練樣本是在告知屬于哪個(gè)類的"指導(dǎo)"下進(jìn)行 的。
[0004] 到目前為止,聚類分析方法已經(jīng)在許多領(lǐng)域得到了應(yīng)用,并且取得了一定的成就, 這其中包括模式識(shí)別、數(shù)據(jù)分析、圖像處理、市場(chǎng)分析研究等。在這些應(yīng)用中,我們經(jīng)常會(huì)碰 到一些數(shù)據(jù)集,它們可能有幾十、幾百或成千上萬(wàn)個(gè)屬性??梢詫⑦@些對(duì)象表示成高維屬性 空間中的點(diǎn)或向量,這樣就把客觀世界中的對(duì)象集用高維數(shù)據(jù)的集合來(lái)表示。對(duì)這種數(shù)據(jù) 進(jìn)行聚類分析就是高維數(shù)據(jù)聚類問(wèn)題。
[0005] 對(duì)于高維數(shù)據(jù)可以采用以下幾種方法進(jìn)行分析:
[0006] 1、對(duì)于高維數(shù)據(jù),可以采用屬性轉(zhuǎn)換或?qū)傩约s簡(jiǎn)方法,以減少數(shù)據(jù)維度,然后利 用傳統(tǒng)的聚類算法在較低維的數(shù)據(jù)空間中完成聚類操作,如主成分分析(PCA)、多維縮放 (MDS)、自組織映射網(wǎng)絡(luò)(SOM)、小波分析等,都是普遍應(yīng)用的降維方法。降維技術(shù)的使用雖 然縮小了數(shù)據(jù)維度空間,但其可解釋性、可理解性較差,可能會(huì)丟失重要的聚類信息,其結(jié) 果的表達(dá)和理解存在著一定的難度。這種降維技術(shù)對(duì)高維數(shù)據(jù)的處理有著很大的局限性, 無(wú)法滿足當(dāng)前高維聚類應(yīng)用的發(fā)展需要。
[0007] 2、子空間(Subspace)聚類算法則從另一角度處理高維數(shù)據(jù),由于直接在高維空 間中尋找簇(clusters)很困難,該類算法就把原始數(shù)據(jù)空間劃分為不同的子空間,在子空 間考察聚類的存在。該類算法的中心思想是首先找出密切相關(guān)的維,然后在對(duì)應(yīng)的子空間 中再進(jìn)行聚類。代表算法包括CLIQUE算法,MAFIA算法、proclus算法。但是該類算法進(jìn)行 的聚類分析通常打破了原始數(shù)據(jù)的完整性。
[0008] 3、基于超圖的高維聚類技術(shù)是另一種高維數(shù)據(jù)聚類方法?;诔瑘D的高維聚類方 法大致有三種。第一種方法是:首先利用關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集來(lái)定義對(duì)象之間的相似度,并 以此建立超圖模型,利用圖的優(yōu)化分割技術(shù)得到聚類結(jié)果。算法的主要思想是把一個(gè)求解 高維空間數(shù)據(jù)聚類問(wèn)題轉(zhuǎn)換為一個(gè)超圖分割尋優(yōu)問(wèn)題,包括兩個(gè)步驟:第一步,構(gòu)造帶權(quán)的 超圖來(lái)表示不同的數(shù)據(jù)項(xiàng)之間的關(guān)系,把數(shù)據(jù)集中的每一個(gè)數(shù)據(jù)項(xiàng)看成超圖的一個(gè)頂點(diǎn), 把一個(gè)記錄看成是一個(gè)超邊,把由頻繁項(xiàng)目集產(chǎn)生的關(guān)聯(lián)規(guī)則的平均置信度看成是超邊 的權(quán)重;第二步,得到超圖以后,在此基礎(chǔ)上對(duì)數(shù)據(jù)點(diǎn)進(jìn)行聚類,聚類方法使用超圖分割算 法HMETIS,每次將超圖分成兩部分,并保證被截?cái)嗟某叺臋?quán)重最小,反復(fù)使用超圖分割算 法,直到每個(gè)分割內(nèi)部都緊密聯(lián)系為止,得到的分割就是簇。但是該種方法的運(yùn)行時(shí)間和聚 類精度都不是很理想。
[0009] 第二種方法是:它建立模型的方法與第一種方法中提到的算法是相同的,二者不 同的是第一種方法中的算法是自頂向下對(duì)超圖進(jìn)行分割以得到最終的簇,而第二種方法是 采用自底向上的方法,首先將每個(gè)頂點(diǎn)看成一個(gè)單獨(dú)的簇,然后在算法中不斷合并,以得到 最終的簇。實(shí)驗(yàn)表明,該算法在運(yùn)行時(shí)間和聚類精度上都優(yōu)于第一種方法,但是該算法對(duì)于 屬性值連續(xù)的情況效果不太理想。
[0010] 第三種方法中給出了屬性分布相似度定義,提出基于屬性相似度的超圖高維聚類 算法,算法中超圖的建立過(guò)程與前面兩種算法不同,每個(gè)記錄對(duì)應(yīng)一個(gè)頂點(diǎn),相似度大于某 一闌值的兩個(gè)頂點(diǎn)之間存在一條超邊,超邊的權(quán)重等于兩個(gè)頂點(diǎn)之間的相似度,超圖建立 后應(yīng)用超圖分割算法HMETiS進(jìn)行分割以得到簇。與上面兩種算法不同的是,它以聚類奇異 特征值對(duì)其進(jìn)行質(zhì)量評(píng)價(jià)以提高算法的整體性能。因此無(wú)法全面地對(duì)高維數(shù)據(jù)集進(jìn)行聚類 分析。
【發(fā)明內(nèi)容】
[0011] 針對(duì)上述技術(shù)問(wèn)題,本發(fā)明目的是:提供一種基于特征歸納的高維數(shù)據(jù)超圖模型 構(gòu)造方法,能夠全面地對(duì)高維數(shù)據(jù)集進(jìn)行聚類分析,并且可以進(jìn)一步提高高維數(shù)據(jù)聚類算 法的運(yùn)算效率。
[0012] 本發(fā)明的技術(shù)方案是:
[0013] -種基于特征歸納的高維數(shù)據(jù)超圖模型構(gòu)造方法,其特征在于,包括以下步驟:
[0014] SOl:將高維數(shù)據(jù)集D的n條數(shù)據(jù)記錄的t個(gè)屬性值離散化,將一條數(shù)據(jù)記錄作為 初始矩陣X的一行,該條數(shù)據(jù)記錄離散化后的屬性值作為列,得到初始矩陣X;
[0015] S02:在非負(fù)條件下,初始化高維數(shù)據(jù)集特征基矩陣U和高維數(shù)據(jù)集特征系數(shù)矩陣 V;
[0016] S03 :利用迭代函數(shù)對(duì)U和V進(jìn)行反復(fù)迭代求出近似解,直至目標(biāo)函數(shù)Q(X,U,V)值 縮小至設(shè)定閾值,得到縮小規(guī)模的矩陣U' ;
[0017] S04 :將矩陣U'的每一行視為一條數(shù)據(jù)記錄,定義不同的屬性值為超圖的節(jié)點(diǎn),矩 陣U'的每一行構(gòu)造為超圖的一條超邊,得到超圖G。
[0018] 優(yōu)選的,將構(gòu)造矩陣視為一個(gè)帶附加約束的非線性優(yōu)化問(wèn)題得到目標(biāo)函數(shù)及約束 條件:
[0021] 使用如下迭代函數(shù)進(jìn)行反復(fù)迭代求解,迭代函數(shù)為:
[0024] 其中,X為初始矩陣,U為高維數(shù)據(jù)集特征基矩陣,V為高維數(shù)據(jù)集特征系數(shù)矩陣, Ulj是矩陣U中第i行第j列的元素,Vu是矩陣V中第i行第j列的元素,m是矩陣U的行 數(shù),r是矩陣U的列數(shù),n是矩陣V的列數(shù),Xlj為矩陣X中第i行第j列的元素,Vjk是矩陣 V中第j行第k列的元素,Ujk是矩陣U中第j行第k列的元素,Xlk為矩陣X中第i行第k 列的元素,a為拉格朗日乘子。
[0025] 本發(fā)明的優(yōu)點(diǎn)是:
[0026] 1.本發(fā)明方法可以得到縮小規(guī)模的高維數(shù)據(jù)集特征基矩陣U,從而使得問(wèn)題規(guī)模 能夠顯著減小,而且能夠最大限度地反映原始數(shù)據(jù)集的特征。
[0027] 2.能夠全面地對(duì)高維數(shù)據(jù)集進(jìn)行聚類分析,并且進(jìn)一步提高高維數(shù)據(jù)聚類算法的 運(yùn)算效率。
【附圖說(shuō)明】
[0028] 下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述:
[0029] 圖1為本發(fā)明基于特征歸納的高維數(shù)據(jù)超圖模型構(gòu)造方法的流程圖。
【具體實(shí)施方式】
[0030] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明了,下面結(jié)合【具體實(shí)施方式】并參 照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)該理解,這些描述只是示例性的,而并非要限制本發(fā) 明的范圍。此外,在以下說(shuō)明中,省略了對(duì)公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本 發(fā)明的概念。
[0031] 實(shí)施例:
[0032] 如圖1所示,一種基于特征歸納的高維數(shù)據(jù)超圖模型構(gòu)造方法,包括以下步驟:
[0033] SOl:將高維數(shù)據(jù)集D的n條數(shù)據(jù)記錄的t個(gè)屬性值離散化,將一條數(shù)據(jù)記錄作為 初始矩陣X的一行,該條數(shù)據(jù)記錄離散化后的屬性值作為列,得到初始矩陣X;
[0034] S02:在非負(fù)條件下,初始化高維數(shù)據(jù)集特征基矩陣U和高維數(shù)據(jù)集特征系數(shù)矩陣 V;
[0035] S03 :利用迭代函數(shù)對(duì)U和V進(jìn)行反復(fù)迭代求出近似解,直至目標(biāo)函數(shù)Q(X,U,V)值 縮小至設(shè)定閾值,得到縮小規(guī)模的矩陣U',其中Q(X,U,V)為距離函數(shù);從而使得問(wèn)題規(guī)模 能夠顯著減小,而且能夠最大限度地反映原始數(shù)據(jù)集的特征。
[0036] S04 :將矩陣U'的每一行視為一條數(shù)據(jù)記錄,定義不同的屬性值為超圖的節(jié)點(diǎn),矩 陣U'的每一行構(gòu)造為超圖的一條超邊,得到超圖G。
[0037] 可以將上述構(gòu)造矩陣視為一個(gè)帶附加約束的非線性優(yōu)化問(wèn)題,可以得到目標(biāo)函數(shù) 及約束條件:
[0040] 先計(jì)算初始目標(biāo)函數(shù)值Q。;
[0041] 再使用如下迭代公式計(jì)算第一目標(biāo)函數(shù)值Q