專利名稱:使用t-檢驗(yàn)計(jì)算的k-均值聚類的制作方法
技術(shù)領(lǐng)域:
本發(fā)明的實(shí)施例一般來(lái)說(shuō)涉及聚類(clustering)。特別是,本發(fā)明的實(shí)施例涉及使用t-檢驗(yàn)計(jì)算的k-均值聚類。
背景技術(shù):
聚類是以數(shù)學(xué)公式為基礎(chǔ)的在不同對(duì)象之間的相似性的度量。聚類被用來(lái)獲得彼此相似而與屬于其它聚類的對(duì)象不相似的對(duì)象的一種集合。這種多元的統(tǒng)計(jì)分析型聚類也稱為非監(jiān)督聚類分析、數(shù)值分類學(xué)和分類分析。例如,在分子生物學(xué)中,用聚類法根據(jù)生物基因或樣本的統(tǒng)計(jì)學(xué)行為把它們分組或分類成單獨(dú)的聚類,從而使相同聚類的成員之間的關(guān)聯(lián)程度強(qiáng),而不同聚類的成員之間的關(guān)聯(lián)程度弱。聚類技術(shù)的例子包括賈維斯-帕特里克(Jarvis-Patrick),凝聚分層(Agglomerative Hierarchical),自組織映射(SOM)和K-均值。
K-均值聚類是簡(jiǎn)單的非監(jiān)督學(xué)習(xí)算法,它用于解決某些公知的聚類問(wèn)題。K-均值算法被用于產(chǎn)生根據(jù)相似性的距離度量的聚類和固定尺寸的、平直的分類。傳統(tǒng)的K-均值聚類算法遵循過(guò)分簡(jiǎn)單的方法,通過(guò)事先固定的聚類的給定數(shù)目(例如,k個(gè)聚類)把給定的數(shù)據(jù)集進(jìn)行分類。換句話說(shuō),該k-均值算法從把事件分入k個(gè)聚類的初始分區(qū)開(kāi)始(例如,在初始化時(shí)賦予一個(gè)k值)。該過(guò)程繼續(xù)進(jìn)行,修改分區(qū)以減少每個(gè)事件距該事件所屬的聚類的均值的距離的總和。傳統(tǒng)的k-均值的一個(gè)問(wèn)題是,k的某個(gè)初始值必須只根據(jù)估算值被賦值。這樣的k值經(jīng)常是錯(cuò)誤的,對(duì)最終結(jié)果產(chǎn)生負(fù)面影響。
一種減小k值影響的方法是,以不同的隨機(jī)產(chǎn)生的開(kāi)始分區(qū)或初始k值重新運(yùn)行該算法。因?yàn)樵跀?shù)據(jù)中的真實(shí)聚類的數(shù)目是不知道的,算法以更接近從數(shù)據(jù)所預(yù)期的聚類的數(shù)目的不同k值來(lái)運(yùn)行,以確定距離的總和是怎樣隨著k值的增加而減小的。然而,這種重新運(yùn)行k-均值算法的傳統(tǒng)的方法是費(fèi)時(shí)間的、低效率的、麻煩的、且仍然不能消除或明顯減小k對(duì)最終解答的負(fù)面影響。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,提供了一種方法,包括執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類,其中,所述執(zhí)行k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類;確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度;執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系;和如果所述點(diǎn)接近于所述聚類,并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系,則保持所述數(shù)據(jù)集中所述點(diǎn)的當(dāng)前位置。
根據(jù)本發(fā)明,還提供了一種設(shè)備,包括存儲(chǔ)介質(zhì),它存儲(chǔ)指令組,以便使用t-檢驗(yàn)計(jì)算執(zhí)行k-均值聚類;以及與所述存儲(chǔ)介質(zhì)耦合的處理器,所述處理器用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類,其中執(zhí)行所述k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類,確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度,執(zhí)行所述t-檢驗(yàn)計(jì)算,以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系,以及如果所述點(diǎn)接近所述聚類,并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系,則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
根據(jù)本發(fā)明,還提供了一種系統(tǒng),包括k-均值模塊,用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類,其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類;皮爾遜相關(guān)系數(shù)模塊,用于確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度;t-檢驗(yàn)?zāi)K,用于執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系;和定位模塊,用于如果所述點(diǎn)與所述聚類接近,并且如果所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系,則保持?jǐn)?shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
根據(jù)本發(fā)明,還提供了一種機(jī)器可讀介質(zhì),在它上面存儲(chǔ)有代表指令組的數(shù)據(jù),當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候,使得所述機(jī)器執(zhí)行如下操作對(duì)具有多個(gè)點(diǎn)的數(shù)據(jù)集執(zhí)行k-均值聚類,其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類;確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度;執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系;和如果所述點(diǎn)接近于所述聚類,并且所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系,則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
所附權(quán)利要求具體陳述了本發(fā)明的實(shí)施例的特點(diǎn)。下面結(jié)合附圖的詳細(xì)描述可以更好地理解本發(fā)明的實(shí)施例及其優(yōu)點(diǎn),其中圖1是方塊圖,說(shuō)明使用t-檢驗(yàn)計(jì)算的k-均值聚類的實(shí)施例;圖2是方塊圖,說(shuō)明參照?qǐng)D1所述的k-均值聚類一起使用的t-檢驗(yàn)計(jì)算的實(shí)施例;圖3是方塊圖,說(shuō)明使用標(biāo)準(zhǔn)k-均值聚類和使用t-檢驗(yàn)計(jì)算的k-均值聚類的對(duì)比試驗(yàn)的結(jié)果;圖4是流程圖,說(shuō)明執(zhí)行使用t-檢驗(yàn)計(jì)算的k-均值聚類的過(guò)程的實(shí)施例;和圖5是方塊圖,說(shuō)明在實(shí)現(xiàn)本發(fā)明的實(shí)施例中使用的示范的計(jì)算機(jī)系統(tǒng)。
具體實(shí)施例方式
下面描述使用t-檢驗(yàn)計(jì)算的k-均值聚類的系統(tǒng)和方法。在整個(gè)描述中,為了解釋,陳述了許多具體的細(xì)節(jié),為的是徹底理解本發(fā)明的實(shí)施例。不過(guò),明顯的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),沒(méi)有這些具體細(xì)節(jié)中的某些,也能實(shí)現(xiàn)本發(fā)明。在其它情況下,公知的結(jié)構(gòu)和裝置也以方塊圖的形式示出,為的是避免使本發(fā)明的基本原理變得不清楚。
在下面的描述中,對(duì)于許多具體細(xì)節(jié)例如邏輯實(shí)現(xiàn),操作碼,資源分區(qū),資源共享和資源復(fù)制實(shí)現(xiàn),系統(tǒng)部件的類型和相互關(guān)系,以及邏輯分區(qū)/集中的選擇都進(jìn)行了陳述,為的是更徹底地理解本發(fā)明的各種實(shí)施例。不過(guò),本領(lǐng)域的普通技術(shù)人員將意識(shí)到,根據(jù)所提供的公開(kāi)的內(nèi)容,沒(méi)有這樣的具體的細(xì)節(jié),也可以實(shí)現(xiàn)本發(fā)明的實(shí)施例。在其它情況下,控制結(jié)構(gòu),門電平電路和完整的軟件指令序列沒(méi)有被詳細(xì)示出,為的是不使本發(fā)明變得模糊不清。本領(lǐng)域的那些普通的技術(shù)人員,根據(jù)這里所包括的描述,將能在無(wú)需過(guò)度試驗(yàn)的情況下,實(shí)現(xiàn)適當(dāng)?shù)墓δ堋?br>
下面描述本發(fā)明的各種實(shí)施例。各種實(shí)施例可以通過(guò)硬件部件來(lái)執(zhí)行,或可以在機(jī)器可執(zhí)行指令中體現(xiàn),這些指令可用于使通用的或?qū)S玫奶幚砥骰蛘哂迷撝噶罹幊痰臋C(jī)器或邏輯電路去執(zhí)行各種實(shí)施例。或者,各種實(shí)施例可以通過(guò)硬件和軟件的結(jié)合來(lái)執(zhí)行。
本發(fā)明的各種實(shí)施例可以作為計(jì)算機(jī)程序產(chǎn)品來(lái)提供,其可以包括在其上存儲(chǔ)有指令的機(jī)器可讀介質(zhì),這些指令可以用來(lái)對(duì)計(jì)算機(jī)(或其它電子設(shè)備)編程,以便執(zhí)行按照本發(fā)明各種實(shí)施例的過(guò)程。機(jī)器可讀介質(zhì)可能包括,但不限于,軟盤(pán),光盤(pán),光盤(pán)只讀存儲(chǔ)器(CD-ROM),磁光盤(pán),只讀存儲(chǔ)器(ROM),隨機(jī)存取存儲(chǔ)器(RAM),可擦可編程只讀存儲(chǔ)器(EPROM),電可擦可編程只讀存儲(chǔ)器(EEPROM),磁卡或光卡,閃存,或適合于存儲(chǔ)電子指令的其它類型的介質(zhì)/機(jī)器可讀介質(zhì)。再者,本發(fā)明的各種實(shí)施例還可以作為計(jì)算機(jī)程序產(chǎn)品下載,其中通過(guò)包含在載波中的數(shù)據(jù)信號(hào)或經(jīng)過(guò)通信鏈路的其它傳播介質(zhì)(例如,調(diào)制解調(diào)器或網(wǎng)絡(luò)連接),把程序從遠(yuǎn)程計(jì)算機(jī)傳送到請(qǐng)求的計(jì)算機(jī)。
圖1是方塊圖,說(shuō)明使用t-檢驗(yàn)計(jì)算106的k-均值聚類100的實(shí)施例。在一個(gè)實(shí)施例中,檢驗(yàn)一個(gè)點(diǎn)和它的最接近的聚類之間的相關(guān)性的k-均值聚類100,是通過(guò)使用t-檢驗(yàn)計(jì)算106執(zhí)行的,以估計(jì)聚類結(jié)果是否具有它的統(tǒng)計(jì)顯著性。使用k-均值聚類100的具有k-均值算法的t-檢驗(yàn)計(jì)算106,消除了對(duì)k的初始值的依賴和及其影響,例如,在基因聚類中,執(zhí)行聚類而無(wú)任何初始分區(qū)(例如,k的值)。這就有助于消除不正確的k的初始值造成的壞結(jié)果。換句話說(shuō),在一個(gè)實(shí)施例中,k-均值聚類100的結(jié)果或最終解答可以從初始狀態(tài)102的任一個(gè)k值(例如,k=1)開(kāi)始,因?yàn)楫?dāng)使用具有k-均值聚類100的t-檢驗(yàn)計(jì)算106時(shí),k的數(shù)值變得與最終解答沒(méi)有關(guān)系。因此,具有t-檢驗(yàn)計(jì)算106的k-均值100的最終解答是真實(shí)解答,因?yàn)樗鼪](méi)有受到k的初始值破壞。
在一個(gè)實(shí)施例中,在初始化102(例如,函數(shù)t-檢驗(yàn)-k-均值(k、ε)),賦予初始k值(例如,k=1)。類似地,賦予ε的初值(例如,ε=0.00001)以代表小誤差值。誤差112的出現(xiàn)導(dǎo)致過(guò)程的迭代或重復(fù)110的結(jié)束。進(jìn)一步,作為初始化102的部分,數(shù)據(jù)集(例如,g1,...gi,...gM)被隨機(jī)地分入聚類(例如,k=k’聚類)。這里,每個(gè)g代表(數(shù)據(jù)集的)空間中的點(diǎn)或矢量,其中g(shù)M代表那個(gè)空間中的M點(diǎn)。雖然,在一個(gè)實(shí)施例中,t-檢驗(yàn)計(jì)算106與k-均值聚類100一起使用,在計(jì)算的復(fù)雜性方面該算法的成本保持和標(biāo)準(zhǔn)k-均值聚類相同。例如,這里,M=數(shù)據(jù)庫(kù)的基數(shù),k=聚類的數(shù)目,以及N=屬性的數(shù)目。在這種情況下,每一迭代成本=MkN,以及總成本(t次迭代)=O(tMkN),其中t代表迭代次數(shù),O代表運(yùn)算。
對(duì)于每個(gè)gi,gi=(Si1,...,SiN),N是樣本數(shù)。使用數(shù)據(jù)集,計(jì)算點(diǎn)和聚類之間的距離,從而最終確定點(diǎn)和最接近的聚類之間的距離。用皮爾遜(Pearson)相關(guān)系數(shù)(PCC)104計(jì)算點(diǎn)和聚類之間的距離。PCC104被用于度量?jī)蓚€(gè)變量之間的線性關(guān)系的強(qiáng)度。換言之,PCC104被用于度量?jī)蓚€(gè)輪廓(profile)之間的相似性和距離。在這種情況下,給定的點(diǎn)(例如,gi)是高維點(diǎn),PCC104被用來(lái)計(jì)算點(diǎn)(gi)和均值聚類(Mc)之間的距離。不過(guò),可以預(yù)期的是任何數(shù)量的度量方法都可被用來(lái)確定規(guī)定數(shù)據(jù)點(diǎn)和聚類之間距離的參數(shù)。其它度量方法的例子包括歐幾里得(Euclidean),歐幾里得平方(Euclidean Squared),曼哈頓(Manhattan),泊森平方(Person Squared),徹貝徹伏(Chebychev)和斯皮爾曼(Spearman)。
PCC距離的基本公式是d=1-r,其中r=z(x).z(y)/n是矢量x和y的z得分(z-score)的點(diǎn)積。x的z得分是通過(guò)從x減去它的平均值并用它的標(biāo)準(zhǔn)偏差去除而得到的構(gòu)造。使用PCC104計(jì)算點(diǎn)(gi)和均值聚類(Mc)之間的距離(d)的方法如下d(gi,Mcj)=|1-ΣgiMcj-ΣgiΣMcjN(Σgi2-(Σgi)2N)(ΣMcj2-(ΣMcj)2N)|]]>
均值Mcj=1|cj|Σi=1|cj|gi,gi∈cj,|cj|]]>代表聚類cj中的元素的數(shù)目,其中j=1,...k一旦點(diǎn)(gi)和均值聚類(Mc)之間的距離被計(jì)算出來(lái),這種信息然后就被用來(lái)計(jì)算與最近的聚類(例如,c)和它的均值(Mc)到點(diǎn)(gi)之間的距離,這通過(guò)計(jì)算該點(diǎn)和最近聚類之間的最小距離并使用t-檢驗(yàn)計(jì)算106來(lái)確定。在圖2中進(jìn)一步描述了T-檢驗(yàn)計(jì)算106。如果點(diǎn)最接近自己的聚類并且與它成線性關(guān)系,則該點(diǎn)和聚類就保持原樣不動(dòng)。如果該點(diǎn)最接近另一個(gè)聚類并與它成線性,則該點(diǎn)就被移入那個(gè)聚類。按照一個(gè)實(shí)施例,如果該點(diǎn)不和最接近的聚類成線性,那么該點(diǎn)被隔離,并且通過(guò)使用隔離機(jī)制114生成新的聚類。單個(gè)的新生成的聚類包括該隔離的點(diǎn)。例如,聚類可以從7個(gè)聚類(聚類的數(shù)目=7)開(kāi)始,以8個(gè)聚類(聚類的數(shù)目=7+1)結(jié)束,其包括使用以t-檢驗(yàn)計(jì)算106為基礎(chǔ)的隔離機(jī)制114新生成的聚類。
使用均值Mcj=1|cj|Σi=1|cj|gi,gi∈cj,|cj|,]]>更新均值聚類(Mc)108,代表聚類cj中的元素的數(shù)目。更新108是指在聚類構(gòu)造發(fā)生變化(例如生成具有隔離點(diǎn)的新聚類)的時(shí)候,對(duì)均值聚類進(jìn)行更新。一旦更新108完成,過(guò)程被重復(fù)110(例如,迭代繼續(xù)),直到誤差(ε)出現(xiàn),在誤差(ε)出現(xiàn)的點(diǎn)上,k-均值聚類100停止112。誤差數(shù)值在初始化102時(shí)被賦值,然后當(dāng)Error-new-Error-old<=ε的時(shí)候,該誤差值被用于停止112,其中ε是某個(gè)小常量, 如上所述,k和ε的數(shù)值是在初始化102時(shí)賦予的,但是按照一個(gè)實(shí)施例,當(dāng)用使用t-檢驗(yàn)計(jì)算106的k-均值聚類100的時(shí)候,k的數(shù)值與最終解答沒(méi)有關(guān)系。所以,最終結(jié)果是真實(shí)的,是未被破壞的。可以預(yù)期的是,許多軟件模塊102-106,114利用t-檢驗(yàn)計(jì)算執(zhí)行k-均值聚類的各部分和過(guò)程??梢灶A(yù)期的是,硬件、軟件或它們的結(jié)合,可以被用來(lái)執(zhí)行k-均值聚類100。例如,初始化102,PCC計(jì)算104,t-檢驗(yàn)計(jì)算106,隔離機(jī)制114,更新108,重復(fù)110和停止112,都可以通過(guò)各種模塊和部件來(lái)執(zhí)行。
圖2是方塊圖,說(shuō)明與參考圖1所述的k-均值聚類一起使用的t-檢驗(yàn)計(jì)算的實(shí)施例。T-檢驗(yàn)計(jì)算106通過(guò)接受點(diǎn)(gi)、均值聚類(Mc)和一個(gè)預(yù)定的顯著性水平(SL)的輸入而從初始狀態(tài)202開(kāi)始啟動(dòng)。SL代表顯著性水平的一個(gè)小的數(shù)值或計(jì)數(shù),例如0.01或0.05,表示成顯著性水平的百分比,分別是1%或5%,顯著性水平用來(lái)確定該點(diǎn)和均值聚類之間的統(tǒng)計(jì)線性關(guān)系210。SL的小的數(shù)值代表假設(shè)檢驗(yàn)中的第I類錯(cuò)誤的概率。第I類錯(cuò)誤是指當(dāng)?shù)贸隽?null)假設(shè)204是不成立的結(jié)論,而實(shí)際上它是真的時(shí)候所產(chǎn)生的錯(cuò)誤。在一個(gè)實(shí)施例中,對(duì)于具有t-檢驗(yàn)的K-均值,SL的數(shù)值可代表當(dāng)?shù)贸鲈擖c(diǎn)和均值聚類之間存在統(tǒng)計(jì)顯著的線性相關(guān)的結(jié)論,而實(shí)際上不相關(guān)的時(shí)候,產(chǎn)生這種錯(cuò)誤的概率。一旦執(zhí)行初始化202,零假設(shè)204的公知的過(guò)程就被用作假設(shè)檢驗(yàn)的基礎(chǔ)。這里,均值Mc=1|c|Σj=1|c|gi,gj∈c,|c|]]>是聚類c中的元素的數(shù)目,c是點(diǎn)gi的最接近的聚類。
零假設(shè)204從假設(shè)所說(shuō)的點(diǎn)和均值聚類之間沒(méi)有統(tǒng)計(jì)顯著的線性相關(guān)性開(kāi)始。因此,數(shù)學(xué)上,零假設(shè)是LinearCorrelation(gi,Mc)=0,其中SL是預(yù)定的顯著性水平。一旦假設(shè)不存在任何統(tǒng)計(jì)顯著的線性相關(guān)性,使用零假設(shè)204,然后執(zhí)行PCC206以確定在點(diǎn)和均值聚類之間是否存在線性相關(guān)性(r)。這里,相關(guān)性(r)是使用PCC206如下確定的
r(gi,Mc)=ΣgiMc-ΣgiΣMcN(Σgi2-(Σgi)2N)(ΣMc2-(ΣMc)2N)]]>在一個(gè)實(shí)施例中,一旦使用PCC206計(jì)算相關(guān)性,就計(jì)算該相關(guān)性分布值(t),以便計(jì)算概率值(p值)208。p值可以和SL比較以確定統(tǒng)計(jì)線性關(guān)系210。t的數(shù)值被如下計(jì)算t=rSr=r1-r2N-2.]]>同樣地,公知的標(biāo)準(zhǔn)t表可被用于確定t的數(shù)值,然后利用N-2的靈活性程度從t的數(shù)值計(jì)算p值208。一旦p值被計(jì)算208,就與SL進(jìn)行比較以確定所說(shuō)的點(diǎn)和均值聚類之間的統(tǒng)計(jì)線性關(guān)系210。例如,如果p值小于或等于SL的值(例如,p值<=SL),則拒絕零假設(shè)204,并且找到所說(shuō)點(diǎn)和均值聚類之間的統(tǒng)計(jì)線性關(guān)系210。
在一個(gè)實(shí)施例中,估計(jì)在群元素與該群的顯著性范圍以內(nèi)的線性關(guān)系。如果元素與它的群有線性相關(guān)性,則這個(gè)元素就被聚類;否則,生成新的聚類,這是由于在手頭的當(dāng)前的數(shù)據(jù)未必證明存在有顯著的線性關(guān)系。因此,在具有t-檢驗(yàn)計(jì)算106的k-均值聚類中,有清楚的統(tǒng)計(jì)顯著性,按照具有聚類的顯著性其就是“真實(shí)聚類”。例如,k的數(shù)值代表與最終解答沒(méi)有任何關(guān)系的初始值,特別是,當(dāng)不考慮局部?jī)?yōu)化問(wèn)題的時(shí)候更是如此。即使在沒(méi)有任何初始分區(qū)(k’=1)的情況下,具有t-檢驗(yàn)計(jì)算106的k-均值聚類也是真的,沒(méi)有受到k的數(shù)值的破壞。換言之,例如,當(dāng)不考慮局部?jī)?yōu)化問(wèn)題的時(shí)候,具有t-檢驗(yàn)計(jì)算106的k-均值聚類的分區(qū)方法是真的,并且與初始化時(shí)設(shè)定的值無(wú)關(guān)。如參考圖1所述的,可以使用不同的模塊和部件來(lái)執(zhí)行初始化202,零假設(shè)204,PCC206,p值計(jì)算208和統(tǒng)計(jì)線性關(guān)系確定210。
圖3是方塊圖,說(shuō)明使用標(biāo)準(zhǔn)k-均值聚類的對(duì)比試驗(yàn)300和使用t-檢驗(yàn)計(jì)算的k-均值聚類的實(shí)施例的結(jié)果。對(duì)比試驗(yàn)提供了對(duì)于兩個(gè)樣本微陣列(microarray)數(shù)據(jù),使用t-檢驗(yàn)計(jì)算308、318的k-均值聚類和標(biāo)準(zhǔn)k-均值310、320的對(duì)比結(jié)果。第一樣本數(shù)據(jù)包括結(jié)腸數(shù)據(jù)302。為了試驗(yàn)的目的,結(jié)腸數(shù)據(jù)302是由在22個(gè)正常的結(jié)腸組織和40個(gè)癌結(jié)腸組織中使用Affymetrix寡核苷酸陣列的2000個(gè)基因的表達(dá)圖組成的(以前在http//www.molbio.princeton.edu/colondata上可以得到,現(xiàn)在在http//www.sph.uth.tmc.edu/hgc/dowloads.asp(Xiong等人,2001)上可得到)。第二個(gè)樣本數(shù)據(jù)包括酵母細(xì)胞周期數(shù)據(jù)312。酵母細(xì)胞周期數(shù)據(jù)312包括超過(guò)約兩個(gè)細(xì)胞周期的,包括在所有18個(gè)陣列中沒(méi)有遺漏數(shù)據(jù)的679個(gè)基因的,具有~6200ORF的釀酒酵母菌(SaccharomYcles Cerevisiae)的被監(jiān)視的全基因組mRNA表達(dá)水平(http//cellcycle-www.stanford.edu上可得到)。根據(jù)聚類的兩個(gè)直觀的性質(zhì)(例如,內(nèi)在的內(nèi)聚性和外部隔離),可以考慮包括內(nèi)部相似性、相互相似性和內(nèi)部相似性對(duì)相互相似性的比在內(nèi)的幾個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。
對(duì)于具有所產(chǎn)生的k個(gè)聚類的k-均值聚類,內(nèi)部相似性、相互相似性和內(nèi)部相似性對(duì)相互相似性的比,可以定義如下
按照內(nèi)部相似性對(duì)于相互相似性的比進(jìn)行比較,k是兩種k-均值所產(chǎn)生的聚類的數(shù)目。在k-均值聚類(包括標(biāo)準(zhǔn)k-均值和具有檢驗(yàn)的k-均值)執(zhí)行以后,執(zhí)行并獲得內(nèi)部相似性、相互相似性和兩種相似性的比的計(jì)算。換言之,一旦獲得k-均值聚類的結(jié)果,就計(jì)算所說(shuō)的比以便正確地和公正地比較兩個(gè)結(jié)果以確定哪個(gè)結(jié)果是較好的、精確的和真實(shí)的。結(jié)腸數(shù)據(jù)302的k’的預(yù)定數(shù)值是1、5、10、50、100、500、1000、2000,分別用加在線308和310上的小方格和星號(hào)表示。酵母細(xì)胞周期數(shù)據(jù)312的k’的預(yù)定的數(shù)值是1、2、5、10、20、50、100、200、679,分別用加在線318、320上的小方格和星號(hào)表示。
如圖所示,x軸306、316是所產(chǎn)生的聚類數(shù)目(k),且x軸304、314代表內(nèi)部相似性和相互相似性的比。較高的線308代表使用t-檢驗(yàn)計(jì)算的k-均值聚類的結(jié)果,較低的線310代表在結(jié)腸數(shù)據(jù)曲線圖302上的標(biāo)準(zhǔn)k-均值的結(jié)果。關(guān)于酵母細(xì)胞周期數(shù)據(jù)曲線圖312,較高的線318代表使用t-檢驗(yàn)計(jì)算的k-均值的結(jié)果,而較低的線320代表標(biāo)準(zhǔn)k-均值的結(jié)果。
在302和312兩種情況下,用線308、318表示的具有t-檢驗(yàn)的k-均值結(jié)果比用線310、320表示的傳統(tǒng)k-均值的結(jié)果更好。參考結(jié)腸數(shù)據(jù)曲線圖302,在實(shí)際的每個(gè)k級(jí)306上,較高的線308比較低的線310表示有更好的比304。類似地,參考酵母細(xì)胞周期數(shù)據(jù)曲線圖312,在每個(gè)k級(jí)316上,較高的線318比較低的線320有更好的比314。這就表現(xiàn)出使用具有t-檢驗(yàn)計(jì)算的k-均值聚類時(shí)的內(nèi)在的內(nèi)聚性和外部隔離的特性。例如,當(dāng)k’=1,具有t-檢驗(yàn)308、318的k-均值表現(xiàn)出高得多的比,如幾個(gè)小方格中的第一個(gè)所表示的,而在反方向上標(biāo)準(zhǔn)k-均值310、312表現(xiàn)出低得多的比,如許多星號(hào)中的第一個(gè)所表示的。因此,如上所述,通過(guò)這個(gè)對(duì)比試驗(yàn)300表明,使用t-檢驗(yàn)計(jì)算的k-均值聚類不依賴于中心的初始位置,并且即使沒(méi)有初始分區(qū)也能夠提供最好的性能和最終的解答。
圖4是流程圖,表示執(zhí)行使用t-檢驗(yàn)計(jì)算的k-均值聚類的過(guò)程的實(shí)施例。首先,在處理方塊402執(zhí)行初始化。初始化過(guò)程包括,把數(shù)據(jù)集分區(qū)到k=k’個(gè)聚類中,每個(gè)聚類具有大致相同數(shù)量的數(shù)據(jù)點(diǎn),并賦一個(gè)初始誤差值(ε)。在處理方塊404,計(jì)算每個(gè)數(shù)據(jù)點(diǎn)和聚類之間的距離。這樣的距離可以用皮爾遜相關(guān)系數(shù)計(jì)算。在一個(gè)實(shí)施例中,在決定方塊406,執(zhí)行t-檢驗(yàn)計(jì)算,并且確定數(shù)據(jù)點(diǎn)對(duì)于聚類是否是統(tǒng)計(jì)線性的。如果不是,則使用隔離機(jī)制,把這樣的點(diǎn)隔離,并放在在處理方塊408中新生成的聚類中。如果該數(shù)據(jù)點(diǎn)對(duì)于該聚類是線性的,則在決定方塊410,還要確定對(duì)于聚類是線性的數(shù)據(jù)點(diǎn)是否還是最接近于它的聚類的。
如果不是,則在處理方塊412,該點(diǎn)被移入最接近的聚類。如果該點(diǎn)對(duì)于聚類是線性的和最接近的,則在決定方塊414過(guò)程收斂。類似地,回過(guò)來(lái)參看處理方塊408、412,過(guò)程收斂于決定方塊414,在這里決定關(guān)于繼續(xù)進(jìn)行利用t-檢驗(yàn)計(jì)算的k-均值聚類。如果初始誤差值ε還沒(méi)有達(dá)到,聚類的迭代就在處理方塊404中繼續(xù)進(jìn)行。如果初始誤差值達(dá)到了,過(guò)程在終止方塊416結(jié)束。
圖5是方塊圖,說(shuō)明用于實(shí)現(xiàn)本發(fā)明的實(shí)施例的示范的計(jì)算機(jī)系統(tǒng)500。計(jì)算機(jī)系統(tǒng)(系統(tǒng))包括一個(gè)或多個(gè)處理器502-506。處理器502-506可以包括一個(gè)或多個(gè)單線程或多線程處理器。典型的多線程處理器可以包括多個(gè)線程或邏輯處理器,能夠同時(shí)使用它的多個(gè)線程處理多個(gè)指令序列。處理器502-506還可以包括一個(gè)或多個(gè)內(nèi)部等級(jí)的高速緩存器(未示出)和總線控制器或總線接口單元,以便指導(dǎo)與處理器總線512的交互作用。
處理器總線512也可稱為主總線或前端總線,它可以被用來(lái)把處理器502-506與系統(tǒng)接口514耦合起來(lái)。處理器總線512可以包括控制總線532,地址總線534和數(shù)據(jù)總線536。控制總線532,地址總線534和數(shù)據(jù)總線532可以是多分支雙向總線,例如是連接到三個(gè)或多個(gè)總線代理的總線,它與點(diǎn)對(duì)點(diǎn)總線不同,點(diǎn)對(duì)點(diǎn)總線僅可以在兩個(gè)總線代理之間連接。
系統(tǒng)接口514(或芯片組)可以連接到處理器總線512,以便把系統(tǒng)500的其它部件與處理器總線512連接起來(lái)。例如,系統(tǒng)接口514可以包括存儲(chǔ)器控制器518,用于接口主存儲(chǔ)器516與處理器總線512。主存儲(chǔ)器516典型地包括一個(gè)或多個(gè)存儲(chǔ)卡和控制電路(未示出)。系統(tǒng)接口514還可以包括輸入/輸出(I/O)接口520,以接口一個(gè)或多個(gè)I/O橋或I/O裝置與處理器總線512。例如,如圖所示,I/O接口520可以接口I/O橋524和處理器總線512。I/O橋524可以作為總線橋操作,以便在系統(tǒng)接口514和I/O總線526之間進(jìn)行接口。一個(gè)或多個(gè)I/O控制器和/或I/O裝置可以與I/O總線526連接,例如,I/O控制器528和I/O裝置530,如圖所示。I/O總線526可以包括外圍部件互連(PCI)總線或其它型式的I/O總線。
系統(tǒng)500可能包括動(dòng)態(tài)存儲(chǔ)裝置,稱為主存儲(chǔ)器516,或隨機(jī)存取存儲(chǔ)器(RAM)或耦合到處理器總線512的其它裝置,用于存儲(chǔ)處理器502-506所要執(zhí)行的信息和指令。在處理器502-506執(zhí)行指令期間,主存儲(chǔ)器516還可以用于存儲(chǔ)臨時(shí)變量或其它中間信息。系統(tǒng)500可以包括只讀存儲(chǔ)器(ROM)和/或耦合到處理器總線512的其它靜態(tài)存儲(chǔ)裝置,用來(lái)存儲(chǔ)處理器502-506的靜態(tài)信息和指令。
主存儲(chǔ)器516或動(dòng)態(tài)存儲(chǔ)裝置可以包括磁盤(pán)或光盤(pán),用以存儲(chǔ)信息和指令。I/O裝置530可以包括顯示裝置(未示出),例如是陰極射線管(CRT)或液晶顯示器(LCD),用于把信息顯示給終端用戶。例如,可以在顯示裝置上給預(yù)期的買主提供安裝狀態(tài)的圖形或文本指示,試驗(yàn)周期中的剩余時(shí)間和其它信息。I/O裝置530還可以包括輸入裝置(未示出),例如是字母數(shù)字輸入裝置,它包括字母數(shù)字和其它鍵,用于把信息和/或命令選擇通信給處理器502-506。另外型式的用戶輸入裝置包括光標(biāo)控制,例如鼠標(biāo)器,跟蹤球,或光標(biāo)方向鍵,用來(lái)把方向信息和命令選擇傳送給處理器502-506,并控制顯示裝置上的光標(biāo)移動(dòng)。
系統(tǒng)500還可包括通信裝置(未示出),例如調(diào)制解調(diào)器,網(wǎng)絡(luò)接口卡,或其它公知的接口裝置,例如那些用于耦合到以太網(wǎng)、令牌環(huán)的裝置或其它類型的物理附件裝置,為了提供通信鏈路以支持例如局域網(wǎng)或?qū)捰蚓W(wǎng)。換句話說(shuō),系統(tǒng)500可以通過(guò)傳統(tǒng)的網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu),例如公司的內(nèi)部網(wǎng)和/或因特網(wǎng),與許多客戶和/或服務(wù)器耦合。
應(yīng)當(dāng)理解,對(duì)于某些實(shí)現(xiàn),可期望比上述例子少些或多些裝備的系統(tǒng)。因此,系統(tǒng)500的配置可能從一種實(shí)現(xiàn)到另一種實(shí)現(xiàn)有所變化,這取決于許多因素,例如價(jià)格限制,性能要求,技術(shù)改進(jìn)和/或其它情況。
應(yīng)該注意,雖然這里所描述的實(shí)施例是在編程的處理器例如處理器502-506的控制下執(zhí)行的,但是在可供選擇的實(shí)施例中,這些實(shí)施例可以全部地或部分地通過(guò)任何可編程序的或硬編碼的邏輯電路來(lái)實(shí)現(xiàn),例如現(xiàn)場(chǎng)可編程的門陣列(FPGA),晶體管-晶體管邏輯電路(TTL),或?qū)S眉呻娐?ASIC)。此外,本發(fā)明的實(shí)施例可以通過(guò)編程的通用計(jì)算機(jī)部件和/或定制的硬件部件的任何組合來(lái)執(zhí)行。因此,這里所公開(kāi)的,沒(méi)有任何東西可被解釋為是把本發(fā)明的各種實(shí)施例限制于特定的實(shí)施例,其中所述的實(shí)施例可以用硬件部件的具體組合來(lái)執(zhí)行。
在一個(gè)實(shí)施例中,利用t-檢驗(yàn)計(jì)算的k-均值聚類不僅提供了一個(gè)聚類隔離標(biāo)準(zhǔn),而且也是以內(nèi)部相關(guān)性的統(tǒng)計(jì)顯著性為基礎(chǔ)的。例如,如果在顯著性水平下,沒(méi)有證明一個(gè)點(diǎn)與最接近的聚類有線性相關(guān)性,該點(diǎn)就被隔離。該被隔離的點(diǎn)就作為新的單獨(dú)聚類出現(xiàn),因?yàn)楫?dāng)前的數(shù)據(jù)集不能證明是否該點(diǎn)與空間存在的任何其它聚類有統(tǒng)計(jì)顯著的線性關(guān)系。另一方面,這個(gè)檢驗(yàn)的低p值(例如,小于0.01)可能意味著有證據(jù)拒絕零假設(shè)而贊同備選的假設(shè),或意味著在該點(diǎn)和它的最接近的聚類之間存在著統(tǒng)計(jì)顯著的關(guān)系。因此,使用t-檢驗(yàn)提供每個(gè)點(diǎn)和它自己的聚類的均值具有統(tǒng)計(jì)顯著的關(guān)系。線性關(guān)系是可加成的,并且通過(guò)使用t-檢驗(yàn)可以證明在同一聚類中的點(diǎn)與每個(gè)其它的點(diǎn)具有線性相關(guān)性。因此,t-檢驗(yàn)對(duì)內(nèi)在的內(nèi)聚性提供相對(duì)清楚的統(tǒng)計(jì)說(shuō)明。再者,這里的聚類不依賴于初始分區(qū),并且即使無(wú)任何初始分區(qū)(例如,k’=1)它也可以獲得最好的性能和真實(shí)的解答。利用t-檢驗(yàn)的k-均值的分區(qū)結(jié)果具有清楚的統(tǒng)計(jì)顯著性,并且它不只是聚類在一起的一串最接近的元素。一個(gè)群中的元素具有顯著的統(tǒng)計(jì)相關(guān)性,就是一個(gè)真實(shí)的聚類。
應(yīng)該意識(shí)到,遍及本說(shuō)明書(shū)的所謂“一個(gè)實(shí)施例”或者“實(shí)施例”意味著與該實(shí)施例相關(guān)而描述的特定的特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,要強(qiáng)調(diào)和應(yīng)該理解的是,在本說(shuō)明書(shū)各個(gè)部分中兩次或多次引用的“實(shí)施例”或者“一個(gè)實(shí)施例”或者“備選的實(shí)施例”未必全都指的是同一個(gè)實(shí)施例。再者,在本發(fā)明的一個(gè)或多個(gè)實(shí)施例中如適合的話可將特定的特征、結(jié)構(gòu)或特性組合在一起。
類似地,應(yīng)該理解,在上面本發(fā)明的示范的實(shí)施例的描述中,為了簡(jiǎn)化公開(kāi)的內(nèi)容,以便有助于理解發(fā)明的一個(gè)或多個(gè)不同的發(fā)明的方面,本發(fā)明的不同特征有時(shí)候聚合在它的單個(gè)的實(shí)施例、附圖或描述中。然而,這種公開(kāi)方法,不能被解釋成反映了這樣一個(gè)發(fā)明,即要求保護(hù)的這個(gè)發(fā)明需要比每個(gè)權(quán)利要求所明確陳述的特征更多的特征。相反,如所附權(quán)利要求所反映的,發(fā)明的方面在于特征少于單個(gè)的前述所公開(kāi)的實(shí)施例的全部特征。因此,在詳細(xì)描述之后的權(quán)利要求書(shū)由此而明確地被并入到這個(gè)詳細(xì)的描述之中,每個(gè)權(quán)利要求本身就作為本發(fā)明的一個(gè)單獨(dú)的實(shí)施例。
雖然在附圖中已經(jīng)描述和示出了某些示范的實(shí)施例,要理解的是,這樣的實(shí)施例只是說(shuō)明性的而不是限制性的,并且本發(fā)明的實(shí)施例不限于所示出的和描述的具體結(jié)構(gòu)和安排,因?yàn)楸绢I(lǐng)域的普通技術(shù)人員在研究了本公開(kāi)后就可做出各種其它修改。
權(quán)利要求
1.一種方法,包括執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類,其中,所述執(zhí)行k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類;確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度;執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系;和如果所述點(diǎn)接近于所述聚類,并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系,則保持所述數(shù)據(jù)集中所述點(diǎn)的當(dāng)前位置。
2.如權(quán)利要求1所述的方法,還包括如果所述點(diǎn)不接近所述聚類,則把所述點(diǎn)移入最接近的聚類。
3.如權(quán)利要求1所述的方法,還包括如果所述點(diǎn)不接近所述聚類,并且所述點(diǎn)與所述聚類沒(méi)有統(tǒng)計(jì)線性關(guān)系,則生成新的聚類;以及把所述點(diǎn)移入所述新的聚類。
4.如權(quán)利要求3所述的方法,其中使用隔離機(jī)制執(zhí)行所述新聚類的生成。
5.如權(quán)利要求1所述的方法,其中使用皮爾遜相關(guān)系數(shù)執(zhí)行所述接近度的確定。
6.如權(quán)利要求1所述的方法,其中執(zhí)行所述t-檢驗(yàn)計(jì)算以確定統(tǒng)計(jì)線性關(guān)系還包括設(shè)定預(yù)定的顯著性值;使用t表和皮爾遜相關(guān)系數(shù)確定p值;以及通過(guò)比較所述p值和所述預(yù)定的顯著性值來(lái)確定所述統(tǒng)計(jì)線性關(guān)系,其中如果所述p值小于或等于所述預(yù)定的顯著性值,就找到了所述統(tǒng)計(jì)線性關(guān)系。
7.一種設(shè)備,包括存儲(chǔ)介質(zhì),它存儲(chǔ)指令組,以便使用t-檢驗(yàn)計(jì)算執(zhí)行k-均值聚類;以及與所述存儲(chǔ)介質(zhì)耦合的處理器,所述處理器用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類,其中執(zhí)行所述k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類,確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度,執(zhí)行所述t-檢驗(yàn)計(jì)算,以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系,以及如果所述點(diǎn)接近所述聚類,并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系,則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
8.如權(quán)利要求7所述的設(shè)備,其中如果所述點(diǎn)不接近所述聚類,則所述處理器就進(jìn)一步把所述點(diǎn)移入最接近的聚類。
9.如權(quán)利要求7所述的設(shè)備,其中如果所述點(diǎn)不接近所述聚類,并且所述點(diǎn)與所述聚類沒(méi)有統(tǒng)計(jì)線性關(guān)系,則所述處理器就進(jìn)一步生成新的聚類;并且把所述點(diǎn)移入所述新的聚類。
10.如權(quán)利要求9所述的設(shè)備,其中使用隔離機(jī)制執(zhí)行所述新聚類的生成。
11.如權(quán)利要求7所述的設(shè)備,其中使用皮爾遜相關(guān)系數(shù)執(zhí)行所述接近度的確定。
12.如權(quán)利要求7所述的設(shè)備,其中所述處理器還進(jìn)行設(shè)定預(yù)定的顯著性值;使用t表和皮爾遜相關(guān)系數(shù)確定p值;以及通過(guò)把所述P值與預(yù)定的顯著性值進(jìn)行比較來(lái)確定所述統(tǒng)計(jì)線性關(guān)系,其中如果所述p值小于或等于所述預(yù)定的顯著性值,則所述統(tǒng)計(jì)線性關(guān)系就被找到。
13.一種系統(tǒng),包括k-均值模塊,用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類,其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類;皮爾遜相關(guān)系數(shù)模塊,用于確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度;t-檢驗(yàn)?zāi)K,用于執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系;和定位模塊,用于如果所述點(diǎn)與所述聚類接近,并且如果所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系,則保持?jǐn)?shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
14.如權(quán)利要求13所述的系統(tǒng),其中如果所述點(diǎn)不接近所述聚類,所述定位模塊就進(jìn)一步把所述點(diǎn)移入最接近的聚類。
15.如權(quán)利要求13所述的系統(tǒng),還包括隔離機(jī)制,用于如果所述點(diǎn)不接近于所述聚類,并且所述點(diǎn)與所述聚類沒(méi)有統(tǒng)計(jì)線性關(guān)系,則就生成新的聚類;并把所述點(diǎn)移入所述新的聚類。
16.如權(quán)利要求13所述的系統(tǒng),其中所述t-檢驗(yàn)?zāi)K還進(jìn)行設(shè)定預(yù)定的顯著性值;使用t表和皮爾遜相關(guān)系數(shù)確定p值;以及通過(guò)把所述P值和所述預(yù)定的顯著性值進(jìn)行比較來(lái)確定所述統(tǒng)計(jì)線性關(guān)系,其中,如果所述p值小于或等于所述預(yù)定的顯著性值,則所述統(tǒng)計(jì)線性關(guān)系就被找到。
17.一種機(jī)器可讀介質(zhì),在它上面存儲(chǔ)有代表指令組的數(shù)據(jù),當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候,使得所述機(jī)器執(zhí)行如下操作對(duì)具有多個(gè)點(diǎn)的數(shù)據(jù)集執(zhí)行k-均值聚類,其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類;確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度;執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系;和如果所述點(diǎn)接近于所述聚類,并且所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系,則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
18.如權(quán)利要求17所述的機(jī)器可讀介質(zhì),其中當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候,如果所述點(diǎn)不和所述聚類接近,所述指令組還使所述機(jī)器把所述點(diǎn)移入到最接近的聚類。
19.如權(quán)利要求17所述的機(jī)器可讀介質(zhì),其中當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候,如果所述點(diǎn)不接近于所述聚類,并且所述點(diǎn)與所述聚類不具有統(tǒng)計(jì)線性關(guān)系,則所述指令組還使所述機(jī)器生成新的聚類;并把所述點(diǎn)移入所述新的聚類。
20.如權(quán)利要求19所述的機(jī)器可讀介質(zhì),其中使用隔離機(jī)制執(zhí)行所述新聚類的生成。
21.如權(quán)利要求17所述的機(jī)器可讀介質(zhì),其中使用皮爾遜相關(guān)系數(shù)執(zhí)行所述接近度的確定。
22.如權(quán)利要求17的機(jī)器可讀介質(zhì),其中所述指令組當(dāng)其被所述機(jī)器執(zhí)行的時(shí)候,還使所述機(jī)器設(shè)定預(yù)定的顯著性值;使用t表和皮爾遜相關(guān)系數(shù)確定p值;以及通過(guò)比較所述p值和所述預(yù)定的顯著性值來(lái)確定所述統(tǒng)計(jì)線性關(guān)系,其中如果所述p值小于或等于所述預(yù)定的顯著性值,則所述統(tǒng)計(jì)線性關(guān)系就被找到。
全文摘要
一種用于使用t-檢驗(yàn)計(jì)算進(jìn)行k-均值聚類的方法、設(shè)備和系統(tǒng)。按照一個(gè)實(shí)施例,k-均值聚類在數(shù)據(jù)集上執(zhí)行。在執(zhí)行k-均值聚類的時(shí)候,具有不同點(diǎn)的數(shù)據(jù)集被分區(qū)成幾個(gè)聚類。確定一個(gè)給定點(diǎn)對(duì)于一個(gè)給定聚類的緊密度。然后,執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系。如果接近于聚類的點(diǎn)被找到,并且所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系也被找到,則所述點(diǎn)的位置就保持不動(dòng)。
文檔編號(hào)G06F17/30GK1770161SQ20051011997
公開(kāi)日2006年5月10日 申請(qǐng)日期2005年9月28日 優(yōu)先權(quán)日2004年9月29日
發(fā)明者Q·刁 申請(qǐng)人:英特爾公司