使用t－檢驗(yàn)計(jì)算的k－均值聚類的制作方法

文檔序號(hào)：6650402閱讀：980來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：使用t－檢驗(yàn)計(jì)算的k－均值聚類的制作方法
技術(shù)領(lǐng)域：
本發(fā)明的實(shí)施例一般來(lái)說(shuō)涉及聚類(clustering)。特別是，本發(fā)明的實(shí)施例涉及使用t-檢驗(yàn)計(jì)算的k-均值聚類。
背景技術(shù)：
聚類是以數(shù)學(xué)公式為基礎(chǔ)的在不同對(duì)象之間的相似性的度量。聚類被用來(lái)獲得彼此相似而與屬于其它聚類的對(duì)象不相似的對(duì)象的一種集合。這種多元的統(tǒng)計(jì)分析型聚類也稱為非監(jiān)督聚類分析、數(shù)值分類學(xué)和分類分析。例如，在分子生物學(xué)中，用聚類法根據(jù)生物基因或樣本的統(tǒng)計(jì)學(xué)行為把它們分組或分類成單獨(dú)的聚類，從而使相同聚類的成員之間的關(guān)聯(lián)程度強(qiáng)，而不同聚類的成員之間的關(guān)聯(lián)程度弱。聚類技術(shù)的例子包括賈維斯-帕特里克(Jarvis-Patrick)，凝聚分層(Agglomerative Hierarchical)，自組織映射(SOM)和K-均值。
K-均值聚類是簡(jiǎn)單的非監(jiān)督學(xué)習(xí)算法，它用于解決某些公知的聚類問(wèn)題。K-均值算法被用于產(chǎn)生根據(jù)相似性的距離度量的聚類和固定尺寸的、平直的分類。傳統(tǒng)的K-均值聚類算法遵循過(guò)分簡(jiǎn)單的方法，通過(guò)事先固定的聚類的給定數(shù)目(例如，k個(gè)聚類)把給定的數(shù)據(jù)集進(jìn)行分類。換句話說(shuō)，該k-均值算法從把事件分入k個(gè)聚類的初始分區(qū)開(kāi)始(例如，在初始化時(shí)賦予一個(gè)k值)。該過(guò)程繼續(xù)進(jìn)行，修改分區(qū)以減少每個(gè)事件距該事件所屬的聚類的均值的距離的總和。傳統(tǒng)的k-均值的一個(gè)問(wèn)題是，k的某個(gè)初始值必須只根據(jù)估算值被賦值。這樣的k值經(jīng)常是錯(cuò)誤的，對(duì)最終結(jié)果產(chǎn)生負(fù)面影響。
一種減小k值影響的方法是，以不同的隨機(jī)產(chǎn)生的開(kāi)始分區(qū)或初始k值重新運(yùn)行該算法。因?yàn)樵跀?shù)據(jù)中的真實(shí)聚類的數(shù)目是不知道的，算法以更接近從數(shù)據(jù)所預(yù)期的聚類的數(shù)目的不同k值來(lái)運(yùn)行，以確定距離的總和是怎樣隨著k值的增加而減小的。然而，這種重新運(yùn)行k-均值算法的傳統(tǒng)的方法是費(fèi)時(shí)間的、低效率的、麻煩的、且仍然不能消除或明顯減小k對(duì)最終解答的負(fù)面影響。

發(fā)明內(nèi)容
根據(jù)本發(fā)明，提供了一種方法，包括執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類，其中，所述執(zhí)行k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類；確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度；執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系；和如果所述點(diǎn)接近于所述聚類，并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系，則保持所述數(shù)據(jù)集中所述點(diǎn)的當(dāng)前位置。
根據(jù)本發(fā)明，還提供了一種設(shè)備，包括存儲(chǔ)介質(zhì)，它存儲(chǔ)指令組，以便使用t-檢驗(yàn)計(jì)算執(zhí)行k-均值聚類；以及與所述存儲(chǔ)介質(zhì)耦合的處理器，所述處理器用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類，其中執(zhí)行所述k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類，確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度，執(zhí)行所述t-檢驗(yàn)計(jì)算，以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系，以及如果所述點(diǎn)接近所述聚類，并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系，則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
根據(jù)本發(fā)明，還提供了一種系統(tǒng)，包括k-均值模塊，用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類，其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類；皮爾遜相關(guān)系數(shù)模塊，用于確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度；t-檢驗(yàn)?zāi)K，用于執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系；和定位模塊，用于如果所述點(diǎn)與所述聚類接近，并且如果所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系，則保持?jǐn)?shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
根據(jù)本發(fā)明，還提供了一種機(jī)器可讀介質(zhì)，在它上面存儲(chǔ)有代表指令組的數(shù)據(jù)，當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候，使得所述機(jī)器執(zhí)行如下操作對(duì)具有多個(gè)點(diǎn)的數(shù)據(jù)集執(zhí)行k-均值聚類，其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類；確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度；執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系；和如果所述點(diǎn)接近于所述聚類，并且所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系，則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。

所附權(quán)利要求具體陳述了本發(fā)明的實(shí)施例的特點(diǎn)。下面結(jié)合附圖的詳細(xì)描述可以更好地理解本發(fā)明的實(shí)施例及其優(yōu)點(diǎn)，其中圖1是方塊圖，說(shuō)明使用t-檢驗(yàn)計(jì)算的k-均值聚類的實(shí)施例；圖2是方塊圖，說(shuō)明參照?qǐng)D1所述的k-均值聚類一起使用的t-檢驗(yàn)計(jì)算的實(shí)施例；圖3是方塊圖，說(shuō)明使用標(biāo)準(zhǔn)k-均值聚類和使用t-檢驗(yàn)計(jì)算的k-均值聚類的對(duì)比試驗(yàn)的結(jié)果；圖4是流程圖，說(shuō)明執(zhí)行使用t-檢驗(yàn)計(jì)算的k-均值聚類的過(guò)程的實(shí)施例；和圖5是方塊圖，說(shuō)明在實(shí)現(xiàn)本發(fā)明的實(shí)施例中使用的示范的計(jì)算機(jī)系統(tǒng)。
具體實(shí)施例方式
下面描述使用t-檢驗(yàn)計(jì)算的k-均值聚類的系統(tǒng)和方法。在整個(gè)描述中，為了解釋，陳述了許多具體的細(xì)節(jié)，為的是徹底理解本發(fā)明的實(shí)施例。不過(guò)，明顯的是，對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)，沒(méi)有這些具體細(xì)節(jié)中的某些，也能實(shí)現(xiàn)本發(fā)明。在其它情況下，公知的結(jié)構(gòu)和裝置也以方塊圖的形式示出，為的是避免使本發(fā)明的基本原理變得不清楚。
在下面的描述中，對(duì)于許多具體細(xì)節(jié)例如邏輯實(shí)現(xiàn)，操作碼，資源分區(qū)，資源共享和資源復(fù)制實(shí)現(xiàn)，系統(tǒng)部件的類型和相互關(guān)系，以及邏輯分區(qū)/集中的選擇都進(jìn)行了陳述，為的是更徹底地理解本發(fā)明的各種實(shí)施例。不過(guò)，本領(lǐng)域的普通技術(shù)人員將意識(shí)到，根據(jù)所提供的公開(kāi)的內(nèi)容，沒(méi)有這樣的具體的細(xì)節(jié)，也可以實(shí)現(xiàn)本發(fā)明的實(shí)施例。在其它情況下，控制結(jié)構(gòu)，門電平電路和完整的軟件指令序列沒(méi)有被詳細(xì)示出，為的是不使本發(fā)明變得模糊不清。本領(lǐng)域的那些普通的技術(shù)人員，根據(jù)這里所包括的描述，將能在無(wú)需過(guò)度試驗(yàn)的情況下，實(shí)現(xiàn)適當(dāng)?shù)墓δ堋?br> 下面描述本發(fā)明的各種實(shí)施例。各種實(shí)施例可以通過(guò)硬件部件來(lái)執(zhí)行，或可以在機(jī)器可執(zhí)行指令中體現(xiàn)，這些指令可用于使通用的或?qū)Ｓ玫奶幚砥骰蛘哂迷撝噶罹幊痰臋C(jī)器或邏輯電路去執(zhí)行各種實(shí)施例。或者，各種實(shí)施例可以通過(guò)硬件和軟件的結(jié)合來(lái)執(zhí)行。
本發(fā)明的各種實(shí)施例可以作為計(jì)算機(jī)程序產(chǎn)品來(lái)提供，其可以包括在其上存儲(chǔ)有指令的機(jī)器可讀介質(zhì)，這些指令可以用來(lái)對(duì)計(jì)算機(jī)(或其它電子設(shè)備)編程，以便執(zhí)行按照本發(fā)明各種實(shí)施例的過(guò)程。機(jī)器可讀介質(zhì)可能包括，但不限于，軟盤(pán)，光盤(pán)，光盤(pán)只讀存儲(chǔ)器(CD-ROM)，磁光盤(pán)，只讀存儲(chǔ)器(ROM)，隨機(jī)存取存儲(chǔ)器(RAM)，可擦可編程只讀存儲(chǔ)器(EPROM)，電可擦可編程只讀存儲(chǔ)器(EEPROM)，磁卡或光卡，閃存，或適合于存儲(chǔ)電子指令的其它類型的介質(zhì)/機(jī)器可讀介質(zhì)。再者，本發(fā)明的各種實(shí)施例還可以作為計(jì)算機(jī)程序產(chǎn)品下載，其中通過(guò)包含在載波中的數(shù)據(jù)信號(hào)或經(jīng)過(guò)通信鏈路的其它傳播介質(zhì)(例如，調(diào)制解調(diào)器或網(wǎng)絡(luò)連接)，把程序從遠(yuǎn)程計(jì)算機(jī)傳送到請(qǐng)求的計(jì)算機(jī)。
圖1是方塊圖，說(shuō)明使用t-檢驗(yàn)計(jì)算106的k-均值聚類100的實(shí)施例。在一個(gè)實(shí)施例中，檢驗(yàn)一個(gè)點(diǎn)和它的最接近的聚類之間的相關(guān)性的k-均值聚類100，是通過(guò)使用t-檢驗(yàn)計(jì)算106執(zhí)行的，以估計(jì)聚類結(jié)果是否具有它的統(tǒng)計(jì)顯著性。使用k-均值聚類100的具有k-均值算法的t-檢驗(yàn)計(jì)算106，消除了對(duì)k的初始值的依賴和及其影響，例如，在基因聚類中，執(zhí)行聚類而無(wú)任何初始分區(qū)(例如，k的值)。這就有助于消除不正確的k的初始值造成的壞結(jié)果。換句話說(shuō)，在一個(gè)實(shí)施例中，k-均值聚類100的結(jié)果或最終解答可以從初始狀態(tài)102的任一個(gè)k值(例如，k＝1)開(kāi)始，因?yàn)楫?dāng)使用具有k-均值聚類100的t-檢驗(yàn)計(jì)算106時(shí)，k的數(shù)值變得與最終解答沒(méi)有關(guān)系。因此，具有t-檢驗(yàn)計(jì)算106的k-均值100的最終解答是真實(shí)解答，因?yàn)樗鼪](méi)有受到k的初始值破壞。
在一個(gè)實(shí)施例中，在初始化102(例如，函數(shù)t-檢驗(yàn)-k-均值(k、ε))，賦予初始k值(例如，k＝1)。類似地，賦予ε的初值(例如，ε＝0.00001)以代表小誤差值。誤差112的出現(xiàn)導(dǎo)致過(guò)程的迭代或重復(fù)110的結(jié)束。進(jìn)一步，作為初始化102的部分，數(shù)據(jù)集(例如，g1，...gi，...gM)被隨機(jī)地分入聚類(例如，k＝k’聚類)。這里，每個(gè)g代表(數(shù)據(jù)集的)空間中的點(diǎn)或矢量，其中g(shù)M代表那個(gè)空間中的M點(diǎn)。雖然，在一個(gè)實(shí)施例中，t-檢驗(yàn)計(jì)算106與k-均值聚類100一起使用，在計(jì)算的復(fù)雜性方面該算法的成本保持和標(biāo)準(zhǔn)k-均值聚類相同。例如，這里，M＝數(shù)據(jù)庫(kù)的基數(shù)，k＝聚類的數(shù)目，以及N＝屬性的數(shù)目。在這種情況下，每一迭代成本＝MkN，以及總成本(t次迭代)＝O(tMkN)，其中t代表迭代次數(shù)，O代表運(yùn)算。
對(duì)于每個(gè)gi，gi＝(Si1，...，SiN)，N是樣本數(shù)。使用數(shù)據(jù)集，計(jì)算點(diǎn)和聚類之間的距離，從而最終確定點(diǎn)和最接近的聚類之間的距離。用皮爾遜(Pearson)相關(guān)系數(shù)(PCC)104計(jì)算點(diǎn)和聚類之間的距離。PCC104被用于度量?jī)蓚€(gè)變量之間的線性關(guān)系的強(qiáng)度。換言之，PCC104被用于度量?jī)蓚€(gè)輪廓(profile)之間的相似性和距離。在這種情況下，給定的點(diǎn)(例如，gi)是高維點(diǎn)，PCC104被用來(lái)計(jì)算點(diǎn)(gi)和均值聚類(Mc)之間的距離。不過(guò)，可以預(yù)期的是任何數(shù)量的度量方法都可被用來(lái)確定規(guī)定數(shù)據(jù)點(diǎn)和聚類之間距離的參數(shù)。其它度量方法的例子包括歐幾里得(Euclidean)，歐幾里得平方(Euclidean Squared)，曼哈頓(Manhattan)，泊森平方(Person Squared)，徹貝徹伏(Chebychev)和斯皮爾曼(Spearman)。
PCC距離的基本公式是d＝1-r，其中r＝z(x).z(y)/n是矢量x和y的z得分(z-score)的點(diǎn)積。x的z得分是通過(guò)從x減去它的平均值并用它的標(biāo)準(zhǔn)偏差去除而得到的構(gòu)造。使用PCC104計(jì)算點(diǎn)(gi)和均值聚類(Mc)之間的距離(d)的方法如下d(gi,Mcj)=|1-ΣgiMcj-ΣgiΣMcjN(Σgi2-(Σgi)2N)(ΣMcj2-(ΣMcj)2N)|]]>
均值Mcj=1|cj|Σi=1|cj|gi,gi&Element;cj,|cj|]]>代表聚類cj中的元素的數(shù)目，其中j＝1，...k一旦點(diǎn)(gi)和均值聚類(Mc)之間的距離被計(jì)算出來(lái)，這種信息然后就被用來(lái)計(jì)算與最近的聚類(例如，c)和它的均值(Mc)到點(diǎn)(gi)之間的距離，這通過(guò)計(jì)算該點(diǎn)和最近聚類之間的最小距離并使用t-檢驗(yàn)計(jì)算106來(lái)確定。在圖2中進(jìn)一步描述了T-檢驗(yàn)計(jì)算106。如果點(diǎn)最接近自己的聚類并且與它成線性關(guān)系，則該點(diǎn)和聚類就保持原樣不動(dòng)。如果該點(diǎn)最接近另一個(gè)聚類并與它成線性，則該點(diǎn)就被移入那個(gè)聚類。按照一個(gè)實(shí)施例，如果該點(diǎn)不和最接近的聚類成線性，那么該點(diǎn)被隔離，并且通過(guò)使用隔離機(jī)制114生成新的聚類。單個(gè)的新生成的聚類包括該隔離的點(diǎn)。例如，聚類可以從7個(gè)聚類(聚類的數(shù)目＝7)開(kāi)始，以8個(gè)聚類(聚類的數(shù)目＝7+1)結(jié)束，其包括使用以t-檢驗(yàn)計(jì)算106為基礎(chǔ)的隔離機(jī)制114新生成的聚類。
使用均值Mcj=1|cj|Σi=1|cj|gi,gi&Element;cj,|cj|,]]>更新均值聚類(Mc)108，代表聚類cj中的元素的數(shù)目。更新108是指在聚類構(gòu)造發(fā)生變化(例如生成具有隔離點(diǎn)的新聚類)的時(shí)候，對(duì)均值聚類進(jìn)行更新。一旦更新108完成，過(guò)程被重復(fù)110(例如，迭代繼續(xù))，直到誤差(ε)出現(xiàn)，在誤差(ε)出現(xiàn)的點(diǎn)上，k-均值聚類100停止112。誤差數(shù)值在初始化102時(shí)被賦值，然后當(dāng)Error-new-Error-old＜＝ε的時(shí)候，該誤差值被用于停止112，其中ε是某個(gè)小常量，如上所述，k和ε的數(shù)值是在初始化102時(shí)賦予的，但是按照一個(gè)實(shí)施例，當(dāng)用使用t-檢驗(yàn)計(jì)算106的k-均值聚類100的時(shí)候，k的數(shù)值與最終解答沒(méi)有關(guān)系。所以，最終結(jié)果是真實(shí)的，是未被破壞的。可以預(yù)期的是，許多軟件模塊102-106，114利用t-檢驗(yàn)計(jì)算執(zhí)行k-均值聚類的各部分和過(guò)程?？梢灶A(yù)期的是，硬件、軟件或它們的結(jié)合，可以被用來(lái)執(zhí)行k-均值聚類100。例如，初始化102，PCC計(jì)算104，t-檢驗(yàn)計(jì)算106，隔離機(jī)制114，更新108，重復(fù)110和停止112，都可以通過(guò)各種模塊和部件來(lái)執(zhí)行。
圖2是方塊圖，說(shuō)明與參考圖1所述的k-均值聚類一起使用的t-檢驗(yàn)計(jì)算的實(shí)施例。T-檢驗(yàn)計(jì)算106通過(guò)接受點(diǎn)(gi)、均值聚類(Mc)和一個(gè)預(yù)定的顯著性水平(SL)的輸入而從初始狀態(tài)202開(kāi)始啟動(dòng)。SL代表顯著性水平的一個(gè)小的數(shù)值或計(jì)數(shù)，例如0.01或0.05，表示成顯著性水平的百分比，分別是1％或5％，顯著性水平用來(lái)確定該點(diǎn)和均值聚類之間的統(tǒng)計(jì)線性關(guān)系210。SL的小的數(shù)值代表假設(shè)檢驗(yàn)中的第I類錯(cuò)誤的概率。第I類錯(cuò)誤是指當(dāng)?shù)贸隽?null)假設(shè)204是不成立的結(jié)論，而實(shí)際上它是真的時(shí)候所產(chǎn)生的錯(cuò)誤。在一個(gè)實(shí)施例中，對(duì)于具有t-檢驗(yàn)的K-均值，SL的數(shù)值可代表當(dāng)?shù)贸鲈擖c(diǎn)和均值聚類之間存在統(tǒng)計(jì)顯著的線性相關(guān)的結(jié)論，而實(shí)際上不相關(guān)的時(shí)候，產(chǎn)生這種錯(cuò)誤的概率。一旦執(zhí)行初始化202，零假設(shè)204的公知的過(guò)程就被用作假設(shè)檢驗(yàn)的基礎(chǔ)。這里，均值Mc=1|c|Σj=1|c|gi,gj&Element;c,|c|]]>是聚類c中的元素的數(shù)目，c是點(diǎn)gi的最接近的聚類。
零假設(shè)204從假設(shè)所說(shuō)的點(diǎn)和均值聚類之間沒(méi)有統(tǒng)計(jì)顯著的線性相關(guān)性開(kāi)始。因此，數(shù)學(xué)上，零假設(shè)是LinearCorrelation(gi，Mc)＝0，其中SL是預(yù)定的顯著性水平。一旦假設(shè)不存在任何統(tǒng)計(jì)顯著的線性相關(guān)性，使用零假設(shè)204，然后執(zhí)行PCC206以確定在點(diǎn)和均值聚類之間是否存在線性相關(guān)性(r)。這里，相關(guān)性(r)是使用PCC206如下確定的
r(gi,Mc)=ΣgiMc-ΣgiΣMcN(Σgi2-(Σgi)2N)(ΣMc2-(ΣMc)2N)]]>在一個(gè)實(shí)施例中，一旦使用PCC206計(jì)算相關(guān)性，就計(jì)算該相關(guān)性分布值(t)，以便計(jì)算概率值(p值)208。p值可以和SL比較以確定統(tǒng)計(jì)線性關(guān)系210。t的數(shù)值被如下計(jì)算t=rSr=r1-r2N-2.]]>同樣地，公知的標(biāo)準(zhǔn)t表可被用于確定t的數(shù)值，然后利用N-2的靈活性程度從t的數(shù)值計(jì)算p值208。一旦p值被計(jì)算208，就與SL進(jìn)行比較以確定所說(shuō)的點(diǎn)和均值聚類之間的統(tǒng)計(jì)線性關(guān)系210。例如，如果p值小于或等于SL的值(例如，p值＜＝SL)，則拒絕零假設(shè)204，并且找到所說(shuō)點(diǎn)和均值聚類之間的統(tǒng)計(jì)線性關(guān)系210。
在一個(gè)實(shí)施例中，估計(jì)在群元素與該群的顯著性范圍以內(nèi)的線性關(guān)系。如果元素與它的群有線性相關(guān)性，則這個(gè)元素就被聚類；否則，生成新的聚類，這是由于在手頭的當(dāng)前的數(shù)據(jù)未必證明存在有顯著的線性關(guān)系。因此，在具有t-檢驗(yàn)計(jì)算106的k-均值聚類中，有清楚的統(tǒng)計(jì)顯著性，按照具有聚類的顯著性其就是“真實(shí)聚類”。例如，k的數(shù)值代表與最終解答沒(méi)有任何關(guān)系的初始值，特別是，當(dāng)不考慮局部?jī)?yōu)化問(wèn)題的時(shí)候更是如此。即使在沒(méi)有任何初始分區(qū)(k’＝1)的情況下，具有t-檢驗(yàn)計(jì)算106的k-均值聚類也是真的，沒(méi)有受到k的數(shù)值的破壞。換言之，例如，當(dāng)不考慮局部?jī)?yōu)化問(wèn)題的時(shí)候，具有t-檢驗(yàn)計(jì)算106的k-均值聚類的分區(qū)方法是真的，并且與初始化時(shí)設(shè)定的值無(wú)關(guān)。如參考圖1所述的，可以使用不同的模塊和部件來(lái)執(zhí)行初始化202，零假設(shè)204，PCC206，p值計(jì)算208和統(tǒng)計(jì)線性關(guān)系確定210。
圖3是方塊圖，說(shuō)明使用標(biāo)準(zhǔn)k-均值聚類的對(duì)比試驗(yàn)300和使用t-檢驗(yàn)計(jì)算的k-均值聚類的實(shí)施例的結(jié)果。對(duì)比試驗(yàn)提供了對(duì)于兩個(gè)樣本微陣列(microarray)數(shù)據(jù)，使用t-檢驗(yàn)計(jì)算308、318的k-均值聚類和標(biāo)準(zhǔn)k-均值310、320的對(duì)比結(jié)果。第一樣本數(shù)據(jù)包括結(jié)腸數(shù)據(jù)302。為了試驗(yàn)的目的，結(jié)腸數(shù)據(jù)302是由在22個(gè)正常的結(jié)腸組織和40個(gè)癌結(jié)腸組織中使用Affymetrix寡核苷酸陣列的2000個(gè)基因的表達(dá)圖組成的(以前在http//www.molbio.princeton.edu/colondata上可以得到，現(xiàn)在在http//www.sph.uth.tmc.edu/hgc/dowloads.asp(Xiong等人，2001)上可得到)。第二個(gè)樣本數(shù)據(jù)包括酵母細(xì)胞周期數(shù)據(jù)312。酵母細(xì)胞周期數(shù)據(jù)312包括超過(guò)約兩個(gè)細(xì)胞周期的，包括在所有18個(gè)陣列中沒(méi)有遺漏數(shù)據(jù)的679個(gè)基因的，具有～6200ORF的釀酒酵母菌(SaccharomYcles Cerevisiae)的被監(jiān)視的全基因組mRNA表達(dá)水平(http//cellcycle-www.stanford.edu上可得到)。根據(jù)聚類的兩個(gè)直觀的性質(zhì)(例如，內(nèi)在的內(nèi)聚性和外部隔離)，可以考慮包括內(nèi)部相似性、相互相似性和內(nèi)部相似性對(duì)相互相似性的比在內(nèi)的幾個(gè)評(píng)價(jià)標(biāo)準(zhǔn)。
對(duì)于具有所產(chǎn)生的k個(gè)聚類的k-均值聚類，內(nèi)部相似性、相互相似性和內(nèi)部相似性對(duì)相互相似性的比，可以定義如下
按照內(nèi)部相似性對(duì)于相互相似性的比進(jìn)行比較，k是兩種k-均值所產(chǎn)生的聚類的數(shù)目。在k-均值聚類(包括標(biāo)準(zhǔn)k-均值和具有檢驗(yàn)的k-均值)執(zhí)行以后，執(zhí)行并獲得內(nèi)部相似性、相互相似性和兩種相似性的比的計(jì)算。換言之，一旦獲得k-均值聚類的結(jié)果，就計(jì)算所說(shuō)的比以便正確地和公正地比較兩個(gè)結(jié)果以確定哪個(gè)結(jié)果是較好的、精確的和真實(shí)的。結(jié)腸數(shù)據(jù)302的k’的預(yù)定數(shù)值是1、5、10、50、100、500、1000、2000，分別用加在線308和310上的小方格和星號(hào)表示。酵母細(xì)胞周期數(shù)據(jù)312的k’的預(yù)定的數(shù)值是1、2、5、10、20、50、100、200、679，分別用加在線318、320上的小方格和星號(hào)表示。
如圖所示，x軸306、316是所產(chǎn)生的聚類數(shù)目(k)，且x軸304、314代表內(nèi)部相似性和相互相似性的比。較高的線308代表使用t-檢驗(yàn)計(jì)算的k-均值聚類的結(jié)果，較低的線310代表在結(jié)腸數(shù)據(jù)曲線圖302上的標(biāo)準(zhǔn)k-均值的結(jié)果。關(guān)于酵母細(xì)胞周期數(shù)據(jù)曲線圖312，較高的線318代表使用t-檢驗(yàn)計(jì)算的k-均值的結(jié)果，而較低的線320代表標(biāo)準(zhǔn)k-均值的結(jié)果。
在302和312兩種情況下，用線308、318表示的具有t-檢驗(yàn)的k-均值結(jié)果比用線310、320表示的傳統(tǒng)k-均值的結(jié)果更好。參考結(jié)腸數(shù)據(jù)曲線圖302，在實(shí)際的每個(gè)k級(jí)306上，較高的線308比較低的線310表示有更好的比304。類似地，參考酵母細(xì)胞周期數(shù)據(jù)曲線圖312，在每個(gè)k級(jí)316上，較高的線318比較低的線320有更好的比314。這就表現(xiàn)出使用具有t-檢驗(yàn)計(jì)算的k-均值聚類時(shí)的內(nèi)在的內(nèi)聚性和外部隔離的特性。例如，當(dāng)k’＝1，具有t-檢驗(yàn)308、318的k-均值表現(xiàn)出高得多的比，如幾個(gè)小方格中的第一個(gè)所表示的，而在反方向上標(biāo)準(zhǔn)k-均值310、312表現(xiàn)出低得多的比，如許多星號(hào)中的第一個(gè)所表示的。因此，如上所述，通過(guò)這個(gè)對(duì)比試驗(yàn)300表明，使用t-檢驗(yàn)計(jì)算的k-均值聚類不依賴于中心的初始位置，并且即使沒(méi)有初始分區(qū)也能夠提供最好的性能和最終的解答。
圖4是流程圖，表示執(zhí)行使用t-檢驗(yàn)計(jì)算的k-均值聚類的過(guò)程的實(shí)施例。首先，在處理方塊402執(zhí)行初始化。初始化過(guò)程包括，把數(shù)據(jù)集分區(qū)到k＝k’個(gè)聚類中，每個(gè)聚類具有大致相同數(shù)量的數(shù)據(jù)點(diǎn)，并賦一個(gè)初始誤差值(ε)。在處理方塊404，計(jì)算每個(gè)數(shù)據(jù)點(diǎn)和聚類之間的距離。這樣的距離可以用皮爾遜相關(guān)系數(shù)計(jì)算。在一個(gè)實(shí)施例中，在決定方塊406，執(zhí)行t-檢驗(yàn)計(jì)算，并且確定數(shù)據(jù)點(diǎn)對(duì)于聚類是否是統(tǒng)計(jì)線性的。如果不是，則使用隔離機(jī)制，把這樣的點(diǎn)隔離，并放在在處理方塊408中新生成的聚類中。如果該數(shù)據(jù)點(diǎn)對(duì)于該聚類是線性的，則在決定方塊410，還要確定對(duì)于聚類是線性的數(shù)據(jù)點(diǎn)是否還是最接近于它的聚類的。
如果不是，則在處理方塊412，該點(diǎn)被移入最接近的聚類。如果該點(diǎn)對(duì)于聚類是線性的和最接近的，則在決定方塊414過(guò)程收斂。類似地，回過(guò)來(lái)參看處理方塊408、412，過(guò)程收斂于決定方塊414，在這里決定關(guān)于繼續(xù)進(jìn)行利用t-檢驗(yàn)計(jì)算的k-均值聚類。如果初始誤差值ε還沒(méi)有達(dá)到，聚類的迭代就在處理方塊404中繼續(xù)進(jìn)行。如果初始誤差值達(dá)到了，過(guò)程在終止方塊416結(jié)束。
圖5是方塊圖，說(shuō)明用于實(shí)現(xiàn)本發(fā)明的實(shí)施例的示范的計(jì)算機(jī)系統(tǒng)500。計(jì)算機(jī)系統(tǒng)(系統(tǒng))包括一個(gè)或多個(gè)處理器502-506。處理器502-506可以包括一個(gè)或多個(gè)單線程或多線程處理器。典型的多線程處理器可以包括多個(gè)線程或邏輯處理器，能夠同時(shí)使用它的多個(gè)線程處理多個(gè)指令序列。處理器502-506還可以包括一個(gè)或多個(gè)內(nèi)部等級(jí)的高速緩存器(未示出)和總線控制器或總線接口單元，以便指導(dǎo)與處理器總線512的交互作用。
處理器總線512也可稱為主總線或前端總線，它可以被用來(lái)把處理器502-506與系統(tǒng)接口514耦合起來(lái)。處理器總線512可以包括控制總線532，地址總線534和數(shù)據(jù)總線536。控制總線532，地址總線534和數(shù)據(jù)總線532可以是多分支雙向總線，例如是連接到三個(gè)或多個(gè)總線代理的總線，它與點(diǎn)對(duì)點(diǎn)總線不同，點(diǎn)對(duì)點(diǎn)總線僅可以在兩個(gè)總線代理之間連接。
系統(tǒng)接口514(或芯片組)可以連接到處理器總線512，以便把系統(tǒng)500的其它部件與處理器總線512連接起來(lái)。例如，系統(tǒng)接口514可以包括存儲(chǔ)器控制器518，用于接口主存儲(chǔ)器516與處理器總線512。主存儲(chǔ)器516典型地包括一個(gè)或多個(gè)存儲(chǔ)卡和控制電路(未示出)。系統(tǒng)接口514還可以包括輸入/輸出(I/O)接口520，以接口一個(gè)或多個(gè)I/O橋或I/O裝置與處理器總線512。例如，如圖所示，I/O接口520可以接口I/O橋524和處理器總線512。I/O橋524可以作為總線橋操作，以便在系統(tǒng)接口514和I/O總線526之間進(jìn)行接口。一個(gè)或多個(gè)I/O控制器和/或I/O裝置可以與I/O總線526連接，例如，I/O控制器528和I/O裝置530，如圖所示。I/O總線526可以包括外圍部件互連(PCI)總線或其它型式的I/O總線。
系統(tǒng)500可能包括動(dòng)態(tài)存儲(chǔ)裝置，稱為主存儲(chǔ)器516，或隨機(jī)存取存儲(chǔ)器(RAM)或耦合到處理器總線512的其它裝置，用于存儲(chǔ)處理器502-506所要執(zhí)行的信息和指令。在處理器502-506執(zhí)行指令期間，主存儲(chǔ)器516還可以用于存儲(chǔ)臨時(shí)變量或其它中間信息。系統(tǒng)500可以包括只讀存儲(chǔ)器(ROM)和/或耦合到處理器總線512的其它靜態(tài)存儲(chǔ)裝置，用來(lái)存儲(chǔ)處理器502-506的靜態(tài)信息和指令。
主存儲(chǔ)器516或動(dòng)態(tài)存儲(chǔ)裝置可以包括磁盤(pán)或光盤(pán)，用以存儲(chǔ)信息和指令。I/O裝置530可以包括顯示裝置(未示出)，例如是陰極射線管(CRT)或液晶顯示器(LCD)，用于把信息顯示給終端用戶。例如，可以在顯示裝置上給預(yù)期的買主提供安裝狀態(tài)的圖形或文本指示，試驗(yàn)周期中的剩余時(shí)間和其它信息。I/O裝置530還可以包括輸入裝置(未示出)，例如是字母數(shù)字輸入裝置，它包括字母數(shù)字和其它鍵，用于把信息和/或命令選擇通信給處理器502-506。另外型式的用戶輸入裝置包括光標(biāo)控制，例如鼠標(biāo)器，跟蹤球，或光標(biāo)方向鍵，用來(lái)把方向信息和命令選擇傳送給處理器502-506，并控制顯示裝置上的光標(biāo)移動(dòng)。
系統(tǒng)500還可包括通信裝置(未示出)，例如調(diào)制解調(diào)器，網(wǎng)絡(luò)接口卡，或其它公知的接口裝置，例如那些用于耦合到以太網(wǎng)、令牌環(huán)的裝置或其它類型的物理附件裝置，為了提供通信鏈路以支持例如局域網(wǎng)或?qū)捰蚓W(wǎng)。換句話說(shuō)，系統(tǒng)500可以通過(guò)傳統(tǒng)的網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)，例如公司的內(nèi)部網(wǎng)和/或因特網(wǎng)，與許多客戶和/或服務(wù)器耦合。
應(yīng)當(dāng)理解，對(duì)于某些實(shí)現(xiàn)，可期望比上述例子少些或多些裝備的系統(tǒng)。因此，系統(tǒng)500的配置可能從一種實(shí)現(xiàn)到另一種實(shí)現(xiàn)有所變化，這取決于許多因素，例如價(jià)格限制，性能要求，技術(shù)改進(jìn)和/或其它情況。
應(yīng)該注意，雖然這里所描述的實(shí)施例是在編程的處理器例如處理器502-506的控制下執(zhí)行的，但是在可供選擇的實(shí)施例中，這些實(shí)施例可以全部地或部分地通過(guò)任何可編程序的或硬編碼的邏輯電路來(lái)實(shí)現(xiàn)，例如現(xiàn)場(chǎng)可編程的門陣列(FPGA)，晶體管-晶體管邏輯電路(TTL)，或?qū)Ｓ眉呻娐?ASIC)。此外，本發(fā)明的實(shí)施例可以通過(guò)編程的通用計(jì)算機(jī)部件和/或定制的硬件部件的任何組合來(lái)執(zhí)行。因此，這里所公開(kāi)的，沒(méi)有任何東西可被解釋為是把本發(fā)明的各種實(shí)施例限制于特定的實(shí)施例，其中所述的實(shí)施例可以用硬件部件的具體組合來(lái)執(zhí)行。
在一個(gè)實(shí)施例中，利用t-檢驗(yàn)計(jì)算的k-均值聚類不僅提供了一個(gè)聚類隔離標(biāo)準(zhǔn)，而且也是以內(nèi)部相關(guān)性的統(tǒng)計(jì)顯著性為基礎(chǔ)的。例如，如果在顯著性水平下，沒(méi)有證明一個(gè)點(diǎn)與最接近的聚類有線性相關(guān)性，該點(diǎn)就被隔離。該被隔離的點(diǎn)就作為新的單獨(dú)聚類出現(xiàn)，因?yàn)楫?dāng)前的數(shù)據(jù)集不能證明是否該點(diǎn)與空間存在的任何其它聚類有統(tǒng)計(jì)顯著的線性關(guān)系。另一方面，這個(gè)檢驗(yàn)的低p值(例如，小于0.01)可能意味著有證據(jù)拒絕零假設(shè)而贊同備選的假設(shè)，或意味著在該點(diǎn)和它的最接近的聚類之間存在著統(tǒng)計(jì)顯著的關(guān)系。因此，使用t-檢驗(yàn)提供每個(gè)點(diǎn)和它自己的聚類的均值具有統(tǒng)計(jì)顯著的關(guān)系。線性關(guān)系是可加成的，并且通過(guò)使用t-檢驗(yàn)可以證明在同一聚類中的點(diǎn)與每個(gè)其它的點(diǎn)具有線性相關(guān)性。因此，t-檢驗(yàn)對(duì)內(nèi)在的內(nèi)聚性提供相對(duì)清楚的統(tǒng)計(jì)說(shuō)明。再者，這里的聚類不依賴于初始分區(qū)，并且即使無(wú)任何初始分區(qū)(例如，k’＝1)它也可以獲得最好的性能和真實(shí)的解答。利用t-檢驗(yàn)的k-均值的分區(qū)結(jié)果具有清楚的統(tǒng)計(jì)顯著性，并且它不只是聚類在一起的一串最接近的元素。一個(gè)群中的元素具有顯著的統(tǒng)計(jì)相關(guān)性，就是一個(gè)真實(shí)的聚類。
應(yīng)該意識(shí)到，遍及本說(shuō)明書(shū)的所謂“一個(gè)實(shí)施例”或者“實(shí)施例”意味著與該實(shí)施例相關(guān)而描述的特定的特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此，要強(qiáng)調(diào)和應(yīng)該理解的是，在本說(shuō)明書(shū)各個(gè)部分中兩次或多次引用的“實(shí)施例”或者“一個(gè)實(shí)施例”或者“備選的實(shí)施例”未必全都指的是同一個(gè)實(shí)施例。再者，在本發(fā)明的一個(gè)或多個(gè)實(shí)施例中如適合的話可將特定的特征、結(jié)構(gòu)或特性組合在一起。
類似地，應(yīng)該理解，在上面本發(fā)明的示范的實(shí)施例的描述中，為了簡(jiǎn)化公開(kāi)的內(nèi)容，以便有助于理解發(fā)明的一個(gè)或多個(gè)不同的發(fā)明的方面，本發(fā)明的不同特征有時(shí)候聚合在它的單個(gè)的實(shí)施例、附圖或描述中。然而，這種公開(kāi)方法，不能被解釋成反映了這樣一個(gè)發(fā)明，即要求保護(hù)的這個(gè)發(fā)明需要比每個(gè)權(quán)利要求所明確陳述的特征更多的特征。相反，如所附權(quán)利要求所反映的，發(fā)明的方面在于特征少于單個(gè)的前述所公開(kāi)的實(shí)施例的全部特征。因此，在詳細(xì)描述之后的權(quán)利要求書(shū)由此而明確地被并入到這個(gè)詳細(xì)的描述之中，每個(gè)權(quán)利要求本身就作為本發(fā)明的一個(gè)單獨(dú)的實(shí)施例。
雖然在附圖中已經(jīng)描述和示出了某些示范的實(shí)施例，要理解的是，這樣的實(shí)施例只是說(shuō)明性的而不是限制性的，并且本發(fā)明的實(shí)施例不限于所示出的和描述的具體結(jié)構(gòu)和安排，因?yàn)楸绢I(lǐng)域的普通技術(shù)人員在研究了本公開(kāi)后就可做出各種其它修改。
權(quán)利要求
1.一種方法，包括執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類，其中，所述執(zhí)行k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類；確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度；執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系；和如果所述點(diǎn)接近于所述聚類，并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系，則保持所述數(shù)據(jù)集中所述點(diǎn)的當(dāng)前位置。
2.如權(quán)利要求1所述的方法，還包括如果所述點(diǎn)不接近所述聚類，則把所述點(diǎn)移入最接近的聚類。
3.如權(quán)利要求1所述的方法，還包括如果所述點(diǎn)不接近所述聚類，并且所述點(diǎn)與所述聚類沒(méi)有統(tǒng)計(jì)線性關(guān)系，則生成新的聚類；以及把所述點(diǎn)移入所述新的聚類。
4.如權(quán)利要求3所述的方法，其中使用隔離機(jī)制執(zhí)行所述新聚類的生成。
5.如權(quán)利要求1所述的方法，其中使用皮爾遜相關(guān)系數(shù)執(zhí)行所述接近度的確定。
6.如權(quán)利要求1所述的方法，其中執(zhí)行所述t-檢驗(yàn)計(jì)算以確定統(tǒng)計(jì)線性關(guān)系還包括設(shè)定預(yù)定的顯著性值；使用t表和皮爾遜相關(guān)系數(shù)確定p值；以及通過(guò)比較所述p值和所述預(yù)定的顯著性值來(lái)確定所述統(tǒng)計(jì)線性關(guān)系，其中如果所述p值小于或等于所述預(yù)定的顯著性值，就找到了所述統(tǒng)計(jì)線性關(guān)系。
7.一種設(shè)備，包括存儲(chǔ)介質(zhì)，它存儲(chǔ)指令組，以便使用t-檢驗(yàn)計(jì)算執(zhí)行k-均值聚類；以及與所述存儲(chǔ)介質(zhì)耦合的處理器，所述處理器用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類，其中執(zhí)行所述k-均值聚類包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類，確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度，執(zhí)行所述t-檢驗(yàn)計(jì)算，以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系，以及如果所述點(diǎn)接近所述聚類，并且如果所述點(diǎn)與所述聚類有統(tǒng)計(jì)線性關(guān)系，則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
8.如權(quán)利要求7所述的設(shè)備，其中如果所述點(diǎn)不接近所述聚類，則所述處理器就進(jìn)一步把所述點(diǎn)移入最接近的聚類。
9.如權(quán)利要求7所述的設(shè)備，其中如果所述點(diǎn)不接近所述聚類，并且所述點(diǎn)與所述聚類沒(méi)有統(tǒng)計(jì)線性關(guān)系，則所述處理器就進(jìn)一步生成新的聚類；并且把所述點(diǎn)移入所述新的聚類。
10.如權(quán)利要求9所述的設(shè)備，其中使用隔離機(jī)制執(zhí)行所述新聚類的生成。
11.如權(quán)利要求7所述的設(shè)備，其中使用皮爾遜相關(guān)系數(shù)執(zhí)行所述接近度的確定。
12.如權(quán)利要求7所述的設(shè)備，其中所述處理器還進(jìn)行設(shè)定預(yù)定的顯著性值；使用t表和皮爾遜相關(guān)系數(shù)確定p值；以及通過(guò)把所述P值與預(yù)定的顯著性值進(jìn)行比較來(lái)確定所述統(tǒng)計(jì)線性關(guān)系，其中如果所述p值小于或等于所述預(yù)定的顯著性值，則所述統(tǒng)計(jì)線性關(guān)系就被找到。
13.一種系統(tǒng)，包括k-均值模塊，用于執(zhí)行具有多個(gè)點(diǎn)的數(shù)據(jù)集的k-均值聚類，其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類；皮爾遜相關(guān)系數(shù)模塊，用于確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度；t-檢驗(yàn)?zāi)K，用于執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)和所述聚類之間的統(tǒng)計(jì)線性關(guān)系；和定位模塊，用于如果所述點(diǎn)與所述聚類接近，并且如果所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系，則保持?jǐn)?shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
14.如權(quán)利要求13所述的系統(tǒng)，其中如果所述點(diǎn)不接近所述聚類，所述定位模塊就進(jìn)一步把所述點(diǎn)移入最接近的聚類。
15.如權(quán)利要求13所述的系統(tǒng)，還包括隔離機(jī)制，用于如果所述點(diǎn)不接近于所述聚類，并且所述點(diǎn)與所述聚類沒(méi)有統(tǒng)計(jì)線性關(guān)系，則就生成新的聚類；并把所述點(diǎn)移入所述新的聚類。
16.如權(quán)利要求13所述的系統(tǒng)，其中所述t-檢驗(yàn)?zāi)K還進(jìn)行設(shè)定預(yù)定的顯著性值；使用t表和皮爾遜相關(guān)系數(shù)確定p值；以及通過(guò)把所述P值和所述預(yù)定的顯著性值進(jìn)行比較來(lái)確定所述統(tǒng)計(jì)線性關(guān)系，其中，如果所述p值小于或等于所述預(yù)定的顯著性值，則所述統(tǒng)計(jì)線性關(guān)系就被找到。
17.一種機(jī)器可讀介質(zhì)，在它上面存儲(chǔ)有代表指令組的數(shù)據(jù)，當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候，使得所述機(jī)器執(zhí)行如下操作對(duì)具有多個(gè)點(diǎn)的數(shù)據(jù)集執(zhí)行k-均值聚類，其中所述k-均值聚類的執(zhí)行包括把所述數(shù)據(jù)集分區(qū)成多個(gè)聚類；確定所述多個(gè)點(diǎn)中的一個(gè)點(diǎn)對(duì)于所述多個(gè)聚類中的一個(gè)聚類的接近度；執(zhí)行t-檢驗(yàn)計(jì)算以確定所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系；和如果所述點(diǎn)接近于所述聚類，并且所述點(diǎn)與所述聚類具有統(tǒng)計(jì)線性關(guān)系，則保持所述數(shù)據(jù)集中的所述點(diǎn)的當(dāng)前位置。
18.如權(quán)利要求17所述的機(jī)器可讀介質(zhì)，其中當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候，如果所述點(diǎn)不和所述聚類接近，所述指令組還使所述機(jī)器把所述點(diǎn)移入到最接近的聚類。
19.如權(quán)利要求17所述的機(jī)器可讀介質(zhì)，其中當(dāng)所述機(jī)器執(zhí)行所述指令組的時(shí)候，如果所述點(diǎn)不接近于所述聚類，并且所述點(diǎn)與所述聚類不具有統(tǒng)計(jì)線性關(guān)系，則所述指令組還使所述機(jī)器生成新的聚類；并把所述點(diǎn)移入所述新的聚類。
20.如權(quán)利要求19所述的機(jī)器可讀介質(zhì)，其中使用隔離機(jī)制執(zhí)行所述新聚類的生成。
21.如權(quán)利要求17所述的機(jī)器可讀介質(zhì)，其中使用皮爾遜相關(guān)系數(shù)執(zhí)行所述接近度的確定。
22.如權(quán)利要求17的機(jī)器可讀介質(zhì)，其中所述指令組當(dāng)其被所述機(jī)器執(zhí)行的時(shí)候，還使所述機(jī)器設(shè)定預(yù)定的顯著性值；使用t表和皮爾遜相關(guān)系數(shù)確定p值；以及通過(guò)比較所述p值和所述預(yù)定的顯著性值來(lái)確定所述統(tǒng)計(jì)線性關(guān)系，其中如果所述p值小于或等于所述預(yù)定的顯著性值，則所述統(tǒng)計(jì)線性關(guān)系就被找到。
全文摘要
一種用于使用t－檢驗(yàn)計(jì)算進(jìn)行k－均值聚類的方法、設(shè)備和系統(tǒng)。按照一個(gè)實(shí)施例，k－均值聚類在數(shù)據(jù)集上執(zhí)行。在執(zhí)行k－均值聚類的時(shí)候，具有不同點(diǎn)的數(shù)據(jù)集被分區(qū)成幾個(gè)聚類。確定一個(gè)給定點(diǎn)對(duì)于一個(gè)給定聚類的緊密度。然后，執(zhí)行t－檢驗(yàn)計(jì)算以確定所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系。如果接近于聚類的點(diǎn)被找到，并且所述點(diǎn)與所述聚類之間的統(tǒng)計(jì)線性關(guān)系也被找到，則所述點(diǎn)的位置就保持不動(dòng)。
文檔編號(hào)G06F17/30GK1770161SQ20051011997
公開(kāi)日2006年5月10日申請(qǐng)日期2005年9月28日優(yōu)先權(quán)日2004年9月29日
發(fā)明者Q·刁申請(qǐng)人:英特爾公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：Q.刁
技術(shù)所有人：英特爾公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

k均值聚類算法相關(guān)技術(shù)

k均值聚類相關(guān)技術(shù)

模糊c均值聚類相關(guān)技術(shù)

k均值聚類分析相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

使用t－檢驗(yàn)計(jì)算的k－均值聚類的制作方法