一種計算機快速海量數據聚類處理方法
【專利摘要】一種計算機快速海量數據聚類處理方法,所述方法首先對待分析數據對象進行預處理,完成數據對象的分組,然后計算組內數據對象的相似度矩陣,并依據相似度大小合并生成新數據對象,記錄合并生成過程同時刪除舊數據對象,如此反復操作直至數據對象的數目等于用戶期待的聚類分類數,最后通過查詢合并記錄獲取聚類處理結果。本方法一次執(zhí)行過程可直接獲得任意聚類數的各個子類數據對象的具體構成、子類數據對象數目及其質心,并可查詢得到各個子類內部數據對象分布概況與及其特征,極大地方便了海量數據的快速有效處理。
【專利說明】一種計算機快速海量數據聚類處理方法
【技術領域】
[0001]本發(fā)明涉及一種具有數據概況分析能力的快速海量數據分析方法,屬數據處理【技術領域】。
【背景技術】
[0002]計算機在對數據進行處理時,為提高處理速度,需要對海量數據進行聚類。所述聚類是按照數據本身的相似性(一般為距離準則,距離越小、相似度越大)把一個數據集分割成不同的類或簇,使類內數據對象的相似性盡可能大,同時類間數據對象的差異性也盡可能的大。聚類處理能夠幫助人們發(fā)現隱藏在海量數據背后的潛在規(guī)律,對于信息處理和知識發(fā)現具有重要的意義,在數據挖掘、機器學習、模式識別、統(tǒng)計學和生物學等許多領域得到了廣泛的應用。
[0003]聚類處理種類繁多,但效果較好的聚類方法大都計算復雜,速度較慢,無法滿足計算機大規(guī)模數據的快速聚類處理需求,此外,缺乏對數據概況的分析能力,也是現有聚類方法在計算機進行處理時普遍存在的一個缺陷。
【發(fā)明內容】
[0004]本發(fā)明的目的在于針對現有技術之弊端,提供一種具有數據概況分析能力的快速海量數據聚類方法,以解決計算機對大量數據進行聚類處理時的效率和聚類數據概況分析問題。
[0005]本發(fā)明所述問題是以下述技術方案實現的:
一種計算機快速海量數據聚類處理方法,所述方法以計算機作為數據處理、存儲的工具,處理時,計算機首先對`待分析數據對象進行預處理,完成數據對象的分組,然后計算組內數據對象的相似度矩陣,并依據相似度大小合并生成新數據對象,記錄合并生成過程同時刪除舊數據對象,如此反復操作直至數據對象的數目等于用戶期待的聚類分類數,最后通過查詢合并記錄獲取聚類處理結果,所述方法包括以下步驟:
a.數據對象預處理
對所有待分析數據對象(數目為I)進行預處理,預處理的具體方法是:對于任一給定數據維度是w的待聚類數據對象添加2個數值型屬性值&和〗_,其中&是該數據對象的唯一標識,其取值為自然數,數值大小依據預處理順序自I開始,依次遞增I到尤'brm是該待聚類數據對象的權重,其值均設定為I ;
b.建立一個0--1)行(5+ 2xm)列的數組RSC ,其初始值全取值為0,用于保存聚類
處理過程;
c.數據對象分組
將所有數據對象隨機均分力Y組,每組包含 =K/M個數據對象,若不能均分,則最后一組數據對象數目等于
【權利要求】
1.一種計算機快速海量數據聚類處理方法,其特征是,所述方法以計算機作為數據處理、存儲的工具,處理時,計算機首先對待分析數據對象進行預處理,完成數據對象的分組,然后計算組內數據對象的相似度矩陣,并依據相似度大小合并生成新數據對象,記錄合并生成過程同時刪除舊數據對象,如此反復操作直至數據對象的數目等于用戶期待的聚類分類數,最后通過查詢合并記錄獲取聚類處理結果,所述方法包括以下步驟: a.數據對象預處理 對所有數目力的待分析數據對象進行預處理,預處理的具體方法是:對于任一給定數據維度是的待聚類數據對象
2.根據權利要求1所述的計算機快速海量數據聚類處理方法,其特征是,步驟e中所述數據對象
3.根據權利要求2所述的計算機快速海量數據聚類處理方法,其特征是,步驟e中所述在MC中保存合并生成記錄的具體方法是:在55C的第I個取值全O的行、記為第β行的第一列賦值為
【文檔編號】G06F17/30GK103744935SQ201310748302
【公開日】2014年4月23日 申請日期:2013年12月31日 優(yōu)先權日:2013年12月31日
【發(fā)明者】李中, 楊宏, 張珂 申請人:華北電力大學(保定)