1.一種基于局域網(wǎng)的數(shù)據(jù)處理方法,其特征在于,包括以下步驟:
S1:初始化數(shù)據(jù):將分布在局域網(wǎng)中的不同存儲空間中的數(shù)據(jù)進行合并,將數(shù)據(jù)中的缺省項進行補充完整并清洗臟數(shù)據(jù);
S2:數(shù)據(jù)選擇:從所述初始化處理的數(shù)據(jù)中將不同格式的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式;
S3:數(shù)據(jù)預處理:檢查所述統(tǒng)一格式的數(shù)據(jù),將含有噪聲數(shù)據(jù)、冗余的數(shù)據(jù)剔除,對缺省數(shù)據(jù)進行補充,同時對數(shù)據(jù)通過編碼進行標識,將數(shù)據(jù)轉(zhuǎn)化為0和1區(qū)分的數(shù)值型數(shù)據(jù);
S4:數(shù)據(jù)挖掘,具體包括以下步驟:
S41:確定挖掘目標:確定要發(fā)現(xiàn)的數(shù)據(jù)關(guān)鍵詞、數(shù)據(jù)類型、數(shù)據(jù)名稱、存儲日期作為目標數(shù)據(jù)的特征值;
S42:選擇算法:根據(jù)目標數(shù)據(jù)的具體特征值類型選擇相應(yīng)的數(shù)據(jù)挖掘算法;
S43:數(shù)據(jù)挖掘:采用所述挖掘算法對數(shù)據(jù)進行處理,將挖掘出的數(shù)據(jù)附加上標識后導出并存儲。
2.如權(quán)利要求1所述的基于局域網(wǎng)的數(shù)據(jù)處理方法,其特征在于,所述局域網(wǎng)中的不同存儲空間為局域網(wǎng)中的服務(wù)器。
3.如權(quán)利要求1所述的基于局域網(wǎng)的數(shù)據(jù)處理方法,其特征在于,所述挖掘算法為k—means聚類算法或者基于層次的聚類分析算法。
4.如權(quán)利要求1所述的基于局域網(wǎng)的數(shù)據(jù)處理方法,其特征在于,所述缺省數(shù)據(jù)的補充內(nèi)容包括數(shù)據(jù)擴展名與系統(tǒng)存儲路徑。
5.如權(quán)利要求1所述的基于局域網(wǎng)的數(shù)據(jù)處理方法,其特征在于,所述臟數(shù)據(jù)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯嶋H業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯的數(shù)據(jù)。