本發(fā)明涉及到局域網(wǎng)技術(shù)領(lǐng)域,特別是一種基于局域網(wǎng)的數(shù)據(jù)處理方法。
背景技術(shù):
目前,隨著計(jì)算機(jī)應(yīng)用的日益廣泛以及不同領(lǐng)域的業(yè)務(wù)種類的日益豐富,從與特定的對(duì)象相關(guān)的海量數(shù)據(jù)記錄中有效地挖掘出不同類別的對(duì)象以便針對(duì)不同類別的對(duì)象實(shí)施不同的處理方案變的越來(lái)越重要。
在現(xiàn)有的技術(shù)方案中,通常根據(jù)與目標(biāo)對(duì)象相關(guān)聯(lián)的一個(gè)或多個(gè)屬性數(shù)據(jù)來(lái)對(duì)目標(biāo)對(duì)象進(jìn)行分類,即基于每個(gè)目標(biāo)對(duì)象的某個(gè)或某些特定的屬性數(shù)據(jù)的值對(duì)目標(biāo)對(duì)象進(jìn)行分類。
而,現(xiàn)有的技術(shù)方案存在如下問(wèn)題:由于僅僅基于單一或數(shù)個(gè)屬性數(shù)據(jù)對(duì)目標(biāo)對(duì)象進(jìn)行分類,故分類結(jié)果的精確度較低,并且由于需要對(duì)每個(gè)目標(biāo)對(duì)象的屬性數(shù)據(jù)進(jìn)行相同的評(píng)估操作,故數(shù)據(jù)挖掘的效率較低。
因此,存在如下需求:提供能夠根據(jù)目標(biāo)對(duì)象的綜合特征來(lái)挖掘和分類目標(biāo)對(duì)象的基于局域網(wǎng)的數(shù)據(jù)挖掘方法。
技術(shù)實(shí)現(xiàn)要素:
為解決上述技術(shù)問(wèn)題,本發(fā)明提供了一種基于局域網(wǎng)的數(shù)據(jù)處理方法,其包括以下步驟:
S1:初始化數(shù)據(jù):將分布在局域網(wǎng)中的不同存儲(chǔ)空間中的數(shù)據(jù)進(jìn)行合并,將數(shù)據(jù)中的缺省項(xiàng)進(jìn)行補(bǔ)充完整并清洗臟數(shù)據(jù);
S2:數(shù)據(jù)選擇:從所述初始化處理的數(shù)據(jù)中將不同格式的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式;
S3:數(shù)據(jù)預(yù)處理:檢查所述統(tǒng)一格式的數(shù)據(jù),將含有噪聲數(shù)據(jù)、冗余的數(shù)據(jù)剔除,對(duì)缺省數(shù)據(jù)進(jìn)行補(bǔ)充,同時(shí)對(duì)數(shù)據(jù)通過(guò)編碼進(jìn)行標(biāo)識(shí),將數(shù)據(jù)轉(zhuǎn)化為0和1區(qū)分的數(shù)值型數(shù)據(jù);
S4:數(shù)據(jù)挖掘,具體包括以下步驟:
S41:確定挖掘目標(biāo):確定要發(fā)現(xiàn)的數(shù)據(jù)關(guān)鍵詞、數(shù)據(jù)類型、數(shù)據(jù)名稱、存儲(chǔ)日期作為目標(biāo)數(shù)據(jù)的特征值;
S42:選擇算法:根據(jù)目標(biāo)數(shù)據(jù)的具體特征值類型選擇相應(yīng)的數(shù)據(jù)挖掘算法;
S43:數(shù)據(jù)挖掘:采用所述挖掘算法對(duì)數(shù)據(jù)進(jìn)行處理,將挖掘出的數(shù)據(jù)附加上標(biāo)識(shí)后導(dǎo)出并存儲(chǔ)。
較佳地,所述局域網(wǎng)中的不同存儲(chǔ)空間為局域網(wǎng)中的服務(wù)器。
較佳地,所述挖掘算法為k—means聚類算法或者基于層次的聚類分析算法。
較佳地,所述缺省數(shù)據(jù)的補(bǔ)充內(nèi)容包括數(shù)據(jù)擴(kuò)展名與系統(tǒng)存儲(chǔ)路徑。
較佳地,所述臟數(shù)據(jù)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無(wú)意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯的數(shù)據(jù)。
本發(fā)明具有以下有益效果:
本發(fā)明提供的基于局域網(wǎng)的數(shù)據(jù)處理方法通過(guò)對(duì)不同的存儲(chǔ)空間內(nèi)存儲(chǔ)的數(shù)據(jù)進(jìn)行處理優(yōu)化,根據(jù)目標(biāo)數(shù)據(jù)的特征值通過(guò)挖掘算法進(jìn)行找尋,本發(fā)明在數(shù)據(jù)搜索時(shí)的速率提高,且搜索精度得到很大的保障。
當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例提供了一種基于局域網(wǎng)的數(shù)據(jù)處理方法,其包括以下步驟:
S1:初始化數(shù)據(jù):將分布在局域網(wǎng)中的不同存儲(chǔ)空間中的數(shù)據(jù)進(jìn)行合并,將數(shù)據(jù)中的缺省項(xiàng)進(jìn)行補(bǔ)充完整并清洗臟數(shù)據(jù);
S2:數(shù)據(jù)選擇:從所述初始化處理的數(shù)據(jù)中將不同格式的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一格式;
S3:數(shù)據(jù)預(yù)處理:檢查所述統(tǒng)一格式的數(shù)據(jù),將含有噪聲數(shù)據(jù)、冗余的數(shù)據(jù)剔除,對(duì)缺省數(shù)據(jù)進(jìn)行補(bǔ)充,同時(shí)對(duì)數(shù)據(jù)通過(guò)編碼進(jìn)行標(biāo)識(shí),將數(shù)據(jù)轉(zhuǎn)化為0和1區(qū)分的數(shù)值型數(shù)據(jù);
S4:數(shù)據(jù)挖掘,具體包括以下步驟:
S41:確定挖掘目標(biāo):確定要發(fā)現(xiàn)的數(shù)據(jù)關(guān)鍵詞、數(shù)據(jù)類型、數(shù)據(jù)名稱、存儲(chǔ)日期作為目標(biāo)數(shù)據(jù)的特征值;
S42:選擇算法:根據(jù)目標(biāo)數(shù)據(jù)的具體特征值類型選擇相應(yīng)的數(shù)據(jù)挖掘算法;
S43:數(shù)據(jù)挖掘:采用所述挖掘算法對(duì)數(shù)據(jù)進(jìn)行處理,將挖掘出的數(shù)據(jù)附加上標(biāo)識(shí)后導(dǎo)出并存儲(chǔ)。
本實(shí)施例中所述局域網(wǎng)中的不同存儲(chǔ)空間為局域網(wǎng)中的服務(wù)器。
其中所述挖掘算法為k—means聚類算法或者基于層次的聚類分析算法。
所述缺省數(shù)據(jù)的補(bǔ)充內(nèi)容包括數(shù)據(jù)擴(kuò)展名與系統(tǒng)存儲(chǔ)路徑。
所述臟數(shù)據(jù)是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無(wú)意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯的數(shù)據(jù)。
本發(fā)明提供的基于局域網(wǎng)的數(shù)據(jù)處理方法通過(guò)對(duì)不同的存儲(chǔ)空間內(nèi)存儲(chǔ)的數(shù)據(jù)進(jìn)行處理優(yōu)化,根據(jù)目標(biāo)數(shù)據(jù)的特征值通過(guò)挖掘算法進(jìn)行找尋,本發(fā)明在數(shù)據(jù)搜索時(shí)的速率提高,且搜索精度得到很大的保障。
以上公開(kāi)的本發(fā)明優(yōu)選實(shí)施例只是用于幫助闡述本發(fā)明。優(yōu)選實(shí)施例并沒(méi)有詳盡敘述所有的細(xì)節(jié),也不限制該發(fā)明僅為所述的具體實(shí)施方式。顯然,根據(jù)本說(shuō)明書(shū)的內(nèi)容,可作很多的修改和變化。本說(shuō)明書(shū)選取并具體描述這些實(shí)施例,是為了更好地解釋本發(fā)明的原理和實(shí)際應(yīng)用,從而使所屬技術(shù)領(lǐng)域技術(shù)人員能很好地理解和利用本發(fā)明。本發(fā)明僅受權(quán)利要求書(shū)及其全部范圍和等效物的限制。