本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及基于改進(jìn)聚類分析理解算法的數(shù)據(jù)智能處理方法和裝置。
背景技術(shù):
1、隨著時(shí)代的發(fā)展,體系試驗(yàn)涉及專業(yè)多、作戰(zhàn)力量復(fù)雜,體系試驗(yàn)條件、試驗(yàn)測(cè)試方法及試驗(yàn)涉及的專業(yè)知識(shí)范圍也越來(lái)越復(fù)雜多樣,分布式體系試驗(yàn)數(shù)據(jù)也愈來(lái)愈呈現(xiàn)出復(fù)雜多樣性特點(diǎn)。體系試驗(yàn)數(shù)據(jù)的這種復(fù)雜多樣性,使得分布式體系試驗(yàn)數(shù)據(jù)處理工作復(fù)雜化,而且作戰(zhàn)體系互相印證的特點(diǎn),使得體系試驗(yàn)數(shù)據(jù)處理顯得尤為迫切。目前的大規(guī)模的體系試驗(yàn)數(shù)據(jù)已難以采用人工方法處理,故分析理解算法成為了目前分布式試驗(yàn)數(shù)據(jù)采集和處理領(lǐng)域的主流。
2、目前常用的分布式試驗(yàn)數(shù)據(jù)處理方法主要以人工為主,依據(jù)具體參試裝備的特點(diǎn),有針對(duì)性地依據(jù)先驗(yàn)知識(shí)篩選獲得的試驗(yàn)數(shù)據(jù),對(duì)統(tǒng)計(jì)對(duì)象進(jìn)行數(shù)據(jù)處理,并結(jié)合參試裝備特點(diǎn)和獲得的數(shù)據(jù)去人為適配,進(jìn)行分類和分析總結(jié)。以人工為主的分布式試驗(yàn)數(shù)據(jù)處理方法費(fèi)時(shí)費(fèi)力,且易受到人為意識(shí)主導(dǎo),無(wú)法保證準(zhǔn)確對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行處理與后續(xù)的分析理解。
3、如圖1所示,給出基于人工的分布式試驗(yàn)數(shù)據(jù)處理方法流程。該技術(shù)是目前最為常用的分布式試驗(yàn)數(shù)據(jù)處理方法的一種實(shí)現(xiàn)。其方法實(shí)現(xiàn)是全程以人為本,針對(duì)參數(shù)裝備,依據(jù)先驗(yàn)知識(shí)進(jìn)行數(shù)據(jù)處理,將數(shù)據(jù)分為指標(biāo)數(shù)據(jù)、數(shù)值類型數(shù)據(jù)、其他關(guān)鍵數(shù)據(jù)及無(wú)關(guān)數(shù)據(jù),將無(wú)關(guān)數(shù)據(jù)舍棄,以人工方式將其分類為參試設(shè)備相關(guān)的數(shù)據(jù)。
4、基于人工的分布式試驗(yàn)數(shù)據(jù)處理方法,全流程均需要以人為自主判斷為基礎(chǔ),費(fèi)時(shí)費(fèi)力,增加了人力成本;此方法存在著一定的偏向性,同一試驗(yàn)數(shù)據(jù)處理結(jié)果因人而異,無(wú)法做到完成的準(zhǔn)確無(wú)誤;且對(duì)于數(shù)據(jù)復(fù)雜、特征不明顯的數(shù)據(jù)分析理解效果較差。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本發(fā)明提供了一種基于改進(jìn)聚類分析理解算法的試驗(yàn)數(shù)據(jù)智能處理方法,該方法包括以下步驟:
2、試驗(yàn)數(shù)據(jù)智能處理步驟,用于對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,去除非關(guān)鍵數(shù)據(jù),減少數(shù)據(jù)量;
3、試驗(yàn)數(shù)據(jù)分析理解步驟,用于對(duì)所述試驗(yàn)數(shù)據(jù)依次進(jìn)行數(shù)據(jù)預(yù)處理、隱私保護(hù)聚類分析計(jì)算;其中所述隱私保護(hù)聚類分析計(jì)算步驟包括:根據(jù)不同的數(shù)據(jù)類型分別利用基于決策樹的cludp算法或采用tcs算法進(jìn)行隱私保護(hù)聚類分析計(jì)算;
4、可用性分析步驟,用于對(duì)上述隱私保護(hù)聚類分析計(jì)算結(jié)果進(jìn)行可用性分析,將所述可用性分析的結(jié)果發(fā)送給數(shù)據(jù)使用者。
5、特別地,所述數(shù)據(jù)規(guī)約包括:合并屬性、逐步向前選擇、逐步向后刪除、決策樹歸納和主成分分析之中的至少一種。
6、特別地,所述對(duì)所述試驗(yàn)數(shù)據(jù)依次進(jìn)行數(shù)據(jù)預(yù)處理,其具體包括:首先數(shù)據(jù)使用者向數(shù)據(jù)擁有者發(fā)送聚類分析請(qǐng)求;然后,根據(jù)數(shù)據(jù)使用者的請(qǐng)求數(shù)據(jù)擁有者選擇聚類算法處理原始數(shù)據(jù)集d并得到標(biāo)簽數(shù)據(jù)集d*,將d*中數(shù)據(jù)記錄中的屬性表示為a*={a1,…,ad,class},其中class表示每條記錄中的屬性,a1,…,ad表示在d*中的類標(biāo)簽,在匿名化過(guò)程中利用類標(biāo)簽可幫助識(shí)別原始數(shù)據(jù)集d的聚類結(jié)構(gòu)。
7、特別地,根據(jù)不同的數(shù)據(jù)類型分別利用基于決策樹的cludp算法或采用tcs算法進(jìn)行隱私保護(hù)計(jì)算包括:
8、對(duì)預(yù)處理后的連續(xù)的所述試驗(yàn)數(shù)據(jù)利用基于決策樹的cludp算法進(jìn)行隱私保護(hù)計(jì)算;
9、針對(duì)所述試驗(yàn)數(shù)據(jù)中經(jīng)過(guò)上述數(shù)據(jù)轉(zhuǎn)換時(shí)的連續(xù)數(shù)據(jù)離散化步驟形成的分類數(shù)據(jù),或者所述試驗(yàn)數(shù)據(jù)中已有的分類數(shù)據(jù),采用tcs算法進(jìn)行隱私保護(hù)計(jì)算。
10、特別地,基于決策樹的cludp算法包括:
11、首先,初始化分類樹的根節(jié)點(diǎn)并為數(shù)值型屬性數(shù)量為dn;初始化劃分值divide0,其表示初始化時(shí)為數(shù)值型屬性設(shè)置的初始劃分值;
12、然后,計(jì)算每個(gè)候選屬性的效用分?jǐn)?shù),并選擇與其概率成正比的劃分值dividei,dividei表示在劃分過(guò)程中為數(shù)值型屬性選擇的第i個(gè)劃分值;如果dividei是數(shù)值型屬性,則為其選擇一個(gè)劃分值;在整個(gè)劃分過(guò)程中使用ε/2的隱私預(yù)算,剩余的用于劃分葉節(jié)點(diǎn);因此,隱私預(yù)算ε/2被均勻地分配到劃分過(guò)程的所有步驟,這些步驟分配的隱私預(yù)算被設(shè)置為ε′表示被分配到劃分過(guò)程各步驟的隱私預(yù)算,h表示決策樹的最大高度。
13、特別地,所述tcs算法包括:首先通過(guò)所述標(biāo)簽數(shù)據(jù)集d*中的屬性根據(jù)分類樹進(jìn)行泛化,所有屬性泛化到初始根節(jié)點(diǎn),再分別對(duì)子節(jié)點(diǎn)進(jìn)行泛化;然后,計(jì)算任意屬性和類標(biāo)簽之間的信息增益:
14、
15、其中hg(d)表示數(shù)據(jù)集d關(guān)于屬性g的信息熵,ω(class)表示所有可能的類別值|dg|表示數(shù)據(jù)集d中關(guān)于屬性g的所有數(shù)據(jù),表示在數(shù)據(jù)集d中,屬性g
16、取值為cls的數(shù)據(jù)記錄的數(shù)量;計(jì)算任意屬性泛化為其子節(jié)點(diǎn)的可用分?jǐn)?shù):
17、
18、其中:q(g)表示使用屬性g作為劃分屬性時(shí)的信息增益值,hg(d)表示數(shù)據(jù)集d關(guān)于屬性g的信息熵,度量屬性g的無(wú)序程度;|dc|表示子節(jié)點(diǎn)c中數(shù)據(jù)記錄的數(shù)量,|dg|表示數(shù)據(jù)集d中屬性g的數(shù)據(jù)記錄數(shù)量;hc(d)表示數(shù)據(jù)集d關(guān)于屬性c的信息熵;
19、children(g)代表屬性g進(jìn)行數(shù)據(jù)劃分后的子節(jié)點(diǎn);dg=∑c∈children(g)dc;在每一次泛化操作時(shí)計(jì)算效用分?jǐn)?shù),并根據(jù)指數(shù)機(jī)制選擇向下泛化的節(jié)點(diǎn)。
20、特別地,經(jīng)過(guò)tcs算法處理后,原始數(shù)據(jù)記錄分為不同的組;通過(guò)計(jì)算每個(gè)分組的噪聲大小的閾值確定該組是否被保留;對(duì)于數(shù)值型屬性dn,通過(guò)動(dòng)態(tài)生成或展開相應(yīng)的分類樹概率性的處理數(shù)值型屬性,計(jì)算數(shù)值劃分范圍內(nèi)各屬性值的效用分?jǐn)?shù),利用指數(shù)機(jī)制選擇一個(gè)屬性值g作為數(shù)值劃分s的概率:
21、
22、其中,i(s)表示在劃分p范圍內(nèi)的屬性值集合;dividevalue表示選擇的劃分屬性值;ε表示差分隱私的隱私預(yù)算參數(shù)。
23、特別地,對(duì)上述隱私保護(hù)聚類分析計(jì)算結(jié)果進(jìn)行可用性分析包括:
24、對(duì)所述cludp算法產(chǎn)生的數(shù)值型數(shù)據(jù)聚類結(jié)果,分析聚類準(zhǔn)確率、簇間距離和聚類數(shù)量指標(biāo);
25、對(duì)所述tcs算法保護(hù)后的分類數(shù)據(jù),評(píng)估信息損失程度、數(shù)據(jù)查詢可用性指標(biāo)。
26、本發(fā)明還公開了一種基于改進(jìn)聚類分析理解算法的試驗(yàn)數(shù)據(jù)智能處理裝置,包括:
27、試驗(yàn)數(shù)據(jù)智能處理模塊,用于對(duì)試驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,去除非關(guān)鍵數(shù)據(jù),減少數(shù)據(jù)量;
28、試驗(yàn)數(shù)據(jù)分析理解模塊,用于對(duì)所述試驗(yàn)數(shù)據(jù)依次進(jìn)行數(shù)據(jù)預(yù)處理、隱私保護(hù)聚類分析計(jì)算;其中所述隱私保護(hù)聚類分析計(jì)算步驟包括:根據(jù)不同的數(shù)據(jù)類型分別利用基于決策樹的cludp算法或采用tcs算法進(jìn)行隱私保護(hù)聚類分析計(jì)算;
29、可用性分析模塊,用于對(duì)上述隱私保護(hù)聚類分析計(jì)算結(jié)果進(jìn)行可用性分析,將所述可用性分析的結(jié)果發(fā)送給數(shù)據(jù)使用者。
30、有益效果:
31、本技術(shù)從實(shí)際需求出發(fā),針對(duì)目前最為常用的分布式試驗(yàn)數(shù)據(jù)處理方法中存在的費(fèi)時(shí)費(fèi)力和分析效果差特點(diǎn),設(shè)計(jì)了一種基于改進(jìn)聚類分析理解算法的試驗(yàn)數(shù)據(jù)智能處理技術(shù)。利用自動(dòng)化方法進(jìn)行分布式試驗(yàn)數(shù)據(jù)處理,省時(shí)省力,可以減少人為主觀判斷所帶來(lái)的誤差。
32、本技術(shù)將應(yīng)用流程分為兩個(gè)部分:一是試驗(yàn)數(shù)據(jù)智能處理階段,根據(jù)試驗(yàn)數(shù)據(jù)特點(diǎn)對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,去除非關(guān)鍵數(shù)據(jù),減少數(shù)據(jù)量;二是試驗(yàn)數(shù)據(jù)分析理解階段,利用聚類分析理解算法框架,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,分析數(shù)據(jù)隱私性,并進(jìn)行可用性分析,最終將所述可用性分析的結(jié)果發(fā)送給數(shù)據(jù)使用者并發(fā)送給數(shù)據(jù)使用者。