欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)處理方法及服務(wù)器與流程

文檔序號(hào):11250913閱讀:983來源:國(guó)知局
一種數(shù)據(jù)處理方法及服務(wù)器與流程

本發(fā)明涉及信息處理技術(shù),尤其涉及一種數(shù)據(jù)處理方法及服務(wù)器。



背景技術(shù):

對(duì)大數(shù)據(jù)進(jìn)行分析時(shí),通常會(huì)涉及數(shù)據(jù)的清洗和校準(zhǔn),如數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯(cuò)誤值的處理、重復(fù)值的檢測(cè)和消除等?,F(xiàn)有技術(shù)中,對(duì)數(shù)據(jù)進(jìn)行處理的流程示意圖,如圖1所示,包括源數(shù)據(jù)清洗、數(shù)據(jù)處理過程質(zhì)量監(jiān)測(cè)、在線監(jiān)控報(bào)警、監(jiān)控效果分析和手動(dòng)調(diào)整清洗校準(zhǔn)腳本或代碼邏輯;在對(duì)數(shù)據(jù)處理過程進(jìn)行質(zhì)量監(jiān)控時(shí),基于質(zhì)量規(guī)則庫進(jìn)行人工檢查、或基于業(yè)務(wù)經(jīng)驗(yàn)來編寫特定的處理程序;通過人工檢查或人工編寫特定的處理程序?qū)?shù)據(jù)進(jìn)行清洗和校準(zhǔn)時(shí),識(shí)別數(shù)據(jù)質(zhì)量問題的效率低、很難全面的處理諸多異常數(shù)據(jù)、消耗大量的時(shí)間和人力成本。并且,現(xiàn)有技術(shù)中的方案也未充分利用計(jì)算平臺(tái)提供的強(qiáng)大的數(shù)據(jù)處理能力。



技術(shù)實(shí)現(xiàn)要素:

為解決現(xiàn)有存在的技術(shù)問題,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)處理方法及服務(wù)器,能至少解決現(xiàn)有技術(shù)中存在的上述問題。

本發(fā)明實(shí)施例提供一種數(shù)據(jù)處理方法,所述方法包括:確定源數(shù)據(jù)的不同維度的特征的相似度;

將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

基于各所述處理階段所遵循的質(zhì)量規(guī)則,對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理。

上述方案中,所述確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則,包括:

確定相應(yīng)類別的源數(shù)據(jù)的輸入特征;

基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,用于表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系。

上述方案中,所述方法還包括:根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到數(shù)據(jù)的質(zhì)量,確定不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律;

根據(jù)所述變化規(guī)律,預(yù)測(cè)所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布。

上述方案中,所述方法還包括:

建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與所述異常數(shù)據(jù)輸出對(duì)象集合之間的第一關(guān)聯(lián)關(guān)系;

在決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則,得到第一匹配結(jié)果;

基于所述第一匹配結(jié)果修改所述決策樹模型。

上述方案中,所述方法還包括:

建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與所述異常數(shù)據(jù)輸出對(duì)象集合之間的第二關(guān)聯(lián)關(guān)系;

在決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度,得到第二匹配結(jié)果;

基于所述第二匹配結(jié)果修改所述決策樹模型。

上述方案中,所述方法還包括:

基于修改后的決策樹模型確定聚類后的源數(shù)據(jù)進(jìn)行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則,對(duì)聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

監(jiān)控源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量,形成數(shù)據(jù)質(zhì)量監(jiān)控的閉環(huán)。

本發(fā)明實(shí)施例還提供一種服務(wù)器,所述服務(wù)器包括至少一個(gè)處理器,以及至少一個(gè)存儲(chǔ)器;其中:

所述至少一個(gè)處理器,用于確定源數(shù)據(jù)的不同維度的特征的相似度;

將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則,對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

所述至少一個(gè)存儲(chǔ)器,用于存儲(chǔ)處理所述源數(shù)據(jù)所遵循的質(zhì)量規(guī)則。

上述方案中,所述處理器,具體用于確定相應(yīng)類別的源數(shù)據(jù)的輸入特征;

基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,用于表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系。

上述方案中,所述處理器,還用于根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到數(shù)據(jù)的質(zhì)量,確定不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律;

根據(jù)所述變化規(guī)律,預(yù)測(cè)所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布。

上述方案中,所述處理器,還用于建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與所述異常數(shù)據(jù)輸出對(duì)象集合之間的第一關(guān)聯(lián)關(guān)系;

在決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則,得到第一匹配結(jié)果;

基于所述第一匹配結(jié)果修改所述決策樹模型。

上述方案中,所述處理器,還用于建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與所述異常數(shù)據(jù)輸出對(duì)象集合之間的第二關(guān)聯(lián)關(guān)系;

在決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度,得到第二匹配結(jié)果;

基于所述第二匹配結(jié)果修改所述決策樹模型。

上述方案中,所述處理器,還用于基于修改后的決策樹模型確定對(duì)聚類后的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

監(jiān)控源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量,形成數(shù)據(jù)質(zhì)量監(jiān)控的閉環(huán)。

本發(fā)明實(shí)施例中,服務(wù)器確定源數(shù)據(jù)的不同維度的特征的相似度,并將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別,以實(shí)現(xiàn)對(duì)所述源數(shù)據(jù)的聚類;對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理所包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則,基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;如此,能夠?qū)崿F(xiàn)對(duì)每個(gè)所述類別的源數(shù)據(jù)利用最高效的處理路徑進(jìn)行自動(dòng)化處理,不僅能夠提高識(shí)別數(shù)據(jù)質(zhì)量問題的效率、節(jié)省時(shí)間和人力成本,而且能夠全面的處理諸多異常數(shù)據(jù),提高數(shù)據(jù)處理能力。

附圖說明

圖1為本發(fā)明實(shí)施例對(duì)數(shù)據(jù)進(jìn)行處理的流程示意圖;

圖2為本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程示意圖;

圖3為本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程示意圖;

圖4為本發(fā)明實(shí)施例一種修改決策樹模型的處理流程示意圖;

圖5為本發(fā)明實(shí)施例另一種修改決策樹模型的處理流程示意圖;

圖6為本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程示意圖;

圖7為本發(fā)明實(shí)施例形成質(zhì)量監(jiān)控和改善閉環(huán)的數(shù)據(jù)處理流程示意圖;

圖8為本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程示意圖;

圖9為本發(fā)明實(shí)施例一種服務(wù)器的組成結(jié)構(gòu)示意圖。

具體實(shí)施方式

為更好地理解本發(fā)明實(shí)施例,下面對(duì)數(shù)據(jù)清洗和校準(zhǔn)的各階段進(jìn)行簡(jiǎn)單的說明。

在對(duì)數(shù)據(jù)進(jìn)行清洗和校準(zhǔn)時(shí),通常包括如下四個(gè)階段:數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯(cuò)誤值的處理、重復(fù)值的檢測(cè)及消除。其中,數(shù)據(jù)一致性檢查,是根據(jù)每個(gè)變量的合理取值范圍和相互關(guān)系,檢查數(shù)據(jù)是否滿足要求,篩選出超出合理取值范圍、邏輯不合理、或相互矛盾的數(shù)據(jù)。無效值和缺失值的處理,是指在數(shù)據(jù)的采集、傳輸、加工處理過程中,會(huì)出現(xiàn)調(diào)查、錄入誤差、或軟件處理程序的缺陷,進(jìn)而導(dǎo)致數(shù)據(jù)中出現(xiàn)無效值和缺失值;需對(duì)該無效值和缺失值給予相應(yīng)的處理。異常值和錯(cuò)誤值的處理,是在數(shù)據(jù)清洗和校準(zhǔn)的過程中,利用統(tǒng)計(jì)分析的方法識(shí)別可能的錯(cuò)誤值和異常值,如偏差分析、識(shí)別不遵守分布或回歸方程的值,也可以利用簡(jiǎn)單的常識(shí)性規(guī)則、業(yè)務(wù)特定規(guī)則等規(guī)則庫檢查數(shù)據(jù)值,或利用不同屬性間的約束、外部的數(shù)據(jù)來檢測(cè)和清洗數(shù)據(jù)。重復(fù)值的檢測(cè)及消除,是指通過檢測(cè)數(shù)據(jù)庫中各記錄的屬性值是否相等,將屬性值相同的記錄合并為一條記錄來消除重復(fù)值。

下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。

實(shí)施例一

本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程,如圖2所示,包括以下步驟:

步驟s101,確定源數(shù)據(jù)的不同維度的特征的相似度,將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

具體地,服務(wù)器對(duì)于輸入的源數(shù)據(jù),確定源數(shù)據(jù)的不同維度的特征的相似度;以k-means為例,對(duì)于由n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù),n為大于1的正整數(shù),從所述源數(shù)據(jù)中任意選擇k個(gè)數(shù)據(jù)作為初始聚類中心,k為大于1、且小于n的正整數(shù);計(jì)算n個(gè)數(shù)據(jù)中除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分別與所述k個(gè)數(shù)據(jù)形成的初始聚類中心的相似度;并把除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分配給與其最相似的聚類,形成第一聚類;即將n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個(gè)第一聚類。對(duì)于多個(gè)第一聚類中的任意一個(gè)第一聚類,計(jì)算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值,得到相應(yīng)的聚類中心?;诘玫降木垲愔行模捎枚噍喌接?jì)算重復(fù)上述聚類過程,直至標(biāo)準(zhǔn)的測(cè)度函數(shù)開始收斂為止。

這里,所述相似度是針對(duì)某一特定的維度,兩個(gè)數(shù)據(jù)之間的距離;可采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。

通過將源數(shù)據(jù)聚類到相應(yīng)維度的類別,使得源數(shù)據(jù)按照某一維度的特征聚類為若干群組,且各聚類自身盡可能的緊湊,各聚類之間盡可能的分開。

步驟s102,對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

具體地,對(duì)于同一個(gè)源數(shù)據(jù),利用不同的處理階段的執(zhí)行順序進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量不同;對(duì)于一個(gè)源數(shù)據(jù),在同一個(gè)處理階段遵循不同的質(zhì)量規(guī)則進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量也不同。其中,所述處理階段包括:數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯(cuò)誤值的處理、重復(fù)值的檢測(cè)及消除。如,有些源數(shù)據(jù)最高效的處理路徑是首先進(jìn)行去空去重處理,然后再補(bǔ)充缺失值;而有些數(shù)據(jù)最高效的處理路徑是先保留null值記錄,再在完整的數(shù)據(jù)記錄集合中進(jìn)行過濾清洗。

因此,對(duì)于一個(gè)類別的源數(shù)據(jù),服務(wù)器首先確定該類別的源數(shù)據(jù)的輸入特征,基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

這里,所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,能夠表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系;通過源數(shù)據(jù)的數(shù)據(jù)格式類型、數(shù)據(jù)來源渠道、數(shù)據(jù)其他維度特征、數(shù)據(jù)隨機(jī)組合的維度特征等屬性,在決策樹模型中查找與所述源數(shù)據(jù)對(duì)應(yīng)的質(zhì)量規(guī)則,即對(duì)所述源數(shù)據(jù)進(jìn)行處理時(shí)所應(yīng)用的質(zhì)量規(guī)則。

在決策樹模型中,樹中每個(gè)節(jié)點(diǎn)表示某一聚類數(shù)據(jù)清洗過程中節(jié)點(diǎn)的實(shí)例對(duì)象,而每個(gè)分叉路徑則代表基于不同的質(zhì)量規(guī)則優(yōu)化后的某個(gè)可能的屬性值;每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值;即利用不同的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理后得到的不同程度數(shù)據(jù)質(zhì)量的指標(biāo)權(quán)重。

步驟s103,基于各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

具體地,服務(wù)器按照上述確定的不同處理階段的執(zhí)行順序?qū)υ磾?shù)據(jù)進(jìn)行處理;在特定的處理階段,利用上述確定的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理。

實(shí)施例二

本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程,如圖3所示,包括以下步驟:

步驟s201,確定源數(shù)據(jù)的不同維度的特征的相似度,將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

具體地,服務(wù)器對(duì)于輸入的源數(shù)據(jù),確定源數(shù)據(jù)的不同維度的特征的相似度;以k-means為例,對(duì)于由n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù),n為大于1的正整數(shù),從所述源數(shù)據(jù)中任意選擇k個(gè)數(shù)據(jù)作為初始聚類中心,k為大于1、且小于n的正整數(shù);計(jì)算n個(gè)數(shù)據(jù)中除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分別與所述k個(gè)數(shù)據(jù)形成的初始聚類中心的相似度;并把除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分配給與其最相似的聚類,形成第一聚類;即將n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個(gè)第一聚類。對(duì)于多個(gè)第一聚類中的任意一個(gè)第一聚類,計(jì)算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值,得到相應(yīng)的聚類中心。基于得到的聚類中心,采用多輪迭代式計(jì)算重復(fù)上述聚類過程,直至標(biāo)準(zhǔn)的測(cè)度函數(shù)開始收斂為止。

這里,所述相似度是針對(duì)某一特定的維度,兩個(gè)數(shù)據(jù)之間的距離;可采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。

通過將源數(shù)據(jù)聚類到相應(yīng)維度的類別,使得源數(shù)據(jù)按照某一維度的特征聚類為若干群組,且各聚類自身盡可能的緊湊,各聚類之間盡可能的分開。

步驟s202,對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

具體地,對(duì)于同一個(gè)源數(shù)據(jù),利用不同的處理階段的執(zhí)行順序進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量不同;對(duì)于一個(gè)源數(shù)據(jù),在同一個(gè)處理階段遵循不同的質(zhì)量規(guī)則進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量也不同。其中,所述處理階段包括:數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯(cuò)誤值的處理、重復(fù)值的檢測(cè)及消除。如,有些源數(shù)據(jù)最高效的處理路徑是首先進(jìn)行去空去重處理,然后再補(bǔ)充缺失值;而有些數(shù)據(jù)最高效的處理路徑是先保留null值記錄,再在完整的數(shù)據(jù)記錄集合中進(jìn)行過濾清洗。

因此,對(duì)于一個(gè)類別的源數(shù)據(jù),服務(wù)器首先確定該類別的源數(shù)據(jù)的輸入特征,基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

這里,所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,能夠表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系;通過源數(shù)據(jù)的數(shù)據(jù)格式類型、數(shù)據(jù)來源渠道、數(shù)據(jù)其他維度特征、數(shù)據(jù)隨機(jī)組合的維度特征等屬性,在決策樹模型中查找與所述源數(shù)據(jù)對(duì)應(yīng)的質(zhì)量規(guī)則,即對(duì)所述源數(shù)據(jù)進(jìn)行處理時(shí)所應(yīng)用的質(zhì)量規(guī)則。

在決策樹模型中,樹中每個(gè)節(jié)點(diǎn)表示某一聚類數(shù)據(jù)清洗過程中節(jié)點(diǎn)的實(shí)例對(duì)象,而每個(gè)分叉路徑則代表基于不同的質(zhì)量規(guī)則優(yōu)化后的某個(gè)可能的屬性值;每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值;即利用不同的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理后得到的不同程度數(shù)據(jù)質(zhì)量的指標(biāo)權(quán)重。

步驟s203,基于各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

具體地,服務(wù)器按照上述確定的不同處理階段的執(zhí)行順序?qū)υ磾?shù)據(jù)進(jìn)行處理;在特定的處理階段,利用上述確定的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理。

步驟s204,修改決策樹模型;

服務(wù)器修改決策樹模型時(shí),至少包括兩種實(shí)現(xiàn)方式;一種修改決策樹模型的處理流程,如圖4所示,包括以下步驟:

步驟s2001,建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

具體地,服務(wù)器記錄源數(shù)據(jù)經(jīng)處理的各階段的節(jié)點(diǎn)數(shù)據(jù),即記錄在每個(gè)處理階段的輸入數(shù)據(jù)、利用相應(yīng)的質(zhì)量規(guī)則進(jìn)行處理后得到的輸出數(shù)據(jù)、及所述質(zhì)量規(guī)則之間的關(guān)聯(lián)關(guān)系。

步驟s2002,基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與異常數(shù)據(jù)輸出對(duì)象集合之間的第一關(guān)聯(lián)關(guān)系;

這里,服務(wù)器針對(duì)源數(shù)據(jù)的各個(gè)處理階段,均會(huì)建立第一關(guān)聯(lián)關(guān)系;所述異常數(shù)據(jù)輸出對(duì)象集合包括:每個(gè)節(jié)點(diǎn)的數(shù)據(jù)質(zhì)量監(jiān)控告警數(shù)據(jù)的集合、基于人工方式標(biāo)注的分層清洗失敗的數(shù)據(jù);所述第一質(zhì)量規(guī)則庫是指在所述決策樹模型中新引入的質(zhì)量規(guī)則集合;服務(wù)器通過所述關(guān)聯(lián)關(guān)系能夠確定新引入的質(zhì)量規(guī)則集合中的具體那一條質(zhì)量規(guī)則與異常數(shù)據(jù)輸出對(duì)象集合之間存在關(guān)聯(lián)關(guān)系。

步驟s2003,在所述決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則,得到第一匹配結(jié)果;

具體地,服務(wù)器在所述決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則,即查找與異常數(shù)據(jù)輸出對(duì)象集合存在關(guān)聯(lián)關(guān)系的質(zhì)量規(guī)則。

步驟s2004,基于所述第一匹配結(jié)果修改所述決策樹模型;

具體地,服務(wù)器修改在所述決策樹模型中查找出的質(zhì)量規(guī)則,以便后續(xù)對(duì)源數(shù)據(jù)進(jìn)行優(yōu)化處理,進(jìn)而形成數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)質(zhì)量改善的閉環(huán)。

另一種修改決策樹模型的處理流程,如圖5所示,包括以下步驟:

步驟s2005,建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

具體地,服務(wù)器記錄源數(shù)據(jù)經(jīng)處理的各階段的節(jié)點(diǎn)數(shù)據(jù),即記錄在每個(gè)處理階段的輸入數(shù)據(jù)、利用相應(yīng)的質(zhì)量規(guī)則進(jìn)行處理后得到的輸出數(shù)據(jù)、及所述質(zhì)量規(guī)則之間的關(guān)聯(lián)關(guān)系。

步驟s2006,基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與異常數(shù)據(jù)輸出對(duì)象集合之間的第二關(guān)聯(lián)關(guān)系;

這里,所述數(shù)據(jù)質(zhì)量程度是指數(shù)據(jù)質(zhì)量等級(jí)參數(shù),數(shù)據(jù)質(zhì)量等級(jí)參數(shù)的設(shè)定會(huì)影響到數(shù)據(jù)處理的效率、及源數(shù)據(jù)經(jīng)過處理后形成目標(biāo)數(shù)據(jù)的質(zhì)量。

步驟s2007,在所述決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度,得到第二匹配結(jié)果;

具體地,服務(wù)器在所述決策樹模型中查找與異常數(shù)據(jù)輸出對(duì)象集合存在關(guān)聯(lián)關(guān)系的數(shù)據(jù)質(zhì)量程度。

步驟s2008,基于所述第二匹配結(jié)果修改所述決策樹模型;

具體地,服務(wù)器在所述決策樹模型中修改上述查找得到的數(shù)據(jù)質(zhì)量程度,以便后續(xù)對(duì)源數(shù)據(jù)進(jìn)行優(yōu)化處理,進(jìn)而形成數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)質(zhì)量改善的閉環(huán)。

實(shí)施例三

本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程,如圖6所示,包括以下步驟:

步驟s301,確定源數(shù)據(jù)的不同維度的特征的相似度,將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

具體地,服務(wù)器對(duì)于輸入的源數(shù)據(jù),確定源數(shù)據(jù)的不同維度的特征的相似度;以k-means為例,對(duì)于由n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù),n為大于1的正整數(shù),從所述源數(shù)據(jù)中任意選擇k個(gè)數(shù)據(jù)作為初始聚類中心,k為大于1、且小于n的正整數(shù);計(jì)算n個(gè)數(shù)據(jù)中除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分別與所述k個(gè)數(shù)據(jù)形成的初始聚類中心的相似度;并把除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分配給與其最相似的聚類,形成第一聚類;即將n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個(gè)第一聚類。對(duì)于多個(gè)第一聚類中的任意一個(gè)第一聚類,計(jì)算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值,得到相應(yīng)的聚類中心?;诘玫降木垲愔行?,采用多輪迭代式計(jì)算重復(fù)上述聚類過程,直至標(biāo)準(zhǔn)的測(cè)度函數(shù)開始收斂為止。

這里,所述相似度是針對(duì)某一特定的維度,兩個(gè)數(shù)據(jù)之間的距離;可采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。

通過將源數(shù)據(jù)聚類到相應(yīng)維度的類別,使得源數(shù)據(jù)按照某一維度的特征聚類為若干群組,且各聚類自身盡可能的緊湊,各聚類之間盡可能的分開。

步驟s302,對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

具體地,對(duì)于同一個(gè)源數(shù)據(jù),利用不同的處理階段的執(zhí)行順序進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量不同;對(duì)于一個(gè)源數(shù)據(jù),在同一個(gè)處理階段遵循不同的質(zhì)量規(guī)則進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量也不同。其中,所述處理階段包括:數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯(cuò)誤值的處理、重復(fù)值的檢測(cè)及消除。如,有些源數(shù)據(jù)最高效的處理路徑是首先進(jìn)行去空去重處理,然后再補(bǔ)充缺失值;而有些數(shù)據(jù)最高效的處理路徑是先保留null值記錄,再在完整的數(shù)據(jù)記錄集合中進(jìn)行過濾清洗。

因此,對(duì)于一個(gè)類別的源數(shù)據(jù),服務(wù)器首先確定該類別的源數(shù)據(jù)的輸入特征,基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

這里,所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,能夠表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系;通過源數(shù)據(jù)的數(shù)據(jù)格式類型、數(shù)據(jù)來源渠道、數(shù)據(jù)其他維度特征、數(shù)據(jù)隨機(jī)組合的維度特征等屬性,在決策樹模型中查找與所述源數(shù)據(jù)對(duì)應(yīng)的質(zhì)量規(guī)則,即對(duì)所述源數(shù)據(jù)進(jìn)行處理時(shí)所應(yīng)用的質(zhì)量規(guī)則。

在決策樹模型中,樹中每個(gè)節(jié)點(diǎn)表示某一聚類數(shù)據(jù)清洗過程中節(jié)點(diǎn)的實(shí)例對(duì)象,而每個(gè)分叉路徑則代表基于不同的質(zhì)量規(guī)則優(yōu)化后的某個(gè)可能的屬性值;每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值;即利用不同的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理后得到的不同程度數(shù)據(jù)質(zhì)量的指標(biāo)權(quán)重。

步驟s303,基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

具體地,服務(wù)器按照上述確定的不同處理階段的執(zhí)行順序?qū)υ磾?shù)據(jù)進(jìn)行處理;在特定的處理階段,利用上述確定的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理。

步驟s304,對(duì)經(jīng)處理的源數(shù)據(jù)進(jìn)行在線監(jiān)控;

具體地,服務(wù)器基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理時(shí),服務(wù)器按照預(yù)設(shè)的監(jiān)控規(guī)則實(shí)時(shí)監(jiān)控處理過程中生成的異常數(shù)據(jù),并在生成異常數(shù)據(jù)時(shí)進(jìn)行報(bào)警提示;

這里,所述異常數(shù)據(jù)包括:基于人工方式標(biāo)注的處理失敗的數(shù)據(jù)、在各處理階段形成目標(biāo)數(shù)據(jù)過程中的不滿足預(yù)定條件的中間監(jiān)控?cái)?shù)據(jù)等;上述異常數(shù)據(jù)形成異常數(shù)據(jù)輸出對(duì)象集合。

步驟s305,修改決策樹模型和監(jiān)控規(guī)則;

具體地,服務(wù)器在監(jiān)控到異常數(shù)據(jù)輸出后,將自動(dòng)觸發(fā)調(diào)整監(jiān)控規(guī)則和所述決策樹模型中的質(zhì)量規(guī)則,形成質(zhì)量監(jiān)控和改善的閉環(huán),如圖7所示;如此,不需要通過人工檢查或人工編寫特定的處理程序?qū)?shù)據(jù)進(jìn)行清洗和校準(zhǔn),便能夠高效的識(shí)別數(shù)據(jù)質(zhì)量問題,節(jié)省大量的時(shí)間和人力成本。

步驟s306,基于修改后的決策樹模型確定聚類后的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

步驟s307,基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理。

實(shí)施例四

本發(fā)明實(shí)施例一種數(shù)據(jù)處理方法的處理流程,如圖8所示,包括以下步驟:

步驟s401,確定源數(shù)據(jù)的不同維度的特征的相似度,將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

具體地,服務(wù)器對(duì)于輸入的源數(shù)據(jù),確定源數(shù)據(jù)的不同維度的特征的相似度;以k-means為例,對(duì)于由n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù),n為大于1的正整數(shù),從所述源數(shù)據(jù)中任意選擇k個(gè)數(shù)據(jù)作為初始聚類中心,k為大于1、且小于n的正整數(shù);計(jì)算n個(gè)數(shù)據(jù)中除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分別與所述k個(gè)數(shù)據(jù)形成的初始聚類中心的相似度;并把除k個(gè)數(shù)據(jù)以外的每個(gè)數(shù)據(jù)分配給與其最相似的聚類,形成第一聚類;即將n個(gè)數(shù)據(jù)構(gòu)成的源數(shù)據(jù)形成多個(gè)第一聚類。對(duì)于多個(gè)第一聚類中的任意一個(gè)第一聚類,計(jì)算該第一聚類內(nèi)的所述數(shù)據(jù)的平均值,得到相應(yīng)的聚類中心?;诘玫降木垲愔行?,采用多輪迭代式計(jì)算重復(fù)上述聚類過程,直至標(biāo)準(zhǔn)的測(cè)度函數(shù)開始收斂為止。

這里,所述相似度是針對(duì)某一特定的維度,兩個(gè)數(shù)據(jù)之間的距離;可采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù)。

通過將源數(shù)據(jù)聚類到相應(yīng)維度的類別,使得源數(shù)據(jù)按照某一維度的特征聚類為若干群組,且各聚類自身盡可能的緊湊,各聚類之間盡可能的分開。

步驟s402,對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

具體地,對(duì)于同一個(gè)源數(shù)據(jù),利用不同的處理階段的執(zhí)行順序進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量不同;對(duì)于一個(gè)源數(shù)據(jù),在同一個(gè)處理階段遵循不同的質(zhì)量規(guī)則進(jìn)行處理得到的目標(biāo)數(shù)據(jù)的質(zhì)量也不同。其中,所述處理階段包括:數(shù)據(jù)一致性檢查、無效值和缺失值的處理、異常值和錯(cuò)誤值的處理、重復(fù)值的檢測(cè)及消除。如,有些源數(shù)據(jù)最高效的處理路徑是首先進(jìn)行去空去重處理,然后再補(bǔ)充缺失值;而有些數(shù)據(jù)最高效的處理路徑是先保留null值記錄,再在完整的數(shù)據(jù)記錄集合中進(jìn)行過濾清洗。

因此,對(duì)于一個(gè)類別的源數(shù)據(jù),服務(wù)器首先確定該類別的源數(shù)據(jù)的輸入特征,基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則。

這里,所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,能夠表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系;通過源數(shù)據(jù)的數(shù)據(jù)格式類型、數(shù)據(jù)來源渠道、數(shù)據(jù)其他維度特征、數(shù)據(jù)隨機(jī)組合的維度特征等屬性,在決策樹模型中查找與所述源數(shù)據(jù)對(duì)應(yīng)的質(zhì)量規(guī)則,即對(duì)所述源數(shù)據(jù)進(jìn)行處理時(shí)所應(yīng)用的質(zhì)量規(guī)則。

在決策樹模型中,樹中每個(gè)節(jié)點(diǎn)表示某一聚類數(shù)據(jù)清洗過程中節(jié)點(diǎn)的實(shí)例對(duì)象,而每個(gè)分叉路徑則代表基于不同的質(zhì)量規(guī)則優(yōu)化后的某個(gè)可能的屬性值;每個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)從根節(jié)點(diǎn)到該葉節(jié)點(diǎn)所經(jīng)歷的路徑所表示的對(duì)象的值;即利用不同的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理后得到的不同程度數(shù)據(jù)質(zhì)量的指標(biāo)權(quán)重。

步驟s403,基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

具體地,服務(wù)器按照上述確定的不同處理階段的執(zhí)行順序?qū)υ磾?shù)據(jù)進(jìn)行處理;在特定的處理階段,利用上述確定的質(zhì)量規(guī)則對(duì)源數(shù)據(jù)進(jìn)行處理。

步驟s404,對(duì)經(jīng)處理的源數(shù)據(jù)進(jìn)行在線監(jiān)控;

具體地,服務(wù)器基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理時(shí),服務(wù)器實(shí)時(shí)監(jiān)控處理過程中生成的異常數(shù)據(jù),并在生成異常數(shù)據(jù)時(shí)進(jìn)行報(bào)警提示;

這里,所述異常數(shù)據(jù)包括:基于人工方式標(biāo)注的處理失敗的數(shù)據(jù)、在各處理階段形成目標(biāo)數(shù)據(jù)過程中的不滿足預(yù)定條件的中間監(jiān)控?cái)?shù)據(jù)等;上述異常數(shù)據(jù)形成異常數(shù)據(jù)輸出對(duì)象集合。

服務(wù)器在監(jiān)控到異常數(shù)據(jù)輸出后,將自動(dòng)觸發(fā)調(diào)整所述決策樹模型中的質(zhì)量規(guī)則,不需要通過人工檢查或人工編寫特定的處理程序?qū)?shù)據(jù)進(jìn)行清洗和校準(zhǔn),進(jìn)而高效的識(shí)別數(shù)據(jù)質(zhì)量問題,節(jié)省大量的時(shí)間和人力成本。

步驟s405,根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到數(shù)據(jù)的質(zhì)量,確定不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律;

具體地,服務(wù)器根據(jù)歷史監(jiān)控報(bào)警數(shù)據(jù)、歷次人工修改的質(zhì)量規(guī)則、不同處理階段的數(shù)據(jù)分布和質(zhì)量狀態(tài)數(shù)據(jù)建立回歸模型,歸納出不同處理階段數(shù)據(jù)質(zhì)量變化的規(guī)律。在各處理階段,服務(wù)器基于不同的質(zhì)量規(guī)則調(diào)用的腳本得到的輸出數(shù)據(jù)確定因變量和自變量;并建立因變量和自變量之間的關(guān)系式,即回歸模型;并對(duì)所述回歸模型的可信度進(jìn)行檢驗(yàn),即校驗(yàn)所述回歸模型是否可信。

服務(wù)器還根據(jù)數(shù)據(jù)處理過程中各節(jié)點(diǎn)所應(yīng)用的質(zhì)量規(guī)則、為提高數(shù)據(jù)質(zhì)量的調(diào)節(jié)控制數(shù)據(jù)、不同階段的輸入/輸出質(zhì)量指標(biāo)、基于人工方式標(biāo)注的數(shù)據(jù)處理成功和失敗的數(shù)據(jù)及異常數(shù)據(jù)輸出對(duì)象集合建立所述數(shù)據(jù)處理過程中各處理階段的關(guān)聯(lián)分析預(yù)測(cè)模型,根據(jù)所述關(guān)聯(lián)分析預(yù)測(cè)模型可實(shí)現(xiàn)對(duì)數(shù)據(jù)處理各階段的預(yù)測(cè)。

步驟s406,根據(jù)所述變化規(guī)律,預(yù)測(cè)所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布;

具體地,服務(wù)器可根據(jù)所述回歸模型預(yù)測(cè)源數(shù)據(jù)在各處理階段經(jīng)處理后得到的數(shù)據(jù)的質(zhì)量分布;并根據(jù)源數(shù)據(jù)的變化和用戶干預(yù)的需求自動(dòng)預(yù)測(cè)未來某個(gè)時(shí)間點(diǎn)不同階段的特定項(xiàng)數(shù)據(jù)質(zhì)量維度的趨勢(shì)。服務(wù)器也可根據(jù)所述關(guān)聯(lián)分析預(yù)測(cè)模型預(yù)測(cè)源數(shù)據(jù)在各處理階段經(jīng)處理后得到的數(shù)據(jù)的質(zhì)量分布。服務(wù)器也可根據(jù)實(shí)際需要為所述回歸模型和所述關(guān)聯(lián)分析預(yù)測(cè)模型配置相應(yīng)的權(quán)重,結(jié)合所述回歸模型和所述關(guān)聯(lián)分析預(yù)測(cè)模型預(yù)測(cè)源數(shù)據(jù)在各處理階段經(jīng)處理后得到的數(shù)據(jù)的質(zhì)量分布。

需要說明的是,本發(fā)明上述實(shí)施例所述的服務(wù)器執(zhí)行的功能可由一個(gè)獨(dú)立的服務(wù)器實(shí)現(xiàn),也可由多個(gè)相互之間獨(dú)立的服務(wù)器構(gòu)成的服務(wù)器集群實(shí)現(xiàn)。

實(shí)施例五

本發(fā)明實(shí)施例提供一種服務(wù)器,所述服務(wù)器的組成結(jié)構(gòu),如圖9所示,包括至少一個(gè)處理器1以及至少一個(gè)存儲(chǔ)器2;其中,

所述至少一個(gè)處理器1,用于確定源數(shù)據(jù)的不同維度的特征的相似度;

將相應(yīng)維度的相似度滿足條件的所述源數(shù)據(jù)聚類到相應(yīng)維度的類別;

對(duì)于每個(gè)所述類別的源數(shù)據(jù),確定對(duì)相應(yīng)類別的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)相應(yīng)類別的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

所述至少一個(gè)存儲(chǔ)器2,用于存儲(chǔ)處理所述源數(shù)據(jù)所遵循的質(zhì)量規(guī)則。

上述方案中,所述處理器1,具體用于確定相應(yīng)類別的源數(shù)據(jù)的輸入特征;

基于所述輸入特征在決策樹模型中查找處理所述相應(yīng)類別的源數(shù)據(jù)包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

所述決策樹模型為基于歷史源數(shù)據(jù)訓(xùn)練得到,以表征不同輸入特征的歷史源數(shù)據(jù)與所應(yīng)用的質(zhì)量規(guī)則的對(duì)應(yīng)關(guān)系。

上述方案中,所述處理器1,還用于根據(jù)歷史的不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到數(shù)據(jù)的質(zhì)量,確定不同類別的所述源數(shù)據(jù)在各所述處理階段進(jìn)行處理后得到的數(shù)據(jù)的質(zhì)量的變化規(guī)律;

根據(jù)所述變化規(guī)律,預(yù)測(cè)所述源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量的分布。

上述方案中,所述處理器1,還用于建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

基于所述關(guān)聯(lián)關(guān)系確定第一質(zhì)量規(guī)則庫集合與異常數(shù)據(jù)輸出對(duì)象集合之間的第一關(guān)聯(lián)關(guān)系;

在所述決策樹模型中查找與所述第一關(guān)聯(lián)關(guān)系匹配的質(zhì)量規(guī)則,得到第一匹配結(jié)果;

基于所述第一匹配結(jié)果修改所述決策樹模型。

上述方案中,所述處理器1,還用于建立用于表征歷史源數(shù)據(jù)經(jīng)過處理形成目標(biāo)數(shù)據(jù)過程中的各節(jié)點(diǎn)數(shù)據(jù)與質(zhì)量規(guī)則之間關(guān)聯(lián)關(guān)系;

基于所述關(guān)聯(lián)關(guān)系確定數(shù)據(jù)質(zhì)量程度與異常數(shù)據(jù)輸出對(duì)象集合之間的第二關(guān)聯(lián)關(guān)系;

在決策樹模型中查找與所述第二關(guān)聯(lián)關(guān)系匹配的數(shù)據(jù)質(zhì)量程度,得到第二匹配結(jié)果;

基于所述第二匹配結(jié)果修改所述決策樹模型。

上述方案中,所述處理器1,還用于基于修改后的決策樹模型確定對(duì)聚類后的源數(shù)據(jù)進(jìn)行處理包括的不同處理階段的執(zhí)行順序、以及所述處理階段所遵循的質(zhì)量規(guī)則;

基于所述各所述處理階段所遵循的質(zhì)量規(guī)則對(duì)聚類后的源數(shù)據(jù)按照確定的不同處理階段的執(zhí)行順序進(jìn)行處理;

監(jiān)控源數(shù)據(jù)在各所述處理階段處理得到的數(shù)據(jù)的質(zhì)量,以形成數(shù)據(jù)質(zhì)量監(jiān)控的閉環(huán)。

本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)單元中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)單元包括:移動(dòng)存儲(chǔ)設(shè)備、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

或者,本發(fā)明上述集成的單元如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)單元中。基于這樣的理解,本發(fā)明實(shí)施例的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)單元中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī)、服務(wù)器、或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分。而前述的存儲(chǔ)單元包括:移動(dòng)存儲(chǔ)設(shè)備、rom、ram、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绍兴县| 天峨县| 钟山县| 贡山| 靖宇县| 永靖县| 北京市| 长春市| 长沙县| 辽阳市| 乌兰县| 赣州市| 宽甸| 罗田县| 汤阴县| 梓潼县| 大宁县| 巴青县| 嵊州市| 海林市| 广水市| 黑山县| 深泽县| 定西市| 洛南县| 高唐县| 长岛县| 三穗县| 江口县| 濮阳县| 彰武县| 肇州县| 襄樊市| 洛扎县| 本溪市| 保亭| 祁阳县| 肇州县| 梅州市| 吉水县| 阜城县|