本發(fā)明涉及多源異構(gòu)數(shù)據(jù)源整合技術(shù)領(lǐng)域,具體而言,涉及一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法。
背景技術(shù):
數(shù)據(jù)質(zhì)量可以通過(guò)數(shù)據(jù)質(zhì)量元素來(lái)描述,數(shù)據(jù)質(zhì)量元素分為數(shù)據(jù)質(zhì)量定量元素和數(shù)據(jù)質(zhì)量非定量元素。數(shù)據(jù)質(zhì)量定量元素用于描述數(shù)據(jù)集滿足預(yù)先設(shè)定的質(zhì)量標(biāo)準(zhǔn)及指標(biāo)的程度,并提供定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量非定量元素提供綜述性的、非定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量定量元素主要包括數(shù)據(jù)完整性和邏輯一致性等,數(shù)據(jù)質(zhì)量非定量元素主要包括數(shù)據(jù)的目的、用途和數(shù)據(jù)志等。
數(shù)據(jù)整合的效果受數(shù)據(jù)質(zhì)量的制約,數(shù)據(jù)質(zhì)量的監(jiān)控對(duì)整合的結(jié)果產(chǎn)生重要的影響,數(shù)據(jù)質(zhì)量的監(jiān)控貫穿整個(gè)數(shù)據(jù)整合流程,從而確保數(shù)據(jù)的準(zhǔn)確性和可用性。數(shù)據(jù)質(zhì)量監(jiān)控在數(shù)據(jù)整合的整個(gè)過(guò)程中,通過(guò)質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn),來(lái)實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升。
數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為,做出前攝的、基于知識(shí)的決策。其中分類是找出數(shù)據(jù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過(guò)分類模型,將數(shù)據(jù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。
現(xiàn)有的數(shù)據(jù)整合中針對(duì)數(shù)據(jù)質(zhì)量監(jiān)控存在一定的局限性,首先數(shù)據(jù)質(zhì)量監(jiān)控依賴于大量的元數(shù)據(jù)定義或質(zhì)量規(guī)則,這樣就對(duì)應(yīng)的存在有數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則庫(kù)的建立與維護(hù);其次,現(xiàn)有數(shù)據(jù)質(zhì)量監(jiān)控多涉及的是字段級(jí)別的規(guī)則設(shè)定,未真正意義上涉及到整體記錄的正確規(guī)范性。
技術(shù)實(shí)現(xiàn)要素:
為解決上述問(wèn)題,本發(fā)明的目的在于提供一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法,完善了數(shù)據(jù)質(zhì)量監(jiān)控體系,提高了數(shù)據(jù)整合的效率。
本發(fā)明提供了一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法,該方法包括:
步驟1,人工篩選獲取的數(shù)據(jù)集,將沒有字段值缺失的數(shù)據(jù)進(jìn)行質(zhì)量好壞的標(biāo)記;
步驟2,依據(jù)標(biāo)記好的數(shù)據(jù)進(jìn)行分類模型訓(xùn)練;
步驟3,將訓(xùn)練后的分類模型以預(yù)測(cè)模型標(biāo)記語(yǔ)言的形式進(jìn)行持久化保存;
步驟4,將需要整合的數(shù)據(jù)進(jìn)行預(yù)處理,以滿足分類模型數(shù)據(jù)輸入的要求;
步驟5,在數(shù)據(jù)整合的過(guò)程中對(duì)預(yù)測(cè)模型標(biāo)記語(yǔ)言文件進(jìn)行解析調(diào)用;
步驟6,依據(jù)分類模型對(duì)整合數(shù)據(jù)進(jìn)行分類標(biāo)記;
步驟7,依據(jù)標(biāo)記結(jié)果,對(duì)數(shù)據(jù)進(jìn)行處理。
作為本發(fā)明進(jìn)一步的改進(jìn),步驟1具體包括:
步驟101,獲取業(yè)務(wù)數(shù)據(jù)后,人工篩選數(shù)據(jù)集,如果數(shù)據(jù)中有缺失的字段值,則舍棄該數(shù)據(jù),如果數(shù)據(jù)中沒有缺失的字段值,則保留該數(shù)據(jù);
步驟102,在保留的數(shù)據(jù)字段上,添加一個(gè)標(biāo)記字段;
步驟103,人工地對(duì)數(shù)據(jù)質(zhì)量的好壞進(jìn)行標(biāo)記,其中,將符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段+1,將不符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段-1。
作為本發(fā)明進(jìn)一步的改進(jìn),步驟2中,對(duì)分類模型進(jìn)行優(yōu)化,具體包括:
步驟201,對(duì)標(biāo)記完的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,計(jì)算組合字段值,同時(shí),舍棄掉原有字段;
步驟202,利用隨機(jī)森林分類器,將其中部分棵決策樹分類模型修改調(diào)整為支持向量機(jī)分類模型。
作為本發(fā)明進(jìn)一步的改進(jìn),步驟4具體包括:
步驟401,對(duì)需要整合的數(shù)據(jù)集進(jìn)行篩選,如果數(shù)據(jù)中有缺失的字段值,則將該數(shù)據(jù)標(biāo)記字段-1,并且不運(yùn)行分類模型判斷的流程,如果數(shù)據(jù)中沒有缺失的字段值,則進(jìn)行步驟402;
步驟402,將需要整合的多源異構(gòu)數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一;
步驟403,將統(tǒng)一后的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,并計(jì)算組合字段值。
作為本發(fā)明進(jìn)一步的改進(jìn),步驟7具體包括:
步驟701,將標(biāo)記為-1的數(shù)據(jù)集單獨(dú)存儲(chǔ),不進(jìn)行后續(xù)數(shù)據(jù)整合步驟;
步驟702,將標(biāo)記為+1的數(shù)據(jù)集進(jìn)行后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);
步驟703,基于步驟701中單獨(dú)存儲(chǔ)的數(shù)據(jù)集,人工介入進(jìn)行判斷,如果沒有標(biāo)記錯(cuò)誤的數(shù)據(jù),則人工對(duì)數(shù)據(jù)進(jìn)行取舍,如果有標(biāo)記錯(cuò)誤的數(shù)據(jù),則進(jìn)行步驟704和步驟705;
步驟704,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,完成步驟702中后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);
步驟705,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,重新進(jìn)行步驟2的分類模型訓(xùn)練進(jìn)行模型修訂。
本發(fā)明的有益效果為:
根據(jù)業(yè)務(wù)數(shù)據(jù)生成的模型可以自動(dòng)地生成對(duì)各字段合理性的判斷條件,同時(shí)該模型也可以自動(dòng)地生成對(duì)各字段邏輯性組合合理性的判斷條件,模型可通過(guò)單一的模型文件進(jìn)行存儲(chǔ)與調(diào)用,無(wú)需進(jìn)行大量質(zhì)量規(guī)則的制定與維護(hù),高效地保障了數(shù)據(jù)整合流程與數(shù)據(jù)的完整性、一致性。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例所述的一種基于模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法的流程示意圖;
圖2為圖1中步驟1的流程示意圖;
圖3為圖1中步驟2中對(duì)分類模型進(jìn)行優(yōu)化的流程示意圖;
圖4為圖1中步驟4的流程示意圖;
圖5為圖1中步驟7的流程示意圖。
具體實(shí)施方式
下面通過(guò)具體的實(shí)施例并結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。
如圖1所示,本發(fā)明實(shí)施例所述的一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法,該方法包括:
步驟1,人工篩選獲取的數(shù)據(jù)集,將沒有字段值缺失的數(shù)據(jù)進(jìn)行質(zhì)量好壞的標(biāo)記;
步驟2,依據(jù)標(biāo)記好的數(shù)據(jù)進(jìn)行分類模型訓(xùn)練;
步驟3,將訓(xùn)練后的分類模型以預(yù)測(cè)模型標(biāo)記語(yǔ)言(PMML)的形式進(jìn)行持久化保存;
步驟4,將需要整合的數(shù)據(jù)進(jìn)行預(yù)處理,以滿足分類模型數(shù)據(jù)輸入的要求;
步驟5,在數(shù)據(jù)整合的過(guò)程中對(duì)PMML文件進(jìn)行解析調(diào)用;
步驟6,依據(jù)分類模型對(duì)整合數(shù)據(jù)進(jìn)行分類標(biāo)記;
步驟7,依據(jù)標(biāo)記結(jié)果,對(duì)數(shù)據(jù)進(jìn)行處理。
人工篩選出沒有字段值缺失的數(shù)據(jù),同時(shí)要保障篩選出的數(shù)據(jù)必須有質(zhì)量好與壞之分,這樣才能有效的進(jìn)行后續(xù)分類模型的訓(xùn)練。如圖2所示,步驟1具體包括:
步驟101,獲取業(yè)務(wù)數(shù)據(jù)后,人工篩選數(shù)據(jù)集,如果數(shù)據(jù)中有缺失的字段值,則舍棄該數(shù)據(jù),如果數(shù)據(jù)中沒有缺失的字段值,則保留該數(shù)據(jù);
步驟102,在保留的數(shù)據(jù)字段上,添加一個(gè)標(biāo)記字段;
步驟103,人工地對(duì)數(shù)據(jù)質(zhì)量的好壞進(jìn)行標(biāo)記,其中,將符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段+1,將不符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段-1。
分類模型可用的判斷依據(jù)是較高的真負(fù)類率。如圖3所示,步驟2中,可對(duì)分類模型進(jìn)行優(yōu)化,具體包括:
步驟201,對(duì)標(biāo)記完的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,計(jì)算組合字段值,以提升分類模型判斷的真負(fù)類率,同時(shí),舍棄掉原有字段,否則存在重復(fù)的字段會(huì)產(chǎn)生多重共線性問(wèn)題;
步驟202,利用隨機(jī)森林分類器,將其中部分棵決策樹分類模型修改調(diào)整為支持向量機(jī)分類模型,以增強(qiáng)分類器的泛化能力。
在運(yùn)用分類模型進(jìn)行數(shù)據(jù)質(zhì)量標(biāo)記之前,需進(jìn)行數(shù)據(jù)預(yù)處理,以適應(yīng)模型定義的字段。如圖4所示,步驟4具體包括:
步驟401,對(duì)需要整合的數(shù)據(jù)集進(jìn)行篩選,如果數(shù)據(jù)中有缺失的字段值,則將該數(shù)據(jù)標(biāo)記字段-1,并且不運(yùn)行分類模型判斷的流程,如果數(shù)據(jù)中沒有缺失的字段值,則進(jìn)行步驟402;
步驟402,將需要整合的多源異構(gòu)數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一;
步驟403,將統(tǒng)一后的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,并計(jì)算組合字段值。
在對(duì)數(shù)據(jù)進(jìn)行質(zhì)量標(biāo)記后,對(duì)數(shù)據(jù)進(jìn)行處理。如圖5所示,步驟7具體包括:
步驟701,將標(biāo)記為-1的數(shù)據(jù)集單獨(dú)存儲(chǔ),不進(jìn)行后續(xù)數(shù)據(jù)整合步驟;
步驟702,將標(biāo)記為+1的數(shù)據(jù)集進(jìn)行后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);
步驟703,基于步驟701中單獨(dú)存儲(chǔ)的數(shù)據(jù)集,人工介入進(jìn)行判斷,如果沒有標(biāo)記錯(cuò)誤的數(shù)據(jù),則人工對(duì)數(shù)據(jù)進(jìn)行取舍,如果有標(biāo)記錯(cuò)誤的數(shù)據(jù),則進(jìn)行步驟704和步驟705;
步驟704,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,完成步驟702中后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);
步驟705,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,重新進(jìn)行步驟2的分類模型訓(xùn)練進(jìn)行模型修訂,以迭代式的修訂方式,完善分類模型。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。