欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法與流程

文檔序號(hào):11830487閱讀:372來(lái)源:國(guó)知局
一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法與流程

本發(fā)明涉及多源異構(gòu)數(shù)據(jù)源整合技術(shù)領(lǐng)域,具體而言,涉及一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法。



背景技術(shù):

數(shù)據(jù)質(zhì)量可以通過(guò)數(shù)據(jù)質(zhì)量元素來(lái)描述,數(shù)據(jù)質(zhì)量元素分為數(shù)據(jù)質(zhì)量定量元素和數(shù)據(jù)質(zhì)量非定量元素。數(shù)據(jù)質(zhì)量定量元素用于描述數(shù)據(jù)集滿足預(yù)先設(shè)定的質(zhì)量標(biāo)準(zhǔn)及指標(biāo)的程度,并提供定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量非定量元素提供綜述性的、非定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量定量元素主要包括數(shù)據(jù)完整性和邏輯一致性等,數(shù)據(jù)質(zhì)量非定量元素主要包括數(shù)據(jù)的目的、用途和數(shù)據(jù)志等。

數(shù)據(jù)整合的效果受數(shù)據(jù)質(zhì)量的制約,數(shù)據(jù)質(zhì)量的監(jiān)控對(duì)整合的結(jié)果產(chǎn)生重要的影響,數(shù)據(jù)質(zhì)量的監(jiān)控貫穿整個(gè)數(shù)據(jù)整合流程,從而確保數(shù)據(jù)的準(zhǔn)確性和可用性。數(shù)據(jù)質(zhì)量監(jiān)控在數(shù)據(jù)整合的整個(gè)過(guò)程中,通過(guò)質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn),來(lái)實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升。

數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為,做出前攝的、基于知識(shí)的決策。其中分類是找出數(shù)據(jù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類,其目的是通過(guò)分類模型,將數(shù)據(jù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。

現(xiàn)有的數(shù)據(jù)整合中針對(duì)數(shù)據(jù)質(zhì)量監(jiān)控存在一定的局限性,首先數(shù)據(jù)質(zhì)量監(jiān)控依賴于大量的元數(shù)據(jù)定義或質(zhì)量規(guī)則,這樣就對(duì)應(yīng)的存在有數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則庫(kù)的建立與維護(hù);其次,現(xiàn)有數(shù)據(jù)質(zhì)量監(jiān)控多涉及的是字段級(jí)別的規(guī)則設(shè)定,未真正意義上涉及到整體記錄的正確規(guī)范性。



技術(shù)實(shí)現(xiàn)要素:

為解決上述問(wèn)題,本發(fā)明的目的在于提供一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法,完善了數(shù)據(jù)質(zhì)量監(jiān)控體系,提高了數(shù)據(jù)整合的效率。

本發(fā)明提供了一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法,該方法包括:

步驟1,人工篩選獲取的數(shù)據(jù)集,將沒有字段值缺失的數(shù)據(jù)進(jìn)行質(zhì)量好壞的標(biāo)記;

步驟2,依據(jù)標(biāo)記好的數(shù)據(jù)進(jìn)行分類模型訓(xùn)練;

步驟3,將訓(xùn)練后的分類模型以預(yù)測(cè)模型標(biāo)記語(yǔ)言的形式進(jìn)行持久化保存;

步驟4,將需要整合的數(shù)據(jù)進(jìn)行預(yù)處理,以滿足分類模型數(shù)據(jù)輸入的要求;

步驟5,在數(shù)據(jù)整合的過(guò)程中對(duì)預(yù)測(cè)模型標(biāo)記語(yǔ)言文件進(jìn)行解析調(diào)用;

步驟6,依據(jù)分類模型對(duì)整合數(shù)據(jù)進(jìn)行分類標(biāo)記;

步驟7,依據(jù)標(biāo)記結(jié)果,對(duì)數(shù)據(jù)進(jìn)行處理。

作為本發(fā)明進(jìn)一步的改進(jìn),步驟1具體包括:

步驟101,獲取業(yè)務(wù)數(shù)據(jù)后,人工篩選數(shù)據(jù)集,如果數(shù)據(jù)中有缺失的字段值,則舍棄該數(shù)據(jù),如果數(shù)據(jù)中沒有缺失的字段值,則保留該數(shù)據(jù);

步驟102,在保留的數(shù)據(jù)字段上,添加一個(gè)標(biāo)記字段;

步驟103,人工地對(duì)數(shù)據(jù)質(zhì)量的好壞進(jìn)行標(biāo)記,其中,將符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段+1,將不符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段-1。

作為本發(fā)明進(jìn)一步的改進(jìn),步驟2中,對(duì)分類模型進(jìn)行優(yōu)化,具體包括:

步驟201,對(duì)標(biāo)記完的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,計(jì)算組合字段值,同時(shí),舍棄掉原有字段;

步驟202,利用隨機(jī)森林分類器,將其中部分棵決策樹分類模型修改調(diào)整為支持向量機(jī)分類模型。

作為本發(fā)明進(jìn)一步的改進(jìn),步驟4具體包括:

步驟401,對(duì)需要整合的數(shù)據(jù)集進(jìn)行篩選,如果數(shù)據(jù)中有缺失的字段值,則將該數(shù)據(jù)標(biāo)記字段-1,并且不運(yùn)行分類模型判斷的流程,如果數(shù)據(jù)中沒有缺失的字段值,則進(jìn)行步驟402;

步驟402,將需要整合的多源異構(gòu)數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一;

步驟403,將統(tǒng)一后的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,并計(jì)算組合字段值。

作為本發(fā)明進(jìn)一步的改進(jìn),步驟7具體包括:

步驟701,將標(biāo)記為-1的數(shù)據(jù)集單獨(dú)存儲(chǔ),不進(jìn)行后續(xù)數(shù)據(jù)整合步驟;

步驟702,將標(biāo)記為+1的數(shù)據(jù)集進(jìn)行后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);

步驟703,基于步驟701中單獨(dú)存儲(chǔ)的數(shù)據(jù)集,人工介入進(jìn)行判斷,如果沒有標(biāo)記錯(cuò)誤的數(shù)據(jù),則人工對(duì)數(shù)據(jù)進(jìn)行取舍,如果有標(biāo)記錯(cuò)誤的數(shù)據(jù),則進(jìn)行步驟704和步驟705;

步驟704,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,完成步驟702中后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);

步驟705,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,重新進(jìn)行步驟2的分類模型訓(xùn)練進(jìn)行模型修訂。

本發(fā)明的有益效果為:

根據(jù)業(yè)務(wù)數(shù)據(jù)生成的模型可以自動(dòng)地生成對(duì)各字段合理性的判斷條件,同時(shí)該模型也可以自動(dòng)地生成對(duì)各字段邏輯性組合合理性的判斷條件,模型可通過(guò)單一的模型文件進(jìn)行存儲(chǔ)與調(diào)用,無(wú)需進(jìn)行大量質(zhì)量規(guī)則的制定與維護(hù),高效地保障了數(shù)據(jù)整合流程與數(shù)據(jù)的完整性、一致性。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例所述的一種基于模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法的流程示意圖;

圖2為圖1中步驟1的流程示意圖;

圖3為圖1中步驟2中對(duì)分類模型進(jìn)行優(yōu)化的流程示意圖;

圖4為圖1中步驟4的流程示意圖;

圖5為圖1中步驟7的流程示意圖。

具體實(shí)施方式

下面通過(guò)具體的實(shí)施例并結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。

如圖1所示,本發(fā)明實(shí)施例所述的一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法,該方法包括:

步驟1,人工篩選獲取的數(shù)據(jù)集,將沒有字段值缺失的數(shù)據(jù)進(jìn)行質(zhì)量好壞的標(biāo)記;

步驟2,依據(jù)標(biāo)記好的數(shù)據(jù)進(jìn)行分類模型訓(xùn)練;

步驟3,將訓(xùn)練后的分類模型以預(yù)測(cè)模型標(biāo)記語(yǔ)言(PMML)的形式進(jìn)行持久化保存;

步驟4,將需要整合的數(shù)據(jù)進(jìn)行預(yù)處理,以滿足分類模型數(shù)據(jù)輸入的要求;

步驟5,在數(shù)據(jù)整合的過(guò)程中對(duì)PMML文件進(jìn)行解析調(diào)用;

步驟6,依據(jù)分類模型對(duì)整合數(shù)據(jù)進(jìn)行分類標(biāo)記;

步驟7,依據(jù)標(biāo)記結(jié)果,對(duì)數(shù)據(jù)進(jìn)行處理。

人工篩選出沒有字段值缺失的數(shù)據(jù),同時(shí)要保障篩選出的數(shù)據(jù)必須有質(zhì)量好與壞之分,這樣才能有效的進(jìn)行后續(xù)分類模型的訓(xùn)練。如圖2所示,步驟1具體包括:

步驟101,獲取業(yè)務(wù)數(shù)據(jù)后,人工篩選數(shù)據(jù)集,如果數(shù)據(jù)中有缺失的字段值,則舍棄該數(shù)據(jù),如果數(shù)據(jù)中沒有缺失的字段值,則保留該數(shù)據(jù);

步驟102,在保留的數(shù)據(jù)字段上,添加一個(gè)標(biāo)記字段;

步驟103,人工地對(duì)數(shù)據(jù)質(zhì)量的好壞進(jìn)行標(biāo)記,其中,將符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段+1,將不符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段-1。

分類模型可用的判斷依據(jù)是較高的真負(fù)類率。如圖3所示,步驟2中,可對(duì)分類模型進(jìn)行優(yōu)化,具體包括:

步驟201,對(duì)標(biāo)記完的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,計(jì)算組合字段值,以提升分類模型判斷的真負(fù)類率,同時(shí),舍棄掉原有字段,否則存在重復(fù)的字段會(huì)產(chǎn)生多重共線性問(wèn)題;

步驟202,利用隨機(jī)森林分類器,將其中部分棵決策樹分類模型修改調(diào)整為支持向量機(jī)分類模型,以增強(qiáng)分類器的泛化能力。

在運(yùn)用分類模型進(jìn)行數(shù)據(jù)質(zhì)量標(biāo)記之前,需進(jìn)行數(shù)據(jù)預(yù)處理,以適應(yīng)模型定義的字段。如圖4所示,步驟4具體包括:

步驟401,對(duì)需要整合的數(shù)據(jù)集進(jìn)行篩選,如果數(shù)據(jù)中有缺失的字段值,則將該數(shù)據(jù)標(biāo)記字段-1,并且不運(yùn)行分類模型判斷的流程,如果數(shù)據(jù)中沒有缺失的字段值,則進(jìn)行步驟402;

步驟402,將需要整合的多源異構(gòu)數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一;

步驟403,將統(tǒng)一后的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合,生成新的特征字段,并計(jì)算組合字段值。

在對(duì)數(shù)據(jù)進(jìn)行質(zhì)量標(biāo)記后,對(duì)數(shù)據(jù)進(jìn)行處理。如圖5所示,步驟7具體包括:

步驟701,將標(biāo)記為-1的數(shù)據(jù)集單獨(dú)存儲(chǔ),不進(jìn)行后續(xù)數(shù)據(jù)整合步驟;

步驟702,將標(biāo)記為+1的數(shù)據(jù)集進(jìn)行后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);

步驟703,基于步驟701中單獨(dú)存儲(chǔ)的數(shù)據(jù)集,人工介入進(jìn)行判斷,如果沒有標(biāo)記錯(cuò)誤的數(shù)據(jù),則人工對(duì)數(shù)據(jù)進(jìn)行取舍,如果有標(biāo)記錯(cuò)誤的數(shù)據(jù),則進(jìn)行步驟704和步驟705;

步驟704,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,完成步驟702中后續(xù)的數(shù)據(jù)整合步驟,數(shù)據(jù)整合完成后入庫(kù);

步驟705,人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù),將標(biāo)記修訂為+1,重新進(jìn)行步驟2的分類模型訓(xùn)練進(jìn)行模型修訂,以迭代式的修訂方式,完善分類模型。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
博野县| 晋州市| 邵东县| 禄丰县| 治县。| 龙陵县| 罗田县| 民县| 高邮市| 浙江省| 都昌县| 扶余县| 马山县| 平山县| 尚义县| 横峰县| 桂东县| 新营市| 和静县| 黄平县| 丰宁| 鸡泽县| 余干县| 正蓝旗| 通榆县| 寻乌县| 宝兴县| 横峰县| 庄河市| 河池市| 拜城县| 开封县| 高唐县| 如皋市| 成武县| 盐山县| 温州市| 锦州市| 徐水县| 郁南县| 淮滨县|