一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法與流程

文檔序號(hào)：11830487閱讀：372來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法與流程

本發(fā)明涉及多源異構(gòu)數(shù)據(jù)源整合技術(shù)領(lǐng)域，具體而言，涉及一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法。

背景技術(shù)：

數(shù)據(jù)質(zhì)量可以通過(guò)數(shù)據(jù)質(zhì)量元素來(lái)描述，數(shù)據(jù)質(zhì)量元素分為數(shù)據(jù)質(zhì)量定量元素和數(shù)據(jù)質(zhì)量非定量元素。數(shù)據(jù)質(zhì)量定量元素用于描述數(shù)據(jù)集滿足預(yù)先設(shè)定的質(zhì)量標(biāo)準(zhǔn)及指標(biāo)的程度，并提供定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量非定量元素提供綜述性的、非定量的質(zhì)量信息。數(shù)據(jù)質(zhì)量定量元素主要包括數(shù)據(jù)完整性和邏輯一致性等，數(shù)據(jù)質(zhì)量非定量元素主要包括數(shù)據(jù)的目的、用途和數(shù)據(jù)志等。

數(shù)據(jù)整合的效果受數(shù)據(jù)質(zhì)量的制約，數(shù)據(jù)質(zhì)量的監(jiān)控對(duì)整合的結(jié)果產(chǎn)生重要的影響，數(shù)據(jù)質(zhì)量的監(jiān)控貫穿整個(gè)數(shù)據(jù)整合流程，從而確保數(shù)據(jù)的準(zhǔn)確性和可用性。數(shù)據(jù)質(zhì)量監(jiān)控在數(shù)據(jù)整合的整個(gè)過(guò)程中，通過(guò)質(zhì)量控制、質(zhì)量保證和質(zhì)量改進(jìn)，來(lái)實(shí)現(xiàn)數(shù)據(jù)質(zhì)量的提升。

數(shù)據(jù)挖掘通過(guò)預(yù)測(cè)未來(lái)趨勢(shì)及行為，做出前攝的、基于知識(shí)的決策。其中分類是找出數(shù)據(jù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類，其目的是通過(guò)分類模型，將數(shù)據(jù)中的數(shù)據(jù)項(xiàng)映射到某個(gè)給定的類別。

現(xiàn)有的數(shù)據(jù)整合中針對(duì)數(shù)據(jù)質(zhì)量監(jiān)控存在一定的局限性，首先數(shù)據(jù)質(zhì)量監(jiān)控依賴于大量的元數(shù)據(jù)定義或質(zhì)量規(guī)則，這樣就對(duì)應(yīng)的存在有數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則庫(kù)的建立與維護(hù)；其次，現(xiàn)有數(shù)據(jù)質(zhì)量監(jiān)控多涉及的是字段級(jí)別的規(guī)則設(shè)定，未真正意義上涉及到整體記錄的正確規(guī)范性。

技術(shù)實(shí)現(xiàn)要素：

為解決上述問(wèn)題，本發(fā)明的目的在于提供一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法，完善了數(shù)據(jù)質(zhì)量監(jiān)控體系，提高了數(shù)據(jù)整合的效率。

本發(fā)明提供了一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法，該方法包括：

步驟1，人工篩選獲取的數(shù)據(jù)集，將沒有字段值缺失的數(shù)據(jù)進(jìn)行質(zhì)量好壞的標(biāo)記；

步驟2，依據(jù)標(biāo)記好的數(shù)據(jù)進(jìn)行分類模型訓(xùn)練；

步驟3，將訓(xùn)練后的分類模型以預(yù)測(cè)模型標(biāo)記語(yǔ)言的形式進(jìn)行持久化保存；

步驟4，將需要整合的數(shù)據(jù)進(jìn)行預(yù)處理，以滿足分類模型數(shù)據(jù)輸入的要求；

步驟5，在數(shù)據(jù)整合的過(guò)程中對(duì)預(yù)測(cè)模型標(biāo)記語(yǔ)言文件進(jìn)行解析調(diào)用；

步驟6，依據(jù)分類模型對(duì)整合數(shù)據(jù)進(jìn)行分類標(biāo)記；

步驟7，依據(jù)標(biāo)記結(jié)果，對(duì)數(shù)據(jù)進(jìn)行處理。

作為本發(fā)明進(jìn)一步的改進(jìn)，步驟1具體包括：

步驟101，獲取業(yè)務(wù)數(shù)據(jù)后，人工篩選數(shù)據(jù)集，如果數(shù)據(jù)中有缺失的字段值，則舍棄該數(shù)據(jù)，如果數(shù)據(jù)中沒有缺失的字段值，則保留該數(shù)據(jù)；

步驟102，在保留的數(shù)據(jù)字段上，添加一個(gè)標(biāo)記字段；

步驟103，人工地對(duì)數(shù)據(jù)質(zhì)量的好壞進(jìn)行標(biāo)記，其中，將符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段+1，將不符合質(zhì)量要求的數(shù)據(jù)標(biāo)記字段-1。

作為本發(fā)明進(jìn)一步的改進(jìn)，步驟2中，對(duì)分類模型進(jìn)行優(yōu)化，具體包括：

步驟201，對(duì)標(biāo)記完的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合，生成新的特征字段，計(jì)算組合字段值，同時(shí)，舍棄掉原有字段；

步驟202，利用隨機(jī)森林分類器，將其中部分棵決策樹分類模型修改調(diào)整為支持向量機(jī)分類模型。

作為本發(fā)明進(jìn)一步的改進(jìn)，步驟4具體包括：

步驟401，對(duì)需要整合的數(shù)據(jù)集進(jìn)行篩選，如果數(shù)據(jù)中有缺失的字段值，則將該數(shù)據(jù)標(biāo)記字段-1，并且不運(yùn)行分類模型判斷的流程，如果數(shù)據(jù)中沒有缺失的字段值，則進(jìn)行步驟402；

步驟402，將需要整合的多源異構(gòu)數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一；

步驟403，將統(tǒng)一后的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合，生成新的特征字段，并計(jì)算組合字段值。

作為本發(fā)明進(jìn)一步的改進(jìn)，步驟7具體包括：

步驟701，將標(biāo)記為-1的數(shù)據(jù)集單獨(dú)存儲(chǔ)，不進(jìn)行后續(xù)數(shù)據(jù)整合步驟；

步驟702，將標(biāo)記為+1的數(shù)據(jù)集進(jìn)行后續(xù)的數(shù)據(jù)整合步驟，數(shù)據(jù)整合完成后入庫(kù)；

步驟703，基于步驟701中單獨(dú)存儲(chǔ)的數(shù)據(jù)集，人工介入進(jìn)行判斷，如果沒有標(biāo)記錯(cuò)誤的數(shù)據(jù)，則人工對(duì)數(shù)據(jù)進(jìn)行取舍，如果有標(biāo)記錯(cuò)誤的數(shù)據(jù)，則進(jìn)行步驟704和步驟705；

步驟704，人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù)，將標(biāo)記修訂為+1，完成步驟702中后續(xù)的數(shù)據(jù)整合步驟，數(shù)據(jù)整合完成后入庫(kù)；

步驟705，人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù)，將標(biāo)記修訂為+1，重新進(jìn)行步驟2的分類模型訓(xùn)練進(jìn)行模型修訂。

本發(fā)明的有益效果為：

根據(jù)業(yè)務(wù)數(shù)據(jù)生成的模型可以自動(dòng)地生成對(duì)各字段合理性的判斷條件，同時(shí)該模型也可以自動(dòng)地生成對(duì)各字段邏輯性組合合理性的判斷條件，模型可通過(guò)單一的模型文件進(jìn)行存儲(chǔ)與調(diào)用，無(wú)需進(jìn)行大量質(zhì)量規(guī)則的制定與維護(hù)，高效地保障了數(shù)據(jù)整合流程與數(shù)據(jù)的完整性、一致性。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例所述的一種基于模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法的流程示意圖；

圖2為圖1中步驟1的流程示意圖；

圖3為圖1中步驟2中對(duì)分類模型進(jìn)行優(yōu)化的流程示意圖；

圖4為圖1中步驟4的流程示意圖；

圖5為圖1中步驟7的流程示意圖。

具體實(shí)施方式

下面通過(guò)具體的實(shí)施例并結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)描述。

如圖1所示，本發(fā)明實(shí)施例所述的一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法，該方法包括：

步驟1，人工篩選獲取的數(shù)據(jù)集，將沒有字段值缺失的數(shù)據(jù)進(jìn)行質(zhì)量好壞的標(biāo)記；

步驟2，依據(jù)標(biāo)記好的數(shù)據(jù)進(jìn)行分類模型訓(xùn)練；

步驟3，將訓(xùn)練后的分類模型以預(yù)測(cè)模型標(biāo)記語(yǔ)言(PMML)的形式進(jìn)行持久化保存；

步驟4，將需要整合的數(shù)據(jù)進(jìn)行預(yù)處理，以滿足分類模型數(shù)據(jù)輸入的要求；

步驟5，在數(shù)據(jù)整合的過(guò)程中對(duì)PMML文件進(jìn)行解析調(diào)用；

步驟6，依據(jù)分類模型對(duì)整合數(shù)據(jù)進(jìn)行分類標(biāo)記；

步驟7，依據(jù)標(biāo)記結(jié)果，對(duì)數(shù)據(jù)進(jìn)行處理。

人工篩選出沒有字段值缺失的數(shù)據(jù)，同時(shí)要保障篩選出的數(shù)據(jù)必須有質(zhì)量好與壞之分，這樣才能有效的進(jìn)行后續(xù)分類模型的訓(xùn)練。如圖2所示，步驟1具體包括：

步驟102，在保留的數(shù)據(jù)字段上，添加一個(gè)標(biāo)記字段；

分類模型可用的判斷依據(jù)是較高的真負(fù)類率。如圖3所示，步驟2中，可對(duì)分類模型進(jìn)行優(yōu)化，具體包括：

步驟201，對(duì)標(biāo)記完的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合，生成新的特征字段，計(jì)算組合字段值，以提升分類模型判斷的真負(fù)類率，同時(shí)，舍棄掉原有字段，否則存在重復(fù)的字段會(huì)產(chǎn)生多重共線性問(wèn)題；

步驟202，利用隨機(jī)森林分類器，將其中部分棵決策樹分類模型修改調(diào)整為支持向量機(jī)分類模型，以增強(qiáng)分類器的泛化能力。

在運(yùn)用分類模型進(jìn)行數(shù)據(jù)質(zhì)量標(biāo)記之前，需進(jìn)行數(shù)據(jù)預(yù)處理，以適應(yīng)模型定義的字段。如圖4所示，步驟4具體包括：

步驟402，將需要整合的多源異構(gòu)數(shù)據(jù)進(jìn)行元數(shù)據(jù)統(tǒng)一；

步驟403，將統(tǒng)一后的數(shù)據(jù)集進(jìn)行強(qiáng)關(guān)聯(lián)字段組合，生成新的特征字段，并計(jì)算組合字段值。

在對(duì)數(shù)據(jù)進(jìn)行質(zhì)量標(biāo)記后，對(duì)數(shù)據(jù)進(jìn)行處理。如圖5所示，步驟7具體包括：

步驟701，將標(biāo)記為-1的數(shù)據(jù)集單獨(dú)存儲(chǔ)，不進(jìn)行后續(xù)數(shù)據(jù)整合步驟；

步驟702，將標(biāo)記為+1的數(shù)據(jù)集進(jìn)行后續(xù)的數(shù)據(jù)整合步驟，數(shù)據(jù)整合完成后入庫(kù)；

步驟705，人工修訂標(biāo)記錯(cuò)誤的數(shù)據(jù)，將標(biāo)記修訂為+1，重新進(jìn)行步驟2的分類模型訓(xùn)練進(jìn)行模型修訂，以迭代式的修訂方式，完善分類模型。

以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李智;曾德賢;馬志昊;殷智勇;王鵬;
技術(shù)所有人：中國(guó)人民解放軍裝備學(xué)院;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于分類模型判斷的數(shù)據(jù)質(zhì)量監(jiān)控方法與流程