本發(fā)明所屬的
技術(shù)領(lǐng)域:
為機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域,具體為一種無標(biāo)記數(shù)據(jù)的數(shù)據(jù)質(zhì)量評估方法。
背景技術(shù):
:在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中,模型的實(shí)際效果會(huì)受到數(shù)據(jù)集的質(zhì)量的影響,一個(gè)質(zhì)量好的數(shù)據(jù)集用相對簡單的模型就可以對其中的規(guī)律進(jìn)行建模,同時(shí)也可以減少模型參數(shù)調(diào)整的工作量和訓(xùn)練過程收斂所需要的代價(jià)。數(shù)據(jù)集的質(zhì)量受到以下幾個(gè)因素的影響,一是在采集過程中引入的隨機(jī)誤差,二是主觀因素產(chǎn)生的人為錯(cuò)誤,三是產(chǎn)生數(shù)據(jù)的數(shù)據(jù)源自身的固有誤差,四是數(shù)據(jù)集采集過程的結(jié)構(gòu)性缺陷。例如在數(shù)據(jù)集采集的過程中由于采集過程的設(shè)計(jì)缺陷,引入了一些實(shí)際上與數(shù)據(jù)源所描述的規(guī)律完全不相關(guān)的屬性。在進(jìn)行機(jī)器學(xué)習(xí)模型訓(xùn)練和應(yīng)用系統(tǒng)的設(shè)計(jì)時(shí),對所使用的數(shù)據(jù)集質(zhì)量進(jìn)行評估,可以對模型的復(fù)雜性和設(shè)計(jì)規(guī)模進(jìn)行預(yù)估,能夠?qū)ο到y(tǒng)的最終效果進(jìn)行合理的預(yù)測。文獻(xiàn)“朱付保,徐顯景,白慶春等.基于空間自相關(guān)性和模糊集的空間數(shù)據(jù)噪聲點(diǎn)檢測算法[j].計(jì)算機(jī)應(yīng)用與軟件,2016,33(3):264-266.doi:10.3969/j.issn.1000-386x.2016.03.062.”通過引入空間對象的自相關(guān)性理論和模糊集理論,提出一種基于空間自相關(guān)性和模糊集的空間數(shù)據(jù)噪聲點(diǎn)檢測算法。該方法首先運(yùn)用鄰域?qū)ο蟮目臻g自相關(guān)性理論,計(jì)算出特定對象與鄰域內(nèi)其他對象的距離,進(jìn)而將距離以模糊隸屬度的概念予以表達(dá),最后通過與該屬性的置信水平進(jìn)行比較,以此來判定噪聲數(shù)據(jù)。該方法通過空間自相關(guān)性和模糊集的空間數(shù)據(jù)噪聲點(diǎn)檢測算法對數(shù)據(jù)集中的噪聲點(diǎn)進(jìn)行檢測,但無法對數(shù)據(jù)集的結(jié)構(gòu)性誤差進(jìn)行檢測,同時(shí)在檢測的過程中沒有考慮到數(shù)據(jù)集中各個(gè)屬性之間的內(nèi)在關(guān)聯(lián),因此難以有效的對數(shù)據(jù)集的質(zhì)量進(jìn)行全面的評估?,F(xiàn)有方法的不足之處是:(1).現(xiàn)有方法多是基于統(tǒng)計(jì)學(xué)原理對數(shù)據(jù)集的誤差和孤立點(diǎn)進(jìn)行分析,無法對數(shù)據(jù)集的結(jié)構(gòu)性誤差所引起的數(shù)據(jù)質(zhì)量下降進(jìn)行評估,例如數(shù)據(jù)集屬性的冗余、矛盾等;(2).現(xiàn)有方法很少考慮數(shù)據(jù)集的各個(gè)屬性之間的內(nèi)在關(guān)聯(lián),使得無法利用這些數(shù)據(jù)集潛在的規(guī)律去排除由于其它因素引入的誤差;技術(shù)實(shí)現(xiàn)要素:本發(fā)明旨在克服現(xiàn)有數(shù)據(jù)集質(zhì)量評估方法的不足,包括無法對數(shù)據(jù)集的結(jié)構(gòu)性誤差所引起的數(shù)據(jù)質(zhì)量下降進(jìn)行評估、很少考慮數(shù)據(jù)集的各個(gè)屬性之間的內(nèi)在關(guān)聯(lián)等。本發(fā)明的特征包括數(shù)據(jù)集歸一化、數(shù)據(jù)集自描述模型的建立和數(shù)據(jù)集質(zhì)量評價(jià),每個(gè)過程包含若干個(gè)步驟,其特征分別描述如下:(1).數(shù)據(jù)集歸一化本發(fā)明所面向的是一般的無標(biāo)記數(shù)據(jù)集,即數(shù)據(jù)集僅由數(shù)據(jù)屬性組成,不包含數(shù)據(jù)樣本的分類或目標(biāo)值字段。本發(fā)明所處理的數(shù)據(jù)有兩種類型的字段,一是連續(xù)型字段,二是離散型字段。先對這兩種類型的字段數(shù)據(jù)進(jìn)行歸一化:a.連續(xù)型字段的歸一化對于某個(gè)連續(xù)型字段ai,在數(shù)據(jù)集中所有數(shù)據(jù)樣本中,求出ai的最大值和最小值,分別記為和歸一化之后該連續(xù)型字段的計(jì)算方法為:同時(shí),記錄訓(xùn)練數(shù)據(jù)集所有示例中每個(gè)連續(xù)型字段的和信息,這些信息將被用于對模型訓(xùn)練好之后未知測試數(shù)據(jù)的歸一化;b.離散型字段的歸一化對于包含r個(gè)可能值的離散型字段,采用啞變量化的方法進(jìn)行歸一化,即把該字段的每一個(gè)屬性轉(zhuǎn)化為一個(gè)包含r個(gè)元素的一維行向量,當(dāng)該屬性的值為某個(gè)可能值時(shí),一維向量里對應(yīng)的元素設(shè)置為1,其余元素為0,在這個(gè)r維向量中,對于每一個(gè)數(shù)據(jù)記錄,只能有一個(gè)元素為1,其余的均為0,離散屬性在啞變量化后,不再進(jìn)行其它的歸一化操作;(2).數(shù)據(jù)集自描述模型的建立數(shù)據(jù)集自描述模型是一個(gè)深度神經(jīng)網(wǎng)絡(luò),輸入為原始數(shù)據(jù)集,輸出的維數(shù)與原始數(shù)據(jù)集的維數(shù)相同,本步驟通過自描述模型建立數(shù)據(jù)集中各屬性的內(nèi)在關(guān)系。本步驟實(shí)現(xiàn)自描述模型的深度神經(jīng)網(wǎng)絡(luò)包含全連接層、非線性激活層、隨機(jī)屏蔽層。數(shù)據(jù)集自描述模型由若干個(gè)依次連接的塊和一個(gè)輸出層組成,每個(gè)塊由一個(gè)全連接層、一個(gè)非線性激活層和一個(gè)隨機(jī)屏蔽層組成,下面對上述各種類型的層進(jìn)行說明:a.全連接層全連接層以全連接的方式接受從上一層輸出的m維向量,即上層輸出的每一個(gè)維度均輸入到該全連接層的所有維度,設(shè)該全連接層的維數(shù)為n,則它的輸出為:其中pi為全連接層的第i個(gè)輸出元素,wij為上一層輸出向量的第j個(gè)元素到全連接層的第i個(gè)單元的權(quán)值,權(quán)值的取值范圍為[0,1],qj為上一層輸出向量的第j個(gè)元素的值;b.非線性激活層非線性激活層以一對一的方式接受上一層的輸出作為輸入,即上一層的第i個(gè)輸出作為該非線性激活層的第i個(gè)輸入。非線性激活層的每一個(gè)輸出為輸入的sigmoid函數(shù),具體為:其中pi為非線性激活層的第i個(gè)輸出元素,qi為上一層的第i個(gè)輸出;c.隨機(jī)屏蔽層隨機(jī)屏蔽層以一對一的方式接受上一層的輸出作為輸入,即上一層的第i個(gè)輸出作為該隨機(jī)屏蔽層的第i個(gè)輸入。該層隨機(jī)屏蔽一定數(shù)量的輸入單元,即使該單元對應(yīng)的輸出單元的輸出為0。d.輸出層輸出層與最后一個(gè)塊的隨機(jī)屏蔽層全連接,其維數(shù)與輸入的維數(shù)相同。數(shù)據(jù)集自描述模型的各個(gè)組成塊依次進(jìn)行連接,即前一個(gè)塊的隨機(jī)屏蔽層與后一個(gè)塊的全連接層進(jìn)行連接。數(shù)據(jù)集自描述模型由k個(gè)塊組成,k是數(shù)據(jù)集記錄條數(shù)x和維度數(shù)y的函數(shù),具體為k=[1.5×lgxy],其中l(wèi)g為以10為底的對數(shù),[]為取整數(shù)。模型中每一個(gè)塊的全連接層的維數(shù)均設(shè)置為塊數(shù)k與數(shù)據(jù)集維數(shù)的乘積。模型中每一個(gè)塊的隨機(jī)屏蔽層所屏蔽上一層的輸出百分比α為其中θ為一個(gè)[0,1]之間的隨機(jī)數(shù),對于每一個(gè)屏蔽層均通過隨機(jī)過程取得一個(gè)確定的θ值。采用經(jīng)過步驟(1)歸一化后的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,模型的輸入為經(jīng)過歸一化后的單條數(shù)據(jù)記錄,模型的輸出與輸入的維數(shù)相同。采用標(biāo)準(zhǔn)的誤差反向傳播學(xué)習(xí)算法對網(wǎng)絡(luò)的權(quán)值進(jìn)行調(diào)整,調(diào)整是根據(jù)模型的輸入與輸出的差異進(jìn)行。設(shè)輸入為一個(gè)m維向量,則輸出同樣為一個(gè)m維向量,每一維的輸出誤差用以下函數(shù)衡量:其中vi為模型輸出向量的第i維的值,為該輸入樣本在第i維的原始值。訓(xùn)練采用多輪的方式進(jìn)行,在每一輪中,把經(jīng)過歸一化后的數(shù)據(jù)集中每一個(gè)樣本依次輸入到模型,得到一個(gè)輸出,通過上述誤差函數(shù)計(jì)算誤差,然后再用標(biāo)準(zhǔn)的誤差反向傳播方法修改模型中的各個(gè)權(quán)值。模型中的所有權(quán)值初始化為區(qū)間(0,1)之間的隨機(jī)數(shù)。當(dāng)總誤差的5輪-移動(dòng)平均值不再下降時(shí),訓(xùn)練結(jié)束。(3).數(shù)據(jù)集質(zhì)量評價(jià)數(shù)據(jù)集質(zhì)量由以下兩種方式在第(2)步所訓(xùn)練好的數(shù)據(jù)集自描述模型上進(jìn)行評價(jià):c.數(shù)據(jù)集擾動(dòng)在已歸一化的數(shù)據(jù)集中隨機(jī)抽取20%的數(shù)據(jù)樣本,為每一個(gè)數(shù)據(jù)樣本的每一個(gè)維度增加隨機(jī)擾動(dòng)誤差?!駥τ诿總€(gè)連續(xù)屬性,增加一個(gè)均值為0,標(biāo)準(zhǔn)差為0.05的隨機(jī)誤差,若增加隨機(jī)誤差之后該連續(xù)屬性小于0,則把該屬性設(shè)置為0;若增加隨機(jī)誤差之后該連續(xù)屬性大于1,則把該屬性設(shè)置為1?!駥τ诿總€(gè)離散屬性,以20%的概率增加隨機(jī)誤差,若發(fā)生了需要增加隨機(jī)誤差的事件,則以等概率的方式隨機(jī)指定其取值范圍中的一個(gè)值,然后再把該離散屬性啞變量化。把增加誤差后的數(shù)據(jù)樣本依次通過第(2)步所訓(xùn)練好的數(shù)據(jù)集自描述模型,每個(gè)輸入樣本得到一個(gè)相同維數(shù)的輸出向量,記原始數(shù)據(jù)樣本為x,增加隨機(jī)誤差后的數(shù)據(jù)樣本為x*,x所對應(yīng)的模型輸出為y,x*所對應(yīng)的模型輸出為y*,統(tǒng)計(jì)所有滿足|y-y*|≤|x-x*|的數(shù)據(jù)樣本的個(gè)數(shù)(記為m),m/n表示數(shù)據(jù)集對誤差的容忍度θ,其中n為數(shù)據(jù)集的樣本總數(shù),容忍度越大表明數(shù)據(jù)集對誤差越不敏感,其自身的屬性之間的關(guān)系可以在一定程度上彌補(bǔ)由于數(shù)據(jù)采集或預(yù)處理時(shí)所引入的誤差。d.數(shù)據(jù)集屬性屏蔽屏蔽的含義是把被選中的屬性或?qū)傩缘募现械乃袑傩匀吭O(shè)置為0。按以下兩種策略對數(shù)據(jù)集的屬性進(jìn)行屏蔽:-單個(gè)屬性屏蔽依次屏蔽數(shù)據(jù)集中的每一個(gè)屬性,讓被屏蔽屬性的數(shù)據(jù)樣本依次通過第(2)步訓(xùn)練所得到的網(wǎng)絡(luò),得到一個(gè)輸出向量,對輸入向量和輸出向量進(jìn)行比較,分別比較被屏蔽的屬性和余下未被屏蔽的屬性的差異,記被屏蔽的屬性為p,其相對應(yīng)的輸出為p*,未被屏蔽的屬性集合為qp,其相對應(yīng)的輸出為則數(shù)據(jù)集屬性的單一屬性獨(dú)立性δ為:其中m為數(shù)據(jù)集中屬性的總個(gè)數(shù)。數(shù)據(jù)集屬性的單一屬性獨(dú)立性δ反映了數(shù)據(jù)集中某個(gè)單一屬性獨(dú)立于其它屬性的程度,數(shù)值越小,即單個(gè)屬性可以由其它屬性通過某種變換進(jìn)行表達(dá),表明數(shù)據(jù)集的單一屬性獨(dú)立性越差。-隨機(jī)屬性組的屏蔽以r%的比例有回放的屏蔽數(shù)據(jù)集中的屬性,讓被屏蔽屬性的數(shù)據(jù)樣本依次通過第(2)步訓(xùn)練所得到的網(wǎng)絡(luò),得到一個(gè)輸出向量,對輸入向量和輸出向量進(jìn)行比較,分別比較被屏蔽的屬性和余下未被屏蔽的屬性的差異,記被屏蔽的屬性集合為p,其相對應(yīng)的輸出為p*,未被屏蔽的屬性集合為qp,其相對應(yīng)的輸出為則數(shù)據(jù)集屬性的屬性組獨(dú)立性δ為:其中w為隨機(jī)抽取屏蔽屬性集p的次數(shù),滿足w/3+r=100。數(shù)據(jù)集屬性的屬性組獨(dú)立性δ反映了數(shù)據(jù)集中某個(gè)屬性子集獨(dú)立于余下屬性的程度,數(shù)值越小,表明存在越大的可能性,使在某個(gè)屬性子集被屏蔽的情況下,通過余下的屬性能夠最大限度的還原該屬性組,也即該數(shù)據(jù)集存在一組冗余屬性的可能越大。最后,數(shù)據(jù)集質(zhì)量以(θ,δ,δ)三元組進(jìn)行衡量,一個(gè)質(zhì)量好的數(shù)據(jù)集的三者的數(shù)值應(yīng)該大于65%。具體實(shí)施例下面給出一個(gè)實(shí)施例,以uci數(shù)據(jù)集的censusincome(kdd)dataset(http://archive.ics.uci.edu/ml/datasets/covertype)作為測試數(shù)據(jù)集,該數(shù)據(jù)集有樣本共581012個(gè),數(shù)據(jù)集的屬性共有54個(gè),為離散屬性和連續(xù)屬性的組合,無缺失值。(1).數(shù)據(jù)集預(yù)處理按第5點(diǎn)發(fā)明的內(nèi)容的第(1)小點(diǎn)進(jìn)行數(shù)據(jù)集歸一化,包括連續(xù)屬性的歸一化和離散屬性的啞變量化,由于啞變量化會(huì)增加維數(shù),故歸一化后數(shù)據(jù)集的維數(shù)變?yōu)?16。(2).數(shù)據(jù)集自描述模型的建立根據(jù)第5點(diǎn)發(fā)明的內(nèi)容的第(2)小點(diǎn)進(jìn)行,數(shù)據(jù)集自描述模型的塊的個(gè)數(shù)k=[1.5×lg(581012*54)]=11。隨機(jī)生成11個(gè)θ的數(shù)值,并計(jì)算對應(yīng)的α,作為每一個(gè)屏蔽層所屏蔽上一層的輸出百分比,計(jì)算結(jié)果見表1。屏蔽層序號(hào)θα10.849124.58%20.934023.50%30.678727.08%40.757725.86%50.743126.08%60.392232.65%70.655527.46%80.171238.81%90.706026.64%100.031844.05%110.276935.60%每個(gè)塊中的全連接層的維數(shù)為7*54=378。使用matconvnet(http://www.vlfeat.org/matconvnet/)進(jìn)行數(shù)據(jù)集自描述模型的訓(xùn)練,在配置文件中實(shí)現(xiàn)上述11*3+2層(11個(gè)塊,每個(gè)塊3層,再加上輸入和輸出層),把經(jīng)過歸一化后的數(shù)據(jù)集保存為matlab數(shù)據(jù)文件.mat格式,數(shù)據(jù)集中的所有數(shù)據(jù)均用于訓(xùn)練,不設(shè)驗(yàn)證集和測試集。使用matconvnet提供的訓(xùn)練腳本cnn_train.m進(jìn)行訓(xùn)練。模型中的所有權(quán)值初始化為區(qū)間(0,1)之間的隨機(jī)數(shù),學(xué)習(xí)率固定為0.01,當(dāng)總誤差的5輪-移動(dòng)平均值不再下降時(shí),訓(xùn)練結(jié)束。本實(shí)施例中,訓(xùn)練82輪后,總誤差的5輪-移動(dòng)平均值為7.23%且不再下降,以最后一輪訓(xùn)練后的系統(tǒng)生成的模型參數(shù).mat文件作為數(shù)據(jù)集自描述模型。(3).數(shù)據(jù)集質(zhì)量評價(jià)在已歸一化的數(shù)據(jù)集中隨機(jī)抽取20%的數(shù)據(jù)樣本,為每一個(gè)數(shù)據(jù)樣本的每一個(gè)維度增加隨機(jī)擾動(dòng)誤差。按照
發(fā)明內(nèi)容的第3點(diǎn)計(jì)算容忍度θ。此步驟重復(fù)20次,即進(jìn)行20次隨機(jī)數(shù)據(jù)樣本的抽取,把得到的容忍度θ的20個(gè)數(shù)值進(jìn)行平均,所得值為最終的容忍度,經(jīng)過計(jì)算,本實(shí)施例中數(shù)據(jù)集的容忍度θ為81.24%。按照
發(fā)明內(nèi)容第3點(diǎn)計(jì)算單一屬性獨(dú)立性δ,其值為66.71%。按照
發(fā)明內(nèi)容第3點(diǎn)計(jì)算數(shù)據(jù)集屬性的屬性組獨(dú)立性δ,按w=225,r=25進(jìn)行,經(jīng)過計(jì)算可得,δ的值為64.09%??芍獙?shí)施例中的數(shù)據(jù)集的數(shù)據(jù)質(zhì)量為(81.24%,66.71%,64.09%),其某個(gè)屬性組合有輕微依賴于其余屬性組,總體上說適合于機(jī)器學(xué)習(xí)模型的訓(xùn)練。當(dāng)前第1頁12