本發(fā)明涉及缺失數(shù)據(jù)填補(bǔ)領(lǐng)域,尤其是一種基于KNN的改進(jìn)缺失數(shù)據(jù)填補(bǔ)算法。
背景技術(shù):
在實(shí)際應(yīng)用中,由于獲取數(shù)據(jù)的途徑或?qū)?shù)據(jù)建模的不同,得到的數(shù)據(jù)因不完全符合之前定義好的格式而被標(biāo)記為“未知”或直接空缺,這些數(shù)據(jù)即被稱為不完整數(shù)據(jù)或缺失值。缺失值普遍存在于醫(yī)學(xué)、調(diào)查研究、工業(yè)等相關(guān)領(lǐng)域,不準(zhǔn)確的測(cè)量方法、收集條件的限制、人工錄入的遺漏等都有可能導(dǎo)致數(shù)據(jù)缺失,大量的數(shù)據(jù)缺失對(duì)后期的數(shù)據(jù)統(tǒng)計(jì)分析和數(shù)據(jù)挖掘工作都會(huì)產(chǎn)生很不利的影響。例如缺失值可能會(huì)直接影響到新發(fā)現(xiàn)模式的準(zhǔn)確性,導(dǎo)致錯(cuò)誤的挖掘模型。在關(guān)聯(lián)規(guī)則中,缺失值的未知性會(huì)對(duì)正常的數(shù)據(jù)分布形成干擾,影響支持度與置信度的計(jì)算結(jié)果,從而降低關(guān)聯(lián)規(guī)則的挖掘能力。在聚類算法中,距離算法無(wú)法處理缺失值情況,從而影響最終的聚類結(jié)果。在決策樹(shù)分類中,對(duì)屬性值為空的記錄很難確切進(jìn)行劃分,因此無(wú)法獲得準(zhǔn)確的統(tǒng)計(jì)分析結(jié)果,影響最終的決策。
對(duì)數(shù)據(jù)集中的含有的缺失數(shù)據(jù)進(jìn)行及時(shí)準(zhǔn)確的填補(bǔ)對(duì)用戶獲得有效信息以及提高用戶滿意度相當(dāng)重要,也是數(shù)據(jù)處理領(lǐng)域一個(gè)值得研究和重視的問(wèn)題。缺失值是影響數(shù)據(jù)完整性的主要因素,而在現(xiàn)實(shí)世界中由于數(shù)據(jù)錄入時(shí)出現(xiàn)遺漏、不正確的度量方法、收集條件的限制或者因違反約束條件而被刪除等多方面因素都有可能導(dǎo)致缺失值,使得缺失值問(wèn)題獲得廣泛的關(guān)注和研究。
目前已有很多針對(duì)缺失值填補(bǔ)的研究工作,填補(bǔ)方法主要分為三類,刪除含有缺失值的記錄、忽略含有缺失值的記錄和對(duì)缺失值進(jìn)行填補(bǔ)。其中最熱門的就是對(duì)缺失值填充法的研究,填充方法大致可分為兩類:統(tǒng)計(jì)學(xué)方法和數(shù)據(jù)挖掘方法。前者主要針對(duì)屬性值是連續(xù)型數(shù)據(jù)的情形,常用于對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分析統(tǒng)計(jì)后對(duì)缺失值進(jìn)行填補(bǔ),常用的參數(shù)方法有線性回歸法,多重填充法和EM算法。統(tǒng)計(jì)學(xué)方法能取得很好的填補(bǔ)效果,但是其不足之處在于,若在數(shù)據(jù)統(tǒng)計(jì)分析的過(guò)程中數(shù)據(jù)沒(méi)有完全被理解透徹,或者選取了錯(cuò)誤的數(shù)據(jù)模型,都可能會(huì)導(dǎo)致數(shù)據(jù)出現(xiàn)偏差,進(jìn)而對(duì)數(shù)據(jù)質(zhì)量帶來(lái)不利的影響。最簡(jiǎn)單也是最常見(jiàn)的統(tǒng)計(jì)學(xué)填補(bǔ)方法是均值填補(bǔ),即利用樣本中具有完整數(shù)值的記錄,計(jì)算其平均值,用于填補(bǔ)缺失的記錄。數(shù)據(jù)挖掘方法是基于聚類算法將整個(gè)樣本集劃分為多個(gè)子集,再對(duì)子集進(jìn)行分析,其主要研究方法有決策樹(shù)、貝葉斯網(wǎng)絡(luò)、聚類、神經(jīng)網(wǎng)絡(luò)、粗糙集理論等方法。與統(tǒng)計(jì)學(xué)方法不同的是,數(shù)據(jù)挖掘方法主要針對(duì)屬性值是離散型的情形。KNN算法是在傳統(tǒng)近鄰算法的基礎(chǔ)上發(fā)展而來(lái)的,其宗旨在于將兩個(gè)距離最接近的記錄視為最相似,并且由于操作方法的簡(jiǎn)便和數(shù)值填補(bǔ)的高準(zhǔn)確率而廣受學(xué)者研究和應(yīng)用,目前很多填充算法都是在KNN的基礎(chǔ)上進(jìn)一步發(fā)展得到的。Pedro等人通過(guò)應(yīng)用熵權(quán)矩陣來(lái)選取與缺失值最近鄰的K個(gè)完整數(shù)據(jù),而最終估值的加權(quán)系數(shù)則通過(guò)互信息來(lái)確定。熵值在反映數(shù)據(jù)的相關(guān)性上有很大優(yōu)勢(shì),因此所選取的K個(gè)近鄰也較為準(zhǔn)確合理。但是對(duì)于KNN在處理高維數(shù)據(jù)時(shí)的復(fù)雜計(jì)算量沒(méi)有提出有效的解決方法?;跉W式距離對(duì)于量綱限制的缺陷,楊濤等提出用馬氏距離代替歐式距離選取K個(gè)最近鄰樣本。馬氏距離避免了屬性量綱的限制,充分考慮到樣本間變異與相關(guān)性問(wèn)題,同時(shí)運(yùn)用熵值概念確定缺失值的加權(quán)系數(shù)。實(shí)驗(yàn)證明該算法取得很好的填補(bǔ)效果,但在K值的選取上沒(méi)有提出有效解決方法。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:為解決上述技術(shù)問(wèn)題,降低缺失數(shù)據(jù)算法的計(jì)算復(fù)雜度、提高鄰近樣本取值精確度以及提高數(shù)據(jù)填補(bǔ)值的估算精度,本發(fā)明提供一種基于KNN的改進(jìn)缺失數(shù)據(jù)填補(bǔ)算法。
技術(shù)方案:為實(shí)現(xiàn)上述技術(shù)效果,本發(fā)明提出的技術(shù)方案為:
一種基于KNN的改進(jìn)缺失數(shù)據(jù)填補(bǔ)算法,該算法包括步驟:
(1)對(duì)數(shù)據(jù)屬性進(jìn)行精簡(jiǎn)預(yù)處理,包括步驟:
設(shè)數(shù)據(jù)集X={X1,X2,…,Xn},n為事例的個(gè)數(shù);定義數(shù)據(jù)集中第i條事例Xi的屬性j值為xij,將xij表示為:
xij=k1jxi1+k2jxi2+…ktjxit+…+kmjxim,t≠j
式(1)中,m為Xi的屬性總數(shù)目,ktj表示屬性t對(duì)于屬性j的權(quán)重系數(shù);
定義屬性t和屬性j之間的相關(guān)系數(shù)為Ptj,ptj的表達(dá)式為:
計(jì)算權(quán)重系數(shù)ktj為:
設(shè)置閾值A(chǔ),當(dāng)滿足ktj<A時(shí),刪除屬性t;
(2)選擇缺失事例的鄰近樣本,包括步驟:
基于步驟(1)精簡(jiǎn)后的剩余屬性數(shù)據(jù),分別計(jì)算缺失事例各屬性之間的馬氏距離以及缺失事例與其他事例間的灰色相關(guān)系數(shù);根據(jù)計(jì)算出的馬氏距離和灰色相關(guān)系數(shù)計(jì)算鄰近樣本選擇距離:
a∈[1,2,…,n]且a≠i
式中,CRG(xa,xi)表示事例Xa與Xi之間的灰色關(guān)聯(lián)度,Mahal(xaj,xij)表示屬性xaj與xij之間的馬氏距離;
從數(shù)據(jù)集X中挑選出與缺失事例之間的距離dk滿足dk≤Dist(xt,xi)的K個(gè)完整事例,k∈[1,2,…,K];
(3)計(jì)算缺失事例的填補(bǔ)估計(jì)值,包括步驟:
將步驟(2)中選出的K個(gè)完整事例形成的數(shù)據(jù)集記為Y=[y1,y2,…,yi,…,yK]
計(jì)算事例yk對(duì)應(yīng)屬性的熵權(quán)值Ek為:
Ek=-Mpk ln pk
根據(jù)熵權(quán)值Ek計(jì)算事例yk的屬性權(quán)值:
其中,0≤wk≤1,
計(jì)算缺失事例的填補(bǔ)估計(jì)值為:
進(jìn)一步的,所述步驟(2)中的馬氏距離Mahal(xaj,xij)的計(jì)算方法為:
式中,T代表轉(zhuǎn)置矩陣,Σ代表樣本協(xié)方差。
進(jìn)一步的,所述步驟(2)中的灰色相關(guān)系數(shù)的計(jì)算方法為:
將所有屬性值均量化到區(qū)間[0,1],計(jì)算事例Xa與事例Xi在屬性p上灰色相關(guān)系數(shù)為:
式中,ρ為調(diào)整參數(shù),ρ∈(0,1);q∈[1,2,…,m];
根據(jù)GRC(xap,xip)計(jì)算事例Xa與事例Xi之間的灰色相關(guān)系數(shù)為:
有益效果:與現(xiàn)有KNN算法相比,本發(fā)明具有以下優(yōu)勢(shì):
(1)計(jì)算復(fù)雜度大大降低:利用改進(jìn)的復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法對(duì)屬性集進(jìn)行精簡(jiǎn)化操作,減少參與計(jì)算的屬性數(shù)目,這樣在計(jì)算缺失樣本的K個(gè)近鄰時(shí)會(huì)大大減少計(jì)算量,提高算法效率。
(2)距離算法準(zhǔn)確率高,應(yīng)用更廣:原算法中在計(jì)算K個(gè)近鄰時(shí)采用的距離算法為歐式距離,雖然計(jì)算簡(jiǎn)單但是沒(méi)有考慮到屬性量綱問(wèn)題,本算法結(jié)合馬氏距離和灰色關(guān)聯(lián)分析法,綜合考慮了屬性間的相關(guān)性、屬性量綱、屬性類型等問(wèn)題,使計(jì)算出的結(jié)果更加準(zhǔn)確、適用性更廣。
(3)填補(bǔ)效果更精確:在計(jì)算最終的填補(bǔ)值時(shí),原算法一般選取K個(gè)完整樣本值取均值的方法。本算法通過(guò)引進(jìn)熵權(quán)理論的知識(shí),利用K個(gè)值的大小不同,對(duì)K個(gè)樣本對(duì)應(yīng)的屬性賦權(quán)值,代表其對(duì)于缺失值的影響程度。在最終計(jì)算填補(bǔ)值時(shí),加入熵權(quán)值的影響,使得到的計(jì)算結(jié)果更加的準(zhǔn)確。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的流程圖。
具體實(shí)施方式
下面結(jié)合附圖及現(xiàn)有的KNN算法對(duì)本發(fā)明作更進(jìn)一步的說(shuō)明。
如圖1所示為本發(fā)明實(shí)施例的流程圖,包括步驟:
(1)對(duì)數(shù)據(jù)樣本集進(jìn)行屬性集精簡(jiǎn)化操作,刪除相關(guān)性不大的樣本
首先對(duì)含缺失值的樣本與其他完整樣本進(jìn)行分析比較,刪除一些與缺失樣本關(guān)聯(lián)不大的樣本;對(duì)數(shù)據(jù)集樣本進(jìn)行進(jìn)一步屬性精簡(jiǎn)操作。對(duì)傳統(tǒng)的復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法進(jìn)行改進(jìn),并利用改進(jìn)后的算法計(jì)算出每個(gè)屬性對(duì)含缺失值屬性的重要性,刪除一些與關(guān)鍵屬性關(guān)聯(lián)較小的屬性,對(duì)屬性集進(jìn)行精簡(jiǎn)操作,得到僅含精簡(jiǎn)屬性集的數(shù)據(jù)樣本集。
(2)對(duì)精簡(jiǎn)后的剩余屬性值做歸一化處理。
(3)結(jié)合馬氏距離和灰色關(guān)聯(lián)分析法,計(jì)算缺失樣本的K個(gè)近鄰樣本
利用馬氏距離綜合考慮屬性間的相關(guān)性和變異性的優(yōu)點(diǎn),結(jié)合灰色關(guān)聯(lián)分析法對(duì)含不確定因素樣本的有效預(yù)測(cè),計(jì)算出缺失樣本的K個(gè)近鄰樣本。
(4)根據(jù)熵權(quán)法對(duì)對(duì)應(yīng)屬性賦權(quán)。
(5)根據(jù)K個(gè)近鄰樣本的信息,計(jì)算出最終的填補(bǔ)值
根據(jù)計(jì)算得到的K個(gè)距離值,依據(jù)熵權(quán)法對(duì)K個(gè)樣本對(duì)應(yīng)的屬性賦熵權(quán)值,再結(jié)合屬性值,計(jì)算出最終的填補(bǔ)值。
(6)算法結(jié)束。
K最近鄰(K-Nearest Neighbor,KNN)分類算法是最簡(jiǎn)單的機(jī)器學(xué)習(xí)算法之一,是目前發(fā)展比較成熟的方法。該方法的基本思路是:在同一個(gè)特征空間內(nèi),如果一個(gè)樣本的k個(gè)最相似近鄰樣本中的大部分屬于某個(gè)類別,那么這個(gè)樣本也屬于該類別。在缺失值填充技術(shù)中,利用KNN算法中目標(biāo)樣本與近鄰樣本的同類相似理論從完整數(shù)據(jù)集中選取K個(gè)缺失數(shù)據(jù)的近鄰,兩個(gè)樣本的近鄰程度則是根據(jù)它們之間的歐式距離決定。
KNN算法是一個(gè)易于實(shí)現(xiàn)且效果良好的填補(bǔ)算法。但其主要缺陷在于每次選取K個(gè)近鄰樣本都要遍歷整個(gè)數(shù)據(jù)集,同時(shí)歐式距離對(duì)于測(cè)量近鄰程度也有很大的局限性。因此本發(fā)明對(duì)KNN算法進(jìn)行三個(gè)方面的改進(jìn):首先利用改進(jìn)的復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法對(duì)屬性集進(jìn)行精簡(jiǎn)化操作,其次選擇馬氏距離和灰色關(guān)聯(lián)分析法作為距離算法計(jì)算缺失樣本的K個(gè)近鄰?fù)暾麡颖荆詈髴?yīng)用熵權(quán)理論對(duì)K個(gè)完整樣本熵賦權(quán)值,結(jié)合屬性值本身計(jì)算出最終的填補(bǔ)值。下面對(duì)這三個(gè)方面的改進(jìn)方法做具體說(shuō)明。
(1)改進(jìn)的復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法
一般情況下,為了更加綜合全面地反映樣本集的總體特點(diǎn)和其內(nèi)部數(shù)據(jù)的關(guān)聯(lián)性,在分析問(wèn)題時(shí)總是會(huì)將樣本更多的屬性考慮進(jìn)來(lái)以免遺漏重要信息,然而屬性數(shù)目的增加又會(huì)導(dǎo)致數(shù)據(jù)的冗余和計(jì)算的繁雜,復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法正是解決這個(gè)問(wèn)題很好的工具,它首先對(duì)數(shù)據(jù)集每個(gè)屬性進(jìn)行分析,得出對(duì)缺失值屬性關(guān)聯(lián)度最大的屬性集,這樣就可以在簡(jiǎn)化問(wèn)題減少計(jì)算量的同時(shí)又保證了填補(bǔ)的精確度。在本章中我們對(duì)復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法進(jìn)行了優(yōu)化,使優(yōu)化算法無(wú)論在計(jì)算量上還是準(zhǔn)確度上都比之前得到提高。
復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法的計(jì)算過(guò)程為:假設(shè)將n維向量X={X1,X2,…,Xn}表示為數(shù)據(jù)集,其中第i條事例Xi在屬性j上的值為xij,即對(duì)于一個(gè)給定的屬性j,數(shù)據(jù)集中各個(gè)事例在屬性j上的值表示為:
xij,x2j,…,xnj
對(duì)于每條記錄的屬性xij我們用其他屬性進(jìn)行如下表示:
xij=k1jxi1+k2jxi2+…ktjxit+…+kmjxim,t≠j (1.1)
其中,i∈[1,2,…,n],j∈[1,2,…,m],m為Xi的屬性總數(shù)目,ktj用于評(píng)價(jià)事例Xi中屬性t對(duì)于屬性j的重要程度,記為屬性t對(duì)于屬性j的權(quán)重系數(shù),ktj的值越大,代表屬性t的變化對(duì)于屬性j的影響越大。所以復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法的目的就在于根據(jù)ktj的值的大小選取對(duì)屬性j相對(duì)重要的屬性,而忽略一些不太相關(guān)的屬性,從而達(dá)到精簡(jiǎn)屬性集的結(jié)果。我們將復(fù)相關(guān)系數(shù)記為pj,它代表屬性j被其他屬性替代的能力。當(dāng)pj=1時(shí),表示屬性j可以用其他屬性代替,否則屬性j對(duì)缺損值來(lái)說(shuō)就是一個(gè)不可替代的屬性??梢愿鶕?jù)以下公式來(lái)計(jì)算復(fù)相關(guān)系數(shù)pj的值:
在公式(1.3)中,xij表示事例i的屬性j,表示屬性j的平均值,表示的估計(jì)值。根據(jù)得到的復(fù)相關(guān)系數(shù)的值,我們可以利用下式計(jì)算權(quán)重系數(shù)的值:
通過(guò)以上計(jì)算可知,復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法的計(jì)算過(guò)程較為繁瑣,且的未知性可能會(huì)使結(jié)果出現(xiàn)一定的誤差,為了解決上述問(wèn)題,提高權(quán)值的計(jì)算精度,本發(fā)明提出改進(jìn)的復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法,步驟為:
將屬性t和屬性j間的相關(guān)系數(shù)記為ptj以便能更加準(zhǔn)確地表示屬性間的相關(guān)性,則ptj的值可以通過(guò)下式進(jìn)行計(jì)算:
帶入式(1.4)得到權(quán)重系數(shù)為:
與pj相比,ptj在表示屬性間的相關(guān)性上更具有代表性和準(zhǔn)確性,改進(jìn)后的算法提高了復(fù)相關(guān)系數(shù)倒數(shù)賦權(quán)法的效率,同時(shí)使運(yùn)算結(jié)果更加準(zhǔn)確。每個(gè)屬性對(duì)缺損屬性的重要性與ktj的值直接相關(guān),若計(jì)算得到的ktj值小于我們之前設(shè)定的閾值,則這個(gè)屬性在計(jì)算K個(gè)近鄰記錄時(shí)可以忽略不計(jì),通過(guò)以上計(jì)算我們就可以得到在原屬性基礎(chǔ)上精簡(jiǎn)后的數(shù)據(jù)集。
(2)馬氏距離和灰色關(guān)聯(lián)度計(jì)算
在歐式距離的基礎(chǔ)上,馬氏距離綜合考慮了屬性間的相關(guān)性和變異性,解決了不同屬性量綱的限制性問(wèn)題,這些優(yōu)點(diǎn)使它在計(jì)算未知樣本距離時(shí)比歐式距離更加準(zhǔn)確,適用性更廣。馬氏距離計(jì)算的是屬性值之間的協(xié)方差距離,例如屬性xaj和xij之間的馬氏距離為:
在式(1.7)中,T代表轉(zhuǎn)置矩陣,Σ代表樣本協(xié)方差,只有在協(xié)方差矩陣的逆矩陣存在時(shí)我們才可以計(jì)算馬氏距離的值,否則只能以歐式距離替代。
灰色關(guān)聯(lián)分析法是對(duì)含有不確定因素系統(tǒng)的一種有效的預(yù)測(cè)方法,作為灰色系統(tǒng)理論的一種常見(jiàn)的方法,灰色關(guān)聯(lián)分析(GRA)常被用來(lái)計(jì)算被各種因素影響的兩個(gè)事例間的相關(guān)程度。兩個(gè)事例間的關(guān)聯(lián)值越高,則兩個(gè)事例近鄰度越大,反之則越小。因此,灰色關(guān)聯(lián)分析法在缺失值填補(bǔ)時(shí)對(duì)于K個(gè)近鄰的選取上是相當(dāng)適用的。
在灰色關(guān)聯(lián)分析過(guò)程中,常用灰色相關(guān)系數(shù)(GRC)去度量含缺失值事例和完全事例間的關(guān)系。假設(shè)將數(shù)據(jù)集設(shè)為X={X1,X2,…,Xn},其中X1代表缺失事例。GRC(X1,Xi)代表事例X1和其他事例間的灰色關(guān)聯(lián)度。首先為避免不同屬性的測(cè)量量綱帶來(lái)偏差我們將所有屬性值進(jìn)行量化操作,將屬性的值統(tǒng)一量化到區(qū)間[0,1],然后可以根據(jù)下式計(jì)算灰色相關(guān)系數(shù)(GRC):
其中ρ∈(0,1)為調(diào)整參數(shù),通常我們將其值設(shè)置為0.5。i∈[1,2,…,n],p,q∈[1,2,…,m],其中n代表事例的個(gè)數(shù),m代表每個(gè)事例的屬性數(shù)目。代表事例X1與事例Xi在屬性q值上差的絕對(duì)值的最小值。GRC(x1p,xip)表示事例X1與事例Xi在屬性p上的相似度。GRC(x1p,xip)的值越大,代表兩個(gè)屬性值越接近。GRC(x1p,xip)∈(0,1],當(dāng)|x1p-xip|的值最小時(shí),GRC(x1p,xip)的值為1,反之則GRC(x1p,xip)的值最小。在計(jì)算出事例X1與事例Xi在每個(gè)屬性上的灰色相關(guān)系數(shù)值以后,GRC(X1,Xi)即可通過(guò)如下方式計(jì)算:
如果GRC(X1,X2)>GRC(X1,X3),則表示事例X2相對(duì)于事例X3與事例X1近鄰程度更高。根據(jù)每個(gè)事例中q屬性對(duì)該記錄的貢獻(xiàn)程度賦予每個(gè)屬性權(quán)值wq,它代表該屬性對(duì)該事例的重要程度。在馬氏距離和灰色關(guān)聯(lián)度的計(jì)算過(guò)程中加入屬性權(quán)重的影響,能更加準(zhǔn)確地計(jì)算事例間的近鄰程度,選出更合適的K個(gè)近鄰。在得出事例間的馬氏距離和灰色關(guān)聯(lián)度的值后,我們就可以結(jié)合二者來(lái)計(jì)算最終的距離:
a∈[1,2,…,n]且a≠i
(3)缺失值填充
根據(jù)距離公式計(jì)算得出缺失值的K個(gè)近鄰后,我們需要利用K個(gè)近鄰提供的數(shù)據(jù)信息,選擇合適的填充方法,計(jì)算出估計(jì)值對(duì)缺失值進(jìn)行填充。為了使估計(jì)值更加接近真實(shí)值,提出根據(jù)K個(gè)完整事例與缺失事例的距離大小賦予對(duì)應(yīng)屬性不同的權(quán)值。將計(jì)算得到的K個(gè)近鄰的距離大小記為dk,k∈[1,2,…,K],dk的值越小表示該事例與缺失事例越接近。根據(jù)各事例對(duì)缺失事例所產(chǎn)生的影響程度,對(duì)影響能力越大的事例對(duì)應(yīng)屬性賦予更高的權(quán)值。本發(fā)明使用信息理論中熵權(quán)知識(shí)對(duì)權(quán)值進(jìn)行計(jì)算。
“熵權(quán)”理論是利用信息論中熵的概念對(duì)各指標(biāo)的一種客觀賦權(quán)方法。在一個(gè)給定的對(duì)象集中,同時(shí)在各種評(píng)價(jià)指標(biāo)值確定的情況下,熵權(quán)代表每個(gè)指標(biāo)競(jìng)爭(zhēng)意義上的相對(duì)激烈程度,在信息理論中,它代表該評(píng)價(jià)指標(biāo)在該問(wèn)題中所能提供有效信息量的多寡程度,作為一種客觀綜合評(píng)價(jià)方法,它主要是根據(jù)各指標(biāo)傳遞給決策者的信息量大小來(lái)確定其權(quán)數(shù)。在這里我們將K個(gè)距離值作為熵權(quán)理論中的K個(gè)指標(biāo),根據(jù)每個(gè)屬性與缺失值的遠(yuǎn)近程度對(duì)其賦值,具體步驟如下所示:
假設(shè)D=(d1,d2,…di,…,dK)代表K個(gè)距離值,首先我們將各指標(biāo)進(jìn)行標(biāo)準(zhǔn)化操
作,將標(biāo)準(zhǔn)化后的數(shù)據(jù)集記為Y=[y1,y2,…,yi,…,yK],Y表示選出的K個(gè)完整事例形成的數(shù)據(jù)集,yk可以通過(guò)以下標(biāo)準(zhǔn)化過(guò)程得到:
在標(biāo)準(zhǔn)化操作后,根據(jù)熵權(quán)的定義,計(jì)算各事例對(duì)應(yīng)屬性的熵權(quán)值:
Ek=-Mpk ln pk,k∈[1,2,…,K] (1.12)
其中Ek代表根據(jù)缺失事例與完整事例yk在對(duì)應(yīng)確實(shí)屬性上的距離值所確定的熵權(quán)值,如果pk=0,則根據(jù)以上所得的結(jié)果我們計(jì)算出最終的屬性權(quán)值:
其中0≤wk≤1,
綜上所述,根據(jù)K個(gè)近鄰對(duì)應(yīng)屬性的權(quán)值,結(jié)合屬性值自身得到最終的填補(bǔ)估計(jì)值如下:
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出:對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。