欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于熵權(quán)算法的多變量面板數(shù)據(jù)聚類分析方法與流程

文檔序號:11432795閱讀:1378來源:國知局
基于熵權(quán)算法的多變量面板數(shù)據(jù)聚類分析方法與流程
本發(fā)明屬于數(shù)據(jù)挖掘
技術(shù)領(lǐng)域
,主要應(yīng)用于對目標群體的分類處理,為目標群體進行差異化分析奠定基礎(chǔ),具體涉及一種基于熵權(quán)算法的多變量面板數(shù)據(jù)聚類分析方法。
背景技術(shù)
:(1)聚類分析的基本原理聚類分析是以差異分析為基礎(chǔ)的統(tǒng)計分析方法。通過計算各個樣本之間的“親疏程度”實現(xiàn)對“沒有先驗知識”的樣本進行分類,從而達到“物以類聚”的效果。這里所謂的“親疏程度”指的是各樣本在各變量取值上的差異狀況?!皼]有先驗知識”是指在進行聚類分析前不對樣本進行事前的分類假定,僅是將樣本集視為一個整體或是將每個樣本視為單獨一類。(2)現(xiàn)有基于面板數(shù)據(jù)的多變量聚類分析相關(guān)研究目前基于面板數(shù)據(jù)的多變量聚類分析研究工作并不多。這些研究多采用“退化時間維度”的思路,通過將時間維度的變量均值進行降維,或者將各時點下各變量的“統(tǒng)計距離”簡單相加。這樣的處理方法忽略了變量值在時間序列上的變化情況,減少了聚類分析的可用信息,分析結(jié)果存在著不足和缺陷。另一方面,部分研究者注意到了時間序列上變量值的變化情況對聚類分析的貢獻。但是,目前在處理多變量數(shù)據(jù)集時,尚缺乏科學的方法和技術(shù)對時間序列變化情況的貢獻度(權(quán)重)進行測算,因此并不能準確地測算出時間變化對聚類分析的影響程度。在現(xiàn)有可知的研究成果中,李因果[1]將“絕對量距離”、“增量距離”和“變異系數(shù)距離”通過α、β和γ三個權(quán)重進行加權(quán)求和,得到整體的“綜合全時距離”。他在研究中假設(shè)α、β和γ對任何變量都保持相等的取值,并且簡單地將權(quán)重設(shè)置為α=β=γ=1/3。這一假設(shè)缺乏可靠的理論依據(jù),也不符合現(xiàn)實情況,因此而得到的分類結(jié)果不夠準確。高雪[2]采用和李因果類似的思路,計算了“絕對距離”和“增速距離”,并對兩者進行加權(quán)求和,得到個體距離。她通過對每個時點下樣本個體落入k類別的次數(shù)進行比較,以完成對多變量面板數(shù)據(jù)的聚類分析。這一方法割裂了整個時間區(qū)間,得到的分析結(jié)果并不能有效地反映整個時間序列的變化情況。另外,算法對權(quán)重值的設(shè)定也基于和李因果相同的假設(shè),這并不能反映出變量間真實的權(quán)重關(guān)系。李崢和劉云霞[3]也做了類似的研究,但其構(gòu)建的“歐氏時空距離”本質(zhì)上是僅針對“絕對距離”進行的聚類分析,并不能反映出時間序列上的變化特征。(3)權(quán)重設(shè)定的相關(guān)研究權(quán)重設(shè)定有很多方法,其中熵權(quán)法是對權(quán)重進行客觀測定的一種重要方法,已經(jīng)在工程技術(shù)、經(jīng)濟社會研究中得到了廣泛的應(yīng)用。在信息論中,熵反映的是信息的無序程度。信息集中數(shù)值的變異程度越大,其包含的信息量越大,則表明該信息集越重要,賦予它的權(quán)重也應(yīng)該越大。但是現(xiàn)有的研究中,熵權(quán)法都是應(yīng)用在單一時點的橫截面數(shù)據(jù)或技術(shù)退化為單一時點的面板數(shù)據(jù)分析中,無法體現(xiàn)信息在時間序列上的變化。目前在對多變量數(shù)集進行聚類分析時,大部分研究工作僅僅針對橫截面數(shù)據(jù)進行分析,忽略了數(shù)據(jù)的時間序列變化特征。少數(shù)研究工作注意到時間序列上變量值的變化會對聚類分析產(chǎn)生重要的影響。但是,在多變量數(shù)集聚類分析中,他們對時間序列變化因素的貢獻度(權(quán)重)測算缺乏科學可行的技術(shù)和方法,只是簡單人為賦予主觀的權(quán)重值,這樣得到的聚類分析結(jié)果必然缺乏科學依據(jù)。熵權(quán)法是進行權(quán)重測算的一個重要技術(shù)。這一方法已經(jīng)在工程技術(shù)和經(jīng)濟社會研究中得到了廣泛應(yīng)用。但是目前熵權(quán)法還沒有很好的技術(shù)用于反映信息在時間序列上的變異情況,因此這一技術(shù)在聚類分析中沒有得到很好的應(yīng)用。本發(fā)明提出基于面板數(shù)據(jù)的多變量聚類分析新思路,解決了熵權(quán)法在處理時間序列數(shù)據(jù)時的技術(shù)問題,并將熵權(quán)法和多變量聚類分析結(jié)合起來,用熵權(quán)法的結(jié)果作為多變量聚類分析中權(quán)重設(shè)定的依據(jù),解決了聚類分析在多變量面板數(shù)據(jù)分類問題中的關(guān)鍵性環(huán)節(jié),對聚類分析的應(yīng)用有著實質(zhì)性的突破。參考文獻:[1]李因果.面板數(shù)據(jù)聚類方法及應(yīng)用[j].統(tǒng)計研究,2010,27(9):73-79[2]李崢、劉云霞.面板數(shù)據(jù)多指標聚類和變系數(shù)模型的方法與實證[j].統(tǒng)計與決策,2014(7):11-14[3]高雪、謝儀、侯紅衛(wèi).基于多指標面板數(shù)據(jù)的改進的聚類方法及應(yīng)用[j].浙江工業(yè)大學學報,2014,42(8):468-472。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于提供一種基于熵權(quán)算法的多變量面板數(shù)據(jù)聚類分析方法,該方法基本克服了現(xiàn)有方法在處理時間序列上的缺陷,有效地豐富了可用信息,還對權(quán)重測算方法進行了很好的改善,最終提升了聚類分析結(jié)果的有效性和科學性。為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于熵權(quán)算法的多變量面板數(shù)據(jù)聚類分析方法,包括如下步驟,s1:讀入多變量面板數(shù)據(jù);s2:計算各個變量所對應(yīng)的絕對距離和相對距離;s3:計算各個變量的個體距離矩陣;s4:計算全變量個體距離矩陣;s5:以全變量個體距離矩陣為依據(jù),完成樣本的類型劃分。在本發(fā)明一實施例中,所述步驟s2具體實現(xiàn)方式如下:假設(shè)通過讀入的多變量面板數(shù)據(jù)采集到的數(shù)據(jù)共存在n個觀測對象(n=1,2,…,n-1,n),時間序列為t期(t=1,2,…,t-1,t),并含有k個變量(k=1,2,…,k-1,k);那么,觀測對象n在時點t上對于變量k的取值表示為xntk;s21:對于變量k在時間序列上的絕對取值,個體ni和個體nj之間的距離,即絕對距離,用表示,其中s22:對于變量k在時間序列上的相對變化率δxntk/xn,t-1,k,個體ni和個體nj之間的距離,即相對距離,用表示,其中在本發(fā)明一實施例中,所述步驟s3具體實現(xiàn)方式如下:s31:用反映離散程度的統(tǒng)計量對多變量面板數(shù)據(jù)的時間序列進行降維,構(gòu)建新的數(shù)據(jù)矩陣r,該過程中采用標準差系數(shù)cvnk=σnk/μnk對多變量面板數(shù)據(jù)的時間序列進行降維,其中σnk、μnk分別表示在時間序列上個體n關(guān)于變量k取值的標準差和均值;s32:計算第k個變量下第n個個體在時間序列上標準差系數(shù)cvnk的比重pnk:s33:通過pnk計算第k個變量的熵值ek:s34:計算第k個變量的熵權(quán)αk:s35:計算各變量的個體距離矩陣dk:在本發(fā)明一實施例中,所述步驟s4具體實現(xiàn)方式如下:將各變量的個體距離矩陣dk進行加總,得到全變量個體距離矩陣d;d表示為:其中并且在本發(fā)明一實施例中,所述步驟s5完成樣本的類型劃分是通過包括最近鄰居距離、最遠鄰居距離、離差平方和法的計算方法實現(xiàn)。相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明在分析現(xiàn)有的多指標面板數(shù)據(jù)聚類分析的基礎(chǔ)上,提出了一種新的基于熵權(quán)法的聚類分析方法;該方法基本克服了現(xiàn)有方法在處理時間序列上的缺陷,有效地豐富了可用信息,還對權(quán)重測算方法進行了很好的改善,最終提升了聚類分析結(jié)果的有效性和科學性。附圖說明圖1為本發(fā)明方法流程圖。圖2為全國省市自治區(qū)城鎮(zhèn)化水平的聚類分析結(jié)果。圖3為綜合多變化的城鎮(zhèn)化水平分類。圖4為針對人口城鎮(zhèn)化水平的城鎮(zhèn)化水平分類。具體實施方式下面結(jié)合附圖,對本發(fā)明的技術(shù)方案進行具體說明。如圖1所示,本發(fā)明的一種基于熵權(quán)算法的多變量面板數(shù)據(jù)聚類分析方法,首先,讀入多變量面板數(shù)據(jù);然后,計算各個變量所對應(yīng)的絕對距離和相對距離;而后,計算各個變量的個體距離矩陣;再而,計算全變量個體距離矩陣;最后,以全變量個體距離矩陣為依據(jù),即可完成樣本的類型劃分;具體如下:假設(shè)通過讀入的多變量面板數(shù)據(jù)采集到的數(shù)據(jù)共存在n個觀測對象(n=1,2,…,n-1,n),時間序列為t期(t=1,2,…,t-1,t),并含有k個變量(k=1,2,…,k-1,k);那么,觀測對象n在時點t上對于變量k的取值表示為xntk;1)計算各個變量所對應(yīng)的絕對距離和相對距離:(1)對于變量k在時間序列上的絕對取值,個體ni和個體nj之間的距離,即絕對距離,用表示,其中(2)對于變量k在時間序列上的相對變化率δxntk/xn,t-1,k,個體ni和個體nj之間的距離,即相對距離,用表示,其中2)計算各個變量的個體距離矩陣:個體距離dk是包含著絕對距離和相對距離的“綜合距離”矩陣。矩陣中的每個元素是各個變量絕對距離和相對距離的加權(quán)之和,表示為其中,αk1和αk2分別為變量k絕對距離和相對距離的權(quán)重。用擴展的熵權(quán)法對權(quán)重αk1和αk2進行測算熵反映的是信息的無序程度。如果在一個封閉的信息集中,其包含的數(shù)值變異程度越大,說明其包含的信息量越大。那么,該信息集越重要,賦予它的權(quán)重也應(yīng)該越大。為了使熵權(quán)法在面板數(shù)據(jù)分析中能夠包含時間序列的變化特點,本發(fā)明對熵權(quán)法進行了進一步的擴展。(1)用反映離散程度的統(tǒng)計量對多變量面板數(shù)據(jù)的時間序列進行降維,構(gòu)建新的數(shù)據(jù)矩陣r,該過程中采用標準差系數(shù)cvnk=σnk/μnk對多變量面板數(shù)據(jù)的時間序列進行降維,其中σnk、μnk分別表示在時間序列上個體n關(guān)于變量k取值的標準差和均值;(2)計算第k個變量下第n個個體在時間序列上標準差系數(shù)cvnk的比重pnk:(3)通過pnk計算第k個變量的熵值ek:(4)計算第k個變量的熵權(quán)αk:(5)計算各變量的個體距離矩陣dk:3)計算全變量個體距離矩陣:將各變量的個體距離矩陣dk進行加總,得到全變量個體距離矩陣d;d表示為:其中并且4)以全變量個體距離矩陣d為依據(jù),即可完成樣本的類型劃分:具體過程中可采用聚類分析常用的最近鄰居距離、最遠鄰居距離、離差平方和法等計算方法。以下為本發(fā)明的具體實施例。根據(jù)上述方法,本文對中國城鎮(zhèn)化水平的真實數(shù)據(jù)進行實證分析。為了計算思路的清晰,將城鎮(zhèn)化水平分解為人口城鎮(zhèn)化水平、土地城鎮(zhèn)化水平、人口城鎮(zhèn)化增速和土地城鎮(zhèn)化增速四個變量。其中,前兩個變量表示“絕對量”,而后兩個代表著“相對量”。表1列舉了分析所用的各項變量及其數(shù)據(jù)來源,各變量樣本時間范圍為2008-2013年。表1:各個變量指標及數(shù)據(jù)來源指標單位數(shù)據(jù)來源非農(nóng)業(yè)人口人中國人口和就業(yè)統(tǒng)計年鑒農(nóng)業(yè)人口人中國人口和就業(yè)統(tǒng)計年鑒城鎮(zhèn)人口人中國統(tǒng)計年鑒鄉(xiāng)村人口人中國統(tǒng)計年鑒城市建成區(qū)面積平方公里中國統(tǒng)計年鑒建制鎮(zhèn)建成區(qū)面積平方公里中國城鄉(xiāng)建設(shè)統(tǒng)計年鑒土地調(diào)查面積萬公頃中國統(tǒng)計年鑒以戶籍為統(tǒng)計口徑的城鎮(zhèn)化水平=非農(nóng)業(yè)人口/(非農(nóng)業(yè)人口+農(nóng)業(yè)人口)以常住人口為統(tǒng)計口徑的城鎮(zhèn)化水平=城鎮(zhèn)人口/(城鎮(zhèn)人口+鄉(xiāng)村人口)人口城鎮(zhèn)化水平=0.2666×以戶籍為統(tǒng)計口徑的城鎮(zhèn)化水平+0.7334×以常住人口為統(tǒng)計口徑的城鎮(zhèn)化水平土地城鎮(zhèn)化水平=(城市建成區(qū)面積+建制鎮(zhèn)建成區(qū)面積)/土地調(diào)查面積實證分析的具體步驟如下:(1)各個指標熵權(quán)的測算。表2是根據(jù)前文所述方法得到熵權(quán)結(jié)果:表2:各個城鎮(zhèn)化指標的熵權(quán)(2)采用歐氏距離的算法,分別計算各個指標的個體距離dk。(3)求得個體全距離,(4)以全指標個體距離矩陣d為依據(jù),采用離差平方和法(ward方法)進行類型間的類型距離度量,完成樣本的類型劃分。(5)最終得到如圖2所示的聚類分析的樹形圖。根據(jù)得到的層次聚類分析結(jié)果,可以將全國城鎮(zhèn)化水平分為五類,其中,第一類:北京、天津、上海第二類:遼寧、廣東、江蘇、浙江第三類:吉林、黑龍江、山西、寧夏、山東、湖北、海南、內(nèi)蒙古、福建、新疆、重慶、陜西第四類:河北、江西、湖南、安徽、河南、廣西、四川、甘肅、青海第五類:貴州、云南為了說明新方法的優(yōu)點,我們針對人口城鎮(zhèn)化水平這一單獨的變量也進行面板數(shù)據(jù)聚類分析。圖3為綜合四個變量進行面板數(shù)據(jù)聚類分析得到的城鎮(zhèn)化類型聚類分析結(jié)果。圖4展示的就是針對單一變量進行分析而得到的城鎮(zhèn)化類型劃分結(jié)果。從兩個城鎮(zhèn)化水平分類圖可以明顯看出,基于不同的聚類分析得到的城鎮(zhèn)化水平類型劃分有著顯著差別。圖3所展示的第一類和第五類省份個數(shù)分別為3個和2個,而第二類、第三類和第四類省份個數(shù)分別為4、12、9。在圖4中,五個類別的省份個數(shù)則分別是3、3、6、10、8。相比較兩種類型劃分方法的分類結(jié)果,綜合多指標的城鎮(zhèn)化分類結(jié)果更符合正態(tài)分布。就統(tǒng)計意義而言,這一分類結(jié)果更符合統(tǒng)計原則。因此,這一分類方法在未來進行基于城鎮(zhèn)化分類的相關(guān)擴展研究工作中,將提供更科學、更合理的技術(shù)基礎(chǔ)。以上是本發(fā)明的較佳實施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時,均屬于本發(fā)明的保護范圍。當前第1頁12
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
利津县| 保定市| 滦平县| 新野县| 涪陵区| 庄河市| 泰宁县| 宣汉县| 霍林郭勒市| 开化县| 商城县| 红河县| 温泉县| 娱乐| 砚山县| 额敏县| 阜平县| 长春市| 洛南县| 霍山县| 会理县| 和林格尔县| 巴彦淖尔市| 台江县| 凤翔县| 曲麻莱县| 塔河县| 无为县| 龙口市| 阿尔山市| 环江| 彭山县| 晋宁县| 七台河市| 阳东县| 甘德县| 深水埗区| 武隆县| 南安市| 南华县| 诸暨市|