一種基于fcm聚類算法的用電行為分析方法
【專利摘要】本發(fā)明提出了一種基于FCM聚類算法的用電行為分析方法,包括:(1)將用電數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)拷貝到分布式文件系統(tǒng)HDFS中,確定聚類個(gè)數(shù)c和停止域ε;(2)根據(jù)上一次的聚類結(jié)果確定初始聚類中心,并將數(shù)據(jù)傳輸至參與分布式計(jì)算的數(shù)據(jù)節(jié)點(diǎn);(3)對(duì)用電數(shù)據(jù)進(jìn)行預(yù)處理,并產(chǎn)生鍵值對(duì)<user,profile>;(4)將所有的鍵值對(duì)<user,profile>劃分為若干個(gè)數(shù)據(jù)子集,并傳輸至Map函數(shù)計(jì)算;(5)將Map函數(shù)計(jì)算的結(jié)果傳輸至Reduce節(jié)點(diǎn),Reduce任務(wù)將Map產(chǎn)生的中間鍵值根據(jù)聚類編號(hào)合并后進(jìn)行計(jì)算,獲得新的聚類中心;(6)重復(fù)步驟(2)~(5),直到隸屬度矩陣滿足停止域條件,算法結(jié)束,輸出聚類結(jié)果。本發(fā)明對(duì)基于文件的海量歷史用電數(shù)據(jù)進(jìn)行直接計(jì)算并獲得用電行為特征。
【專利說(shuō)明】
-種基于FCM聚類算法的用電行為分析方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及電力大數(shù)據(jù)領(lǐng)域,尤其設(shè)及一種基于FCM聚類算法的用電行為分析方 法。
【背景技術(shù)】
[0002] 基于智能電表數(shù)據(jù),統(tǒng)計(jì)并挖掘電力客戶的用電模式,是電力企業(yè)掌握客戶構(gòu)成, 了解用電行為特征的基礎(chǔ),也是提供個(gè)性化、精細(xì)化用電服務(wù),實(shí)現(xiàn)客戶智能化、精益化管 理的先決條件。但是,隨著電力通信技術(shù)的發(fā)展,用電信息采集系統(tǒng)每天產(chǎn)生的用電數(shù)據(jù)是 高頻海量的,運(yùn)就對(duì)用戶行為特征分析技術(shù)提出了能夠高速、高精度處理數(shù)量龐大且數(shù)據(jù) 類型眾多的用電數(shù)據(jù),從中發(fā)掘高價(jià)值信息的要求。運(yùn)符合典型的大數(shù)據(jù)應(yīng)用特征,同時(shí)也 意味著使用傳統(tǒng)計(jì)算結(jié)構(gòu)和數(shù)據(jù)挖掘方式無(wú)法滿足上述要求。
[0003] 隨著智能電表的普及應(yīng)用,用戶用電信息采集頻率更加頻繁,15分鐘甚至5分鐘就 需要采集一次數(shù)據(jù),且數(shù)據(jù)呈現(xiàn)雙向流動(dòng)特征,規(guī)模和頻率呈指數(shù)級(jí)增長(zhǎng)。W天津生態(tài)城為 例,用電信息采集系統(tǒng)目前已經(jīng)覆蓋1500萬(wàn)用戶,數(shù)據(jù)年增長(zhǎng)量約為12TB左右。同時(shí),需求 側(cè)響應(yīng)應(yīng)用對(duì)用電數(shù)據(jù)的分析計(jì)算又有著一定的實(shí)時(shí)性要求。
[0004]傳統(tǒng)的大數(shù)據(jù)計(jì)算架構(gòu),如化doop、Fou;rinone等,適合處理大規(guī)模、高并發(fā)的數(shù)值 計(jì)算,但是一次計(jì)算所需要耗費(fèi)的時(shí)間可能達(dá)到數(shù)十分鐘甚至數(shù)小時(shí),由此帶來(lái)的高延時(shí) 問(wèn)題限制了運(yùn)些計(jì)算架構(gòu)在高實(shí)時(shí)性大數(shù)據(jù)應(yīng)用中的適用性。而高實(shí)時(shí)性的流式計(jì)算框 架,如Spark、Storm等,適用于處理高速、大型數(shù)據(jù)流的分布式實(shí)時(shí)計(jì)算,其數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì) 和對(duì)象關(guān)系又不適用于大規(guī)模并行計(jì)算。
【發(fā)明內(nèi)容】
[0005] 針對(duì)智能用電領(lǐng)域用電行為特征分析對(duì)于并行計(jì)算的需求,提出了一種基于FCM 聚類算法的用電行為分析方法。
[0006] 為了實(shí)現(xiàn)上述目的,本發(fā)明使用W下技術(shù)方案:
[0007] -種基于FCM聚類算法的用電行為分析方法,所述分析方法包括:
[0008] (1)將用電數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)拷貝到分布式文件系統(tǒng)HDFS中,確定聚類個(gè)數(shù)C和停 止域ε;
[0009] (2)根據(jù)上一次的聚類結(jié)果確定初始聚類中屯、,并將數(shù)據(jù)傳輸至參與分布式計(jì)算 的數(shù)據(jù)節(jié)點(diǎn);
[0010] (3)對(duì)用電數(shù)據(jù)進(jìn)行預(yù)處理,并產(chǎn)生鍵值對(duì)〈user, prof i le>;
[0011] (4)將所有的鍵值對(duì)〈user,prof i le>劃分為若干個(gè)數(shù)據(jù)子集,并傳輸至Map函數(shù)計(jì) 算;
[0012] (5)將Map函數(shù)計(jì)算的結(jié)果傳輸至Reduce節(jié)點(diǎn),Reduce任務(wù)將Map產(chǎn)生的中間鍵值 根據(jù)聚類編號(hào)合并后進(jìn)行計(jì)算,獲得新的聚類中屯、;
[0013] (6)重復(fù)步驟(2)~(5),直到隸屬度矩陣滿足停止域條件,分布式FCM算法結(jié)束,輸 出聚類結(jié)果。
[0014] 優(yōu)選的,所述步驟(3)中,所述鍵值對(duì)〈user,prof ile〉中user為用戶的唯一標(biāo)識(shí), profile中包含了數(shù)據(jù)對(duì)象的特征。
[0015] 優(yōu)選的,所述步驟(4)中,所述Map函數(shù)進(jìn)行隸屬度計(jì)算,產(chǎn)生的結(jié)果保存在中間 鍵值對(duì)α,μι>中,其中i為聚類編號(hào),化為數(shù)據(jù)子集中所有數(shù)據(jù)對(duì)象對(duì)第i個(gè)聚類的隸屬度。
[0016] 進(jìn)一步的,所述Map函數(shù)通過(guò)下式計(jì)算隸屬度;
[0017]
[001引 m為平滑因子,dik表示樣本k到第i個(gè)聚類中屯、Pi之間的距離;d化表示樣本k到第j個(gè) 聚類中屯、之間的距離,Wk表示樣本k劃分到第i個(gè)聚類的隸屬度,C為聚類中屯、總數(shù)。
[0019] 優(yōu)選的,所述步驟(5)中,利用下式計(jì)算獲得新的聚類中屯、;
[0020]
[0021] 其中,xk為第k個(gè)樣本值,m為設(shè)置的平滑因子或模糊程度加權(quán)指數(shù),m越大則聚類 越模糊,用帶權(quán)值的隸屬度計(jì)算聚類中屯、,可W增加迭代的平滑性,更易收斂,一般取m=2, Pi為新的聚類中屯、。η為樣本值總數(shù)。
[0022] 優(yōu)選的,所述步驟(6)中,所述停止域條件為MuW-ufb+ill |<ε
[0023] 其中uW為第b次迭代的隸屬度矩陣,ufb+υ為第b+i次迭代的隸屬度矩陣,e為給定 的隸屬度終止容限。
[0024] 優(yōu)選的,所述步驟(6)中,所述聚類結(jié)果包括:聚類編號(hào)、聚類中屯、和每個(gè)用戶對(duì)于 各個(gè)聚類的最終隸屬度;
[0025] 所述聚類中屯、即為用電行為特征;
[0026] 所述隸屬度矩陣決定了每個(gè)樣本與用電行為特征的接近程度。
[0027] 與現(xiàn)有技術(shù)相比,本發(fā)明具有W下有益效果:
[0028] 針對(duì)用電信息采集系統(tǒng)所獲歷史數(shù)據(jù)信息量大,受限于計(jì)算機(jī)的內(nèi)存大小和運(yùn)算 速度,無(wú)法對(duì)大量的用電歷史數(shù)據(jù)進(jìn)行全局計(jì)算,只能從中抽取樣本,通過(guò)對(duì)抽樣數(shù)據(jù)集的 聚類分析用電行為特征,其結(jié)果的準(zhǔn)確性由于樣本缺失而無(wú)法得到保證。提出了使用一種 使用了分布式文件系統(tǒng)HDFS(化doop distributed file system)和Mapreduce的計(jì)算模 型,對(duì)基于文件的海量歷史用電數(shù)據(jù)進(jìn)行直接計(jì)算并獲得用電行為特征。
【附圖說(shuō)明】
[00巧]圖1是基于Mapreduce的FCM并行計(jì)算過(guò)程圖;
[0030] 圖2是基于FCM的用電行為分析算法流程圖。
【具體實(shí)施方式】
[0031] 為使本發(fā)明的實(shí)施例要解決的技術(shù)問(wèn)題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合 附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。
[0032] 本發(fā)明提出了一種基于FCM聚類算法的用電行為分析方法,將FCM的迭代過(guò)程分解 為Map和Reduce兩個(gè)階段,Map階段在不同的數(shù)據(jù)節(jié)點(diǎn)上將同一個(gè)函數(shù)作用與不同的數(shù)據(jù) 集,輸出的數(shù)據(jù)集^<1?37,乂曰1116〉形式保存在數(shù)據(jù)節(jié)點(diǎn)上,在Map階段結(jié)束后,計(jì)算模型將傳 輸至承擔(dān)Reduce工作的節(jié)點(diǎn),并對(duì)Map階段輸出的鍵值對(duì)進(jìn)行合并等處理,并輸出<467, value〉形式的最終結(jié)果。由于Map和Reduce步驟都是可W在多臺(tái)計(jì)算機(jī)上分布式運(yùn)行的,且 對(duì)分布式計(jì)算過(guò)程進(jìn)行了高度抽象,所WMapreduce計(jì)算模型可W方便、高效地對(duì)大規(guī)模數(shù) 據(jù)(ITB)W上進(jìn)行分析計(jì)算。
[0033] 所述分析方法包括:
[0034] (1)將用電數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)拷貝到分布式文件系統(tǒng)HDFS中,確定聚類個(gè)數(shù)C和停 止域ε;
[0035] (2)根據(jù)上一次的聚類結(jié)果確定初始聚類中屯、,并將數(shù)據(jù)傳輸至參與分布式計(jì)算 的數(shù)據(jù)節(jié)點(diǎn);
[0036] (3)對(duì)用電數(shù)據(jù)進(jìn)行預(yù)處理,并產(chǎn)生鍵值對(duì)〈user, prof i le>;
[0037] (4)將所有的鍵值對(duì)〈user, profile〉劃分為若干個(gè)數(shù)據(jù)子集,并傳輸至Map函數(shù)計(jì) 算;
[0038] (5)將Map函數(shù)計(jì)算的結(jié)果傳輸至Reduce節(jié)點(diǎn),Reduce任務(wù)將Map產(chǎn)生的中間鍵值 根據(jù)聚類編號(hào)合并后進(jìn)行計(jì)算,獲得新的聚類中屯、;
[0039] (6)重復(fù)步驟(2)~(5),直到隸屬度矩陣滿足停止域條件,分布式FCM算法結(jié)束,輸 出聚類結(jié)果。
[0040] 所述步驟(3)中,所述鍵值對(duì)〈user,prof ile〉中user為用戶的唯一標(biāo)識(shí),prof ile 中包含了數(shù)據(jù)對(duì)象的特征。
[0041] 所述步驟(4)中,所述Map函數(shù)進(jìn)行隸屬度計(jì)算,產(chǎn)生的結(jié)果保存在中間鍵值對(duì)<i, μι〉中,其中i為聚類編號(hào),化為數(shù)據(jù)子集中所有數(shù)據(jù)對(duì)象對(duì)第i個(gè)聚類的隸屬度。
[0042] 所述Map函數(shù)通過(guò)下式計(jì)算隸屬度;
[0043]
[0044] m為平滑因子,dik表示樣本k到第i個(gè)聚類中屯、Pi之間的距離;d化表示樣本k到第j個(gè) 聚類中屯、之間的距離,Wk表示樣本k劃分到第i個(gè)聚類的隸屬度,C為聚類中屯、總數(shù)。
[0045] 所述步驟(5)中,利用下式計(jì)算獲得新的聚類中屯、;
[0046]
[0047] 其中,xk為第k個(gè)樣本值,m為設(shè)置的平滑因子或模糊程度加權(quán)指數(shù),m越大則聚類 越模糊,用帶權(quán)值的隸屬度計(jì)算聚類中屯、,可W增加迭代的平滑性,更易收斂,一般取m=2, Pi為新的聚類中屯、。η為樣本值總數(shù)。
[004引所述步驟(6)中,所述停止域條件為lluW-utb+ill |<ε
[0049] 其中UW為第b次迭代的隸屬度矩陣,U<b+U為第b+1次迭代的隸屬度矩陣,ε為給定 的隸屬度終止容限。
[0050] 所述步驟(6)中,所述聚類結(jié)果包括:聚類編號(hào)、聚類中屯、和每個(gè)用戶對(duì)于各個(gè)聚 類的最終隸屬度;
[0051] 所述聚類中屯、即為用電行為特征;
[0052] 所述隸屬度矩陣決定了每個(gè)樣本與用電行為特征的接近程度。
[0053] 1、模糊c-means(Fuzz;y C-means,F(xiàn)CM)聚類算法進(jìn)行用電行為分析,基于目標(biāo)函數(shù) 的FCM聚類算法適用于處理大量數(shù)據(jù),而且算法過(guò)程簡(jiǎn)單,因此易于在計(jì)算機(jī)上實(shí)現(xiàn),適合 對(duì)基于時(shí)間序列的復(fù)雜數(shù)據(jù)集進(jìn)行劃分,運(yùn)一特性與用電數(shù)據(jù)的特性吻合。
[0054] 2、居民用戶、大用戶安裝的智能電表借助化C和無(wú)線通信等通信技術(shù),W-定頻率 向用電信息采集系統(tǒng)傳輸用戶用電數(shù)據(jù),我們從中選取四類特征作為聚類分析的數(shù)據(jù)對(duì) 象:
[0055] (l)Xii用電量:日用電總量;
[0056] (2)xi2負(fù)荷率:平均負(fù)荷/最大負(fù)荷;
[0057] (3)Xi3峰電系數(shù):峰時(shí)用電量/日用電總量;
[005引(4)Xi4谷電系數(shù):谷時(shí)用電量/日用電總量。
[0059] 智能電表的采集頻率是每15分鐘一個(gè)點(diǎn),因此每日采集96個(gè),日用電總量為96點(diǎn) 數(shù)據(jù)之和,平均負(fù)荷為日用電總量/96,峰時(shí)用電量和谷時(shí)用電量分別為峰谷時(shí)間內(nèi)的用電 總量。因此聚類分析的每一個(gè)樣本a均為一個(gè)四維向量。
[0060] 3、圖2所示,在數(shù)據(jù)預(yù)處理階段,需要對(duì)缺失數(shù)據(jù)利用差值算法進(jìn)行補(bǔ)齊處理,對(duì) 于超出闊值的數(shù)據(jù)進(jìn)行修正,并產(chǎn)生鍵值對(duì)如361·, prof i le>,其中user為用戶的唯一標(biāo)識(shí), profile中包含了數(shù)據(jù)對(duì)象的特征xii~xi4,接下來(lái),對(duì)FCM聚類算法進(jìn)行初始化,包括設(shè)置 聚類類別(3,迭代停止域6和迭代步數(shù)6 = 0,^及隸屬度矩陣1]<^將所有的鍵值對(duì)<1136', profile〉劃分為若干個(gè)數(shù)據(jù)子集,并傳輸至Map函數(shù),Map函數(shù)進(jìn)行隸屬度計(jì)算,產(chǎn)生的結(jié)果 保存在中間鍵值對(duì)。典〉中,其中功聚類編號(hào),μ功數(shù)據(jù)子集中所有數(shù)據(jù)對(duì)象對(duì)第i個(gè)聚類 的隸屬度;將Map函數(shù)計(jì)算的結(jié)果傳輸至Reduce節(jié)點(diǎn),Reduce任務(wù)將Map產(chǎn)生的中間鍵值根 據(jù)聚類編號(hào)進(jìn)行合并后進(jìn)行計(jì)算,獲得新的聚類中屯、;通過(guò)迭代不斷更新隸屬度Wik和聚類 中屯、Pi直到滿足設(shè)定的停止域條件|<ε為止。
[0061] W上顯示和描述了本發(fā)明的基本原理、主要特征和有益效果和實(shí)施方案。本發(fā)明 主要應(yīng)用于用電行為分析,W上重點(diǎn)闡述的是分布式文件系統(tǒng)HDFS(化doop distr化uted file system)和Mapreduce的計(jì)算模型,對(duì)基于文件的海量歷史用電數(shù)據(jù)進(jìn)行直接計(jì)算并 獲得用電行為特征。
[0062]最后應(yīng)當(dāng)說(shuō)明的是:W上實(shí)施例僅用于說(shuō)明本申請(qǐng)的技術(shù)方案而非對(duì)其保護(hù)范圍 的限制,盡管參照上述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說(shuō)明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng) 理解:本領(lǐng)域技術(shù)人員閱讀本申請(qǐng)后依然可對(duì)申請(qǐng)的【具體實(shí)施方式】進(jìn)行種種變更、修改或 者等同替換,但運(yùn)些變更、修改或者等同替換,均在申請(qǐng)待批的權(quán)利要求保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于FCM聚類算法的用電行為分析方法,其特征在于,所述分析方法包括: (1) 將用電數(shù)據(jù)從關(guān)系數(shù)據(jù)庫(kù)拷貝到分布式文件系統(tǒng)HDFS中,確定聚類個(gè)數(shù)c和停止域 ε; (2) 根據(jù)上一次的聚類結(jié)果確定初始聚類中心,并將數(shù)據(jù)傳輸至參與分布式計(jì)算的數(shù) 據(jù)節(jié)點(diǎn); (3) 對(duì)用電數(shù)據(jù)進(jìn)行預(yù)處理,并產(chǎn)生鍵值對(duì)〈user,prof i le>; (4) 將所有的鍵值對(duì)〈user ,profile〉劃分為若干個(gè)數(shù)據(jù)子集,并傳輸至Map函數(shù)計(jì)算; (5) 將Map函數(shù)計(jì)算的結(jié)果傳輸至Reduce節(jié)點(diǎn),Reduce任務(wù)將Map產(chǎn)生的中間鍵值根據(jù) 聚類編號(hào)合并后進(jìn)行計(jì)算,獲得新的聚類中心; (6) 重復(fù)步驟(2)~(5 ),直到隸屬度矩陣滿足停止域條件,分布式FCM算法結(jié)束,輸出聚 類結(jié)果。2. 根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述步驟(3)中,所述鍵值對(duì)〈user, profile〉中user為用戶的唯一標(biāo)識(shí),profile中包含數(shù)據(jù)對(duì)象的特征。3. 根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述步驟(4)中,所述Map函數(shù)進(jìn)行隸 屬度計(jì)算,產(chǎn)生的結(jié)果保存在中間鍵值對(duì)中,其中i為聚類編號(hào),W為數(shù)據(jù)子集中所有 數(shù)據(jù)對(duì)象對(duì)第i個(gè)聚類的隸屬度。4. 根據(jù)權(quán)利要求3所述的分析方法,其特征在于,所述Map函數(shù)通過(guò)下式計(jì)算樣本k劃分 到第i個(gè)聚類的隸屬度ylk:m為平滑因子,dlk表示樣本k到第i個(gè)聚類中心Pl之間的距離;山!^表示樣本k到第j個(gè)聚類 中心Pj之間的距離,c為聚類中心總數(shù)。5. 根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述步驟(5)中,利用下式計(jì)算獲得新 的聚類中心Pi;其中,Xk為第k個(gè)樣本值,η為樣本值總數(shù)。6. 根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述步驟(6)中,所述停止域條件為IIU (b)_u(b+l)||<e 其中為第^欠迭代的隸屬度矩陣,υα+υ為第b+1次迭代的隸屬度矩陣,ε為給定的隸 屬度終止容限。7. 根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述步驟(6)中,所述聚類結(jié)果包括: 聚類編號(hào)、聚類中心和每個(gè)用戶對(duì)于各個(gè)聚類的最終隸屬度; 所述聚類中心即為用電行為特征; 所述隸屬度矩陣決定了每個(gè)樣本與用電行為特征的接近程度。
【文檔編號(hào)】G06Q50/06GK105844294SQ201610161721
【公開日】2016年8月10日
【申請(qǐng)日】2016年3月21日
【發(fā)明人】戴江鵬, 周建華, 柴博, 裘洪彬, 張波
【申請(qǐng)人】全球能源互聯(lián)網(wǎng)研究院, 國(guó)網(wǎng)江蘇省電力公司電力科學(xué)研究院, 國(guó)家電網(wǎng)公司