本發(fā)明屬于電力信息,尤其是涉及一種結構特征保持的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成方法。
背景技術:
1、電力數(shù)據(jù)涉及大量安全信息,不宜直接使用,需要使用圖生成技術對電力數(shù)據(jù)進行脫敏處理,生成與原始數(shù)據(jù)具有相似拓撲結構的模擬數(shù)據(jù),再根據(jù)脫敏后的模擬數(shù)據(jù)進行電力系統(tǒng)分析和研究。因此,如何在生成高質(zhì)量的圖數(shù)據(jù),盡可能保持原始數(shù)據(jù)的結構特征,成為電力信息技術領域中的一個重要研究方向。
2、靜態(tài)圖數(shù)據(jù)具有計算效率高、可移植性強等優(yōu)點,現(xiàn)有的靜態(tài)圖數(shù)據(jù)生成技術雖然取得了一定的進展,但在訓練效率、圖結構特征保持等方面仍然面臨一些挑戰(zhàn)?,F(xiàn)有的靜態(tài)圖生成方法主要包含以下幾類:
3、(1)基于結構假設的靜態(tài)圖生成方法
4、傳統(tǒng)的圖生成方法使用特定的結構假設來建模特定的圖集,常見的結構假設包括重尾度分布、小直徑、局部聚類等,傳統(tǒng)的圖生成器有e-r、b-a、w-s、bter、kronecker等。這類方法盡管在理論上有著堅實的基礎,但受結構的局限性,在處理復雜多變的電力數(shù)據(jù)時,往往難以準確生成與原始數(shù)據(jù)具有相似拓撲結構的圖數(shù)據(jù)。此外,這類方法依賴于預設的結構假設,當遇到不符合假設的新圖集時,性能往往會顯著下降。
5、(2)基于自回歸的靜態(tài)圖生成方法
6、基于自回歸的圖生成方法將圖生成過程分解為一系列順序決策,每個決策依賴于前面的決策,通過逐步生成節(jié)點和邊構建完整的圖結構。graphrnn一種典型的自回歸圖生成模型,graphrnn由圖級rnn和邊級rnn兩部分組成,圖級rnn用于存儲已經(jīng)生成的節(jié)點并生成新節(jié)點,邊級rnn用于存儲新節(jié)點的信息并根據(jù)節(jié)點之間的關系推斷是否生成新的邊。但是由于生成過程依賴于節(jié)點和邊的順序,模型不是排列不變的;此外,由于graphrnn的生成過程是逐步進行的,每一步都依賴于前一步的生成結果,圖的生成過程無法并行處理,導致生成效率較低。
7、(3)基于變分自編碼器(variational?autoencoder,vae)的靜態(tài)圖生成方法
8、基于變分自編碼器是一種基于無監(jiān)督學習的生成模型,由編碼器和解碼器兩部分構成,其中,編碼器將輸入數(shù)據(jù)映射到潛在空間中,將圖的結構和節(jié)點信息編碼為潛變量,解碼器從潛在空間采樣得到潛變量,對潛變量進行解碼生成新的圖。模型假設潛變量服從某種已知的先驗分布,使用變分推理技術學習潛變量的分布,通過最大化變分下界來逼近真實的后驗分布。graphvae是一種基于vae的圖生成模型,其編碼器使用gcn將輸入圖嵌入到連續(xù)的特征空間,解碼器使用多層感知機(mlp)一次性地輸出最大節(jié)點數(shù)的概率全連接圖。由于生成圖和真實圖沒有規(guī)定節(jié)點順序,為了計算重構損失,graphvae使用一種近似的圖匹配算法來對齊生成圖和真實圖的節(jié)點,從而計算生成圖與真實圖之間的差異。然而,這種圖匹配算法具有較高的時間復雜度,導致模型無法學習和生成大規(guī)模圖。
9、(4)基于生成對抗網(wǎng)絡的靜態(tài)圖生成方法
10、生成對抗網(wǎng)絡(gan)通過生成器和判別器的對抗訓練生成圖數(shù)據(jù)。netgan是一種經(jīng)典的基于生成對抗網(wǎng)絡的靜態(tài)圖生成模型,其使用有偏二階策略采樣得到隨機游走序列,這種策略既能保持節(jié)點的排列不變性,又能有效地利用真實世界網(wǎng)絡的稀疏性。netgan的生成器使用長短期記憶網(wǎng)絡(lstm),逐節(jié)點學習并生成下一個節(jié)點,通過迭代過程生成完整的隨機游走序列,判別器使用另一個lstm來處理這些節(jié)點序列,通過學習真實隨機游走序列的特征,判斷隨機游走序列的真實性,訓練結束后,生成器多次生成隨機游走序列,這些序列再通過圖重構算法轉化為完整的圖結。盡管netgan在生成圖質(zhì)量上具有出色的表現(xiàn),但是模型使用lstm進行序列生成和判別,計算復雜性較高。在處理大規(guī)模圖和長序列時,lstm的計算效率和內(nèi)存需求可能成為瓶頸,限制了模型的可擴展性。
11、綜上,需要設計一種靜態(tài)圖數(shù)據(jù)生成方法,進一步提高電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)的生成效率和質(zhì)量。
技術實現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術存在的缺陷而提供一種結構特征保持的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成方法,盡可能保留原始電力數(shù)據(jù)的結構特征,同時提高靜態(tài)圖數(shù)據(jù)生成效率。
2、本發(fā)明的目的可以通過以下技術方案來實現(xiàn):
3、本發(fā)明提供一種結構特征保持的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成方法,包括以下步驟:
4、獲取電力數(shù)據(jù),輸入靜態(tài)圖數(shù)據(jù)生成模型,生成相應的靜態(tài)圖數(shù)據(jù);
5、所述靜態(tài)圖數(shù)據(jù)生成模型包括依次連接的采樣模塊、生成對抗網(wǎng)絡和重構模塊;其中,所述采樣模塊用于使用中心圖采樣方法對電力數(shù)據(jù)進行采樣,生成中心圖;
6、所述生成對抗網(wǎng)絡包括生成器和判別器,所述生成器包括解碼器和編碼器,所述編碼器用于通過基于多頭自注意力機制構建的圖自注意力網(wǎng)絡對所述中心圖進行編碼,獲得中心圖的隱變量;所述解碼器用于解碼中心圖的隱變量,獲得中心圖得分矩陣;所述判別器用于區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù);
7、所述重構模塊用于根據(jù)所述中心圖得分矩陣生成每條邊的分類分布概率,進而生成靜態(tài)圖數(shù)據(jù)。
8、進一步地,所述中心圖的生成過程具體如下:
9、s101、根據(jù)輸入的電力數(shù)據(jù)確定初始節(jié)點;
10、s102、以所述初始節(jié)點為中心,對其鄰居節(jié)點進行遞歸采樣,采樣深度為k;
11、s103、獲得半徑為k的中心圖,所述中心圖包括任意節(jié)點u以及與任意節(jié)點u之間最短路徑長度小于等于k的所有鄰居節(jié)點。
12、進一步地,步驟s101中,根據(jù)節(jié)點度計算電力數(shù)據(jù)中任意節(jié)點的采樣概率,進而確定所述初始節(jié)點。
13、進一步地,任意節(jié)點u的采樣概率的計算公式具體如下:
14、
15、其中,p(u)表示表示節(jié)點u的采樣概率,deg(·)表示節(jié)點度,v表示全部節(jié)點集合,v表示節(jié)點。
16、進一步地,所述編碼器包括多個并行的圖自注意力網(wǎng)絡,每個圖自注意力網(wǎng)絡通過多頭自注意力機制計算所述中心圖的聚合特征,然后通過門控機制輸出為中心圖的隱變量。
17、進一步地,中心圖隱變量的生成過程具體如下:
18、s201、將所述中心圖的每個節(jié)點的特征向量映射到隱藏層空間rd′×n,獲得映射特征向量,其中d′為目標維度,n為注意力頭的數(shù)量;
19、s202、計算每個節(jié)點與其鄰居節(jié)點之間的注意力系數(shù),并進行歸一化:
20、euv=leakyrelu(at[hu||hv])
21、
22、其中,euv為節(jié)點u和節(jié)點v的注意力系數(shù),αuv為歸一化的注意力系數(shù),hu和hv分別為節(jié)點u和節(jié)點v的映射特征向量,a為多頭自注意力機制中各自注意力頭的注意力權重,[·||·]表示向量拼接,leakyrelu為非線性激活函數(shù);
23、s203、基于歸一化的注意力系數(shù)αuv加權聚合各節(jié)點的鄰居節(jié)點的映射特征向量,獲得各節(jié)點的聚合特征,作為每個注意力頭的輸出;
24、
25、其中,σ為非線性激活函數(shù);
26、s204、將所有注意力頭的輸出進行拼接,獲得各節(jié)點的當前特征:
27、h′u=concat(head1,...,headn)wo
28、其中,concat表示向量拼接,headi表示圖自注意力網(wǎng)絡中第i個頭的輸出,wo表示輸出投影矩陣;
29、s205、使用門控機制綜合各節(jié)點的當前特征與原始特征,獲得中心圖的隱變量yu:
30、yu=σ(wg[h′u||xu||(h′u-xu)])⊙h′u+(1-σ(wg[h′u||xu||(h′u-xu)]))⊙xu
31、其中,wg為權重矩陣,⊙表示元素乘法。
32、進一步地,所述解碼器通過門控循環(huán)單元解碼中心圖的隱變量,獲得中心圖的得分矩陣,得分矩陣的表達式如下:
33、s=wo(gru(yu,h0))+bo
34、其中,s為得分矩陣,wo為權重矩陣,yu為編碼器輸出的中心圖隱變量,h0為門控循環(huán)單元的初始隱藏狀態(tài),bo為偏置項。
35、進一步地,所述判別器通過多層感知機區(qū)分真實數(shù)據(jù)和生成數(shù)據(jù)。
36、進一步地,所述生成對抗網(wǎng)絡通過最小化損失函數(shù)進行優(yōu)化,所述損失函數(shù)包括生成器損失函數(shù)和判別器損失函數(shù),所述生成器損失函數(shù)的表達式具體如下:
37、
38、其中,vs表示中心圖的初始節(jié)點集合,ns表示中心圖數(shù)量,au表示中心圖的鄰接矩陣,pu表示生成圖邊的概率,g表示生成器,d表示判別器,g(z)表示生成器生成的數(shù)據(jù);
39、所述判別器損失函數(shù)的表達式具體如下:
40、
41、其中,x表示真實數(shù)據(jù)。
42、進一步地,所述重構模塊生成智能電網(wǎng)動態(tài)數(shù)據(jù)圖的具體過程如下:
43、s301、根據(jù)中心圖得分矩陣生成每條邊的分類分布概率:
44、
45、其中,p(u,v)為邊(u,v)的分類分布概率,su,v為最終得分矩陣,所述最終得分矩陣通過將所有中心圖得分矩陣進行匯總,然后將每條邊生成的概率取平均值獲得;
46、s302、利用分類分布的概率生成相應的邊,當生成邊的數(shù)量與原始的電力數(shù)據(jù)中邊的數(shù)量一致時,完成靜態(tài)圖數(shù)據(jù)的生成。
47、與現(xiàn)有技術相比,本發(fā)明具有以下有益效果:
48、1、本發(fā)明設計了一個靜態(tài)圖數(shù)據(jù)生成模型,可以根據(jù)電力數(shù)據(jù)生成相應的靜態(tài)圖數(shù)據(jù),靜態(tài)圖數(shù)據(jù)生成模型包括依次連接的采樣模塊、生成對抗網(wǎng)絡和重構模塊,其中,采樣模塊用于使用中心圖采樣方法對電力數(shù)據(jù)進行采樣,生成若干中心圖,中心圖采樣方法可以根據(jù)數(shù)據(jù)分布,動態(tài)調(diào)整采樣策略,有效捕捉圖中關鍵節(jié)點及其鄰居節(jié)點的結構特征,有利于提高生成的智能電網(wǎng)動態(tài)數(shù)據(jù)圖的可靠性;編碼器用于通過基于多頭自注意力機制構建的圖自注意力網(wǎng)絡對中心圖進行編碼,獲得中心圖的隱變量,解碼器用于解碼中心圖的隱變量,獲得中心圖得分矩陣,多頭自注意力機制一方面可以實現(xiàn)并行運算,提升模型訓練和生成靜態(tài)圖數(shù)據(jù)的速度,能夠很好適應信息量較大的電力數(shù)據(jù)處理場景,另一方面能夠根據(jù)鄰居節(jié)點的重要性動態(tài)分配不同的注意力權重,重點關注在靜態(tài)圖數(shù)據(jù)中起關鍵作用的節(jié)點,從而能夠有效聚合鄰居節(jié)點的信息,盡可能保留原始電力數(shù)據(jù)的結構特征。
49、2、本發(fā)明在每個圖自注意力網(wǎng)絡之后增加門控機制,可以進一步增強編碼器的學習能力,通過門控機制綜合各節(jié)點的當前特征與原始特征,可以選擇性地保留或丟棄信息,從而減輕梯度消失問題,加速模型收斂,門控機制的引入使得模型在處理長時間跨度的圖數(shù)據(jù)時,能夠保持較高的學習效果,避免重要的歷史信息在長時間傳遞過程中丟失,提升了模型處理復雜數(shù)據(jù)的能力,通過結合多頭自注意力機制和門控機制,模型既能靈活高效地處理大規(guī)模復雜數(shù)據(jù),又能有效保留原始電力數(shù)據(jù)的結構特征。
50、3、本發(fā)明通過重構模塊將所有中心圖得分矩陣進行匯總,然后將每條邊生成的概率取平均值獲得最終得分矩陣,生成每條邊的分類分布,一方面可以實現(xiàn)多源信息的融合,另一方面可以減少極端值或噪聲對結果的影響,提高得分矩陣的可靠性;利用分類分布的概率生成相應的邊,可以使生成的靜態(tài)圖數(shù)據(jù)更加接近實際情況;上述過程不依賴于特定的電網(wǎng)結構或數(shù)據(jù)格式,可以靈活應用于不同類型的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成場景,具有較強的可解釋性和可擴展性。