一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法
【專利摘要】本發(fā)明涉及一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,方法包括:利用采用模糊C?均值聚類算法去除電網(wǎng)運行樣本數(shù)據(jù)中的冗余數(shù)據(jù);利用主成分分析法獲取電網(wǎng)運行樣本數(shù)據(jù)中貢獻率最大的三維數(shù)據(jù)作為電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值;采用迭代修正法對電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值進行修正,獲取電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量;根據(jù)電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量評判電網(wǎng)運行樣本數(shù)據(jù)的有效性。本發(fā)明提供的方法,能夠在電力系統(tǒng)暫態(tài)穩(wěn)定評估時,利用主成分分析法為迭代提供初始值,使映射結(jié)果穩(wěn)定,并且采用迭代修正的方法求解低維空間映射點坐標,加快了求解速度。
【專利說明】
一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析 方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及電力系統(tǒng)安全穩(wěn)定分析技術(shù)領(lǐng)域,具體涉及一種基于改進Sammon映射 的暫穩(wěn)評估輸入特征有效性分析方法。
【背景技術(shù)】
[0002] 在基于機器學習技術(shù)的電力系統(tǒng)暫態(tài)穩(wěn)定評估(TSA)方法中,可以將判穩(wěn)結(jié)果當 做一個分類問題來處理。即通過選擇一組合適的分類特征來描述系統(tǒng)的狀態(tài),建立一個高 維的輸入空間,然后再采用一種合適的分類方法對樣本進行分類。分類結(jié)果的質(zhì)量不僅與 采用分類方法的性能有關(guān),還與所選取的特征子集有關(guān),因為選擇的輸入特征的表達能力 決定了輸入空間的可分性。如果選取的輸入特征是無效的,那么無論采用何種分類器都無 法將穩(wěn)定樣本和失穩(wěn)樣本分開。由于缺乏一個有效的方法來評估輸入空間的可分性。當采 用某種方法進行分類時,如果分類結(jié)果不理想,就無法判斷問題究竟出自分類方法或者是 輸入特征的表達能力。為解決這個問題,需要初步分析所提取的特征區(qū)分穩(wěn)定樣本與失穩(wěn) 樣本的能力。
[0003] 鑒于此,很多學者引入了 sammon映射算法來分析選擇特征的有效性和輸入空間的 可分性。Sammon映射算法是一種從高維空間轉(zhuǎn)化為低維空間的方法,采用非線性迭代計算 方式可以有效地促進數(shù)據(jù)的降維,并且使低維空間中的映射點相互之間的距離與原始高維 空間中點與點之間的距離盡量相同,從而保持各樣品整體結(jié)構(gòu)不變。將一個高維的輸入空 間近似地轉(zhuǎn)化為一個二維或三維的空間后,可以在低維空間中對數(shù)據(jù)特征的有效性進行直 接的可視化研究。在二維或者三維空間標繪出原始樣本的映射點后,當穩(wěn)定樣本與失穩(wěn)樣 本的映射點能明顯分開時,表明選擇的特征是有效的,所構(gòu)成的輸入空間具有可分性。若兩 種坐標點相互混雜,則說明該特征集是沒有分類能力的。
[0004] 然而,傳統(tǒng)sammon映射算法接采用擬牛頓法或梯度下降法等最優(yōu)化方法求解。和 其它迭代學習算法一樣,存在著容易陷入局部極值問題,對初始值也比較敏感,并且迭代計 算過程耗時長。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,其目 的是在電力系統(tǒng)暫態(tài)穩(wěn)定評估時,利用主成分分析法為迭代提供初始值,使映射結(jié)果穩(wěn)定, 并且采用迭代修正的方法求解低維空間映射點坐標,加快了求解速度。
[0006] 本發(fā)明的目的是采用下述技術(shù)方案實現(xiàn)的:
[0007] -種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,其改進之處在 于,包括:
[0008] 初始化電網(wǎng)運行樣本數(shù)據(jù);
[0009] 采用模糊C-均值聚類算法去除電網(wǎng)運行樣本數(shù)據(jù)中的冗余數(shù)據(jù);
[0010]采用主成分分析法獲取所述電網(wǎng)運行樣本數(shù)據(jù)中貢獻率最大的三維數(shù)據(jù)作為所 述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值;
[0011]采用迭代修正法對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值 進行修正,獲取所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量;
[0012] 根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量評判所述電網(wǎng)運行樣本 數(shù)據(jù)的有效性。
[0013] 優(yōu)選的,所述初始化電網(wǎng)運行樣本數(shù)據(jù),包括:
[0014] 設(shè)所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù)為N,所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù)為p,構(gòu) 建NXp的電網(wǎng)運行樣本數(shù)據(jù)的樣本矩K
其中,i
[0015] 優(yōu)選的,所述利用采用模糊C-均值聚類算法去除電網(wǎng)運行樣本數(shù)據(jù)中的冗余數(shù) 據(jù),包括:
[0016] 令聚類類別數(shù)c = 2,迭代停止的閥值為ε,初始聚類中心矩陣: ,迭 代計數(shù)器b = 0;
[0017] a.用[0,1 ]間的隨機數(shù)初始化隸屬矩陣U,其中,所述隸屬矩陣U需滿足:
[0018]
⑴
[0019]式(1)中,Uki為第k維電網(wǎng)運行樣本數(shù)據(jù)中屬于第i類的隸屬度;
[0020] b.按下式確定初始聚類中心矩陣中第i個聚類中心:
[0021]
(2)
[0022] 式(2)中,i = l, 2,p為電網(wǎng)運行樣本數(shù)據(jù)總維數(shù),< 為第k維電網(wǎng)運行樣本數(shù)據(jù)中 屬于第i類的隸屬度的m次冪,Xk為第k維電網(wǎng)運行樣本數(shù)據(jù),m=2為加權(quán)指數(shù);
[0023] c.對初始隸屬矩陣U進行更新,按下式確定新隸屬矩陣U(b)中第k維電網(wǎng)運行樣本 數(shù)據(jù)中屬于第i類的更新隸屬度以
[0024]
(3)
[0025] 式(3)中,i = l,2, Wf1為第k維電網(wǎng)運行樣本數(shù)據(jù)與初始聚類中心矩陣中第i個聚 類中心的距離度量,為第k維電網(wǎng)運行樣本數(shù)據(jù)與初始聚類中心矩陣中第j個聚類中心 的距離度量;
[0026] d.對初始聚類中心矩陣V(b)進行更新,按下式確定新聚類中心矩陣V(b+1)中第i個聚 類中心
[0027]
C4.)
[0028] e.若I |V(b+1)_V(b)| I彡ε,則執(zhí)行步驟f,并輸出V(b+1)和U(b),否則,令b = b+l,并返回 步驟a;
[0029] f.遍歷U(b)中全部元素,設(shè)隸屬度閾值為P,若第k維電網(wǎng)運行樣本數(shù)據(jù) Xk屬于V(b+1) 的隸屬度均小于P,則去除第k維電網(wǎng)運行樣本數(shù)據(jù)xk。
[0030] 優(yōu)選的,所述利用主成分分析法獲取所述電網(wǎng)運行樣本數(shù)據(jù)中貢獻率最大的三維 數(shù)據(jù)作為所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值,包括:
[0031] 對所述電網(wǎng)運行樣本數(shù)據(jù)中元素Xlj進行標準化處理,獲取Xlj的標準值,公式為:
[0032]
(5)
[0033] 式(5)中,N為所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù),p為所述電網(wǎng)運行樣本數(shù)據(jù)的特征 數(shù),16[1,幻,_]_£[1,1)],:^為第」維電網(wǎng)運行樣本數(shù)據(jù)的均值,^為第」維電網(wǎng)運行樣本數(shù) 據(jù)的標準差,其中,所述第j維電網(wǎng)運行樣本數(shù)據(jù)的均值?的計算公式為:
[0034]
C6)
[0035] 所述第j維電網(wǎng)運行樣本數(shù)據(jù)的標準差^的計算公式為:
[0036]
(7)
[0037] 根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)中元素Xlj的標準值構(gòu)建所述電網(wǎng)運行樣本數(shù)據(jù)的 標準矩陣S%
[0038] 建立標準矩陣S*的相關(guān)矩卩
并求解所述相關(guān)矩陣R的齊次方程I R-λΙ =〇,獲取所述相關(guān)矩陣R的特征根kh,. . .,λρ和特征向量U1,U2, . .,Up,其中,λ0λ2> ... 多λρ,I為單位矩陣,λ為所述相關(guān)矩陣R的特征根,λρ*所述相關(guān)矩陣R第ρ為元素的特征根, 叫為所述相關(guān)矩陣R第ρ為元素的特征向量;
[0039] 按下式確定所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值[Fii, Fi2,F(xiàn)i3]:
[0040] [Fi,F(xiàn)2,F(xiàn)3]=S*[ui,U2,U3] (8)
[0041] 式(8)中,ie [I,N],N為所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù),F1為第1維空間映射點 坐標向量的初始值,F(xiàn)2為第2維空間映射點坐標向量的初始值,F(xiàn)3為第3維空間映射點坐標向 量的初始值。
[0042]優(yōu)選的,所述采用迭代修正法對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向 量的初始值進行修正,獲取所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量,包括:
[0043] 按下式確定所述電網(wǎng)運行樣本數(shù)據(jù)的a維空間和b維空間映射點坐標向量的增量 Afa^PAfb:
[0044]
(9)
[0045] 式(9)中,fa為第a維空間映射點坐標向量值,Δ fa為第a維空間映射點坐標向量的 增量,dkj為第k維電網(wǎng)運行樣本數(shù)據(jù)與第j維電網(wǎng)運行樣本數(shù)據(jù)的距離,je[i, p],ke[i, P],P為所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù),
其中,Iteration為修正次數(shù), maxlteration為總修正次數(shù),且maxlteratione [IO4N, IObN];
[0046] 將λ單調(diào)遞減至0.01,遞減次數(shù)為maxlteration,獲取maxlteration組所述電網(wǎng)運 行樣本數(shù)據(jù)的低維空間映射點坐標向量的增量,并根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間 映射點坐標向量的增量對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量進行修正。
[0047] 優(yōu)選的,所述根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量評判所述電 網(wǎng)運行樣本數(shù)據(jù)的有效性,包括:
[0048] 將所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的坐標點標繪至坐標系,若 所述電網(wǎng)運行樣本數(shù)據(jù)中失穩(wěn)數(shù)據(jù)的低維空間映射點坐標向量的坐標點與所述電網(wǎng)運行 樣本數(shù)據(jù)中穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點混合分布,則所述電網(wǎng)運行樣本 數(shù)據(jù)不具有有效性,若所述電網(wǎng)運行樣本數(shù)據(jù)中失穩(wěn)數(shù)據(jù)的低維空間映射點坐標向量的坐 標點與所述電網(wǎng)運行樣本數(shù)據(jù)中穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點能夠可視 化分開,則所述電網(wǎng)運行樣本數(shù)據(jù)具有有效性。
[0049] 本發(fā)明的有益效果:
[0050]本發(fā)明提供的一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,針 對分析電力系統(tǒng)暫態(tài)穩(wěn)定輸入特征是否有效性問題,根據(jù)電力系統(tǒng)運行過程中數(shù)據(jù)不均衡 特點,對傳統(tǒng)sammon映射算法加以改進。利用模糊C-均值聚類,去除冗余的穩(wěn)定樣本數(shù)據(jù)且 很好地保持了原始數(shù)據(jù)拓撲結(jié)構(gòu)和統(tǒng)計特性,完成在迭代計算前對原始數(shù)據(jù)大樣本的壓縮 任務(wù)。并且,改進算法比傳統(tǒng)算法更具穩(wěn)定性與高效性。一方面利用主成分分析法為迭代提 供初始值,使映射結(jié)果穩(wěn)定。另一方面,采用迭代修正的方法求解低維空間映射點坐標,加 快了求解速度。
[0051 ]本發(fā)明提供的一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,為 分析輸入特征的有效性提供了有力工具,對暫態(tài)穩(wěn)定特征的選取具有很好的指導(dǎo)作用。同 樣,在其他基于機器學習的電力系統(tǒng)問題中也具有良好的應(yīng)用前景。
【附圖說明】
[0052]圖1是本發(fā)明一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法的流 程圖;
[0053] 圖2是本發(fā)明實施例中失穩(wěn)數(shù)據(jù)與穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點 混合分布結(jié)構(gòu)不意圖;
[0054] 圖3是本發(fā)明實施例中失穩(wěn)數(shù)據(jù)與穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點 可視化分開結(jié)構(gòu)示意圖。
【具體實施方式】
[0055] 下面結(jié)合附圖對本發(fā)明的【具體實施方式】作詳細說明。
[0056] 為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0057]本發(fā)明提供的一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,如 圖1所示,包括:
[0058] 101.初始化電網(wǎng)運行樣本數(shù)據(jù);
[0059] 102.采用模糊C-均值聚類算法去除電網(wǎng)運行樣本數(shù)據(jù)中的冗余數(shù)據(jù);
[0060] 103.采用主成分分析法獲取所述電網(wǎng)運行樣本數(shù)據(jù)中貢獻率最大的三維數(shù)據(jù)作 為所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值;
[0061] 104.采用迭代修正法對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初 始值進行修正,獲取所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量;
[0062] 105.根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量評判所述電網(wǎng)運行 樣本數(shù)據(jù)的有效性。
[0063] 所述步驟101,包括:
[0064] 設(shè)所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù)為N,所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù)為p,構(gòu) 建NXp的電網(wǎng)運行樣本數(shù)據(jù)的樣本矩K
其中,i e[l,N],je[l,p];
[0065] 在樣本數(shù)量過大的情況下,映射算法時間會隨著樣本數(shù)的增加而急劇增加,影響 分析結(jié)果的速度。而在電力系統(tǒng)運行過程中,失穩(wěn)樣本數(shù)量極少,穩(wěn)定樣本數(shù)量多,且穩(wěn)定 樣本數(shù)據(jù)中有大量樣本數(shù)據(jù)是重復(fù)冗余的。故采用模糊C-均值聚類算法(Fuzzy C-Means algorithm,F(xiàn)CM)對穩(wěn)定樣本進行去除冗余處理,壓縮樣本數(shù)量,減輕計算量,從而加快分析 選取特征的有效性的速度。
[0066] FCM是一種應(yīng)用廣泛的聚類方法,普通C-均值聚類中每個樣本只能劃分到一個類, 而FCM則引入了隸屬度的概念,是一種柔性的模糊劃。FCM基于劃分的聚類算法是對普通C-均值聚類算法的改進,因此所述步驟102,包括:
[0067] 令聚類類別數(shù)c = 2,迭代停止的閥值為ε,初始聚類中心矩陣為 迭 代計數(shù)器b = 0;
[0068] a.用[0,1 ]間的隨機數(shù)初始化隸屬矩陣U,其中,所述隸屬矩陣U需滿足:
[0069]
⑴
[0070] 式(1)中,Uki為第k維電網(wǎng)運行樣本數(shù)據(jù)中屬于第i類的隸屬度;
[0071] b.按下式確定初始聚類中心矩陣中第i個聚類中心:
[0072]
(2)
[0073] 式(2)中,i = l,2,p為電網(wǎng)運行樣本數(shù)據(jù)總維數(shù),<為第k維電網(wǎng)運行樣本數(shù)據(jù)中 屬于第i類的隸屬度的m次冪,Xk為第k維電網(wǎng)運行樣本數(shù)據(jù),m=2為加權(quán)指數(shù);
[0074] c.對初始隸屬矩陣U進行更新,按下式確定新隸屬矩陣U(b)中第k維電網(wǎng)運行樣本 數(shù)據(jù)中屬于第i類的更新隸屬度《丨^
[0075]
C3)
[0076] 式(3)中,i = l,2, 為第k維電網(wǎng)運行樣本數(shù)據(jù)與初始聚類中心矩陣中第i個聚 類中心的距離度量,為第k維電網(wǎng)運行樣本數(shù)據(jù)與初始聚類中心矩陣中第j個聚類中心 的距離度量;
[0077] d.對初始聚類中心矩陣V(b)進行更新,按下式確定新聚類中心矩陣V(b+1)中第i個聚 類中
[0078]
(4)
[0079] e.若I |V(b+1)-V(b)| |分,則執(zhí)行步驟f,并輸出V(b+1)和U(b),否則,令b = b+l,并返回 步驟a;
[0080] f.遍歷u(b)中全部元素,設(shè)隸屬度閾值為P,若第k維電網(wǎng)運行樣本數(shù)據(jù)Xk屬于v(b+1) 的隸屬度均小于P,則去除第k維電網(wǎng)運行樣本數(shù)據(jù)xk。
[0081] Sammon映射是通過原始數(shù)據(jù)集的加權(quán)歐式距離,最小化目標函數(shù)E,最終將高維數(shù) 據(jù)通過一個非線性映射投影到低維空間里。在映射的主要步驟中,存在著兩個重要的影響 因素影響著最終可視化結(jié)果的穩(wěn)定性和映射速度:低維空間初始值的選取和迭代運算的次 數(shù)。
[0082]因為sammon映射對低維空間中初始設(shè)定的位置值很敏感,而選取初始值的困難在 于對所得到的初始值并沒有統(tǒng)一的標準來衡量。所以通常的做法是,以不同的隨機初始值 進行多次計算,然后取其中最優(yōu)解。這樣做的計算量會很大,浪費大量時間,并且不良的映 射效果有可能對分析選取特征集構(gòu)成的輸入空間的有效性造成誤判。因此采用主成份分析 (PCA)線性降維技術(shù)可以提供一個比較好的初始值。
[0083]主成分分析是一種多元統(tǒng)計分析方法。該方法通過構(gòu)造原變量的一系列線性組合 形成新變量,使這些新變量在彼此互不相關(guān)的前提下盡可能多地反映原變量的信息。數(shù)據(jù) 信息主要反映在數(shù)據(jù)變量的方差上,方差越大,包含信息越多。通常用累計方差貢獻率來衡 量。主成分分析是對多個樣本的輸入變量形成的數(shù)據(jù)矩陣求取相關(guān)矩陣,根據(jù)相關(guān)矩陣的 特征值,獲得累計方差貢獻率,再根據(jù)相關(guān)矩陣的特征向量,確定主成分,因此所述步驟 103,包括:
[0084] 對所述電網(wǎng)運行樣本數(shù)據(jù)中元素Xlj進行標準化處理,獲取Xlj的標準值.<,公式為:
[0085]
(5)
[0086] 式(5)中,N為所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù),p為所述電網(wǎng)運行樣本數(shù)據(jù)的特征 數(shù),16[1,幻,_]_£[1,1)],^;為第」維電網(wǎng)運行樣本數(shù)據(jù)的均值,^為第」維電網(wǎng)運行樣本數(shù) 據(jù)的標準差,其中,所述第j維電網(wǎng)運行樣本數(shù)據(jù)的均值?;的計算公式為:
[0087]
(6)
[0088] 所述第j維電網(wǎng)運行樣本數(shù)據(jù)的標準差^的計算公式為:
[0089]
( 7)
[0090]根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)中元素Xlj的標準值 <,構(gòu)建所述電網(wǎng)運行樣本數(shù)據(jù)的 標準矩陣S%
[0091 ]建立標準矩陣S*的相關(guān)矩陣 并求解所述相關(guān)矩陣R的齊次方程I R-λΙ =〇,獲取所述相關(guān)矩陣R的特征根λ?,Λ2,…,Λρ々μΙ特征向量U1,U2,…,Up,其中,λΑλ〗彡… 多λρ,I為單位矩陣,λ為所述相關(guān)矩陣R的特征根,λρ*所述相關(guān)矩陣R第P為元素的特征根, 叫為所述相關(guān)矩陣R第P為元素的特征向量;
[0092] 按下式確定所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值[Fii, Fi2,F(xiàn)i3]:
[0093] [Fi,F(xiàn)2,F(xiàn)3]=S*[ui,U2,U3] (8)
[0094] 式(8)中,ie [I,N],N為所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù),F1為第1維空間映射點 坐標向量的初始值,F(xiàn)2為第2維空間映射點坐標向量的初始值,F(xiàn) 3為第3維空間映射點坐標向 量的初始值。
[0095] 所述步驟104,包括:
[0096]按下式確定所述電網(wǎng)運行樣本數(shù)據(jù)的a維空間和b維空間映射點坐標向量的增量 Afa^PAfh:
[0097]
C9)
[0098] 式(9)中,fa為第a維空間映射點坐標向量值,Δ fa為第a維空間映射點坐標向量的 增量,dkj為第k維電網(wǎng)運行樣本數(shù)據(jù)與第j維電網(wǎng)運行樣本數(shù)據(jù)的距離,je[i, p],ke[i, Ij&yaiioy} P],P為所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù),彳=Ot01-O,, ^其中,Iteration為修正次數(shù), maxlteration為總修正次數(shù),且maxlteratione [IO4N, IO5N];
[0099] 將λ單調(diào)遞減至0.01,遞減次數(shù)為maxlteration,獲取maxlteration組所述電網(wǎng)運 行樣本數(shù)據(jù)的低維空間映射點坐標向量的增量,并根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間 映射點坐標向量的增量對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量進行修正。 [0100] 所述步驟105,包括:
[0101 ]將所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的坐標點標繪至坐標系,若 所述電網(wǎng)運行樣本數(shù)據(jù)中失穩(wěn)數(shù)據(jù)的低維空間映射點坐標向量的坐標點與所述電網(wǎng)運行 樣本數(shù)據(jù)中穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點混合分布,如圖2所示,則所述電 網(wǎng)運行樣本數(shù)據(jù)不具有有效性,若所述電網(wǎng)運行樣本數(shù)據(jù)中失穩(wěn)數(shù)據(jù)的低維空間映射點坐 標向量的坐標點與所述電網(wǎng)運行樣本數(shù)據(jù)中穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標 點能夠可視化分開,如圖3所示,則所述電網(wǎng)運行樣本數(shù)據(jù)具有有效性。
[0102] 穩(wěn)定樣本和失穩(wěn)樣本的映射點在三維空間中能夠可視化分開,說明選取的特征子 集是有效,所構(gòu)成的輸入空間具有可分性。如果穩(wěn)定樣本和失穩(wěn)樣本映射點不可分,則說明 所選特征是沒有分類能力的,需要重新選擇輸入特征。
[0103] 在sammon映射算法的主要步驟中,存在著兩個重要的影響因素影響著最終映射結(jié) 果的穩(wěn)定性和求解速度:低維空間初始值的選取和映射目標誤差函數(shù)的最小化迭代。 Sammon映射對低維空間中初始設(shè)定的位置值很敏感,而對低維空間映射點初始位置的設(shè)定 值并沒有統(tǒng)一的衡量標準。所以通常的做法是,采用隨機數(shù)初始化初始位置,并以不同的隨 機初始值進行多次計算,然后選取其中解效果最優(yōu)的映射結(jié)果。這種求解方式的計算量大, 重復(fù)很多不必要的計算,而且不良的映射效果有可能對分析選取特征集構(gòu)成的輸入空間的 有效性造成誤判。相比之下,主成份分析(PCA)等線性降維技術(shù)可以提供一個比較好的初始 值。用PCA得到原始樣本中貢獻率最大的三維數(shù)據(jù)代替原算法取隨機數(shù)的方法,做為低維空 間映射點坐標向量的初始值,可以使映射結(jié)果更加穩(wěn)定,能夠有效地減少計算次數(shù)。關(guān)于迭 代運算次數(shù)問題,一方面在映射運算前,通過模糊C-均值聚類算法去除冗余穩(wěn)定樣本數(shù)據(jù), 減少計算量。另一方面采用迭代修正的方法代替計算過程繁重的最速下降法求解低維空間 映射點的坐標向量。迭代修正法不斷調(diào)整低維空間映射點的坐標位置,即調(diào)整低維空間的 結(jié)構(gòu),當誤差函數(shù)足夠小時,低維空間和高維空間將具有相似的結(jié)構(gòu)。
[0104]最后應(yīng)當說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其限制,盡 管參照上述實施例對本發(fā)明進行了詳細的說明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當理解:依然 可以對本發(fā)明的【具體實施方式】進行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何 修改或者等同替換,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求保護范圍之內(nèi)。
【主權(quán)項】
1. 一種基于改進Sammon映射的暫穩(wěn)評估輸入特征有效性分析方法,其特征在于,所述 方法包括: 初始化電網(wǎng)運行樣本數(shù)據(jù); 采用模糊C-均值聚類算法去除電網(wǎng)運行樣本數(shù)據(jù)中的冗余數(shù)據(jù); 采用主成分分析法獲取所述電網(wǎng)運行樣本數(shù)據(jù)中貢獻率最大的三維數(shù)據(jù)作為所述電 網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值; 采用迭代修正法對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值進行 修正,獲取所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量; 根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量評判所述電網(wǎng)運行樣本數(shù)據(jù) 的有效性。2. 如權(quán)利要求1所述的方法,其特征在于,所述初始化電網(wǎng)運行樣本數(shù)據(jù),包括: 設(shè)所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù)為N,所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù)為p,構(gòu)建NX P的電網(wǎng)運行樣本數(shù)據(jù)的樣本矩陣> 其中,iG[l, N],jG[l,p],3. 如權(quán)利要求1所述的方法,其特征在于,所述利用采用模糊C-均值聚類算法去除電網(wǎng) 運行樣本數(shù)據(jù)中的冗余數(shù)據(jù),包括: 令聚類類別數(shù)c = 2,迭代停止的閥值為e,初始聚類中心矩陣為廣,v0,迭代計 數(shù)器b = 0; a. 用[0,1 ]間的隨機數(shù)初始化隸屬矩陣U,其中,所述隸屬矩陣U需滿足:式(1)中,uki為第k維電網(wǎng)運行樣本數(shù)據(jù)中屬于第i類的隸屬度; b. 按下式確定初始聚類中心矩陣中第i個聚類中心:式(2)中,i = l, 2,p為電網(wǎng)運行樣本數(shù)據(jù)總維數(shù),<為第k維電網(wǎng)運行樣本數(shù)據(jù)中屬于 第i類的隸屬度的m次冪,xk為第k維電網(wǎng)運行樣本數(shù)據(jù),m=2為加權(quán)指數(shù); c .對初始隸屬矩陣U進行更新,按下式確定新隸屬矩陣U(b)中第k維電網(wǎng)運行樣本數(shù)據(jù) 中屬于第i類的更新隸屬度<、式(3)中,i = l,2,df為第k維電網(wǎng)運行樣本數(shù)據(jù)與初始聚類中心矩陣中第i個聚類中 心的距離度量,為第k維電網(wǎng)運行樣本數(shù)據(jù)與初始聚類中心矩陣中第j個聚類中心的距 離度量; d. 對初始聚類中心矩陣V(b)進行更新,按下式確定新聚類中心矩陣V(b+1)中第i個聚類中e. 若| |V(b+1)_V(b)| 則執(zhí)行步驟f,并輸出V(b+1)和U(b),否則,令b = b+l,并返回步驟 a; f. 遍歷u(b)中全部元素,設(shè)隸屬度閾值為P,若第k維電網(wǎng)運行樣本數(shù)據(jù)Xk屬于v(b+1)的隸 屬度均小于P,則去除第k維電網(wǎng)運行樣本數(shù)據(jù) Xk。4.如權(quán)利要求1所述的方法,其特征在于,所述利用主成分分析法獲取所述電網(wǎng)運行樣 本數(shù)據(jù)中貢獻率最大的三維數(shù)據(jù)作為所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量 的初始值,包括: 對所述電網(wǎng)運行樣本數(shù)據(jù)中元素進行標準化處理,獲取的標準值 <,公式為:式(5)中,N為所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù),p為所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù),i £[1,捫,_]_£[1,!)],€為第」維電網(wǎng)運行樣本數(shù)據(jù)的均值,^為第」維電網(wǎng)運行樣本數(shù)據(jù)的 標準差,其中,所述第j維電網(wǎng)運行樣本數(shù)據(jù)的均值的計算公式為:所述第j維電網(wǎng)運行樣本數(shù)據(jù)的標準差&的計算公式為:根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)中元素的標準值^:,構(gòu)建所述電網(wǎng)運行樣本數(shù)據(jù)的標準 矩陣S% 建立標準矩陣S*的相關(guān)矩陣 |并求解所述相關(guān)矩陣R的齊次方程IR-AI | =0, 獲取所述相關(guān)矩陣R的特征根Xl,A2, . . .,Ap和特征向量Ul,U2, . .,Up,其中山彡A2彡...彡入p, I為單位矩陣,A為所述相關(guān)矩陣R的特征根,\為所述相關(guān)矩陣R第p為元素的特征根,Up為所 述相關(guān)矩陣R第P為元素的特征向量; 按下式確定所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的初始值[Fu,F(xiàn)l2, Fi3]: [Fl,F(xiàn)2,F(xiàn)3] = S*[Ul,U2,U3] (8) 式(8)中,i G [1,N],N為所述電網(wǎng)運行樣本數(shù)據(jù)的樣本數(shù),F(xiàn)i為第1維空間映射點坐標向 量的初始值,F(xiàn)2為第2維空間映射點坐標向量的初始值,F(xiàn)3為第3維空間映射點坐標向量的初 始值。5. 如權(quán)利要求1所述的方法,其特征在于,所述采用迭代修正法對所述電網(wǎng)運行樣本數(shù) 據(jù)的低維空間映射點坐標向量的初始值進行修正,獲取所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間 映射點坐標向量,包括: 按下式確定所述電網(wǎng)運行樣本數(shù)據(jù)的a維空間和b維空間映射點坐標向量的增量A匕和 Afb:式(9)中,fa為第a維空間映射點坐標向量值,A fa為第a維空間映射點坐標向量的增量, dkj為第k維電網(wǎng)運行樣本數(shù)據(jù)與第j維電網(wǎng)運行樣本數(shù)據(jù)的距離,jG[l,p],kG[l,p],pS 所述電網(wǎng)運行樣本數(shù)據(jù)的特征數(shù),其中,Iteration為修正次數(shù), maxlteration為總修正次數(shù),且maxIterationG [104N, 105N]; 將入單調(diào)遞減至〇. 01,遞減次數(shù)為11^1]^6瓜1:;[〇11,獲取1]^1]^6瓜1:;[〇11組所述電網(wǎng)運行樣 本數(shù)據(jù)的低維空間映射點坐標向量的增量,并根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射 點坐標向量的增量對所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量進行修正。6. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間 映射點坐標向量評判所述電網(wǎng)運行樣本數(shù)據(jù)的有效性,包括: 將所述電網(wǎng)運行樣本數(shù)據(jù)的低維空間映射點坐標向量的坐標點標繪至坐標系,若所述 電網(wǎng)運行樣本數(shù)據(jù)中失穩(wěn)數(shù)據(jù)的低維空間映射點坐標向量的坐標點與所述電網(wǎng)運行樣本 數(shù)據(jù)中穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點混合分布,則所述電網(wǎng)運行樣本數(shù)據(jù) 不具有有效性,若所述電網(wǎng)運行樣本數(shù)據(jù)中失穩(wěn)數(shù)據(jù)的低維空間映射點坐標向量的坐標點 與所述電網(wǎng)運行樣本數(shù)據(jù)中穩(wěn)定數(shù)據(jù)的低維空間映射點坐標向量的坐標點能夠可視化分 開,則所述電網(wǎng)運行樣本數(shù)據(jù)具有有效性。
【文檔編號】G06F19/00GK106055883SQ201610353984
【公開日】2016年10月26日
【申請日】2016年5月25日
【發(fā)明人】張春, 于之虹, 張軍, 魯廣明, 楊超平, 戴紅陽, 張爽, 田芳, 高峰, 李巖松, 田蓓
【申請人】中國電力科學研究院, 國家電網(wǎng)公司, 國網(wǎng)寧夏電力公司電力科學研究院