本發(fā)明涉及環(huán)境檢測技術領域,特別是指一種預測空氣質量的方法。
背景技術:
空氣質量的好壞一方面是由污染源決定的,另一方面是由當?shù)禺敃r的氣象因子決定的。在相同的污染源的情況下,不同的氣象因子所造成的地面污染物的濃度相差很大??梢钥闯隹諝赓|量與氣象因子有著緊密的聯(lián)系,為了改善區(qū)域空氣質量,研究區(qū)域空氣質量時間序列與氣象因子的關系開始變得越來越重要。
近年來,針對空氣質量時間序列的非線性、隨機性、時序性、動態(tài)性及不確定性的特點,國內外已經提出很多預測方法,其中隱性馬爾科夫(Hidden Markov Model,HMM)預測方法是其中的一種重要預測方法,此方法能夠在考慮預測變量自身序列和影響因子的多維序列的結構的前提下識別和預測空氣質量的演化狀態(tài),使得模型具有可解釋性。
HMM是在馬爾科夫過程的基礎上發(fā)展起來的。由于實際問題比馬爾科夫過程所描述的更為復雜,觀察到的觀測向量不是與狀態(tài)一一對應的,而是通過一組概率分布相聯(lián)系的,這樣的模型就稱為HMM。所以,它是一個雙重的隨機過程,一個是馬爾科夫過程,這是基本隨機過程,它是用來描述狀態(tài)的轉移,另一個隨機過程描述狀態(tài)和觀察到的觀測向量之間的統(tǒng)計對應關系。大多數(shù)的HMM模型是采用人為確定隱狀態(tài)數(shù)來對時間序列的特定情形進行預測,預測的結果帶有了一定的主觀性。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題是提供一種預測空氣質量的方法,以解決現(xiàn)有技術所存在的人為確定HMM模型的隱狀態(tài)數(shù)帶有主觀性的問題。
為解決上述技術問題,本發(fā)明實施例提供一種預測空氣質量的方法,包括:
獲取觀測序列;
利用FCM聚類算法對獲取的所述觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果;
根據(jù)聚類結果,為每一類建立一個HMM模型,通過FCM聚類算法確定每一類的最佳聚類數(shù);
將確定的每一類的最佳聚類數(shù)作為建立的HMM模型的隱狀態(tài)數(shù);
根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測。
進一步地,所述利用FCM聚類算法對獲取的所述觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果前,所述方法還包括:
對獲取的所述觀測序列進行歸一化處理。
進一步地,所述觀測序列為多維時間序列;
所述對獲取的所述觀測序列進行歸一化處理后,所述方法還包括:
采用主成分分析法對歸一化處理后的多維時間序列進行降維處理。
進一步地,所述采用主成分分析法對歸一化處理后的多維時間序列進行降維處理包括:
確定歸一化處理后的觀測序列的相關系數(shù)矩陣;
計算所述相關系數(shù)矩陣的特征值λi與對應于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m,p個特征值滿足:λ1≥λ2≥...≥λp≥0;
計算主成分貢獻率及累計貢獻率
將累計貢獻率超過預設的貢獻率閾值時對應的成分作為主成分進行分析,得到新的觀測序列。
進一步地,所述利用FCM聚類算法對獲取的所述觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果包括:
S11,對聚類數(shù)、冪指數(shù)和模糊隸屬度矩陣進行初始化;
S12,根據(jù)所述觀測序列,計算第l步的聚類中心V(l);
S13,更新第l步的模糊隸屬度矩陣U(l);
S14,計算目標函數(shù)J(l);
S15,比較當前目標函數(shù)的值與前一次的目標函數(shù)的值,如果二者的絕對差值小于預設的終止迭代閾值,則停止迭代,執(zhí)行S16;否則,令l=l+1,返回S12,繼續(xù)迭代;
S16,計算不同聚類數(shù)時的FCM聚類算法的運行時間和有效性指標,當所述運行時間最短且所述有效性指標最小時的聚類數(shù)為最優(yōu)聚類數(shù)。
進一步地,所述第l步的聚類中心V(l)表示為:
所述第l步的模糊隸屬度矩陣U(l)表示為:
所述目標函數(shù)J(l)表示為:
其中,表示第l步的聚類中心,表示第l步的模糊隸屬度矩陣中的第i行第k列元素,dik(l)=||xk-vi(l)||,xk為第k樣本,n為樣本數(shù),c為聚類數(shù),m表示冪指數(shù)。
進一步地,所述有效性指標表示為:
其中,inter=min(||vi-vj||2),i=1,2,...,c-1j=i+1,...,c,x為樣本值,c為聚類數(shù),Ci為第i個聚類,vi,vj為聚類中心,n為樣本數(shù)。
進一步地,所述HMM模型的數(shù)目與最優(yōu)聚類數(shù)相同,設最優(yōu)聚類數(shù)為kopt,所述HMM模型的數(shù)目為kopt;
所述對空氣質量進行預測前,所述方法還包括:
將所述觀測序列輸入到訓練后的kopt個HMM模型中;
利用前后向算法計算每個HMM模型對每一個觀測序列產生的對數(shù)似然值,其中,每一個觀測序列的對數(shù)似然值的個數(shù)為kopt;
對每個觀測序列的kopt個對數(shù)似然值進行分析,得到每個觀測序列的最大對數(shù)似然值,其中,每個觀測序列的最大對數(shù)似然值對應的HMM模型的類為所述觀測序列屬于的類;
將所述觀測序列劃分到所述觀測序列的最大對數(shù)似然值對應的類中,得到FCM-HMM聚類結果。
進一步地,所述根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測包括:
若給定預測樣本觀測序列,則根據(jù)得到的FCM-HMM聚類結果,確定每個類的模糊規(guī)則的前件參數(shù);
根據(jù)每個類中的樣本的觀測序列,使用最小二乘法確定每個類的模糊規(guī)則的后件參數(shù);
根據(jù)確定的每個類的模糊規(guī)則,對所述給定的預測樣本觀測序列進行預測;其中,所述每個類的模糊規(guī)則形式表示為:
Ri:
if x1 is Ai1,x2 is Ai2,...,xj is Aij,
then
yi(t)=Pi0+Pi1x1+...+Pijxj
其中,x1,x2,...,xj表示構成模糊規(guī)則前件的變量,Pi0,Pi1,...,Pij是后件參數(shù),Aij是前件參數(shù),Aij表示樣本第j維對于第i條模糊規(guī)則的隸屬度,分別表示第i類的第j維的均值和方差值,xj表示樣本的第j維,Pij是第i條模糊規(guī)則的第j維的后件參數(shù)。
進一步地,所述根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測包括:
若未給定預測樣本觀測序列,則根據(jù)得到的FCM-HMM聚類結果,計算出多步預測值Ot+h,所述多步預測值Ot+h表示為:
其中,N為狀態(tài)數(shù),h為多步預測的步數(shù),Ah表示由t時刻轉移到t+h時刻的狀態(tài)轉移概率矩陣,即t時刻的狀態(tài)為qt=si轉移到t+h時刻qt+h=sj的概率為Ah(i,j),A表示單步轉移概率矩陣,E(bj(vk))為對概率分布為bj(vk)的期望值,bj(vk)是在第j個狀態(tài)sj下,第k個預測樣本觀測序列vk的觀測概率密度。
本發(fā)明的上述技術方案的有益效果如下:
上述方案中,由于觀測序列具有不確定性,利用自動確定聚類數(shù)的FCM聚類對觀測序列進行聚類,確定觀測序列的初始聚類結果,然后,根據(jù)聚類結果,為每一類建立一個HMM模型,接著,利用自動確定聚類數(shù)的FCM確定每一類的最佳聚類數(shù)作為HMM模型的隱狀態(tài)數(shù),根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測。
附圖說明
圖1為本發(fā)明實施例提供的預測空氣質量的方法的流程示意圖;
圖2為本發(fā)明實施例提供的FCM聚類算法的流程示意圖;
圖3為本發(fā)明實施例提供的基于FCM-HMM聚類算法的流程示意圖;
圖4為本發(fā)明實施例提供的預測空氣質量的流程示意圖;
圖5為本發(fā)明實施例提供的基于FCM-HMM聚類結果的模糊推理多模型框架示意圖;
圖6為本發(fā)明實施例提供的觀測序列的預測值與實際值的對比示意圖;
圖7為本發(fā)明實施例提供的基于FCM-HMM聚類結果的多步預測流程示意圖;
圖8(a)為本發(fā)明實施例提供的步長和自相關系數(shù)的關系示意圖;
圖8(b)為本發(fā)明實施例提供的步長和偏自相關系數(shù)的關系示意圖;
圖9為本發(fā)明實施例提供的多步預測模型的狀態(tài)轉移概率圖;
圖10為本發(fā)明實施例提供的多步預測模型的預測結果示意圖。
具體實施方式
為使本發(fā)明要解決的技術問題、技術方案和優(yōu)點更加清楚,下面將結合附圖及具體實施例進行詳細描述。
本發(fā)明針對現(xiàn)有的人為確定HMM模型的隱狀態(tài)數(shù)帶有主觀性的問題,提供一種預測空氣質量的方法。
參看圖1所示,本發(fā)明實施例提供的預測空氣質量的方法,包括:
步驟101,獲取觀測序列;
步驟102,利用FCM聚類算法對獲取的所述觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果;
步驟103,根據(jù)聚類結果,為每一類建立一個HMM模型,通過FCM聚類算法再次確定每一類的最佳聚類數(shù);
步驟104,將確定的每一類的最佳聚類數(shù)作為建立的HMM模型的隱狀態(tài)數(shù);
步驟105,根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測。
本發(fā)明實施例所述的預測空氣質量的方法,由于觀測序列具有不確定性,利用自動確定聚類數(shù)的FCM聚類對觀測序列進行聚類,確定觀測序列的初始聚類結果,然后,根據(jù)聚類結果,為每一類建立一個HMM模型,接著,利用自動確定聚類數(shù)的FCM確定每一類的最佳聚類數(shù)作為HMM模型隱狀態(tài)數(shù),根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測。
本實施例中,在預測空氣質量時,所述觀測序列為空氣質量時間序列/空氣質量時間序列數(shù)據(jù)集,所述數(shù)據(jù)集包括多個樣本,每個樣本對應一個觀測序列,所述觀測序列為多維所述觀測序列。
在前述預測空氣質量的方法的具體實施方式中,進一步地,所述利用FCM聚類算法對獲取的所述觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果前,所述方法還包括:
對獲取的所述觀測序列進行歸一化處理。
本實施例中,在建立預測模型之前,需獲取預測模型的輸入數(shù)據(jù),所述輸入數(shù)據(jù)具體可以為:觀測序列,為了消除變量之間由于量綱造成的影響,需對所述觀測序列進行歸一化處理,例如,可以采用min-max歸一化方法對所述觀測序列進行歸一化處理,其中,所述min-max數(shù)據(jù)歸一化方法的表達式表示為:
其中,xip和xip'分別表示歸一化前后第i個樣本的第p維數(shù)據(jù),min(x.p)表示第p維數(shù)據(jù)的最小值,max(x.p)表示第p維數(shù)據(jù)的最大值。
在前述預測空氣質量的方法的具體實施方式中,進一步地,所述觀測序列為多維時間序列;
所述對獲取的所述觀測序列進行歸一化處理后,所述方法還包括:
采用主成分分析法對歸一化處理后的多維時間序列進行降維處理。
本實施例中,在建立預測模型之前,還需確定預測模型的輸入變量、輸出變量,為了更清楚的理解基于隱性馬爾科夫空氣質量預測模型的構建,可以選取某地區(qū)2013年到2015年的樣本共計700個樣本對空氣質量中的PM2.5進行預測建模,所考慮的氣象因子有溫度、風速、露點、rehum共計4個影響因素,同時考慮到其他污染物對空氣質量的影響,把NO、NO2、CO、SO2這4個變量也作為輸入變量;即:建模需要的輸入變量是(溫度、風速、露點、rehum、NO、NO2、CO、SO2),為一個8維向量,輸出變量為PM2.5的值。
本實施例中,可以利用Pearson相關系數(shù)分析空氣質量的影響變量之間的相關性,其中,所述Pearson相關系數(shù)表示為:
其中,X,Y為兩個變量,σX,σY為標準差,cov(X,Y)為協(xié)方差,μX,μY為均值,E(X-μX)(Y-μY)表示期望。
本實施例中,由于所述觀測序列為多維時間序列,變量較多,在完成觀測序列的相關性分析后,可以采用主成分分析來對歸一化處理后的多維時間序列進行降維處理。
在前述預測空氣質量的方法的具體實施方式中,進一步地,所述采用主成分分析法對歸一化處理后的多維時間序列進行降維處理包括:
確定歸一化處理后的觀測序列的相關系數(shù)矩陣;
計算所述相關系數(shù)矩陣的特征值λi與對應于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m,p個特征值滿足:λ1≥λ2≥...≥λp≥0;
計算主成分貢獻率及累計貢獻率
將累計貢獻率超過預設的貢獻率閾值時對應的成分作為主成分進行分析,得到新的觀測序列。
本實施例中,采用主成分分析法對歸一化處理后的多維時間序列進行降維處理,得到新的多維互不相關的觀測序列,其中,所述采用主成分分析法對歸一化處理后的多維時間序列進行降維處理具體可以包括:
D1、將歸一化處理后的觀測序列轉化為標準化陣,對所述標準化陣求相關系數(shù)矩陣,其中,所述相關系數(shù)矩陣表示為:
其中,為變量xi與xj的相關系數(shù),所述相關系數(shù)采用Person相關系數(shù)。由于R是實對稱矩陣(即rij=rji),所以只需計算其上三角元素或下三角元素即可,n表示變量xi、xj的樣本數(shù),分別為變量xi、xj的樣本均值,xki表示第k個樣本的第i個變量值,xkj表示第k個樣本的第j個變量值。
D2、計算所述相關系數(shù)矩陣R的特征值與特征向量:具體的,求解所述相關系數(shù)矩陣R的特征方程,得p個特征值,并使其按大小順序排列求解,即λ1≥λ2≥...≥λp≥0,然后分別求出對應于特征值λi的特征向量eij,其中,i=1,2,...,p,j=1,2,...,m;
D3、計算主成分貢獻率及累計貢獻率:一般取累計貢獻率達到85%以上的特征值及其對應的第一主成分、第二主成分、...、第m主成分;
所述主成分貢獻率表示為:
所述累計貢獻率表示為:
本實施例中,執(zhí)行D3后,例如,得到主成分貢獻率為fai=[0.0094,0.0159,0.0409,0.0673,0.0791,0.1364,0.2041,0.4469];
D4、計算主成分負荷,所述主成分負荷表示為:
D5、根據(jù)D4,得到主成分Z,其中,所述主成分Z表示為:
本實施例中,執(zhí)行D5后,例如,后5個成分的累計貢獻率達到93.38%,選取后5個成分作為主成分進行分析,根據(jù)主成分分析的特征向量生成新的5維的觀測序列,即PM2.5和5維觀測序列組成一個6維的數(shù)據(jù)集。
在前述預測空氣質量的方法的具體實施方式中,進一步地,所述利用FCM聚類算法對獲取的所述觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果包括:
S11,對聚類數(shù)、冪指數(shù)和模糊隸屬度矩陣進行初始化;
S12,根據(jù)所述觀測序列,計算第l步的聚類中心;
S13,更新第l步的模糊隸屬度矩陣;
S14,計算目標函數(shù)J(l);
S15,比較當前目標函數(shù)的值與前一次的目標函數(shù)的值,如果二者的絕對差值小于預設的終止迭代閾值,則停止迭代,執(zhí)行S16;否則,令l=l+1,返回S12,繼續(xù)迭代;
S16,計算不同聚類數(shù)時的FCM聚類算法的運行時間和有效性指標,當所述運行時間最短且所述有效性指標最小時的聚類數(shù)為最優(yōu)聚類數(shù)。
本實施例中,如圖2所示,利用FCM聚類算法對獲取的所述觀測序列進行聚類,具體的,利用FCM聚類算法對降維后的觀測序列進行聚類,得到最優(yōu)聚類數(shù)及其相應的聚類結果可以包括:
F1、對聚類參數(shù)進行初始化,具體的,確定聚類數(shù)c=2,冪指數(shù)m和模糊隸屬度矩陣此時迭代步數(shù)l=1,c滿足n表示樣本數(shù),m滿足m>1;
F2、計算第l步的聚類中心V(l),其中,所述第l步的聚類中心V(l)定義如下:
F3、更新第l步的模糊隸屬度矩陣U(l),計算目標函數(shù)J(l);
所述第l步的模糊隸屬度矩陣U(l)表示為:
所述目標函數(shù)J(l)表示為:
其中,表示第l步的聚類中心,表示第l步的模糊隸屬度矩陣中的第i行第k列元素,dik(l)=||xk-vi(l)||,xk為第k樣本,n為樣本數(shù),c為聚類數(shù),m表示冪指數(shù)。
F4、比較當前目標函數(shù)的值與前一次的目標函數(shù)的值,如果二者的絕對差值小于預設的終止迭代閾值ε(其中,ε是大于0的極小值):|J(l)-J(l-1)|<ε,停止迭代,執(zhí)行步驟F5;否則,令l=l+1,返回步驟F2,繼續(xù)迭代;
F5、停止迭代時,假設c=8,則計算聚類數(shù)c=2~8時FCM聚類算法的運行時間和有效性指標,其中,所述有效性指標表示為:
其中,inter=min(||vi-vj||2),i=1,2,...,c-1j=i+1,...,c,x為樣本值,c為聚類數(shù),Ci為第i個聚類,vi,vj為聚類中心,n為樣本數(shù)。
本實施例中,當聚類數(shù)為2的時候,F(xiàn)CM聚類算法所需的運行時間最短,且聚類的有效性指標最小,所以最優(yōu)聚類數(shù)kopt=2,從而將觀測序列劃分為兩類。
本實施例中,根據(jù)聚類結果,為每一類建立HMM模型,然后,通過FCM聚類算法確定每一類中PM2.5的最佳聚類數(shù)/最佳劃分/最佳隱狀態(tài)數(shù),得到的結果為:兩類的PM2.5的最佳聚類數(shù)分別為2、3;將確定的每一類的最佳聚類數(shù)作為建立的HMM模型的隱狀態(tài)數(shù),得到,類1對應的HMM模型為隱狀態(tài)數(shù)為2的HMM模型,類2對應的HMM模型為隱狀態(tài)數(shù)為3的HMM模型。
本實施例中,步驟F5中的最優(yōu)聚類數(shù)kopt=2,HMM模型的個數(shù)是步驟F5中的最佳聚類個數(shù),HMM模型的數(shù)目為2,將FCM最優(yōu)聚類結果作為訓練數(shù)據(jù)輸入相應的HMM模型并進行訓練,得到2個HMM模型。這樣,將FCM最優(yōu)聚類結果作為訓練數(shù)據(jù)輸入相應的HMM模型并進行訓練,很大程度上能提高類內的相似度以及類間的相異性,提高了HMM模型訓練的準確度。
在前述預測空氣質量的方法的具體實施方式中,進一步地,如圖3所示,所述HMM模型的數(shù)目與最優(yōu)聚類數(shù)相同,設最優(yōu)聚類數(shù)為kopt,所述HMM模型的數(shù)目為kopt;
所述對空氣質量進行預測前,所述方法還包括:
將所述觀測序列輸入到訓練后的kopt個HMM模型中;
利用前后向算法計算每個HMM模型對每一個觀測序列產生的對數(shù)似然值,其中,每一個觀測序列的對數(shù)似然值的個數(shù)為kopt;
對每個觀測序列的kopt個對數(shù)似然值進行分析,得到每個觀測序列的最大對數(shù)似然值,其中,每個觀測序列的最大對數(shù)似然值對應的HMM模型的類為所述觀測序列屬于的類;
將所述觀測序列劃分到所述觀測序列的最大對數(shù)似然值對應的類中,得到FCM-HMM聚類結果。
本實施例中,還可以根據(jù)訓練之后的HMM模型對樣本進行二次聚類,定性地識別和預測空氣質量的演化狀態(tài)/演化規(guī)律,將之前的FCM聚類算法和所述二次聚類稱為FCM-HMM的聚類算法。
本實施例中,所述根據(jù)訓練之后的HMM模型對樣本進行二次聚類具體可以包括:
將所有觀測序列(每條觀測序列對應一個樣本)輸入到訓練之后的kopt個HMM模型中,利用前后向(Forward-backwad)算法計算每個HMM模型對每一個樣本產生的對數(shù)似然值,其中,每一個樣本的對數(shù)似然值的個數(shù)是步驟F5中的最優(yōu)聚類數(shù)kopt,所述對數(shù)似然值可以表現(xiàn)出樣本的觀測序列對訓練之后的HMM模型的適應性,產生的對數(shù)似然值越大,樣本與訓練之后的HMM模型間的距離越??;每個樣本的最大對數(shù)似然值對應的HMM模型的類為所述樣本屬于的類,將所述樣本重新劃分到所述樣本的最大對數(shù)似然值對應的類中,得到的新的聚類結果,所述新的聚類結果,由于是通過FCM-HMM聚類算法得到的,因此,所述新的聚類結果也稱為FCM-HMM聚類結果。
本實施例中,根據(jù)每個觀測序列由kopt個HMM模型產生的對數(shù)似然值大小對觀測序列進行二次聚類,有效地提高聚類的精度,定性地識別和預測了空氣質量樣本數(shù)據(jù)的演化狀態(tài)。
在前述預測空氣質量的方法的具體實施方式中,進一步地,所述根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測包括:
若給定預測樣本觀測序列,則根據(jù)得到的FCM-HMM聚類結果,確定每個類的模糊規(guī)則的前件參數(shù);
根據(jù)每個類中的樣本的觀測序列,使用最小二乘法確定每個類的模糊規(guī)則的后件參數(shù);
根據(jù)確定的每個類的模糊規(guī)則,對所述給定的預測樣本觀測序列進行預測;其中,所述每個類的模糊規(guī)則形式表示為:
Ri:
if x1 is Ai1,x2 is Ai2,...,xj is Aij,
then
yi(t)=Pi0+Pi1x1+...+Pijxj
其中,x1,x2,...,xj表示構成模糊規(guī)則前件的變量,Pi0,Pi1,...,Pij是后件參數(shù),Aij是前件參數(shù),Aij表示樣本第j維對于第i條模糊規(guī)則的隸屬度,分別表示第i類的第j維的均值和方差值,xj表示樣本的第j維,Pij是第i條模糊規(guī)則的第j維的后件參數(shù)。
本實施例中,如圖4所示,在給定預測樣本觀測序列時,可以根據(jù)得到的FCM-HMM聚類結果建立模糊推理多模型,得到空氣質量的趨勢變化和未來一段時間的空氣質量的預測值;在未給定預測樣本觀測序列時,可以根據(jù)得到的FCM-HMM聚類結果建立多步預測模型,得到空氣質量的趨勢變化和未來一段時間的空氣質量的預測值。
本實施例中,如圖5所示,若給定預測樣本觀測序列,則根據(jù)得到的FCM-HMM聚類結果,在該聚類結果的基礎上,與模糊推理多模型結合,對這kopt個類分別提取每一類的模糊規(guī)則,建立多個模糊推理規(guī)則,將HMM模型預測的空氣質量的狀態(tài)值轉換為空氣質量的具體預測值,得到空氣質量的趨勢變化,其中,提取模糊規(guī)則的步驟可以包括:
K1、根據(jù)得到的FCM-HMM聚類結果,計算每個類的模糊規(guī)則的前件參數(shù);
K2、根據(jù)每個類中的樣本的觀測序列,使用最小二乘法確定每個類的模糊規(guī)則的后件參數(shù);具體的:根據(jù)最小二乘法對每個HMM模型的后件參數(shù)進行辨識,最終將各個HMM模型輸出值的加權和作為預測值輸出。假定輸入的樣本集/觀測序列為Z,當樣本集經過FCM-HMM聚類算法被劃分成kopt個類時,就可以用提取的kopt個模糊規(guī)則模型{R(1),R(2),...,R(kopt)}來表示,最終經過各個HMM模型輸出值的加權和得到預測值的輸出,其中,以R(1)為例,R(1)可以簡寫為R1。
本實施例中,根據(jù)得到的FCM-HMM聚類結果,將所有的kopt個模糊規(guī)則的隸屬函數(shù)的平均值、方差準確的固定。所以該HMM模型能夠更準確的進行預測。建立kopt個模糊規(guī)則,根據(jù)這些模糊規(guī)則就可以對給定預測樣本的觀測序列進行預測。
本實施例中,例如,根據(jù)得到的FCM-HMM聚類結果,對所述新的聚類結果的兩個類提取模糊規(guī)則,用u1,u2,u3,u4,u5表示模型的五個輸入多維觀測序列,Aij(1≤i≤2,1≤j≤5)為樣本第j維對于第i個模糊規(guī)則的隸屬度,一類模糊規(guī)則為:
R1:
if u1 is A11,u2 is A12,...,u5 is A15,
then
y1(t)=-0.1305+0.4055u1-0.0125u2+...-0.0128u5
另一類模糊規(guī)則為:
R2:
if u1 is A21,u2 is A22,...,u5 is A25,
then
y2(t)=0.0110+0.0285u1-0.0263u2+...-0.0031u5
采用上述2個模糊規(guī)則模型R1、R2進行預測,并與實際的的數(shù)據(jù)值進行對比得到如圖6的結果,可以看出HMM模型的擬合效果較好,本實施例中,模糊規(guī)則模型R1、R2的部分參數(shù)如表1所示:
表1模糊規(guī)則模型R1、R2的部分參數(shù)
表1中,(0.1305,0.4055,0.0125,-0.0270,-0.0052,0.0128)中的0.1305是常數(shù)項,0.4055、0.0125、-0.0270、-0.0052、0.0128分別是五個輸入變量的后件參數(shù)。
本實施例中,所述模糊推理多模型不能在未給定預測樣本觀測序列時進行空氣質量預測,在未給定預測樣本觀測序列的前提下,建立了另外一種預測模型,即基于FCM-HMM的多步預測模型,對未來時間的空氣質量值進行預測。
為了實現(xiàn)多步預測,根據(jù)聚類的結果計算樣本的狀態(tài)轉移概率和觀測概率密度B,利用狀態(tài)轉移概率和觀測概率密度B這兩個參數(shù)建立基于FCM-HMM的多步預測模型,對未來一段時間的空氣質量的值進行預測。
在前述預測空氣質量的方法的具體實施方式中,進一步地,所述根據(jù)所述聚類結果,對建立的HMM模型進行訓練,基于訓練后的HMM模型,對空氣質量進行預測包括:
若未給定預測樣本觀測序列,則根據(jù)得到的FCM-HMM聚類結果,計算出多步預測值Ot+h,所述多步預測值Ot+h表示為:
其中,N為狀態(tài)數(shù),h為多步預測的步數(shù),Ah表示由t時刻轉移到t+h時刻的狀態(tài)轉移概率矩陣,即t時刻的狀態(tài)為qt=si轉移到t+h時刻qt+h=sj的概率為Ah(i,j),A表示單步轉移概率矩陣,E(bj(vk))為對概率分布為bj(vk)的期望值,bj(vk)是在第j個狀態(tài)sj下,第k個預測樣本觀測序列vk的觀測概率密度。
本實施例中,bj(vk)與觀測概率密度B之間的關系為:
其中,N表示預測樣本的數(shù)目。
本實施例中,如圖7所示,若未給定預測樣本觀測序列,則根據(jù)得到的FCM-HMM聚類結果,對每個樣本標注類標號,計算時間序列樣本類之間的轉移概率,即得到時間序列的狀態(tài)轉移概率矩陣;同時根據(jù)得到的FCM-HMM聚類結果,設定每個類所對應的混合高斯數(shù)為kk,對每一類建立kk個混合高斯分布模型,求出觀測序列服從概率分布bj(vk),一般將kk的值設定為與隱狀態(tài)的數(shù)值一致;樣本的狀態(tài)轉移服從單步轉移概率矩陣為A的馬爾科夫過程,顯然由t時刻轉移到t+h時刻的狀態(tài)轉移矩陣為即t時刻的狀態(tài)為qt=si轉移到t+h時刻qt+h=sj的概率為Ah(i,j),根據(jù)Ah(i,j)和bj(vk)建立多步預測模型,根據(jù)建立的多步預測模型,得到h步預測值Ot+h,其中,所述h步預測值Ot+h表示為:
其中,N為狀態(tài)數(shù),h為多步預測的步數(shù),E(bj(vk))為對概率分布的bj(vk)的期望值,樣本的狀態(tài)轉移服從單步轉移概率矩陣為A的馬爾科夫過程,顯然由t時刻轉移到t+h時刻的轉移矩陣為即t時刻的狀態(tài)為qt=si轉移到t+h時刻qt+h=sj的概率為Ah(i,j)。
本實施例中,在未給定預測樣本觀測序列的情況下,建立多步預測模型。根據(jù)相關性分析中的自相關系數(shù)和偏自相關系數(shù),得到了如圖8(a)、圖8(b)的結果。由圖8(a)、圖8(b)可以看出在滯后第9步時有一定的截尾性,所以取前8步為選定的步長值。接著,根據(jù)得到的FCM-HMM聚類結果,計算出狀態(tài)轉移概率A和觀測概率bj(vk),計算得到的A的狀態(tài)轉移概率圖,如圖9所示,空氣污染處于狀態(tài)1的時候,PM2.5的狀態(tài)最有可能由自身狀態(tài)轉入自身狀態(tài),不需要采取過多的治理措施,空氣污染會維持在自身水平,當空氣污染處于狀態(tài)2的時候,采取相關措施來治理空氣污染,空氣污染維持在自身水平的概率要大于空氣轉好的概率。從該模型可以很清楚的看出空氣污染狀態(tài)演化的規(guī)律。觀測概率密度是由每一類的混合成分的均值、方差計算得到的,由于結果較多,不在此進行列舉。根據(jù)以上參數(shù)得到的多步預測結果如圖10所示。
綜上所述,本發(fā)明提供的預測空氣質量的方法,針對HMM模型的輸入觀測序列為互不相關的多維序列的要求,首先利用Person相關系數(shù)對所述觀測序列的相關性進行分析,并進一步采用主成分分分析對氣象變量進行約簡,得到互不相關的多個主要影響因素,從而建立適合HMM模型的多維觀測序列。其次,利用自動確定聚類數(shù)的模糊C均值聚類(FCM)算法對觀測序列進行初始聚類。然后對每一類建立HMM,并采用自動確定聚類數(shù)的FCM算法來確定HMM模型的隱狀態(tài)數(shù)。在此基礎上,計算每一個樣本輸出的對數(shù)似然值,更新原有樣本的聚類,定性的表達空氣質量樣本數(shù)據(jù)的演化規(guī)律。最后針對HMM模型只能識別出樣本的狀態(tài)值的問題,提出了模糊推理多模型和多步預測模型,實現(xiàn)狀態(tài)值到預測值的轉換。一種是給定預測樣本觀測序列的情況下,建立基于FCM-HMM的模糊推理多模型,對每一類提取模糊規(guī)則,建立多個模糊推理規(guī)則,得到空氣質量樣本的趨勢變化。另一種是在未給定預測樣本觀測序列的情況下,建立基于FCM-HMM的多步預測模型,對未來一段時間的空氣質量的值進行預測。
以上所述是本發(fā)明的優(yōu)選實施方式,應當指出,對于本技術領域的普通技術人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進和潤飾,這些改進和潤飾也應視為本發(fā)明的保護范圍。