本發(fā)明涉及地面觀測站采集數(shù)據(jù)的質(zhì)量控制領(lǐng)域,特別是針對溫度數(shù)據(jù)的質(zhì)量控制方法。
背景技術(shù):
中國自1951年以來就有近1800個氣象站,氣象數(shù)據(jù)的積累豐富,然而這些氣象數(shù)據(jù)中可能存在一些觀測、錄入和傳輸?shù)儒e誤,這些錯誤降低了氣象站觀測數(shù)據(jù)的質(zhì)量,對氣象的研究產(chǎn)生了阻力,因此對氣象數(shù)據(jù)的質(zhì)量控制成為了氣象數(shù)據(jù)應(yīng)用中不可或缺的環(huán)節(jié)。
地面氣象站觀測數(shù)據(jù)質(zhì)量控制一般分為兩類,一類是單站質(zhì)量控制方法,主要包括極值檢查、氣候極值檢查、內(nèi)部一致性檢查、時間一致性檢查;另一類是多站聯(lián)網(wǎng)質(zhì)量控制方法,目前國內(nèi)外已經(jīng)提出了很多質(zhì)量控制的方法,例如數(shù)值預(yù)報模式插值方法、反距離加權(quán)發(fā)和空間回歸檢測方法等等。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于克服以上技術(shù)不足之處,針對多站質(zhì)量控制的不足提出一種基地面氣溫數(shù)據(jù)質(zhì)量控制方法,解決了目前多站聯(lián)網(wǎng)質(zhì)量控制方法不穩(wěn)定、準確度不高的問題,具體由以下的方案實現(xiàn):
所述地面氣象觀測站觀測的氣溫數(shù)據(jù)質(zhì)量控制方法,包括以下步驟:
步驟1.采集采樣時間T內(nèi)的目標地面氣象觀測站溫度數(shù)據(jù)X0(t),t=1,2,3,…,T,其中t為采樣時間;
步驟2.采集采樣時間T內(nèi)的鄰近地面氣象觀測站溫度數(shù)據(jù)Xi(t),i=1,2,3,…,n,其中n為鄰近站的個數(shù);
步驟3.對采集到的數(shù)據(jù)進行基本質(zhì)量控制,得到新的數(shù)據(jù)集x0(t)和xi(t),將樣本按時間序列以9:1的比例分為訓(xùn)練集和測試集;
步驟4.使用隨機森林方法對訓(xùn)練集數(shù)據(jù)進行建模,利用Bagging方法進行采樣,樣本數(shù)足夠大時約有37%的數(shù)據(jù)沒有抽取到,稱為袋外數(shù)據(jù)(OOB),利用袋外誤差(OOB error)測試模型的泛化能力,假設(shè)袋外數(shù)據(jù)總數(shù)為a,用這a個數(shù)據(jù)作為輸入,帶入分類器得到分類結(jié)果,與正確的分類情況進行比較統(tǒng)計錯誤數(shù)據(jù)大小為b,則袋外誤差為OOBerror=b/a,隨機對袋外數(shù)據(jù)所有樣本特征加入噪聲干擾,在此計算袋外誤差得OOBerror2,則某特征m1的重要性為n為樹個數(shù),利用遺傳算法尋找重 要性較高的特征,即鄰近站點,選擇重要性較高的站點建立隨機森林質(zhì)量控制模型;
步驟5.將測試集中的鄰近站點數(shù)據(jù)作為樣本集,利用步驟6建立的隨機森林模型進行回歸預(yù)測,得到目標站的預(yù)測值;
步驟6.將預(yù)測值與實際觀測值進行比較,通過均方根誤差和平均絕對誤差 評價模型,其中yobs為目標站實際觀測值,yest是模型預(yù)測值。
其中,步驟3中所述基本質(zhì)量控制方法包括格式檢查、極值檢查、氣候極值檢查、內(nèi)部一致性檢查、時間一致性檢查、空間一致性檢查。
其中,步驟4中的遺傳算法尋優(yōu)過程為pc=f(xi)/∑f(xi),其中pc是某臺站被選擇的概率,xi為第i個臺站,f(xi)為第i個臺站的適應(yīng)度函數(shù)值,即變量重要性值,∑f(xi)為所有臺站適應(yīng)度函數(shù)值之和。
其中,步驟8中所述檢錯方法公式為:|yobs-yest|≤f·δ,f是質(zhì)量控制參數(shù)設(shè)置為3,δ是目標站觀測值與預(yù)測值之間的標準誤差,如果滿足公式的條件,就判斷該數(shù)值正確,如果不滿足公式的條件,則將該數(shù)據(jù)記為存疑數(shù)據(jù),通過這樣的方法來實現(xiàn)對數(shù)據(jù)的質(zhì)量控制。
有益效果
本發(fā)明的一種地面氣溫數(shù)據(jù)質(zhì)量控制方法,通過周圍鄰近站點的氣溫觀測數(shù)據(jù),利用優(yōu)化后的隨機森林方法構(gòu)建基于鄰近站點氣溫觀測數(shù)據(jù)的氣溫數(shù)據(jù)質(zhì)量控制模型,提出了一種新的多站聯(lián)網(wǎng)質(zhì)量控制方法,模型搭建速度快,泛化能力強,能夠有效的提高地面觀測數(shù)據(jù)的準確性。
附圖說明
圖1是本發(fā)明方法的流程圖。
圖2是本發(fā)明方法2005年重要性與臺站排序圖。
圖3是本發(fā)明方法與反距離加權(quán)和空間回歸檢驗方法的MAE、RMSE效果對比圖。
圖4是本發(fā)明方法與反距離加權(quán)和空間回歸檢驗方法月02:00時均溫實際觀測值與預(yù)測值對比圖。
具體實施方式
下面結(jié)合附圖就實施例對本發(fā)明進行進一步說明。
本實施例的地面氣溫數(shù)據(jù)質(zhì)量控制方法,如圖1所示將福建站及周圍的71個站點2005年到2014年逐日02:00時氣溫數(shù)據(jù)進行實施例分析,進一步說明本發(fā)明:
步驟1.采集采樣時間T內(nèi)的目標地面氣象觀測站溫度數(shù)據(jù)X0(t),t=1,2,3,…,T,其中t為采樣時間,本實施例中T=3654為樣本數(shù);
步驟2.采集采樣時間T內(nèi)的71個鄰近地面氣象觀測站溫度數(shù)據(jù)Xi(t),i=1,2,3,…,n,其中n為鄰近站的個數(shù),在本實施例中n=71;
步驟3.對采集到的數(shù)據(jù)X0(t)和Xi(t)進行基本質(zhì)量控制,得到新的數(shù)據(jù)集x0(t)和xi(t),取樣本中1-3289行的數(shù)據(jù)作為訓(xùn)練集,3290-3654行的數(shù)據(jù)作為測試集;
步驟4.使用隨機森林方法對訓(xùn)練集數(shù)據(jù)進行建模,利用Bagging方法進行采樣,樣本數(shù)足夠大時約有37%的數(shù)據(jù)沒有抽取到,稱為袋外數(shù)據(jù)(OOB),利用袋外誤差(OOB error)測試模型的泛化能力,假設(shè)袋外數(shù)據(jù)總數(shù)為a,用這a個數(shù)據(jù)作為輸入,帶入分類器得到分類結(jié)果,與正確的分類情況進行比較統(tǒng)計錯誤數(shù)據(jù)大小為b,則袋外誤差為OOBerror=b/a,隨機對袋外數(shù)據(jù)所有樣本特征加入噪聲干擾,在此計算袋外誤差得OOBerror2,則某特征m1的重要性為n為樹個數(shù),本實施例中為500,利用遺傳算法尋找重要性較高的特征,即鄰近站點,選擇重要性較高的站點建立隨機森林質(zhì)量控制模型,將2005-2013年每年數(shù)據(jù)進行建模得到密云站鄰近站點每年重要性數(shù)據(jù),綜合比較每年數(shù)據(jù)得出結(jié)果,圖2為2005年臺站重要性情況,一共運行了9年重要性數(shù)據(jù)進行GA優(yōu)化,本實施例中選取重要性前20的站點進行隨機森林質(zhì)量控制模型建模;
步驟5.將測試集中的鄰近站點數(shù)據(jù)作為樣本集,利用步驟6建立的隨機森林模型進行回歸預(yù)測,得到目標站的預(yù)測值;
步驟6.將預(yù)測值與實際觀測值進行比較,通過均方根誤差(RMSE)和平均絕對誤差(MAE)比較隨機森林質(zhì)量控制效果,在實施例中MAE為0.341,RMSE為0.882。
為了分析本方法的優(yōu)點,將同樣的數(shù)據(jù)應(yīng)用與反距離加權(quán)方法和空間回歸檢驗方法中,并進行對比,如表1所示,本方法得到的平均絕對誤差(MAE)和均方根誤差(RMSE)明顯要優(yōu)于另外兩種方法。
表1本發(fā)明方法綜合9年臺站重要性數(shù)據(jù)GA后得到的前20個重要性較高的臺站
本實施例通過周圍鄰近站點氣溫觀測數(shù)據(jù),利用優(yōu)化后的隨機森林方法構(gòu)建基于鄰近站點氣溫觀測數(shù)據(jù)的氣溫數(shù)據(jù)質(zhì)量控制模型,提出了一種新的多站聯(lián)網(wǎng)質(zhì)量控制方法,模型搭建速度快,泛化能力強,能夠有效的提高地面觀測數(shù)據(jù)的準確性,選擇重要性較高的20個站點也減少了以后進行氣象數(shù)據(jù)質(zhì)量控制的時間。通過圖3與圖4的對比分析驗證本發(fā)明方法質(zhì)量控制效果明顯。