本發(fā)明屬于氣象學的大數(shù)據(jù)應用領域,具體涉及一種針對不同地理位置的兩個地點,計算此兩地監(jiān)測指標在時空維度上延遲相關性的方法。
背景技術:
相關性分析方法是對兩個或兩個以上的變量進行一系列的統(tǒng)計分析,以考察變量之間所具有的線性關系。通俗地講,相關性分析的目的是探索當一個變量變化時,另一個變量如何變化,這種相互關系需要用相關性分析這樣的統(tǒng)計方法來進行定量的描述。在相關性的計算中,“相關系數(shù)r”則是兩個變量之間相關程度的定量指標。在分析過程中,不僅要考察相關程度的大小,還需要考慮數(shù)據(jù)之間相關的方向,即r存在正負值,正值代表正相關,負值則代表負相關,所以r的取值為-1到1,其絕對值越大代表相關程度越高。
在實際分析中,相關性的大小不能直接以“相關系數(shù)”下定論,即不能從相關系數(shù)r直接定論兩個變量的相關性,從而需要引進了“顯著性水平α”和假設檢驗中常用到的p值?!帮@著性水平α”是用于判斷被檢驗的統(tǒng)計量與假設之間是否差異明顯,確切地講,在相關性分析中,顯著性檢驗是指樣本的相關系數(shù)與總體相關系數(shù)的差異。而假設檢驗中的p值代表概率,反映著某一事件發(fā)生的可能性大小,在這里則代表“樣本間差異是由抽樣誤差導致的”這一事件的的概率。在實際操作中,一般認為顯著性水平α=0.05是統(tǒng)計學意義的邊界線,根據(jù)假設檢驗方法所得到的p值,通常認為如果p≤0.05,則說明相關系數(shù)r可以接受。值的指出的是,相關關系不能直接混淆為因果關系,如果兩個變量之間出現(xiàn)了很強的相關性且通過顯著性檢驗,也無法直接說明這兩個變量存在著因果的關系,而只能說明兩個變量之間存在較多的相同特征。
時間序列的延遲相關性分析是指,兩個序列在同一時間段內(nèi)的數(shù)據(jù)不具有最大的相關性,而在某一序列往后延遲多個時刻后,兩個序列重疊時間段內(nèi)的數(shù)據(jù)具有最大的相關性。隨著延遲數(shù)的增加,兩序列重疊時間段逐漸變短,若重疊時間段太短,則所計算出的相關性也沒有實際應用價值,所以,一般設置序列最大可延遲數(shù)為序列長度的一半。在實際生產(chǎn)中,延遲相關性被運用到了多種領域,例如氣象學分析,空氣質量分析以及金融市場分析等多方面,延遲相關性分析對實際生產(chǎn)生活起到了很優(yōu)秀的輔助決策作用。
空間延遲相關性分析是指針對不同的地理位置地點,它們的某些指標例如空氣質量,受到其他空間性因素例如風速的影響,從而使得這些地點的空氣質量在時間上呈現(xiàn)出某些延遲相關的特性。
對于兩個時間序列的延遲性分析,業(yè)界提出了多種科學的探測方法;然而對于不同時空下的多點空間延遲相關性分析,最主要面臨的問題是如何確定相關性計算的窗口,特別是在處理真實的時空數(shù)據(jù)時,時間和空間的特性都需要在分析過程中被考慮。
技術實現(xiàn)要素:
本發(fā)明針對上述問題,提出了一種針對氣象和監(jiān)測指標數(shù)據(jù)進行時空延遲相關性分析的方法。本方法不僅考慮了監(jiān)測指標時間序列數(shù)據(jù)在時間上的相關性特性,同時加入考慮了兩地在空間上的特性,從而確定了一種新穎的延遲相關性計算窗口的定義方法,然后再進一步進行延遲相關性分析。
在本發(fā)明中,監(jiān)測指標指各種在空間分布中的監(jiān)測站點所監(jiān)測的各種時序數(shù)據(jù),例如PM2.5,PM10,氮氧化物等。
具體來說,本發(fā)明采用的技術方案為:
一種基于氣象數(shù)據(jù)的監(jiān)測指標時空延遲相關性的計算方法,主要步驟包括:
1)采集各地的氣象數(shù)據(jù)和監(jiān)測指標數(shù)據(jù);
2)根據(jù)1)中采集的數(shù)據(jù),對數(shù)據(jù)進行預處理工作,剔除空數(shù)據(jù)和錯誤數(shù)據(jù),以及剔除所有沒有成對的監(jiān)測指標數(shù)據(jù)和氣象數(shù)據(jù)的時刻下的數(shù)據(jù);一般情況下,監(jiān)測指標數(shù)據(jù)與氣象數(shù)據(jù)在采集數(shù)據(jù)時,具有不同的時間間隔,如指標數(shù)據(jù)每隔一小時采集一次數(shù)據(jù),而氣象數(shù)據(jù)可能每隔兩個小時采集一次數(shù)據(jù),這樣情況下,需要將兩類數(shù)據(jù)對齊,即只取同一采集時刻具有監(jiān)測指標數(shù)據(jù)和氣象數(shù)據(jù)的采集數(shù)據(jù)。
3)確定一個將要分析的時間段T,其長度為t0;
4)確定兩個地點A和B,取出兩個地點在時間段T內(nèi)所對應的監(jiān)測指標數(shù)據(jù)X和Y以及氣象數(shù)據(jù)(如風速數(shù)據(jù));
5)第一個地點A的監(jiān)測指標數(shù)據(jù)X不變,第二個地點B的監(jiān)測指標數(shù)據(jù)Y向前多取t1個時刻的監(jiān)測指標數(shù)據(jù),t1的計算方法為A地氣象指標影響B(tài)的時間(如風速數(shù)據(jù),則t1為兩地距離除以B地當時風速),同時再向后多取t2個時刻的監(jiān)測指標數(shù)據(jù),t2的計算方法為A地被B地氣象指標影響的時間(如風速數(shù)據(jù),則t2為兩地距離除以A地當時風速);
6)此時,計算所取的B點監(jiān)測指標數(shù)據(jù)Y對應的時間長度為(t0+t1+t2),B點監(jiān)測指標數(shù)據(jù)Y從數(shù)據(jù)起始,以一個時刻為單位向后依此進行窗口移動,總計移動d個時刻,d取值范圍為[0,t1+t2]。為保證A、B兩組數(shù)據(jù)在計算時具有相同數(shù)目的時序數(shù)據(jù)值,A、B兩點在一次計算時時間范圍(窗口長度)一直為檢測指標數(shù)據(jù)X的長度t0;
7)在6)每次窗口移動時,計算Y移動后窗口內(nèi)的數(shù)據(jù)與未移動的X數(shù)據(jù)之間的延遲相關性,相關性計算采用皮爾森相關系數(shù)計算方法,取循環(huán)移動后相關系數(shù)最大值和對應的移動數(shù)值dmax作為兩地的監(jiān)測指標的延遲相關性。在該步驟中,窗口是指計算時所取的時間范圍t0,窗口滑動,是指起始時刻從數(shù)據(jù)起始,到(t1+t2),窗口每次向后進行一個時刻的移動。
8)根據(jù)t1-dmax的值確定A、B兩地之間的影響關系。正值的t1-dmax代表A地在延遲|t1-dmax|個時刻后與B地相關,負值的t1-dmax代表B地在延遲|t1-dmax|個時刻后與A地相關。
與現(xiàn)有方法相比,本發(fā)明的積極效果為:
現(xiàn)有的方法在計算延遲相關性時,沒有考慮監(jiān)測指標數(shù)據(jù)的空間特性,本方法擴展了相關性分析方法到真實時空數(shù)據(jù)的處理,加入考慮了數(shù)據(jù)的空間特性,即將兩地之間互相影響的時間,做為計算窗口滑動的范圍。同時,現(xiàn)有的方法在計算延遲相關性時,只計算重疊時間段內(nèi)數(shù)據(jù)的相關性,重疊時間段內(nèi)的數(shù)據(jù)數(shù)量隨著延遲移動逐漸減小,當數(shù)據(jù)量較小時計算出的相關性沒有實際意義,然而本方法每次計算的時間窗口的大小不變,一直為原始時間段長度,從而計算出的相關性更準確,多個相關性數(shù)值之間更具有可比較性(原因:并非只計算重疊時間段,而是每次窗口滑動時,均計算相同時間長度的相關性)。此外,普通延遲相關性計算方法,只可單向計算兩地的延遲相關關系,然而本方向可以雙向計算出兩地的相關關系,即,可以通過最優(yōu)相關系數(shù)對應的窗口移動的時刻數(shù)d,來確定是A地延遲于B地還是B地延遲于A地。
附圖說明
圖1是本發(fā)明方法流程圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯和清晰,下面給出實施例,對本發(fā)明做進一步說明。在本實施中,我們選擇風速作為氣象數(shù)據(jù),選擇空氣質量作為監(jiān)測指標數(shù)據(jù)。
首先采集數(shù)據(jù)各地的氣象小時數(shù)據(jù)和空氣質量的小時數(shù)據(jù),數(shù)據(jù)格式(示例,真實數(shù)據(jù)可能與該格式不同,但都具有時間點及對應的檢測數(shù)值)分別如下所示。
同時采集發(fā)布數(shù)據(jù)的氣象觀測站和空氣質量觀測站的地理坐標(經(jīng)緯度),(示例,真實數(shù)據(jù)可能與該格式不同,但都具有站點標識及對應的地理位置)數(shù)據(jù)格式分別如下所示;
所有數(shù)據(jù)以bson數(shù)據(jù)形式存儲在MongoDB數(shù)據(jù)庫中,本發(fā)明的處理流程如圖1所示。
對數(shù)據(jù)進行預處理和清洗工作。由于在之后計算時需要同一時刻同時存在氣象數(shù)據(jù)和空氣質量數(shù)據(jù),所以需要清除掉同一時刻下氣象數(shù)據(jù)不存在的空氣質量數(shù)據(jù),以及同一時刻下空氣質量數(shù)據(jù)不存在的氣象數(shù)據(jù)。并且,還需要清除掉空數(shù)據(jù)以及錯誤由于觀測站設備原因發(fā)布的錯誤數(shù)據(jù)。
數(shù)據(jù)清洗完畢后,選定兩個地點A和B,以及確定一個需要分析的時間段T,分別取出A和B兩地在此時間段內(nèi)的空氣質量PM2.5小時數(shù)據(jù),形成兩個時間序列X和Y。
本方法特別加入考慮了空氣質量數(shù)據(jù)在空間上的傳播特性,所以引入了氣象數(shù)據(jù)(風速)對空氣質量的時空特性進行研究。首先設置A地的空氣質量數(shù)據(jù)X不變,而對在B地的Y序列,在其前部額外多取T開始時刻前的t1個時刻數(shù)據(jù),t1的計算方式為A、B兩點的直線距離除以B地在T開始時刻全天的平均風速,數(shù)學表示如下:
同時,在Y序列的后部額外多取T結束時刻后的t2個數(shù)據(jù),t2的計算方式為A、B兩點直線距離除以A地在T結束時刻全天的平均風速,數(shù)學表示如下:
此時,Y序列的長度比X序列多出的時刻數(shù)據(jù)個數(shù)為:
t=t1+t2
一般地,對于計算兩個普通序列的相關系數(shù),最常采用的是“皮爾森相關系數(shù)”計算方法,也被稱作“皮爾森積差相關系數(shù)”,其定義如下:
其中rXY的取值范圍是-1到1,正負號代表相關的方向是正相關或負相關,其絕對值越大代表相關程度越高,和分別代表序列X和Y的平均值,xi和yi分別為X和Y中第i個值。兩個時序數(shù)據(jù)的延遲相關性計算的一般思路為,一個序列依次后移,計算兩個序列重疊部分的數(shù)據(jù)的相關性,定義如下:
其中d為Y序列往后移動的時間間隔數(shù),其取值范圍業(yè)界一般規(guī)定其最大值為序列長度的一半,而Nd為移動后X和Y兩序列的公共部分長度;此種針對普通時序數(shù)據(jù)的延遲相關性計算方法。然而普通的延遲相關性計算方法并不適用于真實時空數(shù)據(jù)的延遲相關性計算,而本方法特別考慮了空氣質量數(shù)據(jù)在空間上的特性,空間特性由氣象數(shù)據(jù)中的風速和地理距離給出。本方法主要思想為:首先通過風速和兩地距離計算出Y序列額外需要向前多取的時刻數(shù)t1和向后多取的時刻數(shù)t2,分別取出這些時刻對應的監(jiān)測指標數(shù)據(jù)并添加在Y中,之后再對X和Y兩個時間序列數(shù)據(jù)進行“延遲相關性”計算,計算方法為:設置Y上的窗口大小等于X的長度,將Y的窗口向后移動d個時間間隔數(shù),即Y往后延遲一定的時間間隔數(shù)d后,從Y延遲后的起始點開始,依次取出與X等長的數(shù)據(jù),即取出了Y的窗口內(nèi)的所有數(shù)據(jù),然后再計算兩個序列的相關系數(shù)。本方法的數(shù)學定義如下:
其中NX為X序列的長度,d為Y序列往后移動的時間間隔數(shù),取值范圍為[0,t],xi為X中第i個值,yi+d為Y中的第i+d個值(即在窗口移動d個時間間隔數(shù)后,Y在窗口內(nèi)的第i個值)。在計算完畢所有d值對應的延遲相關性后,將rXY(d)最大值記錄,其所對應的d記作dmax,分別作為A、B兩地間的最優(yōu)相關系數(shù)和最優(yōu)延遲數(shù)。在本方法中,根據(jù)t1-dmax的值可確定A、B兩地之間的影響關系。正值的t1-dmax代表A地在延遲|t1-dmax|個時刻后與B地相關,負值的t1-dmax代表B地在延遲|t1-dmax|個時刻后與A地相關。
下面給出一個具體的算例:
1)選取兩個地點A(位于石家莊市)和B(位于北京市),兩地點對應的空氣質量觀測站點的信息如下:
2)選擇要分析的時間段T為:2015年6月1日00:00點至2015年6月3日00:00點,數(shù)據(jù)以小時為時間間隔,T的長度為t0=48;
3)從數(shù)據(jù)庫中取出A和B兩地在時間段T內(nèi)的空氣質量數(shù)據(jù)集X和Y(以PM2.5數(shù)值為例),分別為:
X:{130 146 137 122 122 81 90 90 90 99 117 116 134 134 161 136 149 90 76 53 55 61 68 79 63 62 59 57 52 42 33 31 23 27 30 29 31 32 35 39 40 44 56 81 81 69 74 56},
Y:{88 68 90 93 93 123 119 119 86 84 45 25 59 59 102 141 153 73 53 84 74 76 58 3 3 9 7 3 3 6 4 5 3 6 3 9 5 14 158 36 39 34 32 30 34 28 30};
4)查詢位于B地的氣象觀測站發(fā)布的2015年6月1日00:00點的氣象數(shù)據(jù)(以風速為例),此時B地風速為8.43km/h;查詢A地的氣象觀測站2015年6月3日00:00點的氣象數(shù)據(jù)(以風速為例),此時A地風速為9.89km/h;
5)根據(jù)A、B兩地經(jīng)緯度計算得到兩地空間距離為253.90km,可以計算出Y需要向前多取t1=253.90/8.43≈30個時刻的空氣質量數(shù)據(jù),以及Y需要向后多取t2=253.90/9.89≈26個時刻的空氣質量數(shù)據(jù)。取出這些數(shù)據(jù)后,Y一共含有104個數(shù)據(jù),此時Y變成了:
Y:{60 67 72 72 44 46 47 59 62 57 57 45 42 41 44 44 53 54 54 59 52 53 72 78 75 89 92 78 86 87 88 68 90 93 93 123 119 119 86 84 45 25 59 59 102 141 153 73 53 84 74 76 58 3 3 9 7 3 3 6 4 5 3 6 3 9 5 14 158 36 39 34 32 30 34 28 30 33 32 39 38 23 23 22 18 17 10 19 21 24 27 28 33 38 43 50 47 45 43 40 48 46 44};
6)設置Y上的窗口長度等于X的長度48,將窗口依次向后移動d個時間間隔,并根據(jù)本發(fā)明提出的延遲相關性計算公式計算此時Y窗口中的數(shù)據(jù)和X的數(shù)據(jù)的時序相關性rXY(d),d的取值范圍為[0,30+26]即[0,56]。
7)根據(jù)6)可以分別計算得到57個相關性數(shù)據(jù),記錄57個數(shù)據(jù)中的最優(yōu)延遲相關性結果為rXY(33)=0.785,則最優(yōu)延遲數(shù)為dmax=33。根據(jù)t1-dmax=30-33=-3可以得出結論:B地在延遲3個小時后與A地的空氣質量最相關。
在本方法中,克服了普通方法只能利用重疊時間段計算兩序列的延遲相關性,隨時延遲的依次增大,重疊時間段內(nèi)的數(shù)據(jù)量越來越小,當參與計算相關性的數(shù)據(jù)量過小的時候,容易導致所計算出的相關性不再具有實際意義。同時,本方法可以通過t1-dmax雙向判定兩地之間的空氣質量的延遲相關關系,而不再局限于被移動序列的選定。
以上實施例僅用以說明本發(fā)明的技術方案而非對其進行限制,本領域的普通技術人員可以對本發(fā)明的技術方案進行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本發(fā)明的保護范圍應以權利要求所述為準。