本申請涉及數(shù)據(jù)分析領域,具體涉及一種用于估計時空數(shù)據(jù)的設備和方法。
背景技術:
大氣等污染受擴散條件、地理環(huán)境等因素影響,其成因復雜多樣。然而,基于移動監(jiān)測設備的數(shù)據(jù)采集無法覆蓋所有的時間空間。因此,如何對缺失記錄進行補全并使之用于更準確的污染濃度預測和原因追溯,成為了一個主要問題。
現(xiàn)有的時空數(shù)據(jù)插值方法基于不同數(shù)學模型,并且通常結合時序列分析方法和空間插值算法。例如,參考文獻1(cn104680021a)提出了一種融合時空信息的氣溫缺失記錄重建(即插值)方法,該方法在數(shù)據(jù)建模中考慮了氣溫的時空分布特性。其主要步驟包括:
-對氣溫時序列數(shù)據(jù)進行預處理,缺失值采用特定的符號表示;
-計算未缺失氣溫記錄的殘差,并采用克里金(kriging)方法進行空間插值,估計缺失記錄的殘差項;
-對氣溫時間序列進行時序列插值,以估計缺失記錄的氣溫趨勢項;
-綜合缺失記錄的氣溫殘差項和氣溫趨勢項,實現(xiàn)缺失氣溫記錄的重建。
然而,上述方案的計算負荷較大。同時,當缺失數(shù)據(jù)在時空上呈散在特性(即時間上非連續(xù),空間上不相鄰)的數(shù)據(jù)較多時,上述方案的計算準確度較低。
技術實現(xiàn)要素:
本發(fā)明提出了一種基于時空動態(tài)性特征分析來估計缺失數(shù)據(jù)的方法。時空動態(tài)性是指,例如某個觀測點的監(jiān)測值的變化與它周圍點(空間上)在臨近時刻(時間上)監(jiān)測值的變化之間的關聯(lián)性。本發(fā)明的主要思想在于:通過計算在時間和空間鄰域互相影響的條件下,數(shù)據(jù)監(jiān)測點間的監(jiān)測值的變化概率來估算缺失數(shù)據(jù)。
具體地,根據(jù)本發(fā)明的一個方面,提供了一種用于估計時空數(shù)據(jù)的設備,包括:預處理單元,被配置為將時空數(shù)據(jù)進行排序并劃分為若干級別,計算各個級別中每一個級別上的數(shù)據(jù)的均值;概率計算單元,被配置為基于劃分級別后的數(shù)據(jù)來計算各個級別之間的時空變化概率;以及估計單元,被配置為基于所述均值和所述時空變化概率來估計時空數(shù)據(jù)。
在一個實施例中,預處理單元被配置為:計算所有時空數(shù)據(jù)的平均值;將各個時空數(shù)據(jù)除以所述平均值,以獲得標準化的時空數(shù)據(jù);以及對標準化的時空數(shù)據(jù)進行排序并劃分為若干級別,使得各個級別的數(shù)據(jù)的數(shù)量基本相同。
在一個實施例中,概率計算單元被配置為:計算時空數(shù)據(jù)的空間權重矩陣;基于所述空間權重矩陣,計算空間延遲算子;以及基于空間延遲算子,計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。
在一個實施例中,概率計算單元基于空間點的鄰接關系或距離來計算所述空間權重矩陣。
在一個實施例中,概率計算單元通過使用馬爾可夫鏈來計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。
根據(jù)本發(fā)明的另一個方面,提供了一種用于估計時空數(shù)據(jù)的方法,包括:將時空數(shù)據(jù)進行排序并劃分為若干級別,計算各個級別中每一個級別上的數(shù)據(jù)的均值;基于劃分級別后的數(shù)據(jù)來計算各個級別之間的時空變化概率;以及基于所述均值和所述時空變化概率來估計時空數(shù)據(jù)。
在一個實施例中,將時空數(shù)據(jù)進行排序并劃分為若干級別包括:計算所有時空數(shù)據(jù)的平均值;將各個時空數(shù)據(jù)除以所述平均值,以獲得標準化的時空數(shù)據(jù);以及對標準化的時空數(shù)據(jù)進行排序并劃分為若干級別,使得各個級別的數(shù)據(jù)的數(shù)量基本相同。
在一個實施例中,計算各個級別之間的時空變化概率包括:計算時空數(shù)據(jù)的空間權重矩陣;基于所述空間權重矩陣,計算空間延遲算子;以及基于空間延遲算子,計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。
在一個實施例中,基于空間點的鄰接關系或距離來計算所述空間權重矩陣。
在一個實施例中,通過使用馬爾可夫鏈來計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。
本發(fā)明考慮到時空數(shù)據(jù)之間的時空變化的關聯(lián)性,即使當缺失記錄在時空上呈散在特性(即時間上非連續(xù),空間上不相鄰)的缺失數(shù)據(jù)較多時,也能保證估算值的準確度。此外,本發(fā)明的技術方案的計算復雜度較低,更易于實現(xiàn)。
附圖說明
通過下文結合附圖的詳細描述,本發(fā)明的上述和其它特征將會變得更加明顯,其中:
圖1是示出了根據(jù)本發(fā)明一個實施例的用于估計時空數(shù)據(jù)的設備的框圖。
圖2-6是示出了根據(jù)本發(fā)明一個實施例的時空數(shù)據(jù)的估計示例的示意圖。
圖7是示出了根據(jù)本發(fā)明一個實施例的用于估計時空數(shù)據(jù)的方法的流程圖。
具體實施方式
下面,通過結合附圖對本發(fā)明的具體實施例的描述,本發(fā)明的原理和實現(xiàn)將會變得明顯。應當注意的是,本發(fā)明不應局限于下文所述的具體實施例。另外,為了簡便起見,省略了與本發(fā)明無關的公知技術的詳細描述。
圖1是示出了根據(jù)本發(fā)明一個實施例的用于對時空序列數(shù)據(jù)進行分類/預測的設備10的框圖。如圖1所示,設備10包括預處理單元110、概率計算單元120和估計單元130。
預處理單元110將時空數(shù)據(jù)進行排序并劃分為若干級別,計算各個級別中每一個級別上的數(shù)據(jù)的均值。在本申請中,時空數(shù)據(jù)是指同時具有時間和空間維度的數(shù)據(jù),例如大氣污染監(jiān)測數(shù)據(jù),交通流量數(shù)據(jù)等。
下面,結合圖2-4來描述預處理單元110的一個示例操作。在此示例中,預處理單元110計算圖2左半部分的所有時空數(shù)據(jù)的平均值,結果是100.1。然后,預處理單元110將各個時空數(shù)據(jù)除以所述平均值,以獲得標準化的時空數(shù)據(jù),如圖2右半部分所示。
之后,預處理單元110對標準化的時空數(shù)據(jù)進行排序并劃分為若干級別。優(yōu)選地,預處理單元110對標準化的數(shù)據(jù)進行分位處理,使得每個分位(下文也稱為“級別”)的數(shù)據(jù)量相同,以保證概率計算的準確性(下文詳述)。例如,預處理單元110可以把數(shù)據(jù)進行五分位(即,把所有數(shù)據(jù)值由小到大排列,并分成五等份,處于四個分割點位置的數(shù)值就是五分位數(shù)),如圖3所示。
進一步地,預處理單元110計算各分位(級別)的均值,即落在不同分位(級別)間所有數(shù)據(jù)實際值的均值,如圖4所示。
回到圖1,概率計算單元120基于劃分級別后的數(shù)據(jù)來計算各個級別之間的時空變化概率。在一個實施例中,概率計算單元120的具體操作如下。
首先,概率計算單元120計算時空數(shù)據(jù)的空間權重矩陣w。該空間權重矩陣w可以表示如下:
其中,空間權重ω可以基于鄰接關系或者距離來計算。
然后,概率計算單元120基于空間權重矩陣w計算空間延遲算子(
接下來,概率計算單元120基于空間延遲算子,計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。作為示例,概率計算單元120構建馬爾可夫鏈,得到當目標點的空間鄰接點處于不同級別時該目標點的級別變化的概率。
其中,
表示空間鄰接點處于k級別時,目標點的級別的變化概率,其計算方式如下:
其中,
作為示例,圖5示出了監(jiān)測點的pm2.5濃度監(jiān)測數(shù)據(jù)之間的時空變化概率的計算結果。
回到圖1,估計單元130基于之前計算得到的均值和時空變化概率來估計(缺失的)時空數(shù)據(jù)。該估計結果取決于空間鄰接點的級別狀態(tài)及其所對應的變化概率。假設待估算的缺失值為uvalue,i為待估算點前一臨近時刻的級別,估計單元130可以采用以下公式來進行估計:
其中,
xj表示j分位(級別)上的所有數(shù)據(jù)的實際值的均值。
圖6示出了估計缺失值的一個示意圖。如圖6所示,目標點u的前一臨近時刻(t-1)的級別為i=4,與其空間一階相鄰的觀測點的級別分別為5,4,4,3。從圖5的計算結果中,可以查找到相應的概率如下:
那么,估計單元130可以根據(jù)以上公式(4),將該點在t時刻的缺失值uvalub估計為:
uvalue=[(0.03*23十0.09*65十0.25*109十0.51*168十0.13*302)*1
+(0.03*23+0.07*65+0.22*109+0.54*168+0.15*302)*2
+(0.04*23+0.09*65+0.16*109+0.45*168+0.26*302)*1]/4≈167
本發(fā)明的實施例通過考慮時空數(shù)據(jù)之間的時空變化的關聯(lián)性,能夠在時間上非連續(xù)、空間上不相鄰的缺失值較多時保證估算值的準確度。此外,本發(fā)明的實施例的計算復雜度較低,易于實現(xiàn)。
圖7是示出了根據(jù)本發(fā)明一個實施例的用于估計時空數(shù)據(jù)的方法的流程圖。如圖7所示,方法700在步驟s710處開始。
在步驟s720,將時空數(shù)據(jù)進行排序并劃分為若干級別,計算各個級別中每一個級別上的數(shù)據(jù)的均值。在本申請中,時空數(shù)據(jù)是指同時具有時間和空間維度的數(shù)據(jù),例如大氣污染監(jiān)測數(shù)據(jù),交通流量數(shù)據(jù)等。
優(yōu)選地,將時空數(shù)據(jù)進行排序并劃分為若干級別可以通過以下方式來實現(xiàn):計算所有時空數(shù)據(jù)的平均值;將各個時空數(shù)據(jù)除以所述平均值,以獲得標準化的時空數(shù)據(jù);以及對標準化的時空數(shù)據(jù)進行排序并劃分為若干級別,使得各個級別的數(shù)據(jù)的數(shù)量基本相同。
在步驟s730,基于劃分級別后的數(shù)據(jù)來計算各個級別之間的時空變化概率。優(yōu)選地,計算時空數(shù)據(jù)的空間權重矩陣?;谒隹臻g權重矩陣,計算空間延遲算子?;诳臻g延遲算子,計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。
優(yōu)選地,空間權重矩陣可以基于空間點的鄰接關系或距離來計算。優(yōu)選地,通過使用馬爾可夫鏈來計算當目標點的空間鄰接點處于不同級別狀態(tài)時該目標點的級別變化概率。例如,可以根據(jù)上述公式(1)-(3)來計算,此處不再贅言。
回到圖7,在步驟s1340,基于所述均值和所述時空變化概率來估計時空數(shù)據(jù)。例如,可以根據(jù)上述公式(4)來估計時空數(shù)據(jù),此處不再贅言。
最后,方法700在步驟s750處結束。
應該理解,本發(fā)明的上述實施例可以通過軟件、硬件或者軟件和硬件兩者的結合來實現(xiàn)。例如,上述實施例中的系統(tǒng)內的各種組件可以通過多種器件來實現(xiàn),這些器件包括但不限于:模擬電路、數(shù)字電路、通用處理器、數(shù)字信號處理(dsp)電路、可編程處理器、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)、可編程邏輯器件(cpld),等等。
另外,本領域的技術人員可以理解,本發(fā)明實施例中描述的初始參數(shù)可以存儲在本地數(shù)據(jù)庫中,也可以存儲在分布式數(shù)據(jù)庫中或者可以存儲在遠程數(shù)據(jù)庫中。
此外,這里所公開的本發(fā)明的實施例可以在計算機程序產品上實現(xiàn)。更具體地,該計算機程序產品是如下的一種產品:具有計算機可讀介質,計算機可讀介質上編碼有計算機程序邏輯,當在計算設備上執(zhí)行時,該計算機程序邏輯提供相關的操作以實現(xiàn)本發(fā)明的上述技術方案。當在計算系統(tǒng)的至少一個處理器上執(zhí)行時,計算機程序邏輯使得處理器執(zhí)行本發(fā)明實施例所述的操作(方法)。本發(fā)明的這種設置典型地提供為設置或編碼在例如光介質(例如cd-rom)、軟盤或硬盤等的計算機可讀介質上的軟件、代碼和/或其他數(shù)據(jù)結構、或者諸如一個或多個rom或ram或prom芯片上的固件或微代碼的其他介質、或一個或多個模塊中的可下載的軟件圖像、共享數(shù)據(jù)庫等。軟件或固件或這種配置可安裝在計算設備上,以使得計算設備中的一個或多個處理器執(zhí)行本發(fā)明實施例所描述的技術方案。
盡管以上已經結合本發(fā)明的優(yōu)選實施例示出了本發(fā)明,但是本領域的技術人員將會理解,在不脫離本發(fā)明的精神和范圍的情況下,可以對本發(fā)明進行各種修改、替換和改變。因此,本發(fā)明不應由上述實施例來限定,而應由所附權利要求及其等價物來限定。