專利名稱:一種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種浮動(dòng)車數(shù)據(jù)處理方法,特別是關(guān)于ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法。
背景技術(shù):
浮動(dòng)車因其具有覆蓋范圍廣、采集數(shù)據(jù)精度高、實(shí)時(shí)性強(qiáng)等優(yōu)點(diǎn)在動(dòng)態(tài)交通數(shù)據(jù)的采集中得以廣泛應(yīng)用。但浮動(dòng)車的流動(dòng)性大,在非車流高峰時(shí)段不能覆蓋所有路段,并且由于無線通信數(shù)據(jù)傳輸會(huì)出現(xiàn)數(shù)據(jù)包丟失的現(xiàn)象,容易導(dǎo)致浮動(dòng)車采集數(shù)據(jù)發(fā)生錯(cuò)誤或
缺失,從而影響交通狀態(tài)測(cè)量的準(zhǔn)確性。有文獻(xiàn)指出目前浮動(dòng)車采集的交通數(shù)據(jù)50%左右都存在數(shù)據(jù)錯(cuò)誤或丟失的問題,而直接應(yīng)用這些質(zhì)量有問題的數(shù)據(jù)會(huì)給后續(xù)的交通辨識(shí)和交通控制帶來不穩(wěn)定的安全隱患。因此,為獲得精確的動(dòng)態(tài)交通數(shù)據(jù),浮動(dòng)車數(shù)據(jù)的清洗和修復(fù)顯得尤為重要。交通領(lǐng)域中,交通流數(shù)據(jù)一般包含車速、流量、占有率等信息。對(duì)交通流數(shù)據(jù)的清洗和修復(fù)通常是利用不同屬性之間的相關(guān)性對(duì)単一屬性缺失數(shù)據(jù)進(jìn)行有效補(bǔ)齊。但是浮動(dòng)車數(shù)據(jù)只包含車速信息,因此不能采用上述交通流機(jī)理檢測(cè)錯(cuò)誤數(shù)據(jù)。當(dāng)前對(duì)浮動(dòng)車數(shù)據(jù)的處理多采用線性插值法或歷史平均方法進(jìn)行修復(fù),修復(fù)精度較低。此外,也有方法提出結(jié)合線圈、攝像頭等傳感器數(shù)據(jù)來提高浮動(dòng)車數(shù)據(jù)質(zhì)量,但是由于目前傳感器不能覆蓋所有路段,因此這種方法需要增加大基礎(chǔ)設(shè)施的投入,成本較高。
發(fā)明內(nèi)容
針對(duì)上述問題,本發(fā)明的目的是提供一種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,該算法能夠在不増加浮動(dòng)車數(shù)量和額外處理設(shè)備的情況下,通過挖掘浮動(dòng)車的規(guī)律性車速信息,對(duì)浮動(dòng)車數(shù)據(jù)中的缺失數(shù)據(jù)、異常數(shù)據(jù)和噪聲數(shù)據(jù)進(jìn)行清洗修復(fù),從而提高浮動(dòng)車的數(shù)據(jù)質(zhì)量,為后續(xù)的交通規(guī)劃奠定基礎(chǔ)。為實(shí)現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其包括以下步驟I)將浮動(dòng)車采集的一路段若干天的數(shù)據(jù)合成一原始數(shù)據(jù)矩陣,所述原始數(shù)據(jù)矩陣中日期相同、時(shí)刻不同的車速數(shù)據(jù)構(gòu)成日期向量,時(shí)刻相同、日期不同的車速數(shù)據(jù)構(gòu)成時(shí)刻
向量;2)以天為単位對(duì)步驟I)獲得的原始數(shù)據(jù)矩陣中的缺失數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行篩選2. I)為原始數(shù)據(jù)矩陣的每ー時(shí)刻向量設(shè)置ー置信區(qū)間;2. 2)對(duì)每一日期向量中的車速數(shù)據(jù)進(jìn)行辨識(shí)及過濾如果車速數(shù)據(jù)小于等于零,則作為缺失數(shù)據(jù)歸零;如果車速數(shù)據(jù)未在其所在時(shí)刻向量的置信區(qū)間內(nèi),則作為異常數(shù)據(jù);2. 3)檢驗(yàn)每一日期向量中缺失數(shù)據(jù)個(gè)數(shù),連續(xù)缺失數(shù)據(jù)個(gè)數(shù)和連續(xù)異常數(shù)據(jù)個(gè)數(shù)如果一日期向量中缺失數(shù)據(jù)個(gè)數(shù)大于預(yù)設(shè)的數(shù)據(jù)缺失閾值,或者連續(xù)缺失數(shù)據(jù)個(gè)數(shù)大于預(yù)設(shè)的數(shù)據(jù)連續(xù)缺失閾值,或者連續(xù)異常數(shù)據(jù)個(gè)數(shù)大于預(yù)設(shè)的數(shù)據(jù)連續(xù)異常閾值,則將整個(gè)日期向量刪除;所述連續(xù)缺失數(shù)據(jù)是指該缺失數(shù)據(jù)的前一時(shí)刻或后一時(shí)刻數(shù)據(jù)也缺失;所述連續(xù)異常數(shù)據(jù)是指該異常數(shù)據(jù)的前一時(shí)刻或后一時(shí)刻數(shù)據(jù)也異常;2. 4)經(jīng)過篩選后的原始數(shù)據(jù)矩陣成為異常數(shù)據(jù)矩陣;3)根據(jù)三西格瑪準(zhǔn)則對(duì)步驟2)獲得的異常數(shù)據(jù)矩陣中的異常數(shù)據(jù)進(jìn)行清洗3. I)對(duì)異常數(shù)據(jù)矩陣中的每ー時(shí)刻向量進(jìn)行正態(tài)分布檢驗(yàn)如果時(shí)刻向量呈非正態(tài)分布,則對(duì)其實(shí)施近似正態(tài)變換;3. 2)根據(jù)三西格瑪準(zhǔn)則求出每ー時(shí)刻向量的置信區(qū)間;3. 3)對(duì)每一日期向量中的每ー車速數(shù)據(jù)進(jìn)行辨識(shí)如果車速數(shù)據(jù)偏離其所在時(shí)刻向量的置信區(qū)間,則作為異常數(shù)據(jù)歸零;3. 4)經(jīng)過清洗后的異常數(shù)據(jù)矩陣成為缺失數(shù)據(jù)矩陣;4)對(duì)步驟3)獲得的缺失數(shù)據(jù)矩陣中的缺失數(shù)據(jù)進(jìn)行修復(fù)4. I)對(duì)缺失數(shù)據(jù)矩陣中的每個(gè)缺失數(shù)據(jù)進(jìn)行判斷如果缺失數(shù)據(jù)是孤立缺失數(shù)據(jù),用加權(quán)平均法修復(fù),進(jìn)入步驟4. 2);如果缺失數(shù)據(jù)是連續(xù)缺失數(shù)據(jù),用指數(shù)平滑法修復(fù),進(jìn)入步驟4. 3);4. 2)用路段的空間相似特性修復(fù)車速數(shù)據(jù),并將其與加權(quán)平均法的車速修復(fù)結(jié)果作加權(quán)平均,獲得的結(jié)果作為孤立缺失數(shù)據(jù)的最終修復(fù)值;4. 3)用路段的空間相似特性修復(fù)車速數(shù)據(jù),并將其與指數(shù)平滑法的車速修復(fù)結(jié)果作加權(quán)平均,獲得的結(jié)果作為連續(xù)缺失數(shù)據(jù)的最終修復(fù)值;4. 4)經(jīng)過修復(fù)后的缺失數(shù)據(jù)矩陣成為噪聲數(shù)據(jù)矩陣;5)用主成分重建方法對(duì)步驟4)獲得的噪聲數(shù)據(jù)矩陣中的噪聲數(shù)據(jù)進(jìn)行修復(fù)5. I)計(jì)算噪聲數(shù)據(jù)矩陣的主成分矩陣;5. 2)計(jì)算主成分累積貢獻(xiàn)率;5. 3)當(dāng)主成分累積貢獻(xiàn)率大于給定的貢獻(xiàn)率閾值時(shí),用主成分重建方法獲得浮動(dòng)車修復(fù)數(shù)據(jù)矩陣,結(jié)束。上述步驟2. I)中,姆ー時(shí)刻向量的置信區(qū)間的置信度設(shè)定為85%,相應(yīng)的,姆ー時(shí)亥IJ向量的置信區(qū)間為[ろ-1.44σ,,ろ+1.44σ,].ろ為時(shí)刻向量的平均值,σ彳為時(shí)刻向量的向
量標(biāo)準(zhǔn)差。上述步驟4. I)中,所述指數(shù)平滑法為二次指數(shù)平滑法。上述步驟3. I)中,對(duì)非正態(tài)分布的時(shí)刻向量實(shí)施如下的近似正態(tài)變換
,ド υxY] = \ Y
噸づ)7 = 0上式中,xi;j是近似正態(tài)變換前的矩陣元素,X1J為近似正態(tài)變換后的矩陣元素,Y為正態(tài)變換指數(shù)因子,Y通過求解下式I(Y)的最大值獲得,
/(r) = -^-ln^f (4y* -又f) )2) + ( r -1) In (xu ),是呈近似正態(tài)分布的時(shí)刻向量x/Y)的平均值,尤產(chǎn)1 ニ士寫_ユ。上述步驟5. 3)中,貢獻(xiàn)率閾值為95%。本發(fā)明由于采取上述技術(shù)方案,具有以下優(yōu)點(diǎn)1、本發(fā)明由于采用多閾值控制方法和基于正態(tài)變換的三西格瑪法則對(duì)浮動(dòng)車數(shù)據(jù)進(jìn)行清洗,因此能夠保證不剔除正常數(shù)據(jù)的情況下,對(duì)浮動(dòng)車數(shù)據(jù)中的異常數(shù)據(jù)進(jìn)行精確的辨識(shí)和過濾。2、本發(fā)明由于采用加權(quán)平均法和指數(shù)平滑法對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全,因此與現(xiàn)有技術(shù)中采用歷史平均和線性插值的傳統(tǒng)方法相比,可以利用時(shí)間序列的趨勢(shì)性,減少相鄰時(shí)刻的數(shù)據(jù)波動(dòng)對(duì)修復(fù)值的影響。3、本發(fā)明由于在加權(quán)平均法和指數(shù)平滑法的基礎(chǔ)上,還利用相鄰路段的空間拓?fù)涮匦?,通過相鄰路段的交通狀態(tài)相關(guān)性對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù),因此與現(xiàn)有技術(shù)相比,數(shù)據(jù)修復(fù)精度明顯
提高。4、本發(fā)明由于采用主成分重建方法修復(fù)浮動(dòng)車數(shù)據(jù)中的高頻噪聲,充分利用時(shí)間序列的規(guī)律性與趨勢(shì)性,挖掘浮動(dòng)車的規(guī)律性車速信息,從而在保持車速數(shù)據(jù)正常的瞬變特性的基礎(chǔ)上,獲得更加平滑、波動(dòng)更小的曲線,有效地提高了浮動(dòng)車的數(shù)據(jù)質(zhì)量。本發(fā)明可以用于浮動(dòng)車規(guī)律性數(shù)據(jù)的清洗和修復(fù)工作,為后續(xù)的交通規(guī)劃和交通辨識(shí)提供可靠的數(shù)據(jù)。
圖I是本發(fā)明的算法流程示意圖;圖2是本發(fā)明的數(shù)據(jù)初步篩選流程示意圖;圖3是本發(fā)明的異常數(shù)據(jù)清洗流程示意圖;圖4是本發(fā)明的缺失數(shù)據(jù)修復(fù)流程示意圖;圖5是本發(fā)明的噪聲數(shù)據(jù)修復(fù)流程示意圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)的描述。浮動(dòng)車以路段為單位進(jìn)行數(shù)據(jù)采集,每過一段時(shí)間間隔采集一個(gè)數(shù)據(jù)點(diǎn),一路段若干天的浮動(dòng)車數(shù)據(jù)可以合成一原始數(shù)據(jù)矩陣X
xU 氣 2 ■" X\,NY _ ズ2,1 ズ2,2 · · · X2,N。
_XM I Xu I …XM.N上式中,M為采集數(shù)據(jù)的天數(shù),N為每天的數(shù)據(jù)采集量;數(shù)據(jù)矩陣X的行向量XiOi,i,Xi,2,…,Xu,…,Xi, N>表示相同日期、不同時(shí)刻的車速數(shù)據(jù),簡(jiǎn)稱日期向量,列向量Xj.〈Xl,j, X2, j,…,Xij,···,%, j>表示相同時(shí)刻、不同日期的車速數(shù)據(jù),簡(jiǎn)稱時(shí)刻向量,其中i為日期序號(hào),j為時(shí)刻序號(hào),Xi, J為第i天j時(shí)刻的車速數(shù)據(jù)。本發(fā)明需要對(duì)數(shù)據(jù)矩陣中的每ー個(gè)元素進(jìn)行分析當(dāng)車速數(shù)據(jù)小于或等于零時(shí)為缺失數(shù)據(jù);當(dāng)ー缺失數(shù)據(jù)前ー時(shí)刻或后ー時(shí)刻數(shù)據(jù)也缺失時(shí),該缺失數(shù)據(jù)為連續(xù)缺失數(shù)據(jù);當(dāng)一車速數(shù)據(jù)嚴(yán)重偏離其分布的中心時(shí)為異常數(shù)據(jù);當(dāng)ー異常數(shù)據(jù)前ー時(shí)刻或后一時(shí)刻數(shù)據(jù)也異常時(shí),該異常數(shù)據(jù)為連續(xù)異常數(shù)據(jù)。其中,判斷車速數(shù)據(jù)是否為異常數(shù)據(jù)可以借助時(shí)刻向量的置信區(qū)間進(jìn)行。如圖I所示,本發(fā)明通過以下四個(gè)步驟,對(duì)浮動(dòng)車數(shù)據(jù)中的(連續(xù))缺失數(shù)據(jù)和(連續(xù))異常數(shù)據(jù)進(jìn)行清洗和修復(fù)I、數(shù)據(jù)初步篩選;2、根據(jù)三西格瑪法則清洗異常數(shù)據(jù);3、修復(fù)缺失數(shù)據(jù);4、用主成分重建方法修復(fù)噪聲數(shù)據(jù)。如圖2所示,浮動(dòng)車數(shù)據(jù)初步篩選流程是以天為單位對(duì)原始數(shù)據(jù)矩陣X中的缺失數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行篩選,具體包括以下步驟I)初始化原始數(shù)據(jù)矩陣每ー時(shí)刻向量的置信區(qū)間I. I)初始化時(shí)刻序號(hào)j=l ;I. 2)判斷j>N是否成立若成立,則進(jìn)入步驟2);否則進(jìn)入步驟I. 3);I. 3)求時(shí)刻向量Xj的平均值ぞ,向量標(biāo)準(zhǔn)差σゴ和置信度為ー給定值C的置信區(qū)間;其中,置信度C可以根據(jù)經(jīng)驗(yàn)設(shè)定為85%,相應(yīng)的,時(shí)刻向量的置信區(qū)間為[Χ,-l 44c ^.+1.44^]I. 4) j增加I返回步驟I. 2);2)對(duì)每一日期向量中的車速數(shù)據(jù)進(jìn)行辨識(shí)及過濾2. I)初始化日期序號(hào)i = 1,時(shí)刻序號(hào)j=l ;2. 2)判斷i > M是否成立若成立,則進(jìn)入步驟2. 14);否則進(jìn)入步驟2. 3);2. 3)判斷j>N是否成立若成立,則i增加1,j初始化為1,返回步驟2. 2);否則進(jìn)入步驟2. 4);2. 4)將記錄每天缺失數(shù)據(jù)個(gè)數(shù)的參數(shù)W、記錄每天連續(xù)缺失數(shù)據(jù)個(gè)數(shù)的參數(shù)V和記錄每天連續(xù)異常數(shù)據(jù)個(gè)數(shù)的參數(shù)V全部初始化為0,將異常數(shù)據(jù)序號(hào)d初始化為I ;2. 5)判斷χ^.〈0是否成立若成立,則Xy=0,Xi, j為缺失數(shù)據(jù),Ni増加1,進(jìn)入步驟2. 7);否則進(jìn)入步驟2. 6);2. 6)判斷Xy=O是否成立若成立,則Xy為缺失數(shù)據(jù),Ni増加1,進(jìn)入步驟2. 7);否則進(jìn)入步驟2. 8);2. 7)判斷Xi, η〈=0或Xi, j + !<=0是否成立,也即判斷Xi, j的前一時(shí)刻或后ー時(shí)刻的數(shù)據(jù)是否缺失若Xi,ー=0或Xi,j + !<=0,則Xi, j為連續(xù)缺失數(shù)據(jù),Ne和Ne均增加I,進(jìn)入步驟2. 10);否則V重置為0,進(jìn)入步驟2. 9),判斷Xy是否為連續(xù)異常數(shù)據(jù);2. 8)判斷Xi, j是否在時(shí)刻向量Xj的置信區(qū)間內(nèi)若Xi, j在時(shí)刻向量Xj的置信區(qū)間內(nèi),則Xi, j為正常數(shù)據(jù),Ne重置為0,進(jìn)入步驟
2.10);否則Xy為異常數(shù)據(jù),進(jìn)入步驟2. 9),判斷Xy是否為連續(xù)異常數(shù)據(jù);2. 9)判斷j-d = I是否成立若成立,則Xy為連續(xù)異常數(shù)據(jù),Ne増加1,更新d = j,進(jìn)入步驟2. 10);否則Ne重置為I,更新d = j,進(jìn)入步驟2. 10);2. 10)將Ni與一給定的數(shù)據(jù)缺失閾值Ni(t)比較若Ni > Niw,進(jìn)入步驟 2. 13);否則進(jìn)入步驟2. 11);2. 11)將Ne與ー給定的數(shù)據(jù)連續(xù)缺失閾值Ne(t)比較若Nc > Nc(t),進(jìn)入步驟 2. 13);否則進(jìn)入步驟2. 12);2. 12)將Ne與ー給定的數(shù)據(jù)連續(xù)異常閾值Ne(t)比較若Ne>Ne(t),進(jìn)入步驟 2. 13);否則j增加1,返回步驟2. 3);2. 13) i增加1,j重置為1,返回步驟2. 2);2. 14)結(jié)束數(shù)據(jù)初步篩選流程,原始數(shù)據(jù)矩陣X變?yōu)镸'行N列的異常數(shù)據(jù)矩陣V
Xl,I Xl,2 …Xl, jVγ, _ ろ,1 Χ2,2 · ·. 乂2'N
,A/’.I -vV 2 …XM\N進(jìn)入異常數(shù)據(jù)清洗流程。其中,由于有些天的數(shù)據(jù)因不符合要求被整體刪除,導(dǎo)致異常數(shù)據(jù)矩陣X'的行數(shù)可能小于原始數(shù)據(jù)矩陣的行數(shù),因此有M S M'。相應(yīng)的,日期向量Xi更新為〈Xia,Xi,2,…,xi,j,...,xi, N〉,時(shí)刻向里 Xj 更新為〈Xl, j,X2, j,...,Xi, j…,XM, , j〉。上述步驟2. 10) 2. 12)中,缺失數(shù)據(jù)閾值Ni(t)可以預(yù)設(shè)為O. IN,連續(xù)缺失數(shù)據(jù)閾值Ne(t)可以預(yù)設(shè)為O. 05N,連續(xù)異常數(shù)據(jù)閾值Ne(t)可以預(yù)設(shè)為O. 03N。如圖3所示,數(shù)據(jù)初步篩選完成后,浮動(dòng)車異常數(shù)據(jù)清洗流程首先對(duì)異常數(shù)據(jù)矩陣V中的每個(gè)時(shí)刻向量建立概率模型,對(duì)其中概率不符合正態(tài)分布的時(shí)刻向量進(jìn)行近似正態(tài)變換,然后根據(jù)三西格瑪過濾法則對(duì)異常數(shù)據(jù)矩陣V中的異常數(shù)據(jù)進(jìn)行進(jìn)ー步清洗,具體包括以下步驟I)初始化時(shí)刻序號(hào)j=l ;2)判斷j>N是否成立
若成立,則進(jìn)入步驟13);否則將正態(tài)分布標(biāo)志f初始化為0,進(jìn)入步驟3);3)判斷異常數(shù)據(jù)矩陣X'中時(shí)刻向量\是否符合正態(tài)分布若)^符合正態(tài)分布,f置為I,進(jìn)入步驟6);否則進(jìn)入步驟4);4)對(duì)時(shí)刻向量Xj實(shí)行近似正態(tài)變換,近似正態(tài)變換方法如下所示
權(quán)利要求
1.一種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其包括以下步驟 1)將浮動(dòng)車采集的一路段若干天的數(shù)據(jù)合成一原始數(shù)據(jù)矩陣,所述原始數(shù)據(jù)矩陣中日期相同、時(shí)刻不同的車速數(shù)據(jù)構(gòu)成日期向量,時(shí)刻相同、日期不同的車速數(shù)據(jù)構(gòu)成時(shí)刻向量; 2)以天為単位對(duì)步驟I)獲得的原始數(shù)據(jù)矩陣中的缺失數(shù)據(jù)和異常數(shù)據(jù)進(jìn)行篩選 2.I)為原始數(shù)據(jù)矩陣的每ー時(shí)刻向量設(shè)置ー置信區(qū)間; 2.2)對(duì)每一日期向量中的車速數(shù)據(jù)進(jìn)行辨識(shí)及過濾 如果車速數(shù)據(jù)小于等于零,則作為缺失數(shù)據(jù)歸零; 如果車速數(shù)據(jù)未在其所在時(shí)刻向量的置信區(qū)間內(nèi),則作為異常數(shù)據(jù); 2.3)檢驗(yàn)每一日期向量中缺失數(shù)據(jù)個(gè)數(shù),連續(xù)缺失數(shù)據(jù)個(gè)數(shù)和連續(xù)異常數(shù)據(jù)個(gè)數(shù)如果ー日期向量中缺失數(shù)據(jù)個(gè)數(shù)大于預(yù)設(shè)的數(shù)據(jù)缺失閾值,或者連續(xù)缺失數(shù)據(jù)個(gè)數(shù)大于預(yù)設(shè)的數(shù)據(jù)連續(xù)缺失閾值,或者連續(xù)異常數(shù)據(jù)個(gè)數(shù)大于預(yù)設(shè)的數(shù)據(jù)連續(xù)異常閾值,則將整個(gè)日期向量刪除; 所述連續(xù)缺失數(shù)據(jù)是指該缺失數(shù)據(jù)的前一時(shí)刻或后一時(shí)刻數(shù)據(jù)也缺失;所述連續(xù)異常數(shù)據(jù)是指該異常數(shù)據(jù)的前一時(shí)刻或后一時(shí)刻數(shù)據(jù)也異常; 2.4)經(jīng)過篩選后的原始數(shù)據(jù)矩陣成為異常數(shù)據(jù)矩陣; 3)根據(jù)三西格瑪準(zhǔn)則對(duì)步驟2)獲得的異常數(shù)據(jù)矩陣中的異常數(shù)據(jù)進(jìn)行清洗 3.I)對(duì)異常數(shù)據(jù)矩陣中的每ー時(shí)刻向量進(jìn)行正態(tài)分布檢驗(yàn) 如果時(shí)刻向量呈非正態(tài)分布,則對(duì)其實(shí)施近似正態(tài)變換; 3.2)根據(jù)三西格瑪準(zhǔn)則求出每ー時(shí)刻向量的置信區(qū)間; 3.3)對(duì)每一日期向量中的每ー車速數(shù)據(jù)進(jìn)行辨識(shí) 如果車速數(shù)據(jù)偏離其所在時(shí)刻向量的置信區(qū)間,則作為異常數(shù)據(jù)歸零; 3.4)經(jīng)過清洗后的異常數(shù)據(jù)矩陣成為缺失數(shù)據(jù)矩陣; 4)對(duì)步驟3)獲得的缺失數(shù)據(jù)矩陣中的缺失數(shù)據(jù)進(jìn)行修復(fù) 4.I)對(duì)缺失數(shù)據(jù)矩陣中的每個(gè)缺失數(shù)據(jù)進(jìn)行判斷 如果缺失數(shù)據(jù)是孤立缺失數(shù)據(jù),用加權(quán)平均法修復(fù),進(jìn)入步驟4. 2); 如果缺失數(shù)據(jù)是連續(xù)缺失數(shù)據(jù),用指數(shù)平滑法修復(fù),進(jìn)入步驟4. 3); 4.2)用路段的空間相似特性修復(fù)車速數(shù)據(jù),并將其與加權(quán)平均法的車速修復(fù)結(jié)果作加權(quán)平均,獲得的結(jié)果作為孤立缺失數(shù)據(jù)的最終修復(fù)值; 4.3)用路段的空間相似特性修復(fù)車速數(shù)據(jù),并將其與指數(shù)平滑法的車速修復(fù)結(jié)果作加權(quán)平均,獲得的結(jié)果作為連續(xù)缺失數(shù)據(jù)的最終修復(fù)值; 4.4)經(jīng)過修復(fù)后的缺失數(shù)據(jù)矩陣成為噪聲數(shù)據(jù)矩陣; 5)用主成分重建方法對(duì)步驟4)獲得的噪聲數(shù)據(jù)矩陣中的噪聲數(shù)據(jù)進(jìn)行修復(fù) 5.I)計(jì)算噪聲數(shù)據(jù)矩陣的主成分矩陣; 5.2)計(jì)算主成分累積貢獻(xiàn)率; 5.3)當(dāng)主成分累積貢獻(xiàn)率大于給定的貢獻(xiàn)率閾值時(shí),用主成分重建方法獲得浮動(dòng)車修復(fù)數(shù)據(jù)矩陣,結(jié)束。
2.如權(quán)利要求I所述的ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其特征在于所述步驟2. I)中,每ー時(shí)刻向量的置信區(qū)間的置信度設(shè)定為85%,相應(yīng)的,每ー時(shí)刻向量的置信區(qū)間為[1/-1爿「為時(shí)刻向量的平均值,為時(shí)刻向量的向量標(biāo)準(zhǔn)差。
3.如權(quán)利要求I所述的ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其特征在于,所述步驟4. I)中,所述指數(shù)平滑法為二次指數(shù)平滑法。
4.如權(quán)利要求2所述的ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其特征在于,所述步驟4. I)中,所述指數(shù)平滑法為二次指數(shù)平滑法。
5.如權(quán)利要求I或2或3或4所述的ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其特征在于,所述步驟3. I)中,對(duì)非正態(tài)分布的時(shí)刻向量實(shí)施如下的近似正態(tài)變換 上式中,Xu是近似正態(tài)變換前的矩陣元素,·^1為近似正態(tài)變換后的矩陣元素,Y為正態(tài)變換指數(shù)因子,Y通過求解下式I(Y)的最大值獲得, /(か-ザ)2]+(ァ-1)|>(ん), 尹W是呈近似正態(tài)分布的時(shí)刻向量χ/γ)的平均值,晃⑴=
6.如權(quán)利要求I或2或3或4所述的ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其特征在于所述步驟5. 3)中,貢獻(xiàn)率閾值為95%。
7.如權(quán)利要求5所述的ー種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,其特征在于所述步驟5. 3)中,貢獻(xiàn)率閾值為95%。
全文摘要
本發(fā)明涉及一種多閾值空間相關(guān)的浮動(dòng)車數(shù)據(jù)清洗和修復(fù)算法,該算法將浮動(dòng)車對(duì)一路段的若干天的采集數(shù)據(jù)合成一數(shù)據(jù)矩陣,在以天為單位初步篩選數(shù)據(jù)矩陣中的缺失數(shù)據(jù)和異常數(shù)據(jù)后,根據(jù)三西格瑪過濾法則進(jìn)一步清除數(shù)據(jù)矩陣中的異常數(shù)據(jù),然后根據(jù)缺失數(shù)據(jù)的類型,用加權(quán)平均法和指數(shù)平滑法分別結(jié)合路段的空間相似特性對(duì)缺失數(shù)據(jù)進(jìn)行修復(fù),最后用主成分重建方法修復(fù)浮動(dòng)車數(shù)據(jù)中的高頻噪聲擾動(dòng),從而在不增加浮動(dòng)車數(shù)量和額外處理設(shè)備的情況下,對(duì)浮動(dòng)車的規(guī)律性車速信息進(jìn)行充分挖掘,有效地改善了浮動(dòng)車的數(shù)據(jù)質(zhì)量。本發(fā)明可以用于浮動(dòng)車規(guī)律性數(shù)據(jù)的清洗和修復(fù)工作,為后續(xù)的交通規(guī)劃和交通辨識(shí)提供可靠的數(shù)據(jù)。
文檔編號(hào)G06F19/00GK102819682SQ20121027323
公開日2012年12月12日 申請(qǐng)日期2012年8月2日 優(yōu)先權(quán)日2012年8月2日
發(fā)明者楊殿閣, 連小珉, 張照生, 王釗, 李江濤, 張德鑫, 彭應(yīng)亮 申請(qǐng)人:清華大學(xué)