基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域的方法,可以在智能交通領(lǐng)域中基于海量車牌識別數(shù)據(jù) 快速高效的發(fā)現(xiàn)車輛相似軌跡,進而用于識別伴隨車輛。
[0002] 本發(fā)明又涉及大數(shù)據(jù)分析的裝置,在Hadoop MapReduce集群環(huán)境使用所述方法完 成相似軌跡計算,用于智能交通領(lǐng)域的數(shù)據(jù)挖掘,可為公安民警辦案提供輔助。
【背景技術(shù)】
[0003] 城市路網(wǎng)中車輛的相似軌跡挖掘,是智能交通領(lǐng)域重要的業(yè)務計算,相關(guān)研宄一 直是重點和熱點,可以用于智能交通系統(tǒng)、智慧城市環(huán)境的公交車路線設(shè)計,犯罪嫌疑車輛 布控,也可以基于車輛行車規(guī)律為城市道路規(guī)劃提供參考建議,具有深遠的社會經(jīng)濟意義。 相似軌跡挖掘需要發(fā)現(xiàn)車輛軌跡在空間維度和時間維度上的相似性,是一種典型的大數(shù)據(jù) 分析計算。具體的,基于海量車牌識別數(shù)據(jù)的車輛相似軌跡挖掘,針對任意歷史時期或當前 時間段,以不同的相似性定義及約束條件,來發(fā)現(xiàn)車輛相似軌跡。這里所述的車牌識別數(shù)據(jù) 來自城市通行車輛信息采集,相關(guān)的車牌識別技術(shù)是近年來新興的一類技術(shù):分析道路攝 像頭采集的車輛圖像信息,識別其中的車牌號,并將出現(xiàn)位置、拍攝時間、拍攝照片和行車 方向等信息封裝為車牌識別數(shù)據(jù)。隨著監(jiān)控技術(shù)的完善,車牌捕獲率與識別準確率顯著提 高,基于車牌識別數(shù)據(jù)的車輛出行信息采集技術(shù)在眾多城市被廣泛采納,帶動了相關(guān)領(lǐng)域 業(yè)務的挖掘分析技術(shù)和計算裝置的發(fā)展。車輛作為移動對象,位置隨著時間連續(xù)變化。相 比基于GPS技術(shù)的浮動車車輛數(shù)據(jù)采集技術(shù),基于車牌識別數(shù)據(jù)的車輛信息采集技術(shù)具有 工作連續(xù)性強、數(shù)據(jù)精確度高、檢測樣本量大、覆蓋車輛范圍廣等優(yōu)點。來源于城市道路實 時監(jiān)測的車牌識別數(shù)據(jù),包含監(jiān)測時間、地理位置等典型的時空屬性,以及車輛本身的相關(guān) 屬性,具有典型的時空相關(guān)、時序連續(xù)、位置可測的特征。另外,由于前端設(shè)備通過專網(wǎng)連接 且部署廣泛,車牌識別數(shù)據(jù)具有海量、更新頻率高的特征。一個大型城市一年即可累積百億 條以上車牌識別數(shù)據(jù)記錄,數(shù)據(jù)集的規(guī)模將大大超過傳統(tǒng)采樣方法,所以海量車牌識別數(shù) 據(jù)對相似軌跡挖掘業(yè)務計算也提出了更高的要求。
[0004] 在基于相似軌跡的車輛伴隨模式挖掘方面,伊利諾伊大學的Lu-An Tang等人在旗 艦會議International Conference on Data Engineering給出了一種伴侶候選集合模型 和加速處理的智能交叉方法,用于從車載GPS的動態(tài)流式數(shù)據(jù)中低開銷的獲取車輛的出行 伴侶。公安部交通管理科學研宄所的方艾芬等人在《計算機應用與軟件》撰文,基于過車數(shù) 據(jù)給出了一種伴隨車輛的發(fā)現(xiàn)算法,將伴隨車輛的查詢問題轉(zhuǎn)化為數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則挖 掘問題,方法具有效率高和擴展性強的特點。哈爾濱工業(yè)大學的趙新勇在《交通運輸系統(tǒng) 工程與信息》發(fā)表文章,基于車輛識別數(shù)據(jù)對車輛行車特征進行分析,并依據(jù)特定經(jīng)驗指標 值篩選出可能的伴隨車輛。在軌跡數(shù)據(jù)流的相似性度量方面,哈爾濱工程大學的趙洪斌等 人,分析了道路網(wǎng)絡空間軌跡相似的性質(zhì),在《計算機工程與應用》中提出一種移動對象軌 跡建模的時空表示方法,將軌跡從道路網(wǎng)絡空間轉(zhuǎn)化到歐氏空間,并給出一種基于興趣點 POI (Points Of Interesting)距離的軌跡間相似性測量方法,有效地對軌跡進行化簡并減 少軌跡中節(jié)點的數(shù)目,從而降低算法時間復雜度,避免在實際應用中移動對象常受限于空 間網(wǎng)絡而無法利用現(xiàn)有歐氏空間中軌跡及其距離處理技術(shù)。類似的,張延玲等人基于路網(wǎng) 空間移動對象的特性,考慮時空相似性而非僅是空間相似性,在《軟件》雜志提出了一種路 網(wǎng)空間中移動對象相似軌跡搜索方法。
[0005] 從以上國內(nèi)外相關(guān)工作可以看到,車輛相似軌跡挖掘的研宄尚處于發(fā)展階段,技 術(shù)相對不成熟。主要存在以下兩方面的問題或缺陷:
[0006] 第一方面,當前工作研宄大多基于有限的數(shù)據(jù)集,如數(shù)天內(nèi)浮動車的GPS監(jiān)控數(shù) 據(jù),而非數(shù)月級別的車輛識別數(shù)據(jù),對當前海量交通數(shù)據(jù)帶來復雜性考慮不足,導致大數(shù)據(jù) 環(huán)境下處理效率低下或查詢緩慢。
[0007] 第二方面,算法設(shè)定支持度等參數(shù)時多沒有考慮車輛作為移動對象的特點,隨著 設(shè)定值偏高或偏低,導致查詢結(jié)果過多或過少,以及正確率低。
[0008] 針對海量車牌識別數(shù)據(jù)的挖掘分析,提出適用性的參數(shù)設(shè)定,迄今為止尚未見到 相關(guān)報道。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的是為了克服上述技術(shù)缺陷,從而解決海量車牌識別數(shù)據(jù)下相似軌跡 挖掘效率和準確性不高的問題。
[0010] 本發(fā)明通過點伴隨關(guān)系定義車輛軌跡相似度,提出一種基于多級任務并行計算的 相似軌跡挖掘方法。所述方法通過Hadoop MapReduce分布式環(huán)境,將計算進行任務分解、 調(diào)度和并行執(zhí)行,實現(xiàn)高效的優(yōu)化處理。
[0011] 具體而言,本發(fā)明公開了如下技術(shù)方案:
[0012] 1. 一種基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述方法包 括:
[0013] (1)軌跡組織與篩選步驟,用于去除無效冗余數(shù)據(jù);
[0014] (2)點伴隨計算步驟,用于維護中間點伴隨結(jié)果集;
[0015] (3)軌跡相似性判定,用于統(tǒng)計并計算車輛軌跡相似度,獲得具有相似性軌跡的伴 隨車輛對。
[0016] 2.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,其中所述的 軌跡組織與篩選步驟,利用一種軌跡鏈表結(jié)構(gòu)存儲處理過程中涉及的車輛識別數(shù)據(jù),該步 驟通過三級流水線的第一級完成,是一個MapReduce計算作業(yè),輸入海量車牌識別數(shù)據(jù)集, 輸出結(jié)果是軌跡鏈表集合1,并傳遞給第二級流水線使用。
[0017] 3.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的點伴 隨計算步驟,用于獲得中間點伴隨結(jié)果集;該步驟利用所述的軌跡鏈表集合1的第一級的 計算結(jié)果,通過三級流水線的第二級完成,是另一個MapReduce作業(yè)的實現(xiàn),輸入所述的軌 跡鏈表結(jié)構(gòu)1,輸出結(jié)果是軌跡鏈表集合2,并傳遞給第三級流水線使用。
[0018] 4.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的軌跡 相似性判定步驟,用于計算車輛軌跡相似度,獲得具有相似軌跡的伴隨車輛對;該步驟利 用所述的軌跡鏈表集合2的第二級的計算結(jié)果,通過三級流水線的第三級完成,是又一個 MapReduce作業(yè)的實現(xiàn),輸入所述的軌跡鏈表結(jié)構(gòu)2,輸出結(jié)果是軌跡鏈表集合3,并最終寫 入文件系統(tǒng)或數(shù)據(jù)庫。
[0019] 5.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的海量 車牌識別數(shù)據(jù)集用L表示,是指受測路網(wǎng)上各監(jiān)測點捕獲的所有車輛信息數(shù)據(jù);每條車牌 識別數(shù)據(jù)I e L可表示為其中Vi表示車牌號碼(可唯一標識一個車輛),<表示車 輛Vi經(jīng)過監(jiān)測點n k;進一步,/?丨=/?丨.其中4.7表示車輛經(jīng)過的監(jiān)測點nk的地理位 置,表示車輛經(jīng)過監(jiān)測點nk的時間。
[0020] 6.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的車輛 軌跡用h表示,是車輛V i在一個時間范圍內(nèi)按時間順序經(jīng)過的一組監(jiān)測點序列;
[0021] 進一步,ti可以表示為:G : /i/ 心其中,對任意p〈q,有; 1^中包含的監(jiān)測點數(shù)目稱為軌跡的長度,記為I it)
[0022] 7.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的點伴 隨用Sim n(Vi,Vj)表示,是指兩個車輛VjPvj在一定時間閾值δ t內(nèi)先后經(jīng)過某監(jiān)測點n p 且其滿足以下條件的一種關(guān)系S式·,在一定時間范圍內(nèi)經(jīng)過同一監(jiān)測點的 兩個車輛在該監(jiān)測點僅可能存在一次點伴隨關(guān)系。
[0023] 8.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,通過軌跡相 似度判定相似軌跡;軌跡相似度是指兩條車輛軌跡的相似程度,用SimDU i, tp表示;
[0024] 選一步,SimDit" t) = 2:,其中1雨1」分別為車輛i和車輛j軌跡長度,m 1I + 1J 為所述兩輛車途經(jīng)具有點伴隨關(guān)系的監(jiān)測點數(shù)目。
[0025] 9.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的車輛 軌跡^和車輛軌跡^為相似軌跡,是指給定軌跡相似度閾值δ d、軌跡長度閾值S1和在時 間范圍dur內(nèi),心和是同時滿足以下兩個條件的軌跡對:
[0026] (1)軌跡1^和t」的相似度simD(t i, tj)彡δ d;
[0027] ⑵軌跡&和t」的軌跡長度I > δ p Ij彡δ p
[0028] 10.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述方法 中獲取相似軌跡的計算,可以按照步驟5- 9的描述,設(shè)定不同參數(shù)的閾值用于限定計算條 件,避免較短車輛軌跡作為相似軌跡的誤判,并對無效數(shù)據(jù)進行過濾;具體如下:
[0029] 假設(shè)給定點伴隨時間閾值St、軌跡相似度閾值Sd和軌跡長度閾值δ i,利用已有 車牌識別數(shù)據(jù)集L,找出在給定的時間范圍dur內(nèi)所有符合所述定義的車輛相似軌跡集合 ST ;
[0030] 具體的,57 = .1((,/,.)157川/,26;,/,. V";
[0031] 11.所述的基于海量車牌識別數(shù)據(jù)的相似軌跡挖掘方法,其特征在于,所述的第一 級流水線MapReduce作業(yè)過程,對車輛軌跡長度小于給定軌跡長度閾值的進行刪除,并進 一步建立所有車輛的軌跡鏈表;具體的,可以進