一種基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是涉及一種基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 時(shí)空軌跡是移動(dòng)對(duì)象的位置和時(shí)間的記錄序列,作為一種重要的時(shí)空對(duì)象數(shù)據(jù)類 型和信息源,時(shí)空軌跡的應(yīng)用范圍涵蓋了用戶行為、智能交通和精準(zhǔn)營(yíng)銷等諸多方面。隨 著衛(wèi)星定位技術(shù)、無線通信、智能終端以及移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,人們能夠更方便地獲取 時(shí)空軌跡數(shù)據(jù)。例如,通過智能終端記錄交通工具的運(yùn)動(dòng)狀況,通過條形碼或者射頻卡的 檢入檢出了解物流的狀況,通過信用卡刷卡記錄或者手機(jī)通話記錄來跟蹤用戶的位置。近 年來,隨著新浪微博、街旁、人人、Foursquare、Gowalla等基于地理位置的移動(dòng)社交網(wǎng)絡(luò) (LBSN)的迅猛發(fā)展,大量用戶可以通過智能手機(jī)以簽到的方式記錄時(shí)空行為軌跡。
[0003] 通過對(duì)各種時(shí)空軌跡數(shù)據(jù)的分析,我們可以提取時(shí)空軌跡數(shù)據(jù)中的相似性特征, 在沒有先驗(yàn)知識(shí)的情況下,將具有相似行為的時(shí)空對(duì)象劃分到一起,而將具有相異行為的 時(shí)空對(duì)象劃分開來,其關(guān)鍵是根據(jù)時(shí)空軌跡數(shù)據(jù)的特點(diǎn),設(shè)計(jì)與定義不同時(shí)空軌跡間的相 似性度量方法。根據(jù)所涉及的不同時(shí)間區(qū)間,可將現(xiàn)有的時(shí)空軌跡相似性度量方法劃分為 以下幾種:(1)時(shí)間全區(qū)間相似(主要采用軌跡間歐式距離、最小外包矩形距離等相似性度 量方法);(2)全區(qū)間變換對(duì)應(yīng)相似(主要有DTW方法);(3)多子區(qū)間對(duì)應(yīng)相似(主要有最長(zhǎng) 公共子序列距離、編輯距離等方法);(4)單子區(qū)間對(duì)應(yīng)相似(主要有子軌跡聚類、時(shí)間聚焦 聚類、移動(dòng)微聚類、移動(dòng)聚類等方法);(5)單點(diǎn)對(duì)應(yīng)相似(主要有歷史最近距離等方法);(6) 無時(shí)間區(qū)間對(duì)應(yīng)相似(主要有單向距離、特征提取等方法)。這6類方法對(duì)于相似時(shí)間區(qū)間 的要求是逐漸放松的,從要求時(shí)間全區(qū)間相似,到局部時(shí)間區(qū)間相似,最后到無時(shí)間區(qū)間對(duì) 應(yīng)相似。
[0004] 雖然有關(guān)時(shí)空軌跡度量方法的研究在國(guó)際上起步不久,卻已經(jīng)成為相關(guān)領(lǐng)域研究 的熱點(diǎn)之一,并取得了一定的研究進(jìn)展。以下主要介紹幾種與本發(fā)明相關(guān)的、典型的時(shí)空 軌跡度量方法:(1) "子軌跡聚類方法"由Lee等在2007年提出,它采用先劃分再聚合的思 路,首先將時(shí)空軌跡看作一組點(diǎn)序列,然后按照最小描述長(zhǎng)度原則將軌跡劃分為子軌跡,再 用基于密度的聚類方法對(duì)這些子軌跡聚類,子軌跡的相似性度量由3種距離(垂直距離、平 行距離和角度距離)的加權(quán)和表示,最終可以得到子軌跡的運(yùn)動(dòng)模式和整條軌跡的相似子 區(qū)間。雖然子軌跡聚類方法能發(fā)現(xiàn)具有相似性的單個(gè)最大時(shí)間區(qū)間,但是,由于該方法預(yù)先 將軌跡劃分成子軌跡,并以子軌跡為基本單位進(jìn)行聚類,因此,相似時(shí)間區(qū)間會(huì)受到子軌跡 時(shí)間區(qū)間的限制。(2) "時(shí)間聚焦聚類方法"是將某一時(shí)間區(qū)間內(nèi)軌跡間的歐氏距離作為相 似性度量,并采用基于密度的聚類方法OPTICS對(duì)軌跡進(jìn)行聚類,通過對(duì)每一個(gè)不同的時(shí)間 區(qū)間均進(jìn)行一次上述聚類過程,最終發(fā)現(xiàn)使軌跡聚類結(jié)果最優(yōu)(即類內(nèi)相似度大、類間相似 度小)的時(shí)間區(qū)間,并記錄這個(gè)區(qū)間和相應(yīng)的聚類結(jié)果。以上兩種方法的特點(diǎn)是關(guān)注局部 而非全部時(shí)空軌跡的相似性度量,只需獲得一個(gè)最大的相似子區(qū)間,就能衡量軌跡間的相 似性。(3) "基于最長(zhǎng)公共子序列的用戶時(shí)空行為興趣相似性計(jì)算方法"采用包圍盒描述停 留區(qū)域,通過計(jì)算軌跡間滿足一定時(shí)空交疊程度的公共包圍盒的長(zhǎng)度來衡量軌跡間的相似 程度,兩用戶軌跡間公共包圍盒長(zhǎng)度越長(zhǎng),則認(rèn)為他們?cè)跁r(shí)空上有著更多相似的行為興趣, 其中停留區(qū)域是一系列連續(xù)軌跡點(diǎn)的集合,是包含該停留區(qū)域內(nèi)所有軌跡點(diǎn)且各邊平行于 坐標(biāo)軸的最小的六面體。如何有效地確定停留區(qū)域或者將軌跡劃分成平滑軌跡區(qū)間仍有待 研究。除此之外,方法(1)- (3)主要針對(duì)GPS等可以持續(xù)跟蹤用戶的行為軌跡,而在位置 服務(wù)的社交網(wǎng)絡(luò)中,用戶僅在到達(dá)某位置后才簽到,沒有對(duì)用戶的行為軌跡進(jìn)行持續(xù)的跟 蹤,用戶簽到行為具有一定的隨意性和重復(fù)性,造成在不同位置上簽到次數(shù)差異較大,少數(shù) 用戶完成了大多數(shù)簽到,一些位置很少被簽到,時(shí)間維的不等長(zhǎng)使得用戶簽到數(shù)據(jù)呈現(xiàn)出 稀疏性。因此,連續(xù)序列模式的相似性度量方法并不適用于基于簽到數(shù)據(jù)的時(shí)空軌跡。(4) "位置服務(wù)社交網(wǎng)絡(luò)用戶行為相似性分析"采用DBSCAN對(duì)用戶簽到的地理位置進(jìn)行聚類操 作,得到用戶訪問的位置區(qū)域;通過改變聚類的鄰域半徑,在不同空間位置比例尺下觀察用 戶訪問各個(gè)位置區(qū)域的情況,進(jìn)而通過建立向量空間模型,采用余弦相似性方法計(jì)算用戶 間的相似性;最終通過計(jì)算用戶在不同空間比例下的相似性,得到用戶行為軌跡上的相似 性。由于該方法在進(jìn)行相似性度量時(shí)沒有考慮簽到數(shù)據(jù)的時(shí)間維度,也不能區(qū)分簽到數(shù)據(jù) 在不同時(shí)間段上的重要性,會(huì)出現(xiàn)兩個(gè)在時(shí)間上完全相反的用戶行為軌跡,計(jì)算結(jié)果卻是 完全相似的情況。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是:針對(duì)現(xiàn)有時(shí)空軌跡度量方法存在的問題,如何創(chuàng) 新地設(shè)計(jì)一種適合簽到數(shù)據(jù)特點(diǎn)的時(shí)空軌跡相似性度量方法及系統(tǒng)。
[0006] 為了解決上述問題,本發(fā)明公開一種基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法, 包括: 步驟1 :獲取簽到數(shù)據(jù),包括用戶ID、簽到位置和簽到時(shí)間等; 步驟2 :對(duì)簽到數(shù)據(jù)進(jìn)行預(yù)處理,包括無用數(shù)據(jù)過濾、類型轉(zhuǎn)換和格式統(tǒng)一; 步驟3:用戶興趣區(qū)域的計(jì)算; 步驟4 :相似興趣區(qū)域的計(jì)算; 步驟5 :單層相似度的計(jì)算; 步驟6:跨層相似度的計(jì)算。
[0007] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法,所述步驟3還包括: 步驟21 :把簽到時(shí)間劃分成T個(gè)時(shí)間段,采用OPTICS對(duì)簽到興趣點(diǎn)進(jìn)行基于密度的分 層聚類,得到不同時(shí)間段、不同空間劃分尺度下的用戶興趣區(qū)域。
[0008] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法,所述步驟4還包括: 步驟31 :在每一層,計(jì)算用戶在每個(gè)時(shí)間段的每個(gè)興趣區(qū)域的簽到次數(shù)與其在該時(shí)間 段簽到總次數(shù)的比值,如果兩個(gè)用戶在某個(gè)興趣區(qū)域上的比值的差值的絕對(duì)值小于設(shè)定的 閾值,則這兩個(gè)用戶在該興趣區(qū)域上相似。
[0009] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法,所述步驟5還包括: 步驟41 :兩個(gè)用戶的時(shí)空軌跡在h層、全都時(shí)間段上的相似度定義為
heH,teΤ,Η為OPTICS聚類的層數(shù),CM為兩個(gè)用戶在h層、t時(shí)間 段的興趣區(qū)域的個(gè)數(shù),M為兩個(gè)用戶在h層、t時(shí)間段相似興趣區(qū)域的個(gè)數(shù),at為各
可以根據(jù)具體應(yīng)用,設(shè)定各個(gè)時(shí)間段的權(quán)值。
[0010] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法,所述步驟6還包括: 步驟51 :兩個(gè)用戶的時(shí)空軌跡間的跨層相似度定義
,層數(shù)越高,空間劃分尺度越小,權(quán)值越大,如果跨層相似度大于設(shè)定 的閾值,則兩個(gè)用戶的時(shí)空行為軌跡相似。
[0011] 本發(fā)明還公開一種基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量系統(tǒng),包括: 獲取用戶簽到數(shù)據(jù)模塊:用于獲取用戶簽到數(shù)據(jù),包括用戶ID、簽到位置和簽到時(shí)間 等; 預(yù)處理模塊:用于對(duì)用戶簽到數(shù)據(jù)進(jìn)行預(yù)處理,包括無用數(shù)據(jù)過濾、類型轉(zhuǎn)換和格式統(tǒng) , 用戶興趣區(qū)域計(jì)算模塊:用于用戶興趣區(qū)域的計(jì)算; 相似興趣區(qū)域計(jì)算模塊:用于用戶相似興趣區(qū)域的計(jì)算; 單層相似度計(jì)算模塊:用于用戶單層相似度的計(jì)算; 跨層相似度計(jì)算模塊:用戶跨層相似度的計(jì)算。
[0012] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量系統(tǒng),所述用戶興趣區(qū)域計(jì)算模塊還 包括: 把用戶簽到時(shí)間劃分成T個(gè)時(shí)間段,采用OPTICS對(duì)用戶簽到興趣點(diǎn)進(jìn)行基于密度的分 層聚類,得到不同時(shí)間段、不同空間劃分尺度下的用戶興趣區(qū)域。
[0013] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量系統(tǒng),所述相似興趣區(qū)域計(jì)算模塊還 包括: 在每一層,計(jì)算用戶在每個(gè)時(shí)間段的每個(gè)興趣區(qū)域的簽到次數(shù)與其在該時(shí)間段簽到總 次數(shù)的比值,如果兩個(gè)用戶在某個(gè)興趣區(qū)域上的比值的差值的絕對(duì)值小于設(shè)定的閾值,則 這兩個(gè)用戶在該興趣區(qū)域上相似。
[0014] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量系統(tǒng),所述單層相似度計(jì)算模塊還包 括: 兩個(gè)用戶的時(shí)空軌跡在h層、全都時(shí)間段上的相似度定義
heH,teT,Η為OPTICS聚類的層數(shù),CM為兩個(gè)用戶在h層、t時(shí)間段的興趣區(qū)域的個(gè) 數(shù),M為兩個(gè)用戶在h層、t時(shí)間段相似興趣區(qū)域的個(gè)數(shù),α,為各個(gè)時(shí)間段的權(quán)值,
,可以根據(jù)具體應(yīng)用,設(shè)定各個(gè)時(shí)間段的權(quán)值。
[0015] 所述的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量系統(tǒng),所述跨層相似度計(jì)算模塊還包 括: 兩個(gè)用戶的時(shí)空軌跡間的跨層相似度定義
,其中為各層的權(quán)
層數(shù)越高,空間劃分尺度越小,權(quán)值越大,如果跨層相似度大于設(shè)定的閾 值,則兩個(gè)用戶的時(shí)空行為軌跡相似。
[0016] 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn): 由于在位置服務(wù)的社交網(wǎng)絡(luò)中,用戶僅在到達(dá)某位置后才簽到,沒有對(duì)用戶的行為軌 跡進(jìn)行持續(xù)的跟蹤,用戶簽到行為具有一定的隨意性和重復(fù)性,造成在不同位置上簽到次 數(shù)差異較大,少數(shù)用戶完成了大多數(shù)簽到,一些位置很少被簽到,時(shí)間維的不等長(zhǎng)使得用戶 簽到數(shù)據(jù)呈現(xiàn)出稀疏性。本發(fā)明通過采用OPTICS對(duì)用戶簽到興趣點(diǎn)進(jìn)行基于密度的分層 聚類,得到不同空間劃分尺度下的用戶興趣區(qū)域,比采用網(wǎng)格或者單一空間劃分尺度建立 用戶軌跡更合理,更能反映用戶時(shí)空數(shù)據(jù)的分布情況。同時(shí),本發(fā)明采用類似包圍盒的思想 來比較各個(gè)興趣區(qū)域的相似性,更加符合簽到數(shù)據(jù)的特點(diǎn),大大降低了計(jì)算的復(fù)雜度,計(jì)算 效率也得到提高。除此之外,本發(fā)明還從時(shí)間維度對(duì)時(shí)空軌跡進(jìn)行了劃分,可以根據(jù)具體應(yīng) 用,調(diào)整各個(gè)時(shí)間段的權(quán)值,從而能夠區(qū)分簽到數(shù)據(jù)在不同時(shí)間段上的重要性。
【附圖說明】
[0017] 圖1為本發(fā)明的不同時(shí)間段、不同空間劃分尺度下的用戶興趣區(qū)域示意圖。
[0018] 圖2為本發(fā)明的基于簽到數(shù)據(jù)的時(shí)空軌跡相似性度量方法的流程圖。
[0019]