本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng)。
背景技術(shù):
傳統(tǒng)的活動(dòng)搜集方法依賴于活動(dòng)日志或活動(dòng)調(diào)查,樣本量少,搜集時(shí)間長(zhǎng),耗時(shí)耗力。時(shí)空軌跡數(shù)據(jù)的爆發(fā)為大規(guī)模群體活動(dòng)的采集提供了新手段。時(shí)空數(shù)據(jù)分析相關(guān)研究主要關(guān)注現(xiàn)實(shí)空間中的個(gè)體活動(dòng)識(shí)別,尤其是出行活動(dòng),缺乏對(duì)活動(dòng)基本屬性信息的提取。需要發(fā)展融合多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)提取方法,為基于海量活動(dòng)的城市科學(xué)研究奠定數(shù)據(jù)基礎(chǔ)。時(shí)空軌跡數(shù)據(jù)(如手機(jī)信令數(shù)據(jù)、車輛GPS數(shù)據(jù)、社交簽到數(shù)據(jù)等)雖然包含豐富的時(shí)間信息和位置信息,但是語義信息相對(duì)缺乏,且時(shí)空分辨率各不相同,無法直接提供群體活動(dòng)信息。
因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
技術(shù)實(shí)現(xiàn)要素:
鑒于現(xiàn)有技術(shù)的不足,本發(fā)明目的在于提供一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng)。
本發(fā)明的技術(shù)方案如下:
一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,方法包括:
A、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);
B、后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);
C、后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述A具體包括:
A1、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);
A2、后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);
A3、將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述B中通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù)具體包括:
B11、后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;
B12、根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);
B13、計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;
B14、獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù)。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述B中根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息具體包括:
B21、根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;
B22、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;
B23、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述B中獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù)具體包括:
B31、預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;
B32、獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;
B33、獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù)。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述C具體包括:
C1、根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;
C2、根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;
C3、將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈。
一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,系統(tǒng)包括:
預(yù)處理模塊,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);
活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊,用于后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);
語義標(biāo)記模塊,用于后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述預(yù)處理模塊具體包括:
信令數(shù)據(jù)處理單元,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);
簽到數(shù)據(jù)處理單元,用于后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);
分辨率轉(zhuǎn)換單元,用于將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊具體包括:
排序單元,用于后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;
活動(dòng)點(diǎn)標(biāo)記單元,用于根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);
候選活動(dòng)點(diǎn)軌跡生成單元,用于計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;
活動(dòng)點(diǎn)軌跡數(shù)據(jù)處理單元,用于獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù);
第一概率計(jì)算單元,用于根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;
第二概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;
第三概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布;
預(yù)先設(shè)定單元,用于預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;
候選活動(dòng)位置判定單元,用于獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;
活動(dòng)地點(diǎn)數(shù)據(jù)獲取單元,用于獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù)。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述語義標(biāo)記模塊具體包括:
第四概率計(jì)算單元,用于根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;
最大概率活動(dòng)類型標(biāo)記單元,用于根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;
活動(dòng)時(shí)空軌跡鏈生成單元,用于將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈。
本發(fā)明提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng),本發(fā)明采用貝葉斯模型進(jìn)行個(gè)體活動(dòng)的推斷,并考慮了時(shí)空活動(dòng)軌跡中前一時(shí)刻活動(dòng)類型對(duì)后一時(shí)刻活動(dòng)類型的影響,實(shí)現(xiàn)大范圍、海量群體活動(dòng)的準(zhǔn)確、快速、高效提取與收集。
附圖說明
圖1為本發(fā)明的一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法的較佳實(shí)施例的流程圖。
圖2為本發(fā)明的一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng)的較佳實(shí)施例的功能原理框圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法的較佳實(shí)施例的流程圖,如圖1所示,其中,方法包括:
步驟S100、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。其中移動(dòng)終端優(yōu)先為手機(jī)。
進(jìn)一步的實(shí)施例中,步驟S100中具體包括:
步驟S101、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);
步驟S102、后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);
步驟S103、將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。
具體實(shí)施時(shí),對(duì)手機(jī)信令數(shù)據(jù)和社交簽到數(shù)據(jù)進(jìn)行預(yù)處理,得到使之符合之后處理要求的數(shù)據(jù),具體內(nèi)容包括:
對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,包括去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù);閾值的選取取決于具體的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量。優(yōu)選的,閾值取值范圍為小于3個(gè)每天,大于100個(gè)每天。
對(duì)社交簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,包括去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù);去除用戶簽到數(shù)量小于2次,大于100次的用戶數(shù)據(jù);去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù);
對(duì)于多源時(shí)空軌跡數(shù)據(jù),考慮空間分辨率的影響。將手機(jī)信令數(shù)據(jù)與社交簽到數(shù)據(jù)的空間分辨率統(tǒng)一轉(zhuǎn)換為基于規(guī)則格網(wǎng)的尺度。規(guī)則格網(wǎng)的尺度大小通常取決于以上兩類數(shù)據(jù)本身的空間分辨率。優(yōu)先的尺度選擇為500m*500m。
步驟S200、后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù)。
進(jìn)一步的,步驟S200中通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù)具體包括:
步驟S211、后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;
步驟S212、根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);
步驟S213、計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;
步驟S214、獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù)。
具體實(shí)施時(shí),對(duì)于經(jīng)過處理過的手機(jī)信令數(shù)據(jù),通過提取人的活動(dòng)點(diǎn),得到人的活動(dòng)點(diǎn)軌跡。提取活動(dòng)點(diǎn)的方法主要通過設(shè)定時(shí)間和空間的規(guī)則來判定,具體方法如下:
對(duì)于產(chǎn)生的手機(jī)信令數(shù)據(jù),按照人和時(shí)間進(jìn)行排序,得到人的時(shí)序軌跡;
利用人的時(shí)序軌跡,計(jì)算其進(jìn)入和離開每個(gè)位置(格網(wǎng))的時(shí)間,第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);
隨著時(shí)間移動(dòng),計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)軌跡中的活動(dòng)點(diǎn)的空間距離與時(shí)間差值;若空間距離小于設(shè)定閾值,并且時(shí)間差值小于設(shè)定閾值,則將該點(diǎn)加入到該活動(dòng)點(diǎn);否則,該點(diǎn)設(shè)為新的活動(dòng)點(diǎn);直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;優(yōu)選的設(shè)定閾值的范圍為500m-1000m。
對(duì)于候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),若該點(diǎn)的進(jìn)入時(shí)間與離開時(shí)間的差值小于一定閾值,則認(rèn)為該點(diǎn)不是活動(dòng)點(diǎn),將其從候選活動(dòng)點(diǎn)軌跡中移除,最后得到的活動(dòng)點(diǎn)軌跡。優(yōu)選的,閾值取值范圍為1小時(shí)-3小時(shí)。
進(jìn)一步地,步驟S200中根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息具體包括:
步驟S221、根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;
步驟S222、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;
步驟S223、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布。
具體實(shí)施時(shí),對(duì)于經(jīng)過處理過的社交簽到數(shù)據(jù),利用其富含豐富的簽到類別信息,構(gòu)建和學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息。具體方法如下:
根據(jù)社交簽到平臺(tái)所提供的簽到類別,以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布Pr(ATi|t),表示為:
checkins(ATi,t)表示時(shí)刻t活動(dòng)類型為i的簽到數(shù)量,∑tcheckins(ATi,t)是一天內(nèi)各個(gè)時(shí)刻從事活動(dòng)類型為i的簽到數(shù)量,其中ATi為從事活動(dòng)類別為i的簽到數(shù),根據(jù)用戶的簽到軌跡,計(jì)算得到不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布,表示為Pr(ATi,t|ATj,t-1),其中i,j表示活動(dòng)的類別,t表示時(shí)間。ATi,t表示在t時(shí)刻從事活動(dòng)類型為i的簽到數(shù)量,(ATj,t-1)表示在t-1時(shí)刻從事活動(dòng)類型為j的簽到數(shù),該概率Pr(ATi,t|ATj,t-1)的意義為在已知前一時(shí)刻t-1從事活動(dòng)j的情況下,在時(shí)刻t從事活動(dòng)i的概率;Pr(X)表示事件X的概率公布;
根據(jù)用戶的簽到軌跡,計(jì)算得到不同格網(wǎng)區(qū)域進(jìn)行不同群體活動(dòng)的概率分布,表示為:Pr(Gridm|ATi,t),其中m為格網(wǎng)序號(hào),Gridm表示第m個(gè)格網(wǎng),i為活動(dòng)類別,t為時(shí)間。
進(jìn)一步的實(shí)施例中,所述步驟S200中獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù)具體包括:
步驟S231、預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;
步驟S232、獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;
步驟S233、獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù)。
具體實(shí)施時(shí),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù),探測(cè)人的居家和工作活動(dòng)。具體方法如下:
根據(jù)常識(shí),設(shè)定居家活動(dòng)和工作活動(dòng)的識(shí)別窗口,分別設(shè)為:0點(diǎn)-7點(diǎn),9點(diǎn)-17點(diǎn);
對(duì)于人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)的持續(xù)時(shí)間與以上兩個(gè)識(shí)別窗口進(jìn)行匹配,該活動(dòng)點(diǎn)的持續(xù)時(shí)間若落在識(shí)別窗口內(nèi),并占總識(shí)別窗口時(shí)間長(zhǎng)度的50%以上,則認(rèn)為匹配成功,作為候選居家或工作活動(dòng)位置;
找到匹配時(shí)間最長(zhǎng)的居家或工作活動(dòng)位置作為該用戶的居家和工作活動(dòng)位置;若沒有匹配成功,則認(rèn)為該用戶沒有找到居家或工作活動(dòng)位置。
步驟S300、后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。
利用經(jīng)過得到的活動(dòng)點(diǎn)軌跡,得到的群體活動(dòng)時(shí)空先驗(yàn)信息,得到的人的居家工作活動(dòng)信息,基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,標(biāo)記的活動(dòng)信息主要包括居家、工作、其他(如:娛樂/購(gòu)物/學(xué)習(xí)/休閑/出行等),得到活動(dòng)時(shí)空軌跡鏈。
得到的時(shí)空活動(dòng)軌跡鏈對(duì)于研究城市規(guī)劃和城市功能區(qū)動(dòng)態(tài)變化具有重要的意義。根據(jù)時(shí)空活動(dòng)的變化,對(duì)于已經(jīng)規(guī)劃好的城市功能區(qū)的動(dòng)態(tài)變化可以及時(shí)快速做出調(diào)整和預(yù)測(cè)。
進(jìn)一步的實(shí)施例,步驟S300具體包括:
步驟S301、根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;
步驟S302、根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;
步驟S303、將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈。
具體實(shí)施時(shí),根據(jù)貝葉斯模型,在給定具體位置、時(shí)間、以及前一個(gè)時(shí)刻的活動(dòng)類型之下,下一刻時(shí)刻進(jìn)行某一類型活動(dòng)的概率為:
其中,m為格網(wǎng)序號(hào),j為前一個(gè)時(shí)刻的活動(dòng)類型,t為當(dāng)前時(shí)刻,i為當(dāng)前時(shí)刻活動(dòng)類型。
對(duì)于Pr(Gridm|ATi,t,ATj),認(rèn)為ATj與Gridm條件無關(guān),則該式可以簡(jiǎn)化為:
Pr(Gridm|ATi,t,ATj)=Pr(Gridm|ATi,t) (2)
針對(duì)Pr(ATi|t,ATj),該式可以改寫為:
Pr(ATi|t,ATj)=Pr(ATi,t|ATj,t-1) (3)
結(jié)合公式(2)(3),將公式(1)轉(zhuǎn)換為:
Pr(ATi|Gridm,t,ATj)∝Pr(Gridm|ATi,t)Pr(ATi,t|ATj,t-1)Pr(ATj|t)(5)
對(duì)于活動(dòng)點(diǎn)軌跡,依次輸入到公式(5)中,計(jì)算從事不同活動(dòng)的概率大小,取最大概率的活動(dòng)標(biāo)記為該活動(dòng)點(diǎn)的最大概率活動(dòng)類型;
特別地,對(duì)于已經(jīng)標(biāo)記為居家或工作活動(dòng)類型的格網(wǎng)位置,則將Pr(Gridm|ATi,t)設(shè)為1,并將ATj,t-1=AThomeorATworking,繼續(xù)輸入到下一活動(dòng)點(diǎn)的標(biāo)記處理。直到所有的活動(dòng)點(diǎn)軌跡中的活動(dòng)點(diǎn)得到標(biāo)記,輸出得到活動(dòng)時(shí)空鏈。AThome表示活動(dòng)類型為居家,ATworking表示活動(dòng)類型為在工作。
其中,活動(dòng)點(diǎn)軌跡提取方法取決于具體的數(shù)據(jù)類型、數(shù)據(jù)的時(shí)空分辨率,不局限于本發(fā)明介紹的方法;
居家和工作活動(dòng)探測(cè)方法受限于時(shí)空數(shù)據(jù)的觀測(cè)時(shí)長(zhǎng),閾值的選取不局限于本發(fā)明介紹的方法;
構(gòu)建和學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息不局限于社交媒體簽到數(shù)據(jù),還可以使用居民調(diào)查數(shù)據(jù)、GPS軌跡數(shù)據(jù)、志愿者采集數(shù)據(jù)等方式。
本發(fā)明提出一種全新的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)收集方法,采用貝葉斯模型進(jìn)行個(gè)體活動(dòng)的推斷,解決現(xiàn)有方法耗時(shí)耗力、成本高、樣本量小等問題,實(shí)現(xiàn)大范圍、海量群體活動(dòng)的準(zhǔn)確、快速、高效提取與收集。本發(fā)明的群體活動(dòng)推斷不僅考慮了城市空間中時(shí)間、位置等因素對(duì)人類活動(dòng)的約束,還考慮了時(shí)空活動(dòng)軌跡中前一時(shí)刻活動(dòng)類型對(duì)后一時(shí)刻活動(dòng)類型的影響,在人類時(shí)空活動(dòng)鏈中考慮活動(dòng)的推斷。
本發(fā)明還提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng)的較佳實(shí)施例的功能原理框圖,如圖2所示,系統(tǒng)包括:
預(yù)處理模塊100,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);具體如方法實(shí)施例所述。
活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊200,用于后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);具體如方法實(shí)施例所述。
語義標(biāo)記模塊300,用于后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈;具體如方法實(shí)施例所述。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述預(yù)處理模塊具體包括:
信令數(shù)據(jù)處理單元,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);具體如方法實(shí)施例所述。
簽到數(shù)據(jù)處理單元,用于后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);具體如方法實(shí)施例所述。
分辨率轉(zhuǎn)換單元,用于將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);具體如方法實(shí)施例所述。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊具體包括:
排序單元,用于后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;具體如方法實(shí)施例所述。
活動(dòng)點(diǎn)標(biāo)記單元,用于根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);具體如方法實(shí)施例所述。
候選活動(dòng)點(diǎn)軌跡生成單元,用于計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;具體如方法實(shí)施例所述。
活動(dòng)點(diǎn)軌跡數(shù)據(jù)處理單元,用于獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù);具體如方法實(shí)施例所述。
第一概率計(jì)算單元,用于根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;具體如方法實(shí)施例所述。
第二概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;具體如方法實(shí)施例所述。
第三概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布;具體如方法實(shí)施例所述。
預(yù)先設(shè)定單元,用于預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;具體如方法實(shí)施例所述。
候選活動(dòng)位置判定單元,用于獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;具體如方法實(shí)施例所述。
活動(dòng)地點(diǎn)數(shù)據(jù)獲取單元,用于獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù);具體如方法實(shí)施例所述。
所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述語義標(biāo)記模塊具體包括:
第四概率計(jì)算單元,用于根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;具體如方法實(shí)施例所述。
最大概率活動(dòng)類型標(biāo)記單元,用于根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;具體如方法實(shí)施例所述。
活動(dòng)時(shí)空軌跡鏈生成單元,用于將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈;具體如方法實(shí)施例所述。
綜上所述,本發(fā)明提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng),方法包括:后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)并進(jìn)行預(yù)處理,生成符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);后臺(tái)從待處理信令數(shù)據(jù)得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。本發(fā)明采用貝葉斯模型進(jìn)行個(gè)體活動(dòng)的推斷,并考慮了時(shí)空活動(dòng)軌跡中前一時(shí)刻活動(dòng)類型對(duì)后一時(shí)刻活動(dòng)類型的影響,實(shí)現(xiàn)大范圍、海量群體活動(dòng)的準(zhǔn)確、快速、高效提取與收集。
應(yīng)當(dāng)理解的是,本發(fā)明的應(yīng)用不限于上述的舉例,對(duì)本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進(jìn)或變換,所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。