欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng)與流程

文檔序號(hào):11961683閱讀:637來源:國(guó)知局
基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng)。



背景技術(shù):

傳統(tǒng)的活動(dòng)搜集方法依賴于活動(dòng)日志或活動(dòng)調(diào)查,樣本量少,搜集時(shí)間長(zhǎng),耗時(shí)耗力。時(shí)空軌跡數(shù)據(jù)的爆發(fā)為大規(guī)模群體活動(dòng)的采集提供了新手段。時(shí)空數(shù)據(jù)分析相關(guān)研究主要關(guān)注現(xiàn)實(shí)空間中的個(gè)體活動(dòng)識(shí)別,尤其是出行活動(dòng),缺乏對(duì)活動(dòng)基本屬性信息的提取。需要發(fā)展融合多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)提取方法,為基于海量活動(dòng)的城市科學(xué)研究奠定數(shù)據(jù)基礎(chǔ)。時(shí)空軌跡數(shù)據(jù)(如手機(jī)信令數(shù)據(jù)、車輛GPS數(shù)據(jù)、社交簽到數(shù)據(jù)等)雖然包含豐富的時(shí)間信息和位置信息,但是語義信息相對(duì)缺乏,且時(shí)空分辨率各不相同,無法直接提供群體活動(dòng)信息。

因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。



技術(shù)實(shí)現(xiàn)要素:

鑒于現(xiàn)有技術(shù)的不足,本發(fā)明目的在于提供一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng)。

本發(fā)明的技術(shù)方案如下:

一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,方法包括:

A、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);

B、后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);

C、后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述A具體包括:

A1、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);

A2、后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);

A3、將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述B中通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù)具體包括:

B11、后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;

B12、根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);

B13、計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;

B14、獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù)。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述B中根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息具體包括:

B21、根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;

B22、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;

B23、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述B中獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù)具體包括:

B31、預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;

B32、獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;

B33、獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù)。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法,其中,所述C具體包括:

C1、根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;

C2、根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;

C3、將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈。

一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,系統(tǒng)包括:

預(yù)處理模塊,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);

活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊,用于后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);

語義標(biāo)記模塊,用于后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述預(yù)處理模塊具體包括:

信令數(shù)據(jù)處理單元,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);

簽到數(shù)據(jù)處理單元,用于后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);

分辨率轉(zhuǎn)換單元,用于將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊具體包括:

排序單元,用于后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;

活動(dòng)點(diǎn)標(biāo)記單元,用于根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);

候選活動(dòng)點(diǎn)軌跡生成單元,用于計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;

活動(dòng)點(diǎn)軌跡數(shù)據(jù)處理單元,用于獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù);

第一概率計(jì)算單元,用于根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;

第二概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;

第三概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布;

預(yù)先設(shè)定單元,用于預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;

候選活動(dòng)位置判定單元,用于獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;

活動(dòng)地點(diǎn)數(shù)據(jù)獲取單元,用于獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù)。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述語義標(biāo)記模塊具體包括:

第四概率計(jì)算單元,用于根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;

最大概率活動(dòng)類型標(biāo)記單元,用于根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;

活動(dòng)時(shí)空軌跡鏈生成單元,用于將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈。

本發(fā)明提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng),本發(fā)明采用貝葉斯模型進(jìn)行個(gè)體活動(dòng)的推斷,并考慮了時(shí)空活動(dòng)軌跡中前一時(shí)刻活動(dòng)類型對(duì)后一時(shí)刻活動(dòng)類型的影響,實(shí)現(xiàn)大范圍、海量群體活動(dòng)的準(zhǔn)確、快速、高效提取與收集。

附圖說明

圖1為本發(fā)明的一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法的較佳實(shí)施例的流程圖。

圖2為本發(fā)明的一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng)的較佳實(shí)施例的功能原理框圖。

具體實(shí)施方式

為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法的較佳實(shí)施例的流程圖,如圖1所示,其中,方法包括:

步驟S100、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。其中移動(dòng)終端優(yōu)先為手機(jī)。

進(jìn)一步的實(shí)施例中,步驟S100中具體包括:

步驟S101、后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);

步驟S102、后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);

步驟S103、將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù)。

具體實(shí)施時(shí),對(duì)手機(jī)信令數(shù)據(jù)和社交簽到數(shù)據(jù)進(jìn)行預(yù)處理,得到使之符合之后處理要求的數(shù)據(jù),具體內(nèi)容包括:

對(duì)手機(jī)信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,包括去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù);閾值的選取取決于具體的數(shù)據(jù)類型、數(shù)據(jù)格式、數(shù)據(jù)質(zhì)量。優(yōu)選的,閾值取值范圍為小于3個(gè)每天,大于100個(gè)每天。

對(duì)社交簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,包括去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù);去除用戶簽到數(shù)量小于2次,大于100次的用戶數(shù)據(jù);去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù);

對(duì)于多源時(shí)空軌跡數(shù)據(jù),考慮空間分辨率的影響。將手機(jī)信令數(shù)據(jù)與社交簽到數(shù)據(jù)的空間分辨率統(tǒng)一轉(zhuǎn)換為基于規(guī)則格網(wǎng)的尺度。規(guī)則格網(wǎng)的尺度大小通常取決于以上兩類數(shù)據(jù)本身的空間分辨率。優(yōu)先的尺度選擇為500m*500m。

步驟S200、后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù)。

進(jìn)一步的,步驟S200中通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù)具體包括:

步驟S211、后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;

步驟S212、根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);

步驟S213、計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;

步驟S214、獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù)。

具體實(shí)施時(shí),對(duì)于經(jīng)過處理過的手機(jī)信令數(shù)據(jù),通過提取人的活動(dòng)點(diǎn),得到人的活動(dòng)點(diǎn)軌跡。提取活動(dòng)點(diǎn)的方法主要通過設(shè)定時(shí)間和空間的規(guī)則來判定,具體方法如下:

對(duì)于產(chǎn)生的手機(jī)信令數(shù)據(jù),按照人和時(shí)間進(jìn)行排序,得到人的時(shí)序軌跡;

利用人的時(shí)序軌跡,計(jì)算其進(jìn)入和離開每個(gè)位置(格網(wǎng))的時(shí)間,第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);

隨著時(shí)間移動(dòng),計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)軌跡中的活動(dòng)點(diǎn)的空間距離與時(shí)間差值;若空間距離小于設(shè)定閾值,并且時(shí)間差值小于設(shè)定閾值,則將該點(diǎn)加入到該活動(dòng)點(diǎn);否則,該點(diǎn)設(shè)為新的活動(dòng)點(diǎn);直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;優(yōu)選的設(shè)定閾值的范圍為500m-1000m。

對(duì)于候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),若該點(diǎn)的進(jìn)入時(shí)間與離開時(shí)間的差值小于一定閾值,則認(rèn)為該點(diǎn)不是活動(dòng)點(diǎn),將其從候選活動(dòng)點(diǎn)軌跡中移除,最后得到的活動(dòng)點(diǎn)軌跡。優(yōu)選的,閾值取值范圍為1小時(shí)-3小時(shí)。

進(jìn)一步地,步驟S200中根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息具體包括:

步驟S221、根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;

步驟S222、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;

步驟S223、根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布。

具體實(shí)施時(shí),對(duì)于經(jīng)過處理過的社交簽到數(shù)據(jù),利用其富含豐富的簽到類別信息,構(gòu)建和學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息。具體方法如下:

根據(jù)社交簽到平臺(tái)所提供的簽到類別,以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布Pr(ATi|t),表示為:

<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>h</mi> <mi>e</mi> <mi>c</mi> <mi>k</mi> <mi>i</mi> <mi>n</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Sigma;</mi> <mi>t</mi> </msub> <mi>c</mi> <mi>h</mi> <mi>e</mi> <mi>c</mi> <mi>k</mi> <mi>i</mi> <mi>n</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>

checkins(ATi,t)表示時(shí)刻t活動(dòng)類型為i的簽到數(shù)量,∑tcheckins(ATi,t)是一天內(nèi)各個(gè)時(shí)刻從事活動(dòng)類型為i的簽到數(shù)量,其中ATi為從事活動(dòng)類別為i的簽到數(shù),根據(jù)用戶的簽到軌跡,計(jì)算得到不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布,表示為Pr(ATi,t|ATj,t-1),其中i,j表示活動(dòng)的類別,t表示時(shí)間。ATi,t表示在t時(shí)刻從事活動(dòng)類型為i的簽到數(shù)量,(ATj,t-1)表示在t-1時(shí)刻從事活動(dòng)類型為j的簽到數(shù),該概率Pr(ATi,t|ATj,t-1)的意義為在已知前一時(shí)刻t-1從事活動(dòng)j的情況下,在時(shí)刻t從事活動(dòng)i的概率;Pr(X)表示事件X的概率公布;

根據(jù)用戶的簽到軌跡,計(jì)算得到不同格網(wǎng)區(qū)域進(jìn)行不同群體活動(dòng)的概率分布,表示為:Pr(Gridm|ATi,t),其中m為格網(wǎng)序號(hào),Gridm表示第m個(gè)格網(wǎng),i為活動(dòng)類別,t為時(shí)間。

進(jìn)一步的實(shí)施例中,所述步驟S200中獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù)具體包括:

步驟S231、預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;

步驟S232、獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;

步驟S233、獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù)。

具體實(shí)施時(shí),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù),探測(cè)人的居家和工作活動(dòng)。具體方法如下:

根據(jù)常識(shí),設(shè)定居家活動(dòng)和工作活動(dòng)的識(shí)別窗口,分別設(shè)為:0點(diǎn)-7點(diǎn),9點(diǎn)-17點(diǎn);

對(duì)于人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)的持續(xù)時(shí)間與以上兩個(gè)識(shí)別窗口進(jìn)行匹配,該活動(dòng)點(diǎn)的持續(xù)時(shí)間若落在識(shí)別窗口內(nèi),并占總識(shí)別窗口時(shí)間長(zhǎng)度的50%以上,則認(rèn)為匹配成功,作為候選居家或工作活動(dòng)位置;

找到匹配時(shí)間最長(zhǎng)的居家或工作活動(dòng)位置作為該用戶的居家和工作活動(dòng)位置;若沒有匹配成功,則認(rèn)為該用戶沒有找到居家或工作活動(dòng)位置。

步驟S300、后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。

利用經(jīng)過得到的活動(dòng)點(diǎn)軌跡,得到的群體活動(dòng)時(shí)空先驗(yàn)信息,得到的人的居家工作活動(dòng)信息,基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,標(biāo)記的活動(dòng)信息主要包括居家、工作、其他(如:娛樂/購(gòu)物/學(xué)習(xí)/休閑/出行等),得到活動(dòng)時(shí)空軌跡鏈。

得到的時(shí)空活動(dòng)軌跡鏈對(duì)于研究城市規(guī)劃和城市功能區(qū)動(dòng)態(tài)變化具有重要的意義。根據(jù)時(shí)空活動(dòng)的變化,對(duì)于已經(jīng)規(guī)劃好的城市功能區(qū)的動(dòng)態(tài)變化可以及時(shí)快速做出調(diào)整和預(yù)測(cè)。

進(jìn)一步的實(shí)施例,步驟S300具體包括:

步驟S301、根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;

步驟S302、根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;

步驟S303、將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈。

具體實(shí)施時(shí),根據(jù)貝葉斯模型,在給定具體位置、時(shí)間、以及前一個(gè)時(shí)刻的活動(dòng)類型之下,下一刻時(shí)刻進(jìn)行某一類型活動(dòng)的概率為:

<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>Grid</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>Grid</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>Grid</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中,m為格網(wǎng)序號(hào),j為前一個(gè)時(shí)刻的活動(dòng)類型,t為當(dāng)前時(shí)刻,i為當(dāng)前時(shí)刻活動(dòng)類型。

對(duì)于Pr(Gridm|ATi,t,ATj),認(rèn)為ATj與Gridm條件無關(guān),則該式可以簡(jiǎn)化為:

Pr(Gridm|ATi,t,ATj)=Pr(Gridm|ATi,t) (2)

針對(duì)Pr(ATi|t,ATj),該式可以改寫為:

Pr(ATi|t,ATj)=Pr(ATi,t|ATj,t-1) (3)

結(jié)合公式(2)(3),將公式(1)轉(zhuǎn)換為:

<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>Grid</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>Grid</mi> <mi>m</mi> </msub> <mo>|</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>Grid</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>t</mi> <mo>,</mo> <msub> <mi>AT</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

Pr(ATi|Gridm,t,ATj)∝Pr(Gridm|ATi,t)Pr(ATi,t|ATj,t-1)Pr(ATj|t)(5)

對(duì)于活動(dòng)點(diǎn)軌跡,依次輸入到公式(5)中,計(jì)算從事不同活動(dòng)的概率大小,取最大概率的活動(dòng)標(biāo)記為該活動(dòng)點(diǎn)的最大概率活動(dòng)類型;

特別地,對(duì)于已經(jīng)標(biāo)記為居家或工作活動(dòng)類型的格網(wǎng)位置,則將Pr(Gridm|ATi,t)設(shè)為1,并將ATj,t-1=AThomeorATworking,繼續(xù)輸入到下一活動(dòng)點(diǎn)的標(biāo)記處理。直到所有的活動(dòng)點(diǎn)軌跡中的活動(dòng)點(diǎn)得到標(biāo)記,輸出得到活動(dòng)時(shí)空鏈。AThome表示活動(dòng)類型為居家,ATworking表示活動(dòng)類型為在工作。

其中,活動(dòng)點(diǎn)軌跡提取方法取決于具體的數(shù)據(jù)類型、數(shù)據(jù)的時(shí)空分辨率,不局限于本發(fā)明介紹的方法;

居家和工作活動(dòng)探測(cè)方法受限于時(shí)空數(shù)據(jù)的觀測(cè)時(shí)長(zhǎng),閾值的選取不局限于本發(fā)明介紹的方法;

構(gòu)建和學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息不局限于社交媒體簽到數(shù)據(jù),還可以使用居民調(diào)查數(shù)據(jù)、GPS軌跡數(shù)據(jù)、志愿者采集數(shù)據(jù)等方式。

本發(fā)明提出一種全新的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)收集方法,采用貝葉斯模型進(jìn)行個(gè)體活動(dòng)的推斷,解決現(xiàn)有方法耗時(shí)耗力、成本高、樣本量小等問題,實(shí)現(xiàn)大范圍、海量群體活動(dòng)的準(zhǔn)確、快速、高效提取與收集。本發(fā)明的群體活動(dòng)推斷不僅考慮了城市空間中時(shí)間、位置等因素對(duì)人類活動(dòng)的約束,還考慮了時(shí)空活動(dòng)軌跡中前一時(shí)刻活動(dòng)類型對(duì)后一時(shí)刻活動(dòng)類型的影響,在人類時(shí)空活動(dòng)鏈中考慮活動(dòng)的推斷。

本發(fā)明還提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng)的較佳實(shí)施例的功能原理框圖,如圖2所示,系統(tǒng)包括:

預(yù)處理模塊100,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù),分別對(duì)原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)進(jìn)行預(yù)處理,生成的對(duì)應(yīng)符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);具體如方法實(shí)施例所述。

活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊200,用于后臺(tái)通過預(yù)先設(shè)定時(shí)間和空間的規(guī)則,從待處理信令數(shù)據(jù)中提取活動(dòng)點(diǎn),得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);根據(jù)待處理簽到數(shù)據(jù)中的簽到類別信息,構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);具體如方法實(shí)施例所述。

語義標(biāo)記模塊300,用于后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈;具體如方法實(shí)施例所述。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述預(yù)處理模塊具體包括:

信令數(shù)據(jù)處理單元,用于后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù),對(duì)原始移動(dòng)終端信令數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在預(yù)定范圍內(nèi)的數(shù)據(jù),去除用戶點(diǎn)數(shù)量小于或大于一定閾值的用戶數(shù)據(jù),生成預(yù)處理信令數(shù)據(jù);具體如方法實(shí)施例所述。

簽到數(shù)據(jù)處理單元,用于后臺(tái)獲取原始社交軟件簽到數(shù)據(jù),對(duì)原始社交軟件簽到數(shù)據(jù)進(jìn)行質(zhì)量清洗,去除重復(fù)數(shù)據(jù),去除屬性缺失的數(shù)據(jù),去除時(shí)間和空間不在研究范圍內(nèi)的數(shù)據(jù),去除用戶簽到數(shù)量在一定范圍的用戶數(shù)據(jù),去除只在一個(gè)地點(diǎn)簽到的用戶數(shù)據(jù),生成預(yù)處理簽到數(shù)據(jù);具體如方法實(shí)施例所述。

分辨率轉(zhuǎn)換單元,用于將預(yù)處理信令數(shù)據(jù)與預(yù)處理簽到數(shù)據(jù)的空間分辨率根據(jù)預(yù)定規(guī)則格網(wǎng)的尺度的分辨率進(jìn)行轉(zhuǎn)換,生成對(duì)應(yīng)的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);具體如方法實(shí)施例所述。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述活動(dòng)地點(diǎn)數(shù)據(jù)獲取模塊具體包括:

排序單元,用于后臺(tái)獲取待處理信令數(shù)據(jù),將人和時(shí)間按照特定的時(shí)間規(guī)則進(jìn)行排序,得到的人的時(shí)序軌跡;具體如方法實(shí)施例所述。

活動(dòng)點(diǎn)標(biāo)記單元,用于根據(jù)人的時(shí)序軌跡,計(jì)算人進(jìn)入和離開特定位置的時(shí)間,依次將人進(jìn)入的各個(gè)位置設(shè)置為活動(dòng)點(diǎn),并將人進(jìn)入的第一個(gè)位置設(shè)為活動(dòng)點(diǎn)軌跡中的第一個(gè)活動(dòng)點(diǎn);具體如方法實(shí)施例所述。

候選活動(dòng)點(diǎn)軌跡生成單元,用于計(jì)算時(shí)序軌跡中每一點(diǎn)與已有的活動(dòng)點(diǎn)的空間距離與時(shí)間差值,若空間距離小于設(shè)定閾值,且時(shí)間差值小于設(shè)定閾值,則將所述點(diǎn)加入活動(dòng)點(diǎn),否則,將所述點(diǎn)設(shè)為新的活動(dòng)點(diǎn),直到時(shí)序軌跡中所有點(diǎn)全部計(jì)算完畢,得到候選活動(dòng)點(diǎn)軌跡;具體如方法實(shí)施例所述。

活動(dòng)點(diǎn)軌跡數(shù)據(jù)處理單元,用于獲取候選活動(dòng)點(diǎn)軌跡中的候選活動(dòng)點(diǎn),當(dāng)檢測(cè)到候選活動(dòng)點(diǎn)的進(jìn)入時(shí)間和離開時(shí)間的差值小于第二設(shè)定閾值,則將對(duì)應(yīng)候選活動(dòng)點(diǎn)從候選活動(dòng)點(diǎn)軌跡中移除后,生成活動(dòng)點(diǎn)軌跡數(shù)據(jù);具體如方法實(shí)施例所述。

第一概率計(jì)算單元,用于根據(jù)社交簽到平臺(tái)的簽到類別以及用戶在一天內(nèi)不同時(shí)間段的簽到數(shù)據(jù)總量,計(jì)算得到不同群體活動(dòng)在一天內(nèi)的強(qiáng)度概率分布;具體如方法實(shí)施例所述。

第二概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同群體活動(dòng)在不同時(shí)間下的活動(dòng)轉(zhuǎn)移概率分布;具體如方法實(shí)施例所述。

第三概率計(jì)算單元,用于根據(jù)用戶的簽到數(shù)據(jù),計(jì)算不同的區(qū)域進(jìn)行不同群體活動(dòng)的概率分布;具體如方法實(shí)施例所述。

預(yù)先設(shè)定單元,用于預(yù)先設(shè)定人的活動(dòng)地點(diǎn)的時(shí)間識(shí)別窗口,分別記為第一活動(dòng)窗口、第二活動(dòng)窗口;具體如方法實(shí)施例所述。

候選活動(dòng)位置判定單元,用于獲取人的活動(dòng)點(diǎn)軌跡數(shù)據(jù),將活動(dòng)點(diǎn)持續(xù)時(shí)間分別與第一活動(dòng)窗口和第二活動(dòng)窗口進(jìn)行匹配,若活動(dòng)點(diǎn)的持續(xù)時(shí)間落在某一活動(dòng)窗口內(nèi),并占總活動(dòng)窗口時(shí)間長(zhǎng)度的50%以上,則該活動(dòng)點(diǎn)對(duì)應(yīng)所述活動(dòng)窗口對(duì)應(yīng)的活動(dòng)地點(diǎn)作為候選活動(dòng)位置;具體如方法實(shí)施例所述。

活動(dòng)地點(diǎn)數(shù)據(jù)獲取單元,用于獲取匹配時(shí)間最長(zhǎng)的的候選活動(dòng)位置作為用戶的活動(dòng)地點(diǎn)數(shù)據(jù);具體如方法實(shí)施例所述。

所述的基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集系統(tǒng),其中,所述語義標(biāo)記模塊具體包括:

第四概率計(jì)算單元,用于根據(jù)貝葉斯模型,以及給定的位置、時(shí)間以及前一個(gè)時(shí)刻的活動(dòng)類型后,生成下一時(shí)刻進(jìn)行某一類型活動(dòng)的概率公式;具體如方法實(shí)施例所述。

最大概率活動(dòng)類型標(biāo)記單元,用于根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的各個(gè)活動(dòng)點(diǎn),計(jì)算從事不同活動(dòng)的概率大小,獲取最大概率的活動(dòng)標(biāo)記為所述活動(dòng)點(diǎn)的最大概率活動(dòng)類型;具體如方法實(shí)施例所述。

活動(dòng)時(shí)空軌跡鏈生成單元,用于將活動(dòng)點(diǎn)軌跡數(shù)據(jù)中的所有活動(dòng)點(diǎn)標(biāo)記后,輸出活動(dòng)時(shí)空軌跡鏈;具體如方法實(shí)施例所述。

綜上所述,本發(fā)明提供了一種基于多源時(shí)空軌跡數(shù)據(jù)的群體活動(dòng)數(shù)據(jù)收集方法及系統(tǒng),方法包括:后臺(tái)獲取原始移動(dòng)終端信令數(shù)據(jù)和原始社交軟件簽到數(shù)據(jù)并進(jìn)行預(yù)處理,生成符合特定格式的待處理信令數(shù)據(jù)和待處理簽到數(shù)據(jù);后臺(tái)從待處理信令數(shù)據(jù)得到的活動(dòng)點(diǎn)軌跡數(shù)據(jù);構(gòu)建并學(xué)習(xí)群體活動(dòng)規(guī)律的先驗(yàn)信息;獲取活動(dòng)點(diǎn)軌跡數(shù)據(jù),獲取活動(dòng)地點(diǎn)數(shù)據(jù);后臺(tái)根據(jù)活動(dòng)點(diǎn)軌跡數(shù)據(jù)、群體活動(dòng)規(guī)律的先驗(yàn)信息、活動(dòng)地點(diǎn)數(shù)據(jù),采用基于貝葉斯模型進(jìn)行活動(dòng)點(diǎn)軌跡語義信息標(biāo)記,生成活動(dòng)時(shí)空軌跡鏈。本發(fā)明采用貝葉斯模型進(jìn)行個(gè)體活動(dòng)的推斷,并考慮了時(shí)空活動(dòng)軌跡中前一時(shí)刻活動(dòng)類型對(duì)后一時(shí)刻活動(dòng)類型的影響,實(shí)現(xiàn)大范圍、海量群體活動(dòng)的準(zhǔn)確、快速、高效提取與收集。

應(yīng)當(dāng)理解的是,本發(fā)明的應(yīng)用不限于上述的舉例,對(duì)本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進(jìn)或變換,所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
孟州市| 信丰县| 当阳市| 泰来县| 福海县| 双城市| 句容市| 五台县| 都昌县| 汾西县| 从化市| 页游| 贞丰县| 桐梓县| 汾阳市| 涿州市| 凤台县| 平遥县| 武乡县| 安义县| 轮台县| 兴和县| 应城市| 库伦旗| 灵丘县| 黎川县| 原平市| 栾川县| 北碚区| 桐乡市| 梧州市| 永嘉县| 卫辉市| 女性| 无锡市| 德阳市| 陆丰市| 清河县| 沙河市| 江达县| 锡林浩特市|