一種針對(duì)行人行為模式的分布集中式交通大數(shù)據(jù)聚類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于大數(shù)據(jù)挖掘方法領(lǐng)域,具體涉及一種分布集中式大數(shù)據(jù)模式發(fā)現(xiàn)方法
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)時(shí)代的來臨,越來越多的應(yīng)用情景下,人們需要處理的數(shù)據(jù)規(guī)模擴(kuò)展 到TB甚至PB級(jí)別,并且希望從中快速有效地挖掘出可靠、有用的隱藏信息。因此,如何快 速準(zhǔn)確地從大數(shù)據(jù)中挖掘價(jià)值信息在當(dāng)前具有重要意義。聚類分析作為一種數(shù)據(jù)挖掘領(lǐng)域 的核心技術(shù)之一,常??梢宰鳛槠渌麛?shù)據(jù)挖掘算法的前期處理。然而面對(duì)如此龐大的數(shù)據(jù) 規(guī)模,傳統(tǒng)的聚類方法在數(shù)據(jù)存儲(chǔ)、計(jì)算復(fù)雜性等方面不能滿足現(xiàn)實(shí)需要。
[0003] 例如我們要對(duì)北京、上海、廣州的數(shù)據(jù)進(jìn)行挖掘,直觀的想法是把數(shù)據(jù)集中起來再 進(jìn)行處理,比如說可以將上海和廣州的數(shù)據(jù)直接拷貝到北京來。但是當(dāng)數(shù)據(jù)量達(dá)到一定的 規(guī)模之后這種拷貝就顯得不是那么現(xiàn)實(shí),也就是在我們所說的大數(shù)據(jù)背景下,拷貝或者集 中的成本可能是無法接受的,如時(shí)間、設(shè)備、金錢等。這樣就要求我們必須對(duì)傳統(tǒng)本地式的 數(shù)據(jù)挖掘方法進(jìn)行改進(jìn)甚至是顛覆式地改變。
[0004] 本發(fā)明提出一種針對(duì)分布式大數(shù)據(jù)的模式發(fā)現(xiàn)方法,首先對(duì)不同地點(diǎn)的數(shù)據(jù)分別 進(jìn)行特征點(diǎn)提取,數(shù)據(jù)規(guī)模大幅度下降到可以傳輸?shù)牧考?jí),然后將不同地區(qū)的數(shù)據(jù)特征點(diǎn) 進(jìn)行集中處理,挖掘出全體數(shù)據(jù)的模式。例如對(duì)于北京、上海、廣州三個(gè)地區(qū)的某行業(yè)的數(shù) 據(jù),我們先對(duì)單個(gè)地區(qū)的數(shù)據(jù)提取一些有代表性的特征點(diǎn),然后將三個(gè)地區(qū)的數(shù)據(jù)特征點(diǎn) 匯總到北京,在北京的機(jī)器上進(jìn)行全體數(shù)據(jù)的挖掘,最終挖掘出該行業(yè)數(shù)據(jù)的整體模式。
[0005] 在具體的應(yīng)用方面,本發(fā)明主要針對(duì)的是行人行為模式的分布集中式交通大數(shù)據(jù) 的聚類問題。更進(jìn)一步地,當(dāng)下交通事故頻發(fā),占相當(dāng)比例是由于行人闖紅燈引起的,如果 能對(duì)路面行人尤其是過馬路的行人的行為模式進(jìn)行發(fā)現(xiàn)并相應(yīng)地制定應(yīng)對(duì)方案,就可以有 效地控制行人闖紅燈事件的發(fā)生從而相應(yīng)減少交通事故的出現(xiàn)。
[0006] 闖紅燈的行人數(shù)據(jù)可以通過監(jiān)控錄像發(fā)現(xiàn),同時(shí)通過圖像處理技術(shù)還可以獲得當(dāng) 時(shí)路面同時(shí)等待過馬路的行人數(shù)量等信息,而實(shí)時(shí)的路段平均車速數(shù)據(jù)以及路面寬度和紅 燈時(shí)長(zhǎng)等信息也為已知。每一個(gè)闖紅燈的行人都對(duì)應(yīng)著這些維度的信息,每一個(gè)地區(qū)都存 在著大量的闖紅燈的行人的數(shù)據(jù),然而從全國(guó)的角度出發(fā),想要挖掘全國(guó)闖紅燈行人的行 為模式卻需要面對(duì)大數(shù)據(jù)遷移集中的問題,一個(gè)行之有效的分布集中式交通大數(shù)據(jù)聚類方 法的發(fā)明顯得十分有必要。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的對(duì)象是分布式大數(shù)據(jù),首先提出一種對(duì)于單個(gè)地點(diǎn)的數(shù)據(jù)特征點(diǎn)提取方 法,然后將不同地點(diǎn)的特征點(diǎn)信息匯總到一處,再進(jìn)行整體數(shù)據(jù)的挖掘,利用基于密度的算 法進(jìn)行聚類。
[0008] 1?單個(gè)地點(diǎn)數(shù)據(jù)特征點(diǎn)信息提取
[0009] 對(duì)于單個(gè)地點(diǎn)的數(shù)據(jù),我們用若干個(gè)特征點(diǎn)及每個(gè)特征點(diǎn)對(duì)應(yīng)的權(quán)重代表。
[0010] 1. 1確定每個(gè)地點(diǎn)的數(shù)據(jù)平均密度
[0011] 根據(jù)數(shù)據(jù)的范圍,將數(shù)據(jù)規(guī)范到一個(gè)區(qū)域中,如二維的數(shù)據(jù)是一個(gè)能覆蓋所有數(shù) 據(jù)點(diǎn)的最小矩形,三維數(shù)據(jù)是一個(gè)能覆蓋所有數(shù)據(jù)點(diǎn)的最小立方體,以此類推。
[0012] 數(shù)據(jù)的平均密度D定義為數(shù)據(jù)點(diǎn)的個(gè)數(shù)N與規(guī)范化區(qū)域測(cè)度S的比值,即D= |。
[0013] 1. 2確定特征點(diǎn)覆蓋區(qū)域的半徑
[0014] 首先,我們定義單個(gè)地點(diǎn)所能承受的傳輸數(shù)據(jù)點(diǎn)的個(gè)數(shù)為M,所以最后該地點(diǎn)向數(shù) 據(jù)處理中心傳輸?shù)奶卣鼽c(diǎn)的個(gè)數(shù)同樣也是M個(gè),這里傳輸?shù)膬?nèi)容同時(shí)包括特征點(diǎn)的坐標(biāo)以 及權(quán)重,且權(quán)重之和為該地區(qū)的數(shù)據(jù)點(diǎn)總和。
[0015] 在最理想的情況下,每個(gè)特征點(diǎn)所表示的區(qū)域應(yīng)該是沒有交集的,所以我們定義 平均每個(gè)特征點(diǎn)所代表的測(cè)度
[0016]
【主權(quán)項(xiàng)】
1. 獲取闖紅燈行人的多個(gè)維度的信息,本發(fā)明分別選擇2個(gè)(紅燈時(shí)長(zhǎng)、該路段實(shí)時(shí)平 均車速)和4個(gè)維度(紅燈時(shí)長(zhǎng)、等待人數(shù)、馬路寬度、該路段實(shí)時(shí)平均車速)作為影響行 人闖紅燈行為的因素,即一個(gè)闖紅燈行人數(shù)據(jù)點(diǎn)的維度由選擇的維度決定。
2. 定義單個(gè)地區(qū)數(shù)據(jù)點(diǎn)的個(gè)數(shù)除W該地區(qū)每個(gè)維度上數(shù)據(jù)的最大值減去最小值的差 相乘的積作為該地區(qū)數(shù)據(jù)的平均密度。
3. 定義特征點(diǎn)表示的區(qū)域的測(cè)度(二維是圓的面積、H維是球的體積W此類推)乘W 所能承受傳輸點(diǎn)的個(gè)數(shù)的最大值為該地區(qū)每個(gè)維度上數(shù)據(jù)的最大值減去最小值的差相乘 的積,由此確定特征點(diǎn)表示區(qū)域的半徑。
4. 對(duì)于單個(gè)地點(diǎn)的數(shù)據(jù),按照如下算法提取單個(gè)地點(diǎn)的特征點(diǎn),包括特征點(diǎn)坐標(biāo)、特征 點(diǎn)權(quán)重、特征點(diǎn)表示范圍的半徑: (1) 在所有數(shù)據(jù)點(diǎn)中,隨機(jī)選擇一個(gè)沒有被打上標(biāo)記的點(diǎn),將W該個(gè)點(diǎn)為圓也,R為半 徑的區(qū)域作為該點(diǎn)可W表示的區(qū)域,如果該區(qū)域的數(shù)據(jù)點(diǎn)密度大于平均密度的K倍(本發(fā) 明取10),則將該個(gè)點(diǎn)作為一個(gè)特征點(diǎn),其所表示區(qū)域內(nèi)的點(diǎn)的個(gè)數(shù)作為該特征點(diǎn)的權(quán)重, 并且將該個(gè)特征點(diǎn)所表示區(qū)域內(nèi)的數(shù)據(jù)點(diǎn)全部打上標(biāo)記,在下次搜索特征點(diǎn)的過程中將不 再考慮該些點(diǎn)。如果搜索到的特征點(diǎn)的個(gè)數(shù)達(dá)到該地區(qū)所能承受的傳輸?shù)狞c(diǎn)的最大值M,則 停止搜索,傳送所有特征點(diǎn)的坐標(biāo)及權(quán)重; (2) 如果遍歷所有未被打上標(biāo)簽的數(shù)據(jù)點(diǎn)仍然沒有找到新的特征點(diǎn),則將K(本發(fā)明取 10)值減1,進(jìn)入(1),直至K(本發(fā)明取10)值小于或等于1停止搜索,傳送所有特征點(diǎn)的坐 標(biāo)及權(quán)重。
5. 將多個(gè)地點(diǎn)的特征點(diǎn)坐標(biāo)、特征點(diǎn)權(quán)重、特征點(diǎn)表示范圍的半徑W可承受的代價(jià)匯 總到一處,對(duì)于匯總之后的數(shù)據(jù),按照如下算法聚類: 隨機(jī)選取一個(gè)沒有被標(biāo)記的特征點(diǎn)作為一棵樹的根節(jié)點(diǎn),按照廣度優(yōu)先的原則進(jìn)行樹 的生成過程,其中樹的每一個(gè)節(jié)點(diǎn)即為一個(gè)特征點(diǎn),一棵樹的所有節(jié)點(diǎn)屬于一個(gè)聚簇,每一 個(gè)新生成的子節(jié)點(diǎn)滿足W下兩個(gè)條件: (a)子節(jié)點(diǎn)與父節(jié)點(diǎn)的距離不超過對(duì)應(yīng)特征點(diǎn)所代表區(qū)域的半徑的和(即相切); 化)子節(jié)點(diǎn)所對(duì)應(yīng)特征點(diǎn)的密度大于根節(jié)點(diǎn)對(duì)應(yīng)特征點(diǎn)的密度; 每增加一個(gè)子節(jié)點(diǎn)都對(duì)其是否有標(biāo)記做判斷,如果沒有標(biāo)記,則將該節(jié)點(diǎn)對(duì)應(yīng)的特征 點(diǎn)歸入當(dāng)前聚簇并打上標(biāo)記,如果已經(jīng)有了標(biāo)記,則將當(dāng)前生成的樹所對(duì)應(yīng)的聚類與該新 增加的節(jié)點(diǎn)所對(duì)應(yīng)的聚簇合并為一個(gè)聚簇,并開始一個(gè)新的樹的搜索過程; 直至;所有的特征點(diǎn)都被歸為一個(gè)聚簇當(dāng)中。
【專利摘要】在本發(fā)明中,我們對(duì)分布式的行人闖紅燈數(shù)據(jù)進(jìn)行了特征點(diǎn)提取,匯總多個(gè)地點(diǎn)的特征點(diǎn)坐標(biāo)、權(quán)重以及表示范圍的半徑等信息到一處,再利用基于密度的聚類算法對(duì)全局?jǐn)?shù)據(jù)進(jìn)行聚類,獲取了全局?jǐn)?shù)據(jù)的模式,并將全局聚類結(jié)果返回至單個(gè)地點(diǎn)。對(duì)于分布式數(shù)據(jù)的聚類,當(dāng)數(shù)據(jù)量較大時(shí)候拷貝、傳輸數(shù)據(jù)代價(jià)往往無法承受,本發(fā)明根據(jù)能夠根據(jù)實(shí)際的數(shù)據(jù)點(diǎn)傳輸能力,用特征點(diǎn)代表單個(gè)區(qū)域的數(shù)據(jù),之后通過對(duì)集中的各個(gè)地區(qū)的特征點(diǎn)的聚類來代替大數(shù)據(jù)集中的聚類,從而有效解決了大數(shù)據(jù)遷移所帶來的問題。闖紅燈現(xiàn)象是造成交通事故發(fā)生的一個(gè)很重要的因素,本發(fā)明提供一種全新的聚類方法,專門針對(duì)行人行為模式分布集中式交通大數(shù)據(jù),具有很強(qiáng)的現(xiàn)實(shí)意義和實(shí)踐性。
【IPC分類】G06F17-30, G06K9-62
【公開號(hào)】CN104572639
【申請(qǐng)?zhí)枴緾N201310468804
【發(fā)明人】馬超, 梁循, 馬躍峰, 李曉菲, 王媛媛
【申請(qǐng)人】中國(guó)人民大學(xué)
【公開日】2015年4月29日
【申請(qǐng)日】2013年10月10日