本發(fā)明屬于數(shù)據(jù)挖掘技術領域,具體涉及一種基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法。
背景技術:
大多數(shù)數(shù)據(jù)庫都不能有效地處理數(shù)據(jù)的時間維度,時空同現(xiàn)模式挖掘有利于提取隱含在時空數(shù)據(jù)集中的有價值信息,目前已經(jīng)成為數(shù)據(jù)挖掘研究的前沿領域之一,如時空目標的軌跡聚類、時空對象的行為異常檢測、以及軌跡預測等等。由于監(jiān)控攝像、手機電腦、車載導航等技術的普及,可以很方便獲取時空對象的軌跡數(shù)據(jù)。時空對象的軌跡數(shù)據(jù),從時間片維度上看,是由很多采樣點依照一定的時間間隔按照時間順序排列的位置數(shù)據(jù)序列;從空間軌跡點的信息結構上看,是由空間對象標識、采樣點的位置、采樣點的時間等信息組成的多維數(shù)據(jù),因此時空數(shù)據(jù)本身具有時間和空間層面兩個屬性,而且這兩個屬性相互依存。時空對象的軌跡數(shù)據(jù)作為時空對象的歷史活動數(shù)據(jù),在某些程度上能夠表現(xiàn)時空對象的屬性、狀態(tài)、行為等內部與外部特征,通過分析時空數(shù)據(jù)可以獲得很多有趣模式及有價值的信息,并可以由此推導出更有實際意義的新知識。
實際生活中挖掘時空同現(xiàn)模式是非常有意義的。如用戶交易數(shù)據(jù)中蘊含了非常有價值的用戶行為信息,從這些數(shù)據(jù)中找到蘊藏的知識金塊,就可以幫助企業(yè)減少不必要投資,同時提高資金回報。挖掘行人的歷史位置數(shù)據(jù)中的同現(xiàn)模式,發(fā)現(xiàn)人與人之間的關系,可以將這類關系用作基于位置的廣告推薦等眾多領域。發(fā)現(xiàn)士兵的訓練成績與其他環(huán)境因素等的時空同現(xiàn)模式,得到不同等級的成績與不同因素的同現(xiàn)關系,就可以在訓練中有針對性地組織訓練,提高訓練水平;研究作戰(zhàn)策略及部署方式獲得的同現(xiàn)模式,可以用于推理當前艦隊火力,提高打擊的精準度。時空同現(xiàn)模式在其他領域如交通管制、氣象研究、國防軍事、基于位置的服務等也都具有極高的應用價值。
時空數(shù)據(jù)的海量生成使得時空數(shù)據(jù)挖掘的相關技術得到迅猛發(fā)展,時空同現(xiàn)模式挖掘是當前時空數(shù)據(jù)領域的關鍵技術之一,旨在從包含多個時空對象類型的時空數(shù)據(jù)集中,發(fā)現(xiàn)頻繁在鄰近位置同現(xiàn)且頻繁在連續(xù)時間槽內共現(xiàn)的類型集合,給出時空對象間比較典型的同現(xiàn)規(guī)律。在眾多技術中,時空對象的同現(xiàn)模式發(fā)現(xiàn)技術是挖掘對象活動特征的關鍵技術之一,其主要是通過對時空對象軌跡數(shù)據(jù)進行特征分析,發(fā)現(xiàn)時空對象間比較典型的活動模式。同現(xiàn)模式的頻繁特性可以用來檢測時空對象在時空領域頻繁發(fā)生的活動和頻繁訪問的路徑,也可以在對象空間活動的基礎上發(fā)現(xiàn)重復活動的時間特征,具體表現(xiàn)為周期性。
現(xiàn)有技術中,同現(xiàn)模式挖掘技術已在不同領域有了一定的應用范圍,但在篩選空間同位模式及發(fā)現(xiàn)時空同現(xiàn)模式的過程中存在如下技術缺點:
(1)時空同現(xiàn)模式的計算效率仍比較低
大多數(shù)方法沒有對數(shù)據(jù)集進行建模,直接用原始數(shù)據(jù)集進行候選模式的生成及時空興趣度的計算,導致大量重復或無用的計算,影響了同現(xiàn)模式的挖掘效率。其次,基于連接操作生成多元候選模式,不僅占用較大內存空間,而且計算效率也比較低。
(2)時空距離及時空興趣度的計算方式不太貼近實際
現(xiàn)有方法中采用歐氏距離表示時空對象間的距離,但實際的時空對象在移動過程中,從一個對象到另一個對象的行走路線大多不是直線;其次,目前多數(shù)方法在計算時空興趣度時,忽略了元素類型的實際存在周期,計算方法不能很好地描述同現(xiàn)模式的共現(xiàn)規(guī)律。另外,現(xiàn)有技術多采用時空閾值驅動同現(xiàn)模式的挖掘過程,但時空閾值難以預先設定。
技術實現(xiàn)要素:
本發(fā)明的目的在于針對現(xiàn)有技術的不足,提供基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法,以解決上述技術問題。
本發(fā)明的實施例提供了一種基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法,包括如下步驟:
步驟1,對時空數(shù)據(jù)集進行初始化建模,建立用以表示實例及元素之間時空關系的雙層時空網(wǎng)絡,并保存時空網(wǎng)絡對應的鄰接矩陣;其中,時空網(wǎng)絡包括實例網(wǎng)絡層及元素網(wǎng)絡層,元素網(wǎng)絡層用于生成候選集;
步驟2,從實例網(wǎng)絡層中讀取相應鄰近關系序列,計算模式支持度及空間頻繁度;
步驟3,從元素網(wǎng)絡層讀取模式的鄰近關系,計算模式的時間頻繁度;
步驟4,根據(jù)模式的各時間槽空間頻繁度及時間頻繁度計算模式的權重特征值;
步驟5,將所有同現(xiàn)模式按照權重特征值進行排序,根據(jù)輸入的模式比例值,輸出滿足條件的模式集。
進一步,步驟1具體包括:輸入時空數(shù)據(jù)集,讀取時空數(shù)據(jù)集的屬性信息,獲得各元素類型的元素周期;將時空數(shù)據(jù)集預處理成預定格式;其中,預定格式的內容包括實例編號、元素類型、位置信息、時間信息;將時空數(shù)據(jù)集中所有數(shù)據(jù)點按時間槽劃分,計算各時間槽中元素實例的時空距離;其中,時空距離為曼哈頓距離;獲取時空距離閾值D;獲取元素實例間的時空距離小于等于閾值D,而且元素實例都處于元素周期的元素實例對,保存具有鄰近關系的實例對;獲取各時間槽內的鄰近關系;根據(jù)獲取的各時間槽內的鄰近關系建立實例網(wǎng)絡層,并采用鄰接矩陣保存實例網(wǎng)絡層;根據(jù)實例網(wǎng)絡層的各實例的元素類型,建立元素網(wǎng)絡層,并采用鄰接矩陣保存元素網(wǎng)絡層。
進一步,獲取各時間槽內的鄰近關系包括:當具有鄰近關系的實例對首次出現(xiàn):將鄰近關系的兩個結點連接,邊上的鄰近系列對應的當前時間槽位設為1;在鄰近序列中在當前時間槽之前的,若是在實例對應的模式的時間框架內,設為0;在鄰近序列中在當前時間槽之前的,若不在模式的時間框架內,設為-1;
當所述具有鄰近關系的實例對非首次出現(xiàn):在實例連接的邊上,對應的時間槽位設為1。
進一步,步驟2中,計算模式支持度包括:獲取未計算模式支持度的元素;統(tǒng)計在元素網(wǎng)絡層中,與元素相連的實例總數(shù);統(tǒng)計在對應時間槽序列中為1的實例數(shù),即實例支持數(shù);求出實例支持數(shù)與實例總數(shù)的比值,即元素的模式支持度。
進一步,步驟2中,計算空間頻繁度包括:獲取未計算空間頻繁度的模式;求得模式中所有元素的元素框架交集,即模式的時間框架;在時間框架下,獲取未計算空間頻繁度的時間槽;求得所述時間槽下模式的最小模式支持度,即模式的空間頻繁度;其中,時間槽下若沒有元素實例集在實例網(wǎng)絡層存在同現(xiàn)關系,則空間頻繁度為0。
進一步,步驟3具體包括:獲取未計算時間頻繁度的模式;在元素網(wǎng)絡層中,獲取模式所有元素之間值為1的所有時間槽,即可能同現(xiàn)的時間槽;用同現(xiàn)的時間槽數(shù)除以模式時間框架時間槽數(shù),求得模式的時間頻繁度。
進一步,步驟4具體包括:獲取未計算權重特征值的模式;將模式在所有時間槽的空間頻繁度作為空間特征,計算空間頻繁度均值;計算模式權重特征值,公式如下:權重特征值=空間頻繁度均值×時間頻繁度。
進一步,步驟5具體包括:采用堆排序方法按權重特征值對所有模式進行排序,得到模式鏈表;按照需求,輸入最需要的時空同現(xiàn)模式的比例值k;按照比例值k,從模式鏈表中取排在前k的模式集,獲取時空同現(xiàn)模式集。
與現(xiàn)有技術相比本發(fā)明的有益效果是:提高了時空同現(xiàn)模式的計算效率,解決了時空閾值難以設定的問題。
附圖說明
圖1是本發(fā)明一實施例中時空數(shù)據(jù)集的示意圖;
圖2是根據(jù)圖1的時空數(shù)據(jù)集建立的時空數(shù)據(jù)集實例網(wǎng)絡層;
圖3是根據(jù)圖2的時空數(shù)據(jù)集實例網(wǎng)絡層建立的時空數(shù)據(jù)集的元素網(wǎng)絡層;
圖4是本發(fā)明基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法的整體流程圖;
圖5是歐氏距離與曼哈頓距離的示意圖;
圖6是本發(fā)明一實施例中AC模式的元素周期內的時空數(shù)據(jù)集;
圖7是本發(fā)明一實施例中初始化時空網(wǎng)絡流程圖;
圖8是本發(fā)明一實施例中模式支持度計算流程圖;
圖9是本發(fā)明一實施例中模式的空間頻繁度計算流程圖;
圖10是本發(fā)明一實施例中模式的時間頻繁度計算流程圖;
圖11是本發(fā)明一實施例中同現(xiàn)模式挖掘流程圖;
圖12是本發(fā)明一實施例中建模時間與時空同現(xiàn)模式挖掘總時間比較圖;
圖13是本發(fā)明一實施例中三種方法運行效率的比較結果。
具體實施方式
下面結合附圖所示的各實施方式對本發(fā)明進行詳細說明,但應當說明的是,這些實施方式并非對本發(fā)明的限制,本領域普通技術人員根據(jù)這些實施方式所作的功能、方法、或者結構上的等效變換或替代,均屬于本發(fā)明的保護范圍之內。
本實施例針對現(xiàn)有技術中的兩個技術缺陷,從提高同現(xiàn)模式計算效率及有效時空興趣度計量方式兩個方面出發(fā),提出了如下技術方案:
(1)對時空數(shù)據(jù)集進行初始化建模,建立一種可以有效表示實例及元素之間時空關系的時空網(wǎng)絡。本實施例在時間匯總圖的基礎上,提出了雙層網(wǎng)絡的時空建模方式,雙層網(wǎng)絡包含實例網(wǎng)絡層及元素網(wǎng)絡層,從元素網(wǎng)絡層生成的候選集規(guī)模比直接從數(shù)據(jù)集生成要小很多,而且候選集中的模式至少存在一組實例支持模式同現(xiàn),因此可以緩解由候選集規(guī)模造成的計算量過大問題。其次,時空網(wǎng)絡中的邊存儲了實例之間及元素之間的時空關系,同現(xiàn)模式的時空頻繁度計算可以直接讀取對應邊上的序列,而且時空網(wǎng)絡的易于存取及可重復利用性,使同現(xiàn)模式的計算效率得以提升;
(2)重新設定了時空對象間的時空距離及相關時空興趣度的計算方式。針對現(xiàn)有技術中歐氏距離的缺點,本實施例采用更能描述實際時空對象間距離的曼哈頓距離,使得距離更貼近實際,而且在一定程度上提高了距離計算速度。不同時空對象,其有效時間段的起始時間及終止時間都不一樣,本實施例根據(jù)這一事實,重新描述了時空頻繁度的計量方式,并引入了表示模式時空頻繁度的計量度——權重特征值,模式按照該值排序形成模式鏈表,該鏈表保存了不同頻繁度的時空同現(xiàn)模式,根據(jù)需要輸入獲取同現(xiàn)模式的比例值,就可以從鏈表中獲得最終的同現(xiàn)模式集。權重特征值的大小表示了模式在空間及時間的頻繁程度,輸入比例值就可以獲得高頻繁率的時空同現(xiàn)模式集,不需要預先設定時間頻繁閾值及空間頻繁閾值,避免了時空閾值難以設定的問題。
下面對本發(fā)明作進一步詳細說明,參圖1至圖13所示。
時空數(shù)據(jù)集建模方式
(1)時空網(wǎng)絡建模
本實施例基于時間匯總圖的模式,提出了一種雙層網(wǎng)絡建模方式,在初始化過程中對時空數(shù)據(jù)集進行網(wǎng)絡建模。該雙層網(wǎng)絡分別對時空對象的實例之間以及時空對象的(元素)類型之間建立關系網(wǎng)絡。為方便計算,本實施例對所有實例對象及元素類型進行了編號,雙層網(wǎng)絡分別采用鄰接矩陣的方式進行存儲,由于每層網(wǎng)絡都是無向圖,其存儲在鄰接矩陣中的信息是對稱的,因此只存儲上三角(或下三角)矩陣信息即可保留全部的同現(xiàn)信息。
①基于雙層網(wǎng)絡對時空數(shù)據(jù)的初始化建模方法
輸入時空數(shù)據(jù)集(元素類型,當前實例,經(jīng)度坐標,緯度坐標,當前時間槽)、元素及元素有效周期列表(元素類型,有效周期)、元素對象之間的鄰近距離。
遍歷時空數(shù)據(jù)集,形成實例網(wǎng)絡層,具體包括:遍歷元素存在周期,獲得總時間框架;創(chuàng)建初始實例網(wǎng)絡層鄰接矩陣;初始時每個時間序列的時間槽位為-1;計算時間框架下的每個時間槽內對象之間的距離;實例對象排序時,Oj編號在Oi的后面;若兩對象之間的距離小于等于給定鄰近距離,時間槽位設為1,否則時間槽位設為0。
根據(jù)實例網(wǎng)絡層生成元素網(wǎng)絡層,具體包括:創(chuàng)建初始元素網(wǎng)絡層鄰接矩陣;初始時每個時間序列的時間槽位為-1;若兩對象實例在當前時間槽存在同位關系,將其對應的元素網(wǎng)絡層中的時間序列位設為1;若兩元素都在有效周期內,且當前兩對象之間不存在同位,但存在元素的其他對象,其對象之間在該時間槽同位,保留同位關系為1;不存在其他對象實例之間的同位關系,當前時間槽位TEk設為0。
輸出實例網(wǎng)絡層及元素網(wǎng)絡層。
②具體建模步驟
對時空數(shù)據(jù)集中各對象類型進行一次建模,形成實例網(wǎng)絡層;
從實例網(wǎng)絡層出發(fā),根據(jù)實例的類型屬性形成元素網(wǎng)絡層,兩層網(wǎng)絡之間類型和類型的實例之間存在映射關系。
在實例網(wǎng)絡的建立過程中,以類型實例作為網(wǎng)絡中的結點,結點之間在首次出現(xiàn)鄰近時連接,結點之間的邊用序列表示結點之間在各時間槽是否鄰近,實例之間若滿足鄰近關系,設為1,不滿足鄰近關系,設為0,邊連接的兩實例不處于有效周期內設為-1。在元素網(wǎng)絡層,結點類型之間同樣在首次出現(xiàn)同現(xiàn)時連接,兩個元素類型若在某一時間槽內同位,對應時間槽標記為1,不同位,則標記為0,若某一時間槽不在兩個類型構成的模式的時間框架內,則設為-1。
參圖1及圖2所示,其中,圖1為時空數(shù)據(jù)集,包含A、B、C、D四種元素類型,A元素類型有4個實例,元素周期為時間槽0~時間槽2,B元素類型有3個實例,元素周期為時間槽0~時間槽3,C元素類型有5個實例,元素周期為時間槽0~時間槽3,D元素類型有4個實例,元素周期為時間槽1~時間槽3,圖1中元素實例之間的連線表示曼哈頓距離滿足鄰近關系,而且不在元素周期內的元素實例未計算鄰近距離。圖2為根據(jù)圖1的時空數(shù)據(jù)集建立的時空數(shù)據(jù)集實例網(wǎng)絡層。
對圖1的數(shù)據(jù)集建立實例網(wǎng)絡層,如圖2所示。在圖2中,實例之間在各時間槽的鄰近關系組成序列,作為圖中結點之間邊的屬性,可以從該網(wǎng)絡層中高效地獲取實例在所有時間槽中與其它實例的空間鄰近關系。結點之間邊上的序列值為1,表示所對應的時間槽中邊所連接的兩個實例是鄰近關系,某一類型的模式支持實例數(shù)可以很容易從網(wǎng)絡中讀取出來,從而計算出模式支持度以及空間頻繁度。以圖1中時空數(shù)據(jù)集為例,根據(jù)圖2的實例網(wǎng)絡層建立的元素網(wǎng)絡層如圖3所示。
如圖3所示,模式的時間框架可以很容易從元素網(wǎng)絡中獲得。對于一個模式,若是時空同現(xiàn)模式,那么模式中的所有類型在元素網(wǎng)絡層中都相連,并在某一時間槽內所有類型之間邊上的值都為1,而且至少存在一組實例支持該同現(xiàn)關系。依據(jù)此原則,還可以直接從元素網(wǎng)絡層生成候選模式集,可以避免大量的連接操作。元素網(wǎng)絡層保存的同現(xiàn)關系使時間頻繁度可以快速計算出來。
本實施例將時間匯總圖網(wǎng)絡模型應用于時空同現(xiàn)模式挖掘的數(shù)據(jù)初始化過程中,在原有模型的基礎上,對時空數(shù)據(jù)集建立兩層時空網(wǎng)絡,通過訪問雙層網(wǎng)絡可以快速地獲取到元素實例間的鄰近關系以及元素間的時空關系,使得時空興趣度的計算更便捷、快速。針對傳統(tǒng)算法中多采用大量的連接操作以及復雜的空間區(qū)域分割,使得時空數(shù)據(jù)集的時空關系在一定程度上遭到破壞,而且連接操作產(chǎn)生了大量的候選集,計算量非常大,而且占用大量的內存空間,使得挖掘過程的計算效率非常低的缺陷,本實施例采用雙層時空網(wǎng)絡,避免了大量的連接操作,在一定程度上提高了計算效率,而且網(wǎng)絡結構可以很好地保存數(shù)據(jù)集的時空關系,保障了挖掘的同現(xiàn)模式的有效性。
(2)時空網(wǎng)絡存儲
對數(shù)據(jù)集進行一次初始化建模后,本實施例將產(chǎn)生的時空網(wǎng)絡進行保存,當后續(xù)若需要再用到時空網(wǎng)絡,不需要進行重復建模,就可以直接使用。一次建模多次使用,后續(xù)的時空同現(xiàn)模式的計算效率可以顯著提高。本實施例建立的雙層時空網(wǎng)絡,其本質是無向圖,計算時空距離時,若元素實例集A.1B.1與B.1A.1滿足鄰近關系,則只存儲A.1B.1,不再存儲B.1A.1,本實施例從多元素類型的角度進行時空同現(xiàn)模式研究,因此在計算時空同現(xiàn)模式過程中,不考慮同元素類型的實例之間的時空關系,采用這種存儲方式可以進一步對時空網(wǎng)絡的鄰接矩陣進行壓縮存儲,減小網(wǎng)絡的實際占用空間。在將時空網(wǎng)絡的鄰接矩陣進行存儲時,為方便計算,本實施對所有元素實例進行編號,這樣在鄰接矩陣中,每個行號或者列號就代表一個元素實例,圖2中的實例網(wǎng)絡層的鄰接矩陣如表1所示。
表1實例網(wǎng)絡層的鄰接矩陣
從表1可以看到,鄰接矩陣的有效值部分是表中非空值部分,本實施例在存儲時空關系時,僅存儲表中有效值部分,可以節(jié)省很大空間,這樣時空網(wǎng)絡的鄰接矩陣就可以很方便地保存。給定兩個元素實例,首先判斷這兩個實例在時間框架內的鄰近關系是否合理,即這兩個實例的元素類型是否是同一類型,若這兩者屬于同一元素類型,則不進行網(wǎng)絡讀取,若是不同元素類型,按照之前的排序編號,找出實例網(wǎng)絡層的鄰接矩陣中對應的時空關系,進行模式支持度及空間頻繁度的計算。
參圖4所示,圖4是本發(fā)明基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法的整體流程圖。
本實施例提出了基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法,首先對時空數(shù)據(jù)集中各時間槽內的元素實例之間的時空距離進行計算,滿足給定的時空距離閾值構成時空鄰近關系,對這些關系進行建模,形成雙層時空網(wǎng)絡,讀取該網(wǎng)絡中的鄰近關系序列,快速計算各模式的空間頻繁度及時間頻繁度,之后計算同現(xiàn)模式的權重特征值。將同現(xiàn)模式按照權重特征值進行排序,根據(jù)所需同現(xiàn)模式的比例,獲取滿足條件的時空同現(xiàn)模式集。
本實施例的時空同現(xiàn)模式是在時空同位模式為基礎的空間特性上,將時空數(shù)據(jù)的時間維度也進行頻繁性分析,從而獲得時空同現(xiàn)模式。時空同位模式研究時空空間特征依賴性,主要是指從時空數(shù)據(jù)庫中挖掘出頻繁出現(xiàn)而且緊密相鄰的時空空間特征的集合,這里的特征可以指導致某一事件發(fā)生的各個因素,也可以指時空活動范圍內的各種活動對象等等。判斷模式是否為同位模式,主要以時空距離、模式支持度兩個計量度作為判斷準則。從時空數(shù)據(jù)集中發(fā)現(xiàn)時空同位模式后,本實施例方法以各模式的權重特征值作為挖掘有趣時空同現(xiàn)模式的標準。
下面分別給出各個計量度的定義及計算公式。
(1)時空距離計算
根據(jù)地理學第一定律可以得知,在空間單元中,每一元素都與其他元素相關,但鄰近元素的空間相關性要比距離較遠的元素之間的空間相關性大得多,因此,在時空同現(xiàn)模式挖掘過程中,首先需要計算時空對象的鄰近關系。在計算任意兩個或多個時空對象的距離時,歐氏距離是最常用的一種距離表示法,歐氏距離又稱為歐幾里得度量,是指在n維空間中兩個時空對象之間的真實距離,若把時空對象抽象為點來處理,這個距離就是由點的n位數(shù)據(jù)構成向量的自然長度,也就是該點到空間原點的距離。在歐幾里得空間中,以點x=(x1,...,xn)和y=(y1,...,yn)為例,兩者之間的距離如公式(1)所示。
在實際生活中,從一個地點A到地點B,很少出現(xiàn)直線路徑,尤其是在北京、上海等高樓林立的城市中,街道都是縱橫交錯,從A到B,其行走路線大多需要繞道,那么在實際的時空軌跡數(shù)據(jù)點集中,兩個時空對象的距離計算以歐氏距離為準不是很合理,因此本實施例使用另外一種距離表示法——曼哈頓距離作為對象間的時空距離。曼哈頓距離可以很好地表示城市區(qū)塊距離,其依賴坐標系統(tǒng)的轉度,而非坐標軸上的平移或映射。在歐幾里得空間的固定直角坐標系上,兩點在標準坐標系上絕對軸距總和,也可以表示為兩個點所形成的線段對軸產(chǎn)生的投影的距離總和,同樣以n維空間中點x=(x1,...,xn)和y=(y1,...,yn)為例,其曼哈頓距離計算公式如公式(2)所示。
參圖5所示,圖5是歐氏距離與曼哈頓距離的示意圖。
在圖5中,從A到B的距離,歐氏距離表示為|AB|,若繞道C點,則曼哈頓距離可以表示為|AC|+|CB|,若繞道E點,則曼哈頓距離為|AD|+|DE|+|EF|+|FB|,在以A、B為對角點所圍成的矩形中,不論選取哪一點為繞道點,其曼哈頓距離都相同,即等于|AC|+|CB|。
曼哈頓距離不僅可以更真實地表示時空距離,而且在計算時采用加減法,其計算速度要比以乘法運算為主的歐氏距離快很多。由于這兩個明顯的優(yōu)勢,本實施例選用曼哈頓距離作為時空對象間的距離。
(2)時空興趣度計算
通過計算時空距離,可以發(fā)現(xiàn)數(shù)據(jù)集中滿足鄰近關系的時空對象集,計算該集合中各模式的模式支持度可以得到時空同位模式集,而從時空同位模式集中計算各同位模式的權重特征值,就可以得到需要的時空同現(xiàn)模式集。在時空數(shù)據(jù)挖掘領域中,表現(xiàn)顯著的時空同現(xiàn)模式與其他同現(xiàn)模式相比具有更高的頻繁度值,也就是時空興趣度較高的同現(xiàn)模式具有較高的時間頻繁度值和空間頻繁度值,因此,為了更好地表征時空同現(xiàn)模式的用戶感興趣程度,本實施例在定義模式的權重特征值時,涉及到時間度量和空間度量這兩種度量。時間度量是各同位模式的時間頻繁度,也就是各模式在時間框架下的出現(xiàn)頻率,空間度量是各同位模式在各時間槽下的空間頻繁度,其計算基于模式中各元素的模式支持度,因此時空興趣度主要需要計算模式支持度、空間頻繁度、時間頻繁度及模式權重特征值。
在傳統(tǒng)的時空同現(xiàn)模式計算過程中,時空興趣度的各個計量度都是以給定的整體時間框架為基礎,這里的時間框架是指在其范圍內所有元素在所有時間槽中都是活動狀態(tài),而在實際中,模式中某一元素可能只在某一段時間槽內是活動狀態(tài),而在該時間段外元素是失效的,將給定的整體時間框架稱為整體周期,某一元素的實際活動時間框架稱為元素周期,那么,某一元素的元素周期并非整體周期。若給定一個時空數(shù)據(jù)集,在計算各模式的時空興趣度時,采用整體周期來計算,計算結果可能會產(chǎn)生大量無用的時空同現(xiàn)模式,降低了挖掘結果的有效性,因此本實施例采用將各元素的元素周期而非數(shù)據(jù)集的整體周期來計算時空興趣度。
①模式支持度
模式支持度是指構成模式的所有元素對該模式的支持程度,由于每一元素在時空數(shù)據(jù)集中具有很多實例,在所有實例中參與到該模式中的實例數(shù)就是該元素對模式的支持度,本實施例將參與到模式中的實例數(shù)與元素的所有實例數(shù)之比作為該元素的模式支持度。在時空數(shù)據(jù)集中不同元素的元素周期不同,在確定模式的所有元素在當前時間槽都處于活動狀態(tài)時,某一元素對模式的支持度計算方式如公式(3)所示。
在公式(3)中,PS(Pattern Support)是模式支持度,I表示支持當前模式處于活動狀態(tài)的元素實例數(shù),A表示元素的所有實例數(shù)。
以圖1中的數(shù)據(jù)集為例,在時間槽0內,以模式AC為例,元素A和元素C都處于元素周期內,元素A有4個實例,參與支持AC模式的有A.1,A.2,A.4三個實例,因此元素A對模式AC的模式支持度PS(A)=3/4=0.75,元素C共有5個實例,參與支持模式AC的有C.1,C.2,C.3三個實例,因此元素C對模式AC的模式支持度為PS(C)=3/5=0.6。
②空間頻繁度
在某一時間槽下,模式的空間頻繁度是模式中元素實例處于鄰近關系的頻繁程度,任一元素對模式的支持程度都通過其實例表現(xiàn)出來,模式中各元素的實例頻繁鄰近的程度也就表征了該模式在當前時間槽的空間頻繁程度,而實例對元素的模式支持通過模式支持度表示,所有元素的模式支持度也就表征了該模式的空間頻繁程度,最小的模式支持度就是該模式的最低空間頻繁程度,也就是模式中所有元素的模式支持度的最小值,就是該模式在當前時間槽的空間頻繁度。假定某一模式p有k個元素,即p0,...,pk-1,那么模式p的空間頻繁度,也就是模式p中所有元素的模式支持度的最小值,如公式(4)所示。
PS(p)=min{PS(pi)},0≤i≤k-1 (4)
在公式(4)中,PS(p)表示模式p的空間頻繁度,PS(pi)表示元素pi的模式支持度。以圖2中時間槽0中的AC模式為例,PS(AC)=min{PS(A),PS(C)}={0.75,0.6}=0.6。
③時間頻繁度
時間頻繁度是指某一模式在不同時間槽下頻繁出現(xiàn)的程度。對于某一模式p,其時間頻繁度的計算首先要計算該模式的時間框架,該時間框架就是該模式有效的時間槽段,也就是求出所有元素的元素周期交集,在該交集內所有元素都是有效的,該模式也就處于有效計算狀態(tài)。假定模式p中有n個元素,p0,...,pn-1,各元素對應的時間框架為T0,...,Tn-1,則該模式p的時間頻繁度計算方式如公式(5)所示。
其中,TP(p)(Time Support of Pattern)是模式p的時間頻繁度,Ti表示p中某一元素pi所對應的時間框架。以圖1中的AC模式為例,A的元素周期為時間槽0~時間槽2,C的元素周期為時間槽0~時間槽3,元素A與元素C的元素周期交集為時間槽0~時間槽2。模式AC出現(xiàn)時間槽有:時間槽0、時間槽1、時間槽2,因此TP(AC)=3/3=1。
④權重特征值
時空同現(xiàn)模式不僅表示模式中各元素的時空鄰近關系,還表示了這種關系的時空頻繁程度,包括時間維度和空間維度,因此,為了簡便計算,在傳統(tǒng)的同現(xiàn)模式挖掘過程中,通常預先設定表示時間頻繁最低程度的時間閾值和表示空間頻繁最低程度的空間閾值,這兩個閾值在不同的領域需要各領域的專家多次試驗才能給出較合理的閾值,較大或較小的閾值參數(shù)都會引起高估或低估時空同現(xiàn)模式的問題,為了解決該問題,本實施例定義了模式的權重特征值,該特征值將同現(xiàn)模式在各個活動時間框架下的空間頻繁度和時間頻繁度作為特征,并根據(jù)該特征組計算同現(xiàn)模式的權重特征值。假定模式p中有n個元素,p0,...,pn-1,各元素對應的時間框架為T0,...,Tn-1,則同現(xiàn)模式p的時間框架為T0,...,Tn-1的交集,設該交集的各時間槽為:TFv,…,TFw。若在該時間槽段內,模式p在m個時間槽內出現(xiàn),0≤m≤w-v+1,則各時間槽的空間頻繁度也就是模式的各空間特征值,記為PS(p)i,0≤i≤m-1,同現(xiàn)模式的權重特征值計算方式如公式(6)所示。
在公式(6)中,W(p)表示模式p的權重特征值,該特征值將同現(xiàn)模式p的空間頻繁度分散到時間框架內的各時間槽中,這樣能更好地表示同現(xiàn)模式的實際空間頻繁程度,從公式(6)可以看到,W(p)等于p頻繁的所有時間槽的空間頻繁度的均值與p時間頻繁度之積。如果同現(xiàn)模式的空間頻繁度均值一定,權重特征值隨著模式的時間頻繁度單調增加,該式也體現(xiàn)了模式的時間頻繁程度。
以圖1中的AC模式為例,A的元素周期為時間槽0~時間槽2,C的元素周期為時間槽0~時間槽3,元素A與元素C的元素周期交集為時間槽0~時間槽2。因此模式的時間框架內的時空數(shù)據(jù)集如圖6所示。
圖6給出了模式AC的時空數(shù)據(jù)集,模式AC出現(xiàn)時間槽有:時間槽0、時間槽1、時間槽2,計算得到模式AC在時間槽0到時間槽2的空間頻繁度分別為:
PS(AC)0=min{PS(A),PS(C)}={0.75,0.6}=0.6
PS(AC)1=min{PS(A),PS(C)}={0.75,0.8}=0.75
PS(AC)2=min{PS(A),PS(C)}={0.5,0.4}=0.4
模式AC的時間頻繁度為TP(AC)=3/3=1,因此同現(xiàn)模式AC的權重特征值為:W(AC)=(0.6+0.75+0.4)/3*1≈0.58。
本實施例采用的時空關系建模方式不僅可以很好地保存時空關系,其存取的方便性使得時空興趣度的計算效率得到一定程度提高,時空鄰近距離采用曼哈頓距離,不僅可以使元素實例的實際軌跡距離更符合實際情況,而且這種距離計算方式主要是加、減法運算,比傳統(tǒng)的歐氏距離計算效率要高,進一步提高了本發(fā)明所提出的基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法的挖掘效率。在計算時空同現(xiàn)模式的時空興趣度時,本實施例采用各元素的元素周期而非整體周期作為模式的時間框架,使模式的計算更符合實際,同現(xiàn)模式的權重特征值的引入,進一步使挖掘結果的有效性有了一定程度提高,下面對本實施例基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法作進一步詳細說明。
(1)模式挖掘方法
輸入時空數(shù)據(jù)集(元素類型,當前實例,經(jīng)度坐標,緯度坐標,當前時間槽)、元素及元素存在周期列表(元素類型,有效周期)、元素對象之間的鄰近距離。
初始化網(wǎng)絡,采用上述建模方法初始化。
生成候選模式集,具體包括:生成候選模式;訪問元素網(wǎng)絡層的每個時間序列;存在同現(xiàn)關系,將對應的兩個元素保存在當前候選模式列表中;根據(jù)當前候選列表連接生成多元素候選模式;合并各時間槽下的候選模式。
計算模式支持度及空間頻繁度,具體包括:統(tǒng)計模式各元素的實例支持數(shù);計算各元素的實例支持度,各元素實例支持度的最小值為當前時間槽下該模式的空間頻繁度;保存各時間槽下各模式的空間頻繁度。
計算時間頻繁度,具體包括:統(tǒng)計同現(xiàn)時間槽數(shù);統(tǒng)計模式有效時間槽數(shù);計算模式時間頻繁度。
計算模式權重特征值,具體包括:計算模式特征值;模式按照權重值排序;刪除權值為0的模式;排序后若鏈表中某一個模式的權重值為0,則其后的模式的權重值也為0。
輸出時空同現(xiàn)模式鏈co-occurrence_pattern_list。
(2)同現(xiàn)模式挖掘具體步驟
①初始化時空網(wǎng)絡。首先讀取數(shù)據(jù)集,確定數(shù)據(jù)集中各時空對象類型的存在周期;然后將數(shù)據(jù)格式處理成{實例編號,元素類型,位置信息,時間信息}的格式;再根據(jù)給定時空距離閾值,確定時間槽中各實例之間的鄰近關系;最后遍歷各時間槽的鄰近關系,建立實例網(wǎng)絡層,并根據(jù)實例網(wǎng)絡層中各結點的類型屬性,構建元素網(wǎng)絡層。實例網(wǎng)絡層使模式支持度以及空間頻繁度的計算速度加快,元素網(wǎng)絡層支持時間頻繁度的快速計算,從而加快了整體計算速度。圖7給出了初始化時空網(wǎng)絡流程圖。
本實施例設計了雙層網(wǎng)絡來存儲元素實例間的時空關系以及元素類型之間的時空同現(xiàn)關系,相比傳統(tǒng)方法的計算方式,實例網(wǎng)絡層的建立使得同現(xiàn)模式的模式支持度以及空間頻繁度的計算速率有了一定提高,根據(jù)實例網(wǎng)絡層建立的元素網(wǎng)絡層,可以較方便地計算同現(xiàn)模式的時間頻繁度,從時空數(shù)據(jù)集中發(fā)現(xiàn)時空同現(xiàn)模式的整體計算效率有了一定提高。另外,這種雙層網(wǎng)絡模式僅在首次對時空數(shù)據(jù)集建模時消耗大量時間,時空網(wǎng)絡建立以后,本實施例對該模式進行了保存,后續(xù)若再需要使用該數(shù)據(jù)集進行多次同現(xiàn)模式發(fā)現(xiàn),不需要重復建模,只需要讀取首次使用時保存的時空網(wǎng)絡,這種方式在多次針對同一數(shù)據(jù)集進行同現(xiàn)模式發(fā)現(xiàn)時,進一步提高了同現(xiàn)模式的發(fā)現(xiàn)效率。
②計算候選模式的模式支持度。對于一個模式,選擇模式中未計算模式支持度的一個類型,統(tǒng)計該類型的全部實例數(shù),以及該類型支持模式構成的實例數(shù),求出當前類型的模式支持度,重復上述過程,可以計算所有類型的模式支持度。元素網(wǎng)絡層保存了時空對象類型之間是否有過同現(xiàn)關系,根據(jù)類型之間的邊的序列選出候選模式集。通過元素網(wǎng)絡層產(chǎn)生的候選模式集,其數(shù)量要比直接通過組合產(chǎn)生的模式集要小很多,減少了大量計算。圖8給出了模式支持度計算流程圖。
計算模式支持度主要的操作是訪問元素網(wǎng)絡層和實例網(wǎng)絡層。傳統(tǒng)方法中候選集的產(chǎn)生首先是將時空數(shù)據(jù)集中的所有元素進行組合,再計算組合出來的所有模式的時空頻繁度。由于本實施例中對數(shù)據(jù)進行了建模,元素網(wǎng)絡層保存了元素之間是否有過同現(xiàn)關系,因此可以直接訪問元素網(wǎng)絡層,根據(jù)元素之間的邊的序列選出候選模式集。該候選模式集中至少可以保證模式在某一時間槽下出現(xiàn)過同現(xiàn)實例,其模式是有一定計算價值的,而且通過元素網(wǎng)絡層產(chǎn)生的候選模式集,數(shù)量要比直接通過組合產(chǎn)生的模式集要小很多,傳統(tǒng)模式產(chǎn)生的候選集出現(xiàn)了大量在所有時間槽內未存在同現(xiàn)關系的模式,這些模式的相關計算是沒有意義的,因此本實施例在計算時空同現(xiàn)模式的過程中,采用元素網(wǎng)絡層,降低了候選模式集的產(chǎn)生,減少了大量計算,在一定程度上提高了同現(xiàn)模式的計算效率。
③計算各模式在各時間槽的空間頻繁度。模式在其時間框架下,各時間槽的空間頻繁度值不同,當該模式中所有元素類型都處于有效狀態(tài)時,該模式的計算才有意義。對于一個未計算模式支持度的候選模式,首先求出該模式的時間框架,然后依據(jù)模式支持度求出時間框架下各時間槽內的空間頻繁度。模式時間框架的引入,使得模式在該框架外不再計算模式支持度及空間頻繁度,減少了空間頻繁度的計算量,而且只計算有效時間槽內的興趣度,增加了結果的有效性。圖9給出了模式的空間頻繁度計算流程圖。
元素有元素框架,在其元素框架外,該元素類型的實例可能存在,但是已經(jīng)失效,這時計算同現(xiàn)模式時,將其作為一個元素類型是沒有價值的,因此本實施例首先計算模式中所有元素的元素框架的交集,確保模式的空間頻繁度計算有意義,這個交集稱為模式的時間框架。在模式的時間框架下,若某一時間槽內,模式元素的實例不存在同現(xiàn)關系,則將該時間槽下模式的空間頻繁度記為0,在模式的時間框架外,不計算空間頻繁度。模式時間框架的引入,減少了模式在各時間槽的空間頻繁度計算,提高了模式計算的有效性。
④計算模式的時間頻繁度。在時空雙層網(wǎng)絡中,對于任意一個模式,其模式同現(xiàn)的時間槽上,各類型之間的邊對應的值同時為1,而且至少存在一組實例使得任意兩個實例之間在實例網(wǎng)絡層對應的邊序列值也為1。對于一個候選模式,首先計算模式的時間框架中時間槽總數(shù),然后從雙層網(wǎng)絡統(tǒng)計出模式同現(xiàn)的時間槽位數(shù),計算得到模式的時間頻繁度。雙層網(wǎng)絡的使用使得模式的時間頻繁度只需查詢結點之間對應時間槽位的值,加快了時間頻繁度的計算,模式時間框架的引入,也使時間頻繁度的計算更有價值。圖10給出了模式的時間頻繁度計算流程圖。
在圖10中,統(tǒng)計元素網(wǎng)絡層模式各元素之間對應時間序列值為1,而且實例網(wǎng)絡層存在一組實例,對應邊的時間位為1,這樣的時間槽是模式同現(xiàn)的時間槽位。由公式(5)可知,同現(xiàn)的時間槽位數(shù),除以同現(xiàn)模式的時間框架時間槽位數(shù),就是模式的時間頻繁度。雙層網(wǎng)絡的使用使模式的時間頻繁度只需查詢結點之間對應時間槽位的值,加快了時間頻繁度的計算,模式時間框架的引入,也使時間頻繁度的計算更有價值。
⑤計算模式權重特征值,并根據(jù)特征值對同現(xiàn)模式集排序,篩選符合要求的模式集。權重特征值基于模式的時空特征,將模式的各空間頻繁度作為模式的空間特征,模式的時間頻繁度作為模式的時間特征,根據(jù)公式(6)計算所有模式的權重特征值。在計算同現(xiàn)模式的權重特征值后,對所有模式進行排序,采用效率較高的堆排序方法構成模式鏈表,根據(jù)需求輸入最需要的同現(xiàn)模式的比例值,從模式鏈表中按照比例找到模式集并輸出。在傳統(tǒng)方法中,時空閾值的設定除去了大量不滿足閾值的候選模式,但這些頻繁度較低候選模式也出現(xiàn)了同現(xiàn)關系,直接剔除這些頻繁度較低的模式可能會丟失某些具有較高價值的同現(xiàn)模式,因此本實施例采用模式鏈表保存了所有同現(xiàn)模式,若在實際中需要這些頻繁度較低但價值較高的模式,可以很方便地從鏈表中獲取。權重特征值的引入使時空閾值不需要預先設定,只需要指定最頻繁的模式比例,就可以從模式鏈表中得到滿足條件的時空同現(xiàn)模式,解決了時空閾值難以設定的問題。圖11給出了同現(xiàn)模式挖掘流程圖。
相比傳統(tǒng)同現(xiàn)模式挖掘方法,本實施例提出的基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法的優(yōu)越性體現(xiàn)在如下幾個方面:①曼哈頓距離表示法的優(yōu)越性使同現(xiàn)模式能更好地表示時空對象的實際距離;②對時空數(shù)據(jù)進行建模形成雙層網(wǎng)絡,使同現(xiàn)模式時空興趣度的計算效率得到一定程度提高,而且時空網(wǎng)絡的可重復利用性使同現(xiàn)模式的相關計算更加便捷;③空間頻繁度及時間頻繁度中采用的模式時間框架,使同現(xiàn)模式更貼近實際應用;④權重特征值的引入避免了需提前設定時空閾值的問題,而且在很大程度上保存了頻繁率低的時空同現(xiàn)模式。
(3)同現(xiàn)模式挖掘算法分析
①建模方法的時空復雜度分析
本發(fā)明建模方法的建模過程包括實例網(wǎng)絡層初始化及元素網(wǎng)絡層初始化兩部分。在形成實例網(wǎng)絡層過程中,遍歷元素及元素有效周期列表,只與元素個數(shù)有關,用OT表示元素個數(shù),其時間復雜度為O(OT),空間消耗只需要兩個表示時間框架起始與結束的變量,空間復雜度為O(1);用于保存同位信息的鄰接矩陣,用T表示時間槽個數(shù),用N表示所有對象個數(shù),需占據(jù)空間O(N*N)。在創(chuàng)建實例網(wǎng)絡層的過程中,需要計算每個時間槽下對象之間的距離,并判斷是否同位,該環(huán)節(jié)在最壞情況下的時間復雜度為O(T*N*(N+1)/2),而且該過程只需要一個額外的存儲空間來暫存計算距離,空間復雜度為O(1)。因此實例網(wǎng)絡層形成的時間復雜度為:O(OT+T*N*(N+1)/2),空間復雜度為O(N*N)。在元素網(wǎng)絡層的生成過程中,需要遍歷一遍實例網(wǎng)絡層,根據(jù)實例網(wǎng)絡層的時間序列設置元素網(wǎng)絡層的時間序列,其時間復雜度為O(T*N*(N+1)/2),保存元素網(wǎng)絡層時間序列的矩陣需占據(jù)空間O(OT*OT)。
初始化過程中,總的時間復雜度為:O(OT+T*N*(N+1)/2)+O(T*N*(N+1)/2)=O(OT+T*N*(N+1)),總的空間復雜度為:O(N*N)+O(OT*OT)=O(N*N+OT*OT),時間復雜度與元素類型個數(shù)、時間槽數(shù)、對象實例個數(shù)有關,空間復雜度與元素類型個數(shù)及對象實例個數(shù)有關。在對象個數(shù)遠大于元素類型數(shù)時,時間復雜度約為O(N2),空間復雜度約為O(N2)。
在最壞情況下,候選模式的生成時間復雜度為O(OT*OT),所需空間復雜度為O(L),L表示模式鏈表的長度,在計算模式支持度及空間頻繁度過程中,直接從實例網(wǎng)絡層讀取相應的同位信息并進行統(tǒng)計計算,不需要遍歷全部數(shù)據(jù)集,其時間復雜度為O(L),在計算過程中最多需要T個存儲空間保存各時間槽的空間頻繁度,因此空間復雜度為O(T*L);在計算時間頻繁度時,需要訪問各時間槽下模式的空間頻繁度,其時間復雜度為O(T*L),需要為各模式開辟存儲空間存儲模式的時間頻繁度,空間復雜度為O(L),最后計算模式的權重特征值,將時間頻繁度及空間頻繁度作為特征組,其計算時間復雜度為O(L),而且鏈表中各模式的計算結果都需要保存,因此其空間復雜度為O(L),在算法實現(xiàn)過程中,采用高效排序算法進行模式的排序,其時間復雜度為O(Llog2L),空間復雜度為O(log2L)。從初始化到時空同現(xiàn)模式鏈表的最終生成,忽略較小時間和空間,總的時間復雜度約為:O(OT2+T*N2),總的空間復雜度約為O(OT2+N2+T*L),在對象實例數(shù)遠大于元素類型數(shù)的情況下,總的時間復雜度為O(N2),空間復雜度為O(N2),由此可以看到,算法的時空消耗主要發(fā)生在初始化建模過程。相比傳統(tǒng)方法的時間復雜度O(2N)及空間復雜度O(2N),在數(shù)據(jù)量較大時,本發(fā)明所提出的基于時空網(wǎng)絡的時空同現(xiàn)模式挖掘方法明顯提高了效率。
如圖12所示,建模時間與時空同現(xiàn)模式挖掘總的時間相比,在數(shù)據(jù)量較大時,挖掘算法的性能消耗主要是建模過程,與上述分析的結果一致,當對象個數(shù)遠大于類型數(shù)時,算法總的時空復雜度與建模過程的時空復雜度是一個數(shù)量級,而實際時空計量度的計算所消耗的時間占比很小。而且建模結果可以保存再復用,當有新的對象加入到數(shù)據(jù)集中,不需要重新建模,只需要在網(wǎng)絡中增加相應節(jié)點,并更新時間序列即可。
②時空同現(xiàn)模式挖掘算法分析
在時空網(wǎng)絡初始化后,時空同現(xiàn)模式挖掘算法主要進行候選模式集生成、模式支持度及空間頻繁度計算、時間頻繁度及權重特征值計算四部分。候選模式集從元素網(wǎng)絡層出發(fā),遍歷元素網(wǎng)絡層生成二元候選模式,由于元素網(wǎng)絡層中保存的元素間的時間序列依據(jù)實例網(wǎng)絡層生成,而在實例網(wǎng)絡層,各對象之間的時間序列由原始時空數(shù)據(jù)的時空關系直接計算決定,而且在計算過程中對各時間槽內的全部元素進行了計算,因此實例網(wǎng)絡層存儲的時空信息是可靠、全面的。實例網(wǎng)絡層中的時間序列中為1的位,是在各時間槽內存在同現(xiàn)關系的位,由此實例網(wǎng)絡層生成的元素網(wǎng)絡層,其對應的時間序列也是元素之間在各時間槽是否同現(xiàn)的具體體現(xiàn),實例網(wǎng)絡層的可靠保證了元素網(wǎng)絡層存儲的同現(xiàn)信息的可靠性。在各時間槽內,元素網(wǎng)絡層根據(jù)時間序列中時間位為1的同現(xiàn)元素,篩選出的候選模式是當前時間槽內的全部二元同現(xiàn)模式,多元模式在二元模式集的基礎上采用連接生成,合并各時間槽內的同現(xiàn)模式就構成了全部的候選模式。時空雙層網(wǎng)絡的可靠性保證了此候選模式集的完整性,候選模式集中的各模式,只要在某一個時間槽內出現(xiàn)過同現(xiàn)關系就會被存儲在候選集中,不會遺漏部分模式,而且各模式都是有效的。
在傳統(tǒng)方法中,直接從原始時空數(shù)據(jù)集中采用連接生成候選模式集,需要在全部的時間槽下,都計算相關時空計量度,默認在所有時間槽下,候選模式集是相同的,而本發(fā)明產(chǎn)生的候選模式集在不同時間槽下可能是不同的,因為在不同時間槽下時空對象的同現(xiàn)關系可能不同,剔除了在各時間槽下都沒有同位關系的候選模式,這樣就減少了候選模式的數(shù)量。在空間頻繁度及時間頻繁度的計算過程中,因為雙層網(wǎng)絡已經(jīng)保存了對象之間及元素之間的時空同現(xiàn)關系,因此直接讀取對應矩陣中的時間序列即可,加快了計算效率。
相比傳統(tǒng)同現(xiàn)模式挖掘方法,本發(fā)明所提出的基于網(wǎng)絡的時空同現(xiàn)模式挖掘算法的優(yōu)越性體現(xiàn)在:雙層網(wǎng)絡的建模方式,提高了候選時空同現(xiàn)模式的時空興趣度的計算效率;模式時間框架的引入,減少了模式的模式支持度及空間頻繁度的計算量,使得空間頻繁度及時間頻繁度的計算更有效,挖掘得到的時空同現(xiàn)模式更貼近實際應用;采用權重特征值及模式鏈表,根據(jù)需要比例輸出時空同現(xiàn)模式集,避免了傳統(tǒng)方法中使用閾值造成的部分同現(xiàn)模式丟失問題。
③本發(fā)明算法與其他方法的比較
為驗證本發(fā)明算法的效率,將本發(fā)明算法與王占全等人所提的方法以及Celik所提的方法進行了比較。Celik提出的局部時空同現(xiàn)模式挖掘算法考慮了同現(xiàn)模式中不同目標類型的生命周期,重新定義了模式的時間頻繁度的計算方法,這種方式挖掘出來的時空同現(xiàn)模式適用性更強,是目前比較優(yōu)越的算法之一。WANG等人提出的Top-k%混合時空同現(xiàn)模式挖掘方法,對時空數(shù)據(jù)集進行實例間空間關系的建模,一定程度上提高了同現(xiàn)模式挖掘效率,采用top-k%方法選擇得到在時間維度下最頻繁的時空同現(xiàn)模式集,解決了時間頻繁度的設置問題。本發(fā)明以三種方法獲取到全部時空同現(xiàn)模式集為結果,分別采用上述不同的數(shù)據(jù)集,在小數(shù)據(jù)量以及較大數(shù)據(jù)量上分別對三種方法進行測試,并取每類測試結果的平均值作為最終結果,運行效果如圖13所示。
參圖13所示,13a為小數(shù)據(jù)量下對象類型數(shù)對算法的影響,13b為小數(shù)據(jù)量下平均時間槽數(shù)對算法的影響,13c為較大數(shù)據(jù)量下對象類型數(shù)對算法的影響,13d為較大數(shù)據(jù)量下平均時間槽數(shù)對算法的影響。
從圖13可以看到,隨著對象類型的增加,本發(fā)明所提算法比WANG等人的方法以及Celik方法運行效率高,而且類型數(shù)量越大,其優(yōu)越性越顯著。采用平均有效周期的時間槽個數(shù)作為測量指標,隨著時間槽數(shù)的增加,三種方法呈單調增加趨勢,本發(fā)明算法比其他兩種方法的運行時間要少。當數(shù)據(jù)量增大時,從圖13可以看到,本發(fā)明算法相比其他兩種方法其運行效率更有優(yōu)勢。WANG等人的方法僅對時空實例間的時空關系進行建模,相比本發(fā)明的雙層網(wǎng)絡,單實例網(wǎng)絡模式在計算時空同現(xiàn)模式的時間頻繁度中速率較低,因此運行時間要比本發(fā)明算法長。相比Celik方法,本發(fā)明的候選集從元素網(wǎng)絡層生成,其產(chǎn)生的候選模式的數(shù)量,比從數(shù)據(jù)集中采用連接操作生成的候選模式集少,減少了計算量,因此本發(fā)明算法的運行效率較高。
上面所列出的一系列的詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說明,它們并非用以限制本發(fā)明的保護范圍,凡未脫離本發(fā)明技藝精神所作的等效實施方式或變更均應包含在本發(fā)明的保護范圍之內。
對于本領域技術人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化囊括在本發(fā)明內。