一種融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法
【專利摘要】一種融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法,引入粗糙集理論、數(shù)據挖掘技術實現(xiàn)城市安全數(shù)據流的分析與挖掘,首先建立分布異步海量數(shù)據流概念形式化描述模型;其次對概念模型進行偶合分析;再次提出基于屬性約簡的粗糙集海量數(shù)據分割方法并采用基于概念格的節(jié)點對的關聯(lián)規(guī)則挖掘找出節(jié)點間的關聯(lián)性,最后通過可伸縮粒計算獲取影響城市安全的關鍵事件信息,實現(xiàn)城市的數(shù)字化管理。本發(fā)明提供了一種挖掘的準確性高、及時性較好、數(shù)據有效性良好的融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法。
【專利說明】一種融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法
【技術領域】
[0001]本發(fā)明涉及一種數(shù)據挖掘【技術領域】知識,尤其是一種分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法。
【背景技術】
[0002]城市公共安全狀況,是一個國家競爭力和國家形象的重要標志。隨著城市聚集人口和積累財富的不斷增長,城市的重要性日趨明顯,然而也使其面臨越來越多的安全挑戰(zhàn)。自然災害頻度和強度的增大、各類社會事故的增長以及恐怖主義的威脅,對城市預防災害及應付突發(fā)事件的能力提出了更為嚴峻的要求。統(tǒng)計表明,我國每年因城市公共安全問題造成的經濟損失達6500億元,約占⑶P總量的6%。國務院新聞辦公室2009年5月11日發(fā)表的《中國的減災行動》白皮書指出,我國70%以上的城市、50%以上的人口分布在氣象、地震、地質、海洋等自然災害嚴重的地區(qū)。縱觀社會發(fā)展,俄羅斯切爾諾貝利核泄露、亞洲金融風暴、日本東京地鐵毒氣案、2001年美國“9.11”事件、2003年SARS災害、2009年“H1N1”甲型流感病毒疫情、2010年上?!?1.15”特別重大火災事故等歷史教訓時刻提醒著人們,深入開展有關城市公共安全的研究已是迫在眉睫。
[0003]城市公共安全管理過程中,存在著許多潛在的、不為人知的又有用的信息,挖掘出這些信息,對提高城市安全管理有著極其重大的作用。然而由于與城市安全相關的數(shù)據通常具有數(shù)據量大、變化快、隨機存取代價高、詳細數(shù)據難以存儲等特點,因此如何準確、及時的對其進行挖掘,發(fā)現(xiàn)具有較高價值的信息是目前研究的難點與熱點。
【發(fā)明內容】
[0004]為了克服已有城市公共安全數(shù)據的無法進行準確、及時挖掘、數(shù)據的有效性較差的不足,本發(fā)明提供了一種挖掘的準確性高、及時性較好、數(shù)據有效性良好的融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法。
[0005]本發(fā)明解決其技術問題所采用的技術方案是:
[0006]一種融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法,所述在線數(shù)據挖掘方法包括以下步驟:
[0007]I)分布異步海量數(shù)據流概念形式化描述:通過數(shù)據流的?;瑢Ω拍钸M行粒的表示、特征化、描述和解釋;基于粒計算的概念分析過程包括以下步驟:①概念分層,采用粒計算模型中的概念格、粒度劃分;②建立概念之間關系;③描述概念的外延和內涵,對屬性和對象進行描述,表明概念之間的泛化關系;④通過對概念的外延偶合度、內涵偶合度和概念偶合度的分析,挖掘數(shù)據流隱藏的特征;
[0008]2)概念的偶合分析:概念包括內涵和外延,用二元組<0a;Da>表示,其中,Oa是DS的外延,03是05的內涵;假設一個時間段〈Tb; τε>中的概念為<0a;Da>,時間來到<xb; \>,概念變化為<0a;Da>;〈Tb;時間段內概念集合所構成的概念格設為CL1,其后續(xù)時間段〈τ b; τ e>內的概念集合構成的概念格設為CL2 ;
[0009]3)建立基于屬性約簡的粗糙集海量數(shù)據分割方法:在考察當前的條件屬性組合A時,分兩部分來考慮:①所有的相容條件分類X(X e Posa(D))且X e U/ind(A),相容條件分類X中的所有樣本在A上都含有相同的屬性值以及相同的決策值,在屬性組合A下這些樣本是完全相同的,因此這些樣本可以隨意被分割到不同的子數(shù)據集中,也不會造成正域的變化所有的沖突條件分類Y (Y e negA(D))且Y e U/ind(A) ;Y中的樣本在A上都含有相同的屬性值以及不同的決策值,在分割父數(shù)據集的過程中把同一個沖突條件分類Y的樣本分到同一個子數(shù)據集中;
[0010]4)基于概念格的節(jié)點對的關聯(lián)規(guī)則挖掘:采用基于先輩晚輩節(jié)點對的關聯(lián)
規(guī)則提取方法來提取概念格上的關聯(lián)規(guī)則,關聯(lián)規(guī)則基于頻繁項集挖掘,它的兩個重
要的興趣度度量指標是支持度和置信度,支持度表明規(guī)則的可用性,而置信度則表明
規(guī)則的確定性,對于概念格中的先輩晚輩節(jié)點對(C1,C2),假定.
【權利要求】
1.一種融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法,其特征在于:所述在線數(shù)據挖掘方法包括以下步驟: 1)分布異步海量數(shù)據流概念形式化描述:通過數(shù)據流的?;?,對概念進行粒的表示、特征化、描述和解釋;基于粒計算的概念分析過程包括以下步驟:①概念分層,采用粒計算模型中的概念格、粒度劃分;②建立概念之間關系;③描述概念的外延和內涵,對屬性和對象進行描述,表明概念之間的泛化關系;④通過對概念的外延偶合度、內涵偶合度和概念偶合度的分析,挖掘數(shù)據流隱藏的特征; 2)概念的偶合分析:概念包括內涵和外延,用二元組<Oa;Da>表示,其中,(\是05的外延,03是05的內涵;假設一個時間段〈Tb; τε>中的概念為<Oa;Da>,時間來到〈Tb; τ e>,概念變化為<Oa;Da>;〈 Tb; τε>時間段內概念集合所構成的概念格設為CL1,其后續(xù)時間段<Tb; τ e>內的概念集合構成的概念格設為CL2 ;
3)建立基于屬性約簡的粗糙集海量數(shù)據分割方法:在考察當前的條件屬性組合A時,分兩部分來考慮:①所有的相容條件分類X(X e Posa(D))且X e U/ind(A),相容條件分類X中的所有樣本在A上都含有相同的屬性值以及相同的決策值,在屬性組合A下這些樣本是完全相同的,因此這些樣本可以隨意被分割到不同的子數(shù)據集中,也不會造成正域的變化;②所有的沖突條件分類Y (Y e negA(D))且Y e U/ind(A) ;Y中的樣本在A上都含有相同的屬性值以及不同的決策值,在分割父數(shù)據集的過程中把同一個沖突條件分類Y的樣本分到同一個子數(shù)據集中; 4)基于概念格的節(jié)點對的關聯(lián)規(guī)則挖掘:采用基于先輩晚輩節(jié)點對的關聯(lián)規(guī)則提取方法來提取概念格上的關聯(lián)規(guī)則,關聯(lián)規(guī)則基于頻繁項集挖掘,它的兩個重要的興趣度度量指標是支持度和置信度,支持度表明規(guī)則的可用性,而置信度則表明規(guī)則的確定性,對于概念格中的先輩晚輩節(jié)點對(ClCZ)JgSC1 = (O1 U O, A), C2 =(O, A U B),則在具有A屬性的IO1 U O個對象中有|0|個也具有B屬性,即可得到關聯(lián)規(guī)則
2.如權利要求1所述的融合粗糙集與粒計算的分布異構海量城市安全數(shù)據流的在線數(shù)據挖掘方法,其特征在于:所述步驟5)中,結合數(shù)據庫技術為分層?;P椭械牧W由闪7植兼湵恚?入樣本覆蓋因子。
【文檔編號】G06F17/30GK103699622SQ201310703765
【公開日】2014年4月2日 申請日期:2013年12月19日 優(yōu)先權日:2013年12月19日
【發(fā)明者】陳庭貴, 周廣瀾, 許翀寰 申請人:浙江工商大學