專利名稱:基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng)與挖掘方法
技術領域:
本發(fā)明涉及一種電動汽車海量數(shù)據(jù)的挖掘系統(tǒng)與實現(xiàn)方法,具體涉及一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng)與挖掘方法。
背景技術:
電動汽車具有節(jié)能減排等優(yōu)勢,近年來發(fā)展迅速。然而電動汽車的發(fā)展還處在“建設時期”,離廣泛普及有一段距離。主要原因是電動汽車整車質(zhì)量特別是其最核心零部件電動電池的質(zhì)量還不成熟。電動電池循環(huán)壽命較短、成本也相對較較高,其適應性與安全性都有待考量。此外,電動汽車基礎設施的建設也未能及時跟進,合理部署充電站和充電樁,提高城市有限資源的利用率,將會極大的促進電動汽車的普及和推廣。目前已有一些電動汽車遠程監(jiān)控系統(tǒng),監(jiān)控電動汽車運行的情況,并對這些實時數(shù)據(jù)進行統(tǒng)計和分析,以找出電動汽車發(fā)生故障的原因、運行數(shù)據(jù)的規(guī)律等。例如,福特公司開發(fā)的純電動汽車遠程監(jiān)控系統(tǒng),福特的工程師根據(jù)此監(jiān)控反饋的信息已經(jīng)完成了至少 20處動力電池管理系統(tǒng)管理策略的改進。此外,上海汽車集團股份有限公司技術中心與同濟大學、上海燃料電池汽車動力系統(tǒng)有限公司合作開發(fā)了上汽新能源汽車遠程監(jiān)控系統(tǒng), 此系統(tǒng)實現(xiàn)了批量車輛運行的在線監(jiān)控,故障的智能化處理、車載終端軟件的升級、數(shù)據(jù)的記錄和存儲等功能。上述的監(jiān)控系統(tǒng)均采用集中監(jiān)控方式。據(jù)統(tǒng)計電動汽每分鐘上傳到服務器的數(shù)據(jù)量平均為82. 41Λ,根據(jù)十城千輛政策,到2012年北京市電動汽車將達5000輛, 那么5000輛電動汽車一年上傳到服務器的數(shù)據(jù)總量將達到52T。如此大的數(shù)據(jù)量,集中監(jiān)控的方式在數(shù)據(jù)存儲和處理上都難以承受,因此基于云計算來實現(xiàn)類似的監(jiān)控系統(tǒng)是十分必要的。中科院計算所與中科深江電動汽車廠合作的基于云計算的電動汽車遠程監(jiān)控系統(tǒng),就采用了云計算開源框架Hadoop存儲和處理電動汽車上傳的數(shù)據(jù),實現(xiàn)了千輛級電動汽車的實時監(jiān)控、歷史回放、故障預警與處理、數(shù)據(jù)統(tǒng)計分析等功能。然而現(xiàn)有的監(jiān)控系統(tǒng), 不論是集中式還是基于云計算框架的,都僅僅通過人工定義的統(tǒng)計條件去分析電動汽車故障產(chǎn)生的規(guī)律和原因,為電動汽車電池和電池管理系統(tǒng)的改進只能提供有限的信息。一些隱藏在海量數(shù)據(jù)之中有價值的信息不能被挖掘出來,這些信息可能是意想不到的制約關系或規(guī)律,會對電池極其管理系統(tǒng)的改進提供非常大的幫助。
發(fā)明內(nèi)容
本發(fā)明的目的之一是提供一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng);本發(fā)明另一個目的是提供一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法。實現(xiàn)本發(fā)明第一個目的的技術方案是提供一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng),包括數(shù)據(jù)采集模塊、與數(shù)據(jù)采集模塊通過3G網(wǎng)絡相連的挖掘系統(tǒng)前端模塊、 與挖掘系統(tǒng)前端模塊相連的云計算機Hadoop集群模塊。進一步,所述挖掘系統(tǒng)前端模塊包括數(shù)據(jù)導入模塊、關聯(lián)規(guī)則挖掘模塊、頻繁路段挖掘模塊,所述數(shù)據(jù)導入模塊與數(shù)據(jù)采集模塊通過3G網(wǎng)絡相連,關聯(lián)規(guī)則挖掘模塊、頻繁路段挖掘模塊分別與數(shù)據(jù)導入模塊相連。進一步,所述云計算機Hadoop集群模塊包括數(shù)據(jù)處理模塊和數(shù)據(jù)存儲模塊,所述數(shù)據(jù)處理模塊與關聯(lián)規(guī)則挖掘模塊和頻繁路段挖掘模塊相連。實現(xiàn)本發(fā)明的另一個目的技術方案是提供一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法,包括如下步驟步驟1、由數(shù)據(jù)采集模塊采集數(shù)據(jù),并通過3G網(wǎng)絡傳送到挖掘系統(tǒng)前端,挖掘系統(tǒng)前端將要挖掘的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊并記錄;步驟2、并行統(tǒng)計每個數(shù)據(jù)塊中所有支持度大于最小支持度的頻繁1個數(shù)據(jù)字段, 結果存儲在F-Iist中;步驟3、將F-Iist中的頻繁1個數(shù)據(jù)字段分為G個組;步驟4、云計算機Hadoop集群模塊中分組并行執(zhí)行FPGrowth算法,,生成并保存相關的局部閉頻繁模式集;步驟5、合并局部閉頻繁模式集,生成全局的閉頻繁模式集,最后根據(jù)全局閉頻繁模式集生成無冗余的關聯(lián)規(guī)則。進一步,在步驟3中,對G個組的每個組進行標記為一個G-List,并對應編號gid。進一步,在步驟4中,在執(zhí)行FPGrowth算法時,加入融合、剪枝、閉合檢查步驟。本發(fā)明具有積極的效果(1)、本系統(tǒng)中,將電動汽車遠程監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)完美的結合起來,既保證了遠程監(jiān)控系統(tǒng)的實時服務,又充分利用了云計算平臺 Hadoop的存儲高可擴展性、計算框架mapreduce高容錯性等為數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)提供了基礎。且系統(tǒng)可處理的數(shù)據(jù)量滿足電動汽車的發(fā)展需求,使用數(shù)據(jù)發(fā)掘的方式擺脫了人工的統(tǒng)計與分析,自動的挖掘電動汽車數(shù)據(jù)之間的關聯(lián)關系。(2)、本發(fā)明中,采用的挖掘方法,與相比傳統(tǒng)的PFPGrowth算法相比,使用的執(zhí)行時間幾乎一樣,但是挖掘出的閉頻繁模式數(shù)量與完全頻繁模式相比顯著減少,適用性廣,使用數(shù)據(jù)挖掘的方法擺脫了人工的系統(tǒng)與分析,自動挖掘電動汽車數(shù)據(jù)之間的關聯(lián)關系,并標示出頻繁路段區(qū)域范圍,實用性好,而且其可擴展性強,挖掘時間短,挖掘結果無冗余,確保了電動汽車的發(fā)展與應用。
圖1為本發(fā)明的系統(tǒng)框圖;圖2為本發(fā)明的PFPGrowth算法流程圖。
具體實施例方式(實施例1)一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng),見圖1,包括數(shù)據(jù)采集模塊1、 與數(shù)據(jù)采集模塊1通過3G網(wǎng)絡相連的挖掘系統(tǒng)前端模塊2、與挖掘系統(tǒng)前端模塊相連2的云計算機Hadoop集群模塊3。挖掘系統(tǒng)前端模塊2包括數(shù)據(jù)導入模塊21、關聯(lián)規(guī)則挖掘模塊22、頻繁路段挖掘模塊23,所述數(shù)據(jù)導入模塊21與數(shù)據(jù)采集模塊1通過3G網(wǎng)絡相連,關聯(lián)規(guī)則挖掘模塊22、 頻繁路段挖掘模塊23分別與數(shù)據(jù)導入模塊21相連。
云計算機Hadoop集群模塊3包括數(shù)據(jù)處理模塊31和數(shù)據(jù)存儲模塊32,所述數(shù)據(jù)處理模塊31與關聯(lián)規(guī)則挖掘模塊22和頻繁路段挖掘模塊23相連。將電動汽車遠程監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)完美的結合起來,既保證了遠程監(jiān)控系統(tǒng)的實時服務,又充分利用了云計算平臺Hadoop的存儲高可擴展性、計算框架 mapreduce高容錯性等為數(shù)據(jù)挖掘系統(tǒng)的實現(xiàn)提供了基礎。且系統(tǒng)可處理的數(shù)據(jù)量滿足電動汽車的發(fā)展需求,使用數(shù)據(jù)發(fā)掘的方式擺脫了人工的統(tǒng)計與分析,自動的挖掘電動汽車數(shù)據(jù)之間的關聯(lián)關系。(實施例2)—種基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法,見圖2,包括如下步驟步驟1、由數(shù)據(jù)采集模塊采集數(shù)據(jù),并通過3G網(wǎng)絡傳送到挖掘系統(tǒng)前端,挖掘系統(tǒng)前端將要挖掘的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊并記錄;步驟2、并行統(tǒng)計每個數(shù)據(jù)塊中所有支持度大于最小支持度的頻繁1個數(shù)據(jù)字段, 結果存儲在F-Iist中;步驟3、將F-Iist中的頻繁1個數(shù)據(jù)字段分為G個組;步驟4、云計算機Hadoop集群模塊中分組并行執(zhí)行FPGrowth算法,,生成并保存相關的局部閉頻繁模式集;步驟5、合并局部閉頻繁模式集,生成全局的閉頻繁模式集,最后根據(jù)全局閉頻繁模式集生成無冗余的關聯(lián)規(guī)則。進一步,在步驟3中,對G個組的每個組進行標記為一個G-List,并對應編號gid。進一步,在步驟4)中,在執(zhí)行FPGrowth算法時,加入融合、剪枝、閉合檢查步驟。挖掘方法,與相比傳統(tǒng)的PFPGrowth算法相比,使用的執(zhí)行時間幾乎一樣,但是挖掘出的閉頻繁模式數(shù)量與完全頻繁模式相比顯著減少,適用性廣,使用數(shù)據(jù)挖掘的方法擺脫了人工的系統(tǒng)與分析,自動挖掘電動汽車數(shù)據(jù)之間的關聯(lián)關系,并標示出頻繁路段區(qū)域范圍,實用性好,而且其可擴展性強,挖掘時間短,挖掘結果無冗余,確保了電動汽車的發(fā)展與應用。用戶(電動汽車研發(fā)人員)篩選待挖掘的電動汽車數(shù)據(jù),篩選條件包括a)車輛范圍選定,選擇單車或者多車。當用戶需要挖掘某一特定的車輛在某一段時間內(nèi)運行的數(shù)據(jù)中隱含的信息時,選擇單車條件,包括車牌號碼、車輛運行起始時間和結束時間。當用戶需要挖掘某一類型的電動汽車在某一段時間內(nèi)運行的數(shù)據(jù)中隱含的信息時,選擇多車條件,包括車輛生產(chǎn)日期范圍、車輛的型號、車輛運行起始時間和結束時間。b)數(shù)據(jù)范圍選定。挖掘數(shù)據(jù)之間的關聯(lián)規(guī)則時,可以從所有的電池數(shù)據(jù)字段、電機數(shù)據(jù)字段、電動汽車動態(tài)變化的數(shù)據(jù)字段中選擇感興趣的字段挖掘。GPS數(shù)據(jù)默認只有經(jīng)度和緯度兩個數(shù)據(jù)字段,采樣頻率可以由用戶自行設定,默認為100%。根據(jù)前一篩選條件,將符合篩選條件的電動汽車數(shù)據(jù)從HBase導入到HDFS文件系統(tǒng)中。在導入的同時,對于電動汽車數(shù)據(jù)之間關聯(lián)規(guī)則的數(shù)據(jù)做以下處理a)空值處理由該數(shù)據(jù)字段的均值填補。b)數(shù)據(jù)離散化對于電動汽車的一條數(shù)據(jù)記錄,包含了若干數(shù)據(jù)字段,這些數(shù)據(jù)字段可以劃分為電機信息、電池信息和車輛動態(tài)信息。將每個數(shù)據(jù)字段的數(shù)值編碼為一個四位整數(shù)。第一位代表該數(shù)據(jù)字段所屬類型,若屬于電池信息類則為A、電機信息類則為B、車輛動態(tài)信息則為C。第二位代表該數(shù)據(jù)字段的具體名稱。數(shù)據(jù)字段的范圍為(-⑴,mirr·· max,+ -),其中min為最小值,max為最大值。將該范圍分為若干個區(qū)間,異常數(shù)據(jù)將落在區(qū)間(-C ,min)和(maX,+c )中。編碼的第三位和第四位代表該數(shù)值所屬的值區(qū)間編號。 如此便形成一個四位整數(shù)編碼與數(shù)據(jù)字段的數(shù)值對應表。此編碼方式不僅壓縮了數(shù)據(jù),在生成關聯(lián)規(guī)則的時候依靠這個對應表也很容易還原成自然語言。對頻繁路段數(shù)據(jù)所做的預處理方式為,忽略不完整的經(jīng)緯度點對,采用無替換簡單隨機采樣方法(SRSW0R方法)從N個數(shù)據(jù)中隨即抽取η行。用戶提交挖掘任務。用戶在提交挖掘任務時可以自己定義一些與算法有關的參數(shù),包括最小支持度、最小置信度、規(guī)則的最長長度。最小支持度越高,得到的閉頻繁模式集的數(shù)量就越少,最小置信度越高得到的關聯(lián)規(guī)則的數(shù)量就越少。根據(jù)電動汽車的數(shù)據(jù)規(guī)律以及挖掘?qū)嶒灲?jīng)驗,本系統(tǒng)設定了最小支持度的默認值為40%,最小置信度的默認值為 80%。在Hadoop集群中執(zhí)行電動汽車數(shù)據(jù)關聯(lián)規(guī)則挖掘算法。其中電動汽車數(shù)據(jù)之間的關聯(lián)規(guī)則挖掘算法執(zhí)行10至60,頻繁路段挖掘算法僅執(zhí)行10至50 :10將預處理過的數(shù)據(jù)集分為若干相互獨立的數(shù)據(jù)分片,每個數(shù)據(jù)分片包含若干行數(shù)據(jù)記錄,每個數(shù)據(jù)記錄的包含若干四位的編碼整數(shù),每個編碼整數(shù)稱為一個數(shù)據(jù)項。20并行統(tǒng)計數(shù)據(jù)集中所有支持度大于最小支持度的數(shù)據(jù)項。其中每個Mapper讀入一個數(shù)據(jù)分片,輸入為(key,value = Ti),Ti為一條數(shù)據(jù)記錄,輸出(key = a」,value' =1),Bj為Ti的一個數(shù)據(jù)項,Bj e Ti。Reducer將相同的key值所對應的value相加記為 S,如果S大于最小支持度,則輸出鍵值對(key" =aj; value" = S)。意味著數(shù)據(jù)項…出現(xiàn)的總次數(shù)為S,大于最小支持度。將Reducer輸出結果保存到F-Iist中。30將F-Iist分為Q組,每組有一個獨立的編號gid。將結果保存在一個Hashmap 中,記為G-list。40分組執(zhí)行基于閉頻繁模式挖掘算法。每個Mapper輸入G-Iist和一個數(shù)據(jù)分片(key = gid, value = Ti),其中Ti為數(shù)據(jù)記錄。將屬于Ti的每一個數(shù)據(jù)項 替換為相應的 gid。Mapper 輸出(key' = gid, value' = ITi [1]…Ti [L]}),其中 L 為在數(shù)據(jù)記錄 Ti 中gid從右面開始第一次出現(xiàn)的位置編號。如此Reduce階段便可歸并與每個gid相關的數(shù)據(jù)項,共有Q組,在每組數(shù)據(jù)項集合中執(zhí)行以下挖掘算法,步驟如下410計算局部的頻繁1項集,將其排列,建立頭表。420根據(jù)頭表的順序降序排列數(shù)據(jù)記錄中的數(shù)據(jù)項。并建立一顆壓縮的局部頻繁模式樹。初始化一個k大堆,維護本組數(shù)據(jù)項集中支持度前K大的閉合頻繁模式。430由于電動汽車數(shù)據(jù)屬于重復率較高的數(shù)據(jù),只采用自底向上的挖掘方法遞歸挖掘局部頻繁模式樹。對于頭表中的一個數(shù)據(jù)項%,構造%的條件模式基,并根據(jù)條件模式基建立 為前綴的條件模式樹,執(zhí)行4440)至4460)策略。440融合策略若%的所有條件模式基都包含公共的前綴Y且不存在Y的超集,那么% U Y為一個候選閉頻繁模式。步驟4460)對其進行閉合檢查。若通過檢查,則將此候選閉頻繁模式保存到本組的k大堆中,調(diào)整最大堆,否則拋棄此候選集。450剪枝策略對于一個候選頻繁模式X,若有一個已經(jīng)挖掘出的閉頻繁模式Z,Z 為X的超集,且X與Z具有相同的支持度,可X以及X的子孫都可以被剪掉。
460閉合檢查,根據(jù)CLOSET+,對于一個候選的閉頻繁模式,只需與k大堆中已挖掘出的結果比較,若不是K大堆中任何一個閉頻繁模式的子集,則將候選模式加入K大堆中, 并調(diào)整K大堆。470遞歸挖掘 的條件模式樹。遞歸執(zhí)行4430)到4470)。50合并所有組的局部頻繁模式集。再次執(zhí)行閉合檢查,以確保全局的頻繁模式集為閉合的。每個Mapper輸入gid和與其相關局部頻繁模式集,輸出(key = s,value) :key 一個支持度lvalue為具有支持度為s的一個頻繁模式。Reducer歸并相同支持度的頻繁模式,檢查此相同的支持度的頻繁模式集中是否存在兩個的閉頻繁模式X和Y,X為Y的超集,若存在則將Y去除。Reducer輸出(key' ,value' )key'為支持度,value'為此支持度的閉頻繁模式集合。60根據(jù)全局頻繁模式集合生成關聯(lián)規(guī)則。對于全局閉頻繁模式中的任意兩個閉頻繁模式X,Y,若滿足X U Y也是一個閉頻繁模式,且沒有閉頻繁模式Z使得XcZc(XkJY), 并且X與Y所得的置信度大于最小置信度,那么生成關聯(lián)規(guī)則χ- > Y。將挖掘結果返回給客戶端,并以易理解的方式展示出來。顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而這些屬于本發(fā)明的實質(zhì)精神所引伸出的顯而易見的變化或變動仍屬于本發(fā)明的保護范圍。
權利要求
1.一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng),包括數(shù)據(jù)采集模塊、與數(shù)據(jù)采集模塊通過3G網(wǎng)絡相連的挖掘系統(tǒng)前端模塊、與挖掘系統(tǒng)前端模塊相連的云計算機Hadoop 集群模塊。
2.根據(jù)權利要求1所述的基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng),其特征在于 所述挖掘系統(tǒng)前端模塊包括數(shù)據(jù)導入模塊、關聯(lián)規(guī)則挖掘模塊、頻繁路段挖掘模塊,所述數(shù)據(jù)導入模塊與數(shù)據(jù)采集模塊通過3G網(wǎng)絡相連,關聯(lián)規(guī)則挖掘模塊、頻繁路段挖掘模塊分別與數(shù)據(jù)導入模塊相連。
3.根據(jù)權利要求2所述的基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng),其特征在于 所述云計算機Hadoop集群模塊包括數(shù)據(jù)處理模塊和數(shù)據(jù)存儲模塊,所述數(shù)據(jù)處理模塊與關聯(lián)規(guī)則挖掘模塊和頻繁路段挖掘模塊相連。
4.一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法,包括如下步驟步驟1、由數(shù)據(jù)采集模塊采集數(shù)據(jù),并通過3G網(wǎng)絡傳送到挖掘系統(tǒng)前端,挖掘系統(tǒng)前端將要挖掘的數(shù)據(jù)集切分為若干獨立的數(shù)據(jù)塊并記錄;步驟2、并行統(tǒng)計每個數(shù)據(jù)塊中所有支持度大于最小支持度的頻繁1個數(shù)據(jù)字段,結果存儲在F-Iist中;步驟3、將F-Iist中的頻繁1個數(shù)據(jù)字段分為G個組;步驟4、云計算機Hadoop集群模塊中分組并行執(zhí)行FPGrowth算法,,生成并保存相關的局部閉頻繁模式集;步驟5、合并局部閉頻繁模式集,生成全局的閉頻繁模式集,最后根據(jù)全局閉頻繁模式集生成無冗余的關聯(lián)規(guī)則。
5.根據(jù)權利要求4中所述的基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法,其特征在于在步驟3中,對G個組的每個組進行標記為一個G-List,并對應編號gid。
6.根據(jù)權利要求5中所述的基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法,其特征在于在步驟4中,在執(zhí)行FPGrowth算法時,加入融合、剪枝、閉合檢查步驟。
全文摘要
本發(fā)明的第一個目的是公開了一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘系統(tǒng),包括數(shù)據(jù)采集模塊、與數(shù)據(jù)采集模塊通過3G網(wǎng)絡相連的挖掘系統(tǒng)前端模塊、與挖掘系統(tǒng)前端模塊相連的云計算機Hadoop集群模塊;本發(fā)明系統(tǒng)將電動汽車遠程監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)完美的結合起來,保證了遠程監(jiān)控系統(tǒng)的實時服務,又充分利用了云計算平臺Hadoop的存儲高可擴展性、計算框架mapreduce高容錯性等,精確度高。本發(fā)明的另一個目的是公開了一種基于云計算機框架的電動汽車數(shù)據(jù)挖掘方法。本發(fā)明方法的適用性廣,使用其擺脫了人工的系統(tǒng)與分析,實用性好,而且其可擴展性強,挖掘時間短,挖掘結果無冗余,確保了電動汽車的發(fā)展與應用。
文檔編號H04L29/08GK102567488SQ20111043145
公開日2012年7月11日 申請日期2011年12月21日 優(yōu)先權日2011年12月21日
發(fā)明者劉新宇, 朱曉進, 畢經(jīng)平 申請人:江蘇遠為科技有限公司