一種大數(shù)據(jù)比對碰撞系統(tǒng)的制作方法
【專利摘要】一種大數(shù)據(jù)比對碰撞系統(tǒng)(BAS),涉及電數(shù)字數(shù)據(jù)處理領(lǐng)域,本發(fā)明提供一種以多維度分塊遞歸比對算法為基礎(chǔ)的比對碰撞系統(tǒng),以解決數(shù)據(jù)比對耗時長的技術(shù)問題。本系統(tǒng)包括以下四個模塊:表單管理模塊、模型管理模塊、組織結(jié)構(gòu)模塊、系統(tǒng)管理模塊,本系統(tǒng)核心功能是管理加載不同的數(shù)據(jù)來源的數(shù)據(jù),并對不同數(shù)據(jù)源的數(shù)據(jù)進行建模,執(zhí)行模型后得到用戶需要的結(jié)果。
【專利說明】一種大數(shù)據(jù)比對碰撞系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及電數(shù)字數(shù)據(jù)處理領(lǐng)域,特別涉及一種大數(shù)據(jù)比對碰撞系統(tǒng)(BAS)。
【背景技術(shù)】
[0002] 隨著大數(shù)據(jù)云計算時代的來臨,傳統(tǒng)的比對碰撞算法已經(jīng)無法滿足當前數(shù)據(jù)形 式下的需要,如何從海量數(shù)據(jù)中分析比對出有價值有意義的數(shù)據(jù)成為了計算機技術(shù)的瓶 頸。利用傳統(tǒng)的比對碰撞算法,如果兩個數(shù)據(jù)集是一萬以內(nèi)數(shù)據(jù)的話,取交集的時間大約為 ls_5s之間,如果數(shù)據(jù)集到達一萬以上的話,隨著數(shù)據(jù)的增加,比對算法將會驟減。
[0003] 為了解決兩個大數(shù)據(jù)集合之間進行比對碰撞效率的問題,本系統(tǒng)采用了多維度分 塊遞歸比對算法進行比對碰撞,即對兩個大數(shù)據(jù)集進行多維度分塊切分,切分后遞歸進行 比對碰撞。
[0004] 實驗表明,多維度分塊遞歸比對算法的性能與一般算法相比有了很大提升,對于 十萬以下的兩個數(shù)據(jù)集進行比對消耗時間大概為2S以內(nèi),十萬至一百萬的兩個數(shù)據(jù)集合 進行比對,消耗時間大概為5s以內(nèi),大大的增加了比對性能和效率,提高了大數(shù)據(jù)分析的 可靠性和功能的延展性。本系統(tǒng)就是以多維度分塊遞歸比對算法為技術(shù)依據(jù),對不同的數(shù) 據(jù)表中的數(shù)據(jù)進行選擇和比對碰撞,最終得到滿足條件的有價值的結(jié)果。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種以多維度分塊遞歸比對算法為基礎(chǔ)的比對碰撞系統(tǒng),以解決數(shù)據(jù) 比對耗時長的技術(shù)問題。本系統(tǒng)的核心功能是管理加載不同的數(shù)據(jù)來源的數(shù)據(jù),并對不同 數(shù)據(jù)源的數(shù)據(jù)進行建模,執(zhí)行模型后得到用戶需要的結(jié)果。
[0006] 為達到上述目的,本發(fā)明提供的大數(shù)據(jù)比對碰撞系統(tǒng)包括以下四個模塊:表單管 理模塊、模型管理模塊、組織結(jié)構(gòu)模塊、系統(tǒng)管理模塊。
[0007] 1、表單管理模塊:表單管理模塊包括:添加表單、維護表單、表單導(dǎo)入和表單導(dǎo) 出。
[0008] I. 1建立表單:添加一個新的表單,需要填寫表單的中文名稱、表單對應(yīng)的數(shù)據(jù)庫 (MYSQL/0RACLE/SQLSERVER/DB2....)的名稱,數(shù)據(jù)庫表的對應(yīng)IP地址、端口、用戶名、密 碼、數(shù)據(jù)庫表等相關(guān)信息。如果是文件,則需要填寫文件地址信息等。添加表單中的字段的 信息,如果是文件,則需要填寫文件的各列的數(shù)據(jù)信息,同時需要設(shè)置每個字段的屬性、類 型等信息。
[0009] 1. 2維護表單:對表單中的相關(guān)信息進行維護,包括表單屬性維護以及表單中的 字段信息進行維護。
[0010] 1.3表單導(dǎo)入:由于表單中的相關(guān)信息填寫比較復(fù)雜,因此為了方便表單的維護, 系統(tǒng)支持對表單進行自動導(dǎo)入,即按照系統(tǒng)的模板進行導(dǎo)入即可。
[0011] 1.4表單導(dǎo)出:用戶可以將已經(jīng)建好的表單進行導(dǎo)出,導(dǎo)出后可以直接在其他系 統(tǒng)中對表單進行那個導(dǎo)出。
[0012] 2、模型管理模塊:模型管理模塊包括:模型管理、模型任務(wù)配制、模型比對碰撞、 模型結(jié)果展示和模型導(dǎo)入導(dǎo)出。
[0013] 2. 1模型管理:在現(xiàn)有數(shù)據(jù)源以及數(shù)據(jù)字段的基礎(chǔ)上,建立符合用戶要求的模型 信息,如附圖3所示:
[0014] 2. 11數(shù)據(jù)源:顯示目前系統(tǒng)中所有的已經(jīng)配置的數(shù)據(jù)源的基本信息。
[0015] 2. 12數(shù)據(jù)字段:顯示當前數(shù)據(jù)源中的所有的字段信息。
[0016] 2. 13條件構(gòu)造器:選擇某一個字段后,可以在條件構(gòu)造器中構(gòu)造相應(yīng)的檢索條 件。
[0017] 2. 14邏輯構(gòu)造器:
[0018] 同類別數(shù)據(jù)之間:同一個數(shù)據(jù)源不同檢索條件之間的處理邏輯。
[0019] 不同類別數(shù)據(jù)之間:同一個條件組不同數(shù)據(jù)源結(jié)果集之間的數(shù)據(jù)處理邏輯。
[0020] 不同條件組之間:不同條件組的比對結(jié)果的數(shù)據(jù)源之間的處理邏輯。
[0021] 2. 15條件組顯示區(qū)域:顯示不同條件組之間的比對碰撞條件信息。
[0022] 2. 2模型任務(wù)配置:模型成功建立后,可以對模型的執(zhí)行策略進行配置,系統(tǒng)支持 兩種策略:定點執(zhí)行和實時執(zhí)行。
[0023] 定點執(zhí)行:即一天執(zhí)行一次,需要在系統(tǒng)中配置每天幾點開始執(zhí)行。
[0024] 實時執(zhí)行:即一天執(zhí)行多次,需要在系統(tǒng)中配置多長時間觸發(fā)一次。
[0025] 2. 3模型比對碰撞:模型被成功觸發(fā)后,執(zhí)行流程如下:
[0026] 得到當前的模型信息;得到模型中的條件組信息;抽取條件組中的相同類型的數(shù) 據(jù)檢索條件、根據(jù)條件組邏輯處理進行抽取碰撞;條件組同一類型的數(shù)據(jù)進行抽取碰撞后, 將不同的數(shù)據(jù)類型之間的數(shù)據(jù)按照不同類別數(shù)據(jù)之間的處理邏輯進行處理。
[0027] 2. 4模型結(jié)果展示:模型執(zhí)行的結(jié)果支持列表的展示形式,即將最終的比對碰撞 的結(jié)果按照列表的形式進行展示。
[0028] 2. 5模型導(dǎo)入導(dǎo)出:模型建立成功后,系統(tǒng)支持用戶批量導(dǎo)出模型信息到xml文 件,系統(tǒng)導(dǎo)出xml文件后,用戶可以將xml文件導(dǎo)入到其他系統(tǒng)中,直接建立模型。
[0029] 3、組織結(jié)構(gòu)模塊:組織結(jié)構(gòu)主要是對平臺的用戶角色權(quán)限進行管理和維護,包括 如下功能:
[0030] 3. 1用戶管理:用戶管理是對平臺的用戶進行管理維護,包括如下功能:
[0031] 添加用戶:添加某一個平臺用戶;
[0032] 修改用戶:對用戶的基本信息進行修改;
[0033] 注銷用戶:刪除某一個平臺用戶。
[0034] 3. 2角色管理:角色管理是對平臺的角色進行管理維護,包括如下功能:
[0035] 添加角色:添加某一個平臺角色;
[0036] 修改角色:對角色的基本信息進行修改;
[0037] 刪除角色:刪除某一個平臺角色。
[0038] 3. 3角色分配:角色分配是對平臺的用戶進行角色分配,平臺支持同一個用戶屬 于不同的角色。
[0039] 3. 4權(quán)限分配:權(quán)限分配是對平臺的角色進行授權(quán),為角色授權(quán)后,平臺用戶將自 動繼承角色的權(quán)限信息
[0040] 4、系統(tǒng)管理模塊:系統(tǒng)管理中包含了與平臺正常運行緊密關(guān)聯(lián)的系統(tǒng)運維、運行 監(jiān)控、設(shè)置調(diào)優(yōu)、任務(wù)控制等核心操作,其功能如下:
[0041] 4. 1日志管理:日志管理包括如下幾種類型:
[0042] 平臺用戶操作日志:對平臺用戶在登錄平臺后的主要操作進行記錄監(jiān)控
[0043] 平臺運行記錄:對整個平臺的運行情況進行監(jiān)控,一旦出現(xiàn)異常自動報警。
[0044] 開發(fā)者調(diào)用記錄:平臺中的開發(fā)者利用平臺進行開發(fā)過程中的相關(guān)操作記錄。
[0045] 4. 2任務(wù)管理:任務(wù)管理是平臺提供的定時觸發(fā)調(diào)用相關(guān)任務(wù)的插件,里面包含 系統(tǒng)任務(wù)和定制任務(wù)兩種類型:
[0046] 系統(tǒng)任務(wù):平臺中的任務(wù),不能進行刪除和修改,主要包括一些與平臺運行息息相 關(guān)的任務(wù)調(diào)用,例如緩存清理任務(wù)、數(shù)據(jù)優(yōu)化任務(wù)、圖形插件優(yōu)化任務(wù)等;
[0047] 定制任務(wù):開發(fā)者自己開發(fā)的相關(guān)任務(wù),開發(fā)者只需要實現(xiàn)平臺中的相關(guān)接口,并 且在任務(wù)中進行相關(guān)配置即可按照相關(guān)規(guī)則進行調(diào)用。
[0048] 4. 3接口管理:接口管理是平臺提供的相關(guān)數(shù)據(jù)集之間獲取交集和并集的接口管 理方法,用戶可以在接口管理里面上傳最新的經(jīng)過優(yōu)化的數(shù)據(jù)碰撞比對算法以及相關(guān)文檔 信息。
[0049] 4. 4系統(tǒng)配置:系統(tǒng)配置是平臺參數(shù)配置的入口,系統(tǒng)運行的相關(guān)參數(shù)都可以在 系統(tǒng)配置中進行修改和維護,系統(tǒng)配置修改后,會于第二天生效。
[0050] 本系統(tǒng)是通過"多維度分塊遞歸比對算法"為核心算法的比對碰撞系統(tǒng),多維度分 塊遞歸比對算法的原理如下:
[0051] 對兩個大數(shù)據(jù)集合COLl、C0L2進行多維度拆分后得到
[0052] COLl I,C0L12, C0L13. ... COLlN
[0053] 以及
[0054] C0L21,C0L22, C0L23. . . C0L2N,兩個數(shù)據(jù)集合塊組,數(shù)據(jù)塊的拆分根據(jù)隨機拆分的 方式進行即可,每個數(shù)據(jù)塊中分配η個數(shù)據(jù)。
[0055] 計算數(shù)據(jù)塊的特征值3,特征值3被稱為數(shù)據(jù)集相似指紋字符串,可以作為當前數(shù) 據(jù)塊的標志和比對依據(jù),特征值的計算方式如下:
【權(quán)利要求】
1. 一種大數(shù)據(jù)比對碰撞系統(tǒng),其特征在于:包括以下四個模塊:表單管理模塊、模型管 理模塊、組織結(jié)構(gòu)模塊、系統(tǒng)管理模塊;其中表單管理模塊包括:建立表單、維護表單、表單 導(dǎo)入和表單導(dǎo)出;模型管理模塊包括:模型管理、模型任務(wù)配制、模型比對碰撞、模型結(jié)果 展示和模型導(dǎo)入導(dǎo)出;組織結(jié)構(gòu)模塊是對平臺的用戶角色權(quán)限進行管理和維護,包括用戶 管理、角色管理、角色分配和權(quán)限管理;系統(tǒng)管理模塊包含與平臺正常運行緊密關(guān)聯(lián)的系統(tǒng) 運維、運行監(jiān)控、設(shè)置調(diào)優(yōu)、任務(wù)控制等核心操作,其功能包括:日志管理、任務(wù)管理、接口管 理、系統(tǒng)配置;大數(shù)據(jù)比對碰撞系統(tǒng)的核心算法是多維度分塊遞歸比對算法。
2. 如權(quán)利要求1所述的系統(tǒng),其特征在于,所述多維度分塊遞歸比對算法具體為: 對兩個大數(shù)據(jù)集合COLl、C0L2進行多維度拆分后得到 COLlI,C0L12,C0L13. ...COLlN 以及 C0L21,C0L22,C0L23. . .C0L2N, 兩個數(shù)據(jù)集合塊組,數(shù)據(jù)塊的拆分根據(jù)隨機拆分的方式進行,每個數(shù)據(jù)塊中分配η個 數(shù)據(jù); 計算數(shù)據(jù)塊的特征值Θ,特征值的計算方式如下:
相似度計算方法如下:
按照相似度的大小重新對同一個數(shù)據(jù)集合中的數(shù)據(jù)進行重組,得到重組后的兩個數(shù)據(jù) 結(jié)合塊組: NCOLlI,NC0L12,NC0L13. ...NCOLlN 以及 NC0L21,NC0L22,NC0L23. . .NC0L2N, 重復(fù)上述過程,繼續(xù)比對不同數(shù)據(jù)塊之間的相似度,重組數(shù)據(jù)得到最后重組后的數(shù)據(jù) 塊組, 當兩個數(shù)據(jù)塊組之間的相似度達到一個臨界值的時候,利用遞歸比對算法得到最終的 結(jié)果,遞歸比對算法算法如下:
3. 卯儀利要求1和2所還的糸統(tǒng),具特祉在t,糸統(tǒng)奴用樸境卯卜: 硬件環(huán)境:服務(wù)器端:內(nèi)存:16G以上,硬盤:IOT以上服務(wù)器或?qū)S脙?nèi)存服務(wù)器; 客戶端:普通PC,內(nèi)存4G以上。 軟件環(huán)境:服務(wù)器端:Windows2003、XP或Linux;數(shù)據(jù)庫采用MySQL、SQLServer、 Oracle;應(yīng)用服務(wù)器采用T0MCAT5以上或WebSphere、WebLogicJDKL6及以上; 客戶端Windows系統(tǒng)操作系統(tǒng);IE7.O以上版本或者其他版本數(shù)據(jù)庫。
【文檔編號】G06F17/30GK104462343SQ201410735745
【公開日】2015年3月25日 申請日期:2014年12月8日 優(yōu)先權(quán)日:2014年12月8日
【發(fā)明者】龐艷民 申請人:北京慶世昌明科技有限公司