針對分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng)及其預處理方法與流程

文檔序號：11707565閱讀：203來源：國知局

本發(fā)明涉及計算機領域，特別是涉及一種針對大數(shù)據(jù)的分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng)。本發(fā)明還涉及一種針對大數(shù)據(jù)的分布式特性對大數(shù)據(jù)進行預處理的方法

背景技術：

大數(shù)據(jù)技術發(fā)展迅猛，數(shù)據(jù)技術從早期在單機上處理單一類型的數(shù)據(jù)，發(fā)展到當前在計算機集群上處理多類型的數(shù)據(jù)，實現(xiàn)時間寬松的數(shù)據(jù)分析應用。隨著數(shù)據(jù)量發(fā)展到pb、eb級甚至更大，并且要求更快的處理分析時間，大數(shù)據(jù)專用計算機、異地分布式計算機集群、多類型多來源數(shù)據(jù)的處理和分析、數(shù)據(jù)網(wǎng)絡等復雜結構數(shù)據(jù)的分析、秒級時間分析等通用技術以及各種面向領域的應用技術是大數(shù)據(jù)技術的發(fā)展趨勢。以hdfs、gfs、mapreduce、hadoop、spark、storm、hbase、mongodb等為代表的大數(shù)據(jù)通用技術和開源項目迅猛發(fā)展，大數(shù)據(jù)預處理技術是大數(shù)據(jù)處理過程中必不可少的一個環(huán)節(jié)，這些大數(shù)據(jù)處理技術都引入了分布式計算與分布式挖掘分析的概念。

大數(shù)據(jù)信息來源復雜，數(shù)據(jù)結構多樣，需采用大數(shù)據(jù)預處理技術對采集到的數(shù)據(jù)進行預處理，將信息制定為統(tǒng)一標準的數(shù)據(jù)規(guī)范，從而支撐后續(xù)的數(shù)據(jù)計算和挖掘分析。為了有效支撐大數(shù)據(jù)分布式計算與挖掘分析，需針對分布式特性對大數(shù)據(jù)進行預處理，保證相關數(shù)據(jù)處于同一節(jié)點、且節(jié)點之間不存在數(shù)據(jù)與計算上的交互性。

數(shù)據(jù)分布式特性包括分布式計算算法、分布式挖掘分析算法及分布式挖掘分析算法對應的數(shù)學模型。

技術實現(xiàn)要素：

本發(fā)明要解決的技術問題是提供利用數(shù)據(jù)分布式特性(分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型)對大數(shù)據(jù)進行預處理的系統(tǒng)，從而將大數(shù)據(jù)快速有效地處理為統(tǒng)一標準的數(shù)據(jù)格式，并將關聯(lián)數(shù)據(jù)劃分到同一節(jié)點、全部數(shù)據(jù)有序劃分到不同的節(jié)點、且節(jié)點之間的數(shù)據(jù)不具備關聯(lián)性，避免節(jié)點之間的交互計算，有效地支撐了大數(shù)據(jù)分布式計算和挖掘分析。本發(fā)明還提供了一種利用數(shù)據(jù)分布式特性對大數(shù)據(jù)進行預處理的方法

為解決上述技術問題，本發(fā)明提供的針對分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng)，包括：預處理適配器、數(shù)據(jù)處理模塊和分布式存儲模塊；

預處理適配器，為原始數(shù)據(jù)預處理提供了入口并將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)，分為自動化預處理適配器和半自動化預處理適配器；

自動化預處理適配器，根據(jù)不同的數(shù)據(jù)源格式設置不同的自動化適配器，將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)；

半自動化預處理適配器，通過對開放的標準預處理接口進行二次開發(fā)或按照自動化預處理適配器的標準添加相應的配置文件，將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)或滿足自動化預處理適配器格式要求的數(shù)據(jù)；

數(shù)據(jù)處理模塊，將預處理適配器發(fā)送來的數(shù)據(jù)按照指定規(guī)則和統(tǒng)一標準的數(shù)據(jù)格式進行數(shù)據(jù)塊的劃分，劃分后的數(shù)據(jù)塊分布到不同的存儲節(jié)點上，符合預設關聯(lián)計算規(guī)則的數(shù)據(jù)劃分在同一數(shù)據(jù)塊中，且數(shù)據(jù)塊之間不具備關聯(lián)性；

分布式存儲模塊，設置多個存儲節(jié)點，用于存儲數(shù)據(jù)處理模塊發(fā)送的數(shù)據(jù)塊。

其中，數(shù)據(jù)處理模塊進行數(shù)據(jù)塊劃分的指定規(guī)則為：數(shù)據(jù)的分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型；

其中，針對分布式計算算法對數(shù)據(jù)塊進行劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)聚合，通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊；

數(shù)據(jù)重組，根據(jù)特定的規(guī)則，提取相應數(shù)據(jù)項，重新組合為新的數(shù)據(jù)塊；

數(shù)據(jù)關聯(lián)，通過設定關聯(lián)數(shù)據(jù)規(guī)則，將數(shù)據(jù)項之間滿足關聯(lián)規(guī)則的數(shù)據(jù)劃分為一個數(shù)據(jù)塊；

數(shù)據(jù)切分，在數(shù)據(jù)聚合、數(shù)據(jù)關聯(lián)和數(shù)據(jù)重組操作的基礎上，針對分布式計算中不同數(shù)據(jù)塊之間或不同機器的數(shù)據(jù)之間需按照設定的計算模型進行數(shù)據(jù)計算，根據(jù)業(yè)務需求將數(shù)據(jù)按指定規(guī)則進行數(shù)據(jù)切分，從而將數(shù)據(jù)有序分布在不同的節(jié)點上；

計算模型，即根據(jù)業(yè)務需求抽象出來的數(shù)學公式；

指定規(guī)則，包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。

其中，針對分布式挖掘分析算法對數(shù)據(jù)進行劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)信息提取，根據(jù)分析算法的參數(shù)需求，提取出需要分析的數(shù)據(jù)項，并存儲在相同的數(shù)據(jù)節(jié)點上；

數(shù)據(jù)處理，在原始數(shù)據(jù)的基礎上，根據(jù)業(yè)務分析目標，設定相應的計算公式，通過已有數(shù)據(jù)項之間的計算產(chǎn)生新的數(shù)據(jù)項；

挖掘分析算法數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。

其中，采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

通過數(shù)據(jù)格式轉換和數(shù)據(jù)模型提取，提取出數(shù)學模型所需的數(shù)據(jù)項、數(shù)據(jù)類型和數(shù)據(jù)格式，將數(shù)據(jù)分布到不同的節(jié)點上；

數(shù)學模型數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式；

數(shù)據(jù)模型提取，根據(jù)挖掘分析的需要，原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。

其中，自動化預處理適配器的配置項能通過映射與數(shù)據(jù)存儲的字段名或數(shù)據(jù)項一一對應，自動化預處理適配器的數(shù)據(jù)項能通過配置頁面進行選取，或通過對配置項數(shù)據(jù)參數(shù)值進行設定、修改進行選取。

本發(fā)明提供的針對分布式特性對大數(shù)據(jù)進行預處理的方法，包括：

第一步，根據(jù)不同的數(shù)據(jù)源格式將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)，根據(jù)數(shù)據(jù)分析目標、基于現(xiàn)有數(shù)據(jù)項設定其中一個數(shù)據(jù)項為計算的主鍵，將所有數(shù)據(jù)中任意兩條數(shù)據(jù)的主鍵項所對應的數(shù)據(jù)進行組合，得出關聯(lián)數(shù)據(jù)對；

第二步，基于關聯(lián)數(shù)據(jù)對中的主鍵項、設定相應的計算模型，獲取關聯(lián)計算所需的數(shù)據(jù)項作為value，轉換為<key,value>鍵值對；

第三步，對鍵值對按照指定規(guī)則進行數(shù)據(jù)塊的劃分得到不同的數(shù)據(jù)塊，并對得到的數(shù)據(jù)塊進行并行計算得到新的數(shù)據(jù)塊；

第四步，新的數(shù)據(jù)塊劃分到不同的節(jié)點上，得到的數(shù)據(jù)塊之間不具備任何關聯(lián)性。

其中，實施第三步時，進行數(shù)據(jù)塊劃分的指定規(guī)則為：數(shù)據(jù)的分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型。

其中，采用分布式計算算法進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)聚合，通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊；

數(shù)據(jù)重組，根據(jù)特定的規(guī)則，提取相應數(shù)據(jù)項，重新組合為新的數(shù)據(jù)塊；

計算模型，即根據(jù)業(yè)務需求抽象出來的數(shù)學公式；

指定規(guī)則，包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。

其中，采用分布式挖掘分析算法進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)信息提取，根據(jù)分析算法的參數(shù)需求，提取出需要分析的數(shù)據(jù)項，并存儲在相同的數(shù)據(jù)節(jié)點上；

挖掘分析算法數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。

其中，采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)學模型數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式；

數(shù)據(jù)模型提取，根據(jù)挖掘分析的需要，原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。

其中，實施第一步時，目標格式的數(shù)據(jù)的配置項能通過映射與數(shù)據(jù)存儲的字段名或數(shù)據(jù)項一一對應，目標格式的數(shù)據(jù)的數(shù)據(jù)項能通過選取，或通過對配置項數(shù)據(jù)參數(shù)值進行設定、修改進行選取。

以數(shù)據(jù)之間的關系值計算為例，說明本發(fā)明的工作原理。

假設共有n條數(shù)據(jù)，設定每條數(shù)據(jù)的唯一標識為主鍵key，通過任意兩條數(shù)據(jù)同一數(shù)據(jù)項之間的計算，得到任意兩條數(shù)據(jù)之間的關聯(lián)值，共需進行n*(n-1)/2次計算。

如圖1所示，為傳統(tǒng)預處理方法處理后的數(shù)據(jù)的計算結構圖。

傳統(tǒng)的數(shù)據(jù)預處理方法為：根據(jù)數(shù)據(jù)量的大小將數(shù)據(jù)平均劃分到m個節(jié)點上，由于任意兩條數(shù)據(jù)都需進行計算從而得出其關聯(lián)值，圖1中，節(jié)點1的數(shù)據(jù)塊1中的數(shù)據(jù)計算可看出，共存在以下三種類型的數(shù)據(jù)計算：c1,同一數(shù)據(jù)塊中的任意兩條數(shù)據(jù)之間進行計算；c2,同一機器的不同數(shù)據(jù)塊之間的數(shù)據(jù)進行計算；c3,不同機器的不同數(shù)據(jù)塊之間的數(shù)據(jù)進行計算。

該預處理方法處理后的數(shù)據(jù)進行數(shù)據(jù)計算時不同數(shù)據(jù)之間、不同數(shù)據(jù)塊之間和不同節(jié)點之間需進行頻繁的交互，都會造成計算的耗時。

圖2是經(jīng)本發(fā)明預處理后數(shù)據(jù)的計算結構圖。經(jīng)過預處理后的數(shù)據(jù)將需進行計算的數(shù)據(jù)存放為一條數(shù)據(jù)，避免了不同數(shù)據(jù)之間、不同數(shù)據(jù)塊之間和不同節(jié)點之間的通信和交互，大幅提升了數(shù)據(jù)進行分布式計算的效率。經(jīng)本發(fā)明預處理后的數(shù)據(jù)根據(jù)業(yè)務分析目標，將其處理為挖掘分析所需的數(shù)據(jù)格式。

本發(fā)明能大幅提升大數(shù)據(jù)分布式計算和挖掘分析的效率。

附圖說明

下面結合附圖與具體實施方式對本發(fā)明作進一步詳細的說明：

圖1是傳統(tǒng)預處理方法處理后的數(shù)據(jù)的計算結構示意圖。

圖2是本發(fā)明預處理后數(shù)據(jù)的計算結構示意圖。

圖3是本發(fā)明預處理系統(tǒng)結構示意圖。

具體實施方式

如圖3所示，本發(fā)明提供的針對分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng)，包括：預處理適配器、數(shù)據(jù)處理模塊和分布式存儲模塊；

自動化預處理適配器，根據(jù)不同的數(shù)據(jù)源格式設置不同的自動化適配器，將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)；

分布式存儲模塊，設置多個存儲節(jié)點，用于存儲數(shù)據(jù)處理模塊發(fā)送的數(shù)據(jù)塊。

其中，針對分布式計算算法對數(shù)據(jù)塊進行劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)聚合，通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊；

數(shù)據(jù)重組，根據(jù)特定的規(guī)則，提取相應數(shù)據(jù)項，重新組合為新的數(shù)據(jù)塊；

計算模型，即根據(jù)業(yè)務需求抽象出來的數(shù)學公式。

指定規(guī)則，包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。

其中，針對分布式挖掘分析算法對數(shù)據(jù)進行劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)信息提取，根據(jù)分析算法的參數(shù)需求，提取出需要分析的數(shù)據(jù)項，并存儲在相同的數(shù)據(jù)節(jié)點上；

挖掘分析算法數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。

其中，采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)學模型數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式；

數(shù)據(jù)模型提取，根據(jù)挖掘分析的需要，原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。

本發(fā)明提供一種針對分布式特性對大數(shù)據(jù)進行預處理的方法，包括：

第二步，基于關聯(lián)數(shù)據(jù)對中的主鍵項、設定相應的計算模型，獲取關聯(lián)計算所需的數(shù)據(jù)項作為value，轉換為<key,value>鍵值對；

第四步，新的數(shù)據(jù)塊劃分到不同的節(jié)點上，得到的數(shù)據(jù)塊之間不具備任何關聯(lián)性。

其中，采用分布式計算算法進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)聚合，通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊；

數(shù)據(jù)重組，根據(jù)特定的規(guī)則，提取相應數(shù)據(jù)項，重新組合為新的數(shù)據(jù)塊；

計算模型，即根據(jù)業(yè)務需求抽象出來的數(shù)學公式。

指定規(guī)則，包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。

其中，采用分布式挖掘分析算法進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)據(jù)信息提取，根據(jù)分析算法的參數(shù)需求，提取出需要分析的數(shù)據(jù)項，并存儲在相同的數(shù)據(jù)節(jié)點上；

挖掘分析算法數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。

其中，采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時，通過以下方式實現(xiàn)：

數(shù)學模型數(shù)據(jù)格式轉換，將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式；

數(shù)據(jù)模型提取，根據(jù)挖掘分析的需要，原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。

以上通過具體實施方式和實施例對本發(fā)明進行了詳細的說明，但這些并非構成對本發(fā)明的限制。在不脫離本發(fā)明原理的情況下，本領域的技術人員還可做出許多變形和改進，這些也應視為本發(fā)明的保護范圍。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：顧青;梁佐泉;謝超;梁艷敏;王寧寧;馮四風;趙艷紅;田文晉;王亞紅;黃奚芳
技術所有人：普華誠信信息技術有限公司
我是此專利的發(fā)明人

上一篇：一種便攜式太陽能空氣凈化器的制作方法與工藝
上一篇：一種蘇勒德圖案太陽能電池板的制作方法與工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

如何對數(shù)據(jù)進行預處理相關技術

分布式特性相關技術

數(shù)據(jù)預處理相關技術

數(shù)據(jù)預處理方法相關技術

數(shù)據(jù)預處理的方法相關技術

python數(shù)據(jù)預處理相關技術

大數(shù)據(jù)預處理相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

針對分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng)及其預處理方法與流程