本發(fā)明涉及計算機領域,特別是涉及一種針對大數(shù)據(jù)的分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng)。本發(fā)明還涉及一種針對大數(shù)據(jù)的分布式特性對大數(shù)據(jù)進行預處理的方法
背景技術:
大數(shù)據(jù)技術發(fā)展迅猛,數(shù)據(jù)技術從早期在單機上處理單一類型的數(shù)據(jù),發(fā)展到當前在計算機集群上處理多類型的數(shù)據(jù),實現(xiàn)時間寬松的數(shù)據(jù)分析應用。隨著數(shù)據(jù)量發(fā)展到pb、eb級甚至更大,并且要求更快的處理分析時間,大數(shù)據(jù)專用計算機、異地分布式計算機集群、多類型多來源數(shù)據(jù)的處理和分析、數(shù)據(jù)網(wǎng)絡等復雜結構數(shù)據(jù)的分析、秒級時間分析等通用技術以及各種面向領域的應用技術是大數(shù)據(jù)技術的發(fā)展趨勢。以hdfs、gfs、mapreduce、hadoop、spark、storm、hbase、mongodb等為代表的大數(shù)據(jù)通用技術和開源項目迅猛發(fā)展,大數(shù)據(jù)預處理技術是大數(shù)據(jù)處理過程中必不可少的一個環(huán)節(jié),這些大數(shù)據(jù)處理技術都引入了分布式計算與分布式挖掘分析的概念。
大數(shù)據(jù)信息來源復雜,數(shù)據(jù)結構多樣,需采用大數(shù)據(jù)預處理技術對采集到的數(shù)據(jù)進行預處理,將信息制定為統(tǒng)一標準的數(shù)據(jù)規(guī)范,從而支撐后續(xù)的數(shù)據(jù)計算和挖掘分析。為了有效支撐大數(shù)據(jù)分布式計算與挖掘分析,需針對分布式特性對大數(shù)據(jù)進行預處理,保證相關數(shù)據(jù)處于同一節(jié)點、且節(jié)點之間不存在數(shù)據(jù)與計算上的交互性。
數(shù)據(jù)分布式特性包括分布式計算算法、分布式挖掘分析算法及分布式挖掘分析算法對應的數(shù)學模型。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題是提供利用數(shù)據(jù)分布式特性(分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型)對大數(shù)據(jù)進行預處理的系統(tǒng),從而將大數(shù)據(jù)快速有效地處理為統(tǒng)一標準的數(shù)據(jù)格式,并將關聯(lián)數(shù)據(jù)劃分到同一節(jié)點、全部數(shù)據(jù)有序劃分到不同的節(jié)點、且節(jié)點之間的數(shù)據(jù)不具備關聯(lián)性,避免節(jié)點之間的交互計算,有效地支撐了大數(shù)據(jù)分布式計算和挖掘分析。本發(fā)明還提供了一種利用數(shù)據(jù)分布式特性對大數(shù)據(jù)進行預處理的方法
為解決上述技術問題,本發(fā)明提供的針對分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng),包括:預處理適配器、數(shù)據(jù)處理模塊和分布式存儲模塊;
預處理適配器,為原始數(shù)據(jù)預處理提供了入口并將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù),分為自動化預處理適配器和半自動化預處理適配器;
自動化預處理適配器,根據(jù)不同的數(shù)據(jù)源格式設置不同的自動化適配器,將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù);
半自動化預處理適配器,通過對開放的標準預處理接口進行二次開發(fā)或按照自動化預處理適配器的標準添加相應的配置文件,將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)或滿足自動化預處理適配器格式要求的數(shù)據(jù);
數(shù)據(jù)處理模塊,將預處理適配器發(fā)送來的數(shù)據(jù)按照指定規(guī)則和統(tǒng)一標準的數(shù)據(jù)格式進行數(shù)據(jù)塊的劃分,劃分后的數(shù)據(jù)塊分布到不同的存儲節(jié)點上,符合預設關聯(lián)計算規(guī)則的數(shù)據(jù)劃分在同一數(shù)據(jù)塊中,且數(shù)據(jù)塊之間不具備關聯(lián)性;
分布式存儲模塊,設置多個存儲節(jié)點,用于存儲數(shù)據(jù)處理模塊發(fā)送的數(shù)據(jù)塊。
其中,數(shù)據(jù)處理模塊進行數(shù)據(jù)塊劃分的指定規(guī)則為:數(shù)據(jù)的分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型;
其中,針對分布式計算算法對數(shù)據(jù)塊進行劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)聚合,通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊;
數(shù)據(jù)重組,根據(jù)特定的規(guī)則,提取相應數(shù)據(jù)項,重新組合為新的數(shù)據(jù)塊;
數(shù)據(jù)關聯(lián),通過設定關聯(lián)數(shù)據(jù)規(guī)則,將數(shù)據(jù)項之間滿足關聯(lián)規(guī)則的數(shù)據(jù)劃分為一個數(shù)據(jù)塊;
數(shù)據(jù)切分,在數(shù)據(jù)聚合、數(shù)據(jù)關聯(lián)和數(shù)據(jù)重組操作的基礎上,針對分布式計算中不同數(shù)據(jù)塊之間或不同機器的數(shù)據(jù)之間需按照設定的計算模型進行數(shù)據(jù)計算,根據(jù)業(yè)務需求將數(shù)據(jù)按指定規(guī)則進行數(shù)據(jù)切分,從而將數(shù)據(jù)有序分布在不同的節(jié)點上;
計算模型,即根據(jù)業(yè)務需求抽象出來的數(shù)學公式;
指定規(guī)則,包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。
其中,針對分布式挖掘分析算法對數(shù)據(jù)進行劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)信息提取,根據(jù)分析算法的參數(shù)需求,提取出需要分析的數(shù)據(jù)項,并存儲在相同的數(shù)據(jù)節(jié)點上;
數(shù)據(jù)處理,在原始數(shù)據(jù)的基礎上,根據(jù)業(yè)務分析目標,設定相應的計算公式,通過已有數(shù)據(jù)項之間的計算產(chǎn)生新的數(shù)據(jù)項;
挖掘分析算法數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。
其中,采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
通過數(shù)據(jù)格式轉換和數(shù)據(jù)模型提取,提取出數(shù)學模型所需的數(shù)據(jù)項、數(shù)據(jù)類型和數(shù)據(jù)格式,將數(shù)據(jù)分布到不同的節(jié)點上;
數(shù)學模型數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式;
數(shù)據(jù)模型提取,根據(jù)挖掘分析的需要,原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。
其中,自動化預處理適配器的配置項能通過映射與數(shù)據(jù)存儲的字段名或數(shù)據(jù)項一一對應,自動化預處理適配器的數(shù)據(jù)項能通過配置頁面進行選取,或通過對配置項數(shù)據(jù)參數(shù)值進行設定、修改進行選取。
本發(fā)明提供的針對分布式特性對大數(shù)據(jù)進行預處理的方法,包括:
第一步,根據(jù)不同的數(shù)據(jù)源格式將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù),根據(jù)數(shù)據(jù)分析目標、基于現(xiàn)有數(shù)據(jù)項設定其中一個數(shù)據(jù)項為計算的主鍵,將所有數(shù)據(jù)中任意兩條數(shù)據(jù)的主鍵項所對應的數(shù)據(jù)進行組合,得出關聯(lián)數(shù)據(jù)對;
第二步,基于關聯(lián)數(shù)據(jù)對中的主鍵項、設定相應的計算模型,獲取關聯(lián)計算所需的數(shù)據(jù)項作為value,轉換為<key,value>鍵值對;
第三步,對鍵值對按照指定規(guī)則進行數(shù)據(jù)塊的劃分得到不同的數(shù)據(jù)塊,并對得到的數(shù)據(jù)塊進行并行計算得到新的數(shù)據(jù)塊;
第四步,新的數(shù)據(jù)塊劃分到不同的節(jié)點上,得到的數(shù)據(jù)塊之間不具備任何關聯(lián)性。
其中,實施第三步時,進行數(shù)據(jù)塊劃分的指定規(guī)則為:數(shù)據(jù)的分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型。
其中,采用分布式計算算法進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)聚合,通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊;
數(shù)據(jù)重組,根據(jù)特定的規(guī)則,提取相應數(shù)據(jù)項,重新組合為新的數(shù)據(jù)塊;
數(shù)據(jù)關聯(lián),通過設定關聯(lián)數(shù)據(jù)規(guī)則,將數(shù)據(jù)項之間滿足關聯(lián)規(guī)則的數(shù)據(jù)劃分為一個數(shù)據(jù)塊;
數(shù)據(jù)切分,在數(shù)據(jù)聚合、數(shù)據(jù)關聯(lián)和數(shù)據(jù)重組操作的基礎上,針對分布式計算中不同數(shù)據(jù)塊之間或不同機器的數(shù)據(jù)之間需按照設定的計算模型進行數(shù)據(jù)計算,根據(jù)業(yè)務需求將數(shù)據(jù)按指定規(guī)則進行數(shù)據(jù)切分,從而將數(shù)據(jù)有序分布在不同的節(jié)點上。
計算模型,即根據(jù)業(yè)務需求抽象出來的數(shù)學公式;
指定規(guī)則,包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。
其中,采用分布式挖掘分析算法進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)信息提取,根據(jù)分析算法的參數(shù)需求,提取出需要分析的數(shù)據(jù)項,并存儲在相同的數(shù)據(jù)節(jié)點上;
數(shù)據(jù)處理,在原始數(shù)據(jù)的基礎上,根據(jù)業(yè)務分析目標,設定相應的計算公式,通過已有數(shù)據(jù)項之間的計算產(chǎn)生新的數(shù)據(jù)項;
挖掘分析算法數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。
其中,采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
通過數(shù)據(jù)格式轉換和數(shù)據(jù)模型提取,提取出數(shù)學模型所需的數(shù)據(jù)項、數(shù)據(jù)類型和數(shù)據(jù)格式,將數(shù)據(jù)分布到不同的節(jié)點上;
數(shù)學模型數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式;
數(shù)據(jù)模型提取,根據(jù)挖掘分析的需要,原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。
其中,實施第一步時,目標格式的數(shù)據(jù)的配置項能通過映射與數(shù)據(jù)存儲的字段名或數(shù)據(jù)項一一對應,目標格式的數(shù)據(jù)的數(shù)據(jù)項能通過選取,或通過對配置項數(shù)據(jù)參數(shù)值進行設定、修改進行選取。
以數(shù)據(jù)之間的關系值計算為例,說明本發(fā)明的工作原理。
假設共有n條數(shù)據(jù),設定每條數(shù)據(jù)的唯一標識為主鍵key,通過任意兩條數(shù)據(jù)同一數(shù)據(jù)項之間的計算,得到任意兩條數(shù)據(jù)之間的關聯(lián)值,共需進行n*(n-1)/2次計算。
如圖1所示,為傳統(tǒng)預處理方法處理后的數(shù)據(jù)的計算結構圖。
傳統(tǒng)的數(shù)據(jù)預處理方法為:根據(jù)數(shù)據(jù)量的大小將數(shù)據(jù)平均劃分到m個節(jié)點上,由于任意兩條數(shù)據(jù)都需進行計算從而得出其關聯(lián)值,圖1中,節(jié)點1的數(shù)據(jù)塊1中的數(shù)據(jù)計算可看出,共存在以下三種類型的數(shù)據(jù)計算:c1,同一數(shù)據(jù)塊中的任意兩條數(shù)據(jù)之間進行計算;c2,同一機器的不同數(shù)據(jù)塊之間的數(shù)據(jù)進行計算;c3,不同機器的不同數(shù)據(jù)塊之間的數(shù)據(jù)進行計算。
該預處理方法處理后的數(shù)據(jù)進行數(shù)據(jù)計算時不同數(shù)據(jù)之間、不同數(shù)據(jù)塊之間和不同節(jié)點之間需進行頻繁的交互,都會造成計算的耗時。
圖2是經(jīng)本發(fā)明預處理后數(shù)據(jù)的計算結構圖。經(jīng)過預處理后的數(shù)據(jù)將需進行計算的數(shù)據(jù)存放為一條數(shù)據(jù),避免了不同數(shù)據(jù)之間、不同數(shù)據(jù)塊之間和不同節(jié)點之間的通信和交互,大幅提升了數(shù)據(jù)進行分布式計算的效率。經(jīng)本發(fā)明預處理后的數(shù)據(jù)根據(jù)業(yè)務分析目標,將其處理為挖掘分析所需的數(shù)據(jù)格式。
本發(fā)明能大幅提升大數(shù)據(jù)分布式計算和挖掘分析的效率。
附圖說明
下面結合附圖與具體實施方式對本發(fā)明作進一步詳細的說明:
圖1是傳統(tǒng)預處理方法處理后的數(shù)據(jù)的計算結構示意圖。
圖2是本發(fā)明預處理后數(shù)據(jù)的計算結構示意圖。
圖3是本發(fā)明預處理系統(tǒng)結構示意圖。
具體實施方式
如圖3所示,本發(fā)明提供的針對分布式特性對大數(shù)據(jù)進行預處理的系統(tǒng),包括:預處理適配器、數(shù)據(jù)處理模塊和分布式存儲模塊;
預處理適配器,為原始數(shù)據(jù)預處理提供了入口并將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù),分為自動化預處理適配器和半自動化預處理適配器;
自動化預處理適配器,根據(jù)不同的數(shù)據(jù)源格式設置不同的自動化適配器,將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù);
半自動化預處理適配器,通過對開放的標準預處理接口進行二次開發(fā)或按照自動化預處理適配器的標準添加相應的配置文件,將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù)或滿足自動化預處理適配器格式要求的數(shù)據(jù);
數(shù)據(jù)處理模塊,將預處理適配器發(fā)送來的數(shù)據(jù)按照指定規(guī)則和統(tǒng)一標準的數(shù)據(jù)格式進行數(shù)據(jù)塊的劃分,劃分后的數(shù)據(jù)塊分布到不同的存儲節(jié)點上,符合預設關聯(lián)計算規(guī)則的數(shù)據(jù)劃分在同一數(shù)據(jù)塊中,且數(shù)據(jù)塊之間不具備關聯(lián)性;
分布式存儲模塊,設置多個存儲節(jié)點,用于存儲數(shù)據(jù)處理模塊發(fā)送的數(shù)據(jù)塊。
其中,數(shù)據(jù)處理模塊進行數(shù)據(jù)塊劃分的指定規(guī)則為:數(shù)據(jù)的分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型;
其中,針對分布式計算算法對數(shù)據(jù)塊進行劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)聚合,通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊;
數(shù)據(jù)重組,根據(jù)特定的規(guī)則,提取相應數(shù)據(jù)項,重新組合為新的數(shù)據(jù)塊;
數(shù)據(jù)關聯(lián),通過設定關聯(lián)數(shù)據(jù)規(guī)則,將數(shù)據(jù)項之間滿足關聯(lián)規(guī)則的數(shù)據(jù)劃分為一個數(shù)據(jù)塊;
數(shù)據(jù)切分,在數(shù)據(jù)聚合、數(shù)據(jù)關聯(lián)和數(shù)據(jù)重組操作的基礎上,針對分布式計算中不同數(shù)據(jù)塊之間或不同機器的數(shù)據(jù)之間需按照設定的計算模型進行數(shù)據(jù)計算,根據(jù)業(yè)務需求將數(shù)據(jù)按指定規(guī)則進行數(shù)據(jù)切分,從而將數(shù)據(jù)有序分布在不同的節(jié)點上。
計算模型,即根據(jù)業(yè)務需求抽象出來的數(shù)學公式。
指定規(guī)則,包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。
其中,針對分布式挖掘分析算法對數(shù)據(jù)進行劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)信息提取,根據(jù)分析算法的參數(shù)需求,提取出需要分析的數(shù)據(jù)項,并存儲在相同的數(shù)據(jù)節(jié)點上;
數(shù)據(jù)處理,在原始數(shù)據(jù)的基礎上,根據(jù)業(yè)務分析目標,設定相應的計算公式,通過已有數(shù)據(jù)項之間的計算產(chǎn)生新的數(shù)據(jù)項;
挖掘分析算法數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。
其中,采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
通過數(shù)據(jù)格式轉換和數(shù)據(jù)模型提取,提取出數(shù)學模型所需的數(shù)據(jù)項、數(shù)據(jù)類型和數(shù)據(jù)格式,將數(shù)據(jù)分布到不同的節(jié)點上;
數(shù)學模型數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式;
數(shù)據(jù)模型提取,根據(jù)挖掘分析的需要,原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。
其中,自動化預處理適配器的配置項能通過映射與數(shù)據(jù)存儲的字段名或數(shù)據(jù)項一一對應,自動化預處理適配器的數(shù)據(jù)項能通過配置頁面進行選取,或通過對配置項數(shù)據(jù)參數(shù)值進行設定、修改進行選取。
本發(fā)明提供一種針對分布式特性對大數(shù)據(jù)進行預處理的方法,包括:
第一步,根據(jù)不同的數(shù)據(jù)源格式將原始數(shù)據(jù)轉化為目標格式的數(shù)據(jù),根據(jù)數(shù)據(jù)分析目標、基于現(xiàn)有數(shù)據(jù)項設定其中一個數(shù)據(jù)項為計算的主鍵,將所有數(shù)據(jù)中任意兩條數(shù)據(jù)的主鍵項所對應的數(shù)據(jù)進行組合,得出關聯(lián)數(shù)據(jù)對;
第二步,基于關聯(lián)數(shù)據(jù)對中的主鍵項、設定相應的計算模型,獲取關聯(lián)計算所需的數(shù)據(jù)項作為value,轉換為<key,value>鍵值對;
第三步,對鍵值對按照指定規(guī)則進行數(shù)據(jù)塊的劃分得到不同的數(shù)據(jù)塊,并對得到的數(shù)據(jù)塊進行并行計算得到新的數(shù)據(jù)塊;
第四步,新的數(shù)據(jù)塊劃分到不同的節(jié)點上,得到的數(shù)據(jù)塊之間不具備任何關聯(lián)性。
其中,實施第三步時,進行數(shù)據(jù)塊劃分的指定規(guī)則為:數(shù)據(jù)的分布式計算算法、分布式挖掘分析算法和分布式挖掘分析算法對應的數(shù)學模型。
其中,采用分布式計算算法進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)聚合,通過數(shù)據(jù)的排序、分類匯總、數(shù)據(jù)分組操作將數(shù)據(jù)集成為數(shù)據(jù)塊;
數(shù)據(jù)重組,根據(jù)特定的規(guī)則,提取相應數(shù)據(jù)項,重新組合為新的數(shù)據(jù)塊;
數(shù)據(jù)關聯(lián),通過設定關聯(lián)數(shù)據(jù)規(guī)則,將數(shù)據(jù)項之間滿足關聯(lián)規(guī)則的數(shù)據(jù)劃分為一個數(shù)據(jù)塊;
數(shù)據(jù)切分,在數(shù)據(jù)聚合、數(shù)據(jù)關聯(lián)和數(shù)據(jù)重組操作的基礎上,針對分布式計算中不同數(shù)據(jù)塊之間或不同機器的數(shù)據(jù)之間需按照設定的計算模型進行數(shù)據(jù)計算,根據(jù)業(yè)務需求將數(shù)據(jù)按指定規(guī)則進行數(shù)據(jù)切分,從而將數(shù)據(jù)有序分布在不同的節(jié)點上。
計算模型,即根據(jù)業(yè)務需求抽象出來的數(shù)學公式。
指定規(guī)則,包括數(shù)據(jù)類別、數(shù)據(jù)大小或計算數(shù)據(jù)中可進行數(shù)據(jù)劃分的數(shù)據(jù)項。
其中,采用分布式挖掘分析算法進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
數(shù)據(jù)信息提取,根據(jù)分析算法的參數(shù)需求,提取出需要分析的數(shù)據(jù)項,并存儲在相同的數(shù)據(jù)節(jié)點上;
數(shù)據(jù)處理,在原始數(shù)據(jù)的基礎上,根據(jù)業(yè)務分析目標,設定相應的計算公式,通過已有數(shù)據(jù)項之間的計算產(chǎn)生新的數(shù)據(jù)項;
挖掘分析算法數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為挖掘分析算法要求的數(shù)據(jù)格式。
其中,采用分布式挖掘分析算法對應的數(shù)學模型進行數(shù)據(jù)塊劃分時,通過以下方式實現(xiàn):
通過數(shù)據(jù)格式轉換和數(shù)據(jù)模型提取,提取出數(shù)學模型所需的數(shù)據(jù)項、數(shù)據(jù)類型和數(shù)據(jù)格式,將數(shù)據(jù)分布到不同的節(jié)點上;
數(shù)學模型數(shù)據(jù)格式轉換,將原始數(shù)據(jù)轉換為數(shù)學模型所需的數(shù)據(jù)格式;
數(shù)據(jù)模型提取,根據(jù)挖掘分析的需要,原始數(shù)據(jù)中按照指定規(guī)則抽取部分典型數(shù)據(jù)構建數(shù)學模型。
其中,實施第一步時,目標格式的數(shù)據(jù)的配置項能通過映射與數(shù)據(jù)存儲的字段名或數(shù)據(jù)項一一對應,目標格式的數(shù)據(jù)的數(shù)據(jù)項能通過選取,或通過對配置項數(shù)據(jù)參數(shù)值進行設定、修改進行選取。
以上通過具體實施方式和實施例對本發(fā)明進行了詳細的說明,但這些并非構成對本發(fā)明的限制。在不脫離本發(fā)明原理的情況下,本領域的技術人員還可做出許多變形和改進,這些也應視為本發(fā)明的保護范圍。