欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方法

文檔序號:6631283閱讀:2105來源:國知局
一種基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方法
【專利摘要】本發(fā)明公開了一種基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方法,用Golden Gate從關系型數(shù)據(jù)庫的在線日志文件中抽取變化的數(shù)據(jù);將變化數(shù)據(jù)分別放到各自類別的文件中;利用MapReduce對數(shù)據(jù)進行解析與處理;對數(shù)據(jù)進行清洗、轉(zhuǎn)換和過濾異常數(shù)據(jù),并轉(zhuǎn)換成適合分布式數(shù)據(jù)庫HBase存儲的格式;采用批量導入數(shù)據(jù)的方式將數(shù)據(jù)裝載到分布式數(shù)據(jù)庫HBase中;使用Tomcat服務器作為Web Server提供Web層的訪問服務。本發(fā)明可以快速地將海量數(shù)據(jù)從關系型數(shù)據(jù)庫抽取到大數(shù)據(jù)平臺中,由于通過對數(shù)據(jù)源日志文件的分析實現(xiàn)對增量數(shù)據(jù)的抽取,因此本發(fā)明在抽取數(shù)據(jù)時對數(shù)據(jù)源系統(tǒng)的影響非常小。
【專利說明】-種基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù) 抽取方法

【技術領域】
[0001] 本發(fā)明涉及一種基于化doop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方法, 屬于智能電網(wǎng)大數(shù)據(jù)技術應用領域。

【背景技術】
[0002] 隨著國民經(jīng)濟的快速發(fā)展,各行各業(yè)所產(chǎn)生和存儲的數(shù)據(jù)量在急速攀升,"大數(shù) 據(jù)"已經(jīng)滲透到每一個行業(yè)和領域,成為重要的生產(chǎn)要素。因此,當前很多行業(yè)用戶,如電力 公司、金融企業(yè)等,都面臨將關系型數(shù)據(jù)庫中的大量數(shù)據(jù)抽取到大數(shù)據(jù)平臺的需求。
[0003] 對于大數(shù)據(jù)的抽取一般通過使用Sqoop來實現(xiàn),但是Sqoop組件自身的局限性導 致其對于特定的場景并不適用。例如,進行TB級大數(shù)據(jù)量數(shù)據(jù)抽取時效率較低,進行增量 數(shù)據(jù)抽取需改變源數(shù)據(jù)庫表結(jié)構(gòu),對源數(shù)據(jù)庫性能也有較大影響。


【發(fā)明內(nèi)容】

[0004] 針對現(xiàn)有技術存在的不足,本發(fā)明目的是提供一種基于化doop大數(shù)據(jù)平臺的低 影響高效率的海量數(shù)據(jù)抽取方法,能夠提高數(shù)據(jù)抽取的速度,并且能夠減少數(shù)據(jù)抽取對數(shù) 據(jù)源帶來的系統(tǒng)資源占用。
[0005] 為了實現(xiàn)上述目的,本發(fā)明是通過如下的技術方案來實現(xiàn):
[0006] 本發(fā)明的一種基于化doop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方法,包 括W下幾個步驟:
[0007] (1)用結(jié)構(gòu)化數(shù)據(jù)備份工具從關系型數(shù)據(jù)庫在線日志或歸檔日志中獲得增量變化 數(shù)據(jù),并將所述增量變化數(shù)據(jù)根據(jù)其數(shù)據(jù)操作類型分為W下H類數(shù)據(jù)保存在Trail格式的 文本文件中:插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù);
[0008] (2)將所述插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù)分別放到各自類別的文件中,使得每種 類別的文件中只有一種類型的數(shù)據(jù),用于批量生成分布式數(shù)據(jù)庫皿ase的數(shù)據(jù)文件HFile ;
[0009] (3)利用分布式并行計算框架MapRe化Ce對步驟(2)中的H種類型數(shù)據(jù)進行解析 與處理,從而將HFile格式文件輸出到分布式文件系統(tǒng)皿FS中。
[0010] (4)使用Web Server提供Web層的訪問服務,W Web服務作為中間通道,用于連接 關系型數(shù)據(jù)庫和化doop大數(shù)據(jù)平臺該兩個集群。
[0011] 步驟(3)中,利用分布式并行計算框架MapRe化Ce對步驟(2)中的H種類型數(shù)據(jù) 進行解析與處理的方法如下:
[0012] (Ia)將在分布式文件系統(tǒng)皿FS中存儲的增量變化的結(jié)構(gòu)化數(shù)據(jù)W塊為單位,分 布在化doop集群的各個存儲節(jié)點上;
[0013] (2a)在Map階段啟動多個Mapper任務對各個塊數(shù)據(jù)進行清洗轉(zhuǎn)換,并將清洗轉(zhuǎn)換 后的數(shù)據(jù)送入到化doop框架中;
[0014] (3a)將Mapper任務的計算結(jié)果按照哈希值進行排序,并根據(jù)鍵將同類的值合并 到一個鍵/值對的集合中;
[0015] (4a)在Re化Ce階段啟動一組Re化Ce任務,每個Re化Ce任務收集一個鍵/值對的 集合,并對該鍵/值對集合內(nèi)的數(shù)據(jù)進行拼裝,形成分布式數(shù)據(jù)庫皿ase內(nèi)部的HFile格式 文件,將所述HFile格式文件輸出到皿FS分布式文件系統(tǒng)中。
[0016] 步驟(4a)中,利用分布式并行計算框架MapRe化Ce生成分布式數(shù)據(jù)庫皿ase的 HFile文件;采用批量導入數(shù)據(jù)的方式,將數(shù)據(jù)一次性導入到分布式數(shù)據(jù)庫皿ase中。
[0017] 上述關系型數(shù)據(jù)庫具體采用的是化acle,
[0018] 上述化doop框架具體采用的是CDH 5. 0。
[0019] 本發(fā)明可W快速、高效、可靠地將海量數(shù)據(jù)從關系型數(shù)據(jù)庫抽取到大數(shù)據(jù)平臺中, 同時,由于通過對數(shù)據(jù)源日志文件的分析實現(xiàn)對增量數(shù)據(jù)的抽取,因此該方法在抽取數(shù)據(jù) 時對數(shù)據(jù)源系統(tǒng)的影響非常小。

【專利附圖】

【附圖說明】
[0020] 圖1為本發(fā)明的方法系統(tǒng)技術架構(gòu)圖;
[0021] 圖2為本發(fā)明的海量數(shù)據(jù)抽取方法工作流程圖。

【具體實施方式】
[0022] 為使本發(fā)明實現(xiàn)的技術手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結(jié)合

【具體實施方式】,進一步闡述本發(fā)明。
[0023] 本發(fā)明所提出的方法,首先利用基于關系型數(shù)據(jù)庫日志的結(jié)構(gòu)化數(shù)據(jù)備份工具從 關系型數(shù)據(jù)庫中抽取變化數(shù)據(jù),然后在Hadoop大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換和存儲, 最后使用Tomcat作為Webserver提供Web層的訪問服務。
[0024] 參見圖1和圖2,本發(fā)明的數(shù)據(jù)抽取方法如下:
[00巧]一、從數(shù)據(jù)源抽取數(shù)據(jù)
[0026] 具體方法為;用Golden Gate從化acIe在線日志中準實時地抓取變化的數(shù)據(jù),并 將變化的數(shù)據(jù)保存在Trail格式的文件中。通過對日志文件的分析實現(xiàn)變化數(shù)據(jù)的抓取只 會占用很小的系統(tǒng)資源,特別是當化acle中存儲的數(shù)據(jù)量極大、化acle系統(tǒng)負載很重時基 本不會影響化acle的運行效率,也不會影響化acle所在主機或集群的運行效率。
[0027] 二、在大數(shù)據(jù)平臺實現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換和存儲
[0028] 對于Golden Gate提取出的數(shù)據(jù),首先將其W半結(jié)構(gòu)化的數(shù)據(jù)形式存儲在皿FS 中,然后根據(jù)規(guī)則對數(shù)據(jù)進行清洗和轉(zhuǎn)換、過濾異常數(shù)據(jù),并轉(zhuǎn)換成更適合皿ase存儲的格 式。為了加快數(shù)據(jù)裝載到皿ase的速度,采用了批量導入炬Ulkload)數(shù)據(jù)的方式,即利用 MapRe化Ce并行計算引擎直接生成皿ase能夠識別的HFile文件,大大縮短了數(shù)據(jù)入庫的 時間。該種批量導入的方式,避免了高強度調(diào)用皿ase的API和生成大量WAL日志,節(jié)省了 皿ase及大數(shù)據(jù)平臺的CPU資源、網(wǎng)絡10和磁盤讀寫,不會對大數(shù)據(jù)平臺上運行的其他任務 構(gòu)成資源競爭。
[0029] H、使用Tomcat作為Web Server提供Web層的訪問服務
[0030] 由于化acle和C畑大數(shù)據(jù)平臺處于兩個不同的集群中,因此W Web服務作為中間 通道可W方便地連接該兩個集群,例如在集群間傳遞指令、查詢并展現(xiàn)集群中的數(shù)據(jù)等。
[0031] 本實施例中,系統(tǒng)W化acle為數(shù)據(jù)源,W C畑5. 0為大數(shù)據(jù)平臺框架,結(jié)合Tomcat 作為Web Server提供Web層的訪問服務。在大數(shù)據(jù)平臺中,WMapRe化Ce作為大數(shù)據(jù)的計 算引擎,W皿FS分布式文件系統(tǒng)存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),W皿ase分布式數(shù)據(jù)庫 存儲結(jié)構(gòu)化數(shù)據(jù)。在化acle端,采用Golden Gate提取源數(shù)據(jù)。
[0032] 表 1
[0033]

【權(quán)利要求】
1. 一種基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方法,其特征在于,包 括以下幾個步驟: (1) 用結(jié)構(gòu)化數(shù)據(jù)備份工具從關系型數(shù)據(jù)庫在線日志或歸檔日志中獲得增量變化數(shù) 據(jù),并將所述增量變化數(shù)據(jù)根據(jù)其數(shù)據(jù)操作類型分為以下三類數(shù)據(jù)保存在Trail格式的文 本文件中:插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù); (2) 將所述插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù)分別放到各自類別的文件中,使得每種類別 的文件中只有一種類型的數(shù)據(jù),用于批量生成分布式數(shù)據(jù)庫HBase的數(shù)據(jù)文件HFile ; (3) 利用分布式并行計算框架MapReduce對步驟(2)中的三種類型數(shù)據(jù)進行解析與處 理,從而將HFile格式文件輸出到分布式文件系統(tǒng)HDFS中。 (4) 使用Web Server提供Web層的訪問服務,以Web服務作為中間通道,用于連接關系 型數(shù)據(jù)庫和Hadoop大數(shù)據(jù)平臺這兩個集群。
2. 根據(jù)權(quán)利要求1所述的基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方 法,其特征在于, 步驟(3)中,利用分布式并行計算框架MapReduce對步驟(2)中的三種類型數(shù)據(jù)進行 解析與處理的方法如下: (la)將在分布式文件系統(tǒng)HDFS中存儲的增量變化的結(jié)構(gòu)化數(shù)據(jù)以塊為單位,分布在 Hadoop集群的各個存儲節(jié)點上; (2a)在Map階段啟動多個Mapper任務對各個塊數(shù)據(jù)進行清洗轉(zhuǎn)換,并將清洗轉(zhuǎn)換后的 數(shù)據(jù)送入到Hadoop框架中; (3a)將Mapper任務的計算結(jié)果按照哈希值進行排序,并根據(jù)鍵將同類的值合并到一 個鍵/值對的集合中; (4a)在Reduce階段啟動一組Reduce任務,每個Reduce任務收集一個鍵/值對的集 合,并對該鍵/值對集合內(nèi)的數(shù)據(jù)進行拼裝,形成分布式數(shù)據(jù)庫HBase內(nèi)部的HFile格式文 件,將所述HFile格式文件輸出到HDFS分布式文件系統(tǒng)中。
3. 根據(jù)權(quán)利要求2所述的基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方 法,其特征在于, 步驟(4a)中,利用分布式并行計算框架MapReduce生成分布式數(shù)據(jù)庫HBase的HFile 文件;采用批量導入數(shù)據(jù)的方式,將數(shù)據(jù)一次性導入到分布式數(shù)據(jù)庫HBase中。
4. 根據(jù)權(quán)利要求1至3任意一項所述的基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海 量數(shù)據(jù)抽取方法,其特征在于, 所述關系型數(shù)據(jù)庫具體采用的是Oracle。
5. 根據(jù)權(quán)利要求1至3任意一項所述的基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海 量數(shù)據(jù)抽取方法,其特征在于, 所述Hadoop框架具體采用的是CDH 5. 0。
6. 根據(jù)權(quán)利要求4所述的基于Hadoop大數(shù)據(jù)平臺的低影響高效率的海量數(shù)據(jù)抽取方 法,其特征在于, 所述Hadoop框架具體采用的是CDH 5. 0。
【文檔編號】G06F17/30GK104331435SQ201410569282
【公開日】2015年2月4日 申請日期:2014年10月22日 優(yōu)先權(quán)日:2014年10月22日
【發(fā)明者】鄭海雁, 謝林楓, 金農(nóng), 顧國棟, 丁曉, 張明明, 翟學鋒, 吳鋼, 徐金玲, 金璐, 熊政, 李昆明, 仲春林, 方超, 季聰 申請人:國家電網(wǎng)公司, 江蘇省電力公司, 江蘇省電力公司信息通信分公司, 江蘇方天電力技術有限公司, 江蘇省電力公司南京供電公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
吴忠市| 龙川县| 丽水市| 华阴市| 吉木萨尔县| 云梦县| 庆阳市| 金寨县| 松桃| 抚宁县| 海盐县| 图片| 甘洛县| 龙山县| 井陉县| 贵定县| 台前县| 通渭县| 都昌县| 云浮市| 保定市| 长乐市| 远安县| 南充市| 鄂温| 唐山市| 宜州市| 高青县| 丰县| 沁源县| 桃江县| 伽师县| 东兰县| 英超| 左云县| 苏州市| 同德县| 宜黄县| 如东县| 宁陵县| 武隆县|