欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種移動用戶上網(wǎng)記錄的數(shù)據(jù)處理方法及裝置的制造方法

文檔序號:8299191閱讀:382來源:國知局
一種移動用戶上網(wǎng)記錄的數(shù)據(jù)處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信領(lǐng)域,具體涉及一種移動用戶上網(wǎng)記錄的數(shù)據(jù)處理方法及裝置。
【背景技術(shù)】
[0002] 移動終端無線上網(wǎng)每天產(chǎn)生的是數(shù)以億計(jì),占用存儲空間TB量級的海量數(shù)據(jù),一 個(gè)月的數(shù)據(jù)更是萬億、PB量級的海量數(shù)據(jù)記錄。從該海量數(shù)據(jù)庫中能夠挖掘各種有用信 息,比如以用戶手機(jī)號碼為基本維度,可以按照網(wǎng)絡(luò)類型、業(yè)務(wù)類型以及移動基站等三個(gè)分 類維度分別進(jìn)行流量信息分析統(tǒng)計(jì)。使用分布式計(jì)算框架MapReduce計(jì)算,能夠快速從海 量數(shù)據(jù)中提取出需求的數(shù)據(jù)。
[0003]目前為了解決按照用戶手機(jī)號碼為基本維度,依照網(wǎng)絡(luò)類型、業(yè)務(wù)類型以及移動 基站三個(gè)分類維度進(jìn)行流量信息分析統(tǒng)計(jì)的問題,主要使用MapReduce分布式計(jì)算框架進(jìn) 行數(shù)據(jù)分析提取,需要針對不同統(tǒng)計(jì)維度分別編寫MapReduce任務(wù)實(shí)現(xiàn)代碼,然后進(jìn)行任 務(wù)Job的依次執(zhí)行?,F(xiàn)有方案的執(zhí)行過程描述如下:
[0004] (1)根據(jù)三個(gè)統(tǒng)計(jì)維度的需求說明,編寫三個(gè)獨(dú)立的基于MapReduce計(jì)算框架的 Job程序;
[0005] (2)依據(jù)三個(gè)任務(wù)各自需求,設(shè)定Mapper和Reducer的鍵值對(Key-Value);
[0006] (3)由于上網(wǎng)記錄大數(shù)據(jù)集群負(fù)載壓力大,所以每次只能運(yùn)行一個(gè)Job任務(wù),首先 運(yùn)行按照網(wǎng)絡(luò)類型進(jìn)行統(tǒng)計(jì)的任務(wù)Job;
[0007] (4)上一個(gè)任務(wù)Job執(zhí)行完成后,運(yùn)行按照業(yè)務(wù)類型進(jìn)行統(tǒng)計(jì)的任務(wù)Job;
[0008] (5)上一個(gè)任務(wù)Job執(zhí)行完成,最后運(yùn)行按照移動基站進(jìn)行統(tǒng)計(jì)的任務(wù)Job;
[0009] (6)所有任務(wù)Job運(yùn)行結(jié)束,輸出結(jié)果從HDFS文件系統(tǒng)上拷貝到本地以便后續(xù)數(shù) 據(jù)分析使用。
[0010] 由于大數(shù)據(jù)集群性能限制導(dǎo)致每次只能運(yùn)行一個(gè)任務(wù)Job,所以三個(gè)不同Job只 能依次執(zhí)行。需要花費(fèi)大量時(shí)間,并且多個(gè)任務(wù)執(zhí)行時(shí),會產(chǎn)生大量的中間數(shù)據(jù)。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明要解決的技術(shù)問題是如何加快移動上網(wǎng)數(shù)據(jù)的處理。
[0012] 為了解決上述問題,本發(fā)明提供了一種移動用戶上網(wǎng)記錄的數(shù)據(jù)處理方法,包 括:
[0013]S110、分別根據(jù)預(yù)定時(shí)間段中每一條上網(wǎng)記錄構(gòu)造N條數(shù)據(jù),一條數(shù)據(jù)包含標(biāo)識 及統(tǒng)計(jì)信息;所述標(biāo)識包括所述上網(wǎng)記錄中的手機(jī)號、數(shù)據(jù)類型及記錄類型;所述數(shù)據(jù)類 型為N種,與所述上網(wǎng)記錄中的N個(gè)預(yù)定字段一一對應(yīng),由一條上網(wǎng)記錄所構(gòu)造出的N條數(shù) 據(jù)的數(shù)據(jù)類型互不相同;所述記錄類型為本條數(shù)據(jù)中所述數(shù)據(jù)類型所對應(yīng)的預(yù)定字段在所 述上網(wǎng)記錄中的值;N為大于1的正整數(shù);
[0014]S120、對標(biāo)識相同的數(shù)據(jù)中的統(tǒng)計(jì)信息進(jìn)行累加,得到各標(biāo)識對應(yīng)的統(tǒng)計(jì)信息的 累加值。
[0015] 可選地,所述N等于3 ;N種所述數(shù)據(jù)類型所對應(yīng)的N個(gè)預(yù)定字段為VPN、BUSI TYPE、以及LAC加CELLID。
[0016] 可選地,所述統(tǒng)計(jì)信息包括流量、時(shí)長和點(diǎn)擊次數(shù);所述流量為所述上網(wǎng)記錄中 UP字段和DOWN字段的值,所述時(shí)長為所述上網(wǎng)記錄中時(shí)間字段的值,所述點(diǎn)擊次數(shù)為1。
[0017] 可選地,所述步驟S110包括:
[0018] 將從Hadoop文件系統(tǒng)HDFS讀取的預(yù)定時(shí)間段中每一條上網(wǎng)記錄處理成N條鍵值 對數(shù)據(jù),其中鍵Key包括手機(jī)號碼、數(shù)據(jù)類型和記錄類型;值Value包括上網(wǎng)記錄中DOWN、 UP、時(shí)間的值,以及點(diǎn)擊次數(shù)1 ;
[0019] 步驟S120包括:
[0020] 將Key相同的鍵值對數(shù)據(jù)各合并成一條鍵值對數(shù)據(jù),合并后的鍵值對數(shù)據(jù)的Key 不變,Value為參與合并的鍵值對數(shù)據(jù)中UP、DOWN、時(shí)間、點(diǎn)擊次數(shù)的值分別進(jìn)行累加的結(jié) 果。
[0021] 可選地,步驟S120后還包括:
[0022] S130、在步驟S120得到的鍵值對數(shù)據(jù)中,將手機(jī)號相同且數(shù)據(jù)類型相同的鍵值對 數(shù)據(jù)各合并成一條鍵值對數(shù)據(jù),合并后的鍵值對數(shù)據(jù)的Key為手機(jī)號,Value為參與合并的 各鍵值對數(shù)據(jù)的Value的并集。
[0023] 本發(fā)明還提供了一種移動用戶上網(wǎng)記錄的數(shù)據(jù)處理裝置,包括:
[0024] 數(shù)據(jù)構(gòu)造模塊,用于分別根據(jù)預(yù)定時(shí)間段中每一條上網(wǎng)記錄構(gòu)造N條數(shù)據(jù),一條 數(shù)據(jù)包含標(biāo)識及統(tǒng)計(jì)信息;所述標(biāo)識包括所述上網(wǎng)記錄中的手機(jī)號、數(shù)據(jù)類型及記錄類型; 所述數(shù)據(jù)類型為N種,與所述上網(wǎng)記錄中的N個(gè)預(yù)定字段一一對應(yīng),由一條上網(wǎng)記錄所構(gòu)造 出的N條數(shù)據(jù)的數(shù)據(jù)類型互不相同;所述記錄類型為本條數(shù)據(jù)中所述數(shù)據(jù)類型所對應(yīng)的預(yù) 定字段在所述上網(wǎng)記錄中的值;N為大于1的正整數(shù);
[0025] 累加模塊,用于對標(biāo)識相同的數(shù)據(jù)中的統(tǒng)計(jì)信息進(jìn)行累加,得到各標(biāo)識對應(yīng)的統(tǒng) 計(jì)信息的累加值。
[0026] 可選地,所述N等于3 ;N種所述數(shù)據(jù)類型所對應(yīng)的N個(gè)預(yù)定字段為VPN、BUSI TYPE、以及LAC加CELLID。
[0027] 可選地,所述統(tǒng)計(jì)信息包括流量、時(shí)長和點(diǎn)擊次數(shù);所述流量為所述上網(wǎng)記錄中 UP字段和DOWN字段的值,所述時(shí)長為所述上網(wǎng)記錄中時(shí)間字段的值,所述點(diǎn)擊次數(shù)為1。
[0028] 可選地,所述數(shù)據(jù)構(gòu)造模塊分別根據(jù)預(yù)定時(shí)間段中每一條上網(wǎng)記錄構(gòu)造N條數(shù)據(jù) 是指:
[0029] 所述數(shù)據(jù)構(gòu)造模塊將從Hadoop文件系統(tǒng)HDFS讀取的預(yù)定時(shí)間段中每一條上網(wǎng)記 錄處理成N條鍵值對數(shù)據(jù),其中鍵Key包括手機(jī)號碼、數(shù)據(jù)類型和記錄類型;值Value包括 上網(wǎng)記錄中DOWN、UP、時(shí)間的值,以及點(diǎn)擊次數(shù)1;
[0030] 所述累加模塊對標(biāo)識相同的數(shù)據(jù)中的統(tǒng)計(jì)信息進(jìn)行累加是指:
[0031] 所述累加模塊將Key相同的鍵值對數(shù)據(jù)各合并成一條鍵值對數(shù)據(jù),合并后的鍵值 對數(shù)據(jù)的Key不變,Value為參與合并的鍵值對數(shù)據(jù)中UP、D0WN、時(shí)間、點(diǎn)擊次數(shù)的值分別進(jìn) 行累加的結(jié)果。
[0032] 可選地,所述的裝置還包括:
[0033] 合并模塊,用于在累加模塊得到的鍵值對數(shù)據(jù)中,將手機(jī)號相同且數(shù)據(jù)類型相同 的鍵值對數(shù)據(jù)各合并成一條鍵值對數(shù)據(jù),合并后的鍵值對數(shù)據(jù)的Key為手機(jī)號,Value為參 與合并的各鍵值對數(shù)據(jù)的Value的并集。
[0034] 本發(fā)明通過設(shè)計(jì)改進(jìn),能將多個(gè)統(tǒng)計(jì)任務(wù)需求集中執(zhí)行,可以一次性處理多個(gè)維 度的統(tǒng)計(jì)任務(wù);這樣數(shù)據(jù)只需要載入、遍歷一次就能完成多個(gè)維度的統(tǒng)計(jì)任務(wù),而不是針對 每個(gè)維度的統(tǒng)計(jì)任務(wù)都必須單獨(dú)進(jìn)行載入和遍歷,因此大大減少了數(shù)據(jù)處理的總時(shí)長。采 用該方案,既能避免執(zhí)行時(shí)間過長問題,加快了任務(wù)分析處理速度。
【附圖說明】
[0035] 圖1是實(shí)施例一的數(shù)據(jù)處理方法的
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
抚顺县| 大英县| 铁岭市| 广饶县| 安阳市| 阿拉善右旗| 昌宁县| 宜宾县| 嘉黎县| 哈巴河县| 海晏县| 彩票| 沅陵县| 康定县| 油尖旺区| 浑源县| 郯城县| 宁晋县| 滕州市| 苏尼特右旗| 射阳县| 阳泉市| 伊金霍洛旗| 界首市| 潮安县| 丹棱县| 资兴市| 滨州市| 修文县| 乌恰县| 特克斯县| 光山县| 炎陵县| 藁城市| 泰和县| 江门市| 瑞金市| 通河县| 皋兰县| 从化市| 桂东县|