本發(fā)明涉及移動(dòng)通信領(lǐng)域,具體涉及通信4G LTE數(shù)據(jù)網(wǎng)絡(luò)中MR(手機(jī)測試報(bào)告)的分析。
背景技術(shù):
隨著運(yùn)營商優(yōu)化支出的急劇減少,網(wǎng)絡(luò)規(guī)模的日漸增大,網(wǎng)絡(luò)結(jié)構(gòu)的日趨復(fù)雜,用戶服務(wù)及維權(quán)意識(shí)的逐步回歸,傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化及評估、用戶投訴定位及處理的方法及思路已經(jīng)無法滿足現(xiàn)實(shí)需求------經(jīng)濟(jì)高效、立體評估、快速響應(yīng)、精準(zhǔn)定位 。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是基于大數(shù)據(jù)的LTE網(wǎng)絡(luò)MR分析平臺(tái),提升數(shù)據(jù)分析及挖掘能力、快速精準(zhǔn)的對網(wǎng)絡(luò)進(jìn)行評估與分析、先于用戶發(fā)現(xiàn)網(wǎng)絡(luò)問題及問題隱患,進(jìn)而系統(tǒng)性的提升效費(fèi)比及用戶滿意度。
本發(fā)明提供一種基于HADOOP平臺(tái)的LTE網(wǎng)絡(luò)MR數(shù)據(jù)分析方法,包括以下步驟:
1)將MR數(shù)據(jù)的原始壓縮文件采集到HADOOP運(yùn)算平臺(tái)本地;
2)在HADOOP平臺(tái)上,將MR數(shù)據(jù)平均分布到每個(gè)獨(dú)立的磁盤上,實(shí)現(xiàn)方式為,設(shè)MR平臺(tái)由n臺(tái)主機(jī)組成,每臺(tái)主機(jī)有M塊獨(dú)立的磁盤,則MR數(shù)據(jù)的原始壓縮文件平均分配為n×M份;
3)在每臺(tái)主機(jī)上,啟動(dòng)M個(gè)運(yùn)算分析任務(wù),共啟動(dòng)n×M個(gè)運(yùn)算進(jìn)程,對MR數(shù)據(jù)進(jìn)行如下處理,
a)解壓縮,包括通過n×M個(gè)運(yùn)算進(jìn)程,分別將相應(yīng)分配的原始壓縮文件,解壓縮為原始的xml文件;
b)文件解析,包括通過n×M個(gè)運(yùn)算進(jìn)程,分別將原始的xml文件轉(zhuǎn)換為txt文件;
c)各進(jìn)程解析完成后進(jìn)行合并;
d)將合并生成的文件存儲(chǔ)于HADOOP平臺(tái);
4)按照存儲(chǔ)于HADOOP平臺(tái)的文件,進(jìn)行基于HADOOP平臺(tái)的MR數(shù)據(jù)解析,包括搜索每個(gè)小區(qū)的各項(xiàng)指標(biāo),所述指標(biāo)為小區(qū)Rsrp、縣Rsrp\rsrq指標(biāo)、地市Rsrp\rsrq指標(biāo)、RSRP弱覆蓋、RSRP點(diǎn)數(shù)、柵格鄰區(qū);
5)基于HADOOP平臺(tái)進(jìn)行大數(shù)據(jù)應(yīng)用MR網(wǎng)絡(luò)質(zhì)量分析,包括根據(jù)各項(xiàng)指標(biāo)進(jìn)行統(tǒng)計(jì);
6)統(tǒng)計(jì)完成后,按照時(shí)間、區(qū)域、網(wǎng)元分類,將統(tǒng)計(jì)結(jié)果輸出到HADOOP HDFS 文件系統(tǒng);
7)在HADOOP平臺(tái)上,按照時(shí)間、區(qū)域、網(wǎng)元,根據(jù)預(yù)設(shè)的單位文件數(shù),啟動(dòng)入庫進(jìn)程,使用標(biāo)準(zhǔn)的JDBC將步驟6)中所得結(jié)果輸出到關(guān)系型數(shù)據(jù)庫中;
8)MR數(shù)據(jù)分析過程完成。
而且,基于HADOOP平臺(tái)進(jìn)行進(jìn)行大數(shù)據(jù)應(yīng)用MR干擾分析。
而且,大數(shù)據(jù)應(yīng)用MR黑點(diǎn)分析。
而且,設(shè)預(yù)設(shè)的單位文件數(shù)為1000,需要啟動(dòng)的入庫進(jìn)程數(shù)目為文件數(shù)/1000。
本發(fā)明涉及將大數(shù)據(jù)平臺(tái)應(yīng)用于LTE網(wǎng)絡(luò)MR數(shù)據(jù)的分析上,通過大數(shù)據(jù)平臺(tái)的分布式文件系統(tǒng)、任務(wù)調(diào)試管理進(jìn)程,極大的提高了MR數(shù)據(jù)分析的效率。本發(fā)明主要解決傳統(tǒng)的MR分析主要是依靠關(guān)系型數(shù)據(jù)庫,無法及時(shí)處理海量數(shù)據(jù)的問題,還可以通過HADOOP的多任務(wù)調(diào)度管理引擎,結(jié)合MR黑點(diǎn)分析、MR干擾分析,可支持實(shí)現(xiàn)MR數(shù)據(jù)分析由點(diǎn)轉(zhuǎn)為面,由單維度轉(zhuǎn)換為時(shí)間+空間多維度分析。
附圖說明
圖1為本發(fā)明實(shí)施例流程圖。
具體實(shí)施方式
以下結(jié)合附圖和實(shí)施例詳細(xì)說明本發(fā)明技術(shù)方案。
本發(fā)明提供基于HADOOP平臺(tái)的LTE網(wǎng)絡(luò) MR數(shù)據(jù)分析的方法,將MR數(shù)據(jù)通過HADOOP平臺(tái),利用大數(shù)據(jù)平臺(tái)的分布式文件系統(tǒng)、任務(wù)調(diào)度管理進(jìn)程,極大的提高了MR數(shù)據(jù)分析的效率,實(shí)現(xiàn)MR數(shù)據(jù)點(diǎn)和線層面的覆蓋及干擾情況分析。HADOOP是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distributed File System),簡稱HDFS。在MR大量數(shù)據(jù)的存儲(chǔ)中,將HADOOP平臺(tái)引入MR的分析中,通過將采集轉(zhuǎn)換的XML使用HDFS分布存儲(chǔ),解決海量MR數(shù)據(jù)存儲(chǔ)的問題。在MR網(wǎng)絡(luò)質(zhì)量分析、MR干擾分析、MR黑點(diǎn)分析等過程中,使用HADOOP的分布式調(diào)度管理進(jìn)程,實(shí)現(xiàn)MR分析算法的分布式處理,達(dá)到快速完成MR指標(biāo)分析的目標(biāo)。
本發(fā)明實(shí)施例的流程包括以下步驟:
1)通過FTP,將MR數(shù)據(jù)的原始文件(zip\tar壓縮文件)采集到HADOOP運(yùn)算平臺(tái)本地;
2)在HADOOP大數(shù)據(jù)平臺(tái)上,按照平均分配的方法,將MR數(shù)據(jù)平均分布到每個(gè)獨(dú)立的磁盤上。
即:如果MR平臺(tái)由n臺(tái)主機(jī)(電腦)組成,每臺(tái)主機(jī)有M塊獨(dú)立磁盤組成。則:MR數(shù)據(jù)的原始的壓縮文件將會(huì)按照文件數(shù)量,平均分配為n*M份,n*M即n×M。
3)在每臺(tái)主機(jī)上,啟動(dòng)M個(gè)運(yùn)算分析任務(wù),共啟動(dòng)n*M個(gè)運(yùn)算進(jìn)程,對MR數(shù)據(jù)進(jìn)行如下幾個(gè)過程的處理:
a)解壓縮。即通過n*M個(gè)運(yùn)算進(jìn)程,分別將提供的原始格式為zip\tar的文件,解壓縮為原始的xml文件;
b)文件解析,通過n*M個(gè)運(yùn)算進(jìn)程,分別將原始的xml文件轉(zhuǎn)換為標(biāo)準(zhǔn)的txt文件。
c)各進(jìn)行解析完成后,進(jìn)行合并,可按具體網(wǎng)元情況進(jìn)行合并。例如,基站1、基站2…基站N的相關(guān)MR數(shù)據(jù)分別合并成文件1-MR數(shù)據(jù).txt、2-MR數(shù)據(jù).txt…N-MR數(shù)據(jù).txt。
d)將合并生成的文件存儲(chǔ)于HADOOP平臺(tái),實(shí)現(xiàn)上傳HDFS。這樣將HADOOP平臺(tái)引入MR的分析中,通過將采集的XML使用HDFS分布存儲(chǔ),可以解決海量MR數(shù)據(jù)存儲(chǔ)的問題。
HADOOP平臺(tái)的文件存儲(chǔ)結(jié)構(gòu)為:
時(shí)間(示例:2016年3月15號)
區(qū)域(示例:武漢->東湖開發(fā)區(qū))
1-MR數(shù)據(jù).txt
2-MR數(shù)據(jù).txt
N-MR數(shù)據(jù).txt
4)按照存儲(chǔ)于HADOOP平臺(tái)的文件,進(jìn)行基于HADOOP平臺(tái)的MR數(shù)據(jù)解析,通過大數(shù)據(jù)平臺(tái)的YARN調(diào)度引擎,按照:小區(qū)Rsrp、縣Rsrp\rsrq指標(biāo)、地市Rsrp\rsrq指標(biāo)、RSRP弱覆蓋、RSRP點(diǎn)數(shù)、柵格鄰區(qū)共7個(gè)指標(biāo),以名值對,獲得每個(gè)小區(qū)的上述指標(biāo)。所述Rsrp為參考信號接收功率,所述rsrq(RSRP)為參考信號接收質(zhì)量。YARN是現(xiàn)有的資源調(diào)度框架,底層為分布式存儲(chǔ)系統(tǒng)HDFS,穩(wěn)定高效,因此實(shí)施例選擇利用YARN調(diào)度引擎。
5)基于HADOOP平臺(tái)進(jìn)行大數(shù)據(jù)應(yīng)用MR網(wǎng)絡(luò)質(zhì)量分析:通過大數(shù)據(jù)平臺(tái)的YARN調(diào)度引擎,通過將以小區(qū)為單位的數(shù)據(jù),進(jìn)行運(yùn)算統(tǒng)計(jì),具體實(shí)施時(shí)本領(lǐng)域技術(shù)人員可預(yù)設(shè)統(tǒng)計(jì)項(xiàng)目內(nèi)容,一般按照:小區(qū)Rsrp統(tǒng)計(jì)、縣Rsrp\rsrq指標(biāo)統(tǒng)計(jì)、地市Rsrp\rsrq指標(biāo)統(tǒng)計(jì)、RSRP弱覆蓋統(tǒng)計(jì)、RSRP點(diǎn)數(shù)統(tǒng)計(jì)、柵格鄰區(qū)共7個(gè)指標(biāo)進(jìn)行統(tǒng)計(jì)。具體實(shí)施時(shí),還可擴(kuò)展進(jìn)行大數(shù)據(jù)應(yīng)用MR干擾分析、大數(shù)據(jù)應(yīng)用MR黑點(diǎn)分析,具體分析可參考現(xiàn)有技術(shù)實(shí)現(xiàn)。使用HADOOP的分布式調(diào)度管理進(jìn)程,實(shí)現(xiàn)MR分析算法的分布式處理,可以提高處理速度。統(tǒng)計(jì)的示例指標(biāo)如下所示:
示例指標(biāo)一:
地市級RSRP/RSRQ/SINR均值 = 對當(dāng)前地市的所有MR采樣點(diǎn)進(jìn)行電平值累加 / 當(dāng)前地市的總采樣點(diǎn)數(shù)
6)統(tǒng)計(jì)完成后,按照時(shí)間、區(qū)域、網(wǎng)元分類,將統(tǒng)計(jì)結(jié)果輸出到HADOOPHDFS 文件系統(tǒng)。輸出文件的結(jié)構(gòu)如下:
時(shí)間(示例:2016年3月15號)
區(qū)域(示例:武漢->東湖開發(fā)區(qū))
網(wǎng)元(示例:網(wǎng)元1)
小區(qū)Rsrp統(tǒng)計(jì).txt
縣Rsrp\rsrq指標(biāo)統(tǒng)計(jì).txt
市Rsrp\rsrq指標(biāo)統(tǒng)計(jì).txt
RSRP弱覆蓋統(tǒng)計(jì).txt
RSRP點(diǎn)數(shù)統(tǒng)計(jì).txt
柵格鄰區(qū).txt
7)在HADOOP平臺(tái)上,按照時(shí)間、區(qū)域、網(wǎng)元,以每1000個(gè)文件為單位,啟動(dòng)一個(gè)入庫進(jìn)程,使用標(biāo)準(zhǔn)的JDBC(Java Data Base Connectivity,java數(shù)據(jù)庫連接),將步驟6)中的數(shù)據(jù),輸出到關(guān)系型數(shù)據(jù)庫中。因此實(shí)際需要啟動(dòng)的入庫進(jìn)程數(shù)目為文件數(shù)/1000。具體實(shí)施時(shí),每單位的文件數(shù)可由本領(lǐng)域技術(shù)人員預(yù)設(shè)。
8)完成整個(gè)MR分析過程。
上述實(shí)施例流程描述僅為了清楚說明本發(fā)明技術(shù)方案,但本發(fā)明并不僅限于上述實(shí)施例;凡是依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)上實(shí)施例所作的任何簡單修改、等同變化與修飾,均落入本發(fā)明的技術(shù)方案的保護(hù)范圍之內(nèi)。