一種用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)處理領(lǐng)域,尤其是涉及一種用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng)。
【背景技術(shù)】
[0002]企業(yè)數(shù)據(jù)分析是現(xiàn)代企業(yè)管理的基礎(chǔ)。企業(yè)經(jīng)營數(shù)據(jù)分析的主要職能有:信息職能、咨詢職能和監(jiān)督職能企業(yè)經(jīng)營數(shù)據(jù)分析范疇主要包括:企業(yè)環(huán)境與條件數(shù)據(jù)分析;企業(yè)產(chǎn)出數(shù)據(jù)分析;企業(yè)經(jīng)營效果評價數(shù)據(jù)分析;企業(yè)發(fā)展戰(zhàn)略數(shù)據(jù)分析等。而在進(jìn)行企業(yè)數(shù)據(jù)分析之前重要的一個環(huán)節(jié)是企業(yè)經(jīng)營數(shù)據(jù)的收集與整理。企業(yè)經(jīng)營數(shù)據(jù)收集技術(shù)是對某些直接數(shù)據(jù)企業(yè)大多采用全面調(diào)查(統(tǒng)計臺賬,原始記錄等),個別領(lǐng)域采用抽樣調(diào)查。
[0003]現(xiàn)有的企業(yè)數(shù)據(jù)分析方法大致具有以下缺憾:
[0004]1、在較大規(guī)模的企業(yè)中,業(yè)務(wù)經(jīng)營管理的各系統(tǒng)經(jīng)常是在不同時期由不同的部門主導(dǎo)建設(shè)的,其數(shù)據(jù)存放格式有所不同,往往也存在數(shù)據(jù)冗余,數(shù)據(jù)不一致等各種狀況,難以進(jìn)行跨系統(tǒng)的數(shù)據(jù)收集和關(guān)聯(lián)分析。
[0005]2、業(yè)務(wù)人員不掌握底層的數(shù)據(jù)結(jié)構(gòu),無法直接建立分析模型,必須借助技術(shù)人員的幫助才能對數(shù)據(jù)進(jìn)行有效的分析,影響數(shù)據(jù)分析工作的保密性和時效性,不能很好地滿足數(shù)據(jù)分析業(yè)務(wù)要求。
[0006]3、業(yè)務(wù)部門有相當(dāng)多歷史數(shù)據(jù)是非格式化存儲(如word文檔),無法形成有效的知識體系,不利于知識的傳承和運(yùn)用。
[0007]4、許多企業(yè)外部數(shù)據(jù)對企業(yè)數(shù)據(jù)分析有極大的幫助(如法院、商務(wù)部門的公開信息等),但這些數(shù)據(jù)往往格式多樣,存在處所分散,只能人工查找和分析。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種提高工作效率、支撐跨系統(tǒng)數(shù)據(jù)分析、保密性高的用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng)。
[0009]本發(fā)明的目的可以通過以下技術(shù)方案來實現(xiàn):
[0010]一種用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),包括:
[0011]數(shù)據(jù)來源判斷模塊,用于判斷數(shù)據(jù)來源以采用相應(yīng)的數(shù)據(jù)收集方式;
[0012]數(shù)據(jù)收集模塊,根據(jù)所述相應(yīng)的數(shù)據(jù)收集方式對數(shù)據(jù)進(jìn)行收集;
[0013]數(shù)據(jù)保存模塊,將所述數(shù)據(jù)收集模塊收集的數(shù)據(jù)保存為待清洗數(shù)據(jù);
[0014]數(shù)據(jù)清洗模塊,對所述待清洗數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,生成已清洗數(shù)據(jù);
[0015]數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊,對所述已清洗數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,生成公共導(dǎo)航字段,并保存至數(shù)據(jù)池;
[0016]后臺任務(wù)調(diào)度模塊,調(diào)用已建立的分析模型對數(shù)據(jù)池內(nèi)的數(shù)據(jù)進(jìn)行分析并生成可視化分析結(jié)果報告。
[0017]所述數(shù)據(jù)來源包括內(nèi)部格式化數(shù)據(jù)、內(nèi)部非格式化數(shù)據(jù)和外部網(wǎng)站數(shù)據(jù);
[0018]所述相應(yīng)的數(shù)據(jù)收集方式具體為:
[0019]對于內(nèi)部格式化數(shù)據(jù),采用給定接口進(jìn)行數(shù)據(jù)收集,保存為待清洗數(shù)據(jù);
[0020]對于內(nèi)部非格式化數(shù)據(jù),通過信息提取操作將所述非格式化數(shù)據(jù)轉(zhuǎn)化為格式化數(shù)據(jù)后進(jìn)行數(shù)據(jù)收集,保存為待清洗數(shù)據(jù);
[0021]對于外部網(wǎng)站數(shù)據(jù),采用網(wǎng)絡(luò)爬蟲技術(shù)抓取外部網(wǎng)站數(shù)據(jù),然后對抓取的數(shù)據(jù)進(jìn)行信息提取操作,將非格式化數(shù)據(jù)轉(zhuǎn)換為格式化數(shù)據(jù),然后進(jìn)行數(shù)據(jù)收集處理,保存為待清洗數(shù)據(jù)。
[0022]所述數(shù)據(jù)清洗是指剔除待清洗數(shù)據(jù)中的無用數(shù)據(jù),所述無用數(shù)據(jù)包括失效數(shù)據(jù)、業(yè)務(wù)范圍外數(shù)據(jù)和特定隱私信息。
[0023]所述數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊對已清洗數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后,更新數(shù)據(jù)時間標(biāo)記。
[0024]所述后臺任務(wù)調(diào)度模塊按照定時方式者事件觸發(fā)方式啟動分析模型進(jìn)行分析。
[0025]所述分析模型通過對數(shù)據(jù)池內(nèi)的樣本數(shù)據(jù)進(jìn)行訓(xùn)練獲得。
[0026]所述分析模型和分析結(jié)果均保存在工作區(qū)內(nèi)。
[0027]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0028]I)數(shù)據(jù)格式統(tǒng)一化、標(biāo)準(zhǔn)化;建立公共導(dǎo)航字段,進(jìn)行數(shù)據(jù)變形和清洗;建立規(guī)范統(tǒng)一的業(yè)務(wù)數(shù)據(jù)領(lǐng)域,統(tǒng)一的導(dǎo)航字段和數(shù)據(jù)模型,支撐跨系統(tǒng)的數(shù)據(jù)分析。
[0029]2)在大數(shù)據(jù)分析平臺上提供可視化的分析模型搭建工具,不僅僅是傳統(tǒng)意義上的統(tǒng)計性工具,也包括直接含有業(yè)務(wù)含義的智能工具如關(guān)聯(lián)擔(dān)保分析,貸款五級分類等智能算法,業(yè)務(wù)人員可輕松勝任整個分析模型生命周期管理,降低對分析建模人員的計算機(jī)能力要求,降低業(yè)務(wù)人員建立分析模型的難度,完全消除對技術(shù)人員的依賴,提高工作效率,保障了數(shù)據(jù)分析工作的保密性和時效性。
[0030]3)采用建立索引、信息提取等技術(shù)手段,將非格式化存儲文件中的有效信息提取出來,建立知識庫,充分有效的運(yùn)用歷史數(shù)據(jù)
[0031]4)采用網(wǎng)絡(luò)爬蟲加信息提取等技術(shù)手段,將外部數(shù)據(jù)中的有效信息提取出來,建立關(guān)鍵信息庫,有效的運(yùn)用外部數(shù)據(jù)。
【附圖說明】
[0032]圖1為本發(fā)明的流程示意圖。
【具體實施方式】
[0033]下面結(jié)合附圖和具體實施例對本發(fā)明進(jìn)行詳細(xì)說明。本實施例以本發(fā)明技術(shù)方案為前提進(jìn)行實施,給出了詳細(xì)的實施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實施例。
[0034]本實施例提供一種用于企業(yè)經(jīng)營數(shù)據(jù)分析的大數(shù)據(jù)可視化分析處理系統(tǒng),包括數(shù)據(jù)來源判斷模塊、數(shù)據(jù)收集模塊、數(shù)據(jù)保存模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊和后臺任務(wù)調(diào)度模塊,其中,數(shù)據(jù)來源判斷模塊用于判斷數(shù)據(jù)來源以采用相應(yīng)的數(shù)據(jù)收集方式;數(shù)據(jù)收集模塊根據(jù)所述相應(yīng)的數(shù)據(jù)收集方式對數(shù)據(jù)進(jìn)行收集;數(shù)據(jù)保存模塊將所述數(shù)據(jù)收集模塊收集的數(shù)據(jù)保存為待清洗數(shù)據(jù);數(shù)據(jù)清洗模塊對所述待清洗數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,生成已清洗數(shù)據(jù)及相應(yīng)的公共導(dǎo)航字段;數(shù)據(jù)標(biāo)準(zhǔn)化處理模塊對所述已清洗數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,并保存至數(shù)據(jù)池;后臺任務(wù)調(diào)度模塊調(diào)用已建立的分析模型對數(shù)據(jù)池內(nèi)的數(shù)據(jù)進(jìn)行分析并生成可視化分析結(jié)果報告。
[0035]如圖1所示,應(yīng)用上述大數(shù)據(jù)可視化分析平臺進(jìn)行企業(yè)經(jīng)營數(shù)據(jù)分析的具體流程為:
[0036]1、整個處理流程可以設(shè)定為定期發(fā)起,也可以設(shè)定為事件觸發(fā)進(jìn)行(如數(shù)據(jù)文件發(fā)生變化、收到特定的指令、外部網(wǎng)站數(shù)據(jù)有更新等);
[0037]2、按照數(shù)據(jù)來源的不同,發(fā)起不同的數(shù)據(jù)收集子流程:
[0038]a)內(nèi)部格式化數(shù)據(jù)(各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)):直接按照給定接口收集數(shù)據(jù),數(shù)據(jù)保存為待清洗數(shù)據(jù);
[0039]b)內(nèi)部非格式化數(shù)據(jù)(word文檔等非格式化數(shù)據(jù)):對文檔進(jìn)行信息提取操作,將非格式化數(shù)據(jù)轉(zhuǎn)換為格式化數(shù)據(jù),然后進(jìn)行數(shù)據(jù)收集處理,數(shù)據(jù)保存為待清洗數(shù)據(jù);
[0040]c)外部網(wǎng)站數(shù)據(jù)(外部,非格式化數(shù)據(jù)):運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)抓取數(shù)據(jù),然后對抓取的數(shù)據(jù)進(jìn)行信息提取操作,將非格式化數(shù)據(jù)轉(zhuǎn)換為格式化數(shù)據(jù);最后進(jìn)行數(shù)據(jù)收集處理,數(shù)據(jù)保存為待清洗數(shù)據(jù);
[0041]3、按預(yù)定規(guī)則進(jìn)行數(shù)據(jù)清洗,去除無用數(shù)據(jù)(包括失效數(shù)據(jù),業(yè)務(wù)范圍外數(shù)據(jù),特定隱私信息等),并生成公共導(dǎo)航字段;
[0042]4、執(zhí)行數(shù)據(jù)標(biāo)準(zhǔn)化處理:按照標(biāo)準(zhǔn)化業(yè)務(wù)領(lǐng)域?qū)⒁亚逑磾?shù)據(jù)導(dǎo)入到數(shù)據(jù)池;對數(shù)據(jù)池中的過期數(shù)據(jù)進(jìn)行廢棄處理;更新數(shù)據(jù)時間標(biāo)記;
[0043]5、后臺任務(wù)調(diào)度器按照定時或者事件觸發(fā)啟動已建立的分析模型的運(yùn)行,對數(shù)據(jù)池內(nèi)的海量數(shù)據(jù)進(jìn)行分析處理,形成最終的分析結(jié)果,并將之存放在工作區(qū)內(nèi);
[0044]6、任務(wù)調(diào)度器運(yùn)行完分析模型后,生成最終的分析結(jié)果