欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法

文檔序號(hào):10594119閱讀:363來(lái)源:國(guó)知局
基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法
【專利摘要】本發(fā)明涉及信息處理技術(shù)領(lǐng)域,特別涉及基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法,根據(jù)不同數(shù)據(jù)記錄中所包含的相同信息單元,應(yīng)用云計(jì)算平臺(tái)下的大數(shù)據(jù)處理框架抽象出目標(biāo)信息的關(guān)聯(lián)信息,在此基礎(chǔ)上,利用可視化工具繪制出以目標(biāo)信息為0級(jí)節(jié)點(diǎn)的關(guān)聯(lián)圖譜。本發(fā)明的信息處理在云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架實(shí)現(xiàn)任務(wù)自動(dòng)切分、并行計(jì)算,處理效率高。實(shí)現(xiàn)海量目標(biāo)的關(guān)聯(lián)關(guān)系可視化、圖譜化,直觀清晰、一目了然,為目標(biāo)背景分析、市場(chǎng)推廣、風(fēng)險(xiǎn)預(yù)測(cè)和防控等提供了可靠參考依據(jù)。
【專利說(shuō)明】
基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]隨著社會(huì)的發(fā)展和科技的進(jìn)步,個(gè)體或者團(tuán)體之間的聯(lián)系變得更加緊密,緊密的聯(lián)系促進(jìn)了信息的快速傳播和增長(zhǎng),而當(dāng)今世界早就進(jìn)入了信息時(shí)代,隨著信息的爆發(fā)式增長(zhǎng)和積累,大數(shù)據(jù)時(shí)代已近來(lái)臨,大數(shù)據(jù)的基本特征:即數(shù)據(jù)量大、類型繁多、價(jià)值密度低、速度快時(shí)效高;作為其中最重要的特點(diǎn):數(shù)據(jù)量大和價(jià)值密度低卻是困擾如此海量數(shù)據(jù)信息挖掘利用的難題,在海量的數(shù)據(jù)里面,如何精確的獲得人們關(guān)心的信息,就如同海底撈針困難重重;與此同時(shí)面對(duì)海量的信息,如何去分析某類信息之間的相關(guān)性,并以此分析出信息背后隱含價(jià)值,才在更高、更深的層面體現(xiàn)數(shù)據(jù)信息的價(jià)值,但是面對(duì)如此海量的數(shù)據(jù),想要快速準(zhǔn)確的分析出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,十分困難。
[0003]針對(duì)特定的信息目標(biāo),如何分析該目標(biāo)與其他目標(biāo)之間的關(guān)聯(lián)關(guān)系在很多領(lǐng)域具有更加實(shí)際的意義,因?yàn)榫哂嘘P(guān)聯(lián)關(guān)系的目標(biāo)在進(jìn)行各種活動(dòng)時(shí)往往比單獨(dú)的簡(jiǎn)單個(gè)體具有更大的影響面,而且具有關(guān)聯(lián)關(guān)系的目標(biāo)在對(duì)外建立各種活動(dòng)時(shí),受到內(nèi)部的關(guān)聯(lián)關(guān)系的相互牽制或者支持,會(huì)比簡(jiǎn)單目標(biāo)的活動(dòng)軌跡更加復(fù)雜。而關(guān)聯(lián)關(guān)系通過(guò)是隱藏的,需要人們?cè)趶?fù)雜繁瑣的數(shù)據(jù)中去挖掘和分析,要分析這些的隱含關(guān)聯(lián)關(guān)系在海量的數(shù)據(jù)面前將變得更加困難,如果這些任務(wù)通過(guò)個(gè)人逐個(gè)實(shí)現(xiàn),將耗費(fèi)巨大的人力和時(shí)間成本;在特定的行業(yè)領(lǐng)域中這種數(shù)據(jù)分析更加頻繁,如果可以通過(guò)一個(gè)平臺(tái)來(lái)幫助相關(guān)從業(yè)人員自動(dòng)分析出目標(biāo)信息的相關(guān)背景,將極大減輕從業(yè)人員的工作負(fù)荷,提升行業(yè)的工作效率。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的不足,提供基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法,根據(jù)不同數(shù)據(jù)記錄中所包含的相同信息單元,應(yīng)用云計(jì)算平臺(tái)下的大數(shù)據(jù)處理框架抽象出目標(biāo)信息的N度關(guān)聯(lián)信息,在此基礎(chǔ)上通過(guò)可視化處理工具,繪制出以目標(biāo)信息為O級(jí)節(jié)點(diǎn)的關(guān)聯(lián)關(guān)聯(lián)圖譜。云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架例如Hadoop體系下的MapReduce和Spark等,通過(guò)將任務(wù)自動(dòng)切分,分配到多個(gè)節(jié)點(diǎn)處理,分而自治的方式,可以實(shí)現(xiàn)海量數(shù)據(jù)的并行的處理,極大的提高了數(shù)據(jù)的處理效率。
[0005]具體的,所述發(fā)明方法包含以下實(shí)現(xiàn)步驟:
[0006](I)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;
[0007](2)在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;
[0008](3)通過(guò)云計(jì)算平臺(tái)下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)信息;依次類推,抽象出以第一信息的N度關(guān)聯(lián)信息,其中I;
[0009](4)根據(jù)所述步驟(3)得出的關(guān)聯(lián)關(guān)系數(shù)據(jù),利用可視化工具將第一信息抽象成O級(jí)節(jié)點(diǎn),將第二信息作為第一信息的I級(jí)子節(jié)點(diǎn)擴(kuò)展到第一信息節(jié)點(diǎn)的外圍,將第三信息作為第二信息的I級(jí)子節(jié)點(diǎn)擴(kuò)展到第二信息節(jié)點(diǎn)的外圍;依次類推,擴(kuò)展出以第一信息節(jié)點(diǎn)為中心的各級(jí)節(jié)點(diǎn)依次擴(kuò)展在對(duì)應(yīng)上一級(jí)節(jié)點(diǎn)外圍的關(guān)聯(lián)圖譜。
[0010]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過(guò)Hadoop下的MapReduce計(jì)算框架來(lái)實(shí)現(xiàn)。
[0011]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過(guò)Spark計(jì)算框架來(lái)實(shí)現(xiàn)。進(jìn)一步的,所述步驟(3)中的二度關(guān)聯(lián)關(guān)系通過(guò)Spark計(jì)算框架中的SQL語(yǔ)句來(lái)實(shí)現(xiàn),具體的使用SQL中的j ο i η算法來(lái)實(shí)現(xiàn)。
[0012]類似的,所述N度關(guān)聯(lián)信息也通過(guò)join語(yǔ)句來(lái)實(shí)現(xiàn)。
[0013]本發(fā)明中的數(shù)據(jù)記錄存儲(chǔ)于數(shù)據(jù)庫(kù)中,所述數(shù)據(jù)記錄的原始的來(lái)源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來(lái)源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進(jìn)行深度處理,為信息的精細(xì)化處理,和深度應(yīng)用提供一種全新的途徑。
[0014]進(jìn)一步的,所述N度關(guān)聯(lián)關(guān)系中的計(jì)算過(guò)程,均以一度關(guān)聯(lián)關(guān)系為基礎(chǔ),即是上述關(guān)聯(lián)信息的追蹤(計(jì)算)過(guò)程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級(jí)追蹤關(guān)聯(lián)信息的計(jì)算,計(jì)算邏輯清晰,運(yùn)行過(guò)程簡(jiǎn)單,保證了運(yùn)算結(jié)果的準(zhǔn)確率。
[0015]進(jìn)一步的,所述數(shù)據(jù)記錄可以根據(jù)需要設(shè)置字段,從原始信息中提取出來(lái),將提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對(duì)。
[0016]進(jìn)一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲(chǔ);并將屬于不同關(guān)聯(lián)度的信息單元打上對(duì)應(yīng)的標(biāo)記。
[0017]進(jìn)一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲(chǔ)于非關(guān)系型數(shù)據(jù)庫(kù)中,比如說(shuō)Hbase、CouchDB、Cassandra、Mongodb等 0
[0018]進(jìn)一步的,所述步驟(2)、(3)中形成的關(guān)聯(lián)關(guān)系存儲(chǔ)于于非關(guān)系型數(shù)據(jù)庫(kù)的分布式文件系統(tǒng)中(比如HDFS)。
[0019]進(jìn)一步的,所述關(guān)聯(lián)關(guān)系數(shù)據(jù)或者關(guān)聯(lián)圖譜繪制的節(jié)點(diǎn)擴(kuò)展遵循廣度優(yōu)先原則。
[0020]進(jìn)一步的,所述可視化過(guò)程中:將目標(biāo)信息置于可視化圖的中心;將相同級(jí)數(shù)的節(jié)點(diǎn)分散在一個(gè)圓周上,并圍繞在上一級(jí)節(jié)點(diǎn)圍成的圓的外面。
[0021]進(jìn)一步的,所述關(guān)聯(lián)圖譜中,使用不同的顏色和,或不同形狀來(lái)區(qū)分各級(jí)節(jié)點(diǎn)。?0022] 作為一種優(yōu)選,所述步驟(4)中所采用的可視化工具為:yEd、D3或者jcharts。
[0023]進(jìn)一步的,所關(guān)聯(lián)圖譜通過(guò)Web端口提供給用戶查詢使用。
[0024]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法,云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架來(lái)實(shí)現(xiàn)海量關(guān)聯(lián)數(shù)據(jù)的同時(shí)并行的處理,使用戶只需按照計(jì)算框架提供的接口設(shè)計(jì)上層指令,在不關(guān)心底層運(yùn)行過(guò)程的情況下,從海量的基礎(chǔ)數(shù)據(jù)中,提取分析目標(biāo)的相關(guān)關(guān)鍵信息,利用不同數(shù)據(jù)記錄中相同的信息單元,將具有隱含聯(lián)系的相關(guān)信息挖掘出來(lái);在關(guān)聯(lián)關(guān)系數(shù)據(jù)分析的基礎(chǔ)上,本發(fā)明方法使用可視化工具實(shí)現(xiàn)關(guān)聯(lián)關(guān)系數(shù)據(jù)的圖譜化展示,達(dá)到目標(biāo)信息的關(guān)聯(lián)網(wǎng)絡(luò)簡(jiǎn)潔明了、直觀可見(jiàn)的效果,節(jié)省數(shù)據(jù)分析的時(shí)間。
[0025]此外,本發(fā)明方法可以Web查詢的方式,以在線或者離線繪制的方式將目標(biāo)信息的關(guān)聯(lián)圖譜提供給用戶查詢使用,這將極大的減輕相關(guān)行業(yè)從業(yè)人員用于數(shù)據(jù)分析和整理的工作負(fù)荷,提高行業(yè)工作效率。
【附圖說(shuō)明】
:
[0026]圖1是本基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法的實(shí)現(xiàn)流程示意圖。
[0027]圖2是本基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法的關(guān)聯(lián)算法示意圖。
[0028]圖3是實(shí)施例1中數(shù)據(jù)提取結(jié)果示意圖。
[0029]圖4是實(shí)施例1中一度關(guān)聯(lián)關(guān)系數(shù)據(jù)示意圖。
[0030]圖5是實(shí)施例1中以a以起點(diǎn)的三級(jí)關(guān)聯(lián)圖譜示意圖。
[0031 ]圖6是實(shí)施例1中以f以起點(diǎn)的三級(jí)關(guān)聯(lián)圖譜示意圖。
[0032]圖7是實(shí)施例1中以k以起點(diǎn)的三級(jí)關(guān)聯(lián)圖譜示意圖。
[0033]圖8是實(shí)施例1中以P以起點(diǎn)的三級(jí)關(guān)聯(lián)圖譜示意圖。
[0034]應(yīng)該理解本發(fā)明附圖均為示意性的,不代表具體的步驟和路徑。
【具體實(shí)施方式】
[0035]下面結(jié)合試驗(yàn)例及【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本
【發(fā)明內(nèi)容】
所實(shí)現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
[0036]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的不足,提供基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法,如圖1所示,通過(guò)設(shè)置字段等過(guò)濾條件,對(duì)原始數(shù)據(jù)(原始的來(lái)源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來(lái)源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進(jìn)行深度處理,為信息的精細(xì)化處理,和深度應(yīng)用提供一種全新的途徑。)每篇文檔中的關(guān)鍵信息單元進(jìn)行提取,將提取出的關(guān)鍵信息單元按照設(shè)定的順序排列成一條數(shù)據(jù)記錄,通過(guò)云計(jì)平臺(tái)的大數(shù)據(jù)處理框架,利用不同數(shù)據(jù)記錄中相同的信息單元分析出海量目標(biāo)信息之間的關(guān)聯(lián)關(guān)系;云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架例如Hadoop體系下的MapReduce和Spark等,通過(guò)將任務(wù)自動(dòng)切分,分配到多個(gè)節(jié)點(diǎn)處理,分而自治的方式,可以實(shí)現(xiàn)海量數(shù)據(jù)的并行的處理,極大的提高了數(shù)據(jù)的處理效率,在關(guān)聯(lián)數(shù)據(jù)分析的基礎(chǔ)上,使用可視化工具將目標(biāo)信息的關(guān)聯(lián)關(guān)系以關(guān)聯(lián)圖譜的形式展示出來(lái),直觀易懂,到達(dá)一圖勝千言的效果。
[0037]為實(shí)現(xiàn)上述目的,具體的,所述發(fā)明方法實(shí)現(xiàn)步驟如下:
[0038](I)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息。
[0039](2)在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息。
[0040](3)通過(guò)云計(jì)算平臺(tái)下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)信息;依次類推,抽象出以第一信息的N度關(guān)聯(lián)信息,其中N多I,如圖2所示。
[0041](4)根據(jù)所述步驟(3)得出的關(guān)聯(lián)關(guān)系數(shù)據(jù),利用可視化工具將第一信息抽象成O級(jí)節(jié)點(diǎn),將第二信息作為第一信息的I級(jí)子節(jié)點(diǎn)擴(kuò)展到第一信息節(jié)點(diǎn)的外圍,將第三信息作為第二信息的I級(jí)子節(jié)點(diǎn)擴(kuò)展到第二信息節(jié)點(diǎn)的外圍;依次類推,擴(kuò)展出以第一信息節(jié)點(diǎn)為中心的各級(jí)節(jié)點(diǎn)依次擴(kuò)展在對(duì)應(yīng)上一級(jí)節(jié)點(diǎn)外圍的關(guān)聯(lián)圖譜。
[0042]其中所述第一信息、第二信息以及第三信息是指信息的內(nèi)容,不代表信息的順序。通過(guò)本發(fā)明方法可以目標(biāo)信息為起點(diǎn)(起點(diǎn)的選擇根據(jù)分析需要來(lái)設(shè)置),逐級(jí)查找出與目標(biāo)相關(guān)聯(lián)的其他信息。而且本發(fā)明關(guān)聯(lián)關(guān)系的計(jì)算是以云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架來(lái)實(shí)現(xiàn)的,可以同時(shí)對(duì)海量的目標(biāo)并行的處理,也就是說(shuō),從基礎(chǔ)數(shù)據(jù)到N度關(guān)聯(lián)信息的計(jì)算,都是多個(gè)目標(biāo)同時(shí)并列處理。可以看出隨著關(guān)聯(lián)度N的逐級(jí)增加,計(jì)算的復(fù)雜度和數(shù)據(jù)維度不斷增加,而這樣復(fù)雜的數(shù)據(jù)處理過(guò)程通過(guò)云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架(比如Hadoop下的MapReduce和spark等大數(shù)據(jù)處理框架)得以順利快速的實(shí)現(xiàn);MapReduce和spark等大數(shù)據(jù)處理框架能夠使用戶只需按照計(jì)算框架提供的接口設(shè)計(jì)上層指令,在不關(guān)心底層運(yùn)行過(guò)程的情況下,處理框架根據(jù)上層指令自動(dòng)調(diào)用內(nèi)部的相關(guān)資源,并且將任務(wù)自動(dòng)切分,分配到內(nèi)部的不同節(jié)點(diǎn)進(jìn)行處理,實(shí)現(xiàn)了數(shù)據(jù)的并行高效計(jì)算,在處理完成后還自動(dòng)將處理結(jié)果整合后提供給用戶;任務(wù)完成過(guò)程高度自動(dòng)化,極大的節(jié)省了人力,提高了數(shù)據(jù)的處理效率。本發(fā)明利用云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架為海量目標(biāo)的關(guān)聯(lián)背景分析提供了快速可靠的處理途徑。
[0043]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過(guò)Hadoop下的MapReduce計(jì)算框架來(lái)實(shí)現(xiàn)。
[0044]作為一種優(yōu)選,所述步驟(2)、步驟(3)中的N度關(guān)聯(lián)關(guān)系通過(guò)Spark計(jì)算框架來(lái)實(shí)現(xiàn)。使用類Hadoop系統(tǒng)的Sparkd大數(shù)據(jù)處理框架來(lái)實(shí)現(xiàn)關(guān)聯(lián)關(guān)系的計(jì)算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲(chǔ)層,可以融入Hadoop的生態(tài)系統(tǒng)圈。Spark是可以搭建大數(shù)據(jù)內(nèi)存計(jì)算平臺(tái),并充分利用內(nèi)存計(jì)算,實(shí)現(xiàn)海量數(shù)據(jù)的實(shí)時(shí)處理。
[0045]進(jìn)一步的,所述步驟(3)中的二度關(guān)聯(lián)關(guān)系通過(guò)Spark計(jì)算框架中的SQL語(yǔ)句來(lái)實(shí)現(xiàn),具體的使用SQL中的join算法來(lái)實(shí)現(xiàn):比如說(shuō):在一張數(shù)據(jù)表中包含結(jié)構(gòu)化的兩列信息:第一信息,第二信息;第二信息,第三信息;則通過(guò)join算法,可以很方便的將第一信息和第二信息經(jīng)過(guò)第二信息連接到一起,形成了第一信息,第二信息,第三信息的新數(shù)據(jù)結(jié)果。類似的,所述N度關(guān)聯(lián)信息也通過(guò)j ο in語(yǔ)句來(lái)實(shí)現(xiàn)。
[0046]進(jìn)一步的,所述數(shù)據(jù)記錄可以根據(jù)需要設(shè)置字段,從原始信息中提取出來(lái),將提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對(duì):其中字段作為“鍵”,而字段對(duì)應(yīng)的內(nèi)容為“值”;根據(jù)分析需要可選擇其中一個(gè)字段對(duì)應(yīng)的內(nèi)容作為關(guān)聯(lián)信息追蹤的起點(diǎn)(被關(guān)聯(lián)信息),而將每條數(shù)據(jù)記錄中的其他字段對(duì)應(yīng)的內(nèi)容作為被關(guān)聯(lián)信息的一度關(guān)聯(lián)信息,從而完成一度關(guān)聯(lián)關(guān)系的計(jì)算。一度關(guān)聯(lián)信息的計(jì)算是后續(xù)N度關(guān)聯(lián)信息計(jì)算的基礎(chǔ)。
[0047]進(jìn)一步的,所述N度關(guān)聯(lián)關(guān)系中的計(jì)算過(guò)程,均以一度關(guān)聯(lián)關(guān)系為基礎(chǔ),即是上述關(guān)聯(lián)信息的追蹤(計(jì)算)過(guò)程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級(jí)追蹤關(guān)聯(lián)信息的計(jì)算,計(jì)算邏輯清晰,運(yùn)行過(guò)程簡(jiǎn)單,保證了運(yùn)算結(jié)果的準(zhǔn)確率。
[0048]進(jìn)一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲(chǔ);并將屬于不同關(guān)聯(lián)度的信息單元打上對(duì)應(yīng)的標(biāo)記。
[0049]進(jìn)一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲(chǔ)于不同的非關(guān)系型數(shù)據(jù)庫(kù)中,比如說(shuō)Hbase、CouchDB、Cassandra、Mongodb等非關(guān)系型數(shù)據(jù)庫(kù)中。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,非關(guān)系型數(shù)據(jù)庫(kù)具有操作簡(jiǎn)單、完全免費(fèi)、源碼公開(kāi)、隨時(shí)下載、應(yīng)用成本低等特點(diǎn);并且在面對(duì)體量急劇增加的多維度無(wú)結(jié)構(gòu)數(shù)據(jù)時(shí),比如說(shuō)音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫(kù)的存儲(chǔ)已經(jīng)不能滿足需求。
[0050]進(jìn)一步的,所述N度關(guān)聯(lián)信息存儲(chǔ)于于非關(guān)系型數(shù)據(jù)庫(kù)的分布式文件系統(tǒng)中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統(tǒng),具有高度容錯(cuò)性,對(duì)部署機(jī)器要求不高,運(yùn)行和維護(hù)成本較低。同時(shí)HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來(lái)存儲(chǔ)待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲(chǔ),高容錯(cuò)性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0051]進(jìn)一步的,所述關(guān)聯(lián)關(guān)系數(shù)據(jù)或者關(guān)聯(lián)圖譜繪制的節(jié)點(diǎn)擴(kuò)展遵循廣度優(yōu)先原則。廣度優(yōu)先原則擴(kuò)展節(jié)點(diǎn)的順序是將某一層上的所有節(jié)點(diǎn)都搜索到之后才向下一層搜索;這樣擴(kuò)展節(jié)點(diǎn)的好處在于,所形成的圖譜以目標(biāo)信息為中心逐級(jí)擴(kuò)展節(jié)點(diǎn),用戶根據(jù)分析深度的需要選擇展示的關(guān)聯(lián)圖譜節(jié)點(diǎn)最高級(jí)數(shù),在選擇的級(jí)數(shù)以內(nèi),更夠顯示全部節(jié)點(diǎn)而不會(huì)出現(xiàn)遺漏,方便用戶根據(jù)需要獲得所需的全量數(shù)據(jù)。
[0052]進(jìn)一步的,所述可視化過(guò)程中:將目標(biāo)信息置于可視化圖的中心;將相同級(jí)數(shù)的節(jié)點(diǎn)分散在一個(gè)圓周上,并圍繞在上一級(jí)節(jié)點(diǎn)圍成的圓的外面。節(jié)點(diǎn)層次感很強(qiáng),方便用戶直觀了解目標(biāo)信息的關(guān)聯(lián)信息分布情況。
[0053]進(jìn)一步的,所述關(guān)聯(lián)圖譜中,使用不同的顏色和,或不同形狀來(lái)區(qū)分各級(jí)節(jié)點(diǎn)。
[0054]作為一種優(yōu)選,所述步驟(4)中所采用的可視化工具為:yEd、D3或者jcharts。
[0055]進(jìn)一步的,所關(guān)聯(lián)圖譜通過(guò)Web端口提供給用戶查詢使用。為了方便問(wèn)題的分析,節(jié)省相關(guān)從業(yè)人員的重復(fù)性勞動(dòng),通過(guò)本發(fā)明方法實(shí)習(xí)的可視化關(guān)聯(lián)圖譜可以網(wǎng)頁(yè)查詢的方式提供給用戶,這樣用戶在進(jìn)行目標(biāo)信息分析時(shí),不再需在龐大的基礎(chǔ)數(shù)據(jù)中要逐個(gè)查找資料,逐個(gè)的去構(gòu)建關(guān)聯(lián)關(guān)系,再逐個(gè)的去分析目標(biāo)信息的龐大關(guān)聯(lián)網(wǎng)絡(luò),而是通過(guò)網(wǎng)頁(yè)直接查詢經(jīng)過(guò)本發(fā)明方法實(shí)現(xiàn)的目標(biāo)信息的關(guān)聯(lián)圖譜,縮短數(shù)據(jù)分析時(shí)間提高決策制定的效率。
[0056]實(shí)施例1
[0057]在原始數(shù)據(jù)中經(jīng)過(guò)字段(設(shè)置的字段包括:第一字段、第二字段、第三字段)提取,提取出來(lái)4條數(shù)據(jù)記錄如圖3所示,其中第一數(shù)據(jù)記錄包含的根據(jù)第一字段提取的內(nèi)容a,第二字段提取的內(nèi)容b,第三字段所對(duì)應(yīng)的信息內(nèi)容為c、d、e;第二條數(shù)據(jù)記錄中包含根據(jù)第一字段提取的內(nèi)容f,第二字段提取的內(nèi)容g、h第三字段對(duì)應(yīng)的信息內(nèi)容c、d、1、j ;第三條數(shù)據(jù)記錄中包含的根據(jù)第一字段提取內(nèi)容k,第二字段提取的內(nèi)容a、d,第三字段對(duì)應(yīng)的信息內(nèi)容l、m、n、o。第四條數(shù)據(jù)記錄中包含根據(jù)第一字段提取的內(nèi)容p,第二字段提取的內(nèi)容d、g第三字段對(duì)應(yīng)的信息內(nèi)容m、n、s、t。以第一字段對(duì)應(yīng)的信息為目標(biāo)信息,則分別構(gòu)建出的以
a、f、k、p為目標(biāo)?目息的一度關(guān)聯(lián)關(guān)系為,(a~b) (a_c) (a_d) (a_e),(f-g) (f~h) (f-c) (f-d)(f-1)(f-j), (k-a) (k-d) (k-1) (k-m) (k-n) (k-o), (p_d) (p-g) (p_m) (p_n) (p_s) (p_t),如圖4所示。使用云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架Spark抽象出a、f、k、p為目標(biāo)信息的二度關(guān)聯(lián)關(guān)系為:(a-c-f) (a_d_k) (a_d_p),(f-g-p) (f_c_a) (f_d_a) (f_d_k) (f_d_p),(k_a_b) (k_a_c)(k_a_d)(k_a_e)(k_d_a)(k_d_f)(k_d_p)(k_m_p)(k_n_p),(p_d_a)(p-d-f)(p_d_k)(p_g_
f)(p-m-f) (p-n-f),a、f、k、p 為目標(biāo)信息的三度關(guān)聯(lián)關(guān)系為(a-c-f-g) (a-c-f-h) (a-c-f-d)(a-c-f-1)(a-c-f-j)(a_d_k_a)(a_d_k_l)(a_d_k_m)(a_d_k_m)(a_d_k_n)(a_d_k_o)(a_d_p-g)(a-d-p-m)(a_d_p_n)(a_d_p_s)(a_d_p_t),(f-g-p-d)(f-g-p-m)(f-g-p-n)(f-g-p-s)(f-g-p-t)(f-c-a-b)(f-c-a-d)(f_c_a_e)(f_d_a_b)(f_d_a_c)(f_d_a_e)(f_d_k_a)(f_d_k_l)(f-d-k-m)(f-d-k-n)(f-d-k-o)(f-d-p-g)(f-d-p-m)(f-d-p-n)(f_d_p_s)(f_d_p_t),(k-a-c-f)(k_a_d_p)(k_a_d_f)(k_d_a_b)(k_d_a_c)(k_d_a_e)(k_d_f_g)(k_d_f_h)(k_d_f-c)(k-d-f-1)(k-d-f-j)(k-d-p-g)(k_d_p_m)(k_d_p_n)(k_d_p_s)(k_d_p_t)(k_m_p_d)(k-m-p-g)(k-m-p-n)(k-m-p-s)(k_m_p_t),(k_n_p_d)(k_n_p_g)(k_n_p_m)(k_n_p_o),(p_d_a_b)(p_d_a_c)(p_d_a_e)(p_d_f_g)(p_d_f_h)(p_d_f_c)(p_d_f_i)(p-d-f-j)(p_d_k_a)(p-d-k-1)(p-d-k-m)(p-d-k-n)(p-d-k-o)(p-g-f-h)(p-g-f-c)(p-g-f-c)(p-g-f-d)(p-g-f-1)(p-g-f-j)(p-m-f-g)(p-m-f-h)(p-m-f-c)(p-m-f-d)(p-m-f-1)(p-m-f-j)(p-n-f-
g)(p-n-f-h) (p-n-f-c) (p-n-f-d) (p-n-f-1) (p-n-f-j)......本實(shí)施例僅示意性的說(shuō)明關(guān)聯(lián)信息的計(jì)算過(guò)程,實(shí)際上根據(jù)需要所要分析的目標(biāo)數(shù)可以達(dá)到萬(wàn)、十萬(wàn)、百萬(wàn)量級(jí);而且從上述實(shí)施例可以看出,隨著關(guān)聯(lián)度數(shù)的增加,所需計(jì)算的數(shù)據(jù)量急劇增加,海量的計(jì)算目標(biāo)的多維關(guān)聯(lián)信息的計(jì)算量更加巨大,而本發(fā)明采用云計(jì)算平臺(tái)的大數(shù)據(jù)處理框架,可以根據(jù)上述方法,對(duì)海量目標(biāo)并行的進(jìn)行計(jì)算,計(jì)算效率高。
[0058]進(jìn)一步的,根據(jù)上述關(guān)聯(lián)數(shù)據(jù)和關(guān)聯(lián)路徑,利用可視化處理工具yEd、D3或者j charts繪制出以a、f、k、P為O級(jí)節(jié)點(diǎn)的三度關(guān)聯(lián)關(guān)系圖譜分別如圖5、圖6、圖7、圖8所示。
[0059]盡管上面對(duì)本發(fā)明說(shuō)明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對(duì)本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化時(shí)顯而易見(jiàn)的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【主權(quán)項(xiàng)】
1.基于云計(jì)算平臺(tái)的海量關(guān)聯(lián)數(shù)據(jù)分析及可視化實(shí)現(xiàn)方法,其特征在于,包含以下實(shí)現(xiàn)過(guò)程: (1)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息; (2)在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息; (3)通過(guò)云計(jì)算平臺(tái)下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)信息; 依次類推,抽象出第一信息的N度關(guān)聯(lián)信息,其中N>1; (4)根據(jù)所述步驟(3)得出的關(guān)聯(lián)關(guān)系數(shù)據(jù),利用可視化工具將第一信息抽象成O級(jí)節(jié)點(diǎn),將第二信息作為第一信息的I級(jí)子節(jié)點(diǎn)添加到第一信息節(jié)點(diǎn)的外圍,將第三信息作為第二信息的I級(jí)子節(jié)點(diǎn)添加到第二信息節(jié)點(diǎn)的外圍; 依次類推,擴(kuò)展出以第一信息節(jié)點(diǎn)為中心的各級(jí)節(jié)點(diǎn)依次添加在對(duì)應(yīng)上一級(jí)節(jié)點(diǎn)外圍的關(guān)聯(lián)圖譜。2.如權(quán)利要求1所述的方法,其特征在于,所述N度關(guān)聯(lián)關(guān)系通過(guò)Hadoop下的MapReduceMapReduce或者Spark計(jì)算框架來(lái)計(jì)算。3.如權(quán)利要求2所述的方法,其特征在于,所述數(shù)據(jù)記錄存儲(chǔ)于非關(guān)系型數(shù)據(jù)庫(kù)中。4.如權(quán)利要求3所述的方法,其特征在于,所述N度關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)中的分布式文件系統(tǒng)中。5.如權(quán)利要求4所述的方法,其特征在于,所述關(guān)聯(lián)關(guān)系數(shù)據(jù)或者關(guān)聯(lián)圖譜繪制的節(jié)點(diǎn)擴(kuò)展遵循廣度優(yōu)先原則。6.如權(quán)利要求1至5之一所述的方法,其特征在于,其可視化過(guò)程為:將目標(biāo)信息置于可視化圖的中心;將相同級(jí)數(shù)的節(jié)點(diǎn)分散在一個(gè)圓周上,并圍繞在上一級(jí)節(jié)點(diǎn)圍成的圓的外面。7.如權(quán)利要求6所述的方法,其特征在于,所述關(guān)聯(lián)圖譜中,使用不同的顏色和,或不同形狀來(lái)區(qū)分各級(jí)節(jié)點(diǎn)。8.如權(quán)利要求7所述的方法,其特征在于,所述步驟(4)中所采用的可視化工具為:yEd、D3 或者 jcharts。9.如權(quán)利要求8所述的方法,其特征在于,所關(guān)聯(lián)圖譜通過(guò)Web端口提供給用戶查詢使用。
【文檔編號(hào)】G06F17/30GK105956018SQ201610255491
【公開(kāi)日】2016年9月21日
【申請(qǐng)日】2016年4月21日
【發(fā)明人】何宏靖, 范東來(lái)
【申請(qǐng)人】成都數(shù)聯(lián)銘品科技有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
樟树市| 龙陵县| 大同县| 福海县| 兴海县| 陵川县| 新宾| 积石山| 若尔盖县| 北宁市| 武胜县| 抚远县| 白山市| 揭东县| 祥云县| 南京市| 镇巴县| 维西| 澜沧| 渝中区| 酒泉市| 阜康市| 松滋市| 蓝山县| 景洪市| 铜鼓县| 乡城县| 亚东县| 呼伦贝尔市| 滕州市| 吉林市| 沙田区| 阳信县| 名山县| 麻江县| 兰州市| 马龙县| 海阳市| 化隆| 商丘市| 神木县|