大數(shù)據(jù)分析處理方法
【專利摘要】本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,特別涉及大數(shù)據(jù)分析處理方法,通過設(shè)置字段等過濾條件,對原始數(shù)據(jù)中每篇文檔中的關(guān)鍵信息單元進(jìn)行提取,并形成相應(yīng)的數(shù)據(jù)記錄,并將各個(gè)數(shù)據(jù)記錄存儲存儲于數(shù)據(jù)庫中,在此基礎(chǔ)上,根據(jù)不同數(shù)據(jù)記錄中所包含的相同信息單元,應(yīng)用云計(jì)算平臺下的大數(shù)據(jù)處理框架抽象出信息單元之間的關(guān)聯(lián)關(guān)系。本發(fā)明可以在海量互聯(lián)網(wǎng)信息中,根據(jù)需要分析出海量目標(biāo)信息背后隱含的關(guān)聯(lián)信息和對應(yīng)關(guān)聯(lián)路徑。本發(fā)明方法為數(shù)據(jù)信息的深度挖掘和應(yīng)用提供了一種十分可靠便捷的途徑,目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險(xiǎn)預(yù)測和風(fēng)險(xiǎn)防控等提供了有效技術(shù)支撐。
【專利說明】
大數(shù)據(jù)分析處理方法
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及大數(shù)據(jù)分析處理方法。
【背景技術(shù)】
[0002]隨著社會的發(fā)展和科技的進(jìn)步,個(gè)體或者團(tuán)體之間的聯(lián)系變得更加緊密,緊密的聯(lián)系促進(jìn)了信息的快速傳播和增長,而當(dāng)今世界早就進(jìn)入了信息時(shí)代,隨著信息的爆發(fā)式增長和積累,大數(shù)據(jù)時(shí)代已近來臨,大數(shù)據(jù)的基本特征可以用4個(gè)“V”來描述,即數(shù)據(jù)量大(Volume)、類型繁多(Variety)、價(jià)值密度低(Value)、速度快時(shí)效高(Velocity);作為其中最重要的特點(diǎn):數(shù)據(jù)量大和價(jià)值密度低卻是困擾如此海量數(shù)據(jù)信息挖掘利用的難題,在海量的數(shù)據(jù)里面,如何精確的獲得人們關(guān)心的信息,就如同海底撈針困難重重;與此同時(shí)面對海量的信息,如何去分析某類信息之間的相關(guān)性,并以此分析出信息背后隱含價(jià)值,大數(shù)據(jù)中關(guān)聯(lián)關(guān)系比因果關(guān)系更加重要,關(guān)聯(lián)關(guān)系在很多領(lǐng)域有著重要的應(yīng)用,比如目標(biāo)背景分析,用戶喜好分析等,但是面對如此海量的數(shù)據(jù),想要快速準(zhǔn)確的分析出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,十分困難。
[0003]針對特定的信息目標(biāo),如何分析該目標(biāo)與其他目標(biāo)之間的關(guān)聯(lián)關(guān)系在很多領(lǐng)域具有更加實(shí)際的意義,因?yàn)榫哂嘘P(guān)聯(lián)關(guān)系的目標(biāo)在進(jìn)行各種活動時(shí)往往比單獨(dú)的簡單個(gè)體具有更大的影響面,而且具有關(guān)聯(lián)關(guān)系的目標(biāo)在對外建立各種活動時(shí),受到內(nèi)部的關(guān)聯(lián)關(guān)系的相互牽制或者支持,會比簡單目標(biāo)的活動軌跡更加復(fù)雜。而在現(xiàn)實(shí)生活中,信息目標(biāo)之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,而且一般是隱藏的,人們并不能通過表面活動或者表面信息察覺到,更加不易找出該目標(biāo)是否和其他目標(biāo)具有關(guān)聯(lián)關(guān)系,或者是何種關(guān)聯(lián)關(guān)系。在這樣的情況下,這些隱含的關(guān)聯(lián)關(guān)系會對人們的社會經(jīng)濟(jì)活動帶來很多潛在的價(jià)值或者風(fēng)險(xiǎn)。要分析這些的隱含關(guān)聯(lián)關(guān)系在海量的數(shù)據(jù)面前將變得更加困難,如果這些任務(wù)通過個(gè)人逐個(gè)實(shí)現(xiàn),將耗費(fèi)巨大的人力和時(shí)間成本;急需一種分析實(shí)現(xiàn)方法,幫助分析者來實(shí)現(xiàn)這種巨大繁瑣的計(jì)算過程,提供這種分析結(jié)果。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中所存在的不足,提供大數(shù)據(jù)分析處理方法,通過云計(jì)平臺的大數(shù)據(jù)處理框架,利用不同數(shù)據(jù)記錄中相同的信息單元分析出海量目標(biāo)信息的關(guān)聯(lián)信息關(guān)系,并且根據(jù)信息之間的關(guān)聯(lián)途徑抽象出對應(yīng)的關(guān)聯(lián)路徑,使得關(guān)聯(lián)信息之間的聯(lián)系邏輯清晰明了;本發(fā)明方法系統(tǒng)可以在海量互聯(lián)網(wǎng)信息中,根據(jù)需要設(shè)置分析目標(biāo),分析出海量目標(biāo)信息的關(guān)聯(lián)背景,并且通過關(guān)聯(lián)路徑的計(jì)算和展示使得相應(yīng)的關(guān)聯(lián)信息關(guān)系清晰簡潔,為目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險(xiǎn)預(yù)測和風(fēng)險(xiǎn)防控等提供了一種新型的有效途徑。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明提供大數(shù)據(jù)分析處理方法:根據(jù)不同數(shù)據(jù)記錄中所包含相同的信息單元,應(yīng)用云計(jì)算框架下的分布式處理模型抽象出信息單元之間的關(guān)聯(lián)關(guān)系(關(guān)聯(lián)關(guān)系包括各度關(guān)聯(lián)信息和對應(yīng)關(guān)聯(lián)路徑)。
[0006]具體的,所述發(fā)明方法包含以下實(shí)現(xiàn)步驟:
[0007](I)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;
[0008](2)以所述第一信息為起點(diǎn),通過云計(jì)算平臺下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)信息,并且抽象出所述第一信息經(jīng)所述第二信息到所述第三Ih息的關(guān)聯(lián)路徑;
[0009]在三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,通過云計(jì)算平臺下的分布式處理框架將所述第四信息抽象成第一信息的三度關(guān)聯(lián)信息,并且抽象出所述第一信息經(jīng)所述第二信息到所述第三信息到第四信息的關(guān)聯(lián)路徑;
[0010]依次類推,抽象出以第一信息為起點(diǎn)的N度關(guān)聯(lián)信息以及對應(yīng)的關(guān)聯(lián)路徑,其中N
^lo
[0011]其中所述第一信息、第二信息以及第三信息是指信息的內(nèi)容,不代表信息的順序。通過本發(fā)明方法可以目標(biāo)信息為起點(diǎn)(起點(diǎn)的選擇根據(jù)分析需要來設(shè)置),逐級查找出與目標(biāo)相關(guān)聯(lián)的其他信息和對應(yīng)的關(guān)聯(lián)路徑,通過關(guān)聯(lián)路徑可以很清晰的顯示出分析目標(biāo)與關(guān)聯(lián)信息之間的具體關(guān)聯(lián)途徑,為相關(guān)問題追蹤和定位提供直觀明確的參考??梢钥闯鲭S著關(guān)聯(lián)度N的逐級增加,計(jì)算的復(fù)雜度和數(shù)據(jù)維度不斷增加,這樣復(fù)雜而龐大的計(jì)算過程通過云計(jì)算平臺的大數(shù)據(jù)處理框架(比如Hadoop下的MapReduce和Spark等大數(shù)據(jù)處理框架)來實(shí)現(xiàn)的,MapReduce和Spark可以同時(shí)對海量的目標(biāo)并行的處理,也就是說,從基礎(chǔ)數(shù)據(jù)到N度關(guān)聯(lián)信息的計(jì)算,都是多個(gè)目標(biāo)同時(shí)并列處理。MapReduce和Spark等大數(shù)據(jù)處理框架能夠使用戶只需要按照計(jì)算框架提供的接口根據(jù)需按照計(jì)算框架提供的接口設(shè)計(jì)上層指令,在不關(guān)心底層運(yùn)行過程的情況下,處理框架根據(jù)上層指令自動調(diào)用內(nèi)部的相關(guān)資源,并且將任務(wù)自動切分,分配到內(nèi)部的不同節(jié)點(diǎn)進(jìn)行處理,實(shí)現(xiàn)了數(shù)據(jù)的并行高效計(jì)算,在處理完成后還自動將處理結(jié)果整合后提供給用戶;任務(wù)完成過程高度自動化,極大的節(jié)省了人力,提高了數(shù)據(jù)的處理效率。本發(fā)明利用云計(jì)算平臺的大數(shù)據(jù)處理框架為海量目標(biāo)的關(guān)聯(lián)背景分析提供了快速可靠的處理途徑。
[0012]進(jìn)一步的,所述N度關(guān)聯(lián)關(guān)系中的計(jì)算過程,均以一度關(guān)聯(lián)關(guān)系為基礎(chǔ),即是上述關(guān)聯(lián)信息的追蹤(計(jì)算)過程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級追蹤關(guān)聯(lián)信息的計(jì)算,計(jì)算邏輯清晰,運(yùn)行過程簡單,保證了運(yùn)算結(jié)果的準(zhǔn)確率。
[0013]進(jìn)一步的,所述二度關(guān)聯(lián)信息按照:一度關(guān)聯(lián)數(shù)據(jù)、二度關(guān)聯(lián)數(shù)據(jù)的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記,一度關(guān)聯(lián)關(guān)系和二度關(guān)聯(lián)關(guān)系的內(nèi)部的數(shù)據(jù)存儲結(jié)構(gòu)與上一步結(jié)構(gòu)相同;通過相應(yīng)的標(biāo)記,可以很方便的將屬于不同關(guān)聯(lián)度的信息區(qū)別開來,方便關(guān)聯(lián)信息逐級計(jì)算時(shí)的數(shù)據(jù)提取和區(qū)分。
[0014]進(jìn)一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記。
[0015]進(jìn)一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息分別存儲于不同的非關(guān)系型數(shù)據(jù)庫中,比如說HBase、CouchDB、Cassandra、Mongodb等非關(guān)系型數(shù)據(jù)庫中。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,非關(guān)系型數(shù)據(jù)庫具有操作簡單、完全免費(fèi)、源碼公開、隨時(shí)下載、應(yīng)用成本低等特點(diǎn);并且在面對體量急劇增加的多維度無結(jié)構(gòu)數(shù)據(jù)時(shí),比如說音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫的存儲已經(jīng)不能滿足需求。
[0016]進(jìn)一步的,關(guān)聯(lián)關(guān)系數(shù)據(jù)存儲于于非關(guān)系型數(shù)據(jù)庫的分布式文件系統(tǒng)中(比如HDFS ),HDFS作為Hadoop下面的分布式文件系統(tǒng),具有高度容錯(cuò)性,適合部署在廉價(jià)的機(jī)器上,運(yùn)行和維護(hù)成本較低。同時(shí)HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來存儲待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲,高容錯(cuò)性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0017]進(jìn)一步的,本發(fā)明中所形成的每條關(guān)聯(lián)路徑可以數(shù)據(jù)或者關(guān)系圖譜的形式進(jìn)行存儲和顯示。當(dāng)用數(shù)據(jù)進(jìn)行顯示或者存儲時(shí),所述關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起點(diǎn),關(guān)聯(lián)信息按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息之間用連接符進(jìn)行連接:例如A-B-C-E。當(dāng)采用關(guān)系圖譜進(jìn)行關(guān)聯(lián)路徑顯示或者存儲時(shí),每條關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起始節(jié)點(diǎn),關(guān)聯(lián)信息節(jié)點(diǎn)按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息節(jié)點(diǎn)之間用連接符依次進(jìn)行連接。這種關(guān)聯(lián)路徑的顯示方法,簡潔明了路徑清晰。
[0018]作為一種優(yōu)選,所述關(guān)聯(lián)關(guān)系通過Hadoop下的MapReduce計(jì)算框架來實(shí)現(xiàn)。
[0019]作為一種優(yōu)選,所述度關(guān)聯(lián)關(guān)系通過Spark計(jì)算框架來實(shí)現(xiàn)。使用類Hadoop系統(tǒng)的Sparkd大數(shù)據(jù)處理框架來實(shí)現(xiàn)關(guān)聯(lián)關(guān)系的計(jì)算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲層,可以融入Hadoop的生態(tài)系統(tǒng)圈。Spark是可以搭建大數(shù)據(jù)內(nèi)存計(jì)算平臺,并充分利用內(nèi)存計(jì)算,實(shí)現(xiàn)海量數(shù)據(jù)的實(shí)時(shí)處理。
[0020]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果:本發(fā)明大數(shù)據(jù)分析處理方法,從海量的基礎(chǔ)數(shù)據(jù)中,利用不同數(shù)據(jù)記錄中相同的信息單元,將具有隱含聯(lián)系的相關(guān)信息挖掘出來,根據(jù)關(guān)聯(lián)的度數(shù)將信息之間的關(guān)聯(lián)遠(yuǎn)近程度進(jìn)行量化;而且通過關(guān)聯(lián)路徑的追蹤清晰而簡潔的勾勒出了相關(guān)信息的關(guān)聯(lián)途徑,為相關(guān)問題快速追蹤和分析提供簡潔明了的依據(jù)。
[0021]不僅如此本發(fā)明以云計(jì)算平臺的大數(shù)據(jù)處理框架來實(shí)現(xiàn)海量關(guān)聯(lián)數(shù)據(jù)的同時(shí)并行的處理,使用戶只需按照計(jì)算框架提供的接口設(shè)計(jì)上層指令,在不關(guān)心底層運(yùn)行過程的情況下,任務(wù)的切分和資源的調(diào)用由大數(shù)據(jù)處理框架自動實(shí)現(xiàn),并在處理完成后還自動將處理結(jié)果整合后提供給用戶;任務(wù)完成的高度自動化,極大的節(jié)省了人力,提高了數(shù)據(jù)的處理效率。
[0022]總之,本發(fā)明方法為數(shù)據(jù)信息的深度挖掘和應(yīng)用提供了一種十分可靠便捷的途徑,目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險(xiǎn)預(yù)測和防控等提供了有效技術(shù)支撐。
【附圖說明】
:
[0023]圖1是本大數(shù)據(jù)分析處理方法的實(shí)現(xiàn)流程示意圖。
[0024]圖2是本大數(shù)據(jù)分析處理方法的關(guān)聯(lián)算法示意圖。
[0025]圖3是實(shí)施例1中3條數(shù)據(jù)記錄示意圖。
[0026]圖4是實(shí)施例1中一度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0027]圖5是實(shí)施例1中二度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0028]圖6是實(shí)施例1中三度關(guān)聯(lián)關(guān)系數(shù)據(jù)表存儲結(jié)構(gòu)示意圖。
[0029]圖7是實(shí)施例1中以目標(biāo)以A為起點(diǎn)的一度關(guān)聯(lián)關(guān)系路徑不意圖。
[0030]圖8是實(shí)施例1中以目標(biāo)以C為起點(diǎn)的一度關(guān)聯(lián)關(guān)系路徑不意圖。[0031 ]圖9是實(shí)施例1中以目標(biāo)以H為起點(diǎn)的一度關(guān)聯(lián)關(guān)系路徑不意圖。
[0032]圖10是實(shí)施例1中以目標(biāo)以A為起點(diǎn)的一■度關(guān)聯(lián)關(guān)系路徑不意圖。
[0033]圖11是實(shí)施例1中以目標(biāo)以C為起點(diǎn)的一■度關(guān)聯(lián)關(guān)系路徑不意圖。
[0034]圖12是實(shí)施例1中以目標(biāo)以H為起點(diǎn)的一■度關(guān)聯(lián)關(guān)系路徑不意圖。
[0035]圖13是實(shí)施例1中以目標(biāo)以A為起點(diǎn)的二度關(guān)聯(lián)關(guān)系路徑不意圖。
[0036]圖14是實(shí)施例1中以目標(biāo)以C為起點(diǎn)的二度關(guān)聯(lián)關(guān)系路徑不意圖。
[0037]圖15是實(shí)施例1中以目標(biāo)以H為起點(diǎn)的二度關(guān)聯(lián)關(guān)系路徑不意圖。
[0038]應(yīng)該理解本發(fā)明附圖均為示意性的,不代表具體的步驟和路徑。
【具體實(shí)施方式】
[0039]下面結(jié)合試驗(yàn)例及【具體實(shí)施方式】對本發(fā)明作進(jìn)一步的詳細(xì)描述。但不應(yīng)將此理解為本發(fā)明上述主題的范圍僅限于以下的實(shí)施例,凡基于本
【發(fā)明內(nèi)容】
所實(shí)現(xiàn)的技術(shù)均屬于本發(fā)明的范圍。
[0040]本發(fā)明提供大數(shù)據(jù)分析處理方法,通過云計(jì)平臺的大數(shù)據(jù)處理框架,利用不同數(shù)據(jù)記錄中相同的信息單元分析出海量目標(biāo)信息的關(guān)聯(lián)信息關(guān)系,并且根據(jù)信息之間的關(guān)聯(lián)途徑抽象出對應(yīng)的關(guān)聯(lián)路徑,使得關(guān)聯(lián)信息之間的聯(lián)系邏輯清晰明了;本發(fā)明方法系統(tǒng)可以在海量互聯(lián)網(wǎng)信息中,根據(jù)需要設(shè)置分析目標(biāo),分析出海量目標(biāo)信息的關(guān)聯(lián)背景,并且通過關(guān)聯(lián)路徑的計(jì)算和展示使得相應(yīng)的關(guān)聯(lián)信息關(guān)系清晰簡潔,為目標(biāo)背景分析,市場推廣,市場細(xì)分,風(fēng)險(xiǎn)預(yù)測和風(fēng)險(xiǎn)防控等提供了一種新型的有效途徑。
[0041 ]為實(shí)現(xiàn)上述目的,本發(fā)明提供大數(shù)據(jù)分析處理方法根據(jù)不同數(shù)據(jù)記錄中所包含相同的信息單元,應(yīng)用云計(jì)算框架下的分布式處理模型抽象出信息單元之間的關(guān)聯(lián)關(guān)系。
[0042]具體的,所述發(fā)明方法包含如圖1所示的實(shí)現(xiàn)步驟:
[0043](I)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息;
[0044](2)以所述第一信息為起點(diǎn),通過云計(jì)算平臺下的分布式處理框架將所述第三信息抽象成所述第一信息的二度關(guān)聯(lián)信息,并且抽象出所述第一信息經(jīng)第二信息到第三信息的關(guān)聯(lián)路徑;
[0045]在三數(shù)據(jù)記錄中包含第四信息和第三信息,其中所述第四信息為第三信息的一度關(guān)聯(lián)信息,通過云計(jì)算平臺下的分布式處理框架將所述第四信息抽象成第一信息的三度關(guān)聯(lián)信息,并且抽象出所述第一信息經(jīng)所述第二信息到所述第三信息到第四信息的關(guān)聯(lián)路徑;
[0046]依次類推,計(jì)算出以第一信息為起點(diǎn)的N度關(guān)聯(lián)信息以及對應(yīng)的關(guān)聯(lián)路徑,其中N
^lo
[0047]其中所述第一信息、第二信息以及第三信息是指信息的內(nèi)容,不代表信息的順序。通過本發(fā)明方法可以目標(biāo)信息為起點(diǎn)(起點(diǎn)的選擇根據(jù)分析需要來設(shè)置),逐級查找出與目標(biāo)相關(guān)聯(lián)的其他信息和對應(yīng)的關(guān)聯(lián)路徑,通過關(guān)聯(lián)路徑可以很清晰的顯示出分析目標(biāo)與關(guān)聯(lián)信息之間的具體關(guān)聯(lián)途徑,為相關(guān)問題分析提供依據(jù)。
[0048]可以看出隨著關(guān)聯(lián)度N的逐級增加,計(jì)算的復(fù)雜度和數(shù)據(jù)維度不斷增加,而這樣復(fù)雜的數(shù)據(jù)處理過程通過云計(jì)算平臺的大數(shù)據(jù)處理框架(比如Hadoop下的MapReduce和Spark等大數(shù)據(jù)處理框架)得以順利快速的實(shí)現(xiàn);本發(fā)明可以同時(shí)對海量的目標(biāo)并行的處理,也就是說,從基礎(chǔ)數(shù)據(jù)到N度關(guān)聯(lián)信息的計(jì)算,都是多個(gè)目標(biāo)同時(shí)并列處理。MapReduce和Spark等大數(shù)據(jù)處理框架能夠使用戶只需按照計(jì)算框架提供的接口設(shè)計(jì)上層指令,在不關(guān)心底層運(yùn)行過程的情況下,處理框架根據(jù)上層指令自動調(diào)用內(nèi)部的相關(guān)資源,并且將任務(wù)自動切分,分配到內(nèi)部的不同節(jié)點(diǎn)進(jìn)行處理,實(shí)現(xiàn)了數(shù)據(jù)的并行高效計(jì)算,在處理完成后還自動將處理結(jié)果整合后提供給用戶;任務(wù)完成過程高度自動化,極大的節(jié)省了人力,提高了數(shù)據(jù)的處理效率。本發(fā)明利用云計(jì)算平臺的大數(shù)據(jù)處理框架為海量目標(biāo)的關(guān)聯(lián)背景分析提供了快速可靠的處理途徑。
[0049]本發(fā)明中的原始數(shù)據(jù)存儲于數(shù)據(jù)庫中,所述原始數(shù)據(jù)的來源可以是從互聯(lián)中根據(jù)需要爬取的數(shù)據(jù),互聯(lián)中包含廣泛豐富的信息來源,從互聯(lián)網(wǎng)中根據(jù)需要爬取相關(guān)信息,并將獲取的信息進(jìn)行深度處理,為信息的精細(xì)化處理,和深度應(yīng)用提供一種全新的途徑。通過設(shè)置字段等過濾條件,對原始數(shù)據(jù)每篇文檔中的關(guān)鍵信息單元進(jìn)行提取,將提取出的關(guān)鍵信息單元按照設(shè)定的順序排列成一條數(shù)據(jù)記錄,并將各條數(shù)據(jù)記錄存儲于數(shù)據(jù)庫中(通常為非關(guān)系型數(shù)據(jù)庫),在此基礎(chǔ)上,應(yīng)用本發(fā)明方法抽象出目標(biāo)信息的關(guān)聯(lián)關(guān)系。
[0050]本發(fā)明一度關(guān)聯(lián)關(guān)系的形成以從原始信息中提取出的數(shù)據(jù)信息的字段和內(nèi)容作為鍵值對:其中字段作為“鍵”,而字段對應(yīng)的內(nèi)容為“值”;根據(jù)分析需要可選擇其中一個(gè)字段對應(yīng)的內(nèi)容作為關(guān)聯(lián)信息追蹤的起點(diǎn)(被關(guān)聯(lián)信息),而將每條數(shù)據(jù)記錄中的其他字段對應(yīng)的內(nèi)容作為被關(guān)聯(lián)信息的一度關(guān)聯(lián)信息,從而完成一度關(guān)聯(lián)關(guān)系的計(jì)算。一度關(guān)聯(lián)信息的計(jì)算是后續(xù)N度關(guān)聯(lián)信息計(jì)算的基礎(chǔ)。
[0051]進(jìn)一步的,所述N度關(guān)聯(lián)關(guān)系中的計(jì)算過程,均以一度關(guān)聯(lián)關(guān)系為基礎(chǔ),即是上述關(guān)聯(lián)信息的追蹤(計(jì)算)過程中,第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。這樣逐級追蹤關(guān)聯(lián)信息的計(jì)算,計(jì)算邏輯清晰,運(yùn)行過程簡單,保證了運(yùn)算結(jié)果的準(zhǔn)確率。
[0052]進(jìn)一步的,所述一度關(guān)聯(lián)信息,可以按照目標(biāo)(起點(diǎn)信息)、一度關(guān)聯(lián)信息、關(guān)系標(biāo)簽的結(jié)構(gòu)順序進(jìn)行存儲。所述關(guān)聯(lián)標(biāo)簽是對該一度關(guān)聯(lián)信息與目標(biāo)信息之間的關(guān)聯(lián)關(guān)系的描述,可以為關(guān)聯(lián)數(shù)據(jù)的查詢提供簡潔直觀的描述。
[0053]進(jìn)一步的,所述步驟(2)中形成的二度關(guān)聯(lián)信息按照:一度關(guān)聯(lián)數(shù)據(jù)、二度關(guān)聯(lián)數(shù)據(jù)的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記,一度關(guān)聯(lián)關(guān)系和二度關(guān)聯(lián)關(guān)系的內(nèi)部的數(shù)據(jù)存儲結(jié)構(gòu)與上一步結(jié)構(gòu)相同;通過相應(yīng)的標(biāo)記,可以很方便的將屬于不同關(guān)聯(lián)度的信息區(qū)別開來,方便關(guān)聯(lián)信息逐級計(jì)算時(shí)的數(shù)據(jù)提取和區(qū)分。
[0054]作為一種優(yōu)選,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息以數(shù)據(jù)表的形式進(jìn)行存儲,以數(shù)據(jù)表形式存儲的數(shù)據(jù),存儲結(jié)構(gòu)規(guī)范,便于查詢和進(jìn)一步計(jì)算。進(jìn)一步的,所述N度關(guān)聯(lián)信息,按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲;并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記。
[0055]進(jìn)一步的,所述數(shù)據(jù)記錄以及N度關(guān)聯(lián)信息存儲于非關(guān)系型數(shù)據(jù)庫中,比如說HBase、CouchDB、Cassandra、Mongodb等非關(guān)系型數(shù)據(jù)庫中。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫相比,非關(guān)系型數(shù)據(jù)庫具有操作簡單、完全免費(fèi)、源碼公開、隨時(shí)下載、應(yīng)用成本低等特點(diǎn);并且在面對體量急劇增加的多維度無結(jié)構(gòu)數(shù)據(jù)時(shí),比如說音頻數(shù)據(jù)、視頻數(shù)據(jù),傳統(tǒng)的非關(guān)系型數(shù)據(jù)庫的存儲已經(jīng)不能滿足需求。
[0056]進(jìn)一步的,所述關(guān)聯(lián)關(guān)系(包括關(guān)聯(lián)信息和關(guān)聯(lián)路徑)存儲于于非關(guān)系型數(shù)據(jù)庫的分布式文件系統(tǒng)中(比如HDFS),HDFS作為Hadoop下面的分布式文件系統(tǒng),具有高度容錯(cuò)性,適合部署在廉價(jià)的機(jī)器上,運(yùn)行和維護(hù)成本較低。同時(shí)HDFS非常適合用于大規(guī)模數(shù)據(jù)集;采用HDFS來存儲待處理數(shù)據(jù)可以滿足海量數(shù)據(jù)存儲,高容錯(cuò)性的需要,并且為采用Hadoop的其他處理方式提供了便利。
[0057]進(jìn)一步的,本發(fā)明中所形成的每條關(guān)聯(lián)路徑可以數(shù)據(jù)表或者關(guān)系圖譜的形式進(jìn)行存儲和顯示。當(dāng)用數(shù)據(jù)表進(jìn)行顯示或者存儲時(shí),所述關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起點(diǎn),關(guān)聯(lián)信息按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息之間用連接符進(jìn)行連接:例如A-B-C-E。當(dāng)采用關(guān)系圖譜進(jìn)行關(guān)聯(lián)路徑顯示或者存儲時(shí),每條關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起始節(jié)點(diǎn),關(guān)聯(lián)信息節(jié)點(diǎn)按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息節(jié)點(diǎn)之間用連接符進(jìn)行連接。這種關(guān)聯(lián)路徑的顯示方法,簡潔明了路徑清晰。
[0058]作為一種優(yōu)選,所述關(guān)聯(lián)關(guān)系通過Hadoop下的map-reduce計(jì)算框架來實(shí)現(xiàn)。
[0059]作為一種優(yōu)選,所述關(guān)聯(lián)關(guān)系通過Spark計(jì)算框架來實(shí)現(xiàn)。使用類Hadoop系統(tǒng)的Sparkd大數(shù)據(jù)處理框架來實(shí)現(xiàn)關(guān)聯(lián)關(guān)系的計(jì)算,Spark作為MapReduce的替代方案,可以兼容HDFS分布式存儲層,可以融入Hadoop的生態(tài)系統(tǒng)圈。Spark是可以搭建大數(shù)據(jù)內(nèi)存計(jì)算平臺,并充分利用內(nèi)存計(jì)算,實(shí)現(xiàn)海量數(shù)據(jù)的實(shí)時(shí)處理。具體的,所述步驟(2)中的二度關(guān)聯(lián)關(guān)系通過Spark計(jì)算框架中的SQL語句來實(shí)現(xiàn),具體的使用SQL中的jo in算法來實(shí)現(xiàn):比如說:在一張數(shù)據(jù)表中包含結(jié)構(gòu)化的兩列信息:第一信息,第二信息;第二信息,第三信息;則通過join算法,可以很方便的將第一信息和第二信息經(jīng)過第二信息連接到一起,形成了第一信息,第二信息,第三信息的新數(shù)據(jù)結(jié)果。
[0060]實(shí)施例1
[0061]下面以其中3條數(shù)據(jù)作為一個(gè)小示例,說明關(guān)聯(lián)信息和關(guān)聯(lián)路徑的分析過程。假設(shè)在原始數(shù)據(jù)中經(jīng)過字段(設(shè)置的字段包括:第一字段、第二字段、第三字段以及第四字段)提取,提取出來的數(shù)據(jù)中包含如圖3所示的3條數(shù)據(jù)記錄,其中第一數(shù)據(jù)記錄包含的第一字段、第二字段、第三字段以及第四字段所對應(yīng)的信息內(nèi)容依次為:A、B、D以及E;第二條數(shù)據(jù)記錄中包含的第一字段、第二字段、第三字段以及第四字段所對應(yīng)的信息內(nèi)容依次為:C、B、F以及G;第三條數(shù)據(jù)記錄中包含的第一字段、第二字段、第三字段以及第四字段所對應(yīng)的信息內(nèi)容依次為:H、F、I。假設(shè)將第一字段對應(yīng)的內(nèi)容作為關(guān)聯(lián)分析的起點(diǎn),則第一數(shù)據(jù)記錄可形成:A-B、A-D、A-E的一度關(guān)聯(lián)關(guān)系,其中B、D、E均為A的一度關(guān)聯(lián)信息,同時(shí)A也為B、D、E的一度關(guān)聯(lián)信息;第二數(shù)據(jù)記錄可形成C-B、C-F、C-G的一度關(guān)聯(lián)關(guān)系,其中B、F、G均為C的一度關(guān)聯(lián)信息,同時(shí)C也為B、F、G的一度關(guān)聯(lián)信息;第三數(shù)據(jù)記錄可形成:H-F、H-1的一度關(guān)聯(lián)關(guān)系,其中F、I為H的一度關(guān)聯(lián)信息,同時(shí)H也為F、I的一度關(guān)聯(lián)信息。將一度關(guān)聯(lián)關(guān)系以表結(jié)構(gòu)的存儲格式進(jìn)行存儲,則可形成如圖4所述的結(jié)構(gòu)化的兩列。
[0062]在上述一度關(guān)聯(lián)的基礎(chǔ)上,根據(jù)A-B和C-B的一度關(guān)聯(lián)關(guān)系中相同的信息單元B,將C抽象成A的二度關(guān)聯(lián)信息,以A為起點(diǎn),形成A-B-C的關(guān)聯(lián)路徑。根據(jù)C-B和A-B的一度關(guān)聯(lián)關(guān)系中相同的信息單元B,將A抽象成C的二度關(guān)聯(lián)信息,以C為起點(diǎn),形成C-B-A的關(guān)聯(lián)路徑。根據(jù)C-F和H-F的一度關(guān)聯(lián)關(guān)系中相同的信息單元F,將H抽象成C的二度關(guān)聯(lián)信息;以C為起點(diǎn),形成C-F-H的關(guān)聯(lián)路徑。根據(jù)H-F和C-F的一度關(guān)聯(lián)關(guān)系中相同的信息單元F,將C抽象成H的二度關(guān)聯(lián)信息;以H為起點(diǎn),形成H-F-C的關(guān)聯(lián)路徑。形成二度關(guān)聯(lián)關(guān)系的關(guān)聯(lián)數(shù)據(jù)存儲以數(shù)據(jù)表形式可采用如圖5所示的存儲結(jié)構(gòu)。
[0063]進(jìn)一步的,在上述一■度關(guān)聯(lián)以及一度關(guān)聯(lián)關(guān)系的基礎(chǔ)上,以A為起點(diǎn)根據(jù)A的一■度關(guān)聯(lián)ig息C的一度關(guān)聯(lián)ig息,可抽象出A-B-C-F,A-B-C-G的關(guān)聯(lián)路徑,其中F和G為A的二度關(guān)聯(lián)信息。以C為起點(diǎn),根據(jù)C的二度關(guān)聯(lián)信息A和H的一度關(guān)聯(lián)信息,可抽象出,C-B-A-E,C-B-A-D,C-F-H-1的關(guān)聯(lián)路徑,其中D、E、I為C的三度關(guān)聯(lián)信息。同樣以H為起點(diǎn),根據(jù)其二度關(guān)聯(lián)?目息C的一度關(guān)聯(lián)彳目息,可形成H-F-C-B,H-F-C-G的關(guān)聯(lián)路徑,其中B和G為H的二度關(guān)聯(lián){目息。三度關(guān)聯(lián)信息的存儲數(shù)據(jù)表如圖6所示。
[0064]值得注意的是在關(guān)聯(lián)信息計(jì)算過程中需要去除閉合路徑,以此來避免計(jì)算中的錯(cuò)誤循環(huán)。
[0065]根據(jù)實(shí)施例中以A、C、和H為起點(diǎn)的一度關(guān)聯(lián)關(guān)系數(shù)據(jù)形成的對應(yīng)的關(guān)聯(lián)路徑關(guān)系圖譜分別如圖7、圖8、圖9所示;二度關(guān)聯(lián)關(guān)系圖譜路徑如圖10、圖11、圖12所示;三度關(guān)聯(lián)路徑關(guān)系圖譜如圖13、圖14、圖15所示。
[0066]本實(shí)施例僅示意性的說明關(guān)聯(lián)信息的計(jì)算過程,實(shí)際上根據(jù)需要所要分析的目標(biāo)數(shù)可以達(dá)到萬、十萬、百萬量級;而且從上述實(shí)施例可以看出,隨著關(guān)聯(lián)度數(shù)的增加,所需計(jì)算的數(shù)據(jù)量急劇增加,海量的計(jì)算目標(biāo)的多維關(guān)聯(lián)信息的計(jì)算量更加巨大,而本發(fā)明采用云計(jì)算平臺的大數(shù)據(jù)處理框架,可以根據(jù)上述方法,對海量目標(biāo)并行的進(jìn)行計(jì)算,進(jìn)而實(shí)現(xiàn)了海量目標(biāo)信息的關(guān)聯(lián)關(guān)系分析和挖掘。
[0067]盡管上面對本發(fā)明說明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對本技術(shù)領(lǐng)域的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化時(shí)顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【主權(quán)項(xiàng)】
1.大數(shù)據(jù)分析處理方法,其特征在于,包含以下實(shí)現(xiàn)過程: (1)在一條數(shù)據(jù)記錄中包含第一信息和第二信息,其中第二信息為第一信息的一度關(guān)聯(lián)信息;在第二數(shù)據(jù)記錄中包括第二信息和第三信息,其中第三信息是第二信息的一度關(guān)聯(lián)信息; (2)以所述第一信息為起點(diǎn),通過云計(jì)算平臺下的分布式處理框架將所述第三信息抽象成第一信息的二度關(guān)聯(lián)信息,并且抽象出所述第一信息經(jīng)所述第二信息到所述第三信息的關(guān)聯(lián)路徑; 依次類推,抽象出以第一信息為起點(diǎn)的N度關(guān)聯(lián)信息以及對應(yīng)的關(guān)聯(lián)路徑,其中N>1。2.如權(quán)利要求1所述的大數(shù)據(jù)分析處理方法,其特征在于,所述關(guān)聯(lián)信息的抽象過程中,所述第一信息的第N度關(guān)聯(lián)信息為第N-1度關(guān)聯(lián)信息的一度關(guān)聯(lián)信息。3.如權(quán)利要求2所述的大數(shù)據(jù)分析處理方法,其特征在于,所述步驟(I)中,所述N度關(guān)聯(lián)信息按照關(guān)聯(lián)度依次增加的順序結(jié)構(gòu)進(jìn)行存儲,并將屬于不同關(guān)聯(lián)度的信息單元打上對應(yīng)的標(biāo)記。4.如權(quán)利要求3所述的大數(shù)據(jù)分析處理方法,其特征在于,將N度關(guān)聯(lián)數(shù)據(jù)分別存儲于不同的數(shù)據(jù)庫的分布式文件系統(tǒng)中。5.如權(quán)利要求1所述的大數(shù)據(jù)分析處理方法,其特征在于,所述關(guān)聯(lián)路徑以數(shù)據(jù)表的形式進(jìn)行存儲或顯示。6.如權(quán)利要求5所述的大數(shù)據(jù)分析處理方法,其特征在于,所述關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起點(diǎn),關(guān)聯(lián)信息按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,關(guān)聯(lián)信息之間用連接符依次進(jìn)行連接。7.如權(quán)利要求1所述的大數(shù)據(jù)分析處理方法,其特征在于,所述關(guān)聯(lián)路徑以關(guān)系圖譜的形式進(jìn)行顯示。8.如權(quán)利要求7所述的大數(shù)據(jù)分析處理方法,其特征在于,所述每條關(guān)聯(lián)路徑的展示順序?yàn)?以目標(biāo)信息為起始節(jié)點(diǎn),關(guān)聯(lián)信息節(jié)點(diǎn)按照關(guān)聯(lián)度數(shù)依次增加的順序進(jìn)行排列,節(jié)點(diǎn)之間用連接符依次進(jìn)行連接。9.如權(quán)利要求1至8之一所述的大數(shù)據(jù)分析處理方法,其特征在于,所述步驟(2)中的N度關(guān)聯(lián)關(guān)系通過Hadoop下的MapReduce或者Spark計(jì)算框架來計(jì)算。10.如權(quán)利要求9所述的大數(shù)據(jù)分析處理方法,其特征在于,所述步驟(2)中的N多2度關(guān)聯(lián)關(guān)系通過Spark計(jì)算框架中的join語句來實(shí)現(xiàn)。
【文檔編號】G06F17/30GK105956019SQ201610255627
【公開日】2016年9月21日
【申請日】2016年4月21日
【發(fā)明人】范東來, 何宏靖
【申請人】成都數(shù)聯(lián)銘品科技有限公司