一種分布式數(shù)據(jù)存儲(chǔ)處理方法及存儲(chǔ)處理系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種分布式數(shù)據(jù)存儲(chǔ)處理方法及存儲(chǔ)處理系統(tǒng)。對大批量來源數(shù)據(jù),按照等比大小進(jìn)行切分為M個(gè)數(shù)據(jù)塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進(jìn)行存儲(chǔ);將所述M個(gè)數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個(gè)不同的服務(wù)器,進(jìn)行存儲(chǔ)。能夠滿足現(xiàn)有大數(shù)據(jù)量情況下,數(shù)據(jù)處理速度更快、耗時(shí)更短,時(shí)效性更強(qiáng),支持?jǐn)?shù)據(jù)的修改與刪除操作,并能夠提供實(shí)時(shí)查詢功能。
【專利說明】
一種分布式數(shù)據(jù)存儲(chǔ)處理方法及存儲(chǔ)處理系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及一種分布式數(shù)據(jù)存儲(chǔ)處理方法及存儲(chǔ)處理系統(tǒng),特別是涉及一種適用于對大數(shù)據(jù)來源進(jìn)行分析存儲(chǔ)的分布式數(shù)據(jù)存儲(chǔ)處理方法及存儲(chǔ)處理系統(tǒng)。
【背景技術(shù)】
[0002]目前,數(shù)據(jù)處理成為數(shù)據(jù)挖掘、數(shù)據(jù)分析的主要方式。例如,網(wǎng)站日志就是一個(gè)大數(shù)據(jù)量的數(shù)據(jù)。再例如,工作生活中無處不在的網(wǎng)絡(luò)流量。這樣的數(shù)據(jù)具有以下特點(diǎn):(1)數(shù)據(jù)量大;(2)具有時(shí)間屬性,即時(shí)序性。
[0003]數(shù)據(jù)分析通常分為離線處理與交互式查詢,針對不同的數(shù)據(jù)形式,采用不同形式數(shù)據(jù)處理方法。離線處理的特點(diǎn):(1)數(shù)據(jù)量龐大;(2)時(shí)效性差。如何快速的分析數(shù)據(jù),尤其是在數(shù)據(jù)量很大的情況下,滿足各種要求一直都是技術(shù)上的難點(diǎn)。而且現(xiàn)在的分布式數(shù)據(jù)處理系統(tǒng)中存在如下缺陷。
[0004](I)對數(shù)據(jù)進(jìn)行處理時(shí),當(dāng)數(shù)據(jù)量非常大的時(shí)候,數(shù)據(jù)處理和數(shù)據(jù)分析變量十分耗時(shí),而且不支持?jǐn)?shù)據(jù)的修改與刪除操作。現(xiàn)有的分布式數(shù)據(jù)處理系統(tǒng)一般采用重新進(jìn)行數(shù)據(jù)分析來完成修改與刪除,這個(gè)過程是非常耗時(shí)。
[0005](2)對于大數(shù)據(jù)量的處理,分布并行計(jì)算已成為趨勢。而現(xiàn)在的并行計(jì)算系統(tǒng),基本離線處理與交互式查詢二者不能兼得,對在大量的數(shù)據(jù)處理與分析后的結(jié)果,無法立即提供查詢的功能,需要將結(jié)果導(dǎo)入到其它系統(tǒng)才能進(jìn)行查詢操作。
[0006]綜上所述,現(xiàn)有技術(shù)中對大批量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)處理時(shí),耗時(shí)時(shí)間長,不支持?jǐn)?shù)據(jù)的修改與刪除操作,并且離線處理與交互式查詢二者能不能兼得。
【發(fā)明內(nèi)容】
[0007]本發(fā)明要解決的技術(shù)問題是提供一種分布式數(shù)據(jù)存儲(chǔ)處理方法及系統(tǒng),能夠滿足現(xiàn)有大數(shù)據(jù)量情況下,數(shù)據(jù)處理速度更快、耗時(shí)更短,時(shí)效性更強(qiáng),支持?jǐn)?shù)據(jù)的修改與刪除操作,并能夠提供實(shí)時(shí)查詢功能。
[0008]本發(fā)明采用的技術(shù)方案如下:
一種分布式數(shù)據(jù)存儲(chǔ)處理方法,其特征在于:對大批量來源數(shù)據(jù),按照等比大小進(jìn)行切分為M個(gè)數(shù)據(jù)塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進(jìn)行存儲(chǔ);將所述M個(gè)數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個(gè)不同的服務(wù)器,進(jìn)行存儲(chǔ),所述M和N為大于等于2的自然數(shù)。
[0009]數(shù)據(jù)切分后進(jìn)行分別存儲(chǔ),并建立索引,使數(shù)據(jù)處理速度更快,耗時(shí)更短,同時(shí)能夠支持?jǐn)?shù)據(jù)的修改與刪除操作,并能夠進(jìn)行實(shí)時(shí)查詢。
[0010]所述的等比大小切分的方法為,指定切分的塊的基本大小,對來源數(shù)據(jù)按照基本大小進(jìn)行切分,對于不滿足基本大小的部分,單獨(dú)作為一個(gè)數(shù)據(jù)塊。
[0011 ]例如,對于一個(gè)大數(shù)據(jù)來源,其指定切分的塊的基本大小為64MB每塊,則按照64MB每塊的大小進(jìn)行切分,對于不滿足64MB大小的部分,單獨(dú)作為一個(gè)數(shù)據(jù)塊。
[0012]如果只是需要展示查看所要查找到的數(shù)據(jù)內(nèi)容,則進(jìn)行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計(jì)算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容進(jìn)行匯總存儲(chǔ)到指定位置。
[0013]由于所要找的數(shù)據(jù)內(nèi)容可能分布在不同的存儲(chǔ)位置,因此,要將找到的數(shù)據(jù)內(nèi)容進(jìn)行匯總后再進(jìn)行存儲(chǔ)展示。
[0014]如果需要進(jìn)一步對查找到的內(nèi)容進(jìn)行提取匯總計(jì)算,則進(jìn)行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計(jì)算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容交給本地服務(wù)器進(jìn)行計(jì)算,從而得出所需求的具體數(shù)據(jù)內(nèi)容;
四、將步驟三中得出的數(shù)據(jù)內(nèi)容進(jìn)行結(jié)果匯總計(jì)算,存儲(chǔ)到指定位置。
[0015]例如,要找到某一個(gè)手機(jī)號碼A下與另外一個(gè)手機(jī)號碼B的通訊記錄,則可以先找到有關(guān)手機(jī)號碼A的數(shù)據(jù)內(nèi)容存放的具體位置,然后將找到的內(nèi)容交給本地服務(wù)器進(jìn)行計(jì)算,找出其與手機(jī)號碼B的通訊記錄的數(shù)據(jù)內(nèi)容,各個(gè)服務(wù)器將計(jì)算結(jié)果進(jìn)行交互匯總后,存儲(chǔ)到指定位置。
[0016]所述步驟四中,將數(shù)據(jù)內(nèi)容進(jìn)行結(jié)果匯總時(shí),將數(shù)據(jù)進(jìn)行分批單節(jié)點(diǎn)計(jì)算匯總,再對分批單節(jié)點(diǎn)匯總的結(jié)果進(jìn)行總結(jié)果匯總。
[0017]在需要結(jié)果匯總的數(shù)據(jù)量非常大或者分類較多的情況下,能夠進(jìn)行分批量進(jìn)行單節(jié)點(diǎn)匯總,對幾個(gè)單節(jié)點(diǎn)匯總計(jì)算的結(jié)果再進(jìn)行匯總,得出最終結(jié)果。
[0018]一種分布式數(shù)據(jù)存儲(chǔ)處理系統(tǒng),其特征在于:包括,
數(shù)據(jù)切分模塊,將接收的大批量來源數(shù)據(jù)進(jìn)行切分為M個(gè)數(shù)據(jù)塊;
索引建立模塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引;
索引存儲(chǔ)模塊,存儲(chǔ)建立的索引;
數(shù)據(jù)塊分發(fā)模塊,將所述M個(gè)數(shù)據(jù)塊進(jìn)行分發(fā)存儲(chǔ);
服務(wù)器模塊,包括N個(gè),存儲(chǔ)數(shù)據(jù)分發(fā)模塊所分發(fā)的M個(gè)數(shù)據(jù)塊;
所述M和N為大于等于2的自然數(shù)。
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:能夠滿足現(xiàn)有大數(shù)據(jù)量情況下,數(shù)據(jù)處理速度更快、耗時(shí)更短,時(shí)效性更強(qiáng),支持?jǐn)?shù)據(jù)的修改與刪除操作,并能夠提供實(shí)時(shí)查詢功能。
【附圖說明】
[0020]圖1為本發(fā)明其中一實(shí)施例的大數(shù)據(jù)量來源分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)的原理示意圖。
[0021]圖2為圖1所示實(shí)施例中的大數(shù)據(jù)量分布式數(shù)據(jù)處理系統(tǒng)的原理示意圖。
【具體實(shí)施方式】
[0022]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0023]本說明書(包括摘要和附圖)中公開的任一特征,除非特別敘述,均可被其他等效或者具有類似目的的替代特征加以替換。即,除非特別敘述,每個(gè)特征只是一系列等效或類似特征中的一個(gè)例子而已。
[0024]如圖1所示的分布式數(shù)據(jù)存儲(chǔ)處理方法,對大批量來源數(shù)據(jù),按照等比大小進(jìn)行切分為M個(gè)數(shù)據(jù)塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進(jìn)行存儲(chǔ);將所述M個(gè)數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個(gè)不同的服務(wù)器,進(jìn)行存儲(chǔ),所述M和N為大于等于2的自然數(shù)。在本具體實(shí)施例中,M=N=3。對數(shù)據(jù)A進(jìn)行切分為數(shù)據(jù)塊B、C和D,分別將數(shù)據(jù)塊對應(yīng)存儲(chǔ)與服務(wù)器B,服務(wù)器C和服務(wù)器D下的磁盤組空間中。
[0025]數(shù)據(jù)切分后進(jìn)行分別存儲(chǔ),并建立索引,使數(shù)據(jù)處理速度更快,耗時(shí)更短,同時(shí)能夠支持?jǐn)?shù)據(jù)的修改與刪除操作,并能夠進(jìn)行實(shí)時(shí)查詢。
[0026]進(jìn)一步地,所述的等比大小切分的方法為,指定切分的塊的基本大小,對來源數(shù)據(jù)按照基本大小進(jìn)行切分,對于不滿足基本大小的部分,單獨(dú)作為一個(gè)數(shù)據(jù)塊。
[0027]如果只是需要展示查看所要查找到的數(shù)據(jù)內(nèi)容,則進(jìn)行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計(jì)算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容進(jìn)行匯總存儲(chǔ)到指定位置。
[0028]如圖2所示,如果需要進(jìn)一步對查找到的內(nèi)容進(jìn)行提取匯總計(jì)算,則進(jìn)行數(shù)據(jù)查找的具體方法步驟為:
一、分布式計(jì)算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引;
二、通過索引找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置;
三、把找到的數(shù)據(jù)內(nèi)容交給本地服務(wù)器進(jìn)行計(jì)算,從而得出所需求的具體數(shù)據(jù)內(nèi)容;
四、將步驟三中得出的數(shù)據(jù)內(nèi)容進(jìn)行結(jié)果匯總計(jì)算,存儲(chǔ)到指定位置。
[0029]所述步驟四中,將數(shù)據(jù)內(nèi)容進(jìn)行結(jié)果匯總時(shí),將數(shù)據(jù)進(jìn)行分批單節(jié)點(diǎn)計(jì)算匯總,再對分批單節(jié)點(diǎn)匯總的結(jié)果進(jìn)行總結(jié)果匯總。
[0030]基于上述數(shù)據(jù)存儲(chǔ)處理方法的分布式數(shù)據(jù)存儲(chǔ)處理系統(tǒng),包括,
數(shù)據(jù)切分模塊,將接收的大批量來源數(shù)據(jù)進(jìn)行切分為M個(gè)數(shù)據(jù)塊;
索引建立模塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引;
索引存儲(chǔ)模塊,存儲(chǔ)建立的索引;
數(shù)據(jù)塊分發(fā)模塊,將所述M個(gè)數(shù)據(jù)塊進(jìn)行分發(fā)存儲(chǔ);
服務(wù)器模塊,包括N個(gè),存儲(chǔ)數(shù)據(jù)分發(fā)模塊所分發(fā)的M個(gè)數(shù)據(jù)塊;
所述M和N為大于等于2的自然數(shù)。
[0031 ] 在本具體實(shí)施例中,M=N=3。
【主權(quán)項(xiàng)】
1.一種分布式數(shù)據(jù)存儲(chǔ)處理方法,其特征在于:對大批量來源數(shù)據(jù),按照等比大小進(jìn)行切分為M個(gè)數(shù)據(jù)塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引并進(jìn)行存儲(chǔ);將所述M個(gè)數(shù)據(jù)塊一一對應(yīng)分別發(fā)送給N個(gè)不同的服務(wù)器,進(jìn)行存儲(chǔ),所述M和N為大于等于2的自然數(shù)。2.根據(jù)權(quán)利要求1所述的分布式數(shù)據(jù)存儲(chǔ)處理方法,其特征在于:所述的等比大小切分的方法為,指定切分的塊的基本大小,對來源數(shù)據(jù)按照基本大小進(jìn)行切分,對于不滿足基本大小的部分,單獨(dú)作為一個(gè)數(shù)據(jù)塊。3.根據(jù)權(quán)利要求1或2所述的分布式數(shù)據(jù)存儲(chǔ)處理方法,其特征在于:進(jìn)行數(shù)據(jù)查找的具體方法步驟為: 一、分布式計(jì)算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引; 二、通過索弓I找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置; 三、把找到的數(shù)據(jù)內(nèi)容進(jìn)行匯總存儲(chǔ)到指定位置。4.根據(jù)權(quán)利要求1或2所述的分布式數(shù)據(jù)存儲(chǔ)處理方法,其特征在于:進(jìn)行數(shù)據(jù)查找的具體方法步驟為: 一、分布式計(jì)算,根據(jù)要查找的數(shù)據(jù)內(nèi)容先找到該數(shù)據(jù)內(nèi)容相應(yīng)的索引; 二、通過索弓I找到相關(guān)數(shù)據(jù)內(nèi)容存放的具體位置; 三、把找到的數(shù)據(jù)內(nèi)容交給本地服務(wù)器進(jìn)行計(jì)算,從而得出所需求的具體數(shù)據(jù)內(nèi)容; 四、將步驟三中得出的數(shù)據(jù)內(nèi)容進(jìn)行結(jié)果匯總計(jì)算,存儲(chǔ)到指定位置。5.根據(jù)權(quán)利要求4所述的分布式數(shù)據(jù)存儲(chǔ)處理方法,其特征在于:所述步驟四中,將數(shù)據(jù)內(nèi)容進(jìn)行結(jié)果匯總時(shí),將數(shù)據(jù)進(jìn)行分批單節(jié)點(diǎn)計(jì)算匯總,再對分批單節(jié)點(diǎn)匯總的結(jié)果進(jìn)行總結(jié)果匯總。6.一種分布式數(shù)據(jù)存儲(chǔ)處理系統(tǒng),其特征在于:包括, 數(shù)據(jù)切分模塊,將接收的大批量來源數(shù)據(jù)進(jìn)行切分為M個(gè)數(shù)據(jù)塊; 索引建立模塊,對每個(gè)切分的數(shù)據(jù)塊里的每條數(shù)據(jù)建立索引; 索引存儲(chǔ)模塊,存儲(chǔ)建立的索引; 數(shù)據(jù)塊分發(fā)模塊,將所述M個(gè)數(shù)據(jù)塊進(jìn)行分發(fā)存儲(chǔ); 服務(wù)器模塊,包括N個(gè),存儲(chǔ)數(shù)據(jù)分發(fā)模塊所分發(fā)的M個(gè)數(shù)據(jù)塊; 所述M和N為大于等于2的自然數(shù)。
【文檔編號】G06F17/30GK106055691SQ201610406253
【公開日】2016年10月26日
【申請日】2016年6月12日
【發(fā)明人】李軼夫, 羅鷹, 林康, 鐘峰, 魯驍, 姚珊, 姜棟, 張建松, 司成祥
【申請人】成都科來軟件有限公司, 國家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心