欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種大數(shù)據(jù)存儲(chǔ)方法及裝置制造方法

文檔序號(hào):6507922閱讀:167來(lái)源:國(guó)知局
一種大數(shù)據(jù)存儲(chǔ)方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明提供了一種大數(shù)據(jù)存儲(chǔ)方法及裝置,接收對(duì)象數(shù)據(jù);識(shí)別對(duì)象數(shù)據(jù)的屬性信息;根據(jù)對(duì)象數(shù)據(jù)的屬性信息將其對(duì)象數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第一存儲(chǔ)子系統(tǒng)。本發(fā)明通過(guò)將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一成對(duì)象存儲(chǔ)到數(shù)據(jù)庫(kù)平臺(tái)和Hadoop平臺(tái)中,有效利用關(guān)系型數(shù)據(jù)庫(kù)的性能優(yōu)勢(shì),Hadoop平臺(tái)和MapReduce框架的容錯(cuò)性及對(duì)動(dòng)態(tài)數(shù)據(jù)模型的支持,并且還將對(duì)象的數(shù)據(jù)模式及相應(yīng)屬性信息存儲(chǔ)至元數(shù)據(jù)中,便于在數(shù)據(jù)分析時(shí)將數(shù)據(jù)交給合適的執(zhí)行引擎完成查詢(xún),從而實(shí)現(xiàn)了海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,降低了管理成本,有助于提高數(shù)據(jù)處理的靈活性和易用性,降低了用戶(hù)使用的學(xué)習(xí)成本。
【專(zhuān)利說(shuō)明】一種大數(shù)據(jù)存儲(chǔ)方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)存儲(chǔ)領(lǐng)域,具體涉及一種大數(shù)據(jù)存儲(chǔ)方法及裝置。
【背景技術(shù)】
[0002]數(shù)據(jù)按類(lèi)型分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中結(jié)構(gòu)化數(shù)據(jù)是指能夠以二維結(jié)構(gòu)表示的一種數(shù)據(jù)類(lèi)型,能通過(guò)關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ);半結(jié)構(gòu)化數(shù)據(jù)是指具有一定結(jié)構(gòu),但語(yǔ)義不夠明確的一種數(shù)據(jù)類(lèi)型,如郵件、HTML網(wǎng)頁(yè)等,它們有些字段是確定的,也有些字段是不確定的;非結(jié)構(gòu)化數(shù)據(jù)是指無(wú)法用二維結(jié)構(gòu)表示的一種數(shù)據(jù)類(lèi)型,主要包括辦公文檔、文本、圖片、音視頻文件等,無(wú)法采用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行處理。伴隨社交網(wǎng)絡(luò)的興起和發(fā)展,產(chǎn)生了大量的UGC(User Generated Content,用戶(hù)生成內(nèi)容),包括音頻、視頻、文本和圖片等非結(jié)構(gòu)化數(shù)據(jù)。另外,物聯(lián)網(wǎng)的數(shù)據(jù)量也劇增,加上移動(dòng)互聯(lián)網(wǎng)可以更加準(zhǔn)確、快速地搜集用戶(hù)信息,如位置、生活信息等數(shù)據(jù),大數(shù)據(jù)處理給我們提出了新的挑戰(zhàn)。在所有數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的20 %,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的80 %,如何科學(xué)管理和合理應(yīng)用這些數(shù)據(jù)顯得日益重要。
[0003]目前針對(duì)大數(shù)據(jù)的處理技術(shù),包括并行數(shù)據(jù)庫(kù)、MapReduce技術(shù)、并行數(shù)據(jù)庫(kù)和MapReduce技術(shù)混合架構(gòu),其中對(duì)于大數(shù)據(jù)的統(tǒng)一處理技術(shù)屬于第三類(lèi)并行數(shù)據(jù)庫(kù)和MapReduce技術(shù)混合架構(gòu),該技術(shù)有分為并行數(shù)據(jù)庫(kù)主導(dǎo)型、MapReduce主導(dǎo)型、并行數(shù)據(jù)庫(kù)和MapReduce集成型三種。并行數(shù)據(jù)庫(kù)主導(dǎo)型是利用MapReduce來(lái)增強(qiáng)并行數(shù)據(jù)庫(kù)的數(shù)據(jù)處理功能,如EMC的Greenplum, Aster Data,但其可擴(kuò)展性和容錯(cuò)能力并未改變;MapReduce主導(dǎo)型是利用關(guān)系數(shù)據(jù)庫(kù)的SQL (Structure Query Language,結(jié)構(gòu)化查詢(xún)語(yǔ)言)接口和對(duì)模式的支持來(lái)改善MapReduce的易用性,如Hive、Pig Latin,但其對(duì)于數(shù)據(jù)處理的實(shí)時(shí)性方面仍無(wú)法滿(mǎn)足需求;并行數(shù)據(jù)庫(kù)和MapReduce集成型是借助Hadoop框架來(lái)獲得較好的容錯(cuò)性和對(duì)異構(gòu)環(huán)境的支持,同時(shí)獲得關(guān)系型數(shù)據(jù)庫(kù)的性能優(yōu)勢(shì),但是目前并無(wú)應(yīng)用案例,究其原因在于無(wú)法把工作推給適合的執(zhí)行引擎。
[0004]綜上所述,現(xiàn)有的大數(shù)據(jù)存儲(chǔ)技術(shù)中,并行數(shù)據(jù)庫(kù)主導(dǎo)型可擴(kuò)展性和容錯(cuò)能力不佳;MapReduce主導(dǎo)型數(shù)據(jù)處理的實(shí)時(shí)性方面仍無(wú)法滿(mǎn)足需求;并行數(shù)據(jù)庫(kù)和MapReduce集成型無(wú)法把工作推給適合的執(zhí)行引擎。因此,在大數(shù)據(jù)存儲(chǔ)領(lǐng)域,一直渴望一種對(duì)海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一管理并且數(shù)據(jù)處理靈活性和易用性較好的存儲(chǔ)方法和系統(tǒng)。

【發(fā)明內(nèi)容】

[0005]為了解決上述大數(shù)據(jù)對(duì)象的存儲(chǔ)問(wèn)題,本發(fā)明提供了一種大數(shù)據(jù)存儲(chǔ)方法,其包括:
[0006]接收對(duì)象數(shù)據(jù);
[0007]識(shí)別對(duì)象數(shù)據(jù)的屬性信息;
[0008]根據(jù)對(duì)象數(shù)據(jù)的屬性信息將其對(duì)象數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第一存儲(chǔ)子系統(tǒng)。[0009]較優(yōu)地,所述對(duì)象數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)中的至少一種,并且該方法還包括,在接收對(duì)象數(shù)據(jù)之前,在對(duì)象數(shù)據(jù)的創(chuàng)建時(shí),設(shè)定結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)與存儲(chǔ)單元之間的對(duì)應(yīng)關(guān)系。
[0010]較優(yōu)地,所述第一存儲(chǔ)子系統(tǒng)由并行數(shù)據(jù)庫(kù)單元和Hadoop平臺(tái)組成,Hadoop平臺(tái)包括HDFS單元、HBase單元和Hive單元,其中,HDFS單元存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),HBase單元和Hive單元存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),并行數(shù)據(jù)庫(kù)單元存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
[0011]較優(yōu)地,將所述存儲(chǔ)至存儲(chǔ)系統(tǒng)中第一存儲(chǔ)子系統(tǒng)的對(duì)象數(shù)據(jù)的關(guān)聯(lián)關(guān)系和模式存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第二存儲(chǔ)子系統(tǒng),以元數(shù)據(jù)的形式進(jìn)行管理,其中,對(duì)象數(shù)據(jù)的模式包括對(duì)象數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)屬性。
[0012]較優(yōu)地,同屬于一個(gè)對(duì)象而存儲(chǔ)至第一存儲(chǔ)子系統(tǒng)中不同存儲(chǔ)單元的數(shù)據(jù)通過(guò)關(guān)聯(lián)關(guān)系進(jìn)行管理,所述關(guān)聯(lián)關(guān)系由元數(shù)據(jù)統(tǒng)一管理。
[0013]本發(fā)明另一方面還提供了一種大數(shù)據(jù)存儲(chǔ)裝置,包括接收模塊、識(shí)別模塊和存儲(chǔ)模塊,其中,
[0014]接收模塊用于接收對(duì)象數(shù)據(jù);
[0015]識(shí)別模塊用于識(shí)別對(duì)象數(shù)據(jù)的屬性信息;
[0016]存儲(chǔ)模塊用于根據(jù)對(duì)象數(shù)據(jù)的屬性信息將對(duì)象數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第一存儲(chǔ)子系統(tǒng)。
[0017]較優(yōu)地,所述存儲(chǔ)模塊還用于將所述存儲(chǔ)至存儲(chǔ)系統(tǒng)中第一存儲(chǔ)子系統(tǒng)的對(duì)象數(shù)據(jù)的關(guān)聯(lián)關(guān)系和模式存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第二存儲(chǔ)子系統(tǒng),以元數(shù)據(jù)的形式進(jìn)行管理,其中,對(duì)象數(shù)據(jù)的模式包括對(duì)象數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)屬性。
[0018]較優(yōu)地,所述第一存儲(chǔ)子系統(tǒng)由并行數(shù)據(jù)庫(kù)單元和Hadoop平臺(tái)組成,Hadoop平臺(tái)包括HDFS單元、HBase單元和Hive單元,其中,HDFS單元存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),HBase單元和Hive單元存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),并行數(shù)據(jù)庫(kù)單元存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
[0019]本發(fā)明通過(guò)將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一成對(duì)象存儲(chǔ)到數(shù)據(jù)庫(kù)平臺(tái)和Hadoop平臺(tái)中,有效利用關(guān)系型數(shù)據(jù)庫(kù)的性能優(yōu)勢(shì),Hadoop平臺(tái)和MapReduce框架的容錯(cuò)性及對(duì)動(dòng)態(tài)數(shù)據(jù)模型的支持,并且還將對(duì)象的數(shù)據(jù)模式及相應(yīng)屬性信息存儲(chǔ)至元數(shù)據(jù)中,便于在數(shù)據(jù)分析時(shí)將數(shù)據(jù)交給合適的執(zhí)行引擎完成查詢(xún),從而實(shí)現(xiàn)了海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,降低了管理成本,有助于提高數(shù)據(jù)處理的靈活性和易用性,降低了用戶(hù)使用的學(xué)習(xí)成本。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0020]圖1為本發(fā)明提供的一種大數(shù)據(jù)存儲(chǔ)方法的流程圖;
[0021]圖2為存儲(chǔ)系統(tǒng)的構(gòu)成圖;
[0022]圖3為本發(fā)明提供的一種大數(shù)據(jù)存儲(chǔ)裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0023]如圖1所示,本發(fā)明提供了一種大數(shù)據(jù)存儲(chǔ)方法,首先接收對(duì)象數(shù)據(jù);識(shí)別所述對(duì)象數(shù)據(jù)的屬性信息,即所述的數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),還是非結(jié)構(gòu)化數(shù)據(jù),依據(jù)數(shù)據(jù)的屬性信息將其存儲(chǔ)到相應(yīng)的存儲(chǔ)單元中。所述的對(duì)象數(shù)據(jù)可以是由用戶(hù)生成的大批量的數(shù)據(jù),其構(gòu)成較為復(fù)雜,既包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù),也可能包括非結(jié)構(gòu)化數(shù)據(jù),用現(xiàn)有技術(shù)進(jìn)行數(shù)據(jù)存儲(chǔ),或存在可擴(kuò)展性和容錯(cuò)能力的問(wèn)題,或處理的實(shí)時(shí)性不佳,或無(wú)法與合適的執(zhí)行引擎結(jié)合。
[0024]如圖2所示,存儲(chǔ)系統(tǒng)包括存儲(chǔ)對(duì)象數(shù)據(jù)的第一存儲(chǔ)子系統(tǒng)和存儲(chǔ)對(duì)象數(shù)據(jù)的關(guān)聯(lián)關(guān)系和模式的第二存儲(chǔ)子系統(tǒng)。其中第一存儲(chǔ)子系統(tǒng)由并行數(shù)據(jù)庫(kù)單元和Hadoop平臺(tái)組成,包括四種存儲(chǔ)單元,即:并行數(shù)據(jù)庫(kù)單元、HDFS(HadoopDistributed Files System,Hadoop分布式文件系統(tǒng))單兀,HBase (HadoopDataBase, Hadoop數(shù)據(jù)庫(kù))單兀和Hive單元。結(jié)構(gòu)化數(shù)據(jù)的部分存儲(chǔ)至并行數(shù)據(jù)庫(kù)單元,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)部分存儲(chǔ)至Hadoop平臺(tái),主要是HDFS單兀、HBase單兀和Hive單兀。具體地,HBase單兀和Hive單兀用于存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),HDFS單元用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),并行數(shù)據(jù)庫(kù)單元用于存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
[0025]對(duì)象即是包含多種類(lèi)型數(shù)據(jù)的各種復(fù)雜信息的抽象,一個(gè)對(duì)象可以同時(shí)包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)在存儲(chǔ)系統(tǒng)均中以虛擬表的方式進(jìn)行存儲(chǔ)和管理,虛擬表即將數(shù)據(jù)的屬性信息抽象出來(lái)成為表的字段,多個(gè)字段組成一個(gè)虛擬表。
[0026]在對(duì)大數(shù)據(jù)對(duì)象進(jìn)行存儲(chǔ)之前,需要進(jìn)行數(shù)據(jù)對(duì)象的創(chuàng)建,創(chuàng)建對(duì)象時(shí),設(shè)定三種屬性的數(shù)據(jù)與存儲(chǔ)系統(tǒng)四種存儲(chǔ)單元的對(duì)應(yīng)關(guān)系,如圖2所示,結(jié)構(gòu)化數(shù)據(jù)對(duì)應(yīng)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的并行數(shù)據(jù)庫(kù)單元,半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的HBase單元和Hive單元中,非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的HDFS單元中。在進(jìn)行對(duì)象數(shù)據(jù)存儲(chǔ)時(shí),直接將對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)到相應(yīng)的存儲(chǔ)單元表中。
[0027]存儲(chǔ)服務(wù)端接收到的對(duì)象數(shù)據(jù)需要存儲(chǔ)至數(shù)據(jù)庫(kù)四個(gè)存儲(chǔ)單元中:HDFS單元、HBase單元、Hive單元和并行數(shù)據(jù)庫(kù)單元。HDFS單元、Hive單元、并行數(shù)據(jù)庫(kù)單元根據(jù)數(shù)據(jù)的不同屬性又有不同的分區(qū),存儲(chǔ)時(shí)需要對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)劃分,即根據(jù)數(shù)據(jù)特性對(duì)數(shù)據(jù)進(jìn)行分存儲(chǔ)單元及存儲(chǔ)單元數(shù)據(jù)的分區(qū)處理;其中HBase單元不需要分區(qū),例如,僅需要將數(shù)據(jù)組織成 rowkey-family:column-family:column 的形式。
[0028]數(shù)據(jù)劃分過(guò)程中,分區(qū)列值可能是用戶(hù)傳入或通過(guò)UDF (user def inedfunctions,用戶(hù)自定義函數(shù))計(jì)算得到。數(shù)據(jù)劃分流程,即用戶(hù)輸入的數(shù)據(jù)包含需要寫(xiě)入底層存儲(chǔ)系統(tǒng)中的待存儲(chǔ)數(shù)據(jù)和用于確定各存儲(chǔ)單元分區(qū)的數(shù)據(jù)。分區(qū)數(shù)據(jù)(如HBase單元的IOWkey值)可以由用戶(hù)在輸入數(shù)據(jù)時(shí)直接輸入,也可以通過(guò)其他UDF函數(shù)計(jì)算得到,此時(shí)無(wú)需用戶(hù)額外輸入分區(qū)數(shù)據(jù),直接利用待存儲(chǔ)數(shù)據(jù)進(jìn)行Udf計(jì)算。
[0029]HDFS單元和Hive單元的數(shù)據(jù)劃分方法一致,從元數(shù)據(jù)庫(kù)讀取待存儲(chǔ)表的分區(qū)類(lèi)型,和分區(qū)列信息,直接從輸入數(shù)據(jù)中提取或利用輸入數(shù)據(jù)經(jīng)UDF函數(shù)計(jì)算得到分區(qū)值,將對(duì)應(yīng)于相同分區(qū)值的數(shù)據(jù)寫(xiě)入到該存儲(chǔ)單元的相應(yīng)緩存中,等待并行存儲(chǔ)。
[0030]HBase單元無(wú)需分區(qū),利用rowkey特性存儲(chǔ)數(shù)據(jù)進(jìn)行查詢(xún)。rowkey的生成可以由用戶(hù)輸入或利用用戶(hù)輸入的其他存儲(chǔ)單元的數(shù)據(jù)經(jīng)UDF計(jì)算獲取,將數(shù)據(jù)組織成rowkey-column, columns的形式完成數(shù)據(jù)入庫(kù)。
[0031]并行數(shù)據(jù)庫(kù)單元的數(shù)據(jù)按照分區(qū)列數(shù)據(jù)進(jìn)行分區(qū)處理后,建立多個(gè)數(shù)據(jù)庫(kù)連接,并行的寫(xiě)入到數(shù)據(jù)庫(kù)中。
[0032]各個(gè)存儲(chǔ)單元之間的同一個(gè)對(duì)象的數(shù)據(jù)列之間的關(guān)聯(lián)關(guān)系是有向無(wú)環(huán)圖,各個(gè)存儲(chǔ)單元的關(guān)聯(lián)數(shù)據(jù)列之間或是相同的或是可以通過(guò)計(jì)算得到,即Hive單元(或HDFS單元,HBase單元,并行數(shù)據(jù)庫(kù)單元)的關(guān)聯(lián)數(shù)據(jù)列可能在并行數(shù)據(jù)庫(kù)單元中也存在同樣的關(guān)聯(lián)數(shù)據(jù)列,或是Hive單元的關(guān)聯(lián)數(shù)據(jù)列經(jīng)過(guò)函數(shù)計(jì)算如加減乘除可以得到并行數(shù)據(jù)庫(kù)單元的關(guān)聯(lián)數(shù)據(jù)列。存儲(chǔ)單元數(shù)據(jù)表的關(guān)聯(lián)列之間的關(guān)系和一個(gè)對(duì)象的模式(包含所屬存儲(chǔ)單元的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)屬性)均存儲(chǔ)在第二存儲(chǔ)系統(tǒng)中的元數(shù)據(jù)庫(kù)中由元數(shù)據(jù)統(tǒng)一管理。
[0033]數(shù)據(jù)對(duì)象結(jié)構(gòu)及存儲(chǔ)過(guò)程中,一個(gè)對(duì)象中各個(gè)存儲(chǔ)單元數(shù)據(jù)表問(wèn)存在的關(guān)聯(lián)關(guān)系,即對(duì)象的關(guān)聯(lián)數(shù)據(jù)列之間的推導(dǎo)關(guān)系。一個(gè)對(duì)象的數(shù)據(jù)可能分布在一個(gè)或多個(gè)存儲(chǔ)單元中,每個(gè)存儲(chǔ)單元數(shù)據(jù)表均會(huì)存在一個(gè)或多個(gè)關(guān)聯(lián)列數(shù)據(jù),用于和其他存儲(chǔ)單元數(shù)據(jù)建立聯(lián)系,便于進(jìn)行數(shù)據(jù)分析。
[0034]一個(gè)對(duì)象數(shù)據(jù)存儲(chǔ)至底層存儲(chǔ)單元中需要由數(shù)據(jù)存儲(chǔ)來(lái)實(shí)現(xiàn)。數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)的主要功能是,批量獲取客戶(hù)端的數(shù)據(jù)即用戶(hù)數(shù)據(jù),從元數(shù)據(jù)獲取關(guān)于對(duì)象的模式描述即數(shù)據(jù)所屬存儲(chǔ)單元及關(guān)聯(lián)列信息,將數(shù)據(jù)定向的寫(xiě)入到底層存儲(chǔ)平臺(tái)中,同時(shí)要保證數(shù)據(jù)寫(xiě)入的高效性和可靠性。高效性和可靠性的保證均依賴(lài)于多線程實(shí)現(xiàn)。
[0035]如圖3所示,另一方面,本發(fā)明還提供了一種大數(shù)據(jù)存儲(chǔ)裝置,包括接收模塊301、識(shí)別模塊302和存儲(chǔ)模塊303,其中,接收模塊301用于接收包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)屬性數(shù)據(jù)的對(duì)象數(shù)據(jù);識(shí)別模塊302用于識(shí)別對(duì)象數(shù)據(jù)的屬性信息;存儲(chǔ)模塊303用于根據(jù)對(duì)象數(shù)據(jù)的屬性信息將對(duì)象數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第一存儲(chǔ)子系統(tǒng)。
[0036]所述存儲(chǔ)模塊303還用于將所述存儲(chǔ)至存儲(chǔ)系統(tǒng)中第一存儲(chǔ)子系統(tǒng)的對(duì)象數(shù)據(jù)的關(guān)聯(lián)關(guān)系和模式存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第二存儲(chǔ)子系統(tǒng),以元數(shù)據(jù)的形式進(jìn)行管理,其中,對(duì)象數(shù)據(jù)的模式包括對(duì)象數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)屬性。
[0037]所述第一存儲(chǔ)子系統(tǒng)由并行數(shù)據(jù)庫(kù)單元和Hadoop平臺(tái)組成,包括四種存儲(chǔ)單元,分別是HDFS單元、HBase單元、Hive單元和并行數(shù)據(jù)庫(kù)單元,其中,HDFS單元存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),HBase單元和Hive單元存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),并行數(shù)據(jù)庫(kù)單元存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
[0038]本發(fā)明通過(guò)將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一成對(duì)象存儲(chǔ)到數(shù)據(jù)庫(kù)平臺(tái)和Hadoop平臺(tái)中,且將對(duì)象的數(shù)據(jù)模式及相應(yīng)屬性信息存儲(chǔ)至元數(shù)據(jù)庫(kù)中,便于在數(shù)據(jù)分析時(shí)將數(shù)據(jù)交給合適的執(zhí)行引擎完成查詢(xún),有效的利用了關(guān)系型數(shù)據(jù)庫(kù)的性能優(yōu)勢(shì),Hadoop平臺(tái)和MapReduce框架的容錯(cuò)性及對(duì)動(dòng)態(tài)數(shù)據(jù)模型的支持,并且實(shí)現(xiàn)了海量結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理,有助于提高數(shù)據(jù)處理的靈活性和易用性。
[0039]最后應(yīng)說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)本發(fā)明保護(hù)范圍的限制。盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,所述領(lǐng)域的普通技術(shù)人員應(yīng)該理解,可以對(duì)本發(fā)明的具體實(shí)施例方式進(jìn)行修改或等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,均涵蓋在本發(fā)明的權(quán)利要求范圍中。
【權(quán)利要求】
1.一種大數(shù)據(jù)存儲(chǔ)方法,其包括:接收對(duì)象數(shù)據(jù);識(shí)別對(duì)象數(shù)據(jù)的屬性信息;根據(jù)對(duì)象數(shù)據(jù)的屬性信息將其對(duì)象數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第一存儲(chǔ)子系統(tǒng)。
2.如權(quán)利要求1所述的方法,其特征在于,所述對(duì)象數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)中的至少一種,并且該方法還包括,在接收對(duì)象數(shù)據(jù)之前,在對(duì)象數(shù)據(jù)的創(chuàng)建時(shí),設(shè)定結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)與存儲(chǔ)單元之間的對(duì)應(yīng)關(guān)系。
3.如權(quán)利要求1所述的方法,其特征在于,所述第一存儲(chǔ)子系統(tǒng)由并行數(shù)據(jù)庫(kù)單元和Hadoop平臺(tái)組成,Hadoop平臺(tái)包括HDFS單兀、HBase單兀和Hive單兀,其中,HDFS單兀存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),HBase單元和Hive單元存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),并行數(shù)據(jù)庫(kù)單元存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
4.如權(quán)利要求1所述的方法,其特征在于,將所述存儲(chǔ)至存儲(chǔ)系統(tǒng)中第一存儲(chǔ)子系統(tǒng)的對(duì)象數(shù)據(jù)的關(guān)聯(lián)關(guān)系和模式存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第二存儲(chǔ)子系統(tǒng),以元數(shù)據(jù)的形式進(jìn)行管理,其中,對(duì)象數(shù)據(jù)的模式包括對(duì)象數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)屬性。
5.如權(quán)利要求4所述的方法,其特征在于,同屬于一個(gè)對(duì)象而存儲(chǔ)至第一存儲(chǔ)子系統(tǒng)中不同存儲(chǔ)單元的數(shù)據(jù)通過(guò)關(guān)聯(lián)關(guān)系進(jìn)行管理,所述關(guān)聯(lián)關(guān)系由元數(shù)據(jù)統(tǒng)一管理。
6.一種大數(shù)據(jù)存儲(chǔ)裝置,其特征在于,包括接收模塊、識(shí)別模塊和存儲(chǔ)模塊,其中,接收模塊用于接收對(duì)象數(shù)據(jù);識(shí)別模塊用于識(shí)別對(duì)象數(shù)據(jù)的屬性信息;存儲(chǔ)模塊用于根據(jù)對(duì)象數(shù)據(jù)的屬性信息將對(duì)象數(shù)據(jù)存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第一存儲(chǔ)子系統(tǒng)。
7.如權(quán)利要求6所述的裝置,其特征在于,所述存儲(chǔ)模塊還用于將所述存儲(chǔ)至存儲(chǔ)系統(tǒng)中第一存儲(chǔ)子系統(tǒng)的對(duì)象數(shù)據(jù)的關(guān)聯(lián)關(guān)系和模式存儲(chǔ)至存儲(chǔ)系統(tǒng)中的第二存儲(chǔ)子系統(tǒng),以元數(shù)據(jù)的形式進(jìn)行管理,其中,對(duì)象數(shù)據(jù)的模式包括對(duì)象數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)屬性。
8.如權(quán)利要求6所述的裝置,其特征在于,所述對(duì)象數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)中的至少一種,所述第一存儲(chǔ)子系統(tǒng)由并行數(shù)據(jù)庫(kù)單元和Hadoop平臺(tái)組成,Hadoop平臺(tái)包括HDFS單元、HBase單元和Hive單元,其中,HDFS單元存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù),HBase單元和Hive單元存儲(chǔ)半結(jié)構(gòu)化數(shù)據(jù),并行數(shù)據(jù)庫(kù)單元存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。
【文檔編號(hào)】G06F17/30GK103440288SQ201310358482
【公開(kāi)日】2013年12月11日 申請(qǐng)日期:2013年8月16日 優(yōu)先權(quán)日:2013年8月16日
【發(fā)明者】狄靜舒, 王穎, 宋懷明, 苗艷超, 劉新春, 邵宗有 申請(qǐng)人:曙光信息產(chǎn)業(yè)股份有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
石柱| 玉屏| 平邑县| 江华| 进贤县| 松潘县| 锡林郭勒盟| 南部县| 滦平县| 沁源县| 古蔺县| 合作市| 敦煌市| 天长市| 深州市| 渭源县| 垦利县| 河北省| 从江县| 土默特右旗| 茶陵县| 江津市| 新巴尔虎右旗| 永春县| 武强县| 扎兰屯市| 隆回县| 泊头市| 雷波县| 镇平县| 乌鲁木齐市| 米脂县| 杭州市| 米林县| 上犹县| 那曲县| 城步| 江北区| 崇义县| 澄江县| 扎赉特旗|