一種基于語義的海量數(shù)據(jù)處理方法與流程

文檔序號：11807150閱讀：326來源：國知局

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，具體涉及一種基于語義的海量數(shù)據(jù)處理方法。

背景技術(shù)：
隨著Web2.0技術(shù)的快速發(fā)展，互聯(lián)網(wǎng)絡(luò)經(jīng)歷了從信息（網(wǎng)頁）與信息（網(wǎng)頁）互連的WWW階段、物與物互連的物聯(lián)網(wǎng)時代、人與人互連的社會網(wǎng)絡(luò)時代及其人與物與所有信息相融合的綜合互連時代。人在互聯(lián)網(wǎng)中產(chǎn)生的信息（BBS,評論，社交網(wǎng)絡(luò)，微博等），尤其是機器（傳感器及其各類處理器生成的分析數(shù)據(jù)等等）時時刻刻都在不斷產(chǎn)生新的數(shù)據(jù)。根據(jù)國際數(shù)據(jù)公司IDC2011年發(fā)布的DigitalUniverseStudy，全球信息總量每過兩年，就會增長一倍。僅在2011年，全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB(1.8萬億GB)。相較2010年同期上漲超過1ZB，到2020年這一數(shù)值將增長到35ZB。大數(shù)據(jù)已經(jīng)成為當今信息處理最為關(guān)鍵的問題之一。隨著互聯(lián)網(wǎng)的飛速發(fā)展，云計算與物聯(lián)網(wǎng)技術(shù)得到了飛速發(fā)展。海量數(shù)據(jù),在國外一般又稱為大數(shù)據(jù)（BigData）。IBM把海量數(shù)據(jù)概括成了三個V，即Volume（數(shù)據(jù)規(guī)模巨大）、Variety（數(shù)據(jù)類型及其來源廣泛多樣）和Velocity（快速化）。2011年2月11日美國出版的《科學》（Science）期刊專門出版了一期數(shù)據(jù)處理（DealingwithData）的專輯，其主題是圍繞目前科學研究數(shù)據(jù)的海量增加展開討論，說明海量數(shù)據(jù)對科學研究的重要性。隨后的2011年9月4日，《自然》（Nature）也就海量數(shù)據(jù)處理設(shè)立了一個專門的專題，討論分析了現(xiàn)代科學研究面臨的一個巨大挑戰(zhàn)就是如何處理已有的海量數(shù)據(jù)。云計算與物聯(lián)網(wǎng)環(huán)境下海量數(shù)據(jù)的處理是一個極為復雜的問題。如何讓上億條數(shù)據(jù)查詢計劃能夠在幾秒內(nèi)完成，如何能夠快速定位到用戶所需的數(shù)據(jù)塊的位置，這些均給數(shù)據(jù)的處理提出了巨大的挑戰(zhàn)。由于云計算與物聯(lián)網(wǎng)的飛速發(fā)展，越來越多的云應(yīng)用需要處理和管理海量的數(shù)據(jù)。用戶對于海量文件的查詢處理速度的需求等越來越高，從而如何處理這些海量數(shù)據(jù)將成為其中重要的一個環(huán)節(jié)。為了實現(xiàn)較好地處理這些云應(yīng)用的海量數(shù)據(jù)，需要研究一種基于語義的海量數(shù)據(jù)處理方法，為海量數(shù)據(jù)的處理計算提供較好的處理效率。

技術(shù)實現(xiàn)要素：
為了克服現(xiàn)有技術(shù)在處理海量數(shù)據(jù)能力上的不足，本發(fā)明的目的在于提供一種基于語義的海量數(shù)據(jù)處理方法，可以提高云環(huán)境海量數(shù)據(jù)的處理效率，從而更好地服務(wù)于人類需求。為實現(xiàn)以上目的，本發(fā)明采取以下的技術(shù)方案：一種基于語義的海量數(shù)據(jù)處理方法，其包括以下步驟：A、對不同的云應(yīng)用，分別將所述云應(yīng)用中的所有的海量數(shù)據(jù)進行語義處理，形成智能分布式的語義索引機制；B、對云應(yīng)用中所有的元數(shù)據(jù)和數(shù)據(jù)按照所述語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)中，以使具有語義關(guān)聯(lián)的數(shù)據(jù)存儲緊密；C、對存儲于云存儲系統(tǒng)中的云應(yīng)用執(zhí)行海量數(shù)據(jù)的MapReduce計算。云應(yīng)用，包括所有的云環(huán)境下的應(yīng)用，如社交網(wǎng)絡(luò)、電信應(yīng)用、證券應(yīng)用等等。所述步驟B包括以下步驟：B1、按照所述語義索引機制獲得子云應(yīng)用；B2、對所述子云應(yīng)用的元數(shù)據(jù)分配到元數(shù)據(jù)服務(wù)器，其具體包括以下情況：B21、若子云應(yīng)用的數(shù)量小于元數(shù)據(jù)服務(wù)器的數(shù)量，則每個子云應(yīng)用的元數(shù)據(jù)均分配一個元數(shù)據(jù)服務(wù)器；B22、若子云應(yīng)用的數(shù)量等于元數(shù)據(jù)服務(wù)器的數(shù)量，則每個子云應(yīng)用的元數(shù)據(jù)均分配一個元數(shù)據(jù)服務(wù)器；B23、若子云應(yīng)用的數(shù)量大于元數(shù)據(jù)服務(wù)器的數(shù)量，則按照以下步驟執(zhí)行元數(shù)據(jù)庫服務(wù)器的分配：B231、給每個元數(shù)據(jù)服務(wù)器均先分配一個子云應(yīng)用的元數(shù)據(jù)；B232、剩余的子云應(yīng)用的元數(shù)據(jù)繼續(xù)按照一個子云應(yīng)用的元數(shù)據(jù)對應(yīng)分配給一個元數(shù)據(jù)服務(wù)器的方式進行分配，分配過程中，須使每個元數(shù)據(jù)服務(wù)器的元數(shù)據(jù)之和均衡；B233、重復步驟B232，直到將所有的子云應(yīng)用的元數(shù)據(jù)分配完成；B3、將子云應(yīng)用的數(shù)據(jù)分配到數(shù)據(jù)存儲節(jié)點集群，其具體包括以下步驟：B31、計算每個子云應(yīng)用的負載，并將所有的子云應(yīng)用的負載求和獲取負載和，根據(jù)所述數(shù)據(jù)存儲節(jié)點集群的具體數(shù)量計算出每臺數(shù)據(jù)存儲節(jié)點的平均存儲負載；B32、列出子云應(yīng)用中所有負載位于平均存儲負載閾值范圍內(nèi)的所有子云應(yīng)用，并將這些滿足條件的子云應(yīng)用的數(shù)據(jù)分配到一臺數(shù)據(jù)存儲節(jié)點中；B33、計算子云應(yīng)用的負載之和位于平均存儲負載閾值范圍內(nèi)的所有子云應(yīng)用，并將這些滿足條件的子云應(yīng)用的數(shù)據(jù)分配到一臺數(shù)據(jù)存儲節(jié)點中；B34、將子云應(yīng)用的負載大于平均存儲負載閾值的所有子云應(yīng)用進行分割，分割后的負載盡量均位于平均存儲負載閾值的范圍內(nèi)，并將分割后的子云應(yīng)用所對應(yīng)的所有數(shù)據(jù)分配至不同的數(shù)據(jù)存儲節(jié)點；B35、重復步驟B31-B34，直到所有的子云應(yīng)用的數(shù)據(jù)分配完成。所述平均存儲負載閾值為[90%平均存儲負載，110%平均存儲負載]。所述子云應(yīng)用為將一社區(qū)網(wǎng)絡(luò)按照社會網(wǎng)絡(luò)算法得到的子社區(qū)，其中，所述社區(qū)網(wǎng)絡(luò)為各種基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用的文件通過一個聚類或者社會網(wǎng)絡(luò)算法得到的。所述社會網(wǎng)絡(luò)算法為聚類算法。所述子云應(yīng)用為將本體網(wǎng)絡(luò)或標記網(wǎng)絡(luò)進行分割，讓有聯(lián)系的元數(shù)據(jù)文件集中在一起，同時對該有聯(lián)系的元數(shù)據(jù)文件進行相應(yīng)的聚合而形成的相應(yīng)的語義聚合對，其中，所述本體網(wǎng)絡(luò)或標記網(wǎng)絡(luò)為根據(jù)各種語義算法對各種來自分類的密集型應(yīng)用的文件進行語義計算得到的。海量數(shù)據(jù)，包括所有的云環(huán)境下的應(yīng)用所涉及到的各種海量數(shù)據(jù)，如社交網(wǎng)絡(luò)的記錄、電信應(yīng)用的電話通信記錄及其證券應(yīng)用中的證券交易記錄等等。同時，海量數(shù)據(jù)，既包括海量大文件也包括海量小文件，既包括海量結(jié)構(gòu)化數(shù)據(jù)，也包括海量半結(jié)構(gòu)化數(shù)據(jù)及其海量非結(jié)構(gòu)化數(shù)據(jù)。所述云存儲系統(tǒng)包括用來存儲海量非結(jié)構(gòu)化數(shù)據(jù)的云文件系統(tǒng)、以及用于存儲海量結(jié)構(gòu)化數(shù)據(jù)和海量半結(jié)構(gòu)化數(shù)據(jù)的云數(shù)據(jù)庫系統(tǒng)。所述云文件系統(tǒng)包括單一Master節(jié)點的云文件系統(tǒng)，以及大于一個Master節(jié)點的Master集群的云文件系統(tǒng)。所述云數(shù)據(jù)庫系統(tǒng)包括單一Master節(jié)點的云數(shù)據(jù)庫系統(tǒng)，以及大于一個Master節(jié)點的Master集群的云數(shù)據(jù)庫系統(tǒng)。MapReduce，它是一種現(xiàn)有的處理海量數(shù)據(jù)的編程模型。只要能夠?qū)崿F(xiàn)較好的存儲，則那些關(guān)系緊密的數(shù)據(jù)會存儲在同一臺機器上，會大大減少MapReduce的遷移時間，從而提高MapReduce的執(zhí)行效率。本發(fā)明與現(xiàn)有技術(shù)相比，具有如下優(yōu)點：本發(fā)明針對不同的云應(yīng)用，分別將它們的所有海量數(shù)據(jù)進行一個語義處理，形成一種智能的分布式語義索引機制，同時云中的所有的元數(shù)據(jù)和數(shù)據(jù)將按照該語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)（如分布式文件系統(tǒng)或者云數(shù)據(jù)庫系統(tǒng)）。按照這種基于語義的海量數(shù)據(jù)存儲方法，將會使得那些具有語義關(guān)聯(lián)比較高的數(shù)據(jù)存儲的比較緊密，當各種云應(yīng)用需要執(zhí)行對海量數(shù)據(jù)的MapReduce計算時，會在同一臺機器上對同一個作業(yè)執(zhí)行較多的Map或者Reduce任務(wù)，從而減少數(shù)據(jù)遷移的時間消耗，將會較好地提高海量數(shù)據(jù)的處理效率。附圖說明圖1是本發(fā)明基于語義的海量數(shù)據(jù)處理方法的流程示意圖；圖2為本發(fā)明基于語義的海量數(shù)據(jù)處理方法的體系框架圖；圖3為本發(fā)明基于語義的智能存儲機制框圖；圖4為本發(fā)明基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用大小文件語義處理機制框圖；圖5為本發(fā)明基于分類的數(shù)據(jù)密集型應(yīng)用的大小文件語義處理機制框圖。具體實施方式下面結(jié)合附圖和具體實施方式對本發(fā)明的內(nèi)容做進一步詳細說明。圖2展示了基于語義的海量數(shù)據(jù)處理方法的基本框架。它主要包含如下幾個部分：云應(yīng)用21、海量數(shù)據(jù)22、基于語義的智能存儲機制23、云存儲系統(tǒng)24及其MapReduce25。云應(yīng)用21是指云環(huán)境下的各種數(shù)據(jù)密集型或計算密集型的應(yīng)用，包括所有的云環(huán)境下的應(yīng)用，如社交網(wǎng)絡(luò)、電信應(yīng)用、證券應(yīng)用等等。海量數(shù)據(jù)22，它是指各種云應(yīng)用所產(chǎn)生的各種海量的TB級甚至PB級別的數(shù)據(jù)。海量數(shù)據(jù)22包括所有的云環(huán)境下的應(yīng)用所涉及到的各種海量數(shù)據(jù)，如社交網(wǎng)絡(luò)的記錄、電信應(yīng)用的電話通信記錄及其證券應(yīng)用中的證券交易記錄等等。同時，海量數(shù)據(jù)，既包括海量大文件也包括海量小文件，既包括海量結(jié)構(gòu)化數(shù) 據(jù)，也包括海量半結(jié)構(gòu)化數(shù)據(jù)及其海量非結(jié)構(gòu)化數(shù)據(jù)?；谡Z義的智能存儲機制23，它是一種用來決定海量數(shù)據(jù)及其相關(guān)的元數(shù)據(jù)存儲位置的一種智能機制。詳細的分析請見對圖3的說明。云存儲系統(tǒng)24，它主要包括用來存儲非結(jié)構(gòu)化數(shù)據(jù)的云文件系統(tǒng)和用于存儲結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù)的云數(shù)據(jù)庫系統(tǒng)，其中云文件系統(tǒng)既包括單一Master節(jié)點的云文件系統(tǒng)，也包括大于一個Master節(jié)點的Master集群的云文件系統(tǒng)。云數(shù)據(jù)庫系統(tǒng)既包括單一Master節(jié)點的云數(shù)據(jù)庫系統(tǒng)，也包括大于一個Master節(jié)點的Master集群的云數(shù)據(jù)庫系統(tǒng)。MapReduce25，它是一種現(xiàn)有的處理海量數(shù)據(jù)的編程模型。只要能夠?qū)崿F(xiàn)較好的存儲，則那些關(guān)系緊密的數(shù)據(jù)會存儲在同一臺機器上，會大大減少MapReduce的遷移時間，從而提高MapReduce的執(zhí)行效率圖3展示了基于語義的智能處理的總體框架?；谡Z義的智能處理的總體框架包括：數(shù)據(jù)密集型應(yīng)用的判斷31、各種數(shù)據(jù)密集型應(yīng)用的海量數(shù)據(jù)32、基于社會網(wǎng)絡(luò)的應(yīng)用元數(shù)據(jù)存儲節(jié)點集群分配33、基于分類的（本體分類或者標記分類等）應(yīng)用元數(shù)據(jù)存儲節(jié)點集群分配34、基于社會網(wǎng)絡(luò)的應(yīng)用數(shù)據(jù)存儲節(jié)點集群分配35、基于分類的（本體分類或者標記分類等）應(yīng)用數(shù)據(jù)存儲節(jié)點集群分配36。根據(jù)云環(huán)境下數(shù)據(jù)密集型應(yīng)用（包括存儲密集型應(yīng)用和計算密集型應(yīng)用），我們總結(jié)了二種數(shù)據(jù)密集型應(yīng)用，分別為基于社會網(wǎng)絡(luò)的應(yīng)用和基于分類的（本體分類或者標記分類）的數(shù)據(jù)密集型應(yīng)用。1)首先使用數(shù)據(jù)密集型應(yīng)用的判斷方法對來自云環(huán)境的各種海量數(shù)據(jù)進行一個判斷，然后將它們進行歸類。在圖3中我們展示了其中的兩類：基于社會網(wǎng)絡(luò)的應(yīng)用和基于分類的（本體分類或者標記分類）的應(yīng)用。2)對于那些社會網(wǎng)絡(luò)的應(yīng)用如（Twitter，F(xiàn)aceBook，人人網(wǎng)，騰訊微博及其新浪微博等）這種應(yīng)用，則按照基于社會網(wǎng)絡(luò)應(yīng)用的元數(shù)據(jù)存儲節(jié)點集群分配進行元數(shù)據(jù)分配，同時進行其對應(yīng)的按照基于社會網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)存儲節(jié)點集群分配進行數(shù)據(jù)分配。具體實施方式見圖4所示。3)對于那些分類的應(yīng)用如（本體關(guān)聯(lián)比較大的應(yīng)用等）這種應(yīng)用，則按照基于分類的應(yīng)用的元數(shù)據(jù)存儲節(jié)點集群分配進行元數(shù)據(jù)分配，同時進行其對應(yīng)的按照基于分類的應(yīng)用的數(shù)據(jù)存儲節(jié)點集群分配進行數(shù)據(jù)分配。具體實施方式見圖5所示。實施例一基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用大小文件語義處理機制。具體的基于社會網(wǎng)絡(luò)的數(shù)據(jù)密集型應(yīng)用大小文件語義處理機制，請參閱圖1和圖4。對于社會網(wǎng)絡(luò)的各種應(yīng)用系統(tǒng)（Twitter，F(xiàn)aceBook，人人網(wǎng)，騰訊微博及其新浪微博等）非常適合這種存儲方法。首先使用目前所有的各種社會網(wǎng)絡(luò)算法（如：聚類算法就是其中的一種），對各種來自社會網(wǎng)絡(luò)應(yīng)用的文件進行一個聚類或者社會網(wǎng)絡(luò)算法的其他操作。通過計算后得到一個巨大的社區(qū)網(wǎng)絡(luò)。S11、按照社會網(wǎng)絡(luò)的算法，將該巨大的社區(qū)網(wǎng)絡(luò)進行語義處理，形成智能分布式的語義索引機制。S12、對云應(yīng)用中所有的元數(shù)據(jù)和數(shù)據(jù)按照語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)中，具體是：1)根據(jù)語義索引機制得到該巨大的社區(qū)網(wǎng)絡(luò)的子社區(qū)。圖4顯示了某個社會網(wǎng)絡(luò)社區(qū)總共有5個子社區(qū)（或稱之為圈子）。其中有些節(jié)點（圖中的連接子社區(qū)之間的節(jié)點）是非常關(guān)鍵的節(jié)點，又稱為結(jié)構(gòu)洞。2)按照子社區(qū)，將元數(shù)據(jù)分配到元數(shù)據(jù)服務(wù)器集群中。其分配原則為：若子社區(qū)數(shù)量小于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量，則每個子社區(qū)的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況并不多見。若子社區(qū)數(shù)量等于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量，則每個子社區(qū)的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況也并不多見。若子社區(qū)數(shù)量大于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量，則按照如下步驟執(zhí)行分配：■步驟一：首先給每個子社區(qū)的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。■步驟二：剩余的子社區(qū)繼續(xù)按照每個子社區(qū)分配一個元數(shù)據(jù)服務(wù)器的方式進行分配。但是在分配過程中盡量保持每個子社區(qū)的元數(shù)據(jù)的負載均衡。例如：假設(shè)某個元數(shù)據(jù)服務(wù)器A在已經(jīng)分配的子社區(qū)的元數(shù)據(jù)量很小，在后面的分配中，則給其分配一個元數(shù)據(jù)量相對比較大的子社區(qū)的元數(shù)據(jù)?！霾襟E三：重復步驟二，直到將所有的子社區(qū)的元數(shù)據(jù)分配完成。子社區(qū)的元數(shù)據(jù)的分配不進行分割，只能分配在一臺元數(shù)據(jù)服務(wù)器上。也就是說不將一個子社區(qū)的元數(shù)據(jù)分配給兩臺或者兩臺以上的元數(shù)據(jù)服務(wù)器上，主要原因是一個子社區(qū)的元數(shù)據(jù)放在同一元數(shù)據(jù)服務(wù)器會減少元數(shù)據(jù)維護時間，同時由于采用元數(shù)據(jù)集群的方式，元數(shù)據(jù)服務(wù)器的承載是在可接受的范圍內(nèi)的。圖4所示的子社區(qū)1和子社區(qū)3的所有元數(shù)據(jù)分配給了元數(shù)據(jù)服務(wù)器1；子社區(qū)2和子社區(qū)4的所有元數(shù)據(jù)分配給了元數(shù)據(jù)服務(wù)器2；子社區(qū)5的所有元數(shù)據(jù)分配給了元數(shù)據(jù)服務(wù)器3.3)按照子社區(qū)，將數(shù)據(jù)分配到數(shù)據(jù)存儲節(jié)點集群中（注意：這里只考慮主副本的分配，其他的副本隨機即可）。它的分配原則和元數(shù)據(jù)的分配原則不同，它主要考慮負載均衡的問題，其分配方法可以按照如下步驟進行：步驟一：計算每個子社區(qū)的負載（即數(shù)據(jù)量），計算所有子社區(qū)的負載總和，計算每臺數(shù)據(jù)存儲節(jié)點的理想的平均存儲負載。步驟二：計算出社區(qū)負載接近平均存儲負載（假設(shè)閾值為：[90%平均存儲負載，110%平均存儲負載])的所有子社區(qū)，將滿足這些條件的所有子社區(qū)分配給一臺數(shù)據(jù)存儲節(jié)點。步驟三：計算出那些小的子社區(qū)，并計算出那些子社區(qū)的負載之和接近平均存儲負載（假設(shè)閾值為：[90%平均存儲負載，110%平均存儲負載])的所有子社區(qū)，將這些滿足條件的子社區(qū)的組合分配給一臺數(shù)據(jù)存儲節(jié)點。步驟四：將那些大的子社區(qū)按照負載進行分割，例如某個大的子社區(qū)的負載等于6個平均存儲負載，則將該大的子社區(qū)的所有數(shù)據(jù)存儲負載分配給六臺數(shù)據(jù)存儲節(jié)點。步驟五：重復步驟一到步驟四，直到將所有子社區(qū)的數(shù)據(jù)分配完成。圖4所示的子社區(qū)1的所有數(shù)據(jù)分配給了數(shù)據(jù)存儲節(jié)點2；子社區(qū)2和子社區(qū)3的所有數(shù)據(jù)分配給了數(shù)據(jù)存儲節(jié)點q；子社區(qū)4的所有數(shù)據(jù)分配給了數(shù)據(jù)存儲節(jié)點2。S13、對存儲于云存儲系統(tǒng)中的所有云應(yīng)用執(zhí)行海量數(shù)據(jù)的MapReduce計算，根據(jù)步驟S12的存儲方式可以在MapReduce計算過程中，會在同一臺機器上對同一個作業(yè)執(zhí)行較多的Map或者Reduce任務(wù)。實施例二基于分類的數(shù)據(jù)密集型應(yīng)用的大小文件語義處理機制。對于一些基于分類的數(shù)據(jù)密集型應(yīng)用（如語義搜索引擎等），請參閱圖1和圖5所示。首先使用目前所有的各種語義算法（如：本體生成算法、標記網(wǎng)絡(luò)），對各種來自分類的密集型應(yīng)用的文件進行各種語義計算得到一個本體網(wǎng)絡(luò)或者標記網(wǎng)絡(luò)等。S11、按照語義算法，將該巨大的社區(qū)網(wǎng)絡(luò)進行語義處理，形成智能分布式的語義索引機制。S12、對云應(yīng)用中所有的元數(shù)據(jù)和數(shù)據(jù)按照語義索引機制進行語義存儲到相應(yīng)的云存儲系統(tǒng)中，具體是：1)對上述得到的本體網(wǎng)絡(luò)或者標記網(wǎng)絡(luò)進行分割，讓有聯(lián)系的元數(shù)據(jù)文件盡量集中在一起，同時對它們進行相應(yīng)的聚合，形成相應(yīng)的語義聚合對。2)分配給元數(shù)據(jù)存儲節(jié)點集群，有關(guān)聯(lián)的元數(shù)據(jù)盡量分配在同一個元數(shù)據(jù)存儲節(jié)點。這些有關(guān)聯(lián)的元數(shù)據(jù)聚合后形成的語義聚合對的具體分配步驟如下：若語義聚合對數(shù)量小于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量，則每個語義聚合對的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況并不多見。若語義聚合對數(shù)量等于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量，則每個語義聚合對的元數(shù)據(jù)分配一個元數(shù)據(jù)服務(wù)器。當然這種情況也并不多見。若語義聚合對數(shù)量大于元數(shù)據(jù)集群中元數(shù)據(jù)服務(wù)器的數(shù)量，則按照如下步驟執(zhí)行分配：■步驟一：首先給每個語義聚合對分配一個元數(shù)據(jù)服務(wù)器。■步驟二：剩余的語義聚合對繼續(xù)按照每個語義聚合對分配一個元數(shù)據(jù)服務(wù)器的方式進行分配。但是在分配過程中盡量保持每個語義聚合對的元數(shù)據(jù)的負載均衡。例如：假設(shè)某個元數(shù)據(jù)服務(wù)器A在已經(jīng)分配的語義聚合對的元數(shù)據(jù)量很小，在后面的分配中，則給其分配一個元數(shù)據(jù)量相對比較大的語義聚合對的元數(shù)據(jù)?！霾襟E三：重復步驟二，直到將所有的語義聚合對的元數(shù)據(jù)分配完成。語義聚合對的元數(shù)據(jù)的分配不進行分割，只能分配在一臺元數(shù)據(jù)服務(wù)器上。也就是說不將一個語義聚合對的元數(shù)據(jù)分配給兩臺或者兩臺以上的元數(shù)據(jù)服務(wù)器上，主要原因是一個語義聚合對的元數(shù)據(jù)放在同一元數(shù)據(jù)服務(wù)器會減少元數(shù) 據(jù)維護時間，同時由于采用元數(shù)據(jù)集群的方式，元數(shù)據(jù)服務(wù)器的承載是在可接受的范圍內(nèi)的。3)按照語義聚合對，將數(shù)據(jù)分配到數(shù)據(jù)存儲節(jié)點集群中（注意：這里只考慮主副本的分配，其他的副本隨機分配即可）。它的分配原則和元數(shù)據(jù)的分配原則不同，它主要考慮負載均衡的問題，其分配方法可以按照如下步驟進行：步驟一：計算每個語義聚合對的負載，計算所有語義聚合對的負載總和，計算每臺數(shù)據(jù)存儲節(jié)點的理想的平均存儲負載。步驟二：計算出語義聚合對接近平均存儲負載（假設(shè)閾值為：[90%平均存儲負載，110%平均存儲負載])的所有語義聚合對,將滿足這些條件的所有語義聚合對分配給一臺數(shù)據(jù)存儲節(jié)點。步驟三：計算出那些小的語義聚合對，并計算出那些語義聚合對的負載之和接近平均存儲負載（假設(shè)閾值為：[90%平均存儲負載，110%平均存儲負載])的所有語義聚合對，將這些滿足條件的語義聚合對的組合分配給一臺數(shù)據(jù)存儲節(jié)點。步驟四：將那些大的語義聚合對按照負載進行分割，例如某個大的語義聚合對的負載等于6個平均存儲負載，則將該語義聚合對所對應(yīng)的所有數(shù)據(jù)分配給六臺數(shù)據(jù)存儲節(jié)點。步驟五：重復步驟一到步驟四，直到將所有語義聚合對的數(shù)據(jù)分配完成。S13、對存儲于云存儲系統(tǒng)中的所有云應(yīng)用執(zhí)行海量數(shù)據(jù)的MapReduce計算，根據(jù)步驟S12的存儲方式可以在MapReduce計算過程中，會在同一臺機器上對同一個作業(yè)執(zhí)行較多的Map或者Reduce任務(wù)。上列詳細說明是針對本發(fā)明可行實施例的具體說明，該實施例并非用以限制本發(fā)明的專利范圍，凡未脫離本發(fā)明所為的等效實施或變更，均應(yīng)包含于本案的專利范圍中。

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王朝碩;趙建寧;張桂剛;田應(yīng)富;李超;周震震;張勇;郭涑煒;邢春曉
技術(shù)所有人：中國南方電網(wǎng)有限責任公司超高壓輸電公司;清華大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語義分割數(shù)據(jù)集相關(guān)技術(shù)

圖像語義分割數(shù)據(jù)集相關(guān)技術(shù)

大數(shù)據(jù)語義分析相關(guān)技術(shù)

海量數(shù)據(jù)處理方法相關(guān)技術(shù)

語義數(shù)據(jù)模型相關(guān)技術(shù)

語義大數(shù)據(jù)相關(guān)技術(shù)

語義分割常用數(shù)據(jù)集相關(guān)技術(shù)

數(shù)據(jù)的語義相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于語義的海量數(shù)據(jù)處理方法與流程