欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于Hadoop分布式文件系統(tǒng)的小文件存儲方法

文檔序號:7799914閱讀:887來源:國知局
基于Hadoop分布式文件系統(tǒng)的小文件存儲方法
【專利摘要】本發(fā)明公開一種基于Hadoop分布式文件系統(tǒng)的小文件存儲方法,實現(xiàn)步驟為:(1)新增兩臺服務器;(2)判斷文件是否是小文件;(3)判斷大文件請求狀態(tài);(4)判斷小文件請求狀態(tài);(5)預處理寫請求;(6)處理寫請求;(7)檢測緩存區(qū);(8)預處理讀請求;(9)處理讀請求;(10)小文件分離;(11)建立預取記錄;(12)更新預取記錄。本發(fā)明相比現(xiàn)有技術存儲海量小文件的方法,在保證系統(tǒng)通用性的同時,還具有讀寫性能效率高、緩解NameNode內存負擔的優(yōu)點,解決了海量小文件時NameNode內存占用率高、存儲訪問效率低的問題。本發(fā)明可用于分布式文件系統(tǒng)對海量小文件的存儲和管理。
【專利說明】基于Hadoop分布式文件系統(tǒng)的小文件存儲方法
【技術領域】
[0001]本發(fā)明屬于計算機【技術領域】,更進一步涉及計算機分布式數(shù)據(jù)優(yōu)化存儲領域中的一種基于Hadoop分布式文件系統(tǒng)(Distributed File System DFS)的小文件存儲方法。本發(fā)明應用獨立于HDFS系統(tǒng)的小文件處理服務器對小文件進行合并、映射和預取等操作,可應用于高效率地存儲訪問海量小文件。
【背景技術】
[0002]Hadoop Distributed File System,簡稱HDFS,是一個分布式文件系統(tǒng)。目前,在以HDFS為代表的分布式文件存儲【技術領域】中,廣泛使用HDFS高效處理各類大文件,但是隨著用戶需求的改變,小文件數(shù)量日益增加,用戶和Namenode的交互也越來越頻繁。由于HDFS自身的主從式結構和元數(shù)據(jù)的存儲方式導致其在處理海量小文件時NameNode內存占用率高、存儲訪問效率低、并發(fā)用戶的訪問時延長,這些問題已經成為制約HDFS整體性能的瓶頸。
[0003]浪潮電子信息產業(yè)股份有限公司申請的專利“一種HDFS針對小文件的改進方法”(專利申請?zhí)?201310494888.4,公布號CN103530387A),公開了一種HDFS針對小文件的改進方法。該方法的思路是將NameNode的部分權限下方DataNode節(jié)點上,讓DataNode緩存部分小文件元數(shù)據(jù)信息,讓DataNode處理絕大多數(shù)的小文件讀寫請求,最大限度的減輕NameNode的負擔。該方法有效解決了 NameNode單點負載過重的問題,將小文件的壓力分配到數(shù)據(jù)節(jié)點,但是仍然存在的不足是,該方法不適用于高效率地對小文件進行存儲訪問操作。
[0004]Dong B 等人發(fā)表的論文“A novel approach to improving the efficiencyof storing and accessing small files on Hadoop:a case study by PowerPointfiles,,(Proc.0f the7th Int.Conf.0n Services Computing.Piscatawayj NJj USA:1EEE, 2010:65-72.),提出了一種針對有效存儲ppt、視頻文件類型的小文件的解決方案。BlueSky存放的主要是PPT文件小文件和視頻小文件,以HDFS作為其存放的載體。在用戶存儲文件時,系統(tǒng)相應的存儲一些文件的快照,用戶可以通過這些快照決定是否繼續(xù)瀏覽文件。同時,當用戶瀏覽PPT時,可能也會訪問一些相關聯(lián)的PPT和文件,因而文件的訪問具有相關性和本地性。Dong等人針對Bluesky系統(tǒng)的特點,在論文中提出了如下觀點:1)將屬于同一課件的小文件合并成一個大文件,從而減輕NameNode的壓力,提高小文件的存儲效率;2)提出了一種two-level prefetching機制(索引文件預取和數(shù)據(jù)文件預取),當用戶訪問某個文件時,通過索引文件預取機制,把文件所在的Block對應的索引文件加載到內存中,這樣,就省去了用戶與NameNode交互步驟,提高了小文件的讀取效率。同時,由于數(shù)據(jù)文件預取機制,將該文件所在課件中的所有文件也會被加載到內存中,從而提高用戶訪問其他文件的速度。BlueSky從系統(tǒng)層面解決了 HDFS的小文件問題,雖滿足了低時延訪問的需求,但是仍然存在的不足是,該方法只適用于BlueSky系統(tǒng)特點下來解決小文件問題,并沒有形成一個比較通用的技術方案。
【發(fā)明內容】

[0005]本發(fā)明的目的在于克服上述現(xiàn)有技術的不足,提出一種基于Hadoop分布式文件系統(tǒng)的小文件存儲方法。該方法可以有效地克服HDFS在存儲訪問海量小文件時名字節(jié)點NameNode內存占用率高、存儲訪問效率低的缺點,并且保證了方法的通用性。
[0006]本發(fā)明實現(xiàn)的思路是在原HDFS架構之外增加了一個獨立的小文件服務器,這個服務器通過建立相應的本地索引和小文件處理機制,來有效地完成小文件的合并、映射、預取,在寫入或讀取文件之前,先判斷該文件是否是小文件,如果是,則先交給小文件服務器處理,否則直接交給原HDFS系統(tǒng)處理。達到減輕名字節(jié)點NameNode的負擔、海量小文件存儲訪問效率高的目的,同時保證了系統(tǒng)的通用性。
[0007]本發(fā)明的具體步驟如下:
[0008]1.一種基于Hadoop分布式文件系統(tǒng)的小文件存儲方法,包括如下步驟:
[0009](1)新增兩臺服務器:
[0010]在Hadoop分布式文件系統(tǒng)HDFS之外,新增一臺用于監(jiān)聽文件讀寫請求的網(wǎng)絡服務器Websever,新增一臺用于處理小文件的小文件處理服務器。
[0011](2)判斷文件是否是小文件:
[0012]網(wǎng)絡服務器Websever判斷監(jiān)聽到的請求文件是否是小于16M的文件,若小于16M則被視為小文件,執(zhí)行步驟(4),否則,視為大文件,執(zhí)行步驟(3)。
[0013](3)判斷大文件請求狀態(tài):
[0014]網(wǎng)絡服務器Websever判斷監(jiān)聽到的大文件讀寫請求狀態(tài),若是大文件寫入請求,執(zhí)行步驟(6);若是大文件讀取請求,執(zhí)行步驟(9)。
[0015](4)判斷小文件請求狀態(tài):
[0016]網(wǎng)絡服務器Websever判斷監(jiān)聽到的小文件讀寫請求狀態(tài),若是小文件寫入請求,執(zhí)行步驟(5),若是小文件讀取請求,執(zhí)行步驟(7)。
[0017](5)預處理寫請求:
[0018]小文件處理服務器,采用文件合并方法,合并請求寫入的小文件,并在合并文件的首部為該小文件建立本地索引,得到合并文件,將合并文件送入Hadoop分布式文件系統(tǒng)HDFS的客戶端。
[0019](6)處理寫請求:
[0020]Hadoop分布式文件系統(tǒng)HDFS的客戶端,將請求寫入的大文件或合并文件,寫入Hadoop分布式文件系統(tǒng)HDFS,完成寫入操作。
[0021](7)檢測緩存區(qū):
[0022](7a)小文件處理服務器檢測緩存區(qū)中是否存在網(wǎng)絡服務器Websever監(jiān)聽到的讀請求文件記錄,若存在,小文件處理服務器將緩存區(qū)中的讀請求文件取出返回給客戶,完成讀取操作,否則,執(zhí)行步驟(7b);
[0023](7b)小文件處理服務器檢測緩存區(qū)中是否存在網(wǎng)絡服務器Websever監(jiān)聽到的讀請求文件的元數(shù)據(jù)信息,若存在,小文件處理模塊直接與HDFS客戶端交互,將小文件從HDFS中取出返回給客戶,完成讀取操作,否則,執(zhí)行步驟(8)。
[0024](8)預處理讀請求:[0025]根據(jù)小文件和合并文件的文件名,小文件處理服務器將收到的請求讀取的小文件映射到小文件的合并文件中,并將合并文件送入Hadoop分布式文件系統(tǒng)HDFS的客戶端。
[0026](9)處理讀請求:
[0027]Hadoop分布式文件系統(tǒng)HDFS的客戶端,將接收到的請求讀取的大文件或合并文件,從Hadoop分布式文件系統(tǒng)HDFS中讀出,得到合并文件的元數(shù)據(jù)信息與本地索引信息,完成讀取操作。
[0028](10)分離小文件:
[0029]小文件處理服務器采用小文件分離方法,從Hadoop分布式文件系統(tǒng)HDFS中讀出合并文件,將請求讀取的小文件從合并文件中分離出來返回給用戶,完成讀取操作。
[0030](11)建立預取記錄:
[0031](Ila)小文件處理模塊從步驟(9)得到的合并文件的元數(shù)據(jù)信息與本地索引信息中,提取每個小文件的文件名、數(shù)據(jù)節(jié)點位置、數(shù)據(jù)塊位置、偏移量offset和文件長度length,建立小文件的元數(shù)據(jù)預取記錄;
[0032](Ilb)小文件處理模塊從Hadoop分布式文件系統(tǒng)HDFS中讀取與被請求文件同屬一個塊的小文件,建立該小文件的預取記錄。
[0033](12)更新預取記錄:
[0034]小文件處理器采用更新預取記錄的方法,更新已經預取的小文件的元數(shù)據(jù)記錄和小文件的預取記錄。
[0035]本發(fā)明與現(xiàn)有的技術相比具有以下優(yōu)點:
[0036]1.本發(fā)明在HDFS體系結構的基礎之上,增加了一個小文件處理服務器,克服了現(xiàn)有技術只適用于特殊場景的問題,使得本發(fā)明在解決HDFS小文件問題上具有通用性。
[0037]2.本發(fā)明結合了小文件特征,提出了合并小文件的方案,并把小文件的本地索引交給Datanode管理,克服了現(xiàn)有技術在解決小文件問題時NameNode硬件存儲能力有限這個瓶頸問題,大大提高了 Namenode的工作效率,減輕了其存儲負擔。
[0038]3.由于本發(fā)明的兩級索引機制,實現(xiàn)了元數(shù)據(jù)的預取和小文件的預取,NameNode只管理合并文件的元數(shù)據(jù)信息,減少了客戶端與Namenode的交互頻率,克服了現(xiàn)有HDFS系統(tǒng)文件讀取操作花費時間較長的缺點,讀取相同數(shù)目的文件,本發(fā)明花費的時間更短,因此,效率更高,提高了提高了小文件檢索速度,滿足了低時延訪問的需求。
【專利附圖】

【附圖說明】
[0039]圖1為本發(fā)明的流程圖;
[0040]圖2為本發(fā)明與兩種現(xiàn)有方法對NameNode的內存使用趨勢的比較圖;
[0041]圖3為本發(fā)明與現(xiàn)有方法的訪問效率比較圖。
【具體實施方式】
[0042]下面結合附圖對本發(fā)明做進一步的描述。
[0043]參照圖1,本發(fā)明的具體實施步驟如下:
[0044]步驟1,新增兩臺服務。
[0045]在Hadoop分布式文件系統(tǒng)HDFS之外,新增一臺用于監(jiān)聽文件讀寫請求的網(wǎng)絡服務器Websever,新增一臺用于處理小文件的小文件處理服務器:本發(fā)明系統(tǒng)架構由網(wǎng)絡服務器Websever、小文件處理服務器、原HDFS系統(tǒng)三部分構成,其中小文件處理服務器主要對小文件進行文件合并、文件映射、文件預取等操作。
[0046]步驟2,判斷文件是否是小文件。
[0047]網(wǎng)絡服務器Websever判斷監(jiān)聽到的請求文件是否是小于16M的文件,若小于16M則被視為小文件,執(zhí)行步驟4,否則,視為大文件,執(zhí)行步驟3。
[0048]步驟3,判斷大文件請求狀態(tài)。
[0049]網(wǎng)絡服務器Websever判斷監(jiān)聽到的大文件讀寫請求狀態(tài),若是大文件寫入請求,執(zhí)行步驟6 ;若是大文件讀取請求,執(zhí)行步驟9。
[0050]步驟4,判斷小文件請求狀態(tài)。
[0051]網(wǎng)絡服務器Websever判斷監(jiān)聽到的小文件讀寫請求狀態(tài),若是小文件寫入請求,執(zhí)行步驟5,若是小文件讀取請求,執(zhí)行步驟7。
[0052]步驟5,預處理寫請求。
[0053]小文件處理服務器,采用文件合并方法,合并請求寫入的小文件,并在合并文件的首部為該小文件建立本地索引,得到合并文件,將合并文件送入Hadoop分布式文件系統(tǒng)HDFS的客戶端。
[0054]所述文件合并方法,按如下步驟進行:
[0055]第一步,在收到網(wǎng)絡服務器Websever發(fā)送來的小文件寫入請求后,小文件處理服務器為小文件建立本地索引,并持續(xù)向本地索引中添加新增的小文件本地索引信息;
[0056]第二步,小文件處理服務器判斷本地索引和小文件共占內存的大小,是否超過塊block的大小:若不超過,則持續(xù)向該block中添加小文件及其本地索引,否則,新增添一個塊block,繼續(xù)向新的block中添加小文件及其本地索引;
[0057]第三步,將本地索引作為合并文件的頭文件,本地索引中偏移量offset,文件長度length數(shù)據(jù)對的值指向小文件在合并文件中的位置,得到小文件的合并文件。
[0058]步驟6,處理寫請求。
[0059]Hadoop分布式文件系統(tǒng)HDFS的客戶端,將請求寫入的大文件或合并文件,寫入Hadoop分布式文件系統(tǒng)HDFS,完成寫入操作。
[0060]步驟7,檢測緩存區(qū)。
[0061]第一步,小文件處理服務器檢測緩存區(qū)中是否存在網(wǎng)絡服務器Websever監(jiān)聽到的讀請求文件記錄,若存在,小文件處理服務器將緩存區(qū)中的讀請求文件取出返回給客戶,完成讀取操作,否則,執(zhí)行第二步;
[0062]第二步,小文件處理服務器檢測緩存區(qū)中是否存在網(wǎng)絡服務器Websever監(jiān)聽到的讀請求文件的元數(shù)據(jù)信息,若存在,小文件處理模塊直接與HDFS客戶端交互,將小文件從HDFS中取出返回給客戶,完成讀取操作,否則,執(zhí)行步驟8。
[0063]步驟8,預處理讀請求。
[0064]根據(jù)小文件和合并文件的文件名,小文件處理服務器將收到的請求讀取的小文件映射到小文件的合并文件中,并將合并文件送入Hadoop分布式文件系統(tǒng)HDFS的客戶端。
[0065]步驟9,處理讀請求。
[0066]Hadoop分布式文件系統(tǒng)HDFS的客戶端,將接收到的請求讀取的大文件或合并文件,從Hadoop分布式文件系統(tǒng)HDFS中讀出,得到合并文件的元數(shù)據(jù)信息與本地索引信息,完成讀取操作。
[0067]步驟10,分離小文件。
[0068]小文件處理服務器采用小文件分離方法,從Hadoop分布式文件系統(tǒng)HDFS中讀出合并文件,將請求讀取的小文件從合并文件中分離出來返回給用戶,完成讀取操作。
[0069]所述文件合并方法,按如下步驟進行:
[0070]第一步,小文件處理服務器通過合并文件的元數(shù)據(jù)信息得到請求讀取文件的本地索引,本地索引中的偏移量offset,文件長度length數(shù)據(jù)對指向小文件在合并文件中的位置;
[0071]第二步,小文件處理服務器通過小文件在合并文件中的位置,將小文件從合并文件中分離出來。
[0072]步驟11,建立預取記錄。
[0073]第一步,小文件處理模塊從步驟9得到的合并文件的元數(shù)據(jù)信息與本地索引信息中,提取每個小文件的文件名、數(shù)據(jù)節(jié)點位置、數(shù)據(jù)塊位置、偏移量offset和文件長度length,建立小文件的元數(shù)據(jù)預取記錄。
[0074]第二步,小文件處理模塊從Hadoop分布式文件系統(tǒng)HDFS中讀取與被請求文件同屬一個塊的小文件,建立該小文件的預取記錄。
[0075]步驟12,更新預取記錄。
[0076]小文件處理器采用更新預取記錄的方法,更新已經預取的小文件的元數(shù)據(jù)記錄和小文件的預取記錄。
[0077]所述更新預取記錄的方法,按如下步驟進行:
[0078]第一步,在小文件的元數(shù)據(jù)預取記錄和小文件的預取記錄的首部,分別添加一個用于記錄文件訪問頻率的32位的文件訪問標識value ;
[0079]第二步,將文件訪問標識value的初始值設為1,以一分鐘為計時單位,若有用戶訪問預取的本地索引文件記錄和預取的小文件記錄,文件訪問標識value的值加1,否則,文件訪問標識value的值減I ;
[0080]第三步,當文件訪問標識value的值為O時,將預取信息從小文件處理器的緩存中移除。
[0081]本發(fā)明的效果可以通過下述仿真實驗得到驗證:
[0082]1.仿真條件:
[0083]本發(fā)明的仿真是在主頻2.5GHz intel (R) Core (TM) i5CPU的硬件環(huán)境以及MATLABR2009b, Window XP Professional 的軟件環(huán)境下進行的。
[0084]2.仿真內容與結果分析:
[0085]采用本發(fā)明的基于Hadoop分布式文件系統(tǒng)小文件存儲方法與原Hadoop分布式文件系統(tǒng)HDFS和HAR歸檔方法相比,NameNode的內存使用趨勢的比較如圖2所示,訪問效率的比較如圖3所示。
[0086]圖2是本發(fā)明與兩種現(xiàn)有方法對NameNode的內存使用趨勢的比較圖,橫坐標表示小文件的數(shù)量,縱坐標表示小文件元數(shù)據(jù)占用NameNode內存,物理單位為MB。本發(fā)明分別選取2000、4000、6000、8000、10000個小文件,分別使用原HDFS系統(tǒng)、HAR和本發(fā)明三種方法進行仿真,對三種方法下小文件元數(shù)據(jù)占用NameNode內存進行統(tǒng)計,最終得到NameNode的內存使用趨勢的三根曲線。由圖2可見,對于原HDFS系統(tǒng)和HAR方法,隨著文件數(shù)目的逐步增多,其NameNode內存占用呈線性增長,采用HAR方法對緩解NameNode的存儲壓力有一定緩解。但是,通過同樣多的小文件數(shù)量時,對三根曲線的縱坐標比較可知,本發(fā)明占用NameNode內存明顯比現(xiàn)有兩種方法小得多,在小文件的存儲效率上大大高于原始HDFS和HAR方法,且隨著小文件數(shù)目的增加,本發(fā)明方法曲線的線性增長越緩慢,說明優(yōu)越性越突出。
[0087]圖3為本發(fā)明與現(xiàn)有方法的訪問效率比較圖,橫坐標表示三種解決方案,縱坐標表示三種解決方案下訪問10000個小文件的平均訪問時間,物理單位為ms。本發(fā)明選取10000個小文件,分別使用原HDFS系統(tǒng)、HAR和本發(fā)明三種方法進行仿真,對三種方法下訪問10000個小文件耗費的總時間進行統(tǒng)計,計算出訪問一個小文件的平均訪問時間,最終得到訪問效率比較圖。由圖3可見,通過對三種方法下對10000個小文件訪問時間即縱坐標的比較可知,本發(fā)明方法和原始HDFS及HAR相比,其平均訪問時間MPM大大減小,訪問效率較高。
[0088]仿真結果表明:本發(fā)明由于采用了獨立于原HDFS系統(tǒng)的小文件處理服務器來單獨處理小文件的合并、映射、預取等,減輕了 NameNode的負載,提高了 HDFS對小文件的存儲訪問效率,同時保證了系統(tǒng)的通用性。
【權利要求】
1.一種基于Hadoop分布式文件系統(tǒng)的小文件存儲方法,包括如下步驟: (1)新增兩臺服務器: 在Hadoop分布式文件系統(tǒng)HDFS之外,新增一臺用于監(jiān)聽文件讀寫請求的網(wǎng)絡服務器Websever,新增一臺用于處理小文件的小文件處理服務器; (2)判斷文件是否是小文件: 網(wǎng)絡服務器Websever判斷監(jiān)聽到的請求文件是否是小于16M的文件,若小于16M則被視為小文件,執(zhí)行步驟(4),否則,視為大文件,執(zhí)行步驟(3); (3)判斷大文件請求狀態(tài): 網(wǎng)絡服務器Websever判斷監(jiān)聽到的大文件讀寫請求狀態(tài),若是大文件寫入請求,執(zhí)行步驟(6);若是大文件讀取請求,執(zhí)行步驟(9); (4)判斷小文件請求狀態(tài): 網(wǎng)絡服務器Websever判斷監(jiān)聽到的小文件讀寫請求狀態(tài),若是小文件寫入請求,執(zhí)行步驟(5),若是小文件讀取請求,執(zhí)行步驟(7); (5)預處理寫請求: 小文件處理服務器,采用文件合并方法,合并請求寫入的小文件,并在合并文件的首部為該小文件建立本地索引,得到合并文件,將合并文件送入Hadoop分布式文件系統(tǒng)HDFS的客戶端; (6)處理寫請求: Hadoop分布式文件系統(tǒng)HDFS的客戶端,將請求寫入的大文件或合并文件,寫入Hadoop分布式文件系統(tǒng)HDFS,完成寫入操作; (7)檢測緩存區(qū): (7a)小文件處理服務器檢測緩存區(qū)中是否存在網(wǎng)絡服務器Websever監(jiān)聽到的讀請求文件記錄,若存在,小文件處理服務器將緩存區(qū)中的讀請求文件取出返回給客戶,完成讀取操作,否則,執(zhí)行步驟(7b); (7b)小文件處理服務器檢測緩存區(qū)中是否存在網(wǎng)絡服務器Websever監(jiān)聽到的讀請求文件的元數(shù)據(jù)信息,若存在,小文件處理模塊直接與HDFS客戶端交互,將小文件從HDFS中取出返回給客戶,完成讀取操作,否則,執(zhí)行步驟(8); (8)預處理讀請求: 根據(jù)小文件和合并文件的文件名,小文件處理服務器將收到的請求讀取的小文件映射到小文件的合并文件中,并將合并文件送入Hadoop分布式文件系統(tǒng)HDFS的客戶端; (9)處理讀請求: Hadoop分布式文件系統(tǒng)HDFS的客戶端,將接收到的請求讀取的大文件或合并文件,從Hadoop分布式文件系統(tǒng)HDFS中讀出,得到合并文件的元數(shù)據(jù)信息與本地索引信息,完成讀取操作; (10)分離小文件: 小文件處理服務器采用小文件分離方法,從Hadoop分布式文件系統(tǒng)HDFS中讀出合并文件,將請求讀取的小文件從合并文件中分離出來返回給用戶,完成讀取操作; (11)建立預取記錄: (Ila)小文件處理模塊從步驟(9)得到的合并文件的元數(shù)據(jù)信息與本地索引信息中,提取每個小文件的文件名、數(shù)據(jù)節(jié)點位置、數(shù)據(jù)塊位置、偏移量offset和文件長度length,建立小文件的元數(shù)據(jù)預取記錄; (Ilb)小文件處理模塊從Hadoop分布式文件系統(tǒng)HDFS中讀取與被請求文件同屬一個塊的小文件,建立該小文件的預取記錄; (12)更新預取記錄: 小文件處理器采用更新預取記錄的方法,更新已經預取的小文件的元數(shù)據(jù)記錄和小文件的預取記錄。
2.根據(jù)權利要求1所述的基于Hadoop分布式文件系統(tǒng)的小文件存儲方法,其特征在于,步驟(5)中所述文件合并方法,按如下步驟進行: 第一步,在收到網(wǎng)絡服務器Websever發(fā)送來的小文件寫入請求后,小文件處理服務器為小文件建立本地索引,并持續(xù)向本地索引中添加新增的小文件本地索引信息; 第二步,小文件處理服務器判斷本地索引和小文件共占內存的大小,是否超過塊block的大小:若不超過,則持續(xù)向該block中添加小文件及其本地索弓丨,否則,新增添一個塊block,繼續(xù)向新的block中添加小文件及其本地索引; 第三步,將本地索引作為合并文件的頭文件,本地索引中偏移量offset,文件長度length數(shù)據(jù)對的值指向小文件在合并文件中的位置,得到小文件的合并文件。
3.根據(jù)權利要求1所述的基于Hadoop分布式文件系統(tǒng)的小文件存儲方法,其特征在于,步驟(10)中所述小文件分離方法,按如下步驟進行: 第一步,小文件處理服務器通過合并文件的元數(shù)據(jù)信息,得到請求讀取文件的本地索引,本地索引中的偏移量offset與文件長度length數(shù)據(jù)對,指向小文件在合并文件中的位置;` 第二步,小文件處理服務器通過小文件在合并文件中的位置,將小文件從合并文件中分離出來。
4.根據(jù)權利要求1所述的基于Hadoop分布式文件系統(tǒng)的小文件存儲方法,其特征在于,步驟(12)所述更新預取記錄的方法,按如下步驟進行: 第一步,在小文件的元數(shù)據(jù)預取記錄和小文件的預取記錄的首部,分別添加一個用于記錄文件訪問頻率的32位的文件訪問標識value ; 第二步,將文件訪問標識value的初始值設為1,以一分鐘為計時單位,若有用戶訪問預取的本地索引文件記錄和預取的小文件記錄時,將文件訪問標識value的值加1,否則,將文件訪問標識value的值減I ; 第三步,當文件訪問標識value的值為O時,將預取信息從小文件處理器的緩存中移除。
【文檔編號】H04L29/08GK103856567SQ201410116155
【公開日】2014年6月11日 申請日期:2014年3月26日 優(yōu)先權日:2014年3月26日
【發(fā)明者】樊凱, 李慧瑩, 李暉 申請人:西安電子科技大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宜章县| 图们市| 云龙县| 巴林右旗| 云霄县| 射阳县| 自贡市| 临西县| 唐海县| 右玉县| 夏津县| 修武县| 肇州县| 钟山县| 嘉定区| 两当县| 都匀市| 桦甸市| 张家界市| 涞源县| 海口市| 苏尼特左旗| 甘谷县| 林甸县| 泾源县| 连平县| 霍山县| 临沂市| 巴塘县| 广南县| 淮阳县| 集安市| 孟津县| 隆德县| 马边| 神木县| 长治市| 惠来县| 天津市| 白银市| 临猗县|