一種海量文件的快速備份與恢復(fù)的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)存儲和備份技術(shù)領(lǐng)域,具體支持海量文件的快速備份與恢復(fù)的方法。
【背景技術(shù)】
[0002]在互聯(lián)網(wǎng)快速發(fā)展與云計算時代到來的背景下,基于以文件為中心的存儲基礎(chǔ)架構(gòu)而運行的應(yīng)用(Web服務(wù)器、電子郵件、電子記錄、電子檔案、數(shù)字媒體)在企業(yè)數(shù)據(jù)中正占據(jù)越來越高的比例。IDC認為,全球存儲市場總出貨量80%將用來存儲非結(jié)構(gòu)化數(shù)據(jù),即文件數(shù)據(jù)。隨著這些海量文件數(shù)據(jù)的增長,其數(shù)據(jù)備份也成為一個難題。
[0003]傳統(tǒng)海量文件備份恢復(fù)的方法,首先要進行完整備份,將所有要備份的文件打包到一個壓縮文件中,并保存?zhèn)浞莸奈募獢?shù)據(jù)信息(源位置、源文件名、修改時間、源大小)到數(shù)據(jù)庫或類似數(shù)據(jù)庫技術(shù)的文件中;接著進行增量備份時,將現(xiàn)有文件信息與保存的備份文件元數(shù)據(jù)信息進行比較,找到已經(jīng)改變的文件進行打包到壓縮文件中,并再次保留增量文件的元數(shù)據(jù)信息。在進行恢復(fù)時,首先要恢復(fù)完整備份,再恢復(fù)要恢復(fù)時間點之前的所有增量備份,獲得相應(yīng)時間點的文件。
[0004]傳統(tǒng)海量文件備份恢復(fù)存在如下問題:
[0005](I)需要備份的文件數(shù)量越多,存放備份文件元數(shù)據(jù)信息的文件過大,如果采用小型數(shù)據(jù)庫存放元數(shù)據(jù),可能效率太低,采用大型數(shù)據(jù)庫會有版權(quán)問題。自行設(shè)計結(jié)構(gòu)存放,則備份時需要耗費很大系統(tǒng)資源,并且設(shè)計數(shù)據(jù)結(jié)構(gòu)時容易存在瓶頸。
[0006](2)判斷增量文件時需要結(jié)合完整備份與所有增量備份的元數(shù)據(jù)信息,隨著增量備份的數(shù)量增多,越來越慢。
[0007](3)恢復(fù)時需要先恢復(fù)完整備份,再恢復(fù)增量備份,所以恢復(fù)到離完整備份近的備份點速度快,恢復(fù)到離當前時間近的備份點速度慢。
[0008](4)備份的數(shù)據(jù)格式不透明,必須通過恢復(fù)操作才能使用。
【發(fā)明內(nèi)容】
[0009]本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)中的不足,提出了支持海量文件的快速備份與恢復(fù)的方法。
[0010]本發(fā)明所涉及的支持海量文件的快速備份與恢復(fù)的方法,其主要技術(shù)步驟包括:
[0011]備份步驟:
[0012](I)先創(chuàng)建一個空的最新備份文件目錄,進行完整備份,完整備份操作過程與一次增量備份操作過程一致。
[0013](2)增量備份時,創(chuàng)建一個空的增量備份時間點目錄,在增量備份時間點目錄存放備份文件元數(shù)據(jù)信息(源位置、文件名、修改時間、文件大小)列表,此文件僅在恢復(fù)時需要讀取。
[0014](3)枚舉要備份的文件,通過對需要備份的文件和最新備份文件目錄中直接定位的備份文件進行對比(修改時間、文件大小),發(fā)現(xiàn)文件增加、修改、刪除時進行增量備份操作。在文件元數(shù)據(jù)信息列表中記錄要備份文件的元數(shù)據(jù)信息。
[0015](4)增量備份操作過程如下:
[0016]文件增加,拷貝到最新備份文件目錄,在最新備份文件目錄中保持文件的目錄結(jié)構(gòu)不變;
[0017]文件刪除,移動文件到上一個增量備份時間點目錄,在增量備份時間點目錄中保持文件的目錄結(jié)構(gòu)不變;
[0018]文件修改,移動文件到上一個增量備份時間點目錄,拷貝當前文件到最新備份文件目錄,在最新備份文件目錄和增量備份時間點目錄中保持文件的目錄結(jié)構(gòu)不變;
[0019]更新當前增量備份時間點目錄中的元數(shù)據(jù)信息列表,同時記錄已經(jīng)備份的文件數(shù)與文件總數(shù)據(jù)量;
[0020]當備份版本數(shù)已經(jīng)到限制數(shù)量時,將最早的增量備份時間點目錄進行刪除。
[0021]恢復(fù)步驟:
[0022](I)讀取指定增量備份時間點中的文件元數(shù)據(jù)信息列表;
[0023](2)根據(jù)文件元數(shù)據(jù)信息列表中的文件恢復(fù)指定的文件;
[0024](3)先從當前增量備份時間點目錄中找文件,如果找不到,則到后一個增量備份時間點目錄中尋找,最后是最新備份文件目錄。
[0025]與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點:
[0026]1.不在數(shù)據(jù)庫或類似數(shù)據(jù)庫技術(shù)的文件中記錄備份文件元數(shù)據(jù)信息,減少系統(tǒng)資源消耗。在可以備份的文件數(shù)量上不會存在設(shè)計瓶頸。理論上文件系統(tǒng)可以存放多少文件,就可以備份多少文件。
[0027]2.隨著增量備份的數(shù)量增多,在查找本次備份改變的文件上速度不會變慢。因為每次查找改變的文件都只是需要備份源文件與最新備份文件目錄中的文件之間的比較。
[0028]3.通過要恢復(fù)的時間點中的元數(shù)據(jù)信息列表就可以快速找到需要恢復(fù)的文件,恢復(fù)到最新時間點近的備份點速度快,更加符合實際的使用需求。
[0029]4.可以快速的獲取最新備份時間點的數(shù)據(jù),對于某些特定應(yīng)用(如PACS數(shù)據(jù)服務(wù)器、電子檔案服務(wù)器),將其數(shù)據(jù)存儲路徑指定為最新備份文件所在目錄,就可以方便的進行數(shù)據(jù)恢復(fù)驗證或數(shù)據(jù)臨時接替。
【附圖說明】
[0030]圖1是海量文件備份與恢復(fù)的方法結(jié)構(gòu)圖
[0031]圖2是備份原理圖
[0032]圖3是恢復(fù)原理圖
[0033]圖4是備份實施示意圖
[0034]具體實施方法
[0035]下面結(jié)合附圖對本發(fā)明的實施例作詳細說明,本實施例在以本發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。
[0036]下面結(jié)合附圖對本發(fā)明的技術(shù)方案進行詳細說明。
[0037]1.海量文件備份與恢復(fù)的方法結(jié)構(gòu)如圖1所示,整個備份集由最新備份文件目錄,增量備份時間點目錄組成。
[0038]2.備份原理如圖2所示,
[0039]首先,創(chuàng)建一個空的最新備份文件目錄,然后進行完整備份,完整備份的過程與增量備份過程是一致的。
[0040]當增量備份的時間點到來時,創(chuàng)建空的增量備份時間點目錄,枚舉要備份的文件,通過對需要備份的文件和最新備份文件目錄中直接定位的備份文件進行對比(修改時間、文件大小),發(fā)現(xiàn)文件增加、修改、刪除時進行增量備份操作。在文件元數(shù)據(jù)信息列表中記錄要備份文件的元數(shù)據(jù)信息。
[0041]增量備份操作過程如下:
[0042]文件增加,拷貝到最新備份文件目錄,在最新備份文件目錄中保持文件的目錄結(jié)構(gòu)不變;
[0043]文件刪除,移動文件到上一個增量備份時間點目錄,在增量備份時間點目錄中保持文件的目錄結(jié)構(gòu)不變;
[0044]文件修改,移動文件到上一個增量備份時間點目錄,拷貝當前文件到最新備份文件目錄,在最新備份