本發(fā)明涉及文件存儲(chǔ)技術(shù)領(lǐng)域,尤其涉及一種基于文件元數(shù)據(jù)的增量備份方法。
背景技術(shù):
近年來(lái),數(shù)字信息是國(guó)際發(fā)展的大趨勢(shì)所在,各國(guó)對(duì)數(shù)字信息化發(fā)展都極為重視,隨著我國(guó)數(shù)字信息化進(jìn)程的不斷推進(jìn),數(shù)字信息呈現(xiàn)爆炸式增長(zhǎng)的態(tài)勢(shì),數(shù)據(jù)占用空間越來(lái)越大,而在歸檔、備份等集中存儲(chǔ)系統(tǒng)中,存在大量的冗余數(shù)據(jù)信息,研究發(fā)現(xiàn),在存儲(chǔ)系統(tǒng)中,保存的數(shù)據(jù)中有高達(dá)60%是冗余的,而且隨著時(shí)間的推移越來(lái)越多,在這種情況下,消除重復(fù)數(shù)據(jù),節(jié)省存儲(chǔ)空間就成為了存儲(chǔ)系統(tǒng)需要解決的關(guān)鍵問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
基于背景技術(shù)存在的技術(shù)問(wèn)題,本發(fā)明提出了一種基于文件元數(shù)據(jù)的增量備份方法。
本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:
一種基于文件元數(shù)據(jù)的增量備份方法,其特征在于,包括步驟:
S1,在目的盤建立一個(gè)當(dāng)前需要備份文件的文件特征表A;
S2,在存儲(chǔ)器中建立一個(gè)文件特征表B,記錄曾經(jīng)拷貝過(guò)的源盤文件的MD5碼值;
S3,將待存儲(chǔ)文件進(jìn)行技術(shù)分塊,計(jì)算分塊后的元數(shù)據(jù)的MD5碼值并記錄在目的盤的文件特征表A中;
S4,比對(duì)文件特征表A和文件特征表B中的MD5碼值,如果在文件特征表B中檢索不到文件特征表A中的MD5碼值,在存儲(chǔ)器內(nèi)進(jìn)行元數(shù)據(jù)的復(fù)制備份,如果在文件特征表A中的MD5碼值與文件特征表B中的MD5碼值一致,則存儲(chǔ)器中不進(jìn)行元數(shù)據(jù)的備份;
S5,更新存儲(chǔ)器中的文件特征表B。
優(yōu)選的,S2中的文件特征表B記錄的元數(shù)據(jù)的屬性包括文件名稱、文件尺寸、文件創(chuàng)建時(shí)間、文件修改時(shí)間、文件自定義元數(shù)據(jù)、文件存儲(chǔ)路徑中的幾種或全部。
優(yōu)選的,S3中的文件特征表A記錄的元數(shù)據(jù)的屬性包括文件名稱、文件尺寸、文件創(chuàng)建時(shí)間、文件修改時(shí)間、文件自定義元數(shù)據(jù)、文件存儲(chǔ)路徑中的幾種或全部。
優(yōu)選的,S4中文件特征表A中的所有MD5碼值均與文件特征表B中的MD5碼值進(jìn)行比對(duì),比對(duì)完成后,文件特征表A中所有與文件特征表B中相同的元數(shù)據(jù)刪除。
優(yōu)選的,S3中采用CDC分塊技術(shù)對(duì)待存儲(chǔ)文件進(jìn)行技術(shù)分塊。
本發(fā)明中提到的MD5,是Message-Digest Algorithm5(消息摘要算法第五版)的簡(jiǎn)稱,是Rivest于1991年對(duì)MD4的改進(jìn)版本,作為當(dāng)前計(jì)算機(jī)領(lǐng)域用于確保信息傳輸完整一致廣泛使用的hash算法,主流編程語(yǔ)言普遍已有MD5的實(shí)現(xiàn)。MD5比MD4來(lái)得復(fù)雜,并且速度較之要慢一些,但更安全,在抗分析和抗差分方面表現(xiàn)更好。
它對(duì)輸入以512位分組,經(jīng)過(guò)計(jì)算流程,生成四個(gè)32位數(shù)據(jù),最后將這四個(gè)值聯(lián)合起來(lái)成為一個(gè)128-bits散列值?;痉绞綖椋呵笥?、取余、調(diào)整長(zhǎng)度、與鏈接變量進(jìn)行循環(huán)運(yùn)算,得出結(jié)果。
本發(fā)明中S3采用的CDC分塊技術(shù)的分塊流程包括:
因?yàn)橛?jì)算滑動(dòng)窗口內(nèi)容的Rabin指紋值函數(shù)足夠離散,其值模D等r的概率的1/D,則從概率分析,每滑動(dòng)D長(zhǎng)度就有一次h模D的值為r,因此變長(zhǎng)塊的期望值為D,當(dāng)然,這只是期望值,劃分的元數(shù)據(jù)仍可能出現(xiàn)過(guò)大或者過(guò)小的情況,CDC分塊技術(shù)將兩個(gè)文件分割為完全相同的元數(shù)據(jù),同時(shí)因?yàn)镽abin函數(shù)有著較好的字符串識(shí)別能力,當(dāng)文件進(jìn)行插入、刪除或者修改操作時(shí),除了變化點(diǎn)之后的少數(shù)斷點(diǎn)需要重新劃分,其他元數(shù)據(jù)的邊界仍然不變,所以不會(huì)出現(xiàn)將文件進(jìn)行一個(gè)小改動(dòng)而分割成完全不同的元數(shù)據(jù),從而找不到重復(fù)內(nèi)容的情況。
本發(fā)明與現(xiàn)有技術(shù)相比較,具有的有益技術(shù)效果:
本發(fā)明采用的是一種基于文件元數(shù)據(jù)的的增量備份方式,首先在存儲(chǔ)器中建立一個(gè)文件特征表B,用于記錄記錄曾經(jīng)拷貝過(guò)的源盤文件的MD5碼值,同時(shí)在目的盤建立一個(gè)文件特征表A,文件特征表A的屬性與文件特征表B相同,采用CDC分塊技術(shù)對(duì)待存儲(chǔ)文件進(jìn)行技術(shù)分塊,計(jì)算分塊后的元數(shù)據(jù)的MD5碼值并記錄到文件特征表A中,比對(duì)文件特征表A和文件特征表B中的MD5碼值,如果在文件特征表B中檢索不到文件特征表A中的MD5碼值,在存儲(chǔ)器內(nèi)進(jìn)行元數(shù)據(jù)的復(fù)制備份,如果在文件特征表A中的MD5碼值與文件特征表B中的MD5碼值一致,則存儲(chǔ)器中不進(jìn)行元數(shù)據(jù)的備份,最后,存儲(chǔ)器中的文件特征表B進(jìn)行更新,為下一次備份做準(zhǔn)備,與傳統(tǒng)技術(shù)相比較,增量備份方式可以幫助消除文件之間的重復(fù)數(shù)據(jù),在更大程度上縮減數(shù)據(jù)占用空間,緩解存儲(chǔ)系統(tǒng)的空間增長(zhǎng)問(wèn)題,最大程度地利用已有資源,降低存儲(chǔ)成本。
附圖說(shuō)明
圖1顯示為本發(fā)明提出的一種基于文件元數(shù)據(jù)的的增量備份方式的具體實(shí)施例的流程方框示意圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步解說(shuō)。
一種基于文件元數(shù)據(jù)的增量備份方法,S1,在目的盤建立一個(gè)當(dāng)前需要備份文件的文件特征表A;S2,在存儲(chǔ)器中建立一個(gè)文件特征表B,記錄曾經(jīng)拷貝過(guò)的源盤文件的MD5碼值;S3,將待存儲(chǔ)文件進(jìn)行技術(shù)分塊,計(jì)算分塊后的元數(shù)據(jù)的MD5碼值并記錄在目的盤的文件特征表A中;S4,比對(duì)文件特征表A和文件特征表B中的MD5碼值,如果在文件特征表B中檢索不到文件特征表A中的MD5碼值,在存儲(chǔ)器內(nèi)進(jìn)行元數(shù)據(jù)的復(fù)制備份,如果在文件特征表A中的MD5碼值與文件特征表B中的MD5碼值一致,則存儲(chǔ)器中不進(jìn)行元數(shù)據(jù)的備份;S5,更新存儲(chǔ)器中的文件特征表B,為下一次備份做準(zhǔn)備。
本發(fā)明中提到的MD5,是Message-Digest Algorithm5(消息摘要算法第五版)的簡(jiǎn)稱,是Rivest于1991年對(duì)MD4的改進(jìn)版本,作為當(dāng)前計(jì)算機(jī)領(lǐng)域用于確保信息傳輸完整一致廣泛使用的hash算法,主流編程語(yǔ)言普遍已有MD5的實(shí)現(xiàn)。MD5比MD4來(lái)得復(fù)雜,并且速度較之要慢一些,但更安全,在抗分析和抗差分方面表現(xiàn)更好。
它對(duì)輸入以512位分組,經(jīng)過(guò)計(jì)算流程,生成四個(gè)32位數(shù)據(jù),最后將這四個(gè)值聯(lián)合起來(lái)成為一個(gè)128-bits散列值?;痉绞綖椋呵笥唷⑷∮?、調(diào)整長(zhǎng)度、與鏈接變量進(jìn)行循環(huán)運(yùn)算,得出結(jié)果。
本發(fā)明中S3采用的CDC分塊技術(shù)的分塊流程包括:
因?yàn)橛?jì)算滑動(dòng)窗口內(nèi)容的Rabin指紋值函數(shù)足夠離散,其值模D等r的概率的1/D,則從概率分析,每滑動(dòng)D長(zhǎng)度就有一次h模D的值為r,因此變長(zhǎng)塊的期望值為D,當(dāng)然,這只是期望值,劃分的元數(shù)據(jù)仍可能出現(xiàn)過(guò)大或者過(guò)小的情況,CDC分塊技術(shù)將兩個(gè)文件分割為完全相同的元數(shù)據(jù),同時(shí)因?yàn)镽abin函數(shù)有著較好的字符串識(shí)別能力,當(dāng)文件進(jìn)行插入、刪除或者修改操作時(shí),除了變化點(diǎn)之后的少數(shù)斷點(diǎn)需要重新劃分,其他元數(shù)據(jù)的邊界仍然不變,所以不會(huì)出現(xiàn)將文件進(jìn)行一個(gè)小改動(dòng)而分割成完全不同的元數(shù)據(jù),從而找不到重復(fù)內(nèi)容的情況。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。