本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及數(shù)據(jù)刪除方法及裝置。
背景技術(shù):
隨著社會數(shù)字網(wǎng)絡(luò)信息化進(jìn)程的不斷推進(jìn),全球it企業(yè)管理的數(shù)據(jù)量集劇增長,當(dāng)前大規(guī)模的數(shù)據(jù)中心對復(fù)雜數(shù)據(jù)的管理在擴(kuò)展性、性能和成本等方面要求在不斷的提升。為了減緩企業(yè)存儲容量的增長,傳統(tǒng)的重復(fù)數(shù)據(jù)刪除存儲管理技術(shù)和方法已無法滿足大數(shù)據(jù)備份應(yīng)用的服務(wù)質(zhì)量需求,新的軟硬件技術(shù)進(jìn)步為大數(shù)據(jù)管理能力的提升帶來機(jī)遇。
目前市場上大部分的重復(fù)數(shù)據(jù)刪除系統(tǒng),為了識別冗余數(shù)據(jù)塊和定位數(shù)據(jù)塊,必須依賴基于指紋的元數(shù)據(jù)索引算法,尤其是在大數(shù)據(jù)存儲環(huán)境下,代表數(shù)據(jù)的指紋數(shù)量也比較龐大,系統(tǒng)需要付出昂貴的成本來維護(hù)該指紋數(shù)據(jù)結(jié)構(gòu)來保證重刪性能。雖然這些技術(shù)能有效減少系統(tǒng)中的冗余數(shù)據(jù),但是其主要思路是采用數(shù)據(jù)源局部性特征來改善重刪性能,在分布式存儲中局部性特征并不明顯,無法有效合理的刪除數(shù)據(jù),導(dǎo)致冗余數(shù)據(jù)刪除不夠徹底,占用存儲空間。
上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的在于提供一種數(shù)據(jù)刪除方法及裝置,旨在解決目前重復(fù)數(shù)據(jù)刪除的主要思路是采用數(shù)據(jù)源局部性特征來改善重刪性能,在分布式存儲中局部性特征并不明顯,無法有效合理的刪除數(shù)據(jù),導(dǎo)致冗余數(shù)據(jù)刪除不夠徹底,占用存儲空間的問題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種數(shù)據(jù)刪除方法,包括步驟:
獲取待處理數(shù)據(jù);
確定待處理數(shù)據(jù)中相互匹配的對象;
比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);
將所確定的重復(fù)的數(shù)據(jù)刪除。
優(yōu)選地,所述獲取待處理數(shù)據(jù)的步驟包括:
確定數(shù)據(jù)刪除的模式;
在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);
在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。
優(yōu)選地,所述獲取待處理數(shù)據(jù)之前,還包括:
接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;
將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。
優(yōu)選地,所述確定待處理數(shù)據(jù)中相互匹配的對象的步驟包括:
確定所述待存儲數(shù)據(jù)中包含的對象;
將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象。
優(yōu)選地,所述比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù)的步驟包括:
比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);
從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。
此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種數(shù)據(jù)刪除裝置,包括:
獲取模塊,用于獲取待處理數(shù)據(jù);
確定模塊,用于提取待處理數(shù)據(jù)中相互匹配的對象;
比對模塊,用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);
刪除模塊,用于將所確定的重復(fù)的數(shù)據(jù)刪除。
優(yōu)選地,所述獲取模塊包括
確定單元,用于確定數(shù)據(jù)刪除的模式;
獲取單元,用于在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);獲取單元還用于
在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。
優(yōu)選地,所述裝置還包括:
處理模塊,用于接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;
存儲模塊,用于將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。
優(yōu)選地,所述確定模塊,還用于確定所述待存儲數(shù)據(jù)中包含的對象;確定模塊還用于
將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象。
優(yōu)選地,所述比對模塊,還用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);比對模塊還用于
從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。
本發(fā)明提出一種基于對象的重復(fù)數(shù)據(jù)刪除方式,有效解決了局部特征不足的缺陷,利用對象找出相互匹配的對象間重復(fù)的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),實(shí)現(xiàn)單個節(jié)點(diǎn)內(nèi)高性能的并行數(shù)據(jù)重刪處理,擴(kuò)展數(shù)據(jù)重刪的吞吐量。有效合理的刪除數(shù)據(jù),提高存儲空間。
附圖說明
圖1為本發(fā)明數(shù)據(jù)刪除方法的一實(shí)施例的流程示意圖;
圖2為本發(fā)明一實(shí)施例中獲取待處理數(shù)據(jù)的流程示意圖;
圖3為本發(fā)明一實(shí)施例中數(shù)據(jù)存儲的流程示意圖;
圖4為本發(fā)明一實(shí)施例中確定重復(fù)數(shù)據(jù)的流程示意圖;
圖5為本發(fā)明一實(shí)施例中重復(fù)數(shù)據(jù)刪除的架構(gòu)圖;
圖6為本發(fā)明一實(shí)施例中數(shù)據(jù)刪除的原理圖;
圖7為本發(fā)明數(shù)據(jù)刪除裝置的一實(shí)施例的功能模塊示意圖;
圖8為本發(fā)明圖7中獲取模塊一實(shí)施例的細(xì)化功能模塊示意圖。
本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。
具體實(shí)施方式
應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
本發(fā)明提供一種數(shù)據(jù)刪除方法。
參照圖1,圖1為本發(fā)明數(shù)據(jù)刪除方法的一實(shí)施例的流程示意圖。
在一實(shí)施例中,所述數(shù)據(jù)刪除方法包括:
步驟s10,獲取待處理數(shù)據(jù);
在本實(shí)施例中,在有數(shù)據(jù)需要處理時,被處理的數(shù)據(jù)為待處理數(shù)據(jù),例如,在需要刪除數(shù)據(jù)時,待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù);或者,再例如,在需要刪除數(shù)據(jù)時,歷史數(shù)據(jù)和當(dāng)前待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù)。參考圖2,所述獲取待處理數(shù)據(jù)的方式包括:
步驟s11,確定數(shù)據(jù)刪除的模式;
步驟s12,在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);
步驟s13,在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。
數(shù)據(jù)刪除模式包括定時刪除模式和實(shí)時刪除模式。數(shù)據(jù)刪除模式的設(shè)置在系統(tǒng)開啟后由用戶設(shè)置,或者以默認(rèn)的刪除模式運(yùn)行。在需要刪除數(shù)據(jù)時,確定數(shù)據(jù)刪除的模式,例如,確定為定時刪除模式,或者確定為實(shí)時刪除模式。在確定為實(shí)時刪除模式時,將歷史數(shù)據(jù)與當(dāng)前的數(shù)據(jù)作為待處理數(shù)據(jù),或者說可以直接將當(dāng)前數(shù)據(jù)作為待處理數(shù)據(jù);在確定為定時刪除模式時,將當(dāng)前存儲的所有數(shù)據(jù)為待處理數(shù)據(jù),或者在上一時間節(jié)點(diǎn)之前到現(xiàn)在時間節(jié)點(diǎn)之間所存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。上述實(shí)時和定時刪除模式下待處理數(shù)據(jù)的定義為用戶設(shè)置或系統(tǒng)默認(rèn),為其中對應(yīng)的一種定義方式。在需要刪除數(shù)據(jù)時,按照設(shè)置的方式獲取待處理數(shù)據(jù)。
步驟s20,確定待處理數(shù)據(jù)中相互匹配的對象;
在數(shù)據(jù)存儲時,數(shù)據(jù)存儲的方式為按照對象的方式存儲,即,根據(jù)對象對數(shù)據(jù)歸類,然后分別存儲對應(yīng)對象的數(shù)據(jù),即,接收客戶端的數(shù)據(jù),按照接收的數(shù)據(jù)的對象分類,分別存儲在分布式存儲系統(tǒng)中。參考圖3,數(shù)據(jù)存儲的過程包括:
步驟s21,接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;
步驟s22,將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。
接收客戶端發(fā)送來的數(shù)據(jù),將客戶端的數(shù)據(jù)切片,即,將客戶端傳輸過來的數(shù)據(jù)分成若干個小數(shù)據(jù)塊,在我們的分布式存儲系統(tǒng)中會將每個數(shù)據(jù)塊切分為128m(根據(jù)需求不同或者系統(tǒng)性能設(shè)置或根據(jù)傳輸數(shù)據(jù)的總大小設(shè)置,例如,可還設(shè)置為64m或256m等),發(fā)送給數(shù)據(jù)存儲系統(tǒng)。在將數(shù)據(jù)切片后,數(shù)據(jù)傳輸穩(wěn)定性和可靠性增加,因在網(wǎng)絡(luò)狀況不好的情況下,如果不將數(shù)據(jù)切分為若干個數(shù)據(jù)塊,一次性傳輸大量的數(shù)據(jù),數(shù)據(jù)在傳輸過程中會進(jìn)行多次數(shù)據(jù)校驗(yàn),增加了傳輸?shù)臅r間,同時還會造成數(shù)據(jù)的丟失或者數(shù)據(jù)北阻塞,影響了數(shù)據(jù)的穩(wěn)定性以及可靠性。
以對象的方式將切片數(shù)據(jù)存儲到分布式系統(tǒng)中,對象存儲的特點(diǎn)是將有效的數(shù)據(jù)和指紋索引組成數(shù)據(jù)結(jié)構(gòu)的形式存儲到緩存中,再將整個對象通過網(wǎng)絡(luò)傳輸?shù)酱鎯ο到y(tǒng)中,這樣便建立了數(shù)據(jù)與指紋索引之間的相互關(guān)系,方便后續(xù)數(shù)據(jù)的查找與獲取數(shù)據(jù)等操作。
步驟s30,比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);
在實(shí)時刪除模式時,當(dāng)接收到數(shù)據(jù)時對當(dāng)前接收到的數(shù)據(jù)進(jìn)行校驗(yàn),對比歷史數(shù)據(jù)和當(dāng)前接收到的數(shù)據(jù),找出當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)的相似性,即,找到相似的數(shù)據(jù);在為定時刪除模式時,在定時的時間達(dá)到時,確定相似數(shù)據(jù)的方式與實(shí)時刪除的方式相同,但對比的數(shù)據(jù)為待處理數(shù)據(jù),例如,為整個已存儲的數(shù)據(jù),或者是將上一時間節(jié)點(diǎn)到當(dāng)前已存儲的數(shù)據(jù),與上一時間節(jié)點(diǎn)之前已存儲的數(shù)據(jù)對比,找到相似的數(shù)據(jù)。
具體的,確定重復(fù)數(shù)據(jù)的過程包括:
步驟s31,確定所述待存儲數(shù)據(jù)中包含的對象;
步驟s32,將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象;
步驟s33,比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);
步驟s34,從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。
在做實(shí)時或定時數(shù)據(jù)刪除的過程中,將不同的對象加入到一個索引指紋隊(duì)列中,先進(jìn)行對象指紋比對,將相似度較高(相似度大于預(yù)設(shè)閾值,例如,預(yù)設(shè)閾值為80%相似或70%相似等)的對象通過hash算法抽取出來,然后根據(jù)md5算法來計算數(shù)據(jù)的正確性,發(fā)現(xiàn)數(shù)據(jù)在沒有修改的情況下,且數(shù)據(jù)存在相同的拷貝,則表明找到重復(fù)的數(shù)據(jù),將找到的重復(fù)的數(shù)據(jù)作為相互匹配的對象間重復(fù)的數(shù)據(jù)。
步驟s40,將所確定的重復(fù)的數(shù)據(jù)刪除。
將重復(fù)的數(shù)據(jù)刪除,即,將冗余的數(shù)據(jù)刪掉,節(jié)省了大量的存儲空間,提高了磁盤的存儲容量,因存儲容量提高,提高存儲的效率。
為了更好的描述本發(fā)明實(shí)施例,參考圖5,為本發(fā)明重復(fù)數(shù)據(jù)刪除的架構(gòu)圖,參考圖6,為數(shù)據(jù)刪除的原理圖。
本實(shí)施例提出一種基于對象的重復(fù)數(shù)據(jù)刪除方式,有效解決了局部特征不足的缺陷,利用對象找出相互匹配的對象間重復(fù)的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),實(shí)現(xiàn)單個節(jié)點(diǎn)內(nèi)高性能的并行數(shù)據(jù)重刪處理,擴(kuò)展數(shù)據(jù)重刪的吞吐量。有效合理的刪除數(shù)據(jù),提高存儲空間。
本發(fā)明進(jìn)一步提供一種數(shù)據(jù)刪除裝置。
參照圖7,圖7為本發(fā)明數(shù)據(jù)刪除裝置的一實(shí)施例的功能模塊示意圖。
在一實(shí)施例中,所述數(shù)據(jù)刪除裝置包括:獲取模塊10、確定模塊20、處理模塊30、存儲模塊40、比對模塊50及刪除模塊60。
所述獲取模塊10,用于獲取待處理數(shù)據(jù);
在本實(shí)施例中,在有數(shù)據(jù)需要處理時,被處理的數(shù)據(jù)為待處理數(shù)據(jù),例如,在需要刪除數(shù)據(jù)時,待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù);或者,再例如,在需要刪除數(shù)據(jù)時,歷史數(shù)據(jù)和當(dāng)前待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù)。參考圖8,所述獲取模塊10包括:確定單元11和獲取單元12,
所述確定單元11,用于確定數(shù)據(jù)刪除的模式;
所述獲取單元12,用于在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);獲取單元12還用于
在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。
數(shù)據(jù)刪除模式包括定時刪除模式和實(shí)時刪除模式。數(shù)據(jù)刪除模式的設(shè)置在系統(tǒng)開啟后由用戶設(shè)置,或者以默認(rèn)的刪除模式運(yùn)行。在需要刪除數(shù)據(jù)時,確定數(shù)據(jù)刪除的模式,例如,確定為定時刪除模式,或者確定為實(shí)時刪除模式。在確定為實(shí)時刪除模式時,將歷史數(shù)據(jù)與當(dāng)前的數(shù)據(jù)作為待處理數(shù)據(jù),或者說可以直接將當(dāng)前數(shù)據(jù)作為待處理數(shù)據(jù);在確定為定時刪除模式時,將當(dāng)前存儲的所有數(shù)據(jù)為待處理數(shù)據(jù),或者在上一時間節(jié)點(diǎn)之前到現(xiàn)在時間節(jié)點(diǎn)之間所存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。上述實(shí)時和定時刪除模式下待處理數(shù)據(jù)的定義為用戶設(shè)置或系統(tǒng)默認(rèn),為其中對應(yīng)的一種定義方式。在需要刪除數(shù)據(jù)時,按照設(shè)置的方式獲取待處理數(shù)據(jù)。
所述確定模塊20,用于確定待處理數(shù)據(jù)中相互匹配的對象;
在數(shù)據(jù)存儲時,數(shù)據(jù)存儲的方式為按照對象的方式存儲,即,根據(jù)對象對數(shù)據(jù)歸類,然后分別存儲對應(yīng)對象的數(shù)據(jù),即,接收客戶端的數(shù)據(jù),按照接收的數(shù)據(jù)的對象分類,分別存儲在分布式存儲系統(tǒng)中。
所述處理模塊30,用于接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;
所述存儲模塊40,用于將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。
接收客戶端發(fā)送來的數(shù)據(jù),將客戶端的數(shù)據(jù)切片,即,將客戶端傳輸過來的數(shù)據(jù)分成若干個小數(shù)據(jù)塊,在我們的分布式存儲系統(tǒng)中會將每個數(shù)據(jù)塊切分為128m(根據(jù)需求不同或者系統(tǒng)性能設(shè)置或根據(jù)傳輸數(shù)據(jù)的總大小設(shè)置,例如,可還設(shè)置為64m或256m等),發(fā)送給數(shù)據(jù)存儲系統(tǒng)。在將數(shù)據(jù)切片后,數(shù)據(jù)傳輸穩(wěn)定性和可靠性增加,因在網(wǎng)絡(luò)狀況不好的情況下,如果不將數(shù)據(jù)切分為若干個數(shù)據(jù)塊,一次性傳輸大量的數(shù)據(jù),數(shù)據(jù)在傳輸過程中會進(jìn)行多次數(shù)據(jù)校驗(yàn),增加了傳輸?shù)臅r間,同時還會造成數(shù)據(jù)的丟失或者數(shù)據(jù)北阻塞,影響了數(shù)據(jù)的穩(wěn)定性以及可靠性。
以對象的方式將切片數(shù)據(jù)存儲到分布式系統(tǒng)中,對象存儲的特點(diǎn)是將有效的數(shù)據(jù)和指紋索引組成數(shù)據(jù)結(jié)構(gòu)的形式存儲到緩存中,再將整個對象通過網(wǎng)絡(luò)傳輸?shù)酱鎯ο到y(tǒng)中,這樣便建立了數(shù)據(jù)與指紋索引之間的相互關(guān)系,方便后續(xù)數(shù)據(jù)的查找與獲取數(shù)據(jù)等操作。
所述比對模塊50,用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);
在實(shí)時刪除模式時,當(dāng)接收到數(shù)據(jù)時對當(dāng)前接收到的數(shù)據(jù)進(jìn)行校驗(yàn),對比歷史數(shù)據(jù)和當(dāng)前接收到的數(shù)據(jù),找出當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)的相似性,即,找到相似的數(shù)據(jù);在為定時刪除模式時,在定時的時間達(dá)到時,確定相似數(shù)據(jù)的方式與實(shí)時刪除的方式相同,但對比的數(shù)據(jù)為待處理數(shù)據(jù),例如,為整個已存儲的數(shù)據(jù),或者是將上一時間節(jié)點(diǎn)到當(dāng)前已存儲的數(shù)據(jù),與上一時間節(jié)點(diǎn)之前已存儲的數(shù)據(jù)對比,找到相似的數(shù)據(jù)。
所述確定模塊20,還用于確定所述待存儲數(shù)據(jù)中包含的對象;確定模塊20還用于
將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象;
所述比對模塊50,還用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);比對模塊50還用于
從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。
在做實(shí)時或定時數(shù)據(jù)刪除的過程中,將不同的對象加入到一個索引指紋隊(duì)列中,先進(jìn)行對象指紋比對,將相似度較高(相似度大于預(yù)設(shè)閾值,例如,預(yù)設(shè)閾值為80%相似或70%相似等)的對象通過hash算法抽取出來,然后根據(jù)md5算法來計算數(shù)據(jù)的正確性,發(fā)現(xiàn)數(shù)據(jù)在沒有修改的情況下,且數(shù)據(jù)存在相同的拷貝,則表明找到重復(fù)的數(shù)據(jù),將找到的重復(fù)的數(shù)據(jù)作為相互匹配的對象間重復(fù)的數(shù)據(jù)。
所述刪除模塊60,用于將所確定的重復(fù)的數(shù)據(jù)刪除。
將重復(fù)的數(shù)據(jù)刪除,即,將冗余的數(shù)據(jù)刪掉,節(jié)省了大量的存儲空間,提高了磁盤的存儲容量,因存儲容量提高,提高存儲的效率。
為了更好的描述本發(fā)明實(shí)施例,參考圖5,為本發(fā)明重復(fù)數(shù)據(jù)刪除的架構(gòu)圖,參考圖6,為數(shù)據(jù)刪除的原理圖。
本實(shí)施例提出一種基于對象的重復(fù)數(shù)據(jù)刪除方式,有效解決了局部特征不足的缺陷,利用對象找出相互匹配的對象間重復(fù)的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),實(shí)現(xiàn)單個節(jié)點(diǎn)內(nèi)高性能的并行數(shù)據(jù)重刪處理,擴(kuò)展數(shù)據(jù)重刪的吞吐量。有效合理的刪除數(shù)據(jù),提高存儲空間。
以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。