欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)刪除方法及裝置與流程

文檔序號:11653889閱讀:443來源:國知局
數(shù)據(jù)刪除方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及數(shù)據(jù)刪除方法及裝置。



背景技術(shù):

隨著社會數(shù)字網(wǎng)絡(luò)信息化進(jìn)程的不斷推進(jìn),全球it企業(yè)管理的數(shù)據(jù)量集劇增長,當(dāng)前大規(guī)模的數(shù)據(jù)中心對復(fù)雜數(shù)據(jù)的管理在擴(kuò)展性、性能和成本等方面要求在不斷的提升。為了減緩企業(yè)存儲容量的增長,傳統(tǒng)的重復(fù)數(shù)據(jù)刪除存儲管理技術(shù)和方法已無法滿足大數(shù)據(jù)備份應(yīng)用的服務(wù)質(zhì)量需求,新的軟硬件技術(shù)進(jìn)步為大數(shù)據(jù)管理能力的提升帶來機(jī)遇。

目前市場上大部分的重復(fù)數(shù)據(jù)刪除系統(tǒng),為了識別冗余數(shù)據(jù)塊和定位數(shù)據(jù)塊,必須依賴基于指紋的元數(shù)據(jù)索引算法,尤其是在大數(shù)據(jù)存儲環(huán)境下,代表數(shù)據(jù)的指紋數(shù)量也比較龐大,系統(tǒng)需要付出昂貴的成本來維護(hù)該指紋數(shù)據(jù)結(jié)構(gòu)來保證重刪性能。雖然這些技術(shù)能有效減少系統(tǒng)中的冗余數(shù)據(jù),但是其主要思路是采用數(shù)據(jù)源局部性特征來改善重刪性能,在分布式存儲中局部性特征并不明顯,無法有效合理的刪除數(shù)據(jù),導(dǎo)致冗余數(shù)據(jù)刪除不夠徹底,占用存儲空間。

上述內(nèi)容僅用于輔助理解本發(fā)明的技術(shù)方案,并不代表承認(rèn)上述內(nèi)容是現(xiàn)有技術(shù)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的主要目的在于提供一種數(shù)據(jù)刪除方法及裝置,旨在解決目前重復(fù)數(shù)據(jù)刪除的主要思路是采用數(shù)據(jù)源局部性特征來改善重刪性能,在分布式存儲中局部性特征并不明顯,無法有效合理的刪除數(shù)據(jù),導(dǎo)致冗余數(shù)據(jù)刪除不夠徹底,占用存儲空間的問題。

為實(shí)現(xiàn)上述目的,本發(fā)明提供的一種數(shù)據(jù)刪除方法,包括步驟:

獲取待處理數(shù)據(jù);

確定待處理數(shù)據(jù)中相互匹配的對象;

比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);

將所確定的重復(fù)的數(shù)據(jù)刪除。

優(yōu)選地,所述獲取待處理數(shù)據(jù)的步驟包括:

確定數(shù)據(jù)刪除的模式;

在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);

在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。

優(yōu)選地,所述獲取待處理數(shù)據(jù)之前,還包括:

接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;

將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。

優(yōu)選地,所述確定待處理數(shù)據(jù)中相互匹配的對象的步驟包括:

確定所述待存儲數(shù)據(jù)中包含的對象;

將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象。

優(yōu)選地,所述比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù)的步驟包括:

比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);

從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。

此外,為實(shí)現(xiàn)上述目的,本發(fā)明還提供一種數(shù)據(jù)刪除裝置,包括:

獲取模塊,用于獲取待處理數(shù)據(jù);

確定模塊,用于提取待處理數(shù)據(jù)中相互匹配的對象;

比對模塊,用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);

刪除模塊,用于將所確定的重復(fù)的數(shù)據(jù)刪除。

優(yōu)選地,所述獲取模塊包括

確定單元,用于確定數(shù)據(jù)刪除的模式;

獲取單元,用于在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);獲取單元還用于

在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。

優(yōu)選地,所述裝置還包括:

處理模塊,用于接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;

存儲模塊,用于將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。

優(yōu)選地,所述確定模塊,還用于確定所述待存儲數(shù)據(jù)中包含的對象;確定模塊還用于

將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象。

優(yōu)選地,所述比對模塊,還用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);比對模塊還用于

從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。

本發(fā)明提出一種基于對象的重復(fù)數(shù)據(jù)刪除方式,有效解決了局部特征不足的缺陷,利用對象找出相互匹配的對象間重復(fù)的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),實(shí)現(xiàn)單個節(jié)點(diǎn)內(nèi)高性能的并行數(shù)據(jù)重刪處理,擴(kuò)展數(shù)據(jù)重刪的吞吐量。有效合理的刪除數(shù)據(jù),提高存儲空間。

附圖說明

圖1為本發(fā)明數(shù)據(jù)刪除方法的一實(shí)施例的流程示意圖;

圖2為本發(fā)明一實(shí)施例中獲取待處理數(shù)據(jù)的流程示意圖;

圖3為本發(fā)明一實(shí)施例中數(shù)據(jù)存儲的流程示意圖;

圖4為本發(fā)明一實(shí)施例中確定重復(fù)數(shù)據(jù)的流程示意圖;

圖5為本發(fā)明一實(shí)施例中重復(fù)數(shù)據(jù)刪除的架構(gòu)圖;

圖6為本發(fā)明一實(shí)施例中數(shù)據(jù)刪除的原理圖;

圖7為本發(fā)明數(shù)據(jù)刪除裝置的一實(shí)施例的功能模塊示意圖;

圖8為本發(fā)明圖7中獲取模塊一實(shí)施例的細(xì)化功能模塊示意圖。

本發(fā)明目的的實(shí)現(xiàn)、功能特點(diǎn)及優(yōu)點(diǎn)將結(jié)合實(shí)施例,參照附圖做進(jìn)一步說明。

具體實(shí)施方式

應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

本發(fā)明提供一種數(shù)據(jù)刪除方法。

參照圖1,圖1為本發(fā)明數(shù)據(jù)刪除方法的一實(shí)施例的流程示意圖。

在一實(shí)施例中,所述數(shù)據(jù)刪除方法包括:

步驟s10,獲取待處理數(shù)據(jù);

在本實(shí)施例中,在有數(shù)據(jù)需要處理時,被處理的數(shù)據(jù)為待處理數(shù)據(jù),例如,在需要刪除數(shù)據(jù)時,待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù);或者,再例如,在需要刪除數(shù)據(jù)時,歷史數(shù)據(jù)和當(dāng)前待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù)。參考圖2,所述獲取待處理數(shù)據(jù)的方式包括:

步驟s11,確定數(shù)據(jù)刪除的模式;

步驟s12,在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);

步驟s13,在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。

數(shù)據(jù)刪除模式包括定時刪除模式和實(shí)時刪除模式。數(shù)據(jù)刪除模式的設(shè)置在系統(tǒng)開啟后由用戶設(shè)置,或者以默認(rèn)的刪除模式運(yùn)行。在需要刪除數(shù)據(jù)時,確定數(shù)據(jù)刪除的模式,例如,確定為定時刪除模式,或者確定為實(shí)時刪除模式。在確定為實(shí)時刪除模式時,將歷史數(shù)據(jù)與當(dāng)前的數(shù)據(jù)作為待處理數(shù)據(jù),或者說可以直接將當(dāng)前數(shù)據(jù)作為待處理數(shù)據(jù);在確定為定時刪除模式時,將當(dāng)前存儲的所有數(shù)據(jù)為待處理數(shù)據(jù),或者在上一時間節(jié)點(diǎn)之前到現(xiàn)在時間節(jié)點(diǎn)之間所存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。上述實(shí)時和定時刪除模式下待處理數(shù)據(jù)的定義為用戶設(shè)置或系統(tǒng)默認(rèn),為其中對應(yīng)的一種定義方式。在需要刪除數(shù)據(jù)時,按照設(shè)置的方式獲取待處理數(shù)據(jù)。

步驟s20,確定待處理數(shù)據(jù)中相互匹配的對象;

在數(shù)據(jù)存儲時,數(shù)據(jù)存儲的方式為按照對象的方式存儲,即,根據(jù)對象對數(shù)據(jù)歸類,然后分別存儲對應(yīng)對象的數(shù)據(jù),即,接收客戶端的數(shù)據(jù),按照接收的數(shù)據(jù)的對象分類,分別存儲在分布式存儲系統(tǒng)中。參考圖3,數(shù)據(jù)存儲的過程包括:

步驟s21,接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;

步驟s22,將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。

接收客戶端發(fā)送來的數(shù)據(jù),將客戶端的數(shù)據(jù)切片,即,將客戶端傳輸過來的數(shù)據(jù)分成若干個小數(shù)據(jù)塊,在我們的分布式存儲系統(tǒng)中會將每個數(shù)據(jù)塊切分為128m(根據(jù)需求不同或者系統(tǒng)性能設(shè)置或根據(jù)傳輸數(shù)據(jù)的總大小設(shè)置,例如,可還設(shè)置為64m或256m等),發(fā)送給數(shù)據(jù)存儲系統(tǒng)。在將數(shù)據(jù)切片后,數(shù)據(jù)傳輸穩(wěn)定性和可靠性增加,因在網(wǎng)絡(luò)狀況不好的情況下,如果不將數(shù)據(jù)切分為若干個數(shù)據(jù)塊,一次性傳輸大量的數(shù)據(jù),數(shù)據(jù)在傳輸過程中會進(jìn)行多次數(shù)據(jù)校驗(yàn),增加了傳輸?shù)臅r間,同時還會造成數(shù)據(jù)的丟失或者數(shù)據(jù)北阻塞,影響了數(shù)據(jù)的穩(wěn)定性以及可靠性。

以對象的方式將切片數(shù)據(jù)存儲到分布式系統(tǒng)中,對象存儲的特點(diǎn)是將有效的數(shù)據(jù)和指紋索引組成數(shù)據(jù)結(jié)構(gòu)的形式存儲到緩存中,再將整個對象通過網(wǎng)絡(luò)傳輸?shù)酱鎯ο到y(tǒng)中,這樣便建立了數(shù)據(jù)與指紋索引之間的相互關(guān)系,方便后續(xù)數(shù)據(jù)的查找與獲取數(shù)據(jù)等操作。

步驟s30,比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);

在實(shí)時刪除模式時,當(dāng)接收到數(shù)據(jù)時對當(dāng)前接收到的數(shù)據(jù)進(jìn)行校驗(yàn),對比歷史數(shù)據(jù)和當(dāng)前接收到的數(shù)據(jù),找出當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)的相似性,即,找到相似的數(shù)據(jù);在為定時刪除模式時,在定時的時間達(dá)到時,確定相似數(shù)據(jù)的方式與實(shí)時刪除的方式相同,但對比的數(shù)據(jù)為待處理數(shù)據(jù),例如,為整個已存儲的數(shù)據(jù),或者是將上一時間節(jié)點(diǎn)到當(dāng)前已存儲的數(shù)據(jù),與上一時間節(jié)點(diǎn)之前已存儲的數(shù)據(jù)對比,找到相似的數(shù)據(jù)。

具體的,確定重復(fù)數(shù)據(jù)的過程包括:

步驟s31,確定所述待存儲數(shù)據(jù)中包含的對象;

步驟s32,將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象;

步驟s33,比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);

步驟s34,從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。

在做實(shí)時或定時數(shù)據(jù)刪除的過程中,將不同的對象加入到一個索引指紋隊(duì)列中,先進(jìn)行對象指紋比對,將相似度較高(相似度大于預(yù)設(shè)閾值,例如,預(yù)設(shè)閾值為80%相似或70%相似等)的對象通過hash算法抽取出來,然后根據(jù)md5算法來計算數(shù)據(jù)的正確性,發(fā)現(xiàn)數(shù)據(jù)在沒有修改的情況下,且數(shù)據(jù)存在相同的拷貝,則表明找到重復(fù)的數(shù)據(jù),將找到的重復(fù)的數(shù)據(jù)作為相互匹配的對象間重復(fù)的數(shù)據(jù)。

步驟s40,將所確定的重復(fù)的數(shù)據(jù)刪除。

將重復(fù)的數(shù)據(jù)刪除,即,將冗余的數(shù)據(jù)刪掉,節(jié)省了大量的存儲空間,提高了磁盤的存儲容量,因存儲容量提高,提高存儲的效率。

為了更好的描述本發(fā)明實(shí)施例,參考圖5,為本發(fā)明重復(fù)數(shù)據(jù)刪除的架構(gòu)圖,參考圖6,為數(shù)據(jù)刪除的原理圖。

本實(shí)施例提出一種基于對象的重復(fù)數(shù)據(jù)刪除方式,有效解決了局部特征不足的缺陷,利用對象找出相互匹配的對象間重復(fù)的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),實(shí)現(xiàn)單個節(jié)點(diǎn)內(nèi)高性能的并行數(shù)據(jù)重刪處理,擴(kuò)展數(shù)據(jù)重刪的吞吐量。有效合理的刪除數(shù)據(jù),提高存儲空間。

本發(fā)明進(jìn)一步提供一種數(shù)據(jù)刪除裝置。

參照圖7,圖7為本發(fā)明數(shù)據(jù)刪除裝置的一實(shí)施例的功能模塊示意圖。

在一實(shí)施例中,所述數(shù)據(jù)刪除裝置包括:獲取模塊10、確定模塊20、處理模塊30、存儲模塊40、比對模塊50及刪除模塊60。

所述獲取模塊10,用于獲取待處理數(shù)據(jù);

在本實(shí)施例中,在有數(shù)據(jù)需要處理時,被處理的數(shù)據(jù)為待處理數(shù)據(jù),例如,在需要刪除數(shù)據(jù)時,待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù);或者,再例如,在需要刪除數(shù)據(jù)時,歷史數(shù)據(jù)和當(dāng)前待刪除處理的數(shù)據(jù)為待處理數(shù)據(jù)。參考圖8,所述獲取模塊10包括:確定單元11和獲取單元12,

所述確定單元11,用于確定數(shù)據(jù)刪除的模式;

所述獲取單元12,用于在數(shù)據(jù)刪除的模式為實(shí)時刪除模式時,獲取當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù),將當(dāng)前存入的數(shù)據(jù)以及歷史存入的數(shù)據(jù)作為待處理數(shù)據(jù);獲取單元12還用于

在數(shù)據(jù)刪除的模式為定時刪除模式時,獲取當(dāng)前已存儲的數(shù)據(jù),將當(dāng)前已存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。

數(shù)據(jù)刪除模式包括定時刪除模式和實(shí)時刪除模式。數(shù)據(jù)刪除模式的設(shè)置在系統(tǒng)開啟后由用戶設(shè)置,或者以默認(rèn)的刪除模式運(yùn)行。在需要刪除數(shù)據(jù)時,確定數(shù)據(jù)刪除的模式,例如,確定為定時刪除模式,或者確定為實(shí)時刪除模式。在確定為實(shí)時刪除模式時,將歷史數(shù)據(jù)與當(dāng)前的數(shù)據(jù)作為待處理數(shù)據(jù),或者說可以直接將當(dāng)前數(shù)據(jù)作為待處理數(shù)據(jù);在確定為定時刪除模式時,將當(dāng)前存儲的所有數(shù)據(jù)為待處理數(shù)據(jù),或者在上一時間節(jié)點(diǎn)之前到現(xiàn)在時間節(jié)點(diǎn)之間所存儲的數(shù)據(jù)作為待處理數(shù)據(jù)。上述實(shí)時和定時刪除模式下待處理數(shù)據(jù)的定義為用戶設(shè)置或系統(tǒng)默認(rèn),為其中對應(yīng)的一種定義方式。在需要刪除數(shù)據(jù)時,按照設(shè)置的方式獲取待處理數(shù)據(jù)。

所述確定模塊20,用于確定待處理數(shù)據(jù)中相互匹配的對象;

在數(shù)據(jù)存儲時,數(shù)據(jù)存儲的方式為按照對象的方式存儲,即,根據(jù)對象對數(shù)據(jù)歸類,然后分別存儲對應(yīng)對象的數(shù)據(jù),即,接收客戶端的數(shù)據(jù),按照接收的數(shù)據(jù)的對象分類,分別存儲在分布式存儲系統(tǒng)中。

所述處理模塊30,用于接收待存儲數(shù)據(jù),將所述待存儲數(shù)據(jù)切片,切成預(yù)設(shè)大小的切片數(shù)據(jù)塊;

所述存儲模塊40,用于將每個切片數(shù)據(jù)塊以對象的方式存儲,將每個切片數(shù)據(jù)的對象和指紋索引組成數(shù)據(jù)結(jié)構(gòu)存儲。

接收客戶端發(fā)送來的數(shù)據(jù),將客戶端的數(shù)據(jù)切片,即,將客戶端傳輸過來的數(shù)據(jù)分成若干個小數(shù)據(jù)塊,在我們的分布式存儲系統(tǒng)中會將每個數(shù)據(jù)塊切分為128m(根據(jù)需求不同或者系統(tǒng)性能設(shè)置或根據(jù)傳輸數(shù)據(jù)的總大小設(shè)置,例如,可還設(shè)置為64m或256m等),發(fā)送給數(shù)據(jù)存儲系統(tǒng)。在將數(shù)據(jù)切片后,數(shù)據(jù)傳輸穩(wěn)定性和可靠性增加,因在網(wǎng)絡(luò)狀況不好的情況下,如果不將數(shù)據(jù)切分為若干個數(shù)據(jù)塊,一次性傳輸大量的數(shù)據(jù),數(shù)據(jù)在傳輸過程中會進(jìn)行多次數(shù)據(jù)校驗(yàn),增加了傳輸?shù)臅r間,同時還會造成數(shù)據(jù)的丟失或者數(shù)據(jù)北阻塞,影響了數(shù)據(jù)的穩(wěn)定性以及可靠性。

以對象的方式將切片數(shù)據(jù)存儲到分布式系統(tǒng)中,對象存儲的特點(diǎn)是將有效的數(shù)據(jù)和指紋索引組成數(shù)據(jù)結(jié)構(gòu)的形式存儲到緩存中,再將整個對象通過網(wǎng)絡(luò)傳輸?shù)酱鎯ο到y(tǒng)中,這樣便建立了數(shù)據(jù)與指紋索引之間的相互關(guān)系,方便后續(xù)數(shù)據(jù)的查找與獲取數(shù)據(jù)等操作。

所述比對模塊50,用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),確定相互匹配的對象間重復(fù)的數(shù)據(jù);

在實(shí)時刪除模式時,當(dāng)接收到數(shù)據(jù)時對當(dāng)前接收到的數(shù)據(jù)進(jìn)行校驗(yàn),對比歷史數(shù)據(jù)和當(dāng)前接收到的數(shù)據(jù),找出當(dāng)前數(shù)據(jù)與歷史數(shù)據(jù)的相似性,即,找到相似的數(shù)據(jù);在為定時刪除模式時,在定時的時間達(dá)到時,確定相似數(shù)據(jù)的方式與實(shí)時刪除的方式相同,但對比的數(shù)據(jù)為待處理數(shù)據(jù),例如,為整個已存儲的數(shù)據(jù),或者是將上一時間節(jié)點(diǎn)到當(dāng)前已存儲的數(shù)據(jù),與上一時間節(jié)點(diǎn)之前已存儲的數(shù)據(jù)對比,找到相似的數(shù)據(jù)。

所述確定模塊20,還用于確定所述待存儲數(shù)據(jù)中包含的對象;確定模塊20還用于

將所確定的對象加入指紋索引隊(duì)列,進(jìn)行對象指紋比對,通過hash算法確定相互匹配的對象;

所述比對模塊50,還用于比對相互匹配的對象對應(yīng)的數(shù)據(jù),通過md5算法計算數(shù)據(jù)的正確性得到有效數(shù)據(jù);比對模塊50還用于

從有效數(shù)據(jù)中確定相互匹配的對象間重復(fù)的數(shù)據(jù)。

在做實(shí)時或定時數(shù)據(jù)刪除的過程中,將不同的對象加入到一個索引指紋隊(duì)列中,先進(jìn)行對象指紋比對,將相似度較高(相似度大于預(yù)設(shè)閾值,例如,預(yù)設(shè)閾值為80%相似或70%相似等)的對象通過hash算法抽取出來,然后根據(jù)md5算法來計算數(shù)據(jù)的正確性,發(fā)現(xiàn)數(shù)據(jù)在沒有修改的情況下,且數(shù)據(jù)存在相同的拷貝,則表明找到重復(fù)的數(shù)據(jù),將找到的重復(fù)的數(shù)據(jù)作為相互匹配的對象間重復(fù)的數(shù)據(jù)。

所述刪除模塊60,用于將所確定的重復(fù)的數(shù)據(jù)刪除。

將重復(fù)的數(shù)據(jù)刪除,即,將冗余的數(shù)據(jù)刪掉,節(jié)省了大量的存儲空間,提高了磁盤的存儲容量,因存儲容量提高,提高存儲的效率。

為了更好的描述本發(fā)明實(shí)施例,參考圖5,為本發(fā)明重復(fù)數(shù)據(jù)刪除的架構(gòu)圖,參考圖6,為數(shù)據(jù)刪除的原理圖。

本實(shí)施例提出一種基于對象的重復(fù)數(shù)據(jù)刪除方式,有效解決了局部特征不足的缺陷,利用對象找出相互匹配的對象間重復(fù)的數(shù)據(jù),刪除重復(fù)的數(shù)據(jù),實(shí)現(xiàn)單個節(jié)點(diǎn)內(nèi)高性能的并行數(shù)據(jù)重刪處理,擴(kuò)展數(shù)據(jù)重刪的吞吐量。有效合理的刪除數(shù)據(jù),提高存儲空間。

以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
楚雄市| 汕头市| 宁阳县| 融水| 高清| 司法| 蒙阴县| 西青区| 五指山市| 巴南区| 西乌珠穆沁旗| 陆河县| 博白县| 彰化市| 兴国县| 内黄县| 苍南县| 沙坪坝区| 肇源县| 彩票| 河津市| 长岭县| 留坝县| 潢川县| 江源县| 石台县| 景东| 句容市| 清镇市| 曲松县| 聂荣县| 喀喇| 通海县| 和政县| 来凤县| 托克逊县| 永春县| 宣城市| 武清区| 韶关市| 磐石市|