欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理設(shè)備和數(shù)據(jù)處理方法

文檔序號:6457476閱讀:167來源:國知局
專利名稱:數(shù)據(jù)處理設(shè)備和數(shù)據(jù)處理方法
數(shù)據(jù)處理設(shè)備和數(shù)據(jù)處理方法
背景技術(shù)
保持在主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)可以被備份至輔助數(shù)據(jù)存儲(chǔ)介質(zhì)。輔助數(shù)據(jù)存儲(chǔ) 介質(zhì)的位置可以與主數(shù)據(jù)存儲(chǔ)介質(zhì)的位置不同。如果主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)出現(xiàn)至少部 分丟失,可以從輔助數(shù)據(jù)存儲(chǔ)介質(zhì)恢復(fù)數(shù)據(jù)。輔助數(shù)據(jù)存儲(chǔ)介質(zhì)可以包含在一定時(shí)間段內(nèi) 存儲(chǔ)在主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)的歷史。應(yīng)用戶請求,輔助數(shù)據(jù)存儲(chǔ)介質(zhì)可以向用戶提供 在指定的時(shí)間點(diǎn)存儲(chǔ)在主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)。可以每周、每天、每小時(shí)或者以其它間隔執(zhí)行數(shù)據(jù)備份過程??梢砸栽隽糠绞綄?shù) 據(jù)進(jìn)行備份,在這種數(shù)據(jù)備份過程中,僅僅自上一次備份以來對主數(shù)據(jù)介質(zhì)上的數(shù)據(jù)所做 的改變被轉(zhuǎn)移到輔助數(shù)據(jù)存儲(chǔ)介質(zhì)。還可以執(zhí)行全備份,在這種全備份過程中,主數(shù)據(jù)介質(zhì) 的全部內(nèi)容被拷貝至輔助數(shù)據(jù)介質(zhì)。存在許多其它的備份策略。當(dāng)對數(shù)據(jù)進(jìn)行備份時(shí),正被備份的數(shù)據(jù)的特定部分先前可能已被存儲(chǔ)到主數(shù)據(jù)存 儲(chǔ)介質(zhì),當(dāng)執(zhí)行全備份時(shí)情況尤其如此。將相同數(shù)據(jù)存儲(chǔ)許多次表示數(shù)據(jù)存儲(chǔ)介質(zhì)的低效 利用。

發(fā)明內(nèi)容
本發(fā)明的一個(gè)實(shí)施例提供了數(shù)據(jù)處理設(shè)備,包括塊(chunk)儲(chǔ)存器,包含樣本數(shù) 據(jù)塊;清單(manifest)儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被 分為清單段,每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用(reference),所 述數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多 個(gè)輸入數(shù)據(jù)塊;以及識(shí)別具有到對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù) 據(jù)塊的至少一個(gè)所述引用的至少一個(gè)所述清單段。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以選擇所述輸入數(shù)據(jù)段并識(shí)別具有到 對應(yīng)于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至 少一個(gè)所述清單段。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以從所述至少一個(gè)所識(shí)別的清單段中 識(shí)別出到對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的至少一個(gè)另外的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊 的至少一個(gè)所述引用。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以針對至少一個(gè)后續(xù)操作對多個(gè)所識(shí) 別的清單段排列優(yōu)先級。在一個(gè)實(shí)施例中,根據(jù)該多個(gè)所識(shí)別的清單段的每個(gè)所具有的到對應(yīng)于至少一個(gè) 輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的所述引用的數(shù)目,來對該多個(gè)所識(shí)別的清單段 排列優(yōu)先級。在一個(gè)實(shí)施例中,按照該多個(gè)所識(shí)別的清單段的每個(gè)所包含的到對應(yīng)于至少一個(gè) 輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的所述引用的數(shù)目的降序,來對該多個(gè)所識(shí)別的 清單段排列優(yōu)先級。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以從清單儲(chǔ)存器中存儲(chǔ)的不同清單中識(shí)別所述清單段。 在一個(gè)實(shí)施例中,輸入數(shù)據(jù)段和所述清單段每個(gè)具有預(yù)定的大小。在一個(gè)實(shí)施例中,輸入數(shù)據(jù)段和清單段的大小基本等同。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以將給定的輸入數(shù)據(jù)段中的每個(gè)輸入 數(shù)據(jù)塊與在所識(shí)別的至少一個(gè)清單段中引用的樣本數(shù)據(jù)塊進(jìn)行比較,以識(shí)別對應(yīng)于所述輸 入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作用于以預(yù)定的順序處理每個(gè)輸入數(shù)據(jù) 段。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備包括塊索引,所述塊索引包含關(guān)于所述樣本數(shù) 據(jù)塊的信息。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以使用塊索引中的所述信息,來識(shí)別 至少一個(gè)所述清單段。在一個(gè)實(shí)施例中,清單儲(chǔ)存器包含由所述至少一個(gè)清單引用的所述至少一個(gè)樣本 數(shù)據(jù)塊的塊標(biāo)識(shí)符。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以生成所述輸入數(shù)據(jù)段的每個(gè)輸入數(shù) 據(jù)塊的塊標(biāo)識(shí)符,以及將每個(gè)輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與清單儲(chǔ)存器中包含的塊標(biāo)識(shí)符進(jìn)行 比較。在本發(fā)明的另一實(shí)施例中,提供了一種數(shù)據(jù)處理器,包括塊儲(chǔ)存器,包含樣本數(shù) 據(jù)塊;清單儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被分為清單段, 每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用,該處理器能夠操作以將輸入 數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;選擇輸入數(shù)據(jù)段; 并識(shí)別具有到對應(yīng)于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè) 所述引用的至少一個(gè)所述清單段。在本發(fā)明的另一實(shí)施例中,提供了一種使用下述裝置的數(shù)據(jù)處理方法塊儲(chǔ)存器, 包含樣本數(shù)據(jù)塊;清單儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被分 為清單段,每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用,該方法包括將輸 入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;選擇輸入數(shù)據(jù)段; 并識(shí)別具有到對應(yīng)于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè) 所述引用的至少一個(gè)所述清單段。在一個(gè)實(shí)施例中,該方法包括對所述識(shí)別的至少一個(gè)清單段進(jìn)行分析,以識(shí)別到 對應(yīng)于所選擇的輸入數(shù)據(jù)段中的至少一個(gè)另外的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一 個(gè)所述引用。在一個(gè)實(shí)施例中,根據(jù)所識(shí)別的至少一個(gè)清單段中的每個(gè)所包含的到對應(yīng)于所選 擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的引用的數(shù)目,來對所識(shí)別的至少一個(gè)清單 段排列優(yōu)先級。在另一實(shí)施例中,提供了一種編輯代表輸入數(shù)據(jù)集的清單的方法,該方法包括將 輸入數(shù)據(jù)集處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;在清單儲(chǔ)存 器中識(shí)別至少一個(gè)先前編輯且存儲(chǔ)的清單的至少一個(gè)清單段,該清單段具有到對應(yīng)于至少 一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊且存儲(chǔ)在塊儲(chǔ)存器中的至少一個(gè)樣本數(shù)據(jù)塊的引用。


現(xiàn)在將參考附圖以示例方式說明本發(fā)明的實(shí)施例,附圖中圖1示出數(shù)據(jù)集的示意性表示;圖2示出根據(jù)實(shí)施例的數(shù)據(jù)處理設(shè)備的示意性表示;圖3示出在使用中圖2的數(shù)據(jù)處理設(shè)備的示意性表示;圖4示出另一個(gè)數(shù)據(jù)集的示意性表示;圖5示出根據(jù)另一實(shí)施例的另一數(shù)據(jù)處理設(shè)備的示意性表示;圖6示出根據(jù)本發(fā)明實(shí)施例的方法的流程圖。
具體實(shí)施例方式圖1示出了數(shù)據(jù)集1的示意性表示。數(shù)據(jù)集1可以比圖1所示的數(shù)據(jù)集更短或更 長。數(shù)據(jù)集1包括一定量的數(shù)據(jù),其可以是10字節(jié)、1000字節(jié)或數(shù)百萬字節(jié)的量級。數(shù)據(jù) 集可以代表對于給定備份操作的所有數(shù)據(jù)或者較大數(shù)據(jù)集的至少一部分。備份數(shù)據(jù)集可以包括連續(xù)數(shù)據(jù)流或不連續(xù)數(shù)據(jù)流。無論是哪個(gè),數(shù)據(jù)集可以包含 許多不同的單獨(dú)的文件或者文件部分。數(shù)據(jù)集可以不被劃分成它所包含的單獨(dú)的文件。數(shù) 據(jù)集可以包含嵌入信息,包括到包含在數(shù)據(jù)集中的單獨(dú)文件的邊界的引用。數(shù)據(jù)集于是可 以被更容易地分割成它的組成分量。嵌入信息的大小可能代表全部數(shù)據(jù)的相當(dāng)大部分。備 份具有嵌入文件信息的數(shù)據(jù)增加了數(shù)據(jù)存儲(chǔ)介質(zhì)的所需容量。根據(jù)實(shí)施例的數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)集處理成一個(gè)或多個(gè)輸入數(shù) 據(jù)塊。輸入數(shù)據(jù)集可以被分成多個(gè)輸入數(shù)據(jù)塊。每個(gè)輸入數(shù)據(jù)塊可以代表輸入數(shù)據(jù)集內(nèi)的 單獨(dú)文件、單獨(dú)文件的一部分或者單獨(dú)文件的群組??梢曰谳斎霐?shù)據(jù)作為整體的屬性將 數(shù)據(jù)集處理成輸入數(shù)據(jù)塊,而與包含在其中的單獨(dú)文件具有極少關(guān)系或沒有關(guān)系。數(shù)據(jù)塊 的邊界與文件邊界可以具有共同邊界或可以不具有共同邊界。數(shù)據(jù)塊的大小可以等同或者 不同。圖1示出了被處理成數(shù)據(jù)塊2的輸入數(shù)據(jù)集1的示意性表示。為方便起見,在圖1 中從A-0對每個(gè)輸入數(shù)據(jù)塊進(jìn)行標(biāo)記,以識(shí)別數(shù)據(jù)塊2彼此不同。輸入數(shù)據(jù)集1可能被分 成比圖1所示那些更多的輸入數(shù)據(jù)塊2。輸入數(shù)據(jù)集1的大小可能是許多太字節(jié),并被處理 成數(shù)十億個(gè)輸入數(shù)據(jù)塊。存在本領(lǐng)域技術(shù)人員可以獲得的用來確定輸入數(shù)據(jù)集1如何被處 理成輸入數(shù)據(jù)塊2以及每個(gè)輸入數(shù)據(jù)塊2包含哪些信息的特定方案。圖2示出根據(jù)實(shí)施例的數(shù)據(jù)處理設(shè)備3 (包括至少一個(gè)處理器)。數(shù)據(jù)處理設(shè)備3 包括塊儲(chǔ)存器4和清單儲(chǔ)存器5。清單儲(chǔ)存器5可以與塊儲(chǔ)存器4分立且與塊儲(chǔ)存器4分 離,但兩個(gè)儲(chǔ)存器4和5均可以駐留在共同的數(shù)據(jù)存儲(chǔ)介質(zhì)或存儲(chǔ)裝置上。當(dāng)由數(shù)據(jù)處理 設(shè)備3來處理輸入數(shù)據(jù)集1時(shí),輸入數(shù)據(jù)塊2作為樣本數(shù)據(jù)塊6被存儲(chǔ)到塊儲(chǔ)存器4,如圖 3(a)所示。樣本數(shù)據(jù)塊6是輸入數(shù)據(jù)塊2的副本。塊儲(chǔ)存器4可存儲(chǔ)多個(gè)樣本數(shù)據(jù)塊6。 塊儲(chǔ)存器4可包含先前已經(jīng)由數(shù)據(jù)處理設(shè)備3處理過的所有輸入數(shù)據(jù)塊2。圖3 (a)示出正 首次填充(populate)數(shù)據(jù)的數(shù)據(jù)處理設(shè)備。在一個(gè)實(shí)施例中,塊儲(chǔ)存器4和清單儲(chǔ)存器5均存儲(chǔ)在非易失性存儲(chǔ)裝置中。當(dāng)將輸入數(shù)據(jù)塊2作為樣本數(shù)據(jù)塊6添加到塊儲(chǔ)存器4中時(shí),編輯清單7,也如圖
63(a)所示。清單7是數(shù)據(jù)集1的表示。該清單7包括到塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的引 用,樣本數(shù)據(jù)塊6對應(yīng)于構(gòu)成輸入數(shù)據(jù)集1的輸入數(shù)據(jù)塊2。因此,清單7的引用可視為樣 本數(shù)據(jù)塊6的元數(shù)據(jù)。如果給定清單7的到樣本數(shù)據(jù)塊6的引用在大小上小于清單7所引 用的樣本數(shù)據(jù)塊6,則將意識(shí)到,清單7在大小上可能小于它代表的輸入數(shù)據(jù)集1。清單可 被視為它代表的輸入數(shù)據(jù)集的副本,其中輸入數(shù)據(jù)的輸入數(shù)據(jù)塊已經(jīng)被到對應(yīng)于輸入數(shù)據(jù) 塊的樣本數(shù)據(jù)塊的引用“取代”。因此,清單可以作為具有相同大小的輸入數(shù)據(jù)集的副本而 開始,以及當(dāng)一些輸入數(shù)據(jù)塊被到對應(yīng)于輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的引用所取代時(shí),清單 的數(shù)據(jù)大小被減小。當(dāng)輸入數(shù)據(jù)集1已經(jīng)被處理成輸入數(shù)據(jù)塊2并且清單7被編輯時(shí),代表輸入數(shù)據(jù) 集1的清單7被存儲(chǔ)在清單儲(chǔ)存器5中,如圖3示意性所示的。如果數(shù)據(jù)處理設(shè)備3的用戶希望恢復(fù)給定輸入數(shù)據(jù)集1的數(shù)據(jù)-這可能涉及在特 定時(shí)間點(diǎn)進(jìn)行的備份,則數(shù)據(jù)處理設(shè)備將從清單儲(chǔ)存器5檢索對應(yīng)清單7。清單7中到塊儲(chǔ) 存器4中的樣本數(shù)據(jù)塊6的每個(gè)引用然后被用于重建原始數(shù)據(jù)集1。數(shù)據(jù)處理設(shè)備能夠操作以將清單7分成清單段8。圖3(b)中示意性示出的清單段 8可能是清單7的并發(fā)數(shù)據(jù)的區(qū)段。清單7可以被分成多個(gè)清單段8。清單7的所有清單 段8的每個(gè)可具有預(yù)定的大小、不同的大小、或可能全都具有基本上相同的大小。在一個(gè)實(shí) 施例中,每個(gè)清單段8包括到塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的多個(gè)引用。在一個(gè)實(shí)施例中,清單7在清單儲(chǔ)存器5中存儲(chǔ)為到樣本數(shù)據(jù)塊6的引用的單個(gè) 區(qū)塊??梢酝ㄟ^使用邊界的標(biāo)記或參考點(diǎn),在清單7內(nèi)劃分清單段8。清單段8的邊界與到 樣本數(shù)據(jù)塊6的引用的邊界可以具有共同邊界或可以不具有共同邊界。清單段8可以分離地存儲(chǔ)在清單儲(chǔ)存器中??杀3智鍐味? 一起構(gòu)成特定清單7 的記錄。如果用戶希望恢復(fù)由被分成清單段8的給定清單7所代表的數(shù)據(jù)集,則可首先使 用清單段8和這些清單段如何一起構(gòu)成清單的記錄來重建清單7。所重建的清單7中到塊 儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的每個(gè)引用然后用來重建原始數(shù)據(jù)集;或者,更確切地,所重建 的清單7的每個(gè)清單段8中的每個(gè)引用然后用于重建原始數(shù)據(jù)集。在圖3(a)和(b)所示的示例中,已經(jīng)由具有三個(gè)清單段8的清單7來代表輸入數(shù) 據(jù)集1。該清單段每個(gè)包含五個(gè)到塊儲(chǔ)存器4中存儲(chǔ)的樣本數(shù)據(jù)塊6的引用。這三個(gè)清單 段是AB⑶E,F(xiàn)GHIJ和KLMN0。應(yīng)該明白,清單段8可包含比該示例所示更多或更少的引用。 每個(gè)清單段8可包含到樣本數(shù)據(jù)塊6的數(shù)千引用。在圖4中示出了待處理的第二輸入數(shù)據(jù)集11的示意性表示。如果沒有數(shù)據(jù)處理 設(shè)備3,則第二輸入數(shù)據(jù)集11可以被完整地存儲(chǔ)。因此,即便讀者將認(rèn)識(shí)到兩個(gè)輸入數(shù)據(jù)集 1、11包括共同的輸入數(shù)據(jù)塊E到K,但每一個(gè)輸入數(shù)據(jù)塊的兩個(gè)發(fā)生都將被存儲(chǔ),這是數(shù)據(jù) 存儲(chǔ)介質(zhì)的低效使用。利用數(shù)據(jù)處理設(shè)備3,當(dāng)輸入數(shù)據(jù)集11被提供給數(shù)據(jù)處理設(shè)備3時(shí),輸入數(shù)據(jù)集 11被處理成輸入數(shù)據(jù)塊12。此外,輸入數(shù)據(jù)集11被處理成輸入數(shù)據(jù)段13。每個(gè)輸入數(shù)據(jù) 段可包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊。在一個(gè)實(shí)施例中,輸入數(shù)據(jù)集11首先可被處理或分成輸 入數(shù)據(jù)段13,此后每個(gè)輸入數(shù)據(jù)段13被分成輸入數(shù)據(jù)塊12。在另一實(shí)施例中,輸入數(shù)據(jù)段 13可以基于數(shù)據(jù)集11已經(jīng)被處理成的輸入數(shù)據(jù)塊的數(shù)目來創(chuàng)建。輸入數(shù)據(jù)段13可以包含與清單段8所包括的到樣本數(shù)據(jù)塊6的引用一樣多的輸入數(shù)據(jù)塊12。在圖4所示的示例中,第一輸入數(shù)據(jù)段13包含五個(gè)輸入數(shù)據(jù)塊12,而第二輸 入數(shù)據(jù)段包含4個(gè)輸入數(shù)據(jù)塊12。在另一實(shí)施例中,輸入數(shù)據(jù)段13可以包含更多或更少的 輸入數(shù)據(jù)塊12。在一個(gè)實(shí)施例中,輸入數(shù)據(jù)集11可被分成包含多達(dá)預(yù)定最大數(shù)目的輸入數(shù) 據(jù)塊12的輸入數(shù)據(jù)段13。數(shù)據(jù)處理設(shè)備3能夠操作以識(shí)別清單儲(chǔ)存器5中的至少一個(gè)清單段8,該至少一個(gè) 清單段8包括到對應(yīng)于輸入數(shù)據(jù)集11的至少一個(gè)輸入數(shù)據(jù)段13中的至少一個(gè)輸入數(shù)據(jù)塊 12的樣本數(shù)據(jù)塊6的至少一個(gè)引用。當(dāng)處理圖4所示的輸入數(shù)據(jù)集11時(shí),數(shù)據(jù)處理設(shè)備3 可以識(shí)別出清單儲(chǔ)存器5中存儲(chǔ)的至少一個(gè)清單段8包括到對應(yīng)于輸入數(shù)據(jù)段13中的至 少一個(gè)輸入數(shù)據(jù)塊12的至少一個(gè)樣本數(shù)據(jù)塊6的引用。在這個(gè)示例中,數(shù)據(jù)處理設(shè)備可識(shí) 別出,其中,清單段8包括到樣本數(shù)據(jù)塊E、F、G、H、I、J和K的引用。如此識(shí)別之后,數(shù)據(jù)處 理設(shè)備3將不會(huì)再次在塊儲(chǔ)存器4中存儲(chǔ)輸入數(shù)據(jù)塊E、F、G、H、I、J和K,因?yàn)樗鼈円呀?jīng)作 為樣本數(shù)據(jù)塊6存在于其中。代替地,待被編輯的用于輸入數(shù)據(jù)集11的清單將包括到已經(jīng) 在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊E、F、G、H、I、J和K的引用。本領(lǐng)域技術(shù)人員能得到多種方法來識(shí)別在該清單儲(chǔ)存器中包括到樣本數(shù)據(jù)塊的 至少一個(gè)引用的清單段。在一個(gè)實(shí)施例中,可以為輸入數(shù)據(jù)集中的每個(gè)輸入數(shù)據(jù)塊生成塊 標(biāo)識(shí)符。塊標(biāo)識(shí)符可以是塊的散列,并且稍后描述。可以將輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與已經(jīng) 在塊儲(chǔ)存器內(nèi)的樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符進(jìn)行比較。如果找到了匹配的樣本數(shù)據(jù)塊,可以識(shí) 別包含到該樣本數(shù)據(jù)塊的引用的任何清單。在另一個(gè)實(shí)施例中,可以在輸入數(shù)據(jù)塊和塊儲(chǔ)存器內(nèi)的樣本數(shù)據(jù)塊之間執(zhí)行逐字 節(jié)的比較。本發(fā)明的實(shí)施例可以使用識(shí)別塊儲(chǔ)存器內(nèi)對應(yīng)于輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的其 他方法,以及不限于上面描述的示例。待編輯的用于輸入數(shù)據(jù)集11的清單的清單段可以包含與該輸入數(shù)據(jù)11的輸入段 13包含的輸入數(shù)據(jù)塊12 —樣多的到樣本數(shù)據(jù)塊6的引用。因此,清單段8以及它的對應(yīng)的 輸入數(shù)據(jù)段13可以是彼此的鏡像。讀者將注意到該塊儲(chǔ)存器4不包含對應(yīng)于輸入數(shù)據(jù)塊P以及Q的樣本數(shù)據(jù)塊6。 類似地,該清單儲(chǔ)存器5內(nèi)的清單7不包含到對應(yīng)于輸入數(shù)據(jù)塊Q以及P的樣本數(shù)據(jù)塊6 的引用。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以確定該塊儲(chǔ)存器4還沒有包含對應(yīng) 于輸入數(shù)據(jù)塊Q以及P的樣本數(shù)據(jù)塊6。因此,數(shù)據(jù)處理設(shè)備3可以將輸入數(shù)據(jù)塊Q以及P作為樣本數(shù)據(jù)塊6存儲(chǔ)在該塊儲(chǔ) 存器4內(nèi)。然后,通過添加到樣本數(shù)據(jù)塊Q以及P的引用,來完成用于該輸入數(shù)據(jù)集12的清 單。新的清單然后被添加到該清單儲(chǔ)存器5。如上所述,清單被分成清單段。在此示例中, 第一清單段可以包含到樣本數(shù)據(jù)塊EFGHI的引用,以及第二清單段可以包含到樣本數(shù)據(jù)塊 JKPQ的引用。在一個(gè)實(shí)施例中,在該數(shù)據(jù)處理設(shè)備3已經(jīng)部分編輯了具有到樣本數(shù)據(jù)塊 EFGHIJK的引用的清單之后,該數(shù)據(jù)處理設(shè)備3能夠操作以選擇輸入數(shù)據(jù)塊P以及Q中的 一個(gè),以及嘗試識(shí)別該清單儲(chǔ)存器5中的至少一個(gè)清單段8,該至少一個(gè)清單段8包括到對 應(yīng)于輸入數(shù)據(jù)塊P以及Q中任一個(gè)的樣本數(shù)據(jù)塊6的至少一個(gè)引用。在所示的示例中,將 不會(huì)定位到這樣的清單段。數(shù)據(jù)處理設(shè)備3可以能夠操作以識(shí)別包括到對應(yīng)于輸入數(shù)據(jù)集 1的每個(gè)輸入數(shù)據(jù)塊2的樣本數(shù)據(jù)塊的引用的清單段8,或識(shí)別到對應(yīng)于輸入數(shù)據(jù)集的輸入
8數(shù)據(jù)段的每個(gè)輸入數(shù)據(jù)塊2的樣本數(shù)據(jù)塊的引用的清單段8。作為使用數(shù)據(jù)處理設(shè)備的結(jié)果,該塊儲(chǔ)存器4可以包含每個(gè)樣本數(shù)據(jù)塊6的僅一 次發(fā)生,這是塊儲(chǔ)存器4的高效使用。使用數(shù)據(jù)處理設(shè)備存儲(chǔ)第一輸入數(shù)據(jù)集1以及第二 輸入數(shù)據(jù)集11的'占用空間(footprint)'可以小于不使用按照實(shí)施例的處理器來存儲(chǔ) 第一輸入數(shù)據(jù)集1以及第二輸入數(shù)據(jù)集11的占用空間。利用數(shù)據(jù)處理設(shè)備3,該數(shù)據(jù)處理設(shè)備3將該輸入數(shù)據(jù)集11處理成輸入數(shù)據(jù)段 13,每個(gè)輸入數(shù)據(jù)段包含輸入數(shù)據(jù)塊12。該數(shù)據(jù)處理設(shè)備可以能夠操作以從該輸入數(shù)據(jù)集 11選擇輸入數(shù)據(jù)段13。該選擇可以是該輸入數(shù)據(jù)集11中的第一輸入數(shù)據(jù)段11,或者它可 以是另一個(gè)選擇。從劃分的輸入數(shù)據(jù)集11中選擇輸入數(shù)據(jù)段13以供處理可以是隨機(jī)的或 者偽隨機(jī)的。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備3使用選擇的輸入數(shù)據(jù)段13來識(shí)別在該清單儲(chǔ) 存器5中已經(jīng)存儲(chǔ)的至少一個(gè)清單段8,該至少一個(gè)清單段8包括到對應(yīng)于該選擇的輸入數(shù) 據(jù)段13中的至少一個(gè)輸入數(shù)據(jù)塊12的樣本數(shù)據(jù)塊6的至少一個(gè)引用。如上所述,已經(jīng)識(shí)別了該清單儲(chǔ)存器5中的至少一個(gè)清單段8以后,體現(xiàn)本發(fā)明的 數(shù)據(jù)處理設(shè)備3能夠操作以分析該至少一個(gè)清單段8從而識(shí)別對應(yīng)于所選擇的輸入數(shù)據(jù)段 13中的至少一個(gè)另外的輸入數(shù)據(jù)塊12的樣本數(shù)據(jù)塊6。數(shù)據(jù)處理設(shè)備3的益處在于,為了確定每一個(gè)輸入數(shù)據(jù)塊2是否已經(jīng)被存儲(chǔ)為樣 本數(shù)據(jù)塊6不需要對于每一個(gè)輸入數(shù)據(jù)塊2徹底檢索塊儲(chǔ)存器4。代替地,數(shù)據(jù)處理設(shè)備3 可以利用為先前處理和存儲(chǔ)的數(shù)據(jù)集創(chuàng)建的清單段8。當(dāng)正處理的輸入數(shù)據(jù)集在很大程度 上與先前處理的數(shù)據(jù)集類似時(shí),進(jìn)一步展示了數(shù)據(jù)處理設(shè)備3的益處。例如,在兩個(gè)全備份 操作之間,相應(yīng)數(shù)據(jù)集的僅僅一小部分可能是不同的。不得不系統(tǒng)地搜索存儲(chǔ)在塊儲(chǔ)存器 4中的每個(gè)樣本數(shù)據(jù)塊6以找到與輸入數(shù)據(jù)段的每個(gè)輸入數(shù)據(jù)塊對應(yīng)的樣本數(shù)據(jù)塊6是低 效且耗時(shí)的。數(shù)據(jù)處理設(shè)備3能夠利用正處理的每個(gè)輸入數(shù)據(jù)集1可能類似這樣的事實(shí)。照此, 先前的類似的清單部分能被用于編輯用于最近的輸入數(shù)據(jù)集的新清單的至少一部分,因?yàn)?由先前的清單段引用的許多樣本數(shù)據(jù)塊6可能與正被處理的輸入數(shù)據(jù)集的輸入數(shù)據(jù)段的 輸入數(shù)據(jù)塊是等同的。在一個(gè)實(shí)施例中,已經(jīng)識(shí)別出所述至少一個(gè)清單段以后,數(shù)據(jù)處理設(shè)備3能夠操 作以在該清單段中搜索到塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的所有其他引用,從而識(shí)別對應(yīng)于 正被處理的輸入數(shù)據(jù)段中的另外輸入數(shù)據(jù)塊2的樣本數(shù)據(jù)塊6。在一個(gè)實(shí)施例中,通過從選 擇的輸入數(shù)據(jù)段中選擇輸入數(shù)據(jù)塊并將它與該至少一個(gè)識(shí)別的清單段中的每個(gè)引用進(jìn)行 比較,來執(zhí)行該搜索。當(dāng)找到了到對應(yīng)于輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊6的引用時(shí),在新的清單 中用到該樣本數(shù)據(jù)塊6的引用來表示該輸入數(shù)據(jù)塊。正被處理的輸入數(shù)據(jù)段的后續(xù)輸入數(shù) 據(jù)塊2然后被選擇用于后續(xù)搜索。該操作操作可以繼續(xù)直到輸入數(shù)據(jù)段的所有輸入數(shù)據(jù)塊 2已經(jīng)與識(shí)別的(一個(gè)或多個(gè))清單段中的所有引用進(jìn)行了比較為止。在另一個(gè)實(shí)施例中,當(dāng)已經(jīng)找到了預(yù)定數(shù)目的到對應(yīng)于輸入數(shù)據(jù)段中的輸入數(shù)據(jù) 塊2的樣本數(shù)據(jù)塊6的引用時(shí),該搜索操作可以終止。在另一個(gè)實(shí)施例中,當(dāng)數(shù)據(jù)處理設(shè)備 3未能找到到對應(yīng)于輸入數(shù)據(jù)段中的預(yù)定數(shù)目的輸入數(shù)據(jù)塊2的樣本數(shù)據(jù)塊6的引用時(shí),該 搜索操作可以終止。此實(shí)施例的益處是,可以從該搜索過程中迅速地扣除(discount)不包含到對應(yīng)于輸入數(shù)據(jù)段中的任何其他輸入數(shù)據(jù)塊2的樣本數(shù)據(jù)塊6的引用的清單段。在一個(gè)實(shí)施例中,該數(shù)據(jù)處理設(shè)備3進(jìn)一步提供塊索引9,如圖5中所示。該塊索 引9包含關(guān)于在該塊儲(chǔ)存器4中存儲(chǔ)的至少一個(gè)樣本數(shù)據(jù)塊6的信息。在一個(gè)實(shí)施例中, 該塊索引9包含僅僅關(guān)于在塊儲(chǔ)存器4中包含的一些樣本數(shù)據(jù)塊6的信息。塊索引9包含 關(guān)于其的信息的樣本數(shù)據(jù)塊6可以特定地選擇或者隨機(jī)選擇。在另一個(gè)實(shí)施例中,該塊索 引9可以包含關(guān)于在該塊儲(chǔ)存器4中存儲(chǔ)的每個(gè)樣本數(shù)據(jù)塊6的信息。在一個(gè)實(shí)施例中,該塊索引9可以存儲(chǔ)在隨機(jī)存取存儲(chǔ)器(RAM)中。該存儲(chǔ)器可 以是易失性的。在本發(fā)明的實(shí)施例中,在該塊索引9中包含的用于給定樣本數(shù)據(jù)塊6的信息可以 包括該樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符。塊標(biāo)識(shí)符可以是與它有關(guān)的樣本數(shù)據(jù)塊6的數(shù)字指紋。該 塊標(biāo)識(shí)符可以是唯一的塊標(biāo)識(shí)符,對于特定的樣本數(shù)據(jù)塊6是唯一的。可以選擇用于生成 塊標(biāo)識(shí)符的算法,以便能夠?yàn)轭A(yù)定數(shù)目的樣本數(shù)據(jù)塊6生成唯一的塊標(biāo)識(shí)符。在一個(gè)實(shí)施 例中,該塊標(biāo)識(shí)符是使用SHA1散列算法生成的??梢允褂闷渌⒘兴惴?,諸如SHA2或者 MD5。在一個(gè)實(shí)施例中,選擇并配置該散列算法,以便兩個(gè)樣本數(shù)據(jù)塊6生成等同的塊標(biāo)識(shí) 符基本上在概率上是不太可能的。在另一個(gè)實(shí)施例中,在該塊索引9中包含的用于給定樣本數(shù)據(jù)塊6的信息可以僅 僅包括部分塊標(biāo)識(shí)符。例如,雖然該樣本數(shù)據(jù)塊6可能有唯一的塊標(biāo)識(shí)符,但可能對照塊索 引9中用于樣本數(shù)據(jù)塊6的記錄來存儲(chǔ)該塊標(biāo)識(shí)符的僅僅一部分。在一個(gè)實(shí)施例中,該部 分塊標(biāo)識(shí)符可能包含完整塊標(biāo)識(shí)符中的第一預(yù)定數(shù)目的比特。例如,如果用于給定樣本數(shù) 據(jù)塊6的完整塊標(biāo)識(shí)符包括20個(gè)比特(諸如通過SHA1算法所生成的),該塊索引9可以存 儲(chǔ)例如該塊標(biāo)識(shí)符中的15個(gè)比特。該預(yù)定比特可以是該塊標(biāo)識(shí)符的最高有效位(MSB)、最 低有效位(LSB)、或該完整塊標(biāo)識(shí)符的中間比特。在一個(gè)實(shí)施例中,所生成的塊標(biāo)識(shí)符基本 上是偽隨機(jī)的,從而具有基本上在統(tǒng)計(jì)上均勻分布的值。由此斷定,兩個(gè)不同的樣本數(shù)據(jù)塊6的部分標(biāo)識(shí)符可能是等同的,即便它們相應(yīng) 的完整塊標(biāo)識(shí)符彼此不同且唯一。在該塊索引9中僅僅存儲(chǔ)部分塊標(biāo)識(shí)符的益處是,減小 了該塊索引9的大小。在一個(gè)實(shí)施例中,對于塊索引9中關(guān)于給定的樣本數(shù)據(jù)塊6的特定條目,存儲(chǔ)了清 單儲(chǔ)存器5中包括到所述樣本數(shù)據(jù)塊6的引用的至少一個(gè)清單段8 (以及/或者清單7)的 細(xì)節(jié)。在一個(gè)實(shí)施例中,在索引中存儲(chǔ)有至少包含到該樣本數(shù)據(jù)塊6的引用的所有清單段 的列表。在另一個(gè)實(shí)施例中,可能存儲(chǔ)有包含到該樣本數(shù)據(jù)塊6的至少一個(gè)引用的清單段 8的僅僅部分列表。在一個(gè)實(shí)施例中,對于塊索引9中關(guān)于樣本數(shù)據(jù)塊的給定條目,存儲(chǔ)有到該清單 儲(chǔ)存器中包括到該樣本數(shù)據(jù)塊的引用的至少一個(gè)清單段8的引用。在一個(gè)實(shí)施例中,該引 用通??梢允轻槍η鍐味蔚?。在另一個(gè)實(shí)施例中,該引用可以指示清單段中存在到該樣本 數(shù)據(jù)塊的引用的位置。使用中,該清單儲(chǔ)存器5可以包含許多清單段8,每個(gè)清單段形成表示先前處理的 數(shù)據(jù)集1的清單7的部分。在一個(gè)實(shí)施例中,該清單儲(chǔ)存器5包含關(guān)于其中包含的每個(gè)清 單段8的信息。該信息可以包括與每個(gè)清單段8相關(guān)聯(lián)的屬性,諸如它的大小、它包含的引 用的數(shù)目、或者它表示的數(shù)據(jù)集的名字以及其他細(xì)節(jié)。用于特定清單段的信息可以包括由
10該清單段8引用的至少一個(gè)樣本數(shù)據(jù)塊6的塊標(biāo)識(shí)符。因此,特定清單段8可以不僅僅包 括到該塊儲(chǔ)存器4中存儲(chǔ)的樣本數(shù)據(jù)塊6的一組引用,還可以包括用于所引用的那些樣本 數(shù)據(jù)塊6中的每一個(gè)的完整塊標(biāo)識(shí)符。在一個(gè)實(shí)施例中,已經(jīng)識(shí)別出清單儲(chǔ)存器中的、包括到對應(yīng)于給定輸入數(shù)據(jù)段中 的至少一個(gè)輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)清單段8以后, 該數(shù)據(jù)處理設(shè)備能夠操作以分析該識(shí)別的清單段來識(shí)別對應(yīng)于該輸入數(shù)據(jù)段中的另外輸 入數(shù)據(jù)塊的樣本數(shù)據(jù)塊。在其中清單段包括由該清單段引用的每個(gè)樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符 的實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與該清單段中的塊標(biāo)識(shí)符 進(jìn)行比較。這樣的益處是,可以不需要訪問塊索引9中的信息。因此,使用所識(shí)別的清單段 而非塊儲(chǔ)存器4來執(zhí)行比較過程,可以允許在RAM中時(shí)處理用于比較的數(shù)據(jù)的至少一部分。該清單信息可以包含在該塊儲(chǔ)存器4中的、由清單段8引用的至少一個(gè)樣本數(shù)據(jù) 塊6的位置。因此可以僅僅使用塊儲(chǔ)存器4以及清單中的位置數(shù)據(jù),來重建由該清單代表 的數(shù)據(jù)集??梢圆恍枰L問塊索引8。數(shù)據(jù)處理設(shè)備3能夠操作以生成輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符。在一個(gè)實(shí)施例中,該 數(shù)據(jù)處理設(shè)備3能夠操作以在已經(jīng)將輸入數(shù)據(jù)集1處理成輸入數(shù)據(jù)塊2和/或輸入數(shù)據(jù)段 之后,或在將輸入數(shù)據(jù)集1處理成輸入數(shù)據(jù)塊2和/或輸入數(shù)據(jù)段的同時(shí),為每個(gè)輸入數(shù)據(jù) 塊2生成塊標(biāo)識(shí)符。為輸入數(shù)據(jù)塊2生成的塊標(biāo)識(shí)符可以被用于識(shí)別塊儲(chǔ)存器4中對應(yīng)于該輸入數(shù)據(jù) 塊2的樣本數(shù)據(jù)塊6。在一個(gè)實(shí)施例中,將該輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與樣本數(shù)據(jù)塊6的塊 標(biāo)識(shí)符進(jìn)行比較。這樣的益處是,輸入數(shù)據(jù)塊2本身不直接與樣本數(shù)據(jù)塊6進(jìn)行比較。因 為相應(yīng)塊標(biāo)識(shí)符可能在大小上小于它們代表的輸入/樣本數(shù)據(jù)塊6,所以用來查看該兩個(gè) 塊標(biāo)識(shí)符是否彼此對應(yīng)的比較步驟可以更快速地執(zhí)行。而且,因?yàn)樵搲K標(biāo)識(shí)符可以在大小 上相對地小于它們與之有關(guān)的相應(yīng)塊,所以可以在兩個(gè)塊標(biāo)識(shí)符均存儲(chǔ)在RAM中的同時(shí), 執(zhí)行該比較步驟。如果輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符等同,則輸入數(shù) 據(jù)塊2與樣本數(shù)據(jù)塊能被假定為彼此等同。如上所述,這假定,選擇用于生成塊標(biāo)識(shí)符的算 法以便生成唯一的標(biāo)識(shí)符。使用部分塊標(biāo)識(shí)符將產(chǎn)生標(biāo)識(shí)符的非唯一集合,意味著將識(shí)別 出一個(gè)或多個(gè)潛在對應(yīng)的樣本數(shù)據(jù)塊。在一個(gè)實(shí)施例中,該處理設(shè)備能夠操作以將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊 索引9中的塊標(biāo)識(shí)符進(jìn)行比較??梢酝ㄟ^將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊索引9中 的每個(gè)塊標(biāo)識(shí)符依次進(jìn)行比較來執(zhí)行比較步驟??商鎿Q地,可以基于塊標(biāo)識(shí)符的屬性組織 塊索引9中的塊標(biāo)識(shí)符。例如,可以基于塊標(biāo)識(shí)符的每個(gè)比特的二進(jìn)制狀態(tài)以樹狀配置來 布置塊索引9中的塊標(biāo)識(shí)符。在這個(gè)示例中,可以分析每個(gè)塊標(biāo)識(shí)符的MSB,并且根據(jù)MSB 的值(即或者為“0”或者為“1”)將每個(gè)塊標(biāo)識(shí)符分配到樹的分支。這兩個(gè)“分支”的每 個(gè)可以基于下一 MSB的值進(jìn)一步分成兩叉。這些分支的每個(gè)將基于接下來的MSB進(jìn)一步分 成兩叉,以此類推。利用上述的塊索引9中的條目的配置,在嘗試針對與選擇的輸入數(shù)據(jù)塊2對應(yīng)的 樣本數(shù)據(jù)塊6找到塊索引9中的條目的過程中,數(shù)據(jù)處理設(shè)備3能夠操作以迅速地“向下鉆 探(drill down)”塊索引9中的條目。在一些實(shí)施例中,“對應(yīng)”是指輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與樣本數(shù)據(jù)塊6的塊標(biāo)識(shí)符等同。輸入數(shù)據(jù)塊2與樣本數(shù)據(jù)塊6由此說成是彼此“對應(yīng)”的??商鎿Q地,在利用部分 塊標(biāo)識(shí)符的情況下,盡管給定的輸入數(shù)據(jù)塊2和樣本數(shù)據(jù)塊6的相應(yīng)部分塊標(biāo)識(shí)符可以等 同,但是實(shí)際的輸入數(shù)據(jù)塊2與樣本數(shù)據(jù)塊6可以不同,如上所述。然而,輸入數(shù)據(jù)塊2與 樣本數(shù)據(jù)塊6被說成是對應(yīng)的,因?yàn)橹辽偎鼈兊南鄳?yīng)部分塊標(biāo)識(shí)符彼此等同。在本發(fā)明的一個(gè)實(shí)施例中,在為輸入數(shù)據(jù)塊2產(chǎn)生塊標(biāo)識(shí)符并且識(shí)別塊索引9中 與存儲(chǔ)在塊索引9中的樣本數(shù)據(jù)塊6相關(guān)的對應(yīng)塊標(biāo)識(shí)符以后,數(shù)據(jù)處理設(shè)備3能夠操作 以執(zhí)行驗(yàn)證過程。該驗(yàn)證過程包括將輸入數(shù)據(jù)塊2與存儲(chǔ)在塊儲(chǔ)存器4中的識(shí)別的樣本數(shù) 據(jù)塊6進(jìn)行比較以確認(rèn)這兩個(gè)數(shù)據(jù)塊實(shí)際上是否等同。在沒有驗(yàn)證過程的情況下,以及尤 其在利用部分塊標(biāo)識(shí)符的情況下,識(shí)別為“對應(yīng)”的樣本數(shù)據(jù)塊6實(shí)際上可能不等同于輸入 數(shù)據(jù)塊2。包括到不等同的樣本數(shù)據(jù)塊6的引用將在清單內(nèi)引入錯(cuò)誤并且阻止清單內(nèi)表示 的數(shù)據(jù)的準(zhǔn)確恢復(fù)。在利用部分塊標(biāo)識(shí)符的實(shí)施例中,由于上述的原因,根據(jù)實(shí)施例的處理器可以識(shí) 別超過一個(gè)的“對應(yīng)”樣本數(shù)據(jù)塊6。當(dāng)然,輸入數(shù)據(jù)塊2可以僅僅與存儲(chǔ)在塊儲(chǔ)存器4中 的樣本數(shù)據(jù)塊6之一等同。因此,在識(shí)別超過一個(gè)的“對應(yīng)”樣本數(shù)據(jù)塊6的情況下,驗(yàn)證 過程允許數(shù)據(jù)處理設(shè)備3識(shí)別該超過一個(gè)的樣本數(shù)據(jù)塊6中的哪一個(gè)實(shí)際與輸入數(shù)據(jù)塊2 等同。盡管當(dāng)存儲(chǔ)僅僅部分塊標(biāo)識(shí)符時(shí),驗(yàn)證步驟有必要構(gòu)成進(jìn)一步的步驟,但是另一個(gè)益 處在于塊索引9的大小可以較小,因?yàn)樗淮鎯?chǔ)完整塊標(biāo)識(shí)符。所需的塊索引9的大小的 減小可能勝過執(zhí)行驗(yàn)證過程的不利(如果有的話)。在另一個(gè)實(shí)施例中,可以通過將輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與包含在識(shí)別的清單段內(nèi) 的塊標(biāo)識(shí)符進(jìn)行比較來執(zhí)行驗(yàn)證過程。這樣的益處在于可能根本不需要對塊儲(chǔ)存器進(jìn)行訪 問。可以通過僅僅利用包含在清單段中的信息和為輸入數(shù)據(jù)塊生成的塊標(biāo)識(shí)符來執(zhí)行驗(yàn)證 過程。在部分塊標(biāo)識(shí)符存儲(chǔ)在塊索引中的情況下,可以存在如下情形輸入數(shù)據(jù)塊的部分塊 標(biāo)識(shí)符與樣本數(shù)據(jù)塊的部分塊標(biāo)識(shí)符匹配,即使相應(yīng)的輸入/樣本數(shù)據(jù)塊不彼此匹配。結(jié) 果,識(shí)別為包含到與輸入數(shù)據(jù)塊對應(yīng)的樣本數(shù)據(jù)塊的引用的該至少一個(gè)清單段實(shí)際上可能 沒有引用與任何輸入數(shù)據(jù)塊對應(yīng)的樣本數(shù)據(jù)塊。在一個(gè)實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作 以對識(shí)別的(一個(gè)或多個(gè))清單段執(zhí)行驗(yàn)證過程。在一個(gè)實(shí)施例中,當(dāng)該至少一個(gè)清單段已 經(jīng)被識(shí)別時(shí),存儲(chǔ)在(一個(gè)或多個(gè))清單段中的被指示為與輸入數(shù)據(jù)塊對應(yīng)的樣本數(shù)據(jù)塊 的塊標(biāo)識(shí)符被驗(yàn)證。只有當(dāng)該塊標(biāo)識(shí)符與輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符等同,清單段才可用于后 續(xù)的操作。這個(gè)實(shí)施例達(dá)到的效果可以與執(zhí)行(參考塊索引的)驗(yàn)證過程的效果相同,但 是優(yōu)點(diǎn)在于不需要參考塊索引。應(yīng)該明白,返回的清單段的大小可以遠(yuǎn)小于塊儲(chǔ)存器。因 此,通過利用識(shí)別的清單段而非塊儲(chǔ)存器4執(zhí)行比較過程,可以允許在RAM中時(shí)對用于比較 的數(shù)據(jù)的至少一部分進(jìn)行處理。如上所述,一個(gè)實(shí)施例的塊索引9包含僅僅與塊儲(chǔ)存器4中的一些樣本數(shù)據(jù)塊6 相關(guān)的信息。因此,塊索引9可以被說成是“稀疏”塊索引9。保持這種“稀疏”塊索引減小 了塊索引9的大小,現(xiàn)在將描述其益處。數(shù)據(jù)處理設(shè)備可用于對輸入數(shù)據(jù)集1進(jìn)行精簡以進(jìn)行存儲(chǔ)、加密或傳輸。例如,輸 入數(shù)據(jù)1可以代表用于存儲(chǔ)在第二數(shù)據(jù)存儲(chǔ)介質(zhì)上的來自第一數(shù)據(jù)存儲(chǔ)介質(zhì)的備份數(shù)據(jù) 的集合。如上所述,數(shù)據(jù)處理設(shè)備3將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊索引9中的塊 標(biāo)識(shí)符進(jìn)行比較。比較步驟可能需要對包含在塊索引9中的數(shù)據(jù)的方便訪問。在一個(gè)實(shí)施例中,塊索引9可以存儲(chǔ)在隨機(jī)存取存儲(chǔ)器(RAM)內(nèi)。RAM允許對包含在其中的信息進(jìn)行 迅速且隨機(jī)的訪問。然而,可能需要減小數(shù)據(jù)處理設(shè)備所需的RAM。通過提供要存儲(chǔ)在RAM 中的稀疏塊索引9,與沒有稀疏索引的處理器相比較,數(shù)據(jù)處理設(shè)備需要更少的RAM。在沒有提供塊索引9的情況下,數(shù)據(jù)處理設(shè)備可以將輸入數(shù)據(jù)塊2與存儲(chǔ)在塊儲(chǔ) 存器4中的每個(gè)樣本數(shù)據(jù)塊6進(jìn)行比較。由于塊儲(chǔ)存器4可能是非常大的,所以將塊儲(chǔ)存 器4的全部內(nèi)容存儲(chǔ)在RAM中可能是困難的或者簡直是不可能的。塊儲(chǔ)存器4可以存儲(chǔ)在 非易失性存儲(chǔ)器中例如存儲(chǔ)在盤上。由此,從塊儲(chǔ)存器4讀取數(shù)據(jù)將需要盤讀取操作。這 可能明顯慢于訪問存儲(chǔ)在RAM中的數(shù)據(jù)。數(shù)據(jù)處理設(shè)備3包括塊索引9,塊索引9可以駐留 在RAM中,從而允許對包含在其中的信息進(jìn)行更快速訪問。結(jié)果,可以更加容易地識(shí)別存儲(chǔ) 在塊儲(chǔ)存器4中的與輸入數(shù)據(jù)塊2對應(yīng)的樣本數(shù)據(jù)塊6,而不需要對塊儲(chǔ)存器4進(jìn)行持續(xù) 的直接訪問。如上所述,可以存在驗(yàn)證過程。盡管這個(gè)操作將需要對存儲(chǔ)在盤上的塊儲(chǔ)存 器4中的樣本數(shù)據(jù)塊6進(jìn)行訪問,但是這可能需要塊儲(chǔ)存器4的僅僅一次盤尋找以及單個(gè) 樣本數(shù)據(jù)塊6的檢索。在本發(fā)明的實(shí)施例包括稀疏塊索引9的情況下,可以存在如下情況與輸入數(shù)據(jù) 塊2對應(yīng)的樣本數(shù)據(jù)塊6存在于塊儲(chǔ)存器4中,但是在塊索引9中沒有關(guān)于樣本數(shù)據(jù)塊6 的條目。因此,當(dāng)將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與塊儲(chǔ)存器4中的條目進(jìn)行比較時(shí),數(shù)據(jù)處理 設(shè)備3最初可能指示不存在對應(yīng)的樣本數(shù)據(jù)塊6,并且再一次(for a second time)將輸 入數(shù)據(jù)塊2作為樣本數(shù)據(jù)塊6存儲(chǔ)在塊儲(chǔ)存器4中。盡管再一次將輸入數(shù)據(jù)塊2存儲(chǔ)為樣 本數(shù)據(jù)塊6的該情況可被看作是塊儲(chǔ)存器4的低效使用,但是這種實(shí)施例的益處在于塊索 引9是稀疏的,并且由此利用RAM中的較少空間。需要較少RAM以及搜索稀疏塊索引9花 費(fèi)的時(shí)間的減小的益處可以勝過再一次將輸入數(shù)據(jù)塊2存儲(chǔ)為樣本數(shù)據(jù)塊6的不利。然而,由于數(shù)據(jù)處理設(shè)備3能夠操作以利用輸入數(shù)據(jù)流可能彼此部分類似的事 實(shí),所以數(shù)據(jù)處理設(shè)備3可以識(shí)別塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6,即使在塊索引9中可能沒 有針對樣本數(shù)據(jù)塊6的條目,如下所述。對于給定數(shù)目的輸入數(shù)據(jù)塊2,即使與每個(gè)對應(yīng)的樣本數(shù)據(jù)塊6可能已經(jīng)存儲(chǔ)在 塊儲(chǔ)存器4中,但僅僅一個(gè)樣本數(shù)據(jù)塊6可能在塊索引9內(nèi)具有條目。數(shù)據(jù)處理設(shè)備3能 夠操作以識(shí)別塊索引9中的對應(yīng)的樣本數(shù)據(jù)塊6。數(shù)據(jù)處理設(shè)備3根據(jù)樣本數(shù)據(jù)塊6識(shí)別 清單儲(chǔ)存器中包括到樣本數(shù)據(jù)塊6的至少一個(gè)引用的至少一個(gè)清單段。在后續(xù)對識(shí)別的至 少一個(gè)清單段進(jìn)行分析的過程中,數(shù)據(jù)處理設(shè)備3能夠操作以識(shí)別在塊儲(chǔ)存器4中存在與 輸入數(shù)據(jù)流的更多輸入數(shù)據(jù)塊2對應(yīng)的樣本數(shù)據(jù)塊6,即使這些樣本數(shù)據(jù)塊6可能在塊索引 9內(nèi)沒有條目。因此,這種數(shù)據(jù)處理設(shè)備可以能夠操作以識(shí)別塊儲(chǔ)存器4中與所有的輸入數(shù)據(jù)塊 2對應(yīng)的所有樣本數(shù)據(jù)塊6同時(shí)僅僅包括稀疏索引。在塊儲(chǔ)存器4中可以不存在重復(fù)條目。 具有稀疏塊索引9的數(shù)據(jù)處理設(shè)備3在精簡輸入數(shù)據(jù)方面可能與具有全塊索引9的數(shù)據(jù)處 理設(shè)備3同樣高效。高效是指存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6沒有重復(fù)或者至少在預(yù) 定程度上沒有重復(fù)。可以允許樣本數(shù)據(jù)塊的一些重復(fù)?,F(xiàn)在將參考圖4中所示的輸入數(shù)據(jù)集11描述數(shù)據(jù)處理設(shè)備的另一個(gè)實(shí)施例。如所述的,可以將輸入數(shù)據(jù)11處理成輸入數(shù)據(jù)段13。數(shù)據(jù)處理設(shè)備能夠操作以識(shí) 別出輸入數(shù)據(jù)集11的至少一個(gè)輸入數(shù)據(jù)段13的至少一個(gè)輸入數(shù)據(jù)塊12對應(yīng)于已經(jīng)存儲(chǔ)在該塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6。這么做時(shí),至少輸入數(shù)據(jù)集11的該輸入數(shù)據(jù)塊12可以 用到存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的引用來表示。如果發(fā)現(xiàn)輸入數(shù)據(jù)集的其他輸入 數(shù)據(jù)塊12對應(yīng)于已經(jīng)存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6,則塊儲(chǔ)存器4可以保持同樣的 大小,但是數(shù)據(jù)處理設(shè)備能夠操作以存儲(chǔ)第二輸入數(shù)據(jù)集11的表示(也就是清單)。在一個(gè)實(shí)施例中,參考圖4,假設(shè)首先選擇第一輸入數(shù)據(jù)段13用于處理。該第一 輸入數(shù)據(jù)段13包括輸入數(shù)據(jù)塊EFGHI。為了確定塊儲(chǔ)存器4已經(jīng)包含對應(yīng)于輸入數(shù)據(jù)塊 EFGHI的樣本數(shù)據(jù)塊6,在沒有本發(fā)明的情況下,可能需要輸入數(shù)據(jù)塊與塊儲(chǔ)存器4中的每 個(gè)樣本數(shù)據(jù)塊6的逐塊比較。在本發(fā)明的此實(shí)施例中,提供了稀疏的塊索引8,其包含關(guān)于在該塊儲(chǔ)存器4中存 儲(chǔ)的僅僅一些樣本數(shù)據(jù)塊6的信息。該稀疏的塊索引8可以具有僅僅用于具備預(yù)定特性的 樣本數(shù)據(jù)塊6的條目??商鎿Q地,該塊索引8的稀疏性可以保持在預(yù)定水平。對于用于樣 本數(shù)據(jù)塊6的塊索引8中的每個(gè)條目,存儲(chǔ)有該樣本數(shù)據(jù)塊6的塊標(biāo)識(shí)符。在該實(shí)施例中,為選擇的輸入數(shù)據(jù)段13的每個(gè)輸入數(shù)據(jù)塊12生成塊標(biāo)識(shí)符。將 該輸入數(shù)據(jù)塊12的塊標(biāo)識(shí)符與存儲(chǔ)在塊索引8中的塊標(biāo)識(shí)符進(jìn)行比較。即便該塊索引8 是稀疏的塊索引8,本發(fā)明的實(shí)施例配置為使得對于給定的輸入數(shù)據(jù)段,塊索引8中很可能 存在用于對應(yīng)于輸入數(shù)據(jù)段13中的輸入數(shù)據(jù)塊12的至少一個(gè)樣本數(shù)據(jù)塊6的條目。進(jìn)一步參考圖4,假設(shè)在塊索引8中存在用于輸入數(shù)據(jù)塊E、G和I的條目。數(shù)據(jù)處 理設(shè)備將因此識(shí)別出在該索引中存在用于對應(yīng)于第一輸入數(shù)據(jù)段中的三個(gè)輸入數(shù)據(jù)塊12 的樣本數(shù)據(jù)塊6的條目。對于該塊索引8中用于特定樣本數(shù)據(jù)塊的每個(gè)條目,存儲(chǔ)有具有到該樣本數(shù)據(jù)塊 6的至少一個(gè)引用的清單段8的列表。在圖3所示的示例中,當(dāng)前存儲(chǔ)有僅僅一個(gè)先前編輯 的清單。然而,在清單儲(chǔ)存器中可能存儲(chǔ)有多個(gè)清單(每個(gè)均包括清單段)。特定樣本數(shù)據(jù) 塊6可能被多個(gè)清單段引用。那些所述清單段的每一個(gè),或者至少預(yù)定數(shù)目的所述清單段, 可以對照塊索引8中用于該樣本數(shù)據(jù)塊6的條目而列出。在此實(shí)施例中,將看到,存儲(chǔ)在清單儲(chǔ)存器中的第一清單段8包括到樣本數(shù)據(jù)塊E 的引用,該樣本數(shù)據(jù)塊E對應(yīng)于輸入數(shù)據(jù)塊E。此外,存儲(chǔ)在清單儲(chǔ)存器中的第二清單段8 包括到樣本數(shù)據(jù)塊G以及I兩者的引用。在此實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作以首先選 擇具有到最大數(shù)目的對應(yīng)于輸入數(shù)據(jù)集11的輸入數(shù)據(jù)段13中的輸入數(shù)據(jù)塊12的樣本數(shù) 據(jù)塊的引用的清單段。因此,該數(shù)據(jù)處理設(shè)備將選擇第二清單段8,因?yàn)樗綄?yīng)于所 選擇的輸入數(shù)據(jù)段13中的兩個(gè)輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊6的引用。因此有很高的概率發(fā) 生如下情況第二清單段8可能包含到對應(yīng)于選擇的輸入數(shù)據(jù)段13中的另外輸入數(shù)據(jù)塊的 樣本數(shù)據(jù)塊6的引用。已經(jīng)選擇了該第二清單段8以后,數(shù)據(jù)處理設(shè)備能夠操作以將選擇的輸入數(shù)據(jù)段 13的每個(gè)輸入數(shù)據(jù)塊12的塊標(biāo)識(shí)符與存儲(chǔ)在選擇的清單段8中的塊標(biāo)識(shí)符進(jìn)行比較。無 需與導(dǎo)致選擇該清單段8的輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符進(jìn)行比較。這是因?yàn)椋呀?jīng)知道該清單 段8包含到對應(yīng)于輸入數(shù)據(jù)塊G以及I的樣本數(shù)據(jù)塊6的引用。然而,在其中僅僅使用與 該塊索引8中的條目的部分塊標(biāo)識(shí)符匹配的輸入數(shù)據(jù)塊的部分塊標(biāo)識(shí)符來識(shí)別該至少一 個(gè)清單段的實(shí)施例中,將所有的輸入數(shù)據(jù)塊的完整的塊標(biāo)識(shí)符與在識(shí)別的清單中引用的所 有的樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符進(jìn)行比較可能是有益的。這于是可以確保,識(shí)別的至少一個(gè)清
14單實(shí)際上確實(shí)具有到對應(yīng)于選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊6的至少一 個(gè)引用。比較步驟之后,數(shù)據(jù)處理設(shè)備將確定識(shí)別的清單段8也包含到樣本數(shù)據(jù)塊F以及H 的引用。因此,因?yàn)樵趬K儲(chǔ)存器4中已經(jīng)存儲(chǔ)了對應(yīng)于選擇的輸入數(shù)據(jù)段中的所有輸入數(shù) 據(jù)塊的樣本數(shù)據(jù)塊,所以可以使用到相關(guān)的樣本數(shù)據(jù)塊6的每一個(gè)的引用來為選擇輸入數(shù) 據(jù)段部分編輯清單。在另一個(gè)示例中,如果沒有找到對應(yīng)于選擇的輸入數(shù)據(jù)段中的所有輸入數(shù)據(jù)塊的 樣本數(shù)據(jù)塊6,則后續(xù)的清單段可以被選擇用于分析。用于后續(xù)分析的候選清單段可以具有 到對應(yīng)于正被處理的輸入數(shù)據(jù)段中的至少一個(gè)輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的至少一個(gè)引用。 可以根據(jù)候選清單段每個(gè)包含的到對應(yīng)于輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊6的 引用的數(shù)目,來對候選清單段排列優(yōu)先級。由此斷定,具有到對應(yīng)于給定輸入數(shù)據(jù)段中的輸 入數(shù)據(jù)塊的許多樣本數(shù)據(jù)塊6 (塊索引8中現(xiàn)存)的引用的清單段可能非常類似于輸入數(shù) 據(jù)段。這樣的清單段因此可能具有到對應(yīng)于輸入數(shù)據(jù)段中的其他輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊 6的引用,對于所述其他輸入數(shù)據(jù)塊在塊索引8中(由于它的稀疏性)沒有對應(yīng)的條目。已經(jīng)部分編輯了用于該輸入數(shù)據(jù)集11的清單之后,留下第二輸入數(shù)據(jù)段待處理。 該第二輸入數(shù)據(jù)段包括輸入數(shù)據(jù)塊J,K,P和0。對此示例,假設(shè)在圖3(b)中所示的第三清 單段8中引用的樣本數(shù)據(jù)塊6當(dāng)中,塊索引8中存在用于樣本數(shù)據(jù)塊6L以及M的條目。如 上所述,關(guān)于塊索引8中生成哪些條目的確定可能是隨機(jī)的、偽隨機(jī)的、或者遵循不同的算 法。例如,塊索引8中可能僅僅對于具有預(yù)定特性的樣本數(shù)據(jù)塊6生成條目。對于第二輸入數(shù)據(jù)段13,將由數(shù)據(jù)處理設(shè)備確定塊索引8不包含用于對應(yīng)于輸入 數(shù)據(jù)塊J、K、P以及Q中的任何一個(gè)的樣本數(shù)據(jù)塊6的條目。因此,數(shù)據(jù)處理設(shè)備不能識(shí)別 具有到對應(yīng)于該第二輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的至少一個(gè)引用的至少一 個(gè)清單段。讀者將注意到,樣本數(shù)據(jù)塊J以及K實(shí)際上被該清單儲(chǔ)存器中存儲(chǔ)的第二以及第 三清單段8引用。然而,因?yàn)樗銮鍐味尉鶝]有到在塊索引8中具有條目且對應(yīng)于第二輸入 數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊6的引用,所以數(shù)據(jù)處理設(shè)備不會(huì)識(shí)別這些清單段。因此,輸入數(shù)據(jù)塊J以及K被作為樣本數(shù)據(jù)塊6添加到塊儲(chǔ)存器4。用于輸入數(shù) 據(jù)集11的清單被填充有到樣本數(shù)據(jù)塊J以及K的引用。最后,因?yàn)椴粫?huì)找到到對應(yīng)于輸入 數(shù)據(jù)塊P以及Q的樣本數(shù)據(jù)塊的引用(因?yàn)樗鼈儾淮嬖?,輸入數(shù)據(jù)塊P以及Q被作為樣 本數(shù)據(jù)塊6添加到該塊儲(chǔ)存器4。然后用到該樣本數(shù)據(jù)塊6的引用完成用于輸入數(shù)據(jù)集11 的清單。該清單可能進(jìn)一步地分成清單段。該清單段的邊界可能與它們表示的輸入數(shù)據(jù)段 的邊界等同。在另一個(gè)實(shí)施例中,如果發(fā)現(xiàn)由先前處理的清單段引用的任何樣本數(shù)據(jù)塊6不對 應(yīng)于處理的在前輸入段的輸入數(shù)據(jù)塊,則可以將由先前處理的清單段引用的那些不匹配樣 本數(shù)據(jù)塊6與下一個(gè)待處理的輸入數(shù)據(jù)段的輸入數(shù)據(jù)塊進(jìn)行比較。當(dāng)毗鄰的輸入數(shù)據(jù)段之 間的邊界恰好位于完全對應(yīng)于到由先前處理的清單段引用的樣本數(shù)據(jù)塊6的一連串引用 的一連串輸入數(shù)據(jù)塊內(nèi)時(shí),這是有益的。在此實(shí)施例中,可以將先前處理的清單段的不匹配 樣本數(shù)據(jù)塊6與下一個(gè)輸入數(shù)據(jù)段的所有輸入數(shù)據(jù)塊進(jìn)行比較。在此情況下,將確定輸入 數(shù)據(jù)塊J已經(jīng)存在于塊儲(chǔ)存器4中,因?yàn)樗谙乱粋€(gè)輸入數(shù)據(jù)段的結(jié)束處被引用。
然而,在此示例中,第三清單段將不被識(shí)別,因?yàn)榈诙斎霐?shù)據(jù)段不包含輸入數(shù)據(jù) 塊L以及M??梢詫?yīng)于輸入數(shù)據(jù)塊K的新的樣本數(shù)據(jù)塊添加到塊儲(chǔ)存器4,而不管它已 經(jīng)存在的事實(shí)。雖然這可能看作是塊儲(chǔ)存器4的低效使用,這樣的布置具有減少處理操作 的益處。此外,通過一次僅僅比較清單段和輸入數(shù)據(jù)段,可以在RAM中執(zhí)行比較操作。對于圖4中所示的示例,有可能識(shí)別出在塊儲(chǔ)存器4中存在樣本數(shù)據(jù)塊K,但是將 需要對所有的輸入數(shù)據(jù)塊與所有的樣本數(shù)據(jù)塊6進(jìn)行比較。對于大的清單以及輸入數(shù)據(jù) 集,這可能是不可能的。至少,這樣的比較無法在RAM中高效地執(zhí)行。因?yàn)樵谝粋€(gè)實(shí)施例中, 清單儲(chǔ)存器以及塊儲(chǔ)存器4被存儲(chǔ)在非易失性存儲(chǔ)裝置上,所以會(huì)需要多個(gè)盤讀取操作, 而這是低效的。數(shù)據(jù)處理設(shè)備可能一次加載輸入數(shù)據(jù)段和清單數(shù)據(jù)段到RAM中。當(dāng)迅速找 到對應(yīng)于輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊6時(shí),可便利地減少盤讀取操作。在其中輸入數(shù)據(jù)段包含彼此等同的兩個(gè)輸入數(shù)據(jù)塊且在塊儲(chǔ)存器中沒有找到對 應(yīng)于輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的一個(gè)實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作以僅僅將一個(gè)輸入 數(shù)據(jù)塊作為樣本數(shù)據(jù)塊存儲(chǔ)在塊儲(chǔ)存器中。針對輸入數(shù)據(jù)段編輯的清單將被編輯有到塊儲(chǔ) 存器中的單個(gè)樣本數(shù)據(jù)塊的兩個(gè)引用。在一個(gè)實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作以通過將 輸入數(shù)據(jù)段的每個(gè)輸入數(shù)據(jù)塊彼此比較來執(zhí)行此操作。當(dāng)輸入數(shù)據(jù)集被處理成包括輸入數(shù) 據(jù)塊的輸入數(shù)據(jù)段時(shí),可執(zhí)行此操作。在一個(gè)實(shí)施例中,可以在數(shù)據(jù)處理設(shè)備設(shè)法識(shí)別具有 到對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的至少一個(gè)引用的至少一個(gè) 清單段之前執(zhí)行此操作。在另一個(gè)實(shí)施例中,可以在數(shù)據(jù)處理設(shè)備已嘗試識(shí)別具有到對應(yīng)于至少一個(gè)輸入 數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的至少一個(gè)引用的至少一個(gè)清單段之后執(zhí)行此操作。在另一個(gè)實(shí)施例中,可以在數(shù)據(jù)處理設(shè)備已嘗試從該至少一個(gè)所識(shí)別的清單段中 識(shí)別到對應(yīng)于正被處理的輸入數(shù)據(jù)段中的至少一個(gè)另外的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的至 少一個(gè)引用之后執(zhí)行此操作。在這樣的實(shí)施例中,用于尋找在輸入數(shù)據(jù)段中的重復(fù)的輸入 數(shù)據(jù)塊的操作于是可以僅僅需要對沒有被識(shí)別為對應(yīng)于所識(shí)別的清單段或多個(gè)清單段的 樣本數(shù)據(jù)塊的那些輸入數(shù)據(jù)塊執(zhí)行。在一個(gè)實(shí)施例中,提供了一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊6 ; 以及清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集的至少一部分并被分成清單段, 每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊6的至少一個(gè)引用。該處理器能夠操作以將輸 入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;選擇輸入數(shù)據(jù)段; 以及識(shí)別具有到對應(yīng)于選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè) 所述引用的至少一個(gè)所述清單段。根據(jù)實(shí)施例的處理數(shù)據(jù)的方法,如圖6中所示,使用塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊; 以及清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集的至少一部分并被分成清單段, 每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用。該方法將輸入數(shù)據(jù)處理14 為輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;選擇15輸入數(shù)據(jù)段;以及識(shí) 別16具有到對應(yīng)于選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所述 引用的至少一個(gè)所述清單段。本發(fā)明的一個(gè)實(shí)施例提供了一種編輯清單的方法,該清單代表輸入數(shù)據(jù)集,所述 方法包括將輸入數(shù)據(jù)集處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;以及在清單儲(chǔ)存器中識(shí)別至少一個(gè)先前編輯并存儲(chǔ)的清單的至少一個(gè)清單段,其具有到塊 儲(chǔ)存器中存儲(chǔ)的、對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的至少一個(gè)樣本數(shù)據(jù)塊的引用。當(dāng)首次提供本發(fā)明的實(shí)施例的塊儲(chǔ)存器4和清單儲(chǔ)存器5時(shí),塊儲(chǔ)存器4中沒有 存儲(chǔ)樣本數(shù)據(jù)塊6,且清單儲(chǔ)存器中沒有存儲(chǔ)清單。然后塊儲(chǔ)存器4和清單儲(chǔ)存器5均得以 填充。因此,當(dāng)處理第一輸入數(shù)據(jù)集1時(shí),從輸入數(shù)據(jù)集1劃分的每個(gè)輸入數(shù)據(jù)塊2將作為 樣本數(shù)據(jù)塊6而被添加到塊儲(chǔ)存器4。將為輸入數(shù)據(jù)集1編輯清單并將其添加到清單儲(chǔ)存 器5。圖3示出了根據(jù)實(shí)施例的至少部分填充的處理器的示例。將知道,隨著越來越多的 輸入數(shù)據(jù)集1被處理,塊儲(chǔ)存器4和清單儲(chǔ)存器5將分別包含更多的樣本數(shù)據(jù)塊6和清單。 可以達(dá)到要進(jìn)行處理的輸入數(shù)據(jù)集的大多數(shù)輸入數(shù)據(jù)塊2對應(yīng)于已經(jīng)存儲(chǔ)在塊儲(chǔ)存器4中 的樣本數(shù)據(jù)塊6的點(diǎn)。在這種情況下,可以針對輸入數(shù)據(jù)集編輯清單6而不用向塊儲(chǔ)存器 4添加任何新內(nèi)容,從而進(jìn)一步展示了根據(jù)一些實(shí)施例的方法的優(yōu)點(diǎn)。數(shù)據(jù)處理設(shè)備3可以形成數(shù)據(jù)精簡或去重復(fù)管理系統(tǒng)的一部分。數(shù)據(jù)處理設(shè)備3 可以集成到數(shù)據(jù)存儲(chǔ)系統(tǒng)中。數(shù)據(jù)處理設(shè)備3可被配置為當(dāng)將數(shù)據(jù)發(fā)送至數(shù)據(jù)存儲(chǔ)系統(tǒng)以 進(jìn)行存儲(chǔ)時(shí),“主動(dòng)地”工作??蓪?shí)時(shí)執(zhí)行精簡??商鎿Q地,可以在“非高峰(off peak)”時(shí) 段期間將數(shù)據(jù)提供給數(shù)據(jù)處理設(shè)備3。非高峰是指可能沒有正在將數(shù)據(jù)提供給數(shù)據(jù)存儲(chǔ)系 統(tǒng)以進(jìn)行存儲(chǔ),并且由此數(shù)據(jù)處理設(shè)備3可以處理已經(jīng)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)上的數(shù)據(jù)從而 減少已經(jīng)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)上的任何重復(fù)數(shù)據(jù)的時(shí)段。數(shù)據(jù)處理設(shè)備可以形成數(shù)據(jù)存儲(chǔ) 系統(tǒng)的數(shù)據(jù)內(nèi)務(wù)處理(housekeeping)系統(tǒng)的一部分。當(dāng)用于本說明書和權(quán)利要求書中時(shí),術(shù)語“包括”和“包含”及其變型是指包括指 定的特征、步驟或整數(shù)。這些術(shù)語不應(yīng)被解釋為排除其它特征、步驟或組件的存在。以其具體形式或按照執(zhí)行所公開功能的裝置或者獲得所公開結(jié)果的方法或過程 而表達(dá)的在上述說明書或下面的權(quán)利要求書或附圖中公開的特征可以視情況而單獨(dú)地或 者以這種特征的任何組合用于以各種形式實(shí)現(xiàn)本發(fā)明。
權(quán)利要求
一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊;清單儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被分為清單段,每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用,所述數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;以及識(shí)別具有到對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)所述清單段。
2.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中該數(shù)據(jù)處理設(shè)備能夠操作以選擇所述輸入數(shù)據(jù)段 并識(shí)別具有到對應(yīng)于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè) 所述引用的至少一個(gè)所述清單段。
3.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,能夠操作以從所述至少一個(gè)所識(shí)別的清單段中識(shí)別到 對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的至少一個(gè)另外的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一 個(gè)所述引用。
4.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中該數(shù)據(jù)處理設(shè)備能夠操作以針對至少一個(gè)后續(xù)操 作對多個(gè)所識(shí)別的清單段排列優(yōu)先級。
5.權(quán)利要求4的數(shù)據(jù)處理設(shè)備,其中根據(jù)該多個(gè)所識(shí)別的清單段的每個(gè)所具有的到對 應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的所述引用的數(shù)目,來對該多個(gè)所 識(shí)別的清單段排列優(yōu)先級。
6.權(quán)利要求5的數(shù)據(jù)處理設(shè)備,其中按照該多個(gè)所識(shí)別的清單段的每個(gè)所包含的到對 應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的所述引用的數(shù)目的降序,來對該 多個(gè)所識(shí)別的清單段排列優(yōu)先級。
7.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,能夠操作以從清單儲(chǔ)存器中存儲(chǔ)的不同清單中識(shí)別所 述清單段。
8.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中輸入數(shù)據(jù)段和所述清單段每個(gè)具有預(yù)定的大小。
9.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中輸入數(shù)據(jù)段和清單段的大小基本等同。
10.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,能夠操作以將給定的輸入數(shù)據(jù)段中的每個(gè)輸入數(shù)據(jù) 塊與在所識(shí)別的至少一個(gè)清單段中引用的樣本數(shù)據(jù)塊進(jìn)行比較,以識(shí)別對應(yīng)于所述輸入數(shù) 據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊。
11.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,能夠操作以按預(yù)定的順序處理每個(gè)輸入數(shù)據(jù)段。
12.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,包括塊索引,所述塊索引包含關(guān)于所述樣本數(shù)據(jù)塊的 fn息ο
13.權(quán)利要求12的數(shù)據(jù)處理設(shè)備,其中該數(shù)據(jù)處理設(shè)備能夠操作以使用塊索引中的所 述信息來識(shí)別至少一個(gè)所述清單段。
14.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中清單儲(chǔ)存器包含由所述至少一個(gè)清單引用的所 述至少一個(gè)樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符。
15.權(quán)利要求14的數(shù)據(jù)處理設(shè)備,能夠操作以生成所述輸入數(shù)據(jù)段的每個(gè)輸入數(shù)據(jù) 塊的塊標(biāo)識(shí)符,以及將每個(gè)輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與清單儲(chǔ)存器中包含的塊標(biāo)識(shí)符進(jìn)行比 較。
16.一種數(shù)據(jù)處理器,包括塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊;清單儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被分為清單段,每 個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用,該處理器能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多 個(gè)輸入數(shù)據(jù)塊;選擇輸入數(shù)據(jù)段;并識(shí)別具有到對應(yīng)于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù) 塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)所述清單段。
17.一種使用下述裝置處理數(shù)據(jù)的方法塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊;清單儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被分為清單段,每 個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用,該方法包括將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;選擇輸入數(shù)據(jù)段;以及識(shí)別具有到對應(yīng)于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一 個(gè)所述引用的至少一個(gè)所述清單段。
18.權(quán)利要求17的方法,包括對所述識(shí)別的至少一個(gè)清單段進(jìn)行分析,以識(shí)別到對應(yīng) 于所選擇的輸入數(shù)據(jù)段中的至少一個(gè)另外的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所 述引用。
19.權(quán)利要求17的方法,其中根據(jù)所識(shí)別的至少一個(gè)清單段中的每個(gè)所包含的到對應(yīng) 于所選擇的輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊的樣本數(shù)據(jù)塊的引用的數(shù)目,來對所識(shí)別的至少一 個(gè)清單段排列優(yōu)先級。
20.一種編輯代表輸入數(shù)據(jù)集的清單的方法,該方法包括將輸入數(shù)據(jù)集處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;在清單儲(chǔ)存器中識(shí)別至少一個(gè)先前編輯且存儲(chǔ)的清單的至少一個(gè)清單段,該清單段具 有到對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段中的輸入數(shù)據(jù)塊且存儲(chǔ)在塊儲(chǔ)存器中的至少一個(gè)樣本數(shù) 據(jù)塊的引用。
全文摘要
一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊6;清單儲(chǔ)存器,包含至少一個(gè)清單,該清單代表數(shù)據(jù)集的至少一部分并被分為清單段,每個(gè)清單段包括到至少一個(gè)所述樣本數(shù)據(jù)塊的至少一個(gè)引用,所述數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)段,每個(gè)輸入數(shù)據(jù)段包括一個(gè)或多個(gè)輸入數(shù)據(jù)塊;以及識(shí)別具有到對應(yīng)于至少一個(gè)輸入數(shù)據(jù)段的輸入數(shù)據(jù)塊的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)所述清單段。
文檔編號G06F11/14GK101855620SQ200780101503
公開日2010年10月6日 申請日期2007年10月25日 優(yōu)先權(quán)日2007年10月25日
發(fā)明者G·特雷齊斯, P·T·坎布爾 申請人:惠普開發(fā)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
遂昌县| 万安县| 衡山县| 鸡泽县| 康平县| 西吉县| 措美县| 和林格尔县| 黄骅市| 金坛市| 博客| 德钦县| 泰州市| 保山市| 房山区| 泗水县| 遂溪县| 绵竹市| 江北区| 扎囊县| 长乐市| 舒城县| 额尔古纳市| 关岭| 彭山县| 武安市| 资中县| 额敏县| 乐平市| 临夏市| 佛山市| 察隅县| 台南市| 通河县| 云和县| 墨玉县| 太原市| 望城县| 门源| 监利县| 阜新市|