專(zhuān)利名稱(chēng):數(shù)據(jù)處理設(shè)備及數(shù)據(jù)處理方法
數(shù)據(jù)處理設(shè)備及數(shù)據(jù)處理方法
背景技術(shù):
保持在主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)可以被備份至輔助數(shù)據(jù)存儲(chǔ)介質(zhì)。輔助數(shù)據(jù)存儲(chǔ) 介質(zhì)的位置可以與主數(shù)據(jù)存儲(chǔ)介質(zhì)的位置不同。如果主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)出現(xiàn)至少部 分丟失,可以從輔助數(shù)據(jù)存儲(chǔ)介質(zhì)恢復(fù)數(shù)據(jù)。輔助數(shù)據(jù)存儲(chǔ)介質(zhì)可以包含在一定時(shí)間段內(nèi) 存儲(chǔ)在主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)的歷史。應(yīng)用戶(hù)請(qǐng)求,輔助數(shù)據(jù)存儲(chǔ)介質(zhì)可以向用戶(hù)提供 在指定的時(shí)間點(diǎn)存儲(chǔ)在主數(shù)據(jù)存儲(chǔ)介質(zhì)上的數(shù)據(jù)。可以每周、每天、每小時(shí)或者以其它間隔執(zhí)行數(shù)據(jù)備份過(guò)程。可以以增量方式對(duì)數(shù) 據(jù)進(jìn)行備份,在這種數(shù)據(jù)備份過(guò)程中,僅僅自上一次備份以來(lái)對(duì)主數(shù)據(jù)介質(zhì)上的數(shù)據(jù)所做 的改變被轉(zhuǎn)移到輔助數(shù)據(jù)存儲(chǔ)介質(zhì)。還可以執(zhí)行全備份,在這種全備份過(guò)程中,主數(shù)據(jù)介質(zhì) 的全部?jī)?nèi)容被拷貝至輔助數(shù)據(jù)介質(zhì)。存在許多其它的備份策略。當(dāng)對(duì)數(shù)據(jù)進(jìn)行備份時(shí),正被備份的數(shù)據(jù)的特定部分先前可能已被存儲(chǔ)到主數(shù)據(jù)存 儲(chǔ)介質(zhì),當(dāng)執(zhí)行全備份時(shí)情況尤其如此。將相同數(shù)據(jù)存儲(chǔ)許多次表示數(shù)據(jù)存儲(chǔ)介質(zhì)的低效 利用。
發(fā)明內(nèi)容
在一個(gè)實(shí)施例中,本發(fā)明提供了一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,被配置用于 包含樣本數(shù)據(jù)(specimen data)塊;分立(discrete)清單儲(chǔ)存器,被配置用于包含至少一 個(gè)清單,所述清單代表數(shù)據(jù)集的至少一部分并且包括到所述樣本數(shù)據(jù)塊的至少一個(gè)的至少 一個(gè)引用;所述處理設(shè)備能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)塊并且識(shí)別清單儲(chǔ)存器中 包括到與所述輸入數(shù)據(jù)塊的至少一個(gè)對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少 一個(gè)清單。在實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以分析所述識(shí)別的至少一個(gè)清單并且識(shí)別 到與至少一個(gè)另外的輸入數(shù)據(jù)塊對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用。在實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以便如果在使用中發(fā)現(xiàn)所述輸入數(shù)據(jù)塊中 的至少一個(gè)未對(duì)應(yīng)于塊儲(chǔ)存器中的所述樣本數(shù)據(jù)塊的至少一個(gè),則將所述至少一個(gè)輸入數(shù) 據(jù)塊作為樣本數(shù)據(jù)塊存儲(chǔ)在塊儲(chǔ)存器中。在實(shí)施例中,該數(shù)據(jù)處理設(shè)備被配置為包括塊索引,所述塊索引包含與包含在塊 儲(chǔ)存器中的所述樣本數(shù)據(jù)塊相關(guān)的信息。在實(shí)施例中,該數(shù)據(jù)處理設(shè)備被配置為包括塊索引,所述塊索引包含僅僅與包含 在塊儲(chǔ)存器中的一些所述樣本數(shù)據(jù)塊相關(guān)的信息。在實(shí)施例中,該設(shè)備能夠操作以利用包含在塊索引中的所述信息識(shí)別所述對(duì)應(yīng)的 樣本數(shù)據(jù)塊。在實(shí)施例中,包含在塊索引中的信息包括清單儲(chǔ)存器中的包含到所述樣本數(shù)據(jù)塊 的至少一個(gè)的引用的至少一個(gè)所述清單的細(xì)節(jié)。在實(shí)施例中,包含在塊索引中的信息包括所述樣本數(shù)據(jù)塊的至少一個(gè)的塊標(biāo)識(shí)符。
4
在實(shí)施例中,塊標(biāo)識(shí)符是與所述樣本數(shù)據(jù)塊的一個(gè)或多個(gè)對(duì)應(yīng)的部分塊標(biāo)識(shí)符。在實(shí)施例中,所述設(shè)備能夠操作以產(chǎn)生待處理的所述輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符。在實(shí)施例中,所述設(shè)備能夠操作以通過(guò)將所述樣本塊的塊標(biāo)識(shí)符與所述輸入數(shù)據(jù) 塊的塊標(biāo)識(shí)符進(jìn)行比較來(lái)識(shí)別所述對(duì)應(yīng)的樣本塊。在實(shí)施例中,清單儲(chǔ)存器能夠操作以包含與其中存儲(chǔ)的所述至少一個(gè)清單相關(guān)的 fn息o在實(shí)施例中,清單儲(chǔ)存器包含由所述至少一個(gè)清單引用的所述至少一個(gè)樣本數(shù)據(jù) 塊的塊標(biāo)識(shí)符。在實(shí)施例中,該數(shù)據(jù)處理設(shè)備能夠操作以通過(guò)將所述輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與存 儲(chǔ)在清單儲(chǔ)存器中的所述至少一個(gè)樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符進(jìn)行比較來(lái)分析所述識(shí)別的至 少一個(gè)清單并且識(shí)別到與至少一個(gè)另外的輸入數(shù)據(jù)塊對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè) 所述引用。在實(shí)施例中,對(duì)應(yīng)的樣本數(shù)據(jù)塊具有與所述輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符至少部分類(lèi)似 的塊標(biāo)識(shí)符。在另一個(gè)實(shí)施例中,本發(fā)明提供了一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,包含先前 處理的數(shù)據(jù)集的樣本數(shù)據(jù)塊;塊索引,包含用于所述樣本數(shù)據(jù)塊的至少一個(gè)的塊標(biāo)識(shí)符; 分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表先前處理的數(shù)據(jù)集并且包括到所述樣 本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述處理設(shè)備被配置為將待處理的輸入數(shù)據(jù)分成輸 入數(shù)據(jù)塊;為所述輸入數(shù)據(jù)塊的至少一個(gè)產(chǎn)生塊標(biāo)識(shí)符;識(shí)別塊索引中的對(duì)應(yīng)塊標(biāo)識(shí)符; 以及根據(jù)其識(shí)別清單儲(chǔ)存器中包括到與所述輸入數(shù)據(jù)塊等同的樣本數(shù)據(jù)塊的至少一個(gè)引 用的至少一個(gè)所述清單。在另一個(gè)實(shí)施例中,本發(fā)明提供了一種數(shù)據(jù)精簡(jiǎn)器(compactor),包括塊儲(chǔ)存 器,被配置為包含樣本數(shù)據(jù)塊;分立清單儲(chǔ)存器,被配置為包含至少一個(gè)清單,所述清單代 表數(shù)據(jù)集并且包括到所述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述精簡(jiǎn)器被配置為將 輸入數(shù)據(jù)分成輸入數(shù)據(jù)塊,選擇所述輸入數(shù)據(jù)塊之一并且識(shí)別具有到與所述選擇的輸入數(shù) 據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊的至少一個(gè)引用的至少一個(gè)清單以及探查所述至少一個(gè)識(shí)別的清 單以尋找到與數(shù)據(jù)集的其它輸入數(shù)據(jù)塊對(duì)應(yīng)的其它樣本數(shù)據(jù)塊的引用。在另一個(gè)實(shí)施例中,本發(fā)明提供了一種利用下述裝置來(lái)處理輸入數(shù)據(jù)的方法塊 儲(chǔ)存器,包含樣本數(shù)據(jù)塊;分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集并且 包括到所述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述方法包括將所述輸入數(shù)據(jù)處理成 輸入數(shù)據(jù)塊,并且識(shí)別清單儲(chǔ)存器中包括到與所述輸入數(shù)據(jù)塊對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至 少一個(gè)所述引用的至少一個(gè)所述清單。在實(shí)施例中,該方法包括檢查所識(shí)別的至少一個(gè)清單以尋找與所述輸入數(shù)據(jù)的至 少一個(gè)另外的所述輸入數(shù)據(jù)塊對(duì)應(yīng)的至少一個(gè)另外的樣本數(shù)據(jù)塊。在另一個(gè)實(shí)施例中,本發(fā)明提供了一種利用下述裝置處理輸入數(shù)據(jù)的方法塊儲(chǔ) 存器,包含先前處理的數(shù)據(jù)集的樣本數(shù)據(jù)塊;塊索引,包含用于所述樣本數(shù)據(jù)塊的至少一個(gè) 的塊標(biāo)識(shí)符;分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表先前處理的數(shù)據(jù)集并且包 括到所述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述方法包括將輸入數(shù)據(jù)分成輸入數(shù) 據(jù)塊;為所述輸入數(shù)據(jù)塊之一產(chǎn)生塊標(biāo)識(shí)符;識(shí)別所述塊索引中的對(duì)應(yīng)塊標(biāo)識(shí)符以及根據(jù)其識(shí)別所述清單數(shù)據(jù)庫(kù)中包括到與所述輸入數(shù)據(jù)塊等同的樣本數(shù)據(jù)塊的引用的至少一個(gè)清單。
現(xiàn)在參照附圖僅僅舉例描述本發(fā)明的實(shí)施例,附圖中圖1示出了數(shù)據(jù)集的示意性表示;圖2示出了根據(jù)實(shí)施例的數(shù)據(jù)處理設(shè)備的示意性表示;圖3示出了使用中的圖2的數(shù)據(jù)處理設(shè)備的示意性表示;圖4示出了另一個(gè)數(shù)據(jù)集的示意性表示;圖5示出了根據(jù)另一個(gè)實(shí)施例的另一個(gè)數(shù)據(jù)處理設(shè)備的示意性表示;圖6示出了根據(jù)本發(fā)明的實(shí)施例的方法的流程圖;圖7示出了填充有多個(gè)清單和樣本數(shù)據(jù)塊的圖5的數(shù)據(jù)處理設(shè)備的示意性表示。
具體實(shí)施例方式圖1示出了數(shù)據(jù)集1的示意性表示。數(shù)據(jù)集1可以比圖1所示的數(shù)據(jù)集更短或更 長(zhǎng)。數(shù)據(jù)集1包括一定量的數(shù)據(jù),其可以是10字節(jié)、1000字節(jié)或數(shù)百萬(wàn)字節(jié)的量級(jí)。數(shù)據(jù) 集可以代表對(duì)于給定備份操作的所有數(shù)據(jù)或者較大數(shù)據(jù)集的至少一部分。備份數(shù)據(jù)集可以包括連續(xù)數(shù)據(jù)流或不連續(xù)數(shù)據(jù)流。無(wú)論是哪個(gè),數(shù)據(jù)集可以包含 許多不同的單獨(dú)的文件或者文件部分。數(shù)據(jù)集可以不被劃分成它所包含的單獨(dú)的文件。數(shù) 據(jù)集可以包含嵌入信息,包括到包含在數(shù)據(jù)集中的單獨(dú)文件的邊界的引用。數(shù)據(jù)集于是可 以被更容易地分割成它的組成分量。嵌入信息的大小可能代表全部數(shù)據(jù)的相當(dāng)大部分。備 份具有嵌入文件信息的數(shù)據(jù)增加了數(shù)據(jù)存儲(chǔ)介質(zhì)的所需容量。根據(jù)實(shí)施例的數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)集處理成一個(gè)或多個(gè)輸入數(shù) 據(jù)塊。輸入數(shù)據(jù)集可以被分成多個(gè)輸入數(shù)據(jù)塊。每個(gè)輸入數(shù)據(jù)塊可以代表輸入數(shù)據(jù)集內(nèi)的 單獨(dú)文件、單獨(dú)文件的一部分或者單獨(dú)文件的群組??梢曰谳斎霐?shù)據(jù)作為整體的屬性將 數(shù)據(jù)集處理成輸入數(shù)據(jù)塊,而與包含在其中的單獨(dú)文件具有極少關(guān)系或沒(méi)有關(guān)系。數(shù)據(jù)塊 的邊界與文件邊界可以具有共同邊界或可以不具有共同邊界。數(shù)據(jù)塊的大小可以等同或者 不同。圖1示出了被處理成數(shù)據(jù)塊2的輸入數(shù)據(jù)集1的示意性表示。為了方便起見(jiàn),在 圖1中從A到D對(duì)每個(gè)輸入數(shù)據(jù)塊進(jìn)行標(biāo)記,以識(shí)別數(shù)據(jù)塊2彼此不同。與圖1所示的那 些相比較,輸入數(shù)據(jù)集1可以被分成更多的輸入數(shù)據(jù)塊2。輸入數(shù)據(jù)集1的大小可以是許 多太字節(jié),并且可以被處理成十億個(gè)輸入數(shù)據(jù)塊。存在本領(lǐng)域技術(shù)人員可以獲得的用來(lái)確 定輸入數(shù)據(jù)集1如何被處理成輸入數(shù)據(jù)塊2以及每個(gè)輸入數(shù)據(jù)塊2包含哪些信息的特定方 案。圖2示出了根據(jù)實(shí)施例的數(shù)據(jù)處理設(shè)備3 (包括至少一個(gè)處理器)。數(shù)據(jù)處理設(shè)備 3包括塊儲(chǔ)存器4和清單儲(chǔ)存器5。清單儲(chǔ)存器5與塊儲(chǔ)存器4分立且與其分開(kāi),但是儲(chǔ)存 器4和5可以駐留在共同的數(shù)據(jù)存儲(chǔ)介質(zhì)或存儲(chǔ)裝置上。當(dāng)輸入數(shù)據(jù)集1由數(shù)據(jù)處理設(shè)備 3處理時(shí),輸入數(shù)據(jù)塊2作為樣本數(shù)據(jù)塊6而被存儲(chǔ)到塊儲(chǔ)存器4,如圖3所示。樣本數(shù)據(jù) 塊6是輸入數(shù)據(jù)塊2的副本。塊儲(chǔ)存器4可以存儲(chǔ)多個(gè)樣本數(shù)據(jù)塊6。塊儲(chǔ)存器4可以包含先前已由數(shù)據(jù)處理設(shè)備3處理的所有輸入數(shù)據(jù)塊2。在一個(gè)實(shí)施例中,塊儲(chǔ)存器4和清單儲(chǔ)存器5都存儲(chǔ)在非易失性存儲(chǔ)裝置內(nèi)。當(dāng)輸入數(shù)據(jù)塊2被作為樣本數(shù)據(jù)塊6而添加到塊儲(chǔ)存器4時(shí),清單7被編輯。清 單7是數(shù)據(jù)集1的表示。清單7包括到塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的引用,樣本數(shù)據(jù)塊6 與構(gòu)成輸入數(shù)據(jù)集1的輸入數(shù)據(jù)塊2對(duì)應(yīng)。因此,清單7的引用可以被看作是樣本數(shù)據(jù)塊 6的元數(shù)據(jù)。如果給定清單7的到樣本數(shù)據(jù)塊6的引用的大小比清單7所引用的樣本數(shù)據(jù) 塊6小,則將會(huì)明白清單7的大小可以小于它所表示的輸入數(shù)據(jù)集1。當(dāng)輸入數(shù)據(jù)集1已經(jīng)被處理成輸入數(shù)據(jù)塊2并且清單7被編輯時(shí),代表輸入數(shù)據(jù) 集1的清單7被存儲(chǔ)在清單儲(chǔ)存器5中,如圖3示意性所示的。如果數(shù)據(jù)處理設(shè)備3的用戶(hù)希望恢復(fù)給定輸入數(shù)據(jù)集1的數(shù)據(jù)_這可能涉及在特 定時(shí)間點(diǎn)進(jìn)行的備份,用戶(hù)將從清單儲(chǔ)存器5檢索對(duì)應(yīng)清單7。清單7中到塊儲(chǔ)存器4中的 樣本數(shù)據(jù)塊6的每個(gè)引用然后被用于重建原始數(shù)據(jù)集1。在圖4中示出了待處理的第二輸入數(shù)據(jù)集11的示意性表示。在沒(méi)有數(shù)據(jù)處理設(shè) 備3的情況下,第二輸入數(shù)據(jù)集11可以被全部存儲(chǔ)。由此,即使輸入數(shù)據(jù)集1和11包括共 同的輸入數(shù)據(jù)塊A、B和C,但每一個(gè)輸入數(shù)據(jù)塊的兩次發(fā)生均被存儲(chǔ),這是數(shù)據(jù)存儲(chǔ)介質(zhì)的 低效使用。利用數(shù)據(jù)處理設(shè)備3,當(dāng)輸入數(shù)據(jù)集11被提供給數(shù)據(jù)處理設(shè)備3時(shí),輸入數(shù)據(jù)集 11被處理成輸入數(shù)據(jù)塊12。數(shù)據(jù)處理設(shè)備3能夠操作以識(shí)別清單儲(chǔ)存器5中的至少一個(gè) 清單7,所述至少一個(gè)清單7包括到與第二輸入數(shù)據(jù)集11的至少一個(gè)輸入數(shù)據(jù)塊12對(duì)應(yīng)的 樣本數(shù)據(jù)塊6的至少一個(gè)引用。當(dāng)處理圖4所示的輸入數(shù)據(jù)集11時(shí),數(shù)據(jù)處理設(shè)備3將識(shí) 別出存儲(chǔ)在清單儲(chǔ)存器5中的清單7包括到與至少一個(gè)輸入數(shù)據(jù)塊12對(duì)應(yīng)的樣本數(shù)據(jù)塊 6的引用。在這個(gè)例子中,數(shù)據(jù)處理設(shè)備可以識(shí)別出清單7包括到樣本數(shù)據(jù)塊A、B和C的 引用。在這樣識(shí)別以后,數(shù)據(jù)處理設(shè)備3將不再在塊儲(chǔ)存器4內(nèi)存儲(chǔ)輸入數(shù)據(jù)塊A、B和C, 因?yàn)樗鼈円呀?jīng)作為樣本數(shù)據(jù)塊6存在于其中。代替地,針對(duì)輸入數(shù)據(jù)集11編輯的清單將包 括到已經(jīng)位于塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊A、B和C的引用。將注意到,塊儲(chǔ)存器4不包含與輸入數(shù)據(jù)塊E和F對(duì)應(yīng)的樣本數(shù)據(jù)塊6。類(lèi)似地, 清單儲(chǔ)存器5中的清單6不包含到與輸入數(shù)據(jù)塊E和F對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引用。數(shù)據(jù) 處理設(shè)備能夠操作以確定塊儲(chǔ)存器4還未包含與輸入數(shù)據(jù)塊E和F對(duì)應(yīng)的樣本數(shù)據(jù)塊6。 因此,數(shù)據(jù)處理設(shè)備3可以將輸入數(shù)據(jù)塊E和F作為樣本數(shù)據(jù)塊6存儲(chǔ)在塊儲(chǔ)存器4中。然 后通過(guò)添加到樣本數(shù)據(jù)塊E和F的引用來(lái)完成用于輸入數(shù)據(jù)集12的清單。該新清單然后 添加到清單儲(chǔ)存器5。在一個(gè)實(shí)施例中,在數(shù)據(jù)處理設(shè)備3已經(jīng)部分編輯了具有到樣本數(shù)據(jù)塊A、B和C 的引用的清單以后,數(shù)據(jù)處理設(shè)備3能夠操作以選擇輸入數(shù)據(jù)塊E和F之一并且嘗試識(shí)別 清單儲(chǔ)存器5中包括到與輸入數(shù)據(jù)塊E和F的任一個(gè)對(duì)應(yīng)的樣本數(shù)據(jù)塊6的至少一個(gè)引用 的至少一個(gè)清單7。在所示的例子中,將不會(huì)定位到這樣的清單。數(shù)據(jù)處理設(shè)備3可以操作 以識(shí)別包括到與輸入數(shù)據(jù)集1的每個(gè)輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊的引用的清單7。結(jié)果,塊儲(chǔ)存器4將包含每個(gè)樣本數(shù)據(jù)塊6的僅僅一個(gè)發(fā)生,這是塊儲(chǔ)存器4的高 效使用。根據(jù)實(shí)施例,利用數(shù)據(jù)處理設(shè)備存儲(chǔ)第一輸入數(shù)據(jù)集1和第二輸入數(shù)據(jù)集11的 “占用空間(footprint) ”可以小于不利用數(shù)據(jù)處理設(shè)備存儲(chǔ)第一輸入數(shù)據(jù)集1和第二輸入數(shù)據(jù)集11的占用空間。利用體現(xiàn)本發(fā)明的數(shù)據(jù)處理設(shè)備3,數(shù)據(jù)處理設(shè)備3將輸入數(shù)據(jù)集11處理成輸入 數(shù)據(jù)塊12。數(shù)據(jù)處理設(shè)備可以能夠操作以從輸入數(shù)據(jù)集11選擇輸入數(shù)據(jù)塊12。該選擇可 以是輸入數(shù)據(jù)集11中的第一輸入數(shù)據(jù)塊12,或者它可以是另一個(gè)選擇。從劃分的輸入數(shù)據(jù) 集11選擇輸入數(shù)據(jù)塊12可以是隨機(jī)的或偽隨機(jī)的。數(shù)據(jù)處理設(shè)備3利用選擇的輸入數(shù)據(jù)塊12識(shí)別已經(jīng)存儲(chǔ)在清單儲(chǔ)存器5中的包 括到與選擇的輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的至少一個(gè)引用的清單7。如果數(shù)據(jù)處理 設(shè)備3選擇第一輸入數(shù)據(jù)塊“A”,則將識(shí)別清單儲(chǔ)存器5中的清單7。已經(jīng)識(shí)別了清單儲(chǔ)存器5中具有到樣本數(shù)據(jù)塊6的引用的至少一個(gè)清單7以后, 數(shù)據(jù)處理設(shè)備3能夠操作以對(duì)該至少一個(gè)清單7進(jìn)行分析以識(shí)別到與至少一個(gè)另外的輸入 數(shù)據(jù)塊12對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引用。在這樣做的過(guò)程中,數(shù)據(jù)處理設(shè)備3能夠操作以對(duì) 于圖4所示的輸入數(shù)據(jù)集12識(shí)別出清單7不僅包括到樣本數(shù)據(jù)塊A的引用還包括到樣本 數(shù)據(jù)塊B和C的引用。因此,在識(shí)別清單7包含到與僅僅一個(gè)輸入數(shù)據(jù)塊12對(duì)應(yīng)的樣本數(shù) 據(jù)塊6的引用的過(guò)程中,數(shù)據(jù)處理設(shè)備3能夠操作以識(shí)別到與相同輸入數(shù)據(jù)集11中的另外 輸入數(shù)據(jù)塊12對(duì)應(yīng)的樣本數(shù)據(jù)塊612的引用。數(shù)據(jù)處理設(shè)備3的益處在于,為了確定每一個(gè)輸入數(shù)據(jù)塊2是否已經(jīng)被存儲(chǔ)為樣 本數(shù)據(jù)塊6不需要對(duì)于每一個(gè)輸入數(shù)據(jù)塊2徹底檢索塊儲(chǔ)存器4。代替地,數(shù)據(jù)處理設(shè)備3 可以利用為先前處理和存儲(chǔ)的數(shù)據(jù)集創(chuàng)建的清單7。當(dāng)正處理的輸入數(shù)據(jù)集在很大程度上 與先前處理的數(shù)據(jù)集類(lèi)似時(shí),進(jìn)一步展示了數(shù)據(jù)處理設(shè)備3的益處。例如,在兩個(gè)全備份操 作之間,相應(yīng)數(shù)據(jù)集的僅僅一小部分可能是不同的。不得不系統(tǒng)地搜索存儲(chǔ)在塊儲(chǔ)存器4 中的每個(gè)樣本數(shù)據(jù)塊6以找到與輸入數(shù)據(jù)集的每個(gè)輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊6是低效 且耗時(shí)的。數(shù)據(jù)處理設(shè)備3能夠利用正處理的每個(gè)輸入數(shù)據(jù)集1可能類(lèi)似這樣的事實(shí)。照此, 先前的類(lèi)似清單能夠用于編輯用于最新(latest)的輸入數(shù)據(jù)集的新清單的至少一部分。在一個(gè)實(shí)施例中,已經(jīng)識(shí)別了所述至少一個(gè)清單以后,數(shù)據(jù)處理設(shè)備3能夠操作 以在該清單內(nèi)搜索到塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的所有其它引用從而識(shí)別與正處理的輸 入數(shù)據(jù)集1的另外輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6。在一個(gè)實(shí)施例中,通過(guò)從輸入數(shù)據(jù) 集1選擇每個(gè)輸入數(shù)據(jù)塊2 (除了已經(jīng)選擇的輸入數(shù)據(jù)塊2以外)以及將它與該至少一個(gè) 識(shí)別的清單中的每個(gè)引用進(jìn)行比較來(lái)執(zhí)行所述搜索。當(dāng)找到了到對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引 用時(shí),在新清單中用到樣本數(shù)據(jù)塊6的引用來(lái)表示輸入數(shù)據(jù)塊2。然后選擇后續(xù)的輸入數(shù)據(jù) 塊2以進(jìn)行后續(xù)的搜索。搜索操作可以持續(xù)到所有輸入數(shù)據(jù)塊2已經(jīng)與識(shí)別的(一個(gè)或多 個(gè))清單內(nèi)的所有引用進(jìn)行比較為止。在另一個(gè)實(shí)施例中,當(dāng)已經(jīng)找到了到與輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的預(yù)定 數(shù)目的引用時(shí),搜索操作可以終止。在另一個(gè)實(shí)施例中,當(dāng)數(shù)據(jù)處理器3沒(méi)有找到到與輸入 數(shù)據(jù)集1中的預(yù)定數(shù)目的輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引用時(shí),搜索操作可以終止。 這個(gè)實(shí)施例的益處在于,可以從搜索過(guò)程迅速地扣除(discount)不包含到與任何其它輸 入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引用的清單。在另一個(gè)實(shí)施例中,已經(jīng)利用選擇的輸入數(shù)據(jù)塊識(shí)別了所述至少一個(gè)清單以后, 識(shí)別到與其它輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引用的搜索操作可以基于或者集中于使
8得該至少一個(gè)清單被數(shù)據(jù)處理設(shè)備3識(shí)別的所選擇的輸入數(shù)據(jù)塊。例如,參照?qǐng)D4,假定數(shù) 據(jù)處理設(shè)備3選擇了輸入數(shù)據(jù)塊B ;并且如上識(shí)別了存儲(chǔ)在清單儲(chǔ)存器5中的清單6。注意 到,清單6中與到樣本數(shù)據(jù)塊B的引用相鄰的是到樣本數(shù)據(jù)塊A和C的引用。類(lèi)似地,輸入 數(shù)據(jù)集12中與輸入數(shù)據(jù)塊B相鄰的是輸入數(shù)據(jù)塊A和C。在一個(gè)實(shí)施例中,已經(jīng)識(shí)別了與清單中引用的樣本數(shù)據(jù)塊6對(duì)應(yīng)的輸入數(shù)據(jù)塊12 以后,將與識(shí)別的輸入數(shù)據(jù)塊12相鄰的輸入數(shù)據(jù)塊12和在與到對(duì)應(yīng)于選擇的輸入數(shù)據(jù)塊 12的樣本數(shù)據(jù)塊6的引用相鄰的引用中所引用的樣本數(shù)據(jù)塊6進(jìn)行比較。因此,輸入數(shù)據(jù) 塊A和C將與樣本數(shù)據(jù)塊A和C進(jìn)行比較。在這個(gè)例子中,將發(fā)現(xiàn)它們彼此匹配。結(jié)果,數(shù) 據(jù)處理設(shè)備3能夠操作以通過(guò)分析識(shí)別的清單7來(lái)確定塊儲(chǔ)存器4中的兩個(gè)另外樣本數(shù)據(jù) 塊6對(duì)應(yīng)于輸入數(shù)據(jù)塊12中的兩個(gè)。在不必將每一個(gè)輸入數(shù)據(jù)塊12與塊儲(chǔ)存器4中的每 個(gè)樣本數(shù)據(jù)塊6進(jìn)行比較的情況下做出該識(shí)別。當(dāng)塊儲(chǔ)存器4包含許多樣本數(shù)據(jù)塊6時(shí)展示了這個(gè)實(shí)施例的益處。假定許多樣 本數(shù)據(jù)塊6已經(jīng)存儲(chǔ)在塊儲(chǔ)存器4中達(dá)很長(zhǎng)的時(shí)間段并且正提供給處理器的新輸入數(shù)據(jù)集 不再包括與那些“舊”的樣本數(shù)據(jù)塊6對(duì)應(yīng)的輸入數(shù)據(jù)塊2。另外假定若干最近處理的輸 入數(shù)據(jù)集1包含到最近向塊儲(chǔ)存器4添加的樣本數(shù)據(jù)塊6的引用。在沒(méi)有數(shù)據(jù)處理設(shè)備3 的情況下,可以將新輸入數(shù)據(jù)集11的每一個(gè)輸入數(shù)據(jù)塊12與存儲(chǔ)在塊儲(chǔ)存器4中的每個(gè) 樣本數(shù)據(jù)塊6進(jìn)行比較。不體現(xiàn)本發(fā)明的這樣的數(shù)據(jù)處理設(shè)備由此將輸入數(shù)據(jù)塊2與不太 可能發(fā)現(xiàn)其匹配的樣本數(shù)據(jù)塊6進(jìn)行比較。在“舊”的樣本數(shù)據(jù)塊6存儲(chǔ)在塊儲(chǔ)存器4的 開(kāi)始并且由此很可能被首先搜索的情況下尤其如此。另一方面,數(shù)據(jù)處理設(shè)備3識(shí)別清單儲(chǔ)存器5中包括到與至少一個(gè)輸入數(shù)據(jù)塊2 對(duì)應(yīng)的樣本數(shù)據(jù)塊6的至少一個(gè)引用的至少一個(gè)清單7。由此,本發(fā)明的實(shí)施例能夠利用如 下事實(shí)包含與已經(jīng)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6對(duì)應(yīng)的特定輸入數(shù)據(jù)塊的輸入數(shù)據(jù)集 還可能包含與已經(jīng)存儲(chǔ)在塊儲(chǔ)存器4中的其它樣本數(shù)據(jù)塊6對(duì)應(yīng)的輸入數(shù)據(jù)塊。在本發(fā)明的一個(gè)實(shí)施例中,已經(jīng)根據(jù)選擇的輸入數(shù)據(jù)塊2識(shí)別了至少一個(gè)清單7 以后,如果在該至少一個(gè)清單中沒(méi)有識(shí)別對(duì)應(yīng)于與選擇的輸入數(shù)據(jù)塊2相鄰的輸入數(shù)據(jù)塊 2的樣本數(shù)據(jù)塊6,則處理設(shè)備3可以設(shè)法識(shí)別對(duì)應(yīng)于與選擇的輸入數(shù)據(jù)塊2下一個(gè)相鄰的 輸入數(shù)據(jù)塊2的樣本數(shù)據(jù)塊6。如果在預(yù)定數(shù)目的重復(fù)內(nèi)處理設(shè)備未能識(shí)別與輸入數(shù)據(jù)塊 2對(duì)應(yīng)的樣本數(shù)據(jù)塊6,則搜索操作可被終止。如果超過(guò)一個(gè)的清單7被處理設(shè)備3識(shí)別為 包括到與選擇的輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的引用,則搜索操作可以在另外的所識(shí) 別的清單7上重新開(kāi)始。上述的技術(shù)可以被稱(chēng)作“拉鏈(zip)”,這是因?yàn)檩斎霐?shù)據(jù)集1和識(shí)別的清單7被 布置為使得輸入數(shù)據(jù)塊2與清單7中到塊儲(chǔ)存器4中與輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6 的引用對(duì)準(zhǔn)。數(shù)據(jù)處理設(shè)備3然后設(shè)法將輸入數(shù)據(jù)集1與清單7 “拉在” 一起。當(dāng)一連串 輸入數(shù)據(jù)塊2對(duì)應(yīng)于清單7中相等尺寸的一連串到樣本數(shù)據(jù)塊6的引用時(shí),將導(dǎo)致成功的 “拉鏈”過(guò)程。當(dāng)特定輸入數(shù)據(jù)塊2不對(duì)應(yīng)于清單7中嘗試被“拉到”輸入數(shù)據(jù)塊2的到樣 本數(shù)據(jù)塊6的引用時(shí),輸入數(shù)據(jù)集1和清單7將不會(huì)成功地被“拉在” 一起。在一個(gè)實(shí)施例中,數(shù)據(jù)處理設(shè)備3還提供塊索引8,如圖5所示。塊索引8包含關(guān) 于存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6中的至少一個(gè)的信息。在一個(gè)實(shí)施例中,塊索引8 包含僅僅與包含在塊儲(chǔ)存器4中的一些樣本數(shù)據(jù)塊6有關(guān)的信息。可以特定地選擇或隨機(jī)選擇塊索引8包含其信息的樣本數(shù)據(jù)塊6。在另一個(gè)實(shí)施例中,塊索引8可以包含關(guān)于存儲(chǔ) 在塊儲(chǔ)存器4中的每一個(gè)樣本數(shù)據(jù)塊6的信息。在一個(gè)實(shí)施例中,塊索引8可以存儲(chǔ)在例如隨機(jī)存取存儲(chǔ)器(RAM)的易失性存儲(chǔ) 器中。在本發(fā)明的實(shí)施例中,針對(duì)給定樣本數(shù)據(jù)塊6的包含在塊索引8中的信息可以包 括樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符。塊標(biāo)識(shí)符可以是與之相關(guān)的樣本數(shù)據(jù)塊6的數(shù)字指紋。塊標(biāo)識(shí) 符可以是唯一的塊標(biāo)識(shí)符,針對(duì)特定樣本數(shù)據(jù)塊6是唯一的。可以選擇產(chǎn)生塊標(biāo)識(shí)符的算 法從而能夠?yàn)轭A(yù)定數(shù)目的樣本數(shù)據(jù)塊6產(chǎn)生唯一塊標(biāo)識(shí)符。在一個(gè)實(shí)施例中,利用SHA1哈 希算法產(chǎn)生塊標(biāo)識(shí)符??梢岳美鏢HA2的其它哈希算法。在一個(gè)實(shí)施例中,選擇并配置 哈希算法從而使得兩個(gè)樣本數(shù)據(jù)塊6生成等同的塊標(biāo)識(shí)符在計(jì)算上基本上是不可行的。在另一個(gè)實(shí)施例中,針對(duì)給定樣本數(shù)據(jù)塊6的包含在塊索引8中的信息可以?xún)H僅 包括部分塊標(biāo)識(shí)符。例如,盡管樣本數(shù)據(jù)塊6可以具有唯一塊標(biāo)識(shí)符,但是可能對(duì)照樣本數(shù) 據(jù)塊6在塊索引8中的記錄存儲(chǔ)塊標(biāo)識(shí)符的僅僅一部分。在一個(gè)實(shí)施例中,部分塊標(biāo)識(shí)符 可以包括完整塊標(biāo)識(shí)符的第一預(yù)定數(shù)目的比特。例如,如果給定的樣本數(shù)據(jù)塊6的完整塊 標(biāo)識(shí)符包括20個(gè)比特(例如由SHA1算法生成的),則塊索引8例如可以存儲(chǔ)塊標(biāo)識(shí)符的 15個(gè)比特。這些預(yù)定比特可以是塊標(biāo)識(shí)符的最高有效位(MSB)、最低有效位(LSB)或者完 整塊標(biāo)識(shí)符的中間比特。由此斷定,兩個(gè)不同的樣本數(shù)據(jù)塊6的部分標(biāo)識(shí)符可以是等同的, 即使它們相應(yīng)的完整塊標(biāo)識(shí)符彼此不同且唯一。在塊索引8中僅僅存儲(chǔ)部分塊標(biāo)識(shí)符的益 處在于減小了塊索引8的大小。在一個(gè)實(shí)施例中,針對(duì)塊索引8中關(guān)于給定樣本數(shù)據(jù)塊6的特定條目,存儲(chǔ)了清單 儲(chǔ)存器5中包括到所述樣本數(shù)據(jù)塊6的引用的至少一個(gè)清單7的細(xì)節(jié)。在一個(gè)實(shí)施例中, 存儲(chǔ)了清單儲(chǔ)存器5中至少包含到該樣本數(shù)據(jù)塊6的引用的清單7的列表。在另一個(gè)實(shí)施 例中,可以?xún)H僅存儲(chǔ)清單儲(chǔ)存器5中包含到該樣本數(shù)據(jù)塊6的至少一個(gè)引用的清單7的部 分列表。在一個(gè)實(shí)施例中,針對(duì)塊索引8中關(guān)于樣本數(shù)據(jù)塊的給定條目,存儲(chǔ)了到清單儲(chǔ) 存器中包括到該樣本數(shù)據(jù)塊的引用的至少一個(gè)清單的引用。在一個(gè)實(shí)施例中,該引用通常 可以是針對(duì)清單的。在另一個(gè)實(shí)施例中,該引用可以指示清單內(nèi)存在到樣本數(shù)據(jù)塊的引用 的位置。在一個(gè)實(shí)施例中,針對(duì)給定樣本數(shù)據(jù)塊的包含在塊索引8中的信息可以包括到塊 儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的位置的引用。因此,在這個(gè)實(shí)施例中,塊儲(chǔ)存器4自身可以不 保存其中存儲(chǔ)的樣本數(shù)據(jù)塊6的位置的記錄。代替地,對(duì)照(against)塊索引8中的相關(guān) 條目存儲(chǔ)樣本數(shù)據(jù)塊6的位置。塊索引8由此用作存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的 索引。在使用中,清單儲(chǔ)存器5可以包含許多清單7,每個(gè)清單7代表先前處理的數(shù)據(jù)集 1。在一個(gè)實(shí)施例中,清單儲(chǔ)存器5包含關(guān)于其中包含的每個(gè)清單7的信息。該信息可以包 括與每個(gè)清單7相關(guān)的屬性(例如,它的大小、它包含的引用的數(shù)目或者它代表的數(shù)據(jù)集的 名稱(chēng)和其它細(xì)節(jié))。針對(duì)特定清單的信息可以包括由清單7引用的樣本數(shù)據(jù)塊6中的至少 一個(gè)的塊標(biāo)識(shí)符。因此,特定清單7不僅可以包括到存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6 的引用的集合還可以包括引用的那些樣本數(shù)據(jù)塊6的每個(gè)的塊標(biāo)識(shí)符。塊標(biāo)識(shí)符可以是部分塊標(biāo)識(shí)符。在一個(gè)實(shí)施例中,已經(jīng)識(shí)別了清單儲(chǔ)存器中包括到與所述輸入數(shù)據(jù)塊中的至少一 個(gè)對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)清單以后,數(shù)據(jù)處理設(shè)備能夠操 作以分析識(shí)別的清單從而識(shí)別與另外輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊。在清單包括由清單引 用的每個(gè)樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符的實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作以將輸入數(shù)據(jù)塊的塊 標(biāo)識(shí)符與清單中的塊標(biāo)識(shí)符進(jìn)行比較。這樣的益處在于可不需要對(duì)塊索引8中的信息進(jìn)行 訪問(wèn)。因此,通過(guò)利用識(shí)別的清單而非塊儲(chǔ)存器4執(zhí)行比較過(guò)程,可以允許在RAM中時(shí)處理 用于進(jìn)行比較的數(shù)據(jù)的至少一部分。清單信息可以包括由清單7引用的塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的至少一個(gè)的位 置。在另一個(gè)實(shí)施例中,可以根據(jù)存儲(chǔ)在塊索引8中的信息確定在清單7內(nèi)引用的塊儲(chǔ)存 器4中的樣本數(shù)據(jù)塊6的位置。數(shù)據(jù)處理設(shè)備3能夠操作以產(chǎn)生輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符。在一個(gè)實(shí)施例中,數(shù) 據(jù)處理設(shè)備3能夠操作以在輸入數(shù)據(jù)集1已經(jīng)被處理成輸入數(shù)據(jù)塊2以后或者在輸入數(shù)據(jù) 集1被處理成輸入數(shù)據(jù)塊2的同時(shí),為每個(gè)輸入數(shù)據(jù)塊2產(chǎn)生塊標(biāo)識(shí)符。為輸入數(shù)據(jù)塊2產(chǎn)生的塊標(biāo)識(shí)符然后可用于識(shí)別與輸入數(shù)據(jù)塊2對(duì)應(yīng)的塊儲(chǔ)存器 4中的樣本數(shù)據(jù)塊6。在一個(gè)實(shí)施例中,輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與樣本數(shù)據(jù)塊6的塊標(biāo)識(shí) 符進(jìn)行比較。這樣的益處在于輸入數(shù)據(jù)塊2自身不直接與樣本數(shù)據(jù)塊6進(jìn)行比較。由于相 應(yīng)的塊標(biāo)識(shí)符的大小可能小于它們代表的輸入/樣本數(shù)據(jù)塊6,所以可以更加迅速地執(zhí)行 比較步驟以查看兩個(gè)塊標(biāo)識(shí)符是否彼此對(duì)應(yīng)。此外,由于塊標(biāo)識(shí)符的大小可能相對(duì)小于與 它們相關(guān)的相應(yīng)塊,所以可以在兩個(gè)塊標(biāo)識(shí)符存儲(chǔ)于RAM中的同時(shí)執(zhí)行比較步驟。如果輸 入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符等同,則輸入數(shù)據(jù)塊2與樣本數(shù)據(jù)塊將彼 此等同。如上所述,這假定選擇用于產(chǎn)生塊標(biāo)識(shí)符的算法以便產(chǎn)生唯一標(biāo)識(shí)符。利用部分 塊標(biāo)識(shí)符將生成非唯一的標(biāo)識(shí)符集,這意味著將識(shí)別一個(gè)或多個(gè)潛在對(duì)應(yīng)的樣本數(shù)據(jù)塊。在一個(gè)實(shí)施例中,該處理設(shè)備能夠操作以將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊 索引8中的塊標(biāo)識(shí)符進(jìn)行比較。可以通過(guò)將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊索引8中 的每個(gè)塊標(biāo)識(shí)符依次進(jìn)行比較來(lái)執(zhí)行比較步驟。可替換地,可以基于塊標(biāo)識(shí)符的屬性組織 塊索引8中的塊標(biāo)識(shí)符。例如,可以基于塊標(biāo)識(shí)符的每個(gè)比特的二進(jìn)制狀態(tài)以樹(shù)狀配置來(lái) 布置塊索引8中的塊標(biāo)識(shí)符。在這個(gè)例子中,可以分析每個(gè)塊標(biāo)識(shí)符的MSB,并且根據(jù)MSB 的值(即或者為“0”或者為“1”)將每個(gè)塊標(biāo)識(shí)符分配到樹(shù)的分支。這兩個(gè)“分支”的每 個(gè)可以基于下一 MSB的值進(jìn)一步分成兩叉。這些分支的每個(gè)將基于接下來(lái)的MSB進(jìn)一步分 成兩叉,以此類(lèi)推。利用上述的塊索引8中的條目的配置,在嘗試針對(duì)與選擇的輸入數(shù)據(jù)塊2對(duì)應(yīng)的 樣本數(shù)據(jù)塊6找到塊索引8中的條目的過(guò)程中,數(shù)據(jù)處理設(shè)備3能夠操作以迅速地“向下鉆 探(drill down)”塊索引8中的條目。在一些實(shí)施例中,“對(duì)應(yīng)”是指輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與樣本數(shù)據(jù)塊6的塊標(biāo)識(shí) 符等同。輸入數(shù)據(jù)塊2與樣本數(shù)據(jù)塊6由此說(shuō)成是彼此“對(duì)應(yīng)”的??商鎿Q地,在利用部分 塊標(biāo)識(shí)符的情況下,盡管給定的輸入數(shù)據(jù)塊2和樣本數(shù)據(jù)塊6的相應(yīng)部分塊標(biāo)識(shí)符可以等 同,但是實(shí)際的輸入數(shù)據(jù)塊2與樣本數(shù)據(jù)塊6可以不同,如上所述。然而,輸入數(shù)據(jù)塊2與 樣本數(shù)據(jù)塊6被說(shuō)成是對(duì)應(yīng)的,因?yàn)橹辽偎鼈兊南鄳?yīng)部分塊標(biāo)識(shí)符彼此等同。
在本發(fā)明的一個(gè)實(shí)施例中,在為輸入數(shù)據(jù)塊2產(chǎn)生塊標(biāo)識(shí)符并且識(shí)別塊索引8中 與存儲(chǔ)在塊索引8中的樣本數(shù)據(jù)塊6相關(guān)的對(duì)應(yīng)塊標(biāo)識(shí)符以后,數(shù)據(jù)處理設(shè)備3能夠操作 以執(zhí)行驗(yàn)證過(guò)程。該驗(yàn)證過(guò)程包括將輸入數(shù)據(jù)塊2與存儲(chǔ)在塊儲(chǔ)存器4中的識(shí)別的樣本數(shù) 據(jù)塊6進(jìn)行比較以確認(rèn)這兩個(gè)數(shù)據(jù)塊實(shí)際上是否等同。在沒(méi)有驗(yàn)證過(guò)程的情況下,以及尤 其在利用部分塊標(biāo)識(shí)符的情況下,識(shí)別為“對(duì)應(yīng)”的樣本數(shù)據(jù)塊6實(shí)際上可能不等同于輸入 數(shù)據(jù)塊2。包括到不等同的樣本數(shù)據(jù)塊6的引用將在清單內(nèi)引入錯(cuò)誤并且阻止清單內(nèi)表示 的數(shù)據(jù)的準(zhǔn)確恢復(fù)。甚至在利用完整塊標(biāo)識(shí)符的情況下,驗(yàn)證過(guò)程仍是有利的,這是因?yàn)榭赡芤呀?jīng)產(chǎn) 生或存儲(chǔ)了包括錯(cuò)誤的(用于輸入數(shù)據(jù)塊2和樣本數(shù)據(jù)塊6的)塊標(biāo)識(shí)符的任一個(gè)。驗(yàn)證 過(guò)程可以增加存儲(chǔ)在清單內(nèi)的信息的完整性。在利用部分塊標(biāo)識(shí)符的實(shí)施例中,由于上述的原因,根據(jù)實(shí)施例的處理器可以識(shí) 別超過(guò)一個(gè)的“對(duì)應(yīng)”樣本數(shù)據(jù)塊6。當(dāng)然,輸入數(shù)據(jù)塊2可以?xún)H僅與存儲(chǔ)在塊儲(chǔ)存器4中 的樣本數(shù)據(jù)塊6之一等同。因此,在識(shí)別超過(guò)一個(gè)的“對(duì)應(yīng)”樣本數(shù)據(jù)塊6的情況下,驗(yàn)證 過(guò)程允許數(shù)據(jù)處理設(shè)備3識(shí)別該超過(guò)一個(gè)的樣本數(shù)據(jù)塊6中的哪一個(gè)實(shí)際與輸入數(shù)據(jù)塊2 等同。盡管當(dāng)存儲(chǔ)僅僅部分塊標(biāo)識(shí)符時(shí),驗(yàn)證步驟有必要構(gòu)成進(jìn)一步的步驟,但是另一個(gè)益 處在于塊索引8的大小可能是較小的,因?yàn)樗淮鎯?chǔ)完整塊標(biāo)識(shí)符。所需的塊索引8的大 小的減小可能勝過(guò)執(zhí)行驗(yàn)證過(guò)程的不利(如果有的話)。在另一個(gè)實(shí)施例中,可以通過(guò)將輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與包含在識(shí)別的清單內(nèi)的 塊標(biāo)識(shí)符進(jìn)行比較來(lái)執(zhí)行驗(yàn)證過(guò)程。這樣的益處在于可能根本不需要對(duì)塊儲(chǔ)存器進(jìn)行訪 問(wèn)。可以通過(guò)僅僅利用包含在清單中的信息和為輸入數(shù)據(jù)塊生成的塊標(biāo)識(shí)符來(lái)執(zhí)行驗(yàn)證過(guò) 程。在部分塊標(biāo)識(shí)符存儲(chǔ)在塊索引中的情況下,可以存在如下情形輸入數(shù)據(jù)塊的部分塊 標(biāo)識(shí)符與樣本數(shù)據(jù)塊的部分塊標(biāo)識(shí)符匹配,即使相應(yīng)的輸入/樣本數(shù)據(jù)塊不彼此匹配。結(jié) 果,識(shí)別為包含到與輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊的引用的該至少一個(gè)清單實(shí)際上可能沒(méi) 有引用與任何輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊。在一個(gè)實(shí)施例中,數(shù)據(jù)處理設(shè)備能夠操作以 對(duì)識(shí)別的(一個(gè)或多個(gè))清單執(zhí)行驗(yàn)證過(guò)程。在一個(gè)實(shí)施例中,當(dāng)該至少一個(gè)清單已經(jīng)被 識(shí)別時(shí),存儲(chǔ)在(一個(gè)或多個(gè))清單中的被指示為與輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊的塊標(biāo) 識(shí)符被驗(yàn)證。只有當(dāng)該塊標(biāo)識(shí)符與輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符等同,清單才可用于后續(xù)的操作。 這個(gè)實(shí)施例達(dá)到的效果可以與通過(guò)參考?jí)K索引執(zhí)行驗(yàn)證過(guò)程的效果相同,但是不需要訪問(wèn) 塊索引。應(yīng)該明白,返回的清單的大小可以遠(yuǎn)小于塊儲(chǔ)存器。因此,通過(guò)利用識(shí)別的清單而 非塊儲(chǔ)存器4執(zhí)行比較過(guò)程,可以允許在RAM中時(shí)對(duì)用于比較的數(shù)據(jù)的至少一部分進(jìn)行處 理。如上所述,一個(gè)實(shí)施例的塊索引8包含僅僅與塊儲(chǔ)存器4中的一些樣本數(shù)據(jù)塊6 相關(guān)的信息。因此,塊索引8可以被說(shuō)成是“稀疏”塊索引8。保持這種“稀疏”塊索引減小 了塊索引8的大小,現(xiàn)在將描述其益處。數(shù)據(jù)處理設(shè)備可用于對(duì)輸入數(shù)據(jù)集1進(jìn)行精簡(jiǎn)以進(jìn)行存儲(chǔ)、加密或傳輸。例如,輸 入數(shù)據(jù)1可以代表用于存儲(chǔ)在第二數(shù)據(jù)存儲(chǔ)介質(zhì)上的來(lái)自第一數(shù)據(jù)存儲(chǔ)介質(zhì)的備份數(shù)據(jù) 的集合。如上所述,數(shù)據(jù)處理設(shè)備3將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊索引8中的塊 標(biāo)識(shí)符進(jìn)行比較。比較步驟可能需要對(duì)包含在塊索引8中的數(shù)據(jù)的方便訪問(wèn)。在一個(gè)實(shí)施 例中,塊索引8可以存儲(chǔ)在隨機(jī)存取存儲(chǔ)器(RAM)內(nèi)。RAM允許對(duì)包含在其中的信息進(jìn)行迅速且隨機(jī)的訪問(wèn)。然而,可能需要減小數(shù)據(jù)處理設(shè)備所需的RAM。通過(guò)提供要存儲(chǔ)在RAM 中的稀疏塊索引8,與沒(méi)有稀疏索引的處理器相比較,該數(shù)據(jù)處理設(shè)備需要更少的RAM。在沒(méi)有提供塊索引8的情況下,數(shù)據(jù)處理設(shè)備可以將輸入數(shù)據(jù)塊2與存儲(chǔ)在塊儲(chǔ) 存器4中的每個(gè)樣本數(shù)據(jù)塊6進(jìn)行比較。由于塊儲(chǔ)存器4可能是非常大的,所以將塊儲(chǔ)存 器4的全部?jī)?nèi)容存儲(chǔ)在RAM中可能是困難的或者簡(jiǎn)直是不可能的。塊儲(chǔ)存器4可以存儲(chǔ)在 非易失性存儲(chǔ)器中例如存儲(chǔ)在盤(pán)上。由此,從塊儲(chǔ)存器4讀取數(shù)據(jù)將需要盤(pán)讀取操作。這 可能明顯慢于訪問(wèn)存儲(chǔ)在RAM中的數(shù)據(jù)。數(shù)據(jù)處理設(shè)備3包括塊索引8,塊索引8可以駐留 在RAM中,從而允許對(duì)包含在其中的信息進(jìn)行更快速訪問(wèn)。結(jié)果,可以更加容易地識(shí)別存儲(chǔ) 在塊儲(chǔ)存器4中的與輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6,而不需要對(duì)塊儲(chǔ)存器4進(jìn)行持續(xù) 的直接訪問(wèn)。如上所述,可以存在驗(yàn)證過(guò)程。盡管這個(gè)操作將需要對(duì)存儲(chǔ)在盤(pán)上的塊儲(chǔ)存 器4中的樣本數(shù)據(jù)塊6進(jìn)行訪問(wèn),但是這可能需要塊儲(chǔ)存器4的僅僅一次盤(pán)尋找以及單個(gè) 樣本數(shù)據(jù)塊6的檢索。在本發(fā)明的實(shí)施例包括稀疏塊索引8的情況下,可以存在如下情況與輸入數(shù)據(jù) 塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6存在于塊儲(chǔ)存器4中,但是在塊索引8中沒(méi)有關(guān)于樣本數(shù)據(jù)塊6 的條目。因此,當(dāng)將輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符與塊儲(chǔ)存器4中的條目進(jìn)行比較時(shí),數(shù)據(jù)處理 設(shè)備3最初可能指示不存在對(duì)應(yīng)的樣本數(shù)據(jù)塊6,并且再一次(for a second time)將輸 入數(shù)據(jù)塊2作為樣本數(shù)據(jù)塊6存儲(chǔ)在塊儲(chǔ)存器4中。盡管再一次將輸入數(shù)據(jù)塊2存儲(chǔ)為樣 本數(shù)據(jù)塊6的該情況可被看作是塊儲(chǔ)存器4的低效使用,但是這種實(shí)施例的益處在于塊索 引8是稀疏的,并且由此利用RAM中的較少空間。需要較少RAM以及搜索稀疏塊索引8花 費(fèi)的時(shí)間的減小的益處可以勝過(guò)再一次將輸入數(shù)據(jù)塊2存儲(chǔ)為樣本數(shù)據(jù)塊6的不利。然而,由于數(shù)據(jù)處理設(shè)備3能夠操作以利用輸入數(shù)據(jù)流可能彼此部分類(lèi)似的事 實(shí),所以數(shù)據(jù)處理設(shè)備3可以識(shí)別塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6,即使在塊索引8中可能沒(méi) 有針對(duì)樣本數(shù)據(jù)塊6的條目,如下所述。對(duì)于給定數(shù)目的輸入數(shù)據(jù)塊2,即使與每個(gè)對(duì)應(yīng)的樣本數(shù)據(jù)塊6可能已經(jīng)存儲(chǔ)在 塊儲(chǔ)存器4中,但僅僅一個(gè)樣本數(shù)據(jù)塊6可能在塊索引8內(nèi)具有條目。數(shù)據(jù)處理設(shè)備3能 夠操作以識(shí)別塊索引8中的對(duì)應(yīng)的樣本數(shù)據(jù)塊6。數(shù)據(jù)處理設(shè)備3根據(jù)樣本數(shù)據(jù)塊6識(shí)別 清單儲(chǔ)存器中包括到樣本數(shù)據(jù)塊6的至少一個(gè)引用的至少一個(gè)清單。在后續(xù)對(duì)識(shí)別的至少 一個(gè)清單進(jìn)行分析的過(guò)程中,數(shù)據(jù)處理設(shè)備3能夠操作以識(shí)別在塊儲(chǔ)存器4中存在與輸入 數(shù)據(jù)流的更多輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6,即使這些樣本數(shù)據(jù)塊6可能在塊索引8內(nèi) 沒(méi)有條目。因此,這種數(shù)據(jù)處理設(shè)備可以能夠操作以識(shí)別塊儲(chǔ)存器4中與所有的輸入數(shù)據(jù)塊 2對(duì)應(yīng)的所有的樣本數(shù)據(jù)塊6同時(shí)僅僅包括稀疏索引。在塊儲(chǔ)存器4中可以不存在重復(fù)條 目。具有稀疏塊索引8的數(shù)據(jù)處理設(shè)備3在精簡(jiǎn)輸入數(shù)據(jù)方面可能與具有全塊索引8的數(shù) 據(jù)處理器3同樣高效。高效是指存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6沒(méi)有重復(fù)或者至少在 預(yù)定程度上沒(méi)有重復(fù)??梢栽试S樣本數(shù)據(jù)塊的一些重復(fù)。在一個(gè)實(shí)施例中,提供了一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,包含先前處理的數(shù) 據(jù)集的樣本數(shù)據(jù)塊;塊索引,包含用于所述樣本數(shù)據(jù)塊的至少一個(gè)的塊標(biāo)識(shí)符;分立清單 儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表先前處理的數(shù)據(jù)集并且包括到所述樣本數(shù)據(jù)塊 的至少一個(gè)的至少一個(gè)引用,所述處理設(shè)備被配置為將待處理的輸入數(shù)據(jù)分成輸入數(shù)據(jù)
13塊;為所述輸入數(shù)據(jù)塊的至少一個(gè)產(chǎn)生塊標(biāo)識(shí)符;識(shí)別塊索引中的對(duì)應(yīng)塊標(biāo)識(shí)符;以及根 據(jù)其識(shí)別清單儲(chǔ)存器中包括到與所述輸入數(shù)據(jù)塊等同的樣本數(shù)據(jù)塊的至少一個(gè)引用的所 述清單的至少一個(gè)。在一個(gè)實(shí)施例中,提供了一種數(shù)據(jù)精簡(jiǎn)器,包括塊儲(chǔ)存器,被配置為包含樣本數(shù) 據(jù)塊;分立清單儲(chǔ)存器,被配置為包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集并且包括到所 述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述精簡(jiǎn)器被配置為將輸入數(shù)據(jù)分成輸入數(shù)據(jù) 塊,選擇所述輸入數(shù)據(jù)塊之一并且識(shí)別具有到與所述選擇的輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊 的至少一個(gè)引用的至少一個(gè)清單以及探查所述至少一個(gè)識(shí)別的清單以尋找到與數(shù)據(jù)集的 其它輸入數(shù)據(jù)塊對(duì)應(yīng)的其它樣本數(shù)據(jù)塊的引用?,F(xiàn)在將描述根據(jù)實(shí)施例的處理輸入數(shù)據(jù)的方法。方法利用包含樣本數(shù)據(jù)塊6的塊 儲(chǔ)存器4以及包含至少一個(gè)清單的分立清單儲(chǔ)存器5。在一個(gè)實(shí)施例中,利用上述的數(shù)據(jù)處 理設(shè)備3執(zhí)行方法。在一個(gè)實(shí)施例中,利用上述的塊儲(chǔ)存器4和分立清單儲(chǔ)存器5執(zhí)行該 方法。如圖6所示的方法包括將輸入數(shù)據(jù)處理13成一個(gè)或多個(gè)輸入數(shù)據(jù)塊2 ;以及識(shí) 別14清單儲(chǔ)存器中包括到與至少一個(gè)輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊6的至少一個(gè)引用的
至少一個(gè)清單。在一個(gè)實(shí)施例中,在將輸入數(shù)據(jù)1分成一個(gè)或多個(gè)輸入數(shù)據(jù)塊2以后,從輸入數(shù)據(jù) 1中選擇輸入數(shù)據(jù)塊2。該選擇可以是輸入數(shù)據(jù)集1中的第一個(gè)輸入數(shù)據(jù)塊1或者它可以 是另一個(gè)選擇。從劃分的輸入數(shù)據(jù)集1選擇輸入數(shù)據(jù)塊2可以是隨機(jī)或偽隨機(jī)的。根據(jù)實(shí)施例的方法利用選擇的輸入數(shù)據(jù)塊2識(shí)別已經(jīng)存儲(chǔ)在清單儲(chǔ)存器5中的包 括到與選擇的輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊6的至少一個(gè)引用的清單7。根據(jù)實(shí)施例的方法能夠利用正處理的每個(gè)輸入數(shù)據(jù)集1可能類(lèi)似的事實(shí)。照此, 先前類(lèi)似的清單能夠用于編輯針對(duì)最新輸入數(shù)據(jù)集的新清單的至少一部分。當(dāng)至少一個(gè)識(shí)別的清單已經(jīng)被處理并且與選擇的至少一個(gè)輸入數(shù)據(jù)塊2對(duì)應(yīng)的 樣本數(shù)據(jù)塊被識(shí)別時(shí),到該樣本數(shù)據(jù)塊的引用可以被添加到清單。如上所述,還可以對(duì)該至 少一個(gè)識(shí)別的清單進(jìn)行分析以識(shí)別到與輸入數(shù)據(jù)集1的其它輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù) 塊的引用。在沒(méi)有發(fā)現(xiàn)更多對(duì)應(yīng)的樣本數(shù)據(jù)塊的情況下,那么還沒(méi)有被識(shí)別為具有存在于 塊儲(chǔ)存器4中的對(duì)應(yīng)樣本數(shù)據(jù)塊的輸入數(shù)據(jù)塊2可以是進(jìn)一步操作的對(duì)象。因此,數(shù)據(jù)處 理設(shè)備3于是可以識(shí)別清單儲(chǔ)存器5中包括到與新選擇的輸入數(shù)據(jù)塊2對(duì)應(yīng)的樣本數(shù)據(jù)塊 的引用的至少一個(gè)清單。這個(gè)過(guò)程可以持續(xù)到數(shù)據(jù)處理器3已經(jīng)對(duì)所有未匹配的輸入數(shù)據(jù) 塊2進(jìn)行了處理為止。在一個(gè)實(shí)施例中,方法包括對(duì)代表輸入數(shù)據(jù)集1的清單進(jìn)行編輯。根據(jù)實(shí)施例的方法包括產(chǎn)生輸入數(shù)據(jù)塊2的塊標(biāo)識(shí)符。該實(shí)施例還包括將輸入數(shù) 據(jù)塊2的塊標(biāo)識(shí)符與存儲(chǔ)在塊索引8中的塊標(biāo)識(shí)符進(jìn)行比較,如上所述。一個(gè)實(shí)施例提供了一種利用以下裝置來(lái)處理輸入數(shù)據(jù)的方法塊儲(chǔ)存器,包含先 前處理的數(shù)據(jù)集的樣本數(shù)據(jù)塊;塊索引,包含用于所述樣本數(shù)據(jù)塊的至少一個(gè)的塊標(biāo)識(shí)符; 分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表先前處理的數(shù)據(jù)集并且包括到所述樣 本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述方法包括將輸入數(shù)據(jù)分成輸入數(shù)據(jù)塊;為所 述輸入數(shù)據(jù)塊之一產(chǎn)生塊標(biāo)識(shí)符;以及識(shí)別所述塊索引中的對(duì)應(yīng)塊標(biāo)識(shí)符;以及根據(jù)其識(shí)別所述清單數(shù)據(jù)庫(kù)中包括到與所述輸入數(shù)據(jù)塊等同的樣本數(shù)據(jù)塊的引用的至少一個(gè)清單。當(dāng)首次提供本發(fā)明的實(shí)施例的塊儲(chǔ)存器4和清單儲(chǔ)存器5時(shí),在塊儲(chǔ)存器4內(nèi)將 沒(méi)有存儲(chǔ)的樣本數(shù)據(jù)塊6并且在清單儲(chǔ)存器內(nèi)將沒(méi)有存儲(chǔ)的清單。然后對(duì)塊儲(chǔ)存器4和清 單儲(chǔ)存器5進(jìn)行填充。因此,當(dāng)處理第一輸入數(shù)據(jù)集1時(shí),從輸入數(shù)據(jù)集1劃分的輸入數(shù)據(jù) 塊2的每個(gè)將被作為樣本數(shù)據(jù)塊6添加到塊儲(chǔ)存器4。將針對(duì)輸入數(shù)據(jù)集1編輯清單并且 將該清單添加到清單儲(chǔ)存器5。圖3示出了根據(jù)實(shí)施例的至少部分填充的處理器的例子。 應(yīng)該明白,隨著處理越來(lái)越多的輸入數(shù)據(jù)集1,塊儲(chǔ)存器4和清單儲(chǔ)存器5將分別包含更多 的樣本數(shù)據(jù)塊6和清單。可以達(dá)到要進(jìn)行處理的輸入數(shù)據(jù)集的大多數(shù)輸入數(shù)據(jù)塊2對(duì)應(yīng)于 已經(jīng)存儲(chǔ)在塊儲(chǔ)存器4中的樣本數(shù)據(jù)塊6的點(diǎn)。在這種情況下,可以針對(duì)輸入數(shù)據(jù)集編輯 清單6而不用向塊儲(chǔ)存器4添加任何新內(nèi)容,從而進(jìn)一步展示了根據(jù)一些實(shí)施例的方法的 優(yōu)點(diǎn)。圖7示出了在塊儲(chǔ)存器4中填充多個(gè)樣本數(shù)據(jù)塊6以及在清單儲(chǔ)存器5中填充多 個(gè)清單7的圖3所示的數(shù)據(jù)處理設(shè)備的實(shí)施例。數(shù)據(jù)處理設(shè)備3可以形成數(shù)據(jù)精簡(jiǎn)或去重復(fù)管理系統(tǒng)的一部分。數(shù)據(jù)處理設(shè)備3 可以集成到數(shù)據(jù)存儲(chǔ)系統(tǒng)中。數(shù)據(jù)處理設(shè)備3可被配置為當(dāng)將數(shù)據(jù)發(fā)送至數(shù)據(jù)存儲(chǔ)系統(tǒng)以 進(jìn)行存儲(chǔ)時(shí),“主動(dòng)地”工作。可實(shí)時(shí)執(zhí)行精簡(jiǎn)??商鎿Q地,可以在“非高峰(off peak)”時(shí) 段期間將數(shù)據(jù)提供給數(shù)據(jù)處理設(shè)備3。非高峰是指可能沒(méi)有正在將數(shù)據(jù)提供給數(shù)據(jù)存儲(chǔ)系 統(tǒng)以進(jìn)行存儲(chǔ),并且由此數(shù)據(jù)處理設(shè)備3可以處理已經(jīng)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)上的數(shù)據(jù)從而 減少已經(jīng)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)系統(tǒng)上的任何重復(fù)數(shù)據(jù)的時(shí)段。數(shù)據(jù)處理設(shè)備可以形成數(shù)據(jù)存儲(chǔ) 系統(tǒng)的數(shù)據(jù)內(nèi)務(wù)處理(housekeeping)系統(tǒng)的一部分。當(dāng)用于本說(shuō)明書(shū)和權(quán)利要求書(shū)中時(shí),術(shù)語(yǔ)“包括”和“包含”及其變型是指包括指 定的特征、步驟或整數(shù)。這些術(shù)語(yǔ)不應(yīng)被解釋為排除其它特征、步驟或組件的存在。以其具體形式或按照?qǐng)?zhí)行所公開(kāi)功能的裝置或者獲得所公開(kāi)結(jié)果的方法或過(guò)程 而表達(dá)的在上述說(shuō)明書(shū)或下面的權(quán)利要求書(shū)或附圖中公開(kāi)的特征可以視情況而單獨(dú)地或 者以這種特征的任何組合用于以各種形式實(shí)現(xiàn)本發(fā)明。
1權(quán)利要求
一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,被配置用于包含樣本數(shù)據(jù)塊;分立清單儲(chǔ)存器,被配置用于包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集的至少一部分并且包括到所述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用;所述處理設(shè)備能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)塊并且識(shí)別所述清單儲(chǔ)存器中包括到與所述輸入數(shù)據(jù)塊的至少一個(gè)對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)清單。
2.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,能夠操作以分析所述識(shí)別的至少一個(gè)清單并且識(shí)別到 與至少一個(gè)另外的輸入數(shù)據(jù)塊對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用。
3.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,能夠操作以便如果在使用中發(fā)現(xiàn)所述輸入數(shù)據(jù)塊中的 至少一個(gè)未對(duì)應(yīng)于塊儲(chǔ)存器中的所述樣本數(shù)據(jù)塊的至少一個(gè),則將所述至少一個(gè)輸入數(shù)據(jù) 塊作為樣本數(shù)據(jù)塊存儲(chǔ)在塊儲(chǔ)存器中。
4.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,被配置為包括塊索引,所述塊索引包含與包含在塊儲(chǔ) 存器中的所述樣本數(shù)據(jù)塊相關(guān)的信息。
5.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,被配置為包括塊索引,所述塊索引包含僅僅與包含在 塊儲(chǔ)存器中的一些所述樣本數(shù)據(jù)塊相關(guān)的信息。
6.權(quán)利要求4的數(shù)據(jù)處理設(shè)備,其中該設(shè)備能夠操作以利用包含在塊索引中的所述信 息識(shí)別所述對(duì)應(yīng)的樣本數(shù)據(jù)塊。
7.權(quán)利要求4的數(shù)據(jù)處理設(shè)備,其中包含在塊索引中的所述信息包括清單儲(chǔ)存器中的 包含到所述樣本數(shù)據(jù)塊的至少一個(gè)的引用的至少一個(gè)所述清單的細(xì)節(jié)。
8.權(quán)利要求4的數(shù)據(jù)處理設(shè)備,其中包含在塊索引中的所述信息包括所述樣本數(shù)據(jù)塊 的至少一個(gè)的塊標(biāo)識(shí)符。
9.權(quán)利要求8的數(shù)據(jù)處理設(shè)備,其中塊標(biāo)識(shí)符是與所述樣本數(shù)據(jù)塊的一個(gè)或多個(gè)對(duì)應(yīng) 的部分塊標(biāo)識(shí)符。
10.權(quán)利要求8的數(shù)據(jù)處理設(shè)備,其中所述設(shè)備能夠操作以產(chǎn)生待處理的所述輸入數(shù) 據(jù)塊的塊標(biāo)識(shí)符。
11.權(quán)利要求10的數(shù)據(jù)處理設(shè)備,其中所述設(shè)備能夠操作以通過(guò)將所述樣本塊的塊標(biāo) 識(shí)符與所述輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符進(jìn)行比較來(lái)識(shí)別所述對(duì)應(yīng)的樣本塊。
12.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中清單儲(chǔ)存器能夠操作以包含與其中存儲(chǔ)的所述 至少一個(gè)清單相關(guān)的信息。
13.權(quán)利要求12的數(shù)據(jù)處理設(shè)備,其中清單儲(chǔ)存器包含由所述至少一個(gè)清單引用的所 述至少一個(gè)樣本數(shù)據(jù)塊的塊標(biāo)識(shí)符。
14.權(quán)利要求13的數(shù)據(jù)處理設(shè)備,能夠操作以通過(guò)將所述輸入數(shù)據(jù)塊的塊標(biāo)識(shí)符與存 儲(chǔ)在清單儲(chǔ)存器中的所述至少一個(gè)樣本數(shù)據(jù)塊6的塊標(biāo)識(shí)符進(jìn)行比較來(lái)分析所述識(shí)別的 至少一個(gè)清單并且識(shí)別到與至少一個(gè)另外的輸入數(shù)據(jù)塊對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一 個(gè)所述引用。
15.權(quán)利要求1的數(shù)據(jù)處理設(shè)備,其中對(duì)應(yīng)的樣本數(shù)據(jù)塊具有與所述輸入數(shù)據(jù)塊的塊 標(biāo)識(shí)符至少部分類(lèi)似的塊標(biāo)識(shí)符。
16.一種數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,包含先前處理的數(shù)據(jù)集的樣本數(shù)據(jù)塊; 塊索引,包含用于所述樣本數(shù)據(jù)塊的至少一個(gè)的塊標(biāo)識(shí)符;分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表先前處理的數(shù)據(jù)集并且包括到所 述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述處理設(shè)備被配置為將待處理的輸入數(shù)據(jù)分成輸入數(shù)據(jù)塊;為所述輸入數(shù)據(jù)塊的至 少一個(gè)產(chǎn)生塊標(biāo)識(shí)符;識(shí)別塊索引中的對(duì)應(yīng)塊標(biāo)識(shí)符;以及根據(jù)其識(shí)別清單儲(chǔ)存器中包括 到與所述輸入數(shù)據(jù)塊等同的樣本數(shù)據(jù)塊的至少一個(gè)引用的至少一個(gè)所述清單。
17.一種數(shù)據(jù)精簡(jiǎn)器,包括塊儲(chǔ)存器,被配置為包含樣本數(shù)據(jù)塊;分立清單儲(chǔ)存器,被配置為包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集并且包括到所述 樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用,所述精簡(jiǎn)器被配置為將輸入數(shù)據(jù)分成輸入數(shù)據(jù)塊,選擇所述輸入數(shù)據(jù)塊之一并且識(shí)別 具有到與所述選擇的輸入數(shù)據(jù)塊對(duì)應(yīng)的樣本數(shù)據(jù)塊的至少一個(gè)引用的至少一個(gè)清單以及 探查所述至少一個(gè)識(shí)別的清單以尋找到與所述數(shù)據(jù)集的其它輸入數(shù)據(jù)塊對(duì)應(yīng)的其它樣本 數(shù)據(jù)塊的引用。
18.一種利用下述裝置來(lái)處理輸入數(shù)據(jù)的方法 塊儲(chǔ)存器,包含樣本數(shù)據(jù)塊;分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集并且包括到所述樣本數(shù)據(jù) 塊的至少一個(gè)的至少一個(gè)引用,所述方法包括將所述輸入數(shù)據(jù)處理成輸入數(shù)據(jù)塊,并且識(shí)別清單儲(chǔ)存器中包括到與所 述輸入數(shù)據(jù)塊對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)所述清單。
19.權(quán)利要求18的方法,包括檢查所識(shí)別的至少一個(gè)清單以尋找與所述輸入數(shù)據(jù)的至 少一個(gè)另外的所述輸入數(shù)據(jù)塊對(duì)應(yīng)的至少一個(gè)另外的樣本數(shù)據(jù)塊。
20.一種利用下述裝置處理輸入數(shù)據(jù)的方法 塊儲(chǔ)存器,包含先前處理的數(shù)據(jù)集的樣本數(shù)據(jù)塊;塊索引,包含用于所述樣本數(shù)據(jù)塊的至少一個(gè)的塊標(biāo)識(shí)符;分立清單儲(chǔ)存器,包含至少一個(gè)清單,所述清單代表先前處理的數(shù)據(jù)集并且包括到所 述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用, 所述方法包括將該輸入數(shù)據(jù)分成輸入數(shù)據(jù)塊; 為所述輸入數(shù)據(jù)塊之一產(chǎn)生塊標(biāo)識(shí)符;識(shí)別所述塊索引中的對(duì)應(yīng)塊標(biāo)識(shí)符以及根據(jù)其識(shí)別所述清單數(shù)據(jù)庫(kù)中包括到與所述 輸入數(shù)據(jù)塊等同的樣本數(shù)據(jù)塊的引用的至少一個(gè)清單。
全文摘要
數(shù)據(jù)處理設(shè)備,包括塊儲(chǔ)存器,被配置用于包含樣本數(shù)據(jù)塊;分立清單儲(chǔ)存器,被配置用于包含至少一個(gè)清單,所述清單代表數(shù)據(jù)集的至少一部分并且包括到所述樣本數(shù)據(jù)塊的至少一個(gè)的至少一個(gè)引用;所述處理設(shè)備能夠操作以將輸入數(shù)據(jù)處理成輸入數(shù)據(jù)塊并且識(shí)別清單儲(chǔ)存器中包括到與所述輸入數(shù)據(jù)塊的至少一個(gè)對(duì)應(yīng)的所述樣本數(shù)據(jù)塊的至少一個(gè)所述引用的至少一個(gè)清單。
文檔編號(hào)G06F17/40GK101855636SQ200780101502
公開(kāi)日2010年10月6日 申請(qǐng)日期2007年10月25日 優(yōu)先權(quán)日2007年10月25日
發(fā)明者K·L·瓊斯 申請(qǐng)人:惠普開(kāi)發(fā)有限公司