專利名稱:用于處理到遠程存儲位置的故障恢復(fù)的方法、系統(tǒng)以及程序的制作方法
技術(shù)領(lǐng)域:
該本發(fā)明涉及一種用于處理到遠程存儲位置的故障恢復(fù)的系統(tǒng)、方法和程序。
背景技術(shù):
災(zāi)難恢復(fù)系統(tǒng)典型地解決兩種故障,在單個時間點的突然災(zāi)難性故障或一段時間上的數(shù)據(jù)丟失。在第二種漸進性災(zāi)難中,可能丟失對卷的更新。為了幫助數(shù)據(jù)更新的恢復(fù),可以在遠程位置提供數(shù)據(jù)的拷貝。當(dāng)應(yīng)用系統(tǒng)將新的數(shù)據(jù)寫入到主存儲設(shè)備時,典型地進行這樣的雙重或映像(shadow)拷貝。國際商業(yè)機器公司(IBM),本專利申請的受讓人,提供了兩種用于在輔站點處維護數(shù)據(jù)的遠程拷貝的系統(tǒng),擴展遠程拷貝(XRC)和對等遠程拷貝(PPRC)。這些系統(tǒng)提供了用于在最近、安全的備份和系統(tǒng)故障之間恢復(fù)數(shù)據(jù)更新的方法。這樣的數(shù)據(jù)映像系統(tǒng)還可以為了非恢復(fù)的目的如在遠程站點的本地存取,提供附加的遠程拷貝。在IBM出版物“Remote CopyAdministrator’s Guide and Reference”IBM文獻號SC35-0169-02(IBM Copyright 1994,1996)中描述了這些IBM的XRC和PPRC系統(tǒng)。
在這樣的備份系統(tǒng)中,在卷對中維護數(shù)據(jù)。卷對包括主存儲設(shè)備中的卷和輔存儲設(shè)備中的對應(yīng)卷,其中輔存儲設(shè)備中的對應(yīng)卷包括在主卷中所維護的數(shù)據(jù)的相同拷貝。典型地,將在主直接存取存儲設(shè)備(DASD)中維護卷對的主卷,并且在對主DASD上的數(shù)據(jù)進行映像的輔DASD中維護卷對的輔卷??梢蕴峁┲鞔鎯刂破?,以便控制對主DASD的存取,并且可以提供輔存儲控制器,以便控制對輔DASD的存取。
在IBM XRC環(huán)境中,將數(shù)據(jù)寫入到主卷的應(yīng)用系統(tǒng)包括sysplex計時器,其提供時刻(TOD)值作為數(shù)據(jù)寫入的時間戳。當(dāng)將數(shù)據(jù)集寫入到主DASD中的卷時,應(yīng)用系統(tǒng)對該數(shù)據(jù)集加上時間戳。數(shù)據(jù)更新的完整性涉及確保以與在主卷上完成更新相同的次序,在卷對的輔卷處完成它們。在XRC和其它現(xiàn)有技術(shù)系統(tǒng)中,由該系統(tǒng)代表應(yīng)用程序提供的跨系統(tǒng)公共時間戳確定和維護跨越任意數(shù)目的存儲系統(tǒng)上的任意數(shù)目的數(shù)據(jù)卷的數(shù)據(jù)更新的邏輯順序。在很多應(yīng)用程序如數(shù)據(jù)庫系統(tǒng)中,除非發(fā)生了在前的寫入,否則不能發(fā)生特定寫入;否則,將危害數(shù)據(jù)完整性。其完整性依賴于在前數(shù)據(jù)寫入的發(fā)生的這種數(shù)據(jù)寫入被稱為相關(guān)寫入。例如如果客戶開帳戶、存款$400、然后取款$300,則對系統(tǒng)的取款更新依賴于其它寫入即開賬戶和存款的發(fā)生。當(dāng)將這樣的相關(guān)事務(wù)從主卷拷貝到輔卷時,必須保持事務(wù)次序,以便保持相關(guān)寫入操作的完整性。
當(dāng)按其邏輯次序傳輸了所有寫入,即,首先傳輸所有相關(guān)寫入,然后傳輸依賴于其的寫入時,主和輔DASD中的卷是一致的。在銀行業(yè)務(wù)示例中,這意味著在取款之前將存款寫入到輔卷。一致性組是使得以一致的方式確保相關(guān)寫入的對主卷的更新的集合。例如,在銀行業(yè)務(wù)示例中,這意味著取款事務(wù)是在與存款相同的一致性組中或在較后的組中;提取不能在較早的一致性組中。一致性組保持跨越卷和存儲設(shè)備的數(shù)據(jù)一致性。例如,如果出現(xiàn)故障,則在取款之前,將存款寫入到輔卷。這樣,當(dāng)從輔卷恢復(fù)數(shù)據(jù)時,所恢復(fù)的數(shù)據(jù)將是一致的。
一致性時間是系統(tǒng)從數(shù)據(jù)集的應(yīng)用系統(tǒng)時間戳獲得的時間。一致性組對于其時間戳等于或早于一致性時間戳的一致性組中的所有數(shù)據(jù)寫入,具有一致性時間。在IBM XRC環(huán)境中,一致性時間是系統(tǒng)保證對輔卷的更新一致的最晚時間。只要應(yīng)用程序?qū)?shù)據(jù)寫入到主卷,一致性時間就增加。然而,如果更新活動停止,則由于不存在具有時間戳的數(shù)據(jù)集,以便提供用于另外的一致性組的時間參考,因此一致性時間不改變。如果將一致性組中的所有記錄寫入到輔卷,則所報告的一致性時間反映一致性組中的所有記錄的最晚時間戳。在美國專利No.5,615,329和5,504,861中描述了這樣的方法,其用于保持?jǐn)?shù)據(jù)寫入的順序一致性并形成一致性組,以便保持在主DASD和輔DASD之間傳輸數(shù)據(jù)的順序一致性,這些文獻被轉(zhuǎn)讓給本專利申請的受讓人IBM,并且在此將其全文引作參考。
一種保持跨越拷貝的一致性的技術(shù)是使用被稱為SYSPLEX計時器的公共時鐘源,對跨越主卷的數(shù)據(jù)加上時間戳。將在被定義為具有小于特定時間的時間戳的所有更新的組中傳輸更新。在另外實現(xiàn)中,可以確定主和輔存儲控制器上的最晚更新的時間,并且用作一致性組的截止的時間將是具有主和輔控制器上的最高時間戳的更新的最小值。
另一種用于形成一致性組的技術(shù)是確定截止時間。被注明日期為到那個截止時間為止、由主控制器高速緩存管理的對主卷的任意更新被傳輸?shù)捷o控制器,以便存儲在輔卷中。當(dāng)傳輸一致性組中的數(shù)據(jù)時,主存儲控制器對傳輸一致性組中的數(shù)據(jù)時的任何主機請求都將返回繁忙。在一致性組中的數(shù)據(jù)被傳輸并且主和輔存儲控制器被同步,即,其時間戳小于截止時間的任何更新之后,則主控制器將停止向應(yīng)用程序返回繁忙。這確保了主和副卷到凍結(jié)截止時間為止是一致的。
發(fā)明內(nèi)容
本發(fā)明提供了一種用于管理數(shù)據(jù)的方法、程序和系統(tǒng)。處理鏡像策略,其表示將第一存儲系統(tǒng)中的卷鏡像到第二存儲系統(tǒng)中的卷,并且將第二存儲系統(tǒng)中的卷鏡像到第三存儲系統(tǒng)中的卷,其中第三存儲系統(tǒng)處于第一地理位置,其相對于包括第一和第二存儲系統(tǒng)的第二地理位置是遙遠的。在第一地理位置處檢測第一和第二存儲系統(tǒng)的故障。對將I/O請求定向到第一存儲系統(tǒng)中的卷的網(wǎng)絡(luò)資源進行自動重新配置,以便將I/O請求定向到第三存儲系統(tǒng)中的卷。檢測第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用,并且作為響應(yīng),響應(yīng)于檢測到第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用,重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷。在重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷之后,將對第二存儲系統(tǒng)的更新拷貝到第三存儲系統(tǒng)。
優(yōu)選地,自動重新配置包括更新將I/O請求定向到第一存儲系統(tǒng)中的卷的、與主機系統(tǒng)中的應(yīng)用程序相關(guān)聯(lián)的文件,以便將I/O請求定向到第二存儲系統(tǒng)中的卷。
優(yōu)選地,監(jiān)控程序檢測第一和第二存儲系統(tǒng)的故障并且自動重新配置網(wǎng)絡(luò)資源,以便定向?qū)Φ谝淮鎯ο到y(tǒng)中的卷的I/O請求。此外,監(jiān)控程序位于遙遠的地理位置。
可選地,在第一和第二存儲系統(tǒng)處檢測到故障之后,將表示遠程故障恢復(fù)操作的消息傳送到網(wǎng)絡(luò)管理員。然后,從網(wǎng)絡(luò)管理員接收表示是執(zhí)行還是不執(zhí)行遠程故障恢復(fù)的響應(yīng),其中如果響應(yīng)表示執(zhí)行遠程故障恢復(fù),則執(zhí)行自動重新配置操作。
可選地,自動重新配置網(wǎng)絡(luò)資源包括提供配置數(shù)據(jù)庫,其表示要重新配置的網(wǎng)絡(luò)設(shè)備處的網(wǎng)絡(luò)資源。處理配置數(shù)據(jù)庫,確定由網(wǎng)絡(luò)資源使用的配置設(shè)置,以便使網(wǎng)絡(luò)資源將對第一存儲系統(tǒng)中的卷的I/O請求定向到第三存儲系統(tǒng),其中通過用第三存儲系統(tǒng)的地址信息更新所確定的配置設(shè)置而執(zhí)行重新配置。
可選地,對網(wǎng)絡(luò)資源處執(zhí)行代碼,以便更新網(wǎng)絡(luò)資源處的配置設(shè)置,從而將被定向到第一存儲系統(tǒng)中的卷的I/O請求發(fā)送到第三存儲系統(tǒng)。
可選地,位于第一地理位置的監(jiān)控系統(tǒng)檢測故障,自動重新配置網(wǎng)絡(luò)資源,以使得將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng),并且將對第二存儲系統(tǒng)中的卷的更新拷貝到第三存儲系統(tǒng)。
優(yōu)選地,從第一存儲系統(tǒng)到第二存儲系統(tǒng)同步地拷貝更新,并且從第二存儲系統(tǒng)到第三存儲系統(tǒng)異步地拷貝更新。
優(yōu)選地,在自動重新配置之后,到在第二存儲系統(tǒng)處最后接收更新的時間之前的時間點為止,位于第三存儲系統(tǒng)的數(shù)據(jù)是一致的。
注意,第一和第二地理位置例如可以相隔至少幾百英里。
可選地,以最小限度的對被定向到卷的I/O請求的中斷,執(zhí)行將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷的網(wǎng)絡(luò)資源重新配置,以便提供對卷的連續(xù)可用性。
現(xiàn)在將參考如附圖所示的本發(fā)明的優(yōu)選實施例,僅僅作為示例描述本發(fā)明,其中圖1是示出實現(xiàn)本發(fā)明各方面的網(wǎng)絡(luò)計算環(huán)境的方框圖;圖2示出了在存儲控制器處維護以便將數(shù)據(jù)鏡像到不同位置的拷貝信息;圖3、4和5示出了根據(jù)本發(fā)明實現(xiàn)的為了將數(shù)據(jù)鏡像到不同的存儲位置而執(zhí)行的操作;圖6示出了實現(xiàn)本發(fā)明另外方面的網(wǎng)絡(luò)計算環(huán)境;圖7示出了根據(jù)本發(fā)明實現(xiàn)的包括在遠程監(jiān)控系統(tǒng)內(nèi)的組件和信息;圖8示出了根據(jù)本發(fā)明實現(xiàn)的配置數(shù)據(jù)庫信息,其提供關(guān)于在遠程故障恢復(fù)的情況下要重新配置的資源的信息;圖9和10示出了根據(jù)本發(fā)明實現(xiàn)的為了處理故障恢復(fù)而執(zhí)行的操作;以及圖11示出了網(wǎng)絡(luò)環(huán)境中的計算組件如存儲控制器、監(jiān)控系統(tǒng)、主機、網(wǎng)絡(luò)資源等的架構(gòu)。
注意,在附圖中,相同的標(biāo)號始終表示對應(yīng)的部分。
具體實施例方式
圖1示出了可以實現(xiàn)本發(fā)明各方面的網(wǎng)絡(luò)計算環(huán)境。本地站點2包括兩個存儲控制器4a、4b,其中每個具有存儲管理軟件6a、6b,以及附連的存儲系統(tǒng)8a、8b。存儲控制器4a、4b可以位于相對封閉的地理區(qū)域,例如同一大樓,同一校園、同一城市等中的不同大樓。存儲控制器4a、4b之間的連接10可以包括專線或網(wǎng)絡(luò),例如存儲區(qū)域網(wǎng)絡(luò)(SAN)、局域網(wǎng)(LAN)等??蛇x地,連接10可以包括內(nèi)聯(lián)網(wǎng)或因特網(wǎng)??梢韵嗑啾镜卣军c數(shù)百或數(shù)千英里的遠程站點20包括兩個存儲控制器22a、22b,其具有存儲管理軟件24a、24b,以及附連的存儲系統(tǒng)26a、26b。連接28提供存儲控制器4a和22a之間的長途連接,其中連接28可以包括由長途電信公司管理的專用光纖網(wǎng)絡(luò)或由其維護的連接、因特網(wǎng)等。長途連接28可以是洲際的。存儲控制器22a、22b之間的連接30提供相對短的連接(例如,幾十英里內(nèi)),其中存儲控制器22a、22b可以位于相對封閉的地理區(qū)域,例如同一大樓,同一校園、同一城市等中的不同大樓。
位于本地2和遠程20站點的主機系統(tǒng)(未示出)可以通過存儲控制器4a、4b、22a、22b對存儲系統(tǒng)8a、8b、26a、26b中的卷執(zhí)行輸入/輸出(I/O)操作。主機系統(tǒng)可以通過在本技術(shù)領(lǐng)域內(nèi)公知的任何網(wǎng)絡(luò)或連接與存儲控制器4a、4b、22a、22b通信。
存儲控制器4a、4b、22a、22b還將包括處理器復(fù)合裝置(processorcomplex)(未示出),并且可以包括在本技術(shù)領(lǐng)域內(nèi)公知的任何存儲控制器或服務(wù)器,例如IBM企業(yè)級存儲服務(wù)器(ESS)7,39907存儲控制器等。(企業(yè)級存儲服務(wù)器是IBM的注冊商標(biāo))。存儲系統(tǒng)8a、8b、26a、26b可以包括存儲設(shè)備陣列,例如“僅僅一組盤”(JBOD)、獨立盤冗余陣列(RAID)陣列、虛擬化設(shè)備等。存儲管理軟件6a、6b、24a、24b可以包括允許數(shù)據(jù)鏡像和發(fā)生故障的情況下的數(shù)據(jù)恢復(fù)的代碼,例如包括在IBM PPRC擴展距離程序中以便允許在相對短和長的距離上進行數(shù)據(jù)鏡像的代碼。在文獻號為SG24-6568-00的IBM出版物“IBM TotalStorage Enterprise Storage Server PPRC Extended Distance”(CopyrightIBM,June 2002)中描述了IBM PPRC擴展距離程序的更多細節(jié),在此將其全文引作參考。
圖1還示出了具有監(jiān)控程序34的監(jiān)控系統(tǒng)32,其中監(jiān)控程序34對不同存儲控制器4a、4b、22a、22b之間的鏡像拷貝操作提供控制。由監(jiān)控程序34啟動的監(jiān)控和拷貝操作可以在系統(tǒng)管理員的初始設(shè)置之后自動地運行,或者可以響應(yīng)于由系統(tǒng)管理員執(zhí)行的人工命令和監(jiān)控而運行。監(jiān)控策略36包括關(guān)于如何管理不同的存儲控制器4a、4b、22a、22b之間的鏡像拷貝關(guān)系的信息。實際上,監(jiān)控策略36可以包括由監(jiān)控程序34執(zhí)行以便通過將命令發(fā)送到存儲控制器4a來實現(xiàn)拷貝操作的代碼。監(jiān)控策略36還可以指定初始的拷貝設(shè)置,例如表示存儲系統(tǒng)8a中的卷和存儲鏡像卷的存儲系統(tǒng)8b、26a、26b中的卷。例如,監(jiān)控策略36可以表示拷貝關(guān)系如存儲系統(tǒng)8a、8b中的卷對的PPRC關(guān)系,其中存儲系統(tǒng)8b中的指定卷提供存儲系統(tǒng)8c中的指定卷的輔拷貝、和存儲系統(tǒng)8b和26a之間的卷對的拷貝關(guān)系以及26a和26b之間的拷貝關(guān)系。
監(jiān)控系統(tǒng)32具有分別與存儲控制器6a和6b的連接38和40,其中,可以使用在本技術(shù)領(lǐng)域內(nèi)公知的任何網(wǎng)絡(luò)技術(shù)如小型計算機系統(tǒng)接口(SCSI)通道、光纖通道、企業(yè)級系統(tǒng)連接(ESCON)7、以太網(wǎng)等,實現(xiàn)這樣的連接。在可選實現(xiàn)中,監(jiān)控系統(tǒng)32可以僅僅連接到存儲控制器4a。監(jiān)控程序34能夠通過存儲控制器6a和/或6b將命令發(fā)布到存儲控制器22a、22b。連接10、30、38、以及40可以是相同網(wǎng)絡(luò)或不同網(wǎng)絡(luò)的一部分。
圖2示出了存儲控制器4a、4b、22a、22b中的每個在存儲器中維護以便管理鏡像對輔控制器的更新的拷貝操作的拷貝信息50。拷貝信息50包括卷更新位圖52,其中每個卷位圖針對卷中的每個軌道包括一位。當(dāng)存儲控制器4a、4b、22a、22b接收對軌道的更新時,卷位圖52中的對應(yīng)位被“打開”,以表示更新??截惥?4信息識別兩個存儲控制器之間的拷貝關(guān)系所涉及的卷對。某些存儲控制器如存儲控制器4b可以為多個拷貝關(guān)系,例如與本地存儲控制器4a的拷貝關(guān)系和與遠程存儲控制器22a的拷貝關(guān)系,維護拷貝信息。
圖3、4和5示出了響應(yīng)于處理鏡像策略36中的信息而由監(jiān)控程序34執(zhí)行以便引起存儲控制器4a、4b、22a、22b之間的鏡像操作的操作。對于圖3,監(jiān)控程序34基于鏡像策略36而啟動鏡像,該鏡像策略36表示用于鏡像的本地存儲系統(tǒng)8a、8b,本地存儲系統(tǒng)8b和遠程存儲系統(tǒng)10a之間,以及遠程存儲系統(tǒng)10a、10b之間的卷對。鏡像策略36還可以表示在不同的存儲系統(tǒng)之間鏡像的拷貝操作的類型,例如對于存儲系統(tǒng)8a、8b中的卷,使用異步拷貝操作;對于本地存儲系統(tǒng)8b和遠程存儲系統(tǒng)26a中的卷,使用擴展距離拷貝操作,例如PPRC XD;以及對于遠程存儲系統(tǒng)26a、26b,使用FlashCopyJ(FlashCopy是國際商業(yè)機器公司的商標(biāo))。
FlashCopy7涉及在源和目標(biāo)卷之間建立邏輯時間點關(guān)系。為每個卷維護諸如卷更新位圖52(圖2)的位圖,其針對每個軌道具有一個位值,其表示軌道的數(shù)據(jù)是位于該卷還是另一卷中。當(dāng)創(chuàng)建表示所有源數(shù)據(jù)服從(subject to)快閃拷貝的位圖時,建立拷貝。后臺拷貝操作將其位圖值為“打開”的所有軌道從源卷拷貝到目標(biāo)卷。在建立操作期間,將目標(biāo)卷的位圖中的所有位值設(shè)成“打開”,以表示目標(biāo)卷的數(shù)據(jù)位于另一位置。在建立關(guān)系之后,如果試圖將數(shù)據(jù)升級(stage)到軌道,則檢查包括該軌道的卷的位圖中的位值。如果位值為“打開”,從而表示軌道是服從時間點拷貝關(guān)系的目標(biāo)軌道,則將目標(biāo)軌道從源設(shè)備中的對應(yīng)源軌道升級到目標(biāo)高速緩存中。如果存取試圖從源高速緩存降級源軌道,則檢查具有目標(biāo)軌道的對應(yīng)目標(biāo)卷的位圖。如果目標(biāo)位圖中的位值為“打開”,則將目標(biāo)軌道從源設(shè)備升級到目標(biāo)高速緩存,然后從目標(biāo)高速緩存降級到目標(biāo)設(shè)備,并且將從目標(biāo)高速緩存降級的軌道的目標(biāo)位圖中的位值設(shè)成“關(guān)閉”。只有在目標(biāo)關(guān)系位圖表示不再有任何將源軌道升級到目標(biāo)高速緩存的需要之后,才準(zhǔn)予對源軌道的存取。
對于圖3,監(jiān)控程序26將執(zhí)行在監(jiān)控策略28中表示的存儲控制器8a的所有主卷到輔存儲系統(tǒng)8b中的對應(yīng)卷的初始拷貝(在塊102)。當(dāng)完成在本地主8a和輔8b存儲控制器之間的初始拷貝時,監(jiān)控程序36則發(fā)送命令到本地輔控制器8b,以便將從本地主控制器8a拷貝的指定卷異步地拷貝/鏡像到遠程主存儲控制器22a(在塊104)。如果監(jiān)控系統(tǒng)32和存儲控制器4b之間存在直接連接40,則可以將在塊104發(fā)送的命令直接發(fā)送到存儲控制器4b,或者通過存儲控制器4a和連接10發(fā)送該命令。此外,可以執(zhí)行FlashCopy(快閃拷貝)操作,以便向存儲系統(tǒng)26b中的指定卷拷貝存儲系統(tǒng)26a的卷中的初始拷貝。
對于圖4,在建立數(shù)據(jù)的初始拷貝之后,監(jiān)控程序34開始讓主存儲控制器4a將更新異步地拷貝到本地輔存儲控制器4b的處理,其中,可以異步地發(fā)送更新以避免對主機應(yīng)用程序的任何延遲,或者可以同步地發(fā)送更新(在塊150)。在塊152,監(jiān)控程序34將異步拷貝命令發(fā)送到主存儲控制器4a,以便使存儲控制器4a將在卷更新位圖52(圖2)中表示的任何數(shù)據(jù)更新,發(fā)送到輔存儲控制器4b。作為響應(yīng),接收更新的輔存儲控制器4b將在卷更新位圖52中表示從本地主存儲控制器4a接收的修改數(shù)據(jù)(在塊154)。主存儲控制器4a可以形成數(shù)據(jù)的一致性組,以便將一致性組中的數(shù)據(jù)發(fā)送到輔存儲控制器4b,從而到一致性組的一致性時間為止,存儲在輔存儲控制器4b中的數(shù)據(jù)是一致的。
在某點,根據(jù)在鏡像策略32中指定的參數(shù),鏡像程序34將執(zhí)行圖5的邏輯,以便暫停存儲控制器4a、4b之間的拷貝,以便允許在本地存儲控制器4b和遠程存儲控制器26a之間進行數(shù)據(jù)的遠程鏡像。存儲控制器4a、4b之間的拷貝的暫停準(zhǔn)許存儲控制器4b和22a之間的遠程鏡像,使得所有跨卷/跨存儲子系統(tǒng)的數(shù)據(jù)在由存儲控制器4b和22a管理的所有卷之間是時間一致的。在控制器4b和22a之間提供了一致性之后,則在允許本地存儲控制器4a、4b之間的同步拷貝之前,向存儲控制器22b提供一致性。在暫停期間,仍然維護一致性點,如果在暫停期間發(fā)生災(zāi)難,則可以從其進行恢復(fù)。例如,如果本地主存儲控制器4a出現(xiàn)故障,則在本地輔存儲控制器4a和遠程主存儲控制器22a之間保持一致性,并且作為向遠程存儲控制器22b的FlashCopy的結(jié)果,保持一致性。如果丟失了本地存儲控制器4a、4b,則可以從遠程存儲控制器22b恢復(fù)到一致性點為止的數(shù)據(jù)。此外,如果在本地站點存在故障,則在將數(shù)據(jù)拷貝到遠程輔存儲控制器22b之前,可以從遠程主存儲控制器22a恢復(fù)數(shù)據(jù),并且在拷貝(例如,F(xiàn)lashCopy)之后,可以從遠程輔存儲控制器22b恢復(fù)數(shù)據(jù)。
在特定實現(xiàn)中,除了在形成提供給遠程存儲控制器4a的一致性組的暫停時間的期間之外,存儲控制器4a、4b和22a之間的鏡像可以是連續(xù)的??梢赃B續(xù)地執(zhí)行圖5的處理,例如一旦將數(shù)據(jù)的一致性組從主存儲控制器4a拷貝到輔存儲控制器4b,就執(zhí)行圖5的處理。可選地,鏡像策略36可以指定在發(fā)生事件時,在一天內(nèi)的特定時間、以例如每5小時的時間間隔執(zhí)行圖4的遠程鏡像,等等。
當(dāng)初始化遠程鏡像(在塊200)時,監(jiān)控程序34將啟動凍結(jié)操作的命令發(fā)送到本地主控制器4b,以便凍結(jié)本地主4a和輔4b存儲控制器之間的鏡像操作(在塊202)。然后,監(jiān)控程序34查詢本地輔控制器的卷位圖52,以便確定在存儲系統(tǒng)8b處已被更新的軌道(在塊204)。然后,將諸如PPRC命令的鏡像命令直接通過連接40或通過主存儲控制器4a,發(fā)送到本地輔控制器,以便異步地拷貝已被更新的在本地輔存儲控制器4b的卷位圖中表示的軌道(在塊206)。然后,監(jiān)控程序34將定期地使本地輔存儲控制器4b將諸如PPRC-XD查詢命令(例如,CQUERY命令)的擴展查詢命令,發(fā)送到遠程主控制器22a,以確定是否完成了從本地輔控制器4b的所有更新的鏡像(在塊208)。如果(在塊210)如在從查詢命令的輸出信息中表示的那樣,完成了遠程鏡像,則監(jiān)控程序34使得將FlashCopy命令發(fā)送到遠程主存儲控制器22a,以便將在鏡像策略36中表示的存儲系統(tǒng)26a的卷拷貝到遠程輔存儲控制器22b(在塊212)。如果在遠程控制器22a、22b之間的拷貝操作是FlashCopy,則最初將拷貝指向主卷的指針以建立拷貝,然后將在后臺上拷貝數(shù)據(jù)。如果沒有完成遠程鏡像(在塊210),則控制繼續(xù)回到塊208,以便繼續(xù)查詢直至完成了遠程鏡像為止。這樣,在從本地存儲控制器4b到遠程存儲控制器22a鏡像更新之后,將數(shù)據(jù)的整個鏡像拷貝,拷貝到遠程輔存儲控制器22b,以進一步強化(harden)遠程站點20處的一致數(shù)據(jù)。
當(dāng)完成在遠程主26a和輔26b卷之間的FlashCopy操作(在塊214)時,監(jiān)控程序34將發(fā)出命令,以便結(jié)束主22a和輔22b存儲控制器之間的鏡像的暫停,并且繼續(xù)主4a和輔4b存儲控制器之間的更新的異步拷貝。
通過所述實現(xiàn),在遠程站點20中強化一致性組。如果整個本地站點2中的存儲系統(tǒng)被毀滅,則可以從遠程站點20恢復(fù)數(shù)據(jù),并且到跨越所有存儲系統(tǒng)8a、8b、8c、8d所維護的單個時間點為止,所有數(shù)據(jù)將是一致的,從而確保了完全的跨卷/跨存儲子系統(tǒng)的數(shù)據(jù)完整性和數(shù)據(jù)一致性。在人類和自然歷史的本時代中,其中災(zāi)難性事件可能導(dǎo)致整個地理區(qū)域和在該區(qū)域中維護的所有數(shù)據(jù)存儲的大規(guī)模毀滅,這樣的遠程鏡像是特別有用的。事實上,美國政府近來已經(jīng)建議了在遠程位置鏡像重要和關(guān)鍵的數(shù)據(jù),例如對于金融基礎(chǔ)結(jié)構(gòu)的維護是基本的數(shù)據(jù),以便在整個區(qū)域內(nèi)的數(shù)據(jù)存儲被破壞的情況下,確保該基本數(shù)據(jù)的完整性和幸存。由聯(lián)邦儲備系統(tǒng)案號R-1123發(fā)表并且在“http//www.sec.gov/news/studies/34-47638.htm”(2003年4月最后更新)上可獲得的、標(biāo)題為“Interagency Paper on Sound Practices toStrengthen the Resilience of the U.S.Financial System”的出版物中描述了涉及使用遠程數(shù)據(jù)存儲以確保國家金融基礎(chǔ)結(jié)構(gòu)的數(shù)據(jù)完整性的美國政府目標(biāo),在此將其全文引作參考。
提供連續(xù)操作和災(zāi)難恢復(fù)企業(yè)和商業(yè)計算的一個目標(biāo)是最大化可用性,使得用戶應(yīng)用程序可以連續(xù)地訪問數(shù)據(jù)。對于任務(wù)關(guān)鍵性的計算事務(wù),包括對于國家保持良好狀態(tài)是基本的計算事務(wù),例如金融事務(wù),這是特別重要的。另一目標(biāo)是維護備份策略,其確保數(shù)據(jù)是一致的并頻繁地被備份,并且提供最小化對數(shù)據(jù)可用性的破壞的災(zāi)難故障恢復(fù)策略。
圖6示出了另一網(wǎng)絡(luò)計算環(huán)境,其中,本地站點302具有連接到網(wǎng)絡(luò)308的本地存儲控制器304a、304b以及本地監(jiān)控系統(tǒng)306,并且遠程站點320具有也連接到網(wǎng)絡(luò)308的遠程存儲控制器322a、322b以及遠程監(jiān)控系統(tǒng)324。本地302和遠程320站點可以位于如關(guān)于圖的站點2和20所述那樣的地點。此外,存儲控制器304a、304b、322a、322b可以包括關(guān)于圖1所述的存儲控制器4a、4b、22a、22b,其具有存儲管理軟件和與其附連的存儲系統(tǒng)(未示出)。本地監(jiān)控系統(tǒng)可以包括關(guān)于監(jiān)控系統(tǒng)32(圖1)所述的組件34和36。此外,主機330、用來解析被定向到網(wǎng)絡(luò)地址的請求的命名空間332,以及諸如交換機等的網(wǎng)絡(luò)資源334耦接到網(wǎng)絡(luò)308。網(wǎng)絡(luò)可以包括在本技術(shù)領(lǐng)域內(nèi)公知的任何網(wǎng)絡(luò)布局,諸如互連所有設(shè)備的單個網(wǎng)絡(luò)如廣域網(wǎng)(WAN)、因特網(wǎng)、和內(nèi)聯(lián)網(wǎng)等。此外,網(wǎng)絡(luò)308可以包括相對于用來在存儲控制器4a、4b、22a、22b(圖1)之間傳輸數(shù)據(jù)的網(wǎng)絡(luò)路徑10、28和30是帶外(out-of-band)的網(wǎng)絡(luò)。例如,網(wǎng)絡(luò)路徑10、28和30可以包括專用光纖線路,并且網(wǎng)絡(luò)308可以包括內(nèi)聯(lián)網(wǎng)、因特網(wǎng)、虛擬專用網(wǎng)絡(luò)等。可選地,連接本地2和遠程20站點的路徑28可以是網(wǎng)絡(luò)308的一部分。
圖7示出了包括在遠程監(jiān)控系統(tǒng)324內(nèi)的組件和信息,包括遠程監(jiān)控程序350、恢復(fù)設(shè)備的路徑信息352和配置數(shù)據(jù)庫354,其中配置數(shù)據(jù)庫354包括關(guān)于網(wǎng)絡(luò)資源的信息,以便在到遠程站點320的故障恢復(fù)的情況下重新配置。最初可以將路徑信息352設(shè)置到遠程主存儲器系統(tǒng)26a,但是在完成向遠程輔存儲系統(tǒng)26b的拷貝(在圖5中的塊212和24)之后,可以將路徑信息設(shè)置到遠程輔存儲系統(tǒng)26b,以便在從本地站點302的故障恢復(fù)的情況下使用。路徑信息352可以表示從本地站點302鏡像數(shù)據(jù)的遠程存儲子系統(tǒng)的一個或多個網(wǎng)絡(luò)地址,其可以包括在本地站點302的存儲子系統(tǒng)8a、8b(圖1)中使用的相同卷名和標(biāo)識符。配置數(shù)據(jù)庫354包括針對每個要更新的資源的條目,其中資源可以包括程序或設(shè)備。
圖8示出了包括在每個配置數(shù)據(jù)庫條目360內(nèi)的信息,包括設(shè)備地址362表示包括要重新配置的資源的網(wǎng)絡(luò)308中的設(shè)備的地址;可配置組件364識別正被更新的位于設(shè)備地址362的組件,例如應(yīng)用程序、數(shù)據(jù)庫程序、操作系統(tǒng)中的配置設(shè)置如注冊表文件、或設(shè)備信息;配置代碼366諸如腳本程序的代碼,當(dāng)被執(zhí)行時,將用恢復(fù)系統(tǒng)352的路徑信息更新可配置組件364,以便應(yīng)用程序或資源將請求定向到與在遇到了故障的位于本地站點的一個存儲系統(tǒng)8a、8b相對的位于遠程站點20的存儲系統(tǒng)26a、26b。
圖9示出了當(dāng)在本地主存儲控制器304a處檢測到故障(在塊400)時,由本地監(jiān)控系統(tǒng)306中的監(jiān)控程序34執(zhí)行的操作。作為響應(yīng),本地監(jiān)控程序306(或圖1中的32)重新配置所有附連的主機330(圖6)和其它網(wǎng)絡(luò)資源334的控制塊中的設(shè)備地址信息,以便指向本地輔存儲,從而主機應(yīng)用程序?qū)τ诳捎玫谋镜剌o存儲控制器304b執(zhí)行I/O(在塊402)。本地監(jiān)控系統(tǒng)306可以利用IBM HyperswapJ特性,以便切換主存儲器子系統(tǒng)與輔存儲子系統(tǒng)而不必停頓主機應(yīng)用程序。(Hyperswap是國際商業(yè)機器公司的商標(biāo))。在共同未決且共同轉(zhuǎn)讓的以下專利申請中描述了該操作的進一步細節(jié),即在2002年4月29日提交且具有申請序列號10/134,254、發(fā)明名稱為“System and Method for ConcurrentLogical Device Swapping”,以及在2003年4月29日提交且具有申請序列號10/134,414、發(fā)明名稱為“System and Method for AutomaticDynamic Address Switching”的專利申請,在此將其全文引作參考。在該切換之后,主機330應(yīng)用程序和其它網(wǎng)絡(luò)資源334可以對于幸存的本地輔存儲控制器304b執(zhí)行I/O。
本地監(jiān)控系統(tǒng)306還將發(fā)出命令到本地輔存儲控制器304b,以便將在幸存的本地輔存儲處接收的任何更新異步地拷貝到遠程主存儲控制器322a(在塊404)。這樣,在以僅僅非常短暫的對主機I/O的中斷進行到本地輔存儲控制器304b的故障恢復(fù)之后,將在該故障恢復(fù)模式中在本地輔存儲控制器304b處接收的更新異步地拷貝到遠程主存儲控制器322a,以便保持遠程主存儲控制器322a最新,并且可用于在本地輔存儲控制器304b后來在故障恢復(fù)模式中操作時出現(xiàn)故障的情況下進行災(zāi)難恢復(fù)。通過在本地站點302處使用諸如IBM Hyperswap的故障恢復(fù)處理,這確保了本地站點302的連續(xù)操作,其中當(dāng)在遠程站點320處維護數(shù)據(jù)一致性和災(zāi)難恢復(fù)時,該故障恢復(fù)處理提供最短的停機時間。到本地輔存儲系統(tǒng)8b(圖1)的故障恢復(fù)可以由于不可預(yù)料的主存儲系統(tǒng)8a處的故障而無計劃地發(fā)生,或者如果存在在主存儲系統(tǒng)8a處進行的維護則有計劃地發(fā)生。無論哪種情況,本地監(jiān)控系統(tǒng)306都將自動地實現(xiàn)到本地輔存儲系統(tǒng)8b的故障恢復(fù)。
圖10示出了由遠程監(jiān)控程序350執(zhí)行以便處理整個本地站點302的故障的操作,其中該故障需要到遠程站點320的故障恢復(fù),遠程站點320可以位于在地理上遙遠的位置,例如相距數(shù)千英里。在塊450,遠程監(jiān)控程序350啟動在網(wǎng)絡(luò)308上監(jiān)控本地站點302的存儲控制器304a、304b。然后,遠程監(jiān)控程序350將查詢本地存儲控制器304a、304b,以確定是否它們可用(在塊452)。如果至少一個可用(在塊454),則控制結(jié)束,這是因為可以由本地監(jiān)控系統(tǒng)324處理任何故障恢復(fù),其意味著整個本地站點304a沒有遇到災(zāi)難性事件。如果兩個存儲控制器304a、304b都不可用,則遠程監(jiān)控程序350向一個或多個指定的遠程網(wǎng)絡(luò)管理員生成警報消息,以向他們通知運轉(zhuǎn)中斷(outage)并請求指導(dǎo)。在特定實現(xiàn)中,遠程監(jiān)控系統(tǒng)324對于是否進行遠程故障恢復(fù)遵從人的決定。網(wǎng)絡(luò)管理員可能確定本地站點302的故障原因是暫時性的并且不是由于本地站點302的災(zāi)難性事件,并且不需要遠程故障恢復(fù)。遠程網(wǎng)絡(luò)管理員還可能確定本地站點302的系統(tǒng)將在很長的時間內(nèi)不可用。在此情況下,網(wǎng)絡(luò)管理員可以返回對來自遠程監(jiān)控系統(tǒng)324的通知的響應(yīng),表明要執(zhí)行遠程故障恢復(fù)或什么都不做。例如,如果遠程監(jiān)控系統(tǒng)324發(fā)送具有表示網(wǎng)絡(luò)管理員的選擇的復(fù)選框的電子郵件,則網(wǎng)絡(luò)管理員可以在答復(fù)電子郵件中用一個選擇的指示作出響應(yīng)??梢允褂迷诒炯夹g(shù)領(lǐng)域內(nèi)公知的任何其它的通知和響應(yīng)機制。例如,響應(yīng)于通過傳呼機、電話等接收到電子自動化通知,網(wǎng)絡(luò)管理員可以在網(wǎng)絡(luò)308上從遠程位置訪問遠程監(jiān)控系統(tǒng)324,并且表示是否要執(zhí)行遠程故障恢復(fù)。
如果網(wǎng)絡(luò)管理員沒有表示要執(zhí)行遠程故障恢復(fù)(在塊458),則控制結(jié)束。否則,如果選擇了遠程故障恢復(fù)選項,則針對配置數(shù)據(jù)庫354中的每個條目360,在塊460到464執(zhí)行循環(huán)。對于條目i,遠程監(jiān)控程序350將在被識別位于設(shè)備地址362的設(shè)備處執(zhí)行條目i中的配置代碼366,以便將表示用于卷的設(shè)備地址的信息重新配置到在路徑信息352中表示的設(shè)備地址(在塊362)??梢酝ㄟ^更新由諸如數(shù)據(jù)庫程序的應(yīng)用程序使用的文件、以及提供關(guān)于附連設(shè)備的信息的操作系統(tǒng)文件如注冊表文件,執(zhí)行重新配置。此外,一個配置數(shù)據(jù)庫條目360可以更新用來解析網(wǎng)絡(luò)地址的網(wǎng)絡(luò)命名空間362,以便將被定向到主存儲器系統(tǒng)8a的地址解析到在路徑信息352中識別的一個遠程存儲系統(tǒng)26a、26b。
在圖10的邏輯中,拒絕主機的存儲訪問,直至遠程監(jiān)控系統(tǒng)重新配置該特定主機以使用遠程存儲為止。此外,到可能不包括在發(fā)生故障之前進行的對主存儲器系統(tǒng)8a的最近更新的時間點為止,在遠程存儲系統(tǒng)26a、26b處可獲得的數(shù)據(jù)是一致的。在此情況下,所有應(yīng)用程序和其它網(wǎng)絡(luò)資源將必須重新初始化到遠程存儲系統(tǒng)的一致性時間為止。
觸發(fā)圖9的遠程故障恢復(fù)的故障可以發(fā)生在由于本地主存儲系統(tǒng)8a的故障而執(zhí)行圖8的操作以使用本地輔存儲系統(tǒng)8b之后。
在另外的實現(xiàn)中,遠程監(jiān)控程序350可以傳送命令到網(wǎng)絡(luò)308中的每個主機330和網(wǎng)絡(luò)資源334,以便使得重新配置主機330和網(wǎng)絡(luò)資源334的資源,以將遠程存儲系統(tǒng)識別為用于任何后繼的被定向到本地主存儲器系統(tǒng)8a的I/O請求的I/O設(shè)備,其中,每個主機330和網(wǎng)絡(luò)資源334將包括用于處理并本地執(zhí)行來自遠程監(jiān)控程序350的的命令以便重新配置資源以使用遠程存儲的代碼。
所述實現(xiàn)提供了當(dāng)數(shù)據(jù)被鏡像到本地輔存儲8b以及遠程輔存儲系統(tǒng)8a、8b時,保持連續(xù)可用性的技術(shù)。此外,所述實現(xiàn)提供了用于以最小化對主機I/O請求的中斷的方式,處理到本地輔存儲8b或遠程輔存儲26a、26b的故障恢復(fù)的技術(shù)。此外,如果在本地站點發(fā)生故障恢復(fù),則更新仍然被鏡像到遠程站點,以便為了數(shù)據(jù)恢復(fù)的目的而保持遠程站點一致。
另外的實現(xiàn)細節(jié)用于在不同的存儲位置之間鏡像數(shù)據(jù)和處理故障恢復(fù)的所述技術(shù)可以使用標(biāo)準(zhǔn)編程和/或工程技術(shù)被實施為方法、設(shè)備或產(chǎn)品,以產(chǎn)生軟件、固件、硬件、或其任意組合。這里使用的術(shù)語“產(chǎn)品”是指在硬件邏輯電路(例如,集成電路芯片、可編程門陣列(PGA)、專用集成電路(ASIC)等)或者諸如磁存儲介質(zhì)(例如,硬盤驅(qū)動器、軟盤、磁帶等)、光存儲裝置(CD-ROM、光盤等)、易失和非易失性存儲器設(shè)備(例如,EEPROM、ROM、PROM、RAM、DRAM、SRAM、固件、可編程邏輯電路等)之類的計算機可讀介質(zhì)中實現(xiàn)的代碼或邏輯。由處理器復(fù)合裝置訪問和執(zhí)行計算機可讀介質(zhì)中的代碼。其中實現(xiàn)了優(yōu)選實施例的代碼還可以通過傳輸介質(zhì)進行存取,或者可以通過網(wǎng)絡(luò)從文件服務(wù)器訪問。在此情況下,其中實現(xiàn)了代碼的產(chǎn)品可以包含諸如網(wǎng)絡(luò)傳輸線、無線傳輸介質(zhì)、通過空間傳播的信號、無線電波、紅外線信號等之類的傳輸介質(zhì)。因此,“產(chǎn)品”可以包括其中包含了代碼的介質(zhì)。另外,“產(chǎn)品”可以包括其中包含、處理、和執(zhí)行代碼的硬件和軟件組件的組合。當(dāng)然,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)認識到,可以對該配置進行許多修改而不背離本發(fā)明的范圍,而且產(chǎn)品可以包括在本技術(shù)領(lǐng)域內(nèi)公知的任何信息承載介質(zhì)。
所述實現(xiàn)是關(guān)于IBM PPRC擴展距離計算環(huán)境而描述的。然而,用于維護一致性的所述實現(xiàn)可被應(yīng)用于在其它計算和供應(yīng)商環(huán)境中維護一致性,并且使用與這里所述不同的其它數(shù)據(jù)拷貝協(xié)議和程序。
在特定實現(xiàn)中,以卷安排存儲設(shè)備中的數(shù)據(jù)。在可選系統(tǒng)中,可以根據(jù)不同于卷的存儲單元對在其上維護數(shù)據(jù)的存儲區(qū)域進行分組,以便維護一致性,其中該存儲單元以不同于會話的分組方式來分組。
在所述實現(xiàn)中,數(shù)據(jù)更新在從一個存儲控制器被傳輸?shù)搅硪粋€之前,以一致性組被組織。在可選實現(xiàn)中,在不同存儲控制器之間拷貝的數(shù)據(jù)可以不包括一致性組。
由監(jiān)控程序34執(zhí)行的邏輯被描述成在與用于數(shù)據(jù)鏡像的存儲控制器4a、4b、22a、22b分離的監(jiān)控系統(tǒng)32中實現(xiàn)。在可選實現(xiàn)中,可以由存儲控制器4a、4b、22a、22b之一內(nèi)的存儲管理軟件6a、6b、24a、24b執(zhí)行上述監(jiān)控程序34操作。監(jiān)控系統(tǒng)32可以位于本地站點38之內(nèi)或之外。此外,遠程監(jiān)控系統(tǒng)32可以位于遠程站點320之內(nèi)或之外。
用于建立邏輯時間點拷貝關(guān)系的所述實現(xiàn)被描述成與在高可用性是最重要的關(guān)鍵性數(shù)據(jù)環(huán)境中部署的系統(tǒng)一起使用。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這里描述的時間點拷貝操作可以應(yīng)用于高可用性不是絕對必要的、用于非關(guān)鍵性數(shù)據(jù)的存儲系統(tǒng)。
在所述實現(xiàn)中,在重新配置網(wǎng)絡(luò)資源之前,遠程監(jiān)控系統(tǒng)324等待網(wǎng)絡(luò)管理員同意遠程故障恢復(fù)。在可選實現(xiàn)中,遠程監(jiān)控系統(tǒng)324可以在檢測到本地存儲控制器不可用時自動地執(zhí)行重新配置操作,或者執(zhí)行進一步的測試和診斷,以便確定是否要執(zhí)行重新配置操作。
圖3-5所示的邏輯示出了以特定次序發(fā)生的特定事件。在可選實現(xiàn)中,可以以不同的次序執(zhí)行特定操作、或者可以修改或者刪除特定操作。此外,可以將步驟添加到上述邏輯中,并且仍然符合所述實現(xiàn)。此外,在此描述的操作可以順序進行,或者可以并行處理特定操作。此外,可以由單個處理單元或者由分布式處理單元執(zhí)行操作。
圖11示出了諸如圖1所示的監(jiān)控系統(tǒng)和存儲控制器的網(wǎng)絡(luò)組件的計算機架構(gòu)500的一種實現(xiàn)。架構(gòu)500可以包括處理器502(例如,微處理器)、存儲器504(例如,易失性存儲器裝置)、以及存儲裝置506(例如,非易失性存儲裝置如磁盤驅(qū)動器、光盤驅(qū)動器、磁帶驅(qū)動器等)。存儲裝置506可以包括內(nèi)部存儲裝置、或者附連或網(wǎng)絡(luò)可存取的存儲裝置。以在本技術(shù)領(lǐng)域內(nèi)公知的方式,將存儲裝置506中的程序裝載到存儲器504中并且由處理器502執(zhí)行。該架構(gòu)還包括網(wǎng)卡508,以便使得能夠與網(wǎng)絡(luò)通信。輸入設(shè)備510用來將用戶輸入提供給處理器502,并且可以包括鍵盤、鼠標(biāo)、輸入筆、麥克風(fēng)、觸摸感應(yīng)顯示屏、或者在本技術(shù)領(lǐng)域內(nèi)公知的任何其它激活或輸入機構(gòu)。輸出設(shè)備512能夠呈現(xiàn)從處理器502或其它組件傳送的信息,例如顯示監(jiān)視器、打印機、存儲裝置等。
權(quán)利要求
1.一種用于管理數(shù)據(jù)的方法,包括處理鏡像策略,其表示將第一存儲系統(tǒng)中的卷鏡像到第二存儲系統(tǒng)中的卷,并且將第二存儲系統(tǒng)中的卷鏡像到第三存儲系統(tǒng)中的卷,其中第三存儲系統(tǒng)處于第一地理位置,其相對于包括第一和第二存儲系統(tǒng)的第二地理位置是遙遠的;在第一地理位置處檢測第一和第二存儲系統(tǒng)的故障;對將I/O請求定向到第一存儲系統(tǒng)中的卷的網(wǎng)絡(luò)資源進行自動重新配置,以便將I/O請求定向到第三存儲系統(tǒng)中的卷;檢測第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用;響應(yīng)于檢測到第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用,重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷;以及重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷之后,將對第二存儲系統(tǒng)的更新拷貝到第三存儲系統(tǒng)。
2.如權(quán)利要求1所述的方法,其中自動重新配置包括更新將I/O請求定向到第一存儲系統(tǒng)中的卷的、與主機系統(tǒng)中的應(yīng)用程序相關(guān)聯(lián)的文件,以便將I/O請求定向到第二存儲系統(tǒng)中的卷。
3.如權(quán)利要求1所述的方法,其中監(jiān)控程序執(zhí)行以下步驟檢測第一和第二存儲系統(tǒng)的故障并且自動重新配置網(wǎng)絡(luò)資源,以便定向?qū)Φ谝淮鎯ο到y(tǒng)中的卷的I/O請求,并且其中監(jiān)控程序位于遙遠的地理位置。
4.如權(quán)利要求1所述的方法,還包括在第一和第二存儲系統(tǒng)處檢測到故障之后,將表示遠程故障恢復(fù)操作的消息傳送到網(wǎng)絡(luò)管理員;以及從網(wǎng)絡(luò)管理員接收表示是執(zhí)行還是不執(zhí)行遠程故障恢復(fù)的響應(yīng),其中如果響應(yīng)表示執(zhí)行遠程故障恢復(fù),則執(zhí)行自動重新配置操作。
5.如權(quán)利要求1所述的方法,其中自動重新配置網(wǎng)絡(luò)資源包括提供配置數(shù)據(jù)庫,其表示要重新配置的網(wǎng)絡(luò)設(shè)備處的網(wǎng)絡(luò)資源;以及處理配置數(shù)據(jù)庫,以確定由網(wǎng)絡(luò)資源使用的配置設(shè)置,以便使網(wǎng)絡(luò)資源將對第一存儲系統(tǒng)中的卷的I/O請求定向到第三存儲系統(tǒng),其中通過用第三存儲系統(tǒng)的地址信息更新所確定的配置設(shè)置而執(zhí)行重新配置。
6.如權(quán)利要求1所述的方法,還包括從第一存儲系統(tǒng)到第二存儲系統(tǒng)同步地拷貝更新;以及從第二存儲系統(tǒng)到第三存儲系統(tǒng)異步地拷貝更新。
7.如權(quán)利要求1所述的方法,其中以最小限度的對被定向到卷的I/O請求的中斷,執(zhí)行將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷的網(wǎng)絡(luò)資源重新配置,以便提供對卷的連續(xù)可用性。
8.一種用于管理數(shù)據(jù)的系統(tǒng),包括具有卷的第一存儲系統(tǒng);具有卷的第二存儲系統(tǒng);具有卷的第三存儲系統(tǒng);用于處理鏡像策略的裝置,該鏡像策略表示將第一存儲系統(tǒng)中的卷鏡像到第二存儲系統(tǒng)中的卷,并且將第二存儲系統(tǒng)中的卷鏡像到第三存儲系統(tǒng)中的卷,其中第三存儲系統(tǒng)處于第一地理位置,其相對于包括第一和第二存儲系統(tǒng)的第二地理位置是遙遠的;用于在第一地理位置處檢測第一和第二存儲系統(tǒng)的故障的裝置;用于自動重新配置將I/O請求定向到第一存儲系統(tǒng)中的卷的網(wǎng)絡(luò)資源,以便將I/O請求定向到第三存儲系統(tǒng)中的卷的裝置;用于檢測第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用的裝置;用于響應(yīng)于檢測到第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用,重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷的裝置;以及用于在重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷之后,將對第二存儲系統(tǒng)的更新拷貝到第三存儲系統(tǒng)的裝置。
9.如權(quán)利要求8所述的系統(tǒng),其中用于自動重新配置的裝置執(zhí)行更新將I/O請求定向到第一存儲系統(tǒng)中的卷的、與主機系統(tǒng)中的應(yīng)用程序相關(guān)聯(lián)的文件,以便將I/O請求定向到第二存儲系統(tǒng)中的卷。
10.如權(quán)利要求8所述的系統(tǒng),其中用于檢測第一和第二存儲系統(tǒng)的故障并且自動重新配置網(wǎng)絡(luò)資源的裝置位于遙遠的地理位置。
11.如權(quán)利要求8所述的系統(tǒng),還包括用于在第一和第二存儲系統(tǒng)處檢測到故障之后,將表示遠程故障恢復(fù)操作的消息傳送到網(wǎng)絡(luò)管理員的裝置;以及用于從網(wǎng)絡(luò)管理員接收表示是執(zhí)行還是不執(zhí)行遠程故障恢復(fù)的響應(yīng)的裝置,其中如果響應(yīng)表示執(zhí)行遠程故障恢復(fù),則執(zhí)行自動重新配置操作。
12.如權(quán)利要求8所述的系統(tǒng),其中用于自動重新配置網(wǎng)絡(luò)資源的裝置還執(zhí)行提供配置數(shù)據(jù)庫,其表示要重新配置的網(wǎng)絡(luò)設(shè)備處的網(wǎng)絡(luò)資源;以及處理配置數(shù)據(jù)庫,以確定由網(wǎng)絡(luò)資源使用的配置設(shè)置,以便使網(wǎng)絡(luò)資源將對第一存儲系統(tǒng)中的卷的I/O請求定向到第三存儲系統(tǒng),其中通過用第三存儲系統(tǒng)的地址信息更新所確定的配置設(shè)置而執(zhí)行重新配置。
13.如權(quán)利要求8所述的系統(tǒng),還包括用于從第一存儲系統(tǒng)到第二存儲系統(tǒng)同步地拷貝更新的裝置;以及用于從第二存儲系統(tǒng)到第三存儲系統(tǒng)異步地拷貝更新的裝置。
14.如權(quán)利要求8所述的系統(tǒng),其中用于重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷的裝置以最小限度的對被定向到卷的I/O請求的中斷,執(zhí)行重新配置,以便提供對卷的連續(xù)可用性。
15.一種用于管理數(shù)據(jù)的產(chǎn)品,其中該產(chǎn)品包括至少一個使得對具有卷的第一、第二、第三存儲系統(tǒng)執(zhí)行操作的程序,其中該操作執(zhí)行根據(jù)權(quán)利要求1到7中的任一項所述的方法。
全文摘要
本發(fā)明提供一種用于管理數(shù)據(jù)的方法、程序和系統(tǒng)。處理鏡像策略,其表示將第一存儲系統(tǒng)中的卷鏡像到第二存儲系統(tǒng)中的卷,并且將第二存儲系統(tǒng)中的卷鏡像到第三存儲系統(tǒng)中的卷,其中第三存儲系統(tǒng)處于第一地理位置,其相對于包括第一和第二存儲系統(tǒng)的第二地理位置是遙遠的。在第一地理位置處檢測第一和第二存儲系統(tǒng)的故障。對將I/O請求定向到第一存儲系統(tǒng)中的卷的網(wǎng)絡(luò)資源進行自動重新配置,以便將I/O請求定向到第三存儲系統(tǒng)中的卷。檢測第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用,并且作為響應(yīng),響應(yīng)于檢測到第一存儲系統(tǒng)的故障和第二存儲系統(tǒng)的可用,重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷。在重新配置網(wǎng)絡(luò)資源以便將對第一存儲系統(tǒng)中的卷的I/O請求定向到第二存儲系統(tǒng)中的卷之后,將對第二存儲系統(tǒng)的更新拷貝到第三存儲系統(tǒng)。
文檔編號G06F11/20GK1836217SQ200480023572
公開日2006年9月20日 申請日期2004年6月15日 優(yōu)先權(quán)日2003年6月18日
發(fā)明者羅伯特·弗雷德里克·科恩, 戴維·皮特森, 魯尼·威利·路德維格 申請人:國際商業(yè)機器公司