欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于無共享集群的集群管理方法和設(shè)備的制作方法

文檔序號:7996130閱讀:130來源:國知局
用于無共享集群的集群管理方法和設(shè)備的制作方法
【專利摘要】本發(fā)明提供了一種用于無共享集群的集群管理方法和設(shè)備。無共享集群包括一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點。所述集群管理方法包括:收集與所述數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息;基于所收集的集群配置信息,獲得制表圖像;以及響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng)。利用本發(fā)明的方法和設(shè)備,能夠快速、有效地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點,而無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)。
【專利說明】用于無共享集群的集群管理方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明總體上涉及無共享集群領(lǐng)域,特別地,涉及恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點的集群管理方法和設(shè)備。
【背景技術(shù)】
[0002]近年來,諸如Hadoop的無共享集群因其能夠可靠、高效地對大量數(shù)據(jù)進行分布式處理而受到廣泛關(guān)注并實現(xiàn)了飛速發(fā)展。無共享集群通常包含相當(dāng)大量的機器和盤來存儲大量數(shù)據(jù)。為了實現(xiàn)最大的商業(yè)價值,大數(shù)據(jù)管理需要優(yōu)先確保集群數(shù)據(jù)可靠性、集群可伸縮性以及集群管理效率。
[0003]圖7A中示出了一種典型的現(xiàn)有無共享集群的架構(gòu)。通常,無共享集群中的一臺或多臺機器被指定為主節(jié)點,例如圖7A中的主節(jié)點710 ;集群中的其余機器可以被指定為從節(jié)點或稱數(shù)據(jù)節(jié)點,例如圖7A中的數(shù)據(jù)節(jié)點720。通常,每個主節(jié)點用于監(jiān)管一個或多個數(shù)據(jù)節(jié)點;至少部分數(shù)據(jù)節(jié)點上運行有操作系統(tǒng)(OS)和應(yīng)用,其中應(yīng)用一般包括集群應(yīng)用和/或本地應(yīng)用。如圖7B所示,數(shù)據(jù)節(jié)點上通常還包括本地數(shù)據(jù)文件、集群數(shù)據(jù)副本以及應(yīng)用文件。
[0004]然而,現(xiàn)有的無共享集群架構(gòu)存在危害集群可靠性的隱患。例如,當(dāng)集群中的某數(shù)據(jù)節(jié)點上的操作系統(tǒng)故障時,該數(shù)據(jù)節(jié)點上的應(yīng)用以及本地和集群數(shù)據(jù)都不能再直接使用。
[0005]盡管某些無共享文件系統(tǒng)(例如,Hadoop分布式文件系統(tǒng)(HDFS))能夠通過使用存儲在其他數(shù)據(jù)節(jié)點上的集群數(shù)據(jù)副本來保證集群數(shù)據(jù)的可靠性,但是恢復(fù)故障數(shù)據(jù)節(jié)點上的操作系統(tǒng)和應(yīng)用是無法通過集群性能來實現(xiàn)的。即,目前還不支持對集群中某一數(shù)據(jù)節(jié)點上的操作系統(tǒng)、本地數(shù)據(jù)文件和本地及集群應(yīng)用的自動重啟和失效備援(failover)。
[0006]更嚴重的,若存儲某一集群數(shù)據(jù)的所有數(shù)據(jù)節(jié)點碰巧都出現(xiàn)故障,那么不僅這些數(shù)據(jù)節(jié)點上的操作系統(tǒng)、本地數(shù)據(jù)文件和本地及集群應(yīng)用不能再直接使用,而且其共同存儲的集群數(shù)據(jù)也不能立即被集群的用戶直接使用。
[0007]為了恢復(fù)操作系統(tǒng)出現(xiàn)故障的數(shù)據(jù)節(jié)點,現(xiàn)在用戶不得不:
[0008](i)在集群中的其他數(shù)據(jù)節(jié)點上備份故障數(shù)據(jù)節(jié)點上存儲的集群數(shù)據(jù);
[0009](ii)逐一(若有多個數(shù)據(jù)節(jié)點故障的話)從集群中手動移除故障的數(shù)據(jù)節(jié)點;
[0010](iii)在故障的數(shù)據(jù)節(jié)點上格式化先前的部分數(shù)據(jù)并重新安裝操作系統(tǒng);
[0011](iv)在故障的數(shù)據(jù)節(jié)點上重新配置多種應(yīng)用;
[0012](V)使得故障的數(shù)據(jù)節(jié)點成為一個新數(shù)據(jù)節(jié)點,并手動將該新節(jié)點添加到當(dāng)前運行的無共享集群中;并且
[0013](Vi)根據(jù)需要,在添加了新數(shù)據(jù)節(jié)點的集群中出現(xiàn)不平衡時進行數(shù)據(jù)再平衡。
[0014]在上述(i )至(Vi )操作中,數(shù)據(jù)節(jié)點中的數(shù)據(jù)都不能再被直接利用,并且運行中的應(yīng)用會丟失。操作(i)中備份先前的大量數(shù)據(jù)以及操作(iii)中數(shù)據(jù)格式化和安裝操作系統(tǒng)將花費相當(dāng)長的時間。對集群移除/添加節(jié)點需要停止運行的集群應(yīng)用。[0015]而且,將新數(shù)據(jù)節(jié)點添加到集群中通常會使得集群不平衡,還需要在新集群中進行數(shù)據(jù)再平衡,這會影響集群性能。如果集群中數(shù)據(jù)節(jié)點數(shù)量較大,例如有100個節(jié)點,那么即使僅一個節(jié)點的操作系統(tǒng)故障,也將需要花費大約10天時間來使得整個集群再平衡并恢復(fù)原集群中的所有節(jié)點。隨著集群規(guī)模越來越大,上述故障恢復(fù)處理將花費越來越長的時間,成本極為昂貴。
[0016]因此,需要一種能夠快速、便捷地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點的集群管理方法和設(shè)備。
[0017]進一步,需要一種能夠有效地同時恢復(fù)無共享集群中的多個故障數(shù)據(jù)節(jié)點的集群管理方法和設(shè)備。

【發(fā)明內(nèi)容】

[0018]本發(fā)明的一個目的在于,快速、有效地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點,而無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)。
[0019]為此,本發(fā)明的集群管理方法和設(shè)備動態(tài)地收集集群配置信息,并根據(jù)收集的集群配置信息獲得包括最小運行操作系統(tǒng)和最小運行應(yīng)用的制表圖像(tabulation image),然后響應(yīng)于確定集群中的一個或多個數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到故障數(shù)據(jù)節(jié)點,從而快速地恢復(fù)其操作系統(tǒng)和應(yīng)用。
[0020]根據(jù)本發(fā)明的第一方面,提供了一種用于無共享集群的集群管理方法,其中,所述無共享集群包括一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點,所述集群管理方法包括:收集與所述數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息;基于所收集的集群配置信息,獲得制表圖像;以及響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng)。
[0021]在一個實施例中,獲得制表圖像包括:獲取無共享集群的集群運行狀態(tài)信息;利用所獲取的集群運行狀態(tài)信息和所收集的集群配置信息,生成包括最小運行操作系統(tǒng)的制表圖像;以及存儲所生成的制表圖像。在一個實施例中,所生成的制表圖像還可以包括最小運行應(yīng)用。
[0022]在一個實施例中,響應(yīng)于確定多個數(shù)據(jù)節(jié)點的操作系統(tǒng)發(fā)生故障,在這多個數(shù)據(jù)節(jié)點上并行安裝所述最小運行操作系統(tǒng)。在一個實施例中,響應(yīng)于在所述多個數(shù)據(jù)節(jié)點上安裝了最小運行操作系統(tǒng),在所述多個數(shù)據(jù)節(jié)點上并行安裝最小運行應(yīng)用。在一個實施例中,對所述最小運行操作系統(tǒng)和最小運行應(yīng)用中至少一個的安裝是在所述多個數(shù)據(jù)節(jié)點的內(nèi)存中進行的。
[0023]根據(jù)本發(fā)明的第二方面,提供了一種用于無共享集群的集群管理器,其中所述無共享集群包括一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點,所述集群管理器包括:集群配置信息收集裝置,配置為收集與所述數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息;制表圖像獲得裝置,配置為基于由所述集群配置信息收集裝置收集的集群配置信息,獲得制表圖像;和故障恢復(fù)裝置,配置為響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將由所述制表圖像獲得裝置獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng)。
[0024]根據(jù)本發(fā)明的第三方面,提供了一種無共享集群,包括:一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點;一個或多個主節(jié)點,每個主節(jié)點用于監(jiān)管一個或多個所述數(shù)據(jù)節(jié)點;以及如本發(fā)明第二方面所述的集群管理器,配置為處理所述數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)或應(yīng)用的故障。
[0025]利用本發(fā)明的方法和設(shè)備,提供了透明的操作系統(tǒng)/應(yīng)用的失效備援,能夠無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點,從而提高了集群性倉泛。
[0026]利用本發(fā)明的方法和設(shè)備,節(jié)省了安裝操作系統(tǒng)/應(yīng)用的時間、人力和成本,從而在數(shù)據(jù)節(jié)點發(fā)生故障時能夠快速恢復(fù),例如幾秒內(nèi)。進一步,利用包括最小運行操作系統(tǒng)的制表圖像來實現(xiàn)恢復(fù),從而降低操作系統(tǒng)部件復(fù)雜性,加速恢復(fù)處理。更進一步,對操作系統(tǒng)的安裝可以在數(shù)據(jù)節(jié)點機器的內(nèi)存中而非在直接連接盤中進行,使得恢復(fù)處理更加快捷。
[0027]利用本發(fā)明的方法和設(shè)備,消除了在多個故障數(shù)據(jù)節(jié)點上的重復(fù)安裝操作,從而節(jié)省了時間和成本。
[0028]利用本發(fā)明的方法和設(shè)備,在數(shù)據(jù)節(jié)點上的操作系統(tǒng)崩潰時能夠幾乎直接再利用節(jié)點上存儲的數(shù)據(jù),不會丟失應(yīng)用,從而提高了數(shù)據(jù)節(jié)點的安全性。
【專利附圖】

【附圖說明】
[0029]通過結(jié)合附圖對本公開示例性實施方式進行更詳細的描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯,其中,在本公開示例性實施方式中,相同的參考標(biāo)號通常代表相同部件。
[0030]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務(wù)器的框圖。
[0031]圖2例示了根據(jù)本發(fā)明實施例的無共享集群的架構(gòu),包括集群管理器。
[0032]圖3是例示了根據(jù)本發(fā)明實施例的由圖2中的集群管理器執(zhí)行的集群管理方法的總流程圖。
[0033]圖4例示了獲得制表圖像的一種具體實現(xiàn)處理。
[0034]圖5示意性地示出了根據(jù)本發(fā)明實施例的集群管理器的一個運行實例。
[0035]圖6示意性地示出了根據(jù)本發(fā)明實施例的集群管理器的功能框圖。
[0036]圖7A和7B示出了一種典型的現(xiàn)有無共享集群的架構(gòu)。
【具體實施方式】
[0037]下面將參照附圖更詳細地描述本公開的優(yōu)選實施方式。雖然附圖中顯示了本公開的優(yōu)選實施方式,然而應(yīng)該理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施方式所限制。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能夠?qū)⒈竟_的范圍完整地傳達給本領(lǐng)域的技術(shù)人員。
[0038]所屬【技術(shù)領(lǐng)域】的技術(shù)人員知道,本發(fā)明可以實現(xiàn)為系統(tǒng)、方法或計算機程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實施例中,本發(fā)明還可以實現(xiàn)為在一個或多個計算機可讀介質(zhì)中的計算機程序產(chǎn)品的形式,該計算機可讀介質(zhì)中包含計算機可讀的程序代碼。
[0039]可以采用一個或多個計算機可讀的介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0040]計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0041]計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一但不限于一無線、電線、光纜、RF等等,或者上述的任意合適的組合。
[0042]可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言一諸如Java、Smalltalk、C++,還包括常規(guī)的過程式程序設(shè)計語言一諸如”C”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
[0043]下面將參照本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個方框以及流程圖和/或框圖中各方框的組合,都可以由計算機程序指令實現(xiàn)。這些計算機程序指令可以提供給通用計算機、專用計算機或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機器,這些計算機程序指令通過計算機或其它可編程數(shù)據(jù)處理裝置執(zhí)行,產(chǎn)生了實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。
[0044]也可以把這些計算機程序指令存儲在能使得計算機或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計算機可讀介質(zhì)中,這樣,存儲在計算機可讀介質(zhì)中的指令就產(chǎn)生出一個包括實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instructionmeans)的制造品(manufacture)。
[0045]也可以把計算機程序指令加載到計算機、其它可編程數(shù)據(jù)處理裝置、或其它設(shè)備上,使得在計算機、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計算機實現(xiàn)的過程,從而使得在計算機或其它可編程裝置上執(zhí)行的指令能夠提供實現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過程。
[0046]圖1示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務(wù)器12的框圖。圖1顯示的計算機系統(tǒng)/服務(wù)器12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。[0047]如圖1所示,計算機系統(tǒng)/服務(wù)器12以通用計算設(shè)備的形式表現(xiàn)。計算機系統(tǒng)/服務(wù)器12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
[0048]總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ISA)總線,微通道體系結(jié)構(gòu)(MAC)總線,增強型ISA總線、視頻電子標(biāo)準(zhǔn)協(xié)會(VESA)局域總線以及外圍組件互連(PCI)總線。
[0049]計算機系統(tǒng)/服務(wù)器12典型地包括多種計算機系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機系統(tǒng)/服務(wù)器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
[0050]系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質(zhì),例如隨機存取存儲器(RAM)30和/或高速緩存存儲器32。計算機系統(tǒng)/服務(wù)器12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖1未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖1中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如⑶-ROM,DVD-ROM或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
[0051]具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
[0052]計算機系統(tǒng)/服務(wù)器12也可以與一個或多個外部設(shè)備14 (例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機系統(tǒng)/服務(wù)器12交互的設(shè)備通信,和/或與使得該計算機系統(tǒng)/服務(wù)器12能與一個或多個其它計算設(shè)備進行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(I/O)接口 22進行。并且,計算機系統(tǒng)/服務(wù)器12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(LAN),廣域網(wǎng)(WAN)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機系統(tǒng)/服務(wù)器12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計算機系統(tǒng)/服務(wù)器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、RAID系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
[0053]如前所述,本發(fā)明的集群管理方法和設(shè)備動態(tài)地收集集群配置信息,并根據(jù)收集的集群配置信息獲得包括最小運行操作系統(tǒng)和最小運行應(yīng)用的制表圖像,然后響應(yīng)于確定集群中的一個或多個數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到故障數(shù)據(jù)節(jié)點,從而快速地恢復(fù)其操作系統(tǒng)和應(yīng)用。
[0054]下面將參照圖2至圖6來具體地描述本發(fā)明的實施例。圖2例示了根據(jù)本發(fā)明實施例的無共享集群的架構(gòu)。與圖7A中示出的現(xiàn)有技術(shù)的無共享集群的架構(gòu)相比,本發(fā)明實施例的集群架構(gòu)除了主節(jié)點210和數(shù)據(jù)節(jié)點220之外,還包括集群管理器230。主節(jié)點210可以監(jiān)管一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點220。集群管理器230配置為根據(jù)從集群中的主節(jié)點210收集關(guān)于數(shù)據(jù)節(jié)點220的配置信息,處理數(shù)據(jù)節(jié)點220上操作系統(tǒng)或應(yīng)用的故障。
[0055]圖3是例示了根據(jù)本發(fā)明實施例的由圖2中的集群管理器230執(zhí)行的集群管理方法300的總流程圖。首先,在步驟302中,收集與數(shù)據(jù)節(jié)點220相關(guān)聯(lián)的集群配置信息。
[0056]在一個實施例中,集群配置信息可以包括與在數(shù)據(jù)節(jié)點220上運行的操作系統(tǒng)相關(guān)的信息。在另一實施例中,集群配置信息還可以包括與在數(shù)據(jù)節(jié)點220上運行的應(yīng)用相關(guān)的信息,包括集群應(yīng)用和/或本地應(yīng)用。
[0057]在一個實施例中,集群管理器230可以從主節(jié)點210獲取該主節(jié)點210所監(jiān)管的數(shù)據(jù)節(jié)點220的集群配置信息,例如交互變化的集群矩陣配置和動作。
[0058]接著,在步驟304中,基于所收集的數(shù)據(jù)節(jié)點的集群配置信息,獲得制表圖像。在一個實施例中,制表圖像可以包括數(shù)據(jù)節(jié)點上的最小運行操作系統(tǒng),例如操作系統(tǒng)內(nèi)核。在另一實施例中,制表圖像還可以包括數(shù)據(jù)節(jié)點上的最小運行應(yīng)用,包括最小運行集群和/或本地應(yīng)用。
[0059]在一個實例中,集群管理器230可以動態(tài)地收集數(shù)據(jù)節(jié)點的集群矩陣配置信息,優(yōu)化并精煉出最小運行操作系統(tǒng)和應(yīng)用,由此生成用于數(shù)據(jù)節(jié)點的制表圖像。利用包括最小運行操作系統(tǒng)的制表圖像來實現(xiàn)恢復(fù),從而降低操作系統(tǒng)部件復(fù)雜性,加速恢復(fù)處理。
[0060]需要說明的是,集群管理器230對集群配置信息的收集可以定時或?qū)崟r進行。由此,集群管理器始終保持最新的制表圖像。例如,當(dāng)有集群矩陣配置更新時,生成最新制表圖像。
[0061]圖4詳細地例示了步驟304的一種具體實現(xiàn)處理400。處理400可以在步驟402開始。在步驟402中,獲取無共享集群的集群運行狀態(tài)信息。集群運行狀態(tài)信息例如可以包括集群文件系統(tǒng)配置屬性和數(shù)據(jù)存儲狀態(tài)信息、集群分布式計算作業(yè)進度配置屬性和運行作業(yè)應(yīng)用狀態(tài)信息,等等。在一個實施例中,集群運行狀態(tài)信息還可以包括集群節(jié)點信息,例如指示主節(jié)點和數(shù)據(jù)節(jié)點的信息。在這種情況下,獲取集群運行狀態(tài)信息的步驟可以在方法300中的收集與數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息的步驟302之前執(zhí)行。
[0062]接下來,利用所獲取的集群運行狀態(tài)信息和在步驟302中所收集的集群配置信息,進行制表圖像的生成。在步驟404中,可以獲取先前存儲的制表圖像。然后,將所獲取的集群運行狀態(tài)信息和所收集的集群配置信息與先前存儲的制表圖像進行比較(步驟406),例如比較兩者的外觀和行為以找到不一致之處。若發(fā)現(xiàn)兩者不一致,接著,基于不一致之處的比較結(jié)果,生成最新的包括最小運行操作系統(tǒng)和/或最小運行應(yīng)用的制表圖像(步驟408)。例如,通過整合集群運行狀態(tài)信息和集群配置信息來生成最新的制表圖像。最后,在步驟410中,存儲所生成的制表圖像。
[0063]下面返回到圖3的集群管理方法300。在獲得了制表圖像之后,接下來,在步驟306中,先確定是否有數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障。若有,將在步驟304中獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng),并可選地恢復(fù)其上運行的應(yīng)用。
[0064]在一個實施例中,響應(yīng)于在步驟306中確定多個數(shù)據(jù)節(jié)點的操作系統(tǒng)發(fā)生故障,可以在這多個數(shù)據(jù)節(jié)點上并行安裝制表圖像中的最小運行操作系統(tǒng),進而可選地并行安裝制表圖像中的最小運行應(yīng)用。在一個實施例中,對操作系統(tǒng)和/或應(yīng)用的安裝可以在數(shù)據(jù)節(jié)點機器的內(nèi)存中而非在直接連接盤中進行,這可以使得恢復(fù)處理更加快捷。
[0065]需要說明的是,集群管理器230中保存的制表圖像可以不止一個。例如,無共享集群中包含的數(shù)據(jù)節(jié)點可以根據(jù)功能分為一個或多個數(shù)據(jù)節(jié)點組,假設(shè)每個數(shù)據(jù)節(jié)點組中的所有數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)和應(yīng)用相同,而不同數(shù)據(jù)節(jié)點組中的數(shù)據(jù)節(jié)點上的操作系統(tǒng)或應(yīng)用不同。可以針對每個數(shù)據(jù)節(jié)點組來分別執(zhí)行圖3中的步驟302和304。即,針對每個數(shù)據(jù)節(jié)點組,基于從該組所包括的數(shù)據(jù)節(jié)點收集的集群配置信息,獲得該組的制表圖像。在執(zhí)行步驟306之前,先確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點所屬的數(shù)據(jù)節(jié)點組,然后將集群管理器230中保存的與該數(shù)據(jù)節(jié)點組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點。
[0066]圖5示意性地示出了圖2中的集群管理器的一個運行實例。首先,將無共享集群的固件/網(wǎng)絡(luò)配置信息輸入到集群管理器中,因而集群管理器具有所有集群節(jié)點的信息。接著,在集群管理器上從當(dāng)前制表圖像獲得集群數(shù)據(jù)節(jié)點列表。集群管理器定期向數(shù)據(jù)節(jié)點列表中的數(shù)據(jù)節(jié)點發(fā)送并行網(wǎng)絡(luò)訪問命令,以查看數(shù)據(jù)節(jié)點的運行是否正常,以及其上的操作系統(tǒng)是否故障。響應(yīng) 于訪問命令,數(shù)據(jù)節(jié)點將檢查結(jié)果返回到集群管理器,集群管理器由此確定并記錄故障數(shù)據(jù)節(jié)點列表。
[0067]然后,集群管理器觸發(fā)集群制表圖像更新請求,以捕捉最新運行的集群制表圖像。集群管理器向數(shù)據(jù)節(jié)點和集群作業(yè)運行實例請求OS及作業(yè)應(yīng)用信息和狀態(tài),數(shù)據(jù)節(jié)點和集群作業(yè)運行實例響應(yīng)于集群管理器的請求而將OS及作業(yè)應(yīng)用變換制表返回到集群管理器。接著,集群管理器向無共享文件系統(tǒng)(FS)實例收集文件系統(tǒng)制表,文件系統(tǒng)實例響應(yīng)于集群管理器的請求而將文件系統(tǒng)變換制表返回到集群管理器。
[0068]集群管理器整合所收集到的變換制表,由此生成最新的集群制表圖像,該制表圖像包括數(shù)據(jù)節(jié)點的最小運行操作系統(tǒng)和最小運行應(yīng)用。通過將最新的集群制表圖像與集群管理器中存儲的當(dāng)前集群制表圖像在外觀和行為方面進行比較,以查找兩者的不一致處。若兩者相同,則保持集群管理器中當(dāng)前存儲的集群制表圖像不變;若兩者不同,則更新當(dāng)前存儲的制表圖像使其與最新的制表圖像一致,此外可以將更新事件記錄到集群管理器的日
士由;ι?> I ο
[0069]然后,集群管理器將最新的集群制表圖像分發(fā)到先前獲得的故障數(shù)據(jù)節(jié)點列表中的數(shù)據(jù)節(jié)點,使得在數(shù)據(jù)節(jié)點的內(nèi)存中并行安裝最小運行操作系統(tǒng),并在安裝完成之后將操作系統(tǒng)安裝狀態(tài)返回到集群管理器。集群管理器在接收到表示操作系統(tǒng)安裝完成的信息之后,指示數(shù)據(jù)節(jié)點在其內(nèi)存中并行啟動集群應(yīng)用和/或本地應(yīng)用,之后數(shù)據(jù)節(jié)點將節(jié)點應(yīng)用啟動狀態(tài)返回到集群管理器。
[0070]至此,集群管理器完成了對集群中故障數(shù)據(jù)節(jié)點的恢復(fù)處理。如前所述,圖5中例示的上述全部操作可以在秒級時間內(nèi)完成。數(shù)據(jù)節(jié)點上存儲的各種數(shù)據(jù)可以直接再被使用,而且所恢復(fù)的數(shù)據(jù)節(jié)點仍可被運行的集群識別。
[0071 ] 圖6示出了根據(jù)本發(fā)明實施例的用于無共享集群的集群管理器600的功能框圖。集群管理器600的功能模塊可以由實現(xiàn)本發(fā)明原理的硬件、軟件或硬件和軟件的結(jié)合來實現(xiàn)。本領(lǐng)域技術(shù)人員可以理解的是圖6中所描述的功能模塊可以組合起來或者劃分成子模塊,從而實現(xiàn)上述發(fā)明的原理。因此,本文的描述可以支持對本文描述的功能模塊的任何可能的組合、或者劃分、或者更進一步的限定。
[0072]集群管理器600能夠快速、有效地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點,而無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)。無共享集群可以包括一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點。無共享集群還可以包括一個或多個主節(jié)點,每個主節(jié)點用于監(jiān)管一個或多個數(shù)據(jù)節(jié)點。集群管理器600可以包括集群配置信息收集裝置620、制表圖像獲得裝置640和故障恢復(fù)裝置660。
[0073]集群配置信息收集裝置620可以配置為收集與數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息。在一個示例中,集群配置信息可以包括與在數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)相關(guān)的信息。在另一示例中,集群配置信息還可以包括與在數(shù)據(jù)節(jié)點上運行的應(yīng)用相關(guān)的信息。進一步,在數(shù)據(jù)節(jié)點上運行的應(yīng)用可以包括集群應(yīng)用和/或本地應(yīng)用。在一個實施例中,集群配置信息收集裝置620可以包括配置為從主節(jié)點收集該主節(jié)點監(jiān)管的數(shù)據(jù)節(jié)點的集群配置信息的
裝直。
[0074]制表圖像獲得裝置640可以配置為基于由集群配置信息收集裝置620收集的集群配置信息,獲得制表圖像。在一個實施例中,制表圖像獲得裝置640可以包括運行狀態(tài)獲取裝置642、制表圖像生成裝置644和制表圖像存儲裝置646。
[0075]運行狀態(tài)獲取裝置642可以配置為獲取無共享集群的集群運行狀態(tài)信息。制表圖像生成裝置644可以配置為利用由運行狀態(tài)獲取裝置642獲取的集群運行狀態(tài)信息和由集群配置信息收集裝置620收集的集群配置信息,生成包括最小運行操作系統(tǒng)的制表圖像。在一個實施例中,制表圖像生成裝置644生成的制表圖像還可以包括最小運行應(yīng)用。制表圖像存儲裝置646可以配置為存儲所生成的制表圖像。
[0076]在一個示例中,制表圖像生成裝置644可以包括先前制表圖像獲取裝置652、制表圖像比較裝置654和制表圖像生成執(zhí)行裝置656。先前制表圖像獲取裝置652可以配置為獲取先前存儲的制表圖像。制表圖像比較裝置654可以配置為將由運行狀態(tài)獲取裝置642獲取的集群運行狀態(tài)信息和由集群配置信息收集裝置620收集的集群配置信息與由先前制表圖像獲取裝置652獲取的先前存儲的制表圖像進行比較。制表圖像生成執(zhí)行裝置656可以配置為基于制表圖像比較裝置654的比較結(jié)果,生成最新的包括最小運行操作系統(tǒng)的制表圖像。
[0077]故障恢復(fù)裝置660可以配置為響應(yīng)于確定一個或多個數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將由制表圖像獲得裝置640獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng)。在一個實施例中,故障恢復(fù)裝置660還配置為響應(yīng)于確定多個數(shù)據(jù)節(jié)點的操作系統(tǒng)發(fā)生故障,在這多個數(shù)據(jù)節(jié)點上并行安裝最小運行操作系統(tǒng)。在一個實施例中,故障恢復(fù)裝置660還配置為響應(yīng)于在多個數(shù)據(jù)節(jié)點上安裝了最小運行操作系統(tǒng),在這多個數(shù)據(jù)節(jié)點上并行安裝最小運行應(yīng)用。在一個實施例中,所述對最小運行操作系統(tǒng)和最小運行應(yīng)用中至少一個的安裝是在數(shù)據(jù)節(jié)點的內(nèi)存中進行的。
[0078]在一個實施例中,無共享集群中包含的數(shù)據(jù)節(jié)點可以分為一個或多個數(shù)據(jù)節(jié)點組,假設(shè)每個數(shù)據(jù)節(jié)點組中的所有數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)和應(yīng)用相同。制表圖像獲得裝置640可以包括:配置為針對每個數(shù)據(jù)節(jié)點組,基于從該組所包括的數(shù)據(jù)節(jié)點收集的集群配置信息,獲得該組的制表圖像的裝置。故障恢復(fù)裝置660可以包括:配置為確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點所屬的數(shù)據(jù)節(jié)點組的裝置;和配置為將與該數(shù)據(jù)節(jié)點組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點的裝置。
[0079]本發(fā)明的集群管理方法和設(shè)備可以與多種現(xiàn)有的無共享集群相結(jié)合,例如直接安裝在集群管理層中。作為一個示例,本發(fā)明的集群管理方法和設(shè)備可以結(jié)合到IBM公司的Big Data平臺的集群管理層中。
[0080]利用本發(fā)明的方法和設(shè)備,提供了透明的操作系統(tǒng)/應(yīng)用的失效備援,能夠無需中斷集群應(yīng)用或再平衡集群數(shù)據(jù)地恢復(fù)無共享集群中的故障數(shù)據(jù)節(jié)點,從而提高了集群性倉泛。
[0081]利用本發(fā)明的方法和設(shè)備,節(jié)省了安裝操作系統(tǒng)/應(yīng)用的時間、人力和成本,從而在數(shù)據(jù)節(jié)點發(fā)生故障時能夠快速恢復(fù),例如幾秒內(nèi)。進一步,利用包括最小運行操作系統(tǒng)的制表圖像來實現(xiàn)恢復(fù),從而降低操作系統(tǒng)部件復(fù)雜性,加速恢復(fù)處理。更進一步,對操作系統(tǒng)的安裝可以在數(shù)據(jù)節(jié)點機器的內(nèi)存中而非在直接連接盤中進行,使得恢復(fù)處理更加快捷。
[0082]利用本發(fā)明的方法和設(shè)備,消除了在多個故障數(shù)據(jù)節(jié)點上的重復(fù)安裝操作,從而節(jié)省了時間和成本。
[0083]利用本發(fā)明的方法和設(shè)備,在數(shù)據(jù)節(jié)點上的操作系統(tǒng)崩潰時能夠幾乎直接再利用節(jié)點上存儲的數(shù)據(jù),不會丟失應(yīng)用,從而提高了數(shù)據(jù)節(jié)點的安全性。
[0084]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
[0085]以上已經(jīng)描述了本發(fā)明的各實施例,上述說明是示例性的,并非窮盡性的,并且也不限于所披露的各實施例。在不偏離所說明的各實施例的范圍和精神的情況下,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說許多修改和變更都是顯而易見的。本文中所用術(shù)語的選擇,旨在最好地解釋各實施例的原理、實際應(yīng)用或?qū)κ袌鲋械募夹g(shù)的技術(shù)改進,或者使本【技術(shù)領(lǐng)域】的其它普通技術(shù)人員能理解本文披露的各實施例。
【權(quán)利要求】
1.一種用于無共享集群的集群管理方法,其中所述無共享集群包括一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點,所述集群管理方法包括: 收集與所述數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息; 基于所收集的集群配置信息,獲得制表圖像;以及 響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng)。
2.根據(jù)權(quán)利要求1所述的集群管理方法,其中,所述集群配置信息包括與在數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)相關(guān)的信息。
3.根據(jù)權(quán)利要求2所述的集群管理方法,其中,所述集群配置信息還包括與在數(shù)據(jù)節(jié)點上運行的應(yīng)用相關(guān)的信息,其中應(yīng)用包括集群應(yīng)用和本地應(yīng)用中的至少一個。
4.根據(jù)權(quán)利要求1至3中任一項所述的集群管理方法,其中,獲得制表圖像包括: 獲取無共享集群的集群運行狀態(tài)信息; 利用所獲取的集群運行狀態(tài)信息和所收集的集群配置信息,生成包括最小運行操作系統(tǒng)的制表圖像;以及 存儲所生成的制表圖像。
5.根據(jù)權(quán)利要求4所 述的集群管理方法,其中響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點以恢復(fù)其操作系統(tǒng)包括: 響應(yīng)于確定多個數(shù)據(jù)節(jié)點的操作系統(tǒng)發(fā)生故障,在這多個數(shù)據(jù)節(jié)點上并行安裝所述最小運行操作系統(tǒng)。
6.根據(jù)權(quán)利要求5所述的集群管理方法,其中所述制表圖像還包括最小運行應(yīng)用,并且 其中響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點以恢復(fù)其操作系統(tǒng)還包括: 響應(yīng)于在所述多個數(shù)據(jù)節(jié)點上安裝了最小運行操作系統(tǒng),在所述多個數(shù)據(jù)節(jié)點上并行安裝最小運行應(yīng)用。
7.根據(jù)權(quán)利要求6所述的集群管理方法,其中,對所述最小運行操作系統(tǒng)和最小運行應(yīng)用中至少一個的安裝是在所述多個數(shù)據(jù)節(jié)點的內(nèi)存中進行的。
8.根據(jù)權(quán)利要求4所述的集群管理方法,其中,生成包括最小運行操作系統(tǒng)的制表圖像包括: 獲取先前存儲的制表圖像; 將所獲取的集群運行狀態(tài)信息和所收集的集群配置信息與先前存儲的制表圖像進行比較;以及 基于比較結(jié)果,生成最新的包括最小運行操作系統(tǒng)的制表圖像。
9.根據(jù)權(quán)利要求1至3中任一項所述的集群管理方法,其中,所述無共享集群還包括一個或多個主節(jié)點,每個主節(jié)點用于監(jiān)管一個或多個所述數(shù)據(jù)節(jié)點, 其中收集與所述數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息包括:從所述主節(jié)點收集該主節(jié)點監(jiān)管的數(shù)據(jù)節(jié)點的集群配置信息。
10.根據(jù)權(quán)利要求1至3中任一項所述的集群管理方法,其中,所述無共享集群中包含的數(shù)據(jù)節(jié)點分為一個或多個數(shù)據(jù)節(jié)點組,每個數(shù)據(jù)節(jié)點組中的所有數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)和應(yīng)用相同, 其中獲得制表圖像包括:針對每個數(shù)據(jù)節(jié)點組,基于從該組所包括的數(shù)據(jù)節(jié)點收集的集群配置信息,獲得該組的制表圖像;并且 其中將所獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點包括: 確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點所屬的數(shù)據(jù)節(jié)點組;和 將與該數(shù)據(jù)節(jié)點組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點。
11.一種用于無共享集群的集群管理器,其中所述無共享集群包括一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點,所述集群管理器包括: 集群配置信息收集裝置,配置為收集與所述數(shù)據(jù)節(jié)點相關(guān)聯(lián)的集群配置信息; 制表圖像獲得裝置,配置為基于由所述集群配置信息收集裝置收集的集群配置信息,獲得制表圖像;和 故障恢復(fù)裝置,配置為響應(yīng)于確定一個或多個所述數(shù)據(jù)節(jié)點上的操作系統(tǒng)發(fā)生故障,將由所述制表圖像獲得裝 置獲得的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點,以恢復(fù)其操作系統(tǒng)。
12.根據(jù)權(quán)利要求11所述的集群管理器,其中,所述集群配置信息包括與在數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)相關(guān)的信息。
13.根據(jù)權(quán)利要求12所述的集群管理器,其中,所述集群配置信息還包括與在數(shù)據(jù)節(jié)點上運行的應(yīng)用相關(guān)的信息,其中應(yīng)用包括集群應(yīng)用和本地應(yīng)用中的至少一個。
14.根據(jù)權(quán)利要求11至13中任一項所述的集群管理器,其中,所述制表圖像獲得裝置包括: 運行狀態(tài)獲取裝置,配置為獲取無共享集群的集群運行狀態(tài)信息; 制表圖像生成裝置,配置為利用由所述運行狀態(tài)獲取裝置獲取的集群運行狀態(tài)信息和由所述集群配置信息收集裝置收集的集群配置信息,生成包括最小運行操作系統(tǒng)的制表圖像;以及 制表圖像存儲裝置,配置為存儲所生成的制表圖像。
15.根據(jù)權(quán)利要求14所述的集群管理器,所述故障恢復(fù)裝置還配置為:響應(yīng)于確定多個數(shù)據(jù)節(jié)點的操作系統(tǒng)發(fā)生故障,在這多個數(shù)據(jù)節(jié)點上并行安裝所述最小運行操作系統(tǒng)。
16.根據(jù)權(quán)利要求15所述的集群管理器,其中所述制表圖像還包括最小運行應(yīng)用,并且 其中所述故障恢復(fù)裝置還配置為:響應(yīng)于在所述多個數(shù)據(jù)節(jié)點上安裝了最小運行操作系統(tǒng),在所述多個數(shù)據(jù)節(jié)點上并行安裝最小運行應(yīng)用。
17.根據(jù)權(quán)利要求16所述的集群管理器,其中,對所述最小運行操作系統(tǒng)和最小運行應(yīng)用中至少一個的安裝是在所述多個數(shù)據(jù)節(jié)點的內(nèi)存中進行的。
18.根據(jù)權(quán)利要求14所述的集群管理器,其中,所述制表圖像生成裝置包括: 先前制表圖像獲取裝置,配置為獲取先前存儲的制表圖像; 制表圖像比較裝置,配置為將由所述運行狀態(tài)獲取裝置獲取的集群運行狀態(tài)信息和由所述集群配置信息收集裝置收集的集群配置信息與由所述先前制表圖像獲取裝置獲取的先前存儲的制表圖像進行比較;以及制表圖像生成執(zhí)行裝置,配置為基于所述制表圖像比較裝置的比較結(jié)果,生成最新的包括最小運行操作系統(tǒng)的制表圖像。
19.根據(jù)權(quán)利要求11至13中任一項所述的集群管理器,其中,所述無共享集群還包括一個或多個主節(jié)點,每個主節(jié)點用于監(jiān)管一個或多個所述數(shù)據(jù)節(jié)點, 其中所述集群配置信息收集裝置包括:配置為從所述主節(jié)點收集該主節(jié)點監(jiān)管的數(shù)據(jù)節(jié)點的集群配置信息的裝置。
20.根據(jù)權(quán)利要求11至13中任一項所述的集群管理器,其中,所述無共享集群中包含的數(shù)據(jù)節(jié)點分為一個或多個數(shù)據(jù)節(jié)點組,每個數(shù)據(jù)節(jié)點組中的所有數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)和應(yīng)用相同, 其中所述制表圖像獲得裝置包括:配置為針對每個數(shù)據(jù)節(jié)點組,基于從該組所包括的數(shù)據(jù)節(jié)點收集的集群配置信息,獲得該組的制表圖像的裝置;并且 其中所述故障恢復(fù)裝置包括: 配置為確定操作系統(tǒng)發(fā)生故障的數(shù)據(jù)節(jié)點所屬的數(shù)據(jù)節(jié)點組的裝置;和 配置為將與該數(shù)據(jù)節(jié)點組對應(yīng)的制表圖像發(fā)送到發(fā)生故障的數(shù)據(jù)節(jié)點的裝置。
21.一種無共享集群,包括: 一個或多個運行有操作系統(tǒng)和應(yīng)用的數(shù)據(jù)節(jié)點; 一個或多個主節(jié)點,每個主節(jié)點用于監(jiān)管一個或多個所述數(shù)據(jù)節(jié)點;以及 如權(quán)利要求11至20中任一項所述的集群管理器,配置為處理所述數(shù)據(jù)節(jié)點上運行的操作系統(tǒng)或應(yīng)用的故障。
【文檔編號】H04L12/24GK103973470SQ201310036718
【公開日】2014年8月6日 申請日期:2013年1月31日 優(yōu)先權(quán)日:2013年1月31日
【發(fā)明者】張莉蘋, 陳奇, D·S·梅里克塞蒂安 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
马公市| 武邑县| 纳雍县| 舟山市| 彰化县| 无锡市| 花莲县| 留坝县| 左云县| 桦甸市| 万山特区| 额尔古纳市| 盐边县| 大足县| 高安市| 西乌珠穆沁旗| 永登县| 诏安县| 丹棱县| 中卫市| 娱乐| 出国| 比如县| 德令哈市| 抚州市| 洛南县| 宁陕县| 天长市| 收藏| 林州市| 柳河县| 新晃| 通州区| 社旗县| 庐江县| 宿松县| 绵阳市| 抚松县| 巴南区| 大丰市| 诸暨市|