專利名稱:用于管理可擴(kuò)展計(jì)算機(jī)系統(tǒng)的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于管理可擴(kuò)展(scalable)計(jì)算機(jī)系統(tǒng)的工具。更具體地說,所述工具支持配置并管理可擴(kuò)展系統(tǒng)的每個(gè)組件和資源。
背景技術(shù):
按照定義,多處理器系統(tǒng)包含多個(gè)處理器,在此也稱為CPU,其可以以一種稱為并行計(jì)算的方式同時(shí)執(zhí)行多個(gè)進(jìn)程或者在單個(gè)進(jìn)程內(nèi)同時(shí)執(zhí)行多個(gè)線程。一般說來,多處理器系統(tǒng)執(zhí)行多個(gè)進(jìn)程或者線程比例如個(gè)人計(jì)算機(jī)(PC)的順序執(zhí)行程序的常規(guī)單處理器系統(tǒng)快。實(shí)際的性能優(yōu)勢是多個(gè)因素的作用,這些因素包括可以并行執(zhí)行部分多線程進(jìn)程和/或多個(gè)不同進(jìn)程的程度以及特定的多處理器系統(tǒng)的體系結(jié)構(gòu)。一個(gè)關(guān)鍵因素是存在于現(xiàn)代多處理器中的高速緩存器。因此,可以通過在CPU上運(yùn)行進(jìn)程和線程來優(yōu)化性能,所述CPU的高速緩存器包含那些進(jìn)程和線程將要使用的存儲(chǔ)器。
現(xiàn)代多處理器計(jì)算機(jī)系統(tǒng)是可擴(kuò)展的計(jì)算機(jī)系統(tǒng),其通常由多個(gè)節(jié)點(diǎn)組成,這些節(jié)點(diǎn)經(jīng)由電纜互連。可擴(kuò)展的計(jì)算機(jī)系統(tǒng)支持靜態(tài)或者動(dòng)態(tài)地添加和/或刪除系統(tǒng)資源??蓴U(kuò)展系統(tǒng)的益處在于它適于把改變與系統(tǒng)的容量、配置和速度相關(guān)聯(lián)。在不停止應(yīng)用程序在系統(tǒng)上的執(zhí)行的情況下,可擴(kuò)展系統(tǒng)可以被擴(kuò)大來實(shí)現(xiàn)更好的資源利用。
可擴(kuò)展的多處理器計(jì)算系統(tǒng)可以依照硬件被分區(qū),以便使計(jì)算機(jī)上的資源子集可用于具體應(yīng)用。分區(qū)(partition)是能夠執(zhí)行一個(gè)操作系統(tǒng)映像的高速緩存相干節(jié)點(diǎn)的集合。每個(gè)分區(qū)具有一個(gè)主節(jié)點(diǎn)和可選的次節(jié)點(diǎn)。在動(dòng)態(tài)分區(qū)的系統(tǒng)中,可以在操作期間重新配置資源分配以便更加有效地運(yùn)行應(yīng)用程序。對可動(dòng)態(tài)分區(qū)的可擴(kuò)展計(jì)算機(jī)系統(tǒng)的管理較為復(fù)雜。一些現(xiàn)有的解決方案對系統(tǒng)資源的人工配置提供了支持。然而,這些解決方案不支持系統(tǒng)資源的動(dòng)態(tài)分區(qū)。因此,系統(tǒng)資源的人工配置要求臨時(shí)關(guān)閉受影響的資源,直到完成重新配置。
在Zalewski等人提出的第6,260,068號(hào)美國專利中給出了一種現(xiàn)有的解決方案,其建議在多分區(qū)(multi-partition)的計(jì)算機(jī)系統(tǒng)中在各個(gè)分區(qū)之間動(dòng)態(tài)移動(dòng)硬件資源。每個(gè)分區(qū)具有至少一個(gè)處理器、存儲(chǔ)器和I/O電路。所述分區(qū)中的某些資源可被分配給另一分區(qū)。采用了能夠通過把一個(gè)分區(qū)的資源重新分配給另一分區(qū)來動(dòng)態(tài)重新配置分區(qū)的機(jī)制。所述硬件資源是基于從一個(gè)分區(qū)到第二分區(qū)的請求而被重新分配的。然而,Zalewski等人局限于在多分區(qū)的計(jì)算系統(tǒng)中在各個(gè)分區(qū)之間移動(dòng)硬件資源,而未能解決對分區(qū)內(nèi)的資源的高級管理。
因此,需要一種用于提供可擴(kuò)展的計(jì)算機(jī)系統(tǒng)和系統(tǒng)資源的動(dòng)態(tài)配置和管理的工具。
發(fā)明內(nèi)容
本發(fā)明包括一種用于創(chuàng)建可擴(kuò)展計(jì)算機(jī)系統(tǒng)并且用于管理所創(chuàng)建系統(tǒng)的功能的工具。
依照本發(fā)明的第一方面,提供了一種用于管理計(jì)算機(jī)系統(tǒng)的方法。從一個(gè)未分配的可擴(kuò)展節(jié)點(diǎn)創(chuàng)建可擴(kuò)展的計(jì)算機(jī)系統(tǒng)。另外,遠(yuǎn)程管理所述系統(tǒng)內(nèi)的可擴(kuò)展功能以及所述系統(tǒng)的一個(gè)分區(qū)內(nèi)的可擴(kuò)展分區(qū)功能。
依照本發(fā)明的另一方面,提供了一種在計(jì)算機(jī)可讀信號(hào)承載介質(zhì)中的產(chǎn)品。提供了用于從一個(gè)未分配的節(jié)點(diǎn)創(chuàng)建可擴(kuò)展計(jì)算機(jī)系統(tǒng)的介質(zhì)中的裝置;另外,提供了用于遠(yuǎn)程管理可擴(kuò)展功能,以及用于遠(yuǎn)程管理所述系統(tǒng)的分區(qū)內(nèi)的可擴(kuò)展分區(qū)功能的介質(zhì)中的裝置。
依照本發(fā)明的又一方面,提供了一種計(jì)算機(jī)管理工具。所述工具包括協(xié)調(diào)器,適于從一個(gè)未分配的節(jié)點(diǎn)創(chuàng)建可擴(kuò)展的計(jì)算機(jī)系統(tǒng)。提供遠(yuǎn)程功能管理器以便控制可擴(kuò)展功能,并且提供遠(yuǎn)程分區(qū)管理器以便控制可擴(kuò)展分區(qū)功能。
從下面結(jié)合附圖對本發(fā)明目前的優(yōu)選實(shí)施例的詳細(xì)說明,本發(fā)明的其它特征和優(yōu)點(diǎn)將變得顯而易見。
圖1是依照本發(fā)明優(yōu)選實(shí)施例的計(jì)算機(jī)管理工具的方框圖。
圖2是舉例說明管理工具的元件功能的概況的流程圖。
圖3是舉例說明發(fā)現(xiàn)系統(tǒng)部件的過程的流程圖。
圖4是舉例說明確認(rèn)(validate)系統(tǒng)部件的過程的流程圖。
圖5是舉例說明配置分區(qū)的過程的流程圖。
圖6是舉例說明向系統(tǒng)部件供電的過程的流程圖。
圖7是舉例說明取消對系統(tǒng)部件的供電的過程的流程圖。
圖8是舉例說明配置遠(yuǎn)程I/O附件的過程的流程圖。
具體實(shí)施例方式
概述一種用于提供可擴(kuò)展計(jì)算機(jī)系統(tǒng)的綜合硬件分區(qū)管理的工具。所述工具提供了在所述計(jì)算機(jī)系統(tǒng)中所有節(jié)點(diǎn)的概況,包括關(guān)于可擴(kuò)展節(jié)點(diǎn)和可擴(kuò)展分區(qū)的細(xì)節(jié)。所述工具使操作者能從一個(gè)未分配(unassigned)的可擴(kuò)展節(jié)點(diǎn)來創(chuàng)建可擴(kuò)展計(jì)算機(jī)系統(tǒng),并且管理可擴(kuò)展分區(qū)功能。所述工具平衡服務(wù)處理器以便確定哪些節(jié)點(diǎn)屬于所述可擴(kuò)展系統(tǒng)?;谕ㄐ艆f(xié)議,可以把在所提供的時(shí)間幀內(nèi)響應(yīng)發(fā)現(xiàn)請求的節(jié)點(diǎn)添加到所述系統(tǒng)。發(fā)現(xiàn)請求之后,所述工具可以確認(rèn)在系統(tǒng)中哪些端口起作用。從所述發(fā)現(xiàn)請求接收的結(jié)果和/或端口的確認(rèn)能夠把響應(yīng)單元集成到所述系統(tǒng)中。因此,所述工具是能夠管理可擴(kuò)展計(jì)算機(jī)系統(tǒng)的單個(gè)接口。
技術(shù)細(xì)節(jié)圖1是示出了在所述可擴(kuò)展計(jì)算機(jī)系統(tǒng)內(nèi)管理工具(5)的物理位置的圖表(10)。所述系統(tǒng)中支持所述工具的功能的基本元件包括管理控制臺(tái)(20)、管理服務(wù)器(30)、服務(wù)處理器(15)和在分區(qū)內(nèi)的節(jié)點(diǎn)上執(zhí)行的操作系統(tǒng)(40)。管理控制臺(tái)(20)具有三個(gè)嵌入工具系統(tǒng)發(fā)現(xiàn)工具(22)、系統(tǒng)確認(rèn)工具(24)和系統(tǒng)配置工具(26)。控制臺(tái)工具(22)、(24)和(26)嵌入在物理上與管理服務(wù)器(30)分離的控制臺(tái)(20)上。在一個(gè)實(shí)施例中,控制臺(tái)(20)和服務(wù)器(30)可以是兩個(gè)獨(dú)立的機(jī)器,或者合并為一個(gè)機(jī)器。每個(gè)控制臺(tái)工具(22)、(24)和(26)分別支持系統(tǒng)發(fā)現(xiàn)、系統(tǒng)確認(rèn)和分區(qū)管理。所述管理服務(wù)器(30)包括用于存儲(chǔ)分區(qū)信息的應(yīng)用數(shù)據(jù)庫(38),和三個(gè)嵌入工具組件分區(qū)管理工具(32)、用于使能和禁止在遠(yuǎn)程I/O附件中的插槽的配置工具(34)以及用于支持試通(ping)任務(wù)的發(fā)現(xiàn)和確認(rèn)工具(36)。服務(wù)器的嵌入工具組件為對應(yīng)的控制臺(tái)組件提供了支持的基礎(chǔ)結(jié)構(gòu)。嵌入在所述服務(wù)器(32)中的分區(qū)管理工具結(jié)合控制臺(tái)的可擴(kuò)展系統(tǒng)配置工具(22)來起作用。類似地,嵌入在所述服務(wù)器中的配置工具(34)結(jié)合嵌入在所述控制臺(tái)(20)中的可擴(kuò)展系統(tǒng)配置工具(24)來起作用,而嵌入在所述服務(wù)器中的發(fā)現(xiàn)和確認(rèn)工具(36)結(jié)合嵌入在所述控制臺(tái)(20)中的可擴(kuò)展系統(tǒng)發(fā)現(xiàn)和可擴(kuò)展系統(tǒng)確認(rèn)工具(26)來起作用。每個(gè)分區(qū)在其主節(jié)點(diǎn)與服務(wù)處理器(15)通信。在一個(gè)實(shí)施例中,具有多個(gè)分區(qū)的系統(tǒng)可以包括多個(gè)服務(wù)處理器,每個(gè)服務(wù)處理器使與所述管理服務(wù)器(30)的通信便于進(jìn)行。示出的每個(gè)分區(qū)(40)包括服務(wù)處理器設(shè)備驅(qū)動(dòng)器(42)和管理工具的代理(44)。所述設(shè)備驅(qū)動(dòng)器(42)支持服務(wù)處理器(15)和分區(qū)(40)之間的通信。類似地,所述代理(44)支持管理工具和分區(qū)(40)之間的通信。因此,所述管理工具包括嵌入在所述系統(tǒng)不同組件內(nèi)的元件,以便能夠從遠(yuǎn)程控制臺(tái)來控制這種元件。
如圖1所示,所示出的工具(5)的元件嵌入在管理應(yīng)用的服務(wù)器和控制臺(tái)內(nèi)。管理控制臺(tái)(20)和服務(wù)器(30)之間的通信是帶內(nèi)的,即通過內(nèi)部通信協(xié)議,利用管理工具(5)來使其便于進(jìn)行。類似地,所述系統(tǒng)中從服務(wù)處理器(15)到任何分區(qū)(40)的通信以及所述系統(tǒng)中從工具(5)到任何分區(qū)(40)的通信是帶內(nèi)的。然而,從服務(wù)器(30)到服務(wù)處理器(15)的所有通信都是帶外的,即通過外部通信協(xié)議。因此,分別嵌入在所述控制臺(tái)和服務(wù)器中的工具和應(yīng)用提供了所有元件以便支持所述系統(tǒng)內(nèi)的節(jié)點(diǎn)和分區(qū)的管理。
圖2是示出所述管理工具的高級視圖以及其怎樣管理分區(qū)和分區(qū)功能的流程圖(70)。第一步要求所述計(jì)算機(jī)系統(tǒng)的硬件與所述管理工具物理上相連(72)。此后,配置所述服務(wù)處理器以便與管理工具外部通信(74)。在一個(gè)實(shí)施例中,這包括為每個(gè)服務(wù)處理器(15)建立因特網(wǎng)協(xié)議地址,并且配置用戶標(biāo)識(shí)符和與所述服務(wù)處理器(15)相關(guān)聯(lián)的密碼。一旦完成步驟(72)和(74),那么啟動(dòng)管理控制臺(tái)(20)(76),并且發(fā)現(xiàn)所述計(jì)算機(jī)系統(tǒng)的物理平臺(tái)(節(jié)點(diǎn))(78)。在步驟(78)的發(fā)現(xiàn)期間,可以請求用戶提供他們的識(shí)別符和相關(guān)聯(lián)的密碼。在步驟(78)之后,進(jìn)行測試以確定所述用戶標(biāo)識(shí)符和相關(guān)聯(lián)的密碼是否有效(80)。步驟(80)的測試的否定響應(yīng),將導(dǎo)致用戶請求訪問先前發(fā)現(xiàn)的所述計(jì)算機(jī)系統(tǒng)的物理平臺(tái)(節(jié)點(diǎn))(82)。這種請求可以包括向所述服務(wù)器的非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)詢問分區(qū)描述符。在步驟(82)之后或在步驟(80)測試的肯定響應(yīng)之后,進(jìn)行隨后的測試以確定是否已經(jīng)由所述分區(qū)或管理工具中的基本輸入/輸出系統(tǒng)(BIOS)配置所述系統(tǒng)內(nèi)的可擴(kuò)展元件(84)。步驟(84)的測試的否定響應(yīng)表明在所述系統(tǒng)內(nèi)可能存在未由所述BIOS定義的可擴(kuò)展元件。在這種情況下,如圖3中所示執(zhí)行發(fā)現(xiàn)功能,以便識(shí)別所述未定義的可擴(kuò)展元件(86)。
步驟(84)的測試的肯定響應(yīng)之后或在步驟(86)完成所述發(fā)現(xiàn)任務(wù)之后,執(zhí)行確認(rèn)工具以便確定所述系統(tǒng)組件的物理連接(88)。圖4舉例說明了執(zhí)行所述確認(rèn)工具的細(xì)節(jié)??梢栽诓襟E(84)測試的肯定響應(yīng)之后執(zhí)行所述確認(rèn)工具,以便確定是否已經(jīng)重新用電纜連接了任何可擴(kuò)展的元件。在系統(tǒng)發(fā)現(xiàn)和確認(rèn)之后,可以使用所述管理工具以便配置分區(qū)(90),如圖5中所示。配置分區(qū)的過程可以包括創(chuàng)建可擴(kuò)展分區(qū),把節(jié)點(diǎn)插入到所述分區(qū)中,并且在所述分區(qū)內(nèi)分配主節(jié)點(diǎn)。另外,配置分區(qū)的過程可以包括配置遠(yuǎn)程I/O附件,如圖8中所示。最后,可以調(diào)用管理工具以便對由所述管理工具管理的分區(qū)通電和/或斷電(92),如圖6和7所示。因此,在發(fā)現(xiàn)所述可擴(kuò)展計(jì)算機(jī)系統(tǒng)的物理平臺(tái)之后,可以調(diào)用所述管理工具以便創(chuàng)建并管理可擴(kuò)展的計(jì)算機(jī)系統(tǒng)。
如圖2所示,由所述管理工具和應(yīng)用支持的元件之一是系統(tǒng)發(fā)現(xiàn)工具。此工具采用與其它節(jié)點(diǎn)物理通信即有線的方式來與每個(gè)節(jié)點(diǎn)通信。圖3是舉例說明使用所述發(fā)現(xiàn)工具來把一個(gè)或多個(gè)節(jié)點(diǎn)添加到所述系統(tǒng)的過程的流程圖(100)。在發(fā)現(xiàn)計(jì)算機(jī)系統(tǒng)中節(jié)點(diǎn)的請求(102)之后,所述管理服務(wù)器(30)向與被發(fā)現(xiàn)的節(jié)點(diǎn)通信的服務(wù)處理器發(fā)送試通(ping)請求,并且等待響應(yīng)(104)。通過外部通信信道把試通請求的內(nèi)部通信從控制臺(tái)(20)發(fā)送到嵌入在管理服務(wù)器(30)中的發(fā)現(xiàn)工具(36)。在具有與不同節(jié)點(diǎn)通信的多個(gè)服務(wù)處理器的系統(tǒng)中,通過外部通信信道把試通請求發(fā)布至每個(gè)服務(wù)處理器。當(dāng)接收所述試通請求時(shí),所述服務(wù)處理器向物理上與請求發(fā)布所述試通程序的服務(wù)器相連的每個(gè)未鎖節(jié)點(diǎn)發(fā)布試通程序(106)。此后,進(jìn)行測試以確定是否由服務(wù)器(30)從所述試通程序的接受節(jié)點(diǎn)處接收到響應(yīng)(108)。步驟(108)測試的否定響應(yīng)表明在所述試通程序的接收端沒有可用的節(jié)點(diǎn)可以添加到所述計(jì)算機(jī)系統(tǒng)(110)。然而,步驟(108)測試的肯定響應(yīng)導(dǎo)致把響應(yīng)的節(jié)點(diǎn)添加到所述系統(tǒng)(112)。對于添加到所述計(jì)算機(jī)系統(tǒng)的每個(gè)節(jié)點(diǎn),編譯響應(yīng)所述試通程序的時(shí)間(114)。可以在部分發(fā)現(xiàn)的系統(tǒng)以及需要配置的系統(tǒng)上使用所述發(fā)現(xiàn)工具。因此,使用所述發(fā)現(xiàn)工具來確定所述系統(tǒng)的拓?fù)浣Y(jié)構(gòu),并且把響應(yīng)的節(jié)點(diǎn)添加到所述可擴(kuò)展系統(tǒng)。
除所述發(fā)現(xiàn)工具以外,所述應(yīng)用包括驗(yàn)證工具,用于確定在所述系統(tǒng)的節(jié)點(diǎn)中端口的可用性。圖4是舉例說明與系統(tǒng)發(fā)現(xiàn)操作相關(guān)聯(lián)的被添加到所述系統(tǒng)的每個(gè)節(jié)點(diǎn)的每個(gè)端口的確認(rèn)操作過程的流程圖(150)。識(shí)別屬于所述系統(tǒng)的所有節(jié)點(diǎn)(152)并識(shí)別把每個(gè)所識(shí)別的節(jié)點(diǎn)連接到所述系統(tǒng)中其它節(jié)點(diǎn)的電纜(154)。所述節(jié)點(diǎn)的識(shí)別可以從所述發(fā)現(xiàn)工具的完成開始。把試通程序形式的通信從管理服務(wù)器(30)發(fā)送到所述系統(tǒng)中所有識(shí)別的通信端口(156)。所述試通是雙邊通信協(xié)議。接收所述試通程序的每個(gè)節(jié)點(diǎn)的每個(gè)端口被期望用響應(yīng)試通程序(response ping)來響應(yīng)管理器。應(yīng)當(dāng)注意的是,所有試通程序首先被執(zhí)行然后再被確認(rèn)。進(jìn)行測試以確定所述管理器是否在預(yù)定義的時(shí)間間隔內(nèi)從所識(shí)別的端口接收了響應(yīng)試通程序(158)。如果步驟(158)測試的響應(yīng)是否定的,那么這表明所述確認(rèn)失敗(160)。可能由于各種原因而導(dǎo)致發(fā)生確認(rèn)失敗。例如,如果所述系統(tǒng)是具有兩個(gè)處理器擴(kuò)展模塊的單節(jié)點(diǎn)系統(tǒng),那么電纜連接可能局限于兩個(gè)通信端口。在另一例子中,可能從不屬于所述系統(tǒng)的節(jié)點(diǎn)接收響應(yīng),其中這種響應(yīng)往往導(dǎo)致錯(cuò)誤消息的產(chǎn)生。確認(rèn)過程驗(yàn)證到通信端口的物理連接。在所述確認(rèn)失敗之后,經(jīng)由管理服務(wù)器(30)把錯(cuò)誤消息發(fā)送到管理控制臺(tái)(20),表明對于所指定的通信端口所述確認(rèn)過程失敗(164)。作為選擇,如果在步驟(158)測試的響應(yīng)是肯定的,那么這表明對于所識(shí)別的端口所述確認(rèn)是成功的,即所述端口恰當(dāng)?shù)毓ぷ?。?jīng)由管理服務(wù)器(30)把消息發(fā)送到管理控制臺(tái)(20),表明對于所指定的通信端口所述確認(rèn)是成功的(162)。在確認(rèn)成功或失敗之后,編輯對每個(gè)端口進(jìn)行確認(rèn)的時(shí)間,并且生成報(bào)告以便把確認(rèn)信息傳送到與發(fā)布學(xué)習(xí)的管理控制臺(tái)(20)通信的操作者(164)。在一個(gè)實(shí)施例中,發(fā)送到管理器的每個(gè)消息包括時(shí)間間隔,所述時(shí)間間隔表示從啟動(dòng)對所指定端口的確認(rèn)直到終結(jié)時(shí)間之內(nèi)所經(jīng)過的時(shí)間。在所述管理器接收到合格消息或失敗消息之后,產(chǎn)生報(bào)告以便所述管理器概括系統(tǒng)中每個(gè)端口的狀態(tài)。因此,所述確認(rèn)過程確定可擴(kuò)展計(jì)算機(jī)系統(tǒng)的節(jié)點(diǎn)或資源的每個(gè)通信端口的物理連接。
所述管理器的主要元件之一是配置和/或管理多節(jié)點(diǎn)計(jì)算機(jī)系統(tǒng)中的可擴(kuò)展分區(qū)。圖5是舉例說明配置可擴(kuò)展計(jì)算機(jī)系統(tǒng)內(nèi)分區(qū)的過程的流程圖(200)。第一步是啟動(dòng)管理控制臺(tái)(202)。此后,操作者可以在控制臺(tái)上觀看建議的可擴(kuò)展系統(tǒng)的配置(204),在此之后是創(chuàng)建分區(qū)(206)。一旦已經(jīng)創(chuàng)建所述分區(qū),那么操作者可以從可擴(kuò)展系統(tǒng)選擇節(jié)點(diǎn)并且把它們分配到所述分區(qū)(208)。然后所述操作者把所述分區(qū)內(nèi)的節(jié)點(diǎn)之一指定為主節(jié)點(diǎn)(210),其負(fù)責(zé)引導(dǎo)(boot)所述分區(qū)。此后,進(jìn)行測試以確定在所述計(jì)算機(jī)系統(tǒng)中是否存在遠(yuǎn)程I/O附件(212)。步驟(212)測試的肯定響應(yīng)將導(dǎo)致為所述分區(qū)配置遠(yuǎn)程I/O附件(214),如圖8中所示。然而,步驟(212)測試的否定響應(yīng)或在步驟(214)配置遠(yuǎn)程I/O附件之后,在管理服務(wù)器上保存分區(qū)配置信息(216)。因此,配置分區(qū)的過程包括從先前發(fā)現(xiàn)節(jié)點(diǎn)的列表中為所述分區(qū)選擇節(jié)點(diǎn),并且把那些節(jié)點(diǎn)之一指定為所述分區(qū)中的主節(jié)點(diǎn)。
在創(chuàng)建和/或配置分區(qū)之后,可以調(diào)用管理工具以便控制向所述計(jì)算機(jī)系統(tǒng)內(nèi)的分區(qū)供電。圖6是舉例說明對可擴(kuò)展計(jì)算機(jī)系統(tǒng)的分區(qū)供電的過程的流程圖(240)。如圖5中所示,只有已經(jīng)配置了分區(qū)(242)才可以啟動(dòng)此過程。進(jìn)行測試以確定所述分區(qū)是否具有被指定為主節(jié)點(diǎn)的節(jié)點(diǎn)(244)。步驟(244)測試的否定響應(yīng)將導(dǎo)致把所述分區(qū)中的節(jié)點(diǎn)之一指定為主節(jié)點(diǎn)(246)。在步驟(246)之后或在步驟(244)測試的肯定響應(yīng)之后,在所述主節(jié)點(diǎn)上提供到服務(wù)處理器的連接(248)。此后,進(jìn)行另一測試以確定步驟(248)的連接是否成功(250)。步驟(250)測試的否定響應(yīng)將導(dǎo)致管理器向操作者轉(zhuǎn)發(fā)錯(cuò)誤消息,表明無法建立在主節(jié)點(diǎn)和服務(wù)處理器之間的連接(252)。然而,步驟(250)測試的肯定響應(yīng)將導(dǎo)致把分區(qū)描述符存儲(chǔ)在所述服務(wù)處理器的非易失性隨機(jī)存取存儲(chǔ)器(NVRAM)中,并且把來自管理器的用于通電的指令轉(zhuǎn)發(fā)到所指定的分區(qū)(254)。所述分區(qū)描述符是所述分區(qū)的描述,其包括可擴(kuò)展系統(tǒng)和可擴(kuò)展分區(qū)內(nèi)節(jié)點(diǎn)的數(shù)目,分區(qū)中節(jié)點(diǎn)的唯一通用標(biāo)識(shí)符、主節(jié)點(diǎn)和遠(yuǎn)程I/O附件。在步驟(254)之后,進(jìn)行測試以確定對所指定分區(qū)的通電指令是否成功(256)。步驟(256)測試的否定響應(yīng)表明無法向所指定的分區(qū)供電,并且把錯(cuò)誤消息發(fā)送給控制臺(tái)的操作者(258)。然而,步驟(256)測試的肯定響應(yīng)表明所述分區(qū)的主節(jié)點(diǎn)已經(jīng)引導(dǎo)并且開始操作(260)。因此,通過使用服務(wù)處理器并且把分區(qū)中的一個(gè)節(jié)點(diǎn)指定為主節(jié)點(diǎn),所述管理器可以向所述主節(jié)點(diǎn)發(fā)送指令以對所指定分區(qū)供電。
與圖6類似,分區(qū)可以從所述管理器接收關(guān)閉指令。圖7是舉例說明對計(jì)算機(jī)系統(tǒng)中的分區(qū)的斷電過程的流程圖(270)。只有已經(jīng)配置了分區(qū)(272)才啟動(dòng)此過程。此后,進(jìn)行測試以確定所述分區(qū)是否具有被指定為主節(jié)點(diǎn)的節(jié)點(diǎn)(274)。步驟(274)測試的否定響應(yīng)將導(dǎo)致把所述分區(qū)中的節(jié)點(diǎn)之一指定為主節(jié)點(diǎn)(276)。在步驟(276)之后或在步驟(274)測試的肯定響應(yīng)之后,在所述分區(qū)的主節(jié)點(diǎn)上提供到服務(wù)處理器的連接(278)。此后,進(jìn)行另一測試以確定在步驟(278)的連接是否成功(280)。步驟(280)測試的否定響應(yīng)將導(dǎo)致管理器向操作者轉(zhuǎn)發(fā)錯(cuò)誤消息,表明無法建立在主節(jié)點(diǎn)和服務(wù)處理器之間的連接(282)。然而,步驟(280)的肯定響應(yīng)將導(dǎo)致向服務(wù)處理器轉(zhuǎn)發(fā)指令以對所述分區(qū)斷電(284)。此后,進(jìn)行測試以確定是否成功執(zhí)行所述斷電指令(286)。步驟(286)測試的否定響應(yīng)將導(dǎo)致所述管理器向操作者轉(zhuǎn)發(fā)錯(cuò)誤消息,表明沒有執(zhí)行所述斷電指令(288)。作為選擇,步驟(286)測試的肯定響應(yīng)將導(dǎo)致向操作者轉(zhuǎn)發(fā)消息,表明執(zhí)行了所述斷電指令(290)。因此,通過使用服務(wù)處理器并且把分區(qū)中的一個(gè)節(jié)點(diǎn)指定為主節(jié)點(diǎn),所述管理器可以向主節(jié)點(diǎn)發(fā)送用于對所述分區(qū)斷電的指令。
所述可擴(kuò)展的計(jì)算機(jī)系統(tǒng)可以包括一個(gè)或多個(gè)遠(yuǎn)程I/O附件(RIOE)。可以通過所述管理器來遠(yuǎn)程配置每個(gè)RIOE。圖8是舉例說明配置遠(yuǎn)程RIOE的過程的流程圖(300)。應(yīng)當(dāng)注意,只有已經(jīng)配置了分區(qū)(302)才啟動(dòng)此過程。一旦已經(jīng)確定所述系統(tǒng)包括配置的分區(qū),從所述分區(qū)中的RIOE列表選擇將要配置的RIOE(304)。查看所選擇RIOE的當(dāng)前配置(306),并且將其設(shè)置為所選擇ROIE的默認(rèn)配置。每個(gè)RIOE具有可用于一個(gè)或多個(gè)分區(qū)的兩個(gè)插槽分組。從管理控制臺(tái),操作者選擇將被包括在分區(qū)和相關(guān)聯(lián)的分區(qū)描述符內(nèi)的插槽的一個(gè)或兩個(gè)分組(308)。作為選擇要被包括在分區(qū)中的插槽分組的一部分,還選擇電纜(310)。例如,如果用戶使能分組一的插槽,那么還將選擇附于該分組的電纜。在某些配置中,冗余的電纜連接是可能的,并且在這種情況下用戶必須選擇是使用所述冗余電纜連接還是從RIOE到節(jié)點(diǎn)的唯一電纜。操作者檢查所選擇的遠(yuǎn)程I/O附件配置(312),如步驟(308)和(310)所規(guī)定。把所述遠(yuǎn)程I/O配置與所述分區(qū)存儲(chǔ)在管理服務(wù)器(30)上(314),并且完成所述配置。因此,通過在管理控制臺(tái)提供的指令,所述操作者可以基于所述插槽分組到所述計(jì)算機(jī)系統(tǒng)的物理連接,將遠(yuǎn)程I/O附件的插槽分組遠(yuǎn)程分配到一個(gè)或多個(gè)分區(qū)。
與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)可以基于工作負(fù)荷情況對計(jì)算機(jī)系統(tǒng)或所述系統(tǒng)內(nèi)的分區(qū)來添加或刪除節(jié)點(diǎn)和系統(tǒng)資源。添加或刪除節(jié)點(diǎn)或其它系統(tǒng)資源的過程可以靜態(tài)或動(dòng)態(tài)地進(jìn)行。管理工具平衡所述服務(wù)處理器以便能夠擴(kuò)展控制系統(tǒng)資源。所述管理工具支持從遠(yuǎn)程控制臺(tái)來管理所述計(jì)算機(jī)系統(tǒng)和/或所述系統(tǒng)內(nèi)的資源。
可替換實(shí)施例應(yīng)當(dāng)理解的是,盡管這里為了舉例說明已經(jīng)描述了本發(fā)明的具體實(shí)施例,但是在不脫離本發(fā)明精神和范圍的情況下可以進(jìn)行各種修改。特別的是,管理系統(tǒng)的操作者可以利用預(yù)定義的時(shí)限來配置發(fā)現(xiàn)和確認(rèn)工具,以便從被指定來接收試通程序的節(jié)點(diǎn)和端口接收通信響應(yīng)。如果在發(fā)現(xiàn)工具的最初通信中指定的節(jié)點(diǎn)沒有在設(shè)置時(shí)限內(nèi)響應(yīng),那么從節(jié)點(diǎn)接收的滯后響應(yīng)將阻止所述節(jié)點(diǎn)加入所述系統(tǒng)。類似地,不會(huì)把已經(jīng)被添加到與發(fā)現(xiàn)工具相關(guān)聯(lián)系統(tǒng)的節(jié)點(diǎn)端口添加到管理工具以作為起作用的端口,其中所述發(fā)現(xiàn)工具向確認(rèn)工具通信提供延遲的響應(yīng)。另外,所述管理工具可以包括事件處理機(jī)和動(dòng)作事件處理機(jī),用于支持基于規(guī)則的分區(qū)故障轉(zhuǎn)移(failover)。例如,事件過濾器可以為分區(qū)提供想要的操作范圍,而事件處理機(jī)可以實(shí)現(xiàn)預(yù)定義的動(dòng)作,如果發(fā)生分區(qū)故障轉(zhuǎn)移的話可以由所述管理工具實(shí)現(xiàn)所述預(yù)定義的動(dòng)作。因此,本發(fā)明的保護(hù)范圍僅由下列權(quán)利要求及其等效物限制。
權(quán)利要求
1.一種用于計(jì)算機(jī)管理的方法,包括從一個(gè)未分配的可擴(kuò)展節(jié)點(diǎn)來創(chuàng)建可擴(kuò)展計(jì)算機(jī)系統(tǒng);遠(yuǎn)程管理所述系統(tǒng)中的可擴(kuò)展功能;并且遠(yuǎn)程管理所述系統(tǒng)的分區(qū)內(nèi)的可擴(kuò)展分區(qū)功能。
2.如權(quán)利要求1所述的方法,其中從由下列組成的組中選擇所述可擴(kuò)展功能將可擴(kuò)展節(jié)點(diǎn)插入所述可擴(kuò)展系統(tǒng),從所述可擴(kuò)展系統(tǒng)刪除節(jié)點(diǎn),發(fā)現(xiàn)所述可擴(kuò)展系統(tǒng)的拓?fù)浣Y(jié)構(gòu),確認(rèn)所述可擴(kuò)展系統(tǒng)的連線,創(chuàng)建所述可擴(kuò)展系統(tǒng)中的可擴(kuò)展分區(qū),及其組合。
3.如權(quán)利要求1所述的方法,其中從由下列組成的組中選擇所述可擴(kuò)展分區(qū)功能將節(jié)點(diǎn)插入所述分區(qū),從所述分區(qū)刪除節(jié)點(diǎn),設(shè)置所述分區(qū)中的主節(jié)點(diǎn),配置遠(yuǎn)程I/O附件,執(zhí)行電源管理任務(wù),及其組合。
4.如權(quán)利要求1所述的方法,其中管理可擴(kuò)展分區(qū)功能的步驟包括結(jié)合預(yù)定義事件自動(dòng)執(zhí)行分區(qū)故障轉(zhuǎn)移。
5.如權(quán)利要求1所述的方法,還包括發(fā)現(xiàn)所述可擴(kuò)展系統(tǒng)的拓?fù)浣Y(jié)構(gòu)。
6.如權(quán)利要求5所述的方法,其中發(fā)現(xiàn)拓?fù)浣Y(jié)構(gòu)的步驟包括從一個(gè)節(jié)點(diǎn)通過所述節(jié)點(diǎn)的一個(gè)或多個(gè)端口發(fā)布試通程序。
7.如權(quán)利要求6所述的方法,其中創(chuàng)建可擴(kuò)展系統(tǒng)的步驟包括所述試通節(jié)點(diǎn)以及每個(gè)可擴(kuò)展節(jié)點(diǎn)響應(yīng)所述試通節(jié)點(diǎn)。
8.如權(quán)利要求7所述的方法,還包括確認(rèn)所述可擴(kuò)展系統(tǒng)的連線。
9.如權(quán)利要求8所述的方法,其中確認(rèn)連線的步驟包括向所述可擴(kuò)展系統(tǒng)中的所有節(jié)點(diǎn)的所有端口發(fā)布試通程序。
10.如權(quán)利要求5所述的方法,還包括在發(fā)現(xiàn)所述系統(tǒng)的拓?fù)浣Y(jié)構(gòu)之后發(fā)布發(fā)現(xiàn)報(bào)告。
11.如權(quán)利要求10所述的方法,其中所述發(fā)現(xiàn)報(bào)告包括從由下列組成的組中選擇的數(shù)據(jù)每個(gè)節(jié)點(diǎn)發(fā)現(xiàn)成功或失敗的指示,發(fā)現(xiàn)時(shí)間,及其組合。
12.如權(quán)利要求8所述的方法,還包括在驗(yàn)證所述端口的連線之后發(fā)布確認(rèn)報(bào)告。
13.如權(quán)利要求12所述的方法,其中所述確認(rèn)報(bào)告包括從由下列組成的組中選擇的數(shù)據(jù)試通響應(yīng)確認(rèn),每個(gè)端口確認(rèn)成功或失敗的指示,確認(rèn)時(shí)間,及其組合。
14.一種產(chǎn)品,包括計(jì)算機(jī)可讀的信號(hào)承載介質(zhì);所述介質(zhì)中的用于從一個(gè)未分配的節(jié)點(diǎn)來創(chuàng)建可擴(kuò)展計(jì)算機(jī)系統(tǒng)的裝置;所述介質(zhì)中的用于遠(yuǎn)程管理可擴(kuò)展功能的裝置;和所述介質(zhì)中的用于遠(yuǎn)程管理所述系統(tǒng)的分區(qū)內(nèi)的可擴(kuò)展分區(qū)功能的裝置。
15.如權(quán)利要求14所述的產(chǎn)品,其中從由下列組成的組中選擇所述介質(zhì)可記錄的數(shù)據(jù)存儲(chǔ)介質(zhì)和調(diào)制的載波信號(hào)。
16.如權(quán)利要求14所述的產(chǎn)品,其中從由下列組成的組中選擇所述可擴(kuò)展功能將可擴(kuò)展節(jié)點(diǎn)插入所述可擴(kuò)展系統(tǒng),從所述可擴(kuò)展系統(tǒng)刪除節(jié)點(diǎn),發(fā)現(xiàn)所述可擴(kuò)展系統(tǒng)的拓?fù)浣Y(jié)構(gòu),確認(rèn)所述可擴(kuò)展系統(tǒng)的連線,創(chuàng)建所述可擴(kuò)展系統(tǒng)中的可擴(kuò)展分區(qū),及其組合。
17.如權(quán)利要求14所述的產(chǎn)品,其中從由下列組成的組中選擇所述可擴(kuò)展分區(qū)功能將節(jié)點(diǎn)插入所述分區(qū),從所述分區(qū)刪除節(jié)點(diǎn),設(shè)置所述分區(qū)中的主節(jié)點(diǎn),配置遠(yuǎn)程I/O附件,執(zhí)行電源管理任務(wù),及其組合。
18.如權(quán)利要求14所述的產(chǎn)品,其中用于管理可擴(kuò)展分區(qū)功能的所述裝置包括結(jié)合預(yù)定義事件來自動(dòng)執(zhí)行分區(qū)故障轉(zhuǎn)移。
19.如權(quán)利要求14所述的產(chǎn)品,還包括所述介質(zhì)中的用于發(fā)現(xiàn)所述系統(tǒng)的拓?fù)浣Y(jié)構(gòu)的裝置。
20.如權(quán)利要求19所述的產(chǎn)品,其中用于發(fā)現(xiàn)系統(tǒng)拓?fù)浣Y(jié)構(gòu)的所述裝置包括適于從一個(gè)節(jié)點(diǎn)通過所述節(jié)點(diǎn)的一個(gè)或多個(gè)端口發(fā)布的試通程序。
21.如權(quán)利要求20所述的產(chǎn)品,其中所述介質(zhì)中的用于創(chuàng)建可擴(kuò)展系統(tǒng)的裝置包括把所述試通節(jié)點(diǎn)和每個(gè)可擴(kuò)展響應(yīng)節(jié)點(diǎn)放置在所述系統(tǒng)中。
22.如權(quán)利要求21所述的產(chǎn)品,還包括所述介質(zhì)中的用于確認(rèn)所述可擴(kuò)展系統(tǒng)的連線的裝置。
23.如權(quán)利要求22所述的產(chǎn)品,其中用于確認(rèn)所述可擴(kuò)展系統(tǒng)的連線的所述裝置包括向所述系統(tǒng)中的所有節(jié)點(diǎn)的所有端口發(fā)布試通程序。
24.如權(quán)利要求19所述的產(chǎn)品,還包括介質(zhì)中的用于在發(fā)現(xiàn)所述系統(tǒng)的拓?fù)浣Y(jié)構(gòu)之后發(fā)布發(fā)現(xiàn)報(bào)告的裝置。
25.如權(quán)利要求24所述的產(chǎn)品,其中所述發(fā)現(xiàn)報(bào)告包括從由下列組成的組中選擇的數(shù)據(jù)每個(gè)節(jié)點(diǎn)發(fā)現(xiàn)成功或失敗的指示,發(fā)現(xiàn)時(shí)間,及其組合。
26.如權(quán)利要求22所述的產(chǎn)品,還包括介質(zhì)中的用于在驗(yàn)證所述端口的連線之后發(fā)布確認(rèn)報(bào)告的裝置。
27.如權(quán)利要求26所述的產(chǎn)品,其中所述確認(rèn)報(bào)告包括從由下列組成的組中選擇的數(shù)據(jù)試通響應(yīng)確認(rèn),每個(gè)端口確認(rèn)成功或失敗的指示,確認(rèn)時(shí)間,及其組合。
28.一種計(jì)算機(jī)管理工具,包括協(xié)調(diào)器,適用于從一個(gè)未分配的節(jié)點(diǎn)創(chuàng)建可擴(kuò)展計(jì)算機(jī)系統(tǒng);遠(yuǎn)程功能管理器,適用于控制可擴(kuò)展功能;和遠(yuǎn)程分區(qū)管理器,適用于控制分區(qū)內(nèi)的可擴(kuò)展分區(qū)功能。
29.如權(quán)利要求28所述的工具,其中從由下列組成的組中選擇所述可擴(kuò)展功能將可擴(kuò)展節(jié)點(diǎn)插入所述可擴(kuò)展系統(tǒng),從所述可擴(kuò)展系統(tǒng)刪除節(jié)點(diǎn),發(fā)現(xiàn)所述可擴(kuò)展系統(tǒng)的拓?fù)浣Y(jié)構(gòu),確認(rèn)所述可擴(kuò)展系統(tǒng)的連線,創(chuàng)建所述可擴(kuò)展系統(tǒng)中的可擴(kuò)展分區(qū),及其組合。
30.如權(quán)利要求28所述的工具,其中從由下列組成的組中選擇所述可擴(kuò)展分區(qū)功能將節(jié)點(diǎn)插入所述分區(qū),從所述分區(qū)刪除節(jié)點(diǎn),設(shè)置所述分區(qū)中的主節(jié)點(diǎn),配置遠(yuǎn)程I/O附件,執(zhí)行電源管理任務(wù),及其組合。
31.如權(quán)利要求28所述的工具,其中所述遠(yuǎn)程分區(qū)管理器適于與預(yù)定義的事件相關(guān)聯(lián)地自動(dòng)執(zhí)行分區(qū)故障轉(zhuǎn)移。
32.如權(quán)利要求28所述的工具,還包括拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)工具,適于確定所述系統(tǒng)的成員節(jié)點(diǎn)。
33.如權(quán)利要求32所述的工具,其中所述拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)工具適于將通信節(jié)點(diǎn)包括為所述系統(tǒng)中的成員。
34.如權(quán)利要求32所述的工具,還包括適于確證所述系統(tǒng)的連線的確認(rèn)工具。
35.如權(quán)利要求34所述的工具,其中所述確認(rèn)工具向所述系統(tǒng)中所有節(jié)點(diǎn)的所有端口發(fā)布試通程序。
36.如權(quán)利要求32所述的工具,還包括適于在所述成員節(jié)點(diǎn)確定之后發(fā)布的拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)報(bào)告。
37.如權(quán)利要求36所述的工具,其中所述拓?fù)浣Y(jié)構(gòu)發(fā)現(xiàn)報(bào)告包括從由下列組成的組中選擇的數(shù)據(jù)每個(gè)節(jié)點(diǎn)發(fā)現(xiàn)成功或失敗的指示,發(fā)現(xiàn)時(shí)間,及其組合。
38.如權(quán)利要求34所述的工具,還包括適于在確證所述連線之后發(fā)布的確認(rèn)報(bào)告。
39.如權(quán)利要求38所述的工具,其中所述確認(rèn)報(bào)告包括從由下列組成的組中選擇的數(shù)據(jù)試通響應(yīng)確認(rèn),每個(gè)端口確認(rèn)成功或失敗的指示,確認(rèn)時(shí)間,及其組合。
全文摘要
一種用于遠(yuǎn)程管理可擴(kuò)展計(jì)算機(jī)系統(tǒng)的方法和系統(tǒng)。把相關(guān)聯(lián)的元件嵌入在服務(wù)器和相關(guān)聯(lián)的控制臺(tái)上。為每個(gè)分區(qū)提供服務(wù)處理器,其中所述服務(wù)處理器支持所述服務(wù)器和指定的分區(qū)之間的通信。操作者可以發(fā)現(xiàn)并確認(rèn)計(jì)算機(jī)系統(tǒng)中元件的可用性。另外,操作者可以平衡從相關(guān)聯(lián)的發(fā)現(xiàn)和確認(rèn)接收的數(shù)據(jù),以便配置或重新配置支持計(jì)劃的工作量的系統(tǒng)中的分區(qū)。
文檔編號(hào)G06F9/46GK1719415SQ200510082548
公開日2006年1月11日 申請日期2005年7月8日 優(yōu)先權(quán)日2004年7月9日
發(fā)明者詹姆斯·J·博澤克, 康納·B·弗萊恩, 德博雷·L·麥克唐納, 維諾德·邁諾恩, 保羅·A·斯考格隆德, 托尼·W·奧弗 申請人:國際商業(yè)機(jī)器公司