本發(fā)明一般涉及云計算。更具體地說,本發(fā)明涉及用于分配物理云計算資源到進程的方法、布置、計算機程序和計算機程序產品。
背景技術:
隨著諸如所謂的云計算等遠程計算操作的發(fā)展,數據中心管理已變得越來越重要。
為各種應用執(zhí)行計算操作的大型數據中心因此在稍后幾年已變得常見。
在這些情況下,各種類型的應用發(fā)送處理請求到此類數據中心,請求的處理在其中執(zhí)行,并且結果隨后被輸送到請求裝置或網絡。
通常在數據中心管理中,且具體而言在云設定中,有經常稱為調度器的功能,其指派特定工作負載到特定硬件實例,即,指派處理任務到特定物理資源。
調度器因此負責指派數據中心內的硬件資源,并且這些資源執(zhí)行處理并且將結果發(fā)送到請求計算機或人。在運行某一類型進程的請求計算機則不知道或為此不關心在數據中心中哪個物理資源執(zhí)行處理,而只關注處理已完成的事實,其中,在數據中心中在云計算資源上執(zhí)行的處理可以是虛擬機。此外,在此操作中,任務的處理必須達到一些的可靠性要求。由應用指派的任務的處理可根據服務級別協議(SLA)處理,協議指定由應用指派的任務的處理需要有多可靠。例如,可存在與識別在應用的任務的處理中由數據中心要求的可靠性的協議關聯的平均修復時間MTTR或可用性值。
對于此類數據中心,因此可存在需要滿足的多個不同可用率。例如,一個應用可要求99.999%的可用性,另一應用要求99.99%的可用性,以及其它應用可要求99.9%的可用性。
對于執(zhí)行云計算的數據中心,因此,關注的是能夠滿足各種要求。然而,這可需要與物理資源的有效使用相組合。
因此,存在云計算數據中心能夠在以有效方式使用物理資源的同時,滿足由各種應用要求的各種可用率的方法的需要。
技術實現要素:
本發(fā)明的一個目的因此是指派云計算資源到進程,并且在以有效方式使用物理資源的同時,組合滿足各種應用的可用率要求。
根據第一方面,此目的通過一種用于分配物理云計算資源到進程的布置而實現。至少一些云計算資源具有不同壽命(age)。它們也具有單獨的主要失效概率(primary failure probability),每個概率基于云計算資源的壽命相關的失效概率函數。布置包括對計算機指令起作用的處理器,由此布置操作以:
接收對為多個進程執(zhí)行計算任務的請求,進程具有不同進程優(yōu)先級,
調查用于執(zhí)行請求的任務的云計算資源的可用性,以及
基于進程優(yōu)先級來指派可用云計算資源到進程,其中有最高進程優(yōu)先級的進程被指派到具有最低主要失效概率的云計算資源。
根據第二方面,此目的通過一種用于分配物理云計算資源到進程的方法而實現。至少一些云計算資源具有不同壽命。它們也具有單獨的主要失效概率,每個概率基于云計算資源的壽命相關的失效概率函數。方法在云計算資源分配布置中執(zhí)行,并且包括:
接收對為多個進程執(zhí)行計算任務的請求,進程具有不同進程優(yōu)先級,
調查用于執(zhí)行請求的任務的云計算資源的可用性,以及
基于進程優(yōu)先級來指派可用云計算資源到進程,其中有最高進程優(yōu)先級的進程被指派到具有最低主要失效概率的云計算資源。
根據第三方面,此目的通過一種用于分配物理云計算資源到進程的計算機程序而實現。至少一些云計算資源具有不同壽命。云計算資源也具有單獨的主要失效概率,每個概率基于云計算資源的壽命相關的失效概率函數。計算機程序包括在用于分配云計算資源的布置中運行時,使得布置執(zhí)行以下操作的計算機程序代碼:
接收對為多個進程執(zhí)行計算任務的請求,進程具有不同進程優(yōu)先級,
調查用于執(zhí)行請求的任務的云計算資源的可用性,以及
基于進程優(yōu)先級來指派可用云計算資源到進程,其中有最高進程優(yōu)先級的進程被指派到具有最低主要失效概率的云計算資源。
根據第四方面,此目的通過一種用于分配物理云計算資源到進程的計算機程序產品而實現。計算機程序產品包括帶有如第三方面所述計算機程序代碼的數據載體。
根據上面提及的方面的本發(fā)明具有多個優(yōu)點。它組合了滿足可用性要求和云計算資源的有效使用。這樣,與設備的良好使用相組合,未能滿足合約義務的風險得以降低,這從維護角度而言可以是有利的。
在第一方面的有利變化中,布置還配置成基于壽命和失效概率函數,確定每個云計算資源的主要失效概率。
在第二方面的對應變化中,方法還包括基于壽命和失效概率函數,確定每個云計算資源的主要失效概率。
至少一些云計算資源可還采用輔助資源,以便其計算任務的執(zhí)行。
根據第一方面的另一變化,布置還配置成在確定云計算資源的主要失效概率中,考慮使用的輔助資源的次要失效概率。
根據第二方面的對應變化,方法還包括在確定云計算資源的主要失效概率中,考慮使用的輔助資源的次要失效概率。
云計算資源的主要失效概率可基于云計算資源的利用程度。
根據第一方面的其它變化,布置還配置成查詢輔助資源由云計算資源的利用程度,并且基于響應來估計利用程度。
根據第二方面的對應變化,方法還包括查詢輔助資源由云計算資源的利用程度,并且基于響應來估計利用程度。
根據第一方面的又一變化,布置還配置成查詢云計算資源有關指示利用的數據,并且基于響應來估計利用程度。
根據第二方面的對應的變化,方法還包括查詢云計算資源有關指示利用的數據,并且基于響應來估計利用程度。
根據第一方面的其它變化,布置還配置成查詢外部管理系統,并且基于響應來估計利用程度。
根據第二方面的對應的變化,方法還包括查詢外部管理系統,并且基于響應來估計利用程度。
云計算資源的主要失效概率也可基于云計算資源的物理環(huán)境。
此外,云計算資源的主要失效概率可基于與云計算資源關聯的故障和錯誤數據。
云計算資源的主要失效概率也可基于請求進程的故障和錯誤數據。
根據第一方面的另一變化,布置還配置成指派具有最高主要故障概率的單個云計算資源到具有最低進程優(yōu)先級的請求進程。
根據第二方面的對應的變化,方法還包括指派具有最高故障概率的單個云計算資源到具有最低進程優(yōu)先級的請求進程。
應強調的是,術語“包括(comprise)/包括(comprising)”當在本說明書中使用時用于指示所敘述的特征、整體、步驟或組件的存在,而不排除存在或添加一個或多個其它特征、整體、步驟、組件或其群組。
附圖說明
現在將與附圖相聯系,更詳細地描述本發(fā)明,其中:
圖1以示意圖方式顯示與云計算數據中心進行通信的多個進程,
圖2以示意圖方式顯示包括多個物理云計算資源和由一些云計算資源采用的輔助資源的云計算數據中心,
圖3顯示在云計算數據中心中實現云計算資源分配布置的第一方法的示意框圖,
圖4顯示實現云計算資源分配布置的第二方法的示意框圖,
圖5顯示根據第一實施例的在用于分配物理云計算資源的方法中的方法步驟的流程圖,
圖6顯示根據第二實施例的在用于分配物理云計算資源的方法中的方法步驟的流程圖,
圖7以示意圖方式顯示由云計算資源分配布置執(zhí)行的用于確定與云計算資源關聯的主要故障概率的多個方法步驟,以及
圖8顯示包括帶有用于實施云計算資源分配布置的功能性的計算機程序代碼的數據載體的計算機程序產品。
具體實施方式
在下面的描述中,為了解釋而不是限制的目的,闡述了特定的細節(jié),如特定的體系結構、接口、技術等,以便提供本發(fā)明的詳盡理解。然而,對本領域的技術人員顯而易見的是,本發(fā)明可在脫離這些特定細節(jié)的其它實施例中實踐。在其它實例中,忽略了熟知的布置、裝置、電路和方法的詳細描述以免不必要的細節(jié)混淆本發(fā)明的描述。
圖1以示意圖方式顯示可以為云計算數據中心的數據中心10,各種進程將數據中心將要完成的處理任務發(fā)送到該云計算數據中心。作為備選,任務可由人發(fā)送。處理任務也可涉及在數據中心10中實施虛擬機。作為示例,存在第一進程PR1、第二進程PR2、第三進程PR3和第四進程PR4發(fā)送任務到數據中心10。作為示例,第一進程可以是語音媒體處理進程,并且第二進程PR2可以是批量數據處理進程。此外,這些進程可在處理其指派的任務方面對數據中心的可用性具有不同要求,其中可用性要求可在所謂的服務級別協議(SLA)中陳述。因此,鑒于具有優(yōu)點的數據中心,不同進程可具有不同進程優(yōu)先級,其中,高優(yōu)先級具有高可用性要求,并且低優(yōu)先級具有更低的可用性要求。優(yōu)先級是業(yè)務優(yōu)先級(business priority),不是操作優(yōu)先級。它們因此不是反映次序(要以此次序處理任務)的優(yōu)先級,而是用于滿足協議中規(guī)定的可用性的優(yōu)先級。作為示例,可用性要求可陳述為百分比。例如,第一應用PR1可要求99.999%的可用性,第二PR2可要求99.99%的可用性,第三PR3也可要求99.99%的可用性,以及第四PR4可要求99.9%的可用性。在此情況下,第一進程PR1具有最高優(yōu)先級,第二和第三進程PR2和PR3具有共享第二最高優(yōu)先級,以及第四進程PR4具有最低優(yōu)先級。此外,SLA也可陳述處理對安全性有多敏感。此安全性敏感度也可在進程優(yōu)先級中反映。
圖2以示意圖方式顯示在數據中心10中的各種云計算資源及輔助資源。云計算資源在此處可以是所謂的處理刀片,其基于處理器和本地固態(tài)磁盤(SSD)組合。作為示例,處理刀片可包括一個或兩個處理器和諸如一個或兩個SSD磁盤等一個或兩個硬盤。此類處理刀片此處是第一類型的云計算資源CPRA,并且可在處理刀片機柜或機箱中提供。在圖2中,有第一機柜或機箱11,其帶有多個處理刀片CPRA,其中指示了第一類型CPRA 12的一個此類云計算資源。也有第二機柜或機箱14,其帶有第一類型的多個云計算資源,其中指示了第二CPRA 16。處理刀片全部連接到交換器形式的第一輔助資源20以便連接到其它輔助資源。雖然僅第一機柜11的處理刀片顯示為連接到交換器20,但應認識到的是,第二機柜14的處理刀片也連接到它。其它輔助資源包括網絡附連存儲(NAS) 22,其是用于由云計算資源和存儲區(qū)域網絡SAN (24)執(zhí)行的處理的附加存儲區(qū)域。這兩種其它輔助資源可由其它硬盤組成以便執(zhí)行處理器操作。作為示例,SAN可由50-100個硬盤組成。在圖中也顯示有第二類型的云處理資源CPRB 18,其(與第一類型相對)是獨立的資源,即,不與機柜中其它云計算資源組合的云計算資源。此第二類型的資源是所謂的披薩盒(pizza box)資源,包括一個或更多個處理器,如1-4個CPU和8-10個硬盤。它一般不使用諸如SAN或NAS等輔助資源。
此外,資源可具有不同壽命。第一類型的第一云計算資源12可已在一年前投入運行,第一類型的第二云計算資源16可以是全新的,并且剛打算開始使用。另一方面,第二類型的云計算裝置18在例如5年期間已投入運行。
圖3顯示實現云計算資源分配布置26的第一方法的示意框圖。云計算資源分配布置26可以以連接到程序存儲器M 30的處理器28形式提供。程序存儲器30可包括實施云計算資源分配布置26的功能性的多個計算機指令,并且處理器28在對這些指令起作用時實施此功能性。因此,能夠看到的是,處理器28和存儲器30的組合提供云計算資源分配布置26。
圖4顯示實現云計算資源分配布置26的第二方式的示意框圖。云計算資源分配布置26可包括主要故障概率確定單元PFPD 32、可用性調查單元AI 34和云計算資源指派單元CCRA 36。
此外,云計算資源分配布置26可還使用一些云計算資源實施,可能與輔助資源一起實施。計算機程序代碼例如可存儲在處理刀片的SSD磁盤之一上,并且在由相同處理刀片上的對應的處理器運行時提供資源分配布置。布置可以是固定的,表現在它被指派到固定物理資源。備選地,可能它是移動的,并且從資源移動到資源,如基于可靠性,例如從處理刀片移動到處理刀片。
現在將對圖5進行參考,描述第一實施例,圖5顯示在用于由云計算資源分配布置執(zhí)行的分配物理云計算資源的方法中的方法步驟的流程圖。
如更早提及的,今天常見的是,諸如圖1中的進程PR1、PR2、PR3和PR4等各種類型的進程將有關任務的執(zhí)行的處理請求發(fā)送到數據中心10(例如,虛擬機的任務)。這些請求隨后指派到不同云計算資源(任務在其中執(zhí)行)。數據中心中的負責選擇資源以執(zhí)行此類任務的實體則是云計算資源分配布置26。
布置26可因此也被視為指派特定工作負載到數據中心10中特定硬件實例的調度器。
調度器或云計算資源分配布置26因此負責指派數據中心內的硬件資源或云計算資源,并且這些資源執(zhí)行處理或者實施虛擬機和將可能結果發(fā)送到諸如計算機等請求實體。可在運行某一類型進程的請求實體則不知道或為此不關心在數據中心中哪個物理資源執(zhí)行處理,而只知道處理已完成。作為備選,請求實體可以是人。在此操作中,處理或虛擬機可能必須達到一些的可靠性要求。由應用指派的任務的處理可根據服務級別協議(SLA)進行,協議指定由應用指派的處理需要有多可靠。例如,可存在與識別在應用的任務的處理中由數據中心要求的可靠性的協議關聯的平均修復時間MTTR或可用性值。
對于執(zhí)行云計算的數據中心,因此,關注的是能夠滿足各種可靠性要求,這不是那么簡單的。
熟知的事實是硬件具有隨壽命變化的失效概率分布或故障概率函數,其經常被稱為浴缸(bathtub)函數,這是因為其被形成像浴缸或U。此函數(其因此是壽命相關的失效概率函數(FPF))具有在硬件的生命期開始時高,中間低并且在末尾時越來越高的失效概率。該函數用于獲得物理資源的主要故障概率。每個云計算處理資源將因此接收主要失效概率,其可基于資源的平均失效間隔時間(MTBF)值,即,上述壽命相關的失效概率函數的值。
然而,其它因素也可影響云計算資源的主要故障概率。例如,也已知的是,溫度、灰塵和濕度可對硬件平均失效間隔時間(MTBF)有不利影響,并且對于一些組件(例如,固態(tài)存儲裝置),有源(讀/寫)或無源(使用的存儲的百分比)利用也可直接影響MTBF。因此,這些也可用于影響物理資源的主要故障概率。
隨著電信和其它關鍵解決方案引入云技術,已經認識到,某些應用比其它應用“更”關鍵。它們因此具有基于其SLA中的可用性要求的不同優(yōu)先級。
在確定指派哪些資源到任務或虛擬機,以便滿足在覆蓋發(fā)送帶有任務的請求的進程的SLA中規(guī)定的可用性要求以及以便獲得處理資源的有效使用而無不必要的替換中,本發(fā)明的方面使用一些或所有上面提及的信息。
本發(fā)明的方面因此提供方法以平衡進程的可用性要求與現有硬件的有效使用。
布置26因此在為應用執(zhí)行硬件的選擇時,應用有關硬件生命周期的知識以及使用有關應用關鍵性的知識。
云計算資源分配布置26使用在數據中心中可存在物理云計算處理資源形式的硬件的事實,其中,至少一些資源具有不同壽命,這意味著它們處在其生命周期的不同階段,并且因此具有不同可靠性。
此知識與有關要求的可用性的知識相組合,并且用于選擇哪些資源將執(zhí)行進程的任務。
為執(zhí)行根據第一實施例的方法,云計算資源分配布置26先接收對為多個進程執(zhí)行計算任務的請求,步驟38。它可因此接收對來自第一進程PR1,來自第二進程PR2,來自第三進程PR3和來自第四進程PR4的處理的請求。如更早提及的,作為備選,請求可由人發(fā)送。進程的處理每個由陳述可靠性要求的不同SLA覆蓋,并且因此進程具有不同優(yōu)先級,其中,如更早提及的,第一進程PR1可具有最高優(yōu)先級,第二和第三進程PR2和PR3共享第二最高優(yōu)先級,以及第四進程PR4可具有最低優(yōu)先級。處理請求可由主要故障概率確定單元32接收。作為備選,它們可由可用性調查單元34接收。在此第一實施例中,它們由可用性調查單元34接收。
可用性調查單元34調查用于執(zhí)行請求的任務或虛擬機的云計算資源的可用性,步驟40。這可涉及調查或第一和/或第二類型的哪些云計算資源占用,并且哪些自由接收任務。此調查可通過可用性調查單元34查詢單獨云計算資源和從中接收響應來執(zhí)行。它也可通過監(jiān)視資源的處理器關于處理器負載的活動,并且如果處理器負載低于處理器負載閾值,則確定處理器可用來完成。
隨后,可關于主要故障概率而調查可用的那些資源。主要故障概率確定單元32可具有寄存器,其中存儲了各種資源的單獨主要失效概率。在其最簡單的形式中,物理資源的主要失效概率只基于此資源的壽命相關的失效概率函數,即,取決于該資源的壽命的失效概率函數。主要故障概率確定單元32可因此基于壽命和失效概率函數,確定每個云計算資源的主要失效概率。主要失效概率可因此通過在對應于壽命的曲線上的值來獲得。在其它實例中,也可基于多個其它輸入來獲得主要失效概率。例如,基于資源的操作的量,即,已使用的資源有多少,提供資源的環(huán)境(其中環(huán)境可包括操作條件,如機架或機柜中的溫度,在該區(qū)域是否有任何冷卻等),可調整從壽命相關的失效概率函數獲得的值。也可能的是,基于云計算資源使用哪些輔助資源(如果有),調整壽命相關的失效概率函數的值。這些只是可調整資源的概率曲線以便獲得云計算資源的主要故障概率的一些方式。
云計算資源指派單元36隨后基于進程優(yōu)先級來指派云計算資源到進程PR1、PR2、PR3、PR4,步驟42,其中有最高進程優(yōu)先級的進程被指派到具有最低主要失效概率的云計算資源。這意味著具有極高可用性要求的資源可接收具有最低主要失效概率的資源。
如果第一進程PR1由語音媒體處理節(jié)點運行,則例如能夠將此進程的任務調度到被認為當前處在低失效風險的硬件上,而如果第四進程PR4由帶有盡力而為型(best effort)服務級別協議的普通web服務器運行,則能夠將此進程的任務調度到以前從未通電的硬件上或者調度到帶有接近失效的本地SSD磁盤的處理刀片上。
這樣,在確保云計算資源的更有效使用的同時,可滿足SLA的可用性要求。因此,在將失效風險和應用的敏感度考慮在內的同時,硬件有著良好的利用。
現在將對圖6和圖7進行參考,描述第二實施例,其中,圖6顯示在用于分配物理云計算資源的方法中的方法步驟的流程圖,并且圖7以示意圖方式顯示由云計算資源分配布置執(zhí)行的用于確定與云計算資源關聯的主要故障概率的多個方法步驟。
在此實施例中,主要故障概率確定單元32保持有用于為每個處理資源或云計算資源確定主要故障概率的主要故障概率函數的清單(inventory),其中,主要故障概率基于資源的壽命(通過基于壽命相關的失效概率函數)。因此,正如在第一實施例中一樣,存在基于故障曲線或MTBF曲線和資源的壽命的主要故障概率。然而,在此實施例中,存在做出的其它確定,以便獲得更好地反映失效風險的主要故障概率。
對于清單中的每個硬件,因此,存在關聯MTBF配置文件(profile)或故障概率函數。此MTBF配置文件能夠通過將環(huán)境方面和利用方面考慮在內的動態(tài)計算而增強。此外,在清單中,可存在用于云計算資源和輔助資源兩者的故障概率函數。
如在第一實施例中一樣,再次接收與進程PR1、PR2、PR3和PR4有關的對于執(zhí)行計算任務的多個處理請求,步驟44。布置26可因此接收對來自第一進程PR1,來自第二進程PR2,來自第三進程PR3和來自第四進程PR4的處理的請求。如以前一樣,請求將根據不同SLA處理,并且因此進程具有不同進程優(yōu)先級。處理請求可由主要故障概率確定單元32接收。作為備選,它們可由可用性調查單元34接收。在此第二實施例中,它們由主要故障概率確定單元32接收。
之后,主要故障概率確定單元32繼續(xù),并且確定不同資源的主要故障概率,步驟46?;趬勖褪Ц怕屎瘮?,確定每個云計算資源的主要失效概率。主要故障概率因此基于故障概率函數的故障概率pMTTR。在已為各種云計算資源確定這些故障概率后,主要故障概率確定單元32向云計算資源指派單元36通知單獨云計算資源的主要故障概率。
此外,可用性調查單元34調查用于執(zhí)行請求的任務的云計算資源的可用性,步驟48。這可涉及調查或第一和/或第二類型的哪些云計算資源占用,并且哪些自由接收任務。這同樣可通過可用性調查單元34查詢單獨云計算資源和接收響應來完成。它也可通過監(jiān)視資源的處理器關于處理器負載的活動,并且如果處理器負載低于處理器負載閾值,則確定處理器可用來完成。
之后,云計算資源指派單元36基于進程優(yōu)先級來指派云計算資源到進程PR1、PR2、PR3、PR4,步驟50,其中有最高進程優(yōu)先級的進程被指派到具有最低主要失效概率的云計算資源。這意味著具有極高可用性要求的資源可接收具有最低失效概率的資源。
在資源的指派中,快速“結束摧毀(close to ruin)”一個單個云計算資源,而不是在多個資源上散布負載是更好的。因此,指派有最低優(yōu)先級的可以為非關鍵進程的進程到具有最高主要失效概率的云處理資源可以是有利的。例如,如果第二主要云計算資源16具有最高主要失效概率,則將它指派到具有最低優(yōu)先級的第四進程PR4可以是期望的。這可能引起與SSD磁盤有關的關注,其中,價格持續(xù)下降,并且在確保許多磁盤仍不可能失效的同時,所有SSD磁盤的大規(guī)模替換的時間能夠拖延得越長,替換價格將越低(并且只是澄清:在磁盤完全失效前,代表非關鍵進程的處理可以能長時間運行)。具有最低進程優(yōu)先級的請求進程可被指派具有最高主要故障概率的單個云計算資源。
如前面提及的一樣,確定主要故障概率的方法可基于比故障概率函數pMTTR的故障概率更多的輸入。主要故障概率例如可對其使用的范圍具有相關性。云計算資源的主要失效概率可因此基于云計算資源的利用程度。經常使用的云計算資源例如可比更不常使用的物理資源更可能變得有故障。出于此原因,主要故障概率確定單元32可查詢輔助資源由各種云計算資源的利用程度,步驟52。它例如可將此類查詢發(fā)送到交換器20、NAS 20和SAN 24。例如,可使用像自監(jiān)視、分析和報告技術(SMART)命令等機制,探測裝置的利用。
輔助裝置隨后可通過哪些處理資源已使用它們的數據做出響應,其中,可基于響應估計利用程度。
主要故障概率確定單元32也可查詢云處理資源的利用程度,步驟54。此處也可使用像SMART命令等機制來探測利用。也可能使用智能平臺管理接口(IPMI)命令獲得以不同速度的風扇運行時間、上電循環(huán)(power on cycles)及利用時長。
主要故障概率確定單元32也可查詢外部管理系統,步驟56。例如,它可查看外部日志或數據庫。隨后,可基于響應來估計利用程度。
也可能可以在安裝一件硬件時導入硬件利用數據 - 例如,在其從修復而恢復后,其中計數器可已歸零,或者在使用利用正常運行時間的估計時。
基于所有或一些這些輸入,主要失效確定單元32隨后確定或估計每個云計算資源的利用程度,步驟58。此使用程度隨后可接收對應的使用故障概率pu。
主要故障概率確定單元32也可針對輔助裝置的次要故障概率而調查目錄,步驟60。這些概率也可與U或浴缸曲線關聯,并且由每個云計算資源使用的輔助裝置的值可被考慮。至少一些云計算資源采用輔助資源以便其計算任務的執(zhí)行,并且主要故障概率確定單元32可在確定云計算資源的主要失效概率中考慮這些使用的輔助資源的次要失效概率SFP。
因此,可通過與所述云計算資源使用的裝置關聯的次要概率來調整主要故障概率。如果相關性拓撲已知(例如,計算刀片取決于網絡交換器和電源),則應計算和使用總MTBF。
如果云計算資源例如使用交換器,則可使用對應的次要故障概率pS1;如果采用NAS單元22,則可使用對應的次要故障概率pS2;并且如果SAN單元24將要采用,則可使用對應的次要故障概率pS3。
此外,主要故障概率確定單元32可調查每個云計算資源的物理環(huán)境,步驟62。因此,它可獲得諸如溫度、濕度、振動數據或電源數據(例如,指示是否有不潔的(unclean )功率尖峰等的電源數據)等環(huán)境數據。由于在冷卻方面的節(jié)能使服務器室中溫度上升,錯誤的概率模型可將數據中心中的位置或機架或機柜中的位置考慮在內以考慮不同環(huán)境方面。主要故障確定單元32可因此也提供用于每個云計算資源的環(huán)境故障概率pe,以便使主要失效概率也基于物理環(huán)境。
作為示例,如果第一機柜11具有更佳環(huán)境,例如,如果該溫度比在第二機柜14中的溫度更低,則在此第一機柜11中的云計算資源將比在第二機柜14中的云計算資源具有更低環(huán)境故障概率。在此示例中,資源12將因此比資源16具有更低的環(huán)境故障概率。
主要故障概率確定單元32也可調查云計算資源的故障和錯誤數據,步驟64。系統也能夠包括啟發(fā)(heuristic)信息 - 已知例如由于存儲器錯誤或類似物或甚至易于停電的整個站點原因而不時自發(fā)重新引導的“邊界硬件”(borderline hardware)。主要故障確定單元32因此也可提供故障相關的故障概率pf,其取決于物理資源的容易出錯的程度,以便使云計算資源的主要失效概率基于與云計算資源關聯的故障和錯誤數據。
主要故障概率確定單元32也可調查進程的故障錯誤數據,步驟66。針對應用的MTTR能夠從啟動應用的普通事件和存儲這些事件中啟發(fā)地確定,或者明確地包括在由云管理系統讀取的應用描述符中。IT可因此也提供進程相關的故障相關故障概率pp,以便獲得也基于請求進程的故障和錯誤數據的云計算資源的主要失效概率。
基于所有或一些此輸入以及基于壽命,并且更具體地說,基于針對此壽命的故障概率函數的故障概率pMTTR,主要故障確定單元32隨后可能為所有或一些上面提及的概率確定總主要故障概率ptot,步驟68。
對于經由交換器20使用NAS 22和SAN 24兩者的第一類型的云計算資源,主要故障概率例如可設置為:
Ptot = pu + pe + pS1 + pS2 + pS3 + pf + pp + pMTTR
此處,可看到的是,對于第二類型的云計算資源的對應的主要故障概率可設置為:
Ptot = pu + pe + pf + pp + pMTTR
雖然上面未顯示,但應認識到的是,在等式中使用權重是可能的。也可能以其它方式組合上述一個或更多個概率值。一些情況下,例如,次要概率和壽命相關的概率函數的概率可例如彼此相乘。
此外,可關注只使用一個或幾個其它概率。作為示例,可忽略進程相關的故障相關故障概率pp。
上述布置具有多個優(yōu)點。它在滿足進程的各種可靠性要求與物理資源的有效使用之間提供了良好的平衡。這樣,與設備的良好使用相組合,未能滿足合約義務的風險得以降低,這從維護角度而言可以是有利的。
如上提及的一樣,進程的進程優(yōu)先級可考慮對安全性的敏感度。這意味著在任務或處理完成后不允許任務或虛擬機的敏感數據保持在物理資源上。當云計算資源在運轉時,它能夠被安全地擦除/清除。然而,如果資源在處理期間崩潰,則這是不可能的。如果發(fā)生此情況,則安全人員會必須趕到數據中心10,提出并損毀硬件。通過使此敏感度反映在進程優(yōu)先級中,降低了必須執(zhí)行此類嚴厲措施的風險。
如最初暗示的一樣,云計算資源分配布置26可以以帶有關聯程序存儲器的一個或更多個處理器的形式提供,存儲器包括計算機程序代碼,其帶有由處理器可執(zhí)行以便執(zhí)行云計算資源分配布置的功能性的計算機程序指令。
云計算資源分配布置的計算機程序代碼也可以為計算機程序產品的形式,例如,以諸如CD ROM盤或記憶棒等數據載體的形式。在此情況下,數據載體或記棒攜帶帶有計算機程序代碼的計算機程序,其將實施上述云計算資源分配布置的功能性。圖8中以示意圖方式顯示帶有計算機程序代碼72的一個此類數據載體70。
此外,可將云計算資源分配布置視為包括用于接收對為多個進程執(zhí)行計算任務的請求的部件,其中用于接收的部件可通過主要故障概率確定單元或可用性調查單元來實施。
此外,可用性調查單元可被視為形成用于調查用于執(zhí)行請求的任務的云計算資源的可用性的部件。
云計算資源指派單元可又被視為形成用于基于進程優(yōu)先級,指派可用云計算資源到進程的部件。
主要故障概率確定單元可還被視為形成用于基于壽命和失效概率函數,確定每個云計算資源的主要失效概率的部件。此外,主要故障概率確定單元可被視為形成用于在確定云計算資源的主要失效概率中考慮使用的輔助資源的次要失效概率的部件。此外,主要故障概率確定單元可被視為形成用于基于云計算資源的利用程度,確定云計算資源的主要失效概率的部件。此外,主要故障概率確定單元可被視為形成用于查詢輔助資源由云計算資源的利用程度,并且基于響應來估計利用程度的部件。主要故障概率確定單元可還被視為形成用于查詢云計算資源有關指示利用的數據,并且基于響應來估計利用程度的部件。此外,主要故障概率確定單元可被視為形成用于查詢外部管理系統,并且基于響應來估計利用程度的部件。此外,主要故障概率確定單元可被視為形成用于基于云計算資源的物理環(huán)境,確定云計算資源的主要失效概率的部件。此外,主要故障概率確定單元可被視為形成用于基于與云計算資源關聯的故障和錯誤數據,確定云計算資源的主要失效概率的部件。此外,主要故障概率確定單元可被視為形成用于基于與請求進程的故障和錯誤數據,確定云計算資源的主要失效概率的部件。
最后,云計算資源指派單元可被視為形成用于指派具有最低進程優(yōu)先級的請求進程具有最高主要故障概率的單個云計算資源的部件。
雖然結合目前視為最可行和優(yōu)選的實施例描述了本發(fā)明,但要理解的是,本發(fā)明并不限于公開的實施例,而相反的是打算覆蓋各種修改和等效布置。因此,本發(fā)明僅受隨附權利要求限制。