IaaS云系統(tǒng)中物理機的主動更新方法、裝置及服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了一種IaaS云系統(tǒng)中物理機的主動更新方法、裝置及服務(wù)器,其中的主動更新方法包括以下步驟:獲取IaaS云系統(tǒng)中每臺物理機的歷史故障數(shù)據(jù);逐臺對獲取的歷史故障數(shù)據(jù)進行分析處理,獲得每臺物理機歷史故障數(shù)據(jù)的分布規(guī)律,并基于所得分布規(guī)律預(yù)測相應(yīng)物理機的下次故障數(shù)據(jù);依據(jù)預(yù)測結(jié)果對相應(yīng)物理機執(zhí)行更新操作,本發(fā)明的IaaS云系統(tǒng)中物理機的主動更新方法通過對每臺物理機的歷史故障數(shù)據(jù)進行分析、建模,獲得物理機故障的發(fā)生規(guī)律并依據(jù)所獲得的規(guī)律對下次故障發(fā)生點進行預(yù)測,動態(tài)的調(diào)整物理機的更新時機,與現(xiàn)有技術(shù)中設(shè)定固定更新時間或僅依據(jù)歷史故障數(shù)據(jù)平均值的方法相比,可以更好的兼顧更新系統(tǒng)開銷和云系統(tǒng)可靠性。
【專利說明】IaaS云系統(tǒng)中物理機的主動更新方法、裝置及服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于云計算【技術(shù)領(lǐng)域】,涉及云計算運行中的資源實施調(diào)度和優(yōu)化控制技術(shù),具體涉及一種IaaS云系統(tǒng)中物理機(Physical Machine, PM)的主動更新方法、裝置及服務(wù)器。
【背景技術(shù)】
[0002]云計算是指將計算分布在大量的分布式計算機上,使用云計算平臺、通過網(wǎng)絡(luò)為用戶提供信息服務(wù)的計算模式。相對于傳統(tǒng)的軟件形態(tài),云計算具有松散耦合、隨需應(yīng)變、成本可控、資源虛擬、異構(gòu)協(xié)同等顯著的優(yōu)勢,使其更適應(yīng)現(xiàn)今的電子商務(wù)、柔性制造、移動互聯(lián)網(wǎng)等應(yīng)用。
[0003]云計算包含兩個方面的含義:一個方面是底層構(gòu)建的云計算平臺基礎(chǔ)設(shè)施,是用來構(gòu)建上層應(yīng)用程序的基礎(chǔ);另一方面的含義是構(gòu)建在這個基礎(chǔ)平臺之上的云計算應(yīng)用程序。
[0004]云計算按照服務(wù)類型可分為三類:將基礎(chǔ)設(shè)施作為服務(wù)(Infrastructure asa Service, IaaS)、將平臺作為服務(wù)(Platform as a Service, PaaS)和將軟件作為服務(wù)(Software as a Service, SaaS)。IaaS模式云計算平臺是通過系統(tǒng)虛擬化、多處理器虛擬化、內(nèi)存虛擬化、I/O虛擬化等虛擬化技術(shù)將物理資源虛擬化成資源池,這些資源再由云計算平臺進行統(tǒng)一的管理調(diào)度。目前,有很多企業(yè)和科研機構(gòu)推出了 IaaS云計算平臺,面向用戶提供計算資源和存儲資源。最具有代表性的是亞馬遜(Amazon)的彈性計算云(Elastic Compute Cloud, EC2)。
[0005]同其他軟硬件系統(tǒng)中的模塊一樣,IaaS云中的主要計算資源,物理機在運行時也受到硬件故障和軟件故障的制約。當(dāng)PM出現(xiàn)上述故障和故障時,其上運行的應(yīng)用和程序(主要以虛擬機(Visual Machine, VM)實例的形式存在)也隨之故障。當(dāng)系統(tǒng)監(jiān)測到故障后,開始對故障的PM和其上的VM進行修復(fù),具體而言,先將故障的VM的最近存檔點(checkpoint)映像(image)提取出來并轉(zhuǎn)移到系統(tǒng)的后備存儲或后備PM上,然后對PM進行恢復(fù)(硬重啟或軟重啟),最后將提取出的VM映像重新加載到已恢復(fù)的PM上并執(zhí)行啟動。
[0006]上述這種事后修復(fù)的措施,存在一定的不足:從PM故障到故障被系統(tǒng)檢測到還有一段時間的延遲,因此可能出現(xiàn)“系統(tǒng)向已經(jīng)故障的PM繼續(xù)派遣任務(wù)”的錯誤;故障時VM的狀態(tài)與最近存檔點的保存的VM映像所代表的狀態(tài)有所區(qū)別,因此PM修復(fù)后實際上是將所涉及的VM還原到故障前某時刻而非故障時的狀態(tài),這實際上導(dǎo)致了無用功;故障后修復(fù)的系統(tǒng)開銷較大,對IaaS云系統(tǒng)的性能的負(fù)面影響較大。為了避免上述問題,IaaS云系統(tǒng)多采用“故障后修復(fù)”與“主動更新(rejuevenation)”相結(jié)合的策略。主動更新是指,在PM還未出現(xiàn)故障時,就主動停止其運行并將其上的VM狀態(tài)保存,待PM重啟完成時,重新加載保存的VM狀態(tài)并繼續(xù)執(zhí)行。相對于故障后修復(fù),主動更新的優(yōu)勢在于:更新通常只是進行重啟工作,故其系統(tǒng)開銷遠小于修復(fù);由于更新重啟后恢復(fù)的是更新前最后一刻的VM狀態(tài),因此VM執(zhí)行進度不受影響,不存在無用功。
[0007]然而,如何確定PM主動更新的時機,卻是一個技術(shù)難點。如果主動更新間隔時間過短,更新過于頻繁,PM故障出現(xiàn)的可能性降低,然而更新帶來的系統(tǒng)開銷將抵消PM故障率降低產(chǎn)生的系統(tǒng)性能提升;如果更新間隔時間過大,更新過于稀疏,則PM故障先于更新出現(xiàn)的概率增大,系統(tǒng)不得不以事后修復(fù)作為主要的維護措施,帶來可靠性和性能的損失,失去了主動更新的意義。
[0008]在此背景下,如何動態(tài)的根據(jù)IaaS云的運行時狀態(tài)來盡心更新時機的決策,從而實現(xiàn)系統(tǒng)開銷和性能的雙贏,變成為了研究的熱點和難點。
[0009]云計算本身屬于一個新興【技術(shù)領(lǐng)域】,相關(guān)的技術(shù)、理論和方法還處于成長期,現(xiàn)有的IaaS云系統(tǒng)的PM更新技術(shù),存在諸多不足:
[0010](I)多采用固定周期PM更新的手段?,F(xiàn)有的IaaS系統(tǒng)多預(yù)先設(shè)定一個固定的間隔時間進行周期性的更新。然而,由于系統(tǒng)負(fù)載、可靠性的動態(tài)可變性,固定間隔時間的更新往往難以兼顧更新操作開銷少和系統(tǒng)可靠性高的要求;
[0011](2)缺乏量化趨勢預(yù)測的機制?,F(xiàn)有的IaaS云維護技術(shù),沒有充分的對系統(tǒng)歷史故障數(shù)據(jù)進行分析和建模,而多是機械的采用歷史平均或最近歷史故障數(shù)據(jù)作為依據(jù)進行控制決策;
[0012](3)沒有考慮不同PM的差別?,F(xiàn)有的技術(shù)將IaaS云系統(tǒng)中的各個PM—視同仁,采取同樣的控制策略和控制時間間隔,而沒有考慮不同PM在負(fù)載、執(zhí)行效率、可靠性上的差異。
【發(fā)明內(nèi)容】
[0013]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的上述問題,提供一種能夠兼顧更新開銷、云系統(tǒng)可靠性和PM差異性的IaaS云系統(tǒng)中物理機的主動更新方法、裝置及服務(wù)器。
[0014]為解決上述技術(shù)問題,本發(fā)明采用以下技術(shù)方案:
[0015]一種IaaS云系統(tǒng)中物理機的主動更新方法,包括以下步驟:
[0016]獲取IaaS云系統(tǒng)中每臺PM的歷史故障數(shù)據(jù);
[0017]逐臺對獲取的歷史故障數(shù)據(jù)進行處理,獲得每臺PM歷史故障數(shù)據(jù)的分布規(guī)律,并基于所得分布規(guī)律預(yù)測相應(yīng)PM的下次故障數(shù)據(jù);
[0018]依據(jù)預(yù)測結(jié)果對相應(yīng)PM執(zhí)行更新操作。
[0019]進一步的技術(shù)方案是,上述IaaS云系統(tǒng)中物理機的主動更新方法貫穿整個IaaS云系統(tǒng)運行過程。
[0020]進一步的技術(shù)方案是分別對獲取的每臺PM的歷史故障數(shù)據(jù)進行平滑處理,并區(qū)分每臺PM歷史故障數(shù)據(jù)中的平滑點和非平滑點。
[0021]進一步地,上述的平滑處理可以采用最小二乘法、傅里葉變換或其他具有相同技術(shù)效果的方法。
[0022]進一步地,上述的平滑處理可以采用以下方法:
[0023]對于第j臺PM的第i個歷史故障數(shù)據(jù)gZy,
[0024]首先,計算該歷史故障數(shù)據(jù)的曲度余弦值yxi;j:
【權(quán)利要求】
1.一種IaaS云系統(tǒng)中物理機的主動更新方法,其特征在于:包括以下步驟: 獲取IaaS云系統(tǒng)中每臺物理機的歷史故障數(shù)據(jù); 逐臺對獲取的歷史故障數(shù)據(jù)進行處理,獲得每臺物理機歷史故障數(shù)據(jù)的分布規(guī)律,并基于所得分布規(guī)律預(yù)測相應(yīng)物理機的下次故障數(shù)據(jù); 依據(jù)預(yù)測結(jié)果對相應(yīng)物理機執(zhí)行更新操作。
2.根據(jù)權(quán)利要求1所述的IaaS 云系統(tǒng)中物理機的主動更新方法,其特征在于:所述IaaS云系統(tǒng)中物理機的主動更新方法貫穿整個IaaS云系統(tǒng)運行過程。
3.根據(jù)權(quán)利要求1所述的IaaS云系統(tǒng)中物理機的主動更新方法,其特征在于:分別對獲取的每臺物理機的歷史故障數(shù)據(jù)進行平滑處理,并區(qū)分每臺物理機歷史故障數(shù)據(jù)中的平滑點和非平滑點。
4.根據(jù)權(quán)利要求3所述的IaaS云系統(tǒng)中物理機的主動更新方法,其特征在于:所述平滑處理可以采用最小二乘法、傅里葉變換法或以下方法: 對于第j臺物理機的第i個歷史故障數(shù)據(jù)gzu, 首先,計算該歷史故障數(shù)據(jù)的曲度余弦值yxu:.
5.根據(jù)權(quán)利要求3權(quán)利要求所述的IaaS云系統(tǒng)中物理機的主動更新方法,其特征在于:求歷史故障數(shù)據(jù)中平滑點的平均斜率及非平滑點的平均影響力,由所得平滑點的平均斜率和非平滑點的平均影響力共同預(yù)測下一個故障數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的IaaS云系統(tǒng)中物理機的主動更新方法,其特征在于:所述非平滑點的平均影響力YXL定義如下:
7.根據(jù)權(quán)利要求1~6任一項權(quán)利要求所述的IaaS云系統(tǒng)中物理機的主動更新方法,其特征在于:所述歷史故障數(shù)據(jù)為歷史故障間隔時間,所述歷史故障間隔時間樣本yb的獲取包括以下步驟: 設(shè)定一個時間間隔jg ; 統(tǒng)計第i輪時間間隔jg內(nèi)第j臺物理機的故障次數(shù)CSu ; 第i輪時間間隔jg內(nèi)第j臺物理機的故障間隔時間yb。為:
8.—種基于權(quán)利要求1~7任一項權(quán)利要求所述的IaaS云系統(tǒng)中物理機的主動更新方法的IaaS云系統(tǒng)中物理機的主動更新裝置,其特征在于:包括: IaaS云分析模塊,用于獲取IaaS云系統(tǒng)中各物理機的歷史故障數(shù)據(jù)記錄值,并為每個物理機決策是否進行更新操作; IaaS管理模塊,用于接收決策信息,并為對應(yīng)的PM執(zhí)行更新操作。
9.根據(jù)權(quán)利要求8所述的IaaS云系統(tǒng)中物理機的主動更新裝置,其特征在于:所述IaaS云分析模塊包括: 數(shù)據(jù)獲取單元,從IaaS云系統(tǒng)開始運行起,所述數(shù)據(jù)獲取單元就持續(xù)不斷的獲取各物理機的歷史故障數(shù)據(jù); 數(shù)據(jù)處理單元,用于接收來自數(shù)據(jù)獲取單元的歷史故障數(shù)據(jù),并對歷史故障數(shù)據(jù)進行處理,; 預(yù)測單元,用于接收處理后的歷史故障數(shù)據(jù),分析歷史故障的發(fā)生規(guī)律并基于所得發(fā)生規(guī)律預(yù)測下次故障的發(fā)生點; 決策控制單元,接收預(yù)測單元預(yù)測的下次故障發(fā)生點,并作出更新決策信息; 存儲單元,用于存儲關(guān)于IaaS云系統(tǒng)中物理機的主動更新方法的程序,該程序指令相關(guān)的單元完成相應(yīng)的步驟;所述存儲單元還用于存儲每臺PM的歷史故障數(shù)據(jù); 和/或所述IaaS管理模塊包括物理機更新管理單元,所述物理機更新管理單元用于接收IaaS云分析模塊決策控制單元發(fā)出的更新決策信息,并對相應(yīng)的物理機執(zhí)行更新。
10.一種IaaS云系統(tǒng)中物理機的主動更新服務(wù)器,其特征在于:包括權(quán)利要求8~9所述的IaaS云系統(tǒng)中物理機的主動更新裝置。
【文檔編號】H04L12/24GK103957229SQ201310750935
【公開日】2014年7月30日 申請日期:2013年12月31日 優(yōu)先權(quán)日:2013年12月31日
【發(fā)明者】閆明明 申請人:電子科技大學(xué)