本發(fā)明屬于云計算資源管理領(lǐng)域,具體涉及一種基于分級強化學習的自適應多粒度云資源編排方法。
背景技術(shù):
1、隨著云計算的廣泛應用和快速發(fā)展,如何高效管理日益復雜的云基礎(chǔ)設(shè)施資源,滿足用戶和應用的多樣化需求,已成為云服務(wù)提供商亟待解決的關(guān)鍵問題。傳統(tǒng)的靜態(tài)資源配置方法和粗粒度動態(tài)調(diào)整策略面臨諸多挑戰(zhàn),難以適應云環(huán)境的高動態(tài)性、高異構(gòu)性和高不確定性。主要問題包括:
2、(1)云工作負載呈現(xiàn)復雜多變的動態(tài)特性,而靜態(tài)資源分配方法缺乏對負載變化的自適應能力,導致資源供需失衡問題突出。
3、(2)云環(huán)境中存在大量異構(gòu)任務(wù),粗粒度的資源調(diào)度方式無法匹配個性化的任務(wù)需求和性能目標,帶來資源浪費和任務(wù)延遲等問題。
4、(3)云系統(tǒng)的不確定性,如負載的突發(fā)行為、軟硬件故障等,給資源管理帶來極大挑戰(zhàn),急需智能化的異常處理與動態(tài)決策機制。
5、(4)云資源利用效率與能源成本的權(quán)衡日益凸顯,亟需協(xié)同優(yōu)化計算、存儲、網(wǎng)絡(luò)等多維異構(gòu)資源,平衡系統(tǒng)性能與經(jīng)濟效益。
6、針對以上痛點,業(yè)界和學界開展了卓有成效的研究。有學者提出一種云環(huán)境下基于強化學習的在線資源分配方法carlo,通過學習序列決策策略自適應負載變化。一些機構(gòu)設(shè)計了面向異構(gòu)工作負載的雙層資源調(diào)度框架dress,結(jié)合任務(wù)聚類和深度強化學習技術(shù),實現(xiàn)云資源的細粒度動態(tài)配置。還有學者提出一種資源利用率最大化與能耗最小化的多目標云資源優(yōu)化模型cruze,求解服務(wù)器開關(guān)與任務(wù)放置聯(lián)合優(yōu)化問題。
7、盡管已有工作在智能化云資源管理上取得了可喜進展,但如何有機融合多智能計算范式,協(xié)同優(yōu)化跨數(shù)據(jù)中心、機架、服務(wù)器、虛擬機等多個粒度的調(diào)度決策,平衡多個性能目標,仍是函待解決的關(guān)鍵難題。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的旨在解決日益復雜的云環(huán)境中海量異構(gòu)工作負載的智能調(diào)度與資源優(yōu)化問題,提供一種基于分級強化學習的自適應多粒度云資源編排方法,提出一種自適應多粒度云資源編排框架amg-rl,創(chuàng)新性地將集成聚類、時間序列預測、分層深度強化學習相結(jié)合,實現(xiàn)端到端的云資源智能化管控。
2、為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于分級強化學習的自適應多粒度云資源編排方法,提出一種自適應多粒度云資源編排框架amg-rl,將云任務(wù)自適應分組為k個任務(wù)簇,預測不同任務(wù)簇的資源需求,基于劃分的不同任務(wù)簇及相應任務(wù)簇的資源需求,進行多粒度云資源編排,以實現(xiàn)任務(wù)資源分配與調(diào)度。
3、在本發(fā)明一實施例中,還包括對多粒度云資源編排的策略進行性能反饋,以調(diào)優(yōu)多粒度云資源編排的策略。
4、在本發(fā)明一實施例中,所述方法,包括如下步驟:
5、步驟s1、集成模糊聚類:采用集成模糊c均值算法對云任務(wù)進行聚類;集成模糊c均值算法的輸入為表示任務(wù)資源消耗特征的d維向量集x、簇數(shù)k以及集成規(guī)模r;對每個基學習器,隨機初始化模糊隸屬度矩陣和簇中心,迭代優(yōu)化目標函數(shù)直到收斂;最后結(jié)合各聚類結(jié)果,通過求解二次規(guī)劃問題得到綜合隸屬度矩陣,并對任務(wù)進行硬劃分,分組為不同的k個任務(wù)簇;
6、步驟s2、簇級工作負載預測:針對每個任務(wù)簇,構(gòu)建獨立的arima時間序列模型,以預測每個任務(wù)簇未來的資源需求;對每個任務(wù)簇的資源使用序列進行平穩(wěn)性檢驗,利用自相關(guān)和偏相關(guān)函數(shù)或信息準則確定arima時間序列模型的階數(shù),通過最大化似然函數(shù)估計arima時間序列模型參數(shù),并生成多步資源需求預測值;
7、步驟s3、分層深度強化學習編排:設(shè)計分層深度強化學習架構(gòu),通過全局的數(shù)據(jù)中心控制器和本地的簇控制器協(xié)同學習多粒度資源分配策略;將云環(huán)境建模為分層馬爾科夫決策過程,定義全局狀態(tài)空間、多粒度動作空間、轉(zhuǎn)移函數(shù)和多目標獎勵函數(shù);采用深度q網(wǎng)絡(luò)算法訓練數(shù)據(jù)中心控制器和簇控制器,數(shù)據(jù)中心控制器負責粗粒度決策,簇控制器負責細粒度的任務(wù)資源分配,通過設(shè)定子目標實現(xiàn)控制器間的策略協(xié)同。
8、在本發(fā)明一實施例中,所述方法,還包括如下步驟:
9、步驟s4、性能反饋:持續(xù)收集多個反饋信號,包括資源利用率、負載預測偏差、任務(wù)響應時間、能源消耗、sla違約率的指標,用于評估amg-rl的資源編排性能,以調(diào)優(yōu)多粒度云資源編排的策略。
10、在本發(fā)明一實施例中,步驟s1具體實現(xiàn)如下:
11、集成模糊c均值算法的輸入為任務(wù)資源消耗特征的d維向量集,簇數(shù)k以及集成規(guī)模r,其中表示第i個樣本的d維特征向量;集成模糊c均值算法的輸出任務(wù)的硬劃分結(jié)果為;對于基學習器,,隨機初始化模糊隸屬度矩陣和聚類中心矩陣?;在最大迭代次數(shù)內(nèi),交替優(yōu)化隸屬度和聚類中心,直至滿足收斂條件;
12、隸屬度表示樣本i對第k個任務(wù)簇的歸屬程度,更新公式為:
13、
14、聚類中心代表第k個任務(wù)簇的樣本均值向量,更新公式為:
15、
16、其中為模糊化程度參數(shù),r個基學習器獨立訓練后,進行集成;定義某樣本i與第k個聚類中心匹配的程度為:
17、
18、最終的綜合隸屬度通過求解以下最優(yōu)化問題獲得:
19、
20、將最優(yōu)化問題轉(zhuǎn)化為帶線性約束的二次規(guī)劃問題求解,得到后,通過閾值化獲得任務(wù)的硬聚類標簽:
21、
22、輸出將云任務(wù)劃分為k個任務(wù)簇,各任務(wù)簇內(nèi)任務(wù)特征相似,資源需求一致,而簇間差異性大。
23、在本發(fā)明一實施例中,步驟s2具體實現(xiàn)如下:
24、采用arima時間序列模型捕捉各任務(wù)簇總體資源消耗的時間動態(tài)規(guī)律;針對第k個任務(wù)簇,獲取其資源消耗序列,其中表示t時刻第k個任務(wù)簇內(nèi)所有任務(wù)的資源消耗之和,t表示時間周期數(shù);arima?時間序列模型假設(shè)當前時刻的資源消耗是過去期的加權(quán)和,同時考慮過去期預測誤差的影響;令為差分算子,表示對序列做d階差分;則時間序列模型定義為:
25、
26、其中
27、
28、上式為階自回歸系數(shù)多項式和階移動平均系數(shù)多項式,為自回歸系數(shù),為移動平均系數(shù),為常數(shù)項,b為滯后算子,, j為時間滯后的步數(shù),為零均值白噪聲序列;對資源消耗序列y進行平穩(wěn)性檢驗,?若非平穩(wěn),則做差分運算直至平穩(wěn);基于樣本自相關(guān)系數(shù)acf和偏自相關(guān)系數(shù)pacf圖確定最優(yōu)階數(shù)和,利用最大似然估計或最小二乘法求解arima?時間序列模型參數(shù)、、;模型訓練完成后,對未來h期的資源消耗進行遞歸預測:
29、
30、其中表示對的預測值即對第k個任務(wù)簇在t+h時刻的資源使用量的預測值,表示條件期望,最終輸出各任務(wù)簇在未來若干時間窗口內(nèi)的資源需求預估,h為預測步長,h為預測范圍即需要預測期數(shù)。
31、在本發(fā)明一實施例中,步驟s3具體實現(xiàn)如下:
32、將云環(huán)境建模為分層馬爾可夫決策過程mdp,其中全局mdp對應粗粒度的跨集群資源協(xié)調(diào),局部mdp對應細粒度的簇內(nèi)/任務(wù)級資源分配;全局mdp定義為六元組:
33、狀態(tài)空間s:全局系統(tǒng)狀態(tài)s包括各任務(wù)簇的資源利用率、負載預測值、平均任務(wù)響應時間、能耗、sla?違約率;
34、動作空間:全局調(diào)度動作包括增減不同簇的物理機數(shù)量、調(diào)整vm資源配置、遷移vm;
35、轉(zhuǎn)移概率:定義為在狀態(tài)s下執(zhí)行動作后轉(zhuǎn)移到下一狀態(tài)s’的概率;考慮云環(huán)境的不確定性,轉(zhuǎn)移函數(shù)為隨機映射;
36、獎勵函數(shù):綜合考慮系統(tǒng)的性能指標,設(shè)計多目標獎勵函數(shù),權(quán)衡資源利用率、響應時間、能耗、sla?因素;
37、折扣因子:控制未來獎勵的重要程度,越大,策略越重視長期收益;
38、局部?mdp?定義為:
39、狀態(tài)空間:狀態(tài)包含某簇內(nèi)的細粒度監(jiān)控信息;
40、動作空間:動作包括調(diào)整簇內(nèi)任務(wù)優(yōu)先級、改變?nèi)蝿?wù)資源配額、任務(wù)放置與遷移;
41、獎勵函數(shù):局部獎勵著重考慮簇內(nèi)任務(wù)的性能、公平性的因素;
42、、分別為轉(zhuǎn)移概率、折扣因子;
43、基于全局mdp和局部mdp,采用分層深度強化學習,由下至上、端到端地學習資源編排策略;全局調(diào)度器采用?dqn?算法,以系統(tǒng)狀態(tài)s為輸入,輸出粗粒度調(diào)度決策;局部調(diào)度器采用?dqn?算法,在全局決策的基礎(chǔ)上,進一步細化簇內(nèi)的任務(wù)資源分配與調(diào)度;兩級智能體通過子目標分解實現(xiàn)策略協(xié)同;全局調(diào)度器中dqn算法采用如下q值迭代更新規(guī)則:
44、
45、其中為學習率,為狀態(tài)-動作值函數(shù),評估在狀態(tài)s下采取動作的長期累積獎勵;
46、局部調(diào)度器中dqn算法q值更新引入全局調(diào)度決策作為額外輸入:
47、
48、其中為學習率,全局決策影響局部mdp的狀態(tài)轉(zhuǎn)移和獎勵;通過將作為局部q網(wǎng)絡(luò)的條件輸入,實現(xiàn)分層策略的協(xié)同優(yōu)化。
49、在本發(fā)明一實施例中,步驟s4具體實現(xiàn)如下:
50、持續(xù)采集多粒度的監(jiān)控數(shù)據(jù),包括集群/節(jié)點/vm/任務(wù)級別的資源使用情況、任務(wù)排隊與運行狀態(tài)、能耗;在此基礎(chǔ)上,計算一系列宏微觀?kpi?指標,包括:
51、平均資源利用率:
52、平均任務(wù)等待時間:
53、平均任務(wù)完成比例:
54、其中,第?k?個簇在?t?時刻的資源利用率,t表示時間周期數(shù),i為任務(wù)索引,表示任務(wù)i的開始執(zhí)行時間,表示任務(wù)i的提交時間,表示任務(wù)i的完成時間,為任務(wù)i的截止期,表示任務(wù)總數(shù),為示性函數(shù),當任務(wù)的實際完成時間減去提交時間大于截止期限時,示性函數(shù)返回1,否則返回0。
55、相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明提出的amg-rl在真實負載的仿真實驗中展現(xiàn)了卓越的性能表現(xiàn),相比主流的啟發(fā)式算法和單智能體drl方法,在資源利用率提升、任務(wù)性能保障、能耗優(yōu)化、自適應性與泛化能力等方面,取得了顯著的性能優(yōu)勢,主要體現(xiàn)在以下三個方面:
56、1、多維度提升云環(huán)境資源利用率
57、amg-rl巧妙結(jié)合集成模糊聚類和arima需求預測,準確刻畫不同任務(wù)簇的資源使用規(guī)律,在確保qos的同時最大化資源利用效率。
58、2、降低能耗的同時保障任務(wù)性能
59、在提升資源利用率的同時,amg-rl并未犧牲任務(wù)的qos。
60、3、卓越的自適應性和泛化能力
61、amg-rl從一種工作負載中學到的調(diào)度知識具有一定的普適性,能夠顯著降低在新環(huán)境中的適應成本。