隨機(jī)擴(kuò)散動(dòng)態(tài)負(fù)載均衡方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種在多核集群上進(jìn)行并行計(jì)算的動(dòng)態(tài)負(fù)載均衡技術(shù),特別涉及一種 隨機(jī)擴(kuò)散動(dòng)態(tài)負(fù)載均衡方法,該均衡方法主要是針對(duì)異構(gòu)集群系統(tǒng)。
【背景技術(shù)】
[0002] 由于芯片制造工藝以及存儲(chǔ)帶寬的制約,一味地追求單機(jī)性能顯得越來(lái)越不現(xiàn) 實(shí)。并行計(jì)算自提出以來(lái)一直是解決大規(guī)模計(jì)算問(wèn)題的主要手段,近幾十年來(lái)更是被廣泛 關(guān)注和研究,并行計(jì)算系統(tǒng)主要的硬件模型主要有對(duì)稱多處理機(jī)系統(tǒng)(Symmetric Multi Processing,SMP)和大規(guī)模并行處理系統(tǒng)(Massively Parallel Processing,MPP)等,其 對(duì)應(yīng)的計(jì)算模式分別是多核計(jì)算和集群計(jì)算。多核集群并行計(jì)算是當(dāng)今計(jì)算的主流模式已 成為工業(yè)界和學(xué)術(shù)界的共識(shí),尤其是在高性能計(jì)算(High Performance Computing,HPC)領(lǐng) 域。隨著應(yīng)用復(fù)雜性和處理數(shù)據(jù)量的增長(zhǎng),以及要求提供計(jì)算服務(wù)的用戶數(shù)量的增多,集群 系統(tǒng)的單機(jī)核數(shù)與計(jì)算結(jié)點(diǎn)數(shù)目將不斷增加,甚至通過(guò)安裝具有高吞吐率的加速卡,如圖 形處理器(GPU)、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)以及眾核集成協(xié)處理器(MIC),來(lái)增強(qiáng)單機(jī)計(jì)算 性能。
[0003] 業(yè)務(wù)數(shù)據(jù)的累積使得各個(gè)行業(yè)對(duì)數(shù)據(jù)處理和計(jì)算性能的需求從來(lái)沒(méi)有如此迫切, 為了有效地利用集群系統(tǒng)的計(jì)算資源,工業(yè)界和學(xué)術(shù)界一直致力于研究影響并行計(jì)算應(yīng)用 性能的因素。除了計(jì)算系統(tǒng)本身的規(guī)模、各個(gè)結(jié)點(diǎn)的計(jì)算能力、互聯(lián)網(wǎng)絡(luò)、存儲(chǔ)系統(tǒng)以及并 行算法本身的設(shè)計(jì)以外,負(fù)載均衡往往是一個(gè)被忽視的重要因素。負(fù)載不均衡帶來(lái)的壞處 只有在處理大規(guī)模數(shù)據(jù)的時(shí)候才會(huì)比較突出,在一般的并行計(jì)算應(yīng)用中,因?yàn)檫M(jìn)程的數(shù)量 較少或者任務(wù)量不多,負(fù)載不均衡現(xiàn)象并不明顯,如果不是有對(duì)比實(shí)驗(yàn)數(shù)據(jù)或者專門(mén)測(cè)試 負(fù)載均衡情況那么是很難識(shí)別出來(lái)的,這種程序一旦遇上數(shù)據(jù)量或者運(yùn)行規(guī)模翻幾倍的情 況則很可能無(wú)法勝任。
[0004] 對(duì)于一些簡(jiǎn)單應(yīng)用,例如結(jié)構(gòu)化的網(wǎng)格計(jì)算、稠密矩陣運(yùn)算,負(fù)載容易被預(yù)測(cè),而 且不會(huì)動(dòng)態(tài)地改變。這類應(yīng)用并不需要復(fù)雜的負(fù)載均衡技術(shù),只需要簡(jiǎn)單的靜態(tài)負(fù)載均衡 (Static Load Balancing,SLB),在運(yùn)行之前把計(jì)算任務(wù)盡可能平均地分配到各個(gè)計(jì)算進(jìn) 程便可以滿足需要。然而,隨著復(fù)雜應(yīng)用的出現(xiàn),計(jì)算負(fù)載隨時(shí)間而變化并且其變化趨勢(shì)較 難預(yù)測(cè)的現(xiàn)象已經(jīng)變得十分普遍。例如,在分子動(dòng)力學(xué)模擬應(yīng)用里,如果分子是按數(shù)量靜態(tài) 分配給各個(gè)進(jìn)程,分子的移動(dòng)就不會(huì)引起負(fù)載不均衡;如果一些復(fù)雜的模擬算法為了更好 地進(jìn)行作用力的計(jì)算而把分子按空間坐標(biāo)分配給各個(gè)進(jìn)程,分子的移動(dòng)將帶來(lái)負(fù)載不均衡 并嚴(yán)重地影響到算法整體的性能。在科學(xué)計(jì)算軟件中,計(jì)算流體動(dòng)力學(xué)、氣候模擬中的降雨 和云層等都是經(jīng)常會(huì)引起負(fù)載不均衡的大型復(fù)雜應(yīng)用。
[0005] 動(dòng)態(tài)負(fù)載均衡(Dynamic Load Balancing,DLB)技術(shù)通過(guò)在運(yùn)行時(shí)間隔性地在進(jìn) 程之間迀移計(jì)算任務(wù)來(lái)減少應(yīng)用的總體運(yùn)行時(shí)間,這種技術(shù)能有效地解決以上所說(shuō)的復(fù)雜 應(yīng)用所產(chǎn)生的負(fù)載不均衡現(xiàn)象,帶來(lái)應(yīng)用整體性能的提升。不但如此,當(dāng)應(yīng)用是運(yùn)行在一 個(gè)結(jié)點(diǎn)間或者進(jìn)程間計(jì)算性能不一致的集群上時(shí),即使每個(gè)進(jìn)程的負(fù)載能均衡分配,負(fù)載 不均衡的現(xiàn)象依然存在,因?yàn)檫@時(shí)候各個(gè)計(jì)算進(jìn)程的有效運(yùn)行時(shí)間并不一致,也就是說(shuō)進(jìn) 程之間的等待會(huì)帶來(lái)計(jì)算資源的浪費(fèi)。出現(xiàn)進(jìn)程間計(jì)算性能不一致的原因有很多,例如異 構(gòu)系統(tǒng)中部分結(jié)點(diǎn)的配置差異,部分結(jié)點(diǎn)安裝了加速卡可以為運(yùn)行其上的進(jìn)程提供加速服 務(wù),溫度、濕度的變化可能會(huì)使機(jī)器的計(jì)算性能出現(xiàn)波動(dòng),這些情況一般很難進(jìn)行統(tǒng)計(jì)或預(yù) 測(cè),所以動(dòng)態(tài)負(fù)載均衡技術(shù)更加顯得重要。
[0006] 負(fù)載均衡的目標(biāo)在于尋找一個(gè)有效的負(fù)載分配策略,使得并行計(jì)算中各個(gè)進(jìn)程能 以盡可能一樣的時(shí)間結(jié)束計(jì)算任務(wù)。負(fù)載均衡問(wèn)題本身屬于NPC問(wèn)題,尋找一個(gè)最優(yōu)的負(fù) 載分配策略需要很大的計(jì)算開(kāi)銷,特別是對(duì)于大規(guī)模并行應(yīng)用和負(fù)載動(dòng)態(tài)變化的應(yīng)用。而 且,在動(dòng)態(tài)負(fù)載均衡過(guò)程中,計(jì)算任務(wù)和數(shù)據(jù)的迀移需要額外的通訊開(kāi)銷,這也成為影響整 體性能的其中一個(gè)因素。因此,尋找一個(gè)既能帶來(lái)整體負(fù)載基本均衡,同時(shí)帶來(lái)最小的額外 開(kāi)銷的策略成為負(fù)載均衡技術(shù)研究中的重要任務(wù)。
[0007] 負(fù)載均衡系統(tǒng)在實(shí)際應(yīng)用中有多種存在方式,它既可以嵌套在不同的并行應(yīng)用中 為特定的應(yīng)用提供負(fù)載均衡功能,這種應(yīng)用的并行庫(kù)不具備負(fù)載均衡的功能,例如傳統(tǒng)的 MPI應(yīng)用,并行應(yīng)用需要自己實(shí)現(xiàn)負(fù)載均衡的功能;它也可以作為一個(gè)獨(dú)立模塊存在于并 行計(jì)算框架中,通常被稱為該框架的任務(wù)調(diào)度系統(tǒng)。
[0008] 在并行計(jì)算中,特別是運(yùn)行在異構(gòu)系統(tǒng)上的應(yīng)用,動(dòng)態(tài)負(fù)載均衡技術(shù)對(duì)于應(yīng)用的 整體性能以及硬件資源的利用率起到關(guān)鍵作用。本發(fā)明的重點(diǎn)在于如何設(shè)計(jì)一個(gè)高效的動(dòng) 態(tài)負(fù)載模型,使得并行計(jì)算應(yīng)用能帶來(lái)更高的加速效率。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種隨機(jī)擴(kuò)散動(dòng)態(tài)負(fù)載均衡 方法,該均衡方法以由原問(wèn)題分解得到的若干個(gè)子任務(wù)為研究對(duì)象,把其在某個(gè)特定時(shí)間 點(diǎn)的位置情況看作一個(gè)隨機(jī)變量,然后利用隨機(jī)過(guò)程理論把負(fù)載均衡問(wèn)題轉(zhuǎn)化為一個(gè)迭代 優(yōu)化的過(guò)程,每一次迭代的目的就是使得代價(jià)函數(shù)(負(fù)載不均衡程度)減少,從而等價(jià)于負(fù) 載均衡操作。
[0010] 本發(fā)明的目的通過(guò)下述技術(shù)方案實(shí)現(xiàn):一種隨機(jī)擴(kuò)散動(dòng)態(tài)負(fù)載均衡方法,包括以 下步驟:一種隨機(jī)擴(kuò)散動(dòng)態(tài)負(fù)載均衡方法,包括以下步驟:
[0011] 步驟1、把計(jì)算任務(wù)隨時(shí)間的迀移而位于哪個(gè)進(jìn)程這一狀態(tài)變量看作是一個(gè)隨機(jī) 過(guò)程,每次迭代通過(guò)隨機(jī)擴(kuò)散信息交換協(xié)議以及基于概率圖模型的參數(shù)學(xué)習(xí)過(guò)程;
[0012] 步驟2、計(jì)算出任務(wù)量隨機(jī)迀移矩陣,據(jù)此進(jìn)行任務(wù)迀移來(lái)達(dá)到負(fù)載均衡;
[0013] 所述隨機(jī)擴(kuò)散信息交換協(xié)議,用于進(jìn)程負(fù)載狀態(tài)信息的交換,據(jù)此來(lái)進(jìn)行動(dòng)態(tài)負(fù) 載均衡模型的建立;
[0014] 所述基于概率圖模型的參數(shù)學(xué)習(xí)過(guò)程,用于動(dòng)態(tài)負(fù)載均衡模型中的變量更新。
[0015] 所述隨機(jī)擴(kuò)散信息交換協(xié)議具體包括以下步驟:
[0016] 步驟11、輕載進(jìn)程向過(guò)載進(jìn)程和均衡進(jìn)程集合中的一個(gè)隨機(jī)子集發(fā)送信息;
[0017] 步驟12、在上一輪信息擴(kuò)散中有接收到信息的進(jìn)程在與自己不同類型的進(jìn)程集合 里隨機(jī)選擇α個(gè)進(jìn)程,把自己收到的信息傳遞給他們,所述每個(gè)進(jìn)程隨機(jī)選取進(jìn)程的概率 是獨(dú)立的;
[0018] 步驟13、重復(fù)τ次步驟12直至信息覆蓋率達(dá)到99 %為止。
[0019] 所述基于概率圖模型的參數(shù)學(xué)習(xí)過(guò)程具體包括以下步驟;
[0020] 步驟la、構(gòu)造能表示系統(tǒng)內(nèi)部隨機(jī)變量(向量)之間的條件依賴關(guān)系的動(dòng)態(tài)貝葉 斯圖;
[0021] 步驟lb、根據(jù)進(jìn)程的負(fù)載量構(gòu)造狀態(tài)迀移圖的形狀;
[0022] 步驟lc、用最大似然參數(shù)估計(jì)法求出狀態(tài)迀移概率矩陣。
[0023] 所述步驟2包括以下步驟:
[0024] 步驟21、初始化系統(tǒng)內(nèi)部變量和進(jìn)程的初始身份;
[0025] 步驟22、隨機(jī)擴(kuò)散負(fù)載信息;
[0026] 步驟23、根據(jù)收集到的最新信息進(jìn)行參數(shù)學(xué)習(xí),更新系統(tǒng)的內(nèi)部變量;
[0027] 步驟24、根據(jù)系統(tǒng)的內(nèi)部變量來(lái)構(gòu)造隨機(jī)迀移任務(wù)量矩陣;
[0028] 步驟25、根據(jù)隨機(jī)迀移任務(wù)量矩陣,每個(gè)進(jìn)程從自身任務(wù)隊(duì)列末端開(kāi)始選擇合適 的任務(wù)迀移到其它進(jìn)程;
[0029] 步驟26、更新系統(tǒng)迭代周期;
[0030] 步驟27、重復(fù)步驟22至26,直至系統(tǒng)結(jié)束為止。
[0031] 本發(fā)明的原理:本發(fā)明是一種基于動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)和隨機(jī)擴(kuò)散通信協(xié)議的動(dòng)態(tài)負(fù) 載均衡方法,并針對(duì)異構(gòu)系統(tǒng)中并行計(jì)算的負(fù)載均衡問(wèn)題,提出一種隨機(jī)化的方法,通過(guò)在 線學(xué)習(xí)計(jì)算系統(tǒng)各個(gè)計(jì)算單元的性能分布特征來(lái)對(duì)系統(tǒng)的狀態(tài)作出預(yù)測(cè),據(jù)此作出任務(wù)迀 移的決策。本發(fā)明基于圖模型的分布式學(xué)習(xí)算法,能很好地適應(yīng)異構(gòu)系統(tǒng);所使用的基于隨 機(jī)擴(kuò)散的高效通訊模型能保證負(fù)載信息的覆蓋率;其核心的迭代優(yōu)化算法具有自適應(yīng)的學(xué) 習(xí)能力,可應(yīng)對(duì)不穩(wěn)定的環(huán)境。
[0032] 本發(fā)明相對(duì)于現(xiàn)有技術(shù)具有如下的優(yōu)點(diǎn)及效果:
[0033] 1、本發(fā)明把負(fù)載均衡問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題后,其優(yōu)化目標(biāo)比較特殊,一般優(yōu)化算 法并不能得到很好的收斂速度。本發(fā)明結(jié)合概率圖模型,把原優(yōu)化問(wèn)題轉(zhuǎn)化成概率圖模型 中的參數(shù)學(xué)習(xí)問(wèn)題,利用概率圖這一數(shù)學(xué)工具簡(jiǎn)化了原優(yōu)化問(wèn)題;本發(fā)明提出的動(dòng)態(tài)負(fù)載 均衡方法既具有良好的擴(kuò)展性,也有