一種根據(jù)計(jì)算機(jī)集群資源使用情況動態(tài)開關(guān)機(jī)達(dá)到節(jié)約功耗的方法
【專利摘要】一種根據(jù)計(jì)算機(jī)集群資源使用情況動態(tài)開關(guān)機(jī)達(dá)到節(jié)約功耗的方法,網(wǎng)絡(luò)環(huán)境包括:計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)和管理節(jié)點(diǎn)資源監(jiān)控機(jī),管理節(jié)點(diǎn)資源監(jiān)控機(jī)通過監(jiān)控計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)監(jiān)控管理網(wǎng)絡(luò)內(nèi)的計(jì)算節(jié)點(diǎn),通過作業(yè)調(diào)度PBS來提取計(jì)算節(jié)點(diǎn)使用情況,內(nèi)容包括:1)監(jiān)控到的節(jié)點(diǎn)使用情況Free空閑或者job-exclusive作業(yè);2)節(jié)點(diǎn)開關(guān)機(jī):通過管理網(wǎng)絡(luò)發(fā)送系統(tǒng)關(guān)機(jī)命令來實(shí)現(xiàn)節(jié)點(diǎn)關(guān)機(jī),通過IPMI網(wǎng)絡(luò),監(jiān)控機(jī)通過IPMI協(xié)議命令對計(jì)算節(jié)點(diǎn)開機(jī);通過監(jiān)控整個資源的使用情況,設(shè)定開關(guān)機(jī)條件,在節(jié)點(diǎn)空閑時通過系統(tǒng)命令關(guān)機(jī),在節(jié)點(diǎn)資源不足時,通過IPMI實(shí)現(xiàn)節(jié)點(diǎn)開機(jī),達(dá)到動態(tài)開關(guān)機(jī),節(jié)省功耗的目的。
【專利說明】一種根據(jù)計(jì)算機(jī)集群資源使用情況動態(tài)開關(guān)機(jī)達(dá)到節(jié)約功 耗的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,具體地說是一種根據(jù)計(jì)算機(jī)集群資源使用情 況動態(tài)開關(guān)機(jī)達(dá)到節(jié)約功耗的方法。
【背景技術(shù)】
[0002]在高性能計(jì)算集群中,特別是大型集群中,往往有幾百臺計(jì)算節(jié)點(diǎn)組成計(jì)算資源, 以每臺節(jié)點(diǎn)400W功耗計(jì)算,一臺服務(wù)器每天的耗電量就接近10度電,在集群實(shí)際運(yùn)行過程 中,可能某段時間,集群的使用率并不高,大部分或者一部分計(jì)算節(jié)點(diǎn)都是空閑狀態(tài),沒有 作業(yè)在運(yùn)算,但節(jié)點(diǎn)還處于開機(jī)狀態(tài),這部分空閑節(jié)點(diǎn)浪費(fèi)了大量電力,針對這種情況,我 們可以監(jiān)控起整個集群的使用情況,設(shè)定在空閑節(jié)點(diǎn)達(dá)到一定數(shù)量,連續(xù)空閑超過多少時 間后,管理節(jié)點(diǎn)發(fā)送命令關(guān)閉一部分空閑計(jì)算節(jié)點(diǎn),當(dāng)監(jiān)控到空閑節(jié)點(diǎn)不足時,再通過ipmi 啟動一部分節(jié)點(diǎn),達(dá)到動態(tài)節(jié)約功耗的目的。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的是提供一種根據(jù)計(jì)算機(jī)集群資源使用情況動態(tài)開關(guān)機(jī)達(dá)到節(jié)約功 耗的方法。
[0004]本發(fā)明的目的是按以下方式實(shí)現(xiàn)的,網(wǎng)絡(luò)環(huán)境包括:計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng) 絡(luò)和管理節(jié)點(diǎn)資源監(jiān)控機(jī),管理節(jié)點(diǎn)資源監(jiān)控機(jī)通過監(jiān)控計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)監(jiān) 控管理網(wǎng)絡(luò)內(nèi)的計(jì)算節(jié)點(diǎn),通過作業(yè)調(diào)度PBS來提取計(jì)算節(jié)點(diǎn)使用情況,內(nèi)容包括:
1)監(jiān)控到的節(jié)點(diǎn)使用情況Free空閑或者job-exclusive作業(yè);
2)節(jié)點(diǎn)開關(guān)機(jī):通過管理網(wǎng)絡(luò)發(fā)送系統(tǒng)關(guān)機(jī)命令來實(shí)現(xiàn)節(jié)點(diǎn)關(guān)機(jī),通過IPMI網(wǎng)絡(luò),監(jiān) 控機(jī)通過IPMI協(xié)議命令對計(jì)算節(jié)點(diǎn)開機(jī);
具體步驟如下:
1)根據(jù)集群的規(guī)模和使用頻率,規(guī)劃好集群需要預(yù)留的空閑節(jié)點(diǎn)資源數(shù)量,即保證整 個集群系統(tǒng)有一定數(shù)量的空閑節(jié)點(diǎn)資源來使用戶在提交作業(yè)后能立馬分配到節(jié)點(diǎn)上,包括 設(shè)定預(yù)留m個空閑計(jì)算節(jié)點(diǎn);
2)為了避免計(jì)算節(jié)點(diǎn)頻繁開機(jī)關(guān),設(shè)定時間周期n個小時,當(dāng)集群空閑節(jié)點(diǎn)資源數(shù)超 過m后,持續(xù)n個小時,此時監(jiān)控節(jié)點(diǎn)才發(fā)送關(guān)機(jī)命令,關(guān)閉多余的空閑計(jì)算節(jié)點(diǎn),保證整個 系統(tǒng)有m個空閑計(jì)算節(jié)點(diǎn)即可;
3)在pbssever服務(wù)器上監(jiān)控pbs提取到的節(jié)點(diǎn)狀態(tài)free空閑或者job-exclusive 作業(yè),當(dāng)free空閑節(jié)點(diǎn)超過m時開始計(jì)時,當(dāng)計(jì)時時間大于時間n時,發(fā)送關(guān)機(jī)請求命令, 關(guān)閉部分空閑節(jié)點(diǎn),使集群系統(tǒng)保持m個空閑節(jié)點(diǎn);
4)當(dāng)監(jiān)控腳本監(jiān)測到集群空閑節(jié)點(diǎn)少于m個時,通過ipmi網(wǎng)絡(luò)先判斷出關(guān)機(jī)的節(jié)點(diǎn), 然后通過ipmi網(wǎng)絡(luò)發(fā)送開機(jī)命令,開啟一部分計(jì)算節(jié)點(diǎn),使集群空閑計(jì)算節(jié)點(diǎn)保持在m個。
[0005]本發(fā)明的有益效果是:在高性能計(jì)算集群中,特別是大型集群中,往往有幾百臺計(jì)算節(jié)點(diǎn)組成計(jì)算資源,以每臺節(jié)點(diǎn)400W功耗計(jì)算,一臺服務(wù)器每天的耗電量就接近10度 電,在集群實(shí)際運(yùn)行過程中,可能某段時間,集群的使用率并不高,大部分或者一部分計(jì)算 節(jié)點(diǎn)都是空閑狀態(tài),沒有作業(yè)在運(yùn)算,但節(jié)點(diǎn)還處于開機(jī)狀態(tài),這部分空閑節(jié)點(diǎn)浪費(fèi)了大量 電力,針對這種情況,我們可以監(jiān)控起整個集群的使用情況,設(shè)定在空閑節(jié)點(diǎn)達(dá)到一定數(shù) 量,連續(xù)空閑超過多少時間后,管理節(jié)點(diǎn)發(fā)送命令關(guān)閉一部分空閑計(jì)算節(jié)點(diǎn),當(dāng)監(jiān)控到空閑 節(jié)點(diǎn)不足時,再通過ipmi啟動一部分節(jié)點(diǎn),達(dá)到動態(tài)節(jié)約功耗的目的。
【專利附圖】
【附圖說明】
[0006]圖1是網(wǎng)絡(luò)環(huán)境示意圖;
圖2是節(jié)約功耗流程圖。
【具體實(shí)施方式】
[0007]參照說明書附圖對本發(fā)明的方法作以下詳細(xì)地說明。
[0008]I)網(wǎng)絡(luò)環(huán)境包括:計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)和管理節(jié)點(diǎn)資源監(jiān)控機(jī),管理 節(jié)點(diǎn)資源監(jiān)控機(jī)通過監(jiān)控計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)監(jiān)控管理網(wǎng)絡(luò)內(nèi)的計(jì)算節(jié)點(diǎn),通 過作業(yè)調(diào)度PBS來提取計(jì)算節(jié)點(diǎn)使用情況,I)監(jiān)控到的節(jié)點(diǎn)使用情況Free (空閑)或者 job-exclusive (作業(yè));
2)節(jié)點(diǎn)開關(guān)機(jī):通過管理網(wǎng)絡(luò)發(fā)送系統(tǒng)關(guān)機(jī)命令來實(shí)現(xiàn)節(jié)點(diǎn)關(guān)機(jī),通過IPMI網(wǎng)絡(luò),監(jiān) 控機(jī)通過IPMI協(xié)議命令對計(jì)算節(jié)點(diǎn)開機(jī)。
[0009]具體步驟如下:
1)根據(jù)集群的規(guī)模和使用頻率,規(guī)劃好集群需要預(yù)留的空閑節(jié)點(diǎn)資源數(shù)量,即保證整 個集群系統(tǒng)有一定數(shù)量的空閑節(jié)點(diǎn)資源來使用戶在提交作業(yè)后能立馬分配到節(jié)點(diǎn)上,比如 設(shè)定預(yù)留m個空閑計(jì)算節(jié)點(diǎn);
2)為了避免計(jì)算節(jié)點(diǎn)頻繁開機(jī)關(guān),設(shè)定時間周期n個小時,當(dāng)集群空閑節(jié)點(diǎn)資源數(shù)超 過m后,持續(xù)n個小時,此時監(jiān)控節(jié)點(diǎn)才發(fā)送關(guān)機(jī)命令,關(guān)閉多余的空閑計(jì)算節(jié)點(diǎn),保證整個 系統(tǒng)有m個空閑計(jì)算節(jié)點(diǎn)即可;
3)在pbssever服務(wù)器上監(jiān)控pbs提取到的節(jié)點(diǎn)狀態(tài)free或者job-exclusive,當(dāng) free節(jié)點(diǎn)超過m時開始計(jì)時,當(dāng)計(jì)時時間大于時間n時,發(fā)送關(guān)機(jī)請求命令,關(guān)閉部分空閑 節(jié)點(diǎn),使集群系統(tǒng)保持m個空閑節(jié)點(diǎn);
4)當(dāng)監(jiān)控腳本監(jiān)測到集群空閑節(jié)點(diǎn)少于m個時,通過ipmi先判斷出關(guān)機(jī)的節(jié)點(diǎn),然后 通過ipmi發(fā)送開機(jī)命令,開啟一部分計(jì)算節(jié)點(diǎn),使集群空閑計(jì)算節(jié)點(diǎn)保持在m個。
實(shí)施例
[0010]由浪潮承擔(dān)建設(shè)的我國高校首套百萬億次超算系統(tǒng)一“清華大學(xué)百萬億次項(xiàng) 目”獲得清華大學(xué)高度認(rèn)可,并成功應(yīng)用于中國首個地球模擬器,承擔(dān)了聯(lián)合國政府間氣候 變化專門委員會第五次評估報告(I P C C-AR 5)氣候模擬、預(yù)測、評估試驗(yàn)的計(jì)算任務(wù)。
[0011]該系統(tǒng)由720個計(jì)算刀片組成計(jì)算節(jié)點(diǎn),共8640個cpu計(jì)算核心。在系統(tǒng)投入前 期,集群資源使用情況并不飽和,為了節(jié)省功耗,規(guī)劃空閑節(jié)點(diǎn)資源維持在30個,當(dāng)空閑節(jié)點(diǎn)超過30個15個小時后,系統(tǒng)會自動去關(guān)閉部分計(jì)算節(jié)點(diǎn),當(dāng)空閑資源不足30或者提交 的作業(yè)核數(shù)超過360核后,系統(tǒng)會通過ipmi啟動部分計(jì)算節(jié)點(diǎn)。
[0012]具體流程:
在管理節(jié)點(diǎn)上,監(jiān)控pbsnodes -1 free列出free節(jié)點(diǎn),通過wc -1計(jì)數(shù)為a ;
1)當(dāng)a>30時,開始計(jì)時,在計(jì)時過程中若a〈=30計(jì)時停止并清0,當(dāng)計(jì)時超過15小時 后,對節(jié)點(diǎn)發(fā)送關(guān)機(jī)命令,關(guān)機(jī)數(shù)為a-30 ;
2)當(dāng)a<30時,通過ipmi發(fā)送開機(jī)命令,開機(jī)數(shù)為30_a。
[0013]除說明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。
【權(quán)利要求】
1.一種根據(jù)計(jì)算機(jī)集群資源使用情況動態(tài)開關(guān)機(jī)達(dá)到節(jié)約功耗的方法,其特征在 于,網(wǎng)絡(luò)環(huán)境包括:計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)和管理節(jié)點(diǎn)資源監(jiān)控機(jī),管理節(jié)點(diǎn)資源 監(jiān)控機(jī)通過監(jiān)控計(jì)算網(wǎng)絡(luò)、管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)監(jiān)控管理網(wǎng)絡(luò)內(nèi)的計(jì)算節(jié)點(diǎn),通過作業(yè)調(diào)度 PBS來提取計(jì)算節(jié)點(diǎn)使用情況,內(nèi)容包括:1)監(jiān)控到的節(jié)點(diǎn)使用情況Free空閑或者job-exclusive作業(yè);2)節(jié)點(diǎn)開關(guān)機(jī):通過管理網(wǎng)絡(luò)發(fā)送系統(tǒng)關(guān)機(jī)命令來實(shí)現(xiàn)節(jié)點(diǎn)關(guān)機(jī),通過IPMI網(wǎng)絡(luò),監(jiān) 控機(jī)通過IPMI協(xié)議命令對計(jì)算節(jié)點(diǎn)開機(jī);具體步驟如下:1)根據(jù)集群的規(guī)模和使用頻率,規(guī)劃好集群需要預(yù)留的空閑節(jié)點(diǎn)資源數(shù)量,即保證整 個集群系統(tǒng)有一定數(shù)量的空閑節(jié)點(diǎn)資源來使用戶在提交作業(yè)后能立馬分配到節(jié)點(diǎn)上,包括 設(shè)定預(yù)留m個空閑計(jì)算節(jié)點(diǎn);2)為了避免計(jì)算節(jié)點(diǎn)頻繁開機(jī)關(guān),設(shè)定時間周期n個小時,當(dāng)集群空閑節(jié)點(diǎn)資源數(shù)超 過m后,持續(xù)n個小時,此時監(jiān)控節(jié)點(diǎn)才發(fā)送關(guān)機(jī)命令,關(guān)閉多余的空閑計(jì)算節(jié)點(diǎn),保證整個 系統(tǒng)有m個空閑計(jì)算節(jié)點(diǎn)即可;3)在pbssever服務(wù)器上監(jiān)控pbs提取到的節(jié)點(diǎn)狀態(tài)free空閑或者job-exclusive 作業(yè),當(dāng)free空閑節(jié)點(diǎn)超過m時開始計(jì)時,當(dāng)計(jì)時時間大于時間n時,發(fā)送關(guān)機(jī)請求命令, 關(guān)閉部分空閑節(jié)點(diǎn),使集群系統(tǒng)保持m個空閑節(jié)點(diǎn);4)當(dāng)監(jiān)控腳本監(jiān)測到集群空閑節(jié)點(diǎn)少于m個時,通過ipmi網(wǎng)絡(luò)先判斷出關(guān)機(jī)的節(jié)點(diǎn), 然后通過ipmi網(wǎng)絡(luò)發(fā)送開機(jī)命令,開啟一部分計(jì)算節(jié)點(diǎn),使集群空閑計(jì)算節(jié)點(diǎn)保持在m個。
【文檔編號】G06F1/32GK103593274SQ201310530405
【公開日】2014年2月19日 申請日期:2013年11月1日 優(yōu)先權(quán)日:2013年11月1日
【發(fā)明者】陳良華, 孫玉超 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司