一種強(qiáng)實(shí)時(shí)計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明設(shè)計(jì)航天發(fā)射應(yīng)用領(lǐng)域涉及到的大中型強(qiáng)實(shí)時(shí)、高可靠性的數(shù)據(jù)處理系統(tǒng),具體是一種強(qiáng)實(shí)時(shí)計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度系統(tǒng)。
【背景技術(shù)】
[0002]在實(shí)時(shí)性、可靠性和安全性要求高的信息處理應(yīng)用系統(tǒng),至少需要符合三個(gè)要素保障:一是整個(gè)系統(tǒng)的設(shè)計(jì)均能體現(xiàn)出較高的冗余能力,在信息處理系統(tǒng)中的任何一個(gè)節(jié)點(diǎn)均需保證無任何單點(diǎn)故障,若一個(gè)信息處理系統(tǒng)由于設(shè)計(jì)的缺陷產(chǎn)生單點(diǎn)故障,則對整個(gè)系統(tǒng)都是致命性地并隨時(shí)都有可能由于單點(diǎn)故障的缺陷影響到了整個(gè)系統(tǒng)的正常運(yùn)行;二是提升整個(gè)系統(tǒng)的運(yùn)行效率和應(yīng)急水平,對一個(gè)大中型信息系統(tǒng)運(yùn)行是否高效及應(yīng)急水平是否體現(xiàn)出“及時(shí)、精準(zhǔn)”的目標(biāo),關(guān)鍵在于系統(tǒng)建立什么樣的模型和采用什么樣的技術(shù)路線;三是提高整個(gè)信息處理應(yīng)用系統(tǒng)的自動(dòng)化和管理水平,采用由分散式監(jiān)控手段過渡到集中式監(jiān)控,立體式地收集系統(tǒng)運(yùn)行狀態(tài)信息、告警信息。采用自動(dòng)和人工輔助相結(jié)合的方式,極大提高信息處理系統(tǒng)的自動(dòng)化水平。針對上述應(yīng)用需求,設(shè)計(jì)了一種強(qiáng)實(shí)時(shí)計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度策略,分別從軟硬件體系結(jié)構(gòu)模型,動(dòng)態(tài)軟雙工的設(shè)計(jì),作業(yè)動(dòng)態(tài)分配策略設(shè)計(jì)及在雙工切換過程中“輕量級(jí)”的資源開銷保證了系統(tǒng)的強(qiáng)實(shí)時(shí)性、安全性及高可靠性等特點(diǎn)。
【發(fā)明內(nèi)容】
[0003]針對現(xiàn)有技術(shù)的不足,提出了一種強(qiáng)實(shí)時(shí)性、高可靠性、安全性要求比較高的強(qiáng)實(shí)時(shí)計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度系統(tǒng)。本發(fā)明的技術(shù)方案如下:一種強(qiáng)實(shí)時(shí)計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度系統(tǒng),其包括:硬件體系結(jié)構(gòu)模型及軟件體系結(jié)構(gòu)模型;其中硬件體系結(jié)構(gòu)模型包括三層硬件體系模型及三層網(wǎng)絡(luò)模型,所述軟件體系結(jié)構(gòu)模型包括調(diào)度管理操控終端層,調(diào)度管理層及調(diào)度代理層;
[0004]所述硬件體系結(jié)構(gòu)模型:用于構(gòu)建動(dòng)態(tài)調(diào)度的硬件支撐平臺(tái),包括三層硬件體系模型和三層網(wǎng)絡(luò)模型,三層硬件體系模型的第一層為調(diào)度管理控制終端層:用于對計(jì)算機(jī)管理服務(wù)器層進(jìn)行終端控制;第二層為調(diào)度管理服務(wù)器層:用于對計(jì)算機(jī)集群層發(fā)起的服務(wù)進(jìn)行管理調(diào)度;第三層為計(jì)算機(jī)集群層,包括若干臺(tái)服務(wù)器;
[0005]所述三層網(wǎng)絡(luò)模型包括調(diào)度管理終端接入層、調(diào)度管理匯聚層及調(diào)度代理核心層,其中調(diào)度代理核心層與三層硬件體系模型的計(jì)算機(jī)集群層通過交換機(jī)相連接,所述調(diào)度管理服務(wù)器層通過交換機(jī)與調(diào)度管理匯聚層相連接,所述調(diào)度管理終端接入層通過交換機(jī)與調(diào)度管理控制終端層相連接;
[0006]所述軟件體系結(jié)構(gòu)模型包括三層軟件模型:調(diào)度管理操控終端層,調(diào)度管理層及調(diào)度代理層;其中調(diào)度管理操控終端:主要負(fù)責(zé)對服務(wù)的申請,服務(wù)的啟動(dòng),軟硬件資源的系統(tǒng)監(jiān)視,軟雙工的動(dòng)態(tài)切換,服務(wù)器集群中運(yùn)行作業(yè)即進(jìn)程的操控,業(yè)務(wù)流程的控制,信息系統(tǒng)的應(yīng)急措施及服務(wù)的釋放;調(diào)度管理層:主要負(fù)責(zé)對服務(wù)器集群的在線工作狀態(tài)檢測,對服務(wù)器集群之間動(dòng)態(tài)軟雙工的分配,對運(yùn)行在服務(wù)器集群內(nèi)的作業(yè)即進(jìn)程分配策略,調(diào)度管理服務(wù)器之間的數(shù)據(jù)及狀態(tài)的同步,操作命令、服務(wù)器集群軟硬件資源統(tǒng)計(jì)及回證的轉(zhuǎn)發(fā);調(diào)度代理層主要負(fù)責(zé)對服務(wù)器集群中運(yùn)行的作業(yè)即進(jìn)程之間命令的執(zhí)行及回證的交互,收集集群內(nèi)部系統(tǒng)軟硬件資源運(yùn)行狀態(tài),收集作業(yè)運(yùn)行狀態(tài),網(wǎng)絡(luò)注冊及報(bào)文的轉(zhuǎn)發(fā),作業(yè)之間的信息交互。
[0007]進(jìn)一步的,所述調(diào)度管理控制終端層由兩臺(tái)調(diào)度管理控制終端組成,且兩臺(tái)調(diào)度管理控制終端互為熱備;所述調(diào)度管理服務(wù)器層由兩臺(tái)基于對服務(wù)器集群進(jìn)行管理的調(diào)度管理服務(wù)器組成,且兩臺(tái)服務(wù)器互為熱備。
[0008]進(jìn)一步的,所述調(diào)度代理核心層與計(jì)算機(jī)集群層通過交換機(jī)相連接的臺(tái)數(shù)為兩臺(tái),且互為熱備份;所述調(diào)度管理服務(wù)器層通過交換機(jī)與調(diào)度管理匯聚層相連接的交換機(jī)臺(tái)數(shù)為兩臺(tái)且互為熱備份,所述調(diào)度管理終端接入層通過交換機(jī)與調(diào)度管理控制終端層相連接的交換機(jī)臺(tái)數(shù)為兩臺(tái)且互為熱備份。
[0009]進(jìn)一步的,所述計(jì)算機(jī)集群層的若干臺(tái)服務(wù)器中的每臺(tái)服務(wù)器所在的獨(dú)立網(wǎng)卡接入一臺(tái)交換機(jī),單獨(dú)成網(wǎng)構(gòu)成小型局域網(wǎng)。
[0010]進(jìn)一步的,所述軟件體系結(jié)構(gòu)模型的調(diào)度管理操控終端層與調(diào)度管理層之間通過TCP協(xié)議點(diǎn)對點(diǎn)進(jìn)行通信,調(diào)度管理層和調(diào)度代理之間通過UDP協(xié)議任意源組播進(jìn)行通信。
[0011]進(jìn)一步的,所述計(jì)算機(jī)集群層的服務(wù)器集群中,對于相同的業(yè)務(wù)作業(yè)即進(jìn)程均要求采用動(dòng)態(tài)雙軟工法,即相同的業(yè)務(wù)作業(yè)即進(jìn)程存在于主機(jī)和副機(jī)兩臺(tái)服務(wù)器中,任何一臺(tái)服務(wù)器的軟硬件出現(xiàn)故障時(shí),系統(tǒng)均會(huì)執(zhí)行自動(dòng)和人工兩種結(jié)合的方式進(jìn)行雙工切換,。
[0012]進(jìn)一步的,所述動(dòng)態(tài)雙軟工法具體為:
[0013]假定某一個(gè)信息處理應(yīng)用系統(tǒng)服務(wù)器集群有m臺(tái)在線服務(wù)器,在集群中運(yùn)行有η個(gè)作業(yè),分配的原則是要求每一個(gè)作業(yè)必須在兩臺(tái)服務(wù)器運(yùn)行,如果集群服務(wù)器個(gè)數(shù)為奇數(shù),那么第m臺(tái)服務(wù)器以單機(jī)狀態(tài)存在,作為系統(tǒng)的冗余空閑服務(wù)器,如果n〈 = m/2,至少要求每個(gè)作業(yè)能獨(dú)立在兩個(gè)服務(wù)器中運(yùn)行,如果n>m/2,根據(jù)作業(yè)的安全等級(jí),把安全級(jí)別低為D級(jí)的作業(yè)進(jìn)行組合到一起運(yùn)行在互為熱備份的服務(wù)器中,把安全級(jí)別為A級(jí)、B級(jí)、C級(jí)且對軟硬件資源要求高的作業(yè)單獨(dú)運(yùn)行在互為熱備份的服務(wù)器中。
[0014]本發(fā)明的優(yōu)點(diǎn)及有益效果如下:
[0015]硬件結(jié)構(gòu)模型設(shè)計(jì)為三層服務(wù)器模型,網(wǎng)絡(luò)結(jié)構(gòu)模型也是設(shè)計(jì)為三層模型。每一層操控終端、調(diào)度管理服務(wù)器、交換機(jī)都是熱備份,網(wǎng)卡接入交換機(jī)方式采用雙網(wǎng)卡虛擬技術(shù)。每一個(gè)系統(tǒng)節(jié)點(diǎn)均無單點(diǎn)故障,每一節(jié)點(diǎn)體現(xiàn)了冗余設(shè)計(jì)。
[0016]軟件模型按照三層結(jié)構(gòu)進(jìn)行劃分,每一層無單點(diǎn)故障,層與層之間分工明確,調(diào)度管理操控終端層與調(diào)度管理層之間通過TCP協(xié)議點(diǎn)對點(diǎn)進(jìn)行通信,調(diào)度管理層和調(diào)度代理之間通過UDP協(xié)議任意源組播進(jìn)行通信。層與層之間增加了信息的回證機(jī)制,保證了命令與報(bào)文傳輸?shù)陌踩院涂煽啃浴?br>[0017]在服務(wù)器集群中,對于相同的業(yè)務(wù)作業(yè)(進(jìn)程)均要求存在于主機(jī)和副機(jī)兩臺(tái)服務(wù)器中,任何一臺(tái)服務(wù)器的軟硬件出現(xiàn)故障時(shí),系統(tǒng)均會(huì)執(zhí)行自動(dòng)和人工兩種結(jié)合的方式進(jìn)行雙工切換,保證了系統(tǒng)的可靠性。
[0018]作業(yè)(進(jìn)程)在服務(wù)器集群中的分配策略能夠保證每一個(gè)作業(yè)(進(jìn)程)均能運(yùn)行在任意兩臺(tái)互為熱備份的服務(wù)器中,保證了作業(yè)運(yùn)行的穩(wěn)定性和可靠性。
[0019]本發(fā)明適用于對實(shí)時(shí)性,可靠性,安全性及對系統(tǒng)冗余設(shè)計(jì)能力要求較高的數(shù)據(jù)處理系統(tǒng)。以航天發(fā)射場數(shù)據(jù)處理中心系統(tǒng)建設(shè)為原型進(jìn)行說明其效果,服務(wù)器集群共有10臺(tái)中型數(shù)據(jù)處理服務(wù)器,運(yùn)行共有5個(gè)數(shù)據(jù)處理配置項(xiàng)和一個(gè)代理部件組成,每一臺(tái)數(shù)據(jù)處理服務(wù)器靜態(tài)部署的軟件完全一樣,軟件的運(yùn)行和分配根據(jù)服務(wù)器是否為在線狀態(tài)作為依據(jù),針對5個(gè)作業(yè)在1至10臺(tái)服務(wù)器中組成的集群中進(jìn)行分配。每兩臺(tái)服務(wù)器可以任意組成雙工,增強(qiáng)其系統(tǒng)的實(shí)時(shí)性和可靠性。
【附圖說明】
[0020]圖1是本發(fā)明提供優(yōu)選實(shí)施例實(shí)時(shí)服務(wù)器集群調(diào)度策略硬件體系結(jié)構(gòu)模型圖;[0021 ] 圖2實(shí)時(shí)服務(wù)器集群調(diào)度策略軟件模型圖;
[0022]圖3實(shí)時(shí)服務(wù)器集群調(diào)度策略的作業(yè)分配策略流程圖;
[0023]圖4實(shí)時(shí)服務(wù)器集群調(diào)度策略軟雙工切換流程圖。
【具體實(shí)施方式】
[0024]以下結(jié)合附圖,對本發(fā)明作進(jìn)一步說明:
[0025]本發(fā)明的目的是對計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度策略涉及到的軟硬件體系結(jié)構(gòu)模型,動(dòng)態(tài)軟雙工,作業(yè)動(dòng)態(tài)分配模型及實(shí)時(shí)性的保障等技術(shù)問題進(jìn)行論述。對強(qiáng)實(shí)時(shí)性、高可靠性、安全性要求比較高的信息系統(tǒng),很有借鑒和參考意義。尤其是對于像航天發(fā)射應(yīng)用領(lǐng)域涉及到的大中型強(qiáng)實(shí)時(shí)、高可靠性的數(shù)據(jù)處理系統(tǒng),更符合現(xiàn)實(shí)需求,其主要內(nèi)容:
[0026]1、實(shí)時(shí)計(jì)算機(jī)集群動(dòng)態(tài)調(diào)度軟硬件模型設(shè)計(jì)
[0027](1)硬件體系結(jié)構(gòu)模型
[0028]①三層硬件體系模型
[0029]三層硬件體系模型:第一層由兩臺(tái)調(diào)度管理控制終端組成,兩臺(tái)操控終端互為熱備;第二層由兩臺(tái)基于對服務(wù)器集群進(jìn)行管理的調(diào)度管理服務(wù)器組成,兩臺(tái)服務(wù)器互為熱備;第三層為計(jì)算機(jī)集群,由多臺(tái)臺(tái)服務(wù)器構(gòu)成。(圖1)
[0030]②三層體系的網(wǎng)絡(luò)模型
[0031]網(wǎng)絡(luò)模型:三層網(wǎng)絡(luò)體系模型,分別為調(diào)度管理終端接入層、調(diào)度管理匯聚層及調(diào)度代理核心層。兩臺(tái)調(diào)度管理終端接入由兩臺(tái)互為熱備份的接入層交換機(jī),兩臺(tái)調(diào)度管理服務(wù)器接入由兩臺(tái)互為熱備份的匯聚層交換機(jī),計(jì)算機(jī)集群中的每一臺(tái)服務(wù)器接入由兩臺(tái)互為熱備份的核心層交換機(jī)。另外對服務(wù)器集群中的每一臺(tái)服務(wù)器用獨(dú)立網(wǎng)卡接入一臺(tái)交換機(jī),單獨(dú)成網(wǎng)構(gòu)成局域網(wǎng),主要用于雙工心跳信息交換使用。其中,每臺(tái)終端和服務(wù)器接入交換機(jī)都是采用雙網(wǎng)卡綁定技術(shù)。
[0032]③此方法的效果
[0033]硬件結(jié)構(gòu)模型設(shè)計(jì)為三層服務(wù)器模型,網(wǎng)絡(luò)結(jié)構(gòu)模型也是設(shè)計(jì)為三層模型。每一層操控終端、調(diào)度管理服務(wù)器、交換機(jī)都是熱備份,網(wǎng)卡接入交換機(jī)方式采用雙網(wǎng)卡虛擬技術(shù)。每一個(gè)系統(tǒng)節(jié)點(diǎn)均無單點(diǎn)故障,每一節(jié)點(diǎn)體現(xiàn)了冗余設(shè)計(jì)。
[0034](2)軟件體系結(jié)構(gòu)模型
[0035]①三層軟件模型
[0036]三層軟件模型:調(diào)度管理操控終端層,調(diào)度管理層及調(diào)度代理層。(圖2)
[0037]調(diào)度管理操控終端主要負(fù)責(zé)服務(wù)的申請,服務(wù)的啟動(dòng),軟硬件資源的系統(tǒng)監(jiān)視,軟雙工的動(dòng)態(tài)切換,服務(wù)器集群運(yùn)行作業(yè)(進(jìn)程)的操控,業(yè)務(wù)流程的控制,信息處理系統(tǒng)的應(yīng)急及服務(wù)的釋放等功能。