欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

高性能計算(hpc)網(wǎng)絡(luò)中的通信信道故障切換的制作方法

文檔序號:8548390閱讀:866來源:國知局
高性能計算(hpc)網(wǎng)絡(luò)中的通信信道故障切換的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明大體涉及數(shù)據(jù)處理系統(tǒng),并且尤其涉及處理分布式數(shù)據(jù)處理系統(tǒng)中的通信故障。
【背景技術(shù)】
[0002]在計算機領(lǐng)域普遍接受的是,更佳的計算機系統(tǒng)性能可以通過利用多個單獨處理單元的處理能力而實現(xiàn)。多處理器(MP)計算機系統(tǒng)可以實現(xiàn)多個不同拓撲,其各種拓撲取決于每一個應(yīng)用的性能要求和軟件環(huán)境而可能更適宜于特定應(yīng)用。一種常見的MP計算機結(jié)構(gòu)是對稱多處理器(SMP)架構(gòu),其中每一個均由多級緩存架構(gòu)支持的多處理器單元共享共同的資源池,諸如通常耦接到共享系統(tǒng)互連的系統(tǒng)存儲器和輸入/輸出(I/O)子系統(tǒng)。
[0003]盡管SMP計算機系統(tǒng)準許相對簡單的處理器間通信和數(shù)據(jù)共享方法的使用,但是SMP計算機系統(tǒng)具有有限的伸縮性。例如,很多SMP架構(gòu)隨著系統(tǒng)規(guī)模增加而在一定程度上苦于帶寬限制,尤其是系統(tǒng)存儲器方面。
[0004]還已經(jīng)采用作為非統(tǒng)一內(nèi)存訪問(NUMA)已知的替代MP計算機系統(tǒng)拓撲來解決SMP對計算機系統(tǒng)的伸縮性和擴展性的限制。傳統(tǒng)NUMA計算機系統(tǒng)包括均可以實現(xiàn)為小規(guī)模SMP系統(tǒng)的多個節(jié)點連接到的開關(guān)或其他全局互連。節(jié)點中的處理單元享有針對在處理器的對應(yīng)節(jié)點的本地系統(tǒng)存儲器中包含的數(shù)據(jù)的相對低的訪問延遲,但是苦于針對遠程節(jié)點中系統(tǒng)存儲器中包含的數(shù)據(jù)的顯著較高的訪問延遲。因此,對系統(tǒng)存儲的訪問延遲是非統(tǒng)一的。因為每一個節(jié)點具有其自身的資源,NUMA系統(tǒng)具有比SMP系統(tǒng)潛在更高的伸縮性。
[0005]無論是否采用SMP、NUMA或其他MP數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu),每一個處理單元通過利用真實地址來識別感興趣的存儲位置,以訪問駐留在存儲器映射的存儲位置(在物理系統(tǒng)存儲器、緩存存儲器或另一系統(tǒng)資源中)中的數(shù)據(jù)。真實地址的重要特性在于對于每一個存儲器映射的物理存儲位置存在獨一的真實地址。
[0006]因為存儲器映射的物理存儲位置和真實地址之間的一一對應(yīng)必定限制可以由軟件參考的存儲位置的數(shù)量,所以大多數(shù)商用MP數(shù)據(jù)處理系統(tǒng)的處理單元采用存儲器虛擬化來擴大可尋址位置的數(shù)量。事實上,虛擬存儲器地址空間的大小可以大于真實地址空間若干數(shù)量級。因此,在傳統(tǒng)系統(tǒng)中,處理單元通過虛擬(或有效)地址內(nèi)部地參考存儲器位置,然后進行虛擬到真實地址轉(zhuǎn)譯(通常經(jīng)由一個或多個中間邏輯地址空間)以接入由真實地址識別的物理存儲器位置。
[0007]給定以上MP系統(tǒng)的可用性,數(shù)據(jù)處理技術(shù)中的進一步發(fā)展已經(jīng)引入了并行計算。利用并行計算,多個處理器節(jié)點經(jīng)由系統(tǒng)互連或組織互連到彼此。這些多個處理器節(jié)點隨后被用于執(zhí)行具體任務(wù),其可以是單個/獨立任務(wù)或由多個任務(wù)構(gòu)成的大型工作的部分。
[0008]在這樣的系統(tǒng)中,多個處理器節(jié)點之間的協(xié)作通信對于確??焖偾腋咝幚碛行ж撦d是極其重要的。已經(jīng)發(fā)現(xiàn)在不同計算節(jié)點上的協(xié)作進程(例如,用戶工作或OS實例)之間的通信損失導(dǎo)致工作進展的延遲/損失、冗長的恢復(fù)和或系統(tǒng)中的抖動,有效地浪費了計算資源、功率,并且延遲最終結(jié)果。
[0009]各種MP系統(tǒng)技術(shù)利用不同類型的通信信道來支持協(xié)作進程之間的通信。例如,在實現(xiàn)為高性能計算(HPC)簇的MP系統(tǒng)中,通信信道可以實現(xiàn)為在一個或多個主機結(jié)構(gòu)界面(HFI)適配器上可用的“窗口”。在其他類型的HPC簇中,通信信道可以實現(xiàn)為主機信道適配器(HCA)上的隊列對。
[0010]為了解決潛在通信損失,一些MP系統(tǒng)跨越不同計算節(jié)點分派計算工作的多個一致拷貝。然而,這樣做使得CPU/存儲器資源和帶寬使用率翻倍,并且要求合并/拋棄從多個源返回的結(jié)果。
[0011 ] 其他MP系統(tǒng)利用主動/被動循環(huán)配置中的多個活動通信信道。然而,這樣做要求被分給每個終端客戶(計算工作)的額外信道資源、管理多個信道的額外資源以及管理合并通信流的用戶工作或OS庫中的額外開銷。此外,列隊到發(fā)生故障的硬件的任何操作都將經(jīng)常丟失,因為一個信道的故障可能僅由長間隔軟件計時器檢測到。
[0012]在另一 MP系統(tǒng)中,多個通信信道可以在主動/被動配置中使用。然而,這樣的解決方案要求額外信道資源被分配給每一個終端客戶(計算任務(wù)),其大多數(shù)從而使用。也通常地要求額外資源來管理多個信道,并且列隊到發(fā)生故障的硬件的任何操作將通常地丟失。此外,一個信道的故障通常地僅可以由長間隔軟件計時器檢測到。
[0013]因而,在以改進方式處理HPC簇或其他MP系統(tǒng)中的通信信道故障的領(lǐng)域中存在可觀需求,尤其是減少故障切換的時間、減少丟包的數(shù)量、減少額外專用資源的需求和或比傳統(tǒng)途徑更具靈活性的配置的處理通信信道故障的方法。

【發(fā)明內(nèi)容】

[0014]本發(fā)明通過提供轉(zhuǎn)移駐留在硬件組織接口裝置中的窗口之間的通信信道的狀態(tài)的簇組織中通信信道的故障切換來解決與現(xiàn)有技術(shù)關(guān)聯(lián)的這些和其他問題。通過更新主機存儲器中的存儲器資源和組織接口裝置中的硬件資源之間的多個映射,期望地實現(xiàn)故障切換,并且通常地不修改存儲器資源,以使得在故障切換中利用通信信道的客戶端的涉及被最小化或消除。
[0015]因而,與本發(fā)明的一個方面相符,通過使用在組織接口裝置中的第一窗口建立通過通信信道到簇組織的客戶端訪問而進行成簇的計算機系統(tǒng)中的通信信道故障切換,在該組織接口裝置中,第一窗口定義對客戶端的通信信道的狀態(tài),并且窗口包括分配給客戶端的存儲器資源和分配給組織接口裝置中的第一窗口的第一硬件資源之間的多個映射;響應(yīng)于檢測到通信信道中的故障,通過更新該多個映射以將分配給客戶端的存儲器資源映射到分配給組織接口裝置中的第二窗口的第二硬件資源來轉(zhuǎn)移由第一窗口定義的狀態(tài)到第二窗口 ;以及使用該第二窗口恢復(fù)通過通信信道到簇組織的客戶訪問。
[0016]刻畫本發(fā)明的這些和其他優(yōu)點及特征在本文所附的權(quán)利要求書中闡述,并且形成本文的另一部分。然而,為了更好地理解本發(fā)明和通過其使用獲得的優(yōu)點和目的,應(yīng)當(dāng)參考附圖,并且參考在其中描述本發(fā)明的示例實施例的伴隨的描述性主題。
【附圖說明】
[0017]圖1圖示在每一個節(jié)點提供以與本發(fā)明一致的方式使能通信信道故障切換的具有主機組織接口(HFI)的示例多節(jié)點數(shù)據(jù)處理系統(tǒng)。
[0018]圖2圖示跨越圖1的數(shù)據(jù)處理系統(tǒng)內(nèi)的分區(qū)和節(jié)點分配單個工作的任務(wù)。
[0019]圖3是圖示被用于處理圖1的數(shù)據(jù)處理系統(tǒng)中的GSM操作的示例發(fā)送(初始)節(jié)點和目標節(jié)點的組件的框圖。
[0020]圖4圖示示例HFI窗口和窗口條目與圖1的數(shù)據(jù)處理系統(tǒng)中的真實存儲器內(nèi)的具體存儲器位置的關(guān)聯(lián)的詳細視圖。
[0021]圖5是圖示以與本發(fā)明一致的方式在通信信道故障切換之前的示例數(shù)據(jù)處理系統(tǒng)的框圖。
[0022]圖6是圖示用來實現(xiàn)圖5的數(shù)據(jù)處理系統(tǒng)中的通信信道故障切換的示例操作序列的高級流程圖。
[0023]圖7A-7B是更詳細地圖示用來實現(xiàn)圖5的數(shù)據(jù)處理系統(tǒng)中的通信信道故障切換的示例操作序列的流程圖。
[0024]圖8是圖示在以與本發(fā)明一致的方式的通信信道故障切換之后的圖5的數(shù)據(jù)處理系統(tǒng)的框圖。
【具體實施方式】
[0025]現(xiàn)在轉(zhuǎn)向其中貫穿若干視圖相同附圖標記表不相同部分的附圖,圖1圖不描繪根據(jù)本發(fā)明的一個說明性實施例的示例數(shù)據(jù)處理系統(tǒng)100的第一視圖的高級框圖,該示例數(shù)據(jù)處理系統(tǒng)100由兩個經(jīng)由相應(yīng)主機組織接口連接的兩個節(jié)點配置,并且其中可以實現(xiàn)本發(fā)明的很多功能特征。如所示,數(shù)據(jù)處理系統(tǒng)100包括用于處理數(shù)據(jù)和指令的個處理節(jié)點102A、102B (統(tǒng)稱102)。處理節(jié)點102經(jīng)由主機組織接口(HFI) 120耦接到依據(jù)一個或多個互連和或網(wǎng)絡(luò)協(xié)議支持在處理節(jié)點102之間的數(shù)據(jù)通信的互連組織110?;ミB組織110可以例如利用一個或多個總線、開關(guān)和或網(wǎng)絡(luò)來實現(xiàn)??梢杂蒆FI 120利用多個機構(gòu)的任意一個來跨互連110通信。例如且非限制,HFI 120可以經(jīng)由私有協(xié)議或諸如Infiniband、Ethernet或IP (因特網(wǎng)協(xié)議)之類的工業(yè)標準協(xié)議通信。
[0026]如本文所用,術(shù)語“處理節(jié)點”(或簡單節(jié)點)定義為形成形成連貫操作系統(tǒng)(OS)圖像的域的計算資源的集合。為了清晰,應(yīng)當(dāng)理解,取決于配置,單個物理系統(tǒng)可以包括多個節(jié)點。在給定系統(tǒng)中采用的處理節(jié)點102的數(shù)量是依賴于實現(xiàn)方式的,并且可以廣泛地改變,例如,從少量節(jié)點到數(shù)千節(jié)點。
[0027]每一個處理節(jié)點102可以實現(xiàn)為例如單個集成電路芯片(例如,片上系統(tǒng)(SOC))、多芯片模塊(MCM)或電路板,其包含用于處理指令和數(shù)據(jù)的一個或多個處理單元104(例如,處理單元104A、104B)。此外,每一個處理單元104可以并發(fā)執(zhí)行一個或多個執(zhí)行的硬件線程。
[0028]如所示,每一個處理單元104由包含一個或多個級別的內(nèi)嵌緩存或旁路讀出式緩存的緩存存儲器112支持。正如本領(lǐng)域公知的,緩存存儲器112提供具有對從相同處理節(jié)點102A內(nèi)和或一個或多個遠程處理節(jié)點102B的一個或多個源接收的指令和數(shù)據(jù)的低延遲訪問的處理單元104。每一個處理節(jié)點102內(nèi)的處理單元104耦接到局部互連114,其可以例如用一個或多個總線和或開關(guān)實現(xiàn)。局部互連114進一步耦接到HFI 120以支持處理節(jié)點102A、102B之間的數(shù)據(jù)通信。
[0029]如圖1進一步所示,處理節(jié)點102通常地包括至少一個存儲器控制器106,其可以耦接到局部互連114以提供接口到相應(yīng)的物理系統(tǒng)存儲器108.。在本發(fā)明的替代實施例中,一個或多個控制器106可以耦接到互連組織110或直接耦接到處理單元104而非局部互連114.ο
[0030]除
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
西安市| 江华| 德钦县| 利川市| 年辖:市辖区| 拉萨市| 乌兰浩特市| 闸北区| 化州市| 罗源县| 宜城市| 宝兴县| 汪清县| 义马市| 宜章县| 庐江县| 高要市| 韶山市| 拉萨市| 虎林市| 安丘市| 古田县| 天祝| 婺源县| 杭锦后旗| 临汾市| 沂水县| 临武县| 韶关市| 红河县| 黄骅市| 秦皇岛市| 增城市| 遵化市| 泽普县| 象山县| 游戏| 沂南县| 景谷| 汾阳市| 永丰县|