專利名稱:硬件抽象層的制作方法
技術領域:
本發(fā)明涉及網絡交換機。更具體地說,本發(fā)明涉及在網絡交換體系 結構中使用的硬件抽象層。
背景技術:
網絡交換機是用于產生和斷開兩個端點之間的數據連接的硬件設 備。交換機可以用來創(chuàng)建多對端點之間的虛擬電路、通過將數據分組轉 向它們預期的目的地來完成與無連接網絡中的路由器相似的任務。
傳統(tǒng)地,交換機具有兩個軟件平面(softwareplane):控制平面和數 據平面。控制平面是該系統(tǒng)的負責提供系統(tǒng)的實際功能和特征的部分。 數據平面負責向將交換機連接到外部世界的端口實際發(fā)送數據和從所述 端口實際接收數據。在一些情況下,獨立的處理器("網絡處理器")也 可以控制這些端口。從純體系結構的觀點來看,控制平面和數據平面之 間的到不同處理器的分離是取決于系統(tǒng)的,并且還可以在該交換機上使 用的操作系統(tǒng)中執(zhí)行。
許多現(xiàn)有技術的交換機遵循控制平面和數據平面的這種分離。為了 方便專門針對控制平面設計的軟件,已經通過添加到控制平面的附加軟 件來利用應用程序編程接口 (API),以與數據平面進行交互。這些API 被總稱為硬件抽象層API (HAL API)。
局域網(LAN)技術通常區(qū)分交換功能和路由功能。交換功能涉及 使用封裝數據分組的以太網幀的介質訪問控制(MAC)地址將分組從源 端口傳輸到目的地端口。這些交換機通常被稱為集線器(hub)。另一方 面,路由涉及基于分配給計算機的互聯(lián)網協(xié)議(IP)地址作出(basing) 轉發(fā)決策。然后,以太網幀封裝源和目的地端點的IP分組和IP地址。結 果,因為在處理IP分組之前以太網幀必須被剝離,所以在路由器中解析
分組目的地比在交換機中解析分組目的地花費更長的時間。
現(xiàn)代的交換和路由系統(tǒng)實際上可以進行組合,以使得能夠基于MAC 地址或基于IP地址的以太網幀的交換。目前,這些能力可以被包含到在 控制系統(tǒng)的端口的交換系統(tǒng)中使用的實際網絡處理器內。這樣,需要將 新的能力添加到數據平面,以便于這種組合了新的技術發(fā)展水平的功能。
此外,虛擬LAN使得能夠在LAN的物理拓撲中創(chuàng)建虛擬網絡拓撲。這 使得能夠使用相同的以太網物理鏈路來分離該LAN中的數據流。從拓撲 學的角度看,物理LAN拓撲和虛擬LAN段表示虛擬地獨立的不同虛擬 LAN,從而提高安全性。
然而,這些系統(tǒng)的主要缺點出現(xiàn)在它們的設計階段。設計者必須實 現(xiàn)以下組成部分
1. 用于將路由和接口管理與控制平面進行接口連接的機制。
2. 將配置和登錄功能從控制平面?zhèn)鞑サ綌祿矫娴臋C制。
3. 用于控制分組處理(handle)的分組驅動器(在將分組傳送到數據 平面的IP轉發(fā)器/路由棧之前從硬件組件截取分組的層)。
4. 異常分組處理器(捕獲傳送IP路由棧不知道如何處理的拓撲信息 的控制分組,檢査它們并將它們轉發(fā)給適當的L2協(xié)議,以進行進一步的 處理)。
5. 接口管理器層(使虛擬接口的創(chuàng)建、處理和管理便利,并維護虛 擬端口和物理端口之間的綁定,以及處理集合物理端口 (aggregated physical port)到虛擬集合端口的創(chuàng)建和管理、這些虛擬端口之間的分組 的分配(distribution)并維護虛擬和物理端口的管理狀態(tài))。
6. 在硬件抽象層和硬件集成平面之間鏡像功能的組件(將HAL API 擴展到數據平面,并將基于硬件的PI提供給到實際硬件驅動器的API的 接口)。
7. HIPAPI和硬件驅動器的API之間的軟件中介層(shim layer)(在 數據平面中),該軟件中介層將HIP API翻譯成該驅動器的API。
8. 框架(chassis)和堆棧支持,包括可靠的數據傳輸機制和發(fā)現(xiàn)機制。
9. 將管理接口層從控制平面擴展到數據平面。
將這種大負擔施加給交換機的設計者增加了他們的開發(fā)費用以及開 發(fā)時間。傳統(tǒng)上,在創(chuàng)建功能、數據結構和通信路徑的不必要的副本的 許多情況下,以ad-hoc的方式執(zhí)行這些功能,而不考慮抽象的功能之間 的相互關系。此外,很多時候,交換機軟件被發(fā)布給需要定制它們以與 他們自己的硬件一起工作的客戶。因此,對于所有這些組件的設計負擔 被施加給客戶。需要的是不要求設計者或客戶參與這種耗時的開發(fā)的解 決方案。
發(fā)明內容
可以通過使為了處理一個接口管理器下的所有邏輯和物理的相關接 口所需的所有功能和算法記住虛擬接口和邏輯接口之間的綁定,并維護 屬于虛擬接口的端口和實際的邏輯端口的狀態(tài),來在網絡交換機的數據
平面中提供交換和路由功能。當實際接口關閉(go down)時,虛擬接口 可以隨之關閉。綁定還可以包括限定(definition)。所有這些綁定可以位 于單個路由信息庫(RIB)數據庫中,從而不需要在各個地方保持多個綁 定。此外,控制平面中的硬件抽象層隨后還可以鏡像到數據平面中,從 而不需要客戶創(chuàng)建執(zhí)行相同任務的層。
包含附圖并構成本說明書的一部分,附圖示出了本發(fā)明的一個或更 多個實施方式,并且與詳細說明一起用于解釋本發(fā)明的原理和實現(xiàn)。 圖1是表示根據本發(fā)明的實施方式的網絡交換機體系結構的圖。 圖2是表示在根據本發(fā)明的實施方式的網絡交換機的數據平面中提 供交換和路由功能的方法的圖。
具體實施例方式
這里在計算機、服務器、軟件的系統(tǒng)環(huán)境下描述本發(fā)明的實施方式。 本領域的普通技術人員將認識到本發(fā)明的以下詳細描述僅是說明性的并 且并不旨在受到任何方式的限制。本領域的技術人員在本公開的幫助下
將容易地想到本發(fā)明的其他實施方式?,F(xiàn)在將對附圖中所示的本發(fā)明的 實現(xiàn)進行詳細說明。在整個附圖和下面的詳細描述中,使用相同的標號 來指代相同或相類的部分。
為了清楚起見,沒有示出和描述在此所述的實現(xiàn)的全部常規(guī)
(routine)特征。當然,應該理解,在任何這種實際實現(xiàn)的開發(fā)中,必須 進行許多具體實現(xiàn)的決策以達到開發(fā)人員的具體目標(例如,符合與應 用和商業(yè)相關的限制),并且這些具體目標根據實現(xiàn)和開發(fā)人員而變化。 此外,應該理解,盡管這種開發(fā)努力可能是復雜而耗時的,但是對于受 益于本公開的本領域的普通技術人員來說將是常規(guī)的工程任務。
根據本發(fā)明,組件、處理步驟和/或數據結構可以使用各種類型的操 作系統(tǒng)、計算平臺、計算機程序和/或通用機器來實現(xiàn)。此外,本領域的 普通技術人員將認識到,在不偏離在此公開的發(fā)明思想的范圍和精神的 情況下,還可以使用具有較不通用特性的設備,例如硬連線設備、現(xiàn)場 可編程門陣列(FPGA)、專用集成電路(ASIC)等。
可以通過使為了處理一個接口管理器下的所有邏輯和物理的相關接 口所需的所有功能和算法記住虛擬接口和邏輯接口之間的綁定,并維護 屬于虛擬接口的端口和實際的邏輯端口的狀態(tài),來在網絡交換機的數據 平面中提供交換和路由功能。當實際接口關閉時,虛擬接口可以隨之關 閉。綁定還可以包括限定。所有這些綁定可以位于單個數據庫中,從而 不需要在各個地方保持多個綁定??刂破矫嫣幚硭薪涌?,就好像它們 是物理接口一樣,由此改善控制平面對決策的路由和轉發(fā),從而提高了 性能、網絡彈性(resilliancy)和網絡穩(wěn)定性。此外,綁定可以被結合到 實際的物理芯片中。此外,控制平面中的硬件抽象層隨后還可以被鏡像 到數據平面中,從而不需要客戶創(chuàng)建執(zhí)行相同任務的層。此外,接口管 理器維護從駐留在控制平面中的路由信息庫(RIB)導出的系統(tǒng)范圍的轉 發(fā)信息庫(FIB)。正在出現(xiàn)的新的下一代網絡處理器還能夠維護內部轉 發(fā)數據庫(FDB)。然后,網絡處理器可以基于它們的內部轉發(fā)數據庫以 線速(wire speed)作出轉發(fā)決策。網絡處理器的FDB在其整體容量上要 小得多。結果,網絡處理器能夠僅維護系統(tǒng)范圍的FIB的一部分。當網
絡處理器需要轉發(fā)分組時,所述網絡處理器在其內部FDB中查找匹配目 的地MAC或者IP地址匹配。如果網絡處理器找到匹配,則網絡處理器 將分組轉發(fā)到正確的端口。如果沒有找到,則NP將分組轉發(fā)到數據平面 的分組處理器(handler)。分組處理器檢查該分組,并檢驗IP棧是否可 以將該轉發(fā)解析到正確端口,如果不可以,則將該分組傳送到接口管理 器。因為接口管理器維護并更新FIB,所以其具有更高的解析該轉發(fā)決策 的可能性。如果接口管理器解析了該轉發(fā)決策,則它更新NPFDB,并且 還使用對IP的FIB的直接訪問來更新IP棧的FIB。這種機制是唯一的, 并且由于分組不必被轉發(fā)到控制平面來進一步解析轉發(fā)決策,所以該機 制使得能構進行更快的轉發(fā)決策和解析。只有在網絡拓撲中出現(xiàn)新的主 機、網絡單元或變化時,才需要將分組轉發(fā)到控制平面以進行解析。
分組處理器還截取控制分組,并將它們發(fā)送到分組處理器。然后, 分組處理器檢查控制分組的類型,如果這些分組針對L2 (以太網型控制 分組),則將所述分組傳送到后端套接字層分組處理器,然后被發(fā)送到正 確的L2協(xié)議以進行進一步處理。針對路由協(xié)議的控制分組遵循基于正常 IP的分組轉發(fā)。
當一起工作時,這些功能提供了性能上的顯著提高,并且使得能夠 在兆兆位每秒的范圍內優(yōu)化能夠轉發(fā)分組的新一代網絡處理器的轉發(fā)能 力。因此,以具有最小分組延遲、抖動以及漂移(wonder)的線速來執(zhí) 行數據流的交換與轉發(fā)。
已經開發(fā)了平臺集成體系結構,以便于下一代交換和路由系統(tǒng)的設 計。平臺集成體系結構提供了為了提供這種新的功能所需的控制平面和 數據平面之間的更緊密的結合。該體系結構的兩個主要組件是硬件抽象 層(HAL)組件和駐留在數據平面中的硬件集成平面(HIP)組件。
HAL/HIP軟件組件形成唯一地綁定控制平面和數據平面的硬件服務 層。可以對HAL/HIP API進行擴展,以將先進的功能添加到系統(tǒng)中,以 利用提供先進網絡功能(例如,MPLS、多播以及服務質量和通信量工程) 的新的網絡處理器。
使用HAL/HIP硬件服務層,系統(tǒng)設計者僅需要提供以下組成部分
1. HIP API和硬件驅動器的API之間的軟件中介層(在數據平面中),
該軟件中介層將HIP API翻譯成該驅動器的API。
圖1是表示根據本發(fā)明的實施方式的網絡交換機體系結構的圖。
唯一需要開發(fā)的軟件組件是硬件服務中介層100。通過使用接口管 理器102維護虛擬接口和邏輯接口之間的綁定以及它們的限定(全部位 于數據平面中的單個數據庫中),以及通過將控制平面的硬件抽象層復制 到數據平面的硬件抽象層104來實現(xiàn)該軟件組件。
根據系統(tǒng),這可以代表在系統(tǒng)設計中節(jié)省了 40%到50%的額外費用, 并潛在地減少了 30°/。到40°/。的上市時間。
該數據平面的實現(xiàn)使得能夠高度模塊化、控制平面協(xié)議和應用程序 與OS和交換硅平臺的靈活和優(yōu)化的集成。在該實現(xiàn)中,控制平面協(xié)議和 應用程序全部從硬件、操作系統(tǒng)和系統(tǒng)基礎結構中抽象出來,并且可以 透明地工作在具有相同的數據平面實現(xiàn)的任意平臺中。協(xié)議和應用程序 可以獨立于底層平臺以顆粒的(granular)方式添加或去除。
該創(chuàng)新的實現(xiàn)基于涵蓋L2端口、 L3接口、集合(L2或L3)、交換 的虛擬接口以及所有可能的L2/L3/VLAN/集合分級結構(hierarchy)的綜 合體系結構。所有這些接口和分級結構被表示成在邏輯上隔離所有硬件 平臺細節(jié)的控制平面。通過單個外殼命令(shell command)改變系統(tǒng)配 置的靈活性使得能夠適應快速變化的L2/L3交換的需要,特別是在網絡 操作者并入額外的先進功能(例如,VoIP、視頻流、安全性和無線)時。
該先進的實現(xiàn)可以用分布式數據平面和中央冗余控制平面來構建。 當具有單個管理點時,該實現(xiàn)自動發(fā)現(xiàn)硬件系統(tǒng)拓撲,并且在可堆棧的
系統(tǒng)或基于框架的系統(tǒng)中在支持完全分布的數據平面方面選擇主/從實 例。
在開發(fā)新產品時,基于這種先進的數據平面體系結構的實現(xiàn)是在不 同交換平臺之間高度可移植,從而使得能夠進行高度的實現(xiàn)再利用,并 且對于快速的上市時間更加重要。這具有以下優(yōu)點
l.控制平面協(xié)議和應用程序以唯一和創(chuàng)新的方式從HW、 OS以及系
統(tǒng)基礎結構中抽象出來,并且可以透明地跨不同的硬件平臺和操作系統(tǒng)
進行工作。在開發(fā)新產品時,基于這種先進的數據平面體系結構的實現(xiàn) 是在不同交換平臺之間高度可移植,使得能夠進行高度的實現(xiàn)再利用, 并且對于快速的上市時間更加重要。
2. 協(xié)議和應用程序可以獨立于底層平臺以顆粒的方式添加或去除。
3. 這種創(chuàng)新的實現(xiàn)基于涵蓋L2端口、 L3接口、集合(L2或L3)、 交換的虛擬接口以及所有可能的L2/L3/VLAN/集合分層結構的"整體
(holistic)"方法。以這種唯一的方法,所有這些接口和分層結構被表示 成在邏輯上隔離所有硬件平臺細節(jié)的控制平面。
4. 這種創(chuàng)新的L2/L3集成方法提供了在通過單個外殼命令改變系統(tǒng) 配置方面的靈活性,以使得能夠適應快速變化的L2/L3交換的需要,特 別是在網絡操作者并入額外的先進功能(例如VoIP、視頻流、安全性和 無線)時。
5. 這種創(chuàng)新的方法保留了以上所有的優(yōu)點(與hw平臺無關的控制 平面、模塊化的控制平面、唯一的L2/L3混合實現(xiàn)等),同時通過唯一的 方式(在該方式中,通過仔細構造(craft)的接口管理器、分組異常處理 器和HAL API來更新NP FDB和IP棧的FIB并且使條目(entry)老化
(aged))使得分布式數據平面能夠具有中央控制平面實現(xiàn),以具有最高 的性能和擴展性(scalability)。
通過使接口管理器記住虛擬接口和邏輯接口之間的綁定,并在維護 始終由控制平面RIB更新的FIB的同時,維護屬于虛擬接口的端口和實 際的邏輯端口的狀態(tài),可以實現(xiàn)該優(yōu)點。當實際接口關閉時,虛擬接口 可以隨之關閉。綁定還可以包括限定。所有這些綁定可以位于單個數據 庫中,從而不需要在各個地方保持多個綁定。此外,綁定可以被結合到 實際的物理芯片中,并且FIB/RIB綁定可以隨著網絡拓撲的改變而快速 更新。
控制平面的硬件抽象層隨后還可以被鏡像到數據平面中,從而不需 要客戶創(chuàng)建執(zhí)行相同任務的層。
圖2是表示在根據本發(fā)明的實施方式的網絡交換機的數據平面中提 供交換和路由功能的方法的流程圖。可以在硬件、軟件或其任意組合中
執(zhí)行該方法的各個動作。在200處,可以接收針對網絡交換機的虛擬接 口和一個或更多個邏輯接口之間的綁定的請求。該綁定可以包括與網絡
交換機的屬于虛擬接口的端口有關的信息。在202處,可以接收針對該 綁定的限定。在204處,可以在網絡交換機的控制平面中的單^^RIB數 據庫和數據平面中的導出的FIB中維護該綁定和限定。在206處,還可 以在網絡交換機的數據平面中的單個數據庫中維護該綁定的狀態(tài)。在208 處,可以將該綁定鏈接到物理芯片。
在210處,可以確定該綁定的狀態(tài)是否表示邏輯接口關閉。如果是, 則在212處,可以關閉由該綁定指定的對應虛擬接口。 RIB和FIB被立 即更新,并且拓撲變化被傳播到網絡的其余部分。
盡管已經示出和描述了本發(fā)明的實施方式和應用,但是本領域技術 的人員在本公開的幫助下將明白,在不偏離這里的本發(fā)明的思想的情況 下,可以進行比上述更多的修改。因此,除了受所附權利要求的精神限 制以外,本發(fā)明不受其他限制。
本申i青要求基于Vividh Siddha、Kunihiro Ishiguro禾Q Willie Hernandez 于2005年2月25日提交的序列號為60/656,756、標題為"硬件抽象層 (Hardware Abstraction Layer)"的臨時申請的優(yōu)先權。
權利要求
1、一種在網絡交換機的數據平面中提供交換和路由功能的方法,所述方法包括接收針對所述網絡交換機的虛擬接口和一個或更多個邏輯接口之間的綁定的請求;接收針對所述綁定的限定;以及在所述網絡交換機的所述數據平面中的單個數據庫中維護所述綁定和所述限定。
2、 根據權利要求1所述的方法,該方法還包括在所述網絡交換機的所述數據平面中的所述單個數據庫中維護所述 綁定的狀態(tài)。
3、 根據權利要求1所述的方法,其中,所述綁定是與所述網絡交換 機的屬于所述虛擬接口的端口有關的信息。
4、 根據權利要求2所述的方法,該方法還包括在所述綁定的狀態(tài)表示邏輯接口關閉的情況下,關閉由所述綁定指 定的對應虛擬接口。
5、 根據權利要求1所述的方法,該方法還包括將所述綁定鏈接到物理芯片。
6、 根據權利要求1所述的方法,該方法還包括將硬件抽象層從所述網絡交換機的控制平面復制到所述網絡交換機 的所述數據平面上。
7、 根據權利要求1所述的方法,其中,所述單個數據庫是轉發(fā)信息庫,并且所述方法還包括-從路由信息庫中導出所述轉發(fā)信息庫。
8、 根據權利要求1所述的方法,該方法還包括更新用于網絡處理器的芯片的轉發(fā)數據庫和用于連接到所述網絡交 換機的IP棧的轉發(fā)信息庫。
9、 一種網絡交換機,該網絡交換機包括 控制平面;以及連接到所述控制平面并且包括接口管理器的數據平面,其中,所述 接口管理器被構造為接收針對所述網絡交換機的虛擬接口和一個或更多個邏輯接口之間的綁定的請求;接收針對所述綁定的限定;以及在所 述網絡交換機的所述數據平面中的單個數據庫中維護所述綁定和所述限 定。
10、 根據權利要求9所述的網絡交換機,其中,所述接口管理器還 被構造為在所述網絡交換機的所述數據平面中的所述單個數據庫中維護 所述綁定的狀態(tài)。
11、 根據權利要求9所述的網絡交換機,其中,所述綁定是與所述網絡交換機的屬于所述虛擬接口的端口有關的信息。
12、 根據權利要求10所述的網絡交換機,其中,所述接口管理器還被構造為在所述綁定的狀態(tài)表示邏輯接口關閉的情況下,關閉由所述綁 定指定的對應虛擬接口。
13、 根據權利要求9所述的網絡交換機,其中,所述接口管理器還被構造為將所述綁定鏈接到物理芯片。
14、 根據權利要求9所述的網絡交換機,其中,所述控制平面包括 硬件抽象層,并且所述數據平面還包括所述硬件抽象層的復制版本。
15、 根據權利要求9所述的網絡交換機,其中,所述單個數據庫是 轉發(fā)信息庫,并且所述接口管理器還被構造為從路由信息庫中導出所述 轉發(fā)信息庫。
16、 根據權利要求9所述的網絡交換機,其中,所述接口管理器還 被構造為更新用于網絡處理器的芯片的轉發(fā)數據庫和用于連接到所述網 絡交換機的IP棧的轉發(fā)信息庫。
17、 一種在網絡交換機的數據平面中提供交換和路由功能的設備, 所述設備包括用于接收針對所述網絡交換機的虛擬接口和一個或更多個邏輯接口 之間的綁定的請求的裝置;用于接收針對所述綁定的限定的裝置;以及 用于在所述網絡交換機的所述數據平面中的單個數據庫中維護所述 綁定和所述限定的裝置。
18、 根據權利要求17所述的設備,該設備還包括用于在所述網絡交換機的所述數據平面中的所述單個數據庫中維護 所述綁定的狀態(tài)的裝置。
19、 根據權利要求17所述的設備,其中,所述綁定是與所述網絡交換機的屬于所述虛擬接口的端口有關的信息。
20、 根據權利要求18所述的設備,該設備還包括在所述綁定的狀態(tài)表示邏輯接口關閉的情況下,用于關閉由所述綁 定指定的對應虛擬接口的裝置。
21、 根據權利要求17所述的設備,該設備還包括 用于將所述綁定鏈接到物理芯片的裝置。
22、 根據權利要求17所述的設備,該設備還包括-用于將硬件抽象層從所述網絡交換機的控制平面復制到所述網絡交換機的所述數據平面上的裝置。
23、 根據權利要求17所述的設備,其中,所述單個數據庫是轉發(fā)信息庫,并且所述設備還包括用于從路由信息庫中導出所述轉發(fā)信息庫的裝置。
24、 根據權利要求17所述的設備,該設備還包括用于更新用于網絡處理器的芯片的轉發(fā)數據庫和用于連接到所述網 絡交換機的IP棧的轉發(fā)信息庫的裝置。
25、 一種機器可讀的程序存儲裝置,該程序存儲裝置包含有可由所 述機器執(zhí)行用來執(zhí)行在網絡交換機的數據平面中提供交換和路由功能的方法的指令的程序,所述方法包括接收針對所述網絡交換機的虛擬接口和一個或更多個邏輯接口之間的綁定的請求;接收針對所述綁定的限定;以及在所述網絡交換機的所述數據平面中的單個數據庫中維護所述綁定 和所述限定。
全文摘要
本發(fā)明提供了一種硬件抽象層。可以通過使為了處理一個接口管理器下的所有邏輯和物理的相關接口所需的所有功能和算法記住虛擬接口和邏輯接口之間的綁定,并維護屬于虛擬接口的端口和實際的邏輯端口的狀態(tài),來在網絡交換機的數據平面中提供交換和路由功能。當實際接口關閉時,虛擬接口可以隨之關閉。綁定還可以包括限定。所有這些綁定可以位于單個路由信息庫(RIB)數據庫中,從而不需要在各個地方保持多個綁定。此外,控制平面中的硬件抽象層隨后還可以鏡像到數據平面中,從而不需要客戶創(chuàng)建執(zhí)行相同任務的層。
文檔編號H04L12/56GK101129032SQ200680006072
公開日2008年2月20日 申請日期2006年2月24日 優(yōu)先權日2005年2月25日
發(fā)明者吉耶爾莫·赫爾南德茲, 石黑邦宏, 維維德·西達 申請人:Ip輸入公司