摘要
介紹了實(shí)現(xiàn)網(wǎng)絡(luò)快速收斂的相關(guān)協(xié)議以及引起收斂的原因,IXIA正在申請(qǐng)專利的集成在IxNetwork產(chǎn)品中TrueView網(wǎng)絡(luò)收斂時(shí)間測試技術(shù)和傳統(tǒng)技術(shù)的差異。
1 引言
收斂(Convergence)描述了網(wǎng)絡(luò)從故障恢復(fù)以及網(wǎng)絡(luò)變更的方式,F(xiàn)代網(wǎng)絡(luò)通過提供冗余或備用路徑來應(yīng)對(duì)預(yù)期的網(wǎng)絡(luò)故障。故障倒換是指網(wǎng)絡(luò)自動(dòng)檢測服務(wù)中斷和調(diào)整并切換到備用路徑的過程。重路由的信息流重新歸并到無故障路徑某點(diǎn)時(shí),傳輸網(wǎng)絡(luò)即發(fā)生了收斂。與之相反,故障倒回則是指修復(fù)服務(wù)中斷后網(wǎng)絡(luò)恢復(fù)至初始鏈路的過程。
圖1描述了一個(gè)“客戶端”計(jì)算機(jī)請(qǐng)求從“服務(wù)器”獲得信息所經(jīng)過的大型網(wǎng)絡(luò)的很小部分。這些信息正常情況下由路由器R1,R2,主鏈接和路由器R3轉(zhuǎn)發(fā)。想像一下,如果主鏈接可能因物理切斷,路由器R3故障,網(wǎng)絡(luò)過載或其他原因而中斷的情況。路由器R2將首先發(fā)送連接中斷通知,由于和“客戶端”沒有其他連接,連接中斷將會(huì)反饋到路由器R1。路由器R1查找到“客戶端”的備用路徑,并找到通過路由器R4,R6,備用鏈接和路由器R3連接的路徑。網(wǎng)絡(luò)信息流在下面這條路徑上轉(zhuǎn)發(fā)。路徑收斂于路由器R3,首次服務(wù)中斷到路由器R3重新恢復(fù)全部流量轉(zhuǎn)發(fā)之間的間隔時(shí)間就是收斂時(shí)間。
圖1 故障恢復(fù)過程示意圖
從技術(shù)上而言,所有受影響路由從主路徑切換到備用路徑后網(wǎng)絡(luò)路由收斂才會(huì)視為完成。
2 網(wǎng)絡(luò)收斂時(shí)間測試方案
2.1 實(shí)現(xiàn)快速收斂的協(xié)議介紹
在OSI模型的第2層,如果出現(xiàn)鏈接故障或網(wǎng)絡(luò)變更,STP,RSTP,MSTP和LDP/RSVP-TE等交換協(xié)議便會(huì)提供流量重定向機(jī)制。如果出現(xiàn)鏈接或網(wǎng)絡(luò)故障,第3層的RIP,OSPF,ISIS和BGP等路由協(xié)議有能力重路由IP流量。這些傳統(tǒng)技術(shù)需要數(shù)秒方可完成,實(shí)際時(shí)間取決于其所處理網(wǎng)絡(luò)的規(guī)模和復(fù)雜性。下一代網(wǎng)絡(luò)要求快得多的恢復(fù)時(shí)間,以滿足其高可用性要求。為實(shí)現(xiàn)快速故障倒換時(shí)間,眾多擴(kuò)展協(xié)議和新協(xié)議已被使用。這些協(xié)議包括:
(1)平滑無中斷重啟:路由器向鄰近路由器發(fā)送其正在重啟路由過程的消息,并要求鄰近路由器在其重啟期間繼續(xù)轉(zhuǎn)發(fā)數(shù)據(jù)包。
(2)虛擬路由器冗余協(xié)議(VRRP):定義并宣告一個(gè)“虛擬的”路由器為網(wǎng)關(guān),兩個(gè)或更多路由器為該網(wǎng)關(guān)提供服務(wù)。
(3)MPLS快速重路由:本地網(wǎng)絡(luò)保護(hù)恢復(fù)機(jī)制。每條LSP均受備用路徑保護(hù)。此機(jī)制滿足實(shí)時(shí)應(yīng)用要求,可以達(dá)到SONET環(huán)路不到50ms的恢復(fù)時(shí)間。
(4)雙向轉(zhuǎn)發(fā)檢測:一種簡單、高速的HELLO協(xié)議,可提供低開銷、短期(低至1ms)的路徑故障檢測。
(5)OAM/CFM鏈接:提供以太網(wǎng)鏈接和服務(wù)故障檢測和隔離。CFM可以完成低至10ms的服務(wù)中斷檢測的時(shí)間。
(6)協(xié)議計(jì)時(shí)器設(shè)置:網(wǎng)絡(luò)通常使用路由協(xié)議的相對(duì)低速的HELLO機(jī)制,在硬件沒有發(fā)送求助信號(hào)時(shí)檢測故障。許多計(jì)時(shí)器均可以調(diào)低以減少反應(yīng)時(shí)間。
服務(wù)提供商在服務(wù)等級(jí)協(xié)議(SLA)中向企業(yè)客戶保證其服務(wù)的可靠性級(jí)別,通常為99.999%。這聽起來毫無價(jià)值,但99.999%可靠性保證意味著一年中斷累計(jì)時(shí)間超過5min。此項(xiàng)極富挑戰(zhàn)性的要求導(dǎo)致網(wǎng)絡(luò)服務(wù)提供商實(shí)施多項(xiàng)功能,最大限度地縮短故障時(shí)間,加快收斂時(shí)間。
受故障倒換影響的不僅僅是路由協(xié)議。路由器還需要轉(zhuǎn)發(fā)大量流量,同時(shí)執(zhí)行服務(wù)質(zhì)量(QoS)和其他策略。信息服務(wù)器和負(fù)載均衡設(shè)備必須對(duì)付丟棄的包文和連接的沖擊。因此,收斂測試必須在網(wǎng)絡(luò)流量模仿用戶真實(shí)負(fù)載的環(huán)境中進(jìn)行。
2.2 網(wǎng)絡(luò)中斷的原因
網(wǎng)絡(luò)連接中斷的原因有很多,從明顯的電源故障或線路切斷到設(shè)備配置錯(cuò)誤,或軟件錯(cuò)誤和升級(jí)導(dǎo)致的故障。以下的討論旨在調(diào)查不同網(wǎng)絡(luò)堆棧等級(jí)造成或發(fā)生的故障。
(1)第1層——物理層中斷
導(dǎo)致物理層網(wǎng)絡(luò)中斷的故障范例包括:
●斷電。即使是短暫的停電也會(huì)導(dǎo)致故障發(fā)生。
●線路切斷。瞬時(shí)故障可視為線路切斷所致。
●設(shè)備故障?赡苁请娫垂收,損壞的內(nèi)存,CPU插件故障或接口插件故障所致。
SONET網(wǎng)絡(luò)包括此類故障的內(nèi)置保護(hù)部件,但以太網(wǎng)沒有此類內(nèi)置保護(hù)部件。雖然物理網(wǎng)絡(luò)連接擁有許多可行的選擇,但以太網(wǎng)將作為下一代網(wǎng)絡(luò)選擇的要素顯而易見。無論以太網(wǎng)鏈接使用的是銅線還是光纖,物理層設(shè)備(PHY)的管理界面只提供最低的鏈接故障可見度。至于網(wǎng)絡(luò)接口方面,鏈接要么接上,要么沒有接上。有效監(jiān)測鏈接狀況必須用到如OAM鏈接等更高級(jí)別的協(xié)議。
(2)第2層——數(shù)據(jù)連接層中斷
交換機(jī)是第2層最常見的設(shè)備。導(dǎo)致第2層故障的原因可歸類如下:
●容量。MAC地址數(shù)目達(dá)到容量極限。
●環(huán)境。環(huán)境過熱可導(dǎo)致設(shè)備無法正常運(yùn)行。
●硬件/軟件故障。如果沒有妥善規(guī)劃并測試,IT網(wǎng)絡(luò)操作人員移動(dòng)、添加和更改軟、硬件均會(huì)誘導(dǎo)硬件或軟件故障。
●事件。認(rèn)證問題(例如802.1x)、互操作性或配置錯(cuò)誤。
故障發(fā)生的方式各種各樣,包括流量泛濫或突降、流量受損、連接中斷、高延時(shí)以及低性能、導(dǎo)致性能下降的間歇性流量突降、網(wǎng)絡(luò)連接受限。
數(shù)據(jù)鏈接層使用的大多數(shù)協(xié)議均沒有提供連接故障檢測機(jī)制。舉例來說,ARP協(xié)議被用于映射主機(jī)MAC地址到第3層IP地址,但是如果ARP失效,便沒有任何恢復(fù)機(jī)制了。
有幾種協(xié)議可解決第2層的故障,其中包括生成樹,鏈接OAM,服務(wù)OAM,MPLS/RSVP-TE和BFD。STP,RSTP和MSTP等以太網(wǎng)生成樹協(xié)議用于為交換網(wǎng)絡(luò)提供冗余。這要求網(wǎng)絡(luò)管理員仔細(xì)配置,以取得最佳性能,但仍然不會(huì)迅速收斂。
目前,有許多新協(xié)議正在加以標(biāo)準(zhǔn)化,以實(shí)現(xiàn)50ms或用時(shí)更少的收斂時(shí)間。目前,可用的快速故障檢測和恢復(fù)的協(xié)議包括第2層(鏈接OAM,服務(wù)OAM,RSVP-TE快速重路由)和第3層(OSPF快速發(fā)送HELLO,雙向轉(zhuǎn)發(fā)檢測BFD,虛擬路由器冗余協(xié)議VRRP)。
這些協(xié)議旨在檢測故障,但通常需要與其他路由協(xié)議搭配使用,才能完成故障恢復(fù)。