在網(wǎng)絡中,嚴重的故障狀態(tài)可以通過告警機制來檢測,但是在多個設備單元之間的非常低速率或者間歇性錯誤狀態(tài),會導致業(yè)務質(zhì)量降低,卻是無法通過告警機制來檢測到,這種情況下,就需要性能監(jiān)控了。性能監(jiān)控一般使用連續(xù)性的收集與網(wǎng)元性能相關的數(shù)據(jù),一般情況下,設備提供原始的統(tǒng)計數(shù)據(jù),網(wǎng)管或者專門的性能管理服務器進行處理,生成各種報表,進行相關性分析,趨勢分析等等,最終以報告、圖表或者其他形式呈現(xiàn)給客戶。
性能監(jiān)控和責任定界
電信網(wǎng)絡由于所有權歸屬,維護體制,維護團隊上的不同,存在不同的維護域,不同的維護域之間互相不感知,或者不必要感知。不同維護域之間存在邊界的,邊界和邊界之間的界限就需要有清晰的分界,以便于維護。以LTE移動承載為例,說明維護域的不同。
移動網(wǎng)絡維護域示意圖
如圖1所示,在一個端到端的LTE移動網(wǎng)絡中,可能存在多個維護域。無線維護域,無線維護人員僅負責基站、S-GW/MME等的維護,對中間的回傳網(wǎng)絡不可見,不感知;移動回傳維護人員負責從基站側(cè)CSG(基站側(cè)網(wǎng)關Cell Site Gateway)經(jīng)過ASG(匯聚網(wǎng)關Aggregation Site Gateway)再到到RSG(RNC側(cè)網(wǎng)關RNC Site Gateway)之間的網(wǎng)絡的維護和管理,對無線網(wǎng)絡不感知,不可見。有故障時,不同維護團隊需要快速的分清責任,快速進行故障定位和排障,對鏈路可管、可控、可視。為達到這個目的, CSG在移動回傳網(wǎng)絡提供如下一些功能,端到端監(jiān)控鏈路的性能:
和RSG組成端到端網(wǎng)絡,對這些電路連接的提供性能監(jiān)控,提供可視的鏈路狀態(tài)報告,加速故障定位和排障;
和RSG組成端到端網(wǎng)絡,對這些電路連接的連續(xù)性進行檢測,實時的感知網(wǎng)絡中斷與否,并在中斷時及時倒換到備用鏈路上去。
回傳網(wǎng)絡的一個重要的作用,就是將所承載的電路連接變成可見、可感知、可控、可預知,出現(xiàn)故障時,通過承載網(wǎng)豐富和強大的OAM能力、性能監(jiān)控能力,加快故障定位和排障,盡量減少業(yè)務中斷時間。
華為LTE承載網(wǎng)性能監(jiān)控解決方案
LTE承載網(wǎng)因為X2接口的引入變得十分復雜,在排障、責任定界和快速故障定位方面提出了新的挑戰(zhàn),對網(wǎng)絡可管、可控、可視能力要求更高。因此,對每一段、每一個網(wǎng)絡層次的性能監(jiān)控、OAM管理、故障定位、責任定界就非常重要。
ITU-T和IETF分別定義了多種分組網(wǎng)絡的性能監(jiān)控的標準,從測量方式上可以劃分為間接測量和直接測量兩種方式。
間接測量是通過插入測試流,測量測試流的丟包率和延時,用測試流的性能表現(xiàn)來表征實際業(yè)務流的性能等。間接測量有如下缺點:
插入測試流會影響業(yè)務質(zhì)量,尤其是在擁塞時;
測試流的表現(xiàn)不能完全代表真正業(yè)務流的表現(xiàn),業(yè)務流的優(yōu)先級、報文長度、QoS調(diào)度過程等都會影響測試結(jié)果,從而能引入較大誤差;
間接測量一般都是通過軟件實現(xiàn),無法大規(guī)模部署,測量精度也有限,也會影響正常業(yè)務。
直接測量是直接針對業(yè)務流的測試,一般是將業(yè)務流劃分為一系列測量區(qū)間,在兩個測量點分別統(tǒng)計對應區(qū)間的發(fā)包數(shù)、收包數(shù)和延時,同一個區(qū)間的發(fā)包/收包數(shù)的差就是該區(qū)間的丟包數(shù)。直接測量的優(yōu)點在于:
直接體現(xiàn)業(yè)務流的性能,完全是真正業(yè)務流的實際表現(xiàn),和實際網(wǎng)絡一致;
測量結(jié)果精確,因為是針對實際業(yè)務流的統(tǒng)計,結(jié)果更精確;
不干擾正常業(yè)務,對正常業(yè)務流進行簡單“染色”或者使用特殊的標簽值,不影響正常業(yè)務;
一般都是通過硬件實現(xiàn),對整機性能沒有影響。
下面的列表將當前主要的一些分組網(wǎng)性能監(jiān)控方式簡單總結(jié)一下:
表1 各種在線性能監(jiān)控標準簡單對比
從上面對比可以看出,間接測量的結(jié)果只能在一點程度上表征實際網(wǎng)絡的性能,實際網(wǎng)絡部署時,應該盡量使用IPFPM直接測量模式,目前已經(jīng)成為發(fā)展趨勢。
1)IP FPM提供在線IP性能監(jiān)控
IP FPM(IP Flow-based Performance Monitoring)是華為獨創(chuàng)的IP在線網(wǎng)絡性能監(jiān)控解決方案,已經(jīng)有IETF草案發(fā)布,http://tools.ietf.org/html/draft-chen-coloring-based-ipfpm-framework-01,其基礎架構(gòu)如下圖所示:
IP FPM架構(gòu)
IP FPM架構(gòu)中包含三個邏輯體:
DCP:Data Collecting Point,每臺參與IP FPM監(jiān)控的設備上配置一個DCP,DCP收集本設備上TLP的測量信息向MCP報告,MCP進行集中計算得到測量結(jié)果。
TLP:Target Logical Port,每個測量實例可包含多個TLP,同一個TLP上可同時進行多個測量實例的測量。TLP識別目標流并進行統(tǒng)計測量,TLP的測量操作基于本地的配置信息,完全獨立于參與同一測量實例的其他TLP,TLP之間無須交換控制信息。TLP可以定義在L2接口上,也可以定義在L3接口上,與協(xié)議無關。
MCP:Measurement Control Point,每個測量實例對應1個MCP,同一個MCP可對應多個測量實例。
IP FPM測量時,并沒有額外引入測試流,因此是直接測量模式,最直觀的體現(xiàn)了業(yè)務流的實際質(zhì)量;在報文頭中的標記是IP報文中的保留比特,中間網(wǎng)絡不會處理,全部透傳,因此,IP FPM可以支持端到端部署,對中間網(wǎng)絡無特殊要求,可部署性好。
IP FPM實現(xiàn)了控制平面與數(shù)據(jù)轉(zhuǎn)發(fā)平面解耦,控制平面的DCP、MCP和轉(zhuǎn)發(fā)平面的TLP分離,同時TLP與協(xié)議無關,可以支持L2接口,也可以支持L3接口,同一測量實例可包含不同協(xié)議接口的TLP,實現(xiàn)了跨異種網(wǎng)絡的直接E2E測量,例如L2 + L3網(wǎng)絡的端到端測量,也可以支持點到多點的組網(wǎng)。
2)內(nèi)置RFC2544實現(xiàn)離線性能監(jiān)控
既然要隔離用戶網(wǎng)絡和運營商網(wǎng)絡,提供清晰的維護界面,便于在出故障時分清責任,那么提供一份完善的SLA報告就是一個很好的解決方案。為測試以太網(wǎng)專線業(yè)務性能,提供相應的SLA報告,業(yè)界比較成熟的解決方案是通過RFC 2544來實現(xiàn)。
華為LTE承載解決方案中,ATN支持內(nèi)置RFC2544產(chǎn)生器和分析器,以及反射器。如下圖所示:
內(nèi)置RFC2544示意圖
雙向測試模式時,近端ATN支持測試報文生成器,發(fā)送到遠端;遠端設備(不限定是ATN),將收到的測試報文反射回去(可以通過端口物理環(huán)回或者邏輯環(huán)回),近端ATN收到后,和發(fā)送的報文進行對比和分析,就可以計算出延時、丟包率、吞吐量了。內(nèi)置RFC 2544可以實現(xiàn)免以太網(wǎng)儀表開局,業(yè)務自動驗收,提供SLA報告,進行網(wǎng)絡定界,分清責任,在不同運營商網(wǎng)絡、相同運營商不同運維部門之間的進行責任定界等。
3)Y.1731提供完善二層性能監(jiān)控解決方案
ATN支持完整的Y.1731定義的PM部分,包括幀丟失,幀延時等,能提供基于VLAN,PW和端口的性能統(tǒng)計,提供完善的以太網(wǎng)二層性能監(jiān)控解決方案:
幀丟失測量 (ETH-LM),包括單端ETH-LM和雙端ETH-LM
幀延時測量 (ETH-DM),包括單向ETH-DM和雙向ETH-DM
吞吐量測量
Y.1731標準里面,在描述以太網(wǎng)吞吐量測量指出,RFC2544已經(jīng)定義了測試方法和要求。并指出可以基于ETH-LB和ETH-TST來完成吞吐量測試,但是沒有進一步的實現(xiàn)描述。ATN提供吞吐量測試是通過ATN支持的內(nèi)置RFC2544測試功能來提供吞吐量測試功能的,詳細請參考本文有關RFC2544部分章節(jié)。
uTraffic性能管理平臺使網(wǎng)絡流量可經(jīng)營
uTraffic是華為公司承載網(wǎng)的統(tǒng)一性能管理平臺,聚焦網(wǎng)絡流向、流量管理,以及管道質(zhì)量的可視化,實現(xiàn)海量數(shù)據(jù)匯聚、分析&挖掘、按需展現(xiàn)的功能,幫助運營商實現(xiàn)網(wǎng)絡流量、業(yè)務質(zhì)量管理、網(wǎng)絡容量的精細化管理。
uTraffic在網(wǎng)絡中的位置
uTraffic作為網(wǎng)絡管道的智能管理系統(tǒng),具有以下優(yōu)勢:
統(tǒng)一的性能分析系統(tǒng)
uTraffic統(tǒng)一管理路由設備、接入設備和傳送設備的性能,靈活構(gòu)成FTTx、IP Core/IP METRO、IPRAN等多種性能解決方案。從設備性能維度,通過對設備CPU利用率、內(nèi)存利用率、資源利用率等指標的監(jiān)控反映設備的運行狀態(tài)。從業(yè)務性能維度,通過對丟包率、誤碼率、時延、抖動等KPI反映業(yè)務的品質(zhì)。
大容量采集能力
uTraffic提供了獨立的性能采集器,除采用業(yè)界通用的SNMP模式外,還提供了獨特的BULK采集模式,將設備性能數(shù)據(jù)通過FTP/SFTP協(xié)議進行傳輸,性能采集能力提升顯著,可滿足大規(guī)模網(wǎng)絡的性能采集要求。
流量管理可視化
uTraffic具有強大的GUI展示能力,可以在GIS地圖上動態(tài)展現(xiàn)各網(wǎng)絡節(jié)點的流量情況,可以精確了解各網(wǎng)絡節(jié)點的各種性能指標詳細情況,充分了解業(yè)務流量、流向以及業(yè)務質(zhì)量。支持GIS地圖、業(yè)務流量可視、業(yè)務質(zhì)量可視、強大自定義Dashboard輸出、一鍵式導出分析報告、支持離線分析和匯總、Email信息及時推送
E2E業(yè)務質(zhì)量監(jiān)控
uTraffic基于網(wǎng)絡拓撲進行網(wǎng)絡性能數(shù)據(jù)監(jiān)控,通過各種靈活的統(tǒng)計報表和性能展示方案,實現(xiàn)對網(wǎng)絡業(yè)務的質(zhì)量監(jiān)控。
容量管理和趨勢預測
通過對網(wǎng)絡流量的分析,及時掌握網(wǎng)絡中流量分布情況,并基于與歷史性能數(shù)據(jù)或峰值數(shù)據(jù)的對比,對網(wǎng)絡流量趨勢進行預測?蛻艨蓳(jù)此進行動態(tài)的網(wǎng)絡流量調(diào)整或作為未來網(wǎng)絡擴容的依據(jù)。
結(jié)束語
LTE承載相對3G承載來說,網(wǎng)絡規(guī)模更大、復雜程度更高,責任定界、故障診斷和快速定位更難,網(wǎng)絡安全性要求更高。華為提供多層次性能監(jiān)控解決方案,用于不同維護域之間定界,形成不同的維護域之間的清晰的維護界面,在出現(xiàn)故障時,根據(jù)設備的OAM能力,提供相應的SLA報告,分清網(wǎng)絡責任,快速進行定位和排障,盡可能的減少業(yè)務中斷時間。
華為性能監(jiān)控解決方案支持豐富的OAM機制,例如Y.1731,IP FPM,內(nèi)置RFC 2544功能等。在線性能監(jiān)控中,對二層網(wǎng)絡,建議使用Y.1731實現(xiàn);三層網(wǎng)絡,建議部署IP FPM,L2 + L3端到端網(wǎng)絡,推薦IP FPM;離線性能測試,建議內(nèi)置RFC 2544。同時為更直觀、更友好地進行性能管理,華為推薦uTraffic圖形化流量經(jīng)營工具,提供完善的二三層網(wǎng)絡的性能監(jiān)控解決方案,使網(wǎng)絡性能管理更優(yōu)化,網(wǎng)絡端到端流量可視,可管理,可經(jīng)營,維護責任清晰。
作者:華為網(wǎng)絡產(chǎn)品線網(wǎng)絡營銷工程部運營商與IP產(chǎn)品管理部高級產(chǎn)品經(jīng)理 夏慶峰