Xyratex International 有限公司高級(jí)工程師
一,前言
在一個(gè)機(jī)構(gòu)內(nèi)部,分配數(shù)字化視 頻/數(shù)據(jù)的方式已經(jīng)取得了顯著進(jìn)步。 FibreChannel技術(shù)已允許基于服務(wù)器技 術(shù)的RAID在分配網(wǎng)絡(luò)之問發(fā)揮其吞吐量的潛力,為廣播和后期制作視頻數(shù)據(jù) 的實(shí)時(shí)分配和傳輸提供了途徑。在不久的將來,F(xiàn)ibreChannel將允許MPEG—2 流和其它在廣播和后期制作機(jī)構(gòu)中常用 的信號(hào)在各節(jié)點(diǎn)問自由分配。本文提出了為優(yōu)化基于FibreChannel產(chǎn)品的發(fā)展所必需的測(cè)試設(shè)備,以及如何利用它 們?cè)谝粋(gè)機(jī)構(gòu)內(nèi)對(duì)FibreChannel鏈路進(jìn)行監(jiān)測(cè)和測(cè)試。
二,Fibre Channel系統(tǒng)
你的業(yè)務(wù)機(jī)構(gòu)遲早會(huì)充滿Fibre Channel,有一點(diǎn)同樣可以肯定,那就是 有一天你會(huì)發(fā)現(xiàn),F(xiàn)ibreChannel系統(tǒng)的工作不能如你所期望的那樣。發(fā)生這樣的事情時(shí),用戶就想知道它為什么不能 正常工作,這是“恢復(fù)常規(guī)”的第一步。 多年來,我們已經(jīng)看到這一動(dòng)向。 FibreChannel有許多優(yōu)良的性能,使其自然適合于媒體應(yīng)用。FibreChannel不僅有很高的帶寬,而且能夠工作在相隔距離遠(yuǎn)得多的設(shè)備之間,并允許輕松地混合視頻、音頻、圖形和控制信號(hào),,不管它們的載送是依循IP、SCSI,還是其它協(xié)議。既然已有各種供應(yīng)商可提供設(shè)備,接下去就是建立系統(tǒng)。 開始時(shí),系統(tǒng)工作會(huì)是良好的。它將按期望的那樣做任何事情。但是慚慚地,隨著應(yīng)用或存儲(chǔ)要求的改變,或某 一項(xiàng)要求需要升級(jí)或業(yè)務(wù)擴(kuò)展,突然間,其性能顯得不足,在需要某一性能 的時(shí)候卻偏偏沒有。可能出現(xiàn)響應(yīng)時(shí)間延長(zhǎng),或偶然地,視頻或音頻包不能及時(shí)送達(dá),甚至根本就收不到。 用戶要消除這些癥狀,就必須首先 追查在FibreChannel層面出現(xiàn)了什么問題。進(jìn)行這一步的最基本工具是協(xié)議 分析儀,接著是性能監(jiān)視器。(這一操作非常方便,Xyratex已將這些功能集成在一塊FC—PAplus卡上,它可以插入 PC機(jī),在Windows 95或WindowsNT 下運(yùn)行。)這些設(shè)備只是作為觀測(cè)儀器 而被接入環(huán)路或光纖網(wǎng)中,它們不會(huì)以任何形式啟動(dòng)或中止通道中的通信,或改變通信。 不像SCSI中所有信息都流經(jīng)總線 上的每一點(diǎn),F(xiàn)ibreChannel包含一系列 固有的單向鏈路。為了解設(shè)備性能。監(jiān) 測(cè)點(diǎn)至少有兩個(gè),一個(gè)在上游,一個(gè)在下游。因此,所有的FibreChannel協(xié)議分析儀都有兩個(gè)接口。較復(fù)雜的測(cè)試環(huán) 境可能需要多組裝置協(xié)調(diào)運(yùn)行。
三,測(cè)量?jī)x器
為簡(jiǎn)單起見,對(duì)這兩種工具的討論將從性能監(jiān)視器而不從協(xié)議分析儀開始。 性能監(jiān)視器是一種可以實(shí)時(shí)顯示所通過的傳輸流的通信量、信息統(tǒng)計(jì)和基本誤碼情況的裝置。特別地,對(duì)光纖通道的顯示包括:速率顯示,包括B/s、幀/ 秒和鏈路利用率;信息表征—幀規(guī)格分配;低級(jí)誤碼情況,指編碼混亂(CV)、 循環(huán)冗余檢查(CRC)失效和環(huán)路啟動(dòng)程序(LIP)事件。速率顯示是以瞬時(shí)值、 峰值或?qū)r(shí)間的曲線圖來表示的,誤碼情況用時(shí)間標(biāo)記來存檔。 協(xié)議分析儀是記錄通過它的全部 信息或特定部分信息的裝置,并備有時(shí) 間標(biāo)記。它含有兩種等同的、有協(xié)調(diào)控制效能的獨(dú)立信道(見上面對(duì)兩類獨(dú)立 信道要求的討論)。當(dāng)兩個(gè)信道不夠用 時(shí),多臺(tái)分析儀能夠同步運(yùn)作。被捕獲 的數(shù)據(jù)可存儲(chǔ)到一個(gè)超高速RAM上或 (經(jīng)過濾波以減少帶寬要求)一個(gè)硬盤驅(qū)動(dòng)器上。一旦操作停止,用戶就能觀看捕獲的數(shù)據(jù),或者經(jīng)軟件包后處理后 產(chǎn)生詳細(xì)階性能分析。 由于FibreChannel數(shù)據(jù)將以接近每個(gè)信道100MB/s的驚人速率通過協(xié)議分析儀。如何控制所需存儲(chǔ)信息就非常重要。這是對(duì)示波器的觸發(fā)器功能的直接模擬。不過。協(xié)議分析儀的存儲(chǔ)能夠多次開始和停止。因而它能收集相似 的多個(gè)案例,并允許對(duì)它們進(jìn)行獨(dú)立分 析。(通過使用時(shí)間標(biāo)記,用戶可以知道確切的命令,以及至少需要多長(zhǎng)時(shí)間 能將捕獲到的各個(gè)事件片段分開。)通常FibreChannel觸發(fā)器會(huì)在一些幀和或特定素材內(nèi)切斷某些特定場(chǎng)的匹配, 但是如果協(xié)議分析儀種性能監(jiān)視器是鏈接的,就能在用戶的觸發(fā)事件項(xiàng)目上添加不同吞吐量測(cè)量和誤碼情況。 有時(shí)用戶可能希望將捕獲的帶寬 限制在較固定的位上,并將結(jié)果軌跡存 到硬盤驅(qū)動(dòng)器上。通過這一措施,用戶 能獲得數(shù)小時(shí)甚至數(shù)天之久的追查軌 跡。很顯然,為進(jìn)行這類捕獲必須非常 專注。協(xié)議分析儀內(nèi)的數(shù)據(jù)濾波器允許 用戶將捕獲局限于存一個(gè)特定的源識(shí)別 碼和/或目標(biāo)識(shí)別碼。特定類型的命令 或響應(yīng),或只是每一幀的前幾個(gè)字節(jié) (數(shù)量由用戶規(guī)定)上。 那么,怎樣使用這些工具呢?
四,測(cè)試方法
要檢查的最基本的項(xiàng)目。是Fibre Channel環(huán)路本身的完整性。只要快速瀏覽一下誤碼資料,用戶便可知道各條電路或光鏈路是遇到了麻煩還是工作正常。一旦系統(tǒng)啟動(dòng),除非環(huán)路上的某一設(shè)備不得不替換或環(huán)路因其他原因而中斷,LIP一般不會(huì)發(fā)生。FibreChannel 聲稱指標(biāo)為運(yùn)行誤碼率低于10ˉ12(大約每小時(shí)3個(gè)),大部分用戶報(bào)告說其誤碼率遠(yuǎn)低于這個(gè)值。如果誤碼存檔報(bào)告不 如LIP所期望的,或每小時(shí)CV或CRC 誤碼數(shù)量超過l—2個(gè),就該檢查一下環(huán) 路中鏈路的完整性了。 如果鏈路完整性出了問題,由于 FibreChannel環(huán)路就像小孩們玩的“打 電話”游戲一樣,用戶就會(huì)面臨新的挑 戰(zhàn)。除非誤碼是發(fā)生在原發(fā)地和性能監(jiān) 視器之間,否則用戶很難確定誤碼究竟 在哪兒發(fā)生。ANSITll委員會(huì)正在試 圖借助鏈路誤碼狀態(tài)功能(LinkEnor StatusFunction)來解決這個(gè)問題,其設(shè) 想是在每一個(gè)節(jié)點(diǎn)掌握誤碼事件。不 過,在真正做到這一點(diǎn)之前,還沒有什 么簡(jiǎn)便的辦技可以識(shí)別鏈路狀態(tài)(RLS) 命令對(duì)環(huán)路作定時(shí)查詢,并確定在線路 中應(yīng)從哪一個(gè)端口著手探查誤碼。 如果將性能監(jiān)視器的誤碼探查效 能用來觸發(fā)協(xié)議分析儀,用戶就應(yīng)該能 夠捕獲有誤碼的幀,并有希望查出原發(fā) 地。然后用戶就能夠?qū)⑿阅鼙O(jiān)視器向一 條鏈路的上游每移動(dòng)一次觀察一下各位 置的誤碼率!罢`碼率臺(tái)階”(EnorRate Step)一旦確定,問題就可隔離在那個(gè) 端口(或與其直接相連的下游電纜)上。 如果問題與鏈路完整性無關(guān),另一 個(gè)可能件是環(huán)路自身有過載情況。環(huán)路 過載很容易用性能監(jiān)視器測(cè)出來。峰值 總線利用指示(或總線利用率對(duì)時(shí)間 的關(guān)系曲線)可能顯示一條擺幅異常大 的利用率曲線,它從很低的平均數(shù)(完 全處在Fibre Channel容量?jī)?nèi))至接近 100%,它導(dǎo)致轉(zhuǎn)換遲緩(甚至失效)或 響應(yīng)緩慢。這種情況表明,可以利用性 能監(jiān)視器的某種門限(如:利用率超過 90%)作為協(xié)議分析儀的觸發(fā)條件。包含整個(gè)峰值利用期(包括臨近起始部分) 的軌跡能顯示:為什么大量的信息試圖 在同一時(shí)間通過環(huán)路。 即使FibreChannel環(huán)路沒有過載, 仍然有可能存在環(huán)路上某一裝置過載的 情況。協(xié)議分析儀可以多種方式幫助用 戶找到這種問題的根源。首先,可運(yùn)用 后捕獲軟件僅僅收集和分析幀頭部分的 長(zhǎng)軌跡。以確定短期和長(zhǎng)期載荷是否平 衡。如果一個(gè)裝置特別忙,其通信就應(yīng) 予以隔離(應(yīng)用協(xié)議分析儀的濾波功能), 并對(duì)其進(jìn)行詳細(xì)研究。即使沒有特殊問 題,這種初期的全設(shè)備隔離程序也要定期進(jìn)行。與早期的數(shù)據(jù)進(jìn)行比較?娠@示不安全趨勢(shì)因而提高警惕以防止在未 來某一時(shí)間出問題。如果可即時(shí)發(fā)現(xiàn)響 應(yīng)時(shí)間或丟失數(shù)據(jù)的影M向,第二種方案 是連續(xù)捕獲更詳細(xì)的軌跡(“包裹模式”), 一經(jīng)發(fā)現(xiàn)影響,立即停止捕獲。要記住, 所謂“發(fā)現(xiàn)”并不限于人工操作,對(duì)任何 錯(cuò)誤的電子顯示都能與協(xié)議分析儀的外 同步輸入相連。用來停止捕獲。這樣, 分析儀的軌跡中就會(huì)含有引發(fā)問題的特 定事件。檢查時(shí)間標(biāo)記以確認(rèn)軌跡足夠 長(zhǎng),以及包含出現(xiàn)問題的時(shí)間段;不然 就重新調(diào)節(jié)濾波特性(如每幀數(shù)據(jù))以 延長(zhǎng)捕獲期。一旦被捕獲,相同的后捕 獲分析軟件或可視檢查就會(huì)顯示有問題 的裝置。如果需要更多的信息,可作第 二次運(yùn)行,只儲(chǔ)存從特殊識(shí)別碼上得到 的想要的幀,以便僅從這些幀上捕獲更 多的細(xì)節(jié)。 丟失數(shù)據(jù)的另一個(gè)潛在原因是定 時(shí)但卻無序地發(fā)送信息。出現(xiàn)這種情況 時(shí)可用上段所述方法來監(jiān)測(cè)。 希望本文能夠幫助人們減少運(yùn)用 FibreChannel這一激動(dòng)人心的新技術(shù)時(shí) 的憂慮。潛在的問題還可能出現(xiàn),并需 要運(yùn)用新的診斷方法,但是現(xiàn)在已經(jīng)可以得到為使系統(tǒng)保持高效運(yùn)行狀態(tài)所需 的診斷工具。
摘自:中國廣電網(wǎng)