對于整天與計算機網(wǎng)絡打交道的網(wǎng)絡管理員來說,遭遇網(wǎng)絡故障幾乎成為了家常便飯,而大多部分網(wǎng)絡故障現(xiàn)象都局限在無法上網(wǎng)、頻繁掉線或者是訪問速度緩慢等。其實引起網(wǎng)絡故障的原因可謂是繁多,既有人為操作因素引起的,也有網(wǎng)絡設備自身狀態(tài)引起的,還有可能是外界干擾引起的;但是在實際解決網(wǎng)絡故障的過程中,筆者們有時會發(fā)現(xiàn)在排除了上面列出的各種可能因素后,網(wǎng)絡故障仍然無法消除。下面的一則網(wǎng)絡故障為核心層交換機主控板更換后,設備運行正常,但是業(yè)務并沒有真正的恢復,竟然是上端設備端口資源沒有釋放所引起。相信各位看完下面的故障排除過程之后,一定會有新的收獲。
故障現(xiàn)象
多個分支機構的局域網(wǎng)是通過租用當?shù)剡\營商的10M光纖通道直接訪問本地總部企業(yè)網(wǎng),所有本地分支機構的網(wǎng)絡匯聚到核心層交換,核心層交換直接連到路由器。其他的交換機負責各個網(wǎng)絡業(yè)務的接入,這樣網(wǎng)絡結構比較簡單明了,實際運行的狀態(tài)也是比較穩(wěn)定的。 前幾天,網(wǎng)絡突然出現(xiàn)大面積癱瘓故障,并導致企業(yè)業(yè)務無法正常運轉。根據(jù)網(wǎng)絡拓撲及出現(xiàn)的故障現(xiàn)象,可以迅速地定位到核心層交換設備出現(xiàn)了問題。到了現(xiàn)場的后,發(fā)現(xiàn)的主控板出現(xiàn)了告警,設備復位,告警并沒有消除,可以判斷為主控板損壞,更換新的主控板,設備運行正常,所有的二層透傳業(yè)務恢復,但是所有IP業(yè)務沒有恢復。
故障排查分析
排查一、物理故障還是邏輯故障?
故障的根源是核心層交換機的主控板出現(xiàn)了問題,這樣網(wǎng)絡故障的性質為物理故障。難道新更換的主控板有問題?但是設備運行正常,又沒有告警信息。如:show card ,show cpu等,從運行狀態(tài)上看,硬件沒有問題。難道更換設備后,數(shù)據(jù)丟失了嗎?察看相關的數(shù)據(jù),發(fā)現(xiàn)并沒有丟失,但是IP業(yè)務還是不能夠恢復?可是部分透傳業(yè)務又沒有問題。究竟那里出現(xiàn)了問題呢?
排查二、DNS服務出了問題?
經(jīng)過檢查,筆者發(fā)現(xiàn),雖然業(yè)務不能使用,但所有的路由信息都是正常的,PING所有的網(wǎng)元信息也都是正常的。難道是DNS服務出了問題?
所謂DNS,即域名服務器,它把域名轉換為計算機能夠識別的IP地址。如網(wǎng)站對應的IP是219.218.100.100。如果DNS服務器出錯,則無法進行域名解釋,自然也就不能上網(wǎng)了。有時候則是路由器的問題,無法與ISP的DNS服務連接,這時可把路由器關閉一會再開或是重新設置路由器即可。還有可能是網(wǎng)卡無法自動搜尋到DNS的服務器地址,可以嘗試用指定的DNS服務器地址。進入“控制面板→網(wǎng)絡和撥號連接”,雙擊“本地連接→屬性→TCP/IP協(xié)議”,在彈出的對話框中選擇“使用下面的DNS服務器地址”,然后填寫相應的DNS服務器IP地址。經(jīng)過核實后,DNS也沒有問題。
排查三、是中ARP病毒還是有流量攻擊?
故障發(fā)生前期,個別分支機構經(jīng)常有人反映說上網(wǎng)時經(jīng)常出現(xiàn)丟包現(xiàn)象,想到最近局域網(wǎng)中經(jīng)常出現(xiàn)的ARP地址欺騙病毒,筆者就向所有相關的網(wǎng)絡技術人員介紹了一下排查各自局域網(wǎng),是否感染了ARP地址欺騙病毒,希望通過找到并解決感染ARP地址欺騙病毒的機器來解決IP業(yè)務不能恢復的問題,并沒有查出結果。難道設備更換后,所有的路由表丟失了嗎?把前幾天的數(shù)據(jù)備份重新導入后,故障現(xiàn)象的依然存在。為了更快的恢復業(yè)務,咨詢了設備廠家的技術支持,把所有的故障現(xiàn)象反饋給技術工程師,并查看了所有的告警及系統(tǒng)日志,并沒有發(fā)現(xiàn)可疑的問題。最后得到的結果是:該設備運行正常,沒有病毒的攻擊、流量異常等現(xiàn)象。
故障解決
路是通的,說明該設備沒有問題。網(wǎng)元是通的,DNS又沒有問題,但是業(yè)務不能夠恢復。在檢查IP ARP信息時,發(fā)現(xiàn)所有的MAC地址與IP地址都在地址表。看見筆者使用的IP地址及MAC地址也在表中(如圖)。但筆者的計算機并沒有開!難道核心層與路由器的端口出現(xiàn)了問題?嘗試著,把端口關閉后,再重新啟用。發(fā)現(xiàn)筆者使用IP地址后,沒有MAC地址。所有的IP業(yè)務全部恢復。
故障總結
雖然故障已經(jīng)被解決了,但讓筆者感到疑惑不解的是:為什么重新啟動端口,業(yè)務就能夠正常。而出現(xiàn)的故障點不是在路由器上,而是在核心層交換機上。不重新啟動端口,測試的現(xiàn)象的都是正常的。后來咨詢了相關的技術人員,故障發(fā)生前,數(shù)據(jù)的流量很大,故障發(fā)生時,很多的數(shù)據(jù)包不能正常轉發(fā),端口就會出現(xiàn)假死現(xiàn)象,傳輸?shù)臄?shù)據(jù)流量很小。關閉后,把多余的數(shù)據(jù)遺棄掉,重新啟動,傳輸正常的數(shù)據(jù)信息。
總結上面的故障排除過程發(fā)現(xiàn),出現(xiàn)網(wǎng)絡故障應該從正常網(wǎng)絡中去檢測上段部分網(wǎng)絡運行情況,來判斷網(wǎng)絡上段網(wǎng)絡是否正常,然后,再檢查下段網(wǎng)絡,使用PING命令測試,進行針對性排查。即使發(fā)生的故障點恢復,并不代表業(yè)務的恢復,思考問題不能局限于局部信息,應該從全局思考。并結合具體的網(wǎng)絡工作環(huán)境,說不定發(fā)現(xiàn)故障就在疏忽那一瞬間,要認真觀察對網(wǎng)絡有影響因素,可以避免少走一些彎路。作為一名網(wǎng)絡管理員,除了日常網(wǎng)絡故障的處理外,還會不時碰到自己知識范圍以外的東西,但只要引起足夠的重視,總會找到解決問題的辦法。