對(duì)于整天與計(jì)算機(jī)網(wǎng)絡(luò)打交道的網(wǎng)絡(luò)管理員來(lái)說(shuō),遭遇網(wǎng)絡(luò)故障幾乎成為了家常便飯,而大多部分網(wǎng)絡(luò)故障現(xiàn)象都局限在無(wú)法上網(wǎng)、頻繁掉線或者是訪問(wèn)速度緩慢等。其實(shí)引起網(wǎng)絡(luò)故障的原因可謂是繁多,既有人為操作因素引起的,也有網(wǎng)絡(luò)設(shè)備自身狀態(tài)引起的,還有可能是外界干擾引起的;但是在實(shí)際解決網(wǎng)絡(luò)故障的過(guò)程中,筆者們有時(shí)會(huì)發(fā)現(xiàn)在排除了上面列出的各種可能因素后,網(wǎng)絡(luò)故障仍然無(wú)法消除。下面的一則網(wǎng)絡(luò)故障為核心層交換機(jī)主控板更換后,設(shè)備運(yùn)行正常,但是業(yè)務(wù)并沒(méi)有真正的恢復(fù),竟然是上端設(shè)備端口資源沒(méi)有釋放所引起。相信各位看完下面的故障排除過(guò)程之后,一定會(huì)有新的收獲。
故障現(xiàn)象
多個(gè)分支機(jī)構(gòu)的局域網(wǎng)是通過(guò)租用當(dāng)?shù)剡\(yùn)營(yíng)商的10M光纖通道直接訪問(wèn)本地總部企業(yè)網(wǎng),所有本地分支機(jī)構(gòu)的網(wǎng)絡(luò)匯聚到核心層交換,核心層交換直接連到路由器。其他的交換機(jī)負(fù)責(zé)各個(gè)網(wǎng)絡(luò)業(yè)務(wù)的接入,這樣網(wǎng)絡(luò)結(jié)構(gòu)比較簡(jiǎn)單明了,實(shí)際運(yùn)行的狀態(tài)也是比較穩(wěn)定的。 前幾天,網(wǎng)絡(luò)突然出現(xiàn)大面積癱瘓故障,并導(dǎo)致企業(yè)業(yè)務(wù)無(wú)法正常運(yùn)轉(zhuǎn)。根據(jù)網(wǎng)絡(luò)拓?fù)浼俺霈F(xiàn)的故障現(xiàn)象,可以迅速地定位到核心層交換設(shè)備出現(xiàn)了問(wèn)題。到了現(xiàn)場(chǎng)的后,發(fā)現(xiàn)的主控板出現(xiàn)了告警,設(shè)備復(fù)位,告警并沒(méi)有消除,可以判斷為主控板損壞,更換新的主控板,設(shè)備運(yùn)行正常,所有的二層透?jìng)鳂I(yè)務(wù)恢復(fù),但是所有IP業(yè)務(wù)沒(méi)有恢復(fù)。
故障排查分析
排查一、物理故障還是邏輯故障?
故障的根源是核心層交換機(jī)的主控板出現(xiàn)了問(wèn)題,這樣網(wǎng)絡(luò)故障的性質(zhì)為物理故障。難道新更換的主控板有問(wèn)題?但是設(shè)備運(yùn)行正常,又沒(méi)有告警信息。如:show card ,show cpu等,從運(yùn)行狀態(tài)上看,硬件沒(méi)有問(wèn)題。難道更換設(shè)備后,數(shù)據(jù)丟失了嗎?察看相關(guān)的數(shù)據(jù),發(fā)現(xiàn)并沒(méi)有丟失,但是IP業(yè)務(wù)還是不能夠恢復(fù)?可是部分透?jìng)鳂I(yè)務(wù)又沒(méi)有問(wèn)題。究竟那里出現(xiàn)了問(wèn)題呢?
排查二、DNS服務(wù)出了問(wèn)題?
經(jīng)過(guò)檢查,筆者發(fā)現(xiàn),雖然業(yè)務(wù)不能使用,但所有的路由信息都是正常的,PING所有的網(wǎng)元信息也都是正常的。難道是DNS服務(wù)出了問(wèn)題?
所謂DNS,即域名服務(wù)器,它把域名轉(zhuǎn)換為計(jì)算機(jī)能夠識(shí)別的IP地址。如網(wǎng)站對(duì)應(yīng)的IP是219.218.100.100。如果DNS服務(wù)器出錯(cuò),則無(wú)法進(jìn)行域名解釋?zhuān)匀灰簿筒荒苌暇W(wǎng)了。有時(shí)候則是路由器的問(wèn)題,無(wú)法與ISP的DNS服務(wù)連接,這時(shí)可把路由器關(guān)閉一會(huì)再開(kāi)或是重新設(shè)置路由器即可。還有可能是網(wǎng)卡無(wú)法自動(dòng)搜尋到DNS的服務(wù)器地址,可以嘗試用指定的DNS服務(wù)器地址。進(jìn)入“控制面板→網(wǎng)絡(luò)和撥號(hào)連接”,雙擊“本地連接→屬性→TCP/IP協(xié)議”,在彈出的對(duì)話框中選擇“使用下面的DNS服務(wù)器地址”,然后填寫(xiě)相應(yīng)的DNS服務(wù)器IP地址。經(jīng)過(guò)核實(shí)后,DNS也沒(méi)有問(wèn)題。
排查三、是中ARP病毒還是有流量攻擊?
故障發(fā)生前期,個(gè)別分支機(jī)構(gòu)經(jīng)常有人反映說(shuō)上網(wǎng)時(shí)經(jīng)常出現(xiàn)丟包現(xiàn)象,想到最近局域網(wǎng)中經(jīng)常出現(xiàn)的ARP地址欺騙病毒,筆者就向所有相關(guān)的網(wǎng)絡(luò)技術(shù)人員介紹了一下排查各自局域網(wǎng),是否感染了ARP地址欺騙病毒,希望通過(guò)找到并解決感染ARP地址欺騙病毒的機(jī)器來(lái)解決IP業(yè)務(wù)不能恢復(fù)的問(wèn)題,并沒(méi)有查出結(jié)果。難道設(shè)備更換后,所有的路由表丟失了嗎?把前幾天的數(shù)據(jù)備份重新導(dǎo)入后,故障現(xiàn)象的依然存在。為了更快的恢復(fù)業(yè)務(wù),咨詢了設(shè)備廠家的技術(shù)支持,把所有的故障現(xiàn)象反饋給技術(shù)工程師,并查看了所有的告警及系統(tǒng)日志,并沒(méi)有發(fā)現(xiàn)可疑的問(wèn)題。最后得到的結(jié)果是:該設(shè)備運(yùn)行正常,沒(méi)有病毒的攻擊、流量異常等現(xiàn)象。
故障解決
路是通的,說(shuō)明該設(shè)備沒(méi)有問(wèn)題。網(wǎng)元是通的,DNS又沒(méi)有問(wèn)題,但是業(yè)務(wù)不能夠恢復(fù)。在檢查IP ARP信息時(shí),發(fā)現(xiàn)所有的MAC地址與IP地址都在地址表。看見(jiàn)筆者使用的IP地址及MAC地址也在表中(如圖)。但筆者的計(jì)算機(jī)并沒(méi)有開(kāi)!難道核心層與路由器的端口出現(xiàn)了問(wèn)題?嘗試著,把端口關(guān)閉后,再重新啟用。發(fā)現(xiàn)筆者使用IP地址后,沒(méi)有MAC地址。所有的IP業(yè)務(wù)全部恢復(fù)。
故障總結(jié)
雖然故障已經(jīng)被解決了,但讓筆者感到疑惑不解的是:為什么重新啟動(dòng)端口,業(yè)務(wù)就能夠正常。而出現(xiàn)的故障點(diǎn)不是在路由器上,而是在核心層交換機(jī)上。不重新啟動(dòng)端口,測(cè)試的現(xiàn)象的都是正常的。后來(lái)咨詢了相關(guān)的技術(shù)人員,故障發(fā)生前,數(shù)據(jù)的流量很大,故障發(fā)生時(shí),很多的數(shù)據(jù)包不能正常轉(zhuǎn)發(fā),端口就會(huì)出現(xiàn)假死現(xiàn)象,傳輸?shù)臄?shù)據(jù)流量很小。關(guān)閉后,把多余的數(shù)據(jù)遺棄掉,重新啟動(dòng),傳輸正常的數(shù)據(jù)信息。
總結(jié)上面的故障排除過(guò)程發(fā)現(xiàn),出現(xiàn)網(wǎng)絡(luò)故障應(yīng)該從正常網(wǎng)絡(luò)中去檢測(cè)上段部分網(wǎng)絡(luò)運(yùn)行情況,來(lái)判斷網(wǎng)絡(luò)上段網(wǎng)絡(luò)是否正常,然后,再檢查下段網(wǎng)絡(luò),使用PING命令測(cè)試,進(jìn)行針對(duì)性排查。即使發(fā)生的故障點(diǎn)恢復(fù),并不代表業(yè)務(wù)的恢復(fù),思考問(wèn)題不能局限于局部信息,應(yīng)該從全局思考。并結(jié)合具體的網(wǎng)絡(luò)工作環(huán)境,說(shuō)不定發(fā)現(xiàn)故障就在疏忽那一瞬間,要認(rèn)真觀察對(duì)網(wǎng)絡(luò)有影響因素,可以避免少走一些彎路。作為一名網(wǎng)絡(luò)管理員,除了日常網(wǎng)絡(luò)故障的處理外,還會(huì)不時(shí)碰到自己知識(shí)范圍以外的東西,但只要引起足夠的重視,總會(huì)找到解決問(wèn)題的辦法。