
云計(jì)算服務(wù)在這個(gè)時(shí)代被吹捧成為IT圣者,所有的服務(wù)都可以被“云”化。隨著云技術(shù)逐漸成熟,云提供商也日益成熟,在大多數(shù)情況下,云的整體正常運(yùn)行時(shí)間和穩(wěn)定性也在提高。
雖然云故障不像過(guò)去幾年那么特別普遍了,但它給企業(yè)客戶帶來(lái)的傷害卻比以前更大了。每次故障,不管如何迅速補(bǔ)救,都會(huì)對(duì)技術(shù)信譽(yù)造成一定影響,阻礙客戶更廣泛的采用。
小編在這里用近年來(lái)發(fā)生的一些數(shù)據(jù)中心故障事件總結(jié)一下幾大故障類型,也許能讓你看到,即便是計(jì)算機(jī)也會(huì)在所難免地出錯(cuò),再保險(xiǎn)的措施似乎也只能把安全事件控制在一個(gè)小概率范圍內(nèi)。
斷網(wǎng)類型一:系統(tǒng)故障
典型事件1:亞馬遜AWS平安夜斷網(wǎng)
故障原因:彈性負(fù)載均衡服務(wù)故障

2011年8月6日,在北愛(ài)爾蘭都柏林出現(xiàn)的閃電引起亞馬遜和微軟在歐洲的云計(jì)算網(wǎng)絡(luò)因?yàn)閿?shù)據(jù)中心停電而出現(xiàn)大規(guī)模宕機(jī)。閃電擊中都柏林?jǐn)?shù)據(jù)中心附近的變壓器,導(dǎo)致其爆炸。爆炸引發(fā)火災(zāi),使所有公用服務(wù)機(jī)構(gòu)的工作暫時(shí)陷入中斷,導(dǎo)致整個(gè)數(shù)據(jù)中心出現(xiàn)宕機(jī)。
典型事件2:超級(jí)颶風(fēng)“桑迪”襲擊數(shù)據(jù)中心
故障原因:風(fēng)暴和洪水導(dǎo)致數(shù)據(jù)中心停止運(yùn)行
2012年10月29日,超級(jí)颶風(fēng)“桑迪”襲擊了紐約和新澤西州的數(shù)據(jù)中心,這次自然災(zāi)害所帶來(lái)的惡劣影響包括為曼哈頓下城地區(qū)的洪水和一些設(shè)施的停機(jī),周圍地區(qū)數(shù)據(jù)中心發(fā)電機(jī)運(yùn)行失常。颶風(fēng)桑迪所帶來(lái)的影響超出了一般單一的中斷事故,為受災(zāi)地區(qū)數(shù)據(jù)中心產(chǎn)業(yè)帶來(lái)了規(guī)模空前的災(zāi)難。事實(shí)上,柴油已然成為了數(shù)據(jù)中心恢復(fù)工作的生命線,作為備用電源系統(tǒng)接管了整個(gè)地區(qū)的負(fù)荷,促使特別措施,保持發(fā)電機(jī)的燃料。隨著眼前的工作重點(diǎn)逐步轉(zhuǎn)移到災(zāi)后重建,我們有必要長(zhǎng)期就數(shù)據(jù)中心的選址、工程和災(zāi)難恢復(fù)進(jìn)行探討,這一話題可能將持續(xù)幾個(gè)月,甚至幾年。
斷網(wǎng)類型三:人為因素
典型事件1:Hosting.com服務(wù)中斷事故
故障原因:服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉

2012年7月28日Hosting.com停運(yùn)事件。人為錯(cuò)誤通常被認(rèn)為是數(shù)據(jù)中心停機(jī)的主導(dǎo)因素之一。Hosting.com中斷事件造成 1100名客戶服務(wù)中斷就是一個(gè)例子。停機(jī)事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進(jìn)行UPS系統(tǒng)預(yù)防性維護(hù),“服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉是造成數(shù)據(jù)中心套房?jī)?nèi)的設(shè)施損失的關(guān)鍵因素之一。
典型事件2:微軟爆發(fā)BPOS服務(wù)中斷事件
故障原因:微軟在美國(guó)、歐洲和亞洲的數(shù)據(jù)中心的一個(gè)沒(méi)有確定的設(shè)置錯(cuò)誤造成的
2010年9月,微軟在美國(guó)西部幾周時(shí)間內(nèi)出現(xiàn)至少三次托管服務(wù)中斷事件向用戶致歉。這是微軟首次爆出重大的云計(jì)算事件。
事故當(dāng)時(shí),用戶訪問(wèn)BPOS服務(wù)的時(shí)候,如果使用微軟北美設(shè)施訪問(wèn)服務(wù)的客戶可能遇到了問(wèn)題,這個(gè)故障持續(xù)了兩個(gè)小時(shí)。微軟當(dāng)時(shí)聲稱:“這次數(shù)據(jù)突破事件是由于微軟在美國(guó)、歐洲和亞洲的數(shù)據(jù)中心的一個(gè)沒(méi)有確定的設(shè)置錯(cuò)誤造成的。”
斷網(wǎng)類型四:系統(tǒng)Bug
典型事件1:Gmail電子郵箱爆發(fā)全球性故障
事故原因:數(shù)據(jù)中心例行性維護(hù)時(shí),新程序代碼的副作用

2009年2月24日,谷歌的Gmail電子郵箱爆發(fā)全球性故障,服務(wù)中斷時(shí)間長(zhǎng)達(dá)4小時(shí)。谷歌解釋事故的原因:在位于歐洲的數(shù)據(jù)中心例行性維護(hù)之時(shí),有些新的程序代碼有些副作用,導(dǎo)致歐洲另一個(gè)資料中心過(guò)載,于是連鎖效應(yīng)就擴(kuò)及到其它數(shù)據(jù)中心接口,最終釀成全球性的斷線,導(dǎo)致其他數(shù)據(jù)中心也無(wú)法正常工作。
典型事件2:“5.19宕機(jī)事件”
事故原因:客戶端軟件Bug,上網(wǎng)終端頻繁發(fā)起域名解析請(qǐng)求,引發(fā)DNS擁塞
2009年5月19日的21:50,江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶申告訪問(wèn)網(wǎng)站速度變慢或無(wú)法訪問(wèn)。經(jīng)過(guò)工信部相關(guān)單位調(diào)查通報(bào)稱,此次全國(guó)六省網(wǎng)絡(luò)中斷事故,原因是國(guó)內(nèi)某公司推出的客戶端軟件存在缺陷,在該公司域名授權(quán)服務(wù)器工作異常的情況下,導(dǎo)致安裝該軟件的上網(wǎng)終端頻繁發(fā)起域名解析請(qǐng)求,引發(fā)DNS擁塞,造成大量用戶訪問(wèn)網(wǎng)站慢或網(wǎng)頁(yè)打不開(kāi)。

目前來(lái)看,解決的辦法大致可以從兩個(gè)角度出發(fā),對(duì)于企業(yè)級(jí)客戶來(lái)說(shuō),務(wù)必在采用云服務(wù)的同時(shí)定期備份云端的數(shù)據(jù),擁有第二套解決方案,以備不時(shí)之需。
而對(duì)于我們(fs.com)提供商來(lái)說(shuō),既然各種宕機(jī)事件是人為不可控制因素,我們就必須為我們的客戶思考種種對(duì)策,將用戶的損失降到最低,對(duì)故障事件的響應(yīng)效率提升到極致。
更多有趣的內(nèi)容和扎實(shí)的干貨,歡迎來(lái)找我,坐標(biāo)在圖片上哦~