詞語解釋
“容災”在通信中是指容錯,它是一種技術,可以讓系統(tǒng)在出現(xiàn)故障時,能夠以最小的損失,最快的速度恢復正常運行。它的應用可以分為兩類:一類是容錯技術,主要用于確保系統(tǒng)的可靠性,防止系統(tǒng)發(fā)生故障;另一類是容災技術,主要用于在系統(tǒng)發(fā)生故障時,盡可能快地恢復正常運行。 容錯技術主要包括容錯設計、容錯測試、容錯調(diào)試等,它們的目的是盡可能地減少系統(tǒng)發(fā)生故障的概率。它們可以通過采用多種技術,比如多備份、冗余、檢測、容錯算法等,來降低系統(tǒng)發(fā)生故障的概率。 容災技術主要包括容災計劃、容災備份、容災恢復等,它們的目的是在系統(tǒng)發(fā)生故障時,盡可能快地恢復正常運行。它們可以通過采用多種技術,比如多點備份、容災計劃、容災恢復等,來盡可能快地恢復正常運行。 容災技術在通信中的應用,主要是在網(wǎng)絡中應用,它可以幫助網(wǎng)絡在出現(xiàn)故障時,快速恢復正常運行。它可以幫助網(wǎng)絡恢復正常運行的方式有很多,比如多點備份、路由備份、容災計劃、容災恢復等。這些技術可以幫助網(wǎng)絡在出現(xiàn)故障時,盡可能快地恢復正常運行。 容災技術在通信中的應用,可以大大提高網(wǎng)絡的可靠性,降低網(wǎng)絡發(fā)生故障的概率,提高網(wǎng)絡的安全性,提高網(wǎng)絡的可用性。它可以幫助網(wǎng)絡在出現(xiàn)故障時,盡可能快地恢復正常運行,為網(wǎng)絡的安全性和可用性提供了有效的保障。 容災系統(tǒng)是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外(如火災、地震等)停止工作時,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災技術是系統(tǒng)的高可用性技術的一個組成部分,容災系統(tǒng)更加強調(diào)處理外界環(huán)境對系統(tǒng)的影響,特別是災難性事件對整個IT節(jié)點的影響,提供節(jié)點級別的系統(tǒng)恢復功能。 從其對系統(tǒng)的保護程度來分,可以將容災系統(tǒng)分為:數(shù)據(jù)容災和應用容災,描述如下: .數(shù)據(jù)容災就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個實時復制。 .應用容災是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份),在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。數(shù)據(jù)容災是抗御災難的保障,而應用容災則是容災系統(tǒng)建設的目標。 數(shù)據(jù)容災 所謂數(shù)據(jù)容災,就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個可用復制。在本地數(shù)據(jù)及整個應用系統(tǒng)出現(xiàn)災難時,系統(tǒng)至少在異地保存有一份可用的關鍵業(yè)務的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實時復制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。采用的主要技術是數(shù)據(jù)備份和數(shù)據(jù)復制技術。 數(shù)據(jù)容災技術,又稱為異地數(shù)據(jù)復制技術,按照其實現(xiàn)的技術方式來說,主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災的距離,數(shù)據(jù)容災又可以分成遠程數(shù)據(jù)容災和近程數(shù)據(jù)容災方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對數(shù)據(jù)容災展開討論,其中也會涉及到遠程容災和近程容災的概念,并作相應的分析。 應用容災 所謂應用容災,是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份)。建立這樣一個系統(tǒng)是相對比較復雜的,不僅需要一份可用的數(shù)據(jù)復制,還要有包括網(wǎng)絡、主機、應用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術包括負載均衡、集群技術。數(shù)據(jù)容災是應用容災的技術,應用容災是數(shù)據(jù)容災的目標。 在選擇容災系統(tǒng)的構造時,還要建立多層次的廣域網(wǎng)絡故障切換機制。本地的高可用系統(tǒng)指在多個服務器運行一個或多種應用的情況下,應確保任意服務器出現(xiàn)任何故障時,其運行的應用不能中斷,應用程序和系統(tǒng)應能迅速切換到其它服務器上運行,即本地系統(tǒng)集群和熱備份。 在遠程的容災系統(tǒng)中,要實現(xiàn)完整的應用容災,既要包含本地系統(tǒng)的安全機制、遠程的數(shù)據(jù)復制機制,還應具有廣域網(wǎng)范圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強大的故障診斷和切換策略制訂機制,確?焖俚姆磻脱杆俚臉I(yè)務接管。實際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應形成一個整體,實現(xiàn)多級的故障切換和恢復機制,確保系統(tǒng)在各個范圍的可靠和安全。 集群系統(tǒng)是在冗余的通?捎眯韵到y(tǒng)基礎之上,運行高可靠性軟件而構成。高可靠性軟件用于自動檢測系統(tǒng)的運行狀態(tài),在一臺服務器出現(xiàn)故障的情況下,自動地把設定的服務轉(zhuǎn)到另一臺服務器上。當運行服務器提供的服務不可用時,備份服務器自動接替運行服務器的工作而不用重新啟動系統(tǒng),而當運行服務器恢復正常后,按照使用者的設定以自動或手動方式將服務切換到運行服務上運行。備份服務器除了在運行服務器出現(xiàn)故障時接替其服務,還可以執(zhí)行其他應用程序。因此,一臺性能配備充分的主機可同時作為某一服務的運行服務器和另一服務的備份服務器使用,即兩臺服務器互為備份。一臺主機可以運行多個服務,也可作為多個服務的備份服務器。 數(shù)據(jù)容災系統(tǒng),對于IT而言,就是為計算機信息系統(tǒng)提供的一個能應付各種災難的環(huán)境。當計算機系統(tǒng)在遭受如火災、水災、地震、戰(zhàn)爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網(wǎng)絡/通信失敗、硬件/軟件錯誤和人為操作錯誤等人為災難時,容災系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災),甚至,一個更加完善的容災系統(tǒng),還能提供不間斷的應用服務(應用容災)。可以說,容災系統(tǒng)是數(shù)據(jù)存儲備份的最高層次。 數(shù)據(jù)容災備份的等級 容災備份是通過在異地建立和維護一個備份存儲系統(tǒng),利用地理上的分離來保證系統(tǒng)和數(shù)據(jù)對災難性事件的抵御能力。 根據(jù)容災系統(tǒng)對災難的抵抗程度,可分為數(shù)據(jù)容災和應用容災。數(shù)據(jù)容災是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是對本地系統(tǒng)關鍵應用數(shù)據(jù)實時復制。當出現(xiàn)災難時,可由異地系統(tǒng)迅速接替本地系統(tǒng)而保證業(yè)務的連續(xù)性。應用容災比數(shù)據(jù)容災層次更高,即在異地建立一套完整的、與本地數(shù)據(jù)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以同本地應用系統(tǒng)互為備份,也可與本地應用系統(tǒng)共同工作)。在災難出現(xiàn)后,遠程應用系統(tǒng)迅速接管或承擔本地應用系統(tǒng)的業(yè)務運行。 設計一個容災備份系統(tǒng),需要考慮多方面的因素,如備份/恢復數(shù)據(jù)量大小、應用數(shù)據(jù)中心和備援數(shù)據(jù)中心之間的距離和數(shù)據(jù)傳輸方式、災難發(fā)生時所要求的恢復速度、備援中心的管理及投入資金等。根據(jù)這些因素和不同的應用場合,通?蓪⑷轂膫浞莘譃樗膫等級。 第0級:沒有備援中心 這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。 第1級:本地磁帶備份,異地保存 在本地將關鍵數(shù)據(jù)備份,然后送到異地保存。災難發(fā)生后,按預定數(shù)據(jù)恢復程序恢復系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當數(shù)據(jù)量增大時,存在存儲介質(zhì)難管理的問題,并且當災難發(fā)生時存在大量數(shù)據(jù)難以及時恢復的問題。為了解決此問題,災難發(fā)生時,先恢復關鍵數(shù)據(jù),后恢復非關鍵數(shù)據(jù)。 第2級:熱備份站點備份 在異地建立一個熱備份點,通過網(wǎng)絡進行數(shù)據(jù)備份。也就是通過網(wǎng)絡以同步或異步方式,把主站點的數(shù)據(jù)備份到備份站點,備份站點一般只備份數(shù)據(jù),不承擔業(yè)務。當出現(xiàn)災難時,備份站點接替主站點的業(yè)務,從而維護業(yè)務運行的連續(xù)性。 第3級:活動備援中心 在相隔較遠的地方分別建立兩個數(shù)據(jù)中心,它們都處于工作狀態(tài),并進行相互數(shù)據(jù)備份。當某個數(shù)據(jù)中心發(fā)生災難時,另一個數(shù)據(jù)中心接替其工作任務。這種級別的備份根據(jù)實際要求和投入資金的多少,又可分為兩種:①兩個數(shù)據(jù)中心之間只限于關鍵數(shù)據(jù)的相互備份;②兩個數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災備份方式,它要求不管什么災難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復雜的管理軟件和專用的硬件設備,需要投資相對而言是最大的,但恢復速度也是最快的。 容災備份的關鍵技術 在建立容災備份系統(tǒng)時會涉及到多種技術,如:SAN或NAS技術、遠程鏡像技術、基于IP的SAN的互連技術、快照技術等。這里重點介紹遠程鏡像、快照和互連技術。 1. 遠程鏡像技術 遠程鏡像技術是在主數(shù)據(jù)中心和備援中心之間的數(shù)據(jù)備份時用到。鏡像是在兩個或多個磁盤或磁盤子系統(tǒng)上產(chǎn)生同一個數(shù)據(jù)的鏡像視圖的信息存儲過程,一個叫主鏡像系統(tǒng),另一個叫從鏡像系統(tǒng)。按主從鏡像存儲系統(tǒng)所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程復制,是容災備份的核心技術,同時也是保持遠程數(shù)據(jù)同步和實現(xiàn)災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和異步遠程鏡像。 同步遠程鏡像(同步復制技術)是指通過遠程鏡像軟件,將本地數(shù)據(jù)以完全同步的方式復制到異地,每一本地的I/O事務均需等待遠程復制的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復制的內(nèi)容相匹配。當主站點出現(xiàn)故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業(yè)務繼續(xù)執(zhí)行而沒有數(shù)據(jù)的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應用。 異步遠程鏡像(異步復制技術)保證在更新遠程存儲視圖前完成向本地存儲系統(tǒng)的基本I/O操作,而由本地存儲系統(tǒng)提供給請求鏡像主機的I/O操作完成確認信息。遠程的數(shù)據(jù)復制是以后臺同步的方式進行的,這使本地系統(tǒng)性能受到的影響很小,傳輸距離長(可達1000公里以上),對網(wǎng)絡帶寬要求小。但是,許多遠程的從屬存儲子系統(tǒng)的寫沒有得到確認,當某種因素造成數(shù)據(jù)傳輸失敗,可能出現(xiàn)數(shù)據(jù)一致性問題。為了解決這個問題,目前大多采用延遲復制的技術(本地數(shù)據(jù)復制均在后臺日志區(qū)進行),即在確保本地數(shù)據(jù)完好無損后進行遠程數(shù)據(jù)更新。 2.快照技術 遠程鏡像技術往往同快照技術結合起來實現(xiàn)遠程備份,即通過鏡像把數(shù)據(jù)備份到遠程存儲系統(tǒng)中,再用快照技術把遠程存儲系統(tǒng)中的信息備份到遠程的磁帶庫、光盤庫中。 快照是通過軟件對要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,建立一個要備份數(shù)據(jù)的快照邏輯單元號LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數(shù)據(jù)塊同時快速拷貝到快照cache中?煺誏UN是一組指針,它指向快照cache和磁盤子系統(tǒng)中不變的數(shù)據(jù)塊(在備份過程中)。在正常業(yè)務進行的同時,利用快照LUN實現(xiàn)對原數(shù)據(jù)的一個完全的備份。它可使用戶在正常業(yè)務不受影響的情況下(主要指容災備份系統(tǒng)),實時提取當前在線業(yè)務數(shù)據(jù)。其“備份窗口”接近于零,可大大增加系統(tǒng)業(yè)務的連續(xù)性,為實現(xiàn)系統(tǒng)真正的7×24運轉(zhuǎn)提供了保證。 快照是通過內(nèi)存作為緩沖區(qū)(快照cache),由快照軟件提供系統(tǒng)磁盤存儲的即時數(shù)據(jù)映像,它存在緩沖區(qū)調(diào)度的問題。 3.互連技術 早期的主數(shù)據(jù)中心和備援數(shù)據(jù)中心之間的數(shù)據(jù)備份,主要是基于SAN的遠程復制(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(復制)。當災難發(fā)生時,由備援數(shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性。這種遠程容災備份方式存在一些缺陷,如:實現(xiàn)成本高、設備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應用。 目前,出現(xiàn)了多種基于IP的SAN的遠程數(shù)據(jù)容災備份技術。它們是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡,遠程復制到備援中心SAN中。當備援中心存儲的數(shù)據(jù)量過大時,可利用快照技術將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發(fā)展前景;贗P的互連協(xié)議包括:FCIP、iFCP、Infiniband、iSCSI等。 衡量容災備份的兩個技術指標 RPO(Recovery Point Objective):即數(shù)據(jù)恢復點目標,主要指的是業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量。 RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業(yè)務停止服務的最長時間,也就是從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間周期。 RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務丟失,二者沒有必然的關聯(lián)性。RTO和RPO的確定必須在進行風險分析和業(yè)務影響分析后根據(jù)不同的業(yè)務需求確定。對于不同企業(yè)的同一種業(yè)務,RTO和RPO的需求也會有所不同。
容災系統(tǒng)是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外(如火災、地震等)停止工作時,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災技術是系統(tǒng)的高可用性技術的一個組成部分,容災系統(tǒng)更加強調(diào)處理外界環(huán)境對系統(tǒng)的影響,特別是災難性事件對整個IT節(jié)點的影響,提供節(jié)點級別的系統(tǒng)恢復功能。 從其對系統(tǒng)的保護程度來分,可以將容災系統(tǒng)分為:數(shù)據(jù)容災和應用容災,描述如下: .數(shù)據(jù)容災就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個實時復制。 .應用容災是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份),在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。數(shù)據(jù)容災是抗御災難的保障,而應用容災則是容災系統(tǒng)建設的目標。 數(shù)據(jù)容災 所謂數(shù)據(jù)容災,就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個可用復制。在本地數(shù)據(jù)及整個應用系統(tǒng)出現(xiàn)災難時,系統(tǒng)至少在異地保存有一份可用的關鍵業(yè)務的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實時復制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。采用的主要技術是數(shù)據(jù)備份和數(shù)據(jù)復制技術。 數(shù)據(jù)容災技術,又稱為異地數(shù)據(jù)復制技術,按照其實現(xiàn)的技術方式來說,主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災的距離,數(shù)據(jù)容災又可以分成遠程數(shù)據(jù)容災和近程數(shù)據(jù)容災方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對數(shù)據(jù)容災展開討論,其中也會涉及到遠程容災和近程容災的概念,并作相應的分析。 應用容災 所謂應用容災,是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份)。建立這樣一個系統(tǒng)是相對比較復雜的,不僅需要一份可用的數(shù)據(jù)復制,還要有包括網(wǎng)絡、主機、應用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術包括負載均衡、集群技術。數(shù)據(jù)容災是應用容災的技術,應用容災是數(shù)據(jù)容災的目標。 在選擇容災系統(tǒng)的構造時,還要建立多層次的廣域網(wǎng)絡故障切換機制。本地的高可用系統(tǒng)指在多個服務器運行一個或多種應用的情況下,應確保任意服務器出現(xiàn)任何故障時,其運行的應用不能中斷,應用程序和系統(tǒng)應能迅速切換到其它服務器上運行,即本地系統(tǒng)集群和熱備份。 在遠程的容災系統(tǒng)中,要實現(xiàn)完整的應用容災,既要包含本地系統(tǒng)的安全機制、遠程的數(shù)據(jù)復制機制,還應具有廣域網(wǎng)范圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強大的故障診斷和切換策略制訂機制,確?焖俚姆磻脱杆俚臉I(yè)務接管。實際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應形成一個整體,實現(xiàn)多級的故障切換和恢復機制,確保系統(tǒng)在各個范圍的可靠和安全。 集群系統(tǒng)是在冗余的通?捎眯韵到y(tǒng)基礎之上,運行高可靠性軟件而構成。高可靠性軟件用于自動檢測系統(tǒng)的運行狀態(tài),在一臺服務器出現(xiàn)故障的情況下,自動地把設定的服務轉(zhuǎn)到另一臺服務器上。當運行服務器提供的服務不可用時,備份服務器自動接替運行服務器的工作而不用重新啟動系統(tǒng),而當運行服務器恢復正常后,按照使用者的設定以自動或手動方式將服務切換到運行服務上運行。備份服務器除了在運行服務器出現(xiàn)故障時接替其服務,還可以執(zhí)行其他應用程序。因此,一臺性能配備充分的主機可同時作為某一服務的運行服務器和另一服務的備份服務器使用,即兩臺服務器互為備份。一臺主機可以運行多個服務,也可作為多個服務的備份服務器。 數(shù)據(jù)容災系統(tǒng),對于IT而言,就是為計算機信息系統(tǒng)提供的一個能應付各種災難的環(huán)境。當計算機系統(tǒng)在遭受如火災、水災、地震、戰(zhàn)爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網(wǎng)絡/通信失敗、硬件/軟件錯誤和人為操作錯誤等人為災難時,容災系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災),甚至,一個更加完善的容災系統(tǒng),還能提供不間斷的應用服務(應用容災)。可以說,容災系統(tǒng)是數(shù)據(jù)存儲備份的最高層次。 數(shù)據(jù)容災備份的等級 容災備份是通過在異地建立和維護一個備份存儲系統(tǒng),利用地理上的分離來保證系統(tǒng)和數(shù)據(jù)對災難性事件的抵御能力。 根據(jù)容災系統(tǒng)對災難的抵抗程度,可分為數(shù)據(jù)容災和應用容災。數(shù)據(jù)容災是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是對本地系統(tǒng)關鍵應用數(shù)據(jù)實時復制。當出現(xiàn)災難時,可由異地系統(tǒng)迅速接替本地系統(tǒng)而保證業(yè)務的連續(xù)性。應用容災比數(shù)據(jù)容災層次更高,即在異地建立一套完整的、與本地數(shù)據(jù)系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以同本地應用系統(tǒng)互為備份,也可與本地應用系統(tǒng)共同工作)。在災難出現(xiàn)后,遠程應用系統(tǒng)迅速接管或承擔本地應用系統(tǒng)的業(yè)務運行。 設計一個容災備份系統(tǒng),需要考慮多方面的因素,如備份/恢復數(shù)據(jù)量大小、應用數(shù)據(jù)中心和備援數(shù)據(jù)中心之間的距離和數(shù)據(jù)傳輸方式、災難發(fā)生時所要求的恢復速度、備援中心的管理及投入資金等。根據(jù)這些因素和不同的應用場合,通?蓪⑷轂膫浞莘譃樗膫等級。 第0級:沒有備援中心 這一級容災備份,實際上沒有災難恢復能力,它只在本地進行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒有送往異地。 第1級:本地磁帶備份,異地保存 在本地將關鍵數(shù)據(jù)備份,然后送到異地保存。災難發(fā)生后,按預定數(shù)據(jù)恢復程序恢復系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當數(shù)據(jù)量增大時,存在存儲介質(zhì)難管理的問題,并且當災難發(fā)生時存在大量數(shù)據(jù)難以及時恢復的問題。為了解決此問題,災難發(fā)生時,先恢復關鍵數(shù)據(jù),后恢復非關鍵數(shù)據(jù)。 第2級:熱備份站點備份 在異地建立一個熱備份點,通過網(wǎng)絡進行數(shù)據(jù)備份。也就是通過網(wǎng)絡以同步或異步方式,把主站點的數(shù)據(jù)備份到備份站點,備份站點一般只備份數(shù)據(jù),不承擔業(yè)務。當出現(xiàn)災難時,備份站點接替主站點的業(yè)務,從而維護業(yè)務運行的連續(xù)性。 第3級:活動備援中心 在相隔較遠的地方分別建立兩個數(shù)據(jù)中心,它們都處于工作狀態(tài),并進行相互數(shù)據(jù)備份。當某個數(shù)據(jù)中心發(fā)生災難時,另一個數(shù)據(jù)中心接替其工作任務。這種級別的備份根據(jù)實際要求和投入資金的多少,又可分為兩種:①兩個數(shù)據(jù)中心之間只限于關鍵數(shù)據(jù)的相互備份;②兩個數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災備份方式,它要求不管什么災難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復雜的管理軟件和專用的硬件設備,需要投資相對而言是最大的,但恢復速度也是最快的。 容災備份的關鍵技術 在建立容災備份系統(tǒng)時會涉及到多種技術,如:SAN或NAS技術、遠程鏡像技術、基于IP的SAN的互連技術、快照技術等。這里重點介紹遠程鏡像、快照和互連技術。 1. 遠程鏡像技術 遠程鏡像技術是在主數(shù)據(jù)中心和備援中心之間的數(shù)據(jù)備份時用到。鏡像是在兩個或多個磁盤或磁盤子系統(tǒng)上產(chǎn)生同一個數(shù)據(jù)的鏡像視圖的信息存儲過程,一個叫主鏡像系統(tǒng),另一個叫從鏡像系統(tǒng)。按主從鏡像存儲系統(tǒng)所處的位置可分為本地鏡像和遠程鏡像。遠程鏡像又叫遠程復制,是容災備份的核心技術,同時也是保持遠程數(shù)據(jù)同步和實現(xiàn)災難恢復的基礎。遠程鏡像按請求鏡像的主機是否需要遠程鏡像站點的確認信息,又可分為同步遠程鏡像和異步遠程鏡像。 同步遠程鏡像(同步復制技術)是指通過遠程鏡像軟件,將本地數(shù)據(jù)以完全同步的方式復制到異地,每一本地的I/O事務均需等待遠程復制的完成確認信息,方予以釋放。同步鏡像使遠程拷貝總能與本地機要求復制的內(nèi)容相匹配。當主站點出現(xiàn)故障時,用戶的應用程序切換到備份的替代站點后,被鏡像的遠程副本可以保證業(yè)務繼續(xù)執(zhí)行而沒有數(shù)據(jù)的丟失。但它存在往返傳播造成延時較長的缺點,只限于在相對較近的距離上應用。 異步遠程鏡像(異步復制技術)保證在更新遠程存儲視圖前完成向本地存儲系統(tǒng)的基本I/O操作,而由本地存儲系統(tǒng)提供給請求鏡像主機的I/O操作完成確認信息。遠程的數(shù)據(jù)復制是以后臺同步的方式進行的,這使本地系統(tǒng)性能受到的影響很小,傳輸距離長(可達1000公里以上),對網(wǎng)絡帶寬要求小。但是,許多遠程的從屬存儲子系統(tǒng)的寫沒有得到確認,當某種因素造成數(shù)據(jù)傳輸失敗,可能出現(xiàn)數(shù)據(jù)一致性問題。為了解決這個問題,目前大多采用延遲復制的技術(本地數(shù)據(jù)復制均在后臺日志區(qū)進行),即在確保本地數(shù)據(jù)完好無損后進行遠程數(shù)據(jù)更新。 2.快照技術 遠程鏡像技術往往同快照技術結合起來實現(xiàn)遠程備份,即通過鏡像把數(shù)據(jù)備份到遠程存儲系統(tǒng)中,再用快照技術把遠程存儲系統(tǒng)中的信息備份到遠程的磁帶庫、光盤庫中。 快照是通過軟件對要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,建立一個要備份數(shù)據(jù)的快照邏輯單元號LUN和快照cache。在快速掃描時,把備份過程中即將要修改的數(shù)據(jù)塊同時快速拷貝到快照cache中?煺誏UN是一組指針,它指向快照cache和磁盤子系統(tǒng)中不變的數(shù)據(jù)塊(在備份過程中)。在正常業(yè)務進行的同時,利用快照LUN實現(xiàn)對原數(shù)據(jù)的一個完全的備份。它可使用戶在正常業(yè)務不受影響的情況下(主要指容災備份系統(tǒng)),實時提取當前在線業(yè)務數(shù)據(jù)。其“備份窗口”接近于零,可大大增加系統(tǒng)業(yè)務的連續(xù)性,為實現(xiàn)系統(tǒng)真正的7×24運轉(zhuǎn)提供了保證。 快照是通過內(nèi)存作為緩沖區(qū)(快照cache),由快照軟件提供系統(tǒng)磁盤存儲的即時數(shù)據(jù)映像,它存在緩沖區(qū)調(diào)度的問題。 3.互連技術 早期的主數(shù)據(jù)中心和備援數(shù)據(jù)中心之間的數(shù)據(jù)備份,主要是基于SAN的遠程復制(鏡像),即通過光纖通道FC,把兩個SAN連接起來,進行遠程鏡像(復制)。當災難發(fā)生時,由備援數(shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性。這種遠程容災備份方式存在一些缺陷,如:實現(xiàn)成本高、設備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進一步推廣和應用。 目前,出現(xiàn)了多種基于IP的SAN的遠程數(shù)據(jù)容災備份技術。它們是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過現(xiàn)有的TCP/IP網(wǎng)絡,遠程復制到備援中心SAN中。當備援中心存儲的數(shù)據(jù)量過大時,可利用快照技術將其備份到磁帶庫或光盤庫中。這種基于IP的SAN的遠程容災備份,可以跨越LAN、MAN和WAN,成本低、可擴展性好,具有廣闊的發(fā)展前景;贗P的互連協(xié)議包括:FCIP、iFCP、Infiniband、iSCSI等。 衡量容災備份的兩個技術指標 RPO(Recovery Point Objective):即數(shù)據(jù)恢復點目標,主要指的是業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量。 RTO(Recovery Time Objective):即恢復時間目標,主要指的是所能容忍的業(yè)務停止服務的最長時間,也就是從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間周期。 RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務丟失,二者沒有必然的關聯(lián)性。RTO和RPO的確定必須在進行風險分析和業(yè)務影響分析后根據(jù)不同的業(yè)務需求確定。對于不同企業(yè)的同一種業(yè)務,RTO和RPO的需求也會有所不同。
抱歉,此頁面的內(nèi)容受版權保護,復制需扣除次數(shù),次數(shù)不足時需付費購買。
如需下載請點擊:點擊此處下載
掃碼付費即可復制
尋址 | 數(shù)字通信 | 協(xié)作通信 | 信息化 | 網(wǎng)絡安全 | 全雙工 | drm | 終端 | 陰影衰落 | cable | 通信工程 | 通信設備 |
移動通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團隊博客 | 免責聲明 | 關于詞典 | 幫助