中國電信浙江公司 呂鵬 顧炯 姚捷靈
華信咨詢設(shè)計(jì)研究院有限公司 洪亮
中國電信浙江公司為解決業(yè)務(wù)云資源池中網(wǎng)絡(luò)資源管理遇到的困境,試點(diǎn)引入VxLAN技術(shù),以此為基礎(chǔ)構(gòu)建與物理網(wǎng)絡(luò)松耦合的網(wǎng)絡(luò)虛擬化資源池,進(jìn)一步探索私有云網(wǎng)絡(luò)資源開放的可行性。本文從VxLAN技術(shù)的實(shí)際部署設(shè)計(jì)方案出發(fā),解析云資源池引入VxLAN的設(shè)計(jì)要點(diǎn),并結(jié)合資源池的實(shí)際情況,進(jìn)一步分析引入VxLAN如何為云資源池在網(wǎng)絡(luò)資源管理效率方面帶來提升。
主要問題
中國電信浙江公司自2011年開始研究部署云計(jì)算技術(shù),建設(shè)了業(yè)務(wù)云計(jì)算資源池。經(jīng)過幾年的發(fā)展和優(yōu)化,現(xiàn)已基本形成安全、可靠的云計(jì)算資源池體系。目前在資源池上已經(jīng)承載了包括企業(yè)信息化系統(tǒng)在內(nèi)的近300個(gè)應(yīng)用平臺。自2013年開始,伴隨著資源池規(guī)模的增大、部署應(yīng)用系統(tǒng)的增多、業(yè)務(wù)需求的不斷疊加,網(wǎng)絡(luò)能力逐漸成為了資源池演進(jìn)的瓶頸:網(wǎng)絡(luò)集中配置導(dǎo)致業(yè)務(wù)開通時(shí)間越來越長、不同應(yīng)用的網(wǎng)絡(luò)個(gè)性需求不斷疊加到基礎(chǔ)網(wǎng)絡(luò)上、網(wǎng)絡(luò)資源的SLA粒度與資源池其他資源的分配管理互不匹配等。
究其原因,我們認(rèn)為主要存在以下兩點(diǎn)。
● 資源池網(wǎng)絡(luò)相關(guān)設(shè)備均是由傳統(tǒng)的IP設(shè)備組成,維護(hù)人員直接管理、配置和維護(hù)物理設(shè)備,但是物理設(shè)備無法實(shí)現(xiàn)高效的動態(tài)化。已經(jīng)可以動態(tài)按需分配的計(jì)算資源會因物理網(wǎng)絡(luò)設(shè)備的限制而無法高效地實(shí)現(xiàn)自動化供給與調(diào)配;不同類型資源的統(tǒng)一快速配置與編排組合還難以做到,快速的自動協(xié)同更是不可能;無法滿足多租戶環(huán)境下不同客戶對各類資源的統(tǒng)一快速供給需求。
● 資源池內(nèi)共享的網(wǎng)絡(luò)資源導(dǎo)致物理設(shè)備上配置復(fù)雜,各配置信息集中在某些核心設(shè)備上,缺乏隔離手段,會出現(xiàn)某一配置出錯(cuò),進(jìn)而導(dǎo)致整個(gè)資源池網(wǎng)絡(luò)出現(xiàn)故障,并引發(fā)業(yè)務(wù)大面積的中斷,配置壓力也很大。復(fù)雜的配置決定網(wǎng)絡(luò)的配置必須集中在1~2名對資源池網(wǎng)絡(luò)環(huán)境非常熟悉并且對各租戶網(wǎng)絡(luò)需求充分理解的維護(hù)人員上,這不僅需要維護(hù)人員的技術(shù)水平極高,而且也形成了資源池的配置瓶頸。
因此,我們嘗試了“網(wǎng)絡(luò)資源池化”:將網(wǎng)絡(luò)資源封裝為類似計(jì)算、存儲的池化資源進(jìn)行多租戶管理,并通過SDN網(wǎng)絡(luò)管理能力開放的方法,解決上述問題。
軟件定義網(wǎng)絡(luò)
軟件定義網(wǎng)絡(luò)(Software-Defined-Network,SDN)技術(shù)廣義上是解決云資源池網(wǎng)絡(luò)瓶頸的理想方案,其具體的實(shí)現(xiàn)方案主要包括以下3種類型。
(1)基于專用接口的方案:該類方案的實(shí)現(xiàn)思路是不改變傳統(tǒng)網(wǎng)絡(luò)的實(shí)現(xiàn)機(jī)制和工作方式,通過對現(xiàn)有網(wǎng)絡(luò)設(shè)備的操作系統(tǒng)進(jìn)行升級改造,使之能夠支持專用的可編程接口供網(wǎng)絡(luò)管理系統(tǒng)調(diào)用,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備的統(tǒng)一配置管理和策略下發(fā),改變原先需要逐臺設(shè)備進(jìn)行登錄配置的手工操作方式;同時(shí)這些接口也可用于開發(fā)網(wǎng)絡(luò)應(yīng)用,實(shí)現(xiàn)網(wǎng)絡(luò)設(shè)備的軟件編程。其中,最典型的技術(shù)產(chǎn)品是思科的onePK(Open Network Environment Platform Kit)。
(2)基于疊加網(wǎng)絡(luò)的方案:該類方案的實(shí)現(xiàn)思路是以現(xiàn)行的IP網(wǎng)絡(luò)為基礎(chǔ),在其上建立疊加的邏輯網(wǎng)絡(luò)(Overlay Logical Network)用于屏蔽掉底層物理網(wǎng)絡(luò)的差異,實(shí)現(xiàn)網(wǎng)絡(luò)資源的虛擬化,使得多個(gè)邏輯上彼此隔離的網(wǎng)絡(luò)分區(qū)以及多種異構(gòu)的虛擬網(wǎng)絡(luò)可以在同一共享網(wǎng)絡(luò)基礎(chǔ)設(shè)施上共存,支持網(wǎng)絡(luò)資源的多租戶共享并突破傳統(tǒng)網(wǎng)絡(luò)技術(shù)對租戶網(wǎng)絡(luò)的限制。其中,最典型的技術(shù)產(chǎn)品包括VMware NSX及其主導(dǎo)推出的VxLAN、微軟支持的NVGRE、IBM的DOVE等,其中VXLAN利用了現(xiàn)有通用的UDP傳輸,成熟性極高?傮w比較,VxLAN技術(shù)相對具有優(yōu)勢。VxLAN網(wǎng)絡(luò)設(shè)備主要有3種角色,分別是VTEP(VXLAN Tunnel End Point)、VxLAN GW(VxLAN Gateway)、VxLAN IP GW(VxLAN IP Gateway),均是物理網(wǎng)絡(luò)的邊緣設(shè)備,而由3種邊緣設(shè)備構(gòu)成了VxLAN Overlay網(wǎng)絡(luò),對于應(yīng)用系統(tǒng)來說,只與這3種設(shè)備相關(guān),與底層物理網(wǎng)絡(luò)無關(guān)。
(3)基于開放協(xié)議的方案:這是當(dāng)前最流行的SDN實(shí)現(xiàn)方案,它引入了開放的網(wǎng)絡(luò)協(xié)議標(biāo)準(zhǔn),強(qiáng)調(diào)網(wǎng)絡(luò)中控制與轉(zhuǎn)發(fā)的分離,支持南向網(wǎng)絡(luò)設(shè)備的集中控制,并提供豐富的北向應(yīng)用編程接口,能夠有效降低網(wǎng)絡(luò)架構(gòu)復(fù)雜度,支持業(yè)務(wù)驅(qū)動的網(wǎng)絡(luò)資源靈活調(diào)配。其中,最典型的技術(shù)成果是由ONF(Open Networking Foundation,開放網(wǎng)絡(luò)基金會)提出的基于OpenFlow南向控制協(xié)議的SDN架構(gòu)。
基于中國電信浙江公司云資源池的現(xiàn)狀和需求,我們選擇了對現(xiàn)網(wǎng)影響最小的疊加網(wǎng)絡(luò)方案,同時(shí)以VxLAN作為項(xiàng)目實(shí)施的核心技術(shù),其主要原因在于:
● 大規(guī)模云計(jì)算資源池對VLAN的需求遠(yuǎn)不止4096;
● 資源池大量的物理及虛擬服務(wù)器的存在,物理交換機(jī)上的MAC表項(xiàng)資源面臨耗盡;
● 多租戶需要隔離、自主的網(wǎng)絡(luò)環(huán)境;
● 弱化運(yùn)營商傳統(tǒng)建設(shè)采購模式造成的底層物理設(shè)備差異性;
● VxLAN協(xié)議的引入,不會對現(xiàn)有網(wǎng)絡(luò)造成大規(guī)模的改造工作,改造風(fēng)險(xiǎn)最小。
實(shí)施方案引入
中國電信浙江公司云資源池希望在VMware vSphere虛擬化平臺基礎(chǔ)之上 ,借助VxLAN技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)的虛擬化,使網(wǎng)絡(luò)資源成為一種可以按需動態(tài)分配的資源,期望能在確保系統(tǒng)安全的前提下通過平滑、穩(wěn)定升級,實(shí)現(xiàn)資源池網(wǎng)絡(luò)能力的多租戶開放、自配置、自管理、構(gòu)建靈活、高效、擴(kuò)展性強(qiáng)的網(wǎng)絡(luò)環(huán)境。
云資源池網(wǎng)絡(luò)現(xiàn)狀
中國電信浙江公司云資源池是一個(gè)部署在紹興和金華2個(gè)物理節(jié)點(diǎn)的“雙活統(tǒng)一”資源池,兩物理節(jié)點(diǎn)以DWDM互接,節(jié)點(diǎn)核心交換機(jī)通過跨節(jié)點(diǎn)2層虛擬化堆疊實(shí)現(xiàn)資源池的邏輯統(tǒng)一,拓?fù)淙鐖D1。
云資源池網(wǎng)絡(luò)采用扁平化的網(wǎng)絡(luò)架構(gòu)(核心-接入)。
● 核心層采用H3C 12518交換機(jī),負(fù)責(zé)高速的3層交換。
● 接入層主要采用H3C 5500/5800交換機(jī)。接入交換機(jī)安裝在每個(gè)服務(wù)器機(jī)柜的機(jī)架頂,實(shí)現(xiàn)服務(wù)器網(wǎng)絡(luò)接入,但只開啟2層轉(zhuǎn)發(fā),所有3層網(wǎng)關(guān)設(shè)置在核心層。核心層和接入層均采用了H3C的IRF2技術(shù),構(gòu)建了天然無環(huán)網(wǎng)絡(luò)結(jié)構(gòu),因此沒有啟用STP (生成樹協(xié)議),所有機(jī)架內(nèi)服務(wù)器之間的3層流量需要上行至核心層進(jìn)行交換。
● 所有的部件和線路都采用雙節(jié)點(diǎn)、雙線路的部署方式,保證業(yè)務(wù)的高可靠性。網(wǎng)絡(luò)收斂比約為1:5。
核心層-接入層的連接采用萬兆以太網(wǎng)連接,并通過多鏈路捆綁提供性能擴(kuò)展和高可用保護(hù)。接入層通過多條千兆連接捆綁的方式,連接服務(wù)器。網(wǎng)絡(luò)管理上區(qū)分為資源管理網(wǎng)、業(yè)務(wù)數(shù)據(jù)網(wǎng)。
實(shí)施方案設(shè)計(jì)
方案設(shè)計(jì)整體思路
從更好地融合計(jì)算資源和網(wǎng)絡(luò)資源的角度考慮,本次方案選擇了資源池虛擬化平臺同平臺的NSX for vSphere(以下簡稱NSX)作為SDN的解決方案。
方案總體思路是一種將虛擬網(wǎng)絡(luò)從傳統(tǒng)物理網(wǎng)絡(luò)中解放出來的疊加網(wǎng)絡(luò)解決方案。以VxLAN為基礎(chǔ),NSX通過建立虛擬網(wǎng)絡(luò)提供一種抽象的、運(yùn)行在物理和邏輯網(wǎng)絡(luò)之間的虛擬網(wǎng)絡(luò)層。
根據(jù)平臺不同的角色定義和硬件能力需求,總體上將環(huán)境分為不同的功能域:計(jì)算(Computing)、管理(Management)、邊界(Edge)、橋接(Bridge)、網(wǎng)絡(luò)的邏輯架構(gòu)如圖2所示。
物理網(wǎng)絡(luò)設(shè)計(jì)
網(wǎng)絡(luò)虛擬化的一個(gè)關(guān)鍵目標(biāo)就是提供虛擬到物理網(wǎng)絡(luò)的抽象化,因此物理網(wǎng)絡(luò)必須提供一種健壯的IP傳輸并具有下列特性:
● 簡易性
● 可擴(kuò)展性
● 容錯(cuò)性
● 服務(wù)質(zhì)量等級(QoS)保證
為了達(dá)到以上幾種特性,且便于網(wǎng)絡(luò)虛擬化后的運(yùn)維便利,我們對原有的網(wǎng)絡(luò)功能拓?fù)溥M(jìn)行了重新設(shè)計(jì)。
● 核心交換機(jī)仍為管理網(wǎng)段的網(wǎng)關(guān), 在此為各個(gè)管理網(wǎng)段配置網(wǎng)關(guān)IP地址。
● 將原本只是作為純粹L2通道交換的接入交換機(jī)改造為架頂式TOR(top-of-rack)交換設(shè)計(jì),在此為各VxLAN的VTEP配置網(wǎng)關(guān)地址,并開啟3層路由功能。
● TOR 核心路由器為3層路由OSPF(Open Shortest Path First)交換, 資源可平行擴(kuò)展, 能支持大量機(jī)架及TOR 建設(shè)。同時(shí)縮小了TOR及核心交換機(jī)管理MAC地址的數(shù)量,縮小了2層網(wǎng)絡(luò)范圍。
● 計(jì)算域(Computing)內(nèi)的VNI建立以每個(gè)業(yè)務(wù)的各種服務(wù)型態(tài)為單位, 如典型業(yè)務(wù)有Web/APP/DB3種服務(wù)型態(tài),即開設(shè)3個(gè)VNI用于該業(yè)務(wù),便于實(shí)現(xiàn)服務(wù)的“東西向”傳輸效率及提高安全性。
● 邊界域(Edge)部署在VxLAN和VLAN網(wǎng)關(guān)之間,其數(shù)量等于外聯(lián)VLAN的數(shù)量。該設(shè)計(jì)使得每個(gè)Edge虛擬網(wǎng)關(guān)負(fù)載較小,但數(shù)量增加,可以選擇使用戶集群中的服務(wù)器進(jìn)行負(fù)載均衡,且Edge虛擬網(wǎng)關(guān)與服務(wù)VLAN 1:1對應(yīng), 有利于問題的查找。
● 通過VxLAN流量的網(wǎng)絡(luò)設(shè)備,需將MTU值置為>1600。
整體物理網(wǎng)絡(luò)設(shè)計(jì)架構(gòu)如圖3(注:因邊界集群中的TOR 6248交換機(jī)并無3層路由功能,因此邊界集群的VTEP網(wǎng)關(guān)落在核心交換機(jī))。
物理網(wǎng)絡(luò)流量設(shè)計(jì)如圖4。
虛擬網(wǎng)絡(luò)設(shè)計(jì)
網(wǎng)絡(luò)虛擬化包含3個(gè)主要的方面:解耦合、再組成和自動化。所有3方面對于達(dá)到預(yù)期的效果都是重要的。解耦合,它是使物理網(wǎng)絡(luò)變簡單與可擴(kuò)展的關(guān)鍵。
當(dāng)建立一個(gè)新的環(huán)境時(shí),選擇一個(gè)允許未來擴(kuò)展的架構(gòu)是必須要考慮的。此類部署的指導(dǎo)思路是使用一個(gè)簡單的集群式架構(gòu)而非通過VLAN的擴(kuò)展實(shí)現(xiàn)。盡管這是一個(gè)簡單的需求,但卻對物理交換架構(gòu)如何建立和擴(kuò)展有深遠(yuǎn)的影響。
我們還是以3種集群的視角來設(shè)計(jì)討論:計(jì)算集群、邊界集群、管理集群(如圖5)。
● 計(jì)算集群
計(jì)算集群用以為業(yè)務(wù)平臺提供虛擬計(jì)算資源,計(jì)算集群需要具有如下設(shè)計(jì)屬性:
> 與現(xiàn)有網(wǎng)絡(luò)可交互
> 對于新部署或重新設(shè)計(jì)
> 對于虛擬機(jī)接入不需要考慮VLAN劃分
> 對于計(jì)算集群的網(wǎng)絡(luò)擴(kuò)展不應(yīng)該考慮VLAN方式。
> 提供一種可重復(fù)利用的架構(gòu)設(shè)計(jì)
虛擬化后的主機(jī)通常會發(fā)起3種的流量:VxLAN流量、管理流量、vSphere vMotion流量。VxLAN可看作網(wǎng)絡(luò)虛擬化后新引入的流量,通過UDP封裝,用以承載所有虛擬機(jī)通信的流量。
不同的流量類型可以被VLAN隔離,從IP地址段的層面加以明確區(qū)分。VLAN在TOR交換機(jī)匯聚,設(shè)定如下:
> VTEP的VLAN提供一個(gè)3層的網(wǎng)絡(luò)端口;
> vMotion的VLAN并不提供任何網(wǎng)關(guān),不論2或3層都無法上行出去;
> 管理VLAN上行至另一獨(dú)立的管理接入交換機(jī)以2層連接至核心交換機(jī)。
● 邊界集群
邊界集群作為連接虛擬與物理網(wǎng)絡(luò)之間的橋梁,會有大量的數(shù)據(jù)交互,其主要功能:
> 提供“進(jìn)站 / 出站”式的物理網(wǎng)絡(luò)連接
> 通過VLAN與物理網(wǎng)絡(luò)建立連接
> 主機(jī)式集中物理服務(wù)
邊界是所有邏輯網(wǎng)絡(luò)的終點(diǎn),并且在物理和邏輯網(wǎng)絡(luò)間提供3層跳轉(zhuǎn)。設(shè)計(jì)思路的重點(diǎn)是區(qū)分VxLAN(疊加)流量和未封裝(原始)流量。物理上這兩種網(wǎng)絡(luò)流量會有重疊,可能都匯聚在相同的邊界集群接入交換機(jī)上,需要使用兩個(gè)不同的VLAN加以區(qū)分。
邊界節(jié)點(diǎn)(Edge)可以使用兩種方式提供服務(wù),根據(jù)實(shí)際情況選擇適合的方案:
1. 內(nèi)部地址僅在Edge內(nèi)部使用,對外使用NAT的方式進(jìn)行通信。外部VLAN在Edge上聯(lián)口終止。外部網(wǎng)關(guān)設(shè)備無需額外路由配置。
2. 內(nèi)部地址通過默認(rèn)路由方式對外建立連接。網(wǎng)關(guān)使用靜態(tài)路由將需要訪問內(nèi)部的流量向Edge傳輸,后者通過OSPF獲得路由進(jìn)行數(shù)據(jù)包分發(fā)。Edge上聯(lián)口僅需配置點(diǎn)對點(diǎn)傳輸接口即可。
● 管理集群
集群內(nèi)安裝了管理組件,包括資源池虛擬化管理平臺、資源池網(wǎng)絡(luò)管理組件,管理集群內(nèi)的配置不包含任何業(yè)務(wù)平臺相關(guān)的地址。
實(shí)施效果
通過部署SDN將VxLAN引入云計(jì)算資源池,網(wǎng)絡(luò)能力可以成為一種資源進(jìn)行按需配置,同時(shí)將各租戶的網(wǎng)絡(luò)配置進(jìn)行隔離,提高了網(wǎng)絡(luò)安全性并簡化了網(wǎng)絡(luò)配置,很多配置可以由租戶自行完成,結(jié)合在2014年底部署的分布式塊存儲(SVR-SAN)實(shí)現(xiàn)軟件定義存儲(SDS),基本消除了網(wǎng)絡(luò)和存儲的供給瓶頸,將資源池變成一個(gè)基礎(chǔ)設(shè)施能力超市。目前已經(jīng)部署“天翼閱讀”等業(yè)務(wù)進(jìn)行商用,基本達(dá)到引入預(yù)期,概括起來主要體現(xiàn)在4方面。
1.通過VxLAN 可以自由定義2層網(wǎng)絡(luò),實(shí)現(xiàn)了可擴(kuò)展的多租戶網(wǎng)絡(luò),可以由租戶自管理和自配置,目前VxLAN技術(shù)已經(jīng)基本成熟,且業(yè)內(nèi)已經(jīng)基本形成產(chǎn)業(yè)標(biāo)準(zhǔn),對未來企業(yè)資源池資源的全面云化、資源自助管理有著深刻的意義。
2.以業(yè)務(wù)平臺(租戶)為單位實(shí)現(xiàn)路由、負(fù)載均衡、NAT和防火墻功能,是未來資源池設(shè)計(jì)必須實(shí)現(xiàn)的目標(biāo),由此達(dá)到網(wǎng)絡(luò)資源池的2次隔離和封裝的目的,用以實(shí)現(xiàn)任何一個(gè)業(yè)務(wù)平臺的網(wǎng)絡(luò)變更、割接都不會對其他業(yè)務(wù)和大網(wǎng)造成影響。
3.分布式路由功能有必要在資源池網(wǎng)絡(luò)虛擬化工作中引入,其可以大大減輕資源池核心交換機(jī)的流量壓力和配置的復(fù)雜性,也為以業(yè)務(wù)為單位的QoS及SLA定義提供了便捷。
4.資源池多層次的安全控制必須被考慮,包括資源池“東西向”流量安全和“南北向”進(jìn)出流量安全,可以通過軟、硬結(jié)合的防火墻實(shí)現(xiàn)。
VxLAN作為Overlay網(wǎng)絡(luò)技術(shù)的一種代表,引入云計(jì)算資源池的代價(jià)是相對較低的,也在一定程度上幫助實(shí)現(xiàn)了網(wǎng)絡(luò)資源的虛擬化。但是,作為一項(xiàng)底層基礎(chǔ)技術(shù),距離云計(jì)算資源池對網(wǎng)絡(luò)的終極目標(biāo)還有一段距離。后續(xù)隨著虛擬網(wǎng)絡(luò)組件功能的不斷完善,在實(shí)現(xiàn)網(wǎng)絡(luò)資源創(chuàng)建、更改、釋放更快捷;加速新業(yè)務(wù)開發(fā)和網(wǎng)絡(luò)資源控制更精細(xì);控制能力與業(yè)務(wù)的結(jié)合更密切等方面還需要做積極的嘗試。
作者:呂鵬 來源:通信世界周刊