當(dāng)大模型參數(shù)量突破萬億級、智算集群規(guī)模向百萬卡邁進(jìn),智算中心作為數(shù)字經(jīng)濟(jì)的核心基礎(chǔ)設(shè)施,正面臨前所未有的挑戰(zhàn)與機(jī)遇。如何以更低的功耗承載更高的帶寬,如何以更靈活的架構(gòu)支撐動(dòng)態(tài)的算力需求,如何以更可靠的聯(lián)接保障持續(xù)的訓(xùn)練?答案,或許就藏在光互聯(lián)技術(shù)的革新中。
就在 4 月 17 日下午舉辦的“超大規(guī)模智算中心:1.6T 時(shí)代的全光互聯(lián)”上,華為光產(chǎn)品線專家劉曉妮系統(tǒng)闡述了智算中心光互聯(lián)的演進(jìn)趨勢與華為創(chuàng)新成果。她指出,谷歌作為行業(yè)先行者,已在數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)核心層和智算參數(shù)面規(guī)模化部署全光交叉(OCS),完成了 90%的替代,并推動(dòng) OCS 從“單點(diǎn)突破”走向“全局重構(gòu)”。而華為推出的數(shù)據(jù)中心全光交叉(DC-OXC)解決方案,通過光電混合架構(gòu)與動(dòng)態(tài)拓?fù)湔{(diào)度能力,為超萬卡集群的彈性擴(kuò)展與高效協(xié)同提供了全新范式。
從谷歌實(shí)踐,看光互聯(lián)核心價(jià)值
LightCounting 數(shù)據(jù)顯示,2024 年以太網(wǎng)光模塊市場規(guī)模突破 100 億美元,同比增長近 100%,未來五年仍將保持 15%~18%的復(fù)合增速。增長背后,是超大規(guī)模集群對高速互聯(lián)的極致追求:英偉達(dá) Rubin 架構(gòu)下,288 卡 GPU 集群需 5184 個(gè) 1.6T 光模塊,傳統(tǒng)電互聯(lián)在密度與功耗上漸漸變得難以為繼。
谷歌的探索為行業(yè)提供了重要參考,其 Jupiter 網(wǎng)絡(luò)通過 OCS 替代傳統(tǒng)電交換機(jī)核心層,實(shí)現(xiàn)了跨代際網(wǎng)絡(luò)的高效互通。劉曉妮援引谷歌公開數(shù)據(jù)指出,OCS 的引入使 DCN 核心層不再受電芯片迭代周期束縛,網(wǎng)絡(luò)拓?fù)淇砂戳髁坑H和性動(dòng)態(tài)調(diào)整,效率提升 10 倍,停機(jī)時(shí)間減少 98%,同時(shí)降低 40%功耗與 30%設(shè)備投資。
劉曉妮強(qiáng)調(diào),OCS 不僅是聯(lián)接工具,更是算力資源動(dòng)態(tài)調(diào)度的核心樞紐。谷歌將 OCS 下沉至智算參數(shù)面,基于 3D-Torus 架構(gòu)構(gòu)建 TPU 集群。以 TPU v4 為例,64 個(gè)機(jī)柜通過 OCS 互聯(lián),形成 4096 卡的超大規(guī)模算力單元,故障隔離效率提升 50 倍,集群可用性從 8%躍升至 75%。谷歌 TPU v7 延續(xù)了這一架構(gòu),并在 6000 卡集群中完成 PaLM 大模型訓(xùn)練,驗(yàn)證了光互聯(lián)在超大規(guī)模 AI 訓(xùn)練中的可行性。
華為 DC-OXC:破解智算中心三大困局
隨著智算集群規(guī)模的迅速膨脹,全球智算中心建設(shè)普遍面臨著“規(guī)模受限、可靠性衰減、效率瓶頸”三大挑戰(zhàn)。