中國(guó)移動(dòng)原創(chuàng)GSE技術(shù)在超萬(wàn)卡智算中心首次規(guī)模商用

中國(guó)移動(dòng)積極響應(yīng)國(guó)家關(guān)于加快算力基礎(chǔ)設(shè)施建設(shè)的號(hào)召,8月30日正式投產(chǎn)中國(guó)移動(dòng)智算中心(哈爾濱),部署超1.8萬(wàn)張國(guó)產(chǎn)GPU卡,可提供高達(dá)6.9EFLOPS的強(qiáng)大智能算力,成為全球運(yùn)營(yíng)商最大單集群智算中心,可為萬(wàn)億級(jí)模型訓(xùn)練提供高效、穩(wěn)定的算力底座。大模型需要大算力,大算力需要高性能網(wǎng)絡(luò)。智算中心高性能網(wǎng)絡(luò)技術(shù)長(zhǎng)期被西方科技巨頭壟斷,本項(xiàng)目首次商用中國(guó)移動(dòng)原創(chuàng)提出的全調(diào)度以太網(wǎng)(GSE 1.0)技術(shù)方案,將訓(xùn)練過(guò)程中的通信時(shí)間占比縮短20%以上,達(dá)到國(guó)際領(lǐng)先水平。

原創(chuàng)GSE技術(shù)體系,打造”AI網(wǎng)絡(luò)的中國(guó)方案”

傳統(tǒng)智算中心網(wǎng)絡(luò)技術(shù)主要包括InfiniBand和RoCE兩種技術(shù)路線(xiàn),InfiniBand作為英偉達(dá)GPU配套的私有網(wǎng)絡(luò)方案,在市場(chǎng)中占據(jù)重要地位,但其產(chǎn)業(yè)開(kāi)放性、部署成本面臨挑戰(zhàn)。而RoCE底層采用傳統(tǒng)以太網(wǎng),產(chǎn)業(yè)開(kāi)放性好,但性能受到制約。隨著AI大模型的快速發(fā)展,智算中心網(wǎng)絡(luò)的技術(shù)已經(jīng)成為全球人工智能巨頭關(guān)注的焦點(diǎn),其核心是新一代以太網(wǎng)技術(shù)突破。

在這一背景下,中國(guó)移動(dòng)抓住智算中心網(wǎng)絡(luò)升級(jí)換代的契機(jī),2023年5月發(fā)布了全調(diào)度以太網(wǎng)技術(shù)(GSE),與此類(lèi)似,同年7月,Meta、微軟、博通等9家西方AI巨頭提出了超以太網(wǎng)(UEC)技術(shù),技術(shù)愿景和核心理念與GSE基本一致,GSE與UEC成為全球新一代智算中心網(wǎng)絡(luò)的兩大主流技術(shù)。

為兼顧智算中心建設(shè)節(jié)奏和技術(shù)發(fā)展需求,中國(guó)移動(dòng)將全調(diào)度以太網(wǎng)技術(shù)劃分為GSE1.0和GSE2.0兩個(gè)商用階段,其中,GSE1.0旨在快速滿(mǎn)足近兩年智算中心超萬(wàn)卡建設(shè)需求,基于現(xiàn)有芯片最大限度優(yōu)化上層協(xié)議,提升網(wǎng)絡(luò)性能。GSE2.0旨在滿(mǎn)足未來(lái)智算中心超高網(wǎng)絡(luò)性能需求,全面革新以太網(wǎng)底層轉(zhuǎn)發(fā)機(jī)制和上層協(xié)議棧,并研發(fā)全新高速以太網(wǎng)交換芯片,從根本上解決傳統(tǒng)以太網(wǎng)性能不足的問(wèn)題。

突破組網(wǎng)和工程難題,基于GSE1.0構(gòu)建超萬(wàn)卡集群

為實(shí)現(xiàn)GSE1.0技術(shù)體系在超萬(wàn)卡集群規(guī)模應(yīng)用,還需要突破超大規(guī)模集群網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)和超高可靠工程實(shí)施兩大難題。

面對(duì)超萬(wàn)卡大規(guī)模網(wǎng)絡(luò)架構(gòu)設(shè)計(jì),項(xiàng)目組在芯片制程受限的情況下,綜合考慮建設(shè)成本、網(wǎng)絡(luò)性能和可靠性,提出自主可控框式設(shè)備+盒式設(shè)備兩層組網(wǎng)架構(gòu),并開(kāi)展仿真分析和實(shí)驗(yàn)室測(cè)試,驗(yàn)證了數(shù)十種參數(shù)組合方案,確定了最優(yōu)配置,實(shí)現(xiàn)了高性能、超萬(wàn)卡目標(biāo)。

超萬(wàn)卡集群中,因網(wǎng)絡(luò)問(wèn)題導(dǎo)致的訓(xùn)練中斷次數(shù)約占整個(gè)故障的40%,不僅嚴(yán)重影響訓(xùn)練效率,還增加了運(yùn)維成本。項(xiàng)目組聯(lián)合合作伙伴推出了任務(wù)劣化實(shí)時(shí)感知以及網(wǎng)絡(luò)故障精準(zhǔn)定位等技術(shù),顯著降低因網(wǎng)絡(luò)故障導(dǎo)致的訓(xùn)練中斷時(shí)間,避免算力損失,助力集群高可用。

全調(diào)度以太網(wǎng)GSE1.0已經(jīng)實(shí)現(xiàn)超萬(wàn)卡集群規(guī)模商用,當(dāng)前中國(guó)移動(dòng)及合作伙伴正在加快GSE2.0技術(shù)攻關(guān)和標(biāo)準(zhǔn)制定,并推動(dòng)研發(fā)51.2T及以上GSE交換芯片,力爭(zhēng)提升網(wǎng)絡(luò)性能超50%,支撐未來(lái)十萬(wàn)卡規(guī)模智算中心建設(shè)。同時(shí),中國(guó)移動(dòng)積極承擔(dān)推動(dòng)AI產(chǎn)業(yè)和智算網(wǎng)絡(luò)發(fā)展的央企責(zé)任,攜手“GSE推進(jìn)計(jì)劃”的40余家產(chǎn)學(xué)研合作伙伴,共同推動(dòng)GSE技術(shù)和產(chǎn)業(yè)生態(tài)發(fā)展,希望將GSE技術(shù)體系打造成為全球主流AI網(wǎng)絡(luò)技術(shù)方案,為世界貢獻(xiàn)中國(guó)智慧,助力全球AI產(chǎn)業(yè)發(fā)展。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料

本周熱點(diǎn)本月熱點(diǎn)

 

  最熱通信招聘

業(yè)界最新資訊


  最新招聘信息