近日,在中國算力大會(huì)期間,中國移動(dòng)攜手全球50余家合作伙伴正式發(fā)布全調(diào)度以太網(wǎng)(GSE)全套技術(shù)標(biāo)準(zhǔn),以及全球首套GSE商用產(chǎn)品。中國移動(dòng)通信集團(tuán)有限公司副總經(jīng)理李慧鏑、河南省人民政府副秘書長魏曉偉、中國移動(dòng)研究院黨委委員王大越及多位產(chǎn)業(yè)界領(lǐng)導(dǎo)專家共同出席發(fā)布儀式。此次發(fā)布是GSE發(fā)展歷程中的重要里程碑,進(jìn)一步推動(dòng)GSE技術(shù)體系在全球主流智算網(wǎng)絡(luò)廣泛應(yīng)用,為世界貢獻(xiàn)中國智慧,助力全球AI產(chǎn)業(yè)發(fā)展。
以太網(wǎng)已成為新一代智算中心網(wǎng)絡(luò)技術(shù)的發(fā)展方向,2023年5月,中國移動(dòng)聯(lián)合10余家中國企業(yè)率先發(fā)布了全調(diào)度以太網(wǎng)技術(shù)架構(gòu)(GSE)白皮書,并在8月中國算力大會(huì)上正式啟動(dòng)“GSE推進(jìn)計(jì)劃”,成員包括國內(nèi)外主流云服務(wù)商、設(shè)備商、芯片商、高校等50余家產(chǎn)學(xué)研機(jī)構(gòu),旨在打造標(biāo)準(zhǔn)開放、合作共贏的技術(shù)體系,與美國公司主導(dǎo)的超級(jí)以太網(wǎng)聯(lián)盟(UEC)成為全球范圍內(nèi)兩個(gè)具有影響力的技術(shù)體系。
為兼顧智算中心建設(shè)的節(jié)奏與技術(shù)發(fā)展的需求,全調(diào)度以太網(wǎng)技術(shù)劃分為GSE1.0和GSE2.0兩個(gè)商用階段。GSE1.0基于現(xiàn)有芯片最大限度地支持GSE新技術(shù),優(yōu)化網(wǎng)絡(luò)性能,目前已在中國移動(dòng)智算中心(哈爾濱)超萬卡集群實(shí)現(xiàn)首次商用,將訓(xùn)練過程中通信時(shí)間占比縮20%以上,達(dá)到國際先進(jìn)水平。GSE2.0則全面革新以太網(wǎng)底層轉(zhuǎn)發(fā)機(jī)制和上層協(xié)議棧,通過基于PKTC的多路徑噴灑、基于DGSQ的擁塞控制機(jī)制以及基于66B原子碼塊的故障檢測與通告等原創(chuàng)技術(shù)創(chuàng)新,從根本上解決傳統(tǒng)無損以太性能和可靠性問題。
此外,為同時(shí)滿足以華為昇騰910系列為代表的GPU集成網(wǎng)卡的GPU服務(wù)器和以英偉達(dá)H800系列為代表的配備獨(dú)立網(wǎng)卡的GPU服務(wù)器組網(wǎng)需求,GSE采用先進(jìn)的統(tǒng)一設(shè)計(jì)理念,構(gòu)建GSE-N2N和GSE-E2E兩大技術(shù)場景,前者網(wǎng)絡(luò)實(shí)現(xiàn)全部GSE功能,實(shí)現(xiàn)計(jì)算和網(wǎng)絡(luò)與天然解耦,后者將部分GSE能力延伸至服務(wù)器網(wǎng)卡,借助端網(wǎng)協(xié)同實(shí)現(xiàn)高性能集群互聯(lián)。
本次發(fā)布的成果主要有GSE全套技術(shù)標(biāo)準(zhǔn)包括《GSE1.0 算網(wǎng)協(xié)同技術(shù)標(biāo)準(zhǔn)》、《GSE 2.0網(wǎng)絡(luò)側(cè)優(yōu)化技術(shù)標(biāo)準(zhǔn)》即GSE-N2N標(biāo)準(zhǔn)和《GSE2.0 端網(wǎng)協(xié)同技術(shù)標(biāo)準(zhǔn)》即GSE-E2E標(biāo)準(zhǔn)。其中,GSE1.0技術(shù)標(biāo)準(zhǔn)主要涵蓋端口級(jí)+算網(wǎng)協(xié)同的負(fù)載均衡、端網(wǎng)協(xié)同的擁塞感知授權(quán)等核心技術(shù),已經(jīng)規(guī)模商用;GSE-N2N技術(shù)標(biāo)準(zhǔn)主要定義了基于PKTC的多路徑噴灑、基于DGSQ的擁塞控制、控制面設(shè)計(jì)、網(wǎng)絡(luò)健壯性及網(wǎng)絡(luò)可視化等核心技術(shù),本次發(fā)布的交換機(jī)商用產(chǎn)品已全面實(shí)現(xiàn);GSE-E2E技術(shù)標(biāo)準(zhǔn)主要涉及端網(wǎng)協(xié)同機(jī)制、多路徑噴灑機(jī)制、基于DGSQ的擁塞控制、端側(cè)亂序重排及快速丟包重傳等核心內(nèi)容,商用網(wǎng)卡芯片已完成開發(fā)。GSE1.0技術(shù)標(biāo)準(zhǔn)的發(fā)布為近兩年智算中心超萬卡建設(shè)提供強(qiáng)有力的技術(shù)支撐,GSE2.0技術(shù)標(biāo)準(zhǔn)的發(fā)布為未來超十萬卡智算中心網(wǎng)絡(luò)建設(shè)保駕護(hù)航。
本次發(fā)布的GSE商用交換機(jī)支持千卡級(jí)組網(wǎng)規(guī)模,組網(wǎng)性能比傳統(tǒng)RoCEv2交換機(jī)提升50%以上。
智算中心網(wǎng)絡(luò)技術(shù)發(fā)展依托從芯片到設(shè)備再到規(guī)模商用全產(chǎn)業(yè)鏈的支持,GSE的全球合作伙伴正在積極構(gòu)建完善的產(chǎn)業(yè)生態(tài),原生支持GSE的DPU商用芯片即將發(fā)布,同時(shí)超大容量的GSE以太網(wǎng)交換芯片也已啟動(dòng)研發(fā)。這將加速GSE技術(shù)的商用部署,以滿足未來超十萬卡智算集群的建設(shè)需求。