中國電信傅志仁:國內(nèi)國外雙輪驅(qū)動,推動智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議標準化

C114訊 7月11日消息(水易)在近日舉行的“2024算網(wǎng)融合產(chǎn)業(yè)發(fā)展大會”主論壇上,中國電信研究院副院長傅志仁分享了中國電信在智算網(wǎng)絡(luò)技術(shù)的探索和實踐。

傅志仁表示,人工智能引爆算力需求,模型向百億級參數(shù)演進。雖然隨著創(chuàng)新優(yōu)化,未來訓(xùn)練計算量增長放緩,但仍需要十萬卡級GPU集群。而國內(nèi)受需求、技術(shù)等方面制約,十萬卡集群短期建設(shè)及商用可能性較小。

另外,傅志仁指出:“算力不會走路,能走的就是數(shù)據(jù)!倍鳤I大模型訓(xùn)練/推理等工作需要在大量的計算單位中傳遞海量數(shù)據(jù),需要智算網(wǎng)絡(luò)具備超大規(guī)模、超低時延、超大帶寬、超高可靠等關(guān)鍵特征。

面向當下萬卡場景,解決國產(chǎn)集群性能低、生態(tài)差、效率低的問題,以及面向未來更大規(guī)模場景,實現(xiàn)高性能計算和網(wǎng)絡(luò)根技術(shù)的自主掌控是關(guān)鍵。傅志仁介紹,中國電信的智算基礎(chǔ)研發(fā)布局,主要從芯片硬件、軟件生態(tài)、互聯(lián)能力、管理調(diào)度四個層面出發(fā)。

會上,傅志仁重點介紹了中國電信在互聯(lián)能力層的打造,以AIDC為核心進行組網(wǎng),綜合固移融合的入算網(wǎng)絡(luò)、多機互聯(lián)的算內(nèi)網(wǎng)絡(luò)、IP/傳輸?shù)乃汩g網(wǎng)絡(luò)等能力,形成大規(guī)模、高效、無損、靈活的高性能智算網(wǎng)絡(luò),提升集群算力性能,破解算力供給發(fā)展難題,助力打造云網(wǎng)融合3.0新型算力基礎(chǔ)設(shè)施。

入算網(wǎng)絡(luò)方面,數(shù)字經(jīng)濟下各行各業(yè)都有海量數(shù)據(jù)產(chǎn)生,需要進行存儲、傳輸以及處理。當前海量數(shù)據(jù)的傳送大多需要靠硬盤搬運或高價格的專線傳輸,無法同時滿足“快、好、惠”。

如何破解這一“不可能三角”問題,中國電信一是推出具有“泛在接入、隨建隨用、算網(wǎng)協(xié)同、安全可信”特性的“超算快線”產(chǎn)品,提供海量數(shù)據(jù)異屬、異構(gòu)、異域“入算”的統(tǒng)一解決方案。

傅志仁介紹,這一方案在持續(xù)完善網(wǎng)絡(luò)覆蓋、提供智算高速泛在入口的基礎(chǔ)上,還針對業(yè)務(wù)的偶發(fā)性特點,提出定時定向的大規(guī)模數(shù)據(jù)傳輸方案,并通過定制化API接口讓用戶自助申請網(wǎng)絡(luò)閑時的帶寬資源,從而將原本帶寬受限的網(wǎng)絡(luò)線路彈性擴容至高帶寬專線,并采用資源預(yù)約的機制將數(shù)據(jù)傳輸至智算中心進行處理,在滿足超大規(guī)模數(shù)據(jù)彈性傳輸需求的同時,降低算力使用成本、增強用戶自服務(wù)能力。

算內(nèi)網(wǎng)絡(luò)方面,在大模型的訓(xùn)練過程中,每一輪迭代GPU之間均需要傳送海量梯度數(shù)據(jù),因此需要構(gòu)建GPU計算單元之間的FULL-MESH全互聯(lián)與高速通道。主要面臨兩大挑戰(zhàn),一是建設(shè)萬卡池全互聯(lián)理論上需要的5000萬條連接,二是機內(nèi)帶寬與機間帶寬不匹配,當前機內(nèi)總線帶寬大于機間網(wǎng)絡(luò)帶寬。

面對這一因網(wǎng)絡(luò)能力不足導(dǎo)致算力效率降低的技術(shù)問題,業(yè)界主要從四個技術(shù)維度解決智算網(wǎng)絡(luò)端到端承載的效率問題,即集合通信庫、擁塞控制、流量控制和負載均衡,具體解決方案分別聚焦端側(cè)、網(wǎng)側(cè)和端網(wǎng)協(xié)同側(cè)。

同時中國電信開展新型RDMA擁塞控制技術(shù)創(chuàng)新,自研算法通過端側(cè)主動探測感知網(wǎng)絡(luò)擁塞進行精細化流控,有效提高收斂速度、控制交換機隊列長度、降低小流延遲以及在NO-PFC/NO-ECN配置下避免丟包保證網(wǎng)絡(luò)穩(wěn)定性。

算間網(wǎng)絡(luò)方面,大模型訓(xùn)練需求下,智算中心規(guī)模受限,如何不新建/不穿墻打洞服務(wù)于大規(guī)模智算資源需求;同時電力供應(yīng)/機房空間成為大規(guī)模智算建設(shè)的瓶頸,需要解決單機房供電散熱、空間不足等問題。

傅志仁介紹,針對智算資源整合及分布式訓(xùn)練需求,可通過長距RDMA等新技術(shù)將百公里距離的多個智算中心并聯(lián)成虛擬的大型智算中心節(jié)點,目前已經(jīng)完成系列技術(shù)驗證證明該技術(shù)方向可行。

“從理論到實踐需要標準化的支撐!备抵救蕪娬{(diào),中國電信堅持國際化和國產(chǎn)化兩條技術(shù)路線并舉的雙輪驅(qū)動原則,聚焦國際UEC以及國內(nèi)CCSA等產(chǎn)業(yè)聯(lián)盟/標準組織,開展產(chǎn)業(yè)鏈對話、交流、合作,增強技術(shù)協(xié)作,統(tǒng)一共識,將中國電信的網(wǎng)絡(luò)/業(yè)務(wù)/產(chǎn)品等需求納入規(guī)范,推動智算網(wǎng)絡(luò)相關(guān)接口和協(xié)議的標準化。

傅志仁表示,希望產(chǎn)學研合作、產(chǎn)業(yè)聯(lián)盟、算力提供商、網(wǎng)絡(luò)供應(yīng)商、技術(shù)/服務(wù)提供商齊心協(xié)力,打造廣泛合作、生態(tài)開放、協(xié)同創(chuàng)新的智算基礎(chǔ)設(shè)施。中國電信也將不斷夯實網(wǎng)絡(luò)基礎(chǔ),深化云網(wǎng)融合3.0,打造新型智算基礎(chǔ)設(shè)施生態(tài),培育新質(zhì)生產(chǎn)力。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息