中國移動在光通信頂會ECOC 發(fā)表首個基于OTN承載智算拉遠的學術(shù)研究成果

中國移動研究院創(chuàng)新提出基于光傳送網(wǎng)(Optical Transport Network,OTN)的智算分布式協(xié)同架構(gòu),攜手業(yè)界合作伙伴構(gòu)建了基于OTN互聯(lián)的智算分布式協(xié)同原型系統(tǒng)并完成理論仿真和實驗研究,相關(guān)成果近期被全球光通信領(lǐng)域頂級學術(shù)會議European Conference on Optical Communications(ECOC)2024錄用,是揭示OTN傳輸和組網(wǎng)技術(shù)承載智算拉遠可行性的首篇學術(shù)成果。

隨著ChatGPT、Sora、Gemini等基礎(chǔ)大模型應(yīng)用涌現(xiàn),以智算為代表的新型基礎(chǔ)設(shè)施已成為新質(zhì)生產(chǎn)力發(fā)展的重要引擎。伴隨智算中心規(guī)模向超萬卡演進,機房空間及供電需求迅猛增加,單節(jié)點集中部署面臨巨大挑戰(zhàn),分布式協(xié)同部署是潛在解決方案。而如何將分布式部署的智算機房進行協(xié)同調(diào)度,充分發(fā)揮算力資源的最大效能,是業(yè)界亟需研究的關(guān)鍵問題。

中國移動面向智算分布式協(xié)同場景,開展基于OTN的智算分布式協(xié)同架構(gòu)技術(shù)創(chuàng)新,并首次完成2-100公里不同距離多場景下OTN承載分布式智算技術(shù)試驗。在試驗中基于400G OTN互聯(lián)的兩個智算集群上運行百億級參數(shù)的大型基礎(chǔ)語言模型,詳細論證研究了互聯(lián)距離、帶寬變化、光纖閃斷、鏈路誤碼等因素對計算效率的影響。首次揭示了訓練效率劣化與拉遠距離基本呈線性關(guān)系,并通過充分發(fā)揮OTN大帶寬、穩(wěn)定低時延、高可靠等傳輸和組網(wǎng)技術(shù)特點,在100km的拉遠距離下實現(xiàn)了訓練效率僅劣化3.75%的高效協(xié)同訓練,為分布式智算技術(shù)演進提供了全新理論依據(jù)和詳實試驗數(shù)據(jù)。

基于OTN互聯(lián)的智算分布式協(xié)同創(chuàng)新是實現(xiàn)跨智算集群協(xié)同訓練的潛在技術(shù)方案,本次高水平論文成果的發(fā)表,是首次以試驗方式定量揭示了基于OTN的智算拉遠技術(shù)性能和變化規(guī)律,后續(xù)需進一步推進產(chǎn)學研在跨智算集群協(xié)同技術(shù)方面的深度協(xié)同,構(gòu)建分布式智算中心新模式。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息