近日,中國移動研究院聯合中國移動黑龍江公司在中國移動(哈爾濱)數據中心完成了首個面向 PP 訓練的 OTN 承載百公里級智算分布式協同現網技術試驗。該試驗的成功,為業(yè)界提供了一種全新的技術路線和詳實的試驗數據,有助于推動智算分布式協同技術的發(fā)展。
隨著智算集群規(guī)模的不斷擴大,單智算節(jié)點的持續(xù)擴容面臨著電力供應、機房空間等方面的巨大挑戰(zhàn)。此外,由于智算中心的建設存在分地域、分時期、分階段等情況,導致算力資源分散,形成了“算力孤島”。為了解決這些問題,智算分布式協同技術應運而生。
智算分布式協同技術可以將分布式部署的智算節(jié)點進行高效的互聯,充分發(fā)揮算力資源的最大效能。然而,如何將這些分布式的智算節(jié)點高效地連接起來,是業(yè)界亟需研究的關鍵問題。OTN 作為一種大帶寬、低時延、高可靠的傳輸技術,具有構建跨集群分布式訓練的潛在優(yōu)勢。
在本次技術試驗中,中國移動研究院基于 800G OTN 互聯的兩個智算集群上運行了 700 億級參數的大型基礎語言模型。在 64 張 GPU 卡、4 個 PP 域分別在相距 104km 的兩個節(jié)點部署場景下,實現了等同單節(jié)點訓練效率 98%以上的高效協同訓練。這一成果首次驗證了 OTN 承載基于 PP 的百公里跨集群訓練的可行性,為分布式智算技術的演進提供了新的技術路線和試驗數據。
此外,中國移動研究院還創(chuàng)新提出了面向智算分布式協同的 OTN 無損倒換技術方案,通過芯片級算法實現了傳輸鏈路斷纖、誤碼時訓練效率的無損和無感知。這一技術方案的提出,進一步提高了智算分布式協同技術的可靠性和穩(wěn)定性。
自 2023 年起,中國移動研究院聯合國內合作伙伴,開展跨集群分布式訓練互聯技術攻關,創(chuàng)新提出基于 OTN 的智算分布式協同架構,并首次完成了 2-100 公里不同距離多場景下 OTN 承載分布式智算技術試驗。這些成果在光通信頂會 ECOC 上發(fā)表,引起了業(yè)界的廣泛關注。
未來,中國移動將圍繞智算分布式協同深入推進關鍵技術攻關、原型研發(fā)與試驗驗證,探索分布式智算中心新模式。相信在中國移動的努力下,智算分布式協同技術將不斷發(fā)展完善,為推動人工智能產業(yè)的發(fā)展做出更大的貢獻。