11月30日,由中國(guó)通信學(xué)會(huì)主辦、中國(guó)移動(dòng)研究院承辦的2024中國(guó)信息通信大會(huì)“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”在成都順利召開(kāi),引發(fā)業(yè)界的高度關(guān)注。會(huì)議吸引了眾多業(yè)界精英,包括中國(guó)移動(dòng)研究院副院長(zhǎng)段曉東、天數(shù)智芯、壁仞科技、中興、海光、瀚博等科技大咖和產(chǎn)業(yè)合作伙伴,共商智能算力和人工智能(AI)發(fā)展的大計(jì)。在本次的論壇上,China Mobile Research Institute攜手合作伙伴共同發(fā)布了“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0,旨在進(jìn)一步推動(dòng)我國(guó)智能算力和人工智能的發(fā)展。
在信息化快速發(fā)展的今天,人工智能已經(jīng)成為推動(dòng)社會(huì)數(shù)字化轉(zhuǎn)型的關(guān)鍵驅(qū)動(dòng)力。而智能算力,作為人工智能發(fā)展的基石,continuously推動(dòng)著我們從單點(diǎn)突破向泛在智能轉(zhuǎn)型。然而,當(dāng)前我國(guó)的智能計(jì)算行業(yè)面臨一系列的挑戰(zhàn):智算芯片在計(jì)算架構(gòu)、軟件棧、互聯(lián)方式等方面存在差異,形成了智算芯片間的“資源墻”。這意味著,不僅難以形成“合力”,而且限制了多樣性智能算力的靈活應(yīng)用和整體效能的釋放。
針對(duì)上述問(wèn)題,中國(guó)移動(dòng)充分發(fā)揮移動(dòng)信息現(xiàn)代產(chǎn)業(yè)鏈的“鏈長(zhǎng)”職責(zé),傾力打造業(yè)內(nèi)首個(gè)“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng),支持大模型在多廠商、多代際、多架構(gòu)的異構(gòu)混合集群上的規(guī)模訓(xùn)練。該系統(tǒng)具有基于非均勻計(jì)算任務(wù)切分的ITD(Inhomogeneous Task Distribution)算法的3D并行策略,以及基于GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信技術(shù)兩大核心能力。
基于ITD算法的3D并行技術(shù),通過(guò)通用混合訓(xùn)練框架,可以實(shí)現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行,并實(shí)現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整。而基于GDR的異構(gòu)芯片高速通信技術(shù),則可以在不改變芯片原有通信接口的基礎(chǔ)上,通過(guò)定義數(shù)據(jù)傳輸架構(gòu)、流程和接口標(biāo)準(zhǔn),屏蔽底層硬件差異,實(shí)現(xiàn)頂級(jí)訓(xùn)練任務(wù)在異構(gòu)算力集群上的分布式通信的無(wú)感拆分。
目前,這一“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)已經(jīng)實(shí)現(xiàn)了對(duì)百億參數(shù)大模型在英偉達(dá)、天數(shù)智芯、壁仞科技、海光等四家智能計(jì)算芯片上的交叉混合訓(xùn)練,規(guī)?芍С秩f(wàn)卡集群,訓(xùn)練加速比達(dá)到了95%以上,處在業(yè)界領(lǐng)先水平。這一成果對(duì)于提升智能算力資源利用率、促進(jìn)國(guó)產(chǎn)算力發(fā)展,以及推廣人工智能技術(shù)都具有重要的意義。
面向未來(lái),中國(guó)移動(dòng)將積極拓寬合作,與眾多產(chǎn)業(yè)合作伙伴共同推進(jìn)“芯合”異構(gòu)混訓(xùn)系統(tǒng)的能力升級(jí),共同打造開(kāi)放的智算算力生態(tài)體系。同時(shí),該系統(tǒng)也將有助于孵化萬(wàn)億級(jí)參數(shù)大模型訓(xùn)練,推動(dòng)全行業(yè)“AI+”轉(zhuǎn)型升級(jí),并有助于我國(guó)算力強(qiáng)國(guó)戰(zhàn)略的落地實(shí)施。