“創(chuàng)新驅(qū)動(dòng)智啟新程”,2024 中國(guó)人工智能大會(huì)(CCAI)開幕式在北京隆重召開,超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體揭牌儀式也在會(huì)上舉行。該聯(lián)合體由北京市科委、中關(guān)村管委會(huì)、中國(guó)移動(dòng)、浪潮集團(tuán)、阿里云、清華大學(xué)、中國(guó)科學(xué)院等單位共同組建。
隨著人工智能大模型的快速發(fā)展,其參數(shù)規(guī)模已向超萬(wàn)億級(jí)別演進(jìn),對(duì)高性能智算基礎(chǔ)設(shè)施的需求更為迫切。傳統(tǒng)單臺(tái)智算服務(wù)器的算力模式正逐漸被“超節(jié)點(diǎn)算力集群”所取代!俺(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體”的 GPU 卡間互聯(lián)基于中國(guó)移動(dòng)原創(chuàng)的 OISA(全向智感互聯(lián))協(xié)議構(gòu)建,旨在打造一個(gè)高效、智能、靈活且開放的 GPU 卡間互聯(lián)體系,以滿足大模型訓(xùn)練、推理、高性能計(jì)算等數(shù)據(jù)密集型 AI 應(yīng)用的需求。
為實(shí)現(xiàn)這一目標(biāo),OISA 采用了全向連接設(shè)計(jì),確保大規(guī)模 GPU 之間的對(duì)等通信;引入智能感知設(shè)計(jì),通過(guò)定義流量感知標(biāo)簽,并結(jié)合流控和重傳機(jī)制,優(yōu)化數(shù)據(jù)傳輸效率。在協(xié)議層面,OISA 采用了精悍的報(bào)文格式,支持內(nèi)存和消息的多語(yǔ)義融合、多層次流控重傳以及預(yù)設(shè)集合通信加速等關(guān)鍵技術(shù),實(shí)現(xiàn)了高帶寬、低時(shí)延和高可靠的 GPU 通信能力。
在當(dāng)前 Gen1.1 版本下,OISA 支持超節(jié)點(diǎn)內(nèi)任意 GPU 卡間的點(diǎn)對(duì)點(diǎn)讀寫互聯(lián)帶寬達(dá)到 896GB/s,每個(gè) OISA-Switch 芯片支持 128 個(gè)端口、交換容量 51.2T。中國(guó)移動(dòng)未來(lái)將全面支持超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體發(fā)展,計(jì)劃聯(lián)合產(chǎn)業(yè)界優(yōu)先完成在單層 Switch 條件下基于 OISA 互聯(lián)技術(shù)的 32/64 卡超節(jié)點(diǎn)產(chǎn)品落地,并加速 128 卡超節(jié)點(diǎn)產(chǎn)品的輸出。
此次超節(jié)點(diǎn)算力集群創(chuàng)新聯(lián)合體的成立,將有助于推動(dòng)我國(guó)人工智能產(chǎn)業(yè)的發(fā)展,提升我國(guó)在全球人工智能領(lǐng)域的競(jìng)爭(zhēng)力。相信在各方的共同努力下,我國(guó)人工智能產(chǎn)業(yè)將迎來(lái)更加美好的未來(lái)。