圖注:在不到一個月的時間里,內(nèi)置超過2,000個NVIDIA A100 GPU的NVIDIA全新DGX SuperPOD(上圖為藝術渲染圖)就在市售商用產(chǎn)品中脫穎而出,并在各項針對大規(guī)模計算性能的MLPerf基準測試中均取得了優(yōu)異成績。
(源初/文)根據(jù)昨日發(fā)布的MLPerf基準測試結果顯示,NVIDIA在全球市售商用產(chǎn)品中,具備全球最快的AI訓練性能。
A100 Tensor Core GPU在加速器的全部八項MLPerf基準測試中展現(xiàn)了最快的性能。在實現(xiàn)總體最快的大規(guī)模解決方案方面,利用HDR InfiniBand實現(xiàn)多個DGX A100 系統(tǒng)互聯(lián)的龐大集群--DGX SuperPOD系統(tǒng)在性能上,也開創(chuàng)了八項全新里程碑。當今,能夠借助這些高性能的AI技術來更快速、更具成本效益地實現(xiàn)業(yè)務轉型的客戶,將成為最終的獲益者。
行業(yè)基準測試組織MLPerf成立于2018年5月。此次已是NVIDIA在MLPerf訓練測試中連續(xù)第三次展現(xiàn)了最強勁的性能。2018年12月,NVIDIA首次在MLPerf訓練基準測試中創(chuàng)下了六項紀錄,次年7月NVIDIA再次創(chuàng)下八項紀錄。
NVIDIA在客戶最關心的市售商用產(chǎn)品類別中創(chuàng)下了紀錄。NVIDIA在測試中用到的產(chǎn)品基于最新NVIDIA Ampere架構以及Volta架構。
圖注:NVIDIA DGX SuperPOD系統(tǒng)為大規(guī)模AI訓練樹立全新里程碑。
NVIDIA是唯一一家在所有測試中均采用市售商用產(chǎn)品的公司。其他大多數(shù)提交使用的要么是預覽類別(preview category),其所用的產(chǎn)品預計需要幾個月后才會面市,要么使用的是研究類別的產(chǎn)品,更是較長一段時間內(nèi)都不會面市。
NVIDIA Ampere市場采用速度刷新紀錄
A100是首款基于NVIDIA Ampere架構的處理器。它不僅打破了性能紀錄,其進入市場的速度也比以往任何NVIDIA GPU更快。A100在發(fā)布之初用于NVIDIA的第三代DGX系統(tǒng)。正式發(fā)布僅六周后,A100就正式登陸了Google Cloud 。
為助力滿足市場的強勁需求,AWS、百度云、微軟Azure和騰訊云等全球領先的云提供商,以及Dell Technologies、HPE、浪潮和超微等數(shù)十家主要服務器制造商,均采用了A100。
全球用戶都在使用A100以應對AI、數(shù)據(jù)科學和科學計算中最為復雜的挑戰(zhàn)。
其中有些正在賦能新一代的推薦系統(tǒng)或對話式AI應用,或進一步探索COVID-19的治療方法,這些都在受益第八代NVIDIA GPU所帶來的迄今為止幅度最大的性能提升。
圖注:NVIDIA Ampere架構在市售商用加速器的全部八項測試中名列前茅。
一年半內(nèi)實現(xiàn)4倍性能提升
最新結果表明,NVIDIA聚焦于不斷發(fā)展跨處理器、網(wǎng)絡、軟件和系統(tǒng)的AI平臺。
例如,測試結果顯示,相較于首輪MLPerf訓練測試中使用的基于V100 GPU的系統(tǒng),如今的DGX A100系統(tǒng)能夠以相同的吞吐率,實現(xiàn)高達4倍的性能提升。同時,得益于最新的軟件優(yōu)化,基于NVIDIA V100的DGX-1 系統(tǒng)亦可實現(xiàn)高達2倍的性能提升。
不到兩年,整個AI平臺的創(chuàng)新就取得了如此優(yōu)異的成績。如今,NVIDIA A100 GPU搭配CUDA-X庫的軟件更新,為通過Mellanox HDR 200Gb/s InfiniBand網(wǎng)絡構建的擴展集群注入了強勁動力。
HDR InfiniBand可實現(xiàn)極低的延遲和高數(shù)據(jù)吞吐量,同時通過可擴展分層聚合和縮減協(xié)議(SHARP)技術,提供智能深度學習計算加速引擎。
圖注:NVIDIA持續(xù)通過全新GPU、軟件升級和不斷擴展的系統(tǒng)設計,以提升AI性能。
NVIDIA在推薦系統(tǒng)、對話式AI、強化學習領域大放異彩
MLPerf基準測試得到了亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等機構的支持,并跟隨AI的發(fā)展步伐持續(xù)演進。
最新基準測試包含兩項新的測試和一項經(jīng)大幅修訂的測試。NVIDIA在這三項測試中均取得了優(yōu)異的成績。其中,一項基準測試對推薦系統(tǒng)的性能進行了排名。推薦系統(tǒng)是日益普及的一項AI任務。另一項基準測試對使用BERT的對話式AI進行了測試。BERT是現(xiàn)有最復雜的神經(jīng)網(wǎng)絡模型之一。最后,強化學習測試中使用了Mini-go和全尺寸19x19 圍棋棋盤。該測試是本輪最復雜的測試,內(nèi)容涵蓋從游戲到訓練的多項操作。
圖注:使用面向對話式AI和推薦系統(tǒng)的NVIDIA AI解決方案的客戶。
各大公司在這些戰(zhàn)略性的AI應用領域已經(jīng)受益于NVIDIA帶來的強大性能。
阿里巴巴在11月的“雙十一”期間創(chuàng)造了380億美元的銷售紀錄,其推薦系統(tǒng)使用了NVIDIA GPU,使每秒查詢量達到了CPU的100倍以上。而對話式AI自身也成為了業(yè)界關注的焦點,推動從金融到醫(yī)療健康等行業(yè)的業(yè)務發(fā)展。
NVIDIA不僅能為這些龐大工作的運轉提供所需的性能,還使其易于使用。
軟件為AI的戰(zhàn)略發(fā)展鋪平道路
今年五月,NVIDIA發(fā)布了兩個應用框架——用于對話式AI的Jarvis和用于推薦系統(tǒng)的Merlin。 Merlin中包含了助力最新MLPerf基準測試結果的HugeCTR訓練框架。
這些應用框架僅僅是一部分。在不斷壯大的應用框架中,還有面向汽車行業(yè)市場的NVIDIA DRIVE,面向醫(yī)療健康市場的Clara,面向機器人技術市場的Isaac,以及面向零售/智能城市市場的Metropolis。
圖注:NVIDIA應用框架簡化了企業(yè)級AI的開發(fā)和部署。
DGX SuperPOD架構兼顧速度與規(guī)模
NVIDIA在Selene上運行了系統(tǒng)的MLPerf測試,Selene是基于DGX SuperPOD的內(nèi)部集群。DGX SuperPOD是針對大規(guī)模GPU集群的公共參考架構,可在數(shù)周內(nèi)完成部署。該架構基于DGX POD的設計原理和最佳實踐進行了擴展,致力于解決當今AI領域最具挑戰(zhàn)性的難題。
Selene最近在TOP500榜單中首次亮相,憑借百億億次(exaflops)級別的AI性能,成為美國最快的工業(yè)系統(tǒng)。它也是Green500榜單中全球第二大節(jié)能系統(tǒng)。
客戶已經(jīng)采用這些參考架構來構建自身的DGX POD和DGX SuperPOD。其中包括美國最快的學術領域AI超級計算機HiPerGator,該超級計算機也將成為佛羅里達大學跨學科AI創(chuàng)新的基石。
同時,全球領先的超算中心Argonne國家實驗室正在使用DGX A100,尋找抗擊COVID-19疫情的方法。Argonne國家實驗室是六個首批采用A100 GPU的高性能計算中心中的先行者之一。
圖注:NVIDIA DGX POD的廣泛采用。
DGX SuperPOD現(xiàn)已助力汽車領域的大陸集團、航空航天領域的Lockheed Martin和云計算服務領域的微軟等公司取得了良好的業(yè)務成果。
這些系統(tǒng)的順利運轉,部分得益于其廣泛的生態(tài)系統(tǒng)對于NVIDIA GPU和DGX支持。
NVIDIA生態(tài)系統(tǒng)在MLPerf基準測試中展示傲人成績
在提交結果的九家公司中,除NVIDIA外還有六家公司提交了基于NVIDIA GPU的測試結果,其中包括三家云服務提供商(阿里云、谷歌云和騰訊云)和三家服務器制造商(戴爾、富士通和浪潮),凸顯了NVIDIA生態(tài)系統(tǒng)的優(yōu)勢。
圖注:采用NVIDIA AI平臺參與基準測試的合作伙伴。
這些合作伙伴大多采用了NVIDIA軟件中心NGC中的容器,以及用于參賽的公開框架。
包括這些MLPerf合作伙伴在內(nèi)的近二十家云服務提供商和OEM組成的生態(tài)系統(tǒng),已采用或計劃采用NVIDIA A100 GPU來打造在線實例、服務器和PCIe卡。
經(jīng)測試驗證的軟件現(xiàn)可從NGC獲取
現(xiàn)在,大多數(shù)NVIDIA及其合作伙伴在最新MLPerf基準測試中使用的軟件,已可通過NGC獲取。
NGC中包括多個GPU優(yōu)化的容器、軟件腳本、預訓練模型和SDK,可助力數(shù)據(jù)科學家和開發(fā)者在TensorFlow和PyTorch等常用框架上加速AI工作流程。
各機構都在大力采用容器,以加速實現(xiàn)業(yè)務成果。畢竟,業(yè)務成果才是最終的“基準”。