新型AI超級計算機(jī)將256個Grace Hopper超級芯片連接為巨大的、1-Exaflop、144TB GPU,用于支持生成式AI、推薦系統(tǒng)和數(shù)據(jù)處理的巨型模型
COMPUTEX——2023年5月29日——NVIDIA今天宣布推出一款新型大內(nèi)存AI超級計算機(jī)——由NVIDIA GH200 Grace Hopper超級芯片和NVIDIA NVLink Switch System 驅(qū)動的NVIDIA DGX 超級計算機(jī),旨在助力開發(fā)面向生成式AI語言應(yīng)用、推薦系統(tǒng)和數(shù)據(jù)分析工作負(fù)載的巨型、下一代模型。
NVIDIA DGX GH200的超大共享內(nèi)存空間通過NVLink互連技術(shù)以及NVLink Switch System使256個GH200超級芯片相連,使它們能夠作為單個GPU運行。其提供1 exaflop的性能和144 TB的共享內(nèi)存——相較2020年推出的上一代NVIDIA DGX A100內(nèi)存大了近500倍。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:“生成式AI、大型語言模型和推薦系統(tǒng)是現(xiàn)代經(jīng)濟(jì)的數(shù)字引擎。DGX GH200 AI超級計算機(jī)集成了NVIDIA最先進(jìn)的加速計算和網(wǎng)絡(luò)技術(shù)來拓展AI的前沿?!?
NVIDIA NVLink技術(shù)大規(guī)模擴(kuò)展AI
GH200超級芯片使用NVIDIA NVLink-C2C芯片互連,將基于Arm的NVIDIA Grace CPU與NVIDIA H100 Tensor Core GPU整合在一起,從而不再需要傳統(tǒng)的CPU至GPU PCIe連接。與最新的PCIe技術(shù)相比,這將GPU和CPU之間的帶寬提高了7倍,將互連功耗減少了5倍以上,并為DGX GH200超級計算機(jī)提供了一個600GB的Hopper架構(gòu)GPU構(gòu)建模塊。
DGX GH200是第一款將Grace Hopper超級芯片與NVIDIA NVLink Switch System配對使用的超級計算機(jī),這種新的互連方式使DGX GH200系統(tǒng)中的所有GPU作為一個整體協(xié)同運行。上一代系統(tǒng)在不影響性能的前提下只能通過NVLink把8個GPU整合成一個GPU。
DGX GH200架構(gòu)相比上一代將NVLink帶寬提升了48倍以上,實現(xiàn)在單個GPU上通過簡單編程即可提供大型AI超級計算機(jī)的能力。
面向AI先鋒的新研究工具
谷歌云、Meta和微軟是首批有望接入DGX GH200來探索其用于生成式AI工作負(fù)載的能力的公司。NVIDIA還打算將DGX GH200設(shè)計作為藍(lán)圖提供給云服務(wù)提供商和其他超大規(guī)模企業(yè),以便他們能夠進(jìn)一步根據(jù)他們自己的基礎(chǔ)設(shè)施進(jìn)行定制。
谷歌云計算副總裁Mark Lohmeyer表示:“構(gòu)建先進(jìn)的生成式模型需要創(chuàng)新的AI基礎(chǔ)設(shè)施。Grace Hopper超級芯片的全新NVLink和共享內(nèi)存解決了大規(guī)模AI的關(guān)鍵瓶頸,我們期待它在谷歌云以及我們的生成式AI計劃中發(fā)揮強(qiáng)大的能力?!?
Meta基礎(chǔ)設(shè)施、AI系統(tǒng)及加速平臺副總裁Alexis Bj rlin表示:“隨著AI模型規(guī)模越來越大,它們需要可擴(kuò)展的強(qiáng)大基礎(chǔ)設(shè)施,以滿足不斷增長的需求。NVIDIA的Grace Hopper設(shè)計看起來能夠讓研究人員探索新的方法來解決他們面臨的最巨大挑戰(zhàn)?!?
微軟Azure基礎(chǔ)設(shè)施企業(yè)副總裁Girish Bablani表示, “在以往訓(xùn)練大型AI模型是一項資源和時間密集型任務(wù)。DGX GH200 所具備的處理TB級數(shù)據(jù)集的潛力使得開發(fā)人員能夠在更大的規(guī)模和更快的速度下進(jìn)行高級別的研究?!?
全新NVIDIA Helios超級計算機(jī)將推進(jìn)研發(fā)
NVIDIA正在打造自己的基于DGX GH200的AI超級計算機(jī),以支持研發(fā)團(tuán)隊的工作。
這臺名為NVIDIA Helios的超級計算機(jī)將配備四個DGX GH200系統(tǒng)。每個都將通過NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)互連,以提高訓(xùn)練大型AI模型的數(shù)據(jù)吞吐量。Helios將包含1024個Grace Hopper超級芯片,預(yù)計將于今年年底上線。
完全集成,專為巨型模型而構(gòu)建
DGX GH200超級計算機(jī)包含NVIDIA軟件,可為最大的AI和數(shù)據(jù)分析工作負(fù)載提供一個交鑰匙式全棧解決方案。NVIDIA Base Command 軟件提供AI工作流程管理、企業(yè)級集群管理和多個加速計算、存儲和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的庫,以及為運行AI工作負(fù)載而優(yōu)化的系統(tǒng)軟件。
此外還包含NVIDIA AI Enterprise,即NVIDIA AI平臺的軟件層。它提供100多個框架、預(yù)訓(xùn)練模型和開發(fā)工具,以簡化生成式AI、計算機(jī)視覺、語音AI等生產(chǎn)AI的開發(fā)和部署。
供貨情況
NVIDIA DGX GH200超級計算機(jī)預(yù)計將于今年年底上市。
觀看黃仁勛在COMPUTEX 2023的主題演講中介紹NVIDIA DGX GH200超級計算機(jī)。