發(fā)布日期:2023-11-18 瀏覽量:3958
11月14日消息,英偉達(dá)(Nvidia)于當(dāng)?shù)貢r(shí)間13日上午在 “Supercomputing 23”會(huì)議上正式發(fā)布了全新的H200 GPU,以及更新后的GH200 產(chǎn)品線。
其中,H200依然是建立在現(xiàn)有的 Hopper H100 架構(gòu)之上,但增加了更多高帶寬內(nèi)存(HBM3e),從而更好地處理開(kāi)發(fā)和實(shí)施人工智能所需的大型數(shù)據(jù)集,使得運(yùn)行大模型的綜合性能相比前代H100提升了60%到90%。而更新后的GH200,也將為下一代 AI 超級(jí)計(jì)算機(jī)提供動(dòng)力。2024 年將會(huì)有超過(guò) 200 exaflops 的 AI 計(jì)算能力上線。
H200:HBM容量提升76%,大模型性能提升90%
具體來(lái)說(shuō),全新的H200提供了總共高達(dá)141GB 的 HBM3e 內(nèi)存,有效運(yùn)行速度約為 6.25 Gbps,六個(gè) HBM3e 堆棧中每個(gè) GPU 的總帶寬為 4.8 TB/s。與上一代的H100(具有 80GB HBM3 和 3.35 TB/s 帶寬)相比,這是一個(gè)巨大的改進(jìn),HBM容量提升了超過(guò)76%。官方提供的數(shù)據(jù)顯示,在運(yùn)行大模型時(shí),H200相比H100將帶來(lái)60%(GPT3 175B)到90%(Llama 2 70B)的提升。
雖然H100 的某些配置確實(shí)提供了更多內(nèi)存,例如 H100 NVL 將兩塊板配對(duì),并提供總計(jì) 188GB 內(nèi)存(每個(gè) GPU 94GB),但即便是與 H100 SXM 變體相比,新的 H200 SXM 也提供了 76% 以上的內(nèi)存容量和 43 % 更多帶寬。
需要指出的是,H200原始計(jì)算性能似乎沒(méi)有太大變化。英偉達(dá)展示的唯一體現(xiàn)計(jì)算性能的幻燈片是基于使用了 8 個(gè) GPU的HGX 200 配置,總性能為“32 PFLOPS FP8”。而最初的H100提供了3,958 teraflops 的 FP8算力,因此八個(gè)這樣的 GPU 也提供了大約32 PFLOPS 的 FP8算力。
那么更多的高帶寬內(nèi)存究竟帶來(lái)了哪些提升呢?這將取決于工作量。對(duì)于像 GPT-3 這樣的大模型(LLM)來(lái)說(shuō),將會(huì)大大受益于HBM內(nèi)存容量增加。英偉達(dá)表示,H200在運(yùn)行GPT-3時(shí)的性能,將比原始 A100 高出 18 倍,同時(shí)也比H100快11倍左右。還有即將推出的 Blackwell B100 的預(yù)告片,不過(guò)目前它只包含一個(gè)逐漸變黑的更高條,大約達(dá)到了H200的兩倍最右。
不僅如此,H200和H100是互相兼容的。也就是說(shuō),使用H100訓(xùn)練/推理模型的AI企業(yè),可以無(wú)縫更換成最新的H200芯片。云端服務(wù)商將H200新增到產(chǎn)品組合時(shí)也不需要進(jìn)行任何修改。
英偉達(dá)表示,通過(guò)推出新產(chǎn)品,他們希望跟上用于創(chuàng)建人工智能模型和服務(wù)的數(shù)據(jù)集規(guī)模的增長(zhǎng)。增強(qiáng)的內(nèi)存能力將使H200在向軟件提供數(shù)據(jù)的過(guò)程中更快速,這個(gè)過(guò)程有助于訓(xùn)練人工智能執(zhí)行識(shí)別圖像和語(yǔ)音等任務(wù)。
“整合更快、更大容量的HBM內(nèi)存有助于對(duì)運(yùn)算要求較高的任務(wù)提升性能,包括生成式AI模型和高效能運(yùn)算應(yīng)用程序,同時(shí)優(yōu)化GPU使用率和效率”,NVIDIA高性能計(jì)算產(chǎn)品副總裁Ian Buck表示。
英偉達(dá)數(shù)據(jù)中心產(chǎn)品負(fù)責(zé)人迪翁·哈里斯(Dion Harris)表示:“當(dāng)你看看市場(chǎng)上正在發(fā)生的事情,你會(huì)發(fā)現(xiàn)模型的規(guī)模正在迅速擴(kuò)大。這是我們繼續(xù)迅速引進(jìn)最新和最優(yōu)秀技術(shù)的又一個(gè)例子。”
預(yù)計(jì)大型計(jì)算機(jī)制造商和云服務(wù)提供商將于2024年第二季度開(kāi)始使用H200。英偉達(dá)服務(wù)器制造伙伴(包括永擎、華碩、戴爾、Eviden、技嘉、HPE、鴻佰、聯(lián)想、云達(dá)、美超威、緯創(chuàng)資通以及緯穎科技)可以使用H200更新現(xiàn)有系統(tǒng),而亞馬遜、Google、微軟、甲骨文等將成為首批采用H200的云端服務(wù)商。
鑒于目前市場(chǎng)對(duì)于英偉達(dá)AI芯片的旺盛需求,以及全新的H200增加了更多的昂貴的HBM3e內(nèi)存,因此H200的價(jià)格肯定會(huì)更昂貴。英偉達(dá)沒(méi)有列出它的價(jià)格,但上一代H100價(jià)格就已經(jīng)高達(dá)25,000美元至40,000美元。
英偉達(dá)發(fā)言人Kristin Uchiyama指出,最終定價(jià)將由英偉達(dá)制造伙伴制定。
至于H200推出后,會(huì)不會(huì)影響H100生產(chǎn),Kristin Uchiyama則表示:“你會(huì)看到我們?nèi)甑恼w供應(yīng)量有所增加”。
一直以來(lái),英偉達(dá)的高端AI芯片被視為高效處理大量數(shù)據(jù)和訓(xùn)練大型語(yǔ)言模型、AI生成工具最佳選擇,在發(fā)表H200之際,AI公司仍在市場(chǎng)上拼命尋求A100/H100芯片。市場(chǎng)關(guān)注的焦點(diǎn)仍在于,英偉達(dá)能否向客戶提供足夠多的供應(yīng),以滿足市場(chǎng)需求。因此,H200是否還是會(huì)像H100一樣供不應(yīng)求?對(duì)此NVIDIA并沒(méi)有給出答案。
不過(guò),明年對(duì)GPU買家來(lái)說(shuō)可能將是一個(gè)更有利時(shí)期,據(jù)《金融時(shí)報(bào)》8月報(bào)導(dǎo)曾指出,NVIDIA計(jì)劃在2024年將H100產(chǎn)量提升三倍,產(chǎn)量目標(biāo)將從2023年約50萬(wàn)個(gè)增加至2024年200萬(wàn)個(gè)。但生成式AI仍在蓬勃發(fā)展,未來(lái)需求也可能會(huì)更大。
比如最新推出的GPT-4大約是在10000-25000塊A100上訓(xùn)練的;Meta的AI大模型需要大約21000塊A100;Stability AI用了大概5000塊A100;Falcon-40B的訓(xùn)練,用了384塊A100。
根據(jù)馬斯克的說(shuō)法,GPT-5可能需要30000-50000塊H100。摩根士丹利的說(shuō)法是25000個(gè)GPU。
Sam Altman否認(rèn)了在訓(xùn)練GPT-5,但卻提過(guò)“OpenAI的GPU嚴(yán)重短缺,使用我們產(chǎn)品的人越少越好”。
當(dāng)然,除了英偉達(dá)之外,AMD和英特爾也在積極的進(jìn)入AI市場(chǎng)與英偉達(dá)展開(kāi)競(jìng)爭(zhēng)。此前AMD推出的MI300X就配備192GB的HBM3和5.2TB/s的顯存帶寬,這將使其在容量和帶寬上遠(yuǎn)超H200。
同樣,英特爾也計(jì)劃提升Gaudi AI芯片的HBM容量,最新公布的信息顯示,Gaudi 3基于5nm工藝,在BF16工作負(fù)載方面的性能將是Gaudi 2的四倍,網(wǎng)絡(luò)性能也將是其的兩倍(Gaudi 2有24個(gè)內(nèi)置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍(Gaudi 2有96 GB的HBM2E)。正如我們?cè)谙聢D中所看到的,Gaudi 3轉(zhuǎn)向了具有兩個(gè)計(jì)算集群的基于chiplet的設(shè)計(jì),而不是英特爾為Gaudi 2使用的單芯片解決方案。
全新GH200超級(jí)芯片:為下一代 AI 超級(jí)計(jì)算機(jī)提供動(dòng)力
除了全新的H200 GPU之外,英偉達(dá)還帶來(lái)了更新后的GH200超級(jí)芯片,它使用NVIDIA NVLink-C2C芯片互連,結(jié)合了最新的H200 GPU 和 Grace CPU(不清楚是否為更新一代的),每個(gè) GH200超級(jí)芯片還將包含總計(jì) 624GB 的內(nèi)存。
作為對(duì)比,上一代的GH200則是基于H100 GPU和 72 核的Grace CPU,提供了96GB 的 HBM3 和 512 GB 的 LPDDR5X 集成在同一個(gè)封裝中。
雖然英偉達(dá)并未介紹GH200超級(jí)芯片當(dāng)中的Grace CPU細(xì)節(jié),但是英偉達(dá)提供了GH200 和“現(xiàn)代雙路 x86 CPU”之間的一些比較。可以看到,GH200帶來(lái)了ICON性能8倍的提升,MILC、Quantum Fourier Transform、RAG LLM Inference等更是帶來(lái)數(shù)十倍乃至百倍的提升。
但需要指出的是,其中提到了加速與“非加速系統(tǒng)”。這意味著什么?我們只能假設(shè) x86 服務(wù)器運(yùn)行的是未完全優(yōu)化的代碼,特別是考慮到人工智能世界正在快速發(fā)展,并且優(yōu)化方面似乎定期出現(xiàn)新的進(jìn)展。
全新的GH200 還將用于新的 HGX H200 系統(tǒng)。據(jù)說(shuō)這些與現(xiàn)有的 HGX H100 系統(tǒng)“無(wú)縫兼容”,這意味著 HGX H200 可以在相同的安裝中使用,以提高性能和內(nèi)存容量,而無(wú)需重新設(shè)計(jì)基礎(chǔ)設(shè)施。
據(jù)介紹,瑞士國(guó)家超級(jí)計(jì)算中心的阿爾卑斯超級(jí)計(jì)算機(jī)(Alps supercomputer)可能是明年第一批投入使用的基于GH100的Grace Hopper 超級(jí)計(jì)算機(jī)之一。第一個(gè)在美國(guó)投入使用的 GH200 系統(tǒng)將是洛斯阿拉莫斯國(guó)家實(shí)驗(yàn)室的 Venado 超級(jí)計(jì)算機(jī)。德克薩斯高級(jí)計(jì)算中心 (TACC) Vista 系統(tǒng)同樣將使用剛剛宣布的 Grace CPU 和 Grace Hopper 超級(jí)芯片,但尚不清楚它們是基于 H100 還是 H200。
目前,即將安裝的最大的超級(jí)計(jì)算機(jī)是J?lich超級(jí)計(jì)算中心的Jupiter 超級(jí)計(jì)算機(jī)。它將容納“近”24000 個(gè) GH200 超級(jí)芯片,總共 93 exaflops 的 AI 計(jì)算(大概是使用 FP8,雖然大多數(shù) AI 仍然使用 BF16 或 FP16)。它還將提供 1 exaflop 的傳統(tǒng) FP64 計(jì)算。它將使用具有四個(gè) GH200 超級(jí)芯片的“Quad GH200”板。
總的來(lái)說(shuō),英偉達(dá)預(yù)計(jì)這些新的超級(jí)計(jì)算機(jī)的安裝將在未來(lái)一年左右實(shí)現(xiàn)超過(guò) 200 exaflops 的 AI 計(jì)算性能。
Copyright @ 2020-2025 深圳市昔諾達(dá)科技有限公司 粵ICP備2020124732號(hào) 技術(shù)支持:馳碩網(wǎng)絡(luò)