2024年,數(shù)據(jù)中心市場(chǎng),英偉達(dá)顯卡依然一卡難求,已發(fā)布的A100、H100,L40S,還有即將發(fā)布的H200都是市場(chǎng)上的香餑餑。
2020年,英偉達(dá)發(fā)布了基于Ampere架構(gòu)的A100。2022年,英偉達(dá)發(fā)布了基于Hopper架構(gòu)的H100,2023年,英偉達(dá)又發(fā)布了L40S。
2024年,英偉達(dá)即將發(fā)布H200,雖然還沒正式發(fā)布,但部分規(guī)格已經(jīng)公開。于是,就有了這樣一張表格。
項(xiàng)目 |
A100 |
H100 |
L40S |
H200 |
架構(gòu) |
Ampere |
Hopper |
Ada Lovelace |
Hopper |
發(fā)布時(shí)間 |
2020 |
2022 |
2023 |
2024 |
FP64 |
9.7 TFLOPS |
34 TFLOPS |
暫無 |
34 TFLOPS |
FP64 向量核心 |
19.5 TFLOPS |
67 TFLOPS |
暫無 |
67 TFLOPS |
FP32 |
19.5 TFLOPS |
67 TFLOPS |
91.6 TFLOPS |
67 TFLOPS |
TF32 向量核心 |
312 TFLOPS |
989 TFLOPS |
183 | 366* TFLOPS |
989 TFLOPS* |
BFLOAT16 向量核心 |
624 TFLOPS |
1,979 TFLOPS |
362.05 | 733* TFLOPS |
1,979 TFLOPS* |
FP16 向量核心 |
624 TFLOPS |
1,979 TFLOPS |
362.05 | 733* TFLOPS |
1,979 TFLOPS* |
FP8 向量核心 |
不適用 |
3,958 TFLOPS |
733 | 1,466* TFLOPS |
3,958 TFLOPS* |
INT8 向量核心 |
1248 TOPS |
3,958 TOPS |
733 | 1,466* TFLOPS |
3,958 TFLOPS* |
INT4 向量核心 |
暫無 |
暫無 |
733 | 1,466* TFLOPS |
Data not available |
GPU 內(nèi)存 |
80 GB HBM2e |
80 GB |
48GB GDDR6 ,帶有ECC |
141GB HBM3e |
GPU 內(nèi)存帶寬 |
2,039 Gbps |
3.35 Tbps |
864 Gbps |
4.8 Tbps |
解碼器 |
Not applicable |
7 NVDEC 7 JPEG |
Not applicable |
7 NVDEC 7 JPEG |
TDP |
400W |
700W |
350W |
700W |
多實(shí)例GPU |
7 MIGs @ 10 GB |
7 MIGs @ 10 GB each |
無 |
7 MIGs @16.5 GB each |
外形尺寸 |
SXM |
SXM |
4.4“ (H) x 10.5” (L), dual slot |
SXM** |
互聯(lián)技術(shù) |
NVLink: 600 GB/s PCIe Gen4: 64 GB/s |
NVLink: 900GB/s PCIe Gen5: 128GB/s |
PCIe Gen4 x16: 64GB/s bidirectional |
NVIDIA NVLink®: 900GB/s PCIe Gen5: 128GB/s |
服務(wù)器平臺(tái)選項(xiàng) |
NVIDIA HGX? A100-Partner and NVIDIA-Certified Systems with 4,8, or 16 GPUs NVIDIA DGX? A100 with 8 GPUs |
NVIDIA HGX H100 Partner and NVIDIA-Certified Systems? with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs |
暫無 |
NVIDIA HGX? H200 partner and NVIDIA-Certified Systems? with 4 or 8 GPUs |
NVIDIA AI Enterprise |
Included |
Add-on |
暫無 |
Add-on |
CUDA 核心數(shù) |
6,912 |
16,896 |
18,176 |
暫無 |
A100支持多實(shí)例GPU功能,允許單個(gè)A100 GPU分割成多個(gè)獨(dú)立的小GPU,這大大提升了云和數(shù)據(jù)中心的資源分配效率。
盡管H100和A100在使用場(chǎng)景和性能特點(diǎn)上有相似之處,但H100在處理大型AI模型和更復(fù)雜的科學(xué)模擬方面表現(xiàn)更佳。H100是高級(jí)對(duì)話式AI和實(shí)時(shí)翻譯等實(shí)時(shí)響應(yīng)型AI應(yīng)用的更優(yōu)選擇。
在高性能計(jì)算方面,與CPU相比,H200能實(shí)現(xiàn)高達(dá)110倍的加速,從而更快地得到結(jié)果。
在處理Llama2 70B推理任務(wù)時(shí),H200的推理速度是H100 GPU的兩倍。
H200將在邊緣計(jì)算和物聯(lián)網(wǎng)(IoT)應(yīng)用中的人工智能物聯(lián)網(wǎng)(AIoT)方面發(fā)揮關(guān)鍵作用。
在包括最大型模型(超過1750億參數(shù))的LLP訓(xùn)練和推理、生成式AI和高性能計(jì)算應(yīng)用中,可以期待H200提供的GPU性能。
總之,H200將在AI和高性能計(jì)算領(lǐng)域提供的性能,特別是在處理大型模型和復(fù)雜任務(wù)時(shí)。它的高內(nèi)存容量和帶寬,以及優(yōu)異的推理速度,使其成為處理AI任務(wù)的理想選擇。