188 GB HBM3 Nvidia H100 NVL ist maßgeschneidert für Chat-GPT

Nvidia hat im vergangenen Jahr Hopper-Beschleuniger in zwei Grundformen auf den Markt gebracht. Sowohl als SXM5-Module als auch als PCIe-Karten. Wie gewohnt erreicht die SXM5-Variante eine höhere Leistung und TDP, da auf dem Modul deutlich mehr Platz für einen großen Heatsink-Radiator ist. Die neue Variante mit der Bezeichnung NVL hat jedoch wieder die Form einer PCIe-Karte oder -Karten. Die Nvidia H100 NVL besteht eigentlich aus zwei PCIe-Karten, die durch eine NVLINK-Brücke verbunden sind. Dies ist jedoch nicht das ursprüngliche H100 PCIe. Nvidia hat wohl wegen der höheren Rechendichte einer solchen Lösung zu dieser Lösung gegriffen. Kurz gesagt, der Kühler nimmt weniger Platz ein ~ Platz für mehr GPUs. Wie aus den Parametern hervorgeht, sollte die Energieeffizienz 2x höher sein (2x mehr Leistung bei gleicher TDP dank eines Kartenpaares mit halber TDP des SXM5-Designs). Es ist jedoch zu erwarten, dass die Realität etwas niedriger ausfallen wird, da sich echte und Papieruhren wohl deutlich unterscheiden werden.

NVIDIA A100NVIDIA
H100
GrafikkarteGA100GH1002× GH100 NVL“
die ArchitekturAmpereTrichter
FormatSXM4SXM5PCIe2× PCIe
CU/MS1081321142× 132?
FP32 Jader691215872
16896
145922× 16896?
FP64 Jader3456844872962× 8448?
INT32 Jader6912844872962× 8448?
Tensor-Kerne4325284562× 528?
Rate1410MHz1980 MHz1750MHz1980 MHz?
↓↓↓ T(FL)OPS ↓↓↓
FP16
78120 1341022× 134
BF16
39120 1341022× 134
FP32
19,560 67512× 67
FP64
9,730 34262× 34
INT4
????
INT8????
INT16????
INT3219,530 34262× 34
FP8-Tensor1979/3958*1513/3026*1979/3958*
FP16-Tensor312/624*
989/1979*757/1513*989/1979*
BF16-Tensor312/624*
989/1979*757/1513*989/1979*
FP32-Tensor19,560? 67?51?2× 67?
TF32-Tensor
156/312*
495/989*378/757*2× 495/989*
FP64-Tensor
19,567512× 67
INT8-Tensor
624/1248*
1979/3958*1513/3026*2× 1979/3958*
INT4-Tensor
1248/2496*
???
↑↑↑ T(FL)OPS ↑↑↑
TMU432528 4562× 528
GMBH40MB50MB2× 50MB?
Bus5120bit5120bit6144bit
Speicher40GB80GB80GB2× 94 GB
HBM2,43 GHz3,2 GHzHBM3
5,23 GHz
HBM2E
3,2 GHz
HBM3
5,1 GHz
pam. Stütze.1555 GB/s2048 GB/s3350 GB/s 2048 GB/s2× 3,9 TB/s
TDP400 W700-800 W 350 W700 W
Transistoren54,2 mld.80 ml.2× 80 ml.
GPU-Bereich826mm²814 mm²2× 814 mm²
Gerichtsverhandlung7 nm4nm
Datum5. 202011. 20202022?H2 2023

Da die Chat-GPT-Sprachmodelle groß sind, hat Nvidia die GH100-GPU erstmals mit allen sechs HBM-Modulen ausgestattet (dh den 6144-Bit-Bus voll ausgenutzt) und zusätzlich HBM3 verwendet (im Vergleich zu HBM2E auf der ursprünglichen PCIe-Variante). Das würde theoretisch 6 x 2 x 16 GB = 192 GB Arbeitsspeicher entsprechen, in der Realität sind es aber 188 GB. Wie kann dies erreicht werden, wenn es keine 15,66-GB-HBM-Module gibt? Nvidia hat sich wohl mit einem Speicherhersteller geeinigt, der ihm Module mit deaktivierten defekten Zellen liefert, was eine etwas geringere Kapazität, aber auch einen deutlich besseren Preis bedeuten könnte.

Obwohl Nvidia über die Veröffentlichung des H100 NVL spricht, sollten diese Beschleuniger realistischerweise irgendwann in der zweiten Hälfte dieses Jahres verfügbar sein.


Source: Diit.cz by diit.cz.

*The article has been translated based on the content of Diit.cz by diit.cz. If there is any problem regarding the content, copyright, please leave a report below the article. We will try to process as quickly as possible to protect the rights of the author. Thank you very much!

*We just want readers to access information more quickly and easily with other multilingual content, instead of information only available in a certain language.

*We always respect the copyright of the content of the author and always include the original link of the source article.If the author disagrees, just leave the report below the article, the article will be edited or deleted at the request of the author. Thanks very much! Best regards!