Nvidia DGX

De la Viquipèdia, l'enciclopèdia lliure
Un bastidor que conté cinc superordinadors DGX-1.

Nvidia DGX és una línia de servidors i estacions de treball produïts per Nvidia especialitzats a utilitzar GPGPU per accelerar aplicacions d'aprenentatge profund.[1] El disseny típic d'un sistema DGX es basa en un xassís de muntatge en bastidor amb una placa base que transporta CPU de servidor x86 d'alt rendiment (normalment Intel Xeons, amb l'excepció DGX A100 i DGX Station A100, que utilitzen CPU AMD EPYC).[2] El component principal d'un sistema DGX és un conjunt de 4 a 16 mòduls de GPU Nvidia Tesla en una placa del sistema independent. Els sistemes DGX tenen grans dissipadors de calor i ventiladors potents per refredar adequadament milers de watts de sortida tèrmica. Els mòduls de GPU normalment s'integren al sistema mitjançant una versió del sòcol SXM.

Comparativa dins la família DGX: [3][4][5][6][7]

Accelerador Aquhitectura Encapsulat FP32

CUDA Nuclis

FP64 Cores

(excl. Tensor)

INT32/FP32

Nuclis

INT32

Nuclis

Boost

rellotge

Rellotge

memòria

Amplada

Bus memòria

Amplada de banda

memòria

VRAM Precisió

simple (FP32)

Precisió

doble (FP64)

INT8

(no-Tensor)

INT8

Dense Tensor

INT32 FP16 FP16

Dense Tensor

bfloat16

Dense Tensor

TensorFloat-32

(TF32) Dense Tensor

FP64

Dense Tensor

Interconnect

(NVLink)

GPU L1 Cache Size L2 Cache Size TDP GPU

Die Size

Transistor

Count

Manufacturing Process
H100 Hopper SXM5 16896 4608 16896 N/A 1780 MHz 4.8Gbit/s HBM3 5120-bit 3072GB/sec 80GB 60 TFLOPs 30 TFLOPs N/A 4000 TOPs N/A N/A 2000 TFLOPs 2000 TFLOPs 1000 TFLOPs 60 TFLOPs 900GB/sec GH100 25344KB(192KBx132) 51200 KB 700W 814 mm2 80B TSMC 4 nm N4
A100 80GB Ampere SXM4 6912 3456 6912 N/A 1410 MHz 3.2Gbit/s HBM2 5120-bit 2039GB/sec 80GB 19.5 TFLOPs 9.7 TFLOPs N/A 624 TOPs 19.5 TOPs 78 TFLOPs 312 TFLOPs 312 TFLOPs 156 TFLOPs 19.5 TFLOPs 600GB/sec GA100 20736KB(192KBx108) 40960 KB 400W 826 mm2 54.2B TSMC 7 nm N7
A100 40GB Ampere SXM4 6912 3456 6912 N/A 1410 MHz 2.4Gbit/s HBM2 5120-bit 1555GB/sec 40GB 19.5 TFLOPs 9.7 TFLOPs N/A 624 TOPs 19.5 TOPs 78 TFLOPs 312 TFLOPs 312 TFLOPs 156 TFLOPs 19.5 TFLOPs 600GB/sec GA100 20736KB(192KBx108) 40960 KB 400W 826 mm2 54.2B TSMC 7 nm N7
V100 32GB Volta SXM3 5120 2560 N/A 5120 1530 MHz 1.75Gbit/s HBM2 4096-bit 900GB/sec 32GB 15.7 TFLOPs 7.8 TFLOPs 62 TOPs N/A 15.7 TOPs 31.4 TFLOPs 125 TFLOPs N/A N/A N/A 300GB/sec GV100 10240KB(128KBx80) 6144 KB 350W 815 mm2 21.1B TSMC 12 nm FFN
V100 16GB Volta SXM2 5120 2560 N/A 5120 1530 MHz 1.75Gbit/s HBM2 4096-bit 900GB/sec 16GB 15.7 TFLOPs 7.8 TFLOPs 62 TOPs N/A 15.7 TOPs 31.4 TFLOPs 125 TFLOPs N/A N/A N/A 300GB/sec GV100 10240KB(128KBx80) 6144 KB 300W 815 mm2 21.1B TSMC 12 nm FFN
P100 Pascal SXM/SXM2 N/A 1792 3584 N/A 1480 MHz 1.4Gbit/s HBM2 4096-bit 720GB/sec 16GB 10.6 TFLOPs 5.3 TFLOPs N/A N/A N/A 21.2 TFLOPs N/A N/A N/A N/A 160GB/sec GP100 1344KB(24KBx56) 4096 KB 300W 610 mm2 15.3B TSMC 16 nm FinFET+

Referències[modifica]