SXM (sòcol)

SXM (Server PCI Express Module) és una solució de sòcol d'amplada de banda alta per connectar els acceleradors de càlcul de Nvidia a un sistema. Cada generació de Nvidia Tesla des dels models P100, la sèrie d'ordinadors DGX i les plaques HGX inclouen un tipus de sòcol SXM que aconsegueix un gran ample de banda, subministrament d'energia i més per a les targetes filles GPU coincidents.^[1] Nvidia ofereix aquestes combinacions com a producte d'usuari final, per exemple, en els seus models de la sèrie de sistemes DGX. Les generacions de sòcols actuals són SXM per a GPU basades en Pascal, SXM2 i SXM3 per a GPU basades en Volta, SXM4 per a GPU basades en Ampere i SXM5 per a GPU basades en Hopper. Aquests sòcols s'utilitzen per a models específics d'aquests acceleradors i ofereixen un rendiment superior per targeta que els equivalents PCIe.^[1] El sistema DGX-1 va ser el primer a estar equipat amb sòcols SXM-2 i, per tant, va ser el primer a portar els mòduls SXM compatibles amb el factor de forma amb GPU P100 i més tard es va presentar per ser capaç de permetre l'actualització (o preequipat) a Mòduls SXM2 amb GPU V100.

Les plaques SXM es construeixen normalment amb quatre o vuit ranures de GPU, tot i que algunes solucions com la Nvidia DGX-2 connecten múltiples plaques per oferir un alt rendiment. Tot i que existeixen solucions de tercers per a plaques SXM, la majoria d'integradors de sistemes com Supermicro utilitzen plaques Nvidia HGX preconstruïdes, que tenen quatre o vuit configuracions de sòcol.^[2] Aquesta solució redueix considerablement el cost i la dificultat dels servidors GPU basats en SXM i permet la compatibilitat i la fiabilitat a totes les plaques de la mateixa generació.

Els mòduls SXM de, per exemple, les plaques HGX, especialment les generacions recents, poden tenir commutadors NVLink per permetre una comunicació més ràpida de GPU a GPU. Això també redueix els colls d'ampolla que normalment es trobarien dins de la CPU i PCIe.^[3]^[4] Les GPU de les targetes filles només utilitzen NVLink com a protocol de comunicació principal. Per exemple, una GPU basada en H100 SXM5 basada en Hopper pot utilitzar fins a 900 GB/s d'ample de banda a través de 18 canals NVLink 4, cadascun aportant un ample de banda de 50 GB/s; ^[5] Això en comparació amb PCIe 5.0, que pot gestionar fins a 64 GB/s d'ample de banda dins d'una ranura x16.^[6] Aquest gran ample de banda també significa que les GPU poden compartir memòria a través del bus NVLink, permetent que tota una placa HGX es presenti al sistema amfitrió com una GPU única i massiva.^[7]

El sòcol SXM també gestiona el subministrament d'energia, cosa que elimina la necessitat de cables d'alimentació externs, com els necessaris a les targetes equivalents PCIe. Això, combinat amb el muntatge horitzontal, permet opcions de refrigeració de major eficiència que al seu torn permet que les GPU basades en SXM funcionin a un TDP molt més alt. L'H100 basat en Hopper, per exemple, pot extreure fins a 700 W només des del sòcol SXM.^[8] La manca de cablejat també facilita molt el muntatge i la reparació de grans sistemes, i també redueix els possibles punts de fallada.^[9]

La primera placa d'avaluació dirigida a l'automòbil de Nvidia Tegra, "Drive PX2", tenia dos sòcols MXM (Mobile PCI Express Module) a banda i banda de la targeta, aquest disseny dual MXM es pot considerar un predecessor de la implementació de Nvidia Tesla del sòcol SXM.

Referències[modifica]

↑ ^1,0 ^1,1 Proud, Matt. «Achieving Maximum Compute Throughput: PCIe vs. SXM2» (en anglès americà). The Next Platform. [Consulta: 31 març 2022].
↑ servethehome. «NVIDIA A100 4x GPU HGX Redstone Platform» (en anglès americà). ServeTheHome, 14-05-2020. [Consulta: 31 març 2022].
↑ Proud, Matt. «Achieving Maximum Compute Throughput: PCIe vs. SXM2» (en anglès americà). The Next Platform. [Consulta: 31 març 2022].
↑ «NVLink & NVSwitch for Advanced Multi-GPU Communication» (en anglès). NVIDIA.
↑ «Nvidia's H100 – What It Is, What It Does, and Why It Matters» (en anglès). Data Center Knowledge | News and analysis for the data center industry, 23-03-2022. [Consulta: 31 març 2022].
↑ «Is PCIe 5.0 Worth It? The Benefits of PCIe 5.0 (2022)» (en anglès americà). www.techreviewer.com. [Consulta: 31 març 2022].
↑ «NVIDIA HGX A100: Powered by A100 GPUs and NVSwitch» (en anglès americà). NVIDIA. [Consulta: 31 març 2022].
↑ «NVIDIA H100 GPU full details: TSMC N4, HBM3, PCIe 5.0, 700W TDP, more» (en anglès americà). TweakTown, 23-03-2022. [Consulta: 31 març 2022].
↑ Proud, Matt. «Achieving Maximum Compute Throughput: PCIe vs. SXM2» (en anglès americà). The Next Platform. [Consulta: 31 març 2022].

[:12-1] 1,0 ^1,1 Proud, Matt. «Achieving Maximum Compute Throughput: PCIe vs. SXM2» (en anglès americà). The Next Platform. [Consulta: 31 març 2022].

[2] servethehome. «NVIDIA A100 4x GPU HGX Redstone Platform» (en anglès americà). ServeTheHome, 14-05-2020. [Consulta: 31 març 2022].

[:13-3] Proud, Matt. «Achieving Maximum Compute Throughput: PCIe vs. SXM2» (en anglès americà). The Next Platform. [Consulta: 31 març 2022].

[4] «NVLink & NVSwitch for Advanced Multi-GPU Communication» (en anglès). NVIDIA.

[5] «Nvidia's H100 – What It Is, What It Does, and Why It Matters» (en anglès). Data Center Knowledge | News and analysis for the data center industry, 23-03-2022. [Consulta: 31 març 2022].

[6] «Is PCIe 5.0 Worth It? The Benefits of PCIe 5.0 (2022)» (en anglès americà). www.techreviewer.com. [Consulta: 31 març 2022].

[7] «NVIDIA HGX A100: Powered by A100 GPUs and NVSwitch» (en anglès americà). NVIDIA. [Consulta: 31 març 2022].

[8] «NVIDIA H100 GPU full details: TSMC N4, HBM3, PCIe 5.0, 700W TDP, more» (en anglès americà). TweakTown, 23-03-2022. [Consulta: 31 març 2022].

[:14-9] Proud, Matt. «Achieving Maximum Compute Throughput: PCIe vs. SXM2» (en anglès americà). The Next Platform. [Consulta: 31 març 2022].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]