Co je  Nvidia DGX SUPERPOD

NVIDIA DGX SuperPOD je škálovatelná platforma pro datová centra zaměřená na umělou inteligenci (AI), která je navržena tak, aby podnikům poskytovala špičkový výkon pro nejnáročnější úlohy trénování a inference s využitím umělé inteligence. Jedná se o full-stack řešení integrující hardware NVIDIA DGX, rychlé sítě, úložiště a software optimalizovaný pro umělou inteligenci, včetně NVIDIA Base Command. SuperPOD poskytuje zrychlenou infrastrukturu, zjednodušenou správu a rámec pro budování a nasazení rozsáhlých systémů umělé inteligence, často označovaných jako „továrna na umělou inteligenci“.

 

Základní technické parametry Nvidia DGX SUPERPOD
• DGX SuperPOD je sestaven z menších modulů označovaných jako škálovatelné jednotky (SU).
• Plný SuperPOD se skládá ze čtyř škálovatelných jednotek (4 SU).
• Každá SU obsahuje 31 nebo 32 uzlů DGX, se 4 systémy DGX H100 na rack v 8 racích, 1 uzel je obvykle odstraněn pro umístění konektivity Unified Fabric Management (UFM).
• 1 SU může být v jedné řadě nebo může být postavena napříč uličkou datového centra.
• Uspořádání ovlivňuje délky kabelů a čísla dílů.

Nvidia DGX SUPERPOD a řešení Legrand

Nvidia umožňuje třetím stranám, jako je Legrand, stavět racky, uličky a další zařízení nezbytné pro umístění, chlazení, napájení, připojení a monitorování clusterů systémů od Nvidie. Legrand nabízí širokou škálu produktů a řešení, která podporují ekosystém integrátorů a koncových uživatelů implementujících umělou inteligenci založenou na NVIDIA.

Referenční návrh Legrand pro DGX H100 SuperPOD: PROHLÁŠENÍ O VYLOUČENÍ ODPOVĚDNOSTI
• V tomto dokumentu Legrand podrobně popisuje nabídku produktů Legrand, které umožňujú sestavení 1 SU SuperPODu
• Veškeré množství, velikosti rozvaděčů, délky sběrnic, délky kabelů, barvy kabelů atd. musí být upraveny podle rozsahu a uspořádání vaší konkrétní instalace
• Pro řešení šitá na míru vaší konkrétní aplikaci se prosím obraťte ještě dnes na autorizovaný tým DATALEVEL

Stáhnout celou případovou studii

 

 

Pohled shora na uzavřenou 1 uličku s IT výkonem 326,4KW

Kompletní ulička včetně management racků. Výpočetní výkon se nachází v 8x compute rack.

Konfigurace výpočetních racků

Produkt Počet ks
Legrand 19″ rack 8
NVIDIA DGX H100 31
NVIDIA UFM Appliance 24
Raritan PDU 34,5 kVA 24
Raritan senzor teploty a vlhkosti 16

Konfigurace řídicích racků

Řídicí rozvaděče (management rack) mohou být umístěny mezi skupinami po 4 rozvaděčích (1SU, lineární) nebo ve skupinách po 2 rozvaděčích (1SU napříč uličkou).

Produkt Počet ks
QM9700 Switch (Spine) 4
QM9700 Switch (Leaf) 8
NVIDIA Compute Unified Fabric Manager (UFM) Management servers 2
Storage management 1*
Raritan PDU 34,5 kVA 4
Kabeláž 1*
Raritan senzor teploty a vlhkosti 4
Legrand ZPE Systems Serial Console OOB Mgt or (NVIDIA BCM) 1*

Ukázka Raritan PDU s kapacitou 34,5 kVA

 

Napájení – tabulka logického fázového vyrovnání s vylepšenou redundancí N+1

 

Chlazení pomocí chlazení pomocí výměníků tepla na zadních dveřích racků COLDLOGIK CL20 od Legrand USystems

 

Out-of-band management (mimopásmová komunikace) pomocí technologie NodeGride ZPE Systems od Legrand

NodeGrid od ZPE Systems nabízí alternativní řešení k síti pro správu mimo pásmo (OOB) založené na technologiích NVIDIA, která je popsána v publikaci NVIDIA DGX SuperPOD: Škálovatelná infrastruktura nové generace pro vedení v oblasti AI – Referenční architektura.

Out-of-band management poskytuje prostředky pro bezpečnou aktualizaci firmwaru výpočetních, úložných a síťových systémů, které tvoří SuperPOD, a také umožňuje vzdálenou správu, jako je konfigurace zařízení a nastavení nových uživatelů, a to i v případě, že hlavní systémy mají problémy. Umožňuje existenci řídicí roviny odděleně od produkčních sítí. Propojuje porty pro správu všech zařízení, včetně DGX a serverů pro správu, úložišť, síťového vybavení, rackových PDU a všech ostatních zařízení.
DGX SuperPOD využívá čtyři síťové struktury:
• Výpočetní struktura
• Úložná struktura
• Síť pro správu v pásmu
• Síť pro správu mimo pásmo

Obj.č. Produkt Počet ks
ZPE-NSR-816-DAC Legrand ZPE Nodegrid Net SR modular chassis. 8-core Intel CPU, Backplane Switch, 16GB DDR4, 32GB MSATA, 5 Slots, 2 SFP+, 4X USB, 2X GbE, 1X HDMI, 1X console. Dual AC Power supply & cord included. Order NSR Expansion Card separately. Includes Standard 2-Year Support, HW warranty, & 90-day ZPECloud.com subscription. 1
ZPE-NSR-16SRL-EXPN Legrand ZPE Systems Nodegrid Net SR 16-Port RJ45 Serial Rolled (Cisco) Expansion Card 3
ZPE-NGM-L1-BASE-GSUB-100-MD Legrand ZPE Software License – 100 Managed Devices – 1 Year 1
ZPE-NGM-FL-MON-GSUB-050 Legrand ZPE Feature License Clustering – 2 YEAR – Subscription – 50 Nodes 1