NVIDIA HGX AI SÜPER BİLGİSAYARI
En güçlü uçtan uca AI hesaplama platformu
NVIDIA HGX AI SÜPER BİLGİSAYARI
En güçlü uçtan uca AI hesaplama platformu
Simülasyon, Veri Analitiği ve Yapay Zekanın Yakınsaması için Amaca Yönelik Oluşturuldu
Muazzam büyüklükteki veri setleri, boyutları büyük bir hızla artan modeller ve karmaşık simülasyonlar, yüksek hızlı iç bağlantı ve hızlandırılmış yazılım yığınlarına sahip çoklu GPU’lara ihtiyaç duyar. NVIDIA HGX™ AI supercomputing platformu, en yüksek uygulama performansını sağlamak için NVIDIA GPU’ları, NVIDIA® NVLink®, NVIDIA InfiniBand ağ iletişimi ve NVIDIA NGC™ kataloğundan tamamen optimize edilmiş NVIDIA AI ve HPC yazılım yığınının güçlerini bir araya getirir.
HIZLANDIRILMIŞ UÇTAN UCA HESAPLAMA PLATFORMU
NVIDIA HGX, NVIDIA A100 Tensor çekirdekli GPU’larını, yüksek hızlı ara bağlantılarla birleştirerek, dünyanın en güçlü sunucularını oluşturur. HGX, 16 A100 GPU’su ile 1,3 terabayta kadar GPU belleğine ve saniyede 2 terabayttan fazla bellek bant genişliğiyle eşi benzeri görülmemiş bir hıza sahiptir.
HGX, bir önceki kıyasla göre Tensor Float 32(TF32) ile 20x AI hız artışı, FP64 ile 2.5x HPC hız artışı sağlar. Dünyanın en güçlü hızlandırılmış ve ölçeklendirilmiş sunucusu olan HGX, 10 petaFLOPS’luk güç sağlar.
DERİN ÖĞRENME PERFORMANSI
En Büyük Modellerde 3 Kat Daha Performanslı Yapay Zeka Eğitimi
HugeCTR kütüphanesiyle DLRM, precision = FP16 | NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32.
Derin öğrenme modellerinin boyutunda ve karmaşıklığında eksponansiyel artış yaşanıyor. Bu modellerin üstesinden gelmek için yüksek miktarda belleğe, muazzam hesaplama kabiliyetine ve ölçeklenebilirlik için hızlı ara bağlantılara ihtiyaç duyuluyor. HGX, NVIDIA NVSwitch™’in yüksek hızlı GPU haberleşmesi sayesinde en karmaşık AI modellerinin üstesinden gelebilir. Tek bir HGX, A100 80GB GPU’larla GPU belleği iki katına çıkarır ve 1,3 TB’a kadar bellek sunar. A100 40 GB GPU’larla destekli HGX, çok büyük veri tablolarına sahip derin öğrenme öneri modelleri (DLRM) gibi en büyük modellerde ortaya çıkan iş yüklerini, 3 kata kadar hızlandırılır.
MAKİNE ÖĞRENİMİ PERFORMANSI
Büyük Veri Analitiği Karşılaştırmasında A100 40GB’tan 2 Kat Daha Hızlı
Büyük Veri Analiz Karşılaştırması | 30 perakende sorguları, ETL, ML, NLP 10TB dataset | V100 32GB, RAPIDS/Dask | A100 40GB ve A100 80GB, RAPIDS/Dask/BlazingSQL
Makine öğrenimi modelleri, kritik içgörüler elde etmek için son derece büyük veri kümelerinin yüklenmesini, dönüştürülmesini ve işlenmesini gerektirir. 1,3 TB’a kadar birleştirilmiş bellek ve NVSwitch GPU iletişimiyle, A100 80GB GPU’larla desteklenen HGX, hızla eyleme geçirilebilir içgörüler elde etmek için muazzam veri kümelerini yükleme ve bunlar üzerinde hesaplamalar yapma kabiliyetine sahiptir.
Büyük veri analitiği karşılaştırmasında A100 80GB, A100 40GB’a göre 2 kat daha yüksek iş hacmiyle içgörüler sunarak, veri kümesi boyutlarının patladığı yeni ortaya çıkan iş yükleri için ideal hale geldi.
HPC PERFORMANSI
HPC uygulamalarının, bir saniyede çok büyük miktarda hesaplama yapması gerekir. Her bir sunucu düğümünün hesaplama yoğunluğunu artırmak, gerekli sunucu sayısını önemli ölçüde azaltır. Bu sayede veri merkezlerinde tüketilen güçten, alandan ve maliyetten büyük tasarruf sağlanır. Simülasyonlarda ve yüksek boyutlu matris çarpımı hesaplamalarında, birçok komşudan veri almak için bir işlemciye gerek vardır. Bu ihtiyaç NVIDIA NVLink ile bağlanan GPU’ları ideal hale getirir.
A100 80GB GPU’larının güç verdiği HGX, Quantum Espresso kullanılarak yapılan materyal simulasyonlarında, A100 40GB’a göre 2 kat hız artışı elde etti.
4 Yılda 11x HPC Performans Artışı
En çok kullanılan HPC Uygulamaları
Uygulama hızlanmalarının P100’e karşı geometrik ortalaması: Karşılaştırmalı uygulama: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large) Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | 4x NVIDIA P100, V100 veya A100 GPU’lar ile çift soketli CPU’lu GPU düğümü.
HPC Uygulamalarında 1.8x’e Performans Artışı
Quantum Espresso
Quantum Espress – CNT10POR8 veri seti, precision = FP64.
NVIDIA HGX ÖZELLİKLERİ
NVIDIA HGX, her biri 40 GB veya 80 GB GPU belleğine sahip dört veya sekiz A100 GPU’lu tekli anakartlarda mevcuttur. 4 GPU’lu konfigürasyonun ara bağlantıları NVIDIA NVLink® ile yapılmıştır. 8 GPU’lu konfigürasyonun ara bağlantıları NVSwitch ile yapılmıştır. 2 NVIDIA HGX A100 8 GPU’lu anakart, tek düğüm 16 GPU oluşturmak için NVSwitch ile birbirine bağlanır.
HGX, modüler, dağıtımı kolay bir seçenek için bir PCIe form faktöründe de üretilmiştir. Her biri 40 GB veya 80 GB GPU belleğe sahip ana akım sunuculara en yüksek hesaplama performansı sağlar.
Bu mükemmel donanım ve yazılım kombinasyonu, AI yüksek başarımlı hesaplama platformunun temelini oluşturur.
A100 PCIe | 4-GPU | 8-GPU | 16-GPU | |
---|---|---|---|---|
GPUs | 1x NVIDIA A100 PCIe | HGX A100 4-GPU | HGX A100 8-GPU | 2x HGX A100 8-GPU |
Form factor | PCIe | 4x NVIDIA A100 SXM | 8x NVIDIA A100 SXM | 16x NVIDIA A100 SXM |
HPC and AI compute (FP64/TF32*/FP16*/INT8*) | 19.5TF/312TF*/624TF*/1.2POPS* | 78TF/1.25PF*/2.5PF*/5POPS* | 156TF/2.5PF*/5PF*/10POPS* | 312TF/5PF*/10PF*/20POPS* |
Memory | GPU başına 40 veya 80GB | 320 GB’a kadar | 640GB’a kadar | 1.280GB’a kadar |
NVLink | 3.Nesil | 3.Nesil | 3.Nesil | 3.Nesil |
NVSwitch | N/A | N/A | 2.Nesil | 2.Nesil |
NVSwitch GPU-to-GPU bandwidth | N/A | N/A | 600GB/s | 600GB/s |
Total aggregate bandwidth | 600GB/s | 2.4TB/s | 4.8TB/s | 9.6TB/s |
*Seyrek
NVIDIA Networking İle HGX Hızlandırma
HGX ile, veri aktarımlarını hızlandırmak, offloading ve hesaplama kaynaklarının tam performans kullanımını sağlamak için NVIDIA ağlarını dahil etmek de mümkündür. Akıllı adaptörler ve switchler gecikmeyi azaltır, verimi artırır, güvenliği güçlendirir ve uçtan uca uygulama performansını artırmak için veri merkezi otomasyonunu kolaylaştırır.
Veri merkezi, yeni hesaplama birimidir. HPC ağ iletişimi, tüm veri merkezi genelinde uygulama performans ölçeklendirilmesinin olmazsa olmazıdır. NVIDIA InfiniBand, yazılım tanımlı ağ oluşturma, Ağ İçi Hesaplama hızlandırma, uzaktan doğrudan bellek erişimi (RDMA) ve en yüksek hızlar ve beslemelerle yolu açıyor.