NVIDIA HGX AI SÜPER BİLGİSAYARI

En güçlü uçtan uca AI hesaplama platformu

NVIDIA HGX AI SÜPER BİLGİSAYARI

En güçlü uçtan uca AI hesaplama platformu

Simülasyon, Veri Analitiği ve Yapay Zekanın Yakınsaması için Amaca Yönelik Oluşturuldu

Muazzam büyüklükteki veri setleri, boyutları büyük bir hızla artan modeller ve karmaşık simülasyonlar, yüksek hızlı iç bağlantı ve hızlandırılmış yazılım yığınlarına sahip çoklu GPU’lara ihtiyaç duyar. NVIDIA HGX™ AI supercomputing platformu, en yüksek uygulama performansını sağlamak için NVIDIA GPU’ları, NVIDIA® NVLink®, NVIDIA InfiniBand ağ iletişimi ve NVIDIA NGC™ kataloğundan tamamen optimize edilmiş NVIDIA AI ve HPC yazılım yığınının güçlerini bir araya getirir.

HIZLANDIRILMIŞ UÇTAN UCA HESAPLAMA PLATFORMU

NVIDIA HGX, NVIDIA A100 Tensor çekirdekli GPU’larını, yüksek hızlı ara bağlantılarla birleştirerek, dünyanın en güçlü sunucularını oluşturur. HGX, 16 A100 GPU’su ile 1,3 terabayta kadar GPU belleğine ve saniyede 2 terabayttan fazla bellek bant genişliğiyle eşi benzeri görülmemiş bir hıza sahiptir.

HGX, bir önceki kıyasla göre Tensor Float 32(TF32) ile 20x AI hız artışı, FP64 ile 2.5x HPC hız artışı sağlar. Dünyanın en güçlü hızlandırılmış ve ölçeklendirilmiş sunucusu olan HGX, 10 petaFLOPS’luk güç sağlar.

DERİN ÖĞRENME PERFORMANSI

En Büyük Modellerde 3 Kat Daha Performanslı Yapay Zeka Eğitimi

HugeCTR kütüphanesiyle DLRM, precision = FP16 | ​NVIDIA A100 80GB batch size = 48 | NVIDIA A100 40GB batch size = 32 | NVIDIA V100 32GB batch size = 32. ​

 

Derin öğrenme modellerinin boyutunda ve karmaşıklığında eksponansiyel artış yaşanıyor. Bu modellerin üstesinden gelmek için yüksek miktarda belleğe, muazzam hesaplama kabiliyetine ve ölçeklenebilirlik için hızlı ara bağlantılara ihtiyaç duyuluyor. HGX, NVIDIA NVSwitch™’in yüksek hızlı GPU haberleşmesi sayesinde en karmaşık AI modellerinin üstesinden gelebilir. Tek bir HGX, A100 80GB GPU’larla GPU belleği iki katına çıkarır ve 1,3 TB’a kadar bellek sunar. A100 40 GB GPU’larla destekli HGX, çok büyük veri tablolarına sahip derin öğrenme öneri modelleri (DLRM) gibi en büyük modellerde ortaya çıkan iş yüklerini, 3 kata kadar hızlandırılır.

MAKİNE ÖĞRENİMİ PERFORMANSI

Büyük Veri Analitiği Karşılaştırmasında A100 40GB’tan 2 Kat Daha Hızlı

Büyük Veri Analiz Karşılaştırması | 30 perakende sorguları, ETL, ML, NLP  10TB dataset | V100 32GB, RAPIDS/Dask | A100 40GB ve A100 80GB, RAPIDS/Dask/BlazingSQL​

Makine öğrenimi modelleri, kritik içgörüler elde etmek için son derece büyük veri kümelerinin yüklenmesini, dönüştürülmesini ve işlenmesini gerektirir. 1,3 TB’a kadar birleştirilmiş bellek ve NVSwitch GPU iletişimiyle, A100 80GB GPU’larla desteklenen HGX, hızla eyleme geçirilebilir içgörüler elde etmek için muazzam veri kümelerini yükleme ve bunlar üzerinde hesaplamalar yapma kabiliyetine sahiptir.

Büyük veri analitiği karşılaştırmasında A100 80GB, A100 40GB’a göre 2 kat daha yüksek iş hacmiyle içgörüler sunarak, veri kümesi boyutlarının patladığı yeni ortaya çıkan iş yükleri için ideal hale geldi.

HPC PERFORMANSI

HPC uygulamalarının, bir saniyede çok büyük miktarda hesaplama yapması gerekir. Her bir sunucu düğümünün hesaplama yoğunluğunu artırmak, gerekli sunucu sayısını önemli ölçüde azaltır. Bu sayede veri merkezlerinde tüketilen güçten, alandan ve maliyetten büyük tasarruf sağlanır. Simülasyonlarda ve yüksek boyutlu matris çarpımı hesaplamalarında, birçok komşudan veri almak için bir işlemciye gerek vardır. Bu ihtiyaç NVIDIA NVLink ile bağlanan GPU’ları ideal hale getirir.

A100 80GB GPU’larının güç verdiği HGX, Quantum Espresso kullanılarak yapılan materyal simulasyonlarında, A100 40GB’a göre 2 kat hız artışı elde etti.

4 Yılda 11x HPC Performans Artışı

En çok kullanılan  HPC Uygulamaları

Uygulama hızlanmalarının P100’e karşı geometrik ortalaması: Karşılaştırmalı uygulama: Amber [PME-Cellulose_NVE], Chroma [szscl21_24_128], GROMACS [ADH Dodec], MILC [Apex Medium], NAMD [stmv_nve_cuda], PyTorch (BERT-Large) Quantum Espresso [AUSURF112-jR]; Random Forest FP32 [make_blobs (160000 x 64 : 10)], TensorFlow [ResNet-50], VASP 6 [Si Huge] | 4x NVIDIA P100, V100 veya  A100 GPU’lar ile çift soketli CPU’lu GPU düğümü.

HPC Uygulamalarında 1.8x’e Performans Artışı

Quantum Espresso

Quantum Espress – CNT10POR8 veri seti, precision = FP64.

NVIDIA HGX ÖZELLİKLERİ

NVIDIA HGX, her biri 40 GB veya 80 GB GPU belleğine sahip dört veya sekiz A100 GPU’lu tekli anakartlarda mevcuttur. 4 GPU’lu konfigürasyonun ara bağlantıları NVIDIA NVLink® ile yapılmıştır. 8 GPU’lu konfigürasyonun ara bağlantıları NVSwitch ile yapılmıştır. 2 NVIDIA HGX A100 8 GPU’lu anakart, tek düğüm 16 GPU oluşturmak için NVSwitch ile birbirine bağlanır.

HGX, modüler, dağıtımı kolay bir seçenek için bir PCIe form faktöründe de üretilmiştir. Her biri 40 GB veya 80 GB GPU belleğe sahip ana akım sunuculara en yüksek hesaplama performansı sağlar.

Bu mükemmel donanım ve yazılım kombinasyonu, AI yüksek başarımlı hesaplama platformunun temelini oluşturur.

A100 PCIe 4-GPU 8-GPU 16-GPU
GPUs 1x NVIDIA A100 PCIe HGX A100 4-GPU HGX A100 8-GPU 2x HGX A100 8-GPU
Form factor  PCIe 4x NVIDIA A100 SXM 8x NVIDIA A100 SXM 16x NVIDIA A100 SXM
HPC and AI compute (FP64/TF32*/FP16*/INT8*) 19.5TF/312TF*/624TF*/1.2POPS* 78TF/1.25PF*/2.5PF*/5POPS* 156TF/2.5PF*/5PF*/10POPS* 312TF/5PF*/10PF*/20POPS*
Memory GPU başına 40 veya 80GB 320 GB’a kadar 640GB’a kadar 1.280GB’a kadar
NVLink 3.Nesil 3.Nesil 3.Nesil 3.Nesil
NVSwitch N/A N/A 2.Nesil 2.Nesil
NVSwitch GPU-to-GPU bandwidth N/A N/A 600GB/s 600GB/s
Total aggregate bandwidth 600GB/s 2.4TB/s 4.8TB/s 9.6TB/s

*Seyrek

NVIDIA Networking İle HGX Hızlandırma

HGX ile, veri aktarımlarını hızlandırmak, offloading ve  hesaplama kaynaklarının tam performans kullanımını sağlamak için NVIDIA ağlarını dahil etmek de mümkündür. Akıllı adaptörler ve switchler gecikmeyi azaltır, verimi artırır, güvenliği güçlendirir ve uçtan uca uygulama performansını artırmak için veri merkezi otomasyonunu kolaylaştırır.

Veri merkezi, yeni hesaplama birimidir. HPC ağ iletişimi, tüm veri merkezi genelinde uygulama performans ölçeklendirilmesinin olmazsa olmazıdır. NVIDIA InfiniBand, yazılım tanımlı ağ oluşturma, Ağ İçi Hesaplama hızlandırma, uzaktan doğrudan bellek erişimi (RDMA) ve en yüksek hızlar ve beslemelerle yolu açıyor.

NVIDIA Ampere Mimarisine Bakış

NVIDIA Ampere mimarisinin getirdiği yenilikleri ve bunun NVIDIA A100 GPU’daki uygulamasını öğrenmek için ayrıntılı teknik incelemeyi okuyun.

doküman