NVIDIA H100 Tensor Core GPU

Veri merkezleri için eşsiz performans, güvenilirlik ve ölçeklenebilirlik.

NVIDIA H100 Tensor Core GPU

Veri merkezleri için eşsiz performans, güvenilirlik ve ölçeklenebilirlik.

NVIDIA H100 Tensor Core GPU ile, yüksek performans, ölçeklenebilirlik ve güvenlik elde edebilirsiniz. NVIDIA NVLink Switch System ile 256 H100 GPU bir araya getirilebilir ve bu sayede exascale iş yüklerini hızlandırmak mümkün olabilir. H100 GPU, trilyon parametreli dil modellerini çözmek için özel bir transformer motoru da içermektedir. H100’ün bir araya getirdiği teknolojik yenilikler, büyük dil modellerini önceki nesile göre %30 daha hızlı hale getirebilir.

NVIDIA H100 Datasheet

NVIDIA H100 PCIe Ürün Kılavuzu

Büyük Dil Modelleri(LLM) Çıkarımını Hızlandırın

175 milyar parametreye kadar olan büyük dil modelleri için, PCIe tabanlı H100 NVL, NVLink köprüsüyle Transformer Engine, NVLink ve 188 GB HBM3 belleği kullanarak optimum performans ve kolay ölçeklenebilirlik sağlar. H100 NVL GPU’larla donatılmış sunucular, güç sınırlı veri merkezi ortamlarında düşük gecikme süresini korurken NVIDIA DGX A100 sistemlerine göre GPT-175B model performansını 12 kat artırır.

GPT-3 Üzerinde AI Eğitiminde %4’e kadar Daha Yüksek Performans

Beklenen performans değişebilir. Giriş dizisi uzunluğu=128, çıkış dizisi uzunluğu=20 olan Megatron 530B parametreli modelin çıkarımı için | A100 kümesi: HDR IB ağı | H100 kümesi: 16 H100 yapılandırması için NDR IB ağı | 32 A100 ile 16 H100 için 1 ve 1.5 saniye süresinde | 16 A100 ile 8 H100 için.

Yapay Zeka Eğitimindeki Dönüşümsel Gelişmeler

H100, dördüncü nesil Tensor Cores ve FP8 hassasiyetinde bir Transformer Motoru içeriyor, bu da GPT-3 (175B) modelleri için önceki nesile göre 4 kat daha hızlı eğitim sağlıyor. Dördüncü nesil NVLink’in sunduğu 900 gigabayt/saniye GPU-GPU bağlantısı, NDR Quantum-2 InfiniBand ağının her GPU arasındaki iletişimi hızlandırması, PCIe Gen5 ve NVIDIA Magnum IO™ yazılımı; küçük işletme sistemlerinden büyük, birleşik GPU küme sistemlerine kadar verimli ölçeklenebilirlik sağlıyor.

Veri merkezi ölçeğinde H100 GPU’ların kullanımı olağanüstü performans sağlıyor ve exascale yüksek performanslı hesaplama (HPC) ve trilyon-parametreli yapay zeka gibi bir sonraki nesil teknolojileri tüm araştırmacıların erişimine sunuyor.

Büyük Modeller Üzerinde AI Çıkarımında %30’a kadar Daha Yüksek Performans

H100, gerçek zamanlı çıkarımı %30’a kadar hızlandırıp en düşük gecikmeyi sunuyor. Dördüncü nesil Tensor Cores, FP64, TF32, FP32, FP16, INT8 ve şimdi FP8 dahil olmak üzere tüm hassasiyetleri hızlandırarak bellek kullanımını azaltıp performansı arttırıyor.

Gerçek Zamanlı Derin Öğrenme Çıkarımı

Beklenen performans değişiklik gösterebilir. GPT-3 175B eğitimi için A100 kümesi: HDR IB ağı, H100 kümesi: NDR IB ağı | 1T token veri setinde 395B parametreye sahip Mixture of Experts (MoE) Eğitim Transformer Switch-XXL varyantı için, belirtilen yerlerde NVLink Anahtar Sistemi ile A100 kümesi: HDR IB ağı, H100 kümesi: NDR IB ağıyla.

HPC Uygulamaları için %7’ye Kadar Daha Yüksek Performans

Büyük Modeller Üzerinde AI Çıkarımında %30’a kadar Daha Yüksek Performans

H100, çift hassasiyetli Tensor Cores’un işlem başına saniyede (FLOPS) işlem gücünü üçe katlayarak HPC için 60 teraflop FP64 hesaplama gücü sağlar. AI entegre HPC uygulamaları H100’ün TF32 hassasiyetini kullanarak kod değişikliği olmadan tek hassasiyetli matris çarpımı işlemleri için bir petaflopluk verimlilik elde edebilir.

H100 ayrıca, DNA dizilimi için Smith-Waterman ve protein yapı tahmini için protein hizalaması gibi dinamik programlama algoritmalarında A100’e göre %7 daha yüksek ve CPU’lar üzerinde %40 hızlandırma sağlayan yeni DPX talimatlarını içerir.

Form Faktör	H100 SXM	H100 PCIe	H100 NVL
FP64	34 teraFLOPS	26 teraFLOPS	68 teraFLOPs
FP64 Tensor Core	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
FP32	67 teraFLOPS	51 teraFLOPS	134 teraFLOPs
TF32 Tensor Core	989 teraFLOPS	756 teraFLOPS	1,979 teraFLOPs
BFLOAT16 Tensor Core	1,979 teraFLOPS	1,513 teraFLOPS	3,958 teraFLOPs
FP16 Tensor Core	1,979 teraFLOPS	1,513 teraFLOPS	3,958 teraFLOPs
FP8 Tensor Core	3,958 teraFLOPS	3,026 TOPS	7,966 teraFLOPs
INT8 Tensor Core	3,958 TOPS	3,026 TOPS	7,916 TOPS
GPU Belleği	80GB	80GB	188GB
GPU Bellek bantgenişliği	3.35TB/s	2TB/s	7.8TB/s3
Decoder	7 NVDEC 7 JPEG	7 NVDEC 7 JPEG	14 NVDEC 14 JPEG
Maksimum TDP	700 W(özelleştirilebilir.)	300-350W(özelleştirebilir.)	2x 350-400W(özelleştirilebilir.)
Multi-Instance GPU	7 adet MIG’in her biri 10GB’lık	7 adet MIG’in her biri 10GB’lık	14 adet MIG’in her biri 12GB’lık
Form Faktör	SXM	PCIe çift yuvalı hava soğutmalı	2x PCIe çift yuvalı hava soğutmalı
Ara Bağlantı	NVLink: 900GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s	NVLink: 600GB/s PCIe Gen5: 128GB/s
Sunucu Opsiyonları	NVIDIA HGX H100 Partner and NVIDIA-Certified Systems^™ with 4 or 8 GPUs NVIDIA DGX H100 with 8 GPUs	Partner and NVIDIA-Certified Systems with 1–8 GPUs	Partner and NVIDIA-Certified Systems with 2-4 pairs
NVIDIA AI Enterprise	Eklenebilir	Dahili	Eklenebilir

VERİ MERKEZİ

NVIDIA H100 Tensor Core GPU

NVIDIA H100 Tensor Core GPU

Büyük Dil Modelleri(LLM) Çıkarımını Hızlandırın

GPT-3 Üzerinde AI Eğitiminde %4’e kadar Daha Yüksek Performans

Yapay Zeka Eğitimindeki Dönüşümsel Gelişmeler

Büyük Modeller Üzerinde AI Çıkarımında %30’a kadar Daha Yüksek Performans

Gerçek Zamanlı Derin Öğrenme Çıkarımı

HPC Uygulamaları için %7’ye Kadar Daha Yüksek Performans

Büyük Modeller Üzerinde AI Çıkarımında %30’a kadar Daha Yüksek Performans

OPENZEKA TEKNOLOJİ ANONİM ŞİRKETİ