YÜKSEK PERFORMANSLI VERİ BİLİMİ
Veri bilimi, makine öğrenmesi ve AI iş akışlarınızı kolay bir şekilde hızlandırmak için GPU’ların gücünden faydalanın.
Yüksek hızlı GPU hesaplama ile tüm veri bilimi iş akışlarını çalıştırın. 50 kat daha hızlı uçtan uca veri bilimi işlem hatlarında, veri yükleme, veri işleme ve makine öğrenimini paralel hale getirin.
NEDEN RAPIDS?
Günümüzde veri bilimi ve makine öğrenmesi dünyanın en büyük hesaplama segmenti haline geldi. Artık analitik modellerin doğruluğundaki küçük gelişmeler bile milyarlarca sonuç anlamına geliyor. Veri bilimcilerin yüksek doğruluklu ve performanslı modeller oluşturabilmesi için eğitmek, değerlendirmek, tekrarlamak ve yeniden eğitmek için çalışması gerekir. RAPIDS™, günler süren süreçleri dakikalar içinde tamamlayabiliyor, değer üreten modellerin oluşturulmasını ve devreye alınmasını daha hızlı hale getiriyor.
İş akışlarında, Ham Verileri Eğitim Verilerine dönüştürmenin birçok iterasyonu vardır. Bu iterasyonlar, birçok algoritma kombinasyonuna beslenir. Optimal doğruluk ve performans için doğru model, model parametreleri ve veri özellikleri kombinasyonlarını bulmak için hiper parametre ayarından geçer.
Yüksek hızlı GPU hesaplama ile tüm veri bilimi iş akışlarını çalıştırın. 50 kat daha hızlı uçtan uca veri bilimi işlem hatlarında, veri yükleme, veri işleme ve makine öğrenimini paralel hale getirin.
NEDEN RAPIDS?
Günümüzde veri bilimi ve makine öğrenmesi dünyanın en büyük hesaplama segmenti haline geldi. Artık analitik modellerin doğruluğundaki küçük gelişmeler bile milyarlarca sonuç anlamına geliyor. Veri bilimcilerin yüksek doğruluklu ve performanslı modeller oluşturabilmesi için eğitmek, değerlendirmek, tekrarlamak ve yeniden eğitmek için çalışması gerekir. RAPIDS™, günler süren süreçleri dakikalar içinde tamamlayabiliyor, değer üreten modellerin oluşturulmasını ve devreye alınmasını daha hızlı hale getiriyor.
İş akışlarında, Ham Verileri Eğitim Verilerine dönüştürmenin birçok iterasyonu vardır. Bu iterasyonlar, birçok algoritma kombinasyonuna beslenir. Optimal doğruluk ve performans için doğru model, model parametreleri ve veri özellikleri kombinasyonlarını bulmak için hiper parametre ayarından geçer.
YÜKSEK PERFORMANSLI EKOSİSTEM OLUŞTURUN
RAPIDS, veri bilimi işlem hatlarını tamamen GPU’larda yürütmek için bir açık kaynaklı yazılım kütüphaneler ve API’ler paketidir. Eğitim sürelerini günlerden dakikalara indirebilir. NVIDIA® CUDA-X AI™ üzerine inşa edilen RAPIDS, grafik, makine öğrenimi, derin öğrenme, yüksek başarımlı hesaplama (HPC) ve daha birçok alanda yıllarca geliştirmeden elde edilen bilgileri bir araya getirir.
Veri bilimi projelerinde sonuçlara ulaşma hızı hayati önem taşır. RAPIDS, tüm veri bilimi eğitim işlem hattını GPU’larda çalıştırarak iş akışlarınızı hızlandırmak için NVIDIA CUDA®‘dan yararlanır. Bu sayede eğitim süresini ve model dağıtımını günlerden dakikalara düşürür.
RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerin, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlayabilmek çok önemlidir.
RAPIDS bulutta veya kurum içi dahil olmak üzere her yerde çalıştırılabilir. İş istasyonundan çok GPU’lu, çok düğümlü yığınlara kadar kolayca ölçeklendirebilir ve Dask, Spark, MLFlow ve Kubernetes üzerinde çalıştırılabilir.
YÜKSEK PERFORMANSLI EKOSİSTEM OLUŞTURUN
RAPIDS, veri bilimi işlem hatlarını tamamen GPU’larda yürütmek için bir açık kaynaklı yazılım kütüphaneler ve API’ler paketidir. Eğitim sürelerini günlerden dakikalara indirebilir. NVIDIA® CUDA-X AI™ üzerine inşa edilen RAPIDS, grafik, makine öğrenimi, derin öğrenme, yüksek başarımlı hesaplama (HPC) ve daha birçok alanda yıllarca geliştirmeden elde edilen bilgileri bir araya getirir.
Veri bilimi projelerinde sonuçlara ulaşma hızı hayati önem taşır. RAPIDS, tüm veri bilimi eğitim işlem hattını GPU’larda çalıştırarak iş akışlarınızı hızlandırmak için NVIDIA CUDA®‘dan yararlanır. Bu sayede eğitim süresini ve model dağıtımını günlerden dakikalara düşürür.
RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerin, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlayabilmek çok önemlidir.
RAPIDS bulutta veya kurum içi dahil olmak üzere her yerde çalıştırılabilir. İş istasyonundan çok GPU’lu, çok düğümlü yığınlara kadar kolayca ölçeklendirebilir ve Dask, Spark, MLFlow ve Kubernetes üzerinde çalıştırılabilir.
Büyük Veri İşlerinde Yıldırımlar ile Yarışan Performans
Test sonuçları, GPU’ların küçük ve büyük ölçek büyük veri analiz problemlerini çözerken önemli ölçüde zaman ve maliyet tasarrufu sağladığını gösteriyor. 10 terabayt ölçeğinde Pandas ve Dask gibi API’leri kullanan RAPIDS, GPU’larda en iyi CPU tabanlı çözümlere göre 20 kata kadar daha hızlı performans gösterir. 350 CPU tabanlı sunucunun performansını, sadece 16 NVIDIA DGX A100 kullanarak elde edilebilen NVIDIA çözümü, HPC düzeyinde performans sunarken 7 kat daha uygun maliyetlidir.
Büyük Veri İşlerinde Yıldırımlar ile Yarışan Performans
Test sonuçları, GPU’ların küçük ve büyük ölçek büyük veri analiz problemlerini çözerken önemli ölçüde zaman ve maliyet tasarrufu sağladığını gösteriyor. 10 terabayt ölçeğinde Pandas ve Dask gibi API’leri kullanan RAPIDS, GPU’larda en iyi CPU tabanlı çözümlere göre 20 kata kadar daha hızlı performans gösterir. 350 CPU tabanlı sunucunun performansını, sadece 16 NVIDIA DGX A100 kullanarak elde edilebilen NVIDIA çözümü, HPC düzeyinde performans sunarken 7 kat daha uygun maliyetlidir.
DAHA HIZLI VERİ ERİŞİMİ, DAHA AZ VERİ HAREKETİ
Yaygın veri işleme görevlerinin, Hadoop’un verimli bir şekilde işleyemediği veri işlem hatları vardır. Apache Spark, tüm verileri sistem belleğinde tutarak daha esnek ve karmaşık veri işlem hatlarına izin vererek bu sorunu çözdü, fakat bu çözüm yeni darboğazları beraberinde getirdi. Yüzlerce CPU düğümüne sahip Spark kümelerinde birkaç yüz gigabaytlık (GB) veriyi analiz etmek bile günler olmasa da saatler alabilir. Veri biliminin potansiyelinden %100 yararlanmak için GPU’ların, hesaplama, ağ, depolama, dağıtım ve yazılımdan oluşan veri merkezi tasarımının merkezinde olması gerekir. Genel olarak, GPU’lardaki uçtan uca veri bilimi iş akışları, CPU’lardan 10 kat daha hızlıdır.
Veri İşleme Evrimi
RAPIDS HER YERDE
RAPIDS, yüksek performanslı veri bilimi ekosistemi için bir temel sağlar ve birlikte çalışabilirlik yöntemiyle yeni kütüphanelerin giriş engelini azaltır. Apache Spark, cuPY, Dask ve Numba gibi önde gelen veri bilimi kütüphanelerinin yanı sıra PyTorch, TensorFlow ve Apache MxNet gibi çok sayıda derin öğrenme kütüphanesiyle entegrasyonu kolaylaştırır. RAPIDS ve ilgili kütüphaneleri NGC kataloğunda bulabilirsiniz.
ÖNE ÇIKAN PROJELER
BlazingSQL, GPU’lardaki büyük veri setlerine ETL işlemi için RAPIDS üzerinde inşa edilmiş, Python ile yazılmış bir dağıtılmış yüksek performanslı SQL motorudur.
RAPIDS üzerinde oluşturulan NVTabular, GPU’lardaki öneri sistemleri için özellik mühendisliği işlemlerini ve ön işlemeyi hızlandırır.
RAPIDS ile entegre olan Plotly Dash, tek bir GPU’da bile çok gigabaytlık veri setlerinin gerçek zamanlı, etkileşimli görsel analizini sağlar.
Apache Spark için RAPIDS hızlandırıcı, RAPIDS ve UCX yazılımı sayesinde işlemeyi hızlandırmak için GPU’lardan yararlanan Apache Spark’a bir dizi eklenti sağlar.
RAPIDS HER YERDE
RAPIDS, yüksek performanslı veri bilimi ekosistemi için bir temel sağlar ve birlikte çalışabilirlik yöntemiyle yeni kütüphanelerin giriş engelini azaltır. Apache Spark, cuPY, Dask ve Numba gibi önde gelen veri bilimi kütüphanelerinin yanı sıra PyTorch, TensorFlow ve Apache MxNet gibi çok sayıda derin öğrenme kütüphanesiyle entegrasyonu kolaylaştırır. RAPIDS ve ilgili kütüphaneleri NGC kataloğunda bulabilirsiniz.
ÖNE ÇIKAN PROJELER
BlazingSQL, GPU’lardaki büyük veri setlerine ETL işlemi için RAPIDS üzerinde inşa edilmiş, Python ile yazılmış bir dağıtılmış yüksek performanslı SQL motorudur.
RAPIDS üzerinde oluşturulan NVTabular, GPU’lardaki öneri sistemleri için özellik mühendisliği işlemlerini ve ön işlemeyi hızlandırır.
RAPIDS ile entegre olan Plotly Dash, tek bir GPU’da bile çok gigabaytlık veri setlerinin gerçek zamanlı, etkileşimli görsel analizini sağlar.
Apache Spark için RAPIDS hızlandırıcı, RAPIDS ve UCX yazılımı sayesinde işlemeyi hızlandırmak için GPU’lardan yararlanan Apache Spark’a bir dizi eklenti sağlar.
ÇEKİRDEĞİNDEKİ TEKNOLOJİ
RAPIDS, düşük seviyeli hesaplama optimizasyonu için CUDA temel öğelerine güvenir, fakat kullanıcı dostu Python arabirimleri aracılığıyla bu GPU paralelliğini ve yüksek bellek bant genişliğini ortaya çıkarabilir. RAPIDS, veri yükleme, ön işleme, makine öğrenimi, grafik analizi ve görselleştirme gibi uçtan uca veri bilimi iş akışlarını destekler. Kurumsal büyük veri kullanım senaryolarına göre ölçeklenen tamamen işlevsel bir Python yığınıdır.
Veri Yükleme ve Ön İşleme
RAPIDS’in veri yükleme, ön işleme ve ETL özellikleri, veri bilimcilerin bildiği Pandas benzeri bir API’de verileri yüklemek, birleştirmek, toplamak, filtrelemek ve başka şekillerde işlemek için Apache Arrow üzerinde oluşturulmuştur. Kullanıcılar, 10 kat veya daha fazla hızlanma elde edebilirler.
Makine Öğrenmesi
RAPIDS’in makine öğrenimi algoritmaları ve matematiksel temelleri, scikit-learn benzeri bir API’yi takip eder. XGBoost, Random Forest ve diğerleri gibi popüler araçlar, hem tek GPU hem de büyük veri merkezi dağıtımları için desteklenir. GPU tabanlı olan bu uygulamalar, büyük veri setlerinde CPU eşdeğerlerinden 10-50 kat daha hızlı çalışabilir.
Graph Analytics
RAPIDS’in PageRank gibi grafik algoritmaları ve NetworkX gibi işlevleri, büyük grafiklerin analizini 1000 kattan fazla hızlandırmak için GPU’ların devasa paralelliğinden yüksek düzeyde yararlanır. Tek bir NVIDIA A100 Tensor Core GPU’da 200 milyona kadar kenar oluşturabilir ve NVIDIA DGX™ A100 kümelerinde milyarlarca kenara kadar ölçeklendirilebilir.
ÇEKİRDEĞİNDEKİ TEKNOLOJİ
RAPIDS, düşük seviyeli hesaplama optimizasyonu için CUDA temel öğelerine güvenir, fakat kullanıcı dostu Python arabirimleri aracılığıyla bu GPU paralelliğini ve yüksek bellek bant genişliğini ortaya çıkarabilir. RAPIDS, veri yükleme, ön işleme, makine öğrenimi, grafik analizi ve görselleştirme gibi uçtan uca veri bilimi iş akışlarını destekler. Kurumsal büyük veri kullanım senaryolarına göre ölçeklenen tamamen işlevsel bir Python yığınıdır.
Veri Yükleme ve Ön İşleme
RAPIDS’in veri yükleme, ön işleme ve ETL özellikleri, veri bilimcilerin bildiği Pandas benzeri bir API’de verileri yüklemek, birleştirmek, toplamak, filtrelemek ve başka şekillerde işlemek için Apache Arrow üzerinde oluşturulmuştur. Kullanıcılar, 10 kat veya daha fazla hızlanma elde edebilirler.
Makine Öğrenmesi
RAPIDS’in makine öğrenimi algoritmaları ve matematiksel temelleri, scikit-learn benzeri bir API’yi takip eder. XGBoost, Random Forest ve diğerleri gibi popüler araçlar, hem tek GPU hem de büyük veri merkezi dağıtımları için desteklenir. GPU tabanlı olan bu uygulamalar, büyük veri setlerinde CPU eşdeğerlerinden 10-50 kat daha hızlı çalışabilir.
Graph Analytics
RAPIDS’in PageRank gibi grafik algoritmaları ve NetworkX gibi işlevleri, büyük grafiklerin analizini 1000 kattan fazla hızlandırmak için GPU’ların devasa paralelliğinden yüksek düzeyde yararlanır. Tek bir NVIDIA A100 Tensor Core GPU’da 200 milyona kadar kenar oluşturabilir ve NVIDIA DGX™ A100 kümelerinde milyarlarca kenara kadar ölçeklendirilebilir.
Derin Öğrenme Entegrasyonu
Derin öğrenme, bilgisayarlı görü, doğal dil işleme ve öneri sistemleri gibi alanlarda etkili olsa da kullanımının yaygın olmadığı alanlar da vardır. Kategorik ve sürekli değişkenlerin sütunlarından oluşan tablo veri problemlerinde, genellikle XGBoost, gradyan artırma veya doğrusal modeller gibi teknikleri kullanır. RAPIDS, GPU’lardaki tablo verilerinin ön işlenmesini kolaylaştırır ve doğrudan PyTorch, TensorFlow ve MxNet gibi DLPack’i destekleyen herhangi bir kütüphaneye sorunsuz veri aktarımı sağlar. Bu entegrasyonlar, derin öğrenme kütüphanelerinden oluşturulan yeni özellikleri, geri besleme gibi daha önceden olanlar da dahil olmak üzere makine öğrenimi algoritmalarına zengin iş akışları oluşturmak için yeni fırsatlar yaratır.
VERİ BİLİMİ İÇİN MODERN VERİ MERKEZLERİ
Kurumsal AI için optimize veri merkezleri oluşturmanın 5 önemli bileşeni vardır. Tasarımın anahtarı, GPU’ları merkeze yerleştirmektir.
Hesaplama
NVIDIA GPU’lu sistemler, mükemmel hesaplama performanslarıyla AI veri merkezlerinde hesaplama işleminin temel yapı taşıdır. NVIDIA DGX sistemleri, devrimsel nitelikte AI performansı sunar ve ortalama 50 dual-socket CPU sunucusunun yerini alabilir. Bu, veri bilimcilerine verinin analiz edilmesi için sektörün en güçlü araçlarını sunmanın ilk adımıdır.
Yazılım
RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerine, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlamak çok önemlidir.
Ağ
NVIDIA Mellanox® ağ arabirim denetleyicilerinde (NIC’ler), NCCL2’de (NVIDIA toplu iletişim kitaplığı) ve OpenUCX’te (açık kaynaklı bir noktadan noktaya iletişim kütüphanesi) uzaktan doğrudan bellek erişimi (RDMA) eğitim hızında muazzam gelişmelere yol açmıştır. GPU’ların düğümler arasında saniyede 100 gigabit’e (Gb/sn) kadar doğrudan iletişim kurmasına izin veren RDMA ile birden çok düğüme yayılabilir ve tek bir büyük sunucudaymış gibi çalışabilirler.
Çalıştırma
Şirketler, işlem hatlarını ölçeğe taşımak için Kubernetes ve Docker konteynerleri tercih ediyor. İşletmeler, Kubernetes ile konteynerli uygulamaları birleştirince, projenin önemine göre önceliklerini düzenleyebilir ve AI veri merkezlerine esneklik, güvenilirlik ve ölçeklenebilirlik sağlayabilirler.
Depolama
GPUDirect® Storage, hem NVMe hem de NVMe over Fabric (NVMe-oF) ile verileri, CPU ve sistem belleğinden atlatarak doğrudan GPU’nun okuyup yazmasına olanak tanır. Bu yöntem, CPU ve sistem belleğini diğer görevler için boşaltırken, her bir GPU’ya yüzde 50’ye kadar daha fazla bant genişliğinde daha fazla veriye erişim sağlar.
VERİ BİLİMİ İÇİN MODERN VERİ MERKEZLERİ
Kurumsal AI için optimize veri merkezleri oluşturmanın 5 önemli bileşeni vardır. Tasarımın anahtarı, GPU’ları merkeze yerleştirmektir.
Hesaplama
NVIDIA GPU’lu sistemler, mükemmel hesaplama performanslarıyla AI veri merkezlerinde hesaplama işleminin temel yapı taşıdır. NVIDIA DGX sistemleri, devrimsel nitelikte AI performansı sunar ve ortalama 50 dual-socket CPU sunucusunun yerini alabilir. Bu, veri bilimcilerine verinin analiz edilmesi için sektörün en güçlü araçlarını sunmanın ilk adımıdır.
Yazılım
RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerine, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlamak çok önemlidir.
Ağ
NVIDIA Mellanox® ağ arabirim denetleyicilerinde (NIC’ler), NCCL2’de (NVIDIA toplu iletişim kitaplığı) ve OpenUCX’te (açık kaynaklı bir noktadan noktaya iletişim kütüphanesi) uzaktan doğrudan bellek erişimi (RDMA) eğitim hızında muazzam gelişmelere yol açmıştır. GPU’ların düğümler arasında saniyede 100 gigabit’e (Gb/sn) kadar doğrudan iletişim kurmasına izin veren RDMA ile birden çok düğüme yayılabilir ve tek bir büyük sunucudaymış gibi çalışabilirler.
Çalıştırma
Şirketler, işlem hatlarını ölçeğe taşımak için Kubernetes ve Docker konteynerleri tercih ediyor. İşletmeler, Kubernetes ile konteynerli uygulamaları birleştirince, projenin önemine göre önceliklerini düzenleyebilir ve AI veri merkezlerine esneklik, güvenilirlik ve ölçeklenebilirlik sağlayabilirler.
Depolama
GPUDirect® Storage, hem NVMe hem de NVMe over Fabric (NVMe-oF) ile verileri, CPU ve sistem belleğinden atlatarak doğrudan GPU’nun okuyup yazmasına olanak tanır. Bu yöntem, CPU ve sistem belleğini diğer görevler için boşaltırken, her bir GPU’ya yüzde 50’ye kadar daha fazla bant genişliğinde daha fazla veriye erişim sağlar.
Açık Kaynak Veri Bilimi
NVIDIA, açık kaynak ekosistemi için veri bilimini basitleştirmeye, birleştirmeye ve hızlandırmaya kendini adamıştır. NVIDIA, veri bilimi için darboğazları ortadan kaldırarak ve donanımdan yazılıma kadar tüm yığını optimize ederek, her yerde veri bilimcilerinin daha azıyla daha fazlasını yapmasını sağlıyor. RAPIDS, Apache 2.0 açık kaynaklı yazılımı olarak, GPU’lar üzerinde bir ekosistemi bir araya getiriyor.