YÜKSEK PERFORMANSLI VERİ BİLİMİ

Veri bilimi, makine öğrenmesi ve AI iş akışlarınızı kolay bir şekilde hızlandırmak için GPU’ların gücünden faydalanın.

Yüksek hızlı GPU hesaplama ile tüm veri bilimi iş akışlarını çalıştırın. 50 kat daha hızlı uçtan uca veri bilimi işlem hatlarında, veri yükleme, veri işleme ve makine öğrenimini paralel hale getirin.

NEDEN RAPIDS?

Günümüzde veri bilimi ve makine öğrenmesi dünyanın en büyük hesaplama segmenti haline geldi. Artık analitik modellerin doğruluğundaki küçük gelişmeler bile milyarlarca sonuç anlamına geliyor. Veri bilimcilerin yüksek doğruluklu ve performanslı modeller oluşturabilmesi için eğitmek, değerlendirmek, tekrarlamak ve yeniden eğitmek için çalışması gerekir. RAPIDS™, günler süren süreçleri dakikalar içinde tamamlayabiliyor, değer üreten modellerin oluşturulmasını ve devreye alınmasını daha hızlı hale getiriyor.

İş akışlarında, Ham Verileri Eğitim Verilerine dönüştürmenin birçok iterasyonu vardır. Bu iterasyonlar, birçok algoritma kombinasyonuna beslenir. Optimal doğruluk ve performans için doğru model, model parametreleri ve veri özellikleri kombinasyonlarını bulmak için hiper parametre ayarından geçer.

Yüksek hızlı GPU hesaplama ile tüm veri bilimi iş akışlarını çalıştırın. 50 kat daha hızlı uçtan uca veri bilimi işlem hatlarında, veri yükleme, veri işleme ve makine öğrenimini paralel hale getirin.

NEDEN RAPIDS?

Günümüzde veri bilimi ve makine öğrenmesi dünyanın en büyük hesaplama segmenti haline geldi. Artık analitik modellerin doğruluğundaki küçük gelişmeler bile milyarlarca sonuç anlamına geliyor. Veri bilimcilerin yüksek doğruluklu ve performanslı modeller oluşturabilmesi için eğitmek, değerlendirmek, tekrarlamak ve yeniden eğitmek için çalışması gerekir. RAPIDS™, günler süren süreçleri dakikalar içinde tamamlayabiliyor, değer üreten modellerin oluşturulmasını ve devreye alınmasını daha hızlı hale getiriyor.

İş akışlarında, Ham Verileri Eğitim Verilerine dönüştürmenin birçok iterasyonu vardır. Bu iterasyonlar, birçok algoritma kombinasyonuna beslenir. Optimal doğruluk ve performans için doğru model, model parametreleri ve veri özellikleri kombinasyonlarını bulmak için hiper parametre ayarından geçer.

YÜKSEK PERFORMANSLI EKOSİSTEM OLUŞTURUN

RAPIDS, veri bilimi işlem hatlarını tamamen GPU’larda yürütmek için bir açık kaynaklı yazılım kütüphaneler ve API’ler paketidir. Eğitim sürelerini günlerden dakikalara indirebilir. NVIDIA® CUDA-X AI™ üzerine inşa edilen RAPIDS, grafik, makine öğrenimi, derin öğrenme, yüksek başarımlı hesaplama (HPC) ve daha birçok alanda yıllarca geliştirmeden elde edilen bilgileri bir araya getirir.

Veri bilimi projelerinde sonuçlara ulaşma hızı hayati önem taşır. RAPIDS, tüm veri bilimi eğitim işlem hattını GPU’larda çalıştırarak iş akışlarınızı hızlandırmak için NVIDIA CUDA®‘dan yararlanır. Bu sayede eğitim süresini ve model dağıtımını günlerden dakikalara düşürür.

RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerin, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlayabilmek çok önemlidir.

RAPIDS bulutta veya kurum içi dahil olmak üzere her yerde çalıştırılabilir. İş istasyonundan çok GPU’lu, çok düğümlü yığınlara kadar kolayca ölçeklendirebilir ve Dask, Spark, MLFlow ve Kubernetes üzerinde çalıştırılabilir.

YÜKSEK PERFORMANSLI EKOSİSTEM OLUŞTURUN

RAPIDS, veri bilimi işlem hatlarını tamamen GPU’larda yürütmek için bir açık kaynaklı yazılım kütüphaneler ve API’ler paketidir. Eğitim sürelerini günlerden dakikalara indirebilir. NVIDIA® CUDA-X AI™ üzerine inşa edilen RAPIDS, grafik, makine öğrenimi, derin öğrenme, yüksek başarımlı hesaplama (HPC) ve daha birçok alanda yıllarca geliştirmeden elde edilen bilgileri bir araya getirir.

Veri bilimi projelerinde sonuçlara ulaşma hızı hayati önem taşır. RAPIDS, tüm veri bilimi eğitim işlem hattını GPU’larda çalıştırarak iş akışlarınızı hızlandırmak için NVIDIA CUDA®‘dan yararlanır. Bu sayede eğitim süresini ve model dağıtımını günlerden dakikalara düşürür.

RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerin, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlayabilmek çok önemlidir.

RAPIDS bulutta veya kurum içi dahil olmak üzere her yerde çalıştırılabilir. İş istasyonundan çok GPU’lu, çok düğümlü yığınlara kadar kolayca ölçeklendirebilir ve Dask, Spark, MLFlow ve Kubernetes üzerinde çalıştırılabilir.

Büyük Veri İşlerinde Yıldırımlar ile Yarışan Performans

Test sonuçları, GPU’ların küçük ve büyük ölçek büyük veri analiz problemlerini çözerken önemli ölçüde zaman ve maliyet tasarrufu sağladığını gösteriyor. 10 terabayt ölçeğinde Pandas ve Dask gibi API’leri kullanan RAPIDS, GPU’larda en iyi CPU tabanlı çözümlere göre 20 kata kadar daha hızlı performans gösterir. 350 CPU tabanlı sunucunun performansını, sadece 16 NVIDIA DGX A100 kullanarak elde edilebilen NVIDIA çözümü, HPC düzeyinde performans sunarken 7 kat daha uygun maliyetlidir.

Blog Haberini Okuyun >

Büyük Veri İşlerinde Yıldırımlar ile Yarışan Performans

Test sonuçları, GPU’ların küçük ve büyük ölçek büyük veri analiz problemlerini çözerken önemli ölçüde zaman ve maliyet tasarrufu sağladığını gösteriyor. 10 terabayt ölçeğinde Pandas ve Dask gibi API’leri kullanan RAPIDS, GPU’larda en iyi CPU tabanlı çözümlere göre 20 kata kadar daha hızlı performans gösterir. 350 CPU tabanlı sunucunun performansını, sadece 16 NVIDIA DGX A100 kullanarak elde edilebilen NVIDIA çözümü, HPC düzeyinde performans sunarken 7 kat daha uygun maliyetlidir.

Blog Haberini Okuyun >

DAHA HIZLI VERİ ERİŞİMİ, DAHA AZ VERİ HAREKETİ

Yaygın veri işleme görevlerinin, Hadoop’un verimli bir şekilde işleyemediği veri işlem hatları vardır. Apache Spark, tüm verileri sistem belleğinde tutarak daha esnek ve karmaşık veri işlem hatlarına izin vererek bu sorunu çözdü, fakat bu çözüm yeni darboğazları beraberinde getirdi. Yüzlerce CPU düğümüne sahip Spark kümelerinde birkaç yüz gigabaytlık (GB) veriyi analiz etmek bile günler olmasa da saatler alabilir. Veri biliminin potansiyelinden %100 yararlanmak için GPU’ların, hesaplama, ağ, depolama, dağıtım ve yazılımdan oluşan veri merkezi tasarımının merkezinde olması gerekir. Genel olarak, GPU’lardaki uçtan uca veri bilimi iş akışları, CPU’lardan 10 kat daha hızlıdır.

Blog Haberini Okuyun >

Veri İşleme Evrimi

RAPIDS HER YERDE

RAPIDS, yüksek performanslı veri bilimi ekosistemi için bir temel sağlar ve birlikte çalışabilirlik yöntemiyle yeni kütüphanelerin giriş engelini azaltır. Apache Spark, cuPY, Dask ve Numba gibi önde gelen veri bilimi kütüphanelerinin yanı sıra PyTorch, TensorFlow ve Apache MxNet gibi çok sayıda derin öğrenme kütüphanesiyle entegrasyonu kolaylaştırır. RAPIDS ve ilgili kütüphaneleri NGC kataloğunda bulabilirsiniz.

ÖNE ÇIKAN PROJELER

BlazingSQL, GPU’lardaki büyük veri setlerine ETL işlemi için RAPIDS üzerinde inşa edilmiş, Python ile yazılmış bir dağıtılmış yüksek performanslı SQL motorudur.

RAPIDS üzerinde oluşturulan NVTabular, GPU’lardaki öneri sistemleri için özellik mühendisliği işlemlerini ve ön işlemeyi hızlandırır.

Python dilinde yazılmış, RAPIDS üzerinde oluşturulmuş ve Streamz tabanlı olan cuStreamz, GPU’lardaki veri akışı işlemini hızlandırır.

RAPIDS ile entegre olan Plotly Dash, tek bir GPU’da bile çok gigabaytlık veri setlerinin gerçek zamanlı, etkileşimli görsel analizini sağlar.

Apache Spark için RAPIDS hızlandırıcı, RAPIDS ve UCX yazılımı sayesinde işlemeyi hızlandırmak için GPU’lardan yararlanan Apache Spark’a bir dizi eklenti sağlar.

RAPIDS HER YERDE

RAPIDS, yüksek performanslı veri bilimi ekosistemi için bir temel sağlar ve birlikte çalışabilirlik yöntemiyle yeni kütüphanelerin giriş engelini azaltır. Apache Spark, cuPY, Dask ve Numba gibi önde gelen veri bilimi kütüphanelerinin yanı sıra PyTorch, TensorFlow ve Apache MxNet gibi çok sayıda derin öğrenme kütüphanesiyle entegrasyonu kolaylaştırır. RAPIDS ve ilgili kütüphaneleri NGC kataloğunda bulabilirsiniz.

ÖNE ÇIKAN PROJELER

BlazingSQL, GPU’lardaki büyük veri setlerine ETL işlemi için RAPIDS üzerinde inşa edilmiş, Python ile yazılmış bir dağıtılmış yüksek performanslı SQL motorudur.

RAPIDS üzerinde oluşturulan NVTabular, GPU’lardaki öneri sistemleri için özellik mühendisliği işlemlerini ve ön işlemeyi hızlandırır.

Python dilinde yazılmış, RAPIDS üzerinde oluşturulmuş ve Streamz tabanlı olan cuStreamz, GPU’lardaki veri akışı işlemini hızlandırır.

RAPIDS ile entegre olan Plotly Dash, tek bir GPU’da bile çok gigabaytlık veri setlerinin gerçek zamanlı, etkileşimli görsel analizini sağlar.

Apache Spark için RAPIDS hızlandırıcı, RAPIDS ve UCX yazılımı sayesinde işlemeyi hızlandırmak için GPU’lardan yararlanan Apache Spark’a bir dizi eklenti sağlar.

ÇEKİRDEĞİNDEKİ TEKNOLOJİ

RAPIDS, düşük seviyeli hesaplama optimizasyonu için CUDA temel öğelerine güvenir, fakat kullanıcı dostu Python arabirimleri aracılığıyla bu GPU paralelliğini ve yüksek bellek bant genişliğini ortaya çıkarabilir. RAPIDS, veri yükleme, ön işleme, makine öğrenimi, grafik analizi ve görselleştirme gibi uçtan uca veri bilimi iş akışlarını destekler. Kurumsal büyük veri kullanım senaryolarına göre ölçeklenen tamamen işlevsel bir Python yığınıdır.

Veri Yükleme ve Ön İşleme

RAPIDS’in veri yükleme, ön işleme ve ETL özellikleri, veri bilimcilerin bildiği Pandas benzeri bir API’de verileri yüklemek, birleştirmek, toplamak, filtrelemek ve başka şekillerde işlemek için Apache Arrow üzerinde oluşturulmuştur. Kullanıcılar, 10 kat veya daha fazla hızlanma elde edebilirler.

Makine Öğrenmesi

RAPIDS’in makine öğrenimi algoritmaları ve matematiksel temelleri, scikit-learn benzeri bir API’yi takip eder. XGBoost, Random Forest ve diğerleri gibi popüler araçlar, hem tek GPU hem de büyük veri merkezi dağıtımları için desteklenir. GPU tabanlı olan bu uygulamalar, büyük veri setlerinde CPU eşdeğerlerinden 10-50 kat daha hızlı çalışabilir.

Graph Analytics

RAPIDS’in PageRank gibi grafik algoritmaları ve NetworkX gibi işlevleri, büyük grafiklerin analizini 1000 kattan fazla hızlandırmak için GPU’ların devasa paralelliğinden yüksek düzeyde yararlanır. Tek bir NVIDIA A100 Tensor Core GPU’da 200 milyona kadar kenar oluşturabilir ve NVIDIA DGX™ A100 kümelerinde milyarlarca kenara kadar ölçeklendirilebilir.

Görselleştirme

RAPIDS’in görselleştirme özellikleri, GPU hızlandırmalı çapraz filtrelemeyi destekler. Orijinal JavaScript sürümünden ilham alarak, 100 milyondan fazla satır tablo veri setlerinin etkileşimli ve süper hızlı çok boyutlu filtrelemesini sağlar.

ÇEKİRDEĞİNDEKİ TEKNOLOJİ

RAPIDS, düşük seviyeli hesaplama optimizasyonu için CUDA temel öğelerine güvenir, fakat kullanıcı dostu Python arabirimleri aracılığıyla bu GPU paralelliğini ve yüksek bellek bant genişliğini ortaya çıkarabilir. RAPIDS, veri yükleme, ön işleme, makine öğrenimi, grafik analizi ve görselleştirme gibi uçtan uca veri bilimi iş akışlarını destekler. Kurumsal büyük veri kullanım senaryolarına göre ölçeklenen tamamen işlevsel bir Python yığınıdır.

Veri Yükleme ve Ön İşleme

RAPIDS’in veri yükleme, ön işleme ve ETL özellikleri, veri bilimcilerin bildiği Pandas benzeri bir API’de verileri yüklemek, birleştirmek, toplamak, filtrelemek ve başka şekillerde işlemek için Apache Arrow üzerinde oluşturulmuştur. Kullanıcılar, 10 kat veya daha fazla hızlanma elde edebilirler.

Makine Öğrenmesi

RAPIDS’in makine öğrenimi algoritmaları ve matematiksel temelleri, scikit-learn benzeri bir API’yi takip eder. XGBoost, Random Forest ve diğerleri gibi popüler araçlar, hem tek GPU hem de büyük veri merkezi dağıtımları için desteklenir. GPU tabanlı olan bu uygulamalar, büyük veri setlerinde CPU eşdeğerlerinden 10-50 kat daha hızlı çalışabilir.

Graph Analytics

RAPIDS’in PageRank gibi grafik algoritmaları ve NetworkX gibi işlevleri, büyük grafiklerin analizini 1000 kattan fazla hızlandırmak için GPU’ların devasa paralelliğinden yüksek düzeyde yararlanır. Tek bir NVIDIA A100 Tensor Core GPU’da 200 milyona kadar kenar oluşturabilir ve NVIDIA DGX™ A100 kümelerinde milyarlarca kenara kadar ölçeklendirilebilir.

Görselleştirme

RAPIDS’in görselleştirme özellikleri, GPU hızlandırmalı çapraz filtrelemeyi destekler. Orijinal JavaScript sürümünden ilham alarak, 100 milyondan fazla satır tablo veri setlerinin etkileşimli ve süper hızlı çok boyutlu filtrelemesini sağlar.

Derin Öğrenme Entegrasyonu

Derin öğrenme, bilgisayarlı görü, doğal dil işleme ve öneri sistemleri gibi alanlarda etkili olsa da kullanımının yaygın olmadığı alanlar da vardır. Kategorik ve sürekli değişkenlerin sütunlarından oluşan tablo veri problemlerinde, genellikle XGBoost, gradyan artırma veya doğrusal modeller gibi teknikleri kullanır. RAPIDS, GPU’lardaki tablo verilerinin ön işlenmesini kolaylaştırır ve doğrudan PyTorch, TensorFlow ve MxNet gibi DLPack’i destekleyen herhangi bir kütüphaneye sorunsuz veri aktarımı sağlar. Bu entegrasyonlar, derin öğrenme kütüphanelerinden oluşturulan yeni özellikleri, geri besleme gibi daha önceden olanlar da dahil olmak üzere makine öğrenimi algoritmalarına zengin iş akışları oluşturmak için yeni fırsatlar yaratır.

VERİ BİLİMİ İÇİN MODERN VERİ MERKEZLERİ

Kurumsal AI için optimize veri merkezleri oluşturmanın 5 önemli bileşeni vardır. Tasarımın anahtarı, GPU’ları merkeze yerleştirmektir.

Hesaplama

NVIDIA GPU’lu sistemler, mükemmel hesaplama performanslarıyla AI veri merkezlerinde hesaplama işleminin temel yapı taşıdır. NVIDIA DGX sistemleri, devrimsel nitelikte AI performansı sunar ve ortalama 50 dual-socket CPU sunucusunun yerini alabilir. Bu, veri bilimcilerine verinin analiz edilmesi için sektörün en güçlü araçlarını sunmanın ilk adımıdır.

Yazılım

RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerine, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlamak çok önemlidir.

NVIDIA Mellanox® ağ arabirim denetleyicilerinde (NIC’ler), NCCL2’de (NVIDIA toplu iletişim kitaplığı) ve OpenUCX’te (açık kaynaklı bir noktadan noktaya iletişim kütüphanesi) uzaktan doğrudan bellek erişimi (RDMA) eğitim hızında muazzam gelişmelere yol açmıştır. GPU’ların düğümler arasında saniyede 100 gigabit’e (Gb/sn) kadar doğrudan iletişim kurmasına izin veren RDMA ile birden çok düğüme yayılabilir ve tek bir büyük sunucudaymış gibi çalışabilirler.

Çalıştırma

Şirketler, işlem hatlarını ölçeğe taşımak için Kubernetes ve Docker konteynerleri tercih ediyor. İşletmeler, Kubernetes ile konteynerli uygulamaları birleştirince, projenin önemine göre önceliklerini düzenleyebilir ve AI veri merkezlerine esneklik, güvenilirlik ve ölçeklenebilirlik sağlayabilirler.

Depolama

GPUDirect® Storage, hem NVMe hem de NVMe over Fabric (NVMe-oF) ile verileri, CPU ve sistem belleğinden atlatarak doğrudan GPU’nun okuyup yazmasına olanak tanır. Bu yöntem, CPU ve sistem belleğini diğer görevler için boşaltırken, her bir GPU’ya yüzde 50’ye kadar daha fazla bant genişliğinde daha fazla veriye erişim sağlar.

VERİ BİLİMİ İÇİN MODERN VERİ MERKEZLERİ

Kurumsal AI için optimize veri merkezleri oluşturmanın 5 önemli bileşeni vardır. Tasarımın anahtarı, GPU’ları merkeze yerleştirmektir.

Hesaplama

NVIDIA GPU’lu sistemler, mükemmel hesaplama performanslarıyla AI veri merkezlerinde hesaplama işleminin temel yapı taşıdır. NVIDIA DGX sistemleri, devrimsel nitelikte AI performansı sunar ve ortalama 50 dual-socket CPU sunucusunun yerini alabilir. Bu, veri bilimcilerine verinin analiz edilmesi için sektörün en güçlü araçlarını sunmanın ilk adımıdır.

Yazılım

RAPIDS, veri merkezi mimarisinde GPU ile çalışmanın karmaşıklığını ve hatta arka plandaki iletişim protokollerini gizleyerek, veri bilimi projelerini hayata geçirmenin basit bir yolunu oluşturur. Python ve diğer üst düzey dilleri kullanan veri bilimcilerine, geliştirme süresini hızla iyileştirmek için kod değişikliği olmadan hızlandırma sağlamak çok önemlidir.

NVIDIA Mellanox® ağ arabirim denetleyicilerinde (NIC’ler), NCCL2’de (NVIDIA toplu iletişim kitaplığı) ve OpenUCX’te (açık kaynaklı bir noktadan noktaya iletişim kütüphanesi) uzaktan doğrudan bellek erişimi (RDMA) eğitim hızında muazzam gelişmelere yol açmıştır. GPU’ların düğümler arasında saniyede 100 gigabit’e (Gb/sn) kadar doğrudan iletişim kurmasına izin veren RDMA ile birden çok düğüme yayılabilir ve tek bir büyük sunucudaymış gibi çalışabilirler.

Çalıştırma

Şirketler, işlem hatlarını ölçeğe taşımak için Kubernetes ve Docker konteynerleri tercih ediyor. İşletmeler, Kubernetes ile konteynerli uygulamaları birleştirince, projenin önemine göre önceliklerini düzenleyebilir ve AI veri merkezlerine esneklik, güvenilirlik ve ölçeklenebilirlik sağlayabilirler.

Depolama

GPUDirect® Storage, hem NVMe hem de NVMe over Fabric (NVMe-oF) ile verileri, CPU ve sistem belleğinden atlatarak doğrudan GPU’nun okuyup yazmasına olanak tanır. Bu yöntem, CPU ve sistem belleğini diğer görevler için boşaltırken, her bir GPU’ya yüzde 50’ye kadar daha fazla bant genişliğinde daha fazla veriye erişim sağlar.

Açık Kaynak Veri Bilimi

NVIDIA, açık kaynak ekosistemi için veri bilimini basitleştirmeye, birleştirmeye ve hızlandırmaya kendini adamıştır. NVIDIA, veri bilimi için darboğazları ortadan kaldırarak ve donanımdan yazılıma kadar tüm yığını optimize ederek, her yerde veri bilimcilerinin daha azıyla daha fazlasını yapmasını sağlıyor. RAPIDS, Apache 2.0 açık kaynaklı yazılımı olarak, GPU’lar üzerinde bir ekosistemi bir araya getiriyor.

HEMEN BAŞLAYIN

NVIDIA NIM: Yapay Zeka Modellerinin Dağıtımı için Mikro Hizmetler

NVIDIA, hızlı çıkarım için modeller sunmaya yönelik yeni bir yaklaşımla büyük dil modellerinin (LLM'ler) dağıtımını önemli ölçüde hızlandırmayı ve optimize etmeyi hedefliyor. NVIDIA CEO'su Jensen Huangh, NVIDIA GTC24 açılış...

İnsansı Robotlar için Yapay Zeka Platformu: NVIDIA GR00T

NVIDIA'nın kurucusu ve CEO'su Jensen Huang, insansı robotlar için temel modeller oluşturmanın bugün yapay zekada çözülmesi gereken en heyecan verici sorunlardan biri olduğunu söyledi. Jensen, genel robot biliminin geleceğini yeniden şeki...

NVIDIA Blackwell GPU’yu Tanıttı

NVIDIA Blackwell, yeni bir hesaplama çağının kapılarını aralıyor! NVIDIA bugün GTC açılış konuşmasında NVIDIA Blackwell platformunun geldiğini duyurdu. NVIDIA Blackwell, kuruluşlara her yerde trilyon-parametreli büyük dil modelleri...