Veri Analizleri, Makine Öğrenmesi ve Derin Öğrenme İşlem Hatları İçin
GPU HIZLANDIRMALI APACHE SPARK
Kod değişikliği yapmadan, Apache Spark 3 veri bilimi işlem hatlarınızı GPU desteğiyle hızlandırın. Altyapı maliyetlerini önemli ölçüde azaltırken veri işlemeyi ve model eğitimini hızlandırın.
NEDEN APACHE SPARK?
Apache Spark, dağıtılmış ölçeklenebilir veri işleme için endüstri standartı kütüphane haline geldi. Kurumlar Spark ile verileri düzenlemek ve dönüştürmek veya verileri analiz etmek ve iş içgörüleri oluşturmak için bir sunucu çiftliğini kullanarak kısa sürede büyük miktarda veriyi işleyebilir. Spark, çeşitli kaynaklardan gelen büyük veri kümeleri üzerinde ETL (ayıklama, dönüştürme, yükleme), makine öğrenimi (ML) ve grafik işleme için kullanımı kolay bir dizi API sağlar. Spark günümüzde hem şirket içinde hem de bulutta milyonlarca sunucuda çalıştırılıyor.
NVIDIA GPU’LARI ÜZERİNDE ÇALIŞAN SPARK’IN TEMEL AVANTAJLARI
Daha Hızlı Çalıştırma Zamanı
İşlem hattının bir sonraki aşamasına hızla geçmek için veri hazırlama görevlerinin performansını artırın. Bu sayede, modellerin daha hızlı eğitilmesini sağlarken veri bilimcilerin ve mühendislerin kritik işlemlere odaklanabilir.
AI Analizlerini Düzenleyin
Spark 3, veri alımından model eğitimi ve görselleştirmeye kadar uçtan uca veri işlem hatlarını düzenler. Hem Spark hem de ML/DL (derin öğrenme) kütüphaneleri için aynı GPU hızlandırmalı altyapı kullanılabilir. Ayrı yığınlara olan ihtiyacı ortadan kaldırır ve tüm işlem hattına GPU hızlandırma erişimi sağlar.
Altyapı Maliyetlerini Azaltın
Daha az ile daha fazlasını yapın: NVIDIA® GPU’larında çalışan Spark, CPU’lar ile karşılaştırılınca daha az donanım kullanarak işleri çok daha hızlı tamamlar. Bu sayede kuruluşlar zamandan, kurum içi sermaye maliyetlerinden veya buluttaki operasyonel maliyetlerden tasarruf sağlayabilirler.
SPARK 3 YENİLİKLERİ
Birçok paralel veri işleme görevinin doğası göz önüne alındığında, bir GPU’nun derin öğrenmeli AI iş yüklerini hızlandırma yöntemine benzer şekilde, Spark veri işleme sorguları için GPU mimarisinin kullanılması doğaldır. GPU hızlandırma geliştirici için şeffaftır ve bu avantajları elde etmek için kod değişikliğine ihtiyaç duymaz. Spark 3’teki üç önemli gelişme, şeffaf GPU hızlandırma sağlamaya katkıda bulunmuştur:
Spark 3 için Yeni RAPIDS Hızlandırması
NVIDIA CUDA®, NVIDIA GPU mimarisi üzerinde hesaplama işlemlerini hızlandırmayı destekleyen, devrimsel nitelikte paralel hesaplama mimarisidir. NVIDIA’da geliştirilen RAPIDS, veri bilimi işlem hatlarının GPU hızlandırmasını sağlayan CUDA’nın üzerine yerleştirilmiş açık kaynaklı kütüphaneleri içeren pakettir.
NVIDIA, Spark SQL ve DataFrame işlemlerinin performansını önemli ölçüde iyileştirerek ETL(extract, transform, load) işlem hatlarını yakalayan ve hızlandıran Spark 3 için bir RAPIDS Accelerator oluşturdu.
Spark Bileşenleri için Modifikasyonlar
Spark 3, RAPIDS Accelerator’ın SQL ve DataFrame operatörlerini hızlandırmak için kullandığı Catalyst sorgu iyileştiricisinde sütunlu işleme desteği sağlar. Sorgu planı oluşturulduğunda bu operatörler, Spark yığınındaki GPU’lar üzerinde çalıştırılabilir.
NVIDIA ayrıca Spark süreçleri arasındaki veri aktarımını optimize eden yeni bir Spark shuffle uygulaması oluşturdu. Bu shuffle uygulaması, UCX, RDMA ve NCCL dahil olmak üzere GPU hızlandırmalı iletişim kütüphaneleri üzerine kurulmuştur.
Spark’ta GPU Duyarlı İş Sıralaması
Spark 3, GPU’ları CPU ve sistem belleği ile birlikte birinci sınıf kaynak olarak tanımlar. Bu sayede Spark 3, GPU hızlandırmalı iş yüklerindeki herhangi bir iş hızlandırılmaya ve tamamlanmaya ihtiyaç duyduğunda, gerekli GPU kaynaklarını içeren sunuculara direkt olarak yerleştirmesini sağlar.
NVIDIA mühendisleri, Spark Standalone, YARN ve Kubernetes kümelerindeki GPU kaynaklarında Spark uygulamalarının başlatılmasını sağlayarak bu önemli Spark geliştirmesine katkıda bulundu.
Spark 3’te veri toplama, veri hazırlama ve model eğitimi adımları için artık tek bir işlem hattı kullanabilirsiniz. Veri hazırlama operasyonları artık GPU hızlandırmalı ve veri bilimi altyapısı birleştirildi ve basitleştirildi.
Spark 3’te veri toplama, veri hazırlama ve model eğitimi adımları için artık tek bir işlem hattı kullanabilirsiniz. Veri hazırlama operasyonları artık GPU hızlandırmalı ve veri bilimi altyapısı birleştirildi ve basitleştirildi.
Spark 3’te veri toplama, veri hazırlama ve model eğitimi adımları için artık tek bir işlem hattı kullanabilirsiniz. Veri hazırlama operasyonları artık GPU hızlandırmalı ve veri bilimi altyapısı birleştirildi ve basitleştirildi.
SPARK ÜZERİNDE HIZLANDIRILMIŞ ANALİZ VE AI
Artık ETL işlemleri hızlandırılırken, ML ve DL uygulamaları da aynı GPU altyapısını kullanabiliyor. Spark 3, analitik ve AI için önemli bir eşiği aştığını gösteriyor. Bu hızlandırılmış veri bilimi işlem hattının tam yığını aşağıda gösterilmiştir:
GPU HIZLANDIRMALI SPARK İLE BAŞLAYIN
Apache Spark veri bilimi işlem hatlarınızı GPU ile hızlandırmak için RAPIDS Accelerator for Spark 3’ü indirin. NVIDIA Spark Ekibi ile GitHub üzerinden iletişime geçebilirsiniz.