Teknoloji Haberleri

İşlemciler Yeni Algoritma İle Yapay Zeka İşlerinde GPU’ları Yeniyor

Yapay zeka derin hudut ağları (DNN) eğitimi kelam konusu olduğunda, grafik sürece ünitelerinin (GPU) birden fazla işlemciden (CPU) kıymetli ölçüde daha yeterli olduğu biliniyor. Bunda daha fazla yürütme ünitesine yahut çekirdeğe sahip olmaları değerli bir etken. Rice Üniversitesi bilgisayar bilimcileri ise sundukları yeni bir algoritma ile işlemcileri yapay zeka işlerinde birtakım öncü GPU’lardan 15 kat daha süratli hale getirdiklerini tez etti.

En karmaşık hesaplama zorlukları çoklukla daha fazla donanım yahut vazifesi çözebilecek özel maksatlı donanım icatları ile çözülüyor. DNN eğitimi de günümüzde en ağır bilgi süreç gerektiren iş yükleri ortasında yer alıyor. Bundan ötürü programcılar, azamî eğitim performansı istiyorlarsa, bu iş yükleri için GPU’ları kullanıyor. Birden fazla algoritma matris çarpımlarına dayandığından, hesaplama GPU’larını kullanarak yüksek performans elde etmek daha kolay.

Rice Üniversitesi Brown Mühendislik Okulu’nda bilgisayar bilimi profesörü olan Yardımcı Doçent Anshumali Shrivastava ve meslektaşları ise çağdaş AVX512 ve AVX512_BF16 aktif işlemcilerde DNN eğitimini büyük ölçüde hızlandırabilecek bir algoritma sunmuş durumda. Bilim insanları bunun için SLIDE (Sub-LInear Deep Learning Engine) isimli akıllı hash rasgele algoritmalarını işlemci üzerinde mütevazı çok çekirdekli paralellik ile birleştiren ve Intel AVX512 ile AVX512-bfloat16 destekleyen işlemciler için ağır bir formda optimize eden C ++ OpenMP tabanlı bir motoru kullanıyor.

Motor, her güncelleme sırasında uyarlamalı olarak nöronları tanımlamak için LSH /Cocality Sensitive Hashhing) kullanıyor ve bu hesaplama performansı ihtiyaçlarını optimize ediyor. Araştırmaya nazaran değişiklik yapılmasa dahi, duvar saati müddeti açısından 200 milyon parametreli bir hudut ağını eğitmenin bir NVIDIA V100 GPU’da optimize edilmiş TensorFlow uygulamasından daha süratli olabileceği söz ediliyor.

Hashing’i daha süratli hale getirmek için, bilim insanları algoritmayı vektörleştirip nicelleştiriyor. Böylelikle Hashing, AVX512 ve AVX512_BF16 motorları tarafından daha uygun işlenebiliyor. Ek olarak, kimi bellek optimizasyonları da uygulanmış. Takım, matris çarpımlarına takılıp kalınmaması durumunda çağdaş işlemcilerin gücünden yararlanılabileceğini ve yapay zeka modellerini en düzgün özel donanımlardan 4 ila 15 kat daha süratli eğitebileceklerini gösterdiklerinin altını çizmiş.

Amazon-670K, WikiLSHTC-325K ve Text8 data kümeleriyle elde ettikleri sonuçlar, optimize edilmiş SLIDE motoruyla hakikaten epeyce umut verici gözüküyor. Intel Cooper Lake (CPX) işlemcisi, NVIDIA Tesla V100’ü Amazon-670K ile yaklaşık 7.8 kat, WikiLSHTC-325K ile yaklaşık 5.2 kat ve Text8 ile yaklaşık 15.5 kat geride bırakabiliyor. Hatta optimize edilmiş bir Cascade Lake (CLX) işlemci bile NVIDIA Tesla V100’ünden 2.55–11.6 kat daha süratli olabiliyor.

IBM’in yapay zeka sistemiyle antibiyotik üretilmesini sağladığını da hatırlatalım.

Kaynak: Technopat

Etiketler
Daha Fazla Göster

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.

Başa dön tuşu
Kapalı