Akselerator perangkat keras — perangkat khusus yang digunakan untuk melakukan tugas tertentu seperti mengklasifikasikan objek — semakin disematkan ke dalam system-on-chip (SoC) yang melayani berbagai aplikasi AI. Mereka membantu membuat prosesor kustom terintegrasi yang menawarkan daya lebih rendah, latensi lebih rendah, penggunaan kembali data, dan lokalitas data.
Sebagai permulaan, penting untuk mempercepat algoritme AI dengan perangkat keras. Akselerator AI dirancang khusus untuk memungkinkan pemrosesan tugas AI yang lebih cepat; mereka melakukan tugas tertentu dengan cara yang tidak mungkin dilakukan oleh prosesor tradisional.
Selain itu, tidak ada prosesor tunggal yang dapat memenuhi beragam kebutuhan aplikasi AI, dan di sini, akselerator perangkat keras yang digabungkan ke dalam chip AI memberikan keunggulan kinerja, efisiensi daya, dan latensi untuk beban kerja tertentu. Itulah sebabnya arsitektur kustom berdasarkan akselerator AI mulai menantang penggunaan CPU dan GPU untuk aplikasi AI.
Perancang chip AI harus menentukan apa yang harus dipercepat, bagaimana mempercepatnya, dan bagaimana menghubungkan fungsionalitas itu dengan jaringan saraf. Di bawah ini adalah cuplikan tren industri utama yang menentukan penggunaan akselerator perangkat keras dalam beban kerja AI yang terus berkembang. Tak pelak, ini dimulai dengan akselerator AI yang tersedia untuk diintegrasikan ke dalam berbagai chip dan kartu AI.
IP akselerator AI
Akselerator perangkat keras digunakan secara luas dalam chip AI untuk mengelompokkan dan mempercepat tugas-tugas intensif data seperti visi komputer dan pembelajaran mendalam untuk aplikasi pelatihan dan inferensi. Inti AI ini mempercepat jaringan saraf pada kerangka kerja AI seperti Caffe, PyTorch, dan TensorFlow.
Gyrfalcon Technology Inc. (GTI) mendesain chip AI dan menyediakan akselerator AI untuk digunakan dalam desain SoC khusus melalui model lisensi IP. Pemula AI yang berbasis di Milpitas, California, masing-masing menawarkan akselerator AI Lightspeeur 2801 dan 2803 untuk aplikasi edge dan cloud.
Penting untuk dicatat bahwa Gyrfalcon juga telah mengembangkan chip AI di sekitar akselerator perangkat keras ini, dan itu membuat IP akselerator AI ini terbukti silikon. Chip AI 2801 perusahaan untuk desain edge melakukan operasi 9,3 tera per detik per watt (TOPS/W), sedangkan chip AI 2803 untuk aplikasi pusat data dapat menghasilkan 24 TOPS/W.
Bersama dengan alat pengembangan IP dan dokumentasi teknis, Gyrfalcon memberi desainer AI dongle USB 3.0 untuk pembuatan model, evaluasi chip, dan desain proof-of-concept. Penerima lisensi dapat menggunakan dongle ini di PC Windows dan Linux serta pada kit pengembangan perangkat keras seperti Raspberry Pi.
Arsitektur perangkat keras
Premis dasar akselerator AI adalah memproses algoritme lebih cepat dari sebelumnya sambil menggunakan daya sesedikit mungkin. Mereka melakukan akselerasi di tepi, di pusat data, atau di antara keduanya. Dan akselerator AI dapat melakukan tugas ini di ASIC, GPU, FPGA, DSP, atau versi hibrida dari perangkat ini.
Itu pasti mengarah ke beberapa arsitektur akselerator perangkat keras yang dioptimalkan untuk pembelajaran mesin (ML), pembelajaran mendalam, pemrosesan bahasa alami, dan beban kerja AI lainnya. Misalnya, beberapa ASIC dirancang untuk berjalan di jaringan saraf dalam (DNN), yang, pada gilirannya, dapat dilatih pada GPU atau ASIC lain.
Apa yang membuat arsitektur akselerator AI menjadi penting adalah kenyataan bahwa tugas AI bisa sangat paralel. Selain itu, desain akselerator AI terjalin dengan implementasi multi-inti, dan itu menekankan pentingnya arsitektur akselerator AI.
Selanjutnya, desain AI mengiris algoritme lebih halus dan lebih halus dengan menambahkan lebih banyak akselerator yang dibuat khusus untuk meningkatkan efisiensi jaringan saraf. Semakin spesifik kasus penggunaan, semakin banyak peluang untuk penggunaan granular berbagai jenis akselerator perangkat keras.
Di sini, perlu disebutkan bahwa selain akselerator AI yang dimasukkan ke dalam chip khusus, kartu akselerator juga digunakan untuk meningkatkan kinerja dan mengurangi latensi di server cloud dan pusat data di lokasi. Kartu akselerator Alveo dari Xilinx Inc., misalnya, dapat secara radikal mempercepat pencarian basis data, pemrosesan video, dan analisis data dibandingkan dengan CPU (Gbr. 1 ).
Gbr. 1:Kartu akselerator Alveo U250 meningkatkan throughput inferensi real-time sebesar 20× dibandingkan CPU kelas atas dan mengurangi latensi sub-2 ms lebih dari 4× dibandingkan dengan akselerator fungsi tetap seperti GPU kelas atas. (Gambar:Xilinx Inc.)
Kemampuan Program
Ada banyak perubahan dinamis yang terjadi dalam desain AI, dan sebagai hasilnya, algoritme perangkat lunak berubah lebih cepat daripada yang dapat dirancang dan dibuat oleh chip AI. Ini menggarisbawahi tantangan utama untuk akselerator perangkat keras yang cenderung menjadi perangkat dengan fungsi tetap dalam kasus seperti itu.
Jadi harus ada semacam programabilitas dalam akselerator yang memungkinkan desainer untuk beradaptasi dengan kebutuhan yang berkembang. Fleksibilitas desain yang hadir dengan fitur programabilitas juga memungkinkan desainer untuk menangani berbagai beban kerja AI dan topologi neural net.
Intel Corp. telah menjawab panggilan untuk programabilitas dalam desain AI ini dengan mengakuisisi pengembang akselerator pembelajaran mendalam yang dapat diprogram yang berbasis di Israel seharga sekitar $2 miliar. Prosesor Gaudi Habana untuk pelatihan dan prosesor Goya untuk inferensi menawarkan lingkungan pengembangan yang mudah diprogram (Gbr. 2 ).
Gbr. 2:Beginilah cara platform pengembangan dan alat mempercepat desain chip AI menggunakan akselerator pelatihan Gaudi. (Gambar:Habana)
AI di ujung tombak
Jelas sekarang bahwa pasar untuk inferensi AI jauh lebih besar daripada pelatihan AI. Itulah sebabnya industri menyaksikan berbagai chip dioptimalkan untuk berbagai beban kerja AI mulai dari pelatihan hingga inferensi.
Itu membawa mikrokontroler (MCU) ke dalam ranah desain AI yang sebagian besar telah dikaitkan dengan SoC yang kuat. MCU ini menggabungkan akselerator AI untuk melayani industri dengan sumber daya terbatas dan perangkat edge IoT dalam aplikasi seperti deteksi objek, pengenalan wajah dan gerakan, pemrosesan bahasa alami, dan pemeliharaan prediktif.
Ambil contoh akselerator ML mikroNPU Arm Ethos U-55 yang diintegrasikan oleh NXP Semiconductors ke dalam mikrokontroler berbasis Cortex-M, MCU crossover, dan subsistem waktu nyata dalam prosesor aplikasi. Akselerator Ethos U-55 bekerja bersama dengan inti Cortex-M untuk mencapai jejak yang kecil. Teknik kompresi canggihnya menghemat daya dan mengurangi ukuran model ML secara signifikan untuk memungkinkan eksekusi jaringan saraf yang sebelumnya hanya berjalan pada sistem yang lebih besar.
Lingkungan pengembangan eIQ ML NXP memberi desainer AI pilihan mesin inferensi sumber terbuka. Bergantung pada persyaratan aplikasi tertentu, akselerator AI ini dapat digabungkan ke dalam berbagai elemen komputasi:CPU, GPU, DSP, dan NPU.