Prosesor khusus mempercepat beban kerja AI titik akhir
Sementara akselerasi aplikasi AI dan ML masih merupakan bidang yang relatif baru, ada berbagai prosesor bermunculan untuk mempercepat hampir semua beban kerja jaringan saraf. Dari raksasa prosesor hingga beberapa startup terbaru di industri, semuanya menawarkan sesuatu yang berbeda — apakah itu menargetkan pasar vertikal, area aplikasi, anggaran daya, atau titik harga yang berbeda. Berikut adalah cuplikan dari apa yang ada di pasaran saat ini.
Pemroses aplikasi
Intel Movidius Myriad X Dikembangkan oleh perusahaan rintisan Irlandia Movidius yang dibeli oleh Intel pada tahun 2016, Myriad X adalah unit pemrosesan visi generasi ketiga perusahaan dan yang pertama menampilkan mesin komputasi jaringan saraf khusus, menawarkan 1 tera operasi per detik (TOPS) khusus komputasi jaringan saraf dalam (DNN). Mesin komputasi saraf secara langsung berinteraksi dengan kain memori cerdas throughput tinggi untuk menghindari kemacetan memori saat mentransfer data. Ini mendukung perhitungan FP16 dan INT8. Myriad X juga dilengkapi dengan sekelompok 16 inti SHAVE eksklusif dan akselerator penglihatan yang ditingkatkan dan diperluas.
Myriad X tersedia di Intel's Neural Compute Stick 2, secara efektif merupakan platform evaluasi dalam bentuk USB thumb drive. Ini dapat dicolokkan ke stasiun kerja mana pun untuk memungkinkan aplikasi AI dan visi komputer aktif dan berjalan di perangkat keras khusus Movidius dengan sangat cepat.
Semikonduktor NXP i.MX 8M Plus i.MX 8M Plus adalah prosesor aplikasi heterogen yang menampilkan IP akselerator jaringan saraf khusus dari VeriSilicon (Vivante VIP8000). Menawarkan 2,3 TOPS percepatan untuk inferensi di perangkat titik akhir di internet konsumen dan industri (IIoT), cukup untuk identifikasi beberapa objek, pengenalan ucapan dari 40.000 kata, atau bahkan pencitraan medis (MobileNet v1 pada 500 gambar per detik).
Selain prosesor jaringan saraf, i.MX 8M Plus juga dilengkapi subsistem Arm Cortex-A53 quad-core yang berjalan pada 2 GHz, ditambah subsistem Cortex-M7 real-time.
Untuk aplikasi penglihatan, terdapat dua prosesor sinyal gambar yang mendukung dua kamera definisi tinggi untuk penglihatan stereo atau satu kamera 12 megapiksel (MP). Untuk suara, perangkat ini menyertakan prosesor sinyal digital audio (DSP) 800 MHz HiFi4 untuk pra dan pasca pemrosesan data suara.
i.MX 8M Plus NXP adalah prosesor aplikasi pertama perusahaan dengan akselerator jaringan saraf khusus. Ini dirancang untuk aplikasi IoT. (Gambar:Semikonduktor NXP)
XMOS xcore.ai xcore.ai dirancang untuk mengaktifkan kontrol suara dalam aplikasi kecerdasan buatan (AIoT). Prosesor silang (dengan kinerja prosesor aplikasi dan pengoperasian mikrokontroler real-time berdaya rendah), perangkat ini dirancang untuk inferensi pembelajaran mesin pada sinyal suara.
Ini didasarkan pada arsitektur Xcore milik XMOS, yang dibangun di atas blok bangunan yang disebut inti logis yang dapat digunakan untuk I/O, DSP, fungsi kontrol, atau akselerasi AI. Ada 16 inti ini pada setiap chip xcore.ai, dan desainer dapat memilih berapa banyak yang akan dialokasikan untuk setiap fungsi. Memetakan fungsi yang berbeda ke inti logis dalam firmware memungkinkan pembuatan "SoC virtual", yang seluruhnya ditulis dalam perangkat lunak. XMOS telah menambahkan kemampuan pipa vektor ke Xcore untuk beban kerja pembelajaran mesin.
xcore.ai mendukung jaringan 32-bit, 16-bit, 8-bit, dan 1-bit (biner), memberikan 3.200 MIPS, 51,2 GMACC, dan 1.600 MFLOPS. Ini memiliki 1 Mbyte SRAM tertanam ditambah antarmuka DDR berdaya rendah untuk ekspansi.
Xcore.ai XMOS didasarkan pada arsitektur eksklusif dan dirancang khusus untuk beban kerja AI dalam aplikasi pemrosesan suara. (Gambar:XMOS)
SoC Otomotif
Texas Instruments Inc. TDA4VM Bagian dari seri Jacinto 7 untuk sistem bantuan pengemudi canggih otomotif (ADAS), TDA4VM adalah sistem-on-chip (SoC) pertama TI dengan akselerator pembelajaran-dalam khusus pada-chip. Blok ini didasarkan pada C7x DSP ditambah akselerator perkalian matriks (MMA) yang dikembangkan sendiri, yang dapat mencapai 8 TOPS.
SoC dapat menangani streaming video dari kamera yang dipasang di depan hingga 8 MP atau kombinasi dari empat hingga enam kamera 3-MP plus radar, LiDAR, dan sensor ultrasonik. MMA dapat digunakan untuk melakukan fusi sensor pada input ini dalam sistem parkir valet otomatis, misalnya. TDA4VM dirancang untuk sistem ADAS antara 5 dan 20 W.
Perangkat masih dalam pra-produksi, tetapi kit pengembangan tersedia sekarang.
TI TDA4VM ditujukan untuk sistem ADAS otomotif yang kompleks yang memungkinkan kendaraan mengenali lingkungannya. (Gambar:Texas Instruments Inc.)
GPU
Nvidia Corp. Jetson Nano Jetson Nano Nvidia yang terkenal adalah modul unit pemrosesan grafis (GPU) kecil namun kuat untuk aplikasi AI di perangkat titik akhir. Dibangun pada arsitektur Maxwell yang sama dengan anggota keluarga Jetson yang lebih besar (AGX Xavier dan TX2), GPU pada modul Nano memiliki 128 core dan mampu 0,5 TFLOPS, cukup untuk menjalankan beberapa jaringan saraf pada beberapa aliran data dari high- sensor gambar resolusi, menurut perusahaan. Konsumsinya hanya 5 W saat digunakan. Modul ini juga dilengkapi dengan CPU Quad-core Arm Cortex-A57.
Seperti bagian lain dalam jangkauan Nvidia, Jetson Nano menggunakan CUDA X, koleksi perpustakaan akselerasi Nvidia untuk jaringan saraf. Kit pengembangan Jetson Nano yang murah tersedia secara luas.
Modul Jetson Nano dari Nvidia memiliki GPU yang kuat dengan 128 core untuk AI di edge. (Gambar:Nvidia Corp.)
Koprosesor konsumen
Kneron Inc. KL520 Penawaran pertama dari startup Amerika-Taiwan Kneron adalah prosesor jaringan saraf KL520, yang dirancang untuk pemrosesan gambar dan pengenalan wajah dalam aplikasi seperti rumah pintar, sistem keamanan, dan perangkat seluler. Ini dioptimalkan untuk menjalankan jaringan saraf convolutional (CNN), jenis yang umum digunakan dalam pemrosesan gambar saat ini.
KL520 dapat menjalankan 0,3 TOPS dan mengkonsumsi 0,5 W (setara dengan 0,6 TOPS/W), yang menurut perusahaan cukup untuk pengenalan wajah yang akurat, mengingat efisiensi MAC chip tersebut tinggi (lebih dari 90%). Arsitektur chip dapat dikonfigurasi ulang dan dapat disesuaikan dengan model CNN yang berbeda. Kompiler pelengkap perusahaan juga menggunakan teknik kompresi untuk membantu menjalankan model yang lebih besar dalam sumber daya chip untuk membantu menghemat daya dan biaya.
KL520 tersedia sekarang dan juga dapat ditemukan pada kartu akselerator dari pabrikan AAEON (M2AI-2280-520).
KL520 Kneron menggunakan arsitektur yang dapat dikonfigurasi ulang dan kompresi cerdas untuk menjalankan pemrosesan gambar di perangkat seluler dan konsumen. (Gambar:Kneron Inc.)
Gyrfalcon Lightspeeur 5801 Dirancang untuk pasar elektronik konsumen, Lightspeeur 5801 Gyrfalcon menawarkan 2,8 TOPS pada konsumsi daya 224-mW (setara dengan 12,6 TOPS/W) dengan latensi 4-ms. Perusahaan menggunakan teknik prosesor-dalam-memori yang sangat hemat daya, dibandingkan dengan arsitektur lain. Konsumsi daya sebenarnya dapat ditukar dengan kecepatan clock dengan memvariasikan kecepatan clock antara 50 dan 200 MHz. Lightspeeur 5801 berisi 10 MB memori, sehingga seluruh model dapat dimasukkan ke dalam chip.
Bagian ini adalah chip produksi keempat perusahaan dan sudah ditemukan di smartphone kelas menengah LG Q70, di mana ia menangani inferensi untuk efek kamera. Kit pengembangan USB thumb drive, 5801 Plai Plug, tersedia sekarang.
Daya sangat rendah
Eta Compute ECM3532 Produk produksi pertama Eta Compute, ECM3532, dirancang untuk akselerasi AI dalam desain bertenaga baterai atau pemanenan energi untuk IoT. Aplikasi yang selalu aktif dalam pemrosesan gambar dan penggabungan sensor dapat dicapai dengan anggaran daya serendah 100 W.
Chip ini memiliki dua inti — inti mikrokontroler Arm Cortex-M3 dan NXP CoolFlux DSP. Perusahaan menggunakan teknik penskalaan tegangan dan frekuensi eksklusif, yang menyesuaikan setiap siklus clock, untuk memeras setiap tetes daya terakhir dari kedua inti. Beban kerja machine learning dapat diproses oleh salah satu inti (beberapa beban kerja suara, misalnya, lebih cocok untuk DSP).
Sampel ECM3532 tersedia sekarang dan produksi massal diharapkan akan dimulai pada Q2 2020.
Syntiant Corp. NDP100 Prosesor NDP100 startup Syntiant A.S. dirancang untuk inferensi pembelajaran mesin pada perintah suara dalam aplikasi di mana daya terbatas. Silikon berbasis prosesor dalam memorinya mengkonsumsi daya aktif kurang dari 140 W dan dapat menjalankan model untuk pencarian kata kunci, deteksi kata saat bangun, identifikasi pembicara, atau klasifikasi peristiwa. Perusahaan mengatakan bahwa produk ini akan digunakan untuk memungkinkan pengoperasian perangkat konsumen secara handsfree seperti earbud, alat bantu dengar, jam tangan pintar, dan kendali jarak jauh. Kit pengembangan tersedia sekarang.
Perangkat NDP100 Synntiant dirancang untuk pemrosesan suara dalam aplikasi berdaya sangat rendah. (Gambar:Syntiant Corp.)
Teknologi GreenWaves GAP9 GAP9, prosesor aplikasi berdaya sangat rendah pertama dari perusahaan rintisan Prancis GreenWaves, memiliki cluster komputasi yang kuat dari sembilan inti RISC-V yang set instruksinya telah sangat disesuaikan untuk mengoptimalkan daya yang dikonsumsi. Ini memiliki antarmuka audio multi-saluran dua arah dan 1,6 MB RAM internal.
GAP9 dapat menangani beban kerja jaringan saraf untuk gambar, suara, dan sensor getaran di perangkat IoT bertenaga baterai. Angka GreenWaves memiliki GAP9 yang menjalankan MobileNet V1 pada gambar 160 × 160, dengan penskalaan saluran 0,25 hanya dalam 12 ms dan dengan konsumsi daya 806 W/bingkai/detik.