Chip inferensi perangkat keras menargetkan aplikasi otomotif
AImotive yang berbasis di Hungaria, pengembang teknologi penggerak otomatis berbasis perangkat lunak dan perangkat keras, telah memulai pengiriman kekayaan intelektual (IP) mesin inferensi perangkat keras jaringan saraf (NN) aiWare3 kepada pelanggan utamanya.
Inti IP aiWare3P-nya, yang diumumkan tahun lalu, menawarkan akselerator NN perangkat keras untuk aplikasi visi otomotif resolusi tinggi, dan sebagai komponen dalam ISO26262 ASIL A, B dan subsistem bersertifikat di atasnya. Inti, yang dapat digunakan dalam sistem pada chip (SoC), atau sebagai akselerator NN mandiri, disediakan sebagai RTL yang dapat disintesis sepenuhnya; mikroarsitektur tingkat rendahnya dirancang untuk menggunakan CPU host atau sumber daya memori bersama yang jauh lebih sedikit daripada akselerator NN perangkat keras lainnya.
Akselerator NN khusus seperti IP aiWare3P yang digunakan di berbagai bagian platform elektronik kendaraan (Sumber:AImotive)
Berbicara kepada EE Times Europe tentang bagaimana tawaran AIMotive berbeda dengan solusi lain, Tony-King Smith, penasihat eksekutif perusahaan, mengatakan sebagian besar pemain chip berbicara dalam istilah akademis tentang akselerator berdasarkan GPU dan SoC, diuji di lingkungan lab, yang tidak benar-benar diterjemahkan dengan baik ke dunia nyata. “Perbedaan penting adalah bahwa perlu untuk memahami prinsip-prinsip jaringan saraf daripada akselerator. Dalam solusi kami tidak ada DSP, tidak ada NOC (network on chip). aiWare hanya dirancang untuk inferensi otomotif, sehingga kami dapat memberikan latensi rendah dari input ke output.” Dia menambahkan bahwa peningkatan output RTL dari inti baru berarti membebaskan subsistem CPU utama, dan inti tersebut kemudian dapat dilampirkan ke SoC akselerator mana pun.
Inti IP aiWare3P menggabungkan fitur yang menghasilkan peningkatan kinerja, konsumsi daya yang lebih rendah, offload CPU host yang lebih besar, dan tata letak yang lebih sederhana untuk desain chip yang lebih besar. Setiap inti menawarkan hingga 16 TMAC/s (>32 TOPS) pada 2GHz, dengan implementasi multi-core dan multi-chip yang mampu menghasilkan hingga 50+ TMAC/s (>100 INT8 TOPS) – berguna untuk multi-kamera atau heterogen aplikasi kaya sensor. Core dirancang untuk operasi suhu yang diperpanjang AEC-Q100 dan mencakup fitur untuk memungkinkan pengguna mencapai sertifikasi ASIL-B dan di atasnya.
Skalabilitas kinerja inti IP hingga lebih dari 50 TMAC/dtk (>100 TOPS) per chip dan inferensi berkelanjutan latensi rendah adalah hasil dari arsitektur mikro tingkat rendahnya. Ini menggunakan desain ground-up yang dipatenkan untuk manajemen aliran data yang sangat deterministik, dengan arsitektur memori-sentris yang sangat paralel yang menampilkan bandwidth memori on-chip hingga 100x lebih banyak daripada akselerator NN perangkat keras lainnya, memastikan efisiensi berkelanjutan hingga 95% untuk DNN kompleks yang digunakan dengan besar masukan seperti beberapa kamera HD.
Mendukung NNEF Khronos serta input ONNX standar terbuka, aiWare SDK langsung mengompilasi biner tanpa perlu pemrograman DSP atau MCU tingkat rendah. Ini mencakup alat otomatis untuk kuantisasi FP32 hingga INT8 dengan sedikit atau tanpa kehilangan akurasi, di samping portofolio alat analisis kinerja DNN yang semakin berkembang. Yang terakhir ini dirancang untuk membantu perangkat lunak dan insinyur AI bermigrasi dan mengubah NN yang dilatih di lab menjadi solusi waktu nyata yang efisien yang dijalankan pada platform perangkat keras otomotif produksi yang diberdayakan aiWare.
Blok pembangun akselerator AI otomotif, termasuk IP perangkat keras aiWare (Sumber:AImotive)
Marton Feher, wakil presiden senior teknik perangkat keras untuk AImotive, mengatakan, “Rilis aiWare3P kami yang siap produksi menyatukan semua yang kami ketahui tentang akselerasi jaringan saraf untuk aplikasi inferensi AI otomotif berbasis visi. Kami sekarang memiliki salah satu solusi akselerasi NN yang paling efisien dan menarik di industri otomotif untuk produksi volume L2/L2+/L3 AI.”
IP perangkat keras aiWare3P sedang digunakan dalam berbagai solusi produksi L2/L2+, serta diadopsi untuk studi aplikasi sensor heterogen yang lebih canggih. Pelanggan menyertakan Nextchip untuk Apache5 Imaging Edge Processor yang akan datang, dan ON Semiconductor untuk proyek kolaboratif mereka dengan AImotive untuk mendemonstrasikan kemampuan fusi sensor heterogen yang canggih.
AImotive mengatakan akan merilis pembaruan penuh untuk hasil benchmark publik mereka pada Q1 2020 berdasarkan inti IP aiWare3P. Ini adalah bagian dari komitmennya untuk membuka tolok ukur menggunakan tolok ukur yang terkontrol dengan baik yang mencerminkan aplikasi nyata seperti input resolusi tinggi untuk kamera daripada tolok ukur publik yang tidak realistis menggunakan input 224×224.
Tidak diperlukan intervensi CPU host
Fitur baru dari IP perangkat keras aiWare3P mencakup dukungan untuk portofolio yang jauh lebih besar dari aktivasi tertanam yang telah dioptimalkan sebelumnya dan fungsi penyatuan, memastikan bahwa 100% dari sebagian besar NN dijalankan dalam inti aiWare3P tanpa intervensi CPU host; kompresi data real-time, mengurangi kebutuhan bandwidth memori eksternal – terutama untuk ukuran input yang lebih besar dan jaringan yang lebih dalam; dan cross-coupling canggih antara mesin konvolusi C-LAM dan mesin fungsi F-LAM, untuk meningkatkan efisiensi eksekusi yang tumpang tindih dan interleaved.
Mikroarsitektur fisik berbasis ubin memungkinkan implementasi fisik yang lebih mudah dari inti aiWare besar dengan meminimalkan kendala waktu yang sulit pada setiap node proses; dan manajemen data berbasis ubin logis memungkinkan skalabilitas beban kerja yang efisien hingga maksimum 16 TMAC/dtk per inti, tanpa memerlukan cache, NOC, atau pendekatan berbasis prosesor multi-inti kompleks lainnya yang menciptakan kemacetan, mengurangi determinisme, dan mengonsumsi lebih banyak daya dan area silikon RTL aiWare3P akan dikirimkan ke semua pelanggan mulai Januari 2020, dan SDK yang ditingkatkan mencakup kompiler yang ditingkatkan dan alat analisis kinerja baru untuk estimasi offline dan analisis perangkat keras target yang terperinci secara real-time.