Manufaktur industri
Industri Internet of Things | bahan industri | Pemeliharaan dan Perbaikan Peralatan | Pemrograman industri |
home  MfgRobots >> Manufaktur industri >  >> Industrial Internet of Things >> Tertanam

Tolok ukur pembelajaran mesin memperluas dukungan untuk beban kerja pusat data edge

Organisasi benchmark ML Commons telah merilis babak baru skor Inferensi MLPerf. Putaran terbaru ini dipisahkan ke dalam kelas perangkat untuk memudahkan perbandingan. Hasilnya juga menampilkan serangkaian model AI baru, yang dimaksudkan untuk mewakili berbagai beban kerja berbeda yang diterapkan secara komersial tetapi masih dianggap canggih.

Sistem yang dipercepat Nvidia menyumbang sekitar 85% dari total pengiriman, memenangkan semua kategori yang mereka masuki. Namun, tidak ada pengiriman Nvidia di kelas Ponsel atau Notebook (Nvidia tidak hadir di pasar ini dengan produk akselerasi AI). Ada juga beberapa kiriman menarik dari perusahaan rintisan, dan secara keseluruhan kecenderungan yang lebih besar untuk memiliki angka di beberapa kolom, membuat perbandingan lebih mudah.

Perubahan Dari Putaran Terakhir

Perubahan besar pertama pada hasil putaran ini adalah bahwa sistem telah dipisahkan menjadi beberapa kelas:data center, edge, mobile dan notebook. Ponsel dan notebook memiliki faktor bentuk dan profil kinerja yang sangat spesifik yang membuatnya mudah dipisahkan dari daftar tepi yang lebih luas.

“Jika Anda berbicara tentang notebook, mungkin itu menjalankan Windows, jika Anda berbicara tentang smartphone, Anda mungkin menjalankan iOS atau Android,” David Kanter, direktur eksekutif ML Commons mengatakan kepada EE Times . “Memisahkan hasil ini dari kumpulan skor inferensi yang lebih besar sangat membantu dalam memperjelas semuanya.”

Tolok ukur untuk skor inferensi putaran kedua ini juga telah diubah untuk memasukkan model AI yang mewakili kasus penggunaan modern. Sementara putaran sebelumnya berfokus pada model vision dan image processing, kali ini data center dan edge class mencakup model rekomendasi DLRM, model pencitraan medis 3D-UNet yang digunakan untuk mencari tumor pada pemindaian MRI, model speech-to-text RNN- T dan model pemrosesan bahasa alami (NLP) BERT.

“[Pemilihan model] didorong oleh masukan pelanggan, tetapi kami tidak ingin jatuh ke dalam jebakan karena siswa membuat tes mereka sendiri,” kata Kanter, menjelaskan bahwa tujuannya adalah untuk mengidentifikasi model canggih yang sedang diproduksi, tidak hanya dalam tahap penelitian. “DLRM dan 3D-UNet, mereka [pilihan] yang sangat terinformasi didorong oleh dewan penasihat kami, orang-orang dari dunia medis, orang-orang yang melakukan rekomendasi dalam skala besar… Konstruksi beban kerja yang terinformasi semacam itu sangat berharga.”

Kelas seluler dan notebook menggunakan MobileNetEdge untuk klasifikasi gambar, SSD-MobileNetv2 untuk deteksi objek, Deeplabv3 untuk segmentasi gambar, dan Mobile BERT untuk NLP.

Secara keseluruhan, target akurasi juga telah ditingkatkan untuk mencerminkan penerapan di dunia nyata.

Analisis di bawah ini hanya mengacu pada divisi "tertutup" untuk perbandingan yang adil.

Hasil pusat data

Seperti yang diharapkan, sebagian besar pengiriman di kelas pusat data menggunakan akselerator GPU Nvidia. Sisanya menggunakan CPU Intel untuk pemrosesan AI, dengan beberapa pengecualian (lihat di bawah). Tidak ada kiriman dari Google untuk TPU-nya kali ini, dan tidak ada kiriman dari siapa pun di komunitas vokal perusahaan rintisan yang memantapkan diri di bidang ini (Graphcore, Cerebras, Groq, dll).

“Keunggulan kinerja [Nvidia] di atas CPU telah meningkat dari sekitar 6X menjadi 30X pada model visi komputer dasar yang disebut ResNet, dan pada model sistem rekomendasi lanjutan… Nvidia A100 237 kali lebih cepat daripada CPU Cooper Lake [Intel],” kata Paresh Kharya , direktur senior manajemen produk dan pemasaran di Nvidia. “Satu DGX-A100 memberikan kinerja yang sama pada sistem rekomendasi seperti 1000 server CPU, dan nilai yang mencengangkan bagi pelanggan.”

Mipsology adalah satu-satunya peserta non-CPU non-GPU yang tersedia secara komersial di divisi ini. Perusahaan ini memiliki teknologi akselerator yang disebut Zebra yang berjalan pada Xilinx FPGA (dalam hal ini, Xilinx Alveo U250). Teknologi mereka dapat menangani 4096 kueri ResNet per detik dalam mode server (dibandingkan dengan sekitar 5563 untuk Nvidia T4) atau 5011 sampel per detik dalam mode offline (dibandingkan dengan sekitar 6112 untuk Nvidia T4).

Perusahaan Taiwan Neuchips memasukkan skor ke dalam kategori Penelitian, Pengembangan, atau Internal, yang berarti perangkat yang digunakannya tidak tersedia secara komersial dan kemungkinan besar tidak akan bertahan setidaknya selama 6 bulan lagi. RecAccel dirancang khusus untuk mempercepat DLRM, model rekomendasi yang digunakan dalam benchmark ini. Ini menggunakan desain paralel besar-besaran yang berjalan pada Intel Stratix FPGA untuk inferensi AI. Hasilnya dalam kategori DRLM sebanding atau lebih buruk daripada CPU Intel Cooper Lake dan tidak cocok untuk Nvidia.

Hasil tepi

Kategori edge didominasi oleh skor yang dipercepat oleh Nvidia A100, T4, AGX Xavier dan Xavier NX.

Centaur Technology memasukkan hasil dari sistem desain referensi yang tersedia secara komersial yang menggunakan prosesor server Centaur berdasarkan mikroarsitektur x86 internalnya, ditambah akselerator AI internal terpisah sebagai co-prosesor. Desain referensi ini adalah sistem kelas server untuk aplikasi pusat data lokal atau pribadi dan dioptimalkan untuk biaya dan faktor bentuk (bukan konsumsi daya atau kinerja puncak), menurut Centaur.

Pada klasifikasi gambar ResNet (latensi aliran tunggal), sistem Centaur lebih cepat daripada pengiriman Nvidia sendiri untuk sistem server yang dilengkapi dengan Tesla T4. Namun, T4 mengalahkan desain Centaur pada sampel offline ResNet yang diproses per detik. Namun, Centaur tidak berjalan dengan baik dalam pendeteksian objek, berada di antara dua modul edge tertanam Nvidia, Xavier NX dan AGX Xavier.

Dividiti konsultan teknik Inggris, yang mengkhususkan diri dalam mengevaluasi secara objektif sistem perangkat keras dan perangkat lunak ML, mengirimkan sejumlah skor pada sistem mulai dari Fireflys dan Raspberry Pis hingga Nvidia AGX Xavier. Skor yang tampaknya identik untuk entri Raspberry Pi sebenarnya menggunakan sistem operasi yang berbeda (Debian 32-bit vs Ubuntu 64-bit – Ubuntu kira-kira 20% lebih cepat). Hasil perusahaan berbeda dari hasil Nvidia sendiri untuk AGX Xavier karena Nvidia menggunakan GPU AGX Xavier dan dua akselerator deep learning on-chip untuk skor ResNet Offline dan Multistream, di mana dividiti hanya menggunakan GPU.

Seorang juru bicara divisi juga memberi tahu EE Times bahwa sementara perusahaan telah berhasil "kurang lebih" mereproduksi skor Nvidia untuk putaran inferensi sebelumnya, hasil terbaru memperkenalkan regresi kinerja ke dalam rangkaian uji yang hanya terlihat beberapa menit sebelum batas waktu pengiriman (memperbaiki kesalahan ini kemudian meningkatkan beberapa latensi dengan 10-20%). Ini berfungsi untuk menggambarkan pentingnya kombinasi perangkat keras/perangkat lunak pada hasil.


Kategori edge didominasi oleh hasil yang dipercepat oleh GPU Nvidia, termasuk Jetson Xavier NX (Gambar:Nvidia)

Entri baru dalam kategori ini termasuk IVA Technologies dan Mobilint, baik dalam kategori Penelitian, Pengembangan, atau Internal.

IVA Technologies, perancang dan produsen peralatan TI Rusia, telah mengerjakan chip akselerator AI yang mendukung model konvolusi, konvolusi 3D, dan LSTM. Perusahaan mengirimkan skor berlabel "FPGA" yang mungkin merupakan prototipe ASIC akselerator yang diimplementasikan pada FPGA. Latensi aliran tunggal ResNet adalah 12,23 md, kira-kira 4x lebih lambat dari Xavier NX, dan memproses 89 sampel offline per detik, kurang dari sepersepuluh Xavier NX. Namun, kategori Edge luas dan tidak banyak yang diketahui tentang desainnya – ini bisa ditujukan untuk perangkat yang lebih kecil daripada Xavier NX.

Mobilint, startup ASIC akselerator AI Korea, mengirimkan skor untuk desain Mobilint Edge-nya, yang EE Times tersangka diimplementasikan sebagai prototipe pada kartu FPGA Xilinx Alveo U250. Di ResNet, latensinya jauh lebih lama daripada desain IVA Technologies pada 37,46 mdtk tetapi memproses lebih banyak sampel offline per detik (107). Perusahaan juga mengirimkan skor untuk deteksi objek.

Meskipun baik IVA Technologies maupun Mobilint tidak menghasilkan skor terobosan, tentu saja ada nilai dalam benchmarking prototipe karena membuktikan bahwa tumpukan perangkat lunak yang menyertainya sudah siap.

Hasil seluler

Dalam kategori SoC seluler baru, ada tiga kiriman yang cukup cocok, tanpa pemenang yang jelas.

MediaTek mengirimkan skor untuk Dimensity 820-nya (di smartphone Xiaomi Redmi 10X 5G). Perangkat ini menggunakan AI Processing Unit (APU) 3.0 milik MediaTek yang merupakan akselerator berkemampuan FP16 dan INT16 yang dioptimalkan untuk fungsi kamera/pencitraan. SoC ini juga memiliki GPU 5-core.

Qualcomm Snapdragon 865+ menggunakan prosesor Hexagon 698 perusahaan yang dirancang untuk akselerasi AI yang bekerja pada 15 TOPS, di samping GPU Adreno 650. Tolok ukur dijalankan pada Asus ROG Phone 3.

Samsung Exynos 990 dijadikan benchmark sebagai bagian dari Galaxy Note 20 Ultra. Perangkat ini berisi NPU dual-core (unit pemrosesan saraf) dan GPU Arm Mali-G77 bersama dengan berbagai inti CPU Arm.

Samsung Exynos 990 melakukan yang terbaik pada klasifikasi gambar dan NLP; MediaTek Dimensity 820 sangat dekat dengan klasifikasi gambar tetapi Samsung memiliki keunggulan yang lebih jelas dalam hal NLP. MediaTek memiliki keunggulan dalam pendeteksian objek, dengan Qualcomm Snapdragon 865+ di tempat kedua. MediaTek juga memenangkan tolok ukur segmentasi gambar, mengungguli Qualcomm dengan selisih tipis.

Hasil buku catatan

Hanya ada satu entri dalam kategori Notebook – desain referensi Intel yang menggunakan GPU Intel Xe-LP yang akan datang sebagai akselerator. Xe-LP adalah versi daya rendah dari Xe-HP dan Xe-HPC yang ditujukan untuk akselerasi AI pusat data dan HPC; tidak satu pun dari perangkat yang lebih besar yang di-benchmark.

Karena hanya ada satu entri di kelas ini, sulit untuk menafsirkan hasil Xe-LP. Namun, kategori notebook menggunakan model AI yang sama dengan kategori ponsel, sehingga beberapa perbandingan tidak dapat dihindari. Keuntungan terbesar Xe-LP dibandingkan SoC seluler adalah pada segmentasi gambar (DeeplabV3) di mana ia mengungguli pemenang seluler dengan faktor 2,5 pada throughput (frame per detik). Performa terlemahnya adalah pada deteksi objek (SSD – MobileNetv2) di mana keunggulannya adalah 1,15x lebih tinggi dari pemenang seluler dalam hal throughput (bingkai per detik).

Tolok ukur masa depan

Ke depannya, Kanter berharap bahwa putaran tolok ukur di masa mendatang akan mencakup lebih banyak entri CPU non-Nvidia dan non-Intel, dengan mengatakan bahwa organisasi tersebut telah berupaya keras untuk mendorong perusahaan rintisan dan perusahaan kecil untuk mengirimkan hasil.

“Kami memiliki divisi terbuka, di mana Anda dapat mengirimkan jaringan apa pun yang Anda inginkan,” katanya. “Salah satu hal yang menyenangkan tentang itu adalah jika pelanggan mengatakan saya menginginkan X, dan Anda melakukan semua pengaktifan untuk itu, Anda dapat menggunakan X, selama Anda dapat memasukkan kodenya sehingga kami dapat melihat apa yang Anda jalankan. ”

Perusahaan dapat mengirimkan hasil hanya untuk satu model AI agar upaya rekayasa tetap rendah, dan bahkan dapat mengirimkan model mereka sendiri ke dalam kategori terbuka.

Kanter juga menyebutkan bahwa itu adalah niat organisasi untuk memperkenalkan dimensi pengukuran kekuatan ke babak skor berikutnya. Pekerjaan sedang berlangsung.

“Salah satu hal yang kami ingin melibatkan orang-orang adalah membantu membangun infrastruktur pengukuran daya – membantu kami membuat alat untuk melakukan pengukuran tersebut,” kata Kanter.

Daftar lengkap hasil Inferensi MLPerf secara rinci tersedia di sini.

>> Artikel ini awalnya diterbitkan pada situs saudara kami, EE Times.


Tertanam

  1. ST:sensor gerak dengan pembelajaran mesin untuk pelacakan aktivitas dengan akurasi tinggi dan ramah baterai
  2. ADLINK:AI tepi multi-akses yang dipasang di tiang dan solusi pembelajaran mesin
  3. NXP Menggandakan Pembelajaran Mesin di Edge
  4. Tren Terus Mendorong Pemrosesan ke Edge untuk AI
  5. Fitur Pusat Pemesinan Vertikal Untuk Meningkatkan Produktivitas
  6. Jaringan Wi-Fi yang Dioptimalkan Sangat Penting untuk Keberhasilan Edge
  7. Pembelajaran Mesin di Lapangan
  8. The Edge Sekarang Pusat Aksi
  9. Pusat Pembubutan untuk Aplikasi Tugas Berat
  10. Pusat Pembubutan Vertikal Empat Sumbu untuk Produksi Poros