Dengan munculnya AI di ujung tombak, muncul sejumlah persyaratan baru untuk sistem memori. Dapatkah teknologi memori saat ini memenuhi tuntutan ketat dari aplikasi baru yang menantang ini, dan apa yang dijanjikan oleh teknologi memori yang muncul untuk edge AI dalam jangka panjang?
Hal pertama yang harus disadari adalah bahwa tidak ada aplikasi “edge AI” standar; keunggulan dalam interpretasi terluasnya mencakup semua sistem elektronik berkemampuan AI di luar cloud. Itu mungkin termasuk “near edge”, yang umumnya mencakup pusat data perusahaan dan server lokal.
Lebih jauh adalah aplikasi seperti visi komputer untuk mengemudi otonom. Peralatan gerbang untuk manufaktur melakukan inferensi AI untuk memeriksa kekurangan produk di lini produksi. “Kotak tepi” 5G pada tiang utilitas menganalisis aliran video untuk aplikasi kota pintar seperti manajemen lalu lintas. Dan infrastruktur 5G menggunakan AI terdepan untuk algoritme pembentuk sinar yang kompleks namun efisien.
Di "ujung terjauh", AI didukung di perangkat seperti ponsel — pikirkan filter Snapchat — kontrol suara peralatan dan node sensor IoT di pabrik yang melakukan fusi sensor sebelum mengirimkan hasilnya ke perangkat gateway lain.
Peran memori dalam sistem AI edge— untuk menyimpan bobot jaringan saraf, kode model, data input, dan aktivasi perantara — sama untuk sebagian besar aplikasi AI. Beban kerja harus dipercepat untuk memaksimalkan kapasitas komputasi AI agar tetap efisien, sehingga tuntutan kapasitas dan bandwidth umumnya tinggi. Namun, permintaan khusus aplikasi banyak dan beragam, dan dapat mencakup ukuran, konsumsi daya, operasi tegangan rendah, keandalan, pertimbangan termal/pendinginan, dan biaya.
Pusat data tepi
Pusat data tepi adalah pasar tepi utama. Kasus penggunaan berkisar dari pencitraan medis, penelitian, dan algoritme keuangan yang kompleks, di mana privasi mencegah pengunggahan ke cloud. Lainnya adalah kendaraan self-driving, di mana latensi mencegahnya.
Sistem ini menggunakan memori yang sama yang ditemukan di server di aplikasi lain.
“Penting untuk menggunakan DRAM latensi rendah untuk memori utama tingkat byte yang cepat dalam aplikasi di mana algoritma AI sedang dikembangkan dan dilatih,” kata Pekon Gupta, arsitek solusi di Smart Modular Technologies, seorang desainer dan pengembang produk memori. “RDIMM atau LRDIMM berkapasitas tinggi diperlukan untuk kumpulan data yang besar. NVDIMM diperlukan untuk akselerasi sistem — kami menggunakannya untuk menulis caching dan checkpointing alih-alih SSD yang lebih lambat.”
Pekon Gupta
Menemukan node komputasi yang dekat dengan pengguna akhir adalah pendekatan yang diambil oleh operator telekomunikasi.
“Kami melihat tren untuk membuat server edge [telco] ini lebih mampu menjalankan algoritme yang kompleks,” kata Gupta. Oleh karena itu, “penyedia layanan menambahkan lebih banyak memori dan kekuatan pemrosesan ke server edge ini menggunakan perangkat seperti RDIMM, LRDIMM, dan memori persisten yang tersedia tinggi seperti NVDIMM.”
Gupta melihat Intel Optane, memori non-volatil 3D-Xpoint perusahaan yang propertinya berada di antara DRAM dan Flash, sebagai solusi yang baik untuk aplikasi AI server.
“Baik DIMM Optane maupun NVDIMM digunakan sebagai akselerator AI,” katanya. “NVDIMM menyediakan tiering latensi yang sangat rendah, caching, buffering tulis, dan kemampuan penyimpanan metadata untuk akselerasi aplikasi AI. DIMM pusat data optane digunakan untuk akselerasi database dalam memori di mana ratusan gigabyte hingga terabyte memori persisten digunakan dalam kombinasi dengan DRAM. Meskipun keduanya merupakan solusi memori persisten untuk aplikasi akselerasi AI/ML, keduanya memiliki kasus penggunaan yang berbeda dan terpisah.”
Kristie Mann, direktur pemasaran produk Intel untuk Optane, mengatakan kepada EE Times Optane mendapatkan aplikasi di segmen server AI.
Kristie Mann dari Intel
“Pelanggan kami sudah menggunakan memori persisten Optane untuk mendukung aplikasi AI mereka hari ini,” katanya. “Mereka mendukung e-commerce, mesin rekomendasi video, dan penggunaan analisis keuangan waktu nyata dengan sukses. Kami melihat pergeseran ke aplikasi dalam memori karena peningkatan kapasitas yang tersedia.”
Harga DRAM yang tinggi semakin menjadikan Optane sebagai alternatif yang menarik. Server dengan dua prosesor Intel Xeon Scalable ditambah memori persisten Optane dapat menampung hingga 6 terabyte memori untuk aplikasi yang membutuhkan data.
“DRAM masih yang paling populer, tetapi memiliki keterbatasan dari segi biaya dan kapasitas,” kata Mann. “Teknologi memori dan penyimpanan baru seperti memori persisten Optane dan SSD Optane [muncul] sebagai alternatif DRAM karena keunggulan biaya, kapasitas, dan kinerjanya. Optane SSD adalah HDD caching yang sangat andal dan data SSD NAND untuk terus mengumpankan data aplikasi AI.”
Optane juga lebih baik dibandingkan dengan memori baru lainnya yang belum sepenuhnya matang atau terukur saat ini, tambahnya.
Modul Intel Optane 200 Series. Intel mengatakan Optane sudah digunakan untuk mendukung aplikasi AI hari ini. (Sumber:Intel)
Akselerasi GPU
Untuk pusat data edge dan aplikasi server edge kelas atas, akselerator komputasi AI seperti GPU mendapatkan daya tarik. Selain DRAM, pilihan memori di sini termasuk GDDR, DDR SDRAM khusus yang dirancang untuk memberi makan GPU bandwidth tinggi, dan HBM, teknologi die-stacking yang relatif baru yang menempatkan beberapa memori mati dalam paket yang sama dengan GPU itu sendiri.
Keduanya dirancang untuk bandwidth memori yang sangat tinggi yang dibutuhkan oleh aplikasi AI.
Untuk pelatihan model AI yang paling menuntut, HBM2E menawarkan 3,6 Gbps dan menyediakan bandwidth memori 460 GB/dtk (dua tumpukan HBM2E menyediakan hampir 1 TB/dtk). Itu salah satu memori kinerja tertinggi yang tersedia, di area terkecil dengan konsumsi daya terendah. HBM digunakan oleh pemimpin GPU Nvidia di semua produk pusat datanya.
GDDR6 juga digunakan untuk aplikasi inferensi AI di edge, kata Frank Ferro, direktur senior pemasaran produk untuk IP Cores di Rambus. Ferro mengatakan GDDR6 dapat memenuhi persyaratan kecepatan, biaya, dan daya sistem inferensi AI edge. Misalnya, GDDR6 dapat menghasilkan 18 Gbps dan menyediakan 72 GB/dtk. Memiliki empat DRAM GDDR6 menyediakan bandwidth memori hampir 300 GB/dtk.
“GDDR6 digunakan untuk inferensi AI dan aplikasi ADAS, tambah Ferro.
Saat membandingkan GDDR6 dengan LPDDR, pendekatan Nvidia untuk sebagian besar solusi edge non-pusat data dari Jetson AGX Xavier hingga Jetson Nano, Ferro mengakui bahwa LPDDR cocok untuk inferensi AI berbiaya rendah di edge atau endpoint.
“Bandwidth LPDDR dibatasi 4,2 Gbps untuk LPDDR4 dan 6,4 Gbps untuk LPDDR5,” ujarnya. “Seiring dengan meningkatnya permintaan bandwidth memori, kami akan melihat peningkatan jumlah desain yang menggunakan GDDR6. Kesenjangan bandwidth memori ini membantu mendorong permintaan GDDR6.”
Frank Ferro dari Rambus
Meskipun dirancang agar sesuai dengan GPU, akselerator pemrosesan lainnya dapat memanfaatkan bandwidth GDDR. Ferro menyoroti Achronix Speedster7t, akselerator AI berbasis FPGA yang digunakan untuk inferensi dan beberapa pelatihan kelas bawah.
“Ada ruang untuk memori HBM dan GDDR di aplikasi edge AI,” kata Ferro. HBM “akan terus digunakan dalam aplikasi edge. Untuk semua keunggulan HBM, biayanya masih tinggi karena teknologi 3D dan manufaktur 2.5D. Mengingat hal ini, GDDR6 adalah pertukaran yang baik antara biaya dan kinerja, terutama untuk Inferensi AI dalam jaringan.”
HBM digunakan dalam ASIC AI pusat data berkinerja tinggi seperti IPU Graphcore. Meskipun menawarkan kinerja yang luar biasa, label harganya bisa sangat mahal untuk beberapa aplikasi.
Qualcomm termasuk di antara mereka yang menggunakan pendekatan ini. Cloud AI 100-nya menargetkan akselerasi inferensi AI di pusat data edge, “edge box” 5G, ADAS/penggerak otonom, dan infrastruktur 5G.
“Penting bagi kami untuk menggunakan DRAM standar sebagai lawan dari sesuatu seperti HBM, karena kami ingin menjaga tagihan bahan tetap rendah,” kata Keith Kressin, manajer umum unit Komputasi dan Edge Cloud Qualcomm. “Kami ingin menggunakan komponen standar yang dapat Anda beli dari banyak pemasok. Kami memiliki pelanggan yang ingin melakukan segalanya secara on-chip, dan kami memiliki pelanggan yang ingin menggunakan kartu silang. Tetapi mereka semua ingin menjaga biaya tetap masuk akal, dan tidak menggunakan HBM atau bahkan memori yang lebih eksotis.
“Dalam pelatihan,” lanjutnya, “Anda memiliki model yang sangat besar yang akan melintasi [beberapa chip], tetapi untuk inferensi [pasar Cloud AI 100], banyak model yang lebih terlokalisasi.”
Tepi jauh
Di luar pusat data, sistem edge AI umumnya berfokus pada inferensi, dengan beberapa pengecualian penting seperti pembelajaran gabungan dan teknik pelatihan tambahan lainnya.
Beberapa akselerator AI untuk aplikasi yang peka terhadap daya menggunakan memori untuk pemrosesan AI. Inferensi, yang didasarkan pada perkalian matriks multi-dimensi, cocok untuk teknik komputasi analog dengan array sel memori yang digunakan untuk melakukan perhitungan. Dengan menggunakan teknik ini, perangkat Syntiant dirancang untuk kontrol suara elektronik konsumen, dan perangkat Gyrfalcon telah dirancang menjadi smartphone yang menangani inferensi untuk efek kamera.
Dalam contoh lain, spesialis unit pemrosesan cerdas Mythic menggunakan operasi analog sel memori flash untuk menyimpan nilai integer 8-bit (satu parameter bobot) pada transistor flash tunggal, membuatnya jauh lebih padat daripada teknologi komputasi dalam memori lainnya. Transistor flash yang diprogram berfungsi sebagai resistor variabel; input disuplai sebagai tegangan dan output dikumpulkan sebagai arus. Dikombinasikan dengan ADC dan DAC, hasilnya adalah mesin perkalian matriks yang efisien.
IP Mythic berada dalam teknik kompensasi dan kalibrasi yang menghilangkan noise dan memungkinkan komputasi 8-bit yang andal.
Mythic menggunakan rangkaian transistor memori Flash untuk membuat mesin multi-akumulasi yang padat (Sumber:Mythic)
Selain perangkat komputasi-dalam-memori, ASIC populer untuk ceruk tepi tertentu, terutama untuk sistem daya rendah dan ultra-rendah. Sistem memori untuk ASIC menggunakan kombinasi beberapa jenis memori. SRAM lokal terdistribusi adalah yang tercepat, paling hemat daya, tetapi tidak terlalu hemat area. Memiliki SRAM massal tunggal pada chip lebih efisien area tetapi menimbulkan kemacetan kinerja. DRAM off-chip lebih murah tetapi menggunakan lebih banyak daya.
Geoff Tate, CEO Flex Logix, mengatakan menemukan keseimbangan yang tepat antara SRAM terdistribusi, SRAM massal, dan DRAM off-chip untuk InferX X1 memerlukan serangkaian simulasi kinerja. Tujuannya adalah untuk memaksimalkan throughput inferensi per dolar — fungsi dari ukuran cetakan, biaya paket, dan jumlah DRAM yang digunakan.
“Titik optimal adalah DRAM LPDDR4 x32 tunggal; 4K MAC (7,5 TOPS pada 933MHz); dan SRAM sekitar 10MB,” ujarnya. “SRAM cepat, tetapi mahal dibandingkan DRAM. Menggunakan teknologi proses 16 nm TSMC, 1 MB SRAM membutuhkan sekitar 1,1 mm
2
. “InferX X1 kami hanya 54mm
2
dan karena arsitektur kami, akses DRAM sebagian besar tumpang tindih dengan komputasi sehingga tidak ada kinerja. Untuk model besar yang memiliki DRAM tunggal adalah pilihan yang tepat, setidaknya dengan arsitektur kami,” kata Tate.
Chip Flex Logix akan digunakan dalam aplikasi inferensi AI edge yang memerlukan operasi waktu nyata, termasuk menganalisis video streaming dengan latensi rendah. Ini termasuk sistem ADAS, analisis rekaman keamanan, pencitraan medis, dan aplikasi jaminan/inspeksi kualitas.
Jenis DRAM apa yang akan digunakan bersama InferX X1 dalam aplikasi ini?
“Kami pikir LPDDR akan menjadi yang paling populer:satu DRAM memberikan bandwidth lebih dari 10GB/dtk… namun memiliki cukup bit untuk menyimpan bobot/aktivasi menengah,” kata Tate. “DRAM lain akan membutuhkan lebih banyak chip dan antarmuka dan lebih banyak bit yang perlu dibeli yang tidak digunakan.”
Apakah ada ruang untuk teknologi memori yang muncul di sini?
"Biaya wafer naik secara dramatis saat menggunakan memori yang muncul, sedangkan SRAM 'gratis', kecuali untuk area silikon," tambahnya. “Seiring perubahan ekonomi, titik kritisnya juga bisa berubah, tetapi akan semakin jauh.”
Kenangan yang muncul
Terlepas dari skala ekonomi, jenis memori lain memiliki kemungkinan masa depan untuk aplikasi AI.
MRAM (magneto-resistive RAM) menyimpan setiap bit data melalui orientasi magnet yang dikendalikan oleh tegangan listrik yang diberikan. Jika tegangan lebih rendah dari yang dibutuhkan untuk membalik bit, hanya ada kemungkinan sedikit akan membalik. Keacakan ini tidak diinginkan, jadi MRAM didorong dengan tegangan yang lebih tinggi untuk mencegahnya. Namun, beberapa aplikasi AI dapat memanfaatkan stokasitas bawaan ini (yang dapat dianggap sebagai proses pemilihan atau pembuatan data secara acak).
Eksperimen telah menerapkan kemampuan stokasitas MRAM-nya ke perangkat Gyrfalcon, sebuah teknik di mana presisi semua bobot dan aktivasi dikurangi menjadi 1-bit. Ini digunakan untuk secara dramatis mengurangi kebutuhan komputasi dan daya untuk aplikasi canggih. Pertukaran dengan akurasi mungkin terjadi, tergantung pada bagaimana jaringan dilatih ulang. Secara umum, jaringan saraf dapat dibuat berfungsi dengan andal meskipun presisinya berkurang.
“Jaringan saraf biner unik karena dapat berfungsi dengan andal bahkan ketika kepastian angka menjadi -1 atau +1 berkurang,” kata Andy Walker, wakil presiden produk di Spin Memory. “Kami telah menemukan bahwa BNN semacam itu masih dapat berfungsi dengan tingkat akurasi yang tinggi karena kepastian ini dikurangi [dengan] memperkenalkan apa yang disebut 'tingkat kesalahan bit' dari bit memori yang ditulis secara tidak benar.”
Andy Walker dari Spin Memory
MRAM secara alami dapat memperkenalkan tingkat kesalahan bit secara terkendali pada tingkat tegangan rendah, menjaga akurasi sambil menurunkan kebutuhan daya lebih jauh. Kuncinya adalah menentukan akurasi optimal pada tegangan terendah dan waktu terpendek. Itu berarti efisiensi energi tertinggi, kata Walker.
Meskipun teknik ini juga berlaku untuk jaringan saraf presisi yang lebih tinggi, teknik ini sangat cocok untuk BNN karena sel MRAM memiliki dua status, yang cocok dengan status biner dalam BNN.
Menggunakan MRAM di edge adalah aplikasi potensial lainnya, menurut Walker.
“Untuk edge AI, MRAM memiliki kemampuan untuk berjalan pada voltase yang lebih rendah dalam aplikasi di mana akurasi kinerja tinggi bukanlah persyaratan, tetapi peningkatan efisiensi energi dan daya tahan memori sangat penting,” katanya. “Selain itu, sifat nonvolatilitas bawaan MRAM memungkinkan konservasi data tanpa daya.
Salah satu aplikasinya adalah apa yang disebut memori terpadu “di mana memori yang muncul ini dapat bertindak sebagai flash tertanam dan pengganti SRAM, menghemat area pada cetakan dan menghindari disipasi daya statis yang melekat pada SRAM.”
Sementara MRAM Spin Memory berada di ambang adopsi komersial, implementasi spesifik dari BNN akan bekerja paling baik pada varian sel MRAM dasar. Oleh karena itu, masih dalam tahap penelitian.
ReRAM Neuromorfik
Memori lain yang muncul untuk aplikasi edge AI adalah ReRAM. Penelitian terbaru oleh Politecnico Milan menggunakan teknologi ReRAM silikon oksida (SiOx) Weebit Nano menunjukkan harapan untuk komputasi neuromorfik. ReRAM menambahkan dimensi plastisitas ke perangkat keras jaringan saraf; yaitu, ia dapat berkembang seiring perubahan kondisi—kualitas yang berguna dalam komputasi neuromorfik.
Jaringan saraf saat ini tidak dapat belajar tanpa melupakan tugas yang telah mereka latih, sementara otak dapat melakukannya dengan mudah. Dalam istilah AI, ini adalah "pembelajaran tanpa pengawasan", di mana algoritme melakukan inferensi pada kumpulan data tanpa label, mencari polanya sendiri dalam data. Hasil akhirnya dapat berupa sistem AI edge berkemampuan ReRAM yang dapat mempelajari tugas baru di lokasi dan beradaptasi dengan lingkungan di sekitarnya.
Secara keseluruhan, pembuat memori memperkenalkan teknologi yang menawarkan kecepatan dan bandwidth yang diperlukan untuk aplikasi AI. Berbagai memori, baik pada chip yang sama dengan komputasi AI, dalam paket yang sama, atau pada modul terpisah, tersedia untuk disesuaikan dengan banyak aplikasi AI edge.
Meskipun sifat pasti sistem memori untuk edge AI bergantung pada aplikasinya, GDDR, HBM, dan Optane terbukti populer untuk pusat data, sementara LPDDR bersaing dengan SRAM on-chip untuk aplikasi titik akhir.
Kenangan yang muncul meminjamkan properti baru mereka untuk penelitian yang dirancang untuk memajukan jaringan saraf di luar kemampuan perangkat keras saat ini untuk memungkinkan sistem masa depan yang hemat daya dan terinspirasi oleh otak.
>> Artikel ini awalnya diterbitkan pada situs saudara kami, EE Times.