Silikon prosesor streaming tensor (TSP) Groq kini tersedia untuk mempercepat beban kerja AI pelanggan di cloud. Penyedia layanan cloud Nimbix kini menawarkan akselerasi pembelajaran mesin pada perangkat keras Groq sebagai layanan sesuai permintaan hanya untuk "pelanggan tertentu".
Meskipun ada beberapa startup yang membangun silikon AI untuk pusat data, Groq sekarang bergabung dengan Graphcore sebagai satu-satunya dengan akselerator yang tersedia secara komersial untuk digunakan pelanggan sebagai bagian dari layanan cloud. Graphcore sebelumnya mengumumkan bahwa akseleratornya tersedia sebagai bagian dari Microsoft Azure.
“Arsitektur pemrosesan Groq yang disederhanakan adalah unik, memberikan kinerja deterministik yang belum pernah ada sebelumnya untuk beban kerja intensif komputasi, dan merupakan tambahan yang menarik untuk platform AI dan Deep Learning berbasis cloud kami,” kata Steve Hebert, CEO Nimbix.
Groq hanyalah startup akselerator AI kedua yang menyediakan perangkat kerasnya di cloud (Gambar:Groq)
Chip TSP Groq, diluncurkan musim gugur yang lalu, mampu menghasilkan 1.000 TOPS yang sangat besar (1 operasi peta per detik). Hasil terbaru yang diterbitkan oleh perusahaan menunjukkan chip dapat mencapai 21.700 inferensi per detik untuk inferensi ResNet-50 v2, yang menurut Groq lebih dari dua kali lipat kinerja sistem berbasis GPU saat ini. Hasil ini menunjukkan bahwa arsitektur Groq adalah salah satu prosesor jaringan saraf tercepat, jika bukan tercepat, yang tersedia secara komersial.
“Hasil ResNet-50 ini adalah validasi bahwa arsitektur dan pendekatan unik Groq terhadap akselerasi pembelajaran mesin memberikan kinerja inferensi yang jauh lebih cepat daripada pesaing kami,” kata Jonathan Ross, salah satu pendiri dan CEO Groq. “Poin bukti dunia nyata ini, berdasarkan tolok ukur standar industri dan bukan simulasi atau emulasi perangkat keras, mengonfirmasi peningkatan kinerja terukur untuk pembelajaran mesin dan aplikasi kecerdasan buatan yang dimungkinkan oleh teknologi Groq.”
Groq mengatakan arsitekturnya dapat mencapai paralelisme besar yang diperlukan untuk akselerasi pembelajaran mendalam tanpa sinkronisasi overhead arsitektur CPU dan GPU tradisional. Fitur kontrol telah dihapus dari silikon dan diberikan kepada kompiler sebagai gantinya, sebagai bagian dari pendekatan berbasis perangkat lunak Groq. Ini mengarah ke operasi deterministik yang sepenuhnya dapat diprediksi yang diatur oleh kompiler, memungkinkan kinerja untuk dipahami sepenuhnya pada waktu kompilasi.
Fitur utama lainnya yang perlu diperhatikan adalah bahwa keunggulan kinerja Groq tidak bergantung pada batching – teknik umum di pusat data di mana beberapa sampel data diproses sekaligus, untuk meningkatkan throughput. Menurut Groq, arsitekturnya dapat mencapai kinerja puncak bahkan pada batch =1, persyaratan umum untuk aplikasi inferensi yang mungkin bekerja pada aliran data yang tiba secara real-time. Sementara chip TSP Groq menawarkan keunggulan latensi 2,5x moderat dibandingkan GPU pada ukuran batch besar, pada batch =1 keuntungannya mendekati 17x, kata perusahaan tersebut.