Kamera Mempelajari dan Memahami Apa yang Mereka Lihat
Ahli robotik dan peneliti kecerdasan buatan (AI) tahu ada masalah dalam cara sistem saat ini merasakan dan memproses dunia. Saat ini, mereka masih menggabungkan sensor — seperti kamera digital yang dirancang untuk merekam gambar — dengan perangkat komputasi seperti unit pemrosesan grafis (GPU) yang dirancang untuk mempercepat grafis untuk video game.
Ini berarti sistem AI melihat dunia hanya setelah merekam dan mengirimkan informasi visual antara sensor dan prosesor. Tetapi banyak hal yang dapat dilihat seringkali tidak relevan dengan tugas yang ada seperti detail daun di pohon pinggir jalan saat mobil otonom lewat. Saat ini, semua informasi ini ditangkap oleh sensor dengan sangat teliti dan dikirim ke sistem dengan data yang tidak relevan, menghabiskan daya, dan memakan waktu pemrosesan.
Para peneliti telah meminjam inspirasi dari cara sistem alami memproses dunia visual — mata dan otak manusia bekerja sama untuk memahami dunia dan dalam beberapa kasus, mata itu sendiri melakukan pemrosesan untuk membantu otak mengurangi apa yang tidak relevan. Para peneliti menerapkan Convolutional Neural Networks (CNNs), suatu bentuk algoritme AI untuk memungkinkan pemahaman visual, langsung pada bidang gambar. CNN dapat mengklasifikasikan bingkai pada ribuan kali per detik tanpa harus merekam gambar-gambar ini atau mengirimkannya ke saluran pemrosesan. Para peneliti mempertimbangkan demonstrasi klasifikasi angka tulisan tangan, gerakan tangan, dan bahkan plankton.
Penelitian ini menyarankan masa depan dengan kamera AI khusus yang cerdas — sistem visual yang dapat dengan mudah mengirim informasi tingkat tinggi ke seluruh sistem seperti jenis objek atau peristiwa yang terjadi di depan kamera. Pendekatan ini akan membuat sistem jauh lebih efisien dan aman karena tidak ada gambar yang perlu direkam.
Pekerjaan ini menggabungkan SCAMP, chip prosesor kamera yang digambarkan oleh tim sebagai Pixel Processor Array (PPA). PPA memiliki prosesor yang tertanam di setiap piksel yang dapat berkomunikasi satu sama lain untuk diproses dalam bentuk yang benar-benar paralel. Ini ideal untuk CNN dan algoritme penglihatan.
Integrasi penginderaan, pemrosesan, dan memori pada tingkat piksel tidak hanya memungkinkan sistem berperforma tinggi, latensi rendah, tetapi juga menjanjikan perangkat keras berdaya rendah dan sangat efisien. Perangkat SCAMP dapat diimplementasikan dengan footprint yang mirip dengan sensor kamera saat ini, tetapi dengan kemampuan untuk memiliki prosesor paralel besar-besaran untuk tujuan umum tepat pada titik pengambilan gambar.