NVIDIA Menggunakan AI Untuk Membantu Kamera Melihat Dengan Jelas
- Para peneliti mengembangkan jaringan saraf dalam yang mengevaluasi kemampuan kamera untuk melihat dengan jelas.
- Kendaraan self-driving dapat menggunakan jaringan ini untuk membuat keputusan yang lebih baik.
Lusinan perusahaan sedang mengerjakan teknologi kendaraan otonom dan mereka semua menghadapi tantangan rekayasa dengan cara yang berbeda. Untuk meniru kemampuan manusia dalam melihat, teknologi terutama mengandalkan tiga elemen dasar:radar, kamera, dan lidar.
Namun, beberapa faktor seperti hujan, salju, dan jenis penyumbatan lainnya dapat menurunkan penglihatan kamera. Hal ini menghambat kemampuan sistem persepsi yang kuat untuk memahami lingkungannya dan memvalidasi data yang masuk dari sensor.
Untuk mendeteksi ketidakabsahan data sensor secara efektif secepat mungkin dalam alur pemrosesan sebelum sampai ke modul hilir, para peneliti di NVIDIA telah mengembangkan model AI yang mengevaluasi kemampuan kamera untuk melihat dengan jelas.
Model ini menggunakan jaringan saraf dalam — bernama ClearSightNet — untuk menemukan akar penyebab penyumbatan, oklusi, dan pengurangan visibilitas. Ini berpotensi untuk
- Alasan di berbagai kemungkinan penyebab penurunan visibilitas kamera.
- Berikan data yang dapat ditindaklanjuti.
- Menjalankan berbagai kamera dengan overhead komputasi yang rendah
Bagaimana Cara Kerjanya?
Jaringan membagi gambar kamera menjadi dua bagian yang berbeda; salah satunya terkait dengan oklusi sementara yang lain berhubungan dengan pengurangan visibilitas.
Sumber:NVIDIA | YouTube
Oklusi mewakili bagian tertentu dari bidang pandang kamera yang terhalang oleh objek buram (seperti salju, lumpur, atau debu) atau tidak berisi data (misalnya piksel jenuh karena sinar matahari). Pada bagian ini, persepsi sepenuhnya terganggu.
Visibilitas yang berkurang menunjukkan bagian yang terhalang sebagian karena kabut, silau, atau hujan lebat. Dalam kasus seperti itu, keputusan yang diambil oleh algoritme harus ditandai dengan 'kepercayaan yang lebih rendah'.
Sisi kiri menunjukkan gambar input sedangkan sisi kanan adalah gambar yang dilapisi dengan topeng keluaran jaringan saraf. Hampir 84 persen piksel gambar dipengaruhi oleh oklusi parsial dan lengkap.
Untuk menampilkan bagian-bagian ini, ClearSightNet menempatkan topeng pada video/gambar input secara real-time. Daerah visibilitas yang berkurang ditandai dengan warna hijau, dan daerah yang tertutup sepenuhnya ditandai dengan warna merah. Jaringan juga menampilkan seberapa banyak area video input yang terpengaruh oleh berkurangnya visibilitas atau oklusi.
Data ini dapat digunakan dalam beberapa cara. Mobil self-driving, misalnya, dapat memilih untuk tidak menerapkan fitur otomatis apa pun saat jarak pandang rendah, dan memperingatkan pengemudi untuk membersihkan kaca depan atau lensa kamera. Kendaraan dapat menggunakan jaringan ini untuk mengetahui persepsi kamera.
Tim berencana untuk lebih meningkatkan ClearSightNet untuk memberikan perhitungan ujung ke ujung dan informasi lebih rinci tentang visibilitas kamera, memungkinkan kontrol yang lebih besar atas proses implementasi kendaraan otonom.
Baca:Nvidia AI Dapat Mengonversi Video 30fps Menjadi 240fps
Sejauh kinerja dipertimbangkan [dari ClearSightNet saat ini], jaringan berjalan dalam waktu sekitar 1,3 milidetik (GPU terintegrasi) dan 0,7 milidetik (GPU diskrit) per frame pada Xavier. Ini sudah tersedia di NVIDIA DRIVE 9.0.