NVIDIA Mengembangkan AI Yang Membuat Grafik Interaktif Dari Dunia Nyata
- Para peneliti mendemonstrasikan jenis baru sintesis video-ke-video.
- Ini memungkinkan pengembang untuk membuat lingkungan 3D yang sepenuhnya interaktif dari video dunia nyata.
- Dapat membuat video berdurasi 30 detik dengan resolusi 2K.
Hampir dua dekade yang lalu, NVIDIA hadir dengan GPU pertama di dunia, menawarkan lompatan besar yang signifikan dalam kinerja game 3D. Sekarang, mereka telah memperkenalkan alat kecerdasan buatan yang memungkinkan pengembang merender lingkungan tiga dimensi yang sepenuhnya sintetis dan interaktif dari video dunia nyata.
Kemampuan untuk memodelkan dan menciptakan kembali dinamika dunia nyata sangat penting untuk mengembangkan agen cerdas. Mensintesis pengalaman visual yang berkelanjutan memiliki berbagai aplikasi dalam grafik komputer dan robotika. Ini dapat membantu pengembang membuat pemandangan yang realistis tanpa menentukan pencahayaan, material, dan geometri pemandangan.
Dalam karya ini, para peneliti telah mendemonstrasikan jenis baru sintesis video-ke-video. Tujuannya adalah untuk mempelajari fungsi pemetaan yang dapat secara efisien mengubah video input menjadi video output. Mereka telah menggabungkan video beresolusi tinggi dan konsisten secara temporal menggunakan generator dan diskriminator, serta pembelajaran permusuhan spasial-temporal.
Menggunakan Jaringan Neural Untuk Membuat Deskripsi Tingkat Tinggi
Untuk membuat dunia tiga dimensi sintetis secara real time, mereka memulai dengan jaringan saraf generatif bersyarat dan melatihnya pada video yang ada. Jaringan secara bertahap mempelajari rendering objek seperti kendaraan, bangunan, dan pohon.
Dengan teknologi yang ada, para pengembang perlu memodelkan setiap objek secara individual, yang memakan waktu dan proses yang mahal. Di sisi lain, alat baru ini didasarkan pada model yang secara otomatis belajar dari video nyata dan menciptakan dunia virtual untuk otomotif, game, robotika, arsitektur, dan realitas virtual.
Referensi: arXiv:1808.06601 | NVIDIA | GitHub
Itu dapat menciptakan lingkungan interaktif berdasarkan lokasi nyata, atau dapat menampilkan orang-orang menari seperti bintang rock favorit mereka. Jaringan bekerja pada deskripsi tingkat tinggi dari adegan 3D, seperti peta tepi yang menggambarkan lokasi objek serta atribut umumnya seperti apakah bagian tertentu dari suatu gambar terdiri dari bangunan atau mobil. Kemudian, ia menggunakan adegan dunia nyata untuk mengisi detailnya.
Jaringan saraf dilatih pada video daerah perkotaan yang sebenarnya. Peneliti membuat demo yang memungkinkan orang untuk menavigasi dunia perkotaan virtual yang diberikan oleh jaringan. Karena adegan dibuat secara sintetis, mudah untuk mengedit, menambahkan, atau memodifikasi objek dalam adegan virtual.
Hormat peneliti
Demo berjalan pada GPU NVIDIA Tensor Core dan memberikan pengalaman grafis interaktif yang sama sekali baru, sesuai laporan. Jaringan saraf dilatih pada DGX-1 bersama dengan perpustakaan CUDA Deep Neural Network, menggunakan GPU NVIDIA Tesla V100. Tim memilih beberapa ribu klip dari kumpulan data Cityscapes dan Apolloscapes untuk melatih jaringan.
Pengujian
Mereka melakukan beberapa tes dan memperoleh hasil kuantitatif dan kualitatif, yang menunjukkan bahwa adegan yang disintesis terlihat lebih realistis daripada yang dihasilkan oleh metode canggih yang ada.
AI baru ini dapat menghasilkan video berdurasi 30 detik dengan resolusi 2K. Juga, ini memberikan kontrol tingkat tinggi atas output. Misalnya, pada dapat dengan mudah menambah atau mengganti pohon dengan bangunan di tempat kejadian.
Pendekatannya tidak sempurna dan gagal dalam beberapa skenario, seperti rendering kendaraan yang berbelok karena data peta yang tidak mencukupi. Namun, ini dapat diperbaiki dengan mengintegrasikan isyarat 3D seperti peta kedalaman.
Baca:Google AI Dapat Melacak Objek Dengan Mewarnai Video
Meskipun studi ini masih tahap awal, penerapan teknik ini dapat mempermudah dan lebih murah untuk mengembangkan lingkungan virtual untuk berbagai domain.