AI Baru Google Dapat Membuat Video Hanya Dengan Bingkai Awal &Akhir
- Jaringan saraf convolutional 3D baru dapat mengisi urutan antara bingkai awal dan akhir.
- Ini menggunakan generator representasi laten untuk menghasilkan berbagai urutan video.
Kemajuan terbaru dalam arsitektur jaringan saraf tiruan dan jaringan permusuhan generatif telah mendorong pengembangan metode sintesis gambar/video. Sebagian besar penelitian yang ada berfokus pada dua operasi:pembuatan video tanpa syarat dan prediksi video. Keduanya melibatkan pembuatan/prediksi video baru yang masuk akal menggunakan sejumlah bingkai sebelumnya.
Baru-baru ini, tim peneliti di Google berfokus pada masalah pembuatan rangkaian video yang beragam dan masuk akal, ketika hanya ada dua bingkai (bingkai awal dan bingkai akhir) yang tersedia. Prosesnya, yang disebut inbetweening, biasanya dilakukan dengan melatih/menjalankan jaringan saraf berulang, menggunakan unit berulang yang terjaga keamanannya atau memori jangka pendek panjang.
Namun, dalam penelitian ini, para peneliti telah menunjukkan bahwa masalah ini (peralihan) dapat diatasi melalui jaringan saraf convolutional 3D. Keuntungan utama dari metode ini adalah kesederhanaan. Karena tidak menggunakan elemen berulang, jalur gradien yang lebih pendek dapat mengaktifkan jaringan yang lebih dalam dan pelatihan yang lebih stabil.
Model Konvolusi Penuh
Dalam jaringan konvolusi, cukup mudah untuk menerapkan konsistensi temporal dengan bingkai awal dan akhir (disediakan sebagai input). Model ini memiliki 3 komponen utama –
- Encoder gambar konvolusi 2D untuk memetakan bingkai kunci input ke ruang laten.
- Generator representasi laten konvolusi 3D untuk menggabungkan data bingkai input dengan resolusi temporal yang semakin meningkat.
- Sebuah generator video untuk mendekode representasi laten ke dalam bingkai video.
Referensi:arXiv:1905.10240 | NVIDIA
Tim mencoba membuat video langsung dari representasi yang dikodekan dari bingkai awal dan akhir, tetapi hasilnya tidak sesuai dengan sasaran. Itulah sebabnya mereka merancang generator representasi laten, yang secara stokastik menggabungkan representasi bingkai utama, dan terus meningkatkan resolusi temporal video akhir.
Pengujian
Tim menguji model mereka di berbagai kumpulan data yang tersedia untuk umum, termasuk Pengenalan Tindakan UCF101, BAIR, dan Basis Data Tindakan KTH.
Contoh bingkai yang dibuat oleh model baru | Atas perkenan peneliti
Hasil akhir:setiap sampel dalam kumpulan data berisi total 16 bingkai, 14 di antaranya dihasilkan oleh jaringan saraf konvolusi. Model dieksekusi lebih dari seratus kali untuk setiap pasangan bingkai utama, dan seluruh proses diulang 10x untuk setiap varian model.
Baca:AI Baru Mengonversi Video Hitam Putih Menjadi Warna Secara Real-Time
Dalam semua kasus, model mampu membuat urutan video yang realistis, mengingat bingkai kunci berjarak sekitar 1/2 detik satu sama lain. Selain itu, para peneliti menunjukkan bahwa dimungkinkan untuk membuat berbagai urutan, hanya dengan mengubah vektor kebisingan input yang mendorong proses generatif. Metode baru ini dapat memberikan perspektif alternatif yang berharga untuk studi masa depan tentang pembuatan video.