AI Baru Google Dapat Membuat Video Hanya Dengan Bingkai Awal &Akhir

Jaringan saraf convolutional 3D baru dapat mengisi urutan antara bingkai awal dan akhir.
Ini menggunakan generator representasi laten untuk menghasilkan berbagai urutan video.

Kemajuan terbaru dalam arsitektur jaringan saraf tiruan dan jaringan permusuhan generatif telah mendorong pengembangan metode sintesis gambar/video. Sebagian besar penelitian yang ada berfokus pada dua operasi:pembuatan video tanpa syarat dan prediksi video. Keduanya melibatkan pembuatan/prediksi video baru yang masuk akal menggunakan sejumlah bingkai sebelumnya.

Baru-baru ini, tim peneliti di Google berfokus pada masalah pembuatan rangkaian video yang beragam dan masuk akal, ketika hanya ada dua bingkai (bingkai awal dan bingkai akhir) yang tersedia. Prosesnya, yang disebut inbetweening, biasanya dilakukan dengan melatih/menjalankan jaringan saraf berulang, menggunakan unit berulang yang terjaga keamanannya atau memori jangka pendek panjang.

Namun, dalam penelitian ini, para peneliti telah menunjukkan bahwa masalah ini (peralihan) dapat diatasi melalui jaringan saraf convolutional 3D. Keuntungan utama dari metode ini adalah kesederhanaan. Karena tidak menggunakan elemen berulang, jalur gradien yang lebih pendek dapat mengaktifkan jaringan yang lebih dalam dan pelatihan yang lebih stabil.

Model Konvolusi Penuh

Dalam jaringan konvolusi, cukup mudah untuk menerapkan konsistensi temporal dengan bingkai awal dan akhir (disediakan sebagai input). Model ini memiliki 3 komponen utama –

Encoder gambar konvolusi 2D untuk memetakan bingkai kunci input ke ruang laten.
Generator representasi laten konvolusi 3D untuk menggabungkan data bingkai input dengan resolusi temporal yang semakin meningkat.
Sebuah generator video untuk mendekode representasi laten ke dalam bingkai video.

Referensi:arXiv:1905.10240 | NVIDIA

Tim mencoba membuat video langsung dari representasi yang dikodekan dari bingkai awal dan akhir, tetapi hasilnya tidak sesuai dengan sasaran. Itulah sebabnya mereka merancang generator representasi laten, yang secara stokastik menggabungkan representasi bingkai utama, dan terus meningkatkan resolusi temporal video akhir.

Pengujian

Tim menguji model mereka di berbagai kumpulan data yang tersedia untuk umum, termasuk Pengenalan Tindakan UCF101, BAIR, dan Basis Data Tindakan KTH.

Contoh bingkai yang dibuat oleh model baru | Atas perkenan peneliti

Hasil akhir:setiap sampel dalam kumpulan data berisi total 16 bingkai, 14 di antaranya dihasilkan oleh jaringan saraf konvolusi. Model dieksekusi lebih dari seratus kali untuk setiap pasangan bingkai utama, dan seluruh proses diulang 10x untuk setiap varian model.

Baca:AI Baru Mengonversi Video Hitam Putih Menjadi Warna Secara Real-Time

Dalam semua kasus, model mampu membuat urutan video yang realistis, mengingat bingkai kunci berjarak sekitar 1/2 detik satu sama lain. Selain itu, para peneliti menunjukkan bahwa dimungkinkan untuk membuat berbagai urutan, hanya dengan mengubah vektor kebisingan input yang mendorong proses generatif. Metode baru ini dapat memberikan perspektif alternatif yang berharga untuk studi masa depan tentang pembuatan video.

Microsoft Mencapai Terobosan Baru Di Bidang AI Percakapan Lebih Kuat Dari Baja, Kayu Berteknologi Tinggi Terbaru Dapat Mendinginkan Bangunan

Teknologi Industri

Proses manufaktur

pencetakan 3D

Sistem Kontrol Otomatisasi

Teknologi Industri