Manufaktur industri
Industri Internet of Things | bahan industri | Pemeliharaan dan Perbaikan Peralatan | Pemrograman industri |
home  MfgRobots >> Manufaktur industri >  >> Manufacturing Technology >> Teknologi Industri

AI Baru Google Dapat Membuat Video Hanya Dengan Bingkai Awal &Akhir

Kemajuan terbaru dalam arsitektur jaringan saraf tiruan dan jaringan permusuhan generatif telah mendorong pengembangan metode sintesis gambar/video. Sebagian besar penelitian yang ada berfokus pada dua operasi:pembuatan video tanpa syarat dan prediksi video. Keduanya melibatkan pembuatan/prediksi video baru yang masuk akal menggunakan sejumlah bingkai sebelumnya.

Baru-baru ini, tim peneliti di Google berfokus pada masalah pembuatan rangkaian video yang beragam dan masuk akal, ketika hanya ada dua bingkai (bingkai awal dan bingkai akhir) yang tersedia. Prosesnya, yang disebut inbetweening, biasanya dilakukan dengan melatih/menjalankan jaringan saraf berulang, menggunakan unit berulang yang terjaga keamanannya atau memori jangka pendek panjang.

Namun, dalam penelitian ini, para peneliti telah menunjukkan bahwa masalah ini (peralihan) dapat diatasi melalui jaringan saraf convolutional 3D. Keuntungan utama dari metode ini adalah kesederhanaan. Karena tidak menggunakan elemen berulang, jalur gradien yang lebih pendek dapat mengaktifkan jaringan yang lebih dalam dan pelatihan yang lebih stabil.

Model Konvolusi Penuh

Dalam jaringan konvolusi, cukup mudah untuk menerapkan konsistensi temporal dengan bingkai awal dan akhir (disediakan sebagai input). Model ini memiliki 3 komponen utama –

  1. Encoder gambar konvolusi 2D untuk memetakan bingkai kunci input ke ruang laten.
  2. Generator representasi laten konvolusi 3D untuk menggabungkan data bingkai input dengan resolusi temporal yang semakin meningkat.
  3. Sebuah generator video untuk mendekode representasi laten ke dalam bingkai video.

Referensi:arXiv:1905.10240 | NVIDIA

Tim mencoba membuat video langsung dari representasi yang dikodekan dari bingkai awal dan akhir, tetapi hasilnya tidak sesuai dengan sasaran. Itulah sebabnya mereka merancang generator representasi laten, yang secara stokastik menggabungkan representasi bingkai utama, dan terus meningkatkan resolusi temporal video akhir.

Pengujian

Tim menguji model mereka di berbagai kumpulan data yang tersedia untuk umum, termasuk Pengenalan Tindakan UCF101, BAIR, dan Basis Data Tindakan KTH.

Contoh bingkai yang dibuat oleh model baru | Atas perkenan peneliti 

Hasil akhir:setiap sampel dalam kumpulan data berisi total 16 bingkai, 14 di antaranya dihasilkan oleh jaringan saraf konvolusi. Model dieksekusi lebih dari seratus kali untuk setiap pasangan bingkai utama, dan seluruh proses diulang 10x untuk setiap varian model.

Baca:AI Baru Mengonversi Video Hitam Putih Menjadi Warna Secara Real-Time

Dalam semua kasus, model mampu membuat urutan video yang realistis, mengingat bingkai kunci berjarak sekitar 1/2 detik satu sama lain. Selain itu, para peneliti menunjukkan bahwa dimungkinkan untuk membuat berbagai urutan, hanya dengan mengubah vektor kebisingan input yang mendorong proses generatif. Metode baru ini dapat memberikan perspektif alternatif yang berharga untuk studi masa depan tentang pembuatan video.


Teknologi Industri

  1. Mudah Memulai Dunia IoT dengan MQTT
  2. Prototipe SLA Cepat Dengan Resin Draf Baru
  3. AI Baru Google Dapat Membuat Video Hanya Dengan Bingkai Awal &Akhir
  4. Bagaimana Kita Dapat Mempermudah Pendidikan dengan Internet of Things?
  5. Mulai Dengan (Keamanan Siber) Akhir dalam Pikiran
  6. Bagaimana Otomatisasi Pesanan Penjualan Dapat Menciptakan Stabilitas Selama Pandemi
  7. Akhir dari Rantai Pasokan Sumber Tunggal
  8. Memikirkan Ulang Rantai Pasokan Anda? Mulai Dengan Gudang
  9. Bagaimana Pengecer Dapat Mengurangi Dampak Biaya Tambahan Pengiriman Baru
  10. Akhir Era, Awal Bab Baru di DVIRC