Samsung AI Dapat Membuat Rekaman Berbicara Dari Satu Foto
- Model AI baru dapat membuat avatar berbicara dari satu gambar.
- Pengembang menerapkan model ini pada lukisan populer, termasuk Leonardo Da Vinci dan Mona Lisa.
- Hasilnya memiliki beberapa gangguan visual, tetapi jauh lebih mengesankan daripada teknik sebelumnya.
Perangkat lunak untuk menghasilkan deepfake (teknik berbasis kecerdasan buatan untuk sintesis gambar manusia) membutuhkan kumpulan gambar yang besar untuk membangun pemalsuan yang realistis. Kemajuan terbaru dalam jaringan saraf telah menunjukkan bagaimana gambar manusia yang sangat realistis dapat diperoleh dengan melatih jaringan pada berbagai kumpulan data.
Namun, pengembang di pusat penelitian Samsung di Moskow kini telah mengembangkan model kecerdasan buatan (AI) baru yang dapat membuat avatar berbicara dari satu gambar. Meskipun dimungkinkan untuk membuat klip video dari satu gambar, melatihnya melalui beberapa gambar menghasilkan pelestarian identifikasi yang lebih baik dan realisme yang lebih tinggi.
Kepala bicara yang dihasilkan oleh model ini dapat menangani berbagai pose, termasuk pose yang melampaui kemampuan sistem berbasis warping. Anda mungkin menemukan beberapa gangguan visual, tetapi hasilnya jauh lebih mengesankan dibandingkan dengan teknik sebelumnya. Model tersebut mengarah pada pembuatan multimedia yang pada akhirnya akan sulit dibedakan dari video aslinya.
Tantangan Terlibat
Membuat urutan avatar berbicara yang realistis itu sulit terutama karena dua alasan –
- Kepala manusia memiliki kompleksitas kinematik, geometris, dan fotometrik yang tinggi. Anda perlu memodelkan rambut, mata, rongga mulut, dan banyak elemen lainnya secara akurat.
- Ketajaman sistem visual terhadap kesalahan kecil dalam penampilan pemodelan kepala manusia.
Untuk mengatasi masalah ini, model AI baru menciptakan tiga jaringan saraf selama proses pembelajaran. Itu membangun jaringan tertanam yang menghubungkan bingkai tengara wajah dengan vektor. Kemudian membangun jaringan generator untuk memetakan landmark ke dalam klip yang disintesis. Pada langkah terakhir, jaringan diskriminator mengevaluasi pose dan realisme bingkai.
Referensi:arXiv:1905.08233 | YouTube
Untuk lebih memahami landmark wajah dan gerakan, para peneliti melatih jaringan di ribuan video YouTube tentang manusia yang berbicara. Hasilnya (kepala yang berbicara) kemudian dibandingkan dengan jaringan saraf alternatif melalui pengukuran kuantitatif.
Hasil
Tim menerapkan model ini pada gambar banyak tokoh populer, seperti Mona Lisa, Leonardo Da Vinci, dan Albert Einstein. AI mampu membuat video berbicara dari satu gambar, menghidupkan potret klasik. Hanya perlu satu foto untuk membuat video. Namun, model yang dilatih pada 32 gambar dapat mencapai skor personalisasi yang lebih baik dan realisme yang sempurna.
Jenis AI ini dapat memiliki beberapa aplikasi praktis dalam telepresence, termasuk game multi-pemain, konferensi video, serta industri efek khusus.
Baca:IBM Kembangkan AI yang Mendeteksi Adegan Dalam Video
Sisi negatifnya, perkembangan pesat teknik semacam itu dapat meningkatkan risiko misinformasi, peniruan identitas, penipuan, dan perusakan pemilu.