AI Mengubah Penari Amatir menjadi Profesional dengan Transfer Gerakan Pembelajaran Mendalam
- Sistem pembelajaran mendalam yang terobosan dapat meniru koreografi bintang penari papan atas di rekaman video apa pun.
- Ini hanya memerlukan input video biasa—tidak diperlukan perlengkapan 3D atau pakaian penangkap gerak yang mahal—untuk menghasilkan hasil berkualitas studio.
Kecerdasan Buatan mengubah industri mulai dari elektronik konsumen hingga eksplorasi ruang angkasa, dan inovasi terbaru ini menunjukkan kekuatan transformatifnya dalam bidang seni. Para peneliti di University of California telah mengembangkan algoritme transfer gerak yang memetakan gerakan penari sumber ke penari target, sehingga membuat peserta biasa pun terlihat seperti balerina berpengalaman atau ikon pop.
Ide intinya sangat jelas:“Lakukan seperti yang saya lakukan.” Dalam hitungan menit, sistem ini dapat menampilkan gerakan tari profesional ke subjek target, sehingga membuka kemungkinan kreatif baru bagi pemain, pendidik, dan pembuat konten.
Cara Kerja Teknologi
Prosesnya dimulai dengan mengekstraksi kerangka pose berbasis titik kunci dari video sumber dan target. Figur stik pose ini memberikan representasi posisi tubuh yang ringan dan tidak bergantung pada penampilan, sehingga memungkinkan model untuk fokus hanya pada gerakan.

Setiap pose frame dihasilkan oleh algoritme estimasi pose yang diawasi, sehingga menghasilkan figur tongkat yang akurat. Model transfer gerak kemudian menyerap kerangka ini, menghasilkan gambar target yang meniru pose sumber sambil mempertahankan penampilan target. Hasil akhir disempurnakan dengan menggabungkan modul transfer pose dengan jaringan penyempurnaan generatif, menghasilkan bingkai yang lebih tajam dan realistis.
Alur kerja dibagi menjadi tiga tahap:
- Deteksi pose – mengekstrak titik kunci 2D dari rekaman sumber dan target.
- Normalisasi pose global – menyelaraskan kerangka antar subjek.
- Pemetaan pose – sintesis bingkai target yang cocok dengan pose sumber.
Untuk memastikan kelancaran sementara, algoritme memadukan pose frame saat ini dengan frame yang dihasilkan sebelumnya, sehingga secara dramatis mengurangi jitter. Untuk input dengan kecepatan frame rendah, filter median diterapkan; untuk video dengan kecepatan bingkai tinggi (hingga 120fps), penghalusan titik kunci Gaussian digunakan.
Hasil fidelitas tinggi dicapai dengan mengintegrasikan Conditional Generative Adversarial Networks (cGAN) yang dilatih pada rekaman tari amatir dengan framerate tinggi berdurasi lebih dari 20 menit per subjek. Arsitektur pix2pixHD, yang dikembangkan oleh NVIDIA, berfungsi sebagai tulang punggung alur terjemahan gambar.
Referensi:arXiv:1808.07371
Pelatihan dan inferensi dilakukan pada GPU NVIDIA GeForce GTX1080Ti dan TITANXp menggunakan PyTorch dengan akselerasi CUDA.
Arah Masa Depan
Algoritme saat ini mendukung transfer gerakan pada berbagai subjek tanpa memerlukan perangkat keras khusus. Namun, kadang-kadang jitter tetap ada, terutama ketika kecepatan gerakan sumber melebihi rentang yang terlihat selama latihan. Penelitian yang sedang berjalan berfokus pada pengoptimalan metode estimasi pose dan memperluas repertoar gerakan untuk mengurangi artefak ini.
Untuk terobosan terkait, lihat:NVIDIA AI Dapat Mengonversi Video 30fps Menjadi 240fps