Google AI Mencapai Pelacakan Objek Melalui Pewarnaan Video – Pendekatan yang Diawasi Sendiri
- Jaringan konvolusional baru belajar menyalin warna dari satu bingkai referensi ke bingkai berikutnya.
- Saat melakukannya, ia dapat mengikuti objek yang berbeda dan melacak oklusi.
- Ia juga dapat melacak pose manusia.
Mengajari mesin untuk melacak objek dalam video adalah salah satu tugas tersulit dalam computer vision, terutama karena memerlukan kumpulan data pelatihan berlabel yang besar untuk pelacakan. Tentu saja, mencatat dan memberi label pada segala sesuatu yang terjadi di Bumi adalah hal yang tidak praktis.
Oleh karena itu, penting untuk membangun sistem yang dapat belajar melacak tanpa pengawasan manusia, daripada menggunakan klip mentah dan tidak berlabel dalam jumlah besar. Mengapa itu sangat penting, Anda bertanya? Ya, melacak objek dalam video dapat berguna untuk berbagai aplikasi, seperti interaksi objek, pengenalan aktivitas, penataan gaya video, dan banyak lagi.
Kini, para peneliti di Google telah mengembangkan jaringan konvolusional yang belajar menyalin warna dari satu kerangka referensi. Daripada mencoba memperkirakan warna langsung dari bingkai skala abu-abu, model dibatasi untuk menggunakan warna bingkai referensi pertama video.
Untuk menyalin warna yang tepat, jaringan perlu mempelajari cara menunjuk secara internal ke wilayah yang tepat. Model baru ini dapat mengikuti objek yang berbeda dan melacak oklusi tanpa harus dilatih pada kumpulan data berlabel besar.
Video Pewarnaan Ulang
Untuk mengembangkan sistem kecerdasan buatan ini, para peneliti telah memanfaatkan koherensi warna temporal, yang menawarkan data pelatihan yang sangat besar untuk mengajarkan jaringan konvolusional guna melacak bagian tertentu dalam video. Ada beberapa kasus luar biasa ketika warna tidak koheren untuk sementara waktu, misalnya, menyalakan lampu secara instan. Namun, secara umum warna tetap stabil seiring berjalannya waktu.
Prediksi warna dari referensi bingkai tunggal berwarna | Kredit:Google
Pertama, video dihilangkan warnanya dan kemudian jaringan melakukan langkah-langkah pewarnaan karena sebuah adegan mungkin berisi objek berbeda dengan warna yang sama. Dengan melakukan ini, mesin dapat mempelajari cara melacak wilayah atau objek tertentu.
Pelatihan
Para peneliti menggunakan kumpulan data Kinetics (berisi setengah juta klip video yang menggambarkan aktivitas sehari-hari) untuk melatih model mereka. They converted all video frames, excluding the first one, into grayscale and trained the network to estimate the right colors in the following frames.
Untuk menyalin warna asli dari satu bingkai, jaringan konvolusional belajar menunjuk secara internal ke warna yang tepat. Hal ini memaksa jaringan untuk mengikuti mekanisme eksplisit, yang dapat digunakan untuk pelacakan objek.
Jaringan melacak objek tanpa pengawasan | Kredit:Google
Meskipun model tersebut tidak dilatih mengenai identitas solid, model tersebut belajar melacak objek atau bagian visual apa pun dalam video hanya menggunakan satu bingkai (pertama). Itu dapat melacak satu titik atau entitas yang diuraikan dalam video.
Referensi: arXiv:1806.09594 | Blog AI Google
Untuk melacak objek dari video pewarnaan, peneliti hanya melakukan satu perubahan:menyebarkan label yang mewakili wilayah target, bukan menyebarkan warna di seluruh klip.
Pose Tracking
Melacak pergerakan kerangka manusia | Kredit:Google
Jaringan ini juga mampu melacak pose manusia:Jaringan ini memerlukan bingkai awal yang diberi label dengan titik-titik kunci dan melakukan sisanya. Namun, memprediksi titik-titik kunci dalam frame berikut tidak semudah kedengarannya, karena Anda harus memiliki pelokalan yang terperinci dari setiap titik kunci ketika orang-orang dalam video mengalami deformasi.
Para peneliti mendemonstrasikan fitur pelacakan pose jaringan pada kumpulan data JHMDB (kumpulan data yang dianotasi sepenuhnya untuk pose dan tindakan manusia) tempat mereka melacak kerangka sendi manusia.
Jaringan memperoleh kinerja serupa dengan aliran optik, yang menunjukkan bahwa jaringan tersebut mungkin mempelajari beberapa fitur gerakan. Ia belajar melacak pose manusia dan segmen video dengan cukup baik untuk sedikit mengungguli teknik berbasis aliran optik terbaru.
Baca:Google AI Dapat Membuat Klip Video Pendek Dari Dua Gambar Diam
Modelnya belum sempurna. Dalam beberapa eksperimen, ia gagal mewarnai video dan melacak segmen. Oleh karena itu, para peneliti berencana untuk lebih menyempurnakan proses pewarnaan video, yang pada akhirnya dapat menghasilkan pelacakan yang lebih diawasi secara mandiri.