AI Baru Google Mendeteksi Suara Individu dalam Suasana Ramai

Google mengembangkan AI baru yang dapat fokus pada suara tertentu di area ramai.
Ia menggunakan kombinasi sinyal visual dan pendengaran untuk memisahkan suara.
Teknologi ini juga berpotensi menyediakan sistem teks video yang lebih baik untuk pembicara yang tumpang tindih, dengan melakukan pra-pemrosesan pengenalan ucapan.

Manusia sangat pandai memilih suara tertentu di tempat ramai, dan membungkam semua suara lainnya. Namun, hal ini tetap menjadi tantangan berat bagi mesin. Mereka masih belum pandai memisahkan pembicaraan individu ketika dua orang atau lebih berbicara, atau di hadapan kebisingan latar belakang.

Kini Google telah mengembangkan model audio visual berdasarkan pembelajaran mendalam yang dapat fokus pada satu sinyal audio dari campuran suara dan kebisingan latar belakang. AI dapat menganalisis video dan menyempurnakan suara orang tertentu sekaligus meredam semua suara lainnya.

Itu tidak memerlukan format audio atau video khusus; ini berfungsi pada semua format video umum dengan satu trek audio. Pengguna dapat memilih wajah tertentu dalam video yang ingin didengarkannya, atau membiarkan algoritme melakukannya berdasarkan konteks.

Teknologi ini menggunakan kombinasi sinyal visual dan pendengaran dari sebuah video untuk memisahkan suara. Algoritma dapat mengidentifikasi orang mana yang sedang berbicara berdasarkan gerakan mulutnya. Sinyal visual ini secara signifikan meningkatkan kualitas pemisahan ucapan dalam ucapan campuran, dan mengaitkan trek suara dengan speaker yang terlihat.

Bagaimana Pembuatannya?

Para insinyur mengumpulkan sejumlah besar video talkshow dan ceramah YouTube berkualitas untuk menghasilkan sampel pelatihan. Kemudian mereka memfilter 2.000 jam klip dari video tersebut. Video yang difilter dan memiliki suara jernih – tanpa kebisingan penonton, musik campuran, dan gangguan latar belakang.

Kemudian mereka menggunakan konten ini untuk membuat kombinasi video wajah dengan ucapan terkait dan kebisingan latar belakang dari berbagai sumber. Mereka melatih jaringan neural konvolusional multi-aliran untuk memisahkan suara masing-masing pembicara dari video ucapan campuran.

Representasi spektogram dari soundtrack dan gambar mini wajah pembicara di setiap frame (diekstraksi dari video) dimasukkan ke dalam jaringan saraf. Jaringan secara bertahap mempelajari (masa pelatihan) cara mengkodekan sinyal pendengaran dan visual dan menggabungkannya untuk membuat satu konten audio-visual.

Sementara itu, jaringan juga belajar untuk menyediakan masker frekuensi waktu untuk masing-masing pembicara. Kemudian mengalikan spektogram masukan yang bising menjadi masker, untuk menghasilkan keluaran ucapan yang bersih, sekaligus menghancurkan interferensi dan kebisingan.

Detail Implementasi

Jaringan ini diimplementasikan pada TensorFlow (kerangka pembelajaran mesin sumber terbuka), dan operasinya digunakan untuk melakukan transformasi Fourier bentuk gelombang dan waktu singkat. Semua lapisan jaringan, kecuali lapisan topeng, diikuti oleh aktivasi Unit Linier Rektifikasi.

Normalisasi batch dilakukan untuk semua lapisan konvolusional. Untuk melakukan ini, mereka menggunakan ukuran batch sebanyak 6 sampel dan dilatih untuk 5 juta batch (langkah). Audio diambil sampelnya ulang menjadi 16 KHz, dan audio stereo diubah menjadi mono untuk menghitung transformasi Fourier waktu singkat.

Referensi: arXiv:1804.03619 | Riset Google

Semua penyematan wajah diambil sampelnya ulang menjadi 25 bingkai per detik sebelum pelatihan, yang menghasilkan aliran visual masukan sebanyak 75 penyematan wajah. Mereka menggunakan vektor nol ketika ditemukan bingkai yang hilang dalam sampel tertentu.

Aplikasi

Teknologi ini dapat memiliki aplikasi yang tak terhitung jumlahnya, mulai dari pengenalan audio dalam video hingga peningkatan kemampuan bicara, terutama saat banyak orang berbicara. Hal ini akan memperluas jenis mikrofon yang dapat digunakan dalam berbagai lingkungan audio. Namun untuk saat ini, YouTube dan Hangouts sepertinya merupakan dua tempat yang mudah untuk memulai. Pada akhirnya, ini dapat diterapkan pada earbud penguat suara dan Google Kacamata.

Baca:Google Kembangkan AI Suara yang Tidak Bisa Dibedakan Dengan Manusia | Tacotron 2

Selain itu, teknik ini berpotensi menyediakan sistem teks video yang lebih baik untuk pembicara yang tumpang tindih, dengan melakukan pra-pemrosesan pengenalan ucapan. Fitur ini akan memudahkan penyandang tunarungu untuk berpartisipasi dalam telekonferensi dan menikmati video film.

Bilangan Acak yang Dihasilkan Kuantum Menetapkan Standar Akurasi Baru Teknik PRISM Mendobrak Batas Difraksi Cahaya untuk Pencitraan Sel Hidup dalam Ruang dan Waktu

Teknologi Industri

Proses manufaktur

pencetakan 3D

Sistem Kontrol Otomatisasi

Teknologi Industri