Facebook Kembangkan AI yang Mampu Menyalin Suara Siapapun Dengan Akurasi yang Belum Pernah Ada Sebelumnya
Model pembelajaran mendalam baru bernama MelNet dapat menghasilkan intonasi manusia dengan akurasi yang luar biasa.
Setelah dilatih, ia dapat meregenerasi suara siapa pun dalam beberapa detik.
Para peneliti mendemonstrasikan bagaimana tepatnya ia dapat mengkloning suara Bill Gates.
Ada kemajuan besar dalam teknik pembelajaran mesin dalam beberapa tahun terakhir. Teknik-teknik ini telah bekerja dengan sangat baik dalam mengenali objek, wajah, dan menghasilkan gambar yang realistis.
Namun, dalam hal audio, kecerdasan buatan adalah sesuatu yang mengecewakan. Bahkan sistem text-to-speech terbaik tidak memiliki fitur dasar, seperti perubahan intonasi. Pernahkah Anda mendengar suara Stephen Hawking yang dihasilkan mesin? Terkadang, sangat sulit untuk memahami kalimatnya.
Sekarang, para ilmuwan di Facebook AI Research telah mengembangkan metode untuk mengatasi keterbatasan sistem text-to-speech yang ada. Mereka telah membangun model generatif — bernama MelNet — yang dapat menghasilkan intonasi manusia dengan akurasi yang luar biasa. Bahkan, ia dapat berbicara dengan lancar dengan suara siapa pun.
Apa Perbedaan MelNet dengan Machine Speech yang Ada?
Sebagian besar algoritme pembelajaran mendalam dilatih pada basis data audio besar untuk meregenerasi pola ucapan yang sebenarnya. Masalah utama dengan metodologi ini adalah jenis data. Biasanya, algoritme ini dilatih pada rekaman gelombang audio, yang memiliki struktur kompleks pada rentang waktu yang sangat bervariasi.
Rekaman ini mewakili bagaimana amplitudo suara bervariasi dengan waktu:satu detik audio berisi puluhan ribu langkah waktu. Bentuk gelombang tersebut mencerminkan pola tertentu pada sejumlah skala yang berbeda.
Model generatif bentuk gelombang yang ada (seperti SampleRNN dan WaveNet) hanya dapat merambat mundur melalui sepersekian detik. Oleh karena itu, mereka tidak dapat menangkap struktur tingkat tinggi yang muncul dalam skala beberapa detik.
MelNet, di sisi lain, menggunakan spektogram (bukan bentuk gelombang audio) untuk melatih jaringan pembelajaran mendalam. Spektogram adalah representasi frekuensi waktu 2D yang menunjukkan seluruh spektrum frekuensi audio dan perbedaannya dengan waktu.
Spektrogram dan pola gelombang dari konten audio 4 detik yang sama
Sementara bentuk gelombang domain waktu 1D menangkap perubahan dari waktu ke waktu dari satu variabel (amplitudo), spektogram menangkap perubahan pada frekuensi yang berbeda. Dengan demikian, informasi audio dikemas lebih padat dalam spektogram.
Ini memungkinkan MelNet menghasilkan sampel ucapan dan musik tanpa syarat dengan konsistensi selama beberapa detik. Ini juga mampu menghasilkan suara bersyarat dan sintesis teks-ke-ucapan, sepenuhnya dari ujung ke ujung.
Referensi:arXiv:1906.01083 | GitHub
Untuk mengurangi kehilangan informasi dan membatasi pemulusan yang berlebihan, mereka masing-masing memodelkan spektogram resolusi tinggi dan menggunakan model autoregresif yang sangat ekspresif.
Hasilnya Mengesankan
Periset melatih MelNet pada banyak pembicaraan Ted, dan kemudian dapat meregenerasi suara pembicara yang mengucapkan frasa acak selama beberapa detik. Di bawah ini adalah dua contoh MelNet yang menggunakan suara Bill Gates untuk mengucapkan frasa acak.
“Kami cemberut saat peristiwa berubah menjadi buruk.”
Contoh lainnya tersedia di GitHub.
Meskipun MelNet menciptakan klip audio yang sangat hidup, itu tidak dapat menghasilkan kalimat, atau paragraf yang lebih panjang. Namun demikian, sistem dapat meningkatkan interaksi komputer-manusia.
Banyak percakapan layanan pelanggan melibatkan frasa pendek. MelNet dapat digunakan untuk mengotomatiskan interaksi tersebut atau mengganti sistem suara otomatis saat ini untuk meningkatkan pengalaman penelepon.
Baca:AI Facebook Mengonversi Musik Dari Satu Gaya ke Gaya Lain
Di sisi negatifnya, teknologi ini meningkatkan momok era baru konten audio palsu. Dan seperti kemajuan lain dalam kecerdasan buatan, ini menimbulkan lebih banyak pertanyaan etis daripada jawaban.