Manufaktur industri
Industri Internet of Things | bahan industri | Pemeliharaan dan Perbaikan Peralatan | Pemrograman industri |
home  MfgRobots >> Manufaktur industri >  >> Manufacturing Technology >> Teknologi Industri

Facebook Kembangkan AI yang Mampu Menyalin Suara Siapapun Dengan Akurasi yang Belum Pernah Ada Sebelumnya

Ada kemajuan besar dalam teknik pembelajaran mesin dalam beberapa tahun terakhir. Teknik-teknik ini telah bekerja dengan sangat baik dalam mengenali objek, wajah, dan menghasilkan gambar yang realistis.

Namun, dalam hal audio, kecerdasan buatan adalah sesuatu yang mengecewakan. Bahkan sistem text-to-speech terbaik tidak memiliki fitur dasar, seperti perubahan intonasi. Pernahkah Anda mendengar suara Stephen Hawking yang dihasilkan mesin? Terkadang, sangat sulit untuk memahami kalimatnya.

Sekarang, para ilmuwan di Facebook AI Research telah mengembangkan metode untuk mengatasi keterbatasan sistem text-to-speech yang ada. Mereka telah membangun model generatif — bernama MelNet — yang dapat menghasilkan intonasi manusia dengan akurasi yang luar biasa. Bahkan, ia dapat berbicara dengan lancar dengan suara siapa pun.

Apa Perbedaan MelNet dengan Machine Speech yang Ada?

Sebagian besar algoritme pembelajaran mendalam dilatih pada basis data audio besar untuk meregenerasi pola ucapan yang sebenarnya. Masalah utama dengan metodologi ini adalah jenis data. Biasanya, algoritme ini dilatih pada rekaman gelombang audio, yang memiliki struktur kompleks pada rentang waktu yang sangat bervariasi.

Rekaman ini mewakili bagaimana amplitudo suara bervariasi dengan waktu:satu detik audio berisi puluhan ribu langkah waktu. Bentuk gelombang tersebut mencerminkan pola tertentu pada sejumlah skala yang berbeda.

Model generatif bentuk gelombang yang ada (seperti SampleRNN dan WaveNet) hanya dapat merambat mundur melalui sepersekian detik. Oleh karena itu, mereka tidak dapat menangkap struktur tingkat tinggi yang muncul dalam skala beberapa detik.

MelNet, di sisi lain, menggunakan spektogram (bukan bentuk gelombang audio) untuk melatih jaringan pembelajaran mendalam. Spektogram adalah representasi frekuensi waktu 2D yang menunjukkan seluruh spektrum frekuensi audio dan perbedaannya dengan waktu.

Spektrogram dan pola gelombang dari konten audio 4 detik yang sama 

Sementara bentuk gelombang domain waktu 1D menangkap perubahan dari waktu ke waktu dari satu variabel (amplitudo), spektogram menangkap perubahan pada frekuensi yang berbeda. Dengan demikian, informasi audio dikemas lebih padat dalam spektogram.

Ini memungkinkan MelNet menghasilkan sampel ucapan dan musik tanpa syarat dengan konsistensi selama beberapa detik. Ini juga mampu menghasilkan suara bersyarat dan sintesis teks-ke-ucapan, sepenuhnya dari ujung ke ujung.

Referensi:arXiv:1906.01083 | GitHub

Untuk mengurangi kehilangan informasi dan membatasi pemulusan yang berlebihan, mereka masing-masing memodelkan spektogram resolusi tinggi dan menggunakan model autoregresif yang sangat ekspresif.

Hasilnya Mengesankan

Periset melatih MelNet pada banyak pembicaraan Ted, dan kemudian dapat meregenerasi suara pembicara yang mengucapkan frasa acak selama beberapa detik. Di bawah ini adalah dua contoh MelNet yang menggunakan suara Bill Gates untuk mengucapkan frasa acak.

  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3

“Port adalah anggur yang kuat dengan rasa berasap.”

  1. https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3

“Kami cemberut saat peristiwa berubah menjadi buruk.”

Contoh lainnya tersedia di GitHub.

Meskipun MelNet menciptakan klip audio yang sangat hidup, itu tidak dapat menghasilkan kalimat, atau paragraf yang lebih panjang. Namun demikian, sistem dapat meningkatkan interaksi komputer-manusia.

Banyak percakapan layanan pelanggan melibatkan frasa pendek. MelNet dapat digunakan untuk mengotomatiskan interaksi tersebut atau mengganti sistem suara otomatis saat ini untuk meningkatkan pengalaman penelepon.

Baca:AI Facebook Mengonversi Musik Dari Satu Gaya ke Gaya Lain

Di sisi negatifnya, teknologi ini meningkatkan momok era baru konten audio palsu. Dan seperti kemajuan lain dalam kecerdasan buatan, ini menimbulkan lebih banyak pertanyaan etis daripada jawaban.


Teknologi Industri

  1. Sirkuit Dengan Sakelar
  2. Dev kit mempercepat integrasi Alexa
  3. Perangkat berdaya rendah dapat mendengarkan dengan koklea silikon
  4. Bagaimana prosesor audio edge mengaktifkan integrasi suara di perangkat IoT
  5. Saat audio melalui BLE memenuhi aktivasi suara yang selalu aktif
  6. Renesas mengembangkan MCU 28 nm dengan fungsi yang dibantu virtualisasi
  7. Pertimbangan desain untuk sistem perintah suara berdaya rendah yang selalu aktif
  8. KB Components mengembangkan logistiknya dengan spesialis otomasi Swisslog
  9. Bubut Mampu Operasi Manual Dengan Bantuan CNC
  10. Transportasi Platform Seluler Otonom dengan Akurasi, Keamanan