AI Facebook Mengubah Musik di Berbagai Genre dan Instrumen

Tim peneliti AI Facebook membangun jaringan terjemahan musik universal.
Ini mereplikasi audio yang didengarnya dan memutarnya kembali dalam berbagai gaya, genre, dan instrumen.
Ini dapat memproses sumber musik yang belum pernah terdengar, seperti tepuk tangan atau peluit, dan menghasilkan audio berkualitas tinggi.

Dalam hal musik, manusia selalu berkreasi dalam mereplikasi lagu dan mengubahnya menjadi berbagai bentuk lain dengan cara bertepuk tangan, bersiul, atau memainkannya dengan berbagai alat musik.

Meskipun musik adalah salah satu bidang pertama yang didigitalkan dan diproses oleh mesin komputasi dan algoritme, kecerdasan buatan saat ini masih kalah jauh dengan manusia dalam meniru audio.

Kini tim peneliti AI Facebook telah mengembangkan jaringan terjemahan musik universal yang dapat mengubah musik dari satu bentuk ke bentuk lainnya. Ini mereplikasi musik yang didengarnya dan memutarnya kembali dalam gaya, genre, dan instrumen yang berbeda.

Bagaimana Mereka Melakukannya?

Sistem AI ini didasarkan pada 2 teknologi terbaru

Mensintesis audio berkualitas tinggi dengan model regresi otomatis
Transformasi antar domain tanpa pengawasan

Model auto-regresif dilatih sebagai decoder dan dapat menghasilkan audio berkualitas tinggi dan realistis. Teknologi kedua bertanggung jawab untuk menjadikan segalanya lebih praktis, karena mengelola masalah pembelajaran di lingkungan yang diawasi akan memerlukan kumpulan data besar yang terdiri dari berbagai alat musik.

Para peneliti mengembangkan dan menerapkan encoder universal untuk setiap masukan. Hal ini menghilangkan beban pelatihan seluruh jaringan, dan memungkinkan konversi domain musik yang belum pernah terdengar ke domain lain yang ditemui.

Arsitektur jaringan | Kebingungan domain hanya diterapkan selama pelatihan

Mereka melatih pembuat enkode universal [melalui jaringan kebingungan domain] sambil memastikan bahwa data khusus domain tidak dikodekan. Encoder universal tidak mengingat data masukan, tetapi mengkodekannya secara semantik. Untuk melakukan hal ini, peneliti mendistorsi sinyal masukan (format audio) dengan modulasi nada lokal acak.

Referensi: arXiv:1805.07848

Karena jaringan dilatih sebagai pembuat enkode otomatis denoising, jaringan ini mampu memulihkan bentuk sinyal masukan asli yang tidak terdistorsi. Sistem secara bertahap belajar memproyeksikan sinyal masukan di luar domain ke domain keluaran yang sesuai.

Para peneliti melatih jaringan mereka pada 6 jenis domain musik klasik, termasuk ribuan sampel dari domain tersebut. Mereka mengeksekusi kerangka pembelajaran mendalam PyTorch yang dipercepat cuDNN pada 8 GPU NVIDIA Tesla V100. Mereka memerlukan waktu 8 hari untuk melatih jaringan sepenuhnya.

Hasil

AI-nya memang tidak sebaik musisi profesional, namun beberapa kali pendengar kesulitan membedakan mana audio asli dan mana yang dihasilkan secara artifisial.

Sistem ini dapat secara efektif memproses sumber musik yang belum pernah terdengar, seperti tepuk tangan atau peluit, dan menghasilkan audio berkualitas superior. Seseorang dapat mengintegrasikan alat musik baru tanpa harus melatih ulang jaringan yang lengkap.

Baca:Robot AI Facebook Dimatikan – Apa yang Sebenarnya Terjadi?

Menurut pengembangnya, pekerjaan mereka dapat membuka pintu baru untuk tugas kompleks lainnya, seperti komposisi otomatis dan transkripsi musik. Selain itu, decoder dapat dibuat lebih 'kreatif' dengan mengurangi ukuran ruang laten, yang memungkinkannya menghasilkan keluaran alami yang menarik dalam artian asosiasi dengan audio asli hilang.

Rumah Mungil di Dunia:Struktur Mikro 20 Mikrometer Prediksi Umur Anda dengan AI Menggunakan Data Ponsel Cerdas Anda

Teknologi Industri

Proses manufaktur

pencetakan 3D

Sistem Kontrol Otomatisasi

Teknologi Industri