Kecerdasan Buatan Dapat Menghasilkan Ucapan Dari Aktivitas Saraf
- Peneliti menggunakan jaringan saraf berulang untuk membantu orang yang lumpuh dan tidak dapat berkomunikasi.
- Jaringan mengubah aktivitas saraf menjadi akustik suara.
- Ini dapat membantu pasien mengkomunikasikan kosakata yang tidak dibatasi dengan kecepatan bicara yang wajar.
Banyak kondisi neurologis mengakibatkan hilangnya komunikasi, membuat pasien bergantung sepenuhnya pada alat bantu. Perangkat ini memungkinkan mereka untuk mengetik kalimat karakter demi karakter hingga 10 kata per menit. Namun, kecepatan ini terlalu lambat dibandingkan dengan percakapan sehari-hari yang berlangsung sekitar 150 kata per menit.
Untuk memungkinkan tingkat komunikasi yang jauh lebih tinggi atau bahkan alami, para peneliti di University of California San Francisco telah menggunakan pendekatan biomimetik yang menekankan pada gerakan saluran vokal dan suara yang mereka hasilkan.
Mereka telah menunjukkan bahwa adalah mungkin untuk menghasilkan pidato yang disintesis langsung dari sinyal otak. Sinyal ini secara tepat mengkoordinasikan sekitar 100 otot untuk menggerakkan bibir, lidah, rahang, dan laring, membentuk napas menjadi suara yang akhirnya membentuk kata dan kalimat.
Tim merekam sinyal elektrokortikografi kepadatan tinggi dari 5 peserta yang sedang dirawat karena epilepsi (gangguan neurologis). Semua peserta diminta untuk membaca kalimat dengan keras sementara elektroda yang ditempatkan di permukaan otak mereka mengukur sinyal yang dihasilkan.
Jaringan Neural Berulang
Para peneliti mengembangkan jaringan saraf berulang untuk memecahkan kode sinyal kortikal dengan representasi perantara eksplisit dari dinamika artikulatoris, dan akhirnya mensintesis ucapan yang dapat didengar.
Referensi:Alam | DOI:10.1038/s41586-019-1119-1 | UC San Francisco
Jaringan saraf dilatih pada suara peserta yang mengucapkan kalimat dengan keras, bersama dengan sinyal kortikal. Mereka menggunakan pengoptimal ADAM untuk melatih algoritme. Untuk pelatihan tahap pertama dan kedua, ukuran batch 256 dan 25 digunakan, masing-masing.
Jaringan deep encoder-decoder yang ditumpuk secara eksplisit menggabungkan sinyal otak untuk memecahkan kode korelasi fisiologis utama dari aktivitas saraf dan kemudian mengubahnya menjadi akustik suara. Itu dioptimalkan untuk memecahkan kode akustik langsung dari elektroda.
Sintesis ucapan dari kalimat lisan yang didekodekan secara saraf | Atas perkenan peneliti
Pemetaan statistik ini memungkinkan generalisasi dengan kumpulan data pelatihan terbatas. Para peneliti mampu mencapai kinerja yang memuaskan dengan 25 menit bicara, dan kinerja terus meningkat saat mereka memasukkan lebih banyak data.
Apa Selanjutnya?
Studi ini menyajikan metode canggih untuk mengatasi hambatan besar yang ditimbulkan oleh pasien yang menderita gangguan neurologis. Menurut hasil generalisasi, pembicara berbagi representasi ruang keadaan kinematik yang serupa, yang independen dari pembicara. Pengetahuan model — pemetaan kinematika ke suara di seluruh peserta — dapat ditransfer.
Memanfaatkan representasi aktivitas saraf berdimensi rendah dari orang yang berbeda ini dapat memfasilitasi pembelajaran antarmuka otak-komputer. Temuan ini dapat membuka pintu baru untuk mewujudkan pemulihan bicara bagi pasien dengan kelumpuhan.
Baca:AI Dapat Membaca Makalah Penelitian Dan Memberikan Ringkasan Bahasa Inggris Biasa
Jaringan saraf yang dikembangkan dalam penelitian ini memberikan kemampuan untuk mengomunikasikan kosakata yang tidak dibatasi pada kecepatan bicara yang alami. Pendekatan sintesis ucapan langsung ini menangkap elemen prosodik ucapan, termasuk intonasi nada, yang tidak tersedia dengan output teks. Selain itu, mungkin lebih mudah dan intuitif untuk belajar menggunakan untuk pasien yang pemrosesan artikulasi kortikalnya masih utuh.