Model AI Mendeteksi Depresi dari Percakapan Alami dengan Akurasi 77%.
- Para peneliti di MIT mengembangkan jaringan saraf yang secara otomatis mengidentifikasi pola depresi dari audio dan teks mentah, tanpa pertanyaan yang telah ditentukan sebelumnya.
- Model ini "bebas konteks", artinya model ini dapat menganalisis percakapan santai apa pun dan mengekstrak isyarat linguistik dan akustik yang terkait dengan depresi.
- Dalam studi validasi, alat ini mencapai akurasi keseluruhan sebesar 77%, mengungguli alat AI berbasis Tanya Jawab konvensional.
Secara tradisional, Kuesioner Kesehatan Pasien (PHQ‑9) adalah standar emas untuk skrining depresi. Ini menanyakan sembilan pertanyaan tetap tentang suasana hati, tidur, nafsu makan, dan tingkat energi untuk menghitung skor dari 0 hingga 27, dengan skor di atas 20 menunjukkan depresi berat.
Selama beberapa tahun terakhir, pendekatan pembelajaran mesin telah berhasil menggali ucapan untuk mengetahui penanda—intonasi, kecepatan bicara, dan pilihan leksikal tertentu—yang menunjukkan keadaan depresi. Namun, sebagian besar model ini mengandalkan tanggapan terhadap PHQ‑9 atau wawancara terstruktur serupa, sehingga membatasi penerapannya di dunia nyata.
Jaringan saraf baru MIT menghilangkan kendala tersebut. Dengan menyediakan rekaman wawancara bentuk bebas, sistem belajar mengenali pola-pola halus—seperti seringnya penggunaan kata-kata seperti "turun", "rendah", atau "sedih", yang dipadukan dengan kualitas vokal yang datar atau monoton serta kecepatan bicara yang lebih lambat—yang sangat terkait dengan depresi.
Cara Kerja Model
Algoritme ini memperlakukan ucapan sebagai rangkaian bingkai audio yang diberi cap waktu dan kata-kata yang ditranskripsikan. Ini menggunakan arsitektur pemodelan urutan mendalam yang bersama-sama menganalisis fitur akustik (nada, energi, kecepatan bicara) dan konten linguistik. Karena tidak bergantung pada kuesioner tetap, maka dapat diterapkan pada data percakapan apa pun, mulai dari wawancara klinis hingga panggilan telepon sehari-hari.
Penulis menyebut hal ini sebagai "pemodelan bebas konteks" karena model ini menangkap indikator depresi yang tidak bergantung pada pertanyaan spesifik yang diajukan.
Pelatihan, Validasi, dan Kinerja
Model ini dilatih berdasarkan 142 interaksi yang diambil dari Distress Analysis Interview Corpus (DAIC), yang mencakup audio, video, dan teks percakapan dengan peserta sehat dan individu yang didiagnosis menderita gangguan mental.
Tingkat keparahan depresi setiap subjek diukur menggunakan skor PHQ‑9 (0–27). Dalam penelitian tersebut, 28 peserta diklasifikasikan sebagai depresi (skor ≥20). Jaringan ini dievaluasi berdasarkan presisi dan perolehan:jaringan ini mencapai 71% presisi dan 83% perolehan, sehingga menghasilkan akurasi keseluruhan sebesar 77%—peningkatan penting dibandingkan pendekatan AI sebelumnya yang biasanya berkisar pada akurasi 60–65%.
Penelitian di masa depan akan memperluas jaringan ini ke kondisi lain seperti demensia dan mengeksplorasi pola akustik-linguistik tertentu yang mendorong prediksinya.
Dalam jangka panjang, teknologi ini dapat diintegrasikan ke dalam aplikasi seluler untuk secara pasif memantau suara dan teks pengguna untuk mencari tanda-tanda tekanan, sehingga memberikan peringatan dini bagi mereka yang menghadapi hambatan dalam mengakses layanan kesehatan mental.

Referensi:Konferensi Antar Pidato | CSAIL/MIT
Baca:Stimulasi Otak Dapat Menurunkan Niat Seseorang Melakukan Tindakan Kekerasan