GLTR:Metode Baru Untuk Mendeteksi Bahasa yang Dihasilkan Komputer

Metode statistik baru dapat mendeteksi konten yang dibuat oleh AI.
Ini bekerja dengan mengidentifikasi teks yang terlalu dapat diprediksi daripada hanya menandai kesalahan dalam teks.

Dalam dekade terakhir, komunitas pemrosesan bahasa alami telah menyaksikan pertumbuhan model bahasa yang semakin besar dan cerdas.

Di masa kecerdasan buatan dan jaringan saraf dalam yang dilengkapi dengan bahasa alami manusia, para peneliti di Universitas Harvard dan IBM Research telah mengembangkan metode statistik untuk mendeteksi teks yang dihasilkan komputer.

Mereka telah membangun alat interaktif (tersedia untuk umum) untuk membedakan bahasa alami manusia dan teks yang dihasilkan oleh mesin dari ucapan manusia. Tujuannya adalah untuk memberikan lebih banyak informasi kepada orang-orang sehingga mereka dapat membuat keputusan yang tepat tentang mana yang palsu dan mana yang nyata.

Model kecerdasan buatan biasanya dilatih pada jutaan teks (diambil dari web di seluruh dunia). Mereka memprediksi kata-kata yang paling sering mengikuti satu sama lain untuk meniru bahasa manusia. Misalnya, kata "Anda" secara statis kemungkinan besar akan diikuti oleh kata-kata "adalah", "memiliki", dan "adalah".

Dengan menggunakan metodologi ini, peneliti membangun alat yang mendeteksi teks yang terlalu dapat diprediksi [daripada menandai kesalahan dalam teks]. Ini memungkinkan AI dan manusia bekerja sama untuk mengidentifikasi bahasa yang dihasilkan mesin.

Bagaimana Cara Kerjanya?

Teknik baru — bernama Giant Language model Test Room (GLTR) — didasarkan pada model yang dilatih pada sekitar 45 juta teks dari situs web. Ini memiliki akses ke salah satu model terbesar yang tersedia untuk umum, GPT-2.

Dengan demikian, ia dapat mengamati apa yang diprediksi GPT-2 pada setiap posisi (untuk input tekstual apa pun) dan bekerja secara efisien terhadap GPT-2 dan banyak model lainnya.

GLTR mewakili alat forensik visual untuk mengidentifikasi teks yang dihasilkan secara otomatis. Ini menunjukkan 3 histogram berbeda yang menggabungkan informasi di seluruh teks.

Referensi:The Harvard Gazette | GitHub

Cukup masukkan paragraf ke dalam kotak alat dan itu akan menyoroti semua kata dalam empat warna berbeda, masing-masing menunjukkan prediktabilitas kata dalam konteks apa yang mengikutinya. Ungu berarti kata tidak dapat diprediksi; merah, sedikit dapat diprediksi; kuning, cukup dapat diprediksi; dan hijau menunjukkan kata-kata yang sangat mudah ditebak dalam paragraf.

Ini adalah bagaimana paragraf yang dihasilkan mesin terlihat –

Histogram pertama menunjukkan berapa banyak kata dari setiap kategori yang muncul dalam paragraf. Yang kedua menunjukkan rasio antara probabilitas kata yang diprediksi tertinggi dan kata berikutnya. Histogram ketiga mewakili distribusi di atas entropi prediksi.

Tentu saja, ketidakpastian akan lebih tinggi untuk teks tulisan manusia, terutama untuk makalah penelitian dan teks akademik. Seperti inilah abstrak makalah penelitian (pada galaksi EAGLE) –

Baca:Kecerdasan Buatan Dapat Menghasilkan Ucapan Dari Aktivitas Saraf

Tim peneliti juga menguji alat baru mereka dengan sekelompok lulusan ilmu komputer. Para siswa mampu mendeteksi 50% dari paragraf yang dihasilkan komputer, namun dengan bantuan alat ini, mereka mengidentifikasi 72%. Persentasenya bisa menjadi lebih baik dengan sedikit pelatihan dengan sistem.

Neuron Buatan Bisa Efisien Seperti Otak Manusia AI Dapat Memecahkan Kubus Rubik Dalam Beberapa Detik, Tanpa Pengetahuan Domain Tertentu

Teknologi Industri

Proses manufaktur

pencetakan 3D

Sistem Kontrol Otomatisasi

Teknologi Industri