Manufaktur industri
Industri Internet of Things | bahan industri | Pemeliharaan dan Perbaikan Peralatan | Pemrograman industri |
home  MfgRobots >> Manufaktur industri >  >> Manufacturing Technology >> Teknologi Industri

GLTR:Metode Baru Untuk Mendeteksi Bahasa yang Dihasilkan Komputer

Dalam dekade terakhir, komunitas pemrosesan bahasa alami telah menyaksikan pertumbuhan model bahasa yang semakin besar dan cerdas.

Di masa kecerdasan buatan dan jaringan saraf dalam yang dilengkapi dengan bahasa alami manusia, para peneliti di Universitas Harvard dan IBM Research telah mengembangkan metode statistik untuk mendeteksi teks yang dihasilkan komputer.

Mereka telah membangun alat interaktif (tersedia untuk umum) untuk membedakan bahasa alami manusia dan teks yang dihasilkan oleh mesin dari ucapan manusia. Tujuannya adalah untuk memberikan lebih banyak informasi kepada orang-orang sehingga mereka dapat membuat keputusan yang tepat tentang mana yang palsu dan mana yang nyata.

Model kecerdasan buatan biasanya dilatih pada jutaan teks (diambil dari web di seluruh dunia). Mereka memprediksi kata-kata yang paling sering mengikuti satu sama lain untuk meniru bahasa manusia. Misalnya, kata "Anda" secara statis kemungkinan besar akan diikuti oleh kata-kata "adalah", "memiliki", dan "adalah".

Dengan menggunakan metodologi ini, peneliti membangun alat yang mendeteksi teks yang terlalu dapat diprediksi [daripada menandai kesalahan dalam teks]. Ini memungkinkan AI dan manusia bekerja sama untuk mengidentifikasi bahasa yang dihasilkan mesin.

Bagaimana Cara Kerjanya?

Teknik baru — bernama Giant Language model Test Room (GLTR) — didasarkan pada model yang dilatih pada sekitar 45 juta teks dari situs web. Ini memiliki akses ke salah satu model terbesar yang tersedia untuk umum, GPT-2.

Dengan demikian, ia dapat mengamati apa yang diprediksi GPT-2 pada setiap posisi (untuk input tekstual apa pun) dan bekerja secara efisien terhadap GPT-2 dan banyak model lainnya.

GLTR mewakili alat forensik visual untuk mengidentifikasi teks yang dihasilkan secara otomatis. Ini menunjukkan 3 histogram berbeda yang menggabungkan informasi di seluruh teks.

Referensi:The Harvard Gazette | GitHub

Cukup masukkan paragraf ke dalam kotak alat dan itu akan menyoroti semua kata dalam empat warna berbeda, masing-masing menunjukkan prediktabilitas kata dalam konteks apa yang mengikutinya. Ungu berarti kata tidak dapat diprediksi; merah, sedikit dapat diprediksi; kuning, cukup dapat diprediksi; dan hijau menunjukkan kata-kata yang sangat mudah ditebak dalam paragraf.

Ini adalah bagaimana paragraf yang dihasilkan mesin terlihat –

Histogram pertama menunjukkan berapa banyak kata dari setiap kategori yang muncul dalam paragraf. Yang kedua menunjukkan rasio antara probabilitas kata yang diprediksi tertinggi dan kata berikutnya. Histogram ketiga mewakili distribusi di atas entropi prediksi.

Tentu saja, ketidakpastian akan lebih tinggi untuk teks tulisan manusia, terutama untuk makalah penelitian dan teks akademik. Seperti inilah abstrak makalah penelitian (pada galaksi EAGLE) –

Baca:Kecerdasan Buatan Dapat Menghasilkan Ucapan Dari Aktivitas Saraf

Tim peneliti juga menguji alat baru mereka dengan sekelompok lulusan ilmu komputer. Para siswa mampu mendeteksi 50% dari paragraf yang dihasilkan komputer, namun dengan bantuan alat ini, mereka mengidentifikasi 72%. Persentasenya bisa menjadi lebih baik dengan sedikit pelatihan dengan sistem.


Teknologi Industri

  1. AI Baru Dapat Mendeteksi Jika Sumber Berita Akurat Atau Bias Politik
  2. Metode Baru Untuk Meningkatkan Kinerja Komputer Quantum
  3. Peneliti Mengusulkan Metode Baru Untuk Membuat Objek Tidak Terlihat
  4. Sistem Baru Dapat Mendeteksi Kegagalan Pada Peralatan Elektromekanis Sebelum Terjadi
  5. Microsoft Mencapai Terobosan Baru Di Bidang AI Percakapan
  6. Metode Holografik Baru Menangkap Objek Di Luar Jangkauan Cahaya
  7. Ilmuwan Mengembangkan Metode Baru Untuk Membuat Layar Lebih Cerah Dan Lebih Efisien
  8. Metode Baru Dapat Mengubah Objek Apa Pun Menjadi Unit Penyimpanan Data
  9. Peneliti Kembangkan AI Untuk Mendeteksi Virus Corona
  10. Bosque:Bahasa Pemrograman Baru Microsoft Tanpa Loop