Microsoft Membangun Model Generasi Bahasa Terbesar Dengan 17 Miliar Parameter
- Microsoft memperkenalkan Turing Natural Language Generation, model terbesar di dunia dengan 17 miliar parameter.
- Ini menghasilkan ringkasan abstrak dari dokumen teks, jawaban langsung atas pertanyaan, dan kata-kata untuk melengkapi kalimat.
- Model merespons seakurat, langsung, dan lancar seperti yang dapat dilakukan manusia dalam berbagai situasi.
Model bahasa pembelajaran mendalam skala besar (seperti GPT-2 dan BERT), dengan miliaran parameter yang dilatih pada semua teks yang tersedia di internet, telah meningkatkan berbagai tugas pemrosesan bahasa alami (NLP), seperti pemahaman dokumen, agen percakapan, dan pertanyaan. menjawab.
Telah diamati bahwa model yang lebih besar dengan data prapelatihan yang lebih beragam dan komprehensif berkinerja lebih baik, bahkan dengan sampel pelatihan yang lebih sedikit. Oleh karena itu, melatih model terpusat yang masif dan membagikan fitur-fiturnya di berbagai tugas akan lebih efisien daripada melatih model baru untuk setiap tugas satu per satu.
Mengikuti tren ini, para peneliti di Microsoft telah memperkenalkan Turing Natural Language Generation (T-NLG), model terbesar di dunia dengan 17 miliar parameter. Ini mengungguli model start-of-the-art yang ada pada tolok ukur pemodelan bahasa yang berbeda.
T-NLG dapat menghasilkan kata-kata untuk melengkapi kalimat yang belum selesai, ringkasan dokumen masukan, dan jawaban langsung atas pertanyaan. Tidak seperti sistem NLP lain yang mengandalkan penggalian konten dari dokumen untuk membuat ringkasan atau menjawab pertanyaan, model generatif baru merespons seakurat, langsung, dan lancar seperti yang dapat dilakukan manusia dalam situasi yang berbeda.
Alih-alih menyalin bagian, T-NLG langsung menjawab pertanyaan dengan kalimat lengkap.
Pelatihan T-NLG
Karena satu GPU (bahkan dengan memori 32 GB) tidak dapat memproses miliaran parameter, Anda perlu memparalelkan model itu sendiri atau memecahnya menjadi beberapa bagian untuk melatihnya di beberapa GPU.
Dalam studi ini, peneliti memanfaatkan pengaturan perangkat keras NVIDIA DGX-2 (untuk membuat komunikasi antara GPU lebih cepat) dan tensor slicing (untuk memecah model di 4 GPU NVIDIA V100). Dengan menggunakan library DeepSpeed dan Zero optimizer, mereka dapat melatih T-NLG dengan sangat efisien dengan GPU yang lebih sedikit.
Kinerja terhadap tugas standar
Mereka kemudian membandingkan kinerja T-NLG pra-terlatih dengan model bahasa transformator kuat lainnya pada dua tugas standar:LAMBADA akurasi prediksi kata berikutnya (lebih tinggi lebih baik) dan kebingungan Wikitext-103 (lebih rendah lebih baik). Dalam kedua kasus, T-NLG berkinerja lebih baik.
Referensi:Microsoft | GitHub
Kinerja dalam menjawab pertanyaan
Untuk menguji kualitas seperti ketepatan tata bahasa dan kebenaran faktual, peneliti mencari bantuan dari annotator manusia. Mereka membandingkan model baru dengan model LSTM (mirip dengan CopyNet).
Kinerja dalam ringkasan aktif
T-NLG dapat menulis ringkasan abstrak seperti manusia untuk berbagai dokumen teks (termasuk dokumen Word, posting blog, email, presentasi PowerPoint, dan bahkan lembar Excel), tetapi seberapa bagusnya, dibandingkan dengan model NLP lain yang ada.
Untuk membuat model baru lebih fleksibel sehingga dapat meringkas semua jenis teks, para peneliti melatihnya pada kumpulan data peringkasan yang tersedia untuk umum. Mereka kemudian membandingkannya dengan model bahasa berbasis transformator besar lainnya bernama PEGASUS dan versi sebelumnya. Kali ini, mereka melaporkan skor ROUGE – seperangkat metrik yang digunakan untuk mengevaluasi peringkasan otomatis dalam pemrosesan bahasa alami.
Aplikasi
Microsoft telah mencapai terobosan dalam kecerdasan buatan percakapan. Di tahun-tahun mendatang, mereka akan mengintegrasikan T-NLG dalam rangkaian Microsoft Office, yang tidak hanya akan menghemat waktu pengguna dengan meringkas email dan dokumen, tetapi juga menawarkan bantuan menulis dan menjawab pertanyaan yang mungkin ditanyakan pembaca tentang konten.
Baca: Microsoft Membangun Penyimpanan Data DNA yang Sepenuhnya Otomatis
Selain itu, temuan ini membuka jalan bagi asisten digital dan chatbot yang lebih akurat dan lancar, membantu bisnis dengan penjualan dan manajemen hubungan pelanggan.