AI Sekarang Dapat Menavigasi Melalui Lingkungan yang Tidak Dikenal Tanpa Peta
- Para peneliti di Facebook AI mengembangkan algoritme pembelajaran penguatan baru bernama DD-PPO.
- Ini dapat menavigasi melalui lingkungan yang kompleks hanya dengan menggunakan data kompas, kamera RGB-D, dan GPS.
Mengembangkan mesin cerdas yang berinteraksi secara cerdas dengan dunia fisik telah menjadi tujuan jangka panjang komunitas AI. Tantangan utamanya adalah untuk mengajarkan mesin ini agar mereka dapat menavigasi secara efisien melalui lingkungan yang kompleks dan asing tanpa menggunakan peta apa pun.
Biasanya, peta dunia nyata menjadi usang dalam beberapa bulan, karena bangunan dan struktur berubah, dan objek dipindahkan. Itulah mengapa AI sangat diperlukan untuk dunia fisik yang dapat bernavigasi tanpa peta.
Dengan mengingat hal-hal ini, para peneliti di Facebook AI telah mengembangkan algoritme pembelajaran penguatan (RL) baru yang secara efektif menyelesaikan tugas navigasi titik-tujuan hanya dengan menggunakan data kompas, kamera RGB-D, dan GPS. Algoritme skala besar ini diberi nama DD-PPO (optimasi kebijakan proksimal terdistribusi terdesentralisasi).
Skala Arsitektur Terdistribusi RL Baru dengan Baik
Saat ini, sistem berbasis pembelajaran mesin mampu mengungguli ahli manusia dalam berbagai permainan yang kompleks. Namun karena sistem ini bergantung pada volume besar sampel pelatihan, sangat tidak mungkin untuk membangunnya tanpa paralelisasi terdistribusi skala besar.
Arsitektur pembelajaran penguatan terdistribusi saat ini — mencakup ribuan pekerja (CPU) dan server parameter tunggal — tidak dapat diskalakan dengan baik. Itulah mengapa para peneliti mengusulkan teknik pembelajaran penguatan terdistribusi yang sinkron.
DD-PPO berjalan di beberapa mesin dan tidak memiliki server parameter. Setiap pekerja (CPU) bergantian antara mengumpulkan pengalaman dalam lingkungan simulasi intensif sumber daya yang dipercepat GPU dan model yang dioptimalkan. Dalam keadaan komunikasi eksplisit, semua pekerja menyinkronkan pembaruan mereka ke model. Dengan kata lain, distribusinya sinkron.
Semua pekerja mensimulasikan agen yang melakukan navigasi titik-sasaran, lalu mengoptimalkan model dan menyinkronkan pembaruan mereka | Beginilah cara data dibagikan selama pelatihan dengan DD-PPO
Dengan menggunakan pendekatan ini, DD-PPO menunjukkan penskalaan hampir linier:ia mampu mencapai percepatan 107 kali pada 128 GPU melalui implementasi serial.
Referensi:arXiv:1911.00357 | Facebook AI
Navigasi Sasaran Titik yang Hampir Sempurna
Dalam navigasi titik-sasaran, agen diatur pada posisi awal/orientasi acak di lingkungan yang tidak dikenal dan ditugaskan untuk menavigasi ke koordinat target tanpa menggunakan peta apa pun. Ini hanya dapat menggunakan kompas, GPS, dan kamera RGB atau RGB-D.
Para peneliti memanfaatkan fitur penskalaan DD-PPO untuk melatih agen untuk 2,5 miliar langkah, yang setara dengan 80 tahun pengalaman manusia. Bukannya berbulan-bulan, pelatihan diselesaikan dalam waktu kurang dari tiga hari dengan 64 GPU.
Hasilnya menunjukkan bahwa 90% performa puncak diperoleh dalam 100 juta langkah pertama dengan sumber daya komputasi yang lebih sedikit (8 GPU). Dengan miliaran langkah pengalaman, agen memperoleh tingkat keberhasilan 99,9%. Sebaliknya, sistem sebelumnya mencapai tingkat keberhasilan 92%.
Agen mundur setelah memilih jalur yang salah untuk mencapai posisi targetnya | Atas perkenan peneliti
Aplikasi
Agen AI ini dapat membantu orang di dunia fisik. Misalnya, mereka dapat menampilkan informasi yang relevan kepada pengguna yang memakai kacamata augmented reality, robot dapat mengambil item dari meja di lantai atas, dan sistem bertenaga AI dapat membantu orang dengan gangguan penglihatan.
Model yang dibuat dalam penelitian ini dapat bekerja dalam pengaturan biasa, seperti di dalam laboratorium dan gedung perkantoran, di mana titik data tambahan (peta dan data GPS) tidak tersedia.
Baca:Facebook Kembangkan AI yang Mampu Menyalin Suara Siapa Pun Dengan Akurasi yang Belum Pernah Ada Sebelumnya
Meskipun model ini mengungguli jaringan saraf convolutional pra-pelatihan ImageNet dan dapat berfungsi sebagai sumber daya universal, masih banyak yang harus dilakukan untuk mengembangkan sistem yang belajar menavigasi melalui lingkungan yang kompleks. Para peneliti saat ini sedang menjajaki pendekatan baru untuk mengimplementasikan navigasi titik-sasaran RGB saja.