SonicSense:Memungkinkan Robot Mendengar Seperti Manusia untuk Interaksi yang Lebih Cerdas
Penelitian baru dari Duke University merinci sistem yang disebut SonicSense yang memungkinkan robot berinteraksi dengan lingkungannya dengan cara yang sebelumnya hanya terbatas pada manusia.
“Robot saat ini sebagian besar mengandalkan visi untuk menafsirkan dunia,” jelas Penulis Utama Jiaxun Liu, Ph.D. mahasiswa di laboratorium Boyuan Chen, Profesor Teknik Mesin dan Ilmu Material di Duke. “Kami ingin menciptakan solusi yang dapat bekerja dengan objek kompleks dan beragam yang ditemukan sehari-hari, memberikan robot kemampuan yang lebih kaya untuk 'merasakan' dan memahami dunia.”
SonicSense menampilkan tangan robot dengan empat jari, masing-masing dilengkapi dengan mikrofon kontak yang tertanam di ujung jari. Sensor ini mendeteksi dan merekam getaran yang dihasilkan saat robot mengetuk, menggenggam, atau mengguncang suatu benda. Dan karena mikrofon bersentuhan dengan objek, robot dapat menghilangkan kebisingan sekitar.
Berdasarkan interaksi dan sinyal yang terdeteksi, SonicSense mengekstrak fitur frekuensi dan menggunakan pengetahuan sebelumnya, dipadukan dengan kemajuan terkini dalam AI, untuk mengetahui bahan apa yang terbuat dari objek tersebut dan bentuk 3D-nya. Jika itu adalah objek yang belum pernah dilihat sistem sebelumnya, mungkin diperlukan 20 interaksi berbeda agar sistem dapat mengambil kesimpulan. Namun jika objek tersebut sudah ada dalam databasenya, objek tersebut dapat mengidentifikasinya dengan benar hanya dalam empat menit.
Berikut adalah Ringkasan Teknologi eksklusif wawancara, diedit agar panjang dan jelas, dengan Chen.
Ringkasan Teknis :Apa tantangan teknis terbesar yang Anda hadapi saat mengembangkan SonicSense?
Chen :Menurut saya yang pertama adalah belum ada penelitian ekstensif tentang penggunaan getaran akustik untuk persepsi robot. Sebagian besar pekerjaan sebelumnya dilakukan dengan satu jari atau masih sangat pendahuluan. Namun, menerapkannya pada tangan robot sungguhan dan mampu berinteraksi dengan berbagai kemungkinan objek bukanlah tugas yang mudah.
Ringkasan Teknis :Bagaimana proyek ini bisa terwujud? Apa yang menjadi pendorong pekerjaan Anda?
Chen :Ini adalah cerita yang sangat menarik. Bagian pertama dari pekerjaan saya disebut boombox, ini selama COVID. Saya berpikir saya ingin mengerjakan robot dan visi. Jadi, beberapa tahun lalu saya sudah tertarik untuk menghadirkan getaran akustik ke dalam penginderaan, karena kami banyak menggunakan getaran suara akustik.
Dalam ilmu saraf, kulit manusia memiliki neuron getaran. Jadi, saya membaca tentang hal-hal ini dan memikirkan bagaimana kita dapat mewujudkannya menjadi robot. Tapi, selama COVID, saya tidak punya akses ke robot. Saya menyelesaikan Ph.D. di Columbia, jadi saya tinggal di asrama kecil di New York City, tapi saya sangat ingin melakukan penelitian ini. Suatu hari saya mendapat ide acak, 'Apa yang dapat saya lakukan tanpa robot untuk menunjukkan bahwa ini bermanfaat?
Aku punya tempat mainan di kamarku. Dengan melempar benda secara acak ke sana, saya menyadari, 'Hei, saya harus pergi dan mengambil benda ini, tapi saya tidak tahu di mana benda itu. Benda apa yang saya lempar?’ Itu adalah pertanyaan penelitian yang sempurna.
Saya mulai dengan tiga kotak kayu berbeda dengan bentuk berbeda, dan saya membuangnya ke tempat sampah. Saya melatih sistem AI yang memprediksi bentuk benda yang saya lempar dan di mana benda itu berakhir setelah saya lempar karena saya tidak dapat melihatnya. Jadi inilah proyeknya.
Idenya pada dasarnya adalah Anda memiliki empat mikrofon kontak. Anda menempelkannya di sekitar dinding tempat sampah. Anda hanya merekam getaran akustik dari empat saluran mikrofon. Saya menggunakan mikrofon yang digunakan untuk menangkap suara dari gitar. Saya memasukkannya ke tempat sampah, dan saya melatih sistem mulai dari suara hingga prediksi operasi 3D ini. Dan itulah awal dari proyek itu.
Tentu saja saya ingin melakukan ini pada robot. Itu adalah tempat lahirnya SonicSense.
Ringkasan Teknis :Bisakah Anda menjelaskan secara sederhana cara kerjanya?
Chen :Ini adalah sistem perangkat keras dan perangkat lunak yang terintegrasi. Bagian perangkat kerasnya memiliki gripper robotik dengan empat jari, dan masing-masing ujung jari memiliki mikrofon kontak tertanam. Mikrofon kontak ini tidak mendeteksi apa yang kami ucapkan, namun mendeteksi getaran kontak fisik.
Sisi perangkat lunak pada dasarnya memungkinkan robot mengekspor lingkungan secara mandiri hanya dengan mengetuk atau menggenggam objek dengan wadah dan mengocoknya. Perangkat lunak ini akan mengumpulkan sinyal dari empat mikrofon kontak dan sinyal motor secara bersamaan.
Kami melatih jaringan kecerdasan buatan untuk memprediksi hal-hal seperti 'Berapa banyak dadu yang Anda miliki dalam sebuah wadah? Berapa banyak rusuk yang dimiliki dadu ini? Berapa banyak cairan yang ada dalam botol air ini? Berapa banyak yang Anda tuangkan ke wadah lain?’
Ringkasan Teknis :Apa langkah Anda selanjutnya?
Chen :Kami sedang mencari beberapa ide baru, pertama-tama, modalitas penginderaan apa yang diperlukan agar kita dapat mencapai ketangkasan manipulasi tingkat manusia. Namun, terlebih lagi untuk konten robotika yang lebih luas, bukan hanya untuk manipulasi. Tapi juga untuk penggerak, navigasi, dan segalanya. Apakah ada modalitas penginderaan lain yang kita perlukan? Jadi, mengeksplorasi modalitas baru yang memungkinkan robot atau memberdayakan robot untuk memiliki kemampuan yang bahkan manusia atau hewan tidak miliki, adalah satu arah.
Arah lain yang kami lihat adalah modalitas lain yang sudah kami miliki pada robot. Misalnya, visi – dan bagaimana kita menggabungkan semua modalitas untuk mendapatkan pemahaman yang koheren tentang dunia, bukan hanya satu perspektif? Jadi, menyatukan banyak modalitas penginderaan dan mempelajari pemahaman yang terpadu.
Arah ketiga yang kami lihat adalah membawanya ke vektor kemampuan manipulasi manusia yang sebenarnya - desain saat ini masih berupa prototipe. Kami ingin melakukan hal ini dengan meningkatkan morfologi dan kemampuan penginderaan tangan ke skala yang lebih besar. Ini berarti menempatkan banyak sensor pada tangan yang lebih mirip manusia, dan benar-benar menunjukkan kemampuan manipulasi yang cekatan. Saat ini kami hanya melakukan persepsi objek, namun kami ingin dapat memanipulasi objek dengan kemampuan yang jauh lebih maju.
Transkrip
00:00:00 kami memperkenalkan Sonic sense, kerangka perangkat keras dan perangkat lunak terintegrasi yang memungkinkan penginderaan getaran akustik untuk persepsi objek robot Kaya. Pekerjaan terbaru telah memanfaatkan penginderaan getaran akustik untuk material objek dan prediksi posisi klasifikasi kategori yang memperkirakan jumlah dan aliran material granular dan secara kolektif melakukan penalaran spasial objek untuk
00:00:23 rekonstruksi visual namun penelitian sebelumnya berfokus pada sejumlah kecil objek primitif dengan komposisi material homogen, pengaturan terbatas untuk pengumpulan data dan pengujian satu jari, oleh karena itu tidak jelas apakah penginderaan getaran akustik dapat membantu persepsi objek dalam kondisi bising dan kurang terkontrol. kami
00:00:44 menghadirkan Sonic sense desain holistik pada kemajuan perangkat keras dan algoritme untuk persepsi objek melalui penginderaan getaran akustik yang ditingkatkan. tangan robot kami memiliki empat jari a p Mikrofon kontak listrik tertanam di dalam setiap ujung jari dan di sekitar penyeimbang dipasang pada permukaan cangkang luar untuk meningkatkan momentum gerakan jari desain mekanis intuitif kami
00:01:07 memungkinkan serangkaian gerakan interaktif Primitif untuk persepsi objek termasuk gerakan mengetuk, menggenggam, dan menggoyangkan mikrofon kontak yang tertanam mampu mengumpulkan getaran akustik frekuensi tinggi yang dihasilkan oleh kontak antara objek objek atau interaksi tangan objek, robot kami dapat menyimpulkan geometri dan status inventaris berbagai objek di dalam wadah dari
00:01:31 tanda getaran akustik unik mereka selama interaksi kami memperoleh 12 fitur yang dapat diinterpretasikan berdasarkan metode pemrosesan sinyal akustik tradisional untuk membantu membedakan tanda getaran akustik yang berbeda ini. Kami melakukan pengurangan dimensi nonlinier tanpa pengawasan dengan tne pada vektor fitur 12 dimensi ini dengan menggoyangkan wadah yang bisa dilakukan robot kami
00:01:54 berhasil membedakan jumlah dadu yang berbeda atau dadu dengan bentuk berbeda di dalam wadah saat menuangkan air ke dalam botol yang dipegang oleh robot kami, kami dapat mendeteksi perbedaan halus dalam tanda akustik berdasarkan jumlah air yang berbeda di dalam botol. robot kami juga dapat mendeteksi jumlah air yang berbeda di dalam botol saat mengocoknya lebih banyak
00:02:15 tugas persepsi objek yang menantang kami mengembangkan kumpulan data dengan 83 objek Dunia Nyata yang beragam, objek kami mencakup sembilan kategori material dan beragam geometri dari Primitif sederhana hingga bentuk kompleks tidak seperti karya sebelumnya yang menggunakan manusia untuk memegang tangan robot secara manual untuk berinteraksi dengan objek atau merancang pose dan kekuatan interaksi tetap untuk diputar ulang, kami mendapatkan yang sederhana namun efektif
00:02:40 kebijakan interaksi berbasis heuristik untuk mengumpulkan respons getaran akustik objek secara mandiri. Kebijakan kami berfungsi dengan baik untuk semua objek Dunia Nyata yang mencakup berbagai ukuran dan geometri. Kami melatih model klasifikasi material yang menggunakan spektogram Mel dari sinyal getaran akustik yang kami kumpulkan dari suara tumbukan dan belajar memprediksi
00:03:02 label material jaringan mengambil bentuk tiga lapisan jaringan saraf konvolusional diikuti oleh dua lapisan MLP. Hasil awal metode kami menghasilkan skor F1 0,523 namun kami mengamati materi objek relatif seragam dan mulus di sekitar wilayah lokal berdasarkan asumsi ini kami dapat menyempurnakan prediksi rata-rata akhir kami F1
Skor 00:03:25 mencapai 0,763 model konstruksi Recon bentuk kami mengambil titik kontak yang jarang dan berisik untuk menghasilkan bentuk objek 3D yang padat dan lengkap. Kami menumpuk dua lapisan runcing untuk menyandikan masukan dan kemudian memasukkan fitur global Vektor ke dalam jaringan decoder dengan lapisan yang terhubung sepenuhnya untuk menghasilkan Point Cloud akhir, hasil kami memperoleh rata-rata z. Z
00:03:50 Juara Z 876 M untuk prediksi skor jarak pada objek dengan bentuk primitif umumnya memiliki kinerja yang hampir sempurna, selain itu metode kami menunjukkan kemampuan untuk merekonstruksi objek dengan bentuk kompleks hanya melalui spar dan kontak yang bising Estimasi titik ketika suatu objek telah berinteraksi dengan robot dengan respons getaran akustiknya yang ingin kami
00:04:13 minta robot kami mengidentifikasi ulang objek melalui serangkaian 15 interaksi penyadapan baru, kami memasukkan 15 kumpulan spektogram Mel dan titik kontak terkaitnya ke jaringan untuk memprediksi label objek ini di antara 82 objek dalam kumpulan data kami, robot kami dapat mengidentifikasi ulang objek yang sama dengan akurasi lebih dari 92% robot kami memiliki ketahanan yang kuat terhadap lingkungan
00:04:37 kebisingan dan hanya berfokus pada sinyal getaran melalui kontak fisik, hal ini memastikan data penginderaan berkualitas tinggi dan andal dalam kondisi lingkungan yang menantang. Seluruh tangan robot kami berharga $215 dengan komponen yang tersedia secara komersial dan pencetakan 3D. Hasil eksperimen kami menunjukkan keserbagunaan dan kemanjuran desain kami pada berbagai persepsi objek
00:05:01 tugas termasuk estimasi status inventaris benda padat dan cair dalam wadah klasifikasi material Rekonstruksi bentuk 3D dan identifikasi ulang objek secara keseluruhan metode kami memberikan kontribusi unik pada persepsi sentuhan dengan getaran akustik dan membuka peluang baru untuk desain robot masa depan untuk membangun kelengkapan yang lebih kuat
00:05:23 model persepsi dunia yang serbaguna dan holistik