Bagaimana prosesor audio edge mengaktifkan integrasi suara di perangkat IoT
Prosesor audio edge khusus dengan fokus pada fidelitas audio dan dengan inti pembelajaran mesin yang dioptimalkan adalah kunci untuk menyediakan perangkat IoT dengan antarmuka pengguna suara tanpa memerlukan koneksi internet bandwidth tinggi. Kemampuan pemrosesan suara dengan cepat muncul dalam produk konsumen seperti iOttie Aivo Connect. (Sumber:Knowles)
Dari otomatisasi rumah dan eCommerce hingga perawatan kesehatan dan otomotif, lebih banyak industri kini menggabungkan kemampuan IoT dengan integrasi suara untuk memenuhi tuntutan yang berubah dan membuka keunggulan bisnis. Namun, suara masih dalam tahap awal adopsi dan baru mulai berkembang melampaui perangkat seluler dan speaker. Suara akan menjadi metode standar interaksi antara pengguna dan perangkat IoT mereka. Pergeseran ke suara pertama ini didukung oleh lebih dari sekadar gagasan bahwa itu meningkatkan tingkat kenyamanan konsumen dengan teknologi. Mobilitas global perangkat berkemampuan suara untuk penelusuran suara saat bepergian, kemajuan dalam pemrosesan bahasa alami (NLP), dan kemajuan dalam kecerdasan buatan dan pembelajaran mesin akan memungkinkan aplikasi baru berkembang dengan cepat.
Interaksi suara yang menyenangkan dan menarik dibatasi oleh kualitas suara yang konsisten di hadapan kebisingan dan gangguan lainnya. Kemampuan perangkat Anda untuk mengelola suara secara cerdas adalah yang membuat atau menghancurkan kemampuan Anda untuk berkomunikasi. Diharapkan bahwa antarmuka pengguna suara (VUI) yang selalu aktif akan menjadi umum di lebih banyak produk konsumen, termasuk perangkat audio dan video, barang putih, dan juga di berbagai perangkat bertenaga baterai, seperti remote control, perangkat yang dapat dikenakan, Bluetooth speaker, keamanan, dan kamera aktivitas luar ruangan. Meskipun ada tantangan desain yang harus diatasi, ada peluang besar bagi pemasok komponen dan OEM untuk menghadirkan produk yang memenuhi kebutuhan aplikasi ini.
Untuk memanfaatkan sepenuhnya peluang integrasi suara saat mereka matang, lebih banyak teknologi pemrosesan bergerak ke edge, jauh dari cloud. Hasilnya adalah antarmuka pengguna yang ditingkatkan dengan latensi yang lebih rendah dan biaya yang lebih rendah, baik dalam dolar maupun bandwidth. Produsen yang merancang solusi CE berkemampuan IoT untuk masa depan harus mempertimbangkan integrasi suara sebagai prasyarat fitur produk. OEM yang dapat menerapkan pemrosesan suara khusus di edge akan dapat menskalakan aplikasi ini dan memperluas portofolionya.
Artikel ini membahas tantangan paling umum dalam mengimplementasikan VUI untuk perangkat IoT yang selalu aktif/selalu mendengarkan. Artikel tersebut meninjau persyaratan terkait, dan kemampuan desain yang diperlukan untuk memenuhi persyaratan tersebut secara efektif termasuk integrasi dengan antarmuka kontrol, tumpukan perangkat lunak, pengembangan algoritme, dan pengembangan aplikasi ruang pengguna.
Mengintegrasikan Audio Edge Processors ke Perangkat IoT
Prosesor tepi audio khusus dengan fokus pada kesetiaan audio dan dengan inti pembelajaran mesin yang dioptimalkan adalah kunci untuk mendukung perangkat komunikasi audio berkualitas tinggi. Prosesor ini dapat memberikan daya komputasi yang cukup untuk memproses audio menggunakan algoritme tradisional dan ML sambil menggunakan sebagian kecil energi prosesor generik. Dan karena pemrosesan terjadi di perangkat, ini jauh lebih cepat daripada mengirim informasi itu ke cloud dan kembali.
Perangkat IoT mengintegrasikan prosesor audio untuk menambahkan kemampuan yang kaya seperti membangunkan suara. Meskipun cloud mungkin menawarkan beberapa manfaat besar, pemrosesan tepi memungkinkan pengguna untuk memanfaatkan kemampuan penuh perangkat mereka kapan saja tanpa memerlukan koneksi internet bandwidth tinggi. Misalnya, prosesor audio edge memungkinkan pengalaman pengguna yang unggul dalam komunikasi virtual melalui pemrosesan audio dengan latensi rendah dengan data kontekstual sekaligus menjaga data kontekstual tetap lokal dan aman.
Tantangan dengan Mengintegrasikan Suara
Peluang aplikasi untuk panggilan suara, kontrol, dan interaksi terus meningkat. Namun, dengan lebih banyak perangkat, lebih banyak fragmentasi diperkenalkan, sehingga lebih sulit untuk mengintegrasikan suara. Cara Anda mengintegrasikan kontrol suara ke dalam setiap aplikasi—baik itu speaker Bluetooth, peralatan rumah tangga, headphone, perangkat yang dapat dikenakan, atau elevator—akan berbeda. Menambahkan pemicu bangun suara bisa jadi sederhana, tetapi merancang speaker dan headset Bluetooth tingkat perusahaan jauh lebih rumit. Jika speaker tersebut menyertakan integrasi true wireless stereo (TWS), kerumitan akan meningkat sekali lagi.
Selain itu, berbagai aplikasi memerlukan integrasi suara dengan ekosistem yang berbeda. Misalnya, Anda perlu bekerja di ekosistem Linux untuk mengimplementasikan suara di sebagian besar TV pintar, tetapi untuk mendapatkan suara di peralatan rumah tangga, Anda harus bekerja di ekosistem mikrokontroler (MCU). Untuk semua integrasi ini, ada cara umum yang disarankan untuk melakukannya, tetapi selalu ada variasi, yang menambah kerumitan.
Solusi pengembangan pasar massal berkualitas tinggi sangat penting untuk mengatasi tantangan ini dan membawa teknologi baru ke pasar dengan cepat untuk mendukung cara kita bekerja, hidup, dan berkomunikasi yang berkembang pesat. Dalam memenuhi tantangan ini, solusi yang sesuai perlu mengatasi berbagai persyaratan desain.
Mengatasi Persyaratan Desain Utama
Konsumsi Daya
Agar perangkat VUI menerima perintah, itu harus selalu aktif/selalu mendengarkan perintah. Baik perangkat ini dicolokkan, dan terutama jika dioperasikan dengan baterai, pembatasan konsumsi daya dapat menjadi tantangan desain utama.
Dalam sistem perintah suara, setidaknya satu mikrofon harus selalu aktif, dan prosesor yang bertugas mengenali kata bangun juga harus aktif. Prosesor audio edge yang dirancang dengan arsitektur eksklusif, akselerator perangkat keras, dan set instruksi khusus dapat menjalankan algoritme audio dan ML secara optimal. Pengoptimalan ini membantu mengurangi konsumsi daya.
Latensi
Tidak ada toleransi untuk latensi dengan perangkat yang diaktifkan suara. Bahkan jika ada penundaan yang dirasakan lebih dari 200 milidetik, manusia mulai berbicara satu sama lain melalui panggilan suara, atau mengulangi perintah mereka ke asisten suara. Untuk mengembangkan perangkat terintegrasi suara yang akan mendapatkan penerimaan konsumen yang diperlukan, insinyur dan perancang produk harus menyediakan rantai audio yang dioptimalkan di seluruh sistem untuk memenuhi spesifikasi industri dan pengalaman pengguna terbaik. Oleh karena itu, pemrosesan latensi rendah di prosesor edge merupakan persyaratan penting untuk memastikan komunikasi suara berkualitas tinggi.
Integrasi
Karena ada banyak pilihan dalam hal pilihan perangkat keras dan perangkat lunak untuk implementasi VUI yang berbeda, ada persyaratan yang dapat menjadi tantangan di berbagai titik dalam tahap integrasi. Beberapa pertimbangan desain utama yang perlu dipertimbangkan di sepanjang jalan termasuk yang dibahas di bawah ini.
Integrasi Perangkat Keras
Ada berbagai arsitektur perangkat keras untuk menerapkan sistem VUI tergantung pada penggunaan perangkat, aplikasi, dan ekosistem. Setiap perangkat VUI akan menyertakan mikrofon, baik satu mikrofon atau rangkaian mikrofon, yang terhubung ke prosesor audio untuk menangkap dan memproses audio. Dalam artikel Tersemat baru-baru ini dari Knowles, rekan saya meninjau pertimbangan arsitektur perangkat keras untuk menerapkan sistem VUI dan manfaat serta kekurangannya masing-masing.
Integrasi Perangkat Lunak Host
Seperti disebutkan di atas, ada berbagai sistem operasi, dan driver untuk dipilih. Idealnya prosesor audio akan datang dengan firmware dan satu set driver yang dikonfigurasi untuk terhubung dengan prosesor host. Sistem operasi, seperti Android atau Linux, biasanya berjalan pada prosesor host.
Komponen perangkat lunak driver yang berjalan di ruang kernel berinteraksi dengan firmware melalui antarmuka kontrol dan data audio dari prosesor tepi audio dapat dibaca di ruang pengguna melalui antarmuka Advanced Linux Sound Architecture (ALSA) standar.
Untuk mengintegrasikan perangkat lunak dengan sistem host lainnya, menghubungkan driver prosesor audio yang disediakan dalam paket rilis perangkat lunak ke dalam gambar kernel dapat menjadi pekerjaan yang rumit. Ini melibatkan penyalinan kode sumber driver ke dalam pohon sumber kernel, memperbarui beberapa file konfigurasi kernel, dan menambahkan entri pohon perangkat sesuai dengan konfigurasi perangkat keras yang relevan.
Solusi untuk ini adalah dengan menggunakan desain referensi standar praintegrasi dengan konfigurasi yang sama persis atau serupa.
Dalam situasi yang ideal, prosesor tepi audio akan menyediakan tumpukan perangkat lunak yang disederhanakan untuk integrasi dan dilengkapi dengan algoritme praintegrasi dan terverifikasi sebagai solusi tingkat sistem untuk lebih menyederhanakan proses.
Integrasi algoritma
Saat kita membahas topik integrasi algoritme. Biasanya ada beberapa algoritma yang mengalir untuk beralih di antara kasus penggunaan yang berbeda pada waktu tertentu. Bahkan untuk bangun suara, sebuah desain membutuhkan beamformer multi-mikrofon, mesin bangun suara yang canggih, dan verifikasi berbasis cloud. Ini berarti setidaknya tiga algoritma bekerja sama untuk mengoptimalkan kinerja. Untuk perangkat apa pun yang terintegrasi dengan kata kunci Alexa atau Google Home, harus ada beberapa algoritme, sering kali berasal dari vendor yang berbeda, yang harus dioptimalkan bersama dalam satu perangkat.
Salah satu solusinya adalah memilih prosesor audio edge yang sudah terintegrasi sebelumnya dengan algoritme terverifikasi, dikembangkan dan diuji secara independen dari sistem host.
Integrasi faktor bentuk
Ada banyak faktor bentuk yang dapat digunakan perangkat saat ini. Masing-masing memiliki konfigurasi sendiri dari beberapa mikrofon yang terpasang. Jarak dan penempatan mikrofon dan speaker memainkan peran besar dalam kinerja. Penyetelan dan pengoptimalan kinerja harus diubah berdasarkan faktor bentuk akhir dan kasus penggunaan target. Ada juga variasi manufaktur yang memengaruhi kinerja seperti penyegelan mikrofon, perawatan akustik pada perangkat, peredam getaran, dan banyak lagi.
Privasi
Banyak prosesor audio mendeteksi kata bangun kemudian segera mengirim informasi ke awan di mana itu ditafsirkan dan ditindaklanjuti. Masalah besar adalah bahwa begitu data audio berada di cloud, pengguna tidak memiliki kendali atas data tersebut sehingga berisiko tinggi terhadap privasi. Solusi untuk tantangan ini adalah memilih prosesor AI terdepan yang dapat melakukan interpretasi perintah dan logika respons pada perangkat, secara lokal, “di tepi”.
Ini memungkinkan data audio pribadi yang sensitif tetap lokal, tanpa dikirim ke cloud di mana data tersebut dapat digunakan di luar keinginan kita. Implementasi VUI sekarang tidak hanya jauh lebih pribadi tetapi dapat merespons lebih cepat, membuat interaksi pengguna jauh lebih alami. Ini adalah contoh bagus tentang bagaimana prosesor AI edge dapat memajukan kasus penggunaan yang ada untuk memaksimalkan kegunaan perangkat yang kami gunakan dan percayai setiap hari.
Antarmuka Perangkat Keras Dan Perangkat Lunak
Persyaratan desain untuk implementasi VUI bisa jadi rumit dan dapat menyulitkan untuk menghadirkan perangkat dengan integrasi suara ke pasar dengan cepat. OEM dan integrator sistem dapat secara drastis mengurangi risiko dengan bekerja dengan kit pengembangan solusi standar seperti Knowles AISonic Bluetooth Standard Solution Kit. Kit semacam itu menawarkan titik awal yang telah dikonfigurasi sebelumnya untuk prototipe yang memungkinkan para desainer mengembangkan inovasi mereka sendiri di atas tanpa harus khawatir tentang tantangan desain yang telah kita bahas di atas. Desainer harus mencari kit pengembangan yang memiliki algoritme praintegrasi dan terverifikasi, mikrofon dan driver yang telah dikonfigurasi sebelumnya yang kompatibel dengan prosesor host dan sistem operasi.
Prosesor audio edge yang membuka arsitektur dan lingkungan pengembangannya mempercepat inovasi dengan menyediakan alat dan dukungan bagi pengembang aplikasi audio untuk membuat perangkat dan aplikasi baru. Perangkat audio masa depan akan menjadi upaya kolaboratif.