Manufaktur industri
Industri Internet of Things | bahan industri | Pemeliharaan dan Perbaikan Peralatan | Pemrograman industri |
home  MfgRobots >> Manufaktur industri >  >> Industrial Internet of Things >> Teknologi Internet of Things

Algoritma dan peningkatan kekuatan perangkat keras dari kontrol suara

Kontrol suara dan antarmuka suara telah memulai penyusupan yang tak terhindarkan dari hampir semua kategori perangkat tepi konsumen. Kemajuan dalam algoritme pengenalan suara dan perangkat keras akselerator AI berarti teknologi ini dapat diakses bahkan oleh aplikasi yang terbatas daya dan biayanya seperti perangkat rumah pintar (dan bahkan beberapa perangkat bodoh).

Penggerak di balik kontrol suara di perangkat rumah pintar dari sisi pengguna sudah jelas.


Alireza Kenarsari-Anhari (Sumber:PicoVoice)

“Kemudahan penggunaan dan kenyamanan adalah pendorong utama saat ini,” Alireza Kenarsari-Anhari, CEO PicoVoice mengatakan kepada EE Times. Sangat mudah membayangkan berteriak ke pembuat kopi di kantor pusat dari meja Anda saat Anda ingin kopi, atau mendiktekan pesanan ke mesin pengering sambil memegang sekeranjang cucian basah.

Kami berasumsi bahwa perangkat pintar seperti ini, yang tidak portabel, memiliki akses permanen ke koneksi WiFi rumah — jadi mengapa tidak melakukan pemrosesan suara ini di cloud?

Tren edge AI dalam situasi ini terutama didorong oleh privasi, yang menurut Kenarsari-Anhari merupakan masalah bagi konsumen tetapi harus dimiliki oleh beberapa perusahaan. Keandalan adalah pendorong lain:"Apakah masuk akal jika mesin cuci Anda berhenti bekerja jika WiFi Anda tidak berfungsi?" katanya.

Latensi juga penting dalam situasi tertentu; beberapa aplikasi memang membutuhkan jaminan waktu nyata untuk pemrosesan beban kerja suara, seperti bermain game.

Biaya adalah pendorong besar lainnya untuk pemrosesan tepi suara, karena memerlukan biaya untuk memproses data suara ini di cloud. Model bisnis pembayaran setiap kali Anda menggunakan API cloud tidak berfungsi untuk kasus penggunaan seperti peralatan rumah tangga dan elektronik konsumen, yang memiliki titik biaya rendah dan dapat digunakan berkali-kali setiap hari.

PicoVoice, yang mesin inferensi ucapan-ke-teks AI-nya dirancang untuk berjalan secara independen dari cloud pada mikrokontroler di bawah $1, bertujuan untuk mengaktifkan kontrol suara dalam aplikasi yang tidak memungkinkan. Hal ini dapat mencakup perangkat yang dapat dikenakan konsumen dan perangkat yang dapat didengar, yang berada pada titik silang membutuhkan efisiensi daya dan efisiensi biaya yang dapat diaktifkan oleh solusi suara berbasis mikrokontroler. Solusi yang dioptimalkan daya dan biaya juga dapat membuka peluang dalam aplikasi industri, keamanan, dan medis, kata Kenarsari-Anhari.

Perusahaan baru-baru ini meluncurkan Shepherd, platform tanpa kode untuk membangun aplikasi suara pada mikrokontroler, yang bekerja dengan perangkat lunak pembuatan model perusahaan, PicoVoice Console. Shepherd mendukung mikrokontroler Arm Cortex-M populer dari ST dan NXP dengan dukungan untuk perangkat lain yang akan datang.

“Saya menganggap suara sebagai antarmuka — jika Anda dapat membangun GUI atau situs web tanpa coding, mungkin menggunakan WordPress, membangun antarmuka suara dengan cara yang sama adalah langkah logis berikutnya,” kata Kenarsari-Anhari. “Shepherd memberdayakan manajer produk dan desainer UX untuk membangun prototipe dan melakukan iterasi dengan cepat, tetapi kami bertujuan untuk memperluas basis pengguna targetnya. Bagaimana jika setiap orang bisa membangun asisten mereka sendiri? Beri nama sesuai keinginan mereka — bukan Alexa! — dan berikan kepribadian yang mereka inginkan.”

Meskipun sangat mungkin untuk mengembangkan model pemrosesan bahasa alami dan menerapkannya tanpa perangkat lunak khusus, rute ini bukan untuk semua orang.

“Pasti bisa – Apple, Amazon, Google dan Microsoft melakukannya,” katanya. “Ini benar-benar tentang apakah suatu perusahaan memiliki sumber daya, berkomitmen untuk membangun organisasi di sekitarnya, dan mampu menunggu selama beberapa tahun.”

Tren masa depan

Voice menjadi antarmuka pilihan untuk generasi pengguna teknologi berikutnya, Kurt Busch, CEO Syntiant mengatakan kepada EE Times dalam sebuah wawancara musim panas lalu.


Kurt Busch (Sumber:Syntiant)

Busch menjelaskan bagaimana anak bungsunya, yang bisa membaca tetapi masih terlalu muda untuk menulis dan mengeja, dapat mengirim pesan teks dengan teman-temannya menggunakan antarmuka suara di smartphone.

“Kakak-kakaknya mengirim pesan teks, tetapi generasinya mendapat telepon beberapa tahun lebih awal daripada mereka,” kata Busch. “Seiring berjalannya waktu, untuk generasinya dan yang lebih muda, antarmuka default mereka adalah untuk berbicara dengannya.”

Busch berpandangan bahwa suara akan menjadi “layar sentuh masa depan”, dengan pemrosesan dalam perangkat yang menyediakan antarmuka yang cepat dan responsif pada awalnya di perangkat yang memiliki keyboard atau mouse, lalu di perangkat putih.

Chip Syntiant adalah akselerator AI khusus yang dirancang untuk menangani beban kerja AI suara di perangkat elektronik konsumen dengan anggaran daya rendah hingga sangat rendah. Startup ini telah mengirimkan lebih dari 10 juta chipnya secara global hingga saat ini, yang sebagian besar telah masuk ke ponsel untuk mengaktifkan deteksi kata kunci yang selalu aktif. Chip Syntiant terbaru, NDP120, dapat mengenali kata-kata panas seperti “OK Google” untuk mengaktifkan asisten Google di bawah 280 W.

Di masa depan, Busch juga melihat kontrol suara yang memungkinkan konektivitas dan akses ke teknologi untuk semua orang.

“Kami melihat suara sebagai pembuat demokrasi yang hebat untuk teknologi,” kata Busch. “Ada 3 miliar orang di dunia yang hidup dengan $2 sehari. Asumsi saya adalah orang-orang itu tidak memiliki akses internet dan mungkin tidak melalui sistem pendidikan. Antarmuka alami di sini adalah [ucapan]. Beginilah cara Anda memasukkan teknologi ke sepertiga dunia yang tidak berinteraksi dengan teknologi saat ini. Kami telah melihat banyak minat di negara berkembang tentang aplikasi suara pertama, untuk mendapatkan segmen masyarakat yang mungkin tidak memiliki akses sebelumnya, tidak hanya dari sudut pandang biaya tetapi juga dari sudut pandang kenyamanan.”

Fragmentasi pasar

Bahaya dengan pasar yang tumbuh secepat suara adalah bahwa ia dapat dengan cepat menjadi sangat terfragmentasi, Vikram Shirastava, direktur senior IoT di Knowles mengatakan kepada EE Times – dan tidak hanya di sepanjang lini perangkat keras.


Vikram Shrivastava (Sumber:Knowles)

“Pasar terfragmentasi berdasarkan, katakanlah, mesin pengenalan suara apa yang digunakan?” kata Shirastava. “Pasar menjadi terfragmentasi tergantung pada apakah Anda berintegrasi dengan SoC TV atau apakah itu MCU sederhana di dalamnya, katakanlah, microwave. Anda mendapatkan fragmentasi berdasarkan sistem operasi, atau berdasarkan lingkungan akustik – apakah itu hanya rumah? Apakah itu bel pintu di luar? Tidak mungkin ada solusi satu ukuran untuk semua. Anda harus menemukan penyebut yang sama di masing-masing vertikal ini, dan mencoba menangani integrasi suara yang sesuai.”

Knowles memiliki solusi kontrol suara berbasis DSP yang bermaksud untuk memperkenalkan versi untuk vertikal yang berbeda. Pendekatannya adalah mengelompokkan fragmen pasar ke dalam segmen yang memiliki kesamaan – kontrol rumah, soundbar TV, dan remote control mungkin termasuk dalam grup yang sama, misalnya – dan kemudian mengembangkan solusi yang dioptimalkan untuk grup aplikasi tersebut. Shirastava menyebut pendekatan ini “satu tingkat di bawah turnkey”, yang menawarkan skalabilitas turnkey tetapi dengan beberapa fleksibilitas tambahan.

“Kami harus memiliki beberapa rilis berbeda yang membahas aspek tertentu dari fragmentasi itu untuk memungkinkan kami menutupi vertikal yang ingin kami kejar,” katanya.

Rilis terbaru Knowles, AISonic Bluetooth Standard Solution, adalah kit pengembangan untuk pengenalan suara di perangkat yang terhubung dengan Bluetooth seperti speaker pintar, perangkat rumah pintar, perangkat yang dapat dikenakan, dan asisten suara di dalam kendaraan. Kit ini didasarkan pada silikon DSP dual-core IA8201 Knowles, yang dirancang khusus untuk pemrosesan jaringan saraf pada daya yang jauh lebih rendah daripada prosesor aplikasi. Misalnya, chip dapat menangani model AI terpisah untuk pencarian kata kunci, klasifikasi sumber, pembentukan sinar, pembatalan gema akustik (AEC) dan estimasi arah sumber secara bersamaan, di bawah 50 mW. Ini diaktifkan oleh ekstensi set instruksi dari hampir 400 instruksi khusus untuk pemrosesan audio dan AI pada inti DSP Tensilica, yang pada gilirannya memungkinkan frekuensi clock dikurangi untuk menghemat daya.


Penahan smartphone kendaraan Sugr iOttie Aivo Connect menggunakan IA8201 Knowles untuk kemampuan suara dalam mobil. Ini memiliki kemampuan asisten suara Alexa built-in. (Sumber:Knowles)

Akankah suara pada akhirnya menjadi antarmuka pengguna default untuk sebagian besar kelas elektronik konsumen? Jelas terlihat seperti itu. Kombinasi algoritme kontrol suara AI yang canggih dan efisien, lingkungan pengembangan yang memungkinkan developer mengintegrasikan suara dengan mudah, dan ekosistem yang berkembang dari solusi perangkat keras hemat energi dan biaya telah muncul untuk mewujudkan semuanya.

>> Artikel ini awalnya diterbitkan di situs saudara kami, EE Waktu.


Teknologi Internet of Things

  1. Sirkuit Permisif dan Interlock
  2. Transformer dan Aplikasi Khusus
  3. Daya dalam rangkaian AC Resistif dan Reaktif
  4. Kekuatan Nyata, Reaktif, dan Nyata
  5. Mobilitas manufaktur:Data, suara, video, dan lokasi
  6. Sensor Pi Raspberry dan Kontrol Aktuator
  7. Munculnya bisnis dan konsumen pedesaan yang cerdas
  8. Kekuatan dan Perangkap Kembar Digital dalam Manufaktur
  9. Dasar-dasar Panel Kontrol Listrik
  10. Kontrol Daya dan HVAC/Iklim