Demokratisasi antarmuka suara

Buku sejarah mungkin melihat kontrol suara sebagai kemajuan terpenting yang dibuat dalam Antarmuka Mesin Manusia. Tidak ada lagi mengetik, tidak ada lagi menunjuk, kami hanya mengatakan apa yang kami inginkan. Kemajuan awal di bidang ini tertatih-tatih sampai munculnya speaker pintar, ketika kami mulai menyadari apa yang mungkin terjadi. Sekarang perlombaan dimulai dengan peningkatan dalam pengenalan, fitur, dan aplikasi di ponsel, headset, perangkat yang dapat didengar, dan rumah pintar. Solusi yang paling dikenal saat ini bergantung pada platform dan layanan yang dikendalikan oleh sejumlah kecil penyedia, tetapi itu berubah. Aktivasi suara dapat disematkan di mana saja, dengan penyesuaian, peningkatan kekebalan terhadap kebisingan, daya yang lebih rendah, jangkauan yang lebih jauh, namun sama efektifnya dengan platform besar dalam pengenalan suara.

(Sumber:CEVA/Shutterstock)

Pasar audio konsumen, di mana kemampuan ini memainkan peran penting, memiliki sejarah yang menarik. FutureSource menunjukkan bahwa dari 2008 hingga 2012, volume dolar menurun karena pengalaman audio terkonsolidasi terutama pada smartphone. Dari 2012 hingga 2014, pasar pada dasarnya tetap datar. Kemudian dari 2015 hingga 2018, tumbuh lagi pada CAGR 15%, terutama didorong oleh aktivasi suara. Ke depan, Yole Développement mengantisipasi CAGR minimal 30% hingga tahun 2023, didorong terutama oleh pengenalan suara . Sebagian besar pertumbuhan ini akan terus terjadi di smartphone, diikuti oleh headset dan alat bantu dengar, asisten pribadi, dan fitur rumah pintar (TV, peralatan, dll.). Laporan yang sama menyimpulkan bahwa kita sekarang memasuki fase kedua dalam audio pintar, di mana kontrol suara akan menjadi jauh lebih meresap, karena konsumen menjadi lebih nyaman dengan metode kontrol ini.

Di mana pun mereka ditempatkan, tujuannya adalah untuk meningkatkan diferensiasi. Di ponsel cerdas atau perangkat lain yang dioperasikan dengan baterai, keuntungan nyata adalah mendukung mendengarkan yang selalu aktif; tidak perlu menekan tombol sebelum Anda memberikan perintah. Ini membutuhkan deteksi kata pemicu dengan daya sangat rendah, yang seperti yang kita ketahui berarti perangkat keras dengan perangkat lunak yang sangat cocok untuk meminimalkan daya siaga. Secara alami, Anda ingin mempersonalisasi kata atau frasa pemicu untuk merek Anda, dan dalam berbagai bahasa, untuk mendapatkan penetrasi yang kuat di wilayah Anda dan mungkin juga di pasar internasional. Anda mungkin masih meneruskan perintah berikutnya ke salah satu penyedia pengenalan suara utama untuk membongkar permintaan. Atau mungkin tidak. Jika alat Anda hanya membutuhkan dukungan untuk kosa kata yang terbatas, Anda mungkin tidak memerlukan bantuan dari pihak ketiga, jika mesin pengenalan suara Anda dapat diperluas ke tujuan itu.

Kebutuhan kritis lainnya adalah pengenalan dan mungkin otentikasi, di lingkungan yang bising. Pengenalan suara menghadirkan tantangan yang berbeda dari yang ada dalam pengenalan objek. Di ruang tamu atau mobil misalnya, mungkin ada beberapa sumber suara: orang berbicara, TV dan sumber musik/radio independen, kebisingan interior dan eksterior, dan gema dari semua ini dari permukaan di dalam ruangan atau interior mobil. Mengisolasi sumber perintah, membatalkan gema, dan mengurangi kebisingan latar belakang memerlukan beberapa teknologi canggih yang bergantung pada beberapa mikrofon, beamforming, dan pembatalan gema, serta peredam bising.

Itulah kebutuhan dan tentu saja, solusi yang tersedia seperti CEVA siap menjawab kebutuhan tersebut. Solusi seperti produk pengenalan frasa CEVA WhisPro™ yang baru-baru ini diperkenalkan menggunakan perangkat lunak berbasis jaringan saraf yang berjalan pada platform CEVA DSP. WhisPro sudah mendukung "Alexa" dan "OK Google" sebagai pemicu suara dan dapat disesuaikan dalam pelatihan untuk mendukung pemicu yang diminta pelanggan. Ini mendukung multi bahasa dan dapat menangani beberapa pemicu suara. Pelatihan dilakukan dengan beberapa latar belakang kebisingan, sehingga pengenalan memiliki kekebalan kebisingan bawaan, memberikan pengenalan>95%, dan penerimaan palsu kurang dari 1 per jam, tanpa perlu verifikasi cloud.

Dengan menambahkan solusi pengambilan suara khusus, CEVA ClearVox™, pengembang dapat mencapai dukungan multi-mikrofon dan beamforming untuk pengambilan suara jarak jauh yang lebih baik, bersama dengan pembatalan gema dan pengurangan kebisingan lebih lanjut. Memasangkan WhisPro bersama dengan ClearVox menghadirkan pengenalan pemicu kompetitif pada jarak yang lebih baik (hingga 7 meter), terutama di lingkungan yang bising.

Youval Nachum menjabat sebagai Manajer Pemasaran Produk Senior CEVA untuk lini produk audio dan suara. Youval membawa lebih dari 20 tahun pengalaman multi-disiplin, mencakup pemasaran, arsitektur sistem, ASIC, dan domain perangkat lunak di perusahaan teknologi terkemuka. Dia bersemangat untuk mengantisipasi tren jangka panjang dan memimpin program teknis untuk penyelesaian yang sukses. Sangat mahir dalam menggabungkan persyaratan pasar, definisi produk, standar industri dan inovasi desain menjadi produk terobosan. Youval memegang gelar B.Sc. dan M.Sc. dalam Teknik Elektro dari Technion – Institut Teknologi Israel.

Teknologi server web yang efisien untuk mikrokontroler dengan sumber daya terbatas Mempertahankan pertumbuhan IoT

Teknologi Internet of Things

Tertanam

Sensor

Komputasi awan

Teknologi Internet of Things