Lebih sedikit telinga yang disematkan, lebih banyak perangkat yang dikontrol suara
Orang-orang pintar di XMOS baru saja membawa kami selangkah lebih dekat untuk menyematkan "telinga" untuk kontrol suara di hampir setiap perangkat yang kami gunakan untuk berinteraksi.
Sebagai pengingat, XMOS adalah perusahaan semikonduktor fabless yang mengembangkan solusi suara, produk audio, dan mikrokontroler multicore yang mampu secara bersamaan menjalankan tugas waktu nyata, pemrosesan sinyal digital ekstrem (DSP), dan aliran kontrol. Mikrokontroler XMOS dibedakan berdasarkan perilaku deterministiknya (dapat diprediksi).
Mari kita mulai dengan teknologi mikrokontroler multicore xCORE yang mendasarinya, yang terdiri dari beberapa "ubin prosesor" yang dihubungkan oleh sakelar berkecepatan tinggi. Setiap ubin prosesor adalah prosesor RISC konvensional yang dapat menjalankan hingga delapan tugas secara bersamaan. Tugas dapat berkomunikasi satu sama lain melalui saluran (yang dapat terhubung ke tugas di ubin lokal atau ke tugas di ubin jarak jauh) atau dengan menggunakan memori (untuk tugas yang berjalan di ubin yang sama saja).
Arsitektur xCORE memberikan, dalam perangkat keras, banyak elemen yang biasanya terlihat dalam sistem operasi waktu nyata (RTOS). Ini termasuk penjadwal tugas, pengatur waktu, operasi I/O, dan komunikasi saluran. Dengan menghilangkan sumber ketidakpastian waktu (interupsi, cache, bus, dan sumber daya bersama lainnya), perangkat xCORE dapat memberikan kinerja yang deterministik dan dapat diprediksi untuk banyak aplikasi. Sebuah tugas biasanya dapat merespon dalam nanodetik untuk peristiwa seperti I/O eksternal atau timer. Hal ini memungkinkan untuk memprogram perangkat xCORE untuk melakukan tugas-tugas sulit secara real-time yang membutuhkan perangkat keras khusus.
Pada 2017, XMOS mengakuisisi Setem Technologies. Seperti yang saya tulis di kolom saya "XMOS + Setem Bisa Menjadi Game-Changer untuk Embedded Speech":"Chaps dan chapesses di Setem adalah pelopor teknologi Pemisahan Sinyal Sumber Buta Lanjutan. Algoritme mereka yang dipatenkan memungkinkan perangkat konsumen untuk fokus pada suara atau percakapan tertentu dalam lingkungan audio yang ramai untuk mencapai input yang dioptimalkan ke dalam sistem pengenalan suara.”
Saya memiliki dua perangkat Amazon Echo/Dot di rumah dan satu di kantor saya (saya bertanya kepada istri saya, Gina the Gorgeous, mengapa dia berbisik. "Saya mendengar bahwa orang-orang di Amazon mungkin mendengarkan kami," katanya. Saya tertawa , Gina tertawa, Alexa tertawa…). Menurut saya perangkat ini luar biasa, tetapi mereka memang membutuhkan rangkaian tujuh mikrofon, yang meningkatkan biaya dan jejak fisik dari solusi keseluruhan.
Memiliki beberapa mikrofon memungkinkan sistem untuk mendeteksi dan menghilangkan kebisingan dengan lebih baik, melakukan hal-hal seperti pembatalan gema, dan menentukan lokasi sumber suara seperti orang yang berbicara. Tentu saja, ketika Anda memikirkannya, kami berhasil melakukan semua hal ini hanya dengan dua telinga (saya tidak tahu tentang Anda, tetapi saya tidak berpikir saya memiliki cukup ruang di kepala saya untuk menampung tujuh telinga tanpa setidaknya salah satunya menghalangi).
Tidak mengherankan, orang-orang di XMOS juga melihat ini, itulah sebabnya mereka baru saja memperkenalkan prosesor suara generasi baru XVF3510 mereka yang dapat mengeluarkan suara individu dari lanskap audio yang ramai hanya dengan menggunakan dua mikrofon.
XVF3510 dipasang pada PCB (Sumber:XMOS)
Algoritme yang berjalan pada XVF3510 termasuk pembatalan interferensi (yang meniadakan sumber kebisingan titik untuk membatalkan kebisingan latar belakang yang tidak diinginkan), pembatalan gema akustik stereo (yang menekan gema speaker yang tidak diinginkan dan memungkinkan tongkang masuk), dan estimasi penundaan adaptif (yang secara dinamis menyesuaikan referensi audio latensi sinyal, sehingga memastikan bahwa algoritme pembatalan gema memberikan pengalaman waktu nyata yang mulus).