Ditulis pada 27 Januari oleh Aghisna
Peranti Google Nest merupakan salah satu produk yang sedang marak dibicarakan di internet. Melihat kemampuannya yang luar biasa karena hanya diperintah dengan menggunakan suara, banyak sekali warganet yang tergiur membeli produk keluaran perusahaan Google yang satu ini. Peranti ini mampu menjalankan perintah-perintah seperti menyalakan lampu, memainkan musik, bahkan menutup tirai kamar. Kampus Mania hanya perlu menambahkan frasa “Oke Google” pada setiap awal kalimat perintah untuk mengaktifkannya.
Google Nest termasuk kedalam produk smart speakers, bersama dengan Alexa yang dimiliki Amazon, Apple Home oleh Apple Industries, dan masih banyak lagi. Kampus Mania penasaran gak sih bagaimana smart speakers ini bekerja? Salah satu aspek yang paling penting pastinya adalah speech recognition.

Speech recognition merupakan salah satu bagian dari program kecerdasan buatan yang memungkinkan komputer memahami perintah dalam bentuk suara, sehingga perintah tersebut dapat diproses lalu memberikan output yang diinginkan. Lalu, bagaimana speech recognition ini bekerja?
Suara dihasilkan manusia dalam bentuk getaran yang menyebabkan gelombang pada medium di sekitarnya, contohnya seperti udara. Gelombang tersebut akan ditangkap oleh microphone. Gelombang ini kemudian diproses dengan Analog-to-Digital Converters atau ADC. Alat ini mengubah gelombang suara menjadi binary digits atau bahasa yang dapat dimengerti oleh komputer.

Kemudian data digital dicocokkan berdasarkan kesamaan frekuensi pengucapan kata-kata tertentu dibantu dengan spectrogram. Spectogram adalah grafik frekuensi terhadap waktu yang menunjukkan fonem suatu kata. Dengan begitu, sekarang suara Kampus Mania sudah diubah menjadi tulisan sehingga dapat dipahami oleh komputer.
Namun, proses masih jauh dari selesai. Selanjutnya, komputer harus dapat memahami konteks dari sebuah kalimat, bukan sekadar arti per kata. Karena itu, diperlukan Natural Language Processing. Sederhananya, konteks kalimat dapat dimengerti dengan cara membandingkan frasa-frasa yang ada dalam bank data yang sudah dimiliki oleh komputer tersebut. Misalnya jika Kampus Mania bertanya, “berapa jarak bumi ke bulan?” komputer harus dapat mengetahui bahwa “bulan” yang dimaksud adalah satelit bumi, bukan “bulan” di dalam kalender. Kata “bumi” di dalam bank data tentu lebih banyak berhubungan dengan satelitnya, yakni bulan, bukan bulan pada perhitungan waktu. Komputer melakukan analisis tersebut pada frasa setiap kalimat, sehingga akhirnya rangkaian kata dalam kalimat yang diberikan dapat dimengerti oleh komputer.
Berikut tadi tentu hanyalah penjelasan sederhana dari proses speech recognition. Teknologi tersebut masih harus terus dikembangkan untuk dapat memaksimalkan pembacaan secara akurat. Kecepatan bicara, aksen atau logat, dan kebisingan suara di sekitar merupakan beberapa tantangan yang harus diatasi pada perkembangan selanjutnya.

Sumber : www.levelaccess.com
Teknologi speech recognition diharapkan dapat mempermudah kehidupan manusia di masa depan, khususnya membantu orang-orang dengan disabilitas. Karena memang sejatinya teknologi ditujukkan untuk mengisi kekurangan yang ada. Dengan begitu, kita akan bijak menggunakan teknologi yang kita miliki dan tidak membiarkannya berakhir menjadi alasan kemunduran peradaban manusia karena kita tebuai dengan segala kemudahan yang ada.