Команди вашого голосового помічника

Завдання

Участь у стартапі зі створення системи управління життєвим простором із забезпеченням контролю доступу до дозволених приміщень. Комплекс повинен включати систему керування голосом із елементами верифікації користувачів. На початковому етапі необхідно максимально швидко забезпечити прототип системи базової функціональністю керування через голосові команди із простим інтерфейсом керування сценаріями взаємодії.

Основне завдання – отримання прототипу за невеликий час із можливістю подальшого розширення.

Огляд рішення

В останні роки на ринку великою популярністю користуються Amazon Echo – смарт-динамік розробки корпорації Amazon.com. Пристрій керується голосом, і відразу після вимовлення ключового слова мова користувача записується і відправляється в «хмару» для аналізу та реакції, використовуючи потужності проекту Amazon Alexa – персонального помічника від Amazon.

Сервіс помічника Amazon Alexa має добре документоване API, яке незалежні розробники можуть використовувати у своїх додатках.

Для освоєння взаємодії з інтелектуальним цифровим помічником Alexa наша команда розробила та впровадила невеликий сценарій, який дозволяє керувати прототипом системи з емуляторами пристроїв взаємодії з навколишнім світом.

Технологічні деталі

Розпізнавання мови – нетривіальне завдання, з яким стикаються багато виробників. Серед очевидних складнощів можна виділити сторонні шуми, чужі голоси і натомість. Ми дослідили деякі API, але результати обробки нас не задовольнили. Вирішили використовувати перевірений сервіс Amazon Transcribe, який служить для перетворення мови в текст. Цей сервіс використовує процес глибокого навчання, відомий під назвою "автоматичне розпізнавання мови" (ASR), Таким чином, через помічника Amazon Alexa мова людини передається в сервіс і далі перетворюється на текст. Виділяються інтенти, які ми виділяємо та обробляємо у нашому сценарії. Сценарій аналізує інтенти і готує відповідь користувачу, потім отримана відповідь перетворюється назад у голос і команди системи управління простором і після цього у вигляді зворотного зв'язку надходить на пристрій користувача для підтвердження.

Крім сервісів Amazon, ми також розглядали можливість реалізації цього рішення за допомогою інших сервісів: від Google - використовуючи розумні колонки Google Nest (раніше Google Home), які використовують Google Assistant, від Яндекса через голосового помічника Аліса. Але використання російськомовної мови не було обов'язковим, тому вибір зупинився на реалізації із системою з багатомовною підтримкою.

Стек технологій

AWS

AWS