Команды вашего голосового помощника

Задача

Участие в стартапе по созданию системы управления жизненным пространством с обеспечением контроля доступа в разрешенные помещения. Комплекс должен включать систему управления голосом с элементами верификации пользователей. На первоначальном этапе необходимо максимально быстро обеспечить прототип системы базовой функциональностью управления через голосовые команды с простым интерфейсом управления сценариями взаимодействия.

Основная задача – получение прототипа за небольшое время с возможностью дальнейшего расширения.

Обзор решения

В последние годы на рынке большой популярностью пользуются Amazon Echo — смарт-динамик разработки корпорации Amazon.com. Устройство управляется голосом, и сразу после произнесения ключевого слова речь пользователя записывается и отправляется в «облако» для анализа и реакции, используя мощности проекта Amazon Alexa — персонального ассистента от Amazon.

Сервис помощника Amazon Alexa имеет хорошо документированное API, которое независимые разработчики могут использовать в своих приложениях.

Для освоения взаимодействия с интеллектуальным цифровым помощником Alexa наша команда разработала и внедрила небольшой сценарий, который позволяет управлять прототипом системы с эмуляторами устройств взаимодействия с окружающим миром.

Технологические детали

Распознавание речи – нетривиальная задача, с которой сталкиваются многие производители. Среди очевидных сложностей можно выделить посторонние шумы, чужие голоса на фоне. Мы исследовали некоторые API, но результаты обработки нас не удовлетворили. Было принято решение использовать проверенный сервис Amazon Transcribe, который служит для преобразования речи в текст. Этот сервис использует процесс глубокого обучения, известный под названием “автоматическое распознавание речи” (ASR), Таким образом, через помощника Amazon Alexa речь человека передаётся в сервис и далее преобразуется в текст. Выделяются интенты, которые мы выделяем и обрабатываем в нашем сценарии. Сценарий анализирует интенты и подготавливает ответ пользователю, затем полученный ответ преобразовывается обратно в голос и команды системы управления пространством и после этого в виде обратной связи поступает на устройство пользователя для подтверждения.

Помимо сервисов Amazon, мы также рассматривали возможность реализации этого решения с помощью других сервисов: от Google – используя умные колонки Google Nest (ранее Google Home), использующие Google Assistant, от Яндекса – через голосового помощника Алиса. Но использование русскоязычной речи не было обязательным, поэтому выбор остановился на реализации с системой с многоязычной поддержкой.

Стек технологий

AWS

AWS