Офтоп
Николай Чумаков

Разработчик создал бота для «ВКонтакте», распознающего голосовую речь

Разработчик Максим Лепеха запустил бота, который распознаёт голосовую речь в личных сообщениях во «ВКонтакте». По словам автора, программа может без проблем различать короткие фразы из нескольких слов.

Максим Лепеха

В основе программы стоит алгоритм SpeechKit Cloud от компании «Яндекс», который позволяет распознавать речь и используется в «Яндекс.Навигаторе». Бот трансформирует слова, сказанные в микрофон, в текстовое сообщение и отправляет автору.

В разговоре с TJ Максим рассказал, что запустил бота утром 15 декабря, и за сутки он обработал около 400 сообщений от 200 человек.

Идея создания бота возникла с популяризацией голосовых сообщений «ВКонтакте». Не знаю почему, но мне они не понравились изначально — не всегда бывает подходящая ситуация, чтобы было возможно послушать аудио: то ты едешь в метро, то стоишь с друзьями.

А потом прочитал об аналогичном боте в Telegram. Поискал — ничего похожего не нашел. Ну и за пару часов написал первую версию. Тестировали в час ночи с друзьями, к утру было готово минимальное оформление группы и анонс.

Максим Лепеха, создатель бота

Пока программа с трудом справляется с длинными предложениями, но правильно распознаёт короткие фразы длиной до шести слов. Например, предложения «А с мобильного устройства можешь распознать?» и «Попробуй ещё раз, я говорю прямо в микрофон» бот распознаёт неполностью.

По словам создателя, проблема заключается в алгоритме «Яндекса», на сервера которого отправляются сообщения для распознавания. Компания также устанавливает ограничение на количество запросов — не более тысячи штук в сутки.

В ближайших планах — договориться с «Яндексом» о том, чтобы мне увеличили лимит распознаваний голосовых сообщений в сутки и поработать над точностью. Потому что она сейчас оставляет желать лучшего — как полностью рабочий инструмент данного бота сложно использовать.

Максим Лепеха, создатель бота

30 ноября разработчики «ВКонтакте» запустили бота, который отвечает на сообщения пользователей видеороликами с фразами ведущего Сергея Дружко. Алгоритм работает на основе векторов — массивных чисел, передающих семантический смысл слов.