Google разработала алгоритм перевода устной речи Translatotron, способный сохранять интонацию и голос говорящего

Нейросеть переводит речь напрямую, пропуская этап конвертации аудио в текст.

Google разработала алгоритм Translatotron, который напрямую переводит устную речь на разные языки, минуя конвертацию в текст. Система также умеет сохранять голос и интонацию пользователя. Об этом компания сообщила в своём блоге.

В существующих переводчиках, включая Google Translate, при устном переводе звук сначала конвертируется в текст, а потом обратно в аудио. Основное отличие Translatotron в том, что он пропускает этот этап и работает напрямую со звуком — система создаёт «слепок» исходной речи и преобразует её.

Схема работы Translatotron Google

Подобный алгоритм позволяет увеличить скорость перевода, сократить число ошибок в распознавании речи и при переводе слов, которые не нужно переводить, например, имён. Специалисты Google отмечают, что Translatotron — первая система прямого перевода без конвертации в текст.

Кроме того, алгоритм научили сохранить интонации и паузы говорящего, чтобы сделать звучание перевода более естественным. Нейросеть также может сохранять исходный голос, но эта система обучена на меньшем количестве данных, поэтому варианты перевода получаются немного разными. Посмотреть примеры переводов алгоритма можно в репозитории Google на GitHub.

#новости #google #нейросети