Интернет
Максим Друковский

Uberduck.ai: генератор зачитывает любой текст, имитируя голоса и стили известных рэперов — от Эминема и Канье до Тупака

Если кому-то недостаточно базы голосов хип-хоп исполнителей, то ещё есть Скуби-Ду, Марио и десятки других персонажей.

Интерфейс сайта uberduck.ai

В мае пользователь твиттера jetski поделился с подписчиками своей находкой в сети — сервисом Uberduck.ai, который позволяет пользователям превращать любой текст в аудиофайлы с голосами различных знаменитостей и вымышленных персонажей, будто они сами озвучили напечатанное сообщение. В ролике автор твита «заставил» рэпера Канье Уэста озвучить мем про креветки, которые пожарили рис.

Идея сайта родилась в 2020 году: тогда его создатель разрабатывал программу-бота, которая могла бы поддерживать диалог с пользователями, придумывая ответ на сообщения и превращая его в речь одного из нескольких персонажей. Автор вскоре понял, что синтезирование голосов стало самой интересной частью проекта, и начал развивать именно это направление.

Основная особенность сервиса заключается в том, что новые голоса может добавить любой желающий. Пользователи с базовыми навыками программирования могут создать нового персонажа и обучить нейросеть его голосу, загрузив аудиофайлы с примерами речи. Сейчас на сайте доступно больше двухсот различных голосов: герои фильмов, сериалов и мультфильмов, персонажи видеоигр, участники телешоу и рекламных роликов, политики, рэперы и рок-музыканты.

Оригинальный твит jetski быстро разошёлся в соцсети, и на сервис обратили внимание многие пользователи твиттера. Они стали озвучивать мемы и копипасты голосами знаменитостей, а в ответах поделились результатами экспериментов.

Пока что не все варианты голосов работают корректно: многие либо недостаточно обучены на примерах, либо не адаптированы под приложение. Из-за этого персонажи при озвучке иногда запинаются или добавляют лишние звуки, а в некоторых случаях это превращается в жуткие вздохи и стоны.

Часть персонажей прорабатывается полноценно, и тогда результат действительно близок к реальности. Если добавить музыку и скорректировать аудиодорожку с текстом на монтаже, можно получить полноценный трек или сюжетный ролик. Некоторые авторы используют сервис как один из этапов разработки виртуального персонажа, позже добавляя собственную анимацию.

На сайте можно вводить и тексты на русском языке, некоторые герои смогут их озвучить, но с заметным акцентом. Судя по всему, произношение определяется с помощью других программ для преобразования текста в речь. К примеру, персонажа игры GTA IV Нико Беллика, который и так говорит на английском языке с восточноевропейским акцентом, при озвучке русского текста понять совсем трудно — один акцент накладывается на другой.

Создатель сайта планирует продолжать развитие сервиса, на сайте указано несколько будущих нововведений: конвертация голоса в текст или другие голоса, закладки и короткие ссылки для файлов пользователей, а также модели персонажей, которые смогут открывать рот синхронно тексту и изображать разные эмоции.

#технологии #twitter #нейросети