В MIT научили нейросеть воссоздавать лицо по голосу человека

Модель хорошо угадывает пол, но часто ошибается с возрастом.

Учёные из Массачусетского технологического института (MIT) создали нейросеть Speech2Face, которая может создавать примерное изображение лица человека по голосу. Результат зависит от особенностей речи и чаще всего далёк от исходного.

Алгоритм состоит из трёх частей: одна создаёт нейтральное выражение лица человека, другая воссоздаёт спектрограмму речи и определяет особенности, а третья генерирует лица.

Для тренировки нейросети учёные использовали более миллиона коротких видео от ста тысяч разных людей. Чтобы создать лицо нейросеть сначала определяет пол и возраст человека, а также выясняет национальность по наличию акцента.

В конце эксперимента исследователи сравнили получившиеся лица с реальными людьми, говорившими на записях. Как оказалось, алгоритм работает не слишком точно: например, он определяет возраст с точностью до десяти лет. А из-за особенностей обучающей выборки, лучше всего нейросеть изображает людей с европеоидной и азиатской внешностью.

Однако по словам учёных, они не стремились к точному восстановлению внешности человека по голосу. Вместо этого исследователи хотели выделить лишь некоторые важные параметры вроде пола, возраста и расы. Авторы проекта уверены, что их работа будет полезна для изучения связи голоса с внешностью, а определённых параметров хватит для создания, например, анимационных аватаров.

#нейросети