Nvidia запустила сервис Maxine на основе нейросетей. Он повышает разрешение, удаляет шум и переводит речь в видеозвонках

Пока сервис доступен только отдельным разработчикам и партнёрам Nvidia в режиме раннего доступа.

Nvidia запустила платформу Maxine на основе технологий искусственного интеллекта. Она позволяет разработчикам улучшить качество видеоконференций в своих продуктах, в том числе повысить разрешение звонков, удалить фоновый шум и сжать видео, чтобы сэкономить деньги.

Nvidia считает сжатие одним из главных преимуществ Maxine. По данным на апрель 2020 года, только в Zoom ежедневно созванивались 300 миллионов человек. В компании считают, что Maxine способна «резко» сократить нагрузку на сети от видеозвонков.

Для этого платформа Nvidia передаёт не весь экран с каждым пикселем, а анализирует отдельные точки на лице человека, а потом реанимирует их на компьютере собеседника с помощью алгоритмов. В компании утверждают, что это позволяет до десяти раз сократить количество трафика — в теории, это позволит разработчикам сэкономить деньги на инфраструктуре.

Maxine также умеет выравнивать лица участников звонка. Например, если человек сидит боком к камере, система сможет развернуть его так, чтобы он разговаривал с собеседником лицом к лицу. Кроме того платформа Nvidia может автоматически следить за пользователем в кадре, если он двигается, удалять фон и окружающий шум, а пользователи могут использовать виртуальные 3D-аватары.

Система работает на основе GAN — генеративных состязательных нейросетей, которые состоят из двух частей: одна генерирует контент, а другая сверяет его с примерами из реального мира и пытается найти разницу. Помимо этого Maxine использует Jarvis SDK от Nvidia для голосовых функций: например, можно внедрить видеопомощников с человеческими голосами, расшифровывать текст видеозвонка в реальном времени или переводить его на другие языки.

Одним из первых пользователей платформы стала компания Avaya. Пользователи приложения Avaya Spaces уже могут удалить фоновый шум, использовать собственные фоны и накладывать докладчиков поверх презентаций, а также получить переводы речи в реальном времени.

Как утверждают в Nvidia, ИИ-модели на основе инфраструктуры Maxine разработали на основе «сотен тысяч часов» тренировок на системах Nvidia DGX. По заверениям компании, платформа сможет поддерживать до сотен тысяч пользователей, даже если они все одновременно используют функции ИИ.

#нейросети #nvidia