Рубрика развивается при поддержке
Advertisement

Nvidia запустила сервис Maxine на основе нейросетей. Он повышает разрешение, удаляет шум и переводит речь в видеозвонках Статьи редакции

Пока сервис доступен только отдельным разработчикам и партнёрам Nvidia в режиме раннего доступа.

Nvidia запустила платформу Maxine на основе технологий искусственного интеллекта. Она позволяет разработчикам улучшить качество видеоконференций в своих продуктах, в том числе повысить разрешение звонков, удалить фоновый шум и сжать видео, чтобы сэкономить деньги.

Nvidia считает сжатие одним из главных преимуществ Maxine. По данным на апрель 2020 года, только в Zoom ежедневно созванивались 300 миллионов человек. В компании считают, что Maxine способна «резко» сократить нагрузку на сети от видеозвонков.

Для этого платформа Nvidia передаёт не весь экран с каждым пикселем, а анализирует отдельные точки на лице человека, а потом реанимирует их на компьютере собеседника с помощью алгоритмов. В компании утверждают, что это позволяет до десяти раз сократить количество трафика — в теории, это позволит разработчикам сэкономить деньги на инфраструктуре.

Как работает сжатие

Maxine также умеет выравнивать лица участников звонка. Например, если человек сидит боком к камере, система сможет развернуть его так, чтобы он разговаривал с собеседником лицом к лицу. Кроме того платформа Nvidia может автоматически следить за пользователем в кадре, если он двигается, удалять фон и окружающий шум, а пользователи могут использовать виртуальные 3D-аватары.

Система работает на основе GAN — генеративных состязательных нейросетей, которые состоят из двух частей: одна генерирует контент, а другая сверяет его с примерами из реального мира и пытается найти разницу. Помимо этого Maxine использует Jarvis SDK от Nvidia для голосовых функций: например, можно внедрить видеопомощников с человеческими голосами, расшифровывать текст видеозвонка в реальном времени или переводить его на другие языки.

Одним из первых пользователей платформы стала компания Avaya. Пользователи приложения Avaya Spaces уже могут удалить фоновый шум, использовать собственные фоны и накладывать докладчиков поверх презентаций, а также получить переводы речи в реальном времени.

Как утверждают в Nvidia, ИИ-модели на основе инфраструктуры Maxine разработали на основе «сотен тысяч часов» тренировок на системах Nvidia DGX. По заверениям компании, платформа сможет поддерживать до сотен тысяч пользователей, даже если они все одновременно используют функции ИИ.

0
39 комментариев
Популярные
По порядку
Написать комментарий...
Принятый супер_стар

Комментарий удален по просьбе пользователя

6
Принятый супер_стар

Может на совещании и ты для кого-то вебкамщица

14
Принятый супер_стар

Накладывай фильтры - они уже есть

0

в сраном зуме завезли размытие фона, как в скайпе?

0
Принятый супер_стар

Есть же всякие дополнительные приложения типа Snap Camera

0

вот еще хуету ставить всякую допом)

1
Принятый супер_стар

Зато там можно скрыть всё лишнее

1

Комментарий удален по просьбе пользователя

0

Ну шо, самое время закупиться акциями NVDA

3
Принятый супер_стар

Все побегут покупать видюхи для созвонов?

1

не шаришь

1

Да нет конечно, они же копейки не стоят всё же. 

0

Комментарий удален по просьбе пользователя

0

С 200 до 500 за полгода и на новостях ещё однозначно будет рост. Это реально Стонкс. Плюс рост на новостях реально подкреплён продукцией и технологиями. Можно смело брать в долгую на пару лет и потом продавать по 1000-1200

0

Комментарий удален по просьбе пользователя

0

Каким образом тебе навредит локдаун, если ты берёшь в долгую на несколько лет? Цена NVDA через пару лет однозначно выйдет за 1к, что ещё нужно? Да даже в условиях локдауна, этот самый локдаун никак не помешает компаниям лицензировать их технологии, тот же RTX Voice и эти, о которых пишут в статье. Также локдаун никак не повлияет на работу их дата-центров. Наоборот, спрос и на то и на другое только вырастет. Просядут только физические продажи карт в ритэйле, что произойдёт вообще у всех, так что не критично, при условии, что взял акции не затем, чтобы слить их через пару месяцев

0

И да, из этого же графика видно, что даже те, кто в 2018 закупился на хаях, сейчас всё равно в плюсе на 200$ 🤷🏻‍♂️

0

 Для этого платформа Nvidia передаёт не весь экран с каждым пикселем, а анализирует отдельные точки на лице челвоека

Отдать должное, видео итак не передается "всем экраном с каждым пикселем". Там тоже сжатие на основе статичной картинки и её последующего движения, если коротко описать. Но то, что оно тут с мимикой ебальника, прикольно, да.
Ну и ошибка в слове "человека", но это так.

3

причем мпег на этом и основан 30 лет назад)

1

банить нежелательные звуки на заднем фоне - это киллер фича для 2020, я серьезно

1

да уже делали такое и не раз

0

YouTube всё равно сожмёт до пяти шакалов из десяти (а фейсбук - до всех десяти).

1

жжошь сцуко)

0

А грудь может увеличивать?

1

Это всё конечно очень круто, что и где нужно качать, чтобы проверить

0

Ничего качать не надо, это, по идее, уже должно быть предустановлено в сервисе.
Т.е ты сейчас фиг где попробуешь

2
Принятый супер_стар

1. выбросить нахуй карточку от амд
2. закупиться нормальной нвидиа

1

Ну есть нормальная, дальше что?
Все эти анонсы сервисов с видосами но без доступа должны быть или помечены как "анонсирован выход", или со ссылкой на то, как им пользоваться, или хотя бы сказать, что сервис доступен только для других сервисов и предлагать его будут не нам, а Зуму со Скайпом. А то что за фигня, сервис вышел, но пользоваться им нельзя.

0

Комментарий удален по просьбе пользователя

0

я сначала подумал, что оно вырезает еблет в риалтайм и только его предает, заливая фон подложкой, за счёт чего трафик меньше, оно по другому в итоге работает чтоли

0
Принятый супер_стар

в видосе в статье описывают, там не весь еблет а позиция ключевых точек на лице, а на принимающей стороне нейронка которая по начальной фотке и переданным точкам восстанавливает выражение лица в кадре.

0

ну чет сложно и не верю в такое сейчас, надо как то смотреть, то что я описал уже готовое решение по снижению объема трафика

0

Нейросети решили заработать на репе

0

Ну, мне это вряд ли прям понадобится, но мб для кого то это будет удобной фичей. 

0

Может быть, может быть.

0

Ну то есть информация не важная (оригинал человека), но мы все равно ее оставим. 

0

интересно, появятся фильтры для голоса как для селфи?

0
Читать все 39 комментариев
null