Рубрика развивается при поддержке HP logo

Игра в имитацию: как Deepfake используют для «воскрешения» умерших музыкантов и доводят подражание до абсолюта Статьи редакции

Теперь даже Фрэнка Синатру можно «заставить» петь о чём угодно.

Изображение OpenAI

Принято считать, что дипфейки популярны в видеоформате — например, в порно или для имитации роликов со знаменитостями и политиками. Однако The Guardian вспомнил о существовании Jukebox — одного из «Deepfake для музыки» от OpenAI, который позволяет исполнить композицию в стиле известных музыкантов, в том числе ушедших из жизни. TJ публикует пересказ материала и рассказывает подробности о работе алгоритмов.

Как это работает

«It’s Christmas time! It’s hot tub time!», — слышится в композиции «Classic Pop, in the style of Frank Sinatra» голос Фрэнка Синатры, но поёт не он. Песню можно было бы принять за потерянную демо-запись известного певца — его голос кажется устрашающе знакомым, даже когда качество оставляет желать лучшего.

Но композиция — не подлинный трек Синатры, а очень точная имитация, созданная компанией OpenAI, работающей над развитием искусственного интеллекта. Её инструмент Jukebox использует машинное обучение для создания музыки с вокалом в разных жанрах и стилях музыкантов. Помимо Синатры, можно выбрать многих других, например, Кэти Пэрри, Элвиса Пресли, Simon & Garfunkel, 2Pac или Селин Дион.

Исполнители, на которых обучили алгоритмы Скриншот с сайта OpenAI

OpenAI использовала 1,2 миллиона песен из интернета вместе с текстами и метеданными, чтобы обучить Jukebox. На выходе получилась система, которая может выдавать исходное аудио на несколько минут длиной на основе того, какие вводные данные она получит. Например, если «скормить» ей Queen или Моцарта, родится приблизительно такая же музыка, хотя и не её прямая копия.

Во время работы над Jukebox исследователям пришлось столкнуться с проблемами, часть которых были препятствиями для автоматизации музыки многие годы. Главной проблемой стал объём данных.

Как рассказывали исследователи в блоге OpenAI, люди научились автоматически генерировать музыку больше полувека назад с появлением первых пианороллов — рулонов с отверстиями, которые позволяли автоматизировать игру на пианино. Однако у них было много ограничений: например, они не могли передавать голос человека и многие тонкие тембры, динамику и экспрессивность как при игре человеком.

Пианоролл в «Мире Дикого Запада» Кадр HBO

Сейчас технологии позволяют использовать другой подход к генерации музыки — моделировать «чистое» аудио. Но в стандартной четырёхминутной песне в CD-качестве (44 кГц, 16 бит) около 10 миллионов временных отметок, и она сложна для моделей с точки зрения семантики — им придётся работать с очень далекоидущими зависимостями.

Один из способов решения проблемы — использовать автокодировщик, который сожмёт «чистое» аудио и снизит объём данных, отбросив «несущественные» для восприятия биты информации. Модель можно научить работать только с этим сжатым пространством и затем увеличивать детализацию исходного звука.

Именно по такому пути пошли в OpenAI — в Jukebox использовали модель автокодировщика, которая сжимает аудио с помощью подхода VQ-VAE, построенного на основе квантования. Система разбивает диапазон значений на ограниченное число уровней и округляет значения до ближайших к ним уровней.

Затем исследователи обучили алгоритмы генерировать музыку в диапазоне, сжатом с помощью VQ-VAE. Для этого использовали три модели: основная генерирует наиболее сжатые данные, а две других увеличивают детализацию и выдают менее сжатые значения.

Модель верхнего уровня в Jukebox отвечает за работу с «длинной структурой» музыки: этот алгоритм выдаёт сэмплы низкого качества, но улавливает высокоуровневую семантику вроде пения и мелодичности. Средняя и нижняя модели повышают качество «исходника» и добавляют деталей вроде тэмбра.

Структура работы Jukebox Скриншот с сайта OpenAI

Все алгоритмы тренировали по авторегрессионным моделям глубокого обучения — они позволяют предсказывать будущие значения на основе прошлых значений. Каждая из моделей состоит из 72 слоёв «внимания» и соответствует 24, 6 и 1,5 секундам «чистого» аудио на высоком, среднем и низшем уровнях соответственно.

Для обучения Jukebox OpenAI использовала 1,2 миллиона композиций, 600 тысяч из которых были на английском. Текст и метаданные об артистах, жанрах и годе выхода песен взяли из LyricWiki. Модель сама научилась объединять похожих артистов и жанры: например, она поместила рядом Дженнифер Лопез и Долли Партон.

Ещё одним вызовом для исследователей стало объединение текста песни с музыкой. В распоряжении OpenAI отдельно оказались сами композиции и слова к ним — у модели не было данных о соответствии текста музыке, кроме того, многие артисты по-разному исполняют одни и те же песни.

Чтобы сопоставить разные части песен, исследователи занялись эвристикой: сначала они просто распределили текст по всей длине каждой песни, а потом уложили его по отдельным «окнам» из символов вокруг конкретного сегмента композиции. Как отметили в OpenAI, эта стратегия сработала на удивление хорошо, но не подошла для жанров с быстрой лирикой вроде хип-хопа, поэтому авторам пришлось увеличить окно и точнее выравнивать текст на уровне слов — для этого используют Spleeter и NUS AutoLyricsAlign.

Что думают музыканты, слушатели и исследователи

Как отметил музыкант, исследователь и академик Goldsmiths доктор Мэттью Йи-Кинг (Matthew Yee-King), решение OpenAI «впечатляет с инженерной точки зрения». По его мнению, подобные алгоритмы позволят создать новые возможности для творчества — например, люди смогут спросить у модели, которая изучила миллионы песен, чего ещё не было, найти это «белое пятно» и создать в нём что-то новое.

Они [OpenAI] разбивают аудиосигнал на набор музыкальных лексем — словарь, если хотите — в трёх разных уровнях времени, а потом выдают вам набор базовых фрагментов, которые воссозданы на основе музыки, которую вы им скормили. Алгоритм потом может переставлять эти фрагменты на основе ваших пожеланий. Например, дайте ему немного Эллы Фитцджеральд и он найдёт, а потом соединит вместе кусочки из словаря в её музыкальном пространстве.

доктор Мэттью Йи-Кинг
электронный музыкант, исследователь, академик Goldsmiths

В представлении Йи-Кинга, в будущем машины будут способны сгенерировать «идеальное произведение» для любого человека в любое время на основе предпочтений, которые тот установит. Нечто похожее уже пытаются сделать в стартапах Endel, и даже в российском Mubert. «Просто скормите людям наиболее оптимизированный звуковой поток, и можно будет совсем избавиться от артистов», — пояснил исследователь.

Похожего мнения придерживается и музыкант Мат Драйхёрст (Mat Dryhurst), который несколько лет работал с технологиями искусственного интеллекта. По его словам, алгоритмы откроют новые горизонты для музыкальной индустрии и поп-музыки.

Ближайшая аналогия — это сэмплирование. Эти модели создают новое измерение — теперь можно выбрать между готовой записью голоса Боуи или Боуи, который будет петь всё, что вы захотите. Это одновременно исключительная сила и ответственность.

Мат Драйхёрст
музыкант и подкастер

Но не все относятся к генерации музыки так же позитивно. Как напомнили в The Guardian, некоторые лейблы уже начали требовать удаления видео с дипфейк-имитацией голоса Jay-Z, которые исполняет рэп о Шейкспире и Билли Джоэле. В компании Roc Nation тогда заявили, что подобный контент «незаконно использует ИИ» для подражания голосу исполнителей. Лейбл обратился в YouTube с требованием удалить видео за нарушение авторских прав, но компания не подчинилась и потребовала «предоставить больше информации от заявителя», а ролик восстановили.

Крупные лейблы отказались комментировать «будущие проблемы с имитацией музыки» по запросу The Guardian. Даже британский регулятор BPI отказался под запись заявить журналистам, на какие шаги он может пойти для защиты артистов.

Дипфейками не всегда довольны и слушатели. Судя по всему, для некоторых людей прослушивание имитации на давно умерших музыкантов приводит к «эффекту зловещей долины». Например, под записями от Jukebox на Soundcloud можно найти комментарии вроде «это крики проклятых» и «звучит чертовски зловеще».

Появление дипфейков для музыки также поднимает этические вопросы — что делает артистов особенными, почему люди слушают определённую музыку и как она вызывает эмоции. Как предположили в The Guardian, если люди потеряют эмоциональную связь с артистами, это может лишить музыку нечта фундаментального. По мнению Драйхёрста, чтобы этого избежать, алгоритмы должны стремиться не заменить людей, а помочь им.

Чего ждать в будущем

Несмотря на прогресс Jukebox, результаты алгоритмов пока далеки от музыки, созданной людьми — это понимают и в OpenAI. Исследователи открыто признают, что хотя система выдаёт согласованные композиции и следует традиционным партиям, в её песнях не услышать более крупных структур вроде повторяющихся припевов, а процесс повышения детализации добавляет заметный шум.

Пока модели также медленно работают из-за авторегрессионной природы их обучения. Для получения одной минуты звука требуется девять часов обработки — это не позволяет использовать Jukebox в интерактивных сервисах. Кроме того, модели пока в основном работают с английским языком и западной музыкой.

В будущем OpenAI планирует дорабатывать алгоритмы генерации музыки и создать возможности для коллаборации людей и машинного обучения. Помимо прочего, в компании уже изучают вопросы предвзятости алгоритмов и защиты авторских прав. Чтобы лучше понять последствия, исследователи выдали доступ к Jukebox десятку разноплановых музыкантов. Артисты пришли к единому мнению, что инструмент пока не получится применить в творческом процессе.

В ближайшие годы дипфейк-музыка приведёт к трансформации музыкальной индустрии по мере того, как направлением станут интересоваться всё больше компаний, пишет The Guardian. Над проектами уже работают Google с Magenta Project, множество небольших стартапов вроде Amper Music и Spotify, у которого есть целое подразделение по исследованию ИИ.

Журналисты считают, что дипфейки в музыке неизбежно столкнутся с этическими и юридическими трудностями. Ведь в скором времени никому больше не нужно будет платить за использование музыки любимого исполнителя в фильме, телешоу или рекламе — можно будет создать собственную идеальную имитацию. А стриминговые сервисы смогут создавать подборки на основе известных артистов, но не платить им отчислений.

Как минимум в Великобритании, где находятся многие крупные звукозаписывающие компании, законы пока не позволяют ограничить применение дипфейков. Как рассказал The Guardian главный юрист лейбла Beggars Group Руперт Скеллетт, в стране действуют два разных закона об авторском праве на музыку — один для самих мелодий и другой для текстов. «Если кто-то не использовал настоящую запись, а создал симулякр с помощью ИИ, вы не сможете предъявить никаких исков», — пояснил юрист.

{ "author_name": "Дамир Камалетдинов", "author_type": "editor", "tags": ["\u0440\u0430\u0437\u0431\u043e\u0440\u044b","\u043d\u0435\u0439\u0440\u043e\u0441\u0435\u0442\u0438","\u0438\u0438","\u0434\u0438\u043f\u0444\u0435\u0439\u043a\u0438"], "comments": 12, "likes": 26, "favorites": 38, "is_advertisement": false, "subsite_label": "tech", "id": 240161, "is_wide": true, "is_ugc": false, "date": "Tue, 24 Nov 2020 21:13:21 +0300", "is_special": false }
0
12 комментариев
Популярные
По порядку
Написать комментарий...

Значимый мангал

27

лучший

Ответить
1

Про рогозина ещё был хороший 

Ответить
6

Хочу генератор электронной музыки под настроение, надеюсь, уже скоро. Такая музыка имеет совершенно иную природу, чем то, чем торгуют лейблы и надеюсь, скоро просто станет отдельной областью, не связанной с продажей альбомов и треков. Будет настраиваемый генератор с обратной связью, разработкой и поддержкой которого занимаются музыканты нового типа, настоящие звуковые инженеры, вчерашние диджеи.

Ответить
0

Я знаю, но пока сыро, баловство для юзера и обкатка технологий для разработчиков. Жду полноценного коммерческого сервиса и надеюсь, что осталось не очень долго)

Ответить
1

Сделайте дипфейк Фредди Меркьюри, поющего Zankoku Na Tenshi No These, миру нужно это!

Ответить
3

В статье слишком романтизировано все написано. В реальности с этим не поработать.
Песни по структуре она генерить не умеет — она не делает повторяющиеся блоки. Те это все всегда похоже на бесконечную испровизацию, в которой в жопу пьяных музыкантов куда-то уносит. 

Ответить
0

Я тебе так скажу, я генерю по 60 семплов за ночь и там не всегда получается что-то слушабельное. Те там сильно варьируется результат от стиля и текста. И подбирать пару - хрон/стиль - это с ума сойти можно.

Ответить
0

копирасты возбудились

Ответить
0
Ответить
0

Интересно  статью озвучил робот(тогда где можно его скачать🤗) или  человек 🤔?

Ответить
Обсуждаемое
Новости
Американская НКО подала иск к Apple и потребовала удалить Telegram из App Store из-за «экстремистских» сообщений
Это произошло на фоне роста популярности мессенджера.
Новости
Навальный выпустил расследование про «дворец Путина» в Краснодарском крае. Главное
«С этого момента миллионы россиян смогут побывать дома у Путина».
Новости
«Не бойтесь»: Навальный после ареста выпустил обращение с призывом выходить на протесты
Штаб политика запланировал большие акции на 23 января.
Популярное за три дня
Новости
Алексей Навальный вернулся в Россию
Самолёт приземлился в Шереметьево, а не во Внуково.
Интернет
«Судебную систему сломали окончательно»: юристы о незаконности постановления суда о задержании Навального
Суд не имел права рассматривать дело по ходатайству полиции, которая не имела права его подавать. Задержать политика по указанной в постановлении статье тоже не имели права, считают юристы.
Новости
Прямая трансляция: Возвращение Алексея Навального в Россию
Следим за происходящим во Внуково с места событий.

Комментарии

null