Внутри DALL-E 2: как устроена нейросеть, способная создать любую картинку на основе текстового описания Статьи редакции
Краткий рассказ об «изнанке» модели, которая обучается на сотнях миллионов изображений и связанных с ними подписей.
В начале апреля OpenAI начала тестировать DALL-E 2 — обновлённую версию нейросети, впервые представленную в январе 2021 года. С помощью только короткой текстовой подсказки ИИ может генерировать совершенно новые изображения, редактировать фотографии, добавляя новые предметы, и создавать новые рисунки на основе существующих, сохраняя дух оригинала.
TJ уже рассказывал о результатах работы DALL-E 2: за постами о ней можно следить по одноимённому тегу. А быстрое представление о возможностях нейросети можно получить из клипа на песню «Feeling Good» от одного из тестировщиков.
А сейчас TJ публикует адаптацию статьи разработчика Райана О’Коннора, который подробно объяснил, как работает DALL-E 2.
На высшем уровне DALL-E 2 работает очень просто: текст вводится в кодировщик, обученный отображать подсказку. Затем «предшествующая» модель сопоставляет кодировку текста с кодировкой изображения. Наконец, модель декодирования изображения генерирует картинку-визуальное проявление этой семантической информации.
DALL-E 2 учится связывать текстовые и визуальные абстракции. Например, после ввода запроса «плюшевый мишка катается на скейтборде на Таймс-сквер» DALL-E 2 выводит следующее изображение. А ещё можно уточнить, как нейросети выполнить картинку, например, «рисунок краской», «3D-модель» или «наскальная живопись».
Откуда DALL-E 2 знает, как такое текстовое понятие, как «плюшевый мишка», проявляется в визуальном пространстве? Связь между текстовой семантикой и визуальным представлением изучается с помощью другой модели OpenAI — CLIP. Она обучается на сотнях миллионов изображений и связанных с ними подписей, выясняя, насколько конкретный фрагмент текста относится к изображению.
Вместо попыток предсказать подпись CLIP узнаёт, насколько она связана с изображением. Эта сравнительная, а не прогнозирующая цель позволяет CLIP изучать связь между текстовыми и визуальными представлениями одного и того же абстрактного объекта.
Основополагающие принципы тренировки CLIP:
- Все изображения и связанные с ними подписи проходят через соответствующие кодировщики, отображая все объекты в m-мерном пространстве.
- Затем вычисляется сходство каждой пары (изображение + текст).
- Цель обучения состоит в том, чтобы одновременно максимизировать сходство между правильно закодированными парами изображения и заголовка, и минимизировать его между неправильно закодированными парами.
CLIP важен для DALL-E 2, потому что это то, что в конечном итоге определяет, насколько семантически связан фрагмент естественного языка с визуальной концепцией. Это имеет решающее значение для создания изображений нейросетью.
После обучения модель CLIP останавливается. DALL-E 2 переходит к следующей задаче и занимается кодированием изображения, которое только что изучил CLIP. В частности, OpenAI использует модифицированную версию ещё одной из своих предыдущих моделей, GLIDE, для создания этого изображения.
Происходит это следующим образом. Возьмём «корги, играющего на трубе-огнемёте» (это реальный пример от одного из тестировщиков). Запрос проходит через кодировщик изображений CLIP. А затем GLIDE использует кодировку для создания нового изображения, сохраняющего основные черты оригинала.
GLIDE-обучение позволяет DALL-E 2 создавать фотореалистичные изображения
Для создания таких изображений GLIDE использует модель диффузии — такие модели учатся генерировать данные, обращая вспять процесс постепенного зашумления изображения.
Однако есть ряд нюансов. Так, если диффузионная модель обучена на наборе данных человеческого лица, она будет надежно генерировать фотореалистичные изображения человеческих лиц. Но что, если кто-то захочет создать лицо с определённой чертой, например, с карими глазами или светлыми волосами?
GLIDE расширяет основную концепцию диффузионных моделей, дополняя процесс обучения дополнительной текстовой информацией, что в конечном итоге приводит к созданию более точных изображений — в этом она превосходит первую версию DALL-E.
GLIDE важен для DALL-E 2, потому что он позволил авторам легко перенести возможности генерации фотореалистичных изображений с текстовым условием. Благодаря этому DALL-E 2 учится генерировать семантически согласованные изображения, обусловленные кодировкой изображения CLIP.
Как всё работает вместе
Таким образом, для генерации текстового изображения нужно собрать вместе следующее:
- Сначала кодировщик текста CLIP сопоставляет описание изображения с пространством представления.
- Затем идёт преобразование из кодировки текста CLIP в соответствующую кодировку изображения CLIP.
- Наконец, модель генерации модифицированного GLIDE преобразует пространство представления в пространство изображения с помощью обратной диффузии, создавая одно из множества возможных подходящих изображений.
Эх, когда уже DALL-E 2 выйдет из бета теста
А мне кажется, что в интернете уже достаточно фотографий половых органов
"С самого релиза DALL·E 2 я хожу по интернету и пишу разным людям просьбы, чтобы мне сгенерировали «немного пенисов-трансформеров, ну пожалуйста, у меня ломка», серьезно, я даже письма уже писал".
Ну, половые органы не всегда подходят в качестве референсов для работы.
Как выйдет, так будут брать деньги за токены – бесплатно ее не дадут скорее всего
Кто занимается такими вещами? Дата саентисты? Это же как начать исследовать космос, впереди столько всего удивительного!
Получается можно декодировать любое изображение в понятные для машины смыслы и запрограммировать ее давать реакции. Не зачатки искусственного интеллекта ли это?
А интелект (человека?)это не реакция на внутреннее и внешние события?И так же программируется . Например тебе сейчас следует поставить мне плюс
Я считаю это прорыв , гигантский
Хотелось бы поюзать
Wombo dream тоже рисует
Тоже на CLIP от Open AI, и абстракции приелись
Где можно пробовать самому?
Пока нигде, тексты для ограниченного количества людей идут
ех, вот бы кто-то сделал хомячка-грузовичка ((
Охуенно, теперь остаётся ждать релиза и домашку по ОБЖ делать не придётся
А вот ОБЖ стоит поучить сейчас.
может изо?
«Заебавший всех дед-нацист в гробу» сгенерируйте пожалуйста