{"id":2121,"url":"\/distributions\/2121\/click?bit=1&hash=c729442271aec384715ceaf20517bb8fa0166ebf92af2882be94c77e61bf0e3b","title":"\u041a\u0430\u043a\u0443\u044e \u0440\u0435\u043a\u043b\u0430\u043c\u0443 \u043c\u043e\u0436\u043d\u043e \u0434\u0430\u0442\u044c \u043d\u0430 TJ \u0438 \u043a\u0442\u043e \u0435\u0451 \u0443\u0432\u0438\u0434\u0438\u0442","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"75f1ba9e-7ef7-5a5d-9174-73e116005093","isPaidAndBannersEnabled":false}
Технологии

Внутри DALL-E 2: как устроена нейросеть, способная создать любую картинку на основе текстового описания Статьи редакции

Краткий рассказ об «изнанке» модели, которая обучается на сотнях миллионов изображений и связанных с ними подписей.

В начале апреля OpenAI начала тестировать DALL-E 2 — обновлённую версию нейросети, впервые представленную в январе 2021 года. С помощью только короткой текстовой подсказки ИИ может генерировать совершенно новые изображения, редактировать фотографии, добавляя новые предметы, и создавать новые рисунки на основе существующих, сохраняя дух оригинала.

TJ уже рассказывал о результатах работы DALL-E 2: за постами о ней можно следить по одноимённому тегу. А быстрое представление о возможностях нейросети можно получить из клипа на песню «Feeling Good» от одного из тестировщиков.

А сейчас TJ публикует адаптацию статьи разработчика Райана О’Коннора, который подробно объяснил, как работает DALL-E 2.

На высшем уровне DALL-E 2 работает очень просто: текст вводится в кодировщик, обученный отображать подсказку. Затем «предшествующая» модель сопоставляет кодировку текста с кодировкой изображения. Наконец, модель декодирования изображения генерирует картинку-визуальное проявление этой семантической информации.

Процесс генерации изображений DALL-E 2

DALL-E 2 учится связывать текстовые и визуальные абстракции. Например, после ввода запроса «плюшевый мишка катается на скейтборде на Таймс-сквер» DALL-E 2 выводит следующее изображение. А ещё можно уточнить, как нейросети выполнить картинку, например, «рисунок краской», «3D-модель» или «наскальная живопись».

Откуда DALL-E 2 знает, как такое текстовое понятие, как «плюшевый мишка», проявляется в визуальном пространстве? Связь между текстовой семантикой и визуальным представлением изучается с помощью другой модели OpenAI — CLIP. Она обучается на сотнях миллионов изображений и связанных с ними подписей, выясняя, насколько конкретный фрагмент текста относится к изображению.

Вместо попыток предсказать подпись CLIP узнаёт, насколько она связана с изображением. Эта сравнительная, а не прогнозирующая цель позволяет CLIP изучать связь между текстовыми и визуальными представлениями одного и того же абстрактного объекта.

Основополагающие принципы тренировки CLIP:

  • Все изображения и связанные с ними подписи проходят через соответствующие кодировщики, отображая все объекты в m-мерном пространстве.
  • Затем вычисляется сходство каждой пары (изображение + текст).
  • Цель обучения состоит в том, чтобы одновременно максимизировать сходство между правильно закодированными парами изображения и заголовка, и минимизировать его между неправильно закодированными парами.

CLIP важен для DALL-E 2, потому что это то, что в конечном итоге определяет, насколько семантически связан фрагмент естественного языка с визуальной концепцией. Это имеет решающее значение для создания изображений нейросетью.

После обучения модель CLIP останавливается. DALL-E 2 переходит к следующей задаче и занимается кодированием изображения, которое только что изучил CLIP. В частности, OpenAI использует модифицированную версию ещё одной из своих предыдущих моделей, GLIDE, для создания этого изображения.

Происходит это следующим образом. Возьмём «корги, играющего на трубе-огнемёте» (это реальный пример от одного из тестировщиков). Запрос проходит через кодировщик изображений CLIP. А затем GLIDE использует кодировку для создания нового изображения, сохраняющего основные черты оригинала.

GLIDE-обучение позволяет DALL-E 2 создавать фотореалистичные изображения

Для создания таких изображений GLIDE использует модель диффузии — такие модели учатся генерировать данные, обращая вспять процесс постепенного зашумления изображения.

Однако есть ряд нюансов. Так, если диффузионная модель обучена на наборе данных человеческого лица, она будет надежно генерировать фотореалистичные изображения человеческих лиц. Но что, если кто-то захочет создать лицо с определённой чертой, например, с карими глазами или светлыми волосами?

GLIDE расширяет основную концепцию диффузионных моделей, дополняя процесс обучения дополнительной текстовой информацией, что в конечном итоге приводит к созданию более точных изображений — в этом она превосходит первую версию DALL-E.

«ёж использует калькулятор», «корги в красной бабочке и фиолетовой праздничной шляпке», «роботы медитируют с помощью техники випассана» и «осенний пейзаж с маленьким домиком у реки»

GLIDE важен для DALL-E 2, потому что он позволил авторам легко перенести возможности генерации фотореалистичных изображений с текстовым условием. Благодаря этому DALL-E 2 учится генерировать семантически согласованные изображения, обусловленные кодировкой изображения CLIP.

Как всё работает вместе

Таким образом, для генерации текстового изображения нужно собрать вместе следующее:

  • Сначала кодировщик текста CLIP сопоставляет описание изображения с пространством представления.
  • Затем идёт преобразование из кодировки текста CLIP в соответствующую кодировку изображения CLIP.
  • Наконец, модель генерации модифицированного GLIDE преобразует пространство представления в пространство изображения с помощью обратной диффузии, создавая одно из множества возможных подходящих изображений.
Как с помощью нейросети перенести объект (тут — корги) в самые разные позиции и состояния
Полное видео от AssemblyAI
0
18 комментариев
Написать комментарий...
Duard Kuban

Эх, когда уже DALL-E 2 выйдет из бета теста

Ответить
Развернуть ветку
Мирный химик

А мне кажется, что в интернете уже достаточно фотографий половых органов

Ответить
Развернуть ветку
пот единорога

"С самого релиза DALL·E 2 я хожу по интернету и пишу разным людям просьбы, чтобы мне сгенерировали «немного пенисов-трансформеров, ну пожалуйста, у меня ломка», серьезно, я даже письма уже писал".

Ответить
Развернуть ветку
Duard Kuban

Ну, половые органы не всегда подходят в качестве референсов для работы.

Ответить
Развернуть ветку
Denis Shiryaev

Как выйдет, так будут брать деньги за токены – бесплатно ее не дадут скорее всего

Ответить
Развернуть ветку
Clear

Кто занимается такими вещами? Дата саентисты? Это же как начать исследовать космос, впереди столько всего удивительного!

Ответить
Развернуть ветку
Алекс Мерзляков

Получается можно декодировать любое изображение в понятные для машины смыслы и запрограммировать ее давать реакции. Не зачатки искусственного интеллекта ли это?

Ответить
Развернуть ветку
Егор Домовой

А интелект (человека?)это не реакция на внутреннее и внешние события?И так же программируется . Например тебе сейчас следует поставить мне плюс
Я считаю это прорыв , гигантский

Ответить
Развернуть ветку
Ajdishnik

Хотелось бы поюзать

Ответить
Развернуть ветку
Иоанн

Wombo dream тоже рисует

Ответить
Развернуть ветку
Denis Shiryaev

Тоже на CLIP от Open AI, и абстракции приелись

Ответить
Развернуть ветку
Monol1th2112 .

Где можно пробовать самому?

Ответить
Развернуть ветку
Мирный химик

Пока нигде, тексты для ограниченного количества людей идут

Ответить
Развернуть ветку
Temp Acc

ех, вот бы кто-то сделал хомячка-грузовичка ((

Ответить
Развернуть ветку
Dr.FlashHD

Охуенно, теперь остаётся ждать релиза и домашку по ОБЖ делать не придётся

Ответить
Развернуть ветку
Хенрик Квинто

А вот ОБЖ стоит поучить сейчас.

Ответить
Развернуть ветку
Alex SSS

может изо?

Ответить
Развернуть ветку
Voronezh Morning Herald

«Заебавший всех дед-нацист в гробу» сгенерируйте пожалуйста

Ответить
Развернуть ветку
Читать все 18 комментариев
null