Базз Лайтер в СССР, Шлёпа в джунглях, айтишники в душе: как работает нейросеть для генерации картинок Midjourney

Очередной (неплохой) конкурент DALL-E стал доступен всем — TJ попробовал его в деле.

«Большой Шлёпа в стиле Анри Руссо»

13 июля нейросеть для генерации картинок по описанию Midjourney вышла в стадию открытого бета-тестирования. Если раньше доступ к сервису давали только по запросу и в течение нескольких дней, то теперь попробовать новый ИИ-инструмент может любой желающий, просто перейдя по ссылке в дискорд.

Редактор TJ заранее протестировал нейросеть. Спойлер: местами результаты Midjourney уступают примерам работы DALL-E 2 и Imagen, зато, в отличие от инструментов OpenAI и Google, сервисом может воспользоваться кто угодно, а не только узкий круг разработчиков и ИИ-специалистов. А при определённом подходе и усидчивости получаются вполне впечатляющие изображения.

* * *

Midjourney работает прямо на дискорд-сервере. После активации приглашения пользователя автоматически добавляют в одну из комнат newbie, где можно вводить запросы через команду /imagine. В каждой комнате находятся сразу тысячи таких же участников. Не все они одновременно генерируют картинки, но чат всё равно движется достаточно активно — спасают уведомления.

Запросы вводятся на английском языке, а создание картинки занимает пару минут. Происходит это прямо в чате — каждые несколько секунд сообщение обновляется, так что можно проследить за процессом генерации. Получается коллаж из четырёх небольших изображений.

Результаты по запросу «советская реклама нового айфона»

Результаты по запросу «мёртвые телепузики в гробу»

Результаты по запросу «судьба независимых журналистов в России» (три из четырёх результатов — с решёткой, а на одном неожиданно появилась «Панорама»)

Нейросеть неплохо понимает текст и определяет абсурдные и несовместимые запросы — потенциал инструмента для создания мемов (как у DALL-E mini) имеется. Правда, в этом случае результаты выходят достаточно абстрактные, не похожие на настоящие работы художников. Но чем конкретнее и объёмнее будет описание, тем более точные и реалистичные получатся изображения.

Кроме того, при вводе запроса можно указывать дополнительные настройки: кроме указания стиля («фотореализм», «поп-арт» или «картина Айвазовского») доступны команды для выбора других алгоритмов, исключения из генерации определённых объектов или изменения размера изображений. Это позволяет, например, создавать обои для разных устройств.

Результаты по запросу «космическое фото далёкой галактики в стиле Ван Гога, 16:9»

Результаты по запросу «Базз Лайтер как советский космонавт, 9:16»

Результаты по запросу «российские независимые медиа борются против монстра цензуры, ужасы, 16:9»

Вместе с картинками в чате предлагается несколько кнопок, чтобы улучшить результат. Каждую картинку можно пропустить через нейросеть ещё раз, но уже на основе прошлого изображения — они будут отличаться незначительно. Также можно увеличить разрешение картинки. В этом случае генерация тоже происходит заново, на основе выбранного результата, из-за этого появляются новые, часто лишние детали. Этого можно избежать, если применять «лёгкий апскейл».

Финальный результат по запросу «космическое фото далёкой галактики в стиле Ван Гога, 16:9»

Финальный результат по запросу «Базз Лайтер как советский космонавт, 9:16»

Финальный результат по запросу «российские независимые медиа борются против монстра цензуры, ужасы, 16:9»

Если в первой версии DALL-E и в других похожих нейросетях результаты часто выходят слишком абстрактными, фиксируя только стиль и отдалённо похожий образ, то Midjourney генерирует куда более точные и реалистичные (если такое условие задано) картинки. Но и у этого сервиса иногда случаются промахи.

Например, при попытке ввести достаточно конкретный запрос «котёнок девон-рекса с чёрной шерстью, белыми животом и лапами, сидит, фотореализм» нейросеть почти идеально изобразила породу и окрас кота, но не справилась с анатомией — получилась шерстяная масса с хорошо прорисованной головой.

Результаты по запросу «котёнок девон-рекса с чёрной шерстью, белыми животом и лапами, сидит, фотореализм, 16:9»

Каракала Гошу, больше известного как Большой Шлёпа, Midjourney, кажется, тоже узнал и достаточно близко воспроизвёл образ «большого русского кота». Но вот с анатомией опять возникла проблема — на двух картинках из хвоста животного почему-то выросли дополнительные Шлёпы, а на другой, наоборот, каракал получился с двумя хвостами вместо головы.

Результаты по запросу «каракал Большой Шлёпа в джунглях в стиле Анри Руссо, 16:9»

Случаются и довольно абсурдные «мэшапы», если нейросеть понимает одно и то же слово по-разному. Например, редактор TJ поначалу не понял, почему Midjourney рисует таких жутких «айтишников». Но если обратить внимание на детали, всё встаёт на свои места — красный клоунский нос и жёлтый шарик намекают на культовый роман Стивена Кинга «Оно», который на английском называется «It».

Результаты по запросу «айтишник принимает душ, фотореализм»

С популярными во всём мире героями поп-культуры Midjourney справляется на отлично, а вот российских персонажей может и не узнать. Например, вместо Екатерины Шульман на фоне Кремля нейросеть изобразила какую-то другую женщину. При этом Владимира Путина искусственный интеллект точно знает — на нескольких примерах выше похожий на него образ появился в запросах про независимую журналистику, хотя Путина в описании даже не было.

Результаты по запросу «портрет Екатерины Шульман, московский Кремль на фоне, фотореализм, 16:9»

Несмотря на некоторые неточности и ошибки, Midjourney способен временами выдавать очень неплохие результаты, которые легко спутать с настоящими рисунками, концепт-артами к фильмам и играм, иногда даже с фотографиями. Особенно хорошо у алгоритмов получается имитировать стили художников, изображать природные или футуристичные пейзажи и генерировать портреты реальных или вымышленных персонажей.

Некоторые энтузиасты составляют подробные инструкции о том, как достичь наилучшего результата, какие описания и инструменты подходят под ту или иную задачу. Некоторые из таких гайдов авторы Midjourney публикуют у себя на сайте, а работами других пользователей можно вдохновиться в твиттере или прямо на дискорд-сервере, в каналах newbie или favourites, куда сохраняют избранные работы.

Ниже представлены несколько работ по запросам случайных пользователей, найденные в «Избранном» за небольшой период времени.

«Природа Исландии»

«Мужчине снится кошмар, что его растерзал лев»

«Три буровые нефтяные платформы в штормовом море, молнии и дождь, фотореализм, 8K Octane Render»

«Абстрактная картина, изображающая джазового музыканта и буквы JAZZ в стиле Стюарта Дэвиса, цвета кобальтовый синий, жёлтый, изумрудный зелёный, красный, белый, чёрный»

«Элегантная молодая девушка в красивом платье, опирается на поручень на свадебной вечеринке, вид сзади, мягкое освещение, золото»

«Киберпанк, рынок, час пик, грязь, дождь»

«Богиня космических скафандров»

В бесплатном режиме Midjourney доступно 25 генераций — очередной «прогон» картинки для получения новых вариантов и увеличения разрешения считается за отдельную генерацию. Когда попытки подойдут к концу, сервис предлагает оформить платную подписку: за 10 долларов в месяц можно генерировать 200 картинок в месяц, а за 30 долларов лимит отсутствует. Из России оплачивать придётся с иностранных карт.

#нейросети #сервисы #ии #искусство #midjourney