{"id":2158,"url":"\/distributions\/2158\/click?bit=1&hash=583a372f0bca7b1deedf74c1438fbf94e52d0976315acc2dcfa3b84a8e724b7d","title":"\u041a\u0443\u0434\u0430 \u0443\u0442\u0435\u043a\u0430\u0435\u0442 \u043c\u043e\u0439 \u0431\u044e\u0434\u0436\u0435\u0442 \u043d\u0430 \u0440\u0435\u043a\u043b\u0430\u043c\u0443?","buttonText":"\u041a \u043c\u043e\u0448\u0435\u043d\u043d\u0438\u043a\u0430\u043c","imageUuid":"f14d918a-59c9-5701-b718-30025e0ce469","isPaidAndBannersEnabled":false}
Технологии

Google разработала нейросеть Imagen, которая генерирует картинки по текстовому описанию Статьи редакции

Её уже прозвали главным конкурентом аналогичной нейросети DALL-E от OpenAI.

Google представила нейросеть Imagen, которая генерирует изображения на основе текста. Для этого используется метод диффузии: всё начинается с простого, можно сказать схематичного изображения, которое потом улучшается — до тех пор, пока ИИ не решит, что не может сделать его ещё более похожим на заданные параметры.

Imagen начинает с создания небольшого (64×64 пикселя) изображения, а затем выполняет два прохода «сверхвысокого разрешения», чтобы довести его до размера 1024×1024. Однако это не похоже на обычное масштабирование, поскольку суперразрешение AI создает новые детали на картинке, чтобы сделать её более похожей на «техническое задание», прописанное в текстовом запросе.

"Белоголовый орлан из шоколадного порошка, манго и взбитых сливок"
"Хромированная утка с золотым клювом спорит со злой черепахой в лесу"
"Милый корги живет в доме, сделанном из суши"

Например, если дать Imagen задание создать изображение собаки на велосипеде, то в его первой версии размер глаза пса будет иметь ширину 3 пикселя, во второй — уже 12 пикселей, а в третьей — все 48 пикселей. Получается, ИИ работает подобно художнику, который начинает с грубого наброска, постепенно дополняя деталями и масштабируя.

"Крайне злая птица"
"Мраморная статуя ди-джея Коала перед мраморной статуей проигрывателя. Коала носит большие мраморные наушники"
"Гигантская змея-кобра на ферме. Змея сделана из кукурузы"
"Талисман Android из бамбука"

В Google утверждают, что созданная компанией нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом». Создатели Imagen сами сравнивают нейросеть с DALL-E 2 — аналогичным ИИ, создающим изображения на основе текста, от OpenAI.

Внутри DALL-E 2: как устроена нейросеть, способная создать любую картинку на основе текстового описания Статьи редакции

Краткий рассказ об «изнанке» модели, которая обучается на сотнях миллионов изображений и связанных с ними подписей.

По оценкам Google, Imagen побеждает DALL-E 2 в тестах на человеческую оценку как по точности, так и по достоверности. Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

"Панда, создающая арт-латте": влева - версия DALL-E, справа - Imagen

Однако нейросеть от OpenAI опережает аналогичную от Google, поскольку уже появляется полноценной, хоть и закрытой бета-версией, и люди используют её для выполнения повседневных задач и развлечения.

При этом разработчики Imagen изначально озаботились моральными проблемами, которые могут возникнуть в случае, если текстовое задание будет содержать неприемлемые материалы и, таким образом, усугублять имеющиеся в обществе предрассудки и стереотипы.

Потенциальные риски неправильного использования вызывают опасения в отношении открытого исходного кода кода и демонстраций. Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию.

разработчики Imagen

Требования к данным для моделей преобразования текста в изображение заставили исследователей в значительной степени полагаться на большие, в основном неконтролируемые наборы данных, извлечённые из Интернета. Хотя этот подход позволил в последние годы добиться быстрого прогресса в области алгоритмов, наборы данных такого рода часто отражают социальные стереотипы, уничижительные и вредные ассоциации с маргинализованными группами.

Разработчики Google использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы. Imagen полагается на текстовые кодировщики, обученные на неконтролируемых данных веб-масштаба, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей.

Imagen пока находится на стадии тестирования: на сайте доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных. Когда Google предложит желающим воспользоваться Imagen, пока неясно.

"Голубая сойка стоит на большой корзине с радужными макаронами"
"Сиба-ину в кожаной куртке и шляпке катается на скейтборде"
"Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы"
"Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде"
"Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке"
"Пара роботов ужинает на фоне Эйфелевой башни"
"Осьминог-инопланетянин проплывает через портал, читая газету"
"Кружка-клубника, наполненная семенами белого кунжута плавает в море тёмного шоколада"
0
46 комментариев
Написать комментарий...
Андрей Васильев

у меня вышло так
"свинья с имплантированным в мозг чипом"

Ответить
Развернуть ветку
Дон Карлионе

Гэнгбэнг пуйла с неграми альбиносами и бобрихой

Ответить
Развернуть ветку
zheka100pudov

Мем с гугла станет реальностью потому что нейросеть берёт данные из гугла.

Ответить
Развернуть ветку
Mayers

Я наверное никогда не смогу сдержать смешок с этой пикчи

Ответить
Развернуть ветку
Андрей Васильев

хех, безупречный коммент, ни одного минуса, лайфхак века

Ответить
Развернуть ветку
Макрон потерял телефон

Опять потыкать нельзя =/

Ответить
Развернуть ветку
Дефицитный Сервелат

Хотят монетизировать, наверное. Ну, или ресурсов жрёт много.

Ответить
Развернуть ветку
Эстетический бокал

И ни одного дикпика в подборке. Штош, продолжайте игнорировать самый массовый запрос ТЖшников

Ответить
Развернуть ветку
Рондо

Пизда стоковым фотографам

Ответить
Развернуть ветку
1pizdyai
Ответить
Развернуть ветку
xgdrterhedhdhgdh xgdrterhedhdhgdh

Странный запрос на картинку

Ответить
Развернуть ветку
Андрей Лагутин
доступна демо-версия, в которой пользователи не могут сами вводить запросы, а способны лишь выбирать слова из предложенных

так нечесно(

Ответить
Развернуть ветку
Пиструн Сосаевич

Думал, сейчас найду ссылку и попробую что-нибудь в духе "Picabu and TJ users hard sex scat bdsm cuckold bestiality", а тут такой облом :(

Ответить
Развернуть ветку
Noname nonamer

Комп ресурсов тратить на каждого задрота который решил куй в чепчике сгенить как то не хочется тратить :)

Ответить
Развернуть ветку
Alex Blake

В презентациях всегда всё удивительно и точно.. А когда эти нейронки дают попробовать реальным людям то в результате всегда какая то ебатория

Ответить
Развернуть ветку
Скрепный кремпай

Ещё немножко и можно будет запрашивать хентай на любой вкус!

Ответить
Развернуть ветку
Кадровый Влад

Порно генерируемое нейросетью по описанию — это будет величайшее изобретение человечества

Ответить
Развернуть ветку
Скрепный кремпай

Согласен!

Ответить
Развернуть ветку
Michael Konovalov

Интересно что она нарисует если написать "Ху..ло в пынеходах"?

Ответить
Развернуть ветку
Реальный жар

Ху..ло в пынеходах

Ответить
Развернуть ветку
Mikhail

Зачем все так прекрасно работает

Ответить
Развернуть ветку
1pizdyai
Ответить
Развернуть ветку
Дефицитный Сервелат

Пынеходы забыл.

Ответить
Развернуть ветку
JilaNis

Хм, опять проблемы с глазами. Почему нейросети так не любят глаза?

Ответить
Развернуть ветку
Майка Ника

Потому что глаза - это зеркала души
( ಠ .ಠ )

Ответить
Развернуть ветку
плюшевый батон

На фотках для обучения глаза у разных объектов смотрят куда попадя. А если подумать то взаимодействие глаз с объективом очень важная составляющая кадра.

Ответить
Развернуть ветку
Сплошной волк

Комментарий недоступен

Ответить
Развернуть ветку
Револьвер

Сто пудов и ржавый якорь)))

Ответить
Развернуть ветку
Револьвер

Разработчики Google использовали набор данных LAION-400M, который, как известно, содержит широкий спектр неприемлемого контента, включая порнографические изображения, расистские оскорбления и вредные социальные стереотипы
—--—--—--—--—--—--—--—--—--—--—--—
Фотки подтверждают

Ответить
Развернуть ветку
Павел Каташев

Ебать хуманизация, кот ад руки отрастил

Ответить
Развернуть ветку
Retriever Cobalt

Я поклацал так называемый конструктор. И он не впечатляет. Можно составить предложение из очень немногочисленных вариантов и получить выходное изображение. Грубо говоря, я могу сколотить такой же конструктор с предзаготовленными фотожабами. Ну это прям так и выглядит ). Например 4 вариативных части предложения по 4 опции - 16 картинок подфотошопил и в продакшн. Сиди и собирай инвесторов.
ЗЫ. Я не оспариваю что это реально ии🙂. Просто очень мало вариантов. И из этого вывод, что там не все так гладко и фотки подпиливали напильником для лоска и красоты на демке.

Ответить
Развернуть ветку
Denis Shiryaev

это не конструктор, просто галерея где ты картинки выбираешь, чтобы удобнее было их привязали к словам – там нет генерации, кек

Ответить
Развернуть ветку
Денис Сенькин

суть в том, что там вероятно еще далеко до открытого доступа и много чего допилить надо

Ответить
Развернуть ветку
Denis Shiryaev

Да просто скандалов не хотят, да и денег это все будет стоить чтобы играться

Ответить
Развернуть ветку
Незаконный файл

Интересно, как скоро мы дойдем до того, что такие изображения можно будет генерить на одной пользовательской видюхе вместо кластера дата-центров? 🤔

Ответить
Развернуть ветку
Retriever Cobalt

Кек, да я о том и говорю, что генерации нет. Походу народ не понял мой коммент. Моя претензия не к продукту который будет потом. А к тому что можно было демку более развитую сделать. Чтоб можно было + - поиграться. Или хотя б глянуть больше примеров.

Ответить
Развернуть ветку
Eugene K

У них уже есть обученная нейросеть Google Images, которая ищет картинку по тексту. Получается, им просто было нужно развернуть её задом наперед.

Ответить
Развернуть ветку
Дефицитный Сервелат

Там, я думаю, не так просто. Фотки-то она ищет реальные, а тут рисует что-то новое, чего ещё не было.

Ответить
Развернуть ветку
пек сруньк

Красиво, отражение в "шоколаде" удивило. Пощупать бы.

Ответить
Развернуть ветку
Револьвер

С одной стороны, понимаю, какой баблос...
С другой - тенденции

Ответить
Развернуть ветку
Hfr Olod
Потенциальные риски неправильного использования вызывают опасения в отношении открытого исходного кода кода и демонстраций. Поэтому мы решили пока не публиковать код и не проводить публичную демонстрацию.

Но демонстрацию примеров на всякий случай провели

Ответить
Развернуть ветку
плюшевый батон

Если это не отобранные примеры, а средний результат, то конечно даааа

Кажется что ещё пару итераций и по какому-нибудь хитрому сравнению можно будет делать новые выводы о мире и его взаимосвязях.

Ответить
Развернуть ветку
Галина Перидольская

У нас есть такие приборы, но только вам их не покажем!

а еще умный сказал "Подделывай, пока не научишься делать".

Ответить
Развернуть ветку
Правительственный будильник
"Панда, создающая арт-латте": влева - версия DALL-E, справа - Imagen

У них по тексту было, что людям больше нравится картинки Imagen.
Обратил внимание, что больше нравится вариант слева.

Стал рассматривать внимательнее, хотя качество не очень, но на картинках слева в правом нижнем углу есть логотип Imagen, как на всех остальных их изображениях в статье.

В описании - ошибка. Imagen - влево.

Ответить
Развернуть ветку
Тощий

Лис и кролик играют в шахматы на фоне замёрзшего во льдах фрегата. jpg

Ответить
Развернуть ветку
Дефицитный Сервелат
Голубая сойка стоит на большой корзине с радужными макаронами

Вообще, это не макароны, а макаруны, на картинке.

https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D0%BA%D0%B0%D1%80%D1%83%D0%BD

Ответить
Развернуть ветку
Читать все 46 комментариев
null