«Мужчина пользуется ноутбуком, пока его кот смотрит на экран»: нейросети научились подробно описывать фотографии Статьи редакции

Портал The Verge обратил внимание на исследование Стэнфордского университета, в рамках которого учёные разработали алгоритм, способный составлять сложные осмысленные предложения на основе фотографий.

Впервые о своей технологии Стэнфордский университет рассказал ещё в 2014 году, однако СМИ обратили внимание на неё после твита аналитика Тима Макнамары, который продемонстрировал возможности последней версии алгоритма. Он опубликовал фото, которое «машина» описала словами «мужчина пользуется ноутбуком, а его кот смотрит на экран».

Технология под названием NeuralTalk разработана директором Стэнфордской лаборатории искусственного интеллекта Фей-Фей Ли (Fei-Fei Li) и аспирантом Андреем Карпати (Andrej Karpathy).

NeuralTalk построена на базе нейросетей. Она изучает массивы фотографий, опубликованных в интернете, и описания к ним, подобно маленькому ребёнку обучаясь распознавать различные предметы, действия и условия с помощью «компьютерного зрения». Сами исследователи называют этот процесс «построением связи между языком и визуальными данными».

Когда NeuralTalk анализирует фото, она сначала вычленяет на нём различные объекты, а затем на их основе формирует наиболее вероятные описания происходящего. Например, «леди с теннисной ракетой замахивается на подлетающий мяч» или «мужчина в пальто сидит сонный рядом со старым портативным телевизором в комнате с буфетным столиком».

Как отмечает The Verge, система всё ещё далека от совершенства и может описать толпу кричащих людей как «мужчину в зелёной футболке, стоящего рядом со слоном», однако по большей части результаты оказываются на удивление точными и подробными. Оценить качество работы NeuralTalk можно с помощью специальной демо-версии, доступной на сайте Стэнфордского университета.

В отличие от всех предыдущих попыток создать описывающий фотографии алгоритм, включая эксперимент Google 2012 года, проект Фей-Фей Ли учитывает не только объекты в кадре, но и их действия. По словам учёного, картинки и видео годами оставались «тёмной материей интернета»: автоматика не могла увидеть их содержание, поэтому компаниям вроде Google приходилось полагаться на не всегда надёжные описания от самих пользователей.

Конечная цель NeuralTalk — создать максимально точный поиск по визуальному контенту, с помощью которого пользователи смогут в одно мгновение находить в залежи семейных фотографий «моё селфи на Таймс-сквер», а также открывать на YouTube нужный фрагмент — «гномы ужинают у Бильбо дома».

Нейронные сети — алгоритмы, анализирующие информацию «слоями» подобно нервным клеткам живого организма, в последнее время часто привлекают внимание СМИ. Особую популярность конце июня получил проект Google Deep Dream, в рамках которого инженеры компании «вывернули наизнанку» технологию распознавания объектов на фото, научив нейросети «рисовать».

{ "author_name": "Вадим Елистратов", "author_type": "self", "tags": [], "comments": 43, "likes": 22, "favorites": 16, "is_advertisement": false, "subsite_label": "flood", "id": 55744, "is_wide": true, "is_ugc": true, "date": "Fri, 17 Jul 2015 13:18:08 +0300", "is_special": false }
0
43 комментария
Популярные
По порядку
Написать комментарий...
Крепкий кубок

- Ээээээээээ, - сказал алгоритм.

55
Чеченский ГОСТ

Сначала прочитал "гномы унижают Бильбо дома". В голове нарисовалась странная картина.

20
Любимый диод

Так они примерно это и делают. Все запасы съели!

1
Крохотный фитиль

Господи, эти ребята дико круты.

18
Бесполезный якорь

ИИ?

2
Ничтожный космос

И это ахуенно.

5
Населенный глобус

Я думаю, что он имел ввиду искуственный интеллект

14
Бесполезный якорь

никогда не любил сокращение ИскИн

0
Нормативный мангал

Спасибо Гипериону Симмонса.

0
Импортный микроскоп

Поставьте программу на телефон CamFind и удивитесь.

–1
Крохотный фитиль

Не удивлюсь. Там технология другая.

В статье все реализовано на нейронных сетях, CamFind же использует в том числе и краудсорсинг. Это, конечно, с точки зрения пользователя не кажется большой разницей, но технически она есть.

0
Нормативный мангал

А потом мы незаметно для себя станем обезьянами в мире, которым управляет компьютер.

0
Железнодорожный Паша

Давайте уже встраивайте эти ваши технологии в человека, две тысячи блять пятнадцатый год на дворе! Чтобы я шёл по улице, смотрел на девчонку и так хуякс – возраст: 22 года, не замужем, не курит, чуть-чуть пьёт и любит секс в общественных местах.

13
Всероссийский кофе

Годный сервис получился бы.

0
Божественный микрофон

Гугл гласс 3.0?

0
Еврейский космос

Комментарий удален по просьбе пользователя

0
Железнодорожный Паша

С чего ты так решил вообще? Или ты долбаёб?

–2
Домашний каякер

Глядишь скоро поисковые машины научатся банить за "смешные" картинки. Прям в душе хорошо стало

7
Мудрый колос

да фиг с ним с смешными картинками. наконец то можно будет встроить черный список не только для текста. но и для картинок.
Скоро новый сезон Игра престолов? жмем пимпу "Не показывать картинки про Игру престолов" так как они могут быть спойлерами.

15
Домашний каякер

Хорошая идея, кстати:)

0
Нормативный мангал

Так как они всех достали)

0
Комплексный кофе

Загружать свое нельзя, пока неинтересно.

7
Немыслимый чувак

Заголовок статьи похож на описание фильма в жанре арт-хаус.

6
Чеченский ГОСТ

А вообще это все безусловно очень круто. Я пробовал распознавалку изображения с камеры для слепых - работает, но не всегда корректно. К этому прикрутить бы поиск - фоткаешь машину например, и сразу информация по ней, цена и тд.

3
Прочный татарин

Интересно, что система расскажет, если ей скормить результат deepdream'а

3
Чеченский ГОСТ

Интересно, что система скажет, если ей скормить кадры из порнухи

5
Внутренний дым

Получатся названия роликов с отечественных порносайтов.

11
Всякий пёс_анон

"Мужчина лысый в костюме сантехника чинит кран женщина третий размер"

4
Функциональный химик

«Высшие приматы совершают возвратно-поступательные движения с помощью опорно-двигательного аппарата, приоткрыв ротовую полость».

3
Единый теркин30см

"Глаза с глазами смотрят на барсука из глаз"

4
Точный американец

Алгоритму уже скормили результаты деятельности нейросети гугла?

3
Любовный Влад

В "глубоких" нейронных сетях, каждый слой отвечает за признаки разной сложности. Например, на вход первому слою подается исходное изображение (массив пикселей) и распознаются примитивные геометрические фигуры (напр. точки, разные линии) на основе пикселей. Второй слой может отвечать за распознование более сложных объектов состоящих из точек и линий полученных предыдущим слоем и так далее, последний слой может получать разные варианты распознанных на картинке объектов и строить наиболее вероятные описания исходя из параметров этих объектов. Это если очень упрощенно.

Хороший пост на эту тему: http://karpathy.github.io/2015/05/21/rnn-effectiveness/

Основное отличие метода от большинства других в том что исследователям не нужно вручную описывать структуру объектов которые приходится распознавать. Это является огромной частью работы по созданию эфектиных систем автоматического распознавания чего либо и она теперь переложена на алгоритм. Например, в сегодняшних системах распознавании лиц, очень часто лица как бы натягиваются на определенный шаблон, и компьютеру понятно где конкретно у человека глаза, нос и т.д. В глубоких нейронных сетях структура признаков выводится как бы автоматически.

До некоторого времени этот метод был очень сложный с вычислительной точки зрения и на практике обходились лишь небольшим количеством слоев. В середине нулевых несколько комманд исследователей в США и Канаде разработали способы при которых можно делать композицию из большого количества слоев при этом точность и время обучения остается приемлемой. Это привлекло к методу очень много внимания. Сейчас есть много разных типов глубоких нейронных сетей и возможность использовать GPU и специальные чипы для их обучения, и метод остается одним из самых эфективных в обработке изображений и кое-где в обработке языка.

3
Неожиданный рак

«Женщина, умная, но окружена дураками, которые не лечатся, в белом пальто, стоит, красивая.»

2
Любовный Влад

Более подробная статья о том о состоянии дел в ИИ и распознавании образов:

http://fastml.com/what-you-wanted-to-know-about-ai/
http://fastml.com/what-you-wanted-to-know-about-ai-part-ii/

Если коротко, то deep learning на котором основана технология стенфорда это большой шаг вперед, но это все еще очень далеко от более-менее осмысленного понимания того что происходит на картинке.

1
Окружающий чайник

Fei-Fei Li – Ли Фэйфэй.

0
Божий Мурод

Нейтронная сеть - это решение в лоб. Этот подход всегда будет давать сбои. Нужно изучать зрение человека (глаз и память, более того мы видим по большей части мозгом), мы имеем определенный алгоритм для определения объектов. Надо копать в этом направлении, может быть когда-нибудь получим качественное машинное видение.

0
Автоматический пёс_анон

А кто сказал, что человеческое зрение самое эффективное решение?
Техника уже сделала множество удивительных открытий и толи еще будет.

1
Чеченский ГОСТ

Нейтронная сеть))

1
Божий Мурод

Извиняюсь, авто подстановка сработала. Так или иначе понятно что я имел в виду.

1
Чеченский ГОСТ

Ничего не имею против, просто забавно)

1
Ударный татарин

Ага, через 500 лет.

0
Убежденный Данила

Нам нужны био-компьютеры, мёртвый камень никогда не догонит живые клетки.

0
Читать все 43 комментария
null