Наука Junkname Junksurname
5 100

Несколько узнаваемых наборов данных

Во многих областях деятельности существует своего рода эталоны, знакомые практически каждому, кто более-менее этой деятельностью занимался. Например, у кодеров - написание программы, выводящей "Hello World!" на экран; у 3D-художников - чайник Ньюэлла (он же чайник Юта); остроту ножей часто проверяют на листе бумаги или помидорках; чтобы проверить мерцание экрана монитора, перед ним машут карандашом; и так далее. Двольно часто (хотя и не всегда) такие паттерны связаны с первыми шагами в области. В этой статье я решил написать про несколько наборов данных, хорошо известных в AI (скоро даже сложение двух чисел на калькуляторе будут называть AI, так что пусть будет AI). Получился довольно специфический и неполный материал, но, возможно, некоторым он будет интересен.

В закладки
Аудио

Лена

Лена (Lena, Lenna) - оцифрованное изображение шведской модели Лены Сёдерберг, взятое с центрального разворота ноябрского номера журнала Playboy за 1972 год. Долгое время являлось стандартом в области цифровой обработки изображений - именно на нем очень часто тестировались соответствующие алгоритмы.

Летом 1973 года исследователям Александру Савчуку и его коллегам из Университета Южной Калифорнии срочно требовалось найти подходящее фото для статьи на конференцию по обработке изображений. Им нужен был снимок с широким цветовым диапазоном и человеческим лицом. В 70-х годах искать изображения было несколько сложнее, чем сейчас. Спасение явилось в виде коллеги, зашедшего в лабораторию с журналом Playboy в руках. Как и подобало постоянным читателям Playboy-я, исследователи сразу перешли к центральному развороту, с которого и был отсканирован фрагмент размером 512 на 512 точек. С полным разворотом (NSFW) ценители могут ознакомиться тут:

В дальнейшем это изображение стало одним из самых часто используемых в своей области. Сама же Лена Сёдерберг пару раз присутстовала в качестве почетного гостя на конференциях по компьютерной обработке изображений.

MNIST

Раз уж зашла речь о картинках, стоит упомянуть и его. Датасет MNIST (Modified National Institute of Standards and Technology) - набор из 70000 мнохромных изображений размера 28 на 28 пикселей. Каждое изображение содержит какую-либо из рукописных цифр. Выглядит это примерно так:

Выборка из датасета MNIST, изображение со страницы https://en.wikipedia.org/wiki/MNIST_database

Большая часть изображений была предоставлена Бюро переписи населения США, к ней так же добавили образцы, написанные студентами университетов. Если Лену можно использовать в качестве теста для задач вроде "поиграться с гаммой и цветами" или (что сложнее) "написать алгоритм для поиска глаз, ушей и носа на изображении", то MNIST - это пробный шар для алгоритмов распознавания рукописного текста. Еще до массового увлечения нейросетями было довольно просто (разумеется, если использовать готовые библиотеки) написать код, который правильно классифицировал 97-98% картинок. Если же задействовать сверточные нейронные сети, то можно дойти и до 99.7%. От себя замечу, что те 0.5 - 1.5% картинок, с которыми возникают проблемы, содержат настолько коряво написанные цифры, что вызывают сложности и у людей. Также замечу, что MNIST - это лишь упрощенный кусок большой задачи распознавания рукописного текста. В реальном тексте присутствуют не только циферки, но и буковки (написанные не менее коряво), текст на листе не сегментирован на кусочки 28 на 28 и т.д.
Приобщиться к распознаванию закорючек можно тут:

Titanic

В конце прошлого раздела я привел ссылку на учебное соревнование на Каггле, а потом вспомнил про титаник. Вот:

Это учебный набор данных, используемый в самом старотовом соревновании, цель которого - получить базовый опыт в области машинного обучения и манипуляций с данными. И по этой причине является одним из самых известных учебных датасетов. Содержит информацию о пассажирах Титаника и о том, выжили ли они или нет. Выглядит это примерно так:

Несколько первых записей из датасета.

С этим данными можно поиграться, чтобы понять связь между выживаемостью (колонка 'Survived' выше) и прочей информацией: полом, возрастом, какого класса у тебя каюта и т.д. Например, изначально мужчин на борту было примерно в 2 раза больше, чем женщин, но среди выживших наблюдалась обратная картина: женщин почти в два раза больше, чем мужчин. Хорошее материальное положение тоже способствовало выживанию: изначально на борту было больше всего пассажиров 3-го класса, а выжило - 1-го (как в абсолютном, так и в процентном смысле):

Еще выживаемость коррелирует с количеством родственников на борту. Процент выживших был довольно высок среди людей, путешествоваших не в одиночку, а с семьей из двух-трех человек. Возможно это потому, что при посадке в спасательные шлюпки старались не разделять детей и родителей. В общем, вселенских откровений тут искать не стоит, в конце-концов это всего лишь обучающий датасет, не привязанный ни к какой реальной проблеме (вроде компьютерной диагностики рака жопы по результатам анализов).

Pierre Vinken

В области NLP (Natural Language Processing; не путать с Neuro-linguistic programming ) очень важны корпуса. Корпус можно сделать примерно так: взять большой объем текстов и заставить лингвистов его размечать: проставлять границы предложений, границы слов, прописывать части речи словам и размечать синтаксическую структуру предолжений. В общем, довольно трудоемкое занятие. Потом корпус можно использовать для обучения какой-нибудь основанной на машинном обучении системы, которая после обучения сможет сама с горем пополам анализировать текст и на основании этого делать что-то "полезное". Например, определять, позитивный ли был оставлен отзыв на товар, или нет. Или искать оскорбительные комменатрии.
Одним из самых известных корпусов для английского языка является Penn Treebank. В нем (помимо всего прочего) содержатся несколько десятков тысяч размеченных предложений, взятых из номеров журнала Wall Street Journal 1989 года. Самое первое, что видит человек, просматривающий WSJ-часть:
Pierre Vinken, 61 years old, will join the board as a nonexecutive director Nov. 29.
Точнее, он видит это предложение в виде синтаксического дерева в скобочной нотации:

Я бы вставил текст, но редактор сжирает отступы

Короче, почти каждый, кто имеет отношение к NLP (хотя бы на уровне учебных курсов), знает Пьера Винкена, который был голландским нейрохирургом, а также занимался издательской деятельностью:

В Wall Street Journal Corpus он оказался не случайно - он был одним из первых создателей корпуса.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы рассказать свою историю.

Написать
{ "author_name": "Junkname Junksurname", "author_type": "self", "tags": [], "comments": 16, "likes": 84, "favorites": 46, "is_advertisement": false, "subsite_label": "science", "id": 83965, "is_wide": false, "is_ugc": true, "date": "Fri, 11 Jan 2019 02:53:54 +0300" }
Комментарии

Последующий месяц

3

Lorem ipsum dolor sit amet, consectetur adipiscing elit.

Откровенный кофе

5

Непонятно.
Где выводы?

Духовный теркин30см

9

Красивая у кого то бабушка была

Наука
дискуссии в сообществе доступны только владельцам клубного аккаунта
С клубным аккаунтом вы сможете
создавать записи и вести дискуссии в закрытых сообществах
наслаждаться нашим сайтом без рекламы
помочь проекту и почувствовать себя лучше
Купить за 75₽

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byswn", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-130073047", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=cndo&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudv", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "ccydt", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvc" } } } ]
Оперативные новости со всего мира
Подписаться на push-уведомления