Будущее
Up Great

Как проверить, понимает ли ИИ смысл текста?

Рассказываем, как устроен российский конкурс по NLP с призовым фондом 200 миллионов рублей

Участникам конкурса Up Great ПРО//ЧТЕНИЕ нужно научить искусственный интеллект понимать смысл текста. Задача сильно отличается от того, что сегодня демонстрируют GPT-3 и другие системы: они удачно мимикрируют под человека, но на деле не анализируют смысл написанного.

В конкурсе от ИИ-систем требуется прямо противоположное: не притворяться человеком, но помогать нам, дополняя наши навыки анализа текста. Сегодня есть отдельные подходы к фактчекингу и пониманию логических связей, но упаковать все это в единую систему, которая сможет проанализировать текст и указать на ошибки, пока не удалось никому.

На что это похоже

По масштабу вызова конкурс ПРО//ЧТЕНИЕ можно сравнить с IBM Watson AI Xprize, Darpa Grand Challenge, Netflix Prize. Каждое из этих соревнований подарило миру десятки новых технологий и подходов к решению прорывных задач. Вот три принципа, которые объединяют эти конкурсы:

  • Технологический барьер. Борьба идет не за разработку лучшего решения, а за достижение результата, который раньше считался невозможным.
  • Неограниченность подходов к решению задачи. Любое решение, которое достигает результата, имеет право на победу в конкурсе. К примеру, в соревновании беспилотников DARPA Grand Challenge наравне участвовали и джипы, и грузовики, и даже мотоцикл.
  • Объективность результата. Победитель конкурса должен в ходе испытаний доказать, что его решение работает и действительно выполняет поставленную задачу.

Эти принципы позволяют собрать в конкурсе десятки разных, подчас неожиданных подходов и дать толчок к развитию каждого из них.

В чем состоит задача

Задача участников конкурса ПРО//ЧТЕНИЕ — создать системы искусственного интеллекта для выявления ошибок в текстах на естественном языке. Для конкурса создан специальный классификатор, который содержит разные типы ошибок: грамматические, речевые, логические, фактические, этические. Чтобы победить в конкурсе и выиграть приз в 100 млн рублей, ИИ должен справиться с задачей не хуже преподавателя.

Во время испытаний ИИ-системы участников тестируются на выборке из 500 сочинений ЕГЭ по гуманитарным предметам. Конкурс проводится для текстов на русском и английском языках – можно выбрать один из языков или оба.

На обработку каждого текста ИИ-системой команды отводится не более 60 секунд, включая время на скачивание и загрузку файлов. После завершения испытаний аналогичную задачу предстоит решить педагогам — их лимит времени тоже ограничен. Затем специальная ИТ-платформа испытаний сравнивает разметки ИИ-систем и преподавателей и выявляет расхождения.

Конкурс проходит в несколько циклов до конца 2022 года. Испытания проводятся регулярно до тех пор, пока одна из команд не покажет результат не хуже человека.

Что значит «не хуже человека»?

Для того, чтобы сравнивать способности ИИ-систем с преподавателями, нужно было разработать метрику сравнения. При этом быстро стало ясно, что невозможно создать эталонный датасет, в котором содержатся правильно размеченные ошибки: даже эксперты ЕГЭ высокой квалификации зачастую не могут договориться о том, является ли какое-то утверждение ошибкой или нет. Несмотря на все критерии и методики, задача очень субъективная.

Это привело к тому, что во время подготовки конкурса было решено в принципе отказаться от эталонной разметки. Вместо этого все сочинения проверяют реальные преподаватели - эксперты ЕГЭ. Минимум два, а в случае большого процента расхождений - три (что тоже соответствует методике проверки ЕГЭ - каждое экзаменационное сочинение проверяется 2-3 раза):

· Если все эксперты сошлись в том, что в тексте есть ошибка, то мы считаем, что и ИИ должен на нее указать.

· Если один эксперт указал на ошибку, а остальные считают, что ее там нет, то обе трактовки (а также все, что находится в поле между ними) уместны для ИИ.

· Если эксперты нашли ошибку, но не сошлись в типе или локализации фрагмента (не совпадают начало и конец ошибки), то и для ИИ есть достаточно широкий коридор того, как корректно разметить ошибку.

Таким образом для сочинений, в которых достаточно простые и однозначно трактуемые человеком ошибки, есть почти однозначная разметка, которую ИИ должен близко повторить. А для работ, в оценке которых эксперты расходятся значительно, любая достаточно близкая разметка будет считаться правильной.

Вот пример с первого цикла испытаний конкурса, который прошел в ноябре 2020 года:

Видно, что эксперты очень сильно разошлись в оценке фрагмента сочинения по истории. Первое предложение один из экспертов посчитал ошибкой (недостаточно точно указана причина исторического события или процесса), а второй отметил как верное. То есть они одинаково выделили фрагмент текста, но, по мнению одного эксперта, этот фрагмент является основанием снизить оценку за работу, а по мнению второго – наоборот, повысить (в сочинениях ЕГЭ, чтобы получить максимальный балл, ученик должен указывать причины событий, приводить релевантные исторические примеры и т.п.).

Математически сопоставление разметок выглядит следующим образом. По двум разметкам попарно сопоставляются все выявленные фрагменты по метрике расстояния Жаккара:

Осуществляется перебор всех вариантов и выбирается такое попарное сопоставление, которое приводит к максимальному соответствию разметок друг с другом.

В результате этого действия мы получаем метрику парного соответствия разметок - среднюю точность разметки.

На базе этой промежуточной метрики осуществляется вычисление итоговой метрики - относительной точности алгоритмической разметки (ОТАР), которая определяется как отношение средней точности алгоритмической разметки (СТАР) к средней точности экспертной разметки (СТЭР):

Такой подход позволяет создать достаточно гибкую систему: чем больше расхождение между экспертами-людьми (а значит - ниже СТЭР), тем большее отклонение от средней экспертной разметки может допустить ИИ. А в случае абсолютно идентичных экспертных разметок (в датасете сейчас таких всего 0,3%), единственная разметка, которая может получить 100% результат, - точно такая же идентичная разметка ИИ.

Для победы в конкурсе значение ОТАР участника должно составить не менее 100%. За счет того, что СТАР может быть выше СТЭР, то по хорошо размеченному сочинению вполне возможно получить ОТАР выше 100%, тем самым компенсируя ОТАР ниже 100% по другим сочинениям.

Что с датасетами?

Обучающие выборки конкурса лежат в открытом доступе на сайте. Датасеты собираются из баз данных ЕГЭ. Это школьные работы, написанные при подготовке к экзаменам или непосредственно на самом экзамене. Часть текстов собирается сразу в электронном виде, другая часть – оцифровывается.

Разметку текстов в специальном веб-интерфейсе – «Разметчике» - проводят реальные учителя в соответствии со своим профилем. Каждый из них имеет статус сертифицированного эксперта ЕГЭ. В среднем преподаватель тратит на проверку одного текста от 5 минут до получаса.

Пример экспертной разметки сочинения по обществознанию в «Разметчике».

Up Great

Сейчас в нашем датасете несколько тысяч размеченных текстов. В рамках подготовки испытаний мы планируем довести официальный датасет до 12 000 сочинений по каждому языку. Это больше 24 000 разметок на один язык. Но, конечно, даже этого количества недостаточно для действительно эффективного обучения нейросетевых решений. Поэтому мы готовим к запуску специальный проект по краудсорсингу датасета, который позволит в разы увеличить количество файлов и разметок с максимальным сохранением качества.

Как работает ИТ-платформа

Специально для конкурса также спроектирована ИТ-платформа, в которую входят различные микросервисы. Помимо модуля «Разметчик», о котором мы рассказали выше, это:

● Личный кабинет участника, откуда команды могут получить доступ ко всем датасетам, к процессу квалификации и испытаний.

● Модуль «Финал» - микросервис, который во время испытаний одновременно отдает файлы всем участникам и потом их получает. Модуль логирует весь процесс, чтобы впоследствии судьи могли разобраться в спорных ситуациях, которые нельзя исключать во время испытаний.

● Модуль сравнения решений - осуществляет сравнение двух или более разметок между экспертами и ИИ. При всей внешней простоте в этом модуле заложена основа конкурса ПРО//ЧТЕНИЕ, его математическая модель. Для полной прозрачности вся математика описана в техническом регламенте конкурса, а в коде она выложена в открытом доступе на github: https://github.com/upgreat-readable

Одно из крупных улучшений ИТ-платформы, которое ожидается в ближайшее время, - реализация бейзлайн решения, которое позволит командам сосредоточиться на совершенствовании алгоритмов своего ИИ. Бейзлайн же даст хорошую основу для постройки командами модуля, который реализует техническую часть по получению файла от платформы и отсылке его обратно.

Также в рамках ИТ-платформы будет реализован блок, который позволит внешним экспертам, не связанным с конкурсом, проводить разметку текстов и тем самым пополнять имеющийся датасет. Этот же модуль может стать хорошим инструментом для учителей для автоматизации удаленной работы с учениками, которые смогут получать быстрый и наглядный отклик от преподавателя не только во время подготовки к ЕГЭ, но и в течение всего процесса обучения.

Кто судит?

Конкурс ПРО//ЧТЕНИЕ организован РВК, Фондом «Сколково» и АСИ в рамках Национальной технологической инициативы. Технический партнер – Центр компетенций НТИ "Искусственный интеллект", МФТИ. В конкурсе задействованы следующие группы экспертов:

● Профильные эксперты - преподаватели, каждый из которых имеют статус ведущего эксперта ЕГЭ или даже председателя предметной комиссии (координируют работу экспертов ЕГЭ и решают спорные случаи в процессе проверки экзаменационных работ). У них накоплен обширный практический опыт по разбору сложных случаев в текстах по соответствующему предмету.

● Технические судьи - контролируют и фиксируют прохождение испытаний и соблюдение всех формальных процедур, чтобы гарантировать равные условия для всех участников.

● Техническая комиссия - ведущие специалисты по Data Science с многолетним опытом, которые верифицируют результаты работы ИИ-систем участников. При разборе неоднозначных ситуаций, которые, естественно, возникают во время проведения такого сложного конкурса, организаторы прибегают к помощи технической комиссии.

ОТАР 84,5% и другие итоги первого цикла испытаний

Первый цикл испытаний ПРО//ЧТЕНИЕ закончился в ноябре прошлого года. Из 180 заявок квалификацию прошли 11 команд, включая разработчиков DeepPavlov, «Антиплагиат», «Нейросети Ашманова», МФТИ, МГУ, РХТУ.

Первые испытания завершились без победителя - в этот раз ни одна из команд не смогла достичь результата, соответствующего уровню педагогов. При этом участники разделили 20 млн руб. призового фонда в специальных номинациях «Грамматика» и «Грамматика.ENG».

Ближе всего по точности текстов на английском языке оказалась команда DeepPavlov «НейроЧтение» со значением ОТАР в 84,5%. Для текстов на русском языке – команда «Антиплагиат», их значение ОТАР составило 57,8%. На данном этапе ИИ-ассистенты участников наиболее успешно справились с выявлением грамматических и речевых ошибок. Сложности чаще всего возникают при определении логических ошибок. Подробнее о том, какие подходы используют команды-лидеры, можно прочитать здесь.

Лидерборд испытаний на русском языке:

Пример разметки «Антиплагиат»:

Пояснение к фактической ошибке сделано очень хорошо. И это очень важная часть конкурса – сейчас учителя настолько загружены работой, что крайне редко находят время для того, чтобы пояснить суть ошибки при проверке. В результате школьнику почти всегда необходима очная консультация, если он не может понять, как было правильно написать.

Up Great

Лидерборд испытаний на английском языке:

Пример разметки «НейроЧтение»:

Это одна из лучших разметок, сделанных ИИ в рамках первого цикла испытаний. Она почти полностью совпадает с разметкой одного из экспертов и за счет этого имеет ОТАР в 159% - значительно выше, чем уровень технологического барьера. Когда ИИ сможет размечать все работы с таким качеством, он будет готов к реальной эксплуатации.

Up Great

Второй цикл испытаний конкурса ПРО//ЧТЕНИЕ запланирован к проведению до конца 2021 года. Подать заявку и составить конкуренцию командам можно уже сейчас на сайте конкурса.

{ "author_name": "Up Great", "author_type": "self", "tags": [], "comments": 0, "likes": -1, "favorites": 4, "is_advertisement": false, "subsite_label": "future", "id": 346966, "is_wide": true, "is_ugc": true, "date": "Thu, 08 Apr 2021 12:37:53 +0300", "is_special": false }
0
0 комментариев
Популярные
По порядку
Обсуждаемое
Новости
Созданный Путиным фонд за четыре месяца не закупил ни одной дозы препарата «Золгенсма» для лечения детей с СМА
Родители считают, что дело в «негласном запрете» Минздрава.
Истории
Прощальный геноцид: зачем Османская империя истребляла армян перед тем как распасться
Годы спустя факт массового убийства официально признают около 30 государств, но сама Турция — продолжает отрицать.
Новости
В Южной Каролине добавили расстрел к методам казни из-за отсутствия смертельных инъекций
Заключённые могут выбрать один из методов казни — и чтобы отсрочить её, они выбирали инъекции, которые давно закончились.
Популярное за три дня
Новости
YouTube начал удалять ссылки на сайт «Умного голосования». С ограничениями за их публикацию столкнулась «Новая газета»
Согласно сообщениям видеохостинга, ролики с такими ссылками нарушают правило о запрете «спама, обмана и мошенничества».
Наука
Прототип космического корабля Starship впервые совершил успешную посадку и не взорвался
Он поднялся на высоту около 10 километров, после чего совершил плавную посадку на площадку.
Истории
Взлёт и падение «Белой розы»: как студенты из Мюнхена боролись с Гитлером с помощью брошюр — и оказались на гильотине
Один из создателей общества имел русские корни, с трепетом относился к России, а поездку на восточный фронт в качестве медика воспринимал как «возвращение домой».

Комментарии

null