«Википедия» обзавелась подобием искусственного интеллекта для обнаружения «плохих статей»

В «Википедии» появился алгоритм, автоматически обнаруживающий новые статьи или исправления в старых, которые требуют вмешательства и улучшения со стороны других участников сообщества. Об этом сообщается в блоге фонда Wikimedia.

«Википедия» — постоянно обновляющийся ресурс, в статьи которого каждый день вносится около полумиллиона новых правок. Так как создавать и редактировать статьи может кто угодно, все остальные редакторы не могут проверять и улучшать поток нового контента в реальном времени.

Для того, чтобы определять, какие из правок требуют наиболее пристального внимания, «Википедия» пользуется сервисом, оценивающим внесённые изменения исходя из нескольких моделей вероятности. 30 ноября представители энциклопедии объявили о запуске такого инструмента под названием Objective Revision Evaluation Service (сервис объективной оценки исправлений, ORES).

В фонде Wikimedia называют ORES искусственным интеллектом.

ORES работает как пара рентгеновских очков — игрушка, которую расхваливали в дешёвых магазинах и на оборотах комиксов. Однако эти очки действительно работают и помогают редакторам обнаруживать потенциально вредные правки.
представители фонда Wikimedia

ORES использует машинное обучение. Имеющие определённые права участники сообщества «Википедии» помечают новые правки как требующие отмены, вредные, добросовестные или недобросовестные, а впоследствии алгоритм учится распознавать это сам. Как именно, в Wikimedia не раскрывают.

Представители Wikimedia опубликовали два примера правки, анализом которых занимался ORES. В первом случае алгоритм с вероятностью 91,63% назвал внесённое пользователем изменение вредным: в нём полезную ссылку заменили на бессмысленное предложение.

Во втором случае ORES с вероятностью 86,83% предсказал, что правка вредной не является. В ней редактор указал правильную ссылку на статью про спектакль «Старуха» режиссёра Роберта Уилсона.

На основе анализа правок ORES умеет выставлять оценку качества статьям в целом при помощи уже существовавшей ранее в «Википедии» модели анализа с использованием машинного обучения. По данным Wikimedia на 31 января 2015 года, в англоязычном разделе энциклопедии было более 4,6 миллионов статей, оценку которым проставили вручную (эти данные использовали для машинного обучения алгоритма). Из них только около 33 тысяч имели качество выше уровня «хорошая статья».

ORES может использоваться через API как автоматизированно, так и вручную. Любой пользователь может задать ему вопрос о конкретной правке по ссылке формата http://ores.wmflabs.org/scores/enwiki/?models=goodfaith|wp10&revids=693228822, где models — это список типов производимых проверок, а revids — идентификатор конкретной правки, который можно найти в истории редактирования статьи. На проверку новой правки у сервиса уходит около 100 миллисекунд, а на отображение уже сделанных расчётов — около 50 миллисекунд.

По словам представителей фонда Wikimedia, ORES тестировался в течение нескольких месяцев и уже интегрирован в более десятка инструментов и сервисов по всей энциклопедии, где есть пользовательские правки. На момент запуска ORES поддерживает 14 разделов «Википедии», включая английский, французский, эстонский, турецкий и украинский, но не российский. По словам представителей фонда, они собираются добавлять поддержку новых языковых разделов как можно быстрее.

Опытные русскоязычные участники «Википедии» высказали мнение, что ORES нельзя называть искусственным интеллектом, а более корректным описанием инструмента является термин «экспертная система».

ORES — не первый инструмент, использующийся для автоматизации процедуры проверки новых правок в «Википедии». Ранее для проекта уже были разработаны Huggle, STiki и ClueBot NG, однако их поддержкой и улучшением долгое время не занимались.

#Новость #Википедия #Wikimedia_Foundation #искусственный_интеллект #машинное_обучение #ORES