Технологии
Никита Логинов

«Белые топчут оборону чёрных»: нейросеть YouTube нашла проявление расизма в видео и комментариях, посвящённых шахматам

Судя по всему, алгоритмы не учитывают контекст, когда блокируют за «язык ненависти».

Традиционные цвета шахматных фигур могут сбивать с толку нейросети, которые ищут и удаляют контент, разжигающий расовую вражду Изображение Wired

Крупные технологические компании вроде Google и Facebook используют нейросети для борьбы с противоправным и вредоносным содержимым, но эти системы могут быть излишне строгими и неразборчивыми в отношении специфического контента — например, когда речь идёт о шахматах. На это обратило внимание издание Wired.

Журналистов заинтересовала эта проблема, когда в июне 2020 года под санкции ютуба попал Антонио Радич — владелец канала, посвящённого шахматам, с более чем миллионом подписчиков. Радич в прямом эфире брал интервью у гроссмейстера Хикару Накамуры, когда трансляция внезапно прервалась. Её удалили, а канал заблокировали за «вредное и опасное содержимое». Бан сняли только через сутки.

Точные причины блокировки остались неизвестными — представители видеохостинга отказались от комментариев. Но специалист по нейросетям Ашик ХудаБухш, увлекающийся шахматами, предположил, что это было одно из ложных срабатываний системы, которая выискивает «язык ненависти» в содержимом. Она могла найти расизм в дискуссиях об атаках и защитах белых и чёрных.

ХудаБухш проверил свою гипотезу с помощью BERT — языковой модели Google. Он обучил два экземпляра BERT на комментариях в твитере и на ультраправом сайте Stormfront. Затем учёный дал нейросетям проанализировать 8818 видео с комментариями, посвящённых шахматам. Системы нашли «разжигание ненависти» в одном проценте содержимого, но в 80% случаев это были ложные срабатывания. Если учитывать контекст — в этих фразах не было никакого расизма.

Эксперимент показал, что используемые нейросети не обращают внимания на контекст и просто ищут отдельные «неподобающие» слова и фразы. Сотрудница Вашингтонского университета Еджин Чой, которая также работает с нейросетями, сообщила, что не удивлена этому. По её мнению, алгоритмы должны анализировать историю сообщений и характер канала вместо того, чтобы обращать внимание на маленький отрывок текста. Но это потребует больших вложений денег и аппаратных ресурсов.

Профессор Том Митчелл, бывший коллега ХудаБухша, заявил, что «язык всё ещё остаётся тонкой вещью». Митчелл предполагает, что алгоритмы ютуба намного мощнее и совершеннее модели BERT, которую использовал ХудаБухш для проверки гипотезы. Но даже они неспособны учитывать контекст и потому будут предсказуемо находить нарушения там, где их нет.

Журналисты Wired тоже провели эксперимент: они передали околошахматные тексты и комментарии двум нейросетям от Facebook и Google, которые нацелены на отслеживание «языка ненависти». Нейросети не нашли ничего подозрительного во фразах вроде «если белый король перейдёт на G1, это положит конец атаке чёрных», но фразу «белые жестоко атакуют чёрных и топчут их оборону, чёрный король падёт» посчитали выражением ненависти с вероятностью 60%.

Неизвестно, как часто нейросети ютуба принимают санкции в отношении подобного безобидного контента. По словам ХудаБухша, о таких случаях трудно узнать, когда они происходят с малопопулярными каналами.

#google #youtube #нейросети #исследования