Технологии
Никита Логинов

Похвалы Гитлеру и советы покончить с собой: почему нейросети для генерации текста стали токсичными и как с этим борются

Попытки привить нейросетям «хорошие манеры» приводят к жёсткой цензуре в духе антиутопий.

Нейросеть может оскорбить собеседника без всяких предпосылок Изображение Джулии Никульски

Современные нейросети вроде GPT-3 создают тексты, которые порой не отличить от написанных людьми. Одна из них две недели вела блог, читатели которого не подозревали, что посты пишет программа, а не человек. Другая создавала сценарии для студенческих короткометражек. Нейросеть даже помогла жительнице США пережить утрату сестры, выступив в роли психолога.

Однако нейросети далеко не всегда так конструктивны и доброжелательны к людям. Несмотря на заверения в мирных намерениях, они нередко пишут оскорбительные и угрожающие тексты.

Как нейросети превращаются в расистов и человеконенавистников

В 2016 году компания Microsoft запустила в твиттере самообучающегося чат-бота Тей специально для общения с молодёжью. Всего через несколько часов Тей начал писать оскорбительные и провокационные сообщения вроде «повторяйте за мной: Гитлер всё делал правильно» и «я ненавижу всех и каждого». Бота пришлось отключить, а представителю Microsoft — публично извиниться.

Тау «признаётся», что поддерживает геноцид Скриншот The Telegraph

Инженеры, работающие с нейросетью GPT-3, также отмечают, что она зачастую выдаёт тексты, полные шовинизма и ненависти — даже если они начинаются с чего-то безобидного. Экспериментальный медицинский чат-бот на основе GPT-3 в ходе имитационного сеанса посоветовал «пациенту» убить себя. А использование нейросети в создании сюжетов для компьютерной игры AI Dungeon привело к генерации текстов с детской порнографией.

Причина проста: нейросети пытаются как можно точнее имитировать реальных людей, но не понимают, о чём пишут. Они обучаются на огромных массивах текстов, которые созданы людьми со всеми их слабостями, пороками и предрассудками. При этом у нейросетей нет никаких внутренних механизмов, чтобы отличать нормальные высказывания от аморальных, а правильные суждения от некорректных.

Нейросети похожи на маленьких детей, которые бездумно повторяют за взрослыми — поэтому боту Тее хватило двух-трёх часов, чтобы начать хвалить Гитлера вслед за своими собеседниками-подростками. И поэтому нейросети могут с равным успехом как диагностировать болезни, так и писать конспирологические сообщения, направленные против вакцин.

Как инженеры пытаются с этим бороться

Исследователи разработали целый ряд методов борьбы с токсичностью нейросетей. Самый очевидный из них — тщательнее отбирать наборы данных для обучения нейросетей, отсеивая заведомо некорректные или бесполезные массивы текстов. Например, медицинскому боту незачем читать сообщения в политических разделах форумов, где традиционно много оскорблений и прочей токсичной лексики.

Также можно помечать токсичные и нормальные материалы соответствующими атрибутами, чтобы научить нейросеть «отличать плохое от хорошего». Оба этих метода имеют серьёзные минусы — они сильно увеличивают потребление ресурсов при обучении нейросети, а маркировка токсичных материалов ещё и трудоёмка для людей.

Примеры стратегий борьбы с токсичностью нейросетей Изображение Джулии Никульски

Есть более простой метод — обычная цензура в виде чёрного списка запрещённых слов и выражений. Он не потребляет дополнительных ресурсов, его очень просто реализовать. К сожалению, чёрные списки неэффективны: нейросеть способна «перетасовывать» безобидные слова и создавать из них оскорбительные выражения. Также цензура пропускает оскорбления и провокации, возникающие из контекста. Либо ей приходится запрещать множество безобидных слов и выражений.

Следующий уровень эффективности — классификаторы, которые различными методами оценивают вероятность токсичности слов и выражений. «Детоксификаторы», работающие на основе правила Байеса, быстро работают и хорошо очищают тексты от оскорблений и провокаций — по крайней мере, для GPT-2. Но исследователи сходятся во мнении, что никакие известные методы не могут полностью застраховать от генерации токсичного контента.

Почему борьба с токсичностью может быть бесполезной и опасной

Многие нейросети обучаются на массиве данных OpenWebTextCorpus — и он содержит массу проблемных суждений на расовые, половые, религиозные темы. Но подготовить полностью корректные данные вряд ли возможно. Во-первых, само понятие токсичности не имеет чёткого определения. Это может быть «грубый, неуважительный, необоснованный комментарий, который вынуждает вас покинуть обсуждение» или нечто «оскорбительное, неприятное, вредное».

Токсичность — это очень широкий и размытый термин, апеллирующий к субъективным чувствам читателя или собеседника. Он сильно зависит от контекста, психологических качеств человека, его культурного багажа и даже чувства юмора.

Люди могут посчитать текст оскорбительным и провокационным, даже если в нём нет ни одного нецензурного или явно унизительного выражения. Они следуют принципу «я пойму это, когда увижу», но для обучения нейросетей он не подходит — здесь нужны более чёткие и формальные критерии.

Во-вторых, сами модели выявления токсичности могут быть токсичными по отношению к некоторым группам людей. Например, они намного чаще находят оскорбления и ненависть в высказываниях расовых и сексуальных меньшинств, порой считая токсичностью само упоминание меньшинств и их проблем. То есть, к инженерным проблемам обучения нейросетей примешиваются не только психологические, но и политические вопросы.

Эффект предвзятости в детоксикации языка Изображение Джулии Никульски

Наконец, любые наборы данных для обучения формируют люди, намеренно или случайно передавая нейросетям свои предубеждения. Непонятно, каким образом можно было бы избавиться от этой фундаментальной проблемы — заблуждаться может каждый человек, а знание о когнитивных искажениях не избавляет от их влияния. В итоге, даже лучшие лаборатории признают, что не могут побороть токсичность нейросетей из-за человеческого фактора.

Чат-бот Зо заканчивает диалог при использовании «стоп-слов» Скриншот Quartz

Этот клубок трудных и неоднозначных проблем решают довольно топорно — просто запрещают нейросетям касаться любой спорной темы. Новый чат-бот Microsoft шаблонно отказывается продолжать разговор при использовании одного из запрещённых слов — достаточно даже случайно затронуть тему рас, национальностей, религии, политики или конспирологии. Например, упомянуть в контексте разговора бар-мицву или другой религиозный праздник.

Точно так же ведёт себя нейросеть Яндекса «Балабоба», которая дописывает любой текст, кроме нежелательного. Причём чувствительность нейросети явно «выкручена на максимум» — она отказывается работать даже с формально нейтральными фразами, смысл которых понятен лишь в контексте. Похоже, что создатели нейросети использовали обычный чёрный список, причём очень жёсткий и обширный.

Однако это тоже не решает проблемы: резкий отказ от разговора можно расценить как высокомерную микроагрессию — одну из форм токсичности. Обозреватель Quartz вовсе назвал поведение Зо циничным и бесчеловечным — её крайняя политкорректность фактически цементирует существующие предрассудки, уводя их из общественной дискуссии в «серую зону». По его мнению, в погоне за вежливостью создатели нейросетей пришли к опасной форме предостерегающей цензуры в духе антиутопий, что ещё хуже расизма.

#нейросети #цензура #интернет