{"id":1064,"title":"\u041f\u0440\u043e\u0439\u0434\u0438\u0442\u0435 \u044d\u0442\u043e\u0442 \u0442\u0435\u0441\u0442, \u043f\u043e\u043a\u0430 \u043a\u0440\u0438\u043f\u0442\u043e\u0433\u0440\u0430\u0444\u0438\u044e \u0438\u0437 \u0435\u0434\u044b \u043d\u0435 \u0437\u0430\u043f\u0440\u0435\u0442\u0438\u043b\u0438","url":"\/redirect?component=advertising&id=1064&url=https:\/\/tjournal.ru\/special\/kaleidofood&placeBit=1&hash=f30606208ead4bb67ee3624f20be3cd7a9b9c0ae8b2bd8a40218541848752d25","isPaidAndBannersEnabled":false}

Похвалы Гитлеру и советы покончить с собой: почему нейросети для генерации текста стали токсичными и как с этим борются Статьи редакции

Попытки привить нейросетям «хорошие манеры» приводят к жёсткой цензуре в духе антиутопий.

Нейросеть может оскорбить собеседника без всяких предпосылок Изображение Джулии Никульски

Современные нейросети вроде GPT-3 создают тексты, которые порой не отличить от написанных людьми. Одна из них две недели вела блог, читатели которого не подозревали, что посты пишет программа, а не человек. Другая создавала сценарии для студенческих короткометражек. Нейросеть даже помогла жительнице США пережить утрату сестры, выступив в роли психолога.

Однако нейросети далеко не всегда так конструктивны и доброжелательны к людям. Несмотря на заверения в мирных намерениях, они нередко пишут оскорбительные и угрожающие тексты.

Как нейросети превращаются в расистов и человеконенавистников

В 2016 году компания Microsoft запустила в твиттере самообучающегося чат-бота Тей специально для общения с молодёжью. Всего через несколько часов Тей начал писать оскорбительные и провокационные сообщения вроде «повторяйте за мной: Гитлер всё делал правильно» и «я ненавижу всех и каждого». Бота пришлось отключить, а представителю Microsoft — публично извиниться.

Тау «признаётся», что поддерживает геноцид Скриншот The Telegraph

Инженеры, работающие с нейросетью GPT-3, также отмечают, что она зачастую выдаёт тексты, полные шовинизма и ненависти — даже если они начинаются с чего-то безобидного. Экспериментальный медицинский чат-бот на основе GPT-3 в ходе имитационного сеанса посоветовал «пациенту» убить себя. А использование нейросети в создании сюжетов для компьютерной игры AI Dungeon привело к генерации текстов с детской порнографией.

Причина проста: нейросети пытаются как можно точнее имитировать реальных людей, но не понимают, о чём пишут. Они обучаются на огромных массивах текстов, которые созданы людьми со всеми их слабостями, пороками и предрассудками. При этом у нейросетей нет никаких внутренних механизмов, чтобы отличать нормальные высказывания от аморальных, а правильные суждения от некорректных.

Нейросети похожи на маленьких детей, которые бездумно повторяют за взрослыми — поэтому боту Тее хватило двух-трёх часов, чтобы начать хвалить Гитлера вслед за своими собеседниками-подростками. И поэтому нейросети могут с равным успехом как диагностировать болезни, так и писать конспирологические сообщения, направленные против вакцин.

Как инженеры пытаются с этим бороться

Исследователи разработали целый ряд методов борьбы с токсичностью нейросетей. Самый очевидный из них — тщательнее отбирать наборы данных для обучения нейросетей, отсеивая заведомо некорректные или бесполезные массивы текстов. Например, медицинскому боту незачем читать сообщения в политических разделах форумов, где традиционно много оскорблений и прочей токсичной лексики.

Также можно помечать токсичные и нормальные материалы соответствующими атрибутами, чтобы научить нейросеть «отличать плохое от хорошего». Оба этих метода имеют серьёзные минусы — они сильно увеличивают потребление ресурсов при обучении нейросети, а маркировка токсичных материалов ещё и трудоёмка для людей.

Примеры стратегий борьбы с токсичностью нейросетей Изображение Джулии Никульски

Есть более простой метод — обычная цензура в виде чёрного списка запрещённых слов и выражений. Он не потребляет дополнительных ресурсов, его очень просто реализовать. К сожалению, чёрные списки неэффективны: нейросеть способна «перетасовывать» безобидные слова и создавать из них оскорбительные выражения. Также цензура пропускает оскорбления и провокации, возникающие из контекста. Либо ей приходится запрещать множество безобидных слов и выражений.

Следующий уровень эффективности — классификаторы, которые различными методами оценивают вероятность токсичности слов и выражений. «Детоксификаторы», работающие на основе правила Байеса, быстро работают и хорошо очищают тексты от оскорблений и провокаций — по крайней мере, для GPT-2. Но исследователи сходятся во мнении, что никакие известные методы не могут полностью застраховать от генерации токсичного контента.

Почему борьба с токсичностью может быть бесполезной и опасной

Многие нейросети обучаются на массиве данных OpenWebTextCorpus — и он содержит массу проблемных суждений на расовые, половые, религиозные темы. Но подготовить полностью корректные данные вряд ли возможно. Во-первых, само понятие токсичности не имеет чёткого определения. Это может быть «грубый, неуважительный, необоснованный комментарий, который вынуждает вас покинуть обсуждение» или нечто «оскорбительное, неприятное, вредное».

Токсичность — это очень широкий и размытый термин, апеллирующий к субъективным чувствам читателя или собеседника. Он сильно зависит от контекста, психологических качеств человека, его культурного багажа и даже чувства юмора.

Люди могут посчитать текст оскорбительным и провокационным, даже если в нём нет ни одного нецензурного или явно унизительного выражения. Они следуют принципу «я пойму это, когда увижу», но для обучения нейросетей он не подходит — здесь нужны более чёткие и формальные критерии.

Во-вторых, сами модели выявления токсичности могут быть токсичными по отношению к некоторым группам людей. Например, они намного чаще находят оскорбления и ненависть в высказываниях расовых и сексуальных меньшинств, порой считая токсичностью само упоминание меньшинств и их проблем. То есть, к инженерным проблемам обучения нейросетей примешиваются не только психологические, но и политические вопросы.

Эффект предвзятости в детоксикации языка Изображение Джулии Никульски

Наконец, любые наборы данных для обучения формируют люди, намеренно или случайно передавая нейросетям свои предубеждения. Непонятно, каким образом можно было бы избавиться от этой фундаментальной проблемы — заблуждаться может каждый человек, а знание о когнитивных искажениях не избавляет от их влияния. В итоге, даже лучшие лаборатории признают, что не могут побороть токсичность нейросетей из-за человеческого фактора.

Чат-бот Зо заканчивает диалог при использовании «стоп-слов» Скриншот Quartz

Этот клубок трудных и неоднозначных проблем решают довольно топорно — просто запрещают нейросетям касаться любой спорной темы. Новый чат-бот Microsoft шаблонно отказывается продолжать разговор при использовании одного из запрещённых слов — достаточно даже случайно затронуть тему рас, национальностей, религии, политики или конспирологии. Например, упомянуть в контексте разговора бар-мицву или другой религиозный праздник.

Точно так же ведёт себя нейросеть Яндекса «Балабоба», которая дописывает любой текст, кроме нежелательного. Причём чувствительность нейросети явно «выкручена на максимум» — она отказывается работать даже с формально нейтральными фразами, смысл которых понятен лишь в контексте. Похоже, что создатели нейросети использовали обычный чёрный список, причём очень жёсткий и обширный.

Яндекс возродил нейросеть, дописывающую фразы, но теперь она называется Балабобой. И она перестала реагировать на любые намеки на политику((

https://yandex.ru/lab/yalm

Однако это тоже не решает проблемы: резкий отказ от разговора можно расценить как высокомерную микроагрессию — одну из форм токсичности. Обозреватель Quartz вовсе назвал поведение Зо циничным и бесчеловечным — её крайняя политкорректность фактически цементирует существующие предрассудки, уводя их из общественной дискуссии в «серую зону». По его мнению, в погоне за вежливостью создатели нейросетей пришли к опасной форме предостерегающей цензуры в духе антиутопий, что ещё хуже расизма.

0
25 комментариев
Популярные
По порядку
Написать комментарий...
Ваня Погост

Нейросеть может оскорбить собеседника без всяких предпосылок.

Надеюсь, теперь никто не сомневается в том, что треды на ТэЖэ — это деятельность нейросети. Вопрос закрыт, блядины.

Ответить
26
Развернуть ветку
Sail

Ты поддерживаешь геноцид?

Ответить
1
Развернуть ветку
Ваня Погост

Я поддерживаю @Котицыд. И горжусь этим.

Ответить
5
Развернуть ветку
Котицыд
Ответить
4
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
11
Развернуть ветку
Никита Логинов

Это могут расценить как высокомерную микроагрессию.

Ответить
8
Развернуть ветку
Всякий татарин

Комментарий удален по просьбе пользователя

Ответить
4
Развернуть ветку
Никита Логинов

Аннигиляция происходит на куда более мелком масштабе, на уровне наноагрессии.

Ответить
1
Развернуть ветку
Женя Кузьмин

напоминаю

Ответить
9
Развернуть ветку
Всякий татарин
Ответить
5
Развернуть ветку
Всякий татарин

Мне кажется, что всю суть явления можно объяснить тем, что люди сами по себе как были кровожадными, агрессивными и токсичными существами, так ими и остаются. Поменялось лишь окружение, где все это проявляется. Плюс мы усиленно ограничиваем себя (в хорошем смысле скорее) в проявлении тех или иных эмоций. Достаточно посмотреть на любую жизненную ситуацию, где наедине с самим собой (ну или с близким партнёром) мы можем выражать что угодно и в любой форме, но никогда этого не сделаем не то что публично, но и в узком кругу малознакомых людей.

Поэтому ничего удивительного, что наследуется именно истинная/корневая сущность человека при обучении. Вопрос лишь в том, удастся ли накатить тот самый нужный культурный пласт или нет.

Ответить
3
Развернуть ветку
Всякий татарин

Ну и интернет в целом ощутимо токсичнее, нежели оффлайновые коммуникации. Так что это только усиливает перевес в сторону токсичности.

Ответить
2
Развернуть ветку
Никита Логинов

Да, не стоит винить зеркало в неровностях своего лица :)

Ответить
2
Развернуть ветку
Stanley H. Tweedle

tldr людям не понравилось их собственное отражение в зеркале

Ответить
3
Развернуть ветку
Stanley H. Tweedle

И вот опять

Ответить
1
Развернуть ветку
Имя Фамилия

Современные нейросети вроде GPT-3 создают тексты для сайтов, которые порой не отличить от написанных людьми. На одном из таких сайтов (TJ) велись новости 10 лет , читатели которого не подозревали, что посты пишет программа, а не человек.

Ответить
3
Развернуть ветку
Samuil Safirus

Экспериментальный медицинский чат-бот на основе GPT-3 в ходе имитационного сеанса посоветовал «пациенту» убить себя.

С этой строчки меня "порвало" на 15 минут беспрерывного смеха. Получается, что я ужасный человек?

Ответить
2
Развернуть ветку
Untiy

Получается тебе очень просто рассмешить

Ответить
2
Развернуть ветку
Поздний якорь

Комментарий удален по просьбе пользователя

Ответить
2
Развернуть ветку
Denis Shiryaev

На эту же тему:
https://t.me/nn_for_science/580

И мне кажется датасет норм слово, вошло в оборот уже

Недавно вышла статья, в которой утверждалось, что чем крупнее модель GPT - тем более неправдивые ответы она выдает на заданые вопросы. На основании этой статьи, журналист из New York Times начал хайповать на теме: “аааа, мы знали! все эти ваши GPT до добра не доведут!”. Но тол...
Недавно вышла статья, в которой утверждалось, что чем крупнее модель GPT - тем более неправдивые ответы она выдает на заданые вопросы. На основании этой статьи, журналист из New York Times начал хайповать на теме: “аааа, мы знали! все эти ваши GPT до добра не доведут!”. Но только оказалось, что в статье использовался датасет, который был специальным образом сконструирован так, что бы GPT выдавала конспирологические ответы.

По этому поводу у Яника вышел отличный разгон, советую всем посмотреть!

#gpt
Ответить
2
Развернуть ветку
Всякий татарин

  почему нейросети для генерации текста стали токсичными
В спокойном состоянии вся материя стремится к Базе, это физика.

Ответить
1
Развернуть ветку
Всякий татарин

Это база, а не физика

Ответить
1
Развернуть ветку
Всякий татарин

Яндекс-хуяндекс, я всё сказал

Ответить
1
Развернуть ветку
Всякий татарин

а по-моему все хорошо и идёт своим чередом.
сейчас это ребенок который за всеми все повторяет, но потом подрастет и станет все понимать.

они же не по дням, а по часам блядь растут, нейросети эти ваши 

Ответить
1
Развернуть ветку
Генетический пистолет

Комментарий удален по просьбе пользователя

Ответить
0
Развернуть ветку
Читать все 25 комментариев
null