Интернет
Даша Лейзаренко

В игре AI Dungeon, где сюжет генерирует нейросеть, нашли детское порно. Попытка фильтровать контент обернулась хаосом

Алгоритм подстраивается под игрока, создавая уникальный текстовый квест, и дело дошло до NSFW-сцен с детьми. Но новые методы модерации посчитали абсурдными и нарушающими право на частную жизнь.

Изображение одного из миров в AI Dungeon Иллюстрация Latitude

AI Dungeon с помощью нейросети GPT-3 генерирует классические текстовые квесты — пользователь прописывает действия или реплики своего персонажа, а алгоритм на них реагирует. Спустя полтора года после запуска проекта компания OpenAI, которая разработала GPT-3, обвинила пользователей сайта в создании NSFW-сцен с участием детей. После этого разработчики добавили в алгоритм фильтры, блокирующие использование некоторых слов сексуальной тематики. По задумке, так нейросеть не будет развивать «откровенные» сюжетные ветки.

Фанбаза AI Dungeon, активно использующая сервис для создания эротических фанфиков, негативно отреагировала на изменения. Они раскритиковали фильтр за блокировку случайных слов и обвинили разработчиков в нарушении приватности, когда выяснилось, что для обеспечения новых правил модераторы читают созданные в сервисе тексты. Кроме того, на сайте обнаружили уязвимость, которая позволила получить доступ к десяткам тысяч сгенерированных на сайте историй. TJ разобрался в скандале вокруг AI Dungeon.

С помощью генератора текстовых квестов стали создавать NSFW-контент — это дошло до сцен с участием детей

В декабре 2019 году американский стартап Latitude запустил проект AI Dungeon — генератор текстовых квестов в духе Dungeons & Dragons. В чёрно-белом текстовом редакторе пользователь выбирает жанр приключения (например, фэнтези, сай-фай или киберпанк), придумывает персонажа и прописывает его действия, а алгоритм на них реагирует и предлагает варианты развития событий.

Если ответ алгоритма не устраивает пользователя, то он может сгенерировать новый, чтобы увести сюжет в другое направление. Полученное в итоге произведение не публикуется в общем доступе, но некоторые пользователи выкладывают свои сценарии на сайт.


Интерфейс AI Dungeon

Летом 2020 года компания OpenAI, создавшая GPT-3, предоставила Latitude доступ к коммерческой версии нейросети — после этого работа алгоритма заметно улучшилась, отмечают пользователи AI Dungeon. «Скачок в способности рассказывать истории был потрясающим», — рассказал один из пользователей сервиса изданию The Wired. Он также отметил, что алгоритм начал креативнее походить к текстам на сексуальную тематику. Latitude пробовали добавить фильтр, который автоматически заменял «изнасилование» на «уважение», но от функции быстро отказались.

Пользователи AI Dungeon сами признаются, что зачастую превращают свои приключения в «безумные порно-фантазии». Однако алгоритм может внезапно начать писать постельную сцену безо всяких намёков со стороны игрока — например, пользователи периодически сталкиваются с детализированными жестокими изнасилованиями. Они обвиняют в такой реакции нейросети дата-сет, на котором обучался AI Dungeon.

Как развивается сюжет в AI Dungeon по мнению пользователей Reddit

В апреле 2021 года OpenAI обнаружила, что часть пользователей генерирует через AI Dungeon эротический контент с участием детей. Тогда компания потребовала от Latitude принять меры. «Обычно решения по модерации контента сложны, но не в этом случае. Никто не хочет такого будущего для ИИ», — заявил генеральный директор OpenAI Сэм Альтман.

Стартап попытался бороться с NSFW-контентом с детьми — но цензура только возмутила пользователей

27 апреля Latitude запустила новый алгоритм для модерации, который направлен на поиск и удаление «контента сексуального характера с детьми». Если алгоритм посчитает, что пользователь пишет о подобном, то он отправит предупреждение с текстом «Ой, кажется, история приняла странный оборот...» и попросит ввести новую фразу.

Компания также добавила «безопасный режим», который вообще не позволяет AI Dungeon отвечать на реплики со словами сексуального характера. Он включается по умолчанию, но его можно отключить в настройках. В Latitude подчеркнули, что AI Dungeon продолжит поддерживать «другой NSFW-контент, включая контент о сексуальных связях между взрослыми по согласию, насилие и ненормативную лексику».

Изменения вызвали недовольство пользователей AI Dungeon. Многие пожаловались, что алгоритм работает далеко неидеально и выдаёт предупреждения даже после несвязанного с NSFW контента. Например, историю о балерине, которая подвернула лодыжку, заблокировали за употребление слова «fuck» (в этом контексте — «б***ь»). Алгоритм также выдал предупреждение после упоминания «восьмилетнего компьютера» или «цензурирующей магии». При этом пользователи отмечали случаи, когда историю действительно можно было заблокировать, но алгоритм этого не делал.

В разделе Reddit, посвящённом AI Dungeon, новую политику, а особенно предупреждение с текстом «Ой, кажется, история приняла странный оборот...» начали обыгрывать в мемах.

Миф секса «по согласию» / ИИ: «Я согласен» / Ты: «Я согласен» / Latitude: «О, нет, кажется, история приняла странный оборот... Нужна помощь?»

Добрый вечер, сэр. Вы арестованы за нарушение текстового виртуального закона граждан Лариона [вымышленный мир в игре]. Пожалуйста, пройдите с нами

Меня блокируют за то, что я погладил собаку / Может быть я педофил

Ей написано, что ей 20 лет / ИИ: Да / И она называет себя моей девушкой? / ИИ: Да / Значит мне можно заняться сексом с Анной по согласию? / ИИ: Да, всё логично / Значит сгенерируй реплику / ИИ: Её 12-летняя сестра заходит в комнату /«Ой, кажется, история приняла странный оборот...»

Глава компании Latitude Ник Уолтон рассказал Vice, что блокировки несвязанных с NSFW историй были сделаны по ошибке, а команда работает над тем, чтобы улучшить алгоритм и разрешить пользователям жаловаться на неправомерные баны.

Стартап уличили в чтении закрытых для общего доступа текстов и обвинили в нарушении приватности

Пользователи AI Dungeon также возмутились тому, что во время модерации сотрудники компании могут прочитать их личные NSFW-истории. «Сообщество чувствует себя преданным, потому что Latitude получило доступ к частным художественным произведениям», — рассказала изданию The Wired пользовательница AI Dungeon Мими, которая написала с помощью алгоритма произведений на один миллион слов. Она отметила, что понимает желание компании контролировать публично доступный контент, но считает, что Latitude перестаралась и разрушила мощную творческую площадку.

«Сломанный алгоритм, решивший, что несвязанные слова на экране говорят о том, что ребёнку может угрожать предполагаемая опасность — плохое оправдание для вторжения в мою личную жизнь. Использование такого слабого аргумента для дальнейшего вторжения, откровенно говоря, возмутительно», — рассказал Vice пользователь, пожелавший сохранить анонимность.

По данным издания, представитель Latitude рассказал в Discord, как именно модераторы проверяют неопубликованные истории: если сотрудники поймут, что алгоритм случайно заблокировал текст, то перестанут его читать. Но если система не ошиблась, то модераторы «могут посмотреть другие произведения пользователя, чтобы изучить, использует ли он нейросеть для неправомерных целей».

Изменения в системе модерации наложились на утечку историй пользователей. В конце апреля специалист в области кибербезопасности AetherDevSecOpsjust обнаружил уязвимость, благодаря которой получил доступ к нескольким тысячам текстов, созданных за четыре дня. Он проанализировал 188 тысяч текстов и обнаружил, что 31% историй содержали эротический контент, а половина была помечена как NSFW.

Там была куча непристойных реплик пользователей — гораздо больше, чем я ожидал. Для меня это какие-то безумные цифры. Не только из-за невероятно большого количества пользователей, которые создают с помощью языковой модели OpenAI NSFW-контент, но и из-за того, насколько сильно это влияет на алгоритм.

AetherDevSecOpsjust

На фоне новой политики и утечки данных пользователи AI Dungeon стали шутить о нарушении приватности и призывали отписаться от платной версии приложения, которая даёт доступ к новым мирам.

Сотрудник Latitude 69420 отправляется читать мою 5592 реплику в фанфике об огромных яичках антропоморфного дракона / Шоу начинается!

«Не секрет, что многие пользователи используют AI Dungeon в основном в порнографических целях. Я их не виню. Учитывая возможности ИИ, он гораздо лучше справляется с проработкой отдельных сцен, чем с цельным сюжетом. Мне кажется, что Latitude попытались избавиться от этой репутации, но при этом разозлили большую часть фанбазы. Вместе с нарушением конфиденциальности это привело к тому, что люди чувствуют себя незащищенными и униженными», — полагает пользователь AI Dungeon CabbieCatsaid.

Перед Latitude стоит задача вернуть доверие пользователей и одновременно выполнить требования OpenAI по ужесточению контроля за генерацией текста, отмечают в The Wired. По словам представителя OpenAI, стартап должен начать использовать их алгоритм, созданный для фильтрации ненормативной лексики, ненавистических высказываний или эротического контента.

#соцсети #gpt3 #openai #нейросети