Интернет
Даша Лейзаренко

«США признали Covid-19 нечистью»: российский аналитик научил нейросеть генерировать посты антипрививочников

«Нейроантиваксер» обучен на одном из самых популярных чатов противников вакцинации.

Привитых от коронавируса в России всё ещё очень мало — по официальной статистике, всего около 15%, тогда как для коллективного иммунитета необходимо 60%. Низкие темпы вакцинации связаны со многими причинами, среди которых недоверие к российским вакцинам и к прививкам против Covid-19 в принципе.

Противники вакцинации организуются в том числе в телеграм-чатах, где делятся аргументами в пользу своей точки зрения. Часто среди них находятся сторонники конспирологических теорий: о массовых смертях после вакцинации или чипировании людей Биллом Гейтсом.

В начале июля в твиттере появился аккаунт Neural Antivaxer, посты в котором генерирует нейросеть ruGPT-3, обученная на датасете с публикациями антипрививочников. TJ поговорил о работе алгоритма с создателем аккаунта, системным аналитиком из Москвы Антоном Онегиным.

Антон рассказал, что идея создать аккаунт пришла к нему, когда он наткнулся на выгрузку чатов антипрививочников: «Они просто составляют сообщения из одних и тех же слов в разных порядках и в разных контекстах. Мне казалось, если закинуть их сленг в бездушный блендер нейросетей, может получиться довольно забавный смузи».

По словам создателя аккаунта, не все чаты были одинаково пригодны для обучения нейросети: «Где-то было слишком мало сообщений, где-то они были достаточно скучными. Их все можно было бы объединить, но фрагментация обучающего массива могла плохо сказаться на выводе: он получился бы несвязным». Поэтому модели обучали на сообщениях только одного чата — «NASTIKA против вакцинации» с 9 тысячами участников. «Он оказался оптимальным по соотношению объём/шиза», — отметил Антон.

Отдельной проблемой оказалась и вычислительная сложность задачи — на обычном компьютере на обучение ушла бы неделя. Антону помог пользователь твиттера @thevar1able, у которого есть доступ к вычислительному кластеру на GPU: «Обучение на массиве одного чата заняло одну ночь».

Антон использовал другие чаты «для затравки»: «Выбрали 300 самых истеричных сообщений из чата „Оставьте нас в покое!“. Этого слишком мало для полноценного обучения, но идеально для отбора контекстов. Случайная фраза из этого набора поступает на вход, модель её продолжает и записывает в вывод. Этот процесс автоматизирован. В итоге я получаю файл с несколькими сотнями строк синтетических сообщений».

Постинг в твиттер Антон хотел автоматизировать, но тут столкнулся с неожиданной проблемой: «Нейросеть оказалась слишком умной. Две трети её выхода — осознанные и связные фразы без смехотворного абсурда. Вдобавок, тексты получались слишком длинными, поэтому приходится вручную отбрасывать некоторые предложения (в том числе, фразу, которую алгоритм продолжал: ведь интереснее читать именно сгенерированный текст, чем отрывки реальных сообщений)».

При этом Антона считает «читерством» вмешиваться в результат работы алгоритма: «Сами фразы, за исключением обрезки лишнего, я не редактирую: ведь суть именно в том, чтобы показать, что машина способна выдавать конспирологию даже абсурднее, чем живые люди».

#соцсети #twitter