Новости
Никита Лихачёв

Почему краудсорсить разбор медиаархива «фабрики троллей» неинтересно

Или есть желающие покопаться в 300 ГБ твитов, картинок и видео?

Одна из фотографий из архива «Агентства интернет-исследований»

Twitter сегодня опубликовал здоровенный архив всего контента, который, как считает компания, связан или может быть связан со вмешательством в президентские выборы США в 2016 году.

В архиве 10 миллионов твитов, а также 2 миллиона картинок, гифок, видео и прямых трансляций в «Перископе» от 3841 аккаунтов «Агентства интернет-исследований» (Ольгино) и ещё 770 аккаунтов, предположительно созданных в Иране. Самые ранние были опубликованы ещё в 2009 году.

В архиве медиафайлов «Агентства интернет-исследований» 296 ГБ данных. Они разбиты на почти 300 ZIP-архивов разного размера: любой может скачать понравившийся и начать разбирать по частям (здесь можно найти все остальные ссылки).

Но картинки и видео разбирать не очень интересно — без привязки к конкретным твитам понять, что именно ими проиллюстрировали, невозможно, за исключением очевидно сатирических демотиваторов и скриншотов новостей. Ниже — несколько примеров из того, что я успел посмотреть из архива ira_tweet_media_hashed_1.zip: удачные фото Путина, неудачные фото Обамы и Порошенко, снимки с Лавровым и Шуваловым, очень много российских пейзажей, редкие сюжеты на тему США.

А вот сам текст твитов находится в CSV-документе объёмом 5,5 ГБ (после разархивирования). Не стоит открывать его при помощи Excel — работать с ним будет невозможно. Для macOS есть CSview, рекомендации по приложениям для Windows можно поискать на Quora.

Первая проблема в том, что изучать таким образом твиты совершенно неудобно — они только текстовые (хотя по огромному числу колонок с параметрами можно примерно понять, какую информацию о твитах хранит Twitter). Хотя в большинстве случаев текст сопровождается картинкой, все представленные в архиве микроблоги давно заблокированы, и нельзя просто перейти по ссылке, чтобы посмотреть, что там было.

Вторая проблема: в медиаархиве не указано, какому твиту соответствует какое изображение или видео. Названия папок, в которых лежат медиафайлы, это хэши, но неясно, хэши от чего. Ссылки на фотографии в Твиттере по адресу-сокращалке t.co/XXXX тоже не открыть: аккаунты заблокированы, и все ассоциированные с ними вложения тоже.

Третья проблема — в публичном архиве, который может скачать любой пользователь, большинство названий аккаунтов захэшированы. Twitter допускает вероятность того, что в базу попали и аккаунты, которые на самом деле не имеют отношения к влиянию на выборы — и отделил их планкой в 5 тысяч подписчиков и меньше.

Зато, например, есть отдельное поле [urls] — прикреплённые к твиту ссылки хранятся отдельно: его можно изучить подробнее и, например, составить статистику наиболее популярных изданий, на которые твитили ссылки аккаунты из этой базы.

По моим быстрым наблюдениям, большинство контента «Агентства интернет-исследований» в архиве связано с пропагандой, ориентированной на российскую аудиторию, и касается периода после присоединения Крыма. Часто встречаются в базе ссылки на РИА «Федеральное агентство новостей» и уже заблокированные блоги в ЖЖ. Твитов на английском языке не так много — по крайней мере, визуально.

Если вы всё же захотите поучаствовать в разборе архива и вам удастся что-то найти, то публикуйте находки в комментариях. Только для упорядочивания информации давайте договоримся так: при публикации фото, скриншота или видео пишите, из какого архива оно взято (например, из №145), чтобы другие могли выбрать ещё не изученный архив (при помощи поиска по комментариям в браузере).

#русскиеботы #политика