Политика Никита Лихачёв
9 700

Почему краудсорсить разбор медиаархива «фабрики троллей» неинтересно

Или есть желающие покопаться в 300 ГБ твитов, картинок и видео?

В закладки
Одна из фотографий из архива «Агентства интернет-исследований»

Twitter сегодня опубликовал здоровенный архив всего контента, который, как считает компания, связан или может быть связан со вмешательством в президентские выборы США в 2016 году.

В архиве 10 миллионов твитов, а также 2 миллиона картинок, гифок, видео и прямых трансляций в «Перископе» от 3841 аккаунтов «Агентства интернет-исследований» (Ольгино) и ещё 770 аккаунтов, предположительно созданных в Иране. Самые ранние были опубликованы ещё в 2009 году.

В архиве медиафайлов «Агентства интернет-исследований» 296 ГБ данных. Они разбиты на почти 300 ZIP-архивов разного размера: любой может скачать понравившийся и начать разбирать по частям (здесь можно найти все остальные ссылки).

Но картинки и видео разбирать не очень интересно — без привязки к конкретным твитам понять, что именно ими проиллюстрировали, невозможно, за исключением очевидно сатирических демотиваторов и скриншотов новостей. Ниже — несколько примеров из того, что я успел посмотреть из архива ira_tweet_media_hashed_1.zip: удачные фото Путина, неудачные фото Обамы и Порошенко, снимки с Лавровым и Шуваловым, очень много российских пейзажей, редкие сюжеты на тему США.

А вот сам текст твитов находится в CSV-документе объёмом 5,5 ГБ (после разархивирования). Не стоит открывать его при помощи Excel — работать с ним будет невозможно. Для macOS есть CSview, рекомендации по приложениям для Windows можно поискать на Quora.

Первая проблема в том, что изучать таким образом твиты совершенно неудобно — они только текстовые (хотя по огромному числу колонок с параметрами можно примерно понять, какую информацию о твитах хранит Twitter). Хотя в большинстве случаев текст сопровождается картинкой, все представленные в архиве микроблоги давно заблокированы, и нельзя просто перейти по ссылке, чтобы посмотреть, что там было.

Вторая проблема: в медиаархиве не указано, какому твиту соответствует какое изображение или видео. Названия папок, в которых лежат медиафайлы, это хэши, но неясно, хэши от чего. Ссылки на фотографии в Твиттере по адресу-сокращалке t.co/XXXX тоже не открыть: аккаунты заблокированы, и все ассоциированные с ними вложения тоже.

Третья проблема — в публичном архиве, который может скачать любой пользователь, большинство названий аккаунтов захэшированы. Twitter допускает вероятность того, что в базу попали и аккаунты, которые на самом деле не имеют отношения к влиянию на выборы — и отделил их планкой в 5 тысяч подписчиков и меньше.

Зато, например, есть отдельное поле [urls] — прикреплённые к твиту ссылки хранятся отдельно: его можно изучить подробнее и, например, составить статистику наиболее популярных изданий, на которые твитили ссылки аккаунты из этой базы.

По моим быстрым наблюдениям, большинство контента «Агентства интернет-исследований» в архиве связано с пропагандой, ориентированной на российскую аудиторию, и касается периода после присоединения Крыма. Часто встречаются в базе ссылки на РИА «Федеральное агентство новостей» и уже заблокированные блоги в ЖЖ. Твитов на английском языке не так много — по крайней мере, визуально.

Если вы всё же захотите поучаствовать в разборе архива и вам удастся что-то найти, то публикуйте находки в комментариях. Только для упорядочивания информации давайте договоримся так: при публикации фото, скриншота или видео пишите, из какого архива оно взято (например, из №145), чтобы другие могли выбрать ещё не изученный архив (при помощи поиска по комментариям в браузере).

#русскиеботы #политика

{ "author_name": "Никита Лихачёв", "author_type": "editor", "tags": ["\u0440\u0443\u0441\u0441\u043a\u0438\u0435\u0431\u043e\u0442\u044b","\u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430"], "comments": 28, "likes": 35, "favorites": 7, "is_advertisement": false, "subsite_label": "politics", "id": 78545, "is_wide": false, "is_ugc": false, "date": "Thu, 18 Oct 2018 17:13:02 +0300" }
Комментарии

Защитный самолет

6

Никита, большие CSV-файлы открываются в Питоне или в RStudio. Там и анализируются. Вручную с этим массивом действительно делать нечего.

Общий крюк

5

Или есть желающие покопаться в 300 ГБ твитов, картинок и видео?

Зависит от видео

Олимпийский велосипед

18

Или есть желающие покопаться в 300 ГБ твитов, картинок и видео?

вызов принят

Политика
дискуссии в сообществе доступны только владельцам клубного аккаунта
С клубным аккаунтом вы сможете
создавать записи и вести дискуссии в закрытых сообществах
наслаждаться нашим сайтом без рекламы
помочь проекту и почувствовать себя лучше
Купить за 75₽

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byswn", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-130073047", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=cndo&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudv", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "ccydt", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvc" } } } ]
Действительно важные push-уведомления
Подписаться на push-уведомления