Почему краудсорсить разбор медиаархива «фабрики троллей» неинтересно Материал редакции

Или есть желающие покопаться в 300 ГБ твитов, картинок и видео?

В закладки
Одна из фотографий из архива «Агентства интернет-исследований»

Twitter сегодня опубликовал здоровенный архив всего контента, который, как считает компания, связан или может быть связан со вмешательством в президентские выборы США в 2016 году.

В архиве 10 миллионов твитов, а также 2 миллиона картинок, гифок, видео и прямых трансляций в «Перископе» от 3841 аккаунтов «Агентства интернет-исследований» (Ольгино) и ещё 770 аккаунтов, предположительно созданных в Иране. Самые ранние были опубликованы ещё в 2009 году.

В архиве медиафайлов «Агентства интернет-исследований» 296 ГБ данных. Они разбиты на почти 300 ZIP-архивов разного размера: любой может скачать понравившийся и начать разбирать по частям (здесь можно найти все остальные ссылки).

Но картинки и видео разбирать не очень интересно — без привязки к конкретным твитам понять, что именно ими проиллюстрировали, невозможно, за исключением очевидно сатирических демотиваторов и скриншотов новостей. Ниже — несколько примеров из того, что я успел посмотреть из архива ira_tweet_media_hashed_1.zip: удачные фото Путина, неудачные фото Обамы и Порошенко, снимки с Лавровым и Шуваловым, очень много российских пейзажей, редкие сюжеты на тему США.

А вот сам текст твитов находится в CSV-документе объёмом 5,5 ГБ (после разархивирования). Не стоит открывать его при помощи Excel — работать с ним будет невозможно. Для macOS есть CSview, рекомендации по приложениям для Windows можно поискать на Quora.

Первая проблема в том, что изучать таким образом твиты совершенно неудобно — они только текстовые (хотя по огромному числу колонок с параметрами можно примерно понять, какую информацию о твитах хранит Twitter). Хотя в большинстве случаев текст сопровождается картинкой, все представленные в архиве микроблоги давно заблокированы, и нельзя просто перейти по ссылке, чтобы посмотреть, что там было.

Вторая проблема: в медиаархиве не указано, какому твиту соответствует какое изображение или видео. Названия папок, в которых лежат медиафайлы, это хэши, но неясно, хэши от чего. Ссылки на фотографии в Твиттере по адресу-сокращалке t.co/XXXX тоже не открыть: аккаунты заблокированы, и все ассоциированные с ними вложения тоже.

Третья проблема — в публичном архиве, который может скачать любой пользователь, большинство названий аккаунтов захэшированы. Twitter допускает вероятность того, что в базу попали и аккаунты, которые на самом деле не имеют отношения к влиянию на выборы — и отделил их планкой в 5 тысяч подписчиков и меньше.

Зато, например, есть отдельное поле [urls] — прикреплённые к твиту ссылки хранятся отдельно: его можно изучить подробнее и, например, составить статистику наиболее популярных изданий, на которые твитили ссылки аккаунты из этой базы.

По моим быстрым наблюдениям, большинство контента «Агентства интернет-исследований» в архиве связано с пропагандой, ориентированной на российскую аудиторию, и касается периода после присоединения Крыма. Часто встречаются в базе ссылки на РИА «Федеральное агентство новостей» и уже заблокированные блоги в ЖЖ. Твитов на английском языке не так много — по крайней мере, визуально.

Если вы всё же захотите поучаствовать в разборе архива и вам удастся что-то найти, то публикуйте находки в комментариях. Только для упорядочивания информации давайте договоримся так: при публикации фото, скриншота или видео пишите, из какого архива оно взято (например, из №145), чтобы другие могли выбрать ещё не изученный архив (при помощи поиска по комментариям в браузере).

{ "author_name": "Никита Лихачёв", "author_type": "editor", "tags": ["\u0440\u0443\u0441\u0441\u043a\u0438\u0435\u0431\u043e\u0442\u044b","\u043f\u043e\u043b\u0438\u0442\u0438\u043a\u0430"], "comments": 25, "likes": 35, "favorites": 6, "is_advertisement": false, "subsite_label": "news", "id": 78545, "is_wide": false, "is_ugc": false, "date": "Thu, 18 Oct 2018 17:13:02 +0300", "is_special": false }
Комментарии

Божественный мангал

10

Загрузить все это в НейроИлюхера

Морской Паша

18

Или есть желающие покопаться в 300 ГБ твитов, картинок и видео?

вызов принят

Принципиальный бас

6

Никита, большие CSV-файлы открываются в Питоне или в RStudio. Там и анализируются. Вручную с этим массивом действительно делать нечего.

Новости
дискуссии в сообществе доступны только владельцам клубного аккаунта
С клубным аккаунтом вы сможете
создавать записи и вести дискуссии в закрытых сообществах
наслаждаться нашим сайтом без рекламы
помочь проекту и почувствовать себя лучше
Купить за 75₽
Обсуждаемое
Новости
Глава Mail.ru: через 10-15 лет люди откажутся от готовки еды в пользу доставки
Бизнесмен считает, что кухни уменьшатся или вовсе исчезнут из квартир.
Новости
В Новосибирске покончила с собой старшеклассница. Перед смертью она писала о суициде в соцсетях
Труп ребенка обнаружен в школьном туалете.
Новости
На Алтае на деньги Фёдора Смолова отремонтировали сельский Дом культуры. Он перевёл средства на проекте Comment Out
Учреждению хотят присвоить имя футболиста сборной России.
Популярное за три дня
Наука
Парижский зоопарк представил новый экспонат — это «слизь» без мозга с 720 полами и способностью к самоисцелению
Таинственное одноклеточное существо назвали в честь хоррора 1958 года, где инопланетная слизь напала на американский городок.
Истории
Человек, который хотел исчезнуть: загадка жизни и смерти Питера Бергманна, которую не могут решить уже десять лет
В 2009 году тело мужчины нашли на пляже в Ирландии. С помощью камер удалось восстановить его последние дни, но остальное прошлое будто «стёрто».
Новости
Патриарх Кирилл назвал «греховной» либеральную идею: в её центре — человек, а не Бог
По мнению главы РПЦ, либерализм является формой отказа от власти.

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "Article Branding", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "cfovy", "p2": "glug" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byswn", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-130073047", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=cndo&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Баннер в ленте на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudv", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "ccydt", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fzvc" } } }, { "id": 20, "label": "Кнопка в сайдбаре", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "chfbk", "p2": "gnwc" } } } ]