[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byswn", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "create", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-101273134", "adfox_url": "//ads.adfox.ru/228129/getCode?p1=byaeu&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid11=&puid12=&puid13=&puid14=&puid21=&puid22=&puid31=&fmt=1&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudv", "p2": "ftjf" } } } ]
{ "author_name": "Marat Khamadeev", "author_type": "self", "tags": [], "comments": 19, "likes": 63, "favorites": 8, "is_advertisement": false, "section_name": "blog", "id": "18658", "is_wide": "" }
Marat Khamadeev
1 247
Блоги

TJ как вирус или запоздалый ответ Владу Цыплухину – 2

Данная заметка – это продолжение темы статистического анализа клуба TJ, начатого месяц назад. В этот раз я принёс конкретные цифры и графики. Сразу предупреждаю: дальше будет много текста и много матанализа, поэтому чтение рекомендуется только тем, кто не боится напрягать извилины и любит находить то, что скрыто. В конце даны некоторые рекомендации для редакции.

Поделиться

В избранное

В избранном

Введение.

В одной из своих прошлых колонок я рассуждал о том, как статистика сайта TJ могла бы подсказать путь развития проекта. Я попытался представить, как это можно сделать на основе разных параметров, например, зависимости числа регистраций от времени. Из общих соображений я смоделировал эту кривую и описал сценарии развития клуба в том или ином случае. В комментариях мне резонно заметили, что подобные спекуляции не имеют особой ценности без конкретных цифр, однако чтобы получить эти цифры, необходимо освоить работу с API сайта, что мне было не под силу по причине ограниченных временных ресурсов. На помощь пришёл пользователь с ником Kat Vance, предложивший целую программу исследований и свою помощь в сборе статистики. Открывшаяся в итоге картина впечатляет. Представляю вашему вниманию анализ этой зависимости.

Зависимость числа зарегистрированных пользователей от времени. Общий анализ.

Не буду томить, вот этот график.

Рис. 1. Зависимость числа зарегистрированных аккаунтов на TJ от времени. В выборку вошло 66 с половиной тысяч аккаунтов, у 276 из которых данные закрыты. По техническим причинам в выборку попали данные только до 10 ноября 2015 года

С одной стороны может показаться, что он не имеет ничего общего с теми графиками, которые я приводил в предыдущей заметке: кривая демонстрирует уверенный рост, отсутствуют асимптоты. Однако если разобраться, связь есть. Во-первых, в прошлый раз я говорил о поведении всплесков новых регистраций под влиянием каких-либо событий. Можно заметить, что и в реальном графике есть такие всплески (об их причинах поговорим чуть позже), чей эффект со временем исчезает, просто здесь они накладываются на растущий тренд. Ну, а во-вторых, я тогда не понял, что сообщество может находиться не только в фазе насыщения, но и в фазе роста. На этом я хотел бы остановиться подробнее.

В прошлый раз я сравнивал рост числа регистраций с распространением вируса в популяции. Было предложено две модели роста (асимптотическая и неограниченная). Правда, при этом я рассматривал только конечную фазу заражения, когда число незараженных много меньше числа зараженных. Вместе с тем, в самом начале процесса, когда зараженных ещё не так много, процесс растет лавинообразно. Чтобы не быть голословным, проиллюстрирую свои слова реальными примерами.

Рис. 2. Результат моделирования процессов заражения компьютерным вирусом "популяции" из 300000 компьютеров. Взято отсюда: http://fcenter.ru/online/softarticles/utilities/7871-Komp_juternye_i_biologicheskie_virusy_analogiya. Обратите внимание на то, что популяция ограничена, поэтому у динамики есть асимптота.
Рис. 3. Динамика распространения вируса Эбола в Западной Африке в 2014/2015 годах. Взято из Википедии. Поскольку в этом регионе проживает гораздо больше народу, чем 25 тысяч, кривая выходит на логарифмический рост. Пример неограниченной модели роста.

Обратите внимание: в обоих случаях присутствует начальная фаза распространения, при котором это число растет либо квадратично (на самом деле, полиномиально), либо экспоненциально. Так вот, если продолжать аналогии, «заражение» людей TJournal’ом так же находится в начальной фазе, а до конечной фазы, про которую я писал в прошлый раз, ещё очень и очень далеко. Более того, анализ производной покажет, что линейная фаза роста также ещё не наступила. Это внушает оптимизм.

Анализ производной.

Вспомним начала матанализа: производная любой зависимости характеризует скорость её изменения. С помощью производной удобно оценивать прирост, особенно если он не значителен по сравнению с самой величиной. Однако, поскольку мы имеем дело с дискретной, а не непрерывной зависимостью, при построении производной есть некоторые подводные камни. Я постараюсь не утруждать читателя деталями анализа, скажу лишь, что методом проб и ошибок оптимальным оказалось два варианта: расчет прироста регистраций за день и за неделю.

Рис. 4. Зависимость прироста новых пользователей за неделю от времени. Красной линией показан средний тренд роста производной. Его линейный характер подтверждает параболический рост на рис.1.
Рис. 5. Зависимость прироста новых пользователей за день от времени. Картинка менее наглядная, зато более информативная. Дальнейший анализ будет основываться на ней.

Первое, что сразу же бросается в глаза – это всплески регистраций. Какие-то из них более выраженные, острые и быстроспадающие, какие-то, наоборот, более притупленные, будто бы действующие некоторое время. Но, что самое важное, некоторые из всплесков затухают до уровня фона, а некоторые – формируют новый фон ещё некоторое время. Это как раз те самые два случая: асимптотический и неограниченный.

Что интересно, асимптотический случай, по сути, не добавляет новых участников в клуб, он просто ускоряет их вступление. Проиллюстрирую эту идею с помощью следующей картинки.

Рис. 6. Динамика, вызванная всплеском. Пунктирной линией показана такая динамика роста, которая была бы, если бы всплеска не было.

То есть, как видно из этого рисунка, если бы этого события не было, TJ бы всё равно получил эти души. Тем не менее, для редакции TJ, да и для читателей интересно было бы узнать, что же это за события в жизни клуба, вызывавшие такие всплески. Пойдем по порядку убывания амплитуды.

Ключевые события, повлиявшие на всплеск регистраций пользователей.

Рис. 7. Производная с пронумерованными пиками.

1. 2014.11.19 – перезапуск клуба. Сотни людей в тот день осознали, что больше не смогу просто так читать комментарии и присоединились. Изучение спада дает основания считать, что всплеск всё-таки асимптотический. Все эти люди рано или поздно захотели бы прокомментировать и завели бы аккаунты на TJ. Впрочем, однозначно сказать сложно.

2. 2014.01.17 – «Спасти рядовую воспитательницу». Скандал с увольнением молодой сексапильной воспитательницы из Казани сплотил читателей TJ в едином флэшмобе, заставив многих из них завести аккаунты. Скорее всего, этот всплеск тоже асимптотический (хотя спорно)

3. 2013.03.10 ­– не знаю, что там технически произошло, я это время не застал. Это, видимо, самое начало введения регистрации, когда определенное количество аккаунтов было создано «руками», либо что-то ещё. Интересно, что скажут старожилы и Чекальский.

UPD. Чекальский: до 2013 года не записывалась дата регистрации пользователей. Всем потом проставили просто этот день в качестве отправной точки.

4. 2013.12.17 ­­­– этот всплеск фиксируется при различных условиях дискретизации производной, но сложно однозначно сказать, что было в этот день. Поиск по дате показал, что тогда активно обсуждали следующие темы: «Владелец «Хабрахабра» объяснил закрытие раздела об IT-законодательстве», «Что такое хэштеги и с чем их едят», «Дуров предложил 200 тысяч долларов за взлом его переписки в Telegram». Либо одна из этих тем, либо все вместе, они привели к всплеску. Быстро спал.

5. 2014.06.29 – в этот день так же было несколько жарких дискуссий, однако, как мне кажется, ключевым фактором роста стал перезапуск приложения для iOS. Всплеск демонстрирует длинный хвост, что может говорить о безасимптотическом росте

6. 2014.02.21 – Какая-то из этих тем: «Полный контакт с Вышкой», «Собянин развёлся с женой», «Первый блин комом», а может что-то ещё. Быстро затух.

7. Помимо отдельных всплесков интерес представляет одна их группа из трех штук.

2015.04.23 – «Новый TJ для iPhone и iPad», возможно, «Мем: Карл».

2015.05.14 – «Астаховский возраст», обсуждение тезиса нашего омбудсмена о сморщивании женщин к 27 годам.

2015.06.01 – «Новый TJ для Android».

Я решил описать их вместе, потому что, идя почти подряд, они по очереди немного поднимали тренд, что говорит о том, что все трое, либо как минимум двое из них неограничены.

8. 2015.08.04 – Что-то из этого: ««ВКонтакте» отключила ссылки на Инстаграм через две с половиной недели после запуска Snapster», «Репортаж из соцсетей: Лето на даче», «Синдром патриотического иммунодефицита», но, скорее всего ««ВКонтакте» и Snapster на три часа оказались недоступными для всех пользователей». Тренд не поменялся, да и вообще всплеск слабый.

9. Рядышком два пика

2015.10.09 – хайп вокруг обновленного Кинопоиска

2015.10.11 – Обзор на «Марсианина», Обзор iPhone 6s.

Оценить спад не удалось по причине конца выборки. Впрочем, всплески слабые.

Таким образом, как видно из проведенного анализа и из графиков, в основе прироста числа членов клуба лежит естественный процесс, и он носит «эпидемиологический» характер. У клуба есть ещё большое количество потенциальных членов, которые примкнут к нему в будущем. Резонансные публикации и обсуждения способны ускорить этот процесс, но не расширить это потенциальное поле, в то время как развитие мобильных приложений для iOS и Android, кажется, способно и на это.

И, кстати, в прошлый раз я ошибся в прогнозе: тред про утечки интимных фотографий так и не дал всплеска.

Что-нибудь ещё интересное?

Да. Детальный анализ скорости прироста позволяет заметить разнообразные колебания в зависимости от времени.

Чтобы их исследовать, я получил их Фурье-спектр:

Рис. 8. Участок производной, на которой наглядно видны колебания прироста. Производная построена для случая, когда расчет прироста пользователей брался за 2,4 часа. Это было сделано, чтобы уловить тонкие эффекты.
Рис. 9. Фурьеграмма всей производной. В отличие от общепринятого представления фурье-спектра, здесь по оси абсцисс не частота, а период в днях.

Для того чтобы полностью объяснить характер построенной кривой понадобилось бы много времени, поэтому я не буду этого делать. Скажу лишь, что по особо выделяющимся из шума пикам можно выцеплять периоды, с которыми колеблется число новых аккаунтов. В первую очередь это, разумеется, период, соответствующий периодам в 1 день (пик №1) и полдня (пик №2). Первый пик вполне логичен и ожидаем. Но если в этом случае речь идет о цикле человеческой жизнедеятельности вообще, то второй пик, скорее всего, объясняется тем, что люди массово заходят на информационно-развлекательные сайты преимущественно утром и вечером.

Кроме того, можно заметить отклонения от фона на пике, соответствующему периоду в 7 дней (пик №3), а также слабые отклонения на 5 и 6 днях. 7 дней – это, очевидно, неделя – следствие того, что некоторые пользователи чаще заходят в выходные. Природа периода в 5 и 6 дней непонятна, возможно, это просто обертона.

Заключение.

Итак, я провел статистическое исследование зависимости числа аккаунтов на TJ от времени, и смог извлечь кое-какую информацию оттуда. В частности, стало понятно, что аудитории клуба ещё далеко до насыщения, и что существенно расширить аудиторию помогло бы продвижение мобильных приложений. Кроме того, стало понятно, какие именно резонансные обсуждения и события ускоряют регистрацию новых читателей.

Я плохо разбираюсь в веб-аналитике, и, быть может, упустил какие-то более важные факторы или условия. Моей задачей было показать, что применение математического аппарата к статистическим данным может позволить найти информацию, которая в обычном случае может быть скрыта. Конечно, у этого исследования много изъянов, а само оно, безусловно, довольно таки поверхностное. В частности, я не смотрел публикации в клубе и в офтопе, а выводы о причинах всплесков делал весьма приблизительные. Также, все факторы я рассматривал в одной общей куче, не проводя когортного анализа.

Кроме того, пытливый читатель заметит, что число аккаунтов – это не есть число актуальных членов клуба, которое определяется параметром is_club_member: true. Это действительно так, но проблема заключается в том, что из дампа базы данных сайта эту информацию можно было получить только на момент его снятия, ни о какой зависимости от времени речи быть не может. Вместе с тем, построить зависимость от времени числа аккаунтов дает тот факт, что у каждого аккаунта есть дата создания, что и бралось за временную переменную.

Для того чтобы иметь динамическую информацию, не только о членстве, но и о карме, об уникальных посещениях и о многом другом, необходим иной принцип сбора данных, подразумевающий запись всех параметров с определенным периодом. Надо полагать, такой подход увеличит работу команды проекта, зато он позволил бы выделять новые факторы развития клуба. При желании, данное исследование можно продолжить с учетом всего того, о чем говорилось в прошлый раз.

Выражаю благодарность товарищу Kat Vance за присланную базу.

Популярные материалы
Показать еще
{ "is_needs_advanced_access": true }

Лучшие комментарии

Дискуссии по теме
доступны только владельцам клубного аккаунта

Купить за 75₽
Авторизоваться

Преимущества
клубного аккаунта

  • отсутствие рекламы
  • возможность писать комментарии и статьи
  • общение с членами клуба
Подробнее

Преимущества
клубного аккаунта

  • отсутствие рекламы
  • возможность читать и писать комментарии
  • общение с членами клуба
  • возможность создавать записи

Сколько это стоит?

Членство в клубе стоит всего 75₽ в месяц. Или даже дешевле при оплате за год.

Что такое клуб?

Клуб ТЖ это сообщество единомышленников. Мы любим читать новости, любим писать статьи, любим общаться друг с другом.

Вступить в клуб

Комментарии Комм.

Популярные

По порядку

0

Прямой эфир

Вы не против подписаться на важные новости от TJ?

Нет, не против