[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "i", "ps": "cndo", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "ezfk" } } }, { "id": 6, "disable": true, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "clmf", "p2": "ffyh" } } }, { "id": 7, "disable": true, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "cndo", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "create", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "cndo", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223677-0", "render_to": "inpage_VI-223677-0-101273134", "adfox_url": "//ads.adfox.ru/228129/getCode?p1=byaeu&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid11=&puid12=&puid13=&puid14=&puid21=&puid22=&puid31=&fmt=1&pr=" } } ]
{ "author_name": "Marat Khamadeev", "author_type": "self", "tags": [], "comments": 61, "likes": 43, "favorites": 11, "is_advertisement": false, "section_name": "blog", "id": "16785" }
Marat Khamadeev
1 639
Блоги

Статистика знает всё или запоздалый ответ Владу Цыплухину

Некоторые авторские размышления о том, какую информацию можно извлечь, анализируя статистику сообщества TJ. Текст довольно скучный, перегруженный математической терминологией, и вообще, предназначен для редакции, а также для тех, кто не боится немного поскрипеть мозгами. В общем, заходить и читать не советую. Ну, вы поняли.

Поделиться

В избранное

В избранном

Давным-давно, а если быть более конкретным, 4 месяца назад я имел небольшой диалог с Владом Цыплухиным на тему клуба TJ, в котором он признался, что руководство до конца не уверено, какие из действий следует предпринять, чтобы привлечь больше пользователей на сайт. В тот раз я отписался общими словами, мол, прежде, чем что-то делать, надо провести «анализ динамики активности», сам до конца не понимая, что это значит. Вместе с тем, из статистики TJ можно извлечь действительно интересную информацию. Сам не знаю, почему, но мне в один прекрасный день захотелось ответить Владу более развернуто. Так появился этот текст.

Сразу оговорюсь: автор сего опуса не является экспертом в матстатистике и бигдата. Мой кругозор ограничивается курсом тервера и статов в университете, а также некоторыми индивидуальными изысканиями. Кроме того, мой брат (Шамиль Хамадеев, руководитель проекта iq300) защищал диссертацию по оптимизации производственных процессов, и мы с ним часто обсуждали методы кластеризации массивов данных. Наконец, одно время я залипал на сериал “Numb3rs”. Всё это в совокупности привило мне ощущение, что статы знают все. Шутка ли: длиннющие уравнения, про которые я думал, что они – результат подгонки эксперимента, оказывается, выводятся из первых принципов в рамках матстатистики.

Итак, постановка задачи такова: у нас есть большой массив данных, нужно извлечь из него какую-нибудь, желательно полезную информацию. Здесь, как это часто в науке бывает, есть два подхода: индуктивный и дедуктивный. Первый заключается в постановке конкретной формулировке того, что мы хотим узнать, и последующей обработке массива с целью извлечения искомой информации. Второй – в том, чтобы поиграться с массивом в надежде рассмотреть какие-либо статистические структуры либо закономерности, которые могут что-то рассказать об объекте.

Влад писал, что желанным является ответ на вопрос, какие меры помогут увеличить размер сообщества. Поскольку есть конкретный запрос, можно применить индукцию. Для этого надо понять, какие конкретные данные могут быть полезны. В первую очередь я бы обратил внимание на такой параметр, как число новых членов клуба, купивших подписку, за единицу времени (день, неделю, год), и отобразил бы его графически. Я не видел статистику по этому вопросу, но осмелюсь предположить, что это что-то вроде кривой, представленной на рисунке.

Модельный график того, как могла бы выглядеть зависимость числа купивших подписку от времени.

Если график имеет примерно такую форму, он может служить источником новых данных. Не нужно быть семи пядей во лбу, чтобы понять, что всплески новых регистраций соответствуют каким-либо значимым событиям, которых наверняка не такое уж большое число. В первую очередь, это, разумеется, перезапуск (которому в ноябре исполняется год, btw). Также, если подобный всплеск имел место, он мог бы быть вызван, например, знаменитым тредом про утечки интимных фотографий.

Можно ли извлечь из этих всплесков какую-нибудь информацию с помощью математики? Думаю да. Смотрите, мы видим рост, сначала резкий, затем всё более и более ослабевающий. Есть два самых вероятный сценария такого роста: с асимптотой и без неё. Если кривая роста имеет асимптоту – то есть предел, выше которой она не поднимется за счёт фактора, вызвавшего рост, – это означает, что данный фактор уже привлек свою публику в клуб и, по сути, себя исчерпал. Если же асимптоты нет, значит, данный фактор ещё может привести людей, и, возможно его стоит усилить или повторить.

Вот простая аналогия: рассмотрим классический вирус, который делает из людей зомби, и через зомби распространяется на незараженных. Если вокруг города, где завелся вирус, построить стену, то кривая числа зараженных в зависимости от времени однажды упрется в максимум (асимптоту), равный числу человек внутри ограждения. Если же стены не будет, то это число однажды сможет превысить такой предел. Может показаться, что на начальной стадии распространения вируса по поведению этой кривой мы не сможем сказать, какой у нас случай. Однако это можно сделать, либо подождав достаточно большое время, либо попытавшись подогнать под получающиеся кривые какие-нибудь расчеты. Как понять, какой в данном случае рост? Необходимо играться с графиками: удалять шумы, сглаживать, смотреть в логарифмической шкале или иных деформированных шкалах, выполнять подгонку.

За анализом роста числа новых пользователей не стоит забывать о тех, кто не продлевает подписку. Эта величина может быть оценена как разность числа зарегистрированных пользователей и числа актуальных пользователей. С этой цифрой сложнее, поскольку момент окончания подписки не совпадает с моментом, когда пользователь решил, что клуб читателей ему больше не интересен. Здесь могут помочь данные о заходе на сайт под своим аккаунтом, в частности, дата последнего перед окончанием подписки захода. Анализируя временную зависимость оттока пользователей, можно попытаться понять, что стало причиной ухода. Кроме того, данная величина наверняка будет коррелировать с оценками пользователя (конкретно, с минусами).

Вообще, корреляционный анализ может дать много всего интересного о клубе. Скажем, каждый пользователь может быть параметризован с помощью таблицы с различными цифрами: кроме id и рейтинга можно строить зависимости от времени числа комментариев, поставленных плюсов и минусов, опубликованных постов и т.д. (например, если пользователь комментирует новость не сразу после её опубликования, а через некоторое время, то по такому усредненному времени можно измерять занятость пользователя). Более того, всех пользователей можно по этим параметрам подвергнуть кластеризации с помощью разнообразного инструментария методов, развитых в математической статистике. Как показывает практика, машинная кластеризация зачастую демонстрирует разделение, которое согласуется с интуицией. Только надо учитывать, что пользователи со временем меняются, их характеристики эволюционируют, поэтому нужно проводить оконный анализ (то есть учитывать данные только за определенный период).

И это ещё не все. Как и в любой социальной среде, пользователи взаимодействуют, формируя, таким образом, граф. Размерность графа – это квадрат размерности узлов пополам, а значит это ещё больше информации, которую так же можно кластеризовать, а результат сопоставить с кластеризацией пользователей. В социальных сетях существует большой спектр взаимодействий между пользователями, в клубе эти возможности ограничены: ставить плюс или минус комментарию или статье, отвечать в комментариях или в статьях, да и все, пожалуй. Это упрощает анализ массива данных. Таким образом, например, можно подтвердить или опровергнуть тезис о том, что пользователи на TJ явно или неявно поделены на «фракции» (на тех же условных «либералов» или условных «ватников»). Можно выделять лидеров мнений, если они есть. Можно выделять пользователей-источников негатива, и, скажем, если с активностью этих источников коррелируют какие-то плохие для клуба процессы (например, уход пользователей), то можно принимать меры.

Такой подход является дедуктивным. Он связан со свободным поиском и потому более творческий. Быть может, он не столь продуктивен, поскольку он не всегда поможет ответить на вопрос, как привлечь аудиторию, зато он будет давать информацию о внутренней структуре клуба, что может быть полезно для управления уже существующим положением.

Комбинация индуктивного и дедуктивного подходов может стать мощным инструментом оценки различных нововведений. Например, редакция вводит пробные инвайты, то есть бесплатное членство в клуб по приглашению пользователей на некоторый срок, скажем, 2 недели. За это время приглашенный юзер тщательно анализируется: что читает, с кем дружит или ссорится, как часто комментирует. Затем анализируется корреляция собранной информации по каждому новичку с его решением покупать или не покупать подписку. А дальше остается только выявить позитивные факторы и усилить их.

Конечно, это всё довольно сложные технологии. Конкурентом математической статистики является банальная интуиция, то есть, когда «кажется». Пока сообщество небольшое, она вполне себя оправдывает. Скажем, методы матстатистики могли бы доказать нам, что тема порно и секс явно привлекает внимание читателей, а Федор Хан вызывал негатив некоторых пользователей, пока редакция не приняла меры, но это и так было понятно невооруженным взглядом. Однако интуиция зачастую находит только ответы, лежащие на поверхности, а связи с более сложной структурой могут улавливать лишь единицы. Вместе с тем, сложность связей в сообществе очевидным образом увеличивается с его ростом. Если держать курс на прибавление, матстатистике стоит уделить внимание. Другой вопрос, кто этим будет заниматься, учитывая, что редакция и так работает «до крови из носа»? Однако это уже организационный вопрос и ответ на него выходит за рамки данного эссе. Я полагаю, крупнейшие игроки на поле социальных сетей вроде «Вконтакте» наверняка имеют сотрудников, занимающихся анализом статистики, и тут Влад уж точно должен знать больше меня.

Как бы там ни было, ответы на вопрос о том, какие меры помогут увеличить размер сообщества, стоит искать в самом сообществе, но для того, чтобы эту информацию извлечь, нужно понять, как её считывать с цифр, которыми богата любая сложная система. Но как это делать – целая наука.

Надеюсь, я достаточно развернуто ответил на вопрос.

Популярные материалы
Показать еще
{ "is_needs_advanced_access": true }

Лучшие комментарии

Дискуссии по теме
доступны только владельцам клубного аккаунта

Купить за 75₽
Авторизоваться

Преимущества
клубного аккаунта

  • отсутствие рекламы
  • возможность писать комментарии и статьи
  • общение с членами клуба
Подробнее

Преимущества
клубного аккаунта

  • отсутствие рекламы
  • возможность читать и писать комментарии
  • общение с членами клуба
  • возможность создавать записи

Сколько это стоит?

Членство в клубе стоит всего 75₽ в месяц. Или даже дешевле при оплате за год.

Что такое клуб?

Клуб ТЖ это сообщество единомышленников. Мы любим читать новости, любим писать статьи, любим общаться друг с другом.

Вступить в клуб

Комментарии Комм.

Популярные

По порядку

0

Прямой эфир

Вы не против подписаться на важные новости от TJ?

Нет, не против