Офтоп
Людской кубок

Как определить количество ботов в Твиттере Статьи редакции

В последнее время пользователи русскоязычного Твиттера часто хвастаются низким количеством ботов среди своих читателей, что определяется при помощи специальных сервисов. Технический директор TJournal Илья Чекальский в своей колонке объясняет, почему подобным сервисам нельзя доверять.

Многие микроблогеры без устали выкладывают результаты анализа своих аккаунтов специальными сервисами, ссылаясь тем самым на якобы чистоту аудитории. Подобными сервисами пользуются и те, кого как раз обычно подозревают в покупке части фолловеров.

Вот только при более внимательном рассмотрении механизмов работы подобных сервисов становится понятно, что их цифры не могут претендовать на объективность.

1. Fake Followers от SocialBakers

Если заглянуть в раздел «Методология» на этом сервисе, то можно обнаружить, что он анализирует только 2 000 фолловеров. Для большинства твиттерян этого, конечно, будет достаточно, а вот для выявления настоящих ботоводов как раз слишком мало.

Сервис Fakefollowers определяет пустые, фэйковые аккаунты по следующим критериям:

  • Аккаунт не имеет ни одного фолловера и следит менее, чем за 50 другими аккаунтами. Однако ни для кого не секрет, что сейчас даже в самых примитивных бот-сетях все "дружатся" друг с другом, а размер таких сетей в среднем — несколько тысяч аккаунтов.

  • Более 30% твитов содержат спам-фразы вроде «diet», «make money», и «work from home». Этот параметр для России неактуален, ну и лично я бы даже за две таких фразы объявлял ботом.

  • Одни и те же твиты повторяются трижды и более, даже если это разные аккаунты. Уже неплохо, но создатели ботов стараются такого не допускать — чаще всего они просто копируют твиты у других пользователей и никогда их не повторяют.

  • Более 90% твитов пользователя — ретвиты. Моя же практика показывает, что больше 50% — уже подозрительно.

  • Более 90% твитов содержат ссылки, и аккаунты фолловят в семь и более раз больше людей, чем имеют фолловеров. Опять же, наша практика показывает, что ни в одном нормальном аккаунте не бывает больше 50% ссылок. Кроме случаев, когда пользователь настроил кросспостинг из какой-либо другой сети. Зачем в таком случае ещё фолловеров проверять — остается загадкой. Особенно с учётом того, что в бот-сетях у всех ботов соотношение примерно один к одному.

  • Аккаунт пустой. Последний раз видел такие ещё и без аватарок году этак в 2010.

  • Аккаунт старше двух месяцев и не имеет своей аватарки.

Получается, данный сервис не учитывает даже параметр listed и использует очень мягкие фильтры, которые большинство современных ботов легко проходят. Несмотря на то, что создатели честно предупреждают о точности определения примерно в 10-15%, многие продолжают представлять его данные как «объективное исследование».


2. Status People Fake Followers Check

Данный сервис и вовсе обладает крайне примитивной методологией, получая информацию только о тысяче фолловеров. А качество аудитории пытается определить по соотношению количества фолловеров к количеству читаемых аккаунтов и по абсолютному количеству твитов. Иными словами: мало твитов и много фолловишь — бот. Все современные боты с легкостью проходят данный тест. Вот уж кого байтами не корми, дай написать новый сворованный у живого человека твит.

3. Twitteraudit (Сервис)

Сервис запрашивает информацию по 5 000 случайных фолловеров. Сомневаюсь, что случайных — судя по всему, исследует только последних фолловеров.

Оценка базируется на количестве твитов, дате последнего обновления и соотношению количества фолловеров к количеству читаемых аккаунтов. В общем, подход такой же абсурдный, как и у предыдущих сервисов.

Невозможность создания объективных алгоритмов по определению ботов обусловлена ограничениями Твиттера. В отличие от, например, Instagram или ВКонтакте, здесь невозможно получить полные данные обо всех твитах пользователя. Как и нельзя оперативно получить информацию о фолловерах (и тем более их постах). Администрация Твиттера контролирует не только глубину просматриваемых данных, но и устанавливает жесткие лимиты на частоту запросов к их API.

Получается, ни один из существующих сервисов не даёт реальной картины. И сколько-нибудь всерьёз воспринимать результаты их анализа нельзя, особенно, если речь идёт о фолловерах популярного пользователя. В таком случае оценка подобных сервисов будет примерным минимумом фэйковых аккаунтов.

На мой взгляд, сервис, приближенный к объективному определению ботов, должен учитывать гораздо большее количество факторов:

  • Значение параметра listed;
  • Количество ссылок среди последних записей;
  • Относительное количество упоминаний других пользователей и ретвитов;
  • Относительное количество твитов с упоминаниями одновременно более трёх аккаунтов;
  • Относительное количество твитов с хэштегами, особенно популярными и вышедшими в тренды;
  • Определять, что написанные твиты уже были написаны кем-то другим слово в слово;
  • Определять изолированность читаемых и читающих аккаунт пользователей от других групп — очень редко группа человек читает только друг друга, при этом постоянно друг с другом переписывается и отправляют друг другу много ссылок;
  • Анализировать уникальность аватарки с помощью сервисов вроде tinyeye — боты зачастую ставят себе на аватарки абстрактные фотографии или фото известных людей;
И множество других параметров, получение которых из API Твиттера для популярных аккаунтов на сегодняшний день сильно затруднено.

Надеюсь, я когда-нибудь напишу такой сервис,
Илья Чекальский,
специально для TJournal

0
13 комментариев
Популярные
По порядку
Написать комментарий...
Интимный франт

Проверил себя: Fake followers показал в списке ботов (Fake followers list) моих друзей, тех с кем я лично знаком и активно общаюсь!!! )) Бред.

Ответить
4
Развернуть ветку
Интимный франт

Илья, давай напишем!

Ответить
4
Развернуть ветку
Интимный франт

Согласен. Автор молодец. Но вряд ли он тоже напишет что-то путное. при нынешних обстоятельствах.

Ответить
3
Развернуть ветку
Интимный франт

- Значение параметра listed;
А что там учитывать?

- Количество ссылок среди последних записей;
А если человек активно пользуется Instaram-ом и пр. сервисами?

- Относительное количество упоминаний других пользователей и ретвитов;
Я, например, в последнее время мало сам пишу: работа, учеба, девушка. Изредка опубликую фото из Molo.me (аналог Instaram). Чаще отвечаю на твиты друзей, общаюсь, ретвичу забавные и красивые.

Так что пара приведенных пунктов тоже под сомнением.

Ответить
2
Развернуть ветку
Интимный франт

@AlexWayfer Не все бот-сети настолько продуманы, что добавляют своих членов друг другу в листы, следовательно, при 10 000 фолловерах параметр listed не может быть меньше 100, например.

Если человек репостит в твиттер только свои фотографии из инстаграма и ни с кем не общается, то он,в принципе, недалеко ушёл от бота.

Ну так это и здорово. Как раз можно определить, что вы публикуете не просто ссылки на непонятные сайты, а фотографии, видео.

Я не думаю, что за нарушение каждого пункта стоит объявлять ботом, лучше за каждый пункт добавлять несколько очков и только если сумма всех баллов превысит определенный порог, тогда вешать позорный ярлык :-)

Ответить
2
Развернуть ветку
Интимный франт

"Если человек репостит в твиттер только свои фотографии из инстаграма и ни с кем не общается, то он,в принципе, недалеко ушёл от бота."
Не путайте негативную активность с бессмысленной :-)

Про ранжирование - это понятно.

За статью спасибо.

Ответить
2
Развернуть ветку
Интимный франт

Mr. Azfalt, а что такой сервис будет делать?

Ответить
1
Развернуть ветку
Интимный франт

А зачем пытаться находить ботов? Можно просто написать алгоритм поиска хороших аккаунтов по заданным критериям, которые нужны для маркетингового исследования, например, а затем вычесть их из общего числа фолловеров и получить количество не ботов, а аккаунтов не дающего никакого эффекта для ленты.

Ответить
1
Развернуть ветку
Интимный франт

Насколько быстро и объективно это будет работать учитывая ограничения в API(о которых в статье уже сказано)

Ответить
0
Развернуть ветку
Интимный франт

Нужно изгнать ботов из твиттера!

Ответить
0
Развернуть ветку
Интимный франт

А нельзя придумать сервис, который бы ботов банил? А то какой смысл от того что вы человеку ткнете или расскажете широкой общественности о том, что его твиттер "накачан"? Подобный сервис не спасет от спама в трендах, которые читать стало невозможно из-за того, что эти самые боты пишут, что им хозяин скажет. Зачастую не по теме хэштега. Я перешел на мировые тренды, но и туда периодически заскакивают хэштеги, которые продвигают наши ботоводы.

Ответить
0
Развернуть ветку
Интимный франт

Безумно полезная статья! Спасибо.

Ответить
0
Развернуть ветку
Интимный франт

Для начала нужен сервис "I'm a bot?"

Ответить
–1
Развернуть ветку
Читать все 13 комментариев
null