Технологии
Дамир Камалетдинов

Исследование: Чтобы распознать 90% пользователей, достаточно узнать о пяти приложениях на их смартфоне

Скрыться «в толпе» практически нереально.

Фото CultOfMac

Масштабное исследование учёных из Дании показало, что большинство пользователей можно деанонимизировать даже на выборке из миллионов людей. Для этого достаточно знать только открытую информацию об использовании пяти сторонних приложений на смартфонах.

Свой метод исследователи назвали «отпечатками приложений». Учёные на протяжении 12 месяцев собирали данные 3,5 миллионов пользователей. Они пришли к выводу, что даже четырёх приложений достаточно для уникальной идентификации 91,2% пользователей, а пять приложений позволяют распознать до 96% пользователей.

Исследователи решили сфокусироваться именно на приложениях, так как поведение пользователей в них не меняется, а значит их можно использовать в качестве надёжного инструмента для идентификации конкретных людей. Кроме того, как отметили учёные, большинство пользователей недостаточно осведомлены о том, какие данные могут собирать приложения.

* * *

Простой метод

По данным исследователей, несмотря на элемент рутины, в поведении людей есть высокая доля уникальных действий, и это выражается даже в использовании смартфонов.

Сценарии использования приложений уникальны так же, как отпечатки пальцев.

Например, по данным о приложениях можно узнать возраст, пол, статус отношений, уровень образования, политические взгляды, сексуальную ориентацию, религию и даже аспекты личности пользователя. Во время исследования учёные не учитывали стандартные приложения, такие как будильник, фонарик, телефон и другие.

Сначала исследование проводили по бинарному методу: записывали только факт использования приложения в течение месяца. Если в течение месяца пользователь запускал только определённый набор приложений и этот набор не встречался больше нигде среди данных, то учёные считали его идентифицированным.

Таким способом исследователи смогли повторно идентифицировать только 21,8% пользователей — то есть каждого пятого. Однако, по мнению учёных, даже эта цифра является довольно высокой, учитывая простоту метода.

Усложнение стратегии

После этого исследователи придумали более сложную стратегию. Благодаря открытым данные о популярности приложений в Google Play они смогли выяснить, сколько пользователей используют конкретное приложение в их выборке.

За счёт этого точность «отпечатков приложений» выросла сразу в несколько раз: используя данные о 4 приложениях исследователи смогли повторно идентифицировать уже 91,2% пользователей. Учёные отметили, что при этом размер выборки слабо влияет на изменение результатов: точность метода падает всего на 4% при увеличении числа пользователей с 1 до 3,5 миллионов (на 250%).

Если увеличить базу данных до 35 миллионов человек, точность метода снизится всего лишь до 75-80%. Таким образом, по словам учёных, скрыться «в толпе» не выйдет: при желании можно достаточно точно идентифицировать большинство пользователей только по 5 приложениям.

Выводы исследователей

Согласно результатам исследования, «отпечатки приложений» медленно изменяются, причём этот тренд общий для абсолютного большинства пользователей. Люди скачивают новые приложения и перестают пользоваться старыми.

Кроме того, на результаты влияет сезонность: оказалось, что летом идентифицировать пользователей проще. Учёные связывают это с изменением в поведении людей в этот сезон — пользователи чаще путешествуют, развлекаются, и всё это упрощает возможность их распознать.

Учёные пришли к выводу, что данные об использовании приложений намного более выгодны корпорациям, чем стандартные методы отслеживания. В отличие от cookie или рекламных идентификаторов, даже если пользователь сменит устройство, его привычки не изменятся.

По мнению исследователей, это создаёт опасную ситуацию, так как правительства многих стран пока никак не регулируют подобный сбор данных. Инструмент «отпечатка приложений» не позволил определить реальную личность пользователя, однако исследователи отметили, что это было бы возможно при перекрёстном сравнении с какими-нибудь другими источниками информации.

Исследователи считают, что использование приложений должно считаться личной информацией, так как по ним можно идентифицировать пользователей. Они отмечают, что новый европейский закон о персональных данных GDPR — первый шаг в правильном направлении.

#исследование #технологии