Офтоп
Никита Лихачёв

Простой парень из Казахстана случайно преодолел барьер в 140 знаков

Все мы давным давно свыклись с ограничением в 140 символов в Твиттере. Однако простой парень из Казахстана случайным образом преодолел этот барьер.

Известно, что ограничение в 140 символов появилось в Твиттере изначально, когда проект задумывался как возможность послать публичное SMS небольшой группе людей. Однако по мере того, как проект приобретал популярность в онлайне, стало понятно, что 140 символов в SMS и 140 символов в интернете — не одно и то же. Если в SMS используются простые символы, длина которых равна одному байту, то в интернете могут иметь место более сложные последовательности. Например, слово café может быть закодировано последовательностью из 5 или 6 байтов (в зависимости от того, как кодировать диакритический знак), хотя визуально очевидно, что в слове всего 4 символа. Иначе говоря, процесс кодирования твита и учёта количества символов гораздо сложнее, чем кажется на первый взгляд.

8 ноября простой парень из Казахстана по имени Анатолий Ли (кореец по национальности) случайным образом обнаружил дыру в алгоритме кодирования Твиттера. Используя QIP 2010 как клиент для Твиттера, Анатолий имел возможность использовать различные кодировки для отправки сообщения. Ему пришла идея отправить в Твиттер слово «ALMATY», набранное не буквами, а математическими символами. Случайным образом отправив сообщение в кодировке CESU-8, он получил следующее сообщение:

Поскольку CESU-8 официально не является частью стандарта Юникод, оказалось, что сообщения, закодированные в CESU-8, некорректно, но обрабатываются Твиттером, однако веб-клиент требует отображать всё в кодировке UTF-8 (стандартной кодировке Юникода). Написанное Анатолием сообщение веб-клиент Твиттера исказил, и вместо каждого символа отобразилось сразу 12 знаков, и общая длина твита оказалась равной 1305 знаков. Ребята из Stack Exchange подробно разобрались в этом первом сообщении, и оказалось, что за цифрами скрываются следующие знаки: 

í µ í ³ í µ í ³ › í µ í ³ œ í µ í ³ í µ í ³ £ í µ í ³ ¨ í µ í ³ í µ í ³ › í µ í ³

Если использовать данные возможности польностью, можно отослать твит длиной 140×12=1680 знаков, но осмысленный текст всё равно ограничен длиной в 140 символов. Каждый может набрать такое сообщение у себя в QIP 2010, копируя символы из третьего столбца отсюда.

Сообщение стало настолько популярным, что за несколько дней разлетелось по всему свету. Видимо, поток забугорных реплаев был настолько большим, что пришлось объясняться по-английски.

Мы взяли интервью у Анатолия.

Анатолий Ли

Чем занимаешься? Работа с кодированием как-то связана с твоей работой?

Вовсе нет. Я простой юзер. который общается в соц.сетях, блоге и твитттере со своими друзьями. К IT я не имею никакого отношения. Я не ожидал такого даже, если честно. Все думают, что я взломал каким-то путем, но, как и отписывался в своём блоге через два часа как затвиттил, это все ради забавы. Мне было просто интересно посмотреть, как разлетится по всему миру твит. Результат превысил просто все ожидания. Цель была только в этом, ну и, конечно, чтоб закрыли дыру. Что они и сделали уже после этого случая.

Говорят, что это далеко не первый случай, когда превышен лимит в 140 символов. Твой твит — это рекорд или можно легко отправить и больше?

Я отправил больше тысячи символов, 1305. Кстати если посмотреть в нете все мои mentions, то первая волна — это Россия, я делал это ночью когда КЗ спал, но путем ретвитов некоторых казахстанцев дошел до России, вот тогда началось разрывание моего твиттера. И немного со всего мира. Но потом приутихло. Хотя ретвитты идут постоянно, их дня три назад было больше 1300, а вот через неделю начала писать Индия, на след. день Бразилия, Мексика, Израиль. Иногда, бывает, натыкаюсь на новости в нете про этот случай. И то когда в Твиттере указывают мой аккаунт.

А можно при помощи кодировки CESU-8 или какой-то другой зашифровывать осмысленные сообщения, длина которых будет больше 140 символов? Или возможен обход только технического ограничения?

А вот это вот нет, жаль, конечно. Но, думаю, и это когда-нибудь можно преодолеть. Прочитал Hackplayers (ресурс, по статье с которого я вышел на Анатолия — прим. ред.) корявым переводом Google. Они мне писали в твитте, только я никому на mentions не отвечал там. Потому что их очень много. Написали Пользователь Россия. Хотя у меня как бы явно написано в профайле месторасположение.

 

Больше скриншотов и комментариев Анатолия можно найти в его личном блоге (но нужно залогиниться, например, при помощи учётки Твиттера). Вообще, конечно, приятно, что головастые ребята со Stack Exchange пишут «I guess some Russian "hakers"», говоря про простого парня из Казахстана. Похоже, нас боятся, а значит, уважают.

 

А у вас кодировка полетела,
Никита Лихачев,
The Twitter Journal

#Статья