Технологии

СМИ сообщили, что сайт Минобороны РФ удалили из выдачи Google. На самом деле сайт заблокировал сам себя для поисковика

Страница Минобороны возвращала необычный код «418 I’m a teapot». Он посвящен первоапрельской шутке 1998 года и означает, что сервер не может приготовить кофе, потому что он чайник.

5 апреля в СМИ появилась информация, что Google убрал из выдачи сайт Министерства обороны России — он не отображался при вводе запросов на русском или английском языках. Роскомнадзор потребовал от администрации поисковой системы восстановить в поисковой выдаче сайт ведомства и объяснить причины введения ограничений.

Компания заявила, что не причастна к исчезновению портала из выдачи, предположив, что сама веб-страница блокирует системы Google и не позволяет им обнаружить её. Автор телеграм-канал «Мы и Жо» Александр Азмин убедился, что это действительно так.

Для того, чтобы поисковик проиндексировал сайт, нужно, чтобы робот поисковой системы мог зайти на страницу и увидеть примерно то же, что и обычный человек. Дальше он индексирует страницу — то есть помещает её в базу, из которой извлекаются поисковые результаты.

Чтобы проверить, как отображается заголовок портала Минобороны для робота, можно зайти на сайт reqbin.com, который позволяет запустить из браузера программу curl — она позволяет скачивать сайты и понимать, что происходит на сервере. По умолчанию на сайте можно проверить отклик для американских серверов — в США и находятся сервера Google.

Если вбить туда адрес TJ, то показывает статус отклика «200 (OK)» — это значит, что сервер вернул страницу. При переключении на вкладку Headers видно множество строчек.

В случае с сайтом Минобороны их всего четыре, при том в строке «Content-Length» написано «0» — это значит, что длина страницы равна нулю, а значит индексировать нечего.

Кроме того, страница возвращает необычный код 418. Он расшифровывается как «418 I’m a teapot», то есть «418 — я чайник». Этот код посвящен первоапрельской шутке 1998 года, вводящей стандарт гипертекстового протокола кофейников. Он означает, что сервер не может приготовить кофе, потому что он чайник.

На сайте reqbin.com также можно проверить отклик для немецких серверов: им сайт Минобороны РФ возвращает код «200 (OK)» и страница отдается нормально.

Получается, что немецкий робот видит заголовок страницы Минобороны РФ и может её проиндексировать, а американский — нет, ведь он индексирует сайты, а не чайники.

Вероятно, вебмастера mil.ru сами заблокировали себя в Google, замаскировавшись под чайник для американских роботов, пытающихся получить доступ к контенту. Вполне возможно, что это часть защиты от DDoS-атак.

#новости #сайты #google