Интернет

Саша Кириллова 21 декабря 2021

Интернет умер, да здравствует интернет: как «вымирают» ссылки времён нулевых и кто борется за их сохранность

Сеть оказалась ненадёжным хранилищем, и многие данные утрачены безвозвратно — почему это случилось и можно ли как-то предотвратить.

Фото Getty

Представьте: вы ищете в интернете информацию об исполнителе, поднявшемся на вершину хит-парада летом 2001 года, или событии, произошедшем в конце весны 2002-го. Разумеется, вы заходите в «Википедию» и читаете общие сведения, но их недостаточно. Стремясь узнать больше, вы кликаете по всем ссылкам в конце статей, но раз за разом попадаете на неработающие сайты.

Всё дело в том, что интернет нулевых мёртв. Стараясь найти источники событий тех времён, вы словно идёте по кладбищу: здесь выдаёт ошибку, тут — просрочен домен, там — вообще ничего никогда не было. Казалось, что все загруженные в сеть фотографии и записи останутся в ней навсегда, но теперь ссылки начала века либо бесследно исчезли, либо работают только через веб-архив.

Что происходило в интернете нулевых и как умирали известные всем сайты

20 лет назад интернет выглядел совершенно иначе: сайты отличались пестротой, фоновой музыкой и большим количеством анимации. Тогда уже работал «Яндекс» (правда, выглядел совсем не так), но необходимую информацию пользователи искали ещё и через Aport и Rambler, общались в комнатах чата «Кроватка» и читали новости на «Вебпланете».

Перечисленные сайты (опять же кроме «Яндекса» и «Рамблера») уже не работают. Если перейти по ссылке aport.ru, то можно увидеть не поисковик, а прайс-агрегатор, похожий на «Яндекс.Маркет». В таком виде он существует с 2012 года, когда компанию за 150 тысяч долларов выкупил директор сайта Mamba.ru Андрей Бронецкий.

«Кроватка» тоже мертва, по старой ссылке «висит» мемориальная табличка с надписью «Krovatka.ru. 1996-2020. Это было лучшее время». Сайт работал как онлайн-чат с 25 каналами, среди которых — «Знакомства», «Любовь», «Кому за 30», «Искусство» и «Компьютеры». За порядком следили модераторы, которые блокировали нарушающих правила пользователей.

Причины закрытия сайта не объявлялись, но в 2016 году один из его авторов Андрей Куля рассказывал «Секрету Фирмы», что с появлением соцсетей чат покинула «львиная доля пользователей». «Когда появился LiveInternet, люди начали уходить потихонечку, потом появился Skype. Аудитория всё равно была, но прекратился прогрессивный рост. Потом начали появляться соцсети — «ВКонтакте», «Одноклассники» — народ ушёл туда», — говорил он.

«Вебпланета», созданная Денисом Крючковым, позднее открывшим одно из крупнейших IT-сообществ «Хабрахабр», не обновляется ещё дольше. Интернет-издание закрылось в конце 2011 года. Причины решения не объявлялись, но, по данным Lenta.ru, дело в убыточности проекта. Главный редактор проекта Лёха Андреев сообщил изданию, что «всё живое тем и отличается, что когда-нибудь умирает».

Сайты нулевых закрываются каждый год — иногда целыми «пачками». В апреле 2019 года Google закрыл проработавшую восемь лет соцсеть Google+. Она обладала всеми типичными атрибутами, например, возможностью обновлять статус, размещать фотографии в ленте и созваниваться по видеосвязи. В первые недели после запуска в сервисе зарегистрировалось несколько миллионов пользователей, но соцсеть так и не стала популярной.

«Я открываю новостную ленту, но вижу пустую страницу, на которой ничего не происходит. Это огромная пустошь, которая отличается обилием зарегистрированных людей, так и не начавших использовать сервис, потому что они не разобрались в его работе», — писал журналист Forbes Пол Тасси вскоре после запуска платформы.

Владельцы обосновывали закрытие низкой популярностью сервиса и проблемами с защитой данных пользователей. Эксперты говорили, что соцсеть была неудобной: в Google+ постоянно менялся интерфейс, блокировались люди с псевдонимами и удалялись страницы брендов. Консультант по работе с соцсетями Мэтт Наварра отмечал, что из-за этого «незавидная участь сервиса была предрешена с первого дня».

Несколько проектов закрыла Yahoo: в 2001 году они прекратили работу интернет-радио Broadcast.com, существовавшего с 1995 года и выкупленного тремя годами ранее. Компания приобрела успешный проект с 570 тысячами пользователей, каждый из которых оценивался в десять тысяч долларов, но отключила сервис из-за спада популярности отрасли.

В мае 2021 года Yahoo закрыла один из старейших сервисов вопросов и ответов Yahoo Answers. Понятная аналогия для культуры рунета — это как если бы из сети безвозвратно удалили миллионы обсуждений с «Ответов Mail.ru». На сайт больше нельзя зайти — пользователям разрешили скачать часть вопросов и ответов по предварительной заявке, но и эту функцию закрыли уже в июне. При этом общий архив сервис создавать отказался. Причиной прекращения работы в Yahoo! назвали опять же падение популярности.

Исчезают и мессенджеры — естественно, вместе с хранящейся в них информацией. Яркий пример: браузерный клиент AOL, работавший ровно 20 лет, закрылся в декабре 2017 года. В прощальном письме вице-президент Oath Майкл Альберс признал, что с 1990-х годов средства общения изменились, а сам мессенджер проиграл борьбу SMS, WhatsApp и другим соцсетям.

Иногда утрата сайтов связана с историческими процессами: например, так произошло с Югославией. По словам директора института веб-науки при Саутгемптонском университете Дам Венди Холл, домен .yu являвшийся доменом верхнего уровня для Югославии, прекратил существование после распада страны. «Есть исследователь, который пытается восстановить то, что там было», — отмечает специалистка.

Как к полной или частичной потере данных приводит реформирование сайтов или неактивность пользователей

Иногда сайты не умирают, а модернизируются, что в лице пользователей выглядит как «частичная смерть»: во время реформирования исчезают целые разделы, а вместе с ними — информация. Так, например, произошло с MySpace: в 2019 году из-за неудачного переноса сервера исчезло всё содержимое профилей и вся музыка, загруженная до 2015 года.

Переживать о потере снимков пришлось и владельцам аккаунтов на Flickr и Webshots — но по причине смены владельцев. Когда в первую компанию пришёл SmugMug, пользователям предписали купить платную подписку или «расстаться» со всеми фотографиями, кроме последней тысячи. BuzzFeed предполагает, что в результате удалили «огромное количество фотографий», многие из которых выложили люди «не беспокоившиеся об их пропаже».

Webshots, успешно работавший в 2000-е годы как сервис для обмена фотографиями, компания American Greetings превратила в сайт обоев для рабочего стола. Пользователи только за два месяца узнали, что все их файлы удалят, если они не купят платный аккаунт. Такая же история случилась и с платформой с обзорами книг и музыки Xanga — в 2013 году сервис удалил блоги пользователей, которые не заплатили за pro-аккаунт.

Информация может пропадать из интернета и автоматически: это касается электронных почт и мессенджеров. Если не заходить в Telegram несколько месяцев, то он удалит учётную запись, а вместе с ней — все переписки и файлы. С ноября 2019 года такую же политику имеет и Twitter — аккаунт нужно не посещать полгода.

Почему «смерть интернета» — это проблема: для закона, науки и вообще всех сфер жизни

Исчезновение информации приводит к тому, что пользователи перестают доверять интернету и компаниям, которым принадлежат сайты. В случае нерентабельности, смены курса бизнеса или претензий со стороны государственных властей и крупных компаний твой профиль и всю информацию могут удалить без возврата.

Часто вымирание ссылок приводит к серьёзным последствиям — например, когда один сайт закрывается, а на его месте умышленно или случайно появляется другой. Всё это приводит к ситуации, когда нельзя быть уверенным в собственноручно проставленных ссылках.

В 2010 году американский судья Самуэль Алито высказал особое мнение касательно отмены запрета на продажу «жестоких» видеоигр детям в Калифорнии и сопроводил его ссылкой на подробное объяснение своего мнения. Вскоре после публикации текста все, кто перешли по ней, увидели совсем не то, что хотел судья.

«Разве вы не рады, что не процитировали эту веб-страницу в отчёте Верховного суда по делу Браун <...>. Если вы сделали это, как это сделал судья Алито, исходный контент давно бы исчез, и кто-то другой мог бы прийти и купить домен, чтобы прокомментировать быстроту связанной информации в эпоху интернета», — говорилось в сообщении по ссылке.

Вокруг «мёртвых» ссылок на крупных ресурсах выстроена целая теневая индустрия. Если такая ссылка ведёт на несуществующий сайт, то его могут «реанимировать» на заказ с тем же доменом и такой же адресацией до конкретной страницы. Но вместо оригинальной информации на этой странице могут разместить рекламу или страницу с прямо противоположной информацией.

Но это только один из примеров. По данным исследования, опубликованного в Harvard Law Review в марте 2014 года, 50% ссылок из судебных заключений Верховного суда с 1996 года, когда гиперссылку использовали впервые, больше не работают. Тоже самое произошло и с Harvard Law Review: учёные выяснили, что 75% ссылок из журнала нельзя открыть.

Журналисты The Atlantic и The New York Times проанализировали около двух миллионов внешних ссылок, публиковавшихся в статьях на сайте NYT, и выяснили, что 25% из них уже не работают. Чем старше статья, тем меньше вероятность, что из нее можно куда-то «перейти»: в материалах 1998 года не работают 72% ссылок.

Процент «умерших» ссылок (кирпичный цвет) в статьях The New York Times по отношению к пока ещё работающим (светло-салатовый цвет) Изображение Columbia Journalism Review

Такая ситуация приводит к разрыву цепочек информации, которыми и силён интернет в его идеальном виде. Зайдя на какой-либо сайт, вы можете перейти на другой сайт, а затем ещё один, тем самым находя истоки, причины и источники любого знания. Исчезновение ссылок нарушает такой порядок и часто затрагивает, например, специальное научное знание. Ситуация осложняется тем, что от бумажных аналогов хранения информации повсеместно отказываются, сосредотачиваясь на цифровом формате.

Например, как выяснили учёные из Принстонского университета ещё в 2001 году, количество URL-адресов в научных статьях растёт с каждым годом, но 53% из них не работают. Работа от 2014 года, объединившая 3,5 миллиона статей о науке и технологиях, показала, что каждая пятая из них не указывает на первоначальный источник.

Вымирание ссылок нарушает целостность и доказательную базу научных исследований. Учёным сложно на это повлиять, потому что за сохранность ресурсов ответственность несут не они, а владельцы сайтов. Попытки бороться самостоятельно сводятся к малоэффективным решениям: например, в журнале Cancer Research запрещено ставить ссылки на URL, а в российских изданиях обязательно ставить метку о дате последнего обращения к ресурсу.

Масштаб исчезновения ссылок показательно демонстрирует проект The Million Dollar Homepage Алекса Тью. 21-летний студент создал его в августе 2005 года, чтобы собрать деньги на обучение. На сайте с сеткой 1000 на 1000 пикселей за один доллар продавались места для ссылок. Все пиксели продали за 138 дней, но к 2014 году 22% из них вели уже на мёртвые веб-страницы.

Проблема исчезновения ссылок касается и TJ — статьи, вышедшие в первые годы существования сайта, доступны, но в них нет фотографий. Всё из-за переезда картинок на другой сервер. Например, можно показать текст про проект «Миллион пикселей», вышедший в марте 2014 года, но виджет получится некрасивый — именно из-за отсутствия иллюстраций.

Главная причина вымирания веб-страниц— децентрализация интернета. За сохранность информации ответственны владельцев конкретных сайтов, которые закрывают их, меняют структуру и ссылки, а иногда — просто забывают обновлять регистрацию домена.

Контент становится недоступен и в результате преднамеренных действий: например, в 2015 году BuzzFeed удалил более тысячи материалов, на которые жаловались рекламодатели и партнёры. Это коснулось статей с критикой рекламного контента компаний Axe, Microsoft Internet Explorer и Twitter.

Материалы СМИ, а иногда и целые сайты удаляют по требованию органов власти: например, летом в России заблокировали издания «МБХ Медиа» и «Открытой России», а «Проект» признали «нежелательной организацией». Из-за статуса последнего издания другие СМИ вынуждены удалять материалы со ссылками на его статьи по требованию Роскомнадзора.

Вымирание ссылок входит в сценарий «цифрового тёмного века» — теории, при которой из мира исчезнут все электронные данные, не имеющие бумажных эквивалентов. Концепция появилась ещё в 1990-е и отсылает к эпохе средних веков, отличавшейся почти полным отсутствием письменных свидетельств. Главный аргумент теории заключается как раз в том, что все цифровые данные постоянно исчезают.

Компьютерный терминал с лазерным диском, содержащим информацию из проекта «Би-би-си» «Судный день» Фото «Би-би-си»

Например, в 1986 году «Би-би-си» запустил проект «Судный день» в честь 900-летия книги Страшного суда — свода материалов, собранных по приказу Вильгельма Завоевателя про владения его королевства. Издание попросило жителей Великобритании задокументировать родные города — в акции поучаствовало более миллиона человека, они собрали фотографии, карты и видео-туры. Но к началу 2000-х годов оказалось, что все физические носители проекта сломаны или утеряны, а данные — утрачены.

Примечательно, что оригинальная Книга Страшного суда из 1086 года не потеряна, а хранится в государственном архиве в Кью и доступ к ней может получить любой желающий. «Иронично, что 15-летняя версия нечитаема, а древняя — всё ещё пригодна для использования. Нам повезло, что Шекспир не писал на старом ПК», — отмечал в разговоре с The Guardian компьютерный специалист Пол Уитли.

Какими способами пытаются спасти цифровые данные от исчезновения

Перспектива потерять всю цифровую информацию не вдохновляет человечество, поэтому общество пытается решить проблему хранения данных. В 1997 году опубликовали международный стандарт OAIS, определяющий подходы и решения в области электронного архивирования. Вслед за ним приняли ещё несколько документов, среди которых — Trusted Digital Repository, Digital Preservation Network (DPN), InterPARES Project и PRONOM.

Стандарты установили семь главных стратегий архивирования цифровых материалов:

консервации (работы с оригинальным форматами и носителями);
эмуляции (восстановления функциональности устаревших систем для работы с устаревшими форматами);
инкапсуляции (включения технического описания документа в состав самого цифрового объекта);
миграции (переноса на другие носители, например, с магнитной ленты на компакт-диск);
цифровой археологии (спасения устаревших или повреждённых цифровых объектов);
обновления (переноса с одного долговременного носителя на другой в качестве предупреждения потери данных);
веб-архивирования (сбора, сохранения и извлечения сайтов из интернета и перенос их в электронный архив).

Самый любопытный объект для сохранения информации — «Арктический мировой архив», открытый в марте 2017 года на архипелаге Шпицберген. В бункере, именуемом СМИ «вторым Хранилищем судного дня», находятся резервные данные на случай, если оригиналы повредятся из-за войн или стихийных бедствий.

Фото National Geographic

Вся информация хранится в убежище на сверхстойкой плёнке, покрытой порошком из оксида железа. По данным производителя, она способна выдержать до 750 лет в нормальных условиях и до двух тысяч лет в пещере с низким содержанием кислорода.

В октябре 2019 года компания Microsoft начала перенос всего исходного кода с GitHub в «Хранилище судного дня». На первую бобину записали код операционных систем Linux и Android и шесть тысяч других важных open-source приложений. К июлю 2020 года весь архив сайта размером в 21 терабайт (или 186 катушек) перенесли в бункер.

Шкаф с резервной копией данных на плёнке Фото Bloomberg Businessweek

Кто такие веб-архивисты и как они пытаются остановить вымирание ссылок

Сохранением непосредственно ссылок и сайтов занимаются веб-архивисты. Первым на проблему «смерти ссылок» обратил внимание Брюстер Кейл. Ещё обучаясь в Массачусетском технологическом институте он не принимал закрытость информации: чтобы попасть в юридическую библиотеку Гарварда и получить доступ к делам для своей работы, он использовал удостоверение профессора.

В 1996 году Кейл основал некоммерческую организацию Internet Archive, целью которой стало сохранение находящихся в интернете знаний. По его словам, главная сложность заключается в том, что в сети всё постоянно меняется: средний срок жизни веб-страниц составляет 90 дней, после которых они изменяются или исчезают.

Брюстер Кейл Фото «Архива Интернета»

Первые пять лет доступ к информации имела только администрация сервиса — все данные хранились на серверах «Архива». С 2001 года архивисты открыли доступ к сохранённым данным всем желающим. Первоначально организация работала только как веб-архив, но постепенно там стали сохранять книги, аудио, тексты Open Library и ПО. На декабрь 2021 года в архиве находится более чем 635 миллиардов страниц.

Веб-страницы сохраняются с помощью сервиса Wayback Machine, «паук» которого регулярно исследует доступные сайты и сохраняет их на специализированных серверах. Каждая новая копия страницы не перезаписывает предыдущую, а сохраняется отдельно с указанием даты добавления. Ссылки можно добавлять и вручную, если «паук» не добрался до нужной страницы.

Internet Archive известен несколькими крупными проектами: например, в 2000 году архивариусы вместе с Библиотекой Конгресса собрали информацию о политических кампаниях кандидатов на выборах президента США, а в 2001-м — о теракте в Нью-Йорке. Интересны и две коллаборации с «Википедией»: с заменой нескольких миллионов мёртвых ссылок на архивные копии и разработкой функции предпросмотра книг.

Хранение обеспечивается с помощью системы зеркальных сайтов, расположенных в отдалённых друг от друга местах. Все файлы сохраняются в формате ARC. Копии Wayback Machine находятся в Сан-Франциско, Ричмонде, Александрии и Амстердаме.

Фото «Архива Интернета»

Какую часть интернета удалось сохранить архивистам, неизвестно. «Я бы выглядел идиотом [если бы попытался оценить]. Потому что никто не может точно определить размер интернета. Бесполезно беспокоиться о том, что вам неподвластно», — говорит Брюстер Кейл.

Работа «Архива» изменила отношение к ссылкам в интернете — в мире стало появляться множество программ по архивированию сайтов. К процессу массово подключились государственные организации — например, Библиотека Конгресса и национальные библиотеки Австралии, Швеции и Норвегии. В 2013 году Европейский союз запустил проект EU web archive, где сохраняются сайты ЕС.

Веб-архив Библиотеки Конгресса сохраняет миллиарды объектов — от сайтов правительства США до культурно значимых мемов. Уже более 20 лет этим занимается Эбби Гротке — руководитель группы веб-архивирования. «Мы просто пытаемся зафиксировать изменения во времени», — описывает свою деятельность специалистка.

Созданием архива сайтов российских организаций и учреждений с 2017 года занимается президентская библиотека. На периодической основе специалисты архивируют такие ресурсы, как сайты президента России и правительства России — копия создаётся каждый день.

Архивариус Джейсон Скотт Фото «Википедии»

Ещё одно крупное некоммерческое объединение энтузиастов — Archive Team — занимается сохранением частей интернета с 2009 года, когда компания Yahoo закрыла Geocities — веб-хостинг с сайтами пользователей. Проект создал историк технологий Джейсон Скотт, приводивший в числе причин «чувство гнева и бессилия», возникающее у пользователей.

Мы позволяем компаниям решать за нас, что выживет, а что умрёт. Но это не наша работа выяснить, что ценно и что значимо. Мы действуем на основе трёх добродетелей — ярости, паранойи и клептомании.

Джейсон Скотт

Первоочередная задача Archive Team — сохранить контент, размещённый на онлайн-сервисах из группы риска. Так специалисты занимаются архивированием, например, Yahoo! Video, Google Video, Splinder, Friendster, FortuneCity и сокращённых URL-ссылок. В ноябре 2019 года команда запустила инициативу «Twittering Dead» по сохранению твитов умерших людей. Заявки оставляют пользователи, передающие ссылки через Google-формы.

В Archive Team входят независимые пользователи и авторы. Процесс сохранения сайтов выглядит так: архивариусы загружают страницы в виртуальную машинную среду Warrior, после чего она появляется в хранилище The Internet Archive. В 2019 году «Архив Интернета» и Archive Team подписали соглашение о сохранении публичных постов с закрывшейся соцсети Google+. За первые четыре недели архивации специалисты собрали 1,56 петабайт данных.

Исполнительный директор института веб-науки при Саутгемптонском университете Дам Венди Холл подчёркивает важность архива: «Если бы не они, то у нас не было бы ни одного из ранних сайтов. Если бы Брюстер Кейл не создал архив и не начал сохранять ссылки, не дожидаясь разрешения, мы бы всё потеряли».

Работа веб-архивистов ценна ещё и тем, что они сделали то, чем должны были заниматься обычные архивы и национальные библиотеки — но «растерялись» из-за быстрого роста значимости интернета. «Британская библиотека должна иметь копию каждой местной газеты. Но когда газеты перешли из печати в сеть, архивирование приобрело другую форму. Являются ли эти веб-сайты таким же важным источником, как и предшествовавшие им газеты?», — спрашивает Венди Холл.

Сотрудник веб-архива Британской библиотеки Джейсон Веббер считает важной проблемой то, что, несмотря на усилия архивистов, «большая часть интернета нигде не хранится». «Сохранение интернета началось только через пять лет после появления первых веб-страниц. Не осталось ничего из той эпохи. А первая веб-страница, созданная в 1991 году, больше не существует, сохранённый в архиве вариант — её копия», — говорит специалист.

Цифровой мир очень эфемерен, мы смотрим на свои телефоны, материал на них меняется, и мы не задумываемся об этом. Но сейчас люди всё больше осознают, как много мы можем потерять.

Джейсон Веббер

#лонгриды #технологии #медиа #истории