Технологии
Roman Slobodyanyuk

«Яндекс» по человеческой ошибке безвозвратно удалил часть виртуальных машин пользователей в своём облаке

Компания извинилась, но некоторые данные не вернуть.

16 мая по ошибке одного из сотрудников «Яндекса» в сервисе компании «Яндекс.Облако» безвозвратно удалились некоторые виртуальные машины пользователей в зоне «ru-central1-c». Об этом сообщил один из пользователей «Пикабу».

По словам пострадавшего, он заметил, что у него удалились «продакшн-сервера», но никакого предупреждения он не получил. Он написал техподдержку сервиса, где ему ответили, что в ходе технических работ из-за человеческого фактора были удалены виртуальные машины пользователей в зоне «ru-central1-c», которые хоть раз находились в статусе «suspended».

Сотрудник техподдержки «Яндекса» уточнил, что они остановили удаление после обнаружения ошибки, но некоторые виртуальные машины и их «загрузочные диски» были безвозвратно удалены.

Пользователь Пикабу уточнил, что за 10 лет он ни разу не столкнулся с человеческим фактором при использовании серверов Amazon. По его словам, у него остались резервные копии серверов на «Яндекс.Облаке», но часть данных всё равно утеряна.

Позже пострадавшему пользователю позвонил руководитель направления в «Яндекс.Облаке». В компании уточнили, что восстановление возможно, только если были сделаны «снимки» дисков.

Позвонил руководитель направления. Если кратко: у нас говнокод, программисты совершают ошибки, из-за этого потерялись данные. Просим понять и простить.

В блоге компании руководитель платформы «Яндекс.Облако» Ян Лещинский заявил, что 16 мая в сервисе проводились регулярные технические работы по удалению виртуальных машин в облаках пользователей, заблокированных из-за неоплаты или нарушения правил использования сервиса. По словам Лещинского, это стандартная процедура по высвобождению ресурсов «Облака».

Руководитель «Яндекс.Облака» уточнил, что выполнение команды по удалению остановили через 5 минут. В сервисе выяснили, что при формировании списка был применён неверный принцип фильтрации, из-за чего в список попали активные виртуальные машины. Лещинский уточнил, что в результате инцидента удалились 0,77% от общего числа виртуальных машин и «загрузочных дисков» в зоне «ru-central1-c».

Мы не считаем это рядовой ситуацией. Для нас важен каждый пользователь, и мы осознаём свою полную ответственность за надежность нашей платформы.

Ян Лещинский

Лещинский заявил, что для предотвращения подобных инцидентов в сервисе разделят остановку и удаление виртуальной машины и её дисков в рамках процедуры блокировок облаков, а промежуток между этими операциями будет составлять минимум неделю. Также при удалении диска будет автоматически создаваться его копия, которая позволит восстановить данные.

По словам Лещинского, в качестве компенсации, снимки дисков пострадавших пользователей не будут тарифицироваться в течение 90 дней, а им также начислят «гранты», размер которого определят индивидуально.

Мы хотим принести извинения каждому, кого затронул технический сбой в работе «Облака». На данный момент наша техническая поддержка работает в формате горячей линии, и мы оперативно помогаем каждому пользователю.

Ян Лещинский

#новости #яндекс