Глобальный сбой у облачных серверов Amazon: «упали» Slack, Asana, Trello и многие другие сервисы

Сервисы, в том числе нужные для рабочей коммуникации, были недоступны более двух часов. Это третий сбой за месяц.

22 декабря пользователи соцсетей обратили внимание на сбой в работе облачного хостинга Amazon EC2 и системы развёртывания веб-приложений Beanstalk.

По данным сайта мониторинга Amazon Web Services, в 10 часов утра по московскому времени произошёл сбой в работе службы Amazon Beanstalk.
Около 15 часов по московскому времени начал сбоить облачный хостинг Amazon. Консоль управления виртуальными машинами и API виртуализации оказались недоступны части клиентов. Неполадки повлекли за собой ошибки в работе популярных сайтов, размещённых в «облаке» корпорации.
В 14:50, по данным Downdetector, начались трудности в работе стримингового сервиса Hulu, издателя компьютерных игр Epic Games, образовательного сайта Udemy, компании McDonalds, а также сайтов для рабочей коммуникации Asana, Slack, Trello и многие другие. Пострадали в общей сложности сервисы 22 крупных интернет-компаний. Downdetector получил более двух тысяч отчётов о сбоях.
По информации службы мониторинга Amazon, сбой коснулся серверов, размещённых в центре обработки данных, который находится в Северной Каролине. В 15 часов компания уточнила, что сбой произошёл из-за отключение электроэнергии и коснулся пользователей из зоны доступности USE1-AZ4, в регионе US-EAST-1 (восточное побережье США).
Клиенты облачного хостинга Amazon не могли использовать некоторые копии виртуальных машин EC2 и испытывали трудности с доступом к API службы виртуализации RunInstances. Эти ошибки спровоцировали проблемы в работе сайтов и веб-приложений.
В 15:21 служба Beanstalk заработала в штатном режима, а в 16:18 Amazon сообщила, что питание части устройств в её дата-центре восстановлено — «число ошибок API снижается до приемлемого уровня».
В 17:51 работоспособность облачного хостинга была «почти полностью» восстановлена. При этом некоторые клиенты Amazon всё ещё испытывают затруднения.

Мы восстановили питание всех виртуальных машин и сетевых устройств в пострадавшем центре обработки данных и наблюдаем восстановление большинства машин EC2 и томов EBS в пострадавшей зоне доступности. С остальными экземплярами EC2 возникают некоторые проблемы подключением к сети, что замедляет полное восстановление.

Мы думаем, что нашли причину произошедшего, и работаем над решением. После устранения неполадок мы ожидаем более быстрого восстановления оставшихся EC2 и EBS. Если вы сможете перезапустить экземпляры EC2 в пострадавшей зоне доступности, это может ускорить восстановление.

Обратите внимание, что перезапуск экземпляра на этом этапе не поможет, поскольку перезапуск не повлияет на настройки оборудования. Некоторые тома EBS всё ещё испытывают имеют низкую скорость ввода-вывода, мы работаем над восстановлением их производительности. Большинство сервисов AWS работают штатно, но сервисы размещения конечных точек в VPC клиентов, например, базы данных RDS с одним пользователем (ElasticCache, Redshift и так далее) работают с затруднениями, поскольку мы пока их полностью не восстановили.

Amazon

Это третий крупный сбой в работе облачных сервисов Amazon: хостинг компании был недоступен 7 и 15 декабря. Трудности испытывали Netflix, Disney+ и другие сервисы.

#новости #amazon #хостинг