Облако 1cloud оперативно преодолело последствия аварии в ЦОД’е

16 февраля в центре обработки данных Xelent случился аварийный сбой электропитания. Он затронул большое число компаний, оборудование которых размещено там.

Центры обработки данных (ЦОД) — надёжное место для размещения компьютерного оборудования. Действительно надёжное! Сертифицированные ЦОД’ы гарантируют нормальные условия работы в течение 99,9% и даже 99,99% времени. А это соответствует, максимально, всего 9 часам простоя в год (одному часу, в случае четырёх девяток).

Но в реальном мире аварии всё-таки случаются. Такая авария произошла в прошлую пятницу в центре обработки данных Xelent. Несмотря на то, что сбой по питанию был очень коротким, он нарушил штатную работу оборудования многих компаний, использующих этот центр обработки данных. Среди них была и наша компания 1cloud.

Мы обеспечиваем работу виртуальной компьютерной инфраструктуры большого числа конечных потребителей. Последствия аварии коснулись лишь некоторых из них, так как в облаке 1cloud используется несколько ЦОД’ов. Вычислительные ресурсы, находящиеся в других центрах обработки данных, не были нарушены.

Никакое оборудование повреждено не было. Проблемы носили логический характер и устранялись перезапуском и дополнительной системной настройкой.

Сразу после обнаружения аварии служба технической поддержки 1cloud начала принимать меры по устранения её последствий.

Хронология была следующей:

2018-02-16 15:43 - Обнаружена аварийная ситуация
2018-02-16 15:45 - Начаты восстановительные работы
2018-02-16 16:27 - Восстановлена работа оборудования провайдеров магистральных каналов в интернет
2018-02-16 16:39 - Начато восстановление виртуальной инфраструктуры клиентов
2018-02-16 16:55 - Восстановлена работа сайта 1cloud.ru и панели управления
2018-02-16 16:57 - Восстановлена штатная работа 30% клиентских серверов в Санкт-Петербурге
2018-02-16 17:30 - Восстановлена штатная работа 50% клиентских серверов в Санкт-Петербурге
2018-02-16 18:20 - Восстановлена штатная работа 80% клиентских серверов в Санкт-Петербурге
2018-02-16 19:40 - Восстановлена штатная работа всех клиентских серверов, расположенных в ЦОД "Санкт-Петербург"
2018-02-16 23:49 - Полностью восстановлена штатная работа панели управления
2018-02-17 03:15 - Последствия аварии полностью устранены.

На лицевые счета клиентов, которых затронула указанная авария, уже начислена компенсация в полном соответствии с нашим соглашением об уровне обслуживания (SLA).

Указанный инцидент будет глубоко проанализирован с целью недопущения подобных ситуаций в дальнейшем.