Пожар в ЦОДе
Incident Report for Mindbox
Postmortem

Что произошло:

С 16:53 5 июня до 7:58 6 июня, суммарно 15 часов, все сервисы Mindbox были недоступны.

Из-за пожара в ЦОДе не работала сетевая инфраструктура провайдера.

По предварительной версии, причиной возгорания кровли стало короткое замыкание в кабеле внешнего блока системы кондиционирования. В пожаре были повреждены фреонопроводы, в результате пострадала система кондиционирования одного из залов, в котором располагалось сетевое оборудование провайдера.

Резервного ЦОДа у нас нет. При оценке экономики резервирования на уровне ЦОДа мы рассчитывали вероятность гибели ЦОДа как невысокую, и это действительно первый такой случай за 10 лет сотрудничества. Такое решение позволило предоставлять услуги по более выгодным тарифам.

Мы начнем двигаться к катастрофоустойчивости в январе 2020г, разместив часть оборудования в другом ЦОДе. Рассчитываем что в течение 2020г., мы наберем достаточно мощности в резервном ЦОДе чтобы переживать подобные отказы без снижения показателей доступности.

Из-за неэффективности координации охраны и менеджмента ЦОД недоступность продлилась на три часа дольше, чем могла бы. По этому поводу мы донесем нашу обратную связь до ЦОД и постараемся добиться улучшений.

Таймлайн:

14:00 Произошло возгорание кровли дата-центра

16:18 ЦОД сообщил нам о пожаре и о возможном отключении услуг, мы убедились что бэкапы в порядке и предупредили клиентов.

16:45 Пожар ликвидирован

16:53 Оборудование провайдера отключилось от перегрева, сервисы Mindbox стали недоступны. Наш сотрудник поехал в ЦОД, чтобы проконтролировать на месте восстановление после отсутствия сети.

18:00 Сотрудник прибыл в ЦОД, но никого не пускали.

21:00 Получили информацию, что восстановление займет еще несколько часов. Получили доступ к оборудованию, убедились, что физически оборудование не пострадало. Сотрудник поехал домой. Установили ночное дежурство, чтобы максимально оперативно проконтролировать работоспособность при включении сети.

23:30 Сотрудники ЦОДа связались с нами, начали чинить сеть

01:30 Наш инженер выехал в цод, но не смог попасть внутрь, так как не работала система управления доступом, а охрана отказалась пропускать без менеджера. Эскалировать не получилось. Инженер поехал домой.

04:45 ЦОД утверждает, что авария полностью устранена. У нас по прежнему ничего не работает.

06:20 Система доступа в ЦОД починена, инженер снова выехал в ЦОД

07:40 Обнаружили, что сетевые порты в сторону провайдера заблокированы через LoopGuard, видимо в процессе починки случилась петля с провайдером

07:57 Порты разблокированы, работоспособность восстановлена

План шагов по улучшению:

Научимся переживать отказы на уровне ЦОДа

  • Следующую стойку (по плану в январе) арендуем в другом ЦОДе, по возможности - у другого провайдера.

  • Спроектируем инфраструктуру так, чтобы поддерживать функционирование в трех цодах одновременно, и по мере роста требований по нагрузке будем распределять стойки по ним равномерно.

  • Напишем подробный план восстановления в случае отказа ЦОДа и введем ежегодное тестирование отказа

  • Напишем подробный план построения инфраструктуры с нуля и восстановлением данных из бэкапов на случай полной гибели инфраструктуры

Продолжим улучшать архитектуру системы чтобы иметь возможность выносить ключевые компоненты в облако

По результатам прошлого инцидента мы изолировали мониторинг от основного продакшена, что в этот раз позволило очень быстро убедиться, что все сервисы поднялись после отказа.

В рамках развития микросервисной архитектуры рассматриваем возможность вынести кликтрекинг и редирект ссылок в письмах в облако, чтобы гарантировать работоспособность ссылок для клиентов даже в случае подобной аварии.

Следующая самая важная цель по надежности и отказоустойчивости - сервисы процессинга. В ближайший год планируем проинвестировать в улучшение показателей отклика и доступности этих сервисов, мы понимаем, как важно, чтобы кассы и чекаут на сайте работали без перебоев.

Posted Jun 10, 2019 - 14:23 UTC

Resolved
Работоспособность восстановлена.

Отчет по инциденту доступен по клику на название.

По всем вопросам обращайтесь к менеджеру.
Posted Jun 06, 2019 - 05:08 UTC
Update
К сожалению, пока связь не восстановлена. Провайдер говорит, что глобально все проблемы решены, остались локальные трудности у некоторых клиентов.

Наш инженер с утра в ЦОДе и работает вместе с провайдером надо восстановлением.

Обновим статус в течение часа.
Posted Jun 06, 2019 - 04:51 UTC
Update
Мы наконец получили физический доступ в ЦОД, проверили все оборудование - все в норме и работает. Данные клиентов не пострадали.

Как только провайдер починит сеть и доступ к интернету - продолжим оказание услуг.

Вернемся с обновлением, как только будет новая информация. Если не будет - обновим статус с утра.
Posted Jun 05, 2019 - 19:16 UTC
Update
Получили более детальную информацию:
Из-за пожара на крыше частично отказала система охлаждения. В результате в зале, где стоит сетевое оборудование провайдера существенно поднялась температура, и оборудование аварийно отключилось.
Сейчас ведутся работы по восстановлению питания и охлаждения, для того чтобы запустить сетевое оборудование.

Точные сроки назвать не могут, есть вероятность, что недоступность продлится до утра.

Мы будем дежурить 24x7 до тех пор, пока связь не будет восстановлена, чтобы максимально быстро проверить работоспособность всех систем.

Вернемся с обновлением, как только будет новая информация. Если не будет - обновим статус с утра.
Posted Jun 05, 2019 - 18:45 UTC
Update
Сотрудники ЦОДа сообщают, что восстановление займет еще 1-2 часа.

Вернемся в течение 2х часов.
Posted Jun 05, 2019 - 17:05 UTC
Update
We are continuing to work on a fix for this issue.
Posted Jun 05, 2019 - 16:30 UTC
Update
Инженеры продолжают восстановление. Мы на связи с менеджером и надеемся что скоро все починят.
Наш сотрудник в ЦОДе ожидает, когда разрешат войти, чтобы убедиться что все функционирует.

Вернемся в течение часа.
Posted Jun 05, 2019 - 15:57 UTC
Update
Инженеры ЦОДа восстанавливают сетевую инфраструктуру.
Сроков, к сожалению, пока нет.

Обновим статус в течение часа.
Posted Jun 05, 2019 - 14:37 UTC
Identified
В 16:45 пожар устранили, но инфраструктура пока недоступна.

Обновим статус в течение часа.
Posted Jun 05, 2019 - 13:54 UTC
Investigating
Мы получили информацию, что в нашем ЦОДе пожар, его сейчас ликвидируют.

С большой долей вероятности все сервисы будут недоступны в ближайшее время.

В течение часа обновим статус по ситуации.
Posted Jun 05, 2019 - 13:26 UTC
This incident affected: Процессинг, Javascript API, Визуальный конструктор писем, Отправка Email, Отправка SMS, Open/Click трекинг в Email, Административная панель, and Рекомендации на сайте.