С 16:53 5 июня до 7:58 6 июня, суммарно 15 часов, все сервисы Mindbox были недоступны.
Из-за пожара в ЦОДе не работала сетевая инфраструктура провайдера.
По предварительной версии, причиной возгорания кровли стало короткое замыкание в кабеле внешнего блока системы кондиционирования. В пожаре были повреждены фреонопроводы, в результате пострадала система кондиционирования одного из залов, в котором располагалось сетевое оборудование провайдера.
Резервного ЦОДа у нас нет. При оценке экономики резервирования на уровне ЦОДа мы рассчитывали вероятность гибели ЦОДа как невысокую, и это действительно первый такой случай за 10 лет сотрудничества. Такое решение позволило предоставлять услуги по более выгодным тарифам.
Мы начнем двигаться к катастрофоустойчивости в январе 2020г, разместив часть оборудования в другом ЦОДе. Рассчитываем что в течение 2020г., мы наберем достаточно мощности в резервном ЦОДе чтобы переживать подобные отказы без снижения показателей доступности.
Из-за неэффективности координации охраны и менеджмента ЦОД недоступность продлилась на три часа дольше, чем могла бы. По этому поводу мы донесем нашу обратную связь до ЦОД и постараемся добиться улучшений.
14:00 Произошло возгорание кровли дата-центра
16:18 ЦОД сообщил нам о пожаре и о возможном отключении услуг, мы убедились что бэкапы в порядке и предупредили клиентов.
16:45 Пожар ликвидирован
16:53 Оборудование провайдера отключилось от перегрева, сервисы Mindbox стали недоступны. Наш сотрудник поехал в ЦОД, чтобы проконтролировать на месте восстановление после отсутствия сети.
18:00 Сотрудник прибыл в ЦОД, но никого не пускали.
21:00 Получили информацию, что восстановление займет еще несколько часов. Получили доступ к оборудованию, убедились, что физически оборудование не пострадало. Сотрудник поехал домой. Установили ночное дежурство, чтобы максимально оперативно проконтролировать работоспособность при включении сети.
23:30 Сотрудники ЦОДа связались с нами, начали чинить сеть
01:30 Наш инженер выехал в цод, но не смог попасть внутрь, так как не работала система управления доступом, а охрана отказалась пропускать без менеджера. Эскалировать не получилось. Инженер поехал домой.
04:45 ЦОД утверждает, что авария полностью устранена. У нас по прежнему ничего не работает.
06:20 Система доступа в ЦОД починена, инженер снова выехал в ЦОД
07:40 Обнаружили, что сетевые порты в сторону провайдера заблокированы через LoopGuard, видимо в процессе починки случилась петля с провайдером
07:57 Порты разблокированы, работоспособность восстановлена
Следующую стойку (по плану в январе) арендуем в другом ЦОДе, по возможности - у другого провайдера.
Спроектируем инфраструктуру так, чтобы поддерживать функционирование в трех цодах одновременно, и по мере роста требований по нагрузке будем распределять стойки по ним равномерно.
Напишем подробный план восстановления в случае отказа ЦОДа и введем ежегодное тестирование отказа
Напишем подробный план построения инфраструктуры с нуля и восстановлением данных из бэкапов на случай полной гибели инфраструктуры
По результатам прошлого инцидента мы изолировали мониторинг от основного продакшена, что в этот раз позволило очень быстро убедиться, что все сервисы поднялись после отказа.
В рамках развития микросервисной архитектуры рассматриваем возможность вынести кликтрекинг и редирект ссылок в письмах в облако, чтобы гарантировать работоспособность ссылок для клиентов даже в случае подобной аварии.
Следующая самая важная цель по надежности и отказоустойчивости - сервисы процессинга. В ближайший год планируем проинвестировать в улучшение показателей отклика и доступности этих сервисов, мы понимаем, как важно, чтобы кассы и чекаут на сайте работали без перебоев.