Недоступность сервисов mindbox для 20% клиентов в течение часа
Incident Report for Mindbox
Postmortem

Апдейт:

На основном сервере в ферме закончились свободные TCP порты и сервер перестал принимать новые соединения. В течение первых минут инцидента дежурный переключил продакшн на резервный сервер, однако из за большого количества соединений он так же отказал. С этим связано долгое время недоступности.

Мы связываем отказ с тем, что из за неоптимального алгоритма распределения проектов по фермам на сервере оказалось очень много небольших демо-проектов. После восстановления доступности проекты были разнесены по другим фермам, проблемная ферма была сбалансирована.

Что улучшили:

  • изменили алгоритм распределения новых проектов по фермам
  • ужесточили алерт на количество проектов на одной ферме
  • улучшили мониторинг количества свободных портов
  • улучшили инструкцию переключения реплик
Posted Apr 17, 2020 - 09:18 UTC

Resolved
В течение часа с 14:30 до 15:30 сервисы mindbox были недоступны для 20% клиентов. Недоступность связана с отказом одной из ферм баз данных. Сейчас работоспособность полностью восстановлена.

Вернемся с детальным разбором инцидента и следующих шагов в течение недели.
Posted Apr 01, 2020 - 12:30 UTC