Недоступность сервисов mindbox для 20% клиентов в течение часа

Incident Report for Mindbox

Postmortem

Апдейт:

На основном сервере в ферме закончились свободные TCP порты и сервер перестал принимать новые соединения. В течение первых минут инцидента дежурный переключил продакшн на резервный сервер, однако из за большого количества соединений он так же отказал. С этим связано долгое время недоступности.

Мы связываем отказ с тем, что из за неоптимального алгоритма распределения проектов по фермам на сервере оказалось очень много небольших демо-проектов. После восстановления доступности проекты были разнесены по другим фермам, проблемная ферма была сбалансирована.

Что улучшили:

изменили алгоритм распределения новых проектов по фермам
ужесточили алерт на количество проектов на одной ферме
улучшили мониторинг количества свободных портов
улучшили инструкцию переключения реплик

Posted Apr 17, 2020 - 09:18 UTC

Resolved

В течение часа с 14:30 до 15:30 сервисы mindbox были недоступны для 20% клиентов. Недоступность связана с отказом одной из ферм баз данных. Сейчас работоспособность полностью восстановлена.

Вернемся с детальным разбором инцидента и следующих шагов в течение недели.

Posted Apr 01, 2020 - 12:30 UTC