Деградация производительности api.mindbox.ru в течение 15 минут
Incident Report for Mindbox
Resolved
В течение 15 минут с 12:03 до 12:17 наблюдались таймауты вызовов api.mindbox.ru. Проблема была связана с отказом балансировщика. Сейчас работоспособность сервиса полностью восстановлена, мы работаем над улучшением резервирования и мониторинга.

----

Апдейт:

Что произошло:

Мы заменяли SSL сертификаты на балансировщиках - у старых истекает срок действия. После замены нагрузка на балансировщик выросла в два раза. Это связано с тем, что новые сертификаты сгенерированы с длиной ключа 4096 бит, а старые - с 2048 бит. В результате установка безопасного соединения потребляла в два раза больше ресурсов - а это основная нагрузка на балансировщике. В результате балансировщик не справился с нагрузкой и часть запросов не обрабатывалась.

Что улучшили:

Откатили изменения, увеличили количество балансировщиков, обновили сертификаты.
Прорабатываем план дальнейших улучшений, в частности:
- Улучшение горизонтального масштабирования балансировщиков
- Ужесточения порогов мониторинга нагрузки
- Автоматическое обнаружение перегруженных серверов и вывод их из кластера - это поможет существенно сократить время недоступности и время обнаружения.
Posted Feb 19, 2020 - 10:31 UTC
This incident affected: Процессинг and Javascript API.