В течение 15 минут с 12:03 до 12:17 наблюдались таймауты вызовов api.mindbox.ru. Проблема была связана с отказом балансировщика. Сейчас работоспособность сервиса полностью восстановлена, мы работаем над улучшением резервирования и мониторинга.
----
Апдейт:
Что произошло:
Мы заменяли SSL сертификаты на балансировщиках - у старых истекает срок действия. После замены нагрузка на балансировщик выросла в два раза. Это связано с тем, что новые сертификаты сгенерированы с длиной ключа 4096 бит, а старые - с 2048 бит. В результате установка безопасного соединения потребляла в два раза больше ресурсов - а это основная нагрузка на балансировщике. В результате балансировщик не справился с нагрузкой и часть запросов не обрабатывалась.
Что улучшили:
Откатили изменения, увеличили количество балансировщиков, обновили сертификаты. Прорабатываем план дальнейших улучшений, в частности: - Улучшение горизонтального масштабирования балансировщиков - Ужесточения порогов мониторинга нагрузки - Автоматическое обнаружение перегруженных серверов и вывод их из кластера - это поможет существенно сократить время недоступности и время обнаружения.
Posted Feb 19, 2020 - 10:31 UTC
This incident affected: Процессинг and Javascript API.