Проблема была связана с нештатным сбросом SSL сертификатов на нескольких web серверах. В 9 30 сервера были выведены из продакшна для починки. Сейчас сервера снова введены в строй, все работает штатно. 20.02 вернемся с разбором ситуации.
----
Апдейт:
В процессе регламентных работ на веб сервере по неустановленной причине после запуска скриптов изменились настройки SSL. В результате часть запросов заканчивалась ошибкой. Процент ошибочных запросов был недостаточный для срабатывания мониторинга, поэтому проблему обнаружили только утром, когда общее количество запросов увеличилось.
Что улучшили: - Сделали мониторинг настроек SSL на всех серверах - Ужесточили порог срабатывания мониторинга на процент ошибочных запросов - Дополнили чеклист работ на серверах скриптом проверки, который отлавливает данную ситуацию
Posted Feb 18, 2020 - 11:26 UTC
Update
We are continuing to work on a fix for this issue.
Posted Feb 18, 2020 - 08:23 UTC
Identified
С 2 часов ночи до 9:30 были проблемы с 1-3% обращений к синхронному API Mindbox, а также в работе административной панели.
Мы идентифицировали причину проблем, работаем над устранением и улучшением мониторинга.
Вернёмся со статусом к 14:00.
Posted Feb 18, 2020 - 08:23 UTC
This incident affected: Процессинг, Javascript API, and Административная панель.