Частичная недоступность административной панели для 5% клиентов.
Incident Report for Mindbox
Resolved
Сервер отказал из-за того, что на нем закончились так называемые ephemeral tcp ports - динамические порты, которые сервер использует для исходящих соединений. В этот момент сервер не смог подключиться к контроллеру домена, чтобы авторизовать клиентские подключения, в результате клиенты получали ошибку LOGIN FAILED.

Мы первый раз сталкиваемся с такой ошибкой на сервере БД (обычно на нем преобладают входящие соединения а не исходящие), и все метрики заранее не показали проблему.

При этом механизм высокой доступности SQL сервер не отработал, так как соединение, по которому происходит проверка доступности, уже было открыто.
То есть - не работали только новые соединения - в основном, пострадала административная панель.

У нас есть несколько гипотез, которые в теории могли повлиять на общее количество занятых динамических портов, но точную причину мы пока что установить не смогли.

Мы добавили дополнительные метрики, что потенциально поможет заранее увидеть проблему и лучшее ее диагностировать.
Posted Dec 02, 2019 - 11:09 UTC
Monitoring
С 10:35 до 10:55 наблюдалась частичная недоступность у 5% клиентов в связи с отказом одного из серверов БД. Работоспособность проектов восстановлена.
В течении двух дней мы проведем разбор инцидента, чтобы понять, почему не отработал штатный механизм высокой доступности SQL сервера и вернемся с подробным отчетом.
Если у вас наблюдаются неполадки — свяжитесь с вашим менеджером.
Posted Dec 02, 2019 - 11:04 UTC
This incident affected: Процессинг, Javascript API, Визуальный конструктор писем, Отправка Email, Отправка SMS, Open/Click трекинг в Email, Административная панель, Рекомендации на сайте, and Отправка мобильных пушей.