Сервер отказал из-за того, что на нем закончились так называемые ephemeral tcp ports - динамические порты, которые сервер использует для исходящих соединений. В этот момент сервер не смог подключиться к контроллеру домена, чтобы авторизовать клиентские подключения, в результате клиенты получали ошибку LOGIN FAILED.
Мы первый раз сталкиваемся с такой ошибкой на сервере БД (обычно на нем преобладают входящие соединения а не исходящие), и все метрики заранее не показали проблему.
При этом механизм высокой доступности SQL сервер не отработал, так как соединение, по которому происходит проверка доступности, уже было открыто. То есть - не работали только новые соединения - в основном, пострадала административная панель.
У нас есть несколько гипотез, которые в теории могли повлиять на общее количество занятых динамических портов, но точную причину мы пока что установить не смогли.
Мы добавили дополнительные метрики, что потенциально поможет заранее увидеть проблему и лучшее ее диагностировать.
Posted Dec 02, 2019 - 11:09 UTC
Monitoring
С 10:35 до 10:55 наблюдалась частичная недоступность у 5% клиентов в связи с отказом одного из серверов БД. Работоспособность проектов восстановлена. В течении двух дней мы проведем разбор инцидента, чтобы понять, почему не отработал штатный механизм высокой доступности SQL сервера и вернемся с подробным отчетом. Если у вас наблюдаются неполадки — свяжитесь с вашим менеджером.
Posted Dec 02, 2019 - 11:04 UTC
This incident affected: Процессинг, Javascript API, Визуальный конструктор писем, Отправка Email, Отправка SMS, Open/Click трекинг в Email, Административная панель, Рекомендации на сайте, and Отправка мобильных пушей.