All Systems Operational
Процессинг ? Operational
Javascript API ? Operational
90 days ago
99.98 % uptime
Today
Визуальный конструктор писем Operational
Отправка Email Operational
Отправка SMS Operational
Open/Click трекинг в Email ? Operational
Административная панель Operational
Рекомендации на сайте Operational
Отправка мобильных пушей Operational
90 days ago
100.0 % uptime
Today
Operational
Degraded Performance
Partial Outage
Major Outage
Maintenance
Major outage
Partial outage
No downtime recorded on this day.
had a major outage
had a partial outage
Campaigns API ?
Fetching
JS Tracker
Fetching
Campaigns Administration Site ?
Fetching
Past Incidents
Dec 14, 2019

No incidents reported today.

Dec 13, 2019

No incidents reported.

Dec 12, 2019

No incidents reported.

Dec 11, 2019

No incidents reported.

Dec 10, 2019

No incidents reported.

Dec 9, 2019

No incidents reported.

Dec 8, 2019

No incidents reported.

Dec 7, 2019

No incidents reported.

Dec 6, 2019

No incidents reported.

Dec 5, 2019

No incidents reported.

Dec 4, 2019

No incidents reported.

Dec 3, 2019
Postmortem - Read details
Dec 6, 22:52 MSK
Resolved - Мы выложили исправление проблемного кода сбора метрик, сервис работает стабильно.

Продолжаем работы по замене балансировщика, по плану закончим в течение двух недель.
Dec 3, 12:42 MSK
Update - We are continuing to monitor for any further issues.
Dec 3, 12:40 MSK
Update - На данный момент все продолжает работать стабильно, мы внимательно наблюдаем за ситуацией.

Мы работаем над починкой, планируем выложить исправленный код в понедельник.
Nov 29, 12:55 MSK
Monitoring - С 15:35 до 15:45, и с 16:30 до 17:00 до 30% запросов к API, процессингу и административной панели могли выполняться дольше обычного или завершаться ошибкой.

Это связано с перегрузкой веб-серверов. Для повышения надежности по результатам предыдущих инцидентов мы увеличили количество собираемых метрик производительности, и к сожалению это привело к повышенной нагрузке и последующей недоступности.

На данный момент мы стабилизировали ситуацию и работаем над исправлением, а также добавлением мощностей.
Nov 28, 17:07 MSK
Dec 2, 2019
Resolved - Сервер отказал из-за того, что на нем закончились так называемые ephemeral tcp ports - динамические порты, которые сервер использует для исходящих соединений. В этот момент сервер не смог подключиться к контроллеру домена, чтобы авторизовать клиентские подключения, в результате клиенты получали ошибку LOGIN FAILED.

Мы первый раз сталкиваемся с такой ошибкой на сервере БД (обычно на нем преобладают входящие соединения а не исходящие), и все метрики заранее не показали проблему.

При этом механизм высокой доступности SQL сервер не отработал, так как соединение, по которому происходит проверка доступности, уже было открыто.
То есть - не работали только новые соединения - в основном, пострадала административная панель.

У нас есть несколько гипотез, которые в теории могли повлиять на общее количество занятых динамических портов, но точную причину мы пока что установить не смогли.

Мы добавили дополнительные метрики, что потенциально поможет заранее увидеть проблему и лучшее ее диагностировать.
Dec 2, 14:09 MSK
Monitoring - С 10:35 до 10:55 наблюдалась частичная недоступность у 5% клиентов в связи с отказом одного из серверов БД. Работоспособность проектов восстановлена.
В течении двух дней мы проведем разбор инцидента, чтобы понять, почему не отработал штатный механизм высокой доступности SQL сервера и вернемся с подробным отчетом.
Если у вас наблюдаются неполадки — свяжитесь с вашим менеджером.
Dec 2, 14:04 MSK
Dec 1, 2019

No incidents reported.

Nov 30, 2019

No incidents reported.