All Systems Operational
Процессинг ? Operational
Javascript API ? Operational
90 days ago
99.99 % uptime
Today
Визуальный конструктор писем Operational
Отправка Email Operational
Отправка SMS Operational
Open/Click трекинг в Email ? Operational
Административная панель Operational
Рекомендации на сайте Operational
Operational
Degraded Performance
Partial Outage
Major Outage
Maintenance
Major outage
Partial outage
No downtime recorded on this day.
had a major outage
had a partial outage
Campaigns API ?
Fetching
JS Tracker
Fetching
Campaigns Administration Site ?
Fetching
Past Incidents
Oct 14, 2019

No incidents reported today.

Oct 13, 2019

No incidents reported.

Oct 12, 2019

No incidents reported.

Oct 11, 2019

No incidents reported.

Oct 10, 2019

No incidents reported.

Oct 9, 2019

No incidents reported.

Oct 8, 2019

No incidents reported.

Oct 7, 2019
Completed - The scheduled maintenance has been completed.
Oct 7, 04:00 MSK
In progress - Scheduled maintenance is currently in progress. We will provide updates as necessary.
Oct 7, 03:00 MSK
Scheduled - В рамках подготовки к "Чёрной пятнице" будем расширять интернет-канал, с заменой кабелей на оптические.
Недоступность всех систем Майндбокс не превысит 10 минут.
По всем вопросам обращайтесь к менеджеру.
Oct 3, 15:03 MSK
Oct 6, 2019

No incidents reported.

Oct 5, 2019

No incidents reported.

Oct 4, 2019

No incidents reported.

Oct 3, 2019

No incidents reported.

Oct 2, 2019
Resolved - В рамках работ по изоляции API была проведена штатная перезагрузка резервного сервера БД. По неизвестной причине, это привело к отказу кластера, и основной сервер тоже стал не доступен. Потребовалось несколько минут, чтобы восстановить работоспособность.

Мы собрали логи и выясняем причину совместно с техподдержкой Microsoft. Также мы разобрались, какие действия привели к проблеме, и приложим усилия, чтобы ситуация не повторилась.

Мы прикладываем все усилия, чтобы повысить надежность API. К сожалению, активная работа провоцирует дополнительные инциденты. Мы проводим все потенциально опасные работы после 21 часа. Нам приходится идти на такой риск, не откладывая работы на еженедельное окно обслуживания, чтобы максимально быстро стабилизировать API и обеспечить его надежную работу.
Oct 2, 21:25 MSK
Resolved - Количество получателей правильно показывается на всех проектах.

Будем тщательнее проверять обновления, чтобы не допустить такого в будущем.
Oct 2, 14:04 MSK
Monitoring - Обновление, исправляющее ошибку, установлено у всех клиентов.

Наблюдаем за работой рассылок, вернемся с новым статусом через несколько часов.
Oct 2, 10:53 MSK
Update - Готовим обновление, которое починит ошибку. Завтра утром расскажем, через какое время оно появится у всех клиентов
Oct 1, 19:39 MSK
Identified - Выяснили, что затронуты только массовые рассылки с контрольной группой. Рассылки отправляются корректно, но у них в интерфейсе показывается неправильное число получателей.

Обсуждаем починку, вернемся с обновлением через 2-3 часа
Oct 1, 16:39 MSK
Investigating - Наблюдаем, что у некоторых клиентов неправильно работает фильтр "сегмент не "Название сегмента"

Выясняем, на что это могло повлиять. С подробностями вернемся через час.
Oct 1, 15:54 MSK
Sep 30, 2019
Resolved - Сегодня ночью изолировали базу данных API. На очереди еще изоляция Redis серверов и изоляция очередей RabbitMQ на разные сервера.

На данный момент API продолжает работать стабильно.

Нам потребуется еще месяц, чтобы добавить метрик и исследовать все подозрительные места, чтобы однозначно определить причины, а также гарантировать, что ситуация не повторится.

Сейчас инцидент закрываем, вернемся с подробным разбором и отчетом о проделанной работе через месяц.
Sep 30, 14:06 MSK
Update - API работает стабильно, мы успешно произвели несколько выкладок кода, и теперь можем приступить к улучшениям, направленным на стабильность.

Весь следующий месяц мы посвятим надежности API.

Мы также приблизились к ответу на вопрос о причинах инцидента, но пока нет 100% уверенности.

Рабочая гипотеза в том, что мы уперлись в сетевую нагрузку на веб-серверах, и попытались отмасштабироваться добавлением новых серверов. Однако, из-за совпадения нескольких факторов, конфигурация системы привела к тому, что новые сервера испытывали двойную сетевую нагрузку, а мы сделали ошибочные выводы, что они отказали из-за ошибок при их настройке или сетевым проблемам, и вывели их из эксплуатации.

Теперь, когда API изолирован, мы обнаружили и решили проблему с удвоившимся трафиком на новые сервера.

Нам потребуется еще время на подробный инцидент репорт, и мы хотим убедиться, что инцидент не повторится.

Вернемся через неделю.
Sep 23, 21:00 MSK
Update - Перенесли всю нагрузку на выделенный изолированный кластер.

Пока все еще не уверены в причинах проблем, продолжаем разбираться и мониторить ситуацию.

Последние сутки API работает стабильно, повторения ситуации не ожидаем. Тем не менее, так как пока точной причины мы не знаем (пока что выглядит как совокупность нескольких факторов) - продолжаем разбираться и не уменьшаем усилия по разрешению инцидента.

Вернемся в течение 1-3 рабочих дней, по мере появления новой информации.
Sep 19, 19:59 MSK
Update - Примерно 30% нагрузки на API перенесли на изолированную инфраструктуру.
Продолжаем мониторить и постепенно переносить траффик.

Обновим статус завтра.
Sep 18, 16:03 MSK
Update - У нас есть хорошая гипотеза о причинах проблемы, на данный момент мы считаем, что из-за чрезмерной нагрузки мы упираемся в лимиты производительности клиента Redis. Проблема не решается простым добавлением серверов, и мы активно ищем решение.

Что мы делаем:

- Сегодня ночью запланирован первый блок работ по изоляции API на отдельную инфраструктуру. Планируем полностью изолировать до конца недели.
- Улучшаем покрытие метриками, чтобы найти что именно и при каких условиях приводит к повышенной нагрузке. К сожалению, для этого необходимо перевыкладывать код на продакшен, что в данной ситуации может привести (и, увы, часто приводит) к кратковременной недоступности. Из-за этого мы вынуждены двигаться медленно, и экспериментировать ночью.
- Меняем работу приложения таким образом, чтобы по другому использовать клиент Redis, что, в теории, должно системно решить проблему. Это может занять несколько дней.

Также обсуждаем набор шагов, чтобы избежать повторения ситуации, опубликуем все вместе с финальным отчетом по инциденту.

Завтра обновим статус.
Sep 17, 16:59 MSK
Update - Мы подготовили план работ по переносу сервисов API-гейта на изолированные машины. Это должно помочь лучше справляться с нагрузкой. Работы будут проведены на этой неделе.
Sep 16, 21:11 MSK
Update - Сегодня пристально смотрели на все мониторинги. Таких снижений производительности, как вчера, не наблюдалось.

На выходных подготовимся к переводу API-гейта на новую инфраструктуру, это должно помочь системно.

Также связались с поддержкой производителя сетевого оборудования, ждём ответа.

Вернёмся с обновлением статуса в понедельник.
Sep 13, 19:25 MSK
Update - Диагностировали возможную причину проблем: подозреваем сетевое оборудование, с которым работает часть веб-серверов. Мы перенаправили большую часть трафика на другие сервера и продолжаем разбираться.

Нам кажется, что несколько инцидентов с начала сентября связаны с этими проблемами. Мы анализируем все такие поломки в комплексе и опубликуем подробный post-mortem по результатам.
Sep 13, 10:17 MSK
Monitoring - В данный момент все сервисы работают. Ищем причины возникновения ошибки и продолжаем наблюдать.

Вернёмся с подробным разбором до конца дня.
Sep 12, 12:17 MSK
Investigating - У нас проблемы с API-гейтом: часть обращений к нашим сервисам V3 не работает.
Работаем над починкой, вернёмся со статусом в 12:30.
Sep 12, 12:06 MSK
Completed - The scheduled maintenance has been completed.
Sep 30, 04:01 MSK
In progress - Scheduled maintenance is currently in progress. We will provide updates as necessary.
Sep 30, 03:00 MSK
Scheduled - В понедельник, 30 сентября с 3 до 4 утра запланированы работы с сетевым оборудованием в ЦОДе.
В это время сервисы могут быть недоступны, не более чем на 5 минут.

По любым вопросам обращайтесь к вашему менеджеру.
Sep 27, 15:24 MSK