Деградация сервиса api.mindbox.ru, до 1% запросов заканчивались ошибкой в течение 15 минут.
Incident Report for Mindbox
Postmortem

Отказ был вызван сбоем в работе сетевого балансировщика в одном из датацентров нашего облачного провайдера (Yandex.Cloud). 

Мы опишем таймлайн и улучшения со стороны Mindbox. Детали, таймлайн сбоя и следующие шаги со стороны Yandex.Cloud описаны в постмортеме провайдера.

Таймлайн инцидента со стороны Mindbox:

  • с 14:10 до 1% запросов к api mindbox заканчивались таймаутом
  • в 14:12 сработал мониторинг доступности Mindbox
  • в 14:30 мы установили проблему на стороне провайдера и эскалировали до технической поддержки
  • в 14:56 работа сервиса была полностью восстановлена

Для того чтобы ситуация больше не воспроизводилась мы перерабатываем архитектуру системы входящего трафика: после этого мы сможем самостоятельно и оперативно убирать клиентские запросы из проблемных датацентров Yandex.Cloud. Обсуждаем изменения с коллегами из Yandex.Cloud, ожидаем обновленный статус в течение месяца.

Posted Nov 02, 2020 - 08:50 UTC

Resolved
Мы проводим детальный разбор ситуации совместно с коллегами из Яндекс.Облака, вернемся с отчетом через неделю.
Posted Oct 13, 2020 - 14:51 UTC
Monitoring
По нашим метрикам ситуация нормализовалась в 14:56.

Мы продолжаем наблюдать за ситуацией и наготове принять меры чтобы перераспределить нагрузку в другие зоны, если ситуация усугубится.
Posted Oct 13, 2020 - 12:13 UTC
Investigating
У облачного провайдера проблемы на сетевом оборудовании. Наши метрики не показывают просадки количества запросов, но мы не исключаем вероятность что некоторые обращения к API могут закончиться ошибкой или таймаутом.

Разбираемся в ситуации.

Ссылка на инцидент провайдера https://status.cloud.yandex.ru/incidents/186
Posted Oct 13, 2020 - 11:57 UTC
This incident affected: Процессинг, Javascript API, and Open/Click трекинг в Email.