Частичная недоступность всех проектов
Incident Report for Mindbox
Postmortem

В 15:00 6 декабря выложили оптимизированный код, содержащий ошибку. В ряде случаев отменялась обработка события.
На проектах с особой настройкой параллельных транзакционных триггеров проблема проявлялась чаще.

В течение дня частично не отрабатывали промомеханики и не отправлялась часть транзакционных писем и смс.

По мониторингу проблема не была замечена, т.к. оптимизация ускорила обработку триггеров (суммарно эффект казался положительным).

В 23:40 обнаружили проблему на одном проекте.
Примерно в 1:10 7 декабря осознали потенциальный источник проблемы и отключили оптимизацию на одном проекте.
На этот момент проблема казалась локальной из-за специфики проекта.

В 11:00 7 декабря после тщательного осмотра других проектов оптимизация отключена. Начат разбор ошибки.
К 15:00 по логам базы данных восстановлено в сумме около 3 миллионов событий.

В 17:40 поняли в чем состоит ошибка и почему мониторинг не показал негативных отклонений.

Улучшим собираемые метрики, чтобы видеть деградацию сервиса даже на фоне позитивного эффекта.
Откалибруем алерты, чтобы быстрее реагировать на подобные инциденты.
Сделаем подход к ужесточению QA-контура, чтобы видеть подобные ошибки до релиза.

Posted Dec 07, 2018 - 15:53 UTC

Resolved
Восстановили большую часть событий у которых не истек срок актуальности.
Posted Dec 07, 2018 - 15:52 UTC
Monitoring
С 15:00 6 декабря по 11:00 7 декабря из-за ошибки в оптимизации задач часть триггерных событий не отрабатывала.
В это время клиентам не приходили в том числе транзакционные сообщения.

Работоспособность восстановлена, проводим разбор ситуации.
По возможности восстанавливаем неотработавшие триггерные события.

Отчет об инциденте добавим в течение 8 часов.
Posted Dec 07, 2018 - 10:11 UTC
This incident affected: Процессинг, Отправка Email, and Отправка SMS.