Недоступность сервиса рекомендаций для 100% клиентов в течение 43 минут.
Incident Report for Mindbox
Postmortem

6 октября с 16:17 до 17:07 был недоступен сервис рекомендаций: не работал API для получения рекомендаций и не отправлялись рассылки с рекомендациями в шаблоне. Недоступность произошла из-за несовместимости ПО и несогласованности работ в боевом окружении во время штатного обновления.

Таймлайн, как выявляли и устраняли инцидент

5 октября

  • инженер успешно выполнил установку утилиты бекапов на одной из реплик БД сервиса рекомендаций. Работа состояла из двух ключевых частей: ручной подготовки окружения и автоматической установки утилиты.
  • инженер подготовил инструкцию для последующих работ.

6 октября

12:00 — инженер выполнил по инструкции ручное обновление окружений всех реплик БД.

13:07 — инженер запустил обновление ПО на одной из реплик, из за ошибки в настройке окружения реплика вышла из строя. Выяснилось, что инструкция отличался от ранее проведенных ранее работ.

15:27 — подключился дежурный, реплика была повторно введена в строй.

16:10 — дежурный без согласования запустил обновление ПО, приложение автоматически установило утилиту на все реплики, реплики вышли из строя.

16:18 — сработал алерт на деградацию работы сервиса рекомендаций.

17:07 — дежурные повторно ввели в строй кластер БД.

Что уже улучшено и планируется улучшить

  • конфигурация БД полностью перешла на автоматический процесс обновления (infrastructure-as-code), не ожидаем ручных изменений в конфигурации.
  • в команде, ответственной за сервис рекомендаций выделен шаблон задач включающих ручные работы.
  • БД сервиса рекомендаций в пред-боевом окружении будет приведена в идентичную конфигурацию с боевой БД. Ожидаем в октябре.
  • будет обновлен шаблонный скрипт автоматического обновления реплик БД: при недоступности первой реплики, остальные обновляться не будут. Ожидаем в октябре.
Posted Oct 22, 2021 - 12:38 UTC

Resolved
К 17:03 дежурная команда полностью восстановила работоспособность сервиса.
Недоступность была связана с отказом внутреннего компонента системы при обновлении и составила 43 минуты.
Вернемся с детальным разбором инцидента и следующими шагами через 2 недели.
Posted Oct 06, 2021 - 16:03 UTC
Identified
С 16:20 наблюдается деградация сервиса рекомендаций для 100% клиентов.

Инцидент находится в работе у дежурной команды, вернемся со статусом в течение часа.
Posted Oct 06, 2021 - 13:38 UTC
This incident affected: Рекомендации на сайте.