Не работает отправка мобильных пушей
Incident Report for Mindbox
Postmortem

Саммари

5 августа с 16:52 до 18:50 не работала отправка мобильных пушей. Причина — ошибка в процессе штатной работы по масштабированию хранилища сервиса. По итогу улучшим контроль качества в конвейере поставки хранилища.

Влияние на клиента

Во время инцидента с 16:52 до 17:59 полностью не работала отправка мобильных пушей.

С 17:59 до 18:50 работа сервиса была восстановлена, но скорость отправки была ниже ожидаемой.

За время всего инцидента скопилась очередь из неотправленных мобильных пушей, которая была полностью отправлена к 19:11. Транзакционные пуши с истекшим сроком актуальности не были отправлены.

Таймлайн: как выявляли и устраняли инцидент

16:43 начало штатных работ по горизонтальному масштабированию хранилища (Cassandra) — автоматическая конфигурация сервисов хранилища с помощью ansible-роли

16:52 приходит уведомление о недоступности нескольких машин в кластере хранилища. Останавливается отправка мобильных пушей.

17:04 инженер останавливает работы по масштабированию

17:41 команда инженеров обнаружила корневую проблему с работой машин в кластере (ошибка в параметре конфигурации) и исправили ее

17:59 восстановлен кворум в кластере и началась отправка мобильных пушей. Скорость отправки ниже ожидаемой.

18:10 поднялись все кроме одной машины в кластере

18:50 увеличили количество экземпляров сервиса для отправки мобильных пушей. Скорость отправки восстановлена до штатной.

19:11 скопившаяся очередь полностью отправлена

19:20 восстановлена последняя из машин в кластере

Что улучшили

  • временно заморозили работы по горизонтальному масштабированию хранилищ Cassandra — до реализации шагов по улучшению контроля качества

Что улучшим

  • контроль качества для сервиса Cassandra — изменения произойдут до конца октября

    • тестирование ansible-роли в рамках CI / CD, проверка ключевых параметров в конфигурации, идентичная боевому настройка кластера в тестовом окружении — для обнаружения проблем с сервисом на раннем этапе
    • автоматическая остановка конвейера при ошибках или тайм-ауте на возвращение машины в кластер — пострадала бы лишь одна машина в кластере, что не критично для отправки мобильных пушей
Posted Sep 02, 2022 - 14:51 UTC

Resolved
К 19:11 скопившаяся очередь полностью отправлена.

Приносим свои извинения за произошедший отказ. Вернемся с детальным разбором инцидента и следующими шагами через три недели.
Posted Aug 05, 2022 - 16:13 UTC
Monitoring
В 18:50 скорость отправки мобильных пушей восстановлена до штатной.

Инженеры продолжают восстановление от инцидента.
Posted Aug 05, 2022 - 15:56 UTC
Identified
С 17:59 восстановлена отправка мобильных пушей, но скорость отправки ниже ожидаемой.

Сейчас накоплена очередь пушей на отправку, которая будет отправлена как только это станет возможно.

Транзакционные пуши с истекшим сроком актуальности не будут отправлены.

Инженеры идентифицировали проблему и работают над ее восстановлением.
Posted Aug 05, 2022 - 15:12 UTC
Investigating
С 16:52 не работает отправка мобильных пушей.

Инцидент находится в работе у дежурной команды, вернемся со статусом в течение часа.
Posted Aug 05, 2022 - 14:41 UTC
This incident affected: Отправка мобильных пушей.