5 августа с 16:52 до 18:50 не работала отправка мобильных пушей. Причина — ошибка в процессе штатной работы по масштабированию хранилища сервиса. По итогу улучшим контроль качества в конвейере поставки хранилища.
Во время инцидента с 16:52 до 17:59 полностью не работала отправка мобильных пушей.
С 17:59 до 18:50 работа сервиса была восстановлена, но скорость отправки была ниже ожидаемой.
За время всего инцидента скопилась очередь из неотправленных мобильных пушей, которая была полностью отправлена к 19:11. Транзакционные пуши с истекшим сроком актуальности не были отправлены.
16:43 начало штатных работ по горизонтальному масштабированию хранилища (Cassandra) — автоматическая конфигурация сервисов хранилища с помощью ansible-роли
16:52 приходит уведомление о недоступности нескольких машин в кластере хранилища. Останавливается отправка мобильных пушей.
17:04 инженер останавливает работы по масштабированию
17:41 команда инженеров обнаружила корневую проблему с работой машин в кластере (ошибка в параметре конфигурации) и исправили ее
17:59 восстановлен кворум в кластере и началась отправка мобильных пушей. Скорость отправки ниже ожидаемой.
18:10 поднялись все кроме одной машины в кластере
18:50 увеличили количество экземпляров сервиса для отправки мобильных пушей. Скорость отправки восстановлена до штатной.
19:11 скопившаяся очередь полностью отправлена
19:20 восстановлена последняя из машин в кластере
контроль качества для сервиса Cassandra — изменения произойдут до конца октября