Недоступность проектов
Incident Report for Mindbox
Postmortem

Причины недоступности

  • Новый код, из-за которого возросла нагрузка на кеширующий сервер Redis
  • Баг в Redis, из-за которого он не смог справиться с повышенной нагрузкой
  • Некорректное использование кеширующего слоя, в результате чего отказ кеша привел к полной недоступности (вместо снижения производительности)

Хронология инцидента

  • Написанный код с повышенной нагрузкой на Redis выложили на тестовое Beta окружение 20 апреля, никаких проблем не наблюдали
  • Спустя сутки, 21 апреля, в 11:55, выложили код на все проекты, и Redis перестал принимать входящие соединения
  • Обнаружили, что уперлись в лимит в 4000 соединений, хотя в настройках было указано 10000
  • Причина оказалась в баге в нашей версии Redis 2.8.17 https://github.com/lamby/pkg-redis/issues/8
  • Обновили Redis до версии 3.2.6
  • Работа восстановилась в 13:10
  • Выложили исправленную версию кода в 13:43

Что улучшим

  • Обновим Redis на всех серверах
  • Исправим архитектуру таким образом, чтобы отказ кеширующего слоя не приводил к недоступности проекта
  • Улучшим мониторинг, чтобы проверялась не просто доступность порта, а возможность сделать запрос к Redis
Posted Apr 21, 2017 - 15:37 UTC

Resolved
Работоспособность восстановлена.
Posted Apr 21, 2017 - 10:13 UTC
Identified
Наблюдается полная недоступность проектов. Проблема обнаружена, занимаемся починкой.
Posted Apr 21, 2017 - 10:08 UTC