Полная недоступность проектов в окружении Beta в течение 20 минут
Incident Report for Mindbox
Postmortem

Хронология инцидента

  • 9:38 - запустили выкладку нового релиза на окружение Beta, релиз содержал изменения схемы БД
  • 9:50 - начали применятся изменения БД параллельно на всех 30 проектах в окружении Beta
  • В течении 5 минут изменения БД применились на всех проектах кроме 2х. Из-за высокой нагрузки на проекты, утилита изменения БД не смогла получить блокировку за 5 минут, и применить изменения. После изменения БД на тех проектах, где это удалось сделать, старая версия кода перестала работать.
  • 9:55 - выкладка остановилась из-за ошибки и потребовала ручного вмешательства
  • 9:56 - приняли решение попробовать повторить шаг изменения БД, который снова закончился ошибкой по таймауту 5 минут.
  • 10:06 - еще одна попытка изменить БД на оставшихся 2 проектах, снова неудачная
  • 10:11 - прекратили попытки, продолжили процесс выкладки. Выложился новый код на тех проектах, где изменения БД успешно применились
  • 10:13 - все заработало

Что улучшим

  • Отключили режим ручного вмешательства в выкладку. Теперь, в случае повторения ситуации максимальная недоступность составит 5 минут, и в случае ошибки выкладка будет продолжена автоматически.
  • Так как больше всего пострадали проекты с ПЛ, в Beta оставим только 1 проект с модулем Лояльность.
  • Придумаем процесс изменения БД, который позволит минимизировать или полностью исключить одновременную работу старого кода и новой схемы БД. В первую очередь - административными мерами.
Posted Sep 15, 2017 - 17:50 UTC

Resolved
С 9:50 по 10:13 из-за долгой выкладки изменений БД на проектах в окружении Beta не работали:
- административная панель
- сервисы API по обработке заказов
- сервисы ПЛ

Отчет об инциденте доступен по клику на название.
Posted Sep 15, 2017 - 09:05 UTC