Апдейт:
На основном сервере в ферме закончились свободные TCP порты и сервер перестал принимать новые соединения. В течение первых минут инцидента дежурный переключил продакшн на резервный сервер, однако из за большого количества соединений он так же отказал. С этим связано долгое время недоступности.
Мы связываем отказ с тем, что из за неоптимального алгоритма распределения проектов по фермам на сервере оказалось очень много небольших демо-проектов. После восстановления доступности проекты были разнесены по другим фермам, проблемная ферма была сбалансирована.
Что улучшили: