
Как не сойти с ума, чиня прод – практические заметки SRE
Привет, %username%! Иногда кажется, что про надежность уже сказано всё: SLO, error budget, postmortem’ы, Chaos Engineering и вот это всё. Но потом ты открываешь очередной инцидент в проде — и понимаешь, что падает не «абстрактная система», а вполне конкретная «штука», которую ты вчера трогал руками. И вот ты сидишь, смотришь в логи и графики, и главный вопрос звучит примерно так: «А можно было сделать так, чтобы сегодня я спал?» ...



