Надёжность строится в диалоге с бизнесом
SLO становится контрактом только через error budget policy. Диалог о надёжности с бизнесом, System Design-кейсы про SLO и метрики SRE при мультипродукте.
Тег
10 постов
SLO становится контрактом только через error budget policy. Диалог о надёжности с бизнесом, System Design-кейсы про SLO и метрики SRE при мультипродукте.
Как SLO становится чертежом архитектуры: один поиск маркетплейса на трёх уровнях SLO порождает три разные системы и error budget как валюту в спорах.
Пояснение, почему Burn Rate в SRE — не физическая скорость, а безразмерный коэффициент потребления бюджета ошибок, и как правильно отличать его от абсолютной интенсивности ошибок.
Практические заметки SRE: принципы вместо героизма, DIS и graceful degradation, мониторинг по абсолюту и трендам, нагрузочные тесты и учения, GitOps, фичатогглы, процессы и психология дежурств. Как строить надёжную …
Концепция Digital Immune System (DIS) от Gartner: шесть столпов — observability, AI-тестирование, chaos engineering, auto remediation, SRE и безопасность supply chain. Как строить самовосстанавливающиеся системы и …
Обзор ключевых трендов SRE 2020-2025: рост Toil, влияние AI/AIOps, сближение с Platform Engineering и FinOps, стандартизация наблюдаемости через OpenTelemetry, развитие chaos engineering и зрелых SLO/error budgets.
Мониторинг бизнес-метрик помогает увидеть, как на самом деле чувствует себя продукт: что происходит с выручкой, конверсией и активностью пользователей, даже когда инфраструктурные графики зелёные. В статье разбираем …
Подробный гайд для DevOps и SRE по запуску Kali Linux в приложении UTM на macOS с процессорами Apple Silicon