Вопрос проверяет знание принципов наблюдаемости и инструментов мониторинга распределённых систем.
Observability достигается через централизованное логирование, метрики, трейсинг, корелляцию запросов, алертинг и визуализацию. Используются стек ELK или Loki, Prometheus/Grafana, Jaeger/OpenTelemetry. Цель — понимать состояние системы и находить проблемы быстро и точно.
Observability — фундаментальная часть современной архитектуры. Она позволяет видеть, что происходит в системе, локализовать проблемы и предотвращать сбои.
Централизованное логирование включает:
структурированные логи (JSON);
уровни логирования (info, warning, error, debug);
сбор логов через агенты (FluentBit, Logstash);
хранение в Elasticsearch, Loki, OpenSearch.
Хорошая практика:
каждый запрос должен иметь correlation ID;
логи должны быть машиночитаемыми, а не “красивыми”.
Метрики дают агрегированные показатели:
latency (p50, p95, p99);
количество запросов;
ошибки;
нагрузка на CPU/RAM;
задержки очередей;
состояние брокеров;
размеры шардов.
Обычно используют:
Prometheus;
Grafana;
VictoriaMetrics.
Метрики полезны для раннего обнаружения деградации.
Трейсы показывают путь запроса через всю систему:
API gateway → сервис 1 → сервис 2 → база → Kafka → воркер.
Важные инструменты:
Jaeger;
Zipkin;
OpenTelemetry.
Трейсы позволяют:
выявлять медленные места (bottlenecks);
находить зависшие запросы;
анализировать цепочки вызовов.
Observability — это не просто логи, метрики и трейсинг по отдельности.
Она работает, когда все части связаны:
correlation ID во всех логах;
идентификаторы трейсинга в логах;
метрики привязаны к сервисам и endpoint.
Это позволяет быстро отвечать на вопросы “что сломалось? где? почему?”.
Система должна оповещать о проблемах:
падение сервиса;
рост ошибок 5xx;
увеличенный latency;
деградация БД;
переполнение очередей.
Инструменты:
Alertmanager, Grafana Alerts, PagerDuty.
Алерты должны быть:
конкретными;
actionable;
без ложных срабатываний.
Для визуализации используют:
Grafana;
Kibana;
DataDog.
Дашборды нужны для:
наблюдения в реальном времени;
анализа аномалий;
контроля SLO/SLA.
Observability — это комплекс: структурированные логи, метрики, трейсинг, корелляция запросов, алертинг и визуализация. Это делает распределённые системы прозрачными, управляемыми и устойчивыми.