Вопрос проверяет понимание системы алертинга для своевременного реагирования на проблемы.
Настройка алертов включает:
Определение ключевых метрик (CPU, память, ошибки)
Установку пороговых значений
Настройку уведомлений (Email, Slack, SMS)
Реализацию эскалации
Процесс настройки алертов:
Выбор метрик для мониторинга:
Доступность (HTTP-коды)
Производительность (время ответа)
Ресурсы (CPU, память, диск)
Бизнес-метрики (RPS, конверсия)
Определение условий:
Пороговые значения (CPU > 90% в течение 5 минут)
Аномалии (отклонение от baseline)
Составные условия
Каналы уведомлений:
Slack/Teams
SMS/Телефонные звонки (PagerDuty)
Тикет-системы (Jira)
Эскалация:
Первый уровень - дежурный инженер
Второй уровень - старший инженер
Критичные алерты - менеджмент
Пример алерта в Prometheus:
groups:
- name: example
rules:
- alert: HighRequestLatency
expr: job:request_latency_seconds:mean5m{job="myjob"} > 1
for: 10m
labels:
severity: critical
annotations:
summary: "High request latency on {{ $labels.instance }}"