Логотип YeaHub

База вопросов

Собеседования

Тренажёр

База ресурсов

Обучение

Навыки

Задачи

Войти

Выбери, каким будет IT завтра — вместе c нами!

YeaHub — это полностью открытый проект, призванный объединить и улучшить IT-сферу. Наш исходный код доступен для просмотра на GitHub. Дизайн проекта также открыт для ознакомления в Figma.

© 2026 YeaHub

AI info

Карта сайта

Документы

Медиа

Назад
Вопрос про CI/CD: LLM, RAG, metrics, monitoring, dashboard, observability

Какие метрики собирал в проектах с LLM/RAG? Как доставлял их в дашборды?

Вопрос проверяет понимание практического опыта мониторинга и оценки качества RAG-систем, а также умение настраивать доставку метрик в дашборды.

Короткий ответ

В проектах с LLM/RAG собирал метрики качества ответов (точность, полнота, F1, faithfulness), задержки (latency p50/p95/p99), стоимость токенов, количество ошибок и дрейф эмбеддингов. Для доставки в дашборды использовал Prometheus для сбора метрик и Grafana для визуализации. Также применял логирование в ELK-стек для анализа отдельных запросов.

Длинный ответ

Метрики в проектах с LLM/RAG

В системах на основе Retrieval-Augmented Generation (RAG) критически важно отслеживать не только технические показатели, но и качество генерации. Основные группы метрик:

  • Качество ответов: точность (accuracy), полнота (recall), F1-мера, faithfulness (соответствие фактам из контекста), answer relevancy (релевантность ответа запросу).
  • Производительность: latency (p50, p95, p99), throughput (запросов в секунду), время индексации документов.
  • Экономика: количество потраченных токенов (input/output), стоимость за запрос, количество вызовов LLM.
  • Надёжность: процент ошибок (timeout, rate limit, пустые ответы), дрейф эмбеддингов (embedding drift), качество ретривера (hit rate, MRR).

Доставка в дашборды

Для сбора и визуализации метрик использовал связку Prometheus + Grafana. Пример настройки экспорта метрик из Python-приложения:

from prometheus_client import Counter, Histogram, generate_latest
import time

# Метрики
rag_requests = Counter('rag_requests_total', 'Total RAG requests')
rag_latency = Histogram('rag_latency_seconds', 'RAG request latency', buckets=[0.1, 0.5, 1, 2, 5])
rag_tokens = Counter('rag_tokens_total', 'Total tokens used', ['type'])

# В коде обработки запроса
@rag_latency.time()
def handle_query(query):
    rag_requests.inc()
    # ... логика RAG ...
    rag_tokens.labels(type='input').inc(input_tokens)
    rag_tokens.labels(type='output').inc(output_tokens)
    return response

Для более детального анализа отдельных запросов (логирование контекста, промптов, ответов) использовал ELK-стек (Elasticsearch, Logstash, Kibana) или Loki + Grafana. Это позволяло быстро дебажить проблемы качества.

Вывод

Комбинация Prometheus для агрегированных метрик и Grafana для дашбордов даёт полную картину здоровья RAG-системы. Для глубокого анализа качества ответов стоит дополнительно использовать инструменты вроде LangSmith или Arize AI, которые специализируются на LLM-наблюдаемости.

  • Аватар

    Python Guru

    Sergey Filichkin

    Guru – это эксперты YeaHub, которые помогают развивать комьюнити.

Уровень

  • Рейтинг:

    4

  • Сложность:

    7

Навыки

  • CI/CD

    CI/CD

  • Node.js

    Node.js

Ключевые слова

#LLM

#RAG

#metrics

#monitoring

#dashboard

#observability

Подпишись на Python Developer в телеграм

  • Аватар

    Python Guru

    Sergey Filichkin

    Guru – это эксперты YeaHub, которые помогают развивать комьюнити.