Какие метрики собирал в проектах с LLM/RAG? Как доставлял их в дашборды?

Question

В проектах с LLM/RAG собирал метрики качества ответов (точность, полнота, F1, faithfulness), задержки (latency p50/p95/p99), стоимость токенов, количество ошибок и дрейф эмбеддингов. Для доставки в дашборды использовал Prometheus для сбора метрик и Grafana для визуализации. Также применял логирование в ELK-стек для анализа отдельных запросов.

YeaHub · Accepted Answer

Метрики в проектах с LLM/RAGВ системах на основе Retrieval-Augmented Generation (RAG) критически важно отслеживать не только технические показатели, но и качество генерации. Основные группы метрик:Качество ответов: точность (accuracy), полнота (recall), F1-мера, faithfulness (соответствие фактам из контекста), answer relevancy (релевантность ответа запросу).Производительность: latency (p50, p95, p99), throughput (запросов в секунду), время индексации документов.Экономика: количество потраченных токенов (input/output), стоимость за запрос, количество вызовов LLM.Надёжность: процент ошибок (timeout, rate limit, пустые ответы), дрейф эмбеддингов (embedding drift), качество ретривера (hit rate, MRR).Доставка в дашбордыДля сбора и визуализации метрик использовал связку Prometheus + Grafana. Пример настройки экспорта метрик из Python-приложения:from prometheus_client import Counter, Histogram, generate_latest
import time

# Метрики
rag_requests = Counter('rag_requests_total', 'Total RAG requests')
rag_latency = Histogram('rag_latency_seconds', 'RAG request latency', buckets=[0.1, 0.5, 1, 2, 5])
rag_tokens = Counter('rag_tokens_total', 'Total tokens used', ['type'])

# В коде обработки запроса
@rag_latency.time()
def handle_query(query):
    rag_requests.inc()
    # ... логика RAG ...
    rag_tokens.labels(type='input').inc(input_tokens)
    rag_tokens.labels(type='output').inc(output_tokens)
    return responseДля более детального анализа отдельных запросов (логирование контекста, промптов, ответов) использовал ELK-стек (Elasticsearch, Logstash, Kibana) или Loki + Grafana. Это позволяло быстро дебажить проблемы качества.ВыводКомбинация Prometheus для агрегированных метрик и Grafana для дашбордов даёт полную картину здоровья RAG-системы. Для глубокого анализа качества ответов стоит дополнительно использовать инструменты вроде LangSmith или Arize AI, которые специализируются на LLM-наблюдаемости.

Какие метрики собирал в проектах с LLM/RAG? Как доставлял их в дашборды?

Короткий ответ

Длинный ответ

Метрики в проектах с LLM/RAG

Доставка в дашборды

Вывод

Какие метрики собирал в проектах с LLM/RAG? Как доставлял их в дашборды?

Короткий ответ

Длинный ответ

Метрики в проектах с LLM/RAG

Доставка в дашборды

Вывод