Вопрос проверяет знание продакшен-инфраструктуры для ML-inference и понимание, зачем выносить модели в специализированный сервер.
Triton Inference Server — это сервер для запуска и обслуживания ML-моделей в продакшене. Он предоставляет единый API для разных фреймворков и моделей. Triton умеет эффективно использовать CPU и GPU, батчить запросы и управлять версиями моделей. Это снижает нагрузку на backend и упрощает эксплуатацию ML-сервисов. В продакшене он используется для стабильного и масштабируемого inference.
В реальных системах запуск модели как обычного Python-сервиса плохо масштабируется и сложно контролируется. Для этого используют специализированные inference-серверы.
Определение:
Triton Inference Server — это высокопроизводительный сервер для обслуживания ML-моделей, поддерживающий разные фреймворки и аппаратные платформы.
Зачем он нужен:
Унификация работы с моделями
Поддержка моделей из разных фреймворков
Единый протокол доступа (HTTP, gRPC)
Оптимизация производительности
Автоматический batching запросов
Эффективное использование GPU и CPU
Параллельное выполнение inference
Управление версиями моделей
Одновременный запуск нескольких версий
Безостановочные обновления
Снижение сложности backend
Backend не содержит ML-кода
Backend работает только с API inference
Краткий вывод:
Triton используется в продакшене, когда требуется высокая производительность, масштабируемость и стандартизация работы с ML-моделями.