Вопрос проверяет понимание того, как backend участвует в управлении ML-инфраструктурой и ресурсами.
Backend может выбирать CPU или GPU через маршрутизацию запросов. Он может отправлять запросы на разные inference-эндпоинты. Решение принимается на основе нагрузки, типа модели или сценария использования. Такой подход позволяет гибко управлять ресурсами. В результате повышается стабильность и эффективность системы.
Backend играет активную роль в выборе вычислительных ресурсов, даже если сам inference выполняется отдельно.
Определение:
Управление режимом inference — это логика выбора, где и как будет выполнена ML-модель с точки зрения аппаратных ресурсов.
Основные способы управления:
Разделение inference-эндпоинтов
Отдельные сервисы для CPU и GPU
Backend выбирает endpoint динамически
Контекстная логика выбора
Тип запроса
Приоритет пользователя
SLA по времени ответа
Fallback-механизмы
GPU недоступен → fallback на CPU
Ограничение нагрузки на GPU
Интеграция с конфигурацией
Выбор режима через конфиг или feature-flag
Возможность быстрого переключения без деплоя
if request.priority == "high":
use_gpu()
else:
use_cpu()Краткий вывод:
Backend управляет выбором CPU или GPU как частью бизнес-и инфраструктурной логики, обеспечивая баланс между производительностью и стоимостью.