Вопрос проверяет способность масштабировать ресурсоёмкие сервисы с предсказуемой производительностью.
Короткий ответ
ML-нагрузка часто неравномерна и ресурсоёмка, поэтому масштабирование должно быть гибким. Обычно разделяют онлайн-инференс и офлайн-обработку. Используют горизонтальное масштабирование и очереди задач. Автоскейлинг настраивают по метрикам CPU, памяти или длине очереди. Важно контролировать холодный старт моделей.
Длинный ответ
Зарегистрироваться
Развернутый ответ доступен только зарегистрированным пользователям.