Вопрос проверяет знание архитектурных и эксплуатационных подходов к масштабированию ML-моделей под реальную нагрузку.
Короткий ответ
ML-модели масштабируют горизонтально, вертикально и через батчинг запросов. Часто разделяют online-инференс и batch-инференс. Используют автоскейлинг по метрикам и очередям. Для снижения задержек применяют кэширование и предварительную инициализацию моделей. Выбор подхода зависит от требований к latency и стоимости.
Длинный ответ
Зарегистрироваться
Развернутый ответ доступен только зарегистрированным пользователям.