Вопрос проверяет знание архитектурных и эксплуатационных подходов к масштабированию ML-моделей под реальную нагрузку.
ML-модели масштабируют горизонтально, вертикально и через батчинг запросов. Часто разделяют online-инференс и batch-инференс. Используют автоскейлинг по метрикам и очередям. Для снижения задержек применяют кэширование и предварительную инициализацию моделей. Выбор подхода зависит от требований к latency и стоимости.
Масштабирование ML-моделей в продакшене — это обеспечение стабильной производительности инференса при росте нагрузки и объёма данных.
Горизонтальное масштабирование
Несколько реплик сервиса с моделью.
Балансировка трафика между репликами.
Хорошо подходит для stateless-инференса.
Вертикальное масштабирование
Увеличение CPU/GPU и памяти.
Ограничено стоимостью и временем масштабирования.
Batch-инференс
Объединение нескольких запросов в один батч.
Повышает throughput, но увеличивает latency.
Асинхронная обработка
Очереди задач для инференса.
Клиент получает результат позже.
Кэширование результатов
Повторяющиеся запросы обслуживаются быстрее.
Особенно эффективно для детерминированных моделей.
Масштабирование ML-моделей — это комбинация реплик, очередей, батчинга и автоскейлинга, подобранная под требования бизнеса.