Вопрос проверяет понимание аппаратных различий и умение выбирать оптимальный режим выполнения inference.
Inference на CPU проще в эксплуатации и дешевле, но медленнее на больших моделях. GPU обеспечивает высокую производительность за счет параллельных вычислений. Однако GPU дороже и требует дополнительной инфраструктуры. Выбор зависит от модели, нагрузки и требований к задержке. В продакшене часто комбинируют оба подхода.
Выбор между CPU и GPU напрямую влияет на стоимость и производительность ML-сервиса.
Определение:
Inference — это выполнение обученной модели для получения предсказаний на новых данных.
Основные различия:
Inference на CPU
Проще деплой и отладка
Хорошо подходит для легких моделей
Низкая стоимость инфраструктуры
Ограниченная производительность при высокой нагрузке
Inference на GPU
Высокая параллельность вычислений
Эффективен для нейросетей и batch-обработки
Более высокая стоимость
Сложнее в эксплуатации
Как выбирать режим выполнения:
По размеру и типу модели
Простые модели → CPU
Глубокие нейросети → GPU
По требованиям к latency
Низкая нагрузка → CPU
Высокий RPS → GPU
По стоимости
GPU оправдан только при высокой загрузке
Краткий вывод:
CPU и GPU — это не конкуренты, а инструменты для разных сценариев inference, и правильный выбор снижает издержки системы.