Чем отличается inference на CPU и на GPU и как выбирать режим выполнения

Question

Inference на CPU проще в эксплуатации и дешевле, но медленнее на больших моделях. GPU обеспечивает высокую производительность за счет параллельных вычислений. Однако GPU дороже и требует дополнительной инфраструктуры. Выбор зависит от модели, нагрузки и требований к задержке. В продакшене часто комбинируют оба подхода.

YeaHub · Accepted Answer

Выбор между CPU и GPU напрямую влияет на стоимость и производительность ML-сервиса.Определение:Inference — это выполнение обученной модели для получения предсказаний на новых данных.Основные различия:Inference на CPUПроще деплой и отладкаХорошо подходит для легких моделейНизкая стоимость инфраструктурыОграниченная производительность при высокой нагрузкеInference на GPUВысокая параллельность вычисленийЭффективен для нейросетей и batch-обработкиБолее высокая стоимостьСложнее в эксплуатацииКак выбирать режим выполнения:По размеру и типу моделиПростые модели → CPUГлубокие нейросети → GPUПо требованиям к latencyНизкая нагрузка → CPUВысокий RPS → GPUПо стоимостиGPU оправдан только при высокой загрузкеКраткий вывод:CPU и GPU — это не конкуренты, а инструменты для разных сценариев inference, и правильный выбор снижает издержки системы.