Вопрос проверяет понимание аппаратных различий и умение выбирать оптимальный режим выполнения inference.
Короткий ответ
Inference на CPU проще в эксплуатации и дешевле, но медленнее на больших моделях. GPU обеспечивает высокую производительность за счет параллельных вычислений. Однако GPU дороже и требует дополнительной инфраструктуры. Выбор зависит от модели, нагрузки и требований к задержке. В продакшене часто комбинируют оба подхода.
Длинный ответ
Зарегистрироваться
Развернутый ответ доступен только зарегистрированным пользователям.