Почему CPU-bound задачи неэффективно распараллеливать потоками в Python?

Question

CPU-bound — это задачи, где время уходит на вычисления, а не на ожидание ввода-вывода. В CPython есть GIL, который позволяет исполнять Python-код только одному потоку одновременно в пределах процесса. Поэтому несколько потоков чаще дают накладные расходы, но не прирост скорости. Потоки хорошо подходят для I/O-bound задач, где много ожидания сети или диска.

YeaHub · Accepted Answer

ОпределениеCPU-bound задача — это задача, где узкое место — процессорные вычисления (парсинг, криптография, обработка изображений, численные расчёты).Причина: GIL в CPythonОпределение:GIL (Global Interpreter Lock) — механизм, который защищает внутренние структуры интерпретатора CPython и обеспечивает, что байткод Python в одном процессе выполняется только одним потоком одновременно.Что это означает на практике:Вы создаёте несколько потоковОни по очереди получают доступ к интерпретаторуРеально вычисления выполняются «по одному»В итоге:прироста скорости нет или он минимальныйпоявляется overhead на переключение потоковПочему для I/O-bound всё иначеКогда поток ждёт:сетевой ответдисктаймаутон часто освобождает управление, и другой поток может выполняться. Поэтому потоки дают выигрыш там, где много ожидания.Мини-демонстрация идеиCPU-bound код в потоках:from threading import Thread

def work():
    s = 0
    for i in range(10_000_000):
        s += i

threads = [Thread(target=work) for _ in range(4)]
for t in threads: t.start()
for t in threads: t.join()
Обычно это не даст ускорения пропорционально количеству потоков.Что делать вместо потоковСмысловой выбор зависит от задачи:Multiprocessing / ProcessPoolExecutorкаждый процесс со своим GILреальное использование нескольких ядерНативные библиотекиNumPy / OpenCV могут отпускать GIL и считать в CПеренос вычисленийотдельный сервис, очередь задач, воркеры(про альтернативы подробно будет в следующем вопросе по списку)Краткий выводПотоки в CPython почти не ускоряют CPU-bound из-за GIL: параллелизм получается «логическим», но не вычислительным. Для вычислений чаще используют процессы или нативные библиотеки.

Почему CPU-bound задачи неэффективно распараллеливать потоками в Python?

Короткий ответ

Длинный ответ

Определение

Причина: GIL в CPython

Почему для I/O-bound всё иначе

Мини-демонстрация идеи

Что делать вместо потоков

Краткий вывод

Почему CPU-bound задачи неэффективно распараллеливать потоками в Python?

Короткий ответ

Длинный ответ

Определение

Причина: GIL в CPython

Почему для I/O-bound всё иначе

Мини-демонстрация идеи

Что делать вместо потоков

Краткий вывод