Как работать с большими CSV-файлами в Python?

Question

Для работы с большими CSV-файлами в Python используют чтение по частям (chunking) с помощью pandas или встроенного модуля csv. Это позволяет обрабатывать данные порциями, не загружая весь файл в память. Также можно использовать библиотеку Dask для параллельной обработки. Важно выбирать подходящие типы данных и избегать избыточных операций.

YeaHub · Accepted Answer

Проблема работы с большими CSV-файламиСтандартные методы загрузки CSV-файлов, такие как pd.read_csv() без параметров, загружают весь файл в оперативную память. Если файл превышает доступный объем RAM, программа завершится с ошибкой MemoryError. Для решения этой проблемы применяются техники чанковой обработки.Чтение по частям с pandasPandas предоставляет параметр chunksize в функции read_csv(), который возвращает итератор по частям данных (DataFrame). Каждая часть обрабатывается отдельно, а затем результат агрегируется.import pandas as pd

chunk_size = 10000  # количество строк в одном чанке
results = []

for chunk in pd.read_csv('large_file.csv', chunksize=chunk_size):
    # Фильтрация или агрегация данных
    filtered = chunk[chunk['column'] > 100]
    results.append(filtered)

final_df = pd.concat(results)Использование модуля csvВстроенный модуль csv позволяет читать файл построчно, что экономит память, но требует ручной обработки данных.import csv

with open('large_file.csv', 'r') as file:
    reader = csv.DictReader(file)
    for row in reader:
        # Обработка каждой строки
        process(row)Оптимизация типов данныхПри загрузке данных можно указать типы столбцов через параметр dtype, чтобы уменьшить потребление памяти. Например, использовать int32 вместо int64.dtypes = {'id': 'int32', 'value': 'float32'}
df = pd.read_csv('data.csv', dtype=dtypes)Параллельная обработка с DaskБиблиотека Dask позволяет обрабатывать данные, превышающие объем памяти, используя параллельные вычисления и ленивые вычисления.import dask.dataframe as dd

df = dd.read_csv('large_file.csv')
result = df[df['column'] > 100].compute()ВыводДля работы с большими CSV-файлами в Python следует использовать чанковую загрузку (pandas chunksize или модуль csv), оптимизировать типы данных и при необходимости применять Dask для распределенных вычислений. Это позволяет эффективно обрабатывать данные, не превышая лимиты оперативной памяти.

Как работать с большими CSV-файлами в Python?

Короткий ответ

Длинный ответ

Проблема работы с большими CSV-файлами

Чтение по частям с pandas

Использование модуля csv

Оптимизация типов данных

Параллельная обработка с Dask

Вывод

Как работать с большими CSV-файлами в Python?

Короткий ответ

Длинный ответ

Проблема работы с большими CSV-файлами

Чтение по частям с pandas

Использование модуля csv

Оптимизация типов данных

Параллельная обработка с Dask

Вывод