Как спроектировать веб-решение, позволяющее загружать и обрабатывать большие Excel-файлы объёмом до 300 МБ без блокировки интерфейса?

Question

Для обработки крупных Excel-файлов нужно вынести все тяжёлые операции в фоновые процессы. Файл загружается через backend, сохраняется в хранилище, пользователь сразу получает ответ, а сама обработка запускается асинхронно через очередь. Для предотвращения превышения памяти используется потоковое чтение файла (chunking) и построчная обработка. Интерфейс опрашивает API о статусе обработки, чтобы не блокировать пользователя.

YeaHub · Accepted Answer

Проектирование обработки больших Excel-файловРабота с файлами 100–300 МБ требует особого подхода, чтобы не падать по памяти и не блокировать UI.1. Архитектура загрузки1. Пользователь загружает файлФайл отправляется на backend через обычный POST.2. Backend НЕ обрабатывает его сразуЦель — вернуть ответ мгновенно, чтобы UI не завис.Поэтому:файл записывается во временное хранилище (диск, S3, MinIO)создаётся запись в БД о задаче импортаформируется job в очередь (RabbitMQ, Redis, SQS)Backend возвращает:{ taskId: "...", status: "queued" }
Пользователь видит, что импорт принят.2. Фоновая обработка файлаОбработка выполняется worker-ами в очереди.Требования:никакой загрузки всего файла в памятьстрогая потоковая обработкаИспользуются:PhpSpreadsheet (stream mode)или Spout (более лёгкая библиотека)или готовый стриминг-парсер XLSX (zip+xml events)3. Потоковое чтение (streaming) и батчиБольшой файл нужно читать:построчномаленькими порциями (batch)оптимальным объёмом, например 500–2000 строк за разКаждый батч обрабатывается:в отдельной транзакциис контролем потребления памятис частичным коммитом результатовПсевдокод:php$reader = new XLSXStreamingReader($filepath);

foreach ($reader->getRows() as $row) {
    $batch[] = $row;

if (count($batch) >= 1000) {
        processBatch($batch);
        $batch = [];
    }
}

if (!empty($batch)) processBatch($batch);
4. Обновление статуса задачиВ БД хранится состояние:queuedprocessingpartial_progress (например, “30%”)finishederroredWorker периодически обновляет статус.Frontend регулярно делает polling:jsfetch('/api/import/status?task=...')
или WebSocket/Server-Sent Events.5. Не блокировать интерфейсПользователь:загрузил файлполучил taskIdможет закрыть страницуможет смотреть прогресс позжеНи один этап обработки не зависит от браузера.6. Где хранить файлВарианты:локальный диск (если есть shared volumes)S3 / MinIONFS-сетьвременная директория в Docker volume7. Защита от больших файловограничение размера (ниже 500 МБ)проверка форматапроверка количества строк (если доступно)отдельные очереди для больших импортов8. ВыводЧтобы обрабатывать Excel-файлы по 300 МБ:загрузка и обработка выполняются асинхронноиспользуется построчное / потоковое чтениеданные обрабатываются батчамиинтерфейс периодически получает прогрессworker работает независимо от UI

Как спроектировать веб-решение, позволяющее загружать и обрабатывать большие Excel-файлы объёмом до 300 МБ без блокировки интерфейса?

Короткий ответ

Длинный ответ

Проектирование обработки больших Excel-файлов

1. Архитектура загрузки

1. Пользователь загружает файл

2. Backend НЕ обрабатывает его сразу

2. Фоновая обработка файла

Требования:

3. Потоковое чтение (streaming) и батчи

4. Обновление статуса задачи

5. Не блокировать интерфейс

6. Где хранить файл

7. Защита от больших файлов

8. Вывод

Как спроектировать веб-решение, позволяющее загружать и обрабатывать большие Excel-файлы объёмом до 300 МБ без блокировки интерфейса?

Короткий ответ

Длинный ответ

Проектирование обработки больших Excel-файлов

1. Архитектура загрузки

1. Пользователь загружает файл

2. Backend НЕ обрабатывает его сразу

2. Фоновая обработка файла

Требования:

3. Потоковое чтение (streaming) и батчи

4. Обновление статуса задачи

5. Не блокировать интерфейс

6. Где хранить файл

7. Защита от больших файлов

8. Вывод