Алгоритмы агрегации данных — как работает GROUP BY под капотом (на примере CSV-файла без БД)?

Question

GROUP BY работает используя алгоритмы хеширования или сортировки для группировки строк с одинаковыми значениями. При обработке CSV файла, система читает данные построчно, вычисляет хеш ключа группировки и аккумулирует значения для каждой группы. Алгоритм сортировки сначала сортирует данные по ключу группировки, затем агрегирует последовательные строки с одинаковыми ключами. Оба подхода эффективны но используются в разных сценариях.

YeaHub · Accepted Answer

Понимание алгоритмов GROUP BY помогает оптимизировать запросы и понимать их производительность.Алгоритмы выполнения GROUP BY:Hash AggregationСоздание хеш-таблицы в памятиГруппировка по хешу ключаЭффективно для больших данных без сортировкиSort-Based AggregationСортировка данных по ключу группировкиПоследовательная агрегация отсортированных данныхЭффективно при уже отсортированных данныхПример реализации Hash Aggregation на PHP:function groupByCSV($filename, $groupColumn, $aggregateColumn) {
    $groups = [];
    
    if (($handle = fopen($filename, "r")) !== FALSE) {
        $headers = fgetcsv($handle);
        $groupIndex = array_search($groupColumn, $headers);
        $aggIndex = array_search($aggregateColumn, $headers);
        
        while (($data = fgetcsv($handle)) !== FALSE) {
            $key = $data[$groupIndex];
            $value = (float)$data[$aggIndex];
            
            if (!isset($groups[$key])) {
                $groups[$key] = [
                    'count' => 0,
                    'sum' => 0,
                    'avg' => 0
                ];
            }
            
            $groups[$key]['count']++;
            $groups[$key]['sum'] += $value;
            $groups[$key]['avg'] = $groups[$key]['sum'] / $groups[$key]['count'];
        }
        fclose($handle);
    }
    
    return $groups;
}Пример CSV данных:department,salary
IT,5000
HR,4000
IT,6000
Sales,4500Процесс обработки:Чтение строки, извлечение ключа (department)Поиск или создание группы в хеш-таблицеАккумуляция значений (сумма, счетчик)Вычисление агрегатов после обработки всех данныхФакторы выбора алгоритма:Объем данныхНаличие индексов по ключу группировкиДоступная памятьТребования к порядку результатов