Вопрос проверяет понимание спектра задач, решаемых инженером данных, и его роли в организации.
Data Engineering охватывает широкий круг задач, связанных с подготовкой данных для анализа и машинного обучения. Основная цель — обеспечить надежную, масштабируемую и эффективную инфраструктуру для работы с данными.
import pandas as pd
from sqlalchemy import create_engine
# Extract: чтение данных из CSV
df = pd.read_csv('sales.csv')
# Transform: очистка и агрегация
df = df.dropna()
df['total'] = df['quantity'] * df['price']
summary = df.groupby('product')['total'].sum().reset_index()
# Load: запись в базу данных
engine = create_engine('postgresql://user:pass@localhost/db')
summary.to_sql('sales_summary', engine, if_exists='replace', index=False)Этот пример демонстрирует базовый ETL: извлечение из CSV, трансформация (очистка и расчет) и загрузка в PostgreSQL.
Data Engineering — это фундамент для аналитики и ML. Применяется везде, где есть большие объемы данных: от финтеха до e-commerce. Без надежных пайплайнов невозможно построить качественные отчеты или модели.