Проверяет понимание концепции дрейфа данных, причины его возникновения и влияние на модели машинного обучения.
Дрейф данных (data drift) — это явление, при котором статистические характеристики входных данных, используемых моделью машинного обучения, изменяются с течением времени. Это приводит к тому, что модель, обученная на исторических данных, начинает работать хуже на новых данных, так как распределение данных смещается.
Предположим, модель предсказывает цены на жилье на основе площади и количества комнат. Если в городе начали строить больше квартир-студий, средняя площадь уменьшится, и модель начнет ошибаться.
# Пример обнаружения дрейфа с помощью статистического теста
import numpy as np
from scipy.stats import ks_2samp
# Данные обучения
train_data = np.random.normal(50, 10, 1000)
# Новые данные
new_data = np.random.normal(55, 12, 1000)
stat, p_value = ks_2samp(train_data, new_data)
if p_value < 0.05:
print("Обнаружен дрейф данных")
else:
print("Дрейф не обнаружен")
Вывод: Дрейф данных — неизбежное явление в продакшн-системах машинного обучения. Его необходимо отслеживать и своевременно обновлять модель, чтобы поддерживать высокое качество предсказаний.