Этот вопрос проверяет понимание базовых понятий машинного обучения: датасета и признаков, необходимых для обучения моделей.
Датасет — это структурированная коллекция данных, которая используется для обучения, проверки и тестирования моделей машинного обучения. Он состоит из записей (строк) и признаков (столбцов). Признаки (features) — это входные переменные, которые модель использует для предсказания целевой переменной.
Рассмотрим задачу классификации электронных писем на спам и не спам. Датасет может содержать следующие признаки:
Целевая переменная — метка "спам" или "не спам".
import pandas as pd
from sklearn.model_selection import train_test_split
# Создаем простой датасет
data = {
'площадь': [50, 80, 120],
'комнаты': [1, 2, 3],
'цена': [5, 8, 12]
}
df = pd.DataFrame(data)
# Признаки (X) и целевая переменная (y)
X = df[['площадь', 'комнаты']]
y = df['цена']
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)Понимание датасета и признаков — основа работы с любыми моделями машинного обучения. Правильный выбор и предобработка признаков напрямую влияют на качество предсказаний, поэтому важно уметь выделять релевантные характеристики из данных.
Уровень
Рейтинг:
4
Сложность:
2
Навыки
Python
Pandas
Ключевые слова
Подпишись на Python Developer в телеграм