Логотип YeaHub

База вопросов

Собеседования

Тренажёр

База ресурсов

Обучение

Навыки

Войти

Выбери, каким будет IT завтра — вместе c нами!

YeaHub — это полностью открытый проект, призванный объединить и улучшить IT-сферу. Наш исходный код доступен для просмотра на GitHub. Дизайн проекта также открыт для ознакомления в Figma.

© 2026 YeaHub

AI info

Карта сайта

Документы

Медиа

Назад
Вопрос про Python: dataset, features, machine learning, data preprocessing

Что такое датасет и признаки (features)?

Этот вопрос проверяет понимание базовых понятий машинного обучения: датасета и признаков, необходимых для обучения моделей.

Короткий ответ

Датасет — это набор данных, используемый для обучения модели. Признаки (features) — это отдельные измеримые свойства или характеристики объектов в датасете. Например, в задаче предсказания цены дома признаками могут быть площадь, количество комнат и год постройки. Модель анализирует эти признаки, чтобы делать прогнозы.

Длинный ответ

Что такое датасет и признаки?

Датасет — это структурированная коллекция данных, которая используется для обучения, проверки и тестирования моделей машинного обучения. Он состоит из записей (строк) и признаков (столбцов). Признаки (features) — это входные переменные, которые модель использует для предсказания целевой переменной.

Пример

Рассмотрим задачу классификации электронных писем на спам и не спам. Датасет может содержать следующие признаки:

  • Количество восклицательных знаков
  • Наличие слова "бесплатно"
  • Длина письма
  • Время отправки

Целевая переменная — метка "спам" или "не спам".

Практический пример на Python

import pandas as pd
from sklearn.model_selection import train_test_split

# Создаем простой датасет
data = {
    'площадь': [50, 80, 120],
    'комнаты': [1, 2, 3],
    'цена': [5, 8, 12]
}
df = pd.DataFrame(data)

# Признаки (X) и целевая переменная (y)
X = df[['площадь', 'комнаты']]
y = df['цена']

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Вывод

Понимание датасета и признаков — основа работы с любыми моделями машинного обучения. Правильный выбор и предобработка признаков напрямую влияют на качество предсказаний, поэтому важно уметь выделять релевантные характеристики из данных.

  • Аватар

    Python Guru

    Sergey Filichkin

    Guru – это эксперты YeaHub, которые помогают развивать комьюнити.

Уровень

  • Рейтинг:

    4

  • Сложность:

    2

Навыки

  • Python

    Python

  • Pandas

Ключевые слова

#dataset

#features

#machine learning

#data preprocessing

Подпишись на Python Developer в телеграм

  • Аватар

    Python Guru

    Sergey Filichkin

    Guru – это эксперты YeaHub, которые помогают развивать комьюнити.