Praktikum Data Analysis Abstract Course11 Theme3
Praktikum Data Analysis Abstract Course11 Theme3
за какой период?
скорость
интерпретируемость результатов
точность
время на разработку
cm = df.corr()
признак-признак
признак-целевая переменная
Работа с выбросами
Работа с выбросами
print(df['column'].head())
print(df['column'].head())
print(df.head())
df = pd.get_dummies(df)
print(df.head())
4. Стандартизация данных
Многие алгоритмы машинного обучения лучше работают на
стандартизированных данных, где значения признаков соответствуют
стандартному нормальному распределению. Стандартизация совершенно
необходима в двух областях ML
линейная регрессия;
scaler = StandardScaler()
X_train_st = scaler.fit_transform(X_train)
X_test_st = scaler.transform(X_test)
случайно
с учётом времени
Выбор метрик
Для оценки качества ваших моделей и выбора из них лучшей вы
определяете наиболее подходящие метрики, которые отражают суть
вашей задачи. Два важных момента, которые мы ещё не разбирали:
model = RandomForestRegressor(criterion='mae')
model = RandomForestRegressor(criterion='mse')
Важность признаков
Вы выбрали лучшую модель, она работает, даже делает прогнозы. Чтобы
от них был толк, в них должны поверить те сотрудники, которые эти
прогнозы заказывали. И самое главное — вы сами. А чтобы поверили вы
сами, вам нужно понимать, почему ваша модель работает. Здесь на
первый план выходит такое её свойство, как «интерпретируемость».
Чаще всего аналитик готовит пачку данных, отправляет в черный ящик
(black box) какого-нибудь алгоритма и на выходе получает прогноз.
Однако нужно хотя бы общее понимание не только того, «что» сказала
модель, а того, «как» и «почему» она это сделала. Какие признаки она
посчитала важными при расчёте конкретного прогноза? Это очень важно
для погружения в суть моделируемого процесса и вообще в оценке
адекватности модели. Поэтому особое внимание следует уделить
анализу её важности признаков (или feature importance).
feature_weights = model.coef_
weight_0 = model.intercept_
importances = model.feature_importances_