TP Sklearn
TP Sklearn
TP Sklearn
Université de Carthage
Travail à faire :
https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html
mean_squared_error(y, model.predict(X))
r2_score(y, predictions)
2. KNN
Travail à faire :
2. Visualisez-le dataset. Combien de variables contient-il ? Utilisez ce code pour visualiser les
relations entre les variables :
plt.show()
5. Divisez les données en données d’apprentissage et de test (80% pour apprentissage et 20%
pour entrainement) en utilisant le code suivant :
7. Calculez le score obtenu par le modèle entrainé sur les données de test
print(confusion_matrix(y_test, model.predict(X_test)))
plt.show()
10. Changez le nombre de voisins par : 3, 5 et enfin 9 et calculez le score d’accuracy à chaque fois.
Que remarquez-vous ?
11. Ecrire une boucle qui permet d’afficher le score (accuracy) pour k allant de 1 à 10.
params = {
grid.fit(X_train, y_train)
print(grid.best_score_)
print(grid.best_params_)
print(classification_report(y_test, grid.predict(X_test)))
3. Arbres de décision
Travail à faire :
import pandas_profiling as pp
pp.ProfileReport(df)
3. Vérifiez s’il y a des valeurs NaN avec le code suivant : df.isnull().values.any()
4. Préparez les données : X va contenir les valeurs des colonnes age et gender et Y la colonne
genre
6. Effectuez des prédictions pour deux individus ayant respectivement comme age et gender (21,
1) et (22,0)
7. Divisez les données en données d’apprentissage et de test (80% pour apprentissage et 20%
pour entrainement)