TP Regression
TP Regression
TP Regression
Objectifs:
Dans ce TP, nous allons explorer les concepts fondamentaux de la régression logistique en
Python, en utilisant des données simulées. L'objectif est de construire un modèle capable de
prédire le succès ou l'échec des étudiants en fonction de leurs heures d'étude et de leurs
performances passées.
Méthodologie :
Étape 1 : Génération des données
Dans cette étape, nous avons généré un jeu de données simulé représentant les heures d'étude, les
notes passées des étudiants, et leur réussite (succès ou échec). Le jeu de données a été exporté en
format CSV pour une utilisation ultérieure.
# Statistiques descriptives
print(data.describe())
output :
Explication des Résultats Visuels
Le nuage de points montre comment les étudiants se répartissent en fonction de leurs heures d'étude
et de leurs scores passés, tout en prenant en compte leur réussite ou échec. On peut observer certaines
tendances, comme :
Les étudiants ayant un score passé élevé ou beaucoup d'heures d'étude tendent à réussir
(point jaune).
Les étudiants avec moins d'heures d'étude ou un faible score passé sont souvent classés
comme ayant échoué (point violet).
Étape 3 : Préparation des données
Divisons les données en ensembles d’entraînement (80%) et de test (20 %).
from sklearn.model_selection import train_test_split
# Prédictions
y_pred = model.predict(X_test)
# Évaluation
print("Précision :", accuracy_score(y_test, y_pred))
print("\nMatrice de confusion :\n", confusion_matrix(y_test, y_pred))
print("\nRapport de classification :\n", classification_report(y_test,
y_pred))
output :
Matrice de confusion :
Interprétation :
Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.figure(figsize=(10, 6))
plt.contourf(xx, yy, Z, alpha=0.8, cmap='viridis')
plt.scatter(data['study_time'], data['past_scores'], c=data['success'],
edgecolor='k', cmap='viridis')
plt.xlabel('Study Time (hours)')
plt.ylabel('Past Scores (out of 100)')
plt.title('Frontière de décision')
plt.show()
output :
Conclusion
L'analyse des données montre la relation entre le temps d'étude, les scores passés et la
réussite des étudiants. Grâce aux statistiques descriptives et à la visualisation graphique, nous
pouvons observer des tendances intéressantes : par exemple, les étudiants ayant plus
d'heures d'étude ou un meilleur score passé ont plus de chances de réussir. Cela suggère que
ces deux facteurs influencent probablement la réussite.