Formation Python Pour La Data Science - 5 - Le Machine Learning
Formation Python Pour La Data Science - 5 - Le Machine Learning
data science
Machine Learning
Emmanuel Jakobowicz
[email protected]
1
Le data mining et le machine learning
2
L’analyse de données et le machine learning
avec Python
Le bibliothèque la plus adaptée pour faire du data mining et du machine learning est la bibliothèque
scikit-learn
Cette bibliothèque propose des fonctions prédéfinies pour un grand nombre de méthodes
La classification : SVM, plus proches voisins, random forest…
Les régressions : linéaire, ridge, Lasso…
Le clustering : k-means…
L’analyse de données : ACP, DA…
…
Dans le cadre de cette formation, nous allons nous concentrer sur 5 méthodes afin de mener des analyses
complètes :
La régression linéaire (dans statsmodels)
L’ACP (dans scikit-learn)
Les plus proches voisins (dans scikit-learn)
Les k-means (dans scikit-learn)
3
La régression linéaire multiple
7
Cas pratique 1 : les iris de Fisher avec scikit-
learn
Les données : les iris de Fisher disponibles dans le package
Scikit-Learn ou importez directement de données de la
formation
Nous utilisons la fonction PCA de Scikit-Learn, la principale
option est n_component qui demande le nombre de
composantes Faire une ACP sur les
On peut voir ce qu’il y a dans l’objet créer en utilisant données des iris et
PCA.__doc__ représenter les nuages de
points
Dans .explained_variance_ratio_ on retrouve la part de
variance expliquée
On utilise la fonction pca.fit(X).transform(X) pour projeter
les points sur les axes
Pour récupérer les données, on utilise iris = datasets.load_iris() 8
Les plus proches voisins
12
Les k-means
Appliquez le modèle et
représentez deux scatter plot
avec les classes prédites et les
classes réelles
13
Cas pratique : réduire le nombre de couleurs
dans une image
On va utiliser les k-means pour baisser la résolution
d'une image
On prend l'image New York du site STAT4DECISION
On utilise misc de scipy
15
Résultats
16
Analyse du churn
La variable qui nous intéresse est la variable churn, elles est mal
codée dans le jeu de données
Pour utiliser des algorithmes de machine learning, on doit séparer
la partie explicative et la partie à expliquer
On stocke le churn dans y
On stocke les variables qui nous intéressent dans X
par exemple)
Les plus proches voisins
21
Analyse du churn
22
23