0% ont trouvé ce document utile (0 vote)

123 vues23 pages

Formation Python Pour La Data Science - 5 - Le Machine Learning

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

123 vues23 pages

Formation Python Pour La Data Science - 5 - Le Machine Learning

Transféré par

tdiouf

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 23

Formation Python pour la

data science
Machine Learning
Emmanuel Jakobowicz
[email protected]

1
Le data mining et le machine learning

2
L’analyse de données et le machine learning
avec Python
 Le bibliothèque la plus adaptée pour faire du data mining et du machine learning est la bibliothèque
scikit-learn
 Cette bibliothèque propose des fonctions prédéfinies pour un grand nombre de méthodes
 La classification : SVM, plus proches voisins, random forest…
 Les régressions : linéaire, ridge, Lasso…
 Le clustering : k-means…
 L’analyse de données : ACP, DA…
 …
 Dans le cadre de cette formation, nous allons nous concentrer sur 5 méthodes afin de mener des analyses
complètes :
 La régression linéaire (dans statsmodels)
 L’ACP (dans scikit-learn)
 Les plus proches voisins (dans scikit-learn)
 Les k-means (dans scikit-learn)

3
La régression linéaire multiple

 L’algorithme des moindres carrés ordinaires se trouve dans de

nombreuses bibliothèques Python
 En python, il est toujours possible (et parfois nécessaire) de recoder soi-
même une fonction statistique (ou du moins d’assembler des morceaux)
 Nous utiliserons des méthodes permettant d’obtenir des résultats
directs dans la cadre de cette formation

 C’est dans la bibliothèque statsmodels qu’on trouve la manière la plus

poussée d’analyser un modèle linéaire par moindres carrés ordinaires
(OLS) / nous allons aussi montrer comment le faire avec scikit-learn
4
Etude de cas – publicité (1)

 Nous travaillons sur les données advertising.csv qui propose de

modéliser les ventes par la publicités par média (TV, radio,
journaux) Importez les données et estimez ce
modèle. Affichez les différentes
 Il y a 200 observations et 4 variables sorties et utilisez .predict() pour
prédire de nouvelles valeurs des
ventes en fonctions d’un
 On commence par étudier le modèle Sales ~ TV DataFrame.
smf.ols(formula='Sales ~ TV', data=data).fit()
Et on affiche les différentes sorties avec :
.params, .conf_int(), .rsquared, .predict()
5
Etude de cas – publicité (2)

 On étudie maintenant le modèle complet de régression

multiple

Obtenez des résultats

 On peut le faire avec smf.ols et afficher les résultats avec équivalents avec statsmodels et
.summary() scikit-learn pour le modèle de
régression multiple.
Créez des graphique Y / pred(Y)
 On peut le faire avec LinearRegression de scikit-learn et Y / résidus(Y)
 On utilisera des arrays avec les différentes variables (X et y)
 Et on affiche avec .intercept_, .coef_, .score(X, y) (pour
le R²)
 .predict permet de prédire une ou plusieurs valeurs
6
L’analyse en composantes principales

 L’analyse en composantes principales est une méthode

centrale en analyse de données
 Elle combine des calculs matriciels et des visualisations
 La tradition de Python va plutôt vers une implémentation
personnelle par calcul matriciel mais nous utiliserons ce qui
est disponible
 Nous utiliserons deux approches pour faire de l’ACP sur
nos données

7
Cas pratique 1 : les iris de Fisher avec scikit-
learn
 Les données : les iris de Fisher disponibles dans le package
Scikit-Learn ou importez directement de données de la
formation
 Nous utilisons la fonction PCA de Scikit-Learn, la principale
option est n_component qui demande le nombre de
composantes Faire une ACP sur les
 On peut voir ce qu’il y a dans l’objet créer en utilisant données des iris et
PCA.__doc__ représenter les nuages de
points
 Dans .explained_variance_ratio_ on retrouve la part de
variance expliquée
 On utilise la fonction pca.fit(X).transform(X) pour projeter
les points sur les axes
Pour récupérer les données, on utilise iris = datasets.load_iris() 8
Les plus proches voisins

 La méthode des plus proches voisins est une méthode permettant de

faire beaucoup d’analyses différentes :
 Régression
 Classification
 Elle est basée sur le principe de l’apprentissage automatique avec un
échantillon d’apprentissage et un échantillon de test
 Plusieurs algorithmes existent, scikit-learn privilégiera l’approche la plus
adaptée
 En cas d’égalité, scikit-learn privilégie l’observation placée en premier
dans l’échantillon d’apprentissage
9
Cas pratique : la prévision avec les plus proches voisins

 On désire effectuer une prévision en utilisant les plus proches voisins

 On travaille sur les statistiques des joueurs de la NBA en 2013-2014
 On a donc un jeu de données avec des données manquantes qu’on importe
depuis le format csv
 On a une liste de variables pour 481 joueurs
 On va essayer de prédire le nombre de points marqué dans la saison en
fonction des autres variables

Importez les données et visualisez les

statistiques de Tony Parker 10
Cas pratique : la prévision avec les plus
proches voisins
 On va donc créer un échantillon d’apprentissage et un
échantillon de test
Préparez les données et
 On utilise : appliquez le modèle des
plus proches voisins
 from numpy.random import permutation et on permute les KNeighborsRegressor(n_
indices permutation(nba2.index) neighbors=?)
 On crée avec l’option loc, les sous- échantillons. Obtenir les prédictions et
comparer les prédictions
 On prendra 40 observations de test aux valeurs obtenues
 On utilise des colonnes quanti pour prédire
 Le y est définit par la variable ‘pts’
11
Les k-means

 Pour les k-means, on va utiliser la fonction Kmeans() de Scikit-

Learn qui va nous permettre d’obtenir un objet facile à gérer
 Le principe des k-means est de classer des objets dans un
nombre de classe défini
 On va commencer par générer des classes aléatoires
 On va utiliser :
from sklearn.datasets.samples_generator import make_blobs
X, y = make_blobs(n_samples=1000,n_features=4, centers=6, Générez les classes.
random_state=0, cluster_std=1.60)

12
Les k-means

 On estime les modèle avec

from sklearn.cluster import KMeans
est = KMeans(6) # 6 classes
est.fit(X)
y_kmeans = est.predict(X)

Appliquez le modèle et
représentez deux scatter plot
avec les classes prédites et les
classes réelles

13
Cas pratique : réduire le nombre de couleurs
dans une image
 On va utiliser les k-means pour baisser la résolution
d'une image
 On prend l'image New York du site STAT4DECISION
 On utilise misc de scipy

from scipy import misc

face = misc.imread('New York.jpg')
import matplotlib.pyplot as plt
plt.imshow(face)
plt.grid(False);
14
Cas pratique : réduire le nombre de couleurs
dans une image
 On va donc appliquer les k-means sur tous les points de l’image afin de définir 64
couleurs à utiliser
 On transforme l’image en un array à deux dimensions
 On applique les k-means avec la fonction Kmeans et 8 classes
 On l’applique à X et on utilise cluster_centers_ pour définir le centre de chaque
cluster et la couleur à associer
 On repasse ensuite dans le format initial et on affiche l’image

image = face[::3, ::3] with sns.axes_style('white'):

n_colors = 8 plt.figure()
plt.imshow(new_image)
X = (image / 255.0).reshape(-1, 3) plt.title('{0} couleurs'.format(n_colors))

15
Résultats

16
Analyse du churn

 Pour analyser le churn, on va utiliser trois méthodes

 Les forêts aléatoires
 Les SVM Importez les données se trouvant
 Les k-plus proches voisins dans le fichier telecom.csv
Affichez le nom des variables et
 Nous utiliserons des données issues des telecoms leurs propriétés (.info())
 Chaque ligne représente un client avec un certain
nombre de variables décrivant le client
 On a aussi une variable permettant de savoir si le client
est toujours client de l’opérateur
17
Analyse du churn

 La variable qui nous intéresse est la variable churn, elles est mal
codée dans le jeu de données
 Pour utiliser des algorithmes de machine learning, on doit séparer
la partie explicative et la partie à expliquer
 On stocke le churn dans y
 On stocke les variables qui nous intéressent dans X

Créez une nouvelle variable churn qui

prend des valeurs 0/1 (avec np.where 18

par exemple)
Les plus proches voisins

 La méthode des plus proches voisins est une méthode permettant de

faire beaucoup d’analyses différentes :
 Régression
 Classification
 Elle est basée sur le principe de l’apprentissage automatique avec un
échantillon d’apprentissage et un échantillon de test
 Plusieurs algorithmes existent, scikit-learn privilégiera l’approche la plus
adaptée
 En cas d’égalité, scikit-learn privilégie l’observation placée en premier
dans l’échantillon d’apprentissage
19
Analyse du churn
 Appliquer un modèle de plus proches voisins
 On utilise la fonction plus proche voisins de sickit learn

 On crée un objet plus proche voisins (on prendra 10 voisins)

 On utilise la méthode .fit() de cet objet afin d’appliquer les données à la

méthode

 On peut calculer simplement l’accuracy pour ce modèle

20
Analyse du churn
 Effectuez les mêmes analyses avec les SVM et les forêts aléatoires

 Comparez les accuracy

21
Analyse du churn

 Pour aller plus loin, il faut ajuster les hyperparamètres des

modèles
 Il faut fonctionner par validation croisée
 Essayer de comprendre les importances des variables du modèle

22
23

Vous aimerez peut-être aussi

10 Projets Pour Un Portfolio Data Science Réussi
Pas encore d'évaluation
10 Projets Pour Un Portfolio Data Science Réussi
18 pages
Machine Learning
100% (1)
Machine Learning
6 pages
Cours 6 IA
Pas encore d'évaluation
Cours 6 IA
68 pages
Regression Logistique
100% (1)
Regression Logistique
33 pages
Outils Python Pour La Data Science (PDFDrive)
Pas encore d'évaluation
Outils Python Pour La Data Science (PDFDrive)
26 pages
Analyse Des Données Quantitatives M2SG
Pas encore d'évaluation
Analyse Des Données Quantitatives M2SG
42 pages
Statistiques ts2 20
100% (2)
Statistiques ts2 20
3 pages
Pre Traitement Donnees 24 Handout
Pas encore d'évaluation
Pre Traitement Donnees 24 Handout
103 pages
Livre1 Cours
Pas encore d'évaluation
Livre1 Cours
103 pages
Chap2 Pretraitement Donnees
100% (1)
Chap2 Pretraitement Donnees
31 pages
Projet IA
Pas encore d'évaluation
Projet IA
29 pages
Equations Structurelles PLS
Pas encore d'évaluation
Equations Structurelles PLS
15 pages
Gestion Projet Big Data
Pas encore d'évaluation
Gestion Projet Big Data
28 pages
Les Arbres de Decisions
Pas encore d'évaluation
Les Arbres de Decisions
85 pages
PART2 Spring Design Patterns IOC
Pas encore d'évaluation
PART2 Spring Design Patterns IOC
8 pages
Régression Linéaire (Pour TD)
Pas encore d'évaluation
Régression Linéaire (Pour TD)
10 pages
ML DL-Data Cleaning
100% (1)
ML DL-Data Cleaning
34 pages
Pygame: Initiez-Vous Au Développement de Jeux Vidéo en
Pas encore d'évaluation
Pygame: Initiez-Vous Au Développement de Jeux Vidéo en
21 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
Python Pour Tout
Pas encore d'évaluation
Python Pour Tout
43 pages
TP Regression
Pas encore d'évaluation
TP Regression
5 pages
Utilisation Du Deep Learning Pour La Detection D'embarcation A Partir Des Images Satellites
Pas encore d'évaluation
Utilisation Du Deep Learning Pour La Detection D'embarcation A Partir Des Images Satellites
89 pages
Pretraitement Des Donnees
100% (1)
Pretraitement Des Donnees
27 pages
Atelier 2 SPSS Biostate 2eme Atelier
Pas encore d'évaluation
Atelier 2 SPSS Biostate 2eme Atelier
69 pages
Informatique Python
Pas encore d'évaluation
Informatique Python
204 pages
FR Tanagra Deep Learning Tuffery
100% (1)
FR Tanagra Deep Learning Tuffery
10 pages
Formation Python Pour La Data Science - 3 - Introduction À Numpy
Pas encore d'évaluation
Formation Python Pour La Data Science - 3 - Introduction À Numpy
43 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
TP3 Apprentissage Automatique Aimèrou Ndiaye - HTML
100% (2)
TP3 Apprentissage Automatique Aimèrou Ndiaye - HTML
16 pages
RAPPORT Regression
Pas encore d'évaluation
RAPPORT Regression
14 pages
Cours Stat LP-S5 Partie 2
Pas encore d'évaluation
Cours Stat LP-S5 Partie 2
103 pages
TD Econometrie L3
Pas encore d'évaluation
TD Econometrie L3
8 pages
164 Data Scientist FR FR Standard
100% (1)
164 Data Scientist FR FR Standard
23 pages
Introduction To Machine Learning For Cyber Security
Pas encore d'évaluation
Introduction To Machine Learning For Cyber Security
37 pages
ML PR
Pas encore d'évaluation
ML PR
66 pages
COURS STATISTIQUES EXPLORATOIR, Intro Et Chap 1
Pas encore d'évaluation
COURS STATISTIQUES EXPLORATOIR, Intro Et Chap 1
14 pages
UP3 2 Fouille de Donnees Handout
Pas encore d'évaluation
UP3 2 Fouille de Donnees Handout
65 pages
Feuille Tage
Pas encore d'évaluation
Feuille Tage
25 pages
Algorithme Machine Learng
Pas encore d'évaluation
Algorithme Machine Learng
16 pages
StatDesc - Beamer 1 35 1 30
Pas encore d'évaluation
StatDesc - Beamer 1 35 1 30
30 pages
1 Introduction PDF
Pas encore d'évaluation
1 Introduction PDF
23 pages
TP4 Introduction A Numpy Et Matplotlib
Pas encore d'évaluation
TP4 Introduction A Numpy Et Matplotlib
11 pages
Data Scientist Job
Pas encore d'évaluation
Data Scientist Job
32 pages
Chapitre 4 - Structures de Données de Base
Pas encore d'évaluation
Chapitre 4 - Structures de Données de Base
60 pages
Big Data Et Machine Learning
Pas encore d'évaluation
Big Data Et Machine Learning
20 pages
Corrélation Linéaire Et Régression Linéaire Simple PDF
Pas encore d'évaluation
Corrélation Linéaire Et Régression Linéaire Simple PDF
19 pages
02 Intro ML
Pas encore d'évaluation
02 Intro ML
53 pages
ST Tutor2 Python Pandas
Pas encore d'évaluation
ST Tutor2 Python Pandas
11 pages
WM.B - Filtrage Collaboratif - Recommandation
Pas encore d'évaluation
WM.B - Filtrage Collaboratif - Recommandation
32 pages
Sujet 46
Pas encore d'évaluation
Sujet 46
14 pages
Guide Options
Pas encore d'évaluation
Guide Options
34 pages
TP - Analyse, La Prédiction Et La Visualisation Des Données
Pas encore d'évaluation
TP - Analyse, La Prédiction Et La Visualisation Des Données
2 pages
Chapitre 2 Regression
Pas encore d'évaluation
Chapitre 2 Regression
18 pages
Var
Pas encore d'évaluation
Var
87 pages
SIMM
Pas encore d'évaluation
SIMM
81 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Python Pour l'IA - COMPLET
Pas encore d'évaluation
Python Pour l'IA - COMPLET
30 pages
Gestion Monétaire - Quelles Évolutions Pour 2019 - FR
Pas encore d'évaluation
Gestion Monétaire - Quelles Évolutions Pour 2019 - FR
13 pages
7.règles D'association Python.0
Pas encore d'évaluation
7.règles D'association Python.0
31 pages
Apprentissage Non Supervisé
Pas encore d'évaluation
Apprentissage Non Supervisé
57 pages
TP 01 Préaparation de Données
Pas encore d'évaluation
TP 01 Préaparation de Données
3 pages
Tp2: Deep Learning: Tensorflow
Pas encore d'évaluation
Tp2: Deep Learning: Tensorflow
9 pages
Traitement Des Donnees Numeriques 2023
Pas encore d'évaluation
Traitement Des Donnees Numeriques 2023
11 pages
TP3 ProgPython
Pas encore d'évaluation
TP3 ProgPython
5 pages
FRTB
Pas encore d'évaluation
FRTB
33 pages
AMPL
Pas encore d'évaluation
AMPL
22 pages
Ajustement D'un Nuage de Points
Pas encore d'évaluation
Ajustement D'un Nuage de Points
41 pages
Feuilletage
Pas encore d'évaluation
Feuilletage
30 pages
TP Les Listes
Pas encore d'évaluation
TP Les Listes
4 pages
Examjan Econométrie 2021
Pas encore d'évaluation
Examjan Econométrie 2021
4 pages
T.D - Traitement Des Données en Tables
Pas encore d'évaluation
T.D - Traitement Des Données en Tables
6 pages
Chapitre 1 Cours
Pas encore d'évaluation
Chapitre 1 Cours
10 pages
Direction de La Dette Publique (DDP)
Pas encore d'évaluation
Direction de La Dette Publique (DDP)
12 pages
Mesure Du Risque de Contrepartie: Le Comité de Bâle Remanie La Méthode de Calcul Standard
Pas encore d'évaluation
Mesure Du Risque de Contrepartie: Le Comité de Bâle Remanie La Méthode de Calcul Standard
4 pages
1 Apprentissage Supervise
Pas encore d'évaluation
1 Apprentissage Supervise
13 pages
Ressources Pour Test Et Entretien Tech - Développeur Datascience
Pas encore d'évaluation
Ressources Pour Test Et Entretien Tech - Développeur Datascience
2 pages
FR Tanagra Tensorflow Keras Python PDF
Pas encore d'évaluation
FR Tanagra Tensorflow Keras Python PDF
15 pages
Risque de Contrepartie - Entretien
Pas encore d'évaluation
Risque de Contrepartie - Entretien
18 pages
SWAT Based Hydrological Modelling of Tropical Land Use Scenarios
Pas encore d'évaluation
SWAT Based Hydrological Modelling of Tropical Land Use Scenarios
23 pages
Qu'est-Ce Un Hash-Un Bloc Et Une Blockchain
Pas encore d'évaluation
Qu'est-Ce Un Hash-Un Bloc Et Une Blockchain
4 pages
DIFF
Pas encore d'évaluation
DIFF
42 pages
AS With Python
Pas encore d'évaluation
AS With Python
3 pages
Business Opportunities FR
Pas encore d'évaluation
Business Opportunities FR
15 pages
Blockchain Innovation
Pas encore d'évaluation
Blockchain Innovation
13 pages
Accord de Confidentialité B4P BUURGROUP
Pas encore d'évaluation
Accord de Confidentialité B4P BUURGROUP
8 pages
Projet Ia
Pas encore d'évaluation
Projet Ia
8 pages
PREZZ
Pas encore d'évaluation
PREZZ
16 pages
Ngongang Noujep Youssa
Pas encore d'évaluation
Ngongang Noujep Youssa
5 pages
Reconnaissance Et Certification Microfinance Senegal
Pas encore d'évaluation
Reconnaissance Et Certification Microfinance Senegal
8 pages
Biais & Variance ... Dilemme Ou Compromis - Datacorner Par Benoit Cayla-1
Pas encore d'évaluation
Biais & Variance ... Dilemme Ou Compromis - Datacorner Par Benoit Cayla-1
7 pages
Régression Linéaire Multiple
Pas encore d'évaluation
Régression Linéaire Multiple
8 pages
Plaquette BuurGroup
Pas encore d'évaluation
Plaquette BuurGroup
2 pages
Séance 1 - ISM
Pas encore d'évaluation
Séance 1 - ISM
8 pages
120 Graph85
Pas encore d'évaluation
120 Graph85
2 pages
Data Science - Introduction Au Machine Learning PDF
Pas encore d'évaluation
Data Science - Introduction Au Machine Learning PDF
1 page
Buur TECH
Pas encore d'évaluation
Buur TECH
1 page
Pourquoi Le Prétraitement Des Données
Pas encore d'évaluation
Pourquoi Le Prétraitement Des Données
12 pages
JavaScript Pour Débutants
D'Everand
JavaScript Pour Débutants
Alex Coder
Pas encore d'évaluation
Formation 3D par la pratique avec C#5 et WPF: Modeliser des molecules
D'Everand
Formation 3D par la pratique avec C#5 et WPF: Modeliser des molecules
Patrice Rey
Pas encore d'évaluation
Detection des collisions dans les jeux video 2D: avec C#5, WPF et Visual Studio 2013
D'Everand
Detection des collisions dans les jeux video 2D: avec C#5, WPF et Visual Studio 2013
Patrice Rey
Pas encore d'évaluation