Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Apprentissage automatique
Généralités
Gorgoumack SAMBE
Université Assane Seck de Ziguinchor
Version 1.0 - 2021
1/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Objectifs
Objectif général
Distinguer les dénitions et concepts de base de
l'apprentissage automatique.
2/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Objectifs
Objectif général
Distinguer les dénitions et concepts de base de
l'apprentissage automatique.
Objectifs spéciques
1 Distinguer et positionner l'apprentissage automatique par
rapport aux domaines connexes ;
2 Distinguer les diérentes approches d'apprentissage
automatique.
3 Appliquer une méthodologie de résolution de problème
d'apprentissage automatique ;
2/23 Gorgoumack SAMBE Apprentissage automatique
Plan
1 Historique et Dénition
2 Approches d'apprentissage automatique
3 Méthodologie
Plan
1 Historique et Dénition
2 Approches d'apprentissage automatique
3 Méthodologie
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Historique
1952 : Samuel Checkers-playing Program
programme d'auto apprentissage du jeux de dame
1959 : Naissance du terme
50-60 : fortes promesses - manque de résultats
74-80/87-93 : Hivers de l'IA.
93- : Renouveau avec internet, puissance de calcul des
ordinateurs.
5/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Apprentissage automatique
Histoire fortement liées à celle de l'Intelligence Articielle
Apprentissage automatique
L'apprentissage automatique est un sous-domaine de l'intelligence
articielle (IA) qui se concentre sur la conception de systèmes qui
apprennent ou améliorent le rendement en fonction des données
qu'ils consomment.(https ://www.oracle.com)
6/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Domaine pluridisciplinaire
A la croisée de
Probabilités : étude des phénomènes aléatoires
Statistiques : étude des phénomènes à travers la collecte, le
traitement et l'analyse de données.
Extraction de connaissances (Dataming) : extraction de
connaissance à partir de grandes masses de données
Optimisation/recherche opérationnelle : modélisation et
résolution des problèmes de maximisation/minimisation, plus
court chemin, . . . .
7/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Applications
Systèmes de recommandations : suggestion de produits
dans le e-commerce (Amazon, . . . ), suggestion de lms sur la
VOD (Netix, . . . ), . . . ;
Détection d'anomalies : détection de spams, détection de
fraudes, . . . ;
Scoring : évaluation d'un individu (client/prospect) par
rapport à diérents critères ;
Traitement automatique du langage (TAL), agents
conversationnels (chat bots), reconnaissance vocale ;
Reconnaissance de motifs ;
Conduite autonome (voiture/avion/. . . ) ;
Diagnostic médical ;
...
8/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Domaines connexes
Data science (science des données) : approche
pluri-disciplinaire pour l'extraction de connaissances à partir
de données hétérogènes [Cleveland, 2001, Abiteboul et al.,
2014].
Intelligence articielle : Simulation de l'intelligence humaine
Représentation des connaissances, systèmes experts, calcul
formel, raisonnement . . .
Big data (Données massives) : 4V (volume, variété, vélocité,
véracité) et éléments de solutions issus du stockage/calcul
distribué [Leskovec et al., 2014].
Statistiques, Datamining.
9/23 Gorgoumack SAMBE Apprentissage automatique
Plan
1 Historique et Dénition
2 Approches d'apprentissage automatique
3 Méthodologie
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Approches
4 approches 1 :
1 approche supervisée
1 problèmes de classication
2 problèmes de régression
2 approche non supervisée
3 approche semi-supervisée
4 approche par renforcement
1. https ://ichi.pro/fr/classication-des-modeles-d-apprentissage-
automatique-101468035093087
11/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
1 - Approche supervisée
Données étiquetées
12/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
1 - Approche supervisée
Données étiquetées
1 problème de classication : étiquette de classe
exemples : Détection de spams.
2 problème de régression : valeur continue.
exemples : prédiction de la moyenne d'étudiants.
12/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
2 - Approche non supervisée
Données non étiquetées
Exemples : segmentation d'images, segmentation de clientèle
13/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
3 - Approche semi-supervisée
Une partie des données est étiquetée
Exemples : segmentation d'images, segmentation de clientèle
14/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
4 - Approche par renforcement
Agent apprenant par expérience dans le temps
basé sur un système de récompense/punition.
Exemples : conduite autonome, jeux . . .
15/23 Gorgoumack SAMBE Apprentissage automatique
Plan
1 Historique et Dénition
2 Approches d'apprentissage automatique
3 Méthodologie
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Le processus d'apprentissage automatique
Étape du cycle de vie d'exploration de données.
Plusieurs méthodes (framework) : CRISP-DM, Oracle data
science lifecycle, the data science process (Harvard
CS109) 2 , . . .
17/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Le processus d'apprentissage automatique
Étape du cycle de vie d'exploration de données.
Plusieurs méthodes (framework) : CRISP-DM, Oracle data
science lifecycle, the data science process (Harvard
CS109) 2 , . . .
17/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Les phases de l'apprentissage automatique
1 choix d'un modèle
Bonne connaissance des données (exploration)
Bonne connaissance des modèles.
2 phase d'apprentissage
Données d'entraînement : 60 % à 90 % des données
Bonne connaissance des algorithmes d'apprentissage
3 phase de validation
Données de validation : 10 à 40 % des données
Bonne connaissance des estimateurs.
18/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Choix entre plusieurs modèles
1 phase d'apprentissage
Données d'entraînement : 50 % en général.
Apprentissage de plusieurs modèles.
2 phase de validation
Données de validation : 25 % en général.
Test des diérents modèles ⇒ choix du "meilleur modèle".
3 phase de test
Données de test : 25 % en général.
Test du modèle choisi.
19/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Validation
1 Validation croisée
Partitionnement des données en k parties Dk
Pour tout k :
Apprentissage sur ∪(l6=k) Dk .
validation sur Dk .
Évaluation par la moyenne des performances.
leave-one-out : si k =1
2 Bootstrap
Utilisation de b échantillons (D1 , . . . , Db ) de taille n (taille de
D ).
Di : tirage de n éléments de D avec remplacement.
20/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Critères de performances
Classication
1 Matrice de confusion
classe réelle
1 (P) 0 (N)
Classe 1 vrais positifs (TP) faux positifs (FP)
prédite 0 faux négatifs (FN) vrais négatifs (TN)
2 Critères dérivés
Exactitude 3 : accuracy = TP+TN
P+N .
Taux d'erreur 4 : error = FP+FN
P+N = 1 − accuracy .
Rappel ( taux de vrais positifs) : Rappel = TP+FN
5 TP
.
Spécicité (taux de vrais négatifs) : Spécicité= TN+FP
TN
.
Précision : Precision = TP+FP .
6 TP
3. accuracy rate
4. error rate
5. sensitivity
6. adjoint au rappel et/ou la spécicité
21/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Exemple
Dépistage du cancer
1 Matrice de confusion
classe réelle Total
cancer pas de cancer
Classe cancer 190 (TP) 210 (FP) 400
prédite pas de cancer 10 (FN) 3590 (TN) 3600
Total 200 3800 4000
2 Critères dérivés
190+3590
Exactitude : accuracy = TP+TN
P+N = 4000 = 94, 5%.
Taux d'erreur : error = P+N = 1 − accuracy = 5, 5%.
FP+FN
Rappel : Rappel = TP+FN
TP
= 190
200 = 95%.
Spécicité : Spécicité= TN+FP = 3590
TN
3800 = 94, 47%.
Précision : Precision = TP+FP
TP
= 190
400 = 47, 5%.
22/23 Gorgoumack SAMBE Apprentissage automatique
Historique et Dénition
Approches d'apprentissage automatique
Méthodologie
Critères de performances
Prédiction
y1 , . . . , yn étiquettes réelles, y10 , . . . , yn0 les prédictions.
1 Fonctions de pertes (loss function) :
Erreur quadratique moyenne (MSE 7 ) :
MSE = 1n Σni=1 (yi − yi0 )2 .
Racine de l'Erreur quadratique moyenne (RMSE 8 ) :
1 Σn
q
RMSE = n i=1 (yi − yi0 )2 .
même unité que la cible.
Erreur quadratique relative (RSE 9 )
Σni=1 (yi −yi0 )2
. avec y = 1n Σni=1 yi
Σni=1 (yi −y )2
complémentaire à un du coecient de détermination.
...
7. Mean squared error
8. Root Mean squared error
9. Relative squared error
23/23 Gorgoumack SAMBE Apprentissage automatique