Cours Machine Learning
Cours Machine Learning
Cours Machine Learning
Mohamed HAMMAMI
Professeur à la FSS – Université de Sfax
[email protected]
LSI 3
Syllabus du cours
Objectifs
● Sensibiliser les étudiants à l’importance du Machine
Learning
en tant que nouvel domaine technologique;
● Positionner le Machine Learning dans le processus ECD
;
● Maîtrise des principes théoriques de quelques
techniques de
Machine Learning (classification, prédiction, etc) ;
● Manipulation d’outils logiciels de Machine Learning.
LSI 3
Mohamed 3
HAMMAMI
Chapitre 1:
LSI 3
Mohamed 4
HAMMAMI
Problématique de base
De plus en plus de
données sont générées :
● Banques,
télécommunication,
domaines
commerciaux ...
● Données
scientifiques :
astronomie, biologie,
etc.
● Web : texte, images,
De nosson,
jours, les entreprises
accumulent
vidéo,auetc.quotidien de gros
volumes de données
● E-commerce
LSI 3
Mohamed 5
HAMMAMI
Problématique de base
Le stockage et l’analyse de
ces données constituent un
problème à part entière
LSI 3
Mohamed 6
HAMMAMI
Problématique de base
LSI 3
Mohamed 7
HAMMAMI
Problématique de base
● France Telecom ~ 30 To
● Web :
● Alexainternet archive (www.alexa.com) 7 ans
de données ~ 500 To
● Google searches ~ plus de 4 Milliards de
pages ~
plusieurs centaines de To
● WebFountain d’IBM (2003) ~ 160 To
● Internet Archive (www.archive.org) ~ 300
Mohamed
To LSI 3
8
HAMMAMI
Problématique de base
LSI 3
Mohamed 10
HAMMAMI
Problématique de base
Malheureusement cette masse d’information souvent
sous exploitée
Beaucoup de données mais peu de
connaissances !
Nécessité d’exploiter ces données
● Est-il possible de valoriser ces données amassées ?
Zighed(199
5)
Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données
Fayyad et al.
(1997) :
Data Mining is a step in the KDD process that consists of
applying data analysis and discovery algorithms that
produce a particular enumeration of patterns (or models)
over the data.
LSI 3
Mohamed 12
HAMMAMI
Qu’est-ce que le Data Mining ?
Wikipédia
:
Le Data Miningestun processusd’extraction de
connaissances
valides et exploitables à partir de grands volumes de données.
Le Data Mining a pour objet l’extraction d’un savoir
ou d’une connaissance à partir de grandes quantités de
données, par des méthodes automatiques ou semi-
automatiques, et l’utilisation industrielle ou opérationnelle
de ce savoir.
Autres appellations:
- ECD (Extraction de Connaissances à partir de
Données)
- KDD (Knowledge Discovery from Databases)
- Fouille de données,
- Machine Learning etc … LSI 3
Mohamed 13
HAMMAMI
Origines du Data Mining
LSI 3
Mohamed 16
HAMMAMI
Origines du Data Mining
LSI 3
Mohamed 17
HAMMAMI
Cas d’applications: Commerce
Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.
Principe :
«fouiller» ces données pour
en produire de l’information
et de la connaissance
LSI 3
Mohamed HAMMAMI 20
Cas d’applications: E-Commerce
Le Web Usage Mining
LSI 3
Mohamed HAMMAMI 21
Cas d’applications: E-Commerce
30%Promo
Technologie de l’information
● faible coût de stockage de données,
● saisie automatique de transaction (code bar,
click, données de localisation GPS, internet)
LSI 3
Mohamed 25
HAMMAMI
Le Data Mining et le KDD
LSI 3
Mohamed 26
HAMMAMI
Le Data Mining et le KDD
LSI 3
Mohamed HAMMAMI 27
-
Principaux avantages du Data Mining
Aide à la prise de décisionsdes dirigeants (ne les
remplace pas!)
Détecte les relations entre les données et permet de
faire des liens pertinents.
Étudie le passé dans le but de faire des prédictions dans
le futur.
Augmente la satisfaction des clients grâce à une
approche plus personnalisée.
Permet de mieux cerner et connaître la clientèle.
Peut augmenter les revenus et diminuer les coûts de
Selon le MIT (Massachussets Institute of Technology), le Data
entreprise.
Mining est l’une
des 10 technologies émergeante qui changeront le monde au
LSI 3
21ème
Mohamed siècle.
HAMMAMI
28
Chapitre 2 :
Processus ECD
LSI 3
Mohamed 29
HAMMAMI
Qu’est-ce que le processus ECD ?
Fayyad et al.
(1996)
"un processus non-trivial d’identification de structures inconnues,
valides et
potentiellement exploitables dans les bases de données
Zighed et al.
(2001)
L’ECD est un processus qui fait intervenir des méthodes et des
outils issus
de différents domaines en vue de découvrir des connaissances
utiles.
L’ECD vise à transformer les données en connaissances
LSI 3
Mohamed 30
HAMMAMI
Qu’est-ce que le processus ECD ?
L’ECD est un processus qui met en oeuvre un ensemble de
techniques provenant :
● des bases de données ; ● de l’analyse des données
;
LSI 3
Mohamed 31
HAMMAMI
Qu’est-ce que le processus ECD ?
LSI 3
Mohamed 32
HAMMAMI
Définition générale de l’ECD
LSI 3
Mohamed 33
HAMMAMI
Définition générale de l’ECD
LSI 3
Mohamed 35
HAMMAMI
Phase d’acquisition des données
LSI 3
Mohamed 36
HAMMAMI
Phase d’acquisition des données
Préliminaires
● Bien délimiter le problème de la fouille de données.
● Ne pas se lancer dans l’ECD sans définir les objectifs.
● Avoir une idée claire sur les moyens
technologiques à disposition.
LSI 3
Mohamed 37
HAMMAMI
Phase d’acquisition des données
Objectif
● La phase d’acquisition vise à cibler l’espace des données qui
va être exploré.
LSI 3
Mohamed 38
HAMMAMI
Phase d’acquisition des données
Résultat
● Un stock de données contenant potentiellement l’information
ou la connaissance recherchée.
● Un échantillon de données tirées du monde réel.
● Données relatives à des événements passés.
LSI 3
Mohamed 39
HAMMAMI
Phase de préparation des données
LSI 3
Mohamed 40
HAMMAMI
Phase de préparation des données
LSI 3
Mohamed 42
HAMMAMI
Exemple: préparation des données
LSI 3
Mohamed 43
HAMMAMI
Exemple: préparation des données
Nettoyage des données
Doublons, erreurs de saisie
● un doublon donne plus d’importance à la donnée répétée
● Une erreur de saisi peut à l’inverse cacher une répétition
Intégrité de domaine
● Un contrôle sur les domaines de valeurs peut révéler des
valeurs
aberrantes
Informations manquantes
● Données avec des champs ne contenant aucune donnée
● Parfois le manque d’information est une information
● Les valeurs des autres champs peuvent être utiles LSI 3
Mohamed 44
HAMMAMI
Exemple: préparation des données
LSI 3
Mohamed 45
HAMMAMI
Exemple: préparation des données
LSI 3
Mohamed 46
HAMMAMI
Exemple: préparation des données
Ajout de nouveaux
champs en conservant le
même nombre
d’enregistrements
● Faire des conversions si
les données sont de
formats différents
MastèreLMS
Mohamed 47
● Effectuer une nouvelle
HAMMAMI
IR3I
Exemple: préparation des données
MastèreLMS
Mohamed IR3I 48
HAMMAMI
Exemple: préparation des données
Codage et normalisation
● Regroupement
Certains attributs prennent un
très grand nombre de valeurs discrètes
possibles
Le regroupement en des sous-ensembles permet de
réduire le
nombre de valeurs considérées
Région : Tunis, Sfax / Age : jeune, adulte, vieux
● Changement de type
Simplifier les types de données afin de faciliter les
comparaisons et les calculs de distance, etc.
Date de naissance Age / Date d’abonnement Durée
MastèreLMS
Mohamed IR3I 49
HAMMAMI
Phase de préparation des données
Sélection de variables
● Les issues de le
données ne
toute phase sont
exploitabl
d’acquisition
par des techniquess de Dataes
Mining. pas
nécessaireme
pertinentes
● Larecherche
nt un des
ensemble
parmi
variables de variables est
processus
le de data mining,
point
central
c’estd’un
elle qui va conditionner la
qualité des modèles établis.
MastèreLMS
Mohamed IR3I 51
HAMMAMI
Phase de fouille de données
Cette phase est au coeur du processus ECD.
MastèreLMS
Mohamed IR3I 53
HAMMAMI
Phase de validation et de mise en forme
MastèreLMS
Mohamed IR3I 54
HAMMAMI
Phase de validation et de mise en forme
Critères de comparaison de classifieurs :
1. Taux de précision : capacité à prédire correctement
2. Temps de calcul : temps nécessaire pour apprendre et
tester f^
Volume de données : efficacité en présence de données
3.
de
Taux d’erreur :
grande taille
A B
A 88 1
8 2
B 5 9 LSI 3
Mohamed 55
HAMMAMI
Phase de validation et de mise en forme
Taux d'erreur global
● permet de savoir comment va agir un classifieur sur
l’ensemble des données
1 n A. A B.B
globale ncard (M )
où card(M) est le nombre total d’individu
Remarque: k
Les données
● Des bits, des symboles, des nombres, des objets que
nous collectons journalièrement
Les informations
● Des données sans redondances, réduites au
minimum nécessaire pour caractériser les données
Les connaissances
● La connaissance est intégrée dans l’information, elle
inclut des faits et des relations entre ces faits
● Elles relient les informations entre-elles
MastèreLMS
Mohamed IR3I 58
HAMMAMI
Exemple: des données aux connaissances
MastèreLMS
Mohamed IR3I 59
HAMMAMI
Logiciels d’ECD / Data Mining
Logiciels commerciaux :
● SPAD (Decisia)
• Simplicité du pilotage
● SAS Enterprise Miner
• Techniques variées
● SPSS Clementine
• Déploiement
● STATISTICA Data Miner • Outils de “reporting”
● IBM Intelligent Miner
Logiciels
universitaires :
• Spécifiques à certaines
● TANAGRA
techniques
● SIPINA
• Techniques référencées -
● WEKA
publiées
● ORANGE • Outils de validation
MastèreLMS
Mohamed IR3I 60
HAMMAMI
Chapitre 3 :
LSI 3
Mohamed 61
HAMMAMI
Phase de fouille de données (Apprentissage automatique)
LSI 3
Mohamed 62
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 63
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 64
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 65
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 66
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 67
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 68
HAMMAMI
Techniques de visualisation et de description
LSI 3
Mohamed 69
HAMMAMI
Exemple
LSI 3
Mohamed 70
HAMMAMI
Exemple
LSI 3
71
Exemple
LSI 3
Mohamed 72
HAMMAMI
Exemple
LSI 3
Mohamed 73
HAMMAMI
Techniques de structuration et de classification
LSI 3
Mohamed 74
HAMMAMI
Techniques de structuration et de classification
LSI 3
Mohamed 75
HAMMAMI
Techniques de structuration et de classification
Apprentissage non supervisé (Les classes sont
inconnues)
● Exemple:
● Segmentation de l’ensemble des clients d’une
entreprise en fonction de leurs habitudes d’achat
● Grouper des documents ou des images pour des
présentations
Attributs
(Caractéristiques)
y1 y2 ... yp class
e
d’apprentissage
1 a b c
1
Exemples
2 b c a
2
n c a a
4 LSI 3
Mohamed 76
HAMMAMI
Techniques de structuration et de classification
Sexe, lunettes,
sourire, chapeau
LSI 3
Mohamed 77
HAMMAMI
Techniques de structuration et de classification
LSI 3
Mohamed 78
HAMMAMI
Techniques de structuration et de classification
LSI 3
Mohamed 79
HAMMAMI
Techniques de structuration et de classification
Dendrogramm
e:
Représentation
graphique des
groupes et des
combinaisons
des groupes
LSI 3
Mohamed 80
HAMMAMI
Techniques de structuration et de classification
Exemple: 2 Clusters
LSI 3
Mohamed 81
HAMMAMI
Techniques de structuration et de classification
Exemple: 6 Clusters
LSI 3
Mohamed 82
HAMMAMI
Techniques de prédiction
.
LSI 3
Mohamed 83
HAMMAMI
Techniques de prédiction
Apprentissage supervisé.
● Exemple : prédire la qualité d’un client (rembourse
ou pas son crédit) en fonction de ses
caractéristiques.
Attributs
(Caractéristiques)
y1 y2 ... yp class
e
1 a b c 1
d’apprentissage
2 b c a 2
Exemples
n c a a 4
LSI 3
Mohamed 84
HAMMAMI
Techniques de prédiction
Méthodes et algorithmes
● Arbres de décision
● Réseaux de neurones
● Machines à vecteur de support (SVM)
● Régression en général
● Méthode des plus proches voisins
●…
LSI 3
Mohamed 87
HAMMAMI
Techniques de prédiction
LSI 3
Mohamed 88
HAMMAMI
Techniques de prédiction
LSI 3
Mohamed 89
HAMMAMI
Techniques de prédiction
LSI 3
Mohamed 90
HAMMAMI
Chapitre 4 :
Apprentissage non-supervisé
LSI 3
Mohamed 91
HAMMAMI
Donnée Connaissanc
s es
Acquisitio Préparation des Fouille de Evaluatio
n données n
données
LSI 3
Mohamed 92
HAMMAMI
Introduction générale
Exemples d’application :
● Identifier des groupes d’individus
ou de ménages ayant un
comportement homogène vis-à-vis de
:
la consommation de différents produits,
la consommation de
différentes marques
ou variétés,
l’attitude par rapport à un produit,
...
LSI 3
Mohamed 94
HAMMAMI
Introduction générale
Données analysées :
● Un tableau individus-variables :
● n individus (objets) décrits par p
variables (descripteurs) ;
● un tableau à valeurs
numériques continues (valeur de la
variable j pour l’individu i) ;
● un tableau de contingence (croisant
deux partition d’une même
population) ;
● un tableau de présence–absence
(valeur 0 ou 1).
● Un tableau carré symétrique
de similarités ou de distances.
LSI 3
Mohamed 95
HAMMAMI
Introduction générale
Objectifs :
● Constituer des groupes
d’objets
homogènes et différenciés tels que :
● les objets soient les plus similaires
possibles au sein d’un groupe (critère
de compacité) ;
● les groupes soient aussi dissemblables
que possible (critère de séparabilité).
● La ressemblance ou la
dissemblance étant mesurée sur
l’ensemble des variables
descriptives.
LSI 3
Mohamed 96
HAMMAMI
Introduction générale
Hypothèse :
●On suppose qu’une structure de
classes existe au sein de la
population étudiée.
LSI 3
Mohamed 97
HAMMAMI
Introduction générale
Représentations :
● La représentation synthétique
peut être :
● une typologie ;
● un recouvrement (classes
empiétantes) ;
● une partition ;
● une hiérarchie de partitions
(arbre hiérarchique) ;
● une hiérarchie de
recouvrements (pyramide).
LSI 3
Mohamed 98
HAMMAMI
Introduction générale
LSI 3
Mohamed 100
HAMMAMI
Introduction générale
LSI 3
Mohamed 101
HAMMAMI
Introduction générale
LSI 3
Mohamed 103
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed 104
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed 105
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed 106
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed 107
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
LSI 3
Mohamed 108
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
Première observation :
● La stratégie intuitive utilisé pour passer d’une
P à la suivante
partition
i ne remet pas en cause
Pi+1
les
regroupements.
● Si deux individus sont réunis dans une classe,
ils restent ensemble tout le temps.
● Les partitions ainsi construites
sont emboîtées de la
plus fine à la plus grossière.
● On obtient une hiérarchie de partitionsqu’on
peut représenter par un dendrogramme.
LSI 3
Mohamed 109
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
Deuxième observation :
LSI 3
Mohamed 110
HAMMAMI
Dissimilarité entre deux points
Mesures de distance :
La plupartdes techniques de classification
font appel à des mesures de distance,
appelé aussi métrique.
LSI 3
Mohamed 111
HAMMAMI
Dissimilarité entre deux points
Types de dissimilarité :
● Selon la nature des données, on distingue
quatre groupes de critères de dissimilarité entre
individus :
LSI 3
Mohamed 112
HAMMAMI
Dissimilarité entre deux points
LSI 3
Mohamed 113
HAMMAMI
Dissimilarité entre deux points
LSI 3
Mohamed 114
HAMMAMI
Dissimilarité entre deux points
LSI 3
Mohamed 115
HAMMAMI
Dissimilarité entre deux points
LSI 3
Mohamed 116
HAMMAMI
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed 117
HAMMAMI
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed 118
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 120
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 121
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 122
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 123
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 124
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 126
HAMMAMI
Algorithme de la CAH
Choix de la meilleure partition
Le saut le plus important a été effectué pour passer de
P3 à P4 car l’indice de la hiérarchie est passé de
3.35 à 7.07. Comparativement aux précédentes
valeurs, il s’agit d’une variation brusque.
La meilleure partition est celle pour laquelle l’indice
de la hiérarchie h est tel que 3.35 ≤ h < 7.07
LSI 3
Mohamed 127
HAMMAMI
Algorithme de la CAH
LSI 3
Mohamed 128
HAMMAMI
Algorithme k-means
LSI 3
Mohamed 129
HAMMAMI
Algorithme k-means
L’algorithme
Mohamed
minimise la variabilité LSI 3
130
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 1:
k1
Y
Choisir 3 k2
centres
de classes
(au
hasard)
k3
X
LSI 3
Mohamed 131
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 2:
k1
Y
Affecter k2
chaque point
à la classe
dont le centre
est le plus k3
proche
X
LSI 3
Mohamed 132
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 3:
k1 k1
Y
Déplacer k2
chaque centre
de classe vers k3
k2
la moyenne de
chaque classe k3
X
LSI 3
Mohamed 133
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4:
Y
Réaffecter les
points qui sont k1
plus proches du
centre d'une autre
classe
X
LSI 3
Mohamed 134
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
R : les trois
points qui
changent de k3
classe k2
X
LSI 3
Mohamed 135
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
Re-calculer les
moyennes des
classes k3
k2
X
LSI 3
Mohamed 136
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
Déplacer les k2
centres des k3
classes vers
les moyennes
X
LSI 3
Mohamed 137
HAMMAMI
Algorithme k-means
LSI 3
Mohamed 138
HAMMAMI
Algorithme k-means
Algorithme K-means
Initialisation des centroïdes avec les valeurs initiales
FIN = FAUX
TANT QUE NON FIN FAIRE
POUR chaque observation FAIRE
Trouver le centroïde le plus proche
Placer l’observation dans l’aggrégat le plus proche
FIN POUR
SI aucun changement des valeurs des centroïdes FAIRE
FIN = VRAI
SINON
Calculer les nouveaux centroïdes
FIN SI
FIN TANT QUE
LSI 3
Mohamed 139
HAMMAMI
Algorithme k-means
LSI 3
Mohamed 140
HAMMAMI
Algorithme k-means
K-Means :Exemple
LSI 3
Mohamed 141
HAMMAMI
Algorithme k-means
K-Means :Exemple
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
10 10
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9 10
10
LSI 3
Mohamed 143
HAMMAMI
Algorithme k-means
Avantages de K-means
● La grande popularité de K-means vient de :
● Sa simplicité conceptuelle.
● Sa rapidité
- on ne compare pas toutes les observations entre elles mais
par rapport aux centres de classes.
LSI 3
Mohamed 144
HAMMAMI
Algorithme k-means
Inconvénients de K-means
● Obligation de fixer à priori le nombre (K) de
classes ou
clusters.
● Ce choix peut se faire par simple examen visuel
dans le cas de données bidimensionnelles, mais il n'en
est pas de même pour des données de dimension
supérieure.
● un "mauvais choix" pour la valeur de K conduira alors
à une
typologie sans rapport avec la réalité.
● Les k-means sont souvent précédées d’une ACP
(Analyse en Composantes Principales). Une autre
solution consiste à effectuer d’abord une CAH
(Classification Ascendante Hiérarchique).
● Dépendance au choix des centres initiaux (seeds)
● K-means fonctionne assez bien si le nombre de
classes voulu est modéré. Dès que le nombre de classesLSI 3
augmente, la solution trouvée par l’algorithme est médiocre.
Mohamed
HAMMAMI
145
LSI 3
Mohamed 146
HAMMAMI
Chapitre 5 :
Apprentissage supervisé
LSI 3
Mohamed 147
HAMMAMI
Classification supervisée
Principe
● On utilise des données « historiques » ou connues
pour construire un modèle.
● Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations
LSI 3
Mohamed 148
HAMMAMI
Classification supervisée
Exemple introductif: Modèle de prédiction pour le diagnostic
Chaque instance est décrite par un vecteur d’ attributs/valeurs
Toux Fièvre Poids Douleur
Mariem non oui normal gorge
Farid non oui normal abdome
n
Salah oui oui maigre aucune
Nizar oui non obese tête
En entrée : un ensemble d’instances et leur classe
(correctement associées par un “professeur” ou “expert”)
Toux Fièvre Poids Douleur Diagnostic
Marie non oui normal gorge rhume
Farid non oui normal abdomen appendicit
..... e
X: E
X est la fonction qui associe à tout élément de sa description
Y: K
Y est la fonction qui associe à tout élément de sa classe
C : ¢={violent, non
violent}
S C S
X:
S X(S)
= X1,,X2,X3.........X..n
Critères utilisés :
n_mots, n_v_mots, n_v_url , n_v_meta, n_liens,
n_v_liens,
n_images, Npw ….. LSI 3
Mohamed 151
HAMMAMI
Classification supervisée
Apprendre, c'est trouver une fonction F …
Gros
plan
Plan
américain
¢={Gros plan, plan américain, plan
C :
général}
À
I CI pieds
X:
I X(I) = Ppea
u
LSI 3
Mohamed 152
HAMMAMI
Classification supervisée
Apprendre, c'est trouver une fonction F …
Exemple 3: Prédire la solvabilité d’un client
● Construction du modèle sur des individus avec la variable cible connue
X1 X2 X3 X4 X5….. Xn Y
age sexe C A 2008 matrimonial ... solvabilité
32 M 125000 M a rr i e d ... Y
25 M 254000 Single ... N
37 F 265000 M a rr i e d ... Y
52 M 126000 Divorced ... N
Modèle prédictif : F(X1, .. Xn)
24 F 265000 Ve u f ... Y
29 F 345000 M a rr i e d ... Y
36 F 362000 M a rr i e d ... N
34 M 654000 Single ... N
Autres exemples
● Prédiction de
● Faillite
● Non remboursement de prêt
● Détection de fraude
●…
LSI 3
Mohamed 154
HAMMAMI
Classification supervisée
Plusieurs techniques:
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Réseaux bayésiens
Algorithmes génétiques, ….
…
LSI 3
Mohamed 155
HAMMAMI
Arbres de décision
Principe
● Classer les objets en sous-classes par divisions hiérarchiques
=> construction automatique à partir d ’un échantillon de la
base
Algorithme de base :
1. Choisir le "meilleur" attribut
2. Etendre l'arbre en rajoutant une nouvelle
branche pour chaque valeur de l'attribut
3. Répartir les exemples d'app. sur les feuilles de l'arbre
4. Si aucun exemple n'est mal classé alors
arrêt, sinon repéter les étapes 1-4
pour les feuilles
LSI 3
Mohamed 156
HAMMAMI
Arbres de décision
Un nœud
Une S
branche
Une v3
feuille v
v v2
Un
parcours 1 1
v3
v2
LSI 3
Mohamed 157
HAMMAMI
Arbres de décision
Un
nœud
Une branche S
Une v3
feuille v
v v2
Un
parcours 1 1
v3
v2
LSI 3
Mohamed 158
HAMMAMI
Arbres de décision
Un
nœud
Une S
branche
Une feuille v3
v v
Un v2
parcours 1 1
v3
v2
LSI 3
Mohamed 159
HAMMAMI
Arbres de décision
Un
nœud
Une S
branche
Une v
feuille 3 v v
Un parcours
V1< 2 1
Y
v v3
Si V3 > X
et V1 < Y 2
alors
<Classe>
•Les arbres de décision sont des classifieurs pour des
instances représentées dans un formalisme attribut/valeur
• Un arbre de décision peut être traduit sous forme de règles de
décision LSI 3
Mohamed 160
HAMMAMI
Arbres de décision
LSI 3
Mohamed 161
HAMMAMI
Exemple introductif
LSI 3
Mohamed 163
HAMMAMI
Nœud racine de l’arbre
9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
J1,J2, J6,J8,J14
5 No
(36,7%)
+
+ J4,J5,J10
J9,J11 J6,J14
- J1,J2,J8 -
+ J3,J13,J7,J12
-
LSI 3
Mohamed 165
HAMMAMI
Comment éclater le nœud racine ?
9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
J1,J2, J6,J8,J14
5 No
(36,7%)
+ J3,J13 + J5,J7,J9
- J1,J2 - J6
+ J4,J10,J11,J13
- J8,J14
LSI 3
Mohamed 166
HAMMAMI
Comment éclater le nœud racine ?
9 (64,3%) Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
s
5 (36,7%) N J1,J2, J6,J8,J14
o
+ J3,J4,J12 + J5,J7,J9,J10,J11,J13
- J1,J2, J8, J14 - J6
LSI 3
Mohamed 167
HAMMAMI
Comment éclater le nœud racine ?
9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
N J1,J2, J6,J8,J14
5 o
(36,7%)
+ J3,J4,J5,J9,10,J13 + J7,J11,J12
- J1,J8 - J2,J6,J14
LSI 3
Mohamed 168
HAMMAMI
Quelle est la variable à choisir ?
LSI 3
Mohamed 169
HAMMAMI
Quelle est la variable à choisir ?
LSI 3
Mohamed 171
HAMMAMI
Deuxième partition de l’arbre
9
S0 (64,3%)
5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
S1 (40%) (100%) (60%)
3 0 (0%) 2
(60%) (40%)
LSI 3
Mohamed 172
HAMMAMI
Quel est le nœud à éclater ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed 173
HAMMAMI
Quelle est la variable à choisir ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed 174
HAMMAMI
Quelle est la variable à choisir ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed 175
HAMMAMI
Quelle est la variable à choisir ?
9 (64,3%)
5 (36,7%)
LSI 3
Mohamed 176
HAMMAMI
Troisième partition de l’arbre
9 (64,3%)
S0 5 (36,7%)
2 4 3
S1 (40%) (100%) (60%)
3 0 (0%) 2
(60%) (40%)
Hig Norma
h l
S2
0 (0%) 2
(100%)
3
(100%) 0 (0%)
LSI 3
Mohamed 177
HAMMAMI
Quatrième partition de l’arbre
9
(64,3%)
5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
(40%) (100%) (60%)
3 0 (0%) 2
(60%) (40%)
Hig Norma Fals True
h l e
0 (0%) 2 3 0 (0%)
(100%) (100%)
3 2
(100%) 0 (0%) 0 (0%) (100%)
S3
LSI 3
Mohamed 178
HAMMAMI
Mesure d’impureté
Il y a le plus souvent de nombreux arbres de
décision possibles corrects.
Entropie de Shannon
Entropie de Boltzmann
Index de Gini
LSI 3
Mohamed 180
HAMMAMI
Entropie de Shannon
Shannon en 1949 a proposé une mesure
d’entropie
valable pour les distributions discrètes de
probabilité.
LSI 3
Mohamed 181
HAMMAMI
Entropie de Shannon
9
log ( 9 )5 log5 ( ) 9 Yes
I (s ) 0,942 14
0
2 14 (64,3%)
14 No
14 5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
(40%) (100%) (60%)
s11 3
s12 0 (0%)
s13 2
(60%) (40%)
2 log 2( )3 log 3(
I (s ) )
11
5 4
2
54 50 2
05
0,97 NB
I (s ) log ( ) log ( ) Log2(x) = Log(x) / Log(2)
0 12 2 2
4 4 4 4
2
I (s13 ) log 3( )2 log ( )
3 0,97
5 2
5 5 2
5 LSI 3
Mohamed 182
HAMMAMI
Entropie de Shannon
Card(s)
I (S) sSCard() I (s)
où I(s) est l’entropie d’information du
nœud s
LSI 3
Mohamed 183
HAMMAMI
Entropie de Shannon
9 Yes
(64,3%)
No
5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
S (40%) (100%) (60%)
3 0 (0%) 2
1
(60%) (40%)
5 4 5
I (S) 14 I (s11 ) I 12 ) 14 I (s13
(s 14 )
LSI 3
Mohamed 184
HAMMAMI
Entropie de Shannon
Critère de partitionnement
● Gain d’incertitude:
(st1)I(St)I(St1)
LSI 3
Mohamed 186
HAMMAMI
Arbre final obtenu
Outlook
sunn rai
y overca
n
st
LSI 3
Mohamed 187
HAMMAMI
Algorithmes d’apprentissage
ID3 [Quinlan,198
6]
C4.5 [Quinlan,199
3]
CART [Briemen,198
4]
SIPINA [Zighed,199
2]
...
LSI 3
Mohamed 188
HAMMAMI
ID3, C4.5
Graphe arborescente n-
aire So
Passage d’une S à St exclusiveme
partition t 1
nt
par segmentation
Critère de sélection de S1 10
S2
20
variable ID3: Gain
Informationnel C4.5: X
Ratio de gain 5
j
5
Élagage S3 S4
20 0
d’arbre ID3:
Xi
non C4.5:
oui
1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed 189
HAMMAMI
ID3, C4.5
- Critère de partitionnement
ID3 ● maximiser le gain d’incertitude entre
t I(S ) t+
et
● I(S )
Utilisation de l’entropie de 1
Shannon:
Exemple:
So
(St 1 ) I (S1 ) I (S3 , S4
) 1
1 0 l o g 2 1 0 2 0 l o g 2 2 0
30 30 30 30
S1
200
Xj
S2
- [- 25
30 ( 25
5 log 2 25
5 + 20 20)- 30
25log 2 25 5 (55log 2 55+ 05log 2 05)]
S3
5
S4
5
20 0
Xi
= 0.9183- 0.7739
= 0.1443 1 0 4
1 8 2
S5
0 S6 S7
LSI 3
Mohamed 190
HAMMAMI
ID3, C4.5
C4.5 I (S j ) (S t 1 )
( S t 1 )
n kj l o g
2
n kj
k 1 n j n j
(St1) 0 . 9 1 8 3 0 . 7 7 3 9
2 5 log 2 2 5 5 log2 5
30 30
30 30
= 0.222
LSI 3
Mohamed 191
HAMMAMI
ID3, C4.5
Conditions d’arrêt:
1. Tous le sommets sont saturés
2. Contrainte d’admissibilité
3. Gain d’information minimal
LSI 3
Mohamed 192
HAMMAMI
CART
Ou 2
encore nd m
J G (sg sd )
n n
nn ig nid
n
n g d
g i1
LSI 3
Mohamed 194
HAMMAMI
CART
2
ng nd
m
n
JT (sg s ) n n nig
id
d 4 ng nd
i1
On cherche la bipartition qui maximise JT
(s g sd )
LSI 3
Mohamed 195
HAMMAMI
SIPINA
Avantages SIPINA ?
Exclusivement Divisif
Méthodes arborescentes
Insensibilité à l effectif
Fusion
SIPINA
Sensibilité à l’effectif
LSI 3
Mohamed 196
HAMMAMI
SIPINA
40 0 4 0
0 20 0 2
A B
LSI 3
Mohamed 197
HAMMAMI
SIPINA
• Non décroissance du critère
S0 40
20
(S)0
20 20
S={S1,S2} S0 est équivalente à S
10 10
LSI 3
Mohamed 198
HAMMAMI
SIPINA
Objectif: maximiser
(Si)
Ajout d’un parametre λ
● qui contrôle le développement du graphe
et pénalise
les nœuds de faible effectif
● de ce fait , favorise les fusions entre les
sommets S0
S1 S2
S3 S4 S S6
5
S9
LSI 3
Mohamed 199
HAMMAMI
SIPINA
Critère de partitionnement
● maximiser le gain d’incertitude:
n 1
j n j m
j 1
S3
S1 S2
par regroupement
Phase 1: Passage de Si à Si+1
S i1 1
s3,s1s2
S i11 S 'i 1 max Sj
i1
S
j
2 s
1 , s2 s3
2 1,2,3
S i1 i 1
Si S i1
3 s , s s3 S
3
'
0 alors Si+1 =S'i+1
S i1 2 1 i 1
Repartir à la phase 1
LSI 3
Mohamed 201
HAMMAMI
SIPINA
LSI 3
Mohamed 202
HAMMAMI
SIPINA
par éclatement
Phase 3: Passage de Si à Si+1
LSI 3
Mohamed 203
HAMMAMI
Inconvénients des arbres de décision