Cours Machine Learning

Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 204

Machine Learning

Mohamed HAMMAMI
Professeur à la FSS – Université de Sfax
[email protected]

LSI 3
Syllabus du cours

Objectifs
● Sensibiliser les étudiants à l’importance du Machine
Learning
en tant que nouvel domaine technologique;
● Positionner le Machine Learning dans le processus ECD
;
● Maîtrise des principes théoriques de quelques
techniques de
Machine Learning (classification, prédiction, etc) ;
● Manipulation d’outils logiciels de Machine Learning.

Pré-requis : Connaissances en statistiques


utiles, mais pas indispensables
LSI 3
Mohamed 2
HAMMAMI
Plan du Cours

Chapitre 1 : Introduction au Machine


Learning Chapitre 2 : Processus ECD
Chapitre 3 : Techniques de Machine
Learning Chapitre 4 : Apprentissage
Non-supervisé Chapitre 5 :
Apprentissage supervisé

LSI 3
Mohamed 3
HAMMAMI
Chapitre 1:

Introduction au Machine Learning

LSI 3
Mohamed 4
HAMMAMI
Problématique de base

De plus en plus de
données sont générées :
● Banques,
télécommunication,
domaines
commerciaux ...
● Données
scientifiques :
astronomie, biologie,
etc.
● Web : texte, images,
De nosson,
jours, les entreprises
accumulent
vidéo,auetc.quotidien de gros
volumes de données
● E-commerce

LSI 3
Mohamed 5
HAMMAMI
Problématique de base

Quelques exemples concrets



● interféromètre européen
VLBI (Very Long Baseline
Interferometry) possède 16
télescopes, dont chacun
produit 1 Go par seconde de
données astronomiques.

 Le stockage et l’analyse de
ces données constituent un
problème à part entière

LSI 3
Mohamed 6
HAMMAMI
Problématique de base

Quelques exemples concrets …


● AT&T le plus grand
fournisseur de services
téléphoniques à l’Etats-Unis gère des
milliards d'appels téléphoniques par
jour

Le stockage des données relatives est


très difficile
 L’analyse en temps réel de ces appels
est encore plus difficile

LSI 3
Mohamed 7
HAMMAMI
Problématique de base

Quelques chiffres concrets …


● BD commerciales (selon le Winter Corp.
2003
Survey) :
● AT&T ~ 26 To (1Terra Octet = 1024 Go).

● France Telecom ~ 30 To

● Web :
● Alexainternet archive (www.alexa.com) 7 ans
de données ~ 500 To
● Google searches ~ plus de 4 Milliards de
pages ~
plusieurs centaines de To
● WebFountain d’IBM (2003) ~ 160 To
● Internet Archive (www.archive.org) ~ 300
Mohamed
To LSI 3
8
HAMMAMI
Problématique de base

Quelques chiffres concrets …


● Selon UC Berkeley (2003) :
●5 Eo (5 millionsTo) est la taille des données crées
dans le
monde durant l’année 2002
● Environ 40% de ces données sont produites par les Etats
Unis
● www.sims.berkeley.edu/research/projects/how-much-info-2
003/

● Selon IDC study (2007) :


● 161 Eo (161 millions To) est la taille des données crées
dans le monde durant l’année 2006
● Pour l’année 2010, on projette la création de 988 Eo
● www.usatoday.com/tech/news/2007-03-05-data_N.htm
LSI 3
Mohamed 9
HAMMAMI
Problématique de base

Les outils automatiques de collecte de données font que


les Bases de Données (BD’s) contiennent énormément de
données

Le développement du matériel informatique et la baisse


des coûts ont permis à de nombreux organismes de
constituer de grandes masses de données à moindre
frais

On estime que la quantité de données dans le monde


double tous les vingt mois [Kodratoff 1997].

LSI 3
Mohamed 10
HAMMAMI
Problématique de base
Malheureusement cette masse d’information souvent
sous exploitée
Beaucoup de données mais peu de
connaissances !
Nécessité d’exploiter ces données
● Est-il possible de valoriser ces données amassées ?

● Est-il possible de s’en servir pour prendre des décisions ou


éclairer des choix pour l’entreprise ?
Quelles données sont utiles ?
L’explication se cache dans les données auxquelles
on ne pense pas
Compréhension de phénomènes complexes
 Solution: Data Mining, Machine Learning
LSI 3
Mohamed 11
HAMMAMI
Qu’est-ce que le Data Mining ?

Zighed(199
5)
Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données

Fayyad et al.
(1997) :
Data Mining is a step in the KDD process that consists of
applying data analysis and discovery algorithms that
produce a particular enumeration of patterns (or models)
over the data.

LSI 3
Mohamed 12
HAMMAMI
Qu’est-ce que le Data Mining ?

Wikipédia
:
Le Data Miningestun processusd’extraction de
connaissances
valides et exploitables à partir de grands volumes de données.
Le Data Mining a pour objet l’extraction d’un savoir
ou d’une connaissance à partir de grandes quantités de
données, par des méthodes automatiques ou semi-
automatiques, et l’utilisation industrielle ou opérationnelle
de ce savoir.
Autres appellations:
- ECD (Extraction de Connaissances à partir de
Données)
- KDD (Knowledge Discovery from Databases)
- Fouille de données,
- Machine Learning etc … LSI 3
Mohamed 13
HAMMAMI
Origines du Data Mining

L’expression Data Mining est apparue vers le début


des années 1960 (sens péjoratif)
● L’avènement des ordinateurs a permis d’effectuer
toutes sortes de calculs qu’on ne pouvait faire
manuellement.
● Certains chercheurs, principalement des
informaticiens, ont commencé à traiter sans a priori
statistique les tableaux de données relatifs à des
enquêtes ou à des expériences.
● Les résultats obtenus sont prometteurs et loin d’être
aberrants !
● Une tendance à systématiser cette approche
opportuniste !

Mohamed Les statisticiens trouvaient cette démarcheLSI 3peu 14
HAMMAMI
Origines du Data Mining

La diffusion de l’analyse de données (Jean-Paul


Benzecri)
● Succès de cette démarche empirique malgré les
critiques des
statisticiens

L’analyse des données s’est développée en parallèle


avec la taille des BD

Fin des années 1980 : Agrawal Rakesh (chercheurs en


BD) propose l’exploitation du contenu des BD
volumineuses relatives aux tickets de caisses de
grandes surfaces
● Premiers algorithmes de recherche de règles
d’association
● Ces algorithmes ont étaient critiqués par les
statisticiens et les spécialistes de l’induction en
raison de leur naïveté méthodologique
Mohamed
LSI 3
15
HAMMAMI
Origines du Data Mining

Les algorithmes de recherche de règles d’association


ont été ramenés dans un cadre méthodologique plus
rigoureux faisant usage de théories reconnues
(treillis de Gallois, décomposition optimale de
relations binaires)
On a adopté l’expression Data Mining

Mars 1989 : Piatetsky-Shapiro proposa le terme


Knowledge Discovery à l’occasion d’un atelier sur la
découverte des connaissances dans les BD
Aujourd’hui, les termes Data Mining et Knowledge
Discovery in Databases (KDD) sont utilisés plus ou
moins indifféremment

LSI 3
Mohamed 16
HAMMAMI
Origines du Data Mining

En 1995, la communauté de Data


Mining a initié sa première conférence

En 1997, publication du premier


numéro de la revue Data Mining and
Knowledge Discovery Journal

Plusieurs conférences on data mining


● PAKDD, PKDD, SIAM-Data
Mining, (IEEE) ICDM, DaWaK, SPIE-
DM, etc.

En France : EGC janvier 2001


(Nantes), janvier 2002 (Montpellier),
janvier 2003 (Lyon),..., janvier 2010
(Hammamet).

LSI 3
Mohamed 17
HAMMAMI
Cas d’applications: Commerce

Si on baisse le prix du Coca-Cola de 5%, alors


on va en augmenter les ventes de 15%
 On savait cette connaissance sans Data Mining !

 Le Data Mining révèle que les ventes des


cacahuètes vont augmenter dans une proportion
voisine
 Association d’idées : « Puisque j’achète du Coca, il
me faut
aussi des cacahuètes »
 Si la marge sur le Coca-Cola est relativement faible, et
celle sur les cacahuètes importantes . . .
 Baisser le prix du Coca-Cola est un moyen de vendre
plus
de cacahuètes !
LSI 3
Mohamed 18
HAMMAMI
Cas d’applications: Analyse des risques
Détection de fraudes pour les assurances

Analyse des déclarations des assurés par un expert


afin
d’identifier les cas de fraudes.

Extraction de caractéristiques à partir de ces déclarations (type


d’accident, de blessures, etc...)

Applications de méthodes statistiques pour identifier


les caractéristiques des déclarations fortement corrélées à la
fraude.

Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.

Créer un modèle à partir de caractérisques des clients


pour discriminer les clients à risque des autres.
LSI 3
Mohamed HAMMAMI 19
Cas d’applications: E-Commerce
Le Web Usage Mining

Comment les personnes naviguent-elles sur Internet ?


● Web Usage Mining (Clickstream Analysis)

Information sur les chemins de navigation disponibles dans


des fichiers logs.

Principe :
«fouiller» ces données pour
en produire de l’information
et de la connaissance

LSI 3
Mohamed HAMMAMI 20
Cas d’applications: E-Commerce
Le Web Usage Mining

Pourquoi analyse l’usage des sites Web ?

La connaissance sur la manière dont les visiteurs utilisent


un site Web permet :
● D’ajuster la conception des pages et des liens et d’améliorer les
performances des sites
Aider le concepteur à positionner l’information importante que les
visiteurs recherchent.
● Fournir des sites adaptatifs (personnalisation)
● Les associations de pages côté client permet
d’optimiserle
cache du navigateur, d’effectuer du « prefetching »

LSI 3
Mohamed HAMMAMI 21
Cas d’applications: E-Commerce

30%Promo

« 75% des parisiens qui achètent une raquette de tennis


achètent
trois mois après des chaussures »
Modification dynamique
LSI 3
Mohamed 22
HAMMAMI
Cas d’applications du Data Mining

Science : astronomie, bioinformatiques, détection de


drogues, etc.
Commerce : rapport avec la clientèle, détection de
fraudes, marketing, e-commerce, risque de crédit, etc.
Web : moteurs de recherche, publicité, Web mining, text
mining,
etc.
Gouvernement : surveillance, détection des
crimes, profiling tax cheaters (profilage
tricheurs fiscaux), etc.
Autres domaines : production industrielle,
sports,
télécommunication, transport, etc.
LSI 3
Mohamed 23
HAMMAMI
Facteurs d’émergence du Data Mining

Intérêt économique : du produit aux clients.


● De nos jours, la concurrence de plus en plus forte et les
clients sont de plus en plus exigeants.
● On est passé d’une économie orientée produit vers
une économie orientée client on parle aujourd'hui du
CRM

● La connaissance du comportement du client est décisive !

● Est-il possible de découvrir des associations


entre
produits achetés afin de mieux les disposer sur les rayon ?
● Est-il possible de proposer des produits de substitution
ou encore mieux cibler une clientèle ?
LSI 3
Mohamed 24
HAMMAMI
Facteurs d’émergence du Data Mining

Technologie de l’information
● faible coût de stockage de données,
● saisie automatique de transaction (code bar,
click, données de localisation GPS, internet)

Augmentation de la puissance de calculs


des ordinateurs (loi de Moore)

Extraire de la connaissance à partir de grande bases


de données devient possible

LSI 3
Mohamed 25
HAMMAMI
Le Data Mining et le KDD

Une confusion subsiste encore entre Data Mining


(Fouille de données) et Knowledge Discovery in
Databases (ECD - Extraction des Connaissances à partir
des Données).

Le Data Mining est l’un des maillons de la chaîne de


traitement pour le processus de découverte des
connaissances à partir des données.

 Le Data Mining est la pierre angulaire du processus ECD !


L’ECD, par le biais du Data Mining, est alors vue comme une ingénierie
pour extraire des connaissances à partir des données.

LSI 3
Mohamed 26
HAMMAMI
Le Data Mining et le KDD

LSI 3
Mohamed HAMMAMI 27
-
Principaux avantages du Data Mining
Aide à la prise de décisionsdes dirigeants (ne les
remplace pas!)
Détecte les relations entre les données et permet de
faire des liens pertinents.
Étudie le passé dans le but de faire des prédictions dans
le futur.
Augmente la satisfaction des clients grâce à une
approche plus personnalisée.
Permet de mieux cerner et connaître la clientèle.
Peut augmenter les revenus et diminuer les coûts de
Selon le MIT (Massachussets Institute of Technology), le Data
entreprise.
Mining est l’une
des 10 technologies émergeante qui changeront le monde au
LSI 3
21ème
Mohamed siècle.
HAMMAMI
28
Chapitre 2 :

Processus ECD

LSI 3
Mohamed 29
HAMMAMI
Qu’est-ce que le processus ECD ?

Fayyad et al.
(1996)
"un processus non-trivial d’identification de structures inconnues,
valides et
potentiellement exploitables dans les bases de données
Zighed et al.
(2001)
L’ECD est un processus qui fait intervenir des méthodes et des
outils issus
de différents domaines en vue de découvrir des connaissances
utiles.
L’ECD vise à transformer les données en connaissances

LSI 3
Mohamed 30
HAMMAMI
Qu’est-ce que le processus ECD ?
L’ECD est un processus qui met en oeuvre un ensemble de
techniques provenant :
● des bases de données ; ● de l’analyse des données
;

● de la statistique ; ● des techniques de


visualisation
● de l’intelligence artificielle ; des interfaces de
communication
homme-machine.

LSI 3
Mohamed 31
HAMMAMI
Qu’est-ce que le processus ECD ?

Les connaissances peuvent s’exprimer :


● sous forme d’un concept général qui enrichit le
champ sémantique de l’usager ;
● sous forme d’un rapport ou d’un graphique ;

● comme un modèle mathématique ou logique pour la


prise de décision ;
● comme modèle explicites pour alimenter un système
à base de connaissances ou un système expert.

LSI 3
Mohamed 32
HAMMAMI
Définition générale de l’ECD

L’approche de l’ECD se veut la plus générale possible :


● Elle ne privilégie pas une source particulière d’informations
● données localement stockées
● données distribuées sur plusieurs sources

● Elle ne privilégie pas une nature spécifique des données


● données structurées en attributs-valeurs
● des textes de longueurs variables
● des images
● des séquences vidéo

● Elle ne se limite pas à des outils d’analyse spécifiques


● méthodes pour la préparation des données
● méthodes pour l’analyse
● méthodes pour la validation des connaissances

LSI 3
Mohamed 33
HAMMAMI
Définition générale de l’ECD

L’Extraction de Connaissances à partir de


Données (ECD) est un processus complexe qui se
déroule suivant une série d’opérations:

Nous pouvons regrouper ces opérations en trois


étapes majeures.
1. la préparation des données,

2. la fouille de donnéesà proprement


parler quiest
l’étape centrale de l’ECD
3. et enfin la validation des modèles ainsi
élaborés
LSI 3
Mohamed 34
HAMMAMI
Processus de l’ECD

LSI 3
Mohamed 35
HAMMAMI
Phase d’acquisition des données

LSI 3
Mohamed 36
HAMMAMI
Phase d’acquisition des données

Préliminaires
● Bien délimiter le problème de la fouille de données.
● Ne pas se lancer dans l’ECD sans définir les objectifs.
● Avoir une idée claire sur les moyens
technologiques à disposition.

Exemple : Comprendre pourquoi certains clients d’une


entreprise se sont tournés vers une entreprise concurrente ?
 Toutes les données du système d’information de l’entreprise
ne sont certainement pas utiles dans leur intégralité pour
traiter ce problème particulier.

 Télécharger tout le contenu du Web pour en extraire des


connaissances ! !

LSI 3
Mohamed 37
HAMMAMI
Phase d’acquisition des données

Objectif
● La phase d’acquisition vise à cibler l’espace des données qui
va être exploré.

« Le spécialiste du Data Mining agit à l’image du géologue qui définit des


zones de prospection en étant persuadé que certaines régions seront
probablement vite abandonnées car elles ne recèlent aucun ou peu de
minerais. »
Outils
● Moteurs de requêtes des bases de données comme
SQL.
● Outils de requêtes spécifiques aux données structuré
non (données textuelles, images Web) es
● Moteurs de recherche d’informations par le
contenu.

LSI 3
Mohamed 38
HAMMAMI
Phase d’acquisition des données

Nettoyage des données


● La phase d’acquisition sert généralement à nettoyer
les données qui sont rapatriées.
 Laisser tomber un attribut peu ou mal renseigné.
 Limiter le nombre d’enregistrements que l’on souhaite traiter.
● Utilisation de filtres adaptés.
● Utilisation des techniques d’échantillonnage.

Résultat
● Un stock de données contenant potentiellement l’information
ou la connaissance recherchée.
● Un échantillon de données tirées du monde réel.
● Données relatives à des événements passés.

LSI 3
Mohamed 39
HAMMAMI
Phase de préparation des données

LSI 3
Mohamed 40
HAMMAMI
Phase de préparation des données

Les techniques de Data Mining traitent généralement


des tableaux de données numériques rangées sous
forme d’individus-variables.

Certaines méthodes sont plus contraignantes que


d’autres :
● elles peuvent exiger des données binaires
(premières techniques de recherche de règles
d’association)
● elles peuventexiger des données de types
particuliers
(variables qualitatives, variables quantitatives)
 effectuer une série de transformations pour
obtenir des
données adaptées aux méthodes à utiliser.
Mohamed
LSI 3
41
HAMMAMI
Phase de préparation des données

Les principales opérations de préparation sont :


● La sélection de lignes et/ou colonnes

● Le traitement des données manquantes ou aberrantes

● Les transformations d’attributs

● Le traitement des données complexes

LSI 3
Mohamed 42
HAMMAMI
Exemple: préparation des données

LSI 3
Mohamed 43
HAMMAMI
Exemple: préparation des données
Nettoyage des données
Doublons, erreurs de saisie
● un doublon donne plus d’importance à la donnée répétée
● Une erreur de saisi peut à l’inverse cacher une répétition

Intégrité de domaine
● Un contrôle sur les domaines de valeurs peut révéler des
valeurs
aberrantes

Informations manquantes
● Données avec des champs ne contenant aucune donnée
● Parfois le manque d’information est une information
● Les valeurs des autres champs peuvent être utiles LSI 3
Mohamed 44
HAMMAMI
Exemple: préparation des données

Nettoyage des données

LSI 3
Mohamed 45
HAMMAMI
Exemple: préparation des données

Nettoyage des données

LSI 3
Mohamed 46
HAMMAMI
Exemple: préparation des données

Enrichissement des données

But : enrichir nos données


● Acheter ou produire
d’autres bases

Ajout de nouveaux
champs en conservant le
même nombre
d’enregistrements
● Faire des conversions si
les données sont de
formats différents
MastèreLMS
Mohamed 47
● Effectuer une nouvelle
HAMMAMI
IR3I
Exemple: préparation des données

Enrichissement des données

MastèreLMS
Mohamed IR3I 48
HAMMAMI
Exemple: préparation des données
Codage et normalisation
● Regroupement
 Certains attributs prennent un
très grand nombre de valeurs discrètes
possibles
 Le regroupement en des sous-ensembles permet de
réduire le
nombre de valeurs considérées
 Région : Tunis, Sfax / Age : jeune, adulte, vieux

● Changement de type
 Simplifier les types de données afin de faciliter les
comparaisons et les calculs de distance, etc.
 Date de naissance  Age / Date d’abonnement Durée

MastèreLMS
Mohamed IR3I 49
HAMMAMI
Phase de préparation des données
Sélection de variables
● Les issues de le
données ne
toute phase sont
exploitabl
d’acquisition
par des techniquess de Dataes
Mining. pas
nécessaireme
pertinentes
● Larecherche
nt un des
ensemble
parmi
variables de variables est
processus
le de data mining,
point
central
 c’estd’un
elle qui va conditionner la
qualité des modèles établis.

● La sélection des variables non


ou faiblement pertinentes
peut réduire la
compréhension et les
performances de reconnaissance
d’un modèle.
MastèreLMS
Mohamed IR3I 50
HAMMAMI
Phase de fouille de données (Apprentissage automatique)

MastèreLMS
Mohamed IR3I 51
HAMMAMI
Phase de fouille de données
Cette phase est au coeur du processus ECD.

Les méthodes de Data Mining permettent de découvrir ce que


contiennent les données préparées comme informations ou
modèles utiles.

Trois catégories de méthodes :


● Les méthodes de visualisation et de description ;
● Les méthodes de classification et de structuration ;
● Les méthodes de prédiction.

Certaines méthodes sont mieux adaptées à


des données numériques continues alors que
généralement dédiées aux traitements
d’autres sont de tableaux de données
plus
qualitatives.

Les méthodes de Data Mining sont, le


plus souvent, complémentaires.
MastèreLMS
Mohamed IR3I 52
HAMMAMI
Phase de validation et de mise en forme

MastèreLMS
Mohamed IR3I 53
HAMMAMI
Phase de validation et de mise en forme

Les modèles extraits ne être utilisés


peuvent directement en toute fiabilité.
 Il faut les évaluer, les soumettre à l’épreuve de la réalité
et apprécier leur justesse.
Estimer le taux d’erreur du modèle.

En apprentissage supervisé, le taux d’erreur est


généralement calculé à partir de la matrice de
confusion.

La matrice de confusion donne le pourcentage


d’affectation dans les différentes classes en fonction
des classes d’origine

MastèreLMS
Mohamed IR3I 54
HAMMAMI
Phase de validation et de mise en forme
Critères de comparaison de classifieurs :
1. Taux de précision : capacité à prédire correctement
2. Temps de calcul : temps nécessaire pour apprendre et
tester f^
Volume de données : efficacité en présence de données
3.
de
Taux d’erreur :
grande taille

Soit la matrice de Confusion suivante:

A B
A 88 1
8 2
B 5 9 LSI 3
Mohamed 55
HAMMAMI
Phase de validation et de mise en forme
Taux d'erreur global
● permet de savoir comment va agir un classifieur sur
l’ensemble des données
 1  n A. A  B.B
 globale ncard (M )
où card(M) est le nombre total d’individu

Taux d'erreur à priori


● c’est la probabilité qu’un individu appartenant à la classe k ne
soit pas
affecté à la classe k.
● Il s’agit en effet de calculer le taux d’erreur relatif à chaque
classe par l’équation
donné
● suivante
pour notre: exemple et pour la classe A, le taux d’erreur à
priori est 
n A,k
kA
à priori 

n A,k
LSI 3
Mohamed k 56
HAMMAMI
Phase de validation et de mise en forme

Taux d'erreur à posteriori


● c’est la probabilité qu’un individu affecté à la
classe k appartienne effectivement à la classe k.
● pour notre exempleet pourla classe A, le taux
d’erreur a
posteriori
est :
 n
 à posteriori  k  A k . A
n k .A

Remarque: k

● le taux d’erreur à priori est le complément du


critère classique du taux de rappel
● Le taux d’erreur à posteriori est le complément du
critère
classique du taux de précision
LSI 3
Mohamed 57
HAMMAMI
Récapitulation

Les données
● Des bits, des symboles, des nombres, des objets que
nous collectons journalièrement

Les informations
● Des données sans redondances, réduites au
minimum nécessaire pour caractériser les données

Les connaissances
● La connaissance est intégrée dans l’information, elle
inclut des faits et des relations entre ces faits
● Elles relient les informations entre-elles

MastèreLMS
Mohamed IR3I 58
HAMMAMI
Exemple: des données aux connaissances

MastèreLMS
Mohamed IR3I 59
HAMMAMI
Logiciels d’ECD / Data Mining

Logiciels commerciaux :
● SPAD (Decisia)
• Simplicité du pilotage
● SAS Enterprise Miner
• Techniques variées
● SPSS Clementine
• Déploiement
● STATISTICA Data Miner • Outils de “reporting”
● IBM Intelligent Miner

Logiciels
universitaires :
• Spécifiques à certaines
● TANAGRA
techniques
● SIPINA
• Techniques référencées -
● WEKA
publiées
● ORANGE • Outils de validation
MastèreLMS
Mohamed IR3I 60
HAMMAMI
Chapitre 3 :

Techniques de Data Mining

LSI 3
Mohamed 61
HAMMAMI
Phase de fouille de données (Apprentissage automatique)

Cette phase est au coeur du processus ECD.

Trois catégories de méthodes :


● Les techniques de visualisation et de description ;
● Les techniques de classification et de
structuration ;
● Les techniques de prédiction.

Deux catégories d’apprentissage :


● Apprentissage non-supervisé (Unsupervised
Learning).
● Apprentissage supervisé (Supervised Learning) ;

Procédure obtenue = "classifieur"

LSI 3
Mohamed 62
HAMMAMI
Techniques de visualisation et de description

Le Data Mining descriptif


● Mettre en évidence des informations présentes
mais noyées par le volume de données.

Trouver un résumé des données qui soit le plus


intelligible
● Statistiquedescriptive
● Analyse factorielle
● Codage graphique
● Interface Homme-Machine

LSI 3
Mohamed 63
HAMMAMI
Techniques de visualisation et de description

LSI 3
Mohamed 64
HAMMAMI
Techniques de visualisation et de description

LSI 3
Mohamed 65
HAMMAMI
Techniques de visualisation et de description

LSI 3
Mohamed 66
HAMMAMI
Techniques de visualisation et de description

LSI 3
Mohamed 67
HAMMAMI
Techniques de visualisation et de description

Angleterre, 1831. Un patient sur deux meurt !

À cette époque, on pensait que le choléra était transmis par


les miasmes, c'est-à-dire un mauvais air, avec la croyance que
les personnes de « mauvaise moralité » étaient plus
vulnérables !

Les observations du Docteur John Snow sont incompatibles


avec cette théorie dominante. Si le mauvais air est à l’origine
de la maladie, celle-ci doit être répartie de façon homogène et
toucher toutes les catégories sociales

il constate que la maladie apparaît surtout à la fin de l'été,


frappant presque toujours chez des patients pauvres, vivant
dans des conditions très misérable.

LSI 3
Mohamed 68
HAMMAMI
Techniques de visualisation et de description

Dr. John Snow suit de près l’évolution de l’épidémie et réalise


une minutieuse enquête, répertoriant le domicile de chaque
patient sur une carte. Il découvre la cause probable des cas
de choléra.  L’épicentre de l’épidémie est localisé près
d’une pompe de Broad Street

LSI 3
Mohamed 69
HAMMAMI
Exemple

A partir d'un tableau individus variables, on fera


dans un premier temps une description
unidimensionnelle de chacune des variables, prise
séparément.

LSI 3
Mohamed 70
HAMMAMI
Exemple

Le nombre d'individus étant généralement grand, voire très


grand, une telle série brute est difficilement lisible et
interprétable. Il est indispensable de la résumer.
Pour cela, on commence par un tri à plat, décompte des
modalités ou valeurs obtenues, qui nous servira de base à
la construction de tableaux et de graphiques.

LSI 3
71
Exemple

Le but est d'obtenir des résumés clairs et concis, mais en


conservant l'essentiel de l'information contenue dans les
données initiales, et en utilisant des techniques objectives
ne donnant pas une image déformée de la réalité.
Voici quelques exemples des tableaux et graphiques à
obtenir :

LSI 3
Mohamed 72
HAMMAMI
Exemple

Et voici quelques exemples de ce qu'il ne faut pas


faire !

LSI 3
Mohamed 73
HAMMAMI
Techniques de structuration et de classification

But : détecter au sein d’un ensemble de données non


étiquetées des groupes d ’objets «similaires»
 Apprentissage non supervisé
Organisation des données en groupes (clusters) de
façon à ce que les données similaires soient dans le
même groupe
2 optimisations:
● Similarités entre les données dans un groupes aussi élevées que
possible (intra-groupe)
 Grande homogénéïté de chaque classe
● Similarités entre les données de différents groupes
aussi distinctes que possible (inter-groupe)
 Bonne séparation des classes

LSI 3
Mohamed 74
HAMMAMI
Techniques de structuration et de classification

Approches de regroupement (Clustering)


● Algorithmes hiérarchiques: Créer une décomposition
hiérarchique des objets selon certains critères
● Algorithmes de Partitionnement: Construire plusieurs
partitions
puis les évaluer selon certains critères
● Algorithmes basés sur la densité: basés sur des
notions de connectivité et de densité
● Algorithmes à modèles: Un modèle est supposé pour
chaque cluster ensuite vérifier chaque modèle sur
chaque groupe pour choisir le meilleur

LSI 3
Mohamed 75
HAMMAMI
Techniques de structuration et de classification
Apprentissage non supervisé (Les classes sont
inconnues)
● Exemple:
● Segmentation de l’ensemble des clients d’une
entreprise en fonction de leurs habitudes d’achat
● Grouper des documents ou des images pour des
présentations
Attributs
(Caractéristiques)
y1 y2 ... yp class
e
d’apprentissage

1 a b c
1
Exemples

2 b c a
 2


n c a a
4 LSI 3
Mohamed 76
HAMMAMI
Techniques de structuration et de classification

Exemple: regroupement de personnes

Sexe, lunettes,
sourire, chapeau

LSI 3
Mohamed 77
HAMMAMI
Techniques de structuration et de classification

LSI 3
Mohamed 78
HAMMAMI
Techniques de structuration et de classification

LSI 3
Mohamed 79
HAMMAMI
Techniques de structuration et de classification

Dendrogramm
e:
Représentation
graphique des
groupes et des
combinaisons
des groupes

LSI 3
Mohamed 80
HAMMAMI
Techniques de structuration et de classification

Exemple: 2 Clusters

LSI 3
Mohamed 81
HAMMAMI
Techniques de structuration et de classification

Exemple: 6 Clusters

LSI 3
Mohamed 82
HAMMAMI
Techniques de prédiction

Le Data Mining prédictif


● Extrapoler des nouvelles informations à partir de données
existantes
 Apprentissage supervisé
● Apprendre à l’aide d’un ensemble d'entraînement des
règles qui permettent de prédire (ou «
deviner ») certaines caractéristiques de nouvelles
observations
● Dans tous les cas, on utilise des données « historiques »
ou connues pour construire un modèle.
● Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations

.
LSI 3
Mohamed 83
HAMMAMI
Techniques de prédiction

Apprentissage supervisé.
● Exemple : prédire la qualité d’un client (rembourse
ou pas son crédit) en fonction de ses
caractéristiques.
Attributs
(Caractéristiques)
y1 y2 ... yp class
e
1 a b c 1
d’apprentissage

2 b c a 2
Exemples




n c a a 4

LSI 3
Mohamed 84
HAMMAMI
Techniques de prédiction

Exemple: Classification de documents


sport
culture
textes Moteur de santé
Catégorisation politic
economic
vacances
Principe
● Classification (par de textes dans 1 ou
apprentissage) plusieurs
catégories
Application
● les sites web:
tels que Yahoo constituent une exellente base
d’apprentissage, car les catégories y ont été
générées manuellement. Sert à générer un classifieur
pour classer les prochains documents.
LSI 3
Mohamed 85
HAMMAMI
Techniques de prédiction
Exemple: Classification de documents

Site organisé par catégorie


LSI 3
Mohamed 86
HAMMAMI
Techniques de prédiction

Méthodes et algorithmes
● Arbres de décision
● Réseaux de neurones
● Machines à vecteur de support (SVM)
● Régression en général
● Méthode des plus proches voisins
●…

LSI 3
Mohamed 87
HAMMAMI
Techniques de prédiction

LSI 3
Mohamed 88
HAMMAMI
Techniques de prédiction

LSI 3
Mohamed 89
HAMMAMI
Techniques de prédiction

LSI 3
Mohamed 90
HAMMAMI
Chapitre 4 :

Apprentissage non-supervisé

LSI 3
Mohamed 91
HAMMAMI
Donnée Connaissanc
s es
Acquisitio Préparation des Fouille de Evaluatio
n données n
données

Techniques de Techniques de Techniques


visualisation et de classification et de de
description structuration prédiction

LSI 3
Mohamed 92
HAMMAMI
Introduction générale

La classification automatique : produire des groupements


de
lignes ou de colonnes d’un tableau.

Objets ou individus décrits par un certain nombre de


variables
ou de caractères.
Une problématique en Gestion (Marketing) : Découper le
marché en sous-ensembles dont les éléments
réagissent de façon similaire aux variations des
variables du marché.

 La classification a donné lieu à de nombreuses études et à


des
développements théoriques et logiciels diversifiés.
LSI 3
Mohamed 93
HAMMAMI
Introduction générale

Exemples d’application :
● Identifier des groupes d’individus
ou de ménages ayant un
comportement homogène vis-à-vis de
:
la consommation de différents produits,
la consommation de
différentes marques
ou variétés,
l’attitude par rapport à un produit,
...

 Il s’agit de problèmes souvent


traités avec les méthodes de
classification automatique.

LSI 3
Mohamed 94
HAMMAMI
Introduction générale

Données analysées :
● Un tableau individus-variables :
● n individus (objets) décrits par p
variables (descripteurs) ;
● un tableau à valeurs
numériques continues (valeur de la
variable j pour l’individu i) ;
● un tableau de contingence (croisant
deux partition d’une même
population) ;
● un tableau de présence–absence
(valeur 0 ou 1).
● Un tableau carré symétrique
de similarités ou de distances.

LSI 3
Mohamed 95
HAMMAMI
Introduction générale

Objectifs :
● Constituer des groupes
d’objets
homogènes et différenciés tels que :
● les objets soient les plus similaires
possibles au sein d’un groupe (critère
de compacité) ;
● les groupes soient aussi dissemblables
que possible (critère de séparabilité).

● La ressemblance ou la
dissemblance étant mesurée sur
l’ensemble des variables
descriptives.

LSI 3
Mohamed 96
HAMMAMI
Introduction générale

Hypothèse :
●On suppose qu’une structure de
classes existe au sein de la
population étudiée.

● Le but de la classification est de la


mettre à jour ou de l’identifier.

 On suppose que la population


étudiée est séparable.

LSI 3
Mohamed 97
HAMMAMI
Introduction générale

Représentations :
● La représentation synthétique
peut être :
● une typologie ;
● un recouvrement (classes
empiétantes) ;
● une partition ;
● une hiérarchie de partitions
(arbre hiérarchique) ;
● une hiérarchie de
recouvrements (pyramide).

LSI 3
Mohamed 98
HAMMAMI
Introduction générale

Une classification automatique obtenue sur un ensemble n’est


jamais la classification de cet ensemble . . .

 C’est une classification parmi beaucoup d’autres.

La classification fait appel à une démarche algorithmique et


non aux calculs formalisés usuels en statistique.

La définition des classessefait à partir


d’une formulation
algorithmique.
Une série d’opérations définies de façon récursive et
répétitive.
La mise en oeuvre de la plupart des techniques de
classification ne nécessite que des notions
mathématiques relativement élémentaires.
LSI 3
Mohamed 99
HAMMAMI
Introduction générale

Les étapes de la classification


automatique :
1. Choix des données.

2. Calcul des dissimilarités entre


les n
individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.

LSI 3
Mohamed 100
HAMMAMI
Introduction générale

Calcul des ressemblances :


● Variables quantitatives
● La distance euclidienne est une
mesure possible de la ressemblance.
● Dans le cas de variables
hétérogènes, il faut travailler sur les
données centrées réduites.
● Variables qualitatives
● De nombreux indices de ressemblance
ont
été proposés.
● Dans le cas d’objets décrits par
des variables binaires, indice de
Jaccard, indice de Russel et Rao.

LSI 3
Mohamed 101
HAMMAMI
Introduction générale

Il existe plusieurs familles


d’algorithme
de classification.
On s’intéresse d'abord aux
algorithmes hiérarchiques
● Les algorithmes ascendants (ou
encore agglomératifs) qui procèdent à la
construction des classes par
agglomérations successives des objets
deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
● Les algorithmes descendants (ou
encore divisifs) qui procèdent
par dichotomies successives de
l’ensemble des objets, et qui
Mohamed peuvent encore fournir une LSI 3
102
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

une hiérarchie de partitions (arbre hiérarchique)

LSI 3
Mohamed 103
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed 104
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed 105
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed 106
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed 107
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

LSI 3
Mohamed 108
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

Première observation :
● La stratégie intuitive utilisé pour passer d’une
P à la suivante
partition
i ne remet pas en cause
Pi+1
les
regroupements.
● Si deux individus sont réunis dans une classe,
ils restent ensemble tout le temps.
● Les partitions ainsi construites
sont emboîtées de la
plus fine à la plus grossière.
● On obtient une hiérarchie de partitionsqu’on
peut représenter par un dendrogramme.

LSI 3
Mohamed 109
HAMMAMI
Classification Ascendante Hiérarchique (CAH)

Deuxième observation :

LSI 3
Mohamed 110
HAMMAMI
Dissimilarité entre deux points

Mesures de distance :
La plupartdes techniques de classification
font appel à des mesures de distance,
appelé aussi métrique.

 Evaluer les degrés de dissemblance ou de ressemblance entre


deux individus ou deux groupes d’individus.

 La dissemblance entre deux d’individus est évaluée par la


notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.

LSI 3
Mohamed 111
HAMMAMI
Dissimilarité entre deux points

Types de dissimilarité :
● Selon la nature des données, on distingue
quatre groupes de critères de dissimilarité entre
individus :

1. la dissimilarité définie sur les données quantitatives ;


2. la dissimilarité définie sur les données
qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.

LSI 3
Mohamed 112
HAMMAMI
Dissimilarité entre deux points

LSI 3
Mohamed 113
HAMMAMI
Dissimilarité entre deux points

LSI 3
Mohamed 114
HAMMAMI
Dissimilarité entre deux points

LSI 3
Mohamed 115
HAMMAMI
Dissimilarité entre deux points

LSI 3
Mohamed 116
HAMMAMI
Dissimilarité entre deux ensembles de points

LSI 3
Mohamed 117
HAMMAMI
Dissimilarité entre deux ensembles de points

LSI 3
Mohamed 118
HAMMAMI
Algorithme de la CAH

Lance et William (1967)

Etape 0 : il y a n éléments à classer (n objets) ;

Etape 1 : on construit la matrice de distances entre les n


éléments et l’on cherche les deux plus proches, que l’on
agrège en un nouvel élément. On obtient une première
partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui
résultent de l’agrégation, en calculant les distances entre le
nouvel élément et les éléments restants (mêmes conditions
qu’à l’étape 1 avec (n−1) éléments). On cherche les deux
éléments les plus proches, que l’on agrège. On obtient une
deuxième partition avec (n−2) classes et qui englobe la
première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le
processus jusqu’à n’avoir plus qu’un seul élément regroupant
tous les objets et qui constitue la dernière partition.
LSI 3
Mohamed 119
HAMMAMI
Algorithme de la CAH

LSI 3
Mohamed 120
HAMMAMI
Algorithme de la CAH

LSI 3
Mohamed 121
HAMMAMI
Algorithme de la CAH

LSI 3
Mohamed 122
HAMMAMI
Algorithme de la CAH

LSI 3
Mohamed 123
HAMMAMI
Algorithme de la CAH

LSI 3
Mohamed 124
HAMMAMI
Algorithme de la CAH

Choix de la meilleure partition


En apprentissage non supervisé, nous cherchons à
faire émerger des classes qui ont un sens de point
de vue de l’utilisateur.

Il semble naturel d’accepter l’idée selon


laquelle, la meilleure partition est celle où les
dissimilarités entre individus d’une même
classe sont les faibles et les dissimilarités entre
individus de classes différentes sont les plus
fortes.

Pour la CAH, le digramme de la hiérarchie de


partitions va nous aider à déterminer la meilleur
partition.
Mohamed
LSI 3
125
HAMMAMI
Algorithme de la CAH
Choix de la meilleure partition
Si l’indice de la hiérarchie fait un saut important par
passage de la partition Pi à la partition Pi+1
Cela signifie que les deux classes que l’on vient de
réunir sont relativement éloignées.

LSI 3
Mohamed 126
HAMMAMI
Algorithme de la CAH
Choix de la meilleure partition
Le saut le plus important a été effectué pour passer de
P3 à P4 car l’indice de la hiérarchie est passé de
3.35 à 7.07. Comparativement aux précédentes
valeurs, il s’agit d’une variation brusque.
La meilleure partition est celle pour laquelle l’indice
de la hiérarchie h est tel que 3.35 ≤ h < 7.07

LSI 3
Mohamed 127
HAMMAMI
Algorithme de la CAH

Inconvénients des algorithmes hiérarchiques


● Difficilement utilisables avec de grosses bases
de
données.

● Il est difficile de déterminer la coupure


significative de
l’arbre.

● La partition retenue à une étape dépend de celle


obtenue à l’étape précédente.

LSI 3
Mohamed 128
HAMMAMI
Algorithme k-means

L’algorithme k-means est le plus connu des algorithmes


non hiérarchiques. Certains auteurs nomment cette
technique « centres mobiles »

Le terme « means » dans k-means fait référence au


centroïde du cluster, c'est-à-dire un point de données
choisi arbitrairement puis affiné de manière itérative
jusqu'à ce qu'il représente la moyenne vraie de tous les
points de données dans le cluster.

La lettre « k » fait référence au nombre arbitraire de points


qui sont utilisés pour ensemencer le processus de
clustering.

LSI 3
Mohamed 129
HAMMAMI
Algorithme k-means

L’algorithme k-means permet le classement des objets


dans un nombre fixe de classe (k) défini par l’utilisateur.

Cet algorithme suppose que nous connaissions le


nombre de
classes voulu.

Les objets sont classés en clusters et dans chaque


cluster la
distance moyenne entre les objets est la plus petite
possible.

Les objets sont déplacés de clusters en clusters


jusqu’à que tout changement n’améliore plus le
système.

L’algorithme
Mohamed
minimise la variabilité LSI 3
130
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 1:

k1
Y
Choisir 3 k2
centres
de classes
(au
hasard)
k3

X
LSI 3
Mohamed 131
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 2:

k1
Y

Affecter k2
chaque point
à la classe
dont le centre
est le plus k3
proche
X
LSI 3
Mohamed 132
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 3:

k1 k1
Y

Déplacer k2
chaque centre
de classe vers k3
k2
la moyenne de
chaque classe k3

X
LSI 3
Mohamed 133
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4:

Y
Réaffecter les
points qui sont k1
plus proches du
centre d'une autre
classe

Q : Quels sont les


points qui k3
changent de k2
classe?

X
LSI 3
Mohamed 134
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:

k1
Y
R : les trois
points qui
changent de k3
classe k2

X
LSI 3
Mohamed 135
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:

k1
Y
Re-calculer les
moyennes des
classes k3
k2

X
LSI 3
Mohamed 136
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:

k1
Y

Déplacer les k2
centres des k3
classes vers
les moyennes

X
LSI 3
Mohamed 137
HAMMAMI
Algorithme k-means

Comment K-means fonctionne :


● L’algorithme choisit K points aléatoirement ou “seeds”.

● Assigne chacun des points restants à un cluster selon le “seed”


le plus proche.

● Recalcule les centroides de chaque cluster (moyenne


dans
chaque cluster)

● Réassigne de nouveau les points aux clusters dont


les centroides sont les plus proches

● Continue le processus jusqu’à la stabilisation des centroides.

LSI 3
Mohamed 138
HAMMAMI
Algorithme k-means

Algorithme K-means
Initialisation des centroïdes avec les valeurs initiales
FIN = FAUX
TANT QUE NON FIN FAIRE
POUR chaque observation FAIRE
Trouver le centroïde le plus proche
Placer l’observation dans l’aggrégat le plus proche
FIN POUR
SI aucun changement des valeurs des centroïdes FAIRE
FIN = VRAI
SINON
Calculer les nouveaux centroïdes
FIN SI
FIN TANT QUE

LSI 3
Mohamed 139
HAMMAMI
Algorithme k-means

L’algorithme k-means est en 4 étapes :

1. Choisir k objets formant ainsi k clusters

2. (Ré)affecter chaque objet O au cluster Ci de centre Mi tel


que dist(O,Mi) est minimal

3. Recalculer Mi de chaque cluster (le barycentre)

4. Aller à l’étape 2 si on vient de faire une affectation

LSI 3
Mohamed 140
HAMMAMI
Algorithme k-means
K-Means :Exemple

A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A

On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3.


Ca donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3

Chaque objet O est affecté au cluster au milieu duquel, O est


le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et
dist(M3,6)<dist(M1,6)
On a C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86

LSI 3
Mohamed 141
HAMMAMI
Algorithme k-means
K-Means :Exemple

dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne


bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et
M3= 66/6=11

dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne


bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67,
C3={7,8,13,15,17}, M3= 12

dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7


passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5,
C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25

dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe


en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15

Plus rien ne bouge


LSI 3
Mohamed 142
HAMMAMI
Algorithme k-means
Exemple:
10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
10 10

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9 10
10

LSI 3
Mohamed 143
HAMMAMI
Algorithme k-means
Avantages de K-means
● La grande popularité de K-means vient de :
● Sa simplicité conceptuelle.

● Sa rapidité
- on ne compare pas toutes les observations entre elles mais
par rapport aux centres de classes.

● Ses faibles exigences en taille mémoire.


- pratique quand il y a un très grand nombre d’observations
(des milliers).

LSI 3
Mohamed 144
HAMMAMI
Algorithme k-means
Inconvénients de K-means
● Obligation de fixer à priori le nombre (K) de
classes ou
clusters.
● Ce choix peut se faire par simple examen visuel
dans le cas de données bidimensionnelles, mais il n'en
est pas de même pour des données de dimension
supérieure.
● un "mauvais choix" pour la valeur de K conduira alors
à une
typologie sans rapport avec la réalité.
● Les k-means sont souvent précédées d’une ACP
(Analyse en Composantes Principales). Une autre
solution consiste à effectuer d’abord une CAH
(Classification Ascendante Hiérarchique).
● Dépendance au choix des centres initiaux (seeds)
● K-means fonctionne assez bien si le nombre de
classes voulu est modéré. Dès que le nombre de classesLSI 3
augmente, la solution trouvée par l’algorithme est médiocre.
Mohamed
HAMMAMI
145
LSI 3
Mohamed 146
HAMMAMI
Chapitre 5 :

Apprentissage supervisé

LSI 3
Mohamed 147
HAMMAMI
Classification supervisée

Définition : Classification supervisée


● Processus à deux phases:
1. Apprentissage : construire un modèle (ou classifieur)
qui décrit un ensemble prédéterminé de classes de
données

2.Classement : utiliser le classifieur pour


affecterune classe à un nouvel objet

Principe
● On utilise des données « historiques » ou connues
pour construire un modèle.
● Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations

LSI 3
Mohamed 148
HAMMAMI
Classification supervisée
Exemple introductif: Modèle de prédiction pour le diagnostic
Chaque instance est décrite par un vecteur d’ attributs/valeurs
Toux Fièvre Poids Douleur
Mariem non oui normal gorge
Farid non oui normal abdome
n
Salah oui oui maigre aucune
Nizar oui non obese tête
En entrée : un ensemble d’instances et leur classe
(correctement associées par un “professeur” ou “expert”)
Toux Fièvre Poids Douleur Diagnostic
Marie non oui normal gorge rhume
Farid non oui normal abdomen appendicit
..... e

L’algorithme d’apprentissage doit construire un modèle de


prédiction permettant de prédire (ou « deviner ») l’appartenance
d’un individu à une classe en fonction de ses caractéristiques .
LSI 3
Mohamed 149
HAMMAMI
Classification supervisée
Apprendre, c'est trouver une fonction F …

 est la population (la « réalité


»)  X
E

E est l ’ensemble des descriptions Y F


des éléments de la population K
K est l ’ensemble des classes
● leplus souvent construite par
le jugement d’un expert

X:  E
X est la fonction qui associe à tout élément de  sa description

Y:  K
Y est la fonction qui associe à tout élément de  sa classe

On cherche une fonction F : E  K


LSI 3
Mohamed 150
HAMMAMI
Classification supervisée
Apprendre, c'est trouver une fonction F …

Exemple 1: Classification de sites en sites violents/sites non


violents

C :  ¢={violent, non
violent}

S  C S
X: 
S  X(S)
= X1,,X2,X3.........X..n 

 Critères utilisés :
n_mots, n_v_mots, n_v_url , n_v_meta, n_liens,
n_v_liens,
n_images, Npw ….. LSI 3
Mohamed 151
HAMMAMI
Classification supervisée
Apprendre, c'est trouver une fonction F …

Exemple 2: Classification de portrait en Gros


plan/plan américain/ plan Général

Gros
plan

Plan
américain
¢={Gros plan, plan américain, plan
C : 
général}
À
I  CI  pieds

X:


I X(I) = Ppea
u

LSI 3
Mohamed 152
HAMMAMI
Classification supervisée
Apprendre, c'est trouver une fonction F …
Exemple 3: Prédire la solvabilité d’un client
● Construction du modèle sur des individus avec la variable cible connue
X1 X2 X3 X4 X5….. Xn Y
age sexe C A 2008 matrimonial ... solvabilité
32 M 125000 M a rr i e d ... Y
25 M 254000 Single ... N
37 F 265000 M a rr i e d ... Y
52 M 126000 Divorced ... N
Modèle prédictif : F(X1, .. Xn)
24 F 265000 Ve u f ... Y
29 F 345000 M a rr i e d ... Y
36 F 362000 M a rr i e d ... N
34 M 654000 Single ... N

● Application du modèle sur des individus avec la variable cible inconnue


X2 X3 X4 X5….. Xn Y
sexe CA 2008 matrimonial ... solvabilité
F 163000 Married ?
M 345000 Single ?
M 412000 Married ?
F 95000 Divorced ?
… … … …
LSI 3
Mohamed 153
HAMMAMI
Classification supervisée

Autres exemples
● Prédiction de
● Faillite
● Non remboursement de prêt
● Détection de fraude

●…

LSI 3
Mohamed 154
HAMMAMI
Classification supervisée

Plusieurs techniques:
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Réseaux bayésiens
Algorithmes génétiques, ….

LSI 3
Mohamed 155
HAMMAMI
Arbres de décision

Principe
● Classer les objets en sous-classes par divisions hiérarchiques
=> construction automatique à partir d ’un échantillon de la
base

● Décomposer l’espace des caractéristiques selon la variable


la plus discriminante à chaque étape

Algorithme de base :
1. Choisir le "meilleur" attribut
2. Etendre l'arbre en rajoutant une nouvelle
branche pour chaque valeur de l'attribut
3. Répartir les exemples d'app. sur les feuilles de l'arbre
4. Si aucun exemple n'est mal classé alors
arrêt, sinon repéter les étapes 1-4
pour les feuilles
LSI 3
Mohamed 156
HAMMAMI
Arbres de décision

Un nœud

Une S
branche
Une v3
feuille v
v v2
Un
parcours 1 1
v3
v2

LSI 3
Mohamed 157
HAMMAMI
Arbres de décision

Un
nœud
Une branche S
Une v3
feuille v
v v2
Un
parcours 1 1
v3
v2

LSI 3
Mohamed 158
HAMMAMI
Arbres de décision

Un
nœud
Une S
branche
Une feuille v3
v v
Un v2
parcours 1 1
v3
v2

LSI 3
Mohamed 159
HAMMAMI
Arbres de décision

Un
nœud
Une S
branche
Une v
feuille 3 v v
Un parcours
V1< 2 1
Y
v v3
Si V3 > X
et V1 < Y 2
alors
<Classe>
•Les arbres de décision sont des classifieurs pour des
instances représentées dans un formalisme attribut/valeur
• Un arbre de décision peut être traduit sous forme de règles de
décision LSI 3
Mohamed 160
HAMMAMI
Arbres de décision

On attribut la classe majoritaire à une feuille

LSI 3
Mohamed 161
HAMMAMI
Exemple introductif

N° Outlook Temperature Humidity Windy Play? Objectif :


1 Sunny hot high false No
•Prédire si un match de
2 Sunny hot high true No
foot va avoir lieu ou non.
3 overcas hot high false Yes
t
4 rain mild high false Yes •Établir une relation entre
5 Rain cool normal false Yes le fait de jouer ou pas
6 rain cool normal true No et les conditions
7 overcas cool normal true Yes météorologiques.
t
8 sunny mild high false No
9 sunny cool normal false Yes
•Variable à expliquer (cible) :
10 rain mild normal false Yes Play (2 classes yes et no).
11 sunny mild normal true Yes
12 overcas mild high true Yes •Variables
t explicatives : Outlook,
13 Overcas hot normal false Yes
t
Temperature, Humidity et
14 rain mild high true No Windy
LSI 3
Mohamed 162
HAMMAMI
Comment construire un arbre de décision ?

Deux phases de construction :


● Construction descendante
● Au début, tous les individus de la base d’apprentissage
sont affectés au nœud racine de l’arbre.
● On partitionne de manière récursive en
choisissant un attribut d’éclatement à chaque
nœud de l’arbre.

● Construction ascendante (élagage)


● Supprimer les sous-arbres ou les branches,
dans une approche ascendante de façon à améliorer la
précision estimé de nouveaux cas.

LSI 3
Mohamed 163
HAMMAMI
Nœud racine de l’arbre

N° Outlook Temperature Humidity Windy Play?


1 Sunny hot high false No 9 (64,3%) Yes
2 Sunny hot high true No
3 overcas hot high false Yes 5 (36,7%) N
t
4 rain mild high false Yes o
5 Rain cool normal false Yes
6 rain cool normal true No Le nœud racine
7 overcas cool normal true Yes comprend tous les
t
8 sunny mild high false No individus de la base
9 sunny cool normal false Yes d’apprentissage
10 rain mild normal false Yes partitionnés selon la
11 sunny mild normal true Yes
classe à prédire
12 overcas mild high true Yes
t (variable cible).
13 Overcas hot normal false Yes
t
14 rain mild high true No LSI 3
Mohamed 164
HAMMAMI
Comment éclater le nœud racine ?

9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
J1,J2, J6,J8,J14
5 No
(36,7%)

+
+ J4,J5,J10
J9,J11 J6,J14
- J1,J2,J8 -

+ J3,J13,J7,J12
-
LSI 3
Mohamed 165
HAMMAMI
Comment éclater le nœud racine ?

9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
J1,J2, J6,J8,J14
5 No
(36,7%)

+ J3,J13 + J5,J7,J9
- J1,J2 - J6

+ J4,J10,J11,J13
- J8,J14
LSI 3
Mohamed 166
HAMMAMI
Comment éclater le nœud racine ?

9 (64,3%) Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
s
5 (36,7%) N J1,J2, J6,J8,J14
o

+ J3,J4,J12 + J5,J7,J9,J10,J11,J13
- J1,J2, J8, J14 - J6

LSI 3
Mohamed 167
HAMMAMI
Comment éclater le nœud racine ?

9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
N J1,J2, J6,J8,J14
5 o
(36,7%)

+ J3,J4,J5,J9,10,J13 + J7,J11,J12
- J1,J8 - J2,J6,J14

LSI 3
Mohamed 168
HAMMAMI
Quelle est la variable à choisir ?

LSI 3
Mohamed 169
HAMMAMI
Quelle est la variable à choisir ?

Il faut choisir la variable qui :

 mène aux sous-ensembles d’individus


les plus homogènes possible en fonction de la
classe à prédire.

 mène à la création de nœuds fils les plus purs possible.


 diminue le plus possible le désordre (l’entropie) de la
classe à
prédire dans les nœuds fils.

 mène à une nouvelle partition d’individus qui diminue


l’entropie
en cours.
LSI 3
Mohamed 170
HAMMAMI
Quelle est la variable à choisir ?

LSI 3
Mohamed 171
HAMMAMI
Deuxième partition de l’arbre

9
S0 (64,3%)

5
(36,7%)
Sunn Overcas Rain
y t y

2 4 3
S1 (40%) (100%) (60%)

3 0 (0%) 2
(60%) (40%)

LSI 3
Mohamed 172
HAMMAMI
Quel est le nœud à éclater ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed 173
HAMMAMI
Quelle est la variable à choisir ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed 174
HAMMAMI
Quelle est la variable à choisir ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed 175
HAMMAMI
Quelle est la variable à choisir ?

9 (64,3%)

5 (36,7%)

Sunny Overcast Rainy

2 (40%) 4 (100%) 3 (60%)

3 (60%) 0 (0%) 2 (40%)

LSI 3
Mohamed 176
HAMMAMI
Troisième partition de l’arbre

9 (64,3%)
S0 5 (36,7%)

Sunn Overcas Rain


y t y

2 4 3
S1 (40%) (100%) (60%)

3 0 (0%) 2
(60%) (40%)
Hig Norma
h l
S2
0 (0%) 2
(100%)
3
(100%) 0 (0%)

LSI 3
Mohamed 177
HAMMAMI
Quatrième partition de l’arbre

9
(64,3%)

5
(36,7%)
Sunn Overcas Rain
y t y

2 4 3
(40%) (100%) (60%)

3 0 (0%) 2
(60%) (40%)
Hig Norma Fals True
h l e

0 (0%) 2 3 0 (0%)
(100%) (100%)
3 2
(100%) 0 (0%) 0 (0%) (100%)

S3
LSI 3
Mohamed 178
HAMMAMI
Mesure d’impureté
Il y a le plus souvent de nombreux arbres de
décision possibles corrects.

Parmi toutes les hypothèses cohérentes possibles,


laquelle faut-il choisir en vue d’une bonne
généralisation ?
● La réponse intuitive ...
... est-elle confirmée par la théorie ?

Impossibilité de procéder par énumération /


évaluation
● 4 attributs & 3 valeurs / attribut : 55296 arbres

Nécessité d’une démarche constructive itérative


LSI 3
Mohamed 179
HAMMAMI
Mesure d’impureté
Critères de choix de chaque noeud
● La notion de mesure d’impureté

Cette mesure doit :


● être égale à zéro pour un nœud pur de l’arbre de décision
● être croissante en fonction du désordre d’un nœud.
Plus le désordre est grand, plus la valeur de la mesure est
grande.
● avoir des valeurs additives pour évaluer le désordre d’une
partition de l’arbre de décision.

 Entropie de Shannon
 Entropie de Boltzmann
 Index de Gini
LSI 3
Mohamed 180
HAMMAMI
Entropie de Shannon
Shannon en 1949 a proposé une mesure
d’entropie
valable pour les distributions discrètes de
probabilité.

Elle exprime la quantité


d’information, c’est à dire le
nombre de bits nécessaire pour spécifier la
distribution

Pour un nœud s, l’entropie d'information est :


où pi est la probabilité de la classe Ci.

LSI 3
Mohamed 181
HAMMAMI
Entropie de Shannon

9
log ( 9 )5 log5 ( ) 9 Yes
I (s )   0,942 14
0
2 14 (64,3%)
14 No
14 5
(36,7%)
Sunn Overcas Rain
y t y

2 4 3
(40%) (100%) (60%)
s11 3
s12 0 (0%)
s13 2
(60%) (40%)

2 log 2( )3 log 3(
I (s )   )  
11

5 4
2
54 50 2
05
0,97 NB
I (s )   log ( )  log ( )  Log2(x) = Log(x) / Log(2)
0 12 2 2
4 4 4 4
2
I (s13 )   log 3( )2 log ( ) 
3 0,97
5 2
5 5 2
5 LSI 3
Mohamed 182
HAMMAMI
Entropie de Shannon

Pour une partition S l’entropie d'information est :

Card(s)
I (S) sSCard() I (s)
où I(s) est l’entropie d’information du
nœud s

LSI 3
Mohamed 183
HAMMAMI
Entropie de Shannon

9 Yes
(64,3%)
No
5
(36,7%)
Sunn Overcas Rain
y t y

2 4 3
S (40%) (100%) (60%)

3 0 (0%) 2
1
(60%) (40%)

5 4 5
I (S) 14 I (s11 )  I 12 )  14 I (s13
(s 14 )

LSI 3
Mohamed 184
HAMMAMI
Entropie de Shannon

Critère de partitionnement
● Gain d’incertitude:

(st1)I(St)I(St1)

Objectif : Maximiser le gain d’incertitude

● Un nœud p est terminal si : tous les


éléments associés à ce nœud sont dans une
même classe ou si aucun test n’a pu être
séléctionner LSI 3
Mohamed 185
HAMMAMI
Entropie de Shannon

Pour les exemples initiaux


I(S) = - 9/14 log2(9/14) - 5/14 log2(5/14)

Entropie de l’arbre associé au test sur


Outlook ?
● E(Outlook) = 5/14 I(S11) + 4/14 I(S12) + 5/14 I(S13)
Gain(Outlook) = 0.940 - 0.694 = 0.246 bits
● Gain(Temperature) = 0.029
● bits
Gain(Humidity) = 0.151 bits
● Gain(Windy) = 0.048 bits

Choix de l’attribut Outlook pour le premier test

LSI 3
Mohamed 186
HAMMAMI
Arbre final obtenu

Outlook

sunn rai
y overca
n
st

Humidit Yes Wind


y y
hig norm tru fals
h al e e
No Yes No Yes

LSI 3
Mohamed 187
HAMMAMI
Algorithmes d’apprentissage

ID3 [Quinlan,198
6]
C4.5 [Quinlan,199
3]
CART [Briemen,198
4]
SIPINA [Zighed,199
2]
...

LSI 3
Mohamed 188
HAMMAMI
ID3, C4.5

 Graphe arborescente n-
aire So
 Passage d’une S à St exclusiveme
partition t 1
nt
par segmentation
 Critère de sélection de S1 10
S2
20
variable ID3: Gain
Informationnel C4.5: X
Ratio de gain 5
j
5
 Élagage S3 S4
20 0
d’arbre ID3:
Xi
non C4.5:
oui
1 0 4
10 8 2
S5 S6 S7

LSI 3
Mohamed 189
HAMMAMI
ID3, C4.5
- Critère de partitionnement
ID3 ● maximiser le gain d’incertitude entre
t I(S ) t+
et
● I(S )
Utilisation de l’entropie de 1

Shannon:
Exemple:
So
(St 1 )  I (S1 )  I (S3 , S4
) 1
  1 0 l o g 2 1 0  2 0 l o g 2 2 0
30 30 30 30
S1
200
Xj
S2

- [- 25
30 ( 25 
5 log 2 25
5 + 20 20)- 30
25log 2 25 5 (55log 2 55+ 05log 2 05)]
S3
5
S4
5
20 0
Xi
= 0.9183- 0.7739
= 0.1443 1 0 4
1 8 2
S5
0 S6 S7
LSI 3
Mohamed 190
HAMMAMI
ID3, C4.5

C4.5 I (S j )  (S t 1 )
 ( S t 1 ) 
   n kj l o g
2
n kj
k 1 n j n j

Facteur visant à pénaliser la prolifération des


sommets
I (S1 )  I (S3 , S4 )
 ( S t 1 )
Sur le même exemple: 5
 25 25 5
 3 0 log 2 3 0  3 0 log 2
30

(St1) 0 . 9 1 8 3 0 . 7 7 3 9
2 5 log 2 2 5  5 log2 5
30 30
30 30
= 0.222
LSI 3
Mohamed 191
HAMMAMI
ID3, C4.5

Conditions d’arrêt:
1. Tous le sommets sont saturés
2. Contrainte d’admissibilité
3. Gain d’information minimal 

LSI 3
Mohamed 192
HAMMAMI
CART

Segmentation par arbre binaire

Choisie parmi p variable, une bi-partition So


S1={Sg1,Sd1}
Soit ng 
: Sg1 Sd1
card(S
nd  g )
card(Sd)
nig et nid effectifs de la classe Sg2 Sg2
ci
Critères utilisés
Indice de Gini : M=2
Indicateur de Towing :
M>2
Élagage d’arbre
CART: oui
LSI 3
Mohamed 193
HAMMAMI
CART

Indice de Gini (M=2)


ng m
n m
I (sg  sd )  nig  nig   d
ng  1 n g  n
 nn id 
1
nid 

n i1 i1 d  n d 

- Maximiser la variation J G (sg  sd )


d’impureté
m  n  nig  id 
J G (s g  sd )  ig n  1
n
  I (s g  sd )
 i id n  n 
1

Ou 2
encore nd m
J G (sg  sd ) 
n n
  nn ig nid 
 n 
n g d 
g i1 
LSI 3
Mohamed 194
HAMMAMI
CART

Indicateur de Towing (M > 2)

2
ng nd
 m
n 
JT (sg  s )  n n   nig
 id
d 4 ng nd 

i1

On cherche la bipartition qui maximise JT

(s g  sd )

LSI 3
Mohamed 195
HAMMAMI
SIPINA

Avantages SIPINA ?

Exclusivement Divisif
Méthodes arborescentes
Insensibilité à l effectif

Fusion

SIPINA
Sensibilité à l’effectif

LSI 3
Mohamed 196
HAMMAMI
SIPINA

Inconvénients des Méthodes Classiques


• Insensibilité à l’effectif Distributions sur les deux classes sont analogues

40 4 Deux figures sont parfaitement décrites par


20 2 Les fréquences conditionnelles

40 0 4 0
0 20 0 2

A B

Il semble clair que les règles issues de A sont


L’effectif en A est dix fois plus grand que B Statistiquement meilleures

LSI 3
Mohamed 197
HAMMAMI
SIPINA
• Non décroissance du critère

S0 40
20
(S)0

20 20
S={S1,S2} S0 est équivalente à S
10 10

- En terme d’effectif, les règles issues de S1 et S2 devraient être appréciées différemment


- ils couvrent un effectif plus faible devraient être pénalisées

LSI 3
Mohamed 198
HAMMAMI
SIPINA
Objectif: maximiser
(Si)
Ajout d’un parametre λ
● qui contrôle le développement du graphe
et pénalise
les nœuds de faible effectif
● de ce fait , favorise les fusions entre les
sommets S0

S1 S2

S3 S4 S S6
5
S9

LSI 3
Mohamed 199
HAMMAMI
SIPINA

Critère de partitionnement
● maximiser le gain d’incertitude:

  (S I )I  (S i )I  (S i1 )


● Utilisation de l’entropie de Shannon:
K m     
n j  n ij log n ij 
I (Si )    i n  m
2

n  1
j n j  m  
j 1

● Utilisation de l’entropie quadratique :


K m
n ij   n ij  
I   Si

 j1
n j  
n 
i1
n j  m
1  )
n i  m  
LSI 3
Mohamed 200
HAMMAMI
SIPINA

Comment passer de Si à Si+1 ?


Partition courante de Si

S3

S1 S2

par regroupement
Phase 1: Passage de Si à Si+1
S i1 1
s3,s1s2 
 S i11   S 'i  1   max   Sj
i1
  S
j
2  s
1 , s2  s3

2 1,2,3
S i1 i 1

 Si    S i1  
3  s , s  s3  S
 3
'
0 alors Si+1 =S'i+1
S i1 2 1 i 1

  Repartir à la phase 1

LSI 3
Mohamed 201
HAMMAMI
SIPINA

Phase 2: Passage de Si à Si+1 par regroupement-éclatement


- Supposons on a 3 variables exogènes

Éclatement du premier regroupement par les 3 variables

- Sur chacun des sommets issu d’un regroupement, on cherche par


´éclatement, avec toutes les variables Xj la meilleure partition

LSI 3
Mohamed 202
HAMMAMI
SIPINA

par éclatement
Phase 3: Passage de Si à Si+1

- Éclatement des sommets par les 3 variables

LSI 3
Mohamed 203
HAMMAMI
Inconvénients des arbres de décision

Le choix d’une branche n’est plus jamais


remis en cause.
L’apprentissage nécessite un grand
nombre
d’individus.

La forme des modèles obtenus ne correspond


pas forcément à celle de l’échantillon.
Le temps de calcul d’un arbre est long.

Mauvaise performance s’il y a beaucoup


de classes
LSI 3
Mohamed 204
HAMMAMI

You might also like