Cours Machine Learning

Machine Learning
Mohamed HAMMAMI
Professeur à la FSS – Université de Sfax
[email protected]
LSI 3
Syllabus du cours
Objectifs
● Sensibiliser les étudiants à l’importance du Machine
Learning
en tant que nouvel domaine technologique;
● Positionner le Machine Learning dans le processus ECD
;
● Maîtrise des principes théoriques de quelques
techniques de
Machine Learning (classification, prédiction, etc) ;
● Manipulation d’outils logiciels de Machine Learning.
Pré-requis : Connaissances en statistiques

utiles, mais pas indispensables
LSI 3
Mohamed 2
HAMMAMI
Plan du Cours
Chapitre 1 : Introduction au Machine

Learning Chapitre 2 : Processus ECD
Chapitre 3 : Techniques de Machine
Learning Chapitre 4 : Apprentissage
Non-supervisé Chapitre 5 :
Apprentissage supervisé
LSI 3
Mohamed 3
HAMMAMI
Chapitre 1:
Introduction au Machine Learning
LSI 3
Mohamed 4
HAMMAMI
Problématique de base
De plus en plus de
données sont générées :
● Banques,
télécommunication,
domaines
commerciaux ...
● Données
scientifiques :
astronomie, biologie,
etc.
● Web : texte, images,
De nosson,
jours, les entreprises
accumulent
vidéo,auetc.quotidien de gros
volumes de données
● E-commerce
LSI 3
Mohamed 5
HAMMAMI
Quelques exemples concrets

…
● interféromètre européen
VLBI (Very Long Baseline
Interferometry) possède 16
télescopes, dont chacun
produit 1 Go par seconde de
données astronomiques.
 Le stockage et l’analyse de
ces données constituent un
problème à part entière
LSI 3
Mohamed 6
HAMMAMI
Quelques exemples concrets …

● AT&T le plus grand
fournisseur de services
téléphoniques à l’Etats-Unis gère des
milliards d'appels téléphoniques par
jour
Le stockage des données relatives est

très difficile
 L’analyse en temps réel de ces appels
est encore plus difficile
LSI 3
Mohamed 7
HAMMAMI
Quelques chiffres concrets …

● BD commerciales (selon le Winter Corp.
2003
Survey) :
● AT&T ~ 26 To (1Terra Octet = 1024 Go).
● France Telecom ~ 30 To
● Web :
● Alexainternet archive (www.alexa.com) 7 ans
de données ~ 500 To
● Google searches ~ plus de 4 Milliards de
pages ~
plusieurs centaines de To
● WebFountain d’IBM (2003) ~ 160 To
● Internet Archive (www.archive.org) ~ 300
Mohamed
To LSI 3
8
HAMMAMI
Quelques chiffres concrets …

● Selon UC Berkeley (2003) :
●5 Eo (5 millionsTo) est la taille des données crées
dans le
monde durant l’année 2002
● Environ 40% de ces données sont produites par les Etats
Unis
● www.sims.berkeley.edu/research/projects/how-much-info-2
003/
● Selon IDC study (2007) :

● 161 Eo (161 millions To) est la taille des données crées
dans le monde durant l’année 2006
● Pour l’année 2010, on projette la création de 988 Eo
● www.usatoday.com/tech/news/2007-03-05-data_N.htm
LSI 3
Mohamed 9
HAMMAMI
Les outils automatiques de collecte de données font que

les Bases de Données (BD’s) contiennent énormément de
données
Le développement du matériel informatique et la baisse

des coûts ont permis à de nombreux organismes de
constituer de grandes masses de données à moindre
frais
On estime que la quantité de données dans le monde

double tous les vingt mois [Kodratoff 1997].
LSI 3
Mohamed 10
HAMMAMI
Malheureusement cette masse d’information souvent
sous exploitée
Beaucoup de données mais peu de
connaissances !
Nécessité d’exploiter ces données
● Est-il possible de valoriser ces données amassées ?
● Est-il possible de s’en servir pour prendre des décisions ou

éclairer des choix pour l’entreprise ?
Quelles données sont utiles ?
L’explication se cache dans les données auxquelles
on ne pense pas
Compréhension de phénomènes complexes
 Solution: Data Mining, Machine Learning
LSI 3
Mohamed 11
HAMMAMI
Qu’est-ce que le Data Mining ?
Zighed(199
5)
Extraction d’informations intéressantes (non triviales,
implicites, préalablement inconnues et potentiellement
utiles) à partir de grandes bases de données
Fayyad et al.
(1997) :
Data Mining is a step in the KDD process that consists of
applying data analysis and discovery algorithms that
produce a particular enumeration of patterns (or models)
over the data.
LSI 3
Mohamed 12
HAMMAMI
Qu’est-ce que le Data Mining ?
Wikipédia
:
Le Data Miningestun processusd’extraction de
connaissances
valides et exploitables à partir de grands volumes de données.
Le Data Mining a pour objet l’extraction d’un savoir
ou d’une connaissance à partir de grandes quantités de
données, par des méthodes automatiques ou semi-
automatiques, et l’utilisation industrielle ou opérationnelle
de ce savoir.
Autres appellations:
- ECD (Extraction de Connaissances à partir de
Données)
- KDD (Knowledge Discovery from Databases)
- Fouille de données,
- Machine Learning etc … LSI 3
Mohamed 13
HAMMAMI
Origines du Data Mining
L’expression Data Mining est apparue vers le début

des années 1960 (sens péjoratif)
● L’avènement des ordinateurs a permis d’effectuer
toutes sortes de calculs qu’on ne pouvait faire
manuellement.
● Certains chercheurs, principalement des
informaticiens, ont commencé à traiter sans a priori
statistique les tableaux de données relatifs à des
enquêtes ou à des expériences.
● Les résultats obtenus sont prometteurs et loin d’être
aberrants !
● Une tendance à systématiser cette approche
opportuniste !
●
Mohamed Les statisticiens trouvaient cette démarcheLSI 3peu 14
HAMMAMI
La diffusion de l’analyse de données (Jean-Paul

Benzecri)
● Succès de cette démarche empirique malgré les
critiques des
statisticiens
L’analyse des données s’est développée en parallèle

avec la taille des BD
Fin des années 1980 : Agrawal Rakesh (chercheurs en

BD) propose l’exploitation du contenu des BD
volumineuses relatives aux tickets de caisses de
grandes surfaces
● Premiers algorithmes de recherche de règles
d’association
● Ces algorithmes ont étaient critiqués par les
statisticiens et les spécialistes de l’induction en
raison de leur naïveté méthodologique
Mohamed
LSI 3
15
HAMMAMI
Les algorithmes de recherche de règles d’association

ont été ramenés dans un cadre méthodologique plus
rigoureux faisant usage de théories reconnues
(treillis de Gallois, décomposition optimale de
relations binaires)
On a adopté l’expression Data Mining
Mars 1989 : Piatetsky-Shapiro proposa le terme

Knowledge Discovery à l’occasion d’un atelier sur la
découverte des connaissances dans les BD
Aujourd’hui, les termes Data Mining et Knowledge
Discovery in Databases (KDD) sont utilisés plus ou
moins indifféremment
LSI 3
Mohamed 16
HAMMAMI
En 1995, la communauté de Data

Mining a initié sa première conférence
En 1997, publication du premier

numéro de la revue Data Mining and
Knowledge Discovery Journal
Plusieurs conférences on data mining

● PAKDD, PKDD, SIAM-Data
Mining, (IEEE) ICDM, DaWaK, SPIE-
DM, etc.
En France : EGC janvier 2001

(Nantes), janvier 2002 (Montpellier),
janvier 2003 (Lyon),..., janvier 2010
(Hammamet).
LSI 3
Mohamed 17
HAMMAMI
Cas d’applications: Commerce
Si on baisse le prix du Coca-Cola de 5%, alors

on va en augmenter les ventes de 15%
 On savait cette connaissance sans Data Mining !
 Le Data Mining révèle que les ventes des

cacahuètes vont augmenter dans une proportion
voisine
 Association d’idées : « Puisque j’achète du Coca, il
me faut
aussi des cacahuètes »
 Si la marge sur le Coca-Cola est relativement faible, et
celle sur les cacahuètes importantes . . .
 Baisser le prix du Coca-Cola est un moyen de vendre
plus
de cacahuètes !
LSI 3
Mohamed 18
HAMMAMI
Cas d’applications: Analyse des risques
Détection de fraudes pour les assurances
Analyse des déclarations des assurés par un expert

afin
d’identifier les cas de fraudes.
Extraction de caractéristiques à partir de ces déclarations (type

d’accident, de blessures, etc...)
Applications de méthodes statistiques pour identifier

les caractéristiques des déclarations fortement corrélées à la
fraude.
Prêt Bancaire
Objectif des banques : réduire le risque des prêts bancaires.
Créer un modèle à partir de caractérisques des clients

pour discriminer les clients à risque des autres.
LSI 3
Mohamed HAMMAMI 19
Cas d’applications: E-Commerce
Le Web Usage Mining
Comment les personnes naviguent-elles sur Internet ?

● Web Usage Mining (Clickstream Analysis)
Information sur les chemins de navigation disponibles dans

des fichiers logs.
Principe :
«fouiller» ces données pour
en produire de l’information
et de la connaissance
LSI 3
Mohamed HAMMAMI 20
Le Web Usage Mining
Pourquoi analyse l’usage des sites Web ?
La connaissance sur la manière dont les visiteurs utilisent

un site Web permet :
● D’ajuster la conception des pages et des liens et d’améliorer les
performances des sites
Aider le concepteur à positionner l’information importante que les
visiteurs recherchent.
● Fournir des sites adaptatifs (personnalisation)
● Les associations de pages côté client permet
d’optimiserle
cache du navigateur, d’effectuer du « prefetching »
LSI 3
Mohamed HAMMAMI 21
30%Promo
« 75% des parisiens qui achètent une raquette de tennis

achètent
trois mois après des chaussures »
Modification dynamique
LSI 3
Mohamed 22
HAMMAMI
Cas d’applications du Data Mining
Science : astronomie, bioinformatiques, détection de

drogues, etc.
Commerce : rapport avec la clientèle, détection de
fraudes, marketing, e-commerce, risque de crédit, etc.
Web : moteurs de recherche, publicité, Web mining, text
mining,
etc.
Gouvernement : surveillance, détection des
crimes, profiling tax cheaters (profilage
tricheurs fiscaux), etc.
Autres domaines : production industrielle,
sports,
télécommunication, transport, etc.
LSI 3
Mohamed 23
HAMMAMI
Facteurs d’émergence du Data Mining
Intérêt économique : du produit aux clients.

● De nos jours, la concurrence de plus en plus forte et les
clients sont de plus en plus exigeants.
● On est passé d’une économie orientée produit vers
une économie orientée client on parle aujourd'hui du
CRM
● La connaissance du comportement du client est décisive !
● Est-il possible de découvrir des associations

entre
produits achetés afin de mieux les disposer sur les rayon ?
● Est-il possible de proposer des produits de substitution
ou encore mieux cibler une clientèle ?
LSI 3
Mohamed 24
HAMMAMI
Facteurs d’émergence du Data Mining
Technologie de l’information
● faible coût de stockage de données,
● saisie automatique de transaction (code bar,
click, données de localisation GPS, internet)
Augmentation de la puissance de calculs

des ordinateurs (loi de Moore)
Extraire de la connaissance à partir de grande bases

de données devient possible
LSI 3
Mohamed 25
HAMMAMI
Le Data Mining et le KDD
Une confusion subsiste encore entre Data Mining

(Fouille de données) et Knowledge Discovery in
Databases (ECD - Extraction des Connaissances à partir
des Données).
Le Data Mining est l’un des maillons de la chaîne de

traitement pour le processus de découverte des
connaissances à partir des données.
 Le Data Mining est la pierre angulaire du processus ECD !

L’ECD, par le biais du Data Mining, est alors vue comme une ingénierie
pour extraire des connaissances à partir des données.
LSI 3
Mohamed 26
HAMMAMI
Le Data Mining et le KDD
LSI 3
Mohamed HAMMAMI 27
-
Principaux avantages du Data Mining
Aide à la prise de décisionsdes dirigeants (ne les
remplace pas!)
Détecte les relations entre les données et permet de
faire des liens pertinents.
Étudie le passé dans le but de faire des prédictions dans
le futur.
Augmente la satisfaction des clients grâce à une
approche plus personnalisée.
Permet de mieux cerner et connaître la clientèle.
Peut augmenter les revenus et diminuer les coûts de
Selon le MIT (Massachussets Institute of Technology), le Data
entreprise.
Mining est l’une
des 10 technologies émergeante qui changeront le monde au
LSI 3
21ème
Mohamed siècle.
HAMMAMI
28
Chapitre 2 :
Processus ECD
LSI 3
Mohamed 29
HAMMAMI
Qu’est-ce que le processus ECD ?
Fayyad et al.
(1996)
"un processus non-trivial d’identification de structures inconnues,
valides et
potentiellement exploitables dans les bases de données
Zighed et al.
(2001)
L’ECD est un processus qui fait intervenir des méthodes et des
outils issus
de différents domaines en vue de découvrir des connaissances
utiles.
L’ECD vise à transformer les données en connaissances
LSI 3
Mohamed 30
HAMMAMI
L’ECD est un processus qui met en oeuvre un ensemble de
techniques provenant :
● des bases de données ; ● de l’analyse des données
;
● de la statistique ; ● des techniques de

visualisation
● de l’intelligence artificielle ; des interfaces de
communication
homme-machine.
LSI 3
Mohamed 31
HAMMAMI
Les connaissances peuvent s’exprimer :

● sous forme d’un concept général qui enrichit le
champ sémantique de l’usager ;
● sous forme d’un rapport ou d’un graphique ;
● comme un modèle mathématique ou logique pour la

prise de décision ;
● comme modèle explicites pour alimenter un système
à base de connaissances ou un système expert.
LSI 3
Mohamed 32
HAMMAMI
Définition générale de l’ECD
L’approche de l’ECD se veut la plus générale possible :

● Elle ne privilégie pas une source particulière d’informations
● données localement stockées
● données distribuées sur plusieurs sources
● Elle ne privilégie pas une nature spécifique des données

● données structurées en attributs-valeurs
● des textes de longueurs variables
● des images
● des séquences vidéo
● Elle ne se limite pas à des outils d’analyse spécifiques

● méthodes pour la préparation des données
● méthodes pour l’analyse
● méthodes pour la validation des connaissances
LSI 3
Mohamed 33
HAMMAMI
Définition générale de l’ECD
L’Extraction de Connaissances à partir de

Données (ECD) est un processus complexe qui se
déroule suivant une série d’opérations:
Nous pouvons regrouper ces opérations en trois

étapes majeures.
1. la préparation des données,
2. la fouille de donnéesà proprement

parler quiest
l’étape centrale de l’ECD
3. et enfin la validation des modèles ainsi
élaborés
LSI 3
Mohamed 34
HAMMAMI
Processus de l’ECD
LSI 3
Mohamed 35
HAMMAMI
Phase d’acquisition des données
LSI 3
Mohamed 36
HAMMAMI
Préliminaires
● Bien délimiter le problème de la fouille de données.
● Ne pas se lancer dans l’ECD sans définir les objectifs.
● Avoir une idée claire sur les moyens
technologiques à disposition.
Exemple : Comprendre pourquoi certains clients d’une

entreprise se sont tournés vers une entreprise concurrente ?
 Toutes les données du système d’information de l’entreprise
ne sont certainement pas utiles dans leur intégralité pour
traiter ce problème particulier.
 Télécharger tout le contenu du Web pour en extraire des

connaissances ! !
LSI 3
Mohamed 37
HAMMAMI
Objectif
● La phase d’acquisition vise à cibler l’espace des données qui
va être exploré.
« Le spécialiste du Data Mining agit à l’image du géologue qui définit des

zones de prospection en étant persuadé que certaines régions seront
probablement vite abandonnées car elles ne recèlent aucun ou peu de
minerais. »
Outils
● Moteurs de requêtes des bases de données comme
SQL.
● Outils de requêtes spécifiques aux données structuré
non (données textuelles, images Web) es
● Moteurs de recherche d’informations par le
contenu.
LSI 3
Mohamed 38
HAMMAMI
Nettoyage des données

● La phase d’acquisition sert généralement à nettoyer
les données qui sont rapatriées.
 Laisser tomber un attribut peu ou mal renseigné.
 Limiter le nombre d’enregistrements que l’on souhaite traiter.
● Utilisation de filtres adaptés.
● Utilisation des techniques d’échantillonnage.
Résultat
● Un stock de données contenant potentiellement l’information
ou la connaissance recherchée.
● Un échantillon de données tirées du monde réel.
● Données relatives à des événements passés.
LSI 3
Mohamed 39
HAMMAMI
Phase de préparation des données
LSI 3
Mohamed 40
HAMMAMI
Les techniques de Data Mining traitent généralement

des tableaux de données numériques rangées sous
forme d’individus-variables.
Certaines méthodes sont plus contraignantes que

d’autres :
● elles peuvent exiger des données binaires
(premières techniques de recherche de règles
d’association)
● elles peuventexiger des données de types
particuliers
(variables qualitatives, variables quantitatives)
 effectuer une série de transformations pour
obtenir des
données adaptées aux méthodes à utiliser.
Mohamed
LSI 3
41
HAMMAMI
Les principales opérations de préparation sont :

● La sélection de lignes et/ou colonnes
● Le traitement des données manquantes ou aberrantes
● Les transformations d’attributs
● Le traitement des données complexes
LSI 3
Mohamed 42
HAMMAMI
Exemple: préparation des données
LSI 3
Mohamed 43
HAMMAMI
Doublons, erreurs de saisie
● un doublon donne plus d’importance à la donnée répétée
● Une erreur de saisi peut à l’inverse cacher une répétition
Intégrité de domaine
● Un contrôle sur les domaines de valeurs peut révéler des
valeurs
aberrantes
Informations manquantes
● Données avec des champs ne contenant aucune donnée
● Parfois le manque d’information est une information
● Les valeurs des autres champs peuvent être utiles LSI 3
Mohamed 44
HAMMAMI
LSI 3
Mohamed 45
HAMMAMI
LSI 3
Mohamed 46
HAMMAMI
Enrichissement des données
But : enrichir nos données

● Acheter ou produire
d’autres bases
Ajout de nouveaux
champs en conservant le
même nombre
d’enregistrements
● Faire des conversions si
les données sont de
formats différents
MastèreLMS
Mohamed 47
● Effectuer une nouvelle
HAMMAMI
IR3I
Enrichissement des données
MastèreLMS
Mohamed IR3I 48
HAMMAMI
Codage et normalisation
● Regroupement
 Certains attributs prennent un
très grand nombre de valeurs discrètes
possibles
 Le regroupement en des sous-ensembles permet de
réduire le
nombre de valeurs considérées
 Région : Tunis, Sfax / Age : jeune, adulte, vieux
● Changement de type
 Simplifier les types de données afin de faciliter les
comparaisons et les calculs de distance, etc.
 Date de naissance  Age / Date d’abonnement Durée
MastèreLMS
Mohamed IR3I 49
HAMMAMI
Sélection de variables
● Les issues de le
données ne
toute phase sont
exploitabl
d’acquisition
par des techniquess de Dataes
Mining. pas
nécessaireme
pertinentes
● Larecherche
nt un des
ensemble
parmi
variables de variables est
processus
le de data mining,
point
central
 c’estd’un
elle qui va conditionner la
qualité des modèles établis.
● La sélection des variables non

ou faiblement pertinentes
peut réduire la
compréhension et les
performances de reconnaissance
d’un modèle.
MastèreLMS
Mohamed IR3I 50
HAMMAMI
Phase de fouille de données (Apprentissage automatique)
MastèreLMS
Mohamed IR3I 51
HAMMAMI
Phase de fouille de données
Cette phase est au coeur du processus ECD.
Les méthodes de Data Mining permettent de découvrir ce que

contiennent les données préparées comme informations ou
modèles utiles.
Trois catégories de méthodes :

● Les méthodes de visualisation et de description ;
● Les méthodes de classification et de structuration ;
● Les méthodes de prédiction.
Certaines méthodes sont mieux adaptées à

des données numériques continues alors que
généralement dédiées aux traitements
d’autres sont de tableaux de données
plus
qualitatives.
Les méthodes de Data Mining sont, le

plus souvent, complémentaires.
MastèreLMS
Mohamed IR3I 52
HAMMAMI
Phase de validation et de mise en forme
MastèreLMS
Mohamed IR3I 53
HAMMAMI
Les modèles extraits ne être utilisés

peuvent directement en toute fiabilité.
 Il faut les évaluer, les soumettre à l’épreuve de la réalité
et apprécier leur justesse.
Estimer le taux d’erreur du modèle.
En apprentissage supervisé, le taux d’erreur est

généralement calculé à partir de la matrice de
confusion.
La matrice de confusion donne le pourcentage

d’affectation dans les différentes classes en fonction
des classes d’origine
MastèreLMS
Mohamed IR3I 54
HAMMAMI
Critères de comparaison de classifieurs :
1. Taux de précision : capacité à prédire correctement
2. Temps de calcul : temps nécessaire pour apprendre et
tester f^
Volume de données : efficacité en présence de données
3.
de
Taux d’erreur :
grande taille
Soit la matrice de Confusion suivante:
A B
A 88 1
8 2
B 5 9 LSI 3
Mohamed 55
HAMMAMI
Taux d'erreur global
● permet de savoir comment va agir un classifieur sur
l’ensemble des données
 1  n A. A  B.B
 globale ncard (M )
où card(M) est le nombre total d’individu
Taux d'erreur à priori

● c’est la probabilité qu’un individu appartenant à la classe k ne
soit pas
affecté à la classe k.
● Il s’agit en effet de calculer le taux d’erreur relatif à chaque
classe par l’équation
donné
● suivante
pour notre: exemple et pour la classe A, le taux d’erreur à
priori est 
n A,k
kA
à priori 

n A,k
LSI 3
Mohamed k 56
HAMMAMI
Taux d'erreur à posteriori

● c’est la probabilité qu’un individu affecté à la
classe k appartienne effectivement à la classe k.
● pour notre exempleet pourla classe A, le taux
d’erreur a
posteriori
est :
 n
 à posteriori  k  A k . A
n k .A
Remarque: k
● le taux d’erreur à priori est le complément du

critère classique du taux de rappel
● Le taux d’erreur à posteriori est le complément du
critère
classique du taux de précision
LSI 3
Mohamed 57
HAMMAMI
Récapitulation
Les données
● Des bits, des symboles, des nombres, des objets que
nous collectons journalièrement
Les informations
● Des données sans redondances, réduites au
minimum nécessaire pour caractériser les données
Les connaissances
● La connaissance est intégrée dans l’information, elle
inclut des faits et des relations entre ces faits
● Elles relient les informations entre-elles
MastèreLMS
Mohamed IR3I 58
HAMMAMI
Exemple: des données aux connaissances
MastèreLMS
Mohamed IR3I 59
HAMMAMI
Logiciels d’ECD / Data Mining
Logiciels commerciaux :
● SPAD (Decisia)
• Simplicité du pilotage
● SAS Enterprise Miner
• Techniques variées
● SPSS Clementine
• Déploiement
● STATISTICA Data Miner • Outils de “reporting”
● IBM Intelligent Miner
Logiciels
universitaires :
• Spécifiques à certaines
● TANAGRA
techniques
● SIPINA
• Techniques référencées -
● WEKA
publiées
● ORANGE • Outils de validation
MastèreLMS
Mohamed IR3I 60
HAMMAMI
Chapitre 3 :
Techniques de Data Mining
LSI 3
Mohamed 61
HAMMAMI
Phase de fouille de données (Apprentissage automatique)
Cette phase est au coeur du processus ECD.
Trois catégories de méthodes :

● Les techniques de visualisation et de description ;
● Les techniques de classification et de
structuration ;
● Les techniques de prédiction.
Deux catégories d’apprentissage :

● Apprentissage non-supervisé (Unsupervised
Learning).
● Apprentissage supervisé (Supervised Learning) ;
Procédure obtenue = "classifieur"
LSI 3
Mohamed 62
HAMMAMI
Techniques de visualisation et de description
Le Data Mining descriptif

● Mettre en évidence des informations présentes
mais noyées par le volume de données.
Trouver un résumé des données qui soit le plus

intelligible
● Statistiquedescriptive
● Analyse factorielle
● Codage graphique
● Interface Homme-Machine
LSI 3
Mohamed 63
HAMMAMI
LSI 3
Mohamed 64
HAMMAMI
LSI 3
Mohamed 65
HAMMAMI
LSI 3
Mohamed 66
HAMMAMI
LSI 3
Mohamed 67
HAMMAMI
Angleterre, 1831. Un patient sur deux meurt !
À cette époque, on pensait que le choléra était transmis par

les miasmes, c'est-à-dire un mauvais air, avec la croyance que
les personnes de « mauvaise moralité » étaient plus
vulnérables !
Les observations du Docteur John Snow sont incompatibles

avec cette théorie dominante. Si le mauvais air est à l’origine
de la maladie, celle-ci doit être répartie de façon homogène et
toucher toutes les catégories sociales
il constate que la maladie apparaît surtout à la fin de l'été,

frappant presque toujours chez des patients pauvres, vivant
dans des conditions très misérable.
LSI 3
Mohamed 68
HAMMAMI
Dr. John Snow suit de près l’évolution de l’épidémie et réalise

une minutieuse enquête, répertoriant le domicile de chaque
patient sur une carte. Il découvre la cause probable des cas
de choléra.  L’épicentre de l’épidémie est localisé près
d’une pompe de Broad Street
LSI 3
Mohamed 69
HAMMAMI
Exemple
A partir d'un tableau individus variables, on fera

dans un premier temps une description
unidimensionnelle de chacune des variables, prise
séparément.
LSI 3
Mohamed 70
HAMMAMI
Exemple
Le nombre d'individus étant généralement grand, voire très

grand, une telle série brute est difficilement lisible et
interprétable. Il est indispensable de la résumer.
Pour cela, on commence par un tri à plat, décompte des
modalités ou valeurs obtenues, qui nous servira de base à
la construction de tableaux et de graphiques.
LSI 3
71
Exemple
Le but est d'obtenir des résumés clairs et concis, mais en

conservant l'essentiel de l'information contenue dans les
données initiales, et en utilisant des techniques objectives
ne donnant pas une image déformée de la réalité.
Voici quelques exemples des tableaux et graphiques à
obtenir :
LSI 3
Mohamed 72
HAMMAMI
Exemple
Et voici quelques exemples de ce qu'il ne faut pas

faire !
LSI 3
Mohamed 73
HAMMAMI
Techniques de structuration et de classification
But : détecter au sein d’un ensemble de données non

étiquetées des groupes d ’objets «similaires»
 Apprentissage non supervisé
Organisation des données en groupes (clusters) de
façon à ce que les données similaires soient dans le
même groupe
2 optimisations:
● Similarités entre les données dans un groupes aussi élevées que
possible (intra-groupe)
 Grande homogénéïté de chaque classe
● Similarités entre les données de différents groupes
aussi distinctes que possible (inter-groupe)
 Bonne séparation des classes
LSI 3
Mohamed 74
HAMMAMI
Approches de regroupement (Clustering)

● Algorithmes hiérarchiques: Créer une décomposition
hiérarchique des objets selon certains critères
● Algorithmes de Partitionnement: Construire plusieurs
partitions
puis les évaluer selon certains critères
● Algorithmes basés sur la densité: basés sur des
notions de connectivité et de densité
● Algorithmes à modèles: Un modèle est supposé pour
chaque cluster ensuite vérifier chaque modèle sur
chaque groupe pour choisir le meilleur
LSI 3
Mohamed 75
HAMMAMI
Apprentissage non supervisé (Les classes sont
inconnues)
● Exemple:
● Segmentation de l’ensemble des clients d’une
entreprise en fonction de leurs habitudes d’achat
● Grouper des documents ou des images pour des
présentations
Attributs
(Caractéristiques)
y1 y2 ... yp class
e
d’apprentissage
1 a b c
1
Exemples
2 b c a
 2


n c a a
4 LSI 3
Mohamed 76
HAMMAMI
Exemple: regroupement de personnes
Sexe, lunettes,
sourire, chapeau
LSI 3
Mohamed 77
HAMMAMI
LSI 3
Mohamed 78
HAMMAMI
LSI 3
Mohamed 79
HAMMAMI
Dendrogramm
e:
Représentation
graphique des
groupes et des
combinaisons
des groupes
LSI 3
Mohamed 80
HAMMAMI
Exemple: 2 Clusters
LSI 3
Mohamed 81
HAMMAMI
Exemple: 6 Clusters
LSI 3
Mohamed 82
HAMMAMI
Techniques de prédiction
Le Data Mining prédictif

● Extrapoler des nouvelles informations à partir de données
existantes
 Apprentissage supervisé
● Apprendre à l’aide d’un ensemble d'entraînement des
règles qui permettent de prédire (ou «
deviner ») certaines caractéristiques de nouvelles
observations
● Dans tous les cas, on utilise des données « historiques »
ou connues pour construire un modèle.
● Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations
.
LSI 3
Mohamed 83
HAMMAMI
Apprentissage supervisé.
● Exemple : prédire la qualité d’un client (rembourse
ou pas son crédit) en fonction de ses
caractéristiques.
Attributs
(Caractéristiques)
y1 y2 ... yp class
e
1 a b c 1
d’apprentissage
2 b c a 2
Exemples



n c a a 4
LSI 3
Mohamed 84
HAMMAMI
Exemple: Classification de documents

sport
culture
textes Moteur de santé
Catégorisation politic
economic
vacances
Principe
● Classification (par de textes dans 1 ou
apprentissage) plusieurs
catégories
Application
● les sites web:
tels que Yahoo constituent une exellente base
d’apprentissage, car les catégories y ont été
générées manuellement. Sert à générer un classifieur
pour classer les prochains documents.
LSI 3
Mohamed 85
HAMMAMI
Exemple: Classification de documents
Site organisé par catégorie

LSI 3
Mohamed 86
HAMMAMI
Méthodes et algorithmes
● Arbres de décision
● Réseaux de neurones
● Machines à vecteur de support (SVM)
● Régression en général
● Méthode des plus proches voisins
●…
LSI 3
Mohamed 87
HAMMAMI
LSI 3
Mohamed 88
HAMMAMI
LSI 3
Mohamed 89
HAMMAMI
LSI 3
Mohamed 90
HAMMAMI
Chapitre 4 :
Apprentissage non-supervisé
LSI 3
Mohamed 91
HAMMAMI
Donnée Connaissanc
s es
Acquisitio Préparation des Fouille de Evaluatio
n données n
données
Techniques de Techniques de Techniques

visualisation et de classification et de de
description structuration prédiction
LSI 3
Mohamed 92
HAMMAMI
Introduction générale
La classification automatique : produire des groupements

de
lignes ou de colonnes d’un tableau.
Objets ou individus décrits par un certain nombre de

variables
ou de caractères.
Une problématique en Gestion (Marketing) : Découper le
marché en sous-ensembles dont les éléments
réagissent de façon similaire aux variations des
variables du marché.
 La classification a donné lieu à de nombreuses études et à

des
développements théoriques et logiciels diversifiés.
LSI 3
Mohamed 93
HAMMAMI
Exemples d’application :
● Identifier des groupes d’individus
ou de ménages ayant un
comportement homogène vis-à-vis de
:
la consommation de différents produits,
la consommation de
différentes marques
ou variétés,
l’attitude par rapport à un produit,
...
 Il s’agit de problèmes souvent

traités avec les méthodes de
classification automatique.
LSI 3
Mohamed 94
HAMMAMI
Données analysées :
● Un tableau individus-variables :
● n individus (objets) décrits par p
variables (descripteurs) ;
● un tableau à valeurs
numériques continues (valeur de la
variable j pour l’individu i) ;
● un tableau de contingence (croisant
deux partition d’une même
population) ;
● un tableau de présence–absence
(valeur 0 ou 1).
● Un tableau carré symétrique
de similarités ou de distances.
LSI 3
Mohamed 95
HAMMAMI
Objectifs :
● Constituer des groupes
d’objets
homogènes et différenciés tels que :
● les objets soient les plus similaires
possibles au sein d’un groupe (critère
de compacité) ;
● les groupes soient aussi dissemblables
que possible (critère de séparabilité).
● La ressemblance ou la
dissemblance étant mesurée sur
l’ensemble des variables
descriptives.
LSI 3
Mohamed 96
HAMMAMI
Hypothèse :
●On suppose qu’une structure de
classes existe au sein de la
population étudiée.
● Le but de la classification est de la

mettre à jour ou de l’identifier.
 On suppose que la population

étudiée est séparable.
LSI 3
Mohamed 97
HAMMAMI
Représentations :
● La représentation synthétique
peut être :
● une typologie ;
● un recouvrement (classes
empiétantes) ;
● une partition ;
● une hiérarchie de partitions
(arbre hiérarchique) ;
● une hiérarchie de
recouvrements (pyramide).
LSI 3
Mohamed 98
HAMMAMI
Une classification automatique obtenue sur un ensemble n’est

jamais la classification de cet ensemble . . .
 C’est une classification parmi beaucoup d’autres.
La classification fait appel à une démarche algorithmique et

non aux calculs formalisés usuels en statistique.
La définition des classessefait à partir

d’une formulation
algorithmique.
Une série d’opérations définies de façon récursive et
répétitive.
La mise en oeuvre de la plupart des techniques de
classification ne nécessite que des notions
mathématiques relativement élémentaires.
LSI 3
Mohamed 99
HAMMAMI
Les étapes de la classification

automatique :
1. Choix des données.
2. Calcul des dissimilarités entre

les n
individus à partir du tableau initial.
3. Choix d’un algorithme de classification et
exécution.
4. L’interprétation des résultats :
évaluation de la qualité de la classification,
description des classes obtenues.
LSI 3
Mohamed 100
HAMMAMI
Calcul des ressemblances :

● Variables quantitatives
● La distance euclidienne est une
mesure possible de la ressemblance.
● Dans le cas de variables
hétérogènes, il faut travailler sur les
données centrées réduites.
● Variables qualitatives
● De nombreux indices de ressemblance
ont
été proposés.
● Dans le cas d’objets décrits par
des variables binaires, indice de
Jaccard, indice de Russel et Rao.
LSI 3
Mohamed 101
HAMMAMI
Il existe plusieurs familles

d’algorithme
de classification.
On s’intéresse d'abord aux
algorithmes hiérarchiques
● Les algorithmes ascendants (ou
encore agglomératifs) qui procèdent à la
construction des classes par
agglomérations successives des objets
deux à deux, et qui fournissent une
hiérarchie de partitions des objets.
● Les algorithmes descendants (ou
encore divisifs) qui procèdent
par dichotomies successives de
l’ensemble des objets, et qui
Mohamed peuvent encore fournir une LSI 3
102
HAMMAMI
Classification Ascendante Hiérarchique (CAH)
une hiérarchie de partitions (arbre hiérarchique)
LSI 3
Mohamed 103
HAMMAMI
LSI 3
Mohamed 104
HAMMAMI
LSI 3
Mohamed 105
HAMMAMI
LSI 3
Mohamed 106
HAMMAMI
LSI 3
Mohamed 107
HAMMAMI
LSI 3
Mohamed 108
HAMMAMI
Première observation :
● La stratégie intuitive utilisé pour passer d’une
P à la suivante
partition
i ne remet pas en cause
Pi+1
les
regroupements.
● Si deux individus sont réunis dans une classe,
ils restent ensemble tout le temps.
● Les partitions ainsi construites
sont emboîtées de la
plus fine à la plus grossière.
● On obtient une hiérarchie de partitionsqu’on
peut représenter par un dendrogramme.
LSI 3
Mohamed 109
HAMMAMI
Deuxième observation :
LSI 3
Mohamed 110
HAMMAMI
Dissimilarité entre deux points
Mesures de distance :
La plupartdes techniques de classification
font appel à des mesures de distance,
appelé aussi métrique.
 Evaluer les degrés de dissemblance ou de ressemblance entre

deux individus ou deux groupes d’individus.
 La dissemblance entre deux d’individus est évaluée par la

notion de dissimilarité dont le sens mathématique peut se
traduire par divers critères de mesure quantitative.
LSI 3
Mohamed 111
HAMMAMI
Types de dissimilarité :
● Selon la nature des données, on distingue
quatre groupes de critères de dissimilarité entre
individus :
1. la dissimilarité définie sur les données quantitatives ;

2. la dissimilarité définie sur les données
qualitatives,
fréquentielles, ou les données d’occurrences ;
3. la dissimilarité définie sur les données ordinales ;
4. la dissimilarité définie sur les données logiques.
LSI 3
Mohamed 112
HAMMAMI
LSI 3
Mohamed 113
HAMMAMI
LSI 3
Mohamed 114
HAMMAMI
LSI 3
Mohamed 115
HAMMAMI
LSI 3
Mohamed 116
HAMMAMI
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed 117
HAMMAMI
Dissimilarité entre deux ensembles de points
LSI 3
Mohamed 118
HAMMAMI
Algorithme de la CAH
Lance et William (1967)
Etape 0 : il y a n éléments à classer (n objets) ;
Etape 1 : on construit la matrice de distances entre les n

éléments et l’on cherche les deux plus proches, que l’on
agrège en un nouvel élément. On obtient une première
partition à (n−1) classes ;
Etape 2 : on construit une nouvelle matrice des distances qui
résultent de l’agrégation, en calculant les distances entre le
nouvel élément et les éléments restants (mêmes conditions
qu’à l’étape 1 avec (n−1) éléments). On cherche les deux
éléments les plus proches, que l’on agrège. On obtient une
deuxième partition avec (n−2) classes et qui englobe la
première ;
Etape m : on calcule les nouvelles distances, et l’on réitère le
processus jusqu’à n’avoir plus qu’un seul élément regroupant
tous les objets et qui constitue la dernière partition.
LSI 3
Mohamed 119
HAMMAMI
LSI 3
Mohamed 120
HAMMAMI
LSI 3
Mohamed 121
HAMMAMI
LSI 3
Mohamed 122
HAMMAMI
LSI 3
Mohamed 123
HAMMAMI
LSI 3
Mohamed 124
HAMMAMI
Choix de la meilleure partition

En apprentissage non supervisé, nous cherchons à
faire émerger des classes qui ont un sens de point
de vue de l’utilisateur.
Il semble naturel d’accepter l’idée selon

laquelle, la meilleure partition est celle où les
dissimilarités entre individus d’une même
classe sont les faibles et les dissimilarités entre
individus de classes différentes sont les plus
fortes.
Pour la CAH, le digramme de la hiérarchie de

partitions va nous aider à déterminer la meilleur
partition.
Mohamed
LSI 3
125
HAMMAMI
Si l’indice de la hiérarchie fait un saut important par
passage de la partition Pi à la partition Pi+1
Cela signifie que les deux classes que l’on vient de
réunir sont relativement éloignées.
LSI 3
Mohamed 126
HAMMAMI
Le saut le plus important a été effectué pour passer de
P3 à P4 car l’indice de la hiérarchie est passé de
3.35 à 7.07. Comparativement aux précédentes
valeurs, il s’agit d’une variation brusque.
La meilleure partition est celle pour laquelle l’indice
de la hiérarchie h est tel que 3.35 ≤ h < 7.07
LSI 3
Mohamed 127
HAMMAMI
Inconvénients des algorithmes hiérarchiques

● Difficilement utilisables avec de grosses bases
de
données.
● Il est difficile de déterminer la coupure

significative de
l’arbre.
● La partition retenue à une étape dépend de celle

obtenue à l’étape précédente.
LSI 3
Mohamed 128
HAMMAMI
Algorithme k-means
L’algorithme k-means est le plus connu des algorithmes

non hiérarchiques. Certains auteurs nomment cette
technique « centres mobiles »
Le terme « means » dans k-means fait référence au

centroïde du cluster, c'est-à-dire un point de données
choisi arbitrairement puis affiné de manière itérative
jusqu'à ce qu'il représente la moyenne vraie de tous les
points de données dans le cluster.
La lettre « k » fait référence au nombre arbitraire de points

qui sont utilisés pour ensemencer le processus de
clustering.
LSI 3
Mohamed 129
HAMMAMI
Algorithme k-means
L’algorithme k-means permet le classement des objets

dans un nombre fixe de classe (k) défini par l’utilisateur.
Cet algorithme suppose que nous connaissions le

nombre de
classes voulu.
Les objets sont classés en clusters et dans chaque

cluster la
distance moyenne entre les objets est la plus petite
possible.
Les objets sont déplacés de clusters en clusters

jusqu’à que tout changement n’améliore plus le
système.
L’algorithme
Mohamed
minimise la variabilité LSI 3
130
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 1:
k1
Y
Choisir 3 k2
centres
de classes
(au
hasard)
k3
X
LSI 3
Mohamed 131
HAMMAMI
Algorithme k-means
k1
Y
Affecter k2
chaque point
à la classe
dont le centre
est le plus k3
proche
X
LSI 3
Mohamed 132
HAMMAMI
Algorithme k-means
k1 k1
Y
Déplacer k2
chaque centre
de classe vers k3
k2
la moyenne de
chaque classe k3
X
LSI 3
Mohamed 133
HAMMAMI
Algorithme k-means
Y
Réaffecter les
points qui sont k1
plus proches du
centre d'une autre
classe
Q : Quels sont les

points qui k3
changent de k2
classe?
X
LSI 3
Mohamed 134
HAMMAMI
Algorithme k-means
Exemple K-moyennes, étape 4..:
k1
Y
R : les trois
points qui
changent de k3
classe k2
X
LSI 3
Mohamed 135
HAMMAMI
Algorithme k-means
k1
Y
Re-calculer les
moyennes des
classes k3
k2
X
LSI 3
Mohamed 136
HAMMAMI
Algorithme k-means
k1
Y
Déplacer les k2
centres des k3
classes vers
les moyennes
X
LSI 3
Mohamed 137
HAMMAMI
Algorithme k-means
Comment K-means fonctionne :

● L’algorithme choisit K points aléatoirement ou “seeds”.
● Assigne chacun des points restants à un cluster selon le “seed”

le plus proche.
● Recalcule les centroides de chaque cluster (moyenne

dans
chaque cluster)
● Réassigne de nouveau les points aux clusters dont

les centroides sont les plus proches
● Continue le processus jusqu’à la stabilisation des centroides.
LSI 3
Mohamed 138
HAMMAMI
Algorithme k-means
Algorithme K-means
Initialisation des centroïdes avec les valeurs initiales
FIN = FAUX
TANT QUE NON FIN FAIRE
POUR chaque observation FAIRE
Trouver le centroïde le plus proche
Placer l’observation dans l’aggrégat le plus proche
FIN POUR
SI aucun changement des valeurs des centroïdes FAIRE
FIN = VRAI
SINON
Calculer les nouveaux centroïdes
FIN SI
FIN TANT QUE
LSI 3
Mohamed 139
HAMMAMI
Algorithme k-means
L’algorithme k-means est en 4 étapes :
1. Choisir k objets formant ainsi k clusters
2. (Ré)affecter chaque objet O au cluster Ci de centre Mi tel

que dist(O,Mi) est minimal
3. Recalculer Mi de chaque cluster (le barycentre)
4. Aller à l’étape 2 si on vient de faire une affectation
LSI 3
Mohamed 140
HAMMAMI
Algorithme k-means
K-Means :Exemple
A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A
On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3.

Ca donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3
Chaque objet O est affecté au cluster au milieu duquel, O est

le plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et
dist(M3,6)<dist(M1,6)
On a C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86
LSI 3
Mohamed 141
HAMMAMI
Algorithme k-means
K-Means :Exemple
dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne

bougent pas. C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et
M3= 66/6=11
dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne

bougent pas. C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67,
C3={7,8,13,15,17}, M3= 12
dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7

passe en C2. Les autres ne bougent pas. C1={1,2}, M1=1.5,
C2={3,6,7}, M2=5.34, C3= {8,13,15,17}, M3=13.25
dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe

en 2
C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15
Plus rien ne bouge

LSI 3
Mohamed 142
HAMMAMI
Algorithme k-means
Exemple:
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3 3
2 2
1 1
0 0
0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9
10 10
10 10
9 9
8 8
7 7
6 6
5 5
4 4
3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9
0 1 2 3 4 5 6 7 8 9 10
10
LSI 3
Mohamed 143
HAMMAMI
Algorithme k-means
Avantages de K-means
● La grande popularité de K-means vient de :
● Sa simplicité conceptuelle.
● Sa rapidité
- on ne compare pas toutes les observations entre elles mais
par rapport aux centres de classes.
● Ses faibles exigences en taille mémoire.

- pratique quand il y a un très grand nombre d’observations
(des milliers).
LSI 3
Mohamed 144
HAMMAMI
Algorithme k-means
Inconvénients de K-means
● Obligation de fixer à priori le nombre (K) de
classes ou
clusters.
● Ce choix peut se faire par simple examen visuel
dans le cas de données bidimensionnelles, mais il n'en
est pas de même pour des données de dimension
supérieure.
● un "mauvais choix" pour la valeur de K conduira alors
à une
typologie sans rapport avec la réalité.
● Les k-means sont souvent précédées d’une ACP
(Analyse en Composantes Principales). Une autre
solution consiste à effectuer d’abord une CAH
(Classification Ascendante Hiérarchique).
● Dépendance au choix des centres initiaux (seeds)
● K-means fonctionne assez bien si le nombre de
classes voulu est modéré. Dès que le nombre de classesLSI 3
augmente, la solution trouvée par l’algorithme est médiocre.
Mohamed
HAMMAMI
145
LSI 3
Mohamed 146
HAMMAMI
Chapitre 5 :
Apprentissage supervisé
LSI 3
Mohamed 147
HAMMAMI
Classification supervisée
Définition : Classification supervisée

● Processus à deux phases:
1. Apprentissage : construire un modèle (ou classifieur)
qui décrit un ensemble prédéterminé de classes de
données
2.Classement : utiliser le classifieur pour

affecterune classe à un nouvel objet
Principe
● On utilise des données « historiques » ou connues
pour construire un modèle.
● Ce modèle est ensuite utilisé dans le but de classer les
nouvelles observations
LSI 3
Mohamed 148
HAMMAMI
Exemple introductif: Modèle de prédiction pour le diagnostic
Chaque instance est décrite par un vecteur d’ attributs/valeurs
Toux Fièvre Poids Douleur
Mariem non oui normal gorge
Farid non oui normal abdome
n
Salah oui oui maigre aucune
Nizar oui non obese tête
En entrée : un ensemble d’instances et leur classe
(correctement associées par un “professeur” ou “expert”)
Toux Fièvre Poids Douleur Diagnostic
Marie non oui normal gorge rhume
Farid non oui normal abdomen appendicit
..... e
L’algorithme d’apprentissage doit construire un modèle de

prédiction permettant de prédire (ou « deviner ») l’appartenance
d’un individu à une classe en fonction de ses caractéristiques .
LSI 3
Mohamed 149
HAMMAMI
Apprendre, c'est trouver une fonction F …
 est la population (la « réalité

»)  X
E
E est l ’ensemble des descriptions Y F

des éléments de la population K
K est l ’ensemble des classes
● leplus souvent construite par
le jugement d’un expert
X:  E
X est la fonction qui associe à tout élément de  sa description
Y:  K
Y est la fonction qui associe à tout élément de  sa classe
On cherche une fonction F : E  K

LSI 3
Mohamed 150
HAMMAMI
Exemple 1: Classification de sites en sites violents/sites non

violents
C :  ¢={violent, non
violent}
S  C S
X: 
S  X(S)
= X1,,X2,X3.........X..n 

 Critères utilisés :
n_mots, n_v_mots, n_v_url , n_v_meta, n_liens,
n_v_liens,
n_images, Npw ….. LSI 3
Mohamed 151
HAMMAMI
Exemple 2: Classification de portrait en Gros

plan/plan américain/ plan Général
Gros
plan
Plan
américain
¢={Gros plan, plan américain, plan
C : 
général}
À
I  CI  pieds
X:


I X(I) = Ppea
u
LSI 3
Mohamed 152
HAMMAMI
Exemple 3: Prédire la solvabilité d’un client
● Construction du modèle sur des individus avec la variable cible connue
X1 X2 X3 X4 X5….. Xn Y
age sexe C A 2008 matrimonial ... solvabilité
32 M 125000 M a rr i e d ... Y
25 M 254000 Single ... N
37 F 265000 M a rr i e d ... Y
52 M 126000 Divorced ... N
Modèle prédictif : F(X1, .. Xn)
24 F 265000 Ve u f ... Y
29 F 345000 M a rr i e d ... Y
36 F 362000 M a rr i e d ... N
34 M 654000 Single ... N
● Application du modèle sur des individus avec la variable cible inconnue

X2 X3 X4 X5….. Xn Y
sexe CA 2008 matrimonial ... solvabilité
F 163000 Married ?
M 345000 Single ?
M 412000 Married ?
F 95000 Divorced ?
… … … …
LSI 3
Mohamed 153
HAMMAMI
Autres exemples
● Prédiction de
● Faillite
● Non remboursement de prêt
● Détection de fraude
●…
LSI 3
Mohamed 154
HAMMAMI
Plusieurs techniques:
Arbres de décision
Réseaux de neurones
Machines à vecteur de support (SVM)
Réseaux bayésiens
Algorithmes génétiques, ….
…
LSI 3
Mohamed 155
HAMMAMI
Arbres de décision
Principe
● Classer les objets en sous-classes par divisions hiérarchiques
=> construction automatique à partir d ’un échantillon de la
base
● Décomposer l’espace des caractéristiques selon la variable

la plus discriminante à chaque étape
Algorithme de base :
1. Choisir le "meilleur" attribut
2. Etendre l'arbre en rajoutant une nouvelle
branche pour chaque valeur de l'attribut
3. Répartir les exemples d'app. sur les feuilles de l'arbre
4. Si aucun exemple n'est mal classé alors
arrêt, sinon repéter les étapes 1-4
pour les feuilles
LSI 3
Mohamed 156
HAMMAMI
Arbres de décision
Un nœud
Une S
branche
Une v3
feuille v
v v2
Un
parcours 1 1
v3
v2
LSI 3
Mohamed 157
HAMMAMI
Arbres de décision
Un
nœud
Une branche S
Une v3
feuille v
v v2
Un
parcours 1 1
v3
v2
LSI 3
Mohamed 158
HAMMAMI
Arbres de décision
Un
nœud
Une S
branche
Une feuille v3
v v
Un v2
parcours 1 1
v3
v2
LSI 3
Mohamed 159
HAMMAMI
Arbres de décision
Un
nœud
Une S
branche
Une v
feuille 3 v v
Un parcours
V1< 2 1
Y
v v3
Si V3 > X
et V1 < Y 2
alors
<Classe>
•Les arbres de décision sont des classifieurs pour des
instances représentées dans un formalisme attribut/valeur
• Un arbre de décision peut être traduit sous forme de règles de
décision LSI 3
Mohamed 160
HAMMAMI
Arbres de décision
On attribut la classe majoritaire à une feuille
LSI 3
Mohamed 161
HAMMAMI
Exemple introductif
N° Outlook Temperature Humidity Windy Play? Objectif :

1 Sunny hot high false No
•Prédire si un match de
2 Sunny hot high true No
foot va avoir lieu ou non.
3 overcas hot high false Yes
t
4 rain mild high false Yes •Établir une relation entre
5 Rain cool normal false Yes le fait de jouer ou pas
6 rain cool normal true No et les conditions
7 overcas cool normal true Yes météorologiques.
t
8 sunny mild high false No
9 sunny cool normal false Yes
•Variable à expliquer (cible) :
10 rain mild normal false Yes Play (2 classes yes et no).
11 sunny mild normal true Yes
12 overcas mild high true Yes •Variables
t explicatives : Outlook,
13 Overcas hot normal false Yes
t
Temperature, Humidity et
14 rain mild high true No Windy
LSI 3
Mohamed 162
HAMMAMI
Comment construire un arbre de décision ?
Deux phases de construction :

● Construction descendante
● Au début, tous les individus de la base d’apprentissage
sont affectés au nœud racine de l’arbre.
● On partitionne de manière récursive en
choisissant un attribut d’éclatement à chaque
nœud de l’arbre.
● Construction ascendante (élagage)

● Supprimer les sous-arbres ou les branches,
dans une approche ascendante de façon à améliorer la
précision estimé de nouveaux cas.
LSI 3
Mohamed 163
HAMMAMI
Nœud racine de l’arbre
N° Outlook Temperature Humidity Windy Play?

1 Sunny hot high false No 9 (64,3%) Yes
2 Sunny hot high true No
3 overcas hot high false Yes 5 (36,7%) N
t
4 rain mild high false Yes o
5 Rain cool normal false Yes
6 rain cool normal true No Le nœud racine
7 overcas cool normal true Yes comprend tous les
t
8 sunny mild high false No individus de la base
9 sunny cool normal false Yes d’apprentissage
10 rain mild normal false Yes partitionnés selon la
11 sunny mild normal true Yes
classe à prédire
12 overcas mild high true Yes
t (variable cible).
13 Overcas hot normal false Yes
t
14 rain mild high true No LSI 3
Mohamed 164
HAMMAMI
Comment éclater le nœud racine ?
9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
J1,J2, J6,J8,J14
5 No
(36,7%)
+
+ J4,J5,J10
J9,J11 J6,J14
- J1,J2,J8 -
+ J3,J13,J7,J12
-
LSI 3
Mohamed 165
HAMMAMI
9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
J1,J2, J6,J8,J14
5 No
(36,7%)
+ J3,J13 + J5,J7,J9
- J1,J2 - J6
+ J4,J10,J11,J13
- J8,J14
LSI 3
Mohamed 166
HAMMAMI
9 (64,3%) Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
s
5 (36,7%) N J1,J2, J6,J8,J14
o
+ J3,J4,J12 + J5,J7,J9,J10,J11,J13
- J1,J2, J8, J14 - J6
LSI 3
Mohamed 167
HAMMAMI
9 Ye J3,J4,J5,J7,J9,J10,J11,J12,J13
(64,3%) s
N J1,J2, J6,J8,J14
5 o
(36,7%)
+ J3,J4,J5,J9,10,J13 + J7,J11,J12
- J1,J8 - J2,J6,J14
LSI 3
Mohamed 168
HAMMAMI
Quelle est la variable à choisir ?
LSI 3
Mohamed 169
HAMMAMI
Il faut choisir la variable qui :
 mène aux sous-ensembles d’individus

les plus homogènes possible en fonction de la
classe à prédire.
 mène à la création de nœuds fils les plus purs possible.

 diminue le plus possible le désordre (l’entropie) de la
classe à
prédire dans les nœuds fils.
 mène à une nouvelle partition d’individus qui diminue

l’entropie
en cours.
LSI 3
Mohamed 170
HAMMAMI
LSI 3
Mohamed 171
HAMMAMI
Deuxième partition de l’arbre
9
S0 (64,3%)
5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
S1 (40%) (100%) (60%)
3 0 (0%) 2
(60%) (40%)
LSI 3
Mohamed 172
HAMMAMI
Quel est le nœud à éclater ?
9 (64,3%)
5 (36,7%)
Sunny Overcast Rainy
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed 173
HAMMAMI
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed 174
HAMMAMI
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed 175
HAMMAMI
9 (64,3%)
5 (36,7%)
2 (40%) 4 (100%) 3 (60%)
3 (60%) 0 (0%) 2 (40%)
LSI 3
Mohamed 176
HAMMAMI
Troisième partition de l’arbre
9 (64,3%)
S0 5 (36,7%)
Sunn Overcas Rain

y t y
2 4 3
S1 (40%) (100%) (60%)
3 0 (0%) 2
(60%) (40%)
Hig Norma
h l
S2
0 (0%) 2
(100%)
3
(100%) 0 (0%)
LSI 3
Mohamed 177
HAMMAMI
Quatrième partition de l’arbre
9
(64,3%)
5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
(40%) (100%) (60%)
3 0 (0%) 2
(60%) (40%)
Hig Norma Fals True
h l e
0 (0%) 2 3 0 (0%)
(100%) (100%)
3 2
(100%) 0 (0%) 0 (0%) (100%)
S3
LSI 3
Mohamed 178
HAMMAMI
Mesure d’impureté
Il y a le plus souvent de nombreux arbres de
décision possibles corrects.
Parmi toutes les hypothèses cohérentes possibles,

laquelle faut-il choisir en vue d’une bonne
généralisation ?
● La réponse intuitive ...
... est-elle confirmée par la théorie ?
Impossibilité de procéder par énumération /

évaluation
● 4 attributs & 3 valeurs / attribut : 55296 arbres
Nécessité d’une démarche constructive itérative

LSI 3
Mohamed 179
HAMMAMI
Mesure d’impureté
Critères de choix de chaque noeud
● La notion de mesure d’impureté
Cette mesure doit :

● être égale à zéro pour un nœud pur de l’arbre de décision
● être croissante en fonction du désordre d’un nœud.
Plus le désordre est grand, plus la valeur de la mesure est
grande.
● avoir des valeurs additives pour évaluer le désordre d’une
partition de l’arbre de décision.
 Entropie de Shannon
 Entropie de Boltzmann
 Index de Gini
LSI 3
Mohamed 180
HAMMAMI
Entropie de Shannon
Shannon en 1949 a proposé une mesure
d’entropie
valable pour les distributions discrètes de
probabilité.
Elle exprime la quantité

d’information, c’est à dire le
nombre de bits nécessaire pour spécifier la
distribution
Pour un nœud s, l’entropie d'information est :

où pi est la probabilité de la classe Ci.
LSI 3
Mohamed 181
HAMMAMI
Entropie de Shannon
9
log ( 9 )5 log5 ( ) 9 Yes
I (s )   0,942 14
0
2 14 (64,3%)
14 No
14 5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
(40%) (100%) (60%)
s11 3
s12 0 (0%)
s13 2
(60%) (40%)
2 log 2( )3 log 3(
I (s )   )  
11
5 4
2
54 50 2
05
0,97 NB
I (s )   log ( )  log ( )  Log2(x) = Log(x) / Log(2)
0 12 2 2
4 4 4 4
2
I (s13 )   log 3( )2 log ( ) 
3 0,97
5 2
5 5 2
5 LSI 3
Mohamed 182
HAMMAMI
Entropie de Shannon
Pour une partition S l’entropie d'information est :
Card(s)
I (S) sSCard() I (s)
où I(s) est l’entropie d’information du
nœud s
LSI 3
Mohamed 183
HAMMAMI
Entropie de Shannon
9 Yes
(64,3%)
No
5
(36,7%)
Sunn Overcas Rain
y t y
2 4 3
S (40%) (100%) (60%)
3 0 (0%) 2
1
(60%) (40%)
5 4 5
I (S) 14 I (s11 )  I 12 )  14 I (s13
(s 14 )
LSI 3
Mohamed 184
HAMMAMI
Entropie de Shannon
Critère de partitionnement
● Gain d’incertitude:
(st1)I(St)I(St1)
Objectif : Maximiser le gain d’incertitude
● Un nœud p est terminal si : tous les

éléments associés à ce nœud sont dans une
même classe ou si aucun test n’a pu être
séléctionner LSI 3
Mohamed 185
HAMMAMI
Entropie de Shannon
Pour les exemples initiaux

I(S) = - 9/14 log2(9/14) - 5/14 log2(5/14)
Entropie de l’arbre associé au test sur

Outlook ?
● E(Outlook) = 5/14 I(S11) + 4/14 I(S12) + 5/14 I(S13)
Gain(Outlook) = 0.940 - 0.694 = 0.246 bits
● Gain(Temperature) = 0.029
● bits
Gain(Humidity) = 0.151 bits
● Gain(Windy) = 0.048 bits
Choix de l’attribut Outlook pour le premier test
LSI 3
Mohamed 186
HAMMAMI
Arbre final obtenu
Outlook
sunn rai
y overca
n
st
Humidit Yes Wind

y y
hig norm tru fals
h al e e
No Yes No Yes
LSI 3
Mohamed 187
HAMMAMI
Algorithmes d’apprentissage
ID3 [Quinlan,198
6]
C4.5 [Quinlan,199
3]
CART [Briemen,198
4]
SIPINA [Zighed,199
2]
...
LSI 3
Mohamed 188
HAMMAMI
ID3, C4.5
 Graphe arborescente n-
aire So
 Passage d’une S à St exclusiveme
partition t 1
nt
par segmentation
 Critère de sélection de S1 10
S2
20
variable ID3: Gain
Informationnel C4.5: X
Ratio de gain 5
j
5
 Élagage S3 S4
20 0
d’arbre ID3:
Xi
non C4.5:
oui
1 0 4
10 8 2
S5 S6 S7
LSI 3
Mohamed 189
HAMMAMI
ID3, C4.5
- Critère de partitionnement
ID3 ● maximiser le gain d’incertitude entre
t I(S ) t+
et
● I(S )
Utilisation de l’entropie de 1
Shannon:
Exemple:
So
(St 1 )  I (S1 )  I (S3 , S4
) 1
  1 0 l o g 2 1 0  2 0 l o g 2 2 0
30 30 30 30
S1
200
Xj
S2
- [- 25
30 ( 25 
5 log 2 25
5 + 20 20)- 30
25log 2 25 5 (55log 2 55+ 05log 2 05)]
S3
5
S4
5
20 0
Xi
= 0.9183- 0.7739
= 0.1443 1 0 4
1 8 2
S5
0 S6 S7
LSI 3
Mohamed 190
HAMMAMI
ID3, C4.5
C4.5 I (S j )  (S t 1 )
 ( S t 1 ) 
   n kj l o g
2
n kj
k 1 n j n j
Facteur visant à pénaliser la prolifération des

sommets
I (S1 )  I (S3 , S4 )
 ( S t 1 )
Sur le même exemple: 5
 25 25 5
 3 0 log 2 3 0  3 0 log 2
30
(St1) 0 . 9 1 8 3 0 . 7 7 3 9
2 5 log 2 2 5  5 log2 5
30 30
30 30
= 0.222
LSI 3
Mohamed 191
HAMMAMI
ID3, C4.5
Conditions d’arrêt:
1. Tous le sommets sont saturés
2. Contrainte d’admissibilité
3. Gain d’information minimal 
LSI 3
Mohamed 192
HAMMAMI
CART
Segmentation par arbre binaire
Choisie parmi p variable, une bi-partition So

S1={Sg1,Sd1}
Soit ng 
: Sg1 Sd1
card(S
nd  g )
card(Sd)
nig et nid effectifs de la classe Sg2 Sg2
ci
Critères utilisés
Indice de Gini : M=2
Indicateur de Towing :
M>2
Élagage d’arbre
CART: oui
LSI 3
Mohamed 193
HAMMAMI
CART
Indice de Gini (M=2)

ng m
n m
I (sg  sd )  nig  nig   d
ng  1 n g  n
 nn id 
1
nid 

n i1 i1 d  n d 
- Maximiser la variation J G (sg  sd )

d’impureté
m  n  nig  id 
J G (s g  sd )  ig n  1
n
  I (s g  sd )
 i id n  n 
1
Ou 2
encore nd m
J G (sg  sd ) 
n n
  nn ig nid 
 n 
n g d 
g i1 
LSI 3
Mohamed 194
HAMMAMI
CART
Indicateur de Towing (M > 2)
2
ng nd
 m
n 
JT (sg  s )  n n   nig
 id
d 4 ng nd 

i1

On cherche la bipartition qui maximise JT
(s g  sd )
LSI 3
Mohamed 195
HAMMAMI
SIPINA
Avantages SIPINA ?
Exclusivement Divisif
Méthodes arborescentes
Insensibilité à l effectif
Fusion
SIPINA
Sensibilité à l’effectif
LSI 3
Mohamed 196
HAMMAMI
SIPINA
Inconvénients des Méthodes Classiques

• Insensibilité à l’effectif Distributions sur les deux classes sont analogues
40 4 Deux figures sont parfaitement décrites par

20 2 Les fréquences conditionnelles
40 0 4 0
0 20 0 2
A B
Il semble clair que les règles issues de A sont

L’effectif en A est dix fois plus grand que B Statistiquement meilleures
LSI 3
Mohamed 197
HAMMAMI
SIPINA
• Non décroissance du critère
S0 40
20
(S)0
20 20
S={S1,S2} S0 est équivalente à S
10 10
- En terme d’effectif, les règles issues de S1 et S2 devraient être appréciées différemment

- ils couvrent un effectif plus faible devraient être pénalisées
LSI 3
Mohamed 198
HAMMAMI
SIPINA
Objectif: maximiser
(Si)
Ajout d’un parametre λ
● qui contrôle le développement du graphe
et pénalise
les nœuds de faible effectif
● de ce fait , favorise les fusions entre les
sommets S0
S1 S2
S3 S4 S S6
5
S9
LSI 3
Mohamed 199
HAMMAMI
SIPINA
Critère de partitionnement
● maximiser le gain d’incertitude:
  (S I )I  (S i )I  (S i1 )

● Utilisation de l’entropie de Shannon:
K m     
n j  n ij log n ij 
I (Si )    i n  m
2
n  1
j n j  m  
j 1
● Utilisation de l’entropie quadratique :

K m
n ij   n ij  
I   Si

 j1
n j  
n 
i1
n j  m
1  )
n i  m  
LSI 3
Mohamed 200
HAMMAMI
SIPINA
Comment passer de Si à Si+1 ?

Partition courante de Si
S3
S1 S2
par regroupement
Phase 1: Passage de Si à Si+1
S i1 1
s3,s1s2 
 S i11   S 'i  1   max   Sj
i1
  S
j
2  s
1 , s2  s3

2 1,2,3
S i1 i 1
 Si    S i1  
3  s , s  s3  S
 3
'
0 alors Si+1 =S'i+1
S i1 2 1 i 1
  Repartir à la phase 1
LSI 3
Mohamed 201
HAMMAMI
SIPINA
Phase 2: Passage de Si à Si+1 par regroupement-éclatement

- Supposons on a 3 variables exogènes
Éclatement du premier regroupement par les 3 variables
- Sur chacun des sommets issu d’un regroupement, on cherche par

´éclatement, avec toutes les variables Xj la meilleure partition
LSI 3
Mohamed 202
HAMMAMI
SIPINA
par éclatement
Phase 3: Passage de Si à Si+1
- Éclatement des sommets par les 3 variables
LSI 3
Mohamed 203
HAMMAMI
Inconvénients des arbres de décision
Le choix d’une branche n’est plus jamais

remis en cause.
L’apprentissage nécessite un grand
nombre
d’individus.
La forme des modèles obtenus ne correspond

pas forcément à celle de l’échantillon.
Le temps de calcul d’un arbre est long.
Mauvaise performance s’il y a beaucoup

de classes
LSI 3
Mohamed 204
HAMMAMI

Cours Machine Learning

Uploaded by

Copyright:

Available Formats

Cours Machine Learning

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Cours Machine Learning

Uploaded by

Copyright:

Available Formats

Machine Learning

Pré-requis : Connaissances en statistiques

Chapitre 1 : Introduction au Machine

Introduction au Machine Learning

Quelques exemples concrets

Quelques exemples concrets …

Le stockage des données relatives est

Quelques chiffres concrets …

Quelques chiffres concrets …

● Selon IDC study (2007) :

Les outils automatiques de collecte de données font que

Le développement du matériel informatique et la baisse

On estime que la quantité de données dans le monde

● Est-il possible de s’en servir pour prendre des décisions ou

L’expression Data Mining est apparue vers le début

La diffusion de l’analyse de données (Jean-Paul

L’analyse des données s’est développée en parallèle

Fin des années 1980 : Agrawal Rakesh (chercheurs en

Les algorithmes de recherche de règles d’association

Mars 1989 : Piatetsky-Shapiro proposa le terme

En 1995, la communauté de Data

En 1997, publication du premier

Plusieurs conférences on data mining

En France : EGC janvier 2001

Si on baisse le prix du Coca-Cola de 5%, alors

 Le Data Mining révèle que les ventes des

Analyse des déclarations des assurés par un expert

Extraction de caractéristiques à partir de ces déclarations (type

Applications de méthodes statistiques pour identifier

Créer un modèle à partir de caractérisques des clients

Comment les personnes naviguent-elles sur Internet ?

Information sur les chemins de navigation disponibles dans

Pourquoi analyse l’usage des sites Web ?

La connaissance sur la manière dont les visiteurs utilisent

« 75% des parisiens qui achètent une raquette de tennis

Science : astronomie, bioinformatiques, détection de

Intérêt économique : du produit aux clients.

● La connaissance du comportement du client est décisive !

● Est-il possible de découvrir des associations

Augmentation de la puissance de calculs

Extraire de la connaissance à partir de grande bases

Une confusion subsiste encore entre Data Mining

Le Data Mining est l’un des maillons de la chaîne de

 Le Data Mining est la pierre angulaire du processus ECD !

● de la statistique ; ● des techniques de

Les connaissances peuvent s’exprimer :

● comme un modèle mathématique ou logique pour la

L’approche de l’ECD se veut la plus générale possible :

● Elle ne privilégie pas une nature spécifique des données

● Elle ne se limite pas à des outils d’analyse spécifiques

L’Extraction de Connaissances à partir de

Nous pouvons regrouper ces opérations en trois

2. la fouille de donnéesà proprement

Exemple : Comprendre pourquoi certains clients d’une

 Télécharger tout le contenu du Web pour en extraire des

« Le spécialiste du Data Mining agit à l’image du géologue qui définit des

Nettoyage des données

Les techniques de Data Mining traitent généralement

Certaines méthodes sont plus contraignantes que

Les principales opérations de préparation sont :