Extraction Des Connaissances À Partir Des Données (ECD)
Extraction Des Connaissances À Partir Des Données (ECD)
Extraction Des Connaissances À Partir Des Données (ECD)
Connaissances à partir
des Données (ECD)
Data Mining
Par
Certaines parties sont clairement obsolètes (extensions, applications : text mining, etc. ;
bibliographie) ; d’autres en revanche (fondements méthodologiques, démarche) sont
intemporelles.
Remerciements
1. Introduction générale
On peut voir le data mining comme une nécessité imposée par le besoin des
entreprises de valoriser les données qu’elles accumulent dans leurs bases. En
effet, le développement des capacités de stockage et les vitesses de
transmission des réseaux ont conduit les utilisateurs à accumuler de plus en
plus de données. Certains experts estiment que le volume des données
double tous les ans. Que doit-on faire avec des données coûteuses à collecter
et à conserver ?
2
Une confusion subsiste encore entre data mining, que nous appelons en
français « fouille de données », et knowledge discovery in data bases (KDD),
que nous appelons en français « extraction des connaissances à partir des
données » (ECD). Le data mining est l’un des maillons de la chaîne de
traitement pour la découverte des connaissances à partir des données. Sous
forme imagée, nous pourrions dire que l’ECD est un véhicule dont le data
mining est le moteur.
Le data mining est l’art d’extraire des connaissances à partir des données. Les
données peuvent être stockées dans des entrepôts (data warehouse), dans
des bases de données distribuées ou sur Internet. Le data mining ne se limite
pas au traitement des données structurées sous forme de tables
numériques ; il offre des moyens pour aborder les corpus en langage naturel
(text mining), les images (image mining), le son (sound mining) ou la vidéo et
dans ce cas, on parle alors plus généralement de multimedia mining.
L’ECD, par le biais du data mining, est alors vue comme une ingénierie pour
extraire des connaissances à partir des données.
3
des domaines de la reconnaissance de formes, de la statistique, de
l’apprentissage automatique et du connexionnisme ;
Les techniques de data mining ont été employées avec beaucoup de succès
dans de grands secteurs d’application : la gestion de la relation client (GRC) –
ou customer relationship management (CRM) –, la gestion des connaissances
– knowledge management – ou l’indexation de documents. Aucun domaine
4
d’application n’est a priori exclu car dès que nous sommes en présence de
données empiriques, le data mining peut rendre de nombreux services.
Il existe une large panoplie de logiciels de data mining recensés sur Internet.
L’un des meilleurs sites de référence est kd.nuggets.com, un excellent portail
pour ne pas se perdre dans l’univers du data mining.
Grâce à Internet, une grande quantité de sites regroupant des logiciels, des
données, des expertises, des cours, des communautés d’échanges et de la
bibliographie sont à présent accessibles.
2. Historique
L’expression « data mining » est apparue vers le début des années 1960 et
avait, à cette époque, un sens péjoratif. En effet, les ordinateurs étaient de
plus en plus utilisés pour toutes sortes de calculs qu’il n’était pas envisageable
d’effectuer manuellement jusque là. Certains chercheurs ont commencé à
traiter sans a priori statistique les tableaux de données relatifs à des enquêtes
ou des expériences dont ils disposaient. Comme ils constataient que les
résultats obtenus, loin d’être aberrants, étaient encourageants, ils furent
incités à systématiser cette approche opportuniste. Les statisticiens officiels
considéraient toutefois cette démarche comme peu scientifique et utilisèrent
alors les termes « data mining » ou « data fishing » pour les critiquer.
Les historiens des sciences, s’ils ne l’ont pas déjà fait, vont certainement nous
proposer de nombreuses théories pour mieux situer le data mining dans le
domaine des sciences.
Dans sa forme actuelle, le data mining est né d’un besoin : valoriser les bases
de données dont la taille croît de manière exponentielle afin de mieux
maîtriser la compétitivité. Par exemple l’exploitation de l’historique des
achats des clients permet d’optimiser qualitativement et quantitativement les
campagnes de marketing.
6
efficiente l’acquisition, la conservation et la restitution des grandes masses de
données potentiellement disponibles dans les systèmes d’informations des
organisations. Les systèmes de gestion des fichiers (SGF) utilisés dans ce but à
cette époque ne fournissaient que de faibles garanties quant à la cohérence
sémantique, la non-redondance ou la validité des informations qui se trouvaient
sur les ordinateurs. Les programmeurs passaient alors une grande part de leur
temps à modifier des programmes parce qu’une donnée nouvelle était introduite
dans le système d’information de l’entreprise. Par exemple, un nouveau
prélèvement sur les salaires des employés entraînait une cascade de
modifications dans la chaîne de traitement des salaires. Ces faiblesses
engendraient des coûts de mise en place et de maintenance des systèmes
d’information automatisés élevés. L’enjeu était de taille et tous les efforts se
consacraient à résoudre le problème du nécessaire passage à une plus grande
maîtrise des systèmes d’information.
Les années 1970-1980. Les travaux de Codd sur le modèle relationnel en bases
de données ont apporté une réponse dont la pertinence ne s’est encore jamais
démentie. Toutes les entreprises qui, jusque là, pataugeaient dans la glaise des
systèmes de gestion de fichiers pour assurer la production d’information fiable et
cohérente, ont vu apparaître l’outil de productivité tant attendu : les premiers
systèmes de gestion de bases de données (SGBD) modernes fournis par des
constructeurs comme IBM avec, en prime, les langages de 4ème génération tels
que SQL.
Du début des années 1990 à maintenant : Les entreprises ont amassé des
quantités volumineuses de données qui sont maintenant relativement bien
gérées, fiabilisées et disponibles à un coût faible. La question qui se pose
naturellement à ce stade est de savoir quoi faire de ces données car leur collecte
et leur maintenance ont malgré tout un coût, même modeste. Autrement dit,
est-il possible de valoriser ces données amassées ? Est-il possible de s’en servir
pour prendre des décisions ou éclairer des choix pour l’entreprise ? Est-il possible
de dégager un avantage concurrentiel par les connaissances que le l’entreprise
peut tirer de ces données ? Ces questions deviennent cruciales quand on estime
que le volume des données stockées double tous les ans.
7
2500
2000
1500
Entrepôt de données
1000 (Data Warehouse - DW)
0
1990 1995 2000
Année
100 Gbits/sec
B
i
t
s
/
s
6 Gbits/sec
e
c
100 Mbits/sec
3 Mbits/sec
4,8 Kbits/sec
300 bits/sec
Dans une économie globalisée comme celle qui se développe sous nos yeux,
la survie d’une entreprise repose sur l’adaptation de sa réponse à la demande
du marché. Nous assistons depuis deux décennies à une transformation du
rapport entre l’offre et la demande sur le marché. Par le passé, les entreprises
fabriquaient des biens qui étaient ensuite proposés au marché. Nous pouvons
qualifier ce modèle d’économie « orientée produit ». De nos jours, la
concurrence est plus forte et les clients forts exigeants. Dans un tel
environnement, les entreprises sont obligées d’offrir les biens ou les services
qui répondent au mieux aux besoins du client, même les plus spécifiques.
Nous sommes ainsi passés vers une économie « orientée client ».
Les premiers travaux en data mining à exploiter les grandes bases de données
ont démarré dans le secteur de la gestion de la relation à la clientèle :
exploitation des tickets de caisses des supermarchés, exploitation des
données de facturation pour les opérateurs de téléphone, etc. Les travaux
d’Agrawal sur la découverte de règles d’associations sont parmi les
précurseurs : découvrir des associations entre produits achetés pour mieux
les disposer sur les rayons, proposer des produits de substitution ou encore
mieux cibler une clientèle.
9
Évolution
Types de besoins
Technologique
Évolution des
Informations
Évolution de la
Volume des
Terminologie
produites
petit automatisation de décisions
E.G.C.
stratégique
Knowledge Mining
Extraction et Gestion des Connaissances
Extraction automatique de
E.C.D.
connaissances K.D.D.
et Knowledge Discovery in Data bases
adaptation
apport humain
D.M.
Fouille de
Données
dans l'analyse Data mining
SIAD
Rapports
analyse de données
grand spécifiques
1970 1980 1990 2000 2010
Le data mining est un processus qui fait intervenir des méthodes et des outils
issus de différents domaines de l’informatique, de la statistique ou de
l’intelligence artificielle en vue de découvrir des connaissances utiles.
Base de Connaissance
Bases de Statistique
Données
Apprentissage
automatique
Reconnaissance
de formes
Analyse des Concept
données
Intelligence
Interfaces
Artificielle
Homme-Machine
Modèle ou règle de décision
Données Connaissances
11
« analyse des données », peut-être par un effet de mode, font maintenant
plutôt usage de l’expression « data mining ».
Comme le montre la figure 4, l’ECD est un processus itératif qui met en œuvre
un ensemble de techniques provenant des bases de données, de la
statistique, de l’intelligence artificielle, de l’analyse des données, des
interfaces de communication homme-machine. L’ECD vise à transformer des
données (volumineuses, multiformes, stockées sous différents formats sur
des supports pouvant être distribués) en connaissances. Ces connaissances
peuvent s’exprimer sous forme d’un concept général qui enrichit le champ
sémantique de l’usager par rapport à une question qui le préoccupe. Elles
peuvent prendre la forme d’un rapport ou d’un graphique. Elles peuvent
s’exprimer comme un modèle mathématique ou logique pour la prise de
décision. Les modèles explicites, quelle que soit leur forme, peuvent
alimenter un système à base de connaissances ou un système expert.
La définition que nous venons de donner nous semble plus générale et mieux
adaptée à l’usage du data mining moderne que celle proposée initialement
par Fayyad en 1996 « l’extraction de connaissances à partir des données est
un processus non trivial d’identification de structures inconnues, valides et
potentiellement exploitables dans les bases de données».
12
Niveau opérationnel
Niveau Analyse : Extraction et Gestion des Connaissances
et décisionnel
Textes
Bases de données Acquisition Préparation
Images
production Données Données
Entrepôt données Sons Table
B.D.
Données
B.D.
B.D. Sélection, Transformations,
Nettoyage, Mise en forme,
WEB Intégration Construction attributs
Description, Fouille de
Ingénieur de la connaissance
Structuration, Données
Explication
Base de Connaissances
Évaluation,
Simplification,
Utilisateur final
Mise en forme,
décideur
Modèle,
Concept
Gestion
Connaissances
Toutes les actions sont très souvent le résultat d’une décision prise pour
répondre à une demande de l’environnement. Ces décisions ou ces actions ne
sont bien sûr pas toutes de même importance. Elles peuvent être
stratégiques ou de simples actions de routine. Les décisions importantes
nécessitent une évaluation qui repose sur des connaissances ou des modèles
préétablis. A ce niveau, l’utilisateur cherche à répondre au mieux aux
sollicitations de l’environnement. Par exemple, pour un service de vente en
ligne, dès qu’un client se connecte sur le site Internet, on cherche à le profiler
selon des modèles préétablis pour lui proposer l’offre de service qui est
susceptible de l’intéresser. Les modèles utilisés pour profiler les clients sont
généralement des programmes informatiques construits en interne ou
achetés à des cabinets de conseil spécialisés. Dans le domaine de la gestion
de la relation client (CRM), le niveau opérationnel ou décisionnel s’appelle le
front office. Le front office exploite les connaissances qui lui sont fournies par
les services études en vue de gérer au mieux la relation avec le client, qu’il
soit au guichet, au téléphone ou sur Internet. Les services études sont
généralement situés en back office. C’est là que s’effectue le processus
d’extraction et de gestion des connaissances. Le front office est une structure
« orientée métier », par exemple un opérateur de téléphone ne met pas les
même activités qu’une surface de vente de produits de consommation. En
revanche, la structure et les outils qui se trouvent en back office peuvent être
13
rigoureusement les mêmes. C’est le front office qui produit et met à jour la
base de données de l’entreprise. C’est également lui qui stocke les données
historiées dans les entrepôts de données.
8.1. L’acquisition
Les données peuvent être localisées sur des sites différents de celui où
s’effectue l’ECD. Elles peuvent être stockées selon des architectures variées :
dans des bases de données relationnelles, dans des entrepôts de données,
sur le web ou dans des banques de données spécialisées (images,
bibliothèques ou librairies numériques, base de données génomiques). Elles
peuvent être structurées ou non selon différents types : données tabulaires
ou textuelles, images, sons ou séquences vidéo. En ECD, l’analyste, qu’il soit
ingénieur de la connaissance ou statisticien, doit avoir un problème
relativement bien délimité. Il ne se lance pas dans l’ECD sans avoir une
certaine idée des objectifs de son opération et des moyens informationnels et
technologiques dont il dispose. Par exemple, il souhaite comprendre
pourquoi certains de ses clients se sont tournés vers une entreprise
concurrente ou il cherche à mieux connaître son activité selon différents
critères. Toutes les données disponibles et accessibles au niveau de l’entrepôt
ne sont certainement pas utiles dans leur intégralité pour traiter son
problème particulier. Il ne viendrait à l’esprit d’aucun spécialiste en data
mining de télécharger tout le contenu du web (évalué à plusieurs milliards de
pages) pour en extraire des connaissances, d’autant plus que le contenu du
web change quasiment à tout instant.
14
phase d’acquisition nécessite le recours à des moteurs de recherche de
données. Cette phase peut passer par les moteurs de requêtes des bases de
données comme le langage SQL. L’acquisition peut aussi se faire à travers des
outils de requêtes plus spécifiques aux données non structurées comme les
données textuelles, les images ou le web, faisant pour cela appel à des
moteurs de recherche d’informations et d’images auxquelles ils accèdent par
le contenu.
Cette phase d’acquisition sert généralement à nettoyer les données qui sont
rapatriées. Par exemple, si l’un des attributs retenus s’avère au moment du
rapatriement peu ou mal renseigné, on peut le laisser tomber tout de suite.
On peut également explicitement chercher à limiter le nombre
d’enregistrements que l’on souhaite traiter. On construit alors un filtre idoine.
Il peut être de nature statistique, par exemple, un échantillonnage au 1/1000
selon une procédure de tirage aléatoire simple.
15
Gardons à l’esprit qu’in fine cette transformation doit déboucher sur un
tableau ligne/colonne car il s’agit presque toujours de la structure la mieux
adaptée à l’exploitation des données. Précisons que dans certaines situations,
les données arrivent déjà sous une forme appropriée et qu’il n’est alors plus
nécessaire de les modifier. Dans d’autres cas, elles sont dans une structure
tabulaire mais exigent une transformation telle qu’un centrage par rapport à
la moyenne ou une normalisation. En fait, le pré-traitement est un acte de
modélisation d’expert. Si l’expert ne définit pas les bonnes transformations
ou les bons attributs, il ne verra alors rien dans ses données. L’expert devra
par conséquent choisir un canevas pour représenter ses données et
éventuellement effectuer une série de transformations pour obtenir des
données adaptées aux méthodes d’exploitation.
Sélection de ligne/colonne. Elle s’effectue sur des données qui sont déjà
sous forme tabulaire. Il s’agit ensuite de définir un filtre qui permet de
sélectionner un sous-ensemble de lignes ou de colonnes. L’objectif est soit
de réduire le nombre de données soit de sélectionner les lignes ou colonnes
les plus pertinentes par rapport aux préoccupations de l’utilisateur. Les
techniques mises en œuvre dans ce but relèvent des méthodes statistiques
d’échantillonnage, de sélection d’instances ou de sélection d’attributs. Cette
sélection peut également s’effectuer selon des conditions exprimées par
l’utilisateur. Par exemple, il peut ne garder que les attributs dont la
moyenne est supérieure à un seuil donné ou ne conserver que les attributs
qui ont un lien statistique significatif avec un attribut particulier. Ce lien sera
évalué à l’aide d’une mesure d’association comme le khi-2 de Pearson ou le
gain informationnel. La sélection d’attributs est en train de devenir l’un des
sujets majeurs de la recherche en data mining.
16
Les transformations d’attributs. Il s’agit de transformer un attribut A en une
autre variable A’ qui serait, selon les objectifs de l’étude, plus appropriée.
Différentes méthodes sont pratiquées comme la discrétisation qui consiste à
transformer des attributs continus en découpant le domaine de valeurs de
ces attributs en intervalles afin d’obtenir des attributs qualitatifs. Il existe à
cet effet pléthore de méthodes de discrétisation : supervisées ou non, à
intervalles de tailles identiques, ou à intervalles à effectifs constants. On
peut également centrer par rapport à la moyenne et réduire par l’écart type
les valeurs des variables continues. Ce traitement leur confère certaines
propriétés mathématiques intéressantes lors de la mise en œuvre de
méthodes d’analyse des données multidimensionnelles.
17
l’image que de l’ECD. L’extraction de connaissances à partir de données
complexes est d’ailleurs un domaine en pleine croissance.
La fouille de données concerne le data mining dans son sens restreint et est
au cœur du processus d’ECD. Cette phase fait appel à de multiples méthodes
issues de la statistique, de l’apprentissage automatique, de la reconnaissance
de formes ou de la visualisation. Les méthodes de data mining permettent de
découvrir ce que contiennent les données comme informations ou modèles
utiles. Si nous essayons de classifier les méthodes de fouille de données
utilisées, trois catégories se distinguent :
18
La description et la visualisation peuvent être mono ou multidimensionnelles.
Pour l’essentiel, il s’agit de rendre visible des objets ou des concepts qui se
trouvent dans des espaces de description trop riches.
Imaginons que parmi les facteurs qui intéressent la banque dans le cadre
d’une première approche du problème figurent l’âge des clients, les montants
des crédits qui leur sont alloués, les villes de résidences des clients, les
destinations des prêts (acquisition d’une maison, d’une voiture ou d’un
équipement domestique) et la période de l’année (par exemple le numéro du
trimestre).
19
Histogramme. Il est construit sur l’attribut « durée du prêt ».
20
Graphe de contingence. Il donne les effectifs croisés entre le type
d’activité (employé, sans qualification, avec qualification,
encadrement) et le statut familial (homme ou femme, célibataire,
marié(e), divorcé(e) ou veuf(ve)).
Les cubes de données introduits avec les systèmes OLAP fournissent des
tableaux de contingence multidimensionnels, généralement tri-
21
dimensionnels, sur lesquels ont été définies des opérations facilitant
l’exploration des données.
tut
Sta
Ac
e c arié taire
ha
Fe mme céli ié
ire
t
mm m ba
r
élib e
Fe mme ma
ata
Ho mme
Au
Ré
Ho
Vo
tre
s id
itu
re
en
ce
Ouvrier
Employé
Profession Cadre
Agriculteur 121 2
Libéral
On peut décider d’explorer une sous population particulière. Par exemple, par
une opération appelée roll up dans la terminologie OLAP, on regroupe les
modalités mariés et célibataires afin d’avoir hommes d’un côté et les femmes
de l’autre.
Ac
t
h
tu
at
Sta
Fe mme
e
mm
Au
Ré
Vo
Ho
tre
s
it
ide
ure
nc
e
Ouvrier
Employé
Profession Cadre
Agriculteur
Libéral
On peut également, par une opération de drill down approfondir l’analyse sur
un niveau de détail plus fin. Par exemple, sur la figure 9, on a détaillé le solde
moyen mensuel au lieu du trimestriel.
22
tre
es
im
Ac
Tr
ha
t
im stre 1
tre 2
im stre
3
e
4
im
e
es
tre
Au
Ré
Tr
Vo
es
Tr
tre
sid
Tr
itu
im
re
en
Tr
ce
O uvrier
Em ployé
Profession C adre
Agriculteur 6 01 2
Libéral
is
Mo
Ac
h at
ce bre
e
re
No tobr
Dé vem
mb
Au
Ré
Vo
Oc
tre
si d
itu
re
en
ce
25
O uvrier
Em ployé
Profession C adre
Agriculteur
Solde bancaire m oyen du
Libéral m ois de décem bre pour
«Profession=ouvrier» et
«Achat=Autre»
Les arbres
Hommes Femmes
20 %
20 %
20 %
20 %
20 %
100 90 80
70 60 50
% % %
% % %
3
4
5
Résidence Voiture Autre
2
1
Distribution des 30
incidents
bancaires selon
la profession
Solde moyen
23
Figure 10 : arbre de description
Il arrive très souvent qu’une description selon un ou deux attributs ne soit pas
satisfaisante et que l’utilisateur souhaite prendre en compte simultanément
la totalité des attributs. Nos possibilités visuelles ne nous permettent
malheureusement pas de voir des objets qui sont dans des espaces à plus de
3 dimensions. L’analyse des données multidimensionnelles nous fournit le
moyen d’accéder à cette description et de visualiser au mieux les données
sous leur forme résumée.
Les deux nuages de points ne sont pas visibles à l’œil nu dès lors que p et n
dépassent 3. Pour contourner ce handicap, nous devons les projeter dans des
espaces de faibles dimensions : une droite, un plan ou un espace à trois
24
dimensions. Cette opération de projection est analogue à la prise d’une photo
par une caméra : des points de l’espace à trois dimensions sont projetés sur la
plaque photographique qui est à deux dimensions. Indépendamment des
considérations artistiques, les différentes prises de vues d’une scène ne
révèlent pas la même information. Si nous cherchons un résumé qui se veut
être le plus fidèle possible de la réalité, nous devons rechercher le sous-
espace de dimension 1, 2 ou 3 qui conserve au mieux les proximités originales
entre les points. Sur la figure suivante, nous avons ainsi cherché le
« meilleur » plan de projection des points clients.
Rp Z2
Projection du nuage
de n clients dans R2
Z1
Mt. Découvert
Solde Moyen
En ECD, sans doute plus qu’ailleurs, nous avons affaire à une profusion de
données. Décrire ces données s’avère parfois difficile à cause de cette
volumétrie. L’utilisateur cherche souvent à identifier des groupes d’objets
semblables au sens d’une métrique donnée. Ces groupes peuvent par
exemple correspondre à une réalité ou à des concepts particuliers.
25
Figure 13 : Méthodes de structuration
Les lignes ou les colonnes du tableau sont vues comme des points d’un
espace multidimensionnel qui n’a pas obligatoirement une structure d’espace
vectoriel. Les méthodes de structuration ont pour objet de repérer ces
structures de groupe invisibles à l’œil nu.
Toute la population
Hommes
Résidence Marié
Marié Autre
27
éléments appartenant à des classes différentes d'une même partition
qui doivent être les plus dissemblables possibles au sens d'un certain
critère préétabli. La ressemblance doit prendre en compte la totalité
des attributs descriptifs. On distingue les méthodes selon qu’elles
conduisent à une hiérarchie de partitions emboîtées ou non, ou une
partition à nombre de groupes prédéterminé ou non. Parmi les
techniques fréquemment employées, on trouve les méthodes de
classification hiérarchique, les nuées dynamiques proposée par
Diday, la classification non hiérarchique descendante proposée par
Fages,... On peut également incorporer les algorithmes développés
dans les domaines de l'intelligence artificielle comme l'algorithme
Etoile proposé par Michalski qui s’inspire de l'algorithme des nuées
dynamiques ou les algorithmes COBWEB, et AUTOCLASS. Les figures
suivantes donnent les représentations graphiques que l’on rencontre
le plus souvent.
Méthode de classification
non hiérarchique descendante
0 Toute la population
1 2
3 4 5
6 7 8 9
28
Méthode de classification basée sur
les densités
65
55
50
Niveau de la hiérarchie
20
15
0
1 2 5 3 6 7 4
29
Carte topologique de Kohonen
Chaque neurone de la grille
calcule la somme des valeurs du 8 Voisinage du
vecteur d’entrée courant pondérée neurone gagnant
par le poids de sa connexion.
Le neurone gagnant est celui qui f c c c c
a la plus grande valeur.
f c c c
neurone gagnant
Chaque neurone de la grille f e e e b
regroupe les points similaires
a a b b
30
En apprentissage supervisé, il y a, d'une part, une phase « inductive »
consistant à développer les règles d'identification à partir d'exemples
particuliers et, d'autre part, une phase « prédictive » visant à utiliser ces
règles pour identifier de nouvelles instances. Cependant les méthodes de
prédiction ne procèdent pas toutes ainsi. Les méthodes de prédiction à base
d’instance comme les k plus proches voisins n’établissent pas une liaison
fonctionnelle entre l’attribut à prédire et les valeurs des attributs prédictifs.
C:
C
Dans la réalité, l'observation de C n'est pas toujours facile pour diverses
raisons. C'est pourquoi nous cherchons un moyen pour prédire la classe C
et ainsi anticiper la décision de la banque.
31
Les variables exogènes prennent leurs valeurs dans un espace de
représentation noté qui peut avoir ou non une structure mathématique
particulière: espace vectoriel par exemple.
X :
X ( ) X 1 ( ), X 2 ( ),, X p ( )
Les graphes d’induction, dont les modèles les plus populaires sont les arbres
de décision, connaissent un grand succès : ils sont faciles à mettre en œuvre,
les résultats qu’ils fournissent sont aisés à interpréter et les modèles qui en
sont déduits sont performants. Les graphes d’induction sont capables
d'appréhender des bases de données de grandes tailles et applicables sans
restriction sur des données de n'importe quel type (qualitatives,
quantitatives, ou un mélange des deux). La prolifération des logiciels fondés
sur ce paradigme est d'ailleurs un signe assez fort de ce succès.
32
Toute la population
40 30 Partition grossière :
Classe c1 Classe c2
Hommes Femmes
Partition S1 engendrée
la variable « Sexe »
10 25 30 5
m
H () p(c j / ) log 2 p(c j / ) (0.1)
j 1
40 40 30 30
on aura H () log 2 log 2 0,9852 . Sur la partition S1
70 70 70 70
engendrée par la variable exogène « sexe », on calcule la valeur moyenne des
entropies en chaque sommet :
H ( S1 ) p( s ) H ( s ) ;
sS1
m
(0.2)
H s p(c j / s ) log 2 p( c j / s )
j 1
35 10 10 25 25
H ( S1 ) log 2 log 2
70 35 35 35 35
35 30 30 5 5
70 35 log 2 35 35 log 2 35 0,7273
33
Partant de la partition S1 , il s’agit de chercher une nouvelle partition S2 qui
soit meilleure que S1 au sens du critère considéré.
40 30 Partition grossière :
Classe c1 Classe c2
Hommes Femmes
10 25 30 5
4 1 1 29
34
Grâce à ces règles, quand un nouvel individu se présente, connaissant son
âge et son sexe, on peut prédire sa classe avec une certaine fiabilité.
Les réseaux de neurones sont parmi les outils de modélisation les plus utilisés,
en particulier pour les problèmes difficiles où le prédicteur que l’on cherche à
construire repose sur de nombreuses interactions complexes entre les
attributs exogènes. La structure générale d’un réseau de neurone se présente
comme suit :
Toutes les
connexions sont Chaque
orientées de la neurone de la
gauche vers la couche i est Toutes les
droite. connecté à tous connexions ont un
les neurones de poids qui s’ajuste
la couche i+1. lors de
X1 l’apprentissage
X2
X3
X5
X6
Neurones de la couche Neurones de la couche Neurones de la couche
d’entrée cachée de sortie
35
s1 p1 j
3
p2 j
s2 E j pij si f (E j ) s j
i 1
p3 j
f (E j ) s j
s3
+1
Ej
-1
s1
Sortie finale du réseau
(X1, X2, X3, X4, X5, X6)
p p ij
s2 ij ij
1
C 2
card
s3
C
Valeur de sortie attendue
36
couche cachée. Les couches d’entrée et de sortie sont déterminées par la
nature du problème : le nombre de neurones de la couche d’entrée est le plus
souvent égal au nombre de variables exogènes et le nombre de neurones sur
la couche de sortie est égal au nombre de variables endogènes.
Rp
Solde Moyen
C XB (0.3)
37
2
min C (0.4)
où XB .
L’analyse discriminante
38
Pour tout individu de la classe ck on ait Y « peu différent »
de Yk ; k 1,..., m où Yk désigne la moyenne de Y dans la classe
ck . Nous pouvons traduire cela en exigeant que la dispersion de Y soit
minimale dans chaque classe. Nous cherchons donc à minimiser la
variance de Y à l’intérieure de chaque classe, ce qui donne
globalement, pour toutes les classes, le critère de la variance intra
classe dont l’expression est :
m
1
Vint ra card k Vk (Y )
card () k 1
(0.5)
m
card k Yk Y
1
2
Vint er (0.6)
card () k 1
Nous sommes ainsi en face d’un problème d’optimisation que l’on formule
ainsi :
Un nouvel individu à classer est affecté à la classe dont le centre de gravité est
le plus proche. On peut définir géométriquement des surfaces de décision par
l’intersection des médiatrices sur les droites qui relient les centres de gravité
des classes comme illustré par la figure suivante :
39
Centres de gravité des 3 classes
rte
e ve
ss
cla
e la
sd
int
p s po
de
Y2 i X i
Zo n
ne
Zo
e de
i 1
s po
ints
de l
a
clas
s e ro
Axe factoriel 2
uge
Médiatrice de la
droite reliant les
centres de
Zo gravités des
ne classes bleue et
de
sp rouge.
oin
ts
de
la
cla
ss
eb
leu
r
Axe factoriel 1 p
Y1 i X i
i 1
Les réseaux bayésiens sont apparus au début des années 1980. Rendus
populaires par le groupe de recherche de la firme Microsoft qui les introduits
dans les systèmes d’aide contextuelle d’Office, ils sont maintenant très
utilisés dans la modélisation des processus complexes de décision.
40
Soit H une hypothèse qui pourrait être : les individus de caractérisés par
D appartiennent à la classe ck . Nous cherchons à évaluer cette hypothèse
H , connaissant D , ce que nous pouvons traduire par la détermination
P( H / D) et qui n’est autre que sa probabilité a posteriori.
Prenons un exemple dans lequel tous les individus de sont décrits par
deux variables booléennes qui nous renseignent si la personne fume ou pas
et si elle a ou non dans sa famille des cas de cancer. On note F la variable
« fumeur » et A « antécédents familiaux » qui peuvent être vrai ou faux. On
s’intéresse au fait qu’une personne a ou n’a pas un cancer que l’on note C .
Prenons un individu particulier dont on sait qu’il fume et qui n’a pas
d’antécédents familiaux. Dans ce cas, notre tableau de données D comporte
une seule ligne : F = vrai, A = faux. Il s’agit alors de déterminer la probabilité
P(C / D) que cet individu a le cancer sachant ses données D .
On note P(C ) la probabilité a priori qu’a une personne d’être atteinte d’un
cancer, P( D / C ) la probabilité a posteriori d’observer une personne qui
fume et qui n’a pas d’antécédents familiaux chez les personnes ayant un
cancer et P(D) la probabilité a priori d’être fumeur et de ne pas avoir
d’antécédents familiaux.
P( D / C ) P C
P (C / D ) (0.7)
P D
L’un des premiers modèles proposés est appelé le « bayésien naïf ». Il repose
sur l’hypothèse selon laquelle les variables sont indépendantes, c’est-à-dire
que le fait de fumer ou pas n’a aucun lien avec le fait d’avoir des antécédents
familiaux, et réciproquement, ce qui se traduit par P( F , A) PF .P A .
Comme C peut prendre deux états seulement « c1 = cancer » et « c2 = pas
de cancer », on cherchera la conclusion donnée par la probabilité a posteriori
maximale, c’est-à-dire :
2 P D / C ck P C ck
max P(C ck / D) (0.8)
k 1
P D
Or, dans cette équation, la probabilité P(D) est constante quelle que soit la
classe ck , on cherchera donc à ne maximiser que le numérateur,
41
PD / C ck PC ck .Puisque nous supposons l’indépendance des
symptômes, on établit alors :
Il est clair que l’hypothèse d’indépendance ne peut pas être retenue dans la
plus part des cas. C’est la raison pour laquelle ont été introduits les réseaux
bayésiens.
Un réseau bayésien est représenté par un graphe acyclique dans lequel les
sommets sont des variables booléennes et les arcs les relations de
dépendance. L’architecture du réseau est généralement fournie par l’expert.
Fume Antécédents
Cancer
Ce schéma illustre que la variable cancer est déterminée par deux facteurs
que sont « Fume » et « Antécédent ». Ces deux facteurs sont soit vrai soit
faux indépendamment l’un de l’autre.
42
P F vrai 0.1; P F faux 0.9
P A vrai 0.25 ; P A faux 0.75
P C vrai / F vrai , A vrai 1; P C faux / F vrai , A vrai 0
P C vrai / F faux , A vrai 1; P C faux / F faux , A vrai 0
P C vrai / F vrai , A faux 0.9 ; P C faux / F vrai , A faux 0.1
P C vrai / F faux , A faux 0.05 ; P C faux / F faux , A faux 0.95
Or,
PF vrai, C vrai, A vrai
PC vrai / F vrai, A vraiPF vraiP A vrai
et
1 0.1 0.25
PF vrai / C vrai, A vrai 0.1
1 0.1 0.25 1 0.9 0.25
43
Dans un réseau bayésien comme celui-ci, on peut introduire des éléments de
décision et de coût. Par exemple, on peut introduire le fait de traiter le
patient selon le protocole de soin A ou B. A chacun des deux protocoles est
associé un coût et on peut alors se demander ce qu’il faut faire suivant un
état du système.
44
transaction si les quatre produits figurent dans la transaction, on écrira
alors a .
support a X b P a X b s et
confiance a X b P b / X a c
45
restreindre la taille de l’espace à explorer pour trouver tous les ensembles
fréquents nécessaires à la deuxième étape de l’algorithme qui comporte deux
points :
b X a X b si support a c0
support b
Le choix d’une méthode parmi celles-ci s’avère donc difficile car il dépend de
plusieurs facteurs : taille de l’échantillon, nature des variables exogènes
(qualitative, quantitatives ou mixtes), la nature de la variable endogène,
l’intelligibilité du modèle, la connaissance a priori que nous avons sur la
structure des classes (linéairement séparables ou pas), la complexité de
l’algorithme, etc.
46
10. Phase de validation et de mise en forme
c1 n11 n1m
: : : :
Classes
: : : :
d’origine
m
S nii (0.9)
i 1
n ii
E 1 i 1
m (0.10)
n
i 1
ij
j 1
47
Ce taux d’erreur calculé sur l’échantillon d’apprentissage est généralement
optimiste, c’est-à-dire plus faible que le vrai taux d’erreur inconnu, celui qu’on
aurait eu si on avait l’exhaustivité de la population concernée. On appelle ce
taux d’erreur « taux d’erreur en resubstitution ». Généralement on lui
préfère le taux d’erreur en validation calculé de la même façon mais sur un
nouvel échantillon dit de validation qui n’a pas servi lors de la phase
d’apprentissage.
La validation croisée
K
E Ek (0.11)
k 1
1 K
Généralement on lui associe la variance E2
K k 1
( Ek E ) 2 .
Le bootstrap
48
La mise en forme des modèles comporte différents aspects, allant de la
visualisation des connaissances pour les rendre intelligibles jusqu’à
l’agrégation des modèles, en passant par leur simplification.
49
Il existe actuellement deux courants dans le domaine du text mining,
le premier plutôt centré sur l’exploitation des textes dans le contexte
de la langue (connaissances lexicales, grammaticales ou linguistiques),
le second qui considère les textes en termes d’occurrences d’unités
lexicales. Dans cette dernière approche, les unités lexicales sont
définies par une fenêtre qui se déplace linéairement sur le texte. Elles
peuvent être les mots de la langue rencontrés dans les textes analysés
ou simplement des groupes de N lettres appelés des N-grammes. Par
ce procédé, un corpus de Z textes est transformé en un tableau
d’occurrences de Z lignes et K colonnes. Les lignes représentent les
textes et les colonnes les unités lexicales présentes dans la totalité du
corpus. A l’intersection de la ligne i et la colonne j figure ij ;ij 0
qui est généralement la fréquence relative du terme k j dans le texte
ti . A partir de ce moment, le corpus de texte est regardé comme un
tableau de données susceptible d’être traité par la totalité des
méthodes de data mining évoquées plus haut. On peut ainsi chercher
des fonctions discriminantes entre des classes de textes ou bien
catégoriser au moyen des méthodes de classification les textes ou
simplement de décrire les textes les uns par rapport aux autres en
utilisant des méthodes comme l’analyse factorielle des
correspondances.
A l’instar des données textuelles, les données sous formes d’images peuvent
également être traitées par les techniques de data mining en vue d’extraire
des connaissances. Celles-ci permettraient d’identifier, de reconnaître ou de
classer automatiquement des bases volumineuses d’images. Actuellement,
les principales techniques d’interrogation dans des bases d’images utilisent
des fichiers d’index. A chaque image est associée une série d’index qui
donnent des indications sur son contenu. Le plus souvent, cette indexation
est effectuée manuellement. Les techniques de data mining sont de plus en
plus utilisées pour automatiser ces opérations.
Pour être exploitées par des méthodes de data mining, les images doivent
également subir une série de pré-traitement en vue d’obtenir des tableaux
numériques. Les principales étapes du pré-traitement sont les suivantes :
51
2. Extraction de caractéristiques. Pour être traitées par des techniques
de data mining, les images doivent être transformées en un ensemble
de vecteurs de nombres. Ensuite, la banque d’images est représentée
par un tableau numérique. Chaque ligne étant une image et chaque
colonne une caractéristique sur l’image. Cette opération de
vectorisation peut se faire de deux façons :
Le multimedia mining obéit aux mêmes principes que ceux que nous avons
établis pour le texte ou les images, à savoir la définition des transformations,
des filtres et le recodage de la séquence vidéo en tableaux numériques.
Dans le multimédia, nous avons au moins deux objets à coder : les images et
le son. Mais nous pouvons disposer également de données textuelles, des
images des séquences vidéo ou même d’hypertextes. Cela ne change en rien
aux problèmes à résoudre et qui sont essentiellement ceux du codage de
l’information brute.
52
14. Le web mining
Les propriétaires de sites Internet sont quant à eux intéresser par les visiteurs. A chaque
passage sur les pages web, un internaute laisse des traces sur les sites visités. Outre la
date et l’heure de la visite, le site hôte enregistre le numéro de la machine, le navigateur
utilisé, l'ensemble des pages visitées, etc. L’exploitation et la fouille de ces données
constitue une source d’information intéressante pour le propriétaire du site.
53
Pour cela, il faut bien connaître ses clients. Les études de marché réalisées
selon les méthodes classiques sont longues à mettre en œuvre, pour des
résultats toujours sujets à caution en raison de la taille des échantillons
pratiqués. L’entreprise dispose pourtant d’informations sur ses clients et leurs
habitudes de consommation.
Au sein de la gestion de relation client, ou customer relationship management
(CRM), on peut distinguer trois dimensions :
Le CRM opérationnel concerne gestion des relations avec les clients, qui
constituent le front office du dispositif. Le CRM opérationnel permet
d’emmagasiner des informations permettant une connaissance approfondie
des clients, et dont le stockage est désormais rendu possible par les
technologies de data warehouse.
15.3. La génomique
54
succession de quatre bases chimiques désignées par les lettres A, C, T et G.
L’alignement de ces bases, qui forment la molécule d’ADN, peut être vu
comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre
de lettres présentes dans le génome humain est de 3 milliards environs. Si on
devait transcrire le code génétique d’une personne sur du papier en y
reportant la succession de lettre présentes sur son génome, il nous faudrait
plus de 2 millions de pages comme celle ci.
Au début des années 90, les logiciels estampillés data mining se faisaient
rares Ils étant uniquement l’apanage de petites entreprises novatrices qui
implémentaient des méthodes directement issues des thèses de doctorat
développées dans les laboratoires de recherche. Ces outils, somme toute
assez sommaires, quand ils n’étaient pas que des assemblages de
bibliothèques de programmes, se spécialisaient sur une méthode ou une
variété de méthodes appartenant au même paradigme, peu connus en
statistiques, mais très en vogue au sein de la communauté de l’apprentissage
automatique et de la reconnaissance des formes. Leur diffusion demeurait
assez restreinte, même dans le milieu de la recherche.
Le vrai décollage est survenu dans le milieu des années 90. A cette période,
les petits logiciels ont pu accéder à des interfaces professionnelles avec le
développement des solutions data mining sous des environnements
Windows. Les petites sociétés ont alors commencé à toucher de manière
significative le marché des entreprises, plusieurs études montrèrent des
perspectives très optimistes, laissant à penser que le besoin futur en outils de
data mining était un filon à très haut rendement.
L’offre d’outils de data mining est aujourd’hui pléthorique. Rien qu’en faisant
une recherche sur Internet avec les mots clés « software » et « data mining »,
55
il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de
l’importance prise par ce domaine.
17. Bibliographie
V. Barnett et T. Lewis ; Outliers in Statistical Data ; John Wiley & Sons ; 1994
A. Berson et S.J. Smith ; Data Warehousing, Data Mining, and OLAP ; McGraw-
Hill ; 1997
56
A. Berson, S. J. Smith et Thearling ; Building Data Mining Applications for CRM
; McGraw-Hill ; 1999
R. Duda and P. Hart ; Pattern Classification and Scene Analysis ; John Wiley &
Sons ; 1973
C.H. Huberty ; Applied Discriminant Analysis ; John Wiley & Sons ; 1994
W. H. Inmon ; Building the Data Warehouse ; John Wiley & Sons ; 1996
57
M. James ; Classification Algorithms ; John Wiley & Sons ; 1984
R. Kimball ; The Data Warehouse Toolkit ; John Wiley & Sons ; 1996
J.R. Quinlan ; C4.5: Programs for Machine Learning ; Morgan Kaufmann ; 1993
58
D.E. Rumelhart, J.L. McClelland ; Parallel Distributed Processing ; MIT Press ;
1986
C. Seidman ; Data Mining with Microsoft SQL Server 2000 Technical Reference
; IT Prodessinal Microsoft ; 2001
59