EFD Discrétisation

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

1.3.2.

Discrétisation des données numériques

1.3.2.1 Méthode CONTRAST


La méthode de discrétisation CONTRAST a été proposée par T. Van de Merckt
[Van 93]. Son principe est que, pour discrétiser un attribut, il faut chercher un
point de coupure qui fournit le meilleur « contraste» entre deux attributs même si
les intervalles générés contiennent des exemples de classes différents, cela
revient à trouver les points de coupure qui maximisent la distance entre deux
intervalles tout en minimisant la distance entre les exemples d‘un même
intervalle.

a) L’algorithme de CONTRAST
1. Initialisation en classant les exemples d’apprentissage par ordre croissant
des valeurs de l’attribut X à discrétiser.
2. Détermination des k points frontières. Les points de discrétisation sont
nécessairement des points frontières.
3. Sélectionner parmi les k points frontières celui qui maximise la quantité
:

Soit

Avec
L’échantillon ou sommet considéré
L’effectif de l’échantillon ,
Le sous - échantillon composé des exemples tels que

Le sous - échantillon composé des exemples tels que

L’effectif du sous - échantillon


La moyenne de l’attribut sur le sous - échantillon
Le nombre de classes

4. Partitionner les exemples, selon le point de discrétisation, en deux sous -


populations.
Cet algorithme fournit une discrétisation descendante, binaire et dynamique.

Extraction des connaissances à partir des données


5
b) Déroulement sur un exemple
Déroulement de l’algorithme CONTRAST sur l’exemple « jouer au tennis ? ». Le
tableau suivant regroupe les observations des individus par rapport au jeu :
Numéro Ensoleillement Température Humidité Vent Jouer
1 Soleil 75 70 Oui Oui
2 Soleil 80 90 Oui Non
3 Soleil 85 85 Non Non
4 Soleil 72 95 Non Non
5 Soleil 69 70 Non Oui
6 Couvert 72 90 Oui Oui
7 Couvert 83 78 Non Oui
8 Couvert 64 65 Oui Oui
9 Couvert 81 75 Non Oui
10 Pluie 71 80 Oui Non
11 Pluie 65 70 Oui Non
12 Pluie 75 80 Non Oui
13 Pluie 68 80 Non Oui
14 Pluie 70 96 Non Oui

Tableau 1. 1 Exemple « Jouer au tennis ? ».


On remarque que l’attribut « Température » est un attribut continu ;
alors on lui applique la discrétisation selon la méthode CONTRAST. Ce qui suit
nous montre le déroulement de l’algorithme de la méthode CONTRAST :
Etape 1 : classer les exemples d’apprentissage par ordre croissant des valeurs de
l’attribut « Température » :
64 – 65 – 68 – 69 – 70 – 71 – 72 – 72 – 75 – 75 – 80 – 81 – 83 – 85
Etape 2 : détermination des K points frontières, selon la figure 2.3.

64 65 68 69 70 71 72 72 75 75 80 81 83 85

O N O O O N N O O O N O O N

D1 D2 D3 D4 D5 D6 D7

Figure 1.2 Les K points frontières (Etape2).

Etape 3 : sélectionner parmi les K points frontières celui qui maximise la


quantité :
Pour D1 = 64 :

Extraction des connaissances à partir des données


6
Pour D2 = 65 :

Pour D3 = 70 :

Pour D4 = 72 :

Pour D5 = 75 :

Pour D6 = 80 :

Pour D7 = 83 :

On sélectionne le D4 point frontière parce que c’est lui qui maximise le


plus la quantité .
Etape 4 : partitionnement des exemples, selon le point de discrétisation D4, en
deux sous-populations. La figure 2.4 nous montre les exemples après partition.

64 65 68 69 70 71 72 72 75 75 80 81 83 85

O N O O O N N O O O N O O N

S1 D4 S2

Figure 1.3 Le partitionnement, selon le 1er point de discrétisation D4.

Ou, S1 : la première sous-population.


S2 : la deuxième sous-population.
Etape 5 : Refaire l’étape 3 à 5 pour chacune des deux sous-populations obtenues.
La figure 2.5. Nous montre les points de discrétisation obtenus, après avoir
appliqué le même processus à chacune des deux sous populations S1 et S2. Le
processus s’arrête dés qu’aucun point frontière ne peut augmenter la
quantité .

Extraction des connaissances à partir des données


7
64 65 68 69 70 71 72 72 75 75 80 81 83 85

O N O O O N N O O O N O O N

<68.5 68.5-70.5 70.5-72 72-77.5 77.5-84 >84

Figure 1.4 Les intervalles obtenus après application de la méthode CONTRAST


sur un attribut continu.

On refait les mêmes étapes pour l’attribut continu « Humidité », on


obtient le tableau suivant après discrétisation :

Numéro Ensoleillement Température Humidité Vent Jouer


1 Soleil 72-77.5 <72.5 Oui Oui
2 Soleil 77.5-84 82.5-90 Oui Non
3 Soleil >84 82.5-90 Non Non
4 Soleil 70.5-72 >90 Non Non
5 Soleil 68.5-70.5 <72.5 Non Oui
6 Couvert 70.5-72 82.5-90 Oui Oui
7 Couvert 77.5-84 72.5-79 Non Oui
8 Couvert <68.5 <72.5 Oui Oui
9 Couvert 77.5-84 72.5-79 Non Oui
10 Pluie 70.5-72 79-82.5 Oui Non
11 Pluie <68.5 <72.5 Oui Non
12 Pluie 72-77.5 79-82.5 Non Oui
13 Pluie <68.5 79-82.5 Non Oui
14 Pluie 68.5-70.5 >90 Non Oui

Tableau 1.2 Exemple « jouer au tennis ? » après application de la méthode


CONTRAST.

1.3.2.2 Méthode utilisant une mesure d’entropie (algorithme MDLPC)


U. M. Fayyad et K. B. Irani proposent une méthode de discrétisation binaire
dynamique récursive utilisant le Gain d’Information associé à un critère d’arrêt
basé sur le MDLPC (Minimum Description Lenght Principale Cut) [Fay 93]. Le
domaine de définition D est découpé, lors de la construction du graphe, en deux
intervalles qui sont à leur tour découpés chacun en deux intervalles, et ainsi de
suite jusqu’à une certaine condition d’arrêt. Un même attribut ne sera discrétisé
et n’apparaîtra qu’une seule fois au cours de la construction du graphe.

a) Le critère de la méthode MDLPC


Ce critère permet de choisir l’hypothèse qui a une probabilité maximale, ce qui
revient à sélectionner l’hypothèse qui a une probabilité « de faire une mauvaise
décision minimale »
Le critère est calculé de la manière suivante :

Extraction des connaissances à partir des données


8
Avec,
L’échantillon ou sommet considéré
L’effectif de l’échantillon ,
Le sous - échantillon composé des exemples tels que
Le sous - échantillon composé des exemples tels que
L’effectif du sous - échantillon
Le nombre de classes
Les m classes d’effectif sur
Le nombre de classes présentes dans le sous - échantillon

A titre complémentaire, il est intéressant de noter que J. R. Quinlan


préconise à l’heure actuelle de discrétiser non plus selon le critère du Ratio de
Gain, mais d’utiliser le Gain et un critère basé sur le principe du MDL [Qui 96].

b) L’algorithme basé sur le critère du MDLPC


1. Initialisation en classant les exemples d’apprentissage par ordre croissant des
valeurs de l’attribut X à discrétiser.
2. Détermination des k points frontières. Par définition, les points de
discrétisation sont nécessairement des points frontières.
3. Sélectionner parmi les k points frontières celui qui maximise le gain
d’information et qui vérifie le critère du MDLPC.
4. Partitionner les exemples, selon le point de discrétisation, en deux sous -
populations.
5.
6. Recommencer les étapes 3 à 5, sur chacune des deux nouvelles sous -
populations. Le processus s’arrête dès que plus aucune bi - partition n’est
possible.
La méthode MDLPC est donc une méthode contextuelle, binaire,
récursive et descendante. En effet, au départ il n’y a aucun point de discrétisation,
les exemples constituent un seul intervalle. Puis sont déterminées récursivement
des partitions binaires, où chaque intervalle est divisé en deux sous - intervalles.
L'intérêt de cette approche, outre l'apport de la notion de points frontières, réside
dans la définition du critère d'arrêt de la discrétisation.

Extraction des connaissances à partir des données


9
c) Déroulement sur un exemple
Nous allons dérouler la méthode MDLPC sur un échantillon d’apprentissage
« Achat », qui est représenté par le tableau 1.3 suivant :

Numéro Age Revenu Etudiant Crédit Achat


1 26 Élevé Non Bon Non
2 28 Élevé Non Excellent Non
3 31 Élevé Non Bon Oui
4 41 Moyen Non Bon Oui
5 43 Faible Oui Bon Oui
6 45 Faible Oui Excellent Non
7 33 Faible Oui Excellent Oui
8 27 Moyen Non Bon Non
9 29 Faible Oui Bon Oui
10 42 Moyen Oui Bon Oui
11 30 Moyen Oui Excellent Oui
12 35 Moyen Non Excellent Oui
13 39 Élevé Oui Bon Oui
14 44 Moyen Non Excellent Non
Tableau 1. 2 Exemple « Achat ».

On remarque que l’attribut « Age » est continu, donc on lui applique la


discrétisation par l’algorithme MDLPC. Les étapes à suivre :

 Etape 1 : Classer les exemples d’apprentissage de l’attribut âge par ordre


croissant :
26 – 27 – 28 – 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 – 44 – 45

 Etape 2 : Déterminer les k points frontières, voir figure 2.6.


calcul de l’entropie :

26 – 27 – 28 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 44 – 45

N N N O O O O O O O O O N N

28.5 43.5

Figure 1. 1 Les k points frontières (etape2) de la méthode MDLPC.

 Etape 3 : Sélectionner parmi les k points frontières celui qui maximise le


gain d’information Gain (X, d, S) et qui vérifie le critère du MDLPC.

Extraction des connaissances à partir des données


10
D1: 28.5

D2 : 43.5

On prend celui qui maximise le gain c'est-à-dire : « D2 : 43.5 ».

 Etape 4 : On partitionne l’échantillon en deux sous populations S1 et S2,


voir figure 2.7.

S1 S2
26 – 27 – 28 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 44 – 45

N N N O O O O O O O O O N N

43.5

Figure 1. 2 les deux sous population (Etape 4) de la méthode MDLPC.

 Etape 5:

 Etape 6 : Refaire l’étape 3 à 5, voir figure 2.8.

S3 S1 S2
26 – 27 – 28 29 – 30 – 31 – 33 – 35 – 39 – 41 – 42 – 43 44 – 45

N N N O O O O O O O O O N N

]- ;28,5 [ [28.5 ; 43.5] [43.5 ;   [

Extraction des connaissances à partir des données


11
Figure 1. 3 Intervalles obtenus avec MDLPC (Etape6).

Le processus s’arrête car on ne peut plus partitionner les sous


échantillons S1 et S3 puisque les exemples appartiennent à la même classe.
L’attribut « âge » sera divisé en 3 intervalles : ,28,5
  Le tableau 2.4 illustre ce changement :

Numéro âge revenu étudiant crédit Achat


1 <28.5 Élevé Non Bon Non
2 <28.5 Élevé Non Excellent Non
3 28.5-43.5 Élevé Non Bon Oui
4 28.5-43.5 Moyen Non Bon Oui
5 28.5-43.5 Faible Oui Bon Oui
6 >43.5 Faible Oui Excellent Non
7 28.5-43.5 Faible Oui Excellent Oui
8 <28.5 Moyen Non Bon Non
9 28.5-43.5 Faible Oui Bon Oui
10 28.5-43.5 Moyen Oui Bon Oui
11 28.5-43.5 Moyen Oui Excellent Oui
12 28.5-43.5 Moyen Non Excellent Oui
13 28.5-43.5 Élevé Oui Bon Oui
14 28.5-43.5 Moyen Non Excellent Non
Tableau 1. 3 Exemple « Achat » après application de la méthode MDLPC.

Extraction des connaissances à partir des données


12

Vous aimerez peut-être aussi