CoursMAP6014 Classification Bayes

Concepts avancs en
mathmatiques et informatique
appliques
MAP-6014
Appproches statistiques de la
classification
Introduction
Thorme de Bayes
Frontires de dcisions
Caractristiques multiples
Frontire de dcision multidimensionnelles
Frontires de dcision d-dimensionnelle en
notation matricielle
Estimation des taux derreurs
Introduction
Beaucoup dapplications en reconnaissance de
formes (RF) utilisent des techniques de classifi-
cation bases sur des modles statistiques
Ces modles requirent lutilisation de param-
tres descriptifs devant tre estims partir des
donnes disponibles
En RF automatique, lapprentissage supervis
(supervised learning) permet le design dun
classificateur
Introduction
De plus, lentranement du classificateur est bas
sur un ensemble (training set) de caractristi-
ques descriptives de chaque classe connue per-
mettant la cration des critres de discrimination
Les critres de discrimination servent par la
suite pour classer des observations (sample)
dont nous voulons connatre la classe dapparte-
nance

Introduction
Lorsque nous ne connaissons pas la forme des
densits de probabilit (pdf) nous devons utiliser
des techniques non-paramtriques
(nonparametric classification) (ex: estimation
de densit)
Dautres mthodes permettent de regrouper des
ensembles dobjets (clusters) en fonction de
mesures de similarit et ce sans connaissance
priori des classes dappartenance (unsupervised
learning)
Introduction
Avec la classification paramtrique (parametric
classification) nous connaissons la forme gn-
rale des pdf de chaque classe
Les paramtres des pdf (moyenne et variance)
ne sont pas connus
Avant dutiliser les pdf, il faut dabord estimer
les valeurs de ces paramtres
Introduction
Gnralement, le but des procdures de classifi-
cation est destimer les probabilits quune
observation (sample) classer appartienne aux
diverses classes
Le classificateur choisi alors la classe la plus
vraisemblable
Thorme de Bayes
Un classificateur bas sur le thorme de Bayes
choisi la classe dappartenance la plus vraisem-
blable dune observation classer
La probabilit dappartenance une classe est
calcule partir du thorme de Bayes
La probabilit jointe quune observation
provienne dune classe C avec comme valeur
caractristique x est donne par
) ( ) ( ) ( ) ( ) ( x C p x p C x P C P x C p = = -
Thorme de Bayes
Le thorme de Bayes scrit alors
) (
) ( ) (
) (
x P
C x P C P
x C p =
Thorme de Bayes
Lorsque les classes dappartenance C
1
, C
2
, ..,C
k

sont indpendantes au sens statistique (vnements
mutuellement exclusifs)
) ( ) ( ..... ) ( ) ( ) (
1 1 k k
C x P C P C x P C P x p + + =
Le thorme de Bayes pour la classe C=C
i
devient
) (
) ( ) (
) (
x P
C x P C P
x C p
i i
i
=
Frontires de dcision
Nous pouvons aussi faire le design du classifica-
teur en crant des rgions ceintures par des
frontires
Chaque rgion reprsente lintervalle des valeurs
de x associ chaque classe
Pour une observation x donne, le classificateur
dtermine quelle rgion R
i
appartient lobser-
vation et associe x la classe correspondant la
rgion R
i

Le positionnement optimal des frontires permet
de subdiviser lespace des caractristiques en
rgions R
1
, ,R
k
de telle faon que le choix de
la classe C
i
est plus vraisemblable pour les
valeurs x dans la rgion R
i
que dans toute autre
rgion
Calculer la frontire de dcision entre 2 classes
A et B
Pour calculer la frontire de dcision entre 2
classes A et B nous supposons au pralable que
les pdf sont continues et se chevauchent donnant
) ( ) ( ) ( ) (
) ( ) (
B x p B P A x p A P
x B P x A P
=
=
Si les valeurs des caractristiques x pour chaque
classe A et B suivent une loi normale
2 2
) (
2
1
) (
2
1
2
1
) (
2
1
) (
) ( ) ( ) ( ) (
B
B
A
A
x
B
x
A
e B P e A P
B x p B P A x p A P
o
t o t o
=
=
En simplifiant nous obtenons
2 2
) ( ) / ) ( ln( 2 ) ( ) / ) ( ln( 2
B
B
B
A
A
A
x
B P
x
A P
o
o
o

o

+ =
+

Nous pouvons alors dduire une fonction discri-
minante de la forme
2 2
) ( ) / ) ( ln( 2 ) ( ) / ) ( ln( 2
B
B
B
A
A
A
x
B P
x
A P D
o
o
o
o

+
+ =
Les rgles de dcision (classification) devien-
nent
SI D = 0 classer x dans A ou B
SI D > 0 classer x dans B
SI D < 0 classer x dans A
La dernire galit est quadratique selon x et
peut avoir 1 racine relle, 2 racines relles ou
aucune racine
Lorsque les variances sont gales (o
A
=o
B
),
lexpression quadratique devient linaire avec
alors une seule racine relle

Lorsque nous supposons lindpendance des carac-
tristiques pour une mme classe C
j
, la probabilit
doccurrence du vecteur x est dduite par

) ( ...... ) ( ) ,.... (
) ,.... ( ) ( ) ,.... (
1 1
1
1 1
j d j j d
k
j
j d j d
C x P C x P C x x P
C x x P C P x x P
=
=
=
Le thorme de Bayes multidimentionnel donne

=
=
=
=
k
j
j d j
i d i i
d i
k
j
j j
i i
i
C x x P C P
C x P C x P C P
x x C P
C x P C P
C x P C P
x C P
1
1
1
1
1
) ,...., ( ) (
) ( ...... ) ( ) (
) ,...., (
) ( ) (
) ( ) (
) (
Avec des distributions normales multivaries la
probabilit doccurrence conditionnelle du
vecteur x devient

2 2
1
1 1
) (
2
1
) (
2
1
1
2 /
1 1
.....
.... ) 2 (
1
) ( ...... ) ( ) ,.... (
di
di d
i
i
x x
di i
d
i d i i d
e e
C x P C x P C x x P
o

o

o o t
=
=
multidimentionnelles
Si nous avons 2 caractristiques x
1
et x
2
, la
frontire de dcision optimale entre 2 classes C
i

et C
j
est donne par

) , ( ) ( ) , ( ) (
) , ( ) , (
2 1 2 1
2 1 2 1
j j i i
j i
C x x p C P C x x p C P
x x C P x x C P
=
=
La frontire optimale entre 2 classes normales
bivaries en supposant lindpendance des
valeurs des caractristiques est dduite par

2
1
0
2
1
0
5 . 0 ) ( ) (
2 2
2 1
2 2
2 1
1 2 1 1
1 2 1 1
2 1
=
=
=
=
= =
= =
= =
C x
C x
C x
C x
C x C x
C x C x
C P C P
o
o
o o

bivaries en supposant lindpendance des
valeurs des caractristiques

2
2 2
2 2
2
2
2 1
2 1
1
2 2 2 1
2
1 2
1 2
2
2
1 1
1 1
1
1 2 1 1
) (
2
1
) (
2
1
2
) (
2
1
) (
2
1
1
2
1
) (
2
1
) (
C x
C x
C x
C x
C x
C x
C x
C x
x x
C x C x
x x
C x C x
e C P
e C P
o

o

o

o

o to
o to
=
Aprs simplification nous obtenons la frontire
donne par

2
2 1
16
3
347 . 1 x x =
x
1
x
2
C
1
C
2
Sur la frontire

2
2 1
16
3
347 . 1 0 x x + =
La fonction discriminante est donne par
2
2 1
16
3
347 . 1 x x D + =
Les rgles de dcision (classification) devien-
nent
SI D = 0 classer lobservation dans C
1
ou C
2

SI D > 0 classer lobservation dans C
1

SI D < 0 classer lobservation dans C
2

bivaries avec des valeurs des caractristiques
corrles est dduite par

5 . 0
8 , 3
70 , 22
6 . 0
5 , 2
85 , 26
2 . 0 ) ( , 8 . 0 ) (
2 1
2 1
2 1
2 1
2 1
2 1
=
= =
= =
=
= =
= =
= =
G x x
G x G x
G x G x
G x x
G x G x
G x G x
G P G P
o o

o o

La pdf jointe bivarie associe chaque classe
prend la forme

2
) (
) )( ( 2
) (
) 1 ( 2
1
2 1
2 1 2 1
2
2
2 2
2 1
2
2
1
1
2 1
2
1
1
1
2
2 1
1 2
) , (
x x x x
x
x x
x
x
x
x x
x x
x x
x
x
x x
e
x x P
o o t
o

o o

o

=
(
(
Nous pouvons alors dduire les probabilits
conditionnelles

) , (
) , (
2 1
2 1
G x x p
G x x p
Sachant que sur la frontire
) , ( ) ( ) , ( ) (
2 1 2 1
G x x p G P G x x p G P =
En prenant le logarithme naturel de chaque ct
) , ( ln ) ( ln ) , ( ln ) ( ln
2 1 2 1
G x x p G P G x x p G P + = +
Aprs simplifications nous obtenons la frontire
donne par

0 07 . 5000 33 . 97 89 . 41 167 . 3 819 . 5
2 1
2
2 2 1
2
1
= + + + x x x x x x
Classes avec la mme variance et corrlation
La fonction discriminante devient dans ce cas

G x x D
G x x D
c <
c >
2 1
2 1
, 0
, 0
Les rgles de dcision (classification) deviennent

07 . 5000 33 . 97 89 . 41 167 . 3 819 . 5
2 1
2
2 2 1
2
1
+ + + = x x x x x x D
Frontires de dcision d-dimensionnelle
en notation matricielle
Si nous avons k classes et d caractristiques,
nous pouvons reprsenter les moyennes des
caractristiques de chaque classe C
i
par un
vecteur de moyennes

|
|
|
|
|
|
.
|
\
|
=
id
i
i
1
Les variances et covariances des caractristi-
ques de chaque classe C
i
sont reprsentes par
une matrice

|
|
|
|
|
|
.
|
\
|

=
2
1
2
2
2 12
1 12
2
1
d d
d
d
i
o o
o o o
o o o
Cette matrice est symtrique
La variance de chaque caract-
ristique est sur la diagonale
Le thorme de Bayes stipule quune observa-
tion x ou x est un vecteur de caractriatiques est
classe dans C
i
qui maximise

=
=
=
k
j
i i
i i
i
C x P C P x p
x P
C x P C P
x C p
1
) ( ) ( ) (
) (
) ( ) (
) (
Le numrateur de lexpression prcdente peut
scrire

) ( ) (
2
1
1
) 2 ( det
) (
) ( ) (
i i
T
i
x x
d
i
i
i i
e
C P
C x p C P

t

=
En prenant le logarithme et multipliant par -2 nous pou-
vont choisir la classe qui minimise
( ) ) ( ) ( 2 ln det ln ) ( ln 2
1
i i
T
i i i
x x d C P t + + +

Nous pouvons alors dduire une distance gn-
ralise

( ) ) ( ) ( det ln ) ( ln 2
1 2
i i
T
i i i
x x C P D + + =

Pour trouver la frontire entre 2 classes C
i
et C
j
nous
devons trouver lintersection par
( )
( ) ) ( ) ( det ln ) ( ln 2
) ( ) ( det ln ) ( ln 2
1
1
j j
T
j i j
i i
T
i i i
x x C P
x x C P

+ + =
+ +

Sachant que

i
T
i
T
i
T
i i
T
i
x x x
x x

1 1 1
1
2
) ( ) (

+ =

La frontire entre les classes C
i
et C
j
devient
i i
T
i j j
T
j i j i j
i i j j
i j
T T
P P c
b
A
c x b Ax x

1 1
1 1
1 1
det ln det ln ln 2 ln 2
2 2
0

+ + + =
+ =
=
= + +
De plus, si les matrices de covariances sont
gales pour chaque classe

i
T
i j
T
j i j
j i i j
T
k
P P c
b
c x b
A

1 1
1 1 1
1
ln 2 ln 2
) ( 2 2 2
0
0 .....

+ + =
= + =
= +
= = = =
Lhyperplan b
T
x = c est une frontire de
dcision linaire qui peut aussi prendre la forme

0
1 1
= + +
d d
x b x b
d: nombre de caractristiques
Une somme pondre des matrices de covariance
(pooled) donne une estimation non biaise de la
vraie covariance lorsquelles sont supposes gales
pour toutes les classes

( )
=
E
= E
k
i
i i pooled
n
k N
1
1
1
n
i
: nombre dobservations de C
i

N: nombre total dobservations
k: nombre de classes
i
: Estimation non biaise de la
covariance de C
i

i
est estime partir des donnes dentranement
par

( )( )
=
|
|
|
.
|
\
|
= E
|
|
|
.
|
\
|
=
n
i
k ik j ij jk
dd d
d
dd d
d
x x x x
n
s
s s
s s
S
1
1
1 11
1
1 11
1
1
o o
o o
S est un estimateur
non biais de
Si nous considrons un cas bidimensionnel avec
3 classes (k=3) avec une probabilit a priori uni-
forme de 1/3

|
|
.
|
\
|

=
|
|
.
|
\
|
=
|
|
.
|
\
|

=
|
|
.
|
\
|
=
|
|
.
|
\
|
=
|
|
.
|
\
|
=
0 . 5 0 . 4
0 . 4 0 . 7
,
5 . 3
0 . 6
:
0 . 5 0 . 2
0 . 2 0 . 2
,
5 . 7
5 . 8
:
0 . 5 0 . 2
0 . 2 0 . 2
,
0 . 9
0 . 4
:
0 2 2
1 1 1
0 0 0
C
C
C
Les pdf de P(C
i
)p(x|C
i
) de chaque classe

Les fonctions discriminantes (Bayes rules) sont

Les frontires de dcisions sont

Diagramme de dispersion de 1000 observa-
tions

Autre exemple de classification d-dimensionnelle

IR
R
G
B

1: Vgtation
2: Rivire
3: Haie
4: Tributaire
5: tang
(rsultat)

Zones importantes:

Sols nus
Vgtation
Eau
Estimation des taux derreurs (model-
based)
La probabilit derreur de classification des obser-
vations de la classe C
i
correspond la probabilit
que x soit hors de la rgion dappartenance R
i
de C
i

et est donne par

}
e
=
i
R x
i i
dx C x p C E P ) ( ) (
based)
Les probabilits derreur de classification de
chaque classe C
i

based)
La probabilit derreur totale est dduite partir
de la probabilit de bonne classification

}

e
=
e
=
e = =
= = =
= =
i i
i
R x
i
k
i
i
R x
i
k
i
i
R x
i
k
i
i i
k
i
i
dx C x p C P dx C x p C P C P E P
C x P C P C C P C P C P
) ( ) ( ) ( ) ( 1 ) ' ( 1 ) (
) ( ) ( ) ' ( ) ( ) ' (
1 1
1 1
based)
Pour lexemple prcdent, la frontire de
dcision est place x=45. Alors si x>45 x est
class dans B sinon dans A. La probabilit
derreur est

} }
} }

+ =
=
45
45
45
45
) ( ) ( ) ( ) ( ) (
) ( ) ( ) ( ) ( 1 ) (
dx B x p B P dx B x p A P E P
dx B x p B P dx A x p A P E P
Estimation des taux derreurs (comptage
simple)
Comptage du nombre derreurs de classification
du classificateur partir dun chantillons
dobjets test de classification connue
Lchantillon test doit tre diffrent de celui
utilis pour construire le classificateur
La probabilit derreur est estime par
n
k
E P = ) (
k: nombre derreurs de classification

n: nombre dobservations
simple)
La probabilit derreur estime ne sera gnrale-
ment pas gale la vraie probabilit derreur
La probabilit que k erreurs de classification
surviennent dans n observations est donne par
la distribution binomiale
( )
) (
! )! (
!
) ( 1 ) ( ) (
E nP
k k n
n
k
n
E P E P
k
n
k P
k n
k
=

=
|
|
.
|
\
|
|
|
.
|
\
|
=


simple)
Si P(E) tait connue, P(k) peut tre calcule pour
chaque valeur de k et nous pouvons alors dduire
un intervalle de confiance dans lequel k tombe
avec une probabilit donne (95 %)
Si P(E) = 0.2, et n = 10, alors k = 2 en moyenne,
mais k peut prendre dautres valeurs proches de 2
Nous cherchons alors lintervalle dans lequel k
tombe 95 % du temps

simple)
Si lintervalle est symtrique, alors 5 % des
probabilits sont lextrieur de lintervalle (2.5 5
de chaque ct de nP(E)
Si P(E)=0.2, les probabilits davoir k = 0..10 sont
approximativement 0.11, 0.27, 0.30, 0.2, 0.09,
0.03, 0.0, 0.0, 0.0, 0.0, 0.0
Lintervalle [0,4] nest pas symtrique mais
comporte 97 % des probabilits
Alors nous pouvons prvoir, que k sera dans lin-
tervalle [0,4] plus que 95 % du temps (P(E) = 0.2)

simple)
Cependant, P(E) est inconnue, nous ne
connaissons que k et n
Cherchons alors un intervalle de confiance pour
P(E), celui contenant la vraie valeur de P(E) 95 %
du temps tant donn k et n
Si n=10 et k=2, par essai et erreur nous pouvons
dduire que si P(E)=0.5561, P(k<=2) = 2.5 %

simple)
P(k<=2) est donn par
025 . 0 0003 . 0 0037 . 0 0210 . 0 ) 2 (
) 0 ( ) 1 ( ) 2 ( ) 2 (
= + + = s
= + = + = = s
k P
k P k P k P k P
Si P(E) > 0.5561, P(k<=2) < 0.025 alors k=2 est hors de lintervalle
pour un classificateur avec P(E) > 0.5561

Si P(E) <= 0.0252, P(k>=2) <= 0.025

Alors lintervalle [0.0252,0.5561] est un intervalle de confiance de
95 % pour P(E)

CoursMAP6014 Classification Bayes

Transféré par

Droits d'auteur :

Formats disponibles

CoursMAP6014 Classification Bayes

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CoursMAP6014 Classification Bayes

Transféré par

Droits d'auteur :

Formats disponibles

Concepts avancs en

Frontires de dcision d-dimensionnelle

k: nombre derreurs de classification

Estimation des taux derreurs (comptage

Vous aimerez peut-être aussi