CoursMAP6014 Classification Bayes

Télécharger au format ppt, pdf ou txt
Télécharger au format ppt, pdf ou txt
Vous êtes sur la page 1sur 60

Concepts avancs en

mathmatiques et informatique
appliques
MAP-6014
Appproches statistiques de la
classification
Introduction
Thorme de Bayes
Frontires de dcisions
Caractristiques multiples
Frontire de dcision multidimensionnelles
Frontires de dcision d-dimensionnelle en
notation matricielle
Estimation des taux derreurs
Introduction
Beaucoup dapplications en reconnaissance de
formes (RF) utilisent des techniques de classifi-
cation bases sur des modles statistiques
Ces modles requirent lutilisation de param-
tres descriptifs devant tre estims partir des
donnes disponibles
En RF automatique, lapprentissage supervis
(supervised learning) permet le design dun
classificateur
Introduction
De plus, lentranement du classificateur est bas
sur un ensemble (training set) de caractristi-
ques descriptives de chaque classe connue per-
mettant la cration des critres de discrimination
Les critres de discrimination servent par la
suite pour classer des observations (sample)
dont nous voulons connatre la classe dapparte-
nance

Introduction
Lorsque nous ne connaissons pas la forme des
densits de probabilit (pdf) nous devons utiliser
des techniques non-paramtriques
(nonparametric classification) (ex: estimation
de densit)
Dautres mthodes permettent de regrouper des
ensembles dobjets (clusters) en fonction de
mesures de similarit et ce sans connaissance
priori des classes dappartenance (unsupervised
learning)
Introduction
Avec la classification paramtrique (parametric
classification) nous connaissons la forme gn-
rale des pdf de chaque classe
Les paramtres des pdf (moyenne et variance)
ne sont pas connus
Avant dutiliser les pdf, il faut dabord estimer
les valeurs de ces paramtres
Introduction
Gnralement, le but des procdures de classifi-
cation est destimer les probabilits quune
observation (sample) classer appartienne aux
diverses classes
Le classificateur choisi alors la classe la plus
vraisemblable
Thorme de Bayes
Un classificateur bas sur le thorme de Bayes
choisi la classe dappartenance la plus vraisem-
blable dune observation classer
La probabilit dappartenance une classe est
calcule partir du thorme de Bayes
La probabilit jointe quune observation
provienne dune classe C avec comme valeur
caractristique x est donne par
) ( ) ( ) ( ) ( ) ( x C p x p C x P C P x C p = = -
Thorme de Bayes
Le thorme de Bayes scrit alors
) (
) ( ) (
) (
x P
C x P C P
x C p =
Thorme de Bayes
Lorsque les classes dappartenance C
1
, C
2
, ..,C
k

sont indpendantes au sens statistique (vnements
mutuellement exclusifs)
) ( ) ( ..... ) ( ) ( ) (
1 1 k k
C x P C P C x P C P x p + + =
Le thorme de Bayes pour la classe C=C
i
devient
) (
) ( ) (
) (
x P
C x P C P
x C p
i i
i
=
Frontires de dcision
Nous pouvons aussi faire le design du classifica-
teur en crant des rgions ceintures par des
frontires
Chaque rgion reprsente lintervalle des valeurs
de x associ chaque classe
Pour une observation x donne, le classificateur
dtermine quelle rgion R
i
appartient lobser-
vation et associe x la classe correspondant la
rgion R
i

Frontires de dcision
Le positionnement optimal des frontires permet
de subdiviser lespace des caractristiques en
rgions R
1
, ,R
k
de telle faon que le choix de
la classe C
i
est plus vraisemblable pour les
valeurs x dans la rgion R
i
que dans toute autre
rgion
Frontires de dcision
Calculer la frontire de dcision entre 2 classes
A et B
Frontires de dcision
Pour calculer la frontire de dcision entre 2
classes A et B nous supposons au pralable que
les pdf sont continues et se chevauchent donnant
) ( ) ( ) ( ) (
) ( ) (
B x p B P A x p A P
x B P x A P
=
=
Frontires de dcision
Si les valeurs des caractristiques x pour chaque
classe A et B suivent une loi normale
2 2
) (
2
1
) (
2
1
2
1
) (
2
1
) (
) ( ) ( ) ( ) (
B
B
A
A
x
B
x
A
e B P e A P
B x p B P A x p A P
o

t o t o

=
=
Frontires de dcision
En simplifiant nous obtenons
2 2
) ( ) / ) ( ln( 2 ) ( ) / ) ( ln( 2
B
B
B
A
A
A
x
B P
x
A P
o

o
o

o

+ =

+

Nous pouvons alors dduire une fonction discri-
minante de la forme
2 2
) ( ) / ) ( ln( 2 ) ( ) / ) ( ln( 2
B
B
B
A
A
A
x
B P
x
A P D
o

o
o

o

+

+ =
Frontires de dcision
Les rgles de dcision (classification) devien-
nent
SI D = 0 classer x dans A ou B
SI D > 0 classer x dans B
SI D < 0 classer x dans A
Frontires de dcision
La dernire galit est quadratique selon x et
peut avoir 1 racine relle, 2 racines relles ou
aucune racine
Lorsque les variances sont gales (o
A
=o
B
),
lexpression quadratique devient linaire avec
alors une seule racine relle


Caractristiques multiples
Lorsque nous supposons lindpendance des carac-
tristiques pour une mme classe C
j
, la probabilit
doccurrence du vecteur x est dduite par

) ( ...... ) ( ) ,.... (
) ,.... ( ) ( ) ,.... (
1 1
1
1 1
j d j j d
k
j
j d j d
C x P C x P C x x P
C x x P C P x x P
=
=

=
Caractristiques multiples
Le thorme de Bayes multidimentionnel donne

=
=
=
=
k
j
j d j
i d i i
d i
k
j
j j
i i
i
C x x P C P
C x P C x P C P
x x C P
C x P C P
C x P C P
x C P
1
1
1
1
1
) ,...., ( ) (
) ( ...... ) ( ) (
) ,...., (
) ( ) (
) ( ) (
) (
Caractristiques multiples
Avec des distributions normales multivaries la
probabilit doccurrence conditionnelle du
vecteur x devient

2 2
1
1 1
) (
2
1
) (
2
1
1
2 /
1 1
.....
.... ) 2 (
1
) ( ...... ) ( ) ,.... (
di
di d
i
i
x x
di i
d
i d i i d
e e
C x P C x P C x x P
o

o

o o t

=
=
Frontires de dcision
multidimentionnelles
Si nous avons 2 caractristiques x
1
et x
2
, la
frontire de dcision optimale entre 2 classes C
i

et C
j
est donne par

) , ( ) ( ) , ( ) (
) , ( ) , (
2 1 2 1
2 1 2 1
j j i i
j i
C x x p C P C x x p C P
x x C P x x C P
=
=
Frontires de dcision
multidimentionnelles
La frontire optimale entre 2 classes normales
bivaries en supposant lindpendance des
valeurs des caractristiques est dduite par

2
1
0
2
1
0
5 . 0 ) ( ) (
2 2
2 1
2 2
2 1
1 2 1 1
1 2 1 1
2 1
=
=
=
=
= =
= =
= =
C x
C x
C x
C x
C x C x
C x C x
C P C P
o
o

o o

Frontires de dcision
multidimentionnelles
La frontire optimale entre 2 classes normales
bivaries en supposant lindpendance des
valeurs des caractristiques

2
2 2
2 2
2
2
2 1
2 1
1
2 2 2 1
2
1 2
1 2
2
2
1 1
1 1
1
1 2 1 1
) (
2
1
) (
2
1
2
) (
2
1
) (
2
1
1
2
1
) (
2
1
) (
C x
C x
C x
C x
C x
C x
C x
C x
x x
C x C x
x x
C x C x
e C P
e C P
o

o

o

o

o to
o to

=
Frontires de dcision
multidimentionnelles
Aprs simplification nous obtenons la frontire
donne par

2
2 1
16
3
347 . 1 x x =
x
1
x
2
C
1
C
2
Frontires de dcision
multidimentionnelles
Sur la frontire

2
2 1
16
3
347 . 1 0 x x + =
La fonction discriminante est donne par
2
2 1
16
3
347 . 1 x x D + =
Frontires de dcision
multidimentionnelles
Les rgles de dcision (classification) devien-
nent
SI D = 0 classer lobservation dans C
1
ou C
2

SI D > 0 classer lobservation dans C
1

SI D < 0 classer lobservation dans C
2

Frontires de dcision
multidimentionnelles
La frontire optimale entre 2 classes normales
bivaries avec des valeurs des caractristiques
corrles est dduite par


5 . 0
8 , 3
70 , 22
6 . 0
5 , 2
85 , 26
2 . 0 ) ( , 8 . 0 ) (
2 1
2 1
2 1
2 1
2 1
2 1
=
= =
= =
=
= =
= =
= =
G x x
G x G x
G x G x
G x x
G x G x
G x G x
G P G P

o o

o o

Frontires de dcision
multidimentionnelles
La pdf jointe bivarie associe chaque classe
prend la forme

2
) (
) )( ( 2
) (
) 1 ( 2
1
2 1
2 1 2 1
2
2
2 2
2 1
2
2
1
1
2 1
2
1
1
1
2
2 1
1 2
) , (
x x x x
x
x x
x
x
x
x x
x x
x x
x
x
x x
e
x x P
o o t
o

o o

o

=
(
(

Frontires de dcision
multidimentionnelles
Nous pouvons alors dduire les probabilits
conditionnelles

) , (
) , (
2 1
2 1
G x x p
G x x p
Sachant que sur la frontire
) , ( ) ( ) , ( ) (
2 1 2 1
G x x p G P G x x p G P =
En prenant le logarithme naturel de chaque ct
) , ( ln ) ( ln ) , ( ln ) ( ln
2 1 2 1
G x x p G P G x x p G P + = +
Frontires de dcision
multidimentionnelles
Aprs simplifications nous obtenons la frontire
donne par

0 07 . 5000 33 . 97 89 . 41 167 . 3 819 . 5
2 1
2
2 2 1
2
1
= + + + x x x x x x
Classes avec la mme variance et corrlation
Frontires de dcision
multidimentionnelles
La fonction discriminante devient dans ce cas

G x x D
G x x D
c <
c >
2 1
2 1
, 0
, 0
Les rgles de dcision (classification) deviennent

07 . 5000 33 . 97 89 . 41 167 . 3 819 . 5
2 1
2
2 2 1
2
1
+ + + = x x x x x x D
Frontires de dcision d-dimensionnelle
en notation matricielle
Si nous avons k classes et d caractristiques,
nous pouvons reprsenter les moyennes des
caractristiques de chaque classe C
i
par un
vecteur de moyennes

|
|
|
|
|
|
.
|

\
|

=
id
i
i

1
Frontires de dcision d-dimensionnelle
en notation matricielle
Les variances et covariances des caractristi-
ques de chaque classe C
i
sont reprsentes par
une matrice

|
|
|
|
|
|
.
|

\
|





=
2
1
2
2
2 12
1 12
2
1
d d
d
d
i
o o
o o o
o o o
Cette matrice est symtrique
La variance de chaque caract-
ristique est sur la diagonale
Frontires de dcision d-dimensionnelle
en notation matricielle
Le thorme de Bayes stipule quune observa-
tion x ou x est un vecteur de caractriatiques est
classe dans C
i
qui maximise

=
=
=
k
j
i i
i i
i
C x P C P x p
x P
C x P C P
x C p
1
) ( ) ( ) (
) (
) ( ) (
) (
Frontires de dcision d-dimensionnelle
en notation matricielle
Le numrateur de lexpression prcdente peut
scrire

) ( ) (
2
1
1
) 2 ( det
) (
) ( ) (
i i
T
i
x x
d
i
i
i i
e
C P
C x p C P

t

=
En prenant le logarithme et multipliant par -2 nous pou-
vont choisir la classe qui minimise
( ) ) ( ) ( 2 ln det ln ) ( ln 2
1
i i
T
i i i
x x d C P t + + +

Frontires de dcision d-dimensionnelle
en notation matricielle
Nous pouvons alors dduire une distance gn-
ralise

( ) ) ( ) ( det ln ) ( ln 2
1 2
i i
T
i i i
x x C P D + + =

Pour trouver la frontire entre 2 classes C
i
et C
j
nous
devons trouver lintersection par
( )
( ) ) ( ) ( det ln ) ( ln 2
) ( ) ( det ln ) ( ln 2
1
1
j j
T
j i j
i i
T
i i i
x x C P
x x C P


+ + =
+ +

Frontires de dcision d-dimensionnelle


en notation matricielle
Sachant que

i
T
i
T
i
T
i i
T
i
x x x
x x


1 1 1
1
2
) ( ) (

+ =

La frontire entre les classes C
i
et C
j
devient
i i
T
i j j
T
j i j i j
i i j j
i j
T T
P P c
b
A
c x b Ax x


1 1
1 1
1 1
det ln det ln ln 2 ln 2
2 2
0



+ + + =
+ =
=
= + +
Frontires de dcision d-dimensionnelle
en notation matricielle
De plus, si les matrices de covariances sont
gales pour chaque classe

i
T
i j
T
j i j
j i i j
T
k
P P c
b
c x b
A


1 1
1 1 1
1
ln 2 ln 2
) ( 2 2 2
0
0 .....


+ + =
= + =
= +
= = = =
Frontires de dcision d-dimensionnelle
en notation matricielle
Lhyperplan b
T
x = c est une frontire de
dcision linaire qui peut aussi prendre la forme

0
1 1
= + +
d d
x b x b
d: nombre de caractristiques
Frontires de dcision d-dimensionnelle
en notation matricielle
Une somme pondre des matrices de covariance
(pooled) donne une estimation non biaise de la
vraie covariance lorsquelles sont supposes gales
pour toutes les classes

( )

=
E

= E
k
i
i i pooled
n
k N
1
1
1
n
i
: nombre dobservations de C
i

N: nombre total dobservations
k: nombre de classes

i
: Estimation non biaise de la
covariance de C
i

Frontires de dcision d-dimensionnelle
en notation matricielle

i
est estime partir des donnes dentranement
par

( )( )

=
|
|
|
.
|

\
|
= E
|
|
|
.
|

\
|
=
n
i
k ik j ij jk
dd d
d
dd d
d
x x x x
n
s
s s
s s
S
1
1
1 11
1
1 11
1
1
o o
o o

S est un estimateur
non biais de
Frontires de dcision d-dimensionnelle
en notation matricielle
Si nous considrons un cas bidimensionnel avec
3 classes (k=3) avec une probabilit a priori uni-
forme de 1/3

|
|
.
|

\
|


=
|
|
.
|

\
|
=
|
|
.
|

\
|


=
|
|
.
|

\
|
=
|
|
.
|

\
|
=
|
|
.
|

\
|
=
0 . 5 0 . 4
0 . 4 0 . 7
,
5 . 3
0 . 6
:
0 . 5 0 . 2
0 . 2 0 . 2
,
5 . 7
5 . 8
:
0 . 5 0 . 2
0 . 2 0 . 2
,
0 . 9
0 . 4
:
0 2 2
1 1 1
0 0 0

C
C
C
Frontires de dcision d-dimensionnelle
en notation matricielle
Les pdf de P(C
i
)p(x|C
i
) de chaque classe

Frontires de dcision d-dimensionnelle
en notation matricielle
Les fonctions discriminantes (Bayes rules) sont

Frontires de dcision d-dimensionnelle
en notation matricielle
Les frontires de dcisions sont

Frontires de dcision d-dimensionnelle
en notation matricielle
Diagramme de dispersion de 1000 observa-
tions

Frontires de dcision d-dimensionnelle
en notation matricielle
Autre exemple de classification d-dimensionnelle

IR
R
G
B
Frontires de dcision d-dimensionnelle
en notation matricielle
Autre exemple de classification d-dimensionnelle

1: Vgtation
2: Rivire
3: Haie
4: Tributaire
5: tang
Frontires de dcision d-dimensionnelle
en notation matricielle
Autre exemple de classification d-dimensionnelle
(rsultat)

Zones importantes:

Sols nus
Vgtation
Eau
Estimation des taux derreurs (model-
based)
La probabilit derreur de classification des obser-
vations de la classe C
i
correspond la probabilit
que x soit hors de la rgion dappartenance R
i
de C
i

et est donne par

}
e
=
i
R x
i i
dx C x p C E P ) ( ) (
Estimation des taux derreurs (model-
based)
Les probabilits derreur de classification de
chaque classe C
i


Estimation des taux derreurs (model-
based)
La probabilit derreur totale est dduite partir
de la probabilit de bonne classification

}


e
=
e
=
e = =
= = =
= =
i i
i
R x
i
k
i
i
R x
i
k
i
i
R x
i
k
i
i i
k
i
i
dx C x p C P dx C x p C P C P E P
C x P C P C C P C P C P
) ( ) ( ) ( ) ( 1 ) ' ( 1 ) (
) ( ) ( ) ' ( ) ( ) ' (
1 1
1 1
Estimation des taux derreurs (model-
based)
Pour lexemple prcdent, la frontire de
dcision est place x=45. Alors si x>45 x est
class dans B sinon dans A. La probabilit
derreur est

} }
} }


+ =
=
45
45
45
45
) ( ) ( ) ( ) ( ) (
) ( ) ( ) ( ) ( 1 ) (
dx B x p B P dx B x p A P E P
dx B x p B P dx A x p A P E P
Estimation des taux derreurs (comptage
simple)
Comptage du nombre derreurs de classification
du classificateur partir dun chantillons
dobjets test de classification connue
Lchantillon test doit tre diffrent de celui
utilis pour construire le classificateur
La probabilit derreur est estime par
n
k
E P = ) (

k: nombre derreurs de classification


n: nombre dobservations
Estimation des taux derreurs (comptage
simple)
La probabilit derreur estime ne sera gnrale-
ment pas gale la vraie probabilit derreur
La probabilit que k erreurs de classification
surviennent dans n observations est donne par
la distribution binomiale
( )
) (
! )! (
!
) ( 1 ) ( ) (
E nP
k k n
n
k
n
E P E P
k
n
k P
k n
k
=

=
|
|
.
|

\
|

|
|
.
|

\
|
=

Estimation des taux derreurs (comptage


simple)
Si P(E) tait connue, P(k) peut tre calcule pour
chaque valeur de k et nous pouvons alors dduire
un intervalle de confiance dans lequel k tombe
avec une probabilit donne (95 %)
Si P(E) = 0.2, et n = 10, alors k = 2 en moyenne,
mais k peut prendre dautres valeurs proches de 2
Nous cherchons alors lintervalle dans lequel k
tombe 95 % du temps

Estimation des taux derreurs (comptage
simple)
Si lintervalle est symtrique, alors 5 % des
probabilits sont lextrieur de lintervalle (2.5 5
de chaque ct de nP(E)
Si P(E)=0.2, les probabilits davoir k = 0..10 sont
approximativement 0.11, 0.27, 0.30, 0.2, 0.09,
0.03, 0.0, 0.0, 0.0, 0.0, 0.0
Lintervalle [0,4] nest pas symtrique mais
comporte 97 % des probabilits
Alors nous pouvons prvoir, que k sera dans lin-
tervalle [0,4] plus que 95 % du temps (P(E) = 0.2)

Estimation des taux derreurs (comptage
simple)
Cependant, P(E) est inconnue, nous ne
connaissons que k et n
Cherchons alors un intervalle de confiance pour
P(E), celui contenant la vraie valeur de P(E) 95 %
du temps tant donn k et n
Si n=10 et k=2, par essai et erreur nous pouvons
dduire que si P(E)=0.5561, P(k<=2) = 2.5 %

Estimation des taux derreurs (comptage
simple)
P(k<=2) est donn par
025 . 0 0003 . 0 0037 . 0 0210 . 0 ) 2 (
) 0 ( ) 1 ( ) 2 ( ) 2 (
= + + = s
= + = + = = s
k P
k P k P k P k P
Si P(E) > 0.5561, P(k<=2) < 0.025 alors k=2 est hors de lintervalle
pour un classificateur avec P(E) > 0.5561

Si P(E) <= 0.0252, P(k>=2) <= 0.025

Alors lintervalle [0.0252,0.5561] est un intervalle de confiance de
95 % pour P(E)

Vous aimerez peut-être aussi