Cours 1

Télécharger au format ppt, pdf ou txt
Télécharger au format ppt, pdf ou txt
Vous êtes sur la page 1sur 41

Cours 1

L ’ANALYSE DE VARIANCE
à un facteur
(Analysis Of Variance - ANOVA)

1
Plan de la séance

 Introduction
 ANOVA à un facteur
 Comparaisons multiples
 Analyse des résidus
 Transformations
 Calcul de la taille d ’échantillon
 Exemples avec SPSS

Devis expérimentaux pour la recherche en gestion 6-697-01


2
Introduction
 L’analyse de variance (ANOVA) est un outil statistique
très versatile et très utilisé pour étudier la relation entre
une variable dépendante (quantitative continue ; ex :
ventes, niveau de perception d’un produit) et un ou
plusieurs facteurs (qualitatifs ou quantitatifs discrets; ex :
nouveau produits, stimuli, nombre de promotions).
 L’ANOVA peut être utilisé tout aussi bien pour analyser
des données de plans expérimentaux contrôlés et avec
randomisation, que des données provenant de plans non
expérimentaux.
 Essentiellement, l’analyse de variance est une extension
du test d’hypothèse pour la comparaison de deux
moyennes.

Devis expérimentaux pour la recherche en gestion 6-697-01


3
Exemple 1: Expérience à un facteur contrôlé
à quatre niveaux.

 Une entreprise veut tester 4 différents types


d’emballage pour une nouvelle céréale pour le
petit déjeuner. 20 supermarchés avec
approximativement le même volume de ventes
sont sélectionnés comme unités expérimentales :

 5 supermarchés vendront les céréales dans l’emballage 1;


 5 supermarchés vendront les céréales dans l’emballage 2;
 5 supermarchés vendront les céréales dans l’emballage 3;
 5 supermarchés vendront les céréales dans l’emballage 4;

Devis expérimentaux pour la recherche en gestion 6-697-01


4
Exemple 1… suite

 Le prix, l’emplacement, le nombre de


boîtes de céréales sur les étagères, et les
promotions sur cette nouvelle céréales ont
été contrôlés et semblables dans tous les
supermarchés participants.
 La variable dépendante est le nombre de
caisses vendues dans une période de
temps prédéterminée.
Devis expérimentaux pour la recherche en gestion 6-697-01
5
Exemple 1… résultats

Design Supermarché
de l’emballage 1 2 3 4 5

1 11 17 16 14 15
2 12 10 15 19 11
3 23 20 18 17 .
4 27 33 22 26 28

Devis expérimentaux pour la recherche en gestion 6-697-01


6
Exemple 2:

Étude non expérimentale à un facteur


(facteur de classification) à ?? niveaux :
… à vous de donner un exemple!

Devis expérimentaux pour la recherche en gestion 6-697-01


7
ANOVA à un facteur
Dans l’exemple 1, on veut vérifier si les moyennes du
nombre de caisses vendues sont les mêmes pour
chaque design ou si au moins deux d’entre elles sont
différentes c.-à-d. un design a permit de vendre plus de
caisses de céréales en moyenne qu’un autre design.
Les hypothèses à confronter pour une ANOVA à un
facteur peuvent être formulées comme suit :

H0 : 1 = 2 = 3 = 4
Ha : au moins deux de ces moyennes sont différentes

Devis expérimentaux pour la recherche en gestion 6-697-01


8
ANOVA à un facteur … les hypothèses

En général, les hypothèses à confronter pour


l’ANOVA à un facteur à “ k ” niveaux sont :

H 0 : 1 = 2 = … = k
Ha : au moins deux de ces moyennes sont différentes

Remarque: les hypothèses sont posées de telle


sorte que l’hypothèse alternative est ce que l’on
veut montrer.
Devis expérimentaux pour la recherche en gestion 6-697-01
9
ANOVA à un facteur … les données
Niveau 1 : Y11, Y12, …, Y1n(1) moyenne : Y1.
Niveau 2 : Y21, Y22, …, Y2n(2) moyenne : Y 2.
… … …
Niveau K : Yk1,Yk2, …, Ykn(k) moyenne : Y k .

Moyenne de toutes les observations : Y ..

Nombre total d’observations est N=n(1)+n(2)+…+n(k).

La variabilité totale de toutes les observations est définit


comme la somme des carrés des écarts à la moyenne de
toutes les observations : k n (i )
Somme totale des carrés   (Yij  Y .. ) 2
i 1 j 1
Devis expérimentaux pour la recherche en gestion 6-697-01
10
ANOVA à un facteur… Tableau d ’ANOVA
L’idée principale de l’analyse de la variance est de
décomposer la variabilité totale en différentes sources de
variation. Généralement, on présente cette décomposition
dans un tableau qu’on appelle Tableau d’ANOVA.
Sources Somme Degrés
de Variation des carrés de liberté
k

Facteur (SCTR)  n (
i 1
i )(Y i .  Y .. ) 2
k-1
(Traitements)
k n (i )

Erreur (SCE)  ij
(Y  Y
i 1 j 1
i . ) 2
N-k
k n (i )

Totale (SCTO)  ij
(Y  Y
i 1 j 1
.. ) 2
N-1

Devis expérimentaux pour la recherche en gestion 6-697-01


11
ANOVA à un facteur… Concept
Si l’hypothèse nulle H0 : 1 = 2 = … = k est
vraie, alors les moyennes des observations pour
chacun des niveaux du facteur seront très
semblables et donc très proches de la moyenne de
toutes les observations. Ainsi SCTR sera très petite
(proche de zéro).

Si, au contraire, l’hypothèse alternative est vraie,


alors SCTR sera relativement grande par rapport à
SCE, et on dira alors qu’une bonne part de la
variabilité observée dans les données peut être
expliquée par le facteur à l’étude (par exemple : le
design des boîtes de céréales dans l’exemple 1).
Devis expérimentaux pour la recherche en gestion 6-697-01
12
ANOVA à un facteur… Distribution théorique

Devis expérimentaux pour la recherche en gestion 6-697-01


13
Modèle pour l’ANOVA à un facteur

Yij   i   ij i  1,  , k et j  1,  , ni


Yij =: réponse du sujet j dans le groupe i
i =: moyenne du groupe i
ij =: erreur aléatoire

On suppose que les ij sont indépendantes avec


une distribution normale de moyenne 0 et même
variance notée 2 .
Devis expérimentaux pour la recherche en gestion 6-697-01
14
Modèle pour l’ANOVA à un facteur … suite

Posons:  i     i   
i     i où  i   i   
Alors le modèle devient:

Yij     i   ij i  1,  , k et j  1,  , ni

 =: moyenne globale
i =: effet du niveau i du facteur
ij =: erreur aléatoire.
Devis expérimentaux pour la recherche en gestion 6-697-01
15
ANOVA à un facteur… Statistique du test
Pour confronter les hypothèses H0 et Ha , la
statistique du test est :

SCTR (k - 1)
F
SCE (N - k)

Si H0 est vraie, c.-à-d. toutes les k moyennes


sont égales, alors la statistique F suit une loi de
Fisher avec (k-1) et (N-k) degrés de liberté.
Devis expérimentaux pour la recherche en gestion 6-697-01
16
ANOVA à un facteur… Statistique du test
À partir des observations recueillies, on calcule
la statistique F et le seuil expérimental (p-value) à
l’aide de la loi de Fisher.

Si le seuil expérimental est petit, inférieur à 5%


par exemple, alors on rejettera H0 .

Si on rejette l’hypothèse nulle H0 , c’est donc


dire qu’au moins deux moyennes sont
significativement différentes, du point de vue
statistique.
Devis expérimentaux pour la recherche en gestion 6-697-01
17
Les erreurs possibles lors d’une prise de
décision à partir d ’un échantillon:

 Erreur de Type I:
 Rejeter H0 en faveur de Ha (c.-à-d. prendre la décision
Ha) lorsque en réalité H0 est vraie.
 La probabilité d ’une erreur de Type I est la probabilité
qu’on a d ’observer la « valeur » obtenue dans notre
échantillon, ou une valeur encore plus « éloignée » de
H0 , si H0 est vraie. Cette probabilité est souvent
appelée «p-value » dans le jargon statistique.
 Erreur de Type II:
 Ne pas rejeter H0 en faveur de Ha lorsque en réalité Ha
est vraie.

Devis expérimentaux pour la recherche en gestion 6-697-01


18
Vérité

H0 H1

H0 Erreur
 de
Décision Type II
H1 Erreur
de 
Type I

Devis expérimentaux pour la recherche en gestion 6-697-01


19
Contrôle des erreurs de Type I et II

 Étant donné les résultats obtenus dans


l ’échantillon, on calcule la probabilité de
commettre une erreur de Type I (p-value).

 Si cette probabilité est relativement petite


(p-value < 5% par exemple), alors on
rejettera H0 pour prendre la décision Ha.
Sinon on ne rejettera pas H0.

Devis expérimentaux pour la recherche en gestion 6-697-01


20
Contrôle des erreurs de Type I et II … suite

 Pour une erreur de Type I fixée à l’avance


(ex. 5%), on contrôle l’erreur de Type II
avant de mener l ’étude à l’aide de la taille
de l’échantillon.

 On définit la puissance du test d’hypothèse


comme la quantité:
(1- probabilité d’une erreur de Type II).

Devis expérimentaux pour la recherche en gestion 6-697-01


21
Exemple 1
SPSS : Graphs> Boxplot…> Define
40

30

3
20
# de caisses vendues

1
10

0
N= 5 5 4 5

1 2 3 4

design
Devis expérimentaux pour la recherche en gestion 6-697-01
22
Exemple 1… suite

SPSS: Analyze > Compare Means > One-Way ANOVA

Descriptives

# de caisses vendues
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
1 5 14,60 2,30 1,03 11,74 17,46 11 17
2 5 13,40 3,65 1,63 8,87 17,93 10 19
3 4 19,50 2,65 1,32 15,29 23,71 17 23
4 5 27,20 3,96 1,77 22,28 32,12 22 33
Total 19 18,63 6,44 1,48 15,53 21,74 10 33

Devis expérimentaux pour la recherche en gestion 6-697-01


23
Exemple 1… suite

Tableau d’ANOVA

ANOVA

# de caisses vendues
Sum of
Squares df Mean Square F Sig.
Between Groups 588,221 3 196,074 18,591 ,000
Within Groups 158,200 15 10,547
Total 746,421 18

Devis expérimentaux pour la recherche en gestion 6-697-01


24
Exemple 1 … nouvelles données
(Voir fichier anova1.sav)

Descriptives

# de caisses vendues
95% Confidence Interval for
Mean
N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum
1 5 14,60 2,30 1,03 11,74 17,46 11 17
2 5 13,40 3,65 1,63 8,87 17,93 10 19
3 4 12,75 1,71 ,85 10,03 15,47 11 15
4 5 13,60 1,82 ,81 11,34 15,86 11 16
Total 19 13,63 2,41 ,55 12,47 14,79 10 19

ANOVA

# de caisses vendues
Sum of
Squares df Mean Square F Sig.
Between Groups 8,071 3 2,690 ,419 ,742
Within Groups 96,350 15 6,423
Total 104,421 18

Devis expérimentaux pour la recherche en gestion 6-697-01


25
Analyse des effets des niveaux du facteur
 Si le test F de l’ANOVA nous mène à rejeter H 0 et
conclure qu’au moins deux des moyennes sont
différentes, cela implique qu’il y a une relation
statistiquement significative entre la variable
dépendante et le facteur à l’étude.
 Dans ce cas, on désire pousser l’analyse plus
loin pour en savoir plus sur la nature de la
relation:
 Comparaisons multiples
 Estimation de contrastes et intervalles de confiance

Devis expérimentaux pour la recherche en gestion 6-697-01


26
Estimation des niveaux du facteur

Un estimateur sans biais de la moyenne i est :


ˆ i  yi. i  1,  , k
1  1 ni
ni ni
yij    E yij     i   i
1
E  yi.   E   
 nij 1  ni j 1 ni j 1
 1 ni  1 ni ni
 2
Var  yi.   Var   yij   2  Var yij   2   
1
  2

 ni j 1  ni j 1 ni j 1 ni
Une estimation de Var  yi.  est données par
MCE
S  yi .  
2

ni
Devis expérimentaux pour la recherche en gestion 6-697-01
27
Intervalle de confiance pour les différents
niveaux du facteur

La statistique yi .   i
s  yi . 
suit une loi de Student avec N-k degrés de liberté,
notée t(N-k), ou N est le nombre total d’observations.
Donc, un intervalle de confiance au niveau 1- pour
la moyenne i est donné par :


yi.  t (1  ; N  k ) s  yi . 
2
Devis expérimentaux pour la recherche en gestion 6-697-01
28
Estimation de la différence entre deux
niveaux du facteur
Un estimateur sans biais de la différence D entre les
moyenne i et i’ :

D   i   i ' i  i ' i, i '  1,  , k


Dˆ  y - y i. i '.

 2 1 1
Var D  Var  yi. - yi '.   Var  yi.   Var  yi '.      
ˆ
 ni ni ' 
2 ˆ
 1 1
S D  MCE   
 ni ni ' 
Devis expérimentaux pour la recherche en gestion 6-697-01
29
Intervalle de confiance pour la différence
entre deux niveaux du facteur

La statistique ˆ D
D
ˆ)
s( D
suit une loi de Student avec N-k degrés de liberté,
notée t(N-k), ou N est le nombre total d’observations.
Donc, un intervalle de confiance au niveau 1- pour
la différence D est donné par :

ˆ  ˆ
D  t (1  ; N  k ) s D
2
 
Devis expérimentaux pour la recherche en gestion 6-697-01
30
Exemple 1 … Comparaison multiples
Comparaisons de toutes les moyennes deux à deux :
Multiple Comparisons

Dependent Variable: # de caisses vendues


LSD

Mean
Difference 95% Confidence Interval
(I) design (J) design (I-J) Std. Error Sig. Lower Bound Upper Bound
1 2 1,20 2,05 ,568 -3,18 5,58
3 -4,90* 2,18 ,040 -9,54 -,26
4 -12,60* 2,05 ,000 -16,98 -8,22
2 1 -1,20 2,05 ,568 -5,58 3,18
3 -6,10* 2,18 ,013 -10,74 -1,46
4 -13,80* 2,05 ,000 -18,18 -9,42
3 1 4,90* 2,18 ,040 ,26 9,54
2 6,10* 2,18 ,013 1,46 10,74
4 -7,70* 2,18 ,003 -12,34 -3,06
4 1 12,60* 2,05 ,000 8,22 16,98
2 13,80* 2,05 ,000 9,42 18,18
3 7,70* 2,18 ,003 3,06 12,34
*. The mean difference is significant at the .05 level.

Devis expérimentaux pour la recherche en gestion 6-697-01


31
Comparaison multiples … suite
La procédure que nous venons de voir pour les
comparaisons multiples à deux limitations importantes :
1. Le niveau de confiance 1- ne s’applique que pour
l’estimation par intervalle d’une différence particulière et
non pour un ensemble d’intervalles. De la même façon,
le seuil expérimental (p-value) ne s’applique que pour le
test de la comparaison de deux moyennes en particulier
et non pour l’ensemble des tests de comparaisons
multiples.

2. Le niveau de confiance 1- et le seuil expérimental


sont corrects seulement si l’estimation ou le test n’est pas
suggéré par les données.

Devis expérimentaux pour la recherche en gestion 6-697-01


32
Comparaison multiples … suite
Pour que le niveau de confiance 1- s’applique à
l’ensemble des intervalles de confiances, ou que le
seuil expérimental calculé pour chaque comparaison
de moyennes tienne compte du fait que plusieurs
comparaisons seront effectuées, il faut appliquer
certaines “ corrections ” à la procédure de
comparaisons multiples. Il existe plusieurs façons de
faire ces corrections, certaines étant meilleures que
d’autres selon la situation :

Bonferroni, Dunnet, Scheffe, Tukey, etc.

Devis expérimentaux pour la recherche en gestion 6-697-01


33
Comparaisons multiples de Bonferroni

Supposons que nous sommes intéressés par g


comparaisons multiples. Pour contrôler l’erreur de
Type I Au niveau  pour l’ensemble des g
comparaisons, la méthode de Bonferroni consiste à
multiplier le seuil expérimental par le nombre de
comparaisons g.
Les intervalles de confiance pour un niveau de
confiance global de1- pour les g différences D sont
donnés par :  ˆ  t (1 
D
2g
 
ˆ
; N  k )s D

Devis expérimentaux pour la recherche en gestion 6-697-01


34
Exemple 1 … Comparaison multiples
Comparaisons de toutes les moyennes deux à
deux avec la méthode d’ajustement de Bonferroni:
Multiple Comparisons

Dependent Variable: # de caisses vendues


Bonferroni

Mean
Difference 95% Confidence Interval
(I) design (J) design (I-J) Std. Error Sig. Lower Bound Upper Bound
1 2 1,20 2,05 1,000 -5,04 7,44
3 -4,90 2,18 ,240 -11,51 1,71
4 -12,60* 2,05 ,000 -18,84 -6,36
2 1 -1,20 2,05 1,000 -7,44 5,04
3 -6,10 2,18 ,081 -12,71 ,51
4 -13,80* 2,05 ,000 -20,04 -7,56
3 1 4,90 2,18 ,240 -1,71 11,51
2 6,10 2,18 ,081 -,51 12,71
4 -7,70* 2,18 ,018 -14,31 -1,09
4 1 12,60* 2,05 ,000 6,36 18,84
2 13,80* 2,05 ,000 7,56 20,04
3 7,70* 2,18 ,018 1,09 14,31
*. The mean difference is significant at the .05 level.

Devis expérimentaux pour la recherche en gestion 6-697-01


35
Présupposés pour la validité de l ’ANOVA
1. Les observations doivent suivre une loi normal.
2. Les variances pour chaque niveau du facteur doivent
être égales.
3. Les observations doivent être indépendantes.
L’ANOVA est généralement robuste à la non-normalité
des observations.
L’ANOVA n’est pas très robuste à la non-égalité des
variances pour chaque niveau du facteur. Dans ce
cas on peut essayer une transformation pour
stabiliser les variances (ex : log, racine carrée, 1/Y ),
ou utiliser une correction (test approximatif).

Devis expérimentaux pour la recherche en gestion 6-697-01


36
Vérifications des présupposés pour la
validité de l ’ANOVA

 Graphique des résidus standardisés vs


les valeurs prédites.
 Tests d’égalités des variances (ex: test de
Levene).
 Histogramme des résidus ou des résidus
standardisés.
 Graphiques P-P ou Q-Q pour vérifier la
normalité des résidus standardisés.

Devis expérimentaux pour la recherche en gestion 6-697-01


37
Graphique des résidus standardisés vs les
valeurs prédites.
SPSS: Analyze > General Linear Model > Univariate > Save
(pour sauvegarder les valeurs prédites et les résidus)
SPSS: Graphs > scatter > simple
2,0

1,5

1,0
Standardized Residual for CAISSES

,5

0,0

-,5

-1,0

-1,5

-2,0
12 14 16 18 20 22 24 26 28

Predicted Value for CAISSES

Devis expérimentaux pour la recherche en gestion 6-697-01


38
Histogramme des résidus standardisés
SPSS: Graphs > Histogram

1 Std. Dev = ,91


Mean = 0,00
0 N = 19,00
-1,50 -1,00 -,50 0,00 ,50 1,00 1,50 2,00

Standardized Residual for CAISSES

Devis expérimentaux pour la recherche en gestion 6-697-01


39
Graphique P-P des résidus standardisés
SPSS: Graphs > P-P

Normal P-P Plot of Standardized Residual for CAISS


1,00

Expected Cum Prob ,75

,50

,25

0,00
0,00 ,25 ,50 ,75 1,00

Observed Cum Prob

Devis expérimentaux pour la recherche en gestion 6-697-01


40
Calcul de la taille de l’échantillon

 Référence: pp 1052-1063 de ALSM.


 Voir fichiers « taille-anova1.SPS », « taille-
anova1.sav », ou « taille-anova1.sas ».

Devis expérimentaux pour la recherche en gestion 6-697-01


41

Vous aimerez peut-être aussi