Anova 2
Anova 2
Anova 2
Frédéric Bertrand1
1 IRMA, Université de Strasbourg
Strasbourg, France
Magistère 2e Année
Contexte
Nous nous proposons d’analyser l’influence du temps et de
trois espèces ligneuses d’arbre sur la décomposition de la
masse d’une litière constituée de feuilles de Lierre.
Pour ce faire, 24 sachets d’une masse identique de feuilles de
lierre ont été constitués, sachets permettant une décomposition
naturelle. Puis une première série de 8 sachets, choisis au
hasard, a été déposée sous un chêne, une deuxième sous un
peuplier, et la dernière série sous un frêne.
Après 2, 7, 10 et 16 semaines respectivement, deux sachets
sont prélevés au hasard sous chaque arbre et la masse
résiduelle est déterminée pour chacun d’eux. Cette masse est
exprimée en pourcentage de la masse initiale.
Les données
Les valeurs observées sont données dans le tableau suivant :
Les écritures
Nous pouvons écrire ce tableau sous forme standard, qui est
celle utilisée dans la plupart des logiciels et en particulier avec
le logiciel R, c’est-à-dire avec trois colonnes, une pour la
semaine, une pour l’espèce et une pour la masse, et 24 lignes,
une pour chaque sachet.
Les données
Sachets Semaines Espèces Masses
1 2 Chêne 85, 10
2 2 Chêne 87, 60
3 2 Peuplier 85, 20
4 2 Peuplier 84, 90
5 2 Frêne 84, 30
6 2 Frêne 85, 75
7 7 Chêne 75, 90
8 7 Chêne 72, 85
Les données
Sachets Semaines Espèces Masses
9 7 Peuplier 73, 00
10 7 Peuplier 75, 70
11 7 Frêne 72, 80
12 7 Frêne 70, 80
13 10 Chêne 71, 60
14 10 Chêne 66, 95
15 10 Peuplier 74, 15
16 10 Peuplier 71, 85
Les données
Sachets Semaines Espèces Masses
17 10 Frêne 67, 10
18 10 Frêne 64, 95
19 16 Chêne 62, 10
20 16 Chêne 64, 30
21 16 Peuplier 67, 25
22 16 Peuplier 60, 25
23 16 Frêne 58, 75
24 16 Frêne 59, 00
Le but
Nous nous proposons d’utiliser l’analyse de la variance à deux
facteurs. Nous observons trois variables :
1 deux d’entre elles sont des variables contrôlées, l’espèce
d’arbre, qualitative à trois modalités, et la semaine qui peut
être considérée comme qualitative à quatre modalités.
2 La troisième variable est une réponse quantitative.
Donc l’analyse de la variance à deux facteurs (semaine et
espèce d’arbre) croisés, avec interaction, peut convenir, entre
autres méthodes d’analyse de ces données.
Le contexte
Dans l’étude des effets simultanés d’un facteur à I modalités et
d’un facteur à J modalités sur une variable quantitative Y ,
supposons que Y suive des lois normales, a priori différentes
dans les IJ populations disjointes déterminées par la
conjonction de deux modalités des facteurs étudiés.
Supposons que, dans la population correspondant à la
modalité d’ordre i du premier facteur et à la modalité d’ordre j
du deuxième facteur, nous ayons :
L’idée
Pour mettre en évidence les éventuelles différences entre le
comportement de la variable Y dans les I modalités du premier
facteur, dans les J modalités du deuxième facteur, ou encore
dans l’interaction entre les deux facteurs, nous considérons des
échantillons indépendants de même taille K de la variable Y
dans chacune des IJ populations , soit au total un n-échantillon
avec n = IJK .
Le modèle statistique
Pour la variable d’ordre k de la population d’indice (i, j), notée
Yijk , nous posons :
pour i0 = 1, . . . , I; et j0 = 1, . . . , J.
Le deuxième test
Nous testons :
l’effet du deuxième facteur F2 . Il consiste à tester l’égalité
des J paramètres βj correspondant aux J modalités du
deuxième facteur
H0 : les paramètres βj sont tous nuls
contre
H1 : les paramètres βj ne sont pas tous nuls.
Le troisième test
Nous testons :
l’effet de l’interaction entre les facteurs F1 et F2 . Il consiste
à comparer
H0 : les IJ paramètres (αβ)ij sont tous nuls
contre
H1 : les IJ paramètres (αβ)ij ne sont pas tous nuls.
Notations
Nous posons
1X
Y = Yijk ,
n
i,j,k
1 X 1 X 1 X
Y ij• = Yijk , Y i•• = Yijk , Y •j• = Yijk .
K JK IK
k j,k i,k
Notations
X X
SCT = (Yijk − Y )2 , SCR = (Yijk − Y ij• )2 ,
i,j,k i,j,k
X X
SCα = (Y i•• − Y )2 , SCβ = (Y •j• − Y )2 ,
i,j,k i,j,k
X
SCαβ = (Y ij• − Y i•• − Y •j• + Y )2 .
i,j,k
L’équation de l’anova
L’équation de l’analyse de la variance devient pour ce modèle :
où
la somme SCT , la somme totale, mesure la somme des
carrés des écarts à la moyenne globale, toutes causes
confondues,
Propriété
Sous les différentes hypothèses H0 d’égalité des paramètres
de la décomposition des µij , nous pouvons préciser les lois
respectives des variables précédentes. Elles suivent des lois du
χ2 :
1 2 1
LH0 SCT = χ n−1 , L SCR = χ2 n−IJ ,
σ2 σ2
1 2 1
LH0 SCα = χ I−1 , LH0 SCβ = χ2 J−1 ,
σ2 σ2
1
LH0 SCαβ = χ2 (I−1)(J−1) .
σ2
Suite de la propriété
De plus, les variables SCR et SCα , SCR et SCβ , SCR et SCαβ
sont indépendantes, de sorte que :
SCα
I−1
LH0 SCR = F(I−1),IJ(K −1) ,
IJ(K − 1)
SCβ
J −1
LH0 SCR = F(J−1),IJ(K −1) ,
IJ(K − 1)
Fin de la propriété
SCαβ
(I − 1)(J − 1)
L H0 = F(I−1)(J−1),IJ(K −1) .
SCR
IJ(K − 1)
Les tests
Les tests sont réalisés à l’aide des valeurs numériques
suivantes :
1 X 1 X
y= yijk , y ij• = yijk ,
IJK K
i,j,k k
1 X 1 X
y i•• = yijk , y •j• = yijk .
JK IK
j,k i,k
X I
X
scα = (y i•• − y )2 = JK y 2i•• − IJK y 2 ,
i,j,k i=1
X J
X
scβ = (y •j• − y )2 = IK y 2•j• − IJK y 2 ,
i,j,k j=1
X
scαβ = (y ij• − y i•• − y •j• + y )2
i,j,k
I X
X J I
X J
X
= K y 2ij• − JK y 2i•• − IK y 2•j• + IJK y 2 .
i=1 j=1 i=1 j=1
Décision
Pour un seuil α(= 5% = 0, 05 en général), les tables de la loi de
Fisher notée F nous fournissent pour chacun des trois tests
une valeur critique c telle que PH0 (F < c) = 1 − α. Alors nous
décidons :
H1 est vraie si c 6 f ,
H0 est vraie si f < c.
Tableau de l’anova
Source de Somme d.l. F
Variation des carrés
sα2
Due à Fα scα I−1 fα =
sR2
sβ2
Due à Fβ scβ J −1 fb =
sR2
2
sαβ
Interaction Fαβ scαβ (I − 1)(J − 1) fαβ =
sR2
Résiduelle scR IJ(K − 1)
Totale scT n−1
Exemple
Pour l’exemple précédent, en utilisant R, le tableau de l’analyse
de la variance s’écrit :
Sum Sq Df F P
Semaine 1741.31 3 121.6927 3.004e − 09
Arbre 58.08 2 6.0881 0.01495
Interaction 30.22 6 1.0559 0.43853
Résiduelle 57.24 12
Totale 1886.84 23
Conclusion
1 Si nous décidons H1 , il y a effet du premier facteur.
2 Si nous décidons H1 , il y a effet du deuxième facteur.
3 Si nous décidons H1 , il y a effet de l’interaction entre les
deux facteurs. Dans ce cas, pour préciser le type
d’interaction mise en évidence par le test, nous pourrons
comparer les moyennes y ij• pour les différentes valeurs de
i et j.
Conclusion
Graphiquement, nous porterons en abscisse les valeurs de i
(les I modalités). Pour chaque valeur de j nous relierons les
valeurs de y ij• portées en ordonnées. L’aspect du faisceau des
lignes brisées, variant ou non dans le même sens,
s’interprétera facilement.
85
Tableau$Especes
2
1
3
80
mean of Tableau$Masses
75
70
65
60
2 7 10 16
Tableau$Semaines
85
Tableau$Semaines
2
7
10
80
16
mean of Tableau$Masses
75
70
65
60
1 2 3
Tableau$Especes
Comparaisons multiples
Lorsque l’effet d’un facteur a été mis en évidence, le test de
Tukey ou celui de Dunnett s’applique chaque fois que le nombre
d’observations le permet, à l’aide de la même statistique. Les
effectifs ni et ni 0 sont alors ceux des classes comparées.
Exemple
Facteur 2 : Arbre. Nous obtenons les clases d’égalité
suivantes :
L’idée générale
Dans le cas où nous étudions l’effet simultané de deux facteurs
à, respectivement, I et J modalités et que nous disposons
d’une seule observation pour chaque population, c’est à dire
K = 1, les résultats du paragraphe précédent ne sont plus
valables. Nous devons supposer que l’interaction entre les
deux facteurs est nulle. Partant du même modèle, nous
écrivons plus simplement :
Yij = µ + αi + βj + Eij
I
X J
X
avec les contraintes αi = βj = 0.
i=1 j=1
Notations
Nous avons les notations analogues :
1 X 1X 1X
y= yij , y i• = yij , y •j = yij ,
IJ J I
i,j j i
X X
scT = (yij − y )2 = yij2 − IJy 2 ,
i,j i,j
X
scR = (yij − y i• − y •j + y )2 ,
i,j
Notations
X X
scα = (y i• − y )2 = J y 2i• − IJy 2 ,
i,j i
X X
scβ = (y •j − y )2 = I y 2•j − IJy 2 .
i,j j
Remarque importante
Remarquons que l’expression définissant, dans le cas avec
répétitions, la somme des carrés associée à l’interaction, est
associée ici à la somme des carrés de la résiduelle.
L’idée générale
La démarche est alors analogue à celle de l’analyse de la
variance à deux facteurs avec répétitions. Notons que dans ce
cas les valeurs ajustées sont données par
cij = y i• + y •j − y
µ
bij = yij − y i• − y •j + y ,
e i = 1, . . . , I; j = 1, . . . , J.
Exemple
L’influence d’un traitement grossissant, à base de vitamines, est
étudiée sur des animaux de races différentes. Pour cela nous
disposons d’animaux de trois races, notées Ri , pour i = 1, 2, 3,
et nous avons effectué trois traitements, notés Dj , pour
j = 1, 2, 3, utilisant respectivement 5, 10 et 15µg de vitamines
B12 par cm3 . Le gain moyen de poids par jour est mesuré, à
l’issue d’un traitement de 50 jours dans chaque cas. Un seul
animal est utilisé pour chaque couple « race-traitement ».
Les données
Voici les résultats des mesures :
R1 R2 R3
D1 1, 26 1, 21 1, 19
D2 1, 29 1, 23 1, 23
D3 1, 38 1, 27 1, 22
L’objectif
Nous nous proposons d’effectuer une analyse de la variance à
deux facteurs sans répétitions, il y a en effet une seule
observation par « case ». Les facteurs, contrôlés, à effets fixes,
sont la race et la dose, tous les deux à 3 modalités. La réponse
est le gain moyen de poids.
Les données
Cet ensemble de données doit être saisi, dans un logiciel sous
la forme d’un tableau empilé :
Les hypothèses
Nous testons les hypothèses :
R
H0 : les races n’ont pas d’effet,
contre
R
H1 : les races ont un effet
et D
H0 : les doses n’ont pas d’effet,
contre
D
H1 : les doses ont un effet.
Le tableau de l’anova
Voici le tableau de l’analyse de la variance construit par R :
Les résultats
Nous décidons :
1 H1R est vraie, il y a un effet de la race (p =0.02900)
2 H0D est vraie, il n’y a pas d’effet de la dose sur le gain de
poids (p = 0.08849).
Comparaisons multiples
Comme nous avons décidé que H1R est vraie, il y a un effet de
la race, nous allons procéder à des comparaisons multiples
pour analyser comment les races sont différentes par rapport
au gains de poids.
Pour ce faire nous utilisons le test de Tukey au seuil de
α = 5% = 0, 05.
Script de R et sorties de R
> TukeyHSD(model1)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = gains ∼ races + doses, data
= exemple2)
races
diff lwr upr p adj
2-1 -0.07333333 -0.1547783 0.008111587
0.0686703
3-1 -0.09666667 -0.1781116 -0.015221747
0.0288386
3-2 -0.02333333 -0.1047783 0.058111587
0.6040386
Modalités Classes
du facteur d’égalité
R1 A
R2 B
R3 B
Conclusions
Nous montrons ainsi que la première race est différente des
deux autres, dont le gain de poids est similaire.
Comme nous avons décidé H0D est vraie, il n’y a pas d’effet de
la dose sur le gain de poids, nous allons calculer le risque β a
posteriori.
Pour cela, nous calculons : Φ = 1, 575. En reportant cette
dernière valeur sur le graphique de l’abaque correspondant à
ν1 = J − 1 = 2 et à ν2 = (I − 1)(J − 1) = 4, nous obtenons
π1 = 0, 45 et β = 0, 55. Ce qui signifie, que le non effet de la
dose est associé à un risque de l’ordre de 0, 55 ce qui est
relativement important.