Análisis Multivariante de La Varianza PDF
Análisis Multivariante de La Varianza PDF
Análisis Multivariante de La Varianza PDF
Cada una de las I muestras está formada por variables independientes y con la misma distribu-
ción. Se trata, por tanto, de I muestras aleatorias simples. Además se supone que las I muestras
son, entre sí, independientes.
Nótese que a las medias se les permite ser distintas, pero las varianzas se suponen todas iguales.
Por suponerse las varianzas iguales diremos que el modelo es homocedástico.
La única diferencia respecto del modelo univariante de análisis de la varianza radica en que las
variables Yij ahora pueden ser vectores.
Podemos expresar este modelo en la forma del modelo lineal general multivariante así:
0 1 0
Y11 .. U11
.
.. ..
. .
0 1 0
Y1n U1n
01 1 1
Y ..
0 U0
µ
11 11
.
1
.. ..
. µ0
1 2 .
0 = · .. + 0
Y
1n1 .. . U1n1
.. . ..
0
.
..
µI .
.
0 0
Y U
I1 I1
.. 1 .
. ..
..
.
Y0 InI
0
UIn I
1
Los parámetros de este modelo, que son los I vectores de medias µ1 , . . . , µI , se pueden estimar
39
40 Máster en Técnicas Estadísticas
por mínimos cuadrados mediante el procedimiento general del modelo lineal, donde ahora
n1
X
0
Y1j
n1 j=1
n2
n 2
X
0
..
Y 2j
X 0X = . 0
X Y = j=1
.. .
.
..
n
nI X I
YIj0
j=1
Y entonces
0
Ȳ1•
Ȳ2•0
−1
X 0X X 0Y = ..
.
0
ȲI•
por lo que las medias muestrales resultan ser los estimadores bajo este modelo.
Ahora planteamos el contraste de la igualdad de todas las medias, esto es, el contraste de la
hipótesis nula:
H0 : µ1 = µ2 = · · · = µI
µ1 − µI = µ2 − µI = · · · = µI−1 − µI = 0
Bajo esta restricción lineal, que reduce los parámetros a una única media común µ, podemos
considerar el nuevo modelo con ese único parámetro que se estimaría mediante la media global:
ni
I X I
1 X 1X
µ̂ = PI Yij = ni Ȳi• = Ȳ••
i=1 ni i=1 j=1
n
i=1
|E|
∈ Λ(d, q, n − p)
|E + H|
Análisis Multivariante 41
Observamos que esta tabla no es más que una extensión de la tabla ANOVA al caso multivariante.
Así, como
H ∈ Wishartd (Σ, I − 1)
E ∈ Wishartd (Σ, n − I)
y además son independientes, tenemos que
|E|
∈ Λ(d, I − 1, n − I)
|E + H|
El sentido común nos invita a rechazar la hipótesis nula cuando la variabilidad proveniente de
las diferencias entre poblaciones (que medimos mediante la matriz H ) sea grande comparada con
la proveniente del error (medida por E ).
Por tanto, rechazaremos la hipótesis nula cuando el estadístico |E|/|E + H| tome un valor menor
que el cuantil α de la distribución Λ(d, I − 1, n − I), siendo α el nivel de signicación jado de
antemano.
Al igual que en el modelo lineal general multivariante, aquí también podemos plantear el pro-
cedimiento de uniónintersección para el contraste de la hipótesis nula de igualdad de todas las
medias. En ese caso, el estadístico de contraste sería
φmax = máximo autovalor de HE −1
y rechazaremos la hipótesis nula cuando φmax > φmax,α siendo φmax,α el cuantil 1 − α de la
distribución de φmax .
Ejemplo 4.1 Sobre los datos de los lirios de Fisher, vamos a efectuar el contraste de igualdad
del vector de medias para las tres especies. Lo haremos suponiendo que cada individuo tiene
distribución normal multivariante, las muestras son independientes y tienen la misma matriz de
covarianzas.
42 Máster en Técnicas Estadísticas
q
a0 AB̂b + φmax,α a0 A (X 0 X)−1 A0 ab0 Eb ∀a, b = 1 − α
obteniendo así un conjunto de intervalos de conanza simultáneos para a0 ABb, con nivel de
conanza 1 − α.
En nuestro caso, las matrices A y B se encuentran en la expresión (4.1) y entonces
(µ1 − µI )0
(µ2 − µI )0
..
0
.
a AB = (a1 , a2 , . . . , aI−1 ) ·
..
.
0
(µI−1 − µI )
I
= a1 (µ1 − µI )0 + a2 (µ2 − µI )0 + · · · + aI−1 (µI−1 − µI )0 =
X
ci µ0i
i=1
PI−1
siendo ci = ai ∀i ∈ {1, . . . , I − 1} y cI = − i=1 ai . De este modo, pasamos de considerar
cualquier vector a a considerar cualquier vector (c1 , . . . , cI ) que verique Ii=1 ci = 0.
P
De igual modo,
I
X
a0 AB̂ = ci Ȳi•0
i=1
de modo que
1/n1 c1 I
−1 .. .. X c2i
a0 A X 0 X A0 a = (c1 , . . . , cI ) · . ·
. =
n
1/nI cI i=1 i
para Ii=1 ci µ0i b con nivel de conanza 1 − α. El vector (c1 , . . . , cI ) indica qué poblaciones vamos
P
a comparar, mientras que el vector b indica qué componentes del vector respuesta Y vamos a
utilizar para la comparación. De nuevo, φmax,α es el cuantil 1 − α de la distribución de φmax .
Así, si tomamos cr = 1, cs = −1 y ci = 0 si i 6= r, i 6= s, quedando el vector
(0, . . . , 0, 1, 0, . . . , 0, −1, 0, . . . , 0), y bj = 1, bk = 0 si k 6= j , para obtener b = (0, . . . , 0, 1, 0, . . . , 0),
entonces
s !
0 1 1
Ȳr• − Ȳs• b ± φmax,α + b0 Eb r, s ∈ {1, . . . , I} j ∈ {1, . . . , d}
nr ns
es un conjunto de intervalos de conanza simultáneos para la comparación de las poblaciones
résima y sésima en cada una de las componentes del vector Y .
Nótese que en este caso b0 Eb es la suma de cuadrados de los residuos relativos a la componente
jésima. En general, b0 Eb es la evaluación de la forma cuadrática E en el vector b, y contiene la
suma de cuadrados de las combinaciones lineales de los residuos según el vector b.
Ejemplo 4.2 Sobre el ejemplo de los lirios, vamos a efectuar las comparaciones múltiples de los
vectores de medias de cada especie.
Hasta aquí hemos considerado la comparación de poblaciones clasicadas según un único criterio.
En esta sección suponemos que hay dos factores: A y B. Del factor A podemos distinguir I niveles,
mientras que en el factor B podemos encontrar J niveles. En cada una de las I · J posibilidades
realizamos K observaciones de un vector aleatorio Y . El objetivo será estudiar la inuencia de
los factores A y B, o de su interacción, en la media del vector Y .
Así, planteamos el siguiente modelo:
Yijk = µ + αi + βj + γij + Uijk k ∈ {1, . . . , K} i ∈ {1, . . . , I} j ∈ {1, . . . , J}
siendo Uijk ∈ Nd (0, Σ). El parámetro µ representa la media global, los parámetros αi representan
el efecto principal del factor A, los parámetros βj representan el efecto principal del factor B y
los parámetros γij representan la interacción de los factores A y B. Además verican
I
X J
X I
X J
X
αi = βj = γij = γij = 0
i=1 j=1 i=1 j=1
Este modelo también se puede ver como un caso particular del modelo lineal general multi-
variante. Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo
relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a
contrastes de hipótesis referidas al modelo.
En este sentido planteamos hipótesis del tipo:
HA : αi = 0 ∀i
HB : βj = 0 ∀j
HAB : γij = 0 ∀i, j
44 Máster en Técnicas Estadísticas
|E|
∈ Λ (d, I − 1, IJ(K − 1))
|E + HA |
|E|
∈ Λ (d, J − 1, IJ(K − 1))
|E + HB |
|E|
∈ Λ (d, (I − 1)(J − 1), IJ(K − 1))
|E + HAB |
Ejemplo 4.3 En una especie de cesped, denominada Paspalum, se está investigando el efecto que
experimenta al ser infectada con un hongo. Al mismo tiempo se tiene en cuenta la temperatura,
dentro de un diseño con cuatro valores diferentes: 14, 18, 22, 26o C . En cada realización del
experimento se miden tres variables:
Comparaciones múltiples
Con la misma forma de proceder que en el MANOVA con un factor de variación, vamos a obtener
intervalos de conanza simultáneos para combinaciones lineales de los parámetros de este modelo.
Lo haremos con los efectos principales del factor A.
La hipótesis HA se puede expresar en cualquiera de estas formas equivalentes:
para Ii=1 ci µ̄0i• b con nivel de conanza 1 − α, siendo φmax,α el cuantil 1 − α de la distribución
P
del autovalor más grande de HA E −1 .
Queremos estudiar el efecto de ciertos tratamientos sobre un vector aleatorio, pero en la ex-
perimentación debemos tener en cuenta la presencia de otro efecto debido a una variable de
tipo bloque. Para ello, elaboramos un diseño experimental en el que cada tipo de tratamiento
se observará en cada nivel de la variable bloque. No consideramos replicación. Como resul-
tado obtenemos los vectores aleatorios: Yij que representa el vector aleatorio observado bajo el
tratamiento iésimo y en el bloque jésimo. Adoptamos el modelo siguiente:
siendo Uij ∈ Nd (0, Σ). El parámetro µ representa la media global, los parámetros αi representan
el efecto del tratamiento y los parámetros βj representan el efecto bloque. Observamos la gran
semejanza con el modelo MANOVA II anterior, del que se diferencia en la ausencia de replicación,
lo cual impide la estimación de interacciones. Además, en el presente modelo distinguimos entre
los tratamientos, que constituyen el objetivo primordial del estudio, y la variable bloque, que se
considera únicamente para controlar su efecto sobre la variable respuesta.
46 Máster en Técnicas Estadísticas
Se verica
I
X J
X
αi = βj = 0
i=1 j=1
Este modelo también se puede ver como un caso particular del modelo lineal general multi-
variante. Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo
relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a
contrastes de hipótesis referidas al modelo.
En este sentido planteamos hipótesis del tipo:
HT : αi = 0 ∀i
HB : βj = 0 ∀j
que se estudian en base a la siguiente descomposición de la variabilidad:
Ejemplo 4.4 En las islas Cook se realizó un experimento en bloques aleatorizados para estudiar
el efecto de seis tratamientos para combatir un parásito de las plantas de las alubias. Se midieron
tres variables
Y1 = El número de parásitos por hoja)
Y2 = El peso de las alubias por planta (medido en kilogramos)
√
Y3 = sen−1 ( p) , donde p es la proporción de hojas infestadas con el parásito
Los datos se encuentran en el chero "tema4ejemplo4.txt". Vamos a contrastar si hay diferencias
entre los tratamientos.
Análisis Multivariante 47
Comparaciones múltiples
para Ii=1 ci µ̄0i• b con nivel de conanza 1 − α, siendo φmax,α el cuantil 1 − α de la distribución
P
del autovalor más grande de HT E −1 .
Bibliografía.
Johnson, R.A. y Wichern, D.W. (1982). Applied multivariate statistical analysis. Prentice-Hall.
Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979). Multivariate analysis. Academic Press.