Análisis Multivariante de La Varianza PDF

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

Máster en Técnicas Estadísticas

Análisis Multivariante. Año 2008  2009. Profesor: César Sánchez Sellero.

Tema 4. Análisis multivariante de la varianza

4.1. Presentación del modelo.

Se trata de comparar las medias de I poblaciones normales multivariantes independientes y con


matriz de dispersión común.
Consideremos I muestras independientes

Y11 Y12 · · · Y1 n1 de una población Nd (µ1 , Σ)


Y21 Y22 · · · Y2 n2 de una población Nd (µ2 , Σ)
··· ··· ··· ··· ··· ···
YI1 YI2 · · · YI nI de una población Nd (µI , Σ)

Cada una de las I muestras está formada por variables independientes y con la misma distribu-
ción. Se trata, por tanto, de I muestras aleatorias simples. Además se supone que las I muestras
son, entre sí, independientes.
Nótese que a las medias se les permite ser distintas, pero las varianzas se suponen todas iguales.
Por suponerse las varianzas iguales diremos que el modelo es homocedástico.
La única diferencia respecto del modelo univariante de análisis de la varianza radica en que las
variables Yij ahora pueden ser vectores.

4.2. Descomposición de la variabilidad. Contraste de igualdad de medias.

Podemos expresar este modelo en la forma del modelo lineal general multivariante así:
 
 0  1  0 
Y11  .. U11
.

 ..     .. 
 .     . 
 0   1    0 
 Y1n     U1n 
 01   1  1 
 Y ..
  0    U0 
µ

 11   11
.
 1
 ..   .. 
  
 .     µ0  
1   2   .  
 0 =  ·  ..  +  0 
 Y  
 1n1   ..   .   U1n1 
 ..   .  .. 

0

 .   
..
 µI  . 
.
 0     0 
 Y    U 
 I1     I1 
 ..   1  .
 .    .. 
 
.. 

. 

Y0 InI
 0
UIn I
1

Los parámetros de este modelo, que son los I vectores de medias µ1 , . . . , µI , se pueden estimar

39
40 Máster en Técnicas Estadísticas

por mínimos cuadrados mediante el procedimiento general del modelo lineal, donde ahora
 n1 
X
0
   Y1j 
n1  j=1
 n2


 n 2
  X 
0 

..
  Y 2j
X 0X =  . 0
   
 X Y =  j=1 
.. .
   

 .



 .. 

 n 
nI  X I 
 YIj0 
j=1

Y entonces
0
 
Ȳ1•
 Ȳ2•0 
−1
X 0X X 0Y =  ..
 
.

 
0
ȲI•
por lo que las medias muestrales resultan ser los estimadores bajo este modelo.
Ahora planteamos el contraste de la igualdad de todas las medias, esto es, el contraste de la
hipótesis nula:
H0 : µ1 = µ2 = · · · = µI

Esta hipótesis se puede formular de modo equivalente así

µ1 − µI = µ2 − µI = · · · = µI−1 − µI = 0

lo cual admite esta forma matricial


µ01
   
1 −1
 1 −1   µ02 
.. .. ..
   
. . . (4.1)
   
AB =  · =0
.. .. ..
   
. . .
   
   
1 −1 µ0I

Bajo esta restricción lineal, que reduce los parámetros a una única media común µ, podemos
considerar el nuevo modelo con ese único parámetro que se estimaría mediante la media global:
ni
I X I
1 X 1X
µ̂ = PI Yij = ni Ȳi• = Ȳ••
i=1 ni i=1 j=1
n
i=1

El contraste de la hipótesis de igualdad se puede llevar a cabo por el método basado en la Λ de


Wilks, que compara la matriz de covarianzas de los residuos bajo el modelo general y bajo la
hipótesis nula. Así, si la hipótesis nula es cierta, el estadístico de contraste verica

|E|
∈ Λ(d, q, n − p)
|E + H|
Análisis Multivariante 41

siendo E la matriz de covarianzas de los residuos bajo el modelo general y EH = E + H la matriz


de covarianzas de los residuos bajo la hipótesis nula, p el número de parámetros independientes
bajo el modelo general y p − q el número de parámetros independientes bajo la hipótesis nula.
Esto da lugar a una descomposición de la matriz de covarianzas, que en este caso se suele
representar mediante la llamada tabla del análisis multivariante de la varianza o tabla MANOVA:

Fuente de variación Matriz de covarianzas Grados de libertad


I Xni
X 0
Entre poblaciones

H= Ȳi• − Ȳ•• Ȳi• − Ȳ•• I −1
i=1 j=1
I X ni I
X 0 X
Error

E= Yij − Ȳi• Yij − Ȳi• (ni − 1)
i=1 j=1 i=1
I Xni I
X 0 X
Total

EH = Yij − Ȳ•• Yij − Ȳ•• ni − 1
i=1 j=1 i=1

Observamos que esta tabla no es más que una extensión de la tabla ANOVA al caso multivariante.
Así, como
H ∈ Wishartd (Σ, I − 1)
E ∈ Wishartd (Σ, n − I)
y además son independientes, tenemos que
|E|
∈ Λ(d, I − 1, n − I)
|E + H|

El sentido común nos invita a rechazar la hipótesis nula cuando la variabilidad proveniente de
las diferencias entre poblaciones (que medimos mediante la matriz H ) sea grande comparada con
la proveniente del error (medida por E ).
Por tanto, rechazaremos la hipótesis nula cuando el estadístico |E|/|E + H| tome un valor menor
que el cuantil α de la distribución Λ(d, I − 1, n − I), siendo α el nivel de signicación jado de
antemano.
Al igual que en el modelo lineal general multivariante, aquí también podemos plantear el pro-
cedimiento de uniónintersección para el contraste de la hipótesis nula de igualdad de todas las
medias. En ese caso, el estadístico de contraste sería
φmax = máximo autovalor de HE −1
y rechazaremos la hipótesis nula cuando φmax > φmax,α siendo φmax,α el cuantil 1 − α de la
distribución de φmax .

Ejemplo 4.1 Sobre los datos de los lirios de Fisher, vamos a efectuar el contraste de igualdad
del vector de medias para las tres especies. Lo haremos suponiendo que cada individuo tiene
distribución normal multivariante, las muestras son independientes y tienen la misma matriz de
covarianzas.
42 Máster en Técnicas Estadísticas

4.3. Comparaciones múltiples.

Para un modelo lineal general tenemos


  q
P a ABb ∈ a AB̂b − φmax,α a0 A (X 0 X)−1 A0 ab0 Eb,
0 0

q  
a0 AB̂b + φmax,α a0 A (X 0 X)−1 A0 ab0 Eb ∀a, b = 1 − α

obteniendo así un conjunto de intervalos de conanza simultáneos para a0 ABb, con nivel de
conanza 1 − α.
En nuestro caso, las matrices A y B se encuentran en la expresión (4.1) y entonces

(µ1 − µI )0
 
 (µ2 − µI )0 
..
 
0
.
 
a AB = (a1 , a2 , . . . , aI−1 ) · 
 
..

.
 
 
0
(µI−1 − µI )
I
= a1 (µ1 − µI )0 + a2 (µ2 − µI )0 + · · · + aI−1 (µI−1 − µI )0 =
X
ci µ0i
i=1

PI−1
siendo ci = ai ∀i ∈ {1, . . . , I − 1} y cI = − i=1 ai . De este modo, pasamos de considerar
cualquier vector a a considerar cualquier vector (c1 , . . . , cI ) que verique Ii=1 ci = 0.
P

De igual modo,
I
X
a0 AB̂ = ci Ȳi•0
i=1

A continuación observamos que


I−1
!
X
a0 A = a1 , . . . , aI−1 , − ai = (c1 , . . . , cI )
i=1

de modo que
  
1/n1 c1 I
−1 ..   ..  X c2i
a0 A X 0 X A0 a = (c1 , . . . , cI ) ·  . ·
  .  =

n
1/nI cI i=1 i

Luego, nos queda el siguiente conjunto de intervalos de conanza simultáneos


 v v 
I I I I
u ! u !
X u X 2
ci X u X 2
ci
 ci Ȳi•0 b − tφmax,α b0 Eb, ci Ȳi•0 b + tφmax,α b0 Eb
ni ni
i=1 i=1 i=1 i=1
Análisis Multivariante 43

para Ii=1 ci µ0i b con nivel de conanza 1 − α. El vector (c1 , . . . , cI ) indica qué poblaciones vamos
P
a comparar, mientras que el vector b indica qué componentes del vector respuesta Y vamos a
utilizar para la comparación. De nuevo, φmax,α es el cuantil 1 − α de la distribución de φmax .
Así, si tomamos cr = 1, cs = −1 y ci = 0 si i 6= r, i 6= s, quedando el vector
(0, . . . , 0, 1, 0, . . . , 0, −1, 0, . . . , 0), y bj = 1, bk = 0 si k 6= j , para obtener b = (0, . . . , 0, 1, 0, . . . , 0),
entonces
s   !
0 1 1
Ȳr• − Ȳs• b ± φmax,α + b0 Eb r, s ∈ {1, . . . , I} j ∈ {1, . . . , d}
nr ns
es un conjunto de intervalos de conanza simultáneos para la comparación de las poblaciones
résima y sésima en cada una de las componentes del vector Y .
Nótese que en este caso b0 Eb es la suma de cuadrados de los residuos relativos a la componente
jésima. En general, b0 Eb es la evaluación de la forma cuadrática E en el vector b, y contiene la
suma de cuadrados de las combinaciones lineales de los residuos según el vector b.

Ejemplo 4.2 Sobre el ejemplo de los lirios, vamos a efectuar las comparaciones múltiples de los
vectores de medias de cada especie.

4.4. MANOVA con dos factores de variación.

Hasta aquí hemos considerado la comparación de poblaciones clasicadas según un único criterio.
En esta sección suponemos que hay dos factores: A y B. Del factor A podemos distinguir I niveles,
mientras que en el factor B podemos encontrar J niveles. En cada una de las I · J posibilidades
realizamos K observaciones de un vector aleatorio Y . El objetivo será estudiar la inuencia de
los factores A y B, o de su interacción, en la media del vector Y .
Así, planteamos el siguiente modelo:
Yijk = µ + αi + βj + γij + Uijk k ∈ {1, . . . , K} i ∈ {1, . . . , I} j ∈ {1, . . . , J}
siendo Uijk ∈ Nd (0, Σ). El parámetro µ representa la media global, los parámetros αi representan
el efecto principal del factor A, los parámetros βj representan el efecto principal del factor B y
los parámetros γij representan la interacción de los factores A y B. Además verican
I
X J
X I
X J
X
αi = βj = γij = γij = 0
i=1 j=1 i=1 j=1

Este modelo también se puede ver como un caso particular del modelo lineal general multi-
variante. Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo
relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a
contrastes de hipótesis referidas al modelo.
En este sentido planteamos hipótesis del tipo:
HA : αi = 0 ∀i
HB : βj = 0 ∀j
HAB : γij = 0 ∀i, j
44 Máster en Técnicas Estadísticas

que se estudian en base a la siguiente descomposición de la variabilidad, mediante lo que lla-


maremos tabla MANOVA II:

Fuente de variación Matriz de covarianzas Grados de libertad


I
X 0
Factor A

HA = JK Ȳi•• − Ȳ••• Ȳi•• − Ȳ••• I −1
i=1
J
X 0
Factor B

HB = IK Ȳ•j• − Ȳ••• Ȳ•j• − Ȳ••• J −1
j=1
I X
X J
Interacción

HAB = K Ȳij• − Ȳi•• − Ȳ•j• + Ȳ••• (I − 1)(J − 1)
i=1 j=1
0
× Ȳij• − Ȳi•• − Ȳ•j• + Ȳ•••
I XJ XK
X 0
Error

E= Yijk − Ȳij• Yijk − Ȳij• IJ(K − 1)
i=1 j=1 k=1
I J X K
XX 0
Total

Yijk − Ȳ••• Yijk − Ȳ••• IJK − 1
i=1 j=1 k=1

De este modo la hipótesis HA : αi = 0 ∀i se contrasta en base al estadístico

|E|
∈ Λ (d, I − 1, IJ(K − 1))
|E + HA |

la hipótesis HB : βj = 0 ∀j se contrasta en base al estadístico

|E|
∈ Λ (d, J − 1, IJ(K − 1))
|E + HB |

y la hipótesis HAB : γij = 0 ∀i, j se contrasta en base al estadístico

|E|
∈ Λ (d, (I − 1)(J − 1), IJ(K − 1))
|E + HAB |

Ejemplo 4.3 En una especie de cesped, denominada Paspalum, se está investigando el efecto que
experimenta al ser infectada con un hongo. Al mismo tiempo se tiene en cuenta la temperatura,
dentro de un diseño con cuatro valores diferentes: 14, 18, 22, 26o C . En cada realización del
experimento se miden tres variables:

Y1 = El peso fresco de las raíces (medido en gramos)


Y2 = La longitud máxima de las raíces (medida en milímetros)
Y3 = El peso fresco de las hojas (medido en gramos)

Los datos se encuentran en el chero "tema4ejemplo3.txt". Vamos a contrastar el efecto del


tratamiento con hongos, el efecto de la temperatura y la posible interacción entre ambos efectos.
Análisis Multivariante 45

Comparaciones múltiples

Con la misma forma de proceder que en el MANOVA con un factor de variación, vamos a obtener
intervalos de conanza simultáneos para combinaciones lineales de los parámetros de este modelo.
Lo haremos con los efectos principales del factor A.
La hipótesis HA se puede expresar en cualquiera de estas formas equivalentes:

α1 = α2 = · · · = αI = 0 ⇐⇒ µ̄1• = µ̄2• = · · · = µ̄I•


⇐⇒ µ̄1• − µ̄I• = µ̄2• − µ̄I• = · · · = µ̄(I−1)• − µ̄I• = 0
µ̄01• − µ̄0I•
 
 µ̄02• − µ̄0I• 
⇐⇒ AB =  .. =0
 
 . 
µ̄0(I−1)• − µ̄0I•

Razonando igual que en el MANOVA I, llegamos a


I
X
a0 AB = ci µ̄0i•
i=1
PI PI
con i=1 ci = 0. De igual modo, a AB̂ =
0
i=1 ci Ȳi•• . Finalmente, obtenemos el siguiente
0

conjunto de intervalos de conanza simultáneos


 v v 
I I I I
u ! u !
X u X ci2 X u X 2
ci
0 0
 ci Ȳi•• b − tφmax,α b0 Eb, ci Ȳi•• b + tφmax,α b0 Eb
JK JK
i=1 i=1 i=1 i=1

para Ii=1 ci µ̄0i• b con nivel de conanza 1 − α, siendo φmax,α el cuantil 1 − α de la distribución
P
del autovalor más grande de HA E −1 .

4.5. Diseño por bloques aleatorizados.

Queremos estudiar el efecto de ciertos tratamientos sobre un vector aleatorio, pero en la ex-
perimentación debemos tener en cuenta la presencia de otro efecto debido a una variable de
tipo bloque. Para ello, elaboramos un diseño experimental en el que cada tipo de tratamiento
se observará en cada nivel de la variable bloque. No consideramos replicación. Como resul-
tado obtenemos los vectores aleatorios: Yij que representa el vector aleatorio observado bajo el
tratamiento iésimo y en el bloque jésimo. Adoptamos el modelo siguiente:

Yij = µ + αi + βj + Uij i ∈ {1, . . . , I} j ∈ {1, . . . , J}

siendo Uij ∈ Nd (0, Σ). El parámetro µ representa la media global, los parámetros αi representan
el efecto del tratamiento y los parámetros βj representan el efecto bloque. Observamos la gran
semejanza con el modelo MANOVA II anterior, del que se diferencia en la ausencia de replicación,
lo cual impide la estimación de interacciones. Además, en el presente modelo distinguimos entre
los tratamientos, que constituyen el objetivo primordial del estudio, y la variable bloque, que se
considera únicamente para controlar su efecto sobre la variable respuesta.
46 Máster en Técnicas Estadísticas

Se verica
I
X J
X
αi = βj = 0
i=1 j=1

Este modelo también se puede ver como un caso particular del modelo lineal general multi-
variante. Así, aplicaremos los resultados conocidos para el modelo lineal general, tanto en lo
relativo a la estimación por mínimos cuadrados de los parámetros como en lo concerniente a
contrastes de hipótesis referidas al modelo.
En este sentido planteamos hipótesis del tipo:
HT : αi = 0 ∀i
HB : βj = 0 ∀j
que se estudian en base a la siguiente descomposición de la variabilidad:

Fuente de variación Matriz de covarianzas Grados de libertad


I
X 0
Tratamientos

HT = J Ȳi• − Ȳ•• Ȳi• − Ȳ•• I −1
i=1
J
X 0
Efecto Bloque

HB = I Ȳ•j − Ȳ•• Ȳ•j − Ȳ•• J −1
j=1
I X
X J
Error

E= Yij − Ȳi• − Ȳ•j + Ȳ•• (I − 1)(J − 1)
i=1 j=1
0
× Yij − Ȳi• − Ȳ•j + Ȳ••
I X
J
X 0
Total

Yij − Ȳ•• Yij − Ȳ•• IJ − 1
i=1 j=1

De este modo la hipótesis HT : αi = 0 ∀i se contrasta en base al estadístico


|E|
∈ Λ (d, I − 1, (I − 1)(J − 1))
|E + HT |
y la hipótesis HB : βj = 0 ∀j se contrasta en base al estadístico
|E|
∈ Λ (d, J − 1, (I − 1)(J − 1))
|E + HB |

Ejemplo 4.4 En las islas Cook se realizó un experimento en bloques aleatorizados para estudiar
el efecto de seis tratamientos para combatir un parásito de las plantas de las alubias. Se midieron
tres variables
Y1 = El número de parásitos por hoja)
Y2 = El peso de las alubias por planta (medido en kilogramos)

Y3 = sen−1 ( p) , donde p es la proporción de hojas infestadas con el parásito
Los datos se encuentran en el chero "tema4ejemplo4.txt". Vamos a contrastar si hay diferencias
entre los tratamientos.
Análisis Multivariante 47

Comparaciones múltiples

También podemos considerar intervalos de conanza simultáneos para combinaciones lineales


de los parámetros de este modelo. Así, podemos obtener el siguiente conjunto de intervalos de
conanza simultáneos
 v v 
I I I I
u ! u !
X u X 2
ci X u X 2
ci
 ci Ȳi•0 b − tφmax,α b0 Eb, ci Ȳi•0 b + tφmax,α b0 Eb
J J
i=1 i=1 i=1 i=1

para Ii=1 ci µ̄0i• b con nivel de conanza 1 − α, siendo φmax,α el cuantil 1 − α de la distribución
P
del autovalor más grande de HT E −1 .

Bibliografía.

Johnson, R.A. y Wichern, D.W. (1982). Applied multivariate statistical analysis. Prentice-Hall.

Mardia, K.V., Kent, J.T. y Bibby, J.M. (1979). Multivariate analysis. Academic Press.

Seber, G.A.F. (1984). Multivariate observations. Wiley.

También podría gustarte