Regresión Líneal Simple
Regresión Líneal Simple
Regresión Líneal Simple
Francesc Carmona
Departament dEstadstica
Indice General
1 Las condiciones
1.1
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
1.4
11
1.5
12
1.6
14
1.7
Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14
1.8
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2 Estimaci
on
18
2.1
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.2
El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
18
2.3
21
2.4
22
2.5
Estimacion de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . .
26
2.6
27
2.7
Matriz de dise
no reducida . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.8
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
3 Funciones param
etricas estimables
33
3.1
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
33
3.2
Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . .
35
3.3
38
3.4
Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
3.5
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
42
4 Contraste de hip
otesis lineales
44
4.1
44
4.2
45
4.3
48
4.4
55
4.5
56
4.6
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58
5 Regresi
on
5.1
5.2
5.3
5.4
59
59
5.1.1
59
5.1.2
Estimacion de la varianza . . . . . . . . . . . . . . . . . . . . . .
60
5.1.3
61
5.1.4
63
Regresion lineal m
ultiple . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
5.2.1
67
5.2.2
Calculo de la regresion m
ultiple . . . . . . . . . . . . . . . . . . .
68
Regresion polinomica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
70
5.3.1
71
5.3.2
72
74
5.4.1
Comparacion global . . . . . . . . . . . . . . . . . . . . . . . . . .
74
5.4.2
Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . .
75
6 An
alisis de la Varianza
78
6.1
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
6.2
Dise
no de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
6.3
Dise
no de dos factores sin interaccion . . . . . . . . . . . . . . . . . . . .
83
6.4
Dise
no de dos factores con interaccion . . . . . . . . . . . . . . . . . . . .
89
6.5
94
6.5.1
96
6.5.2
99
6.6
Dise
nos no balanceados y con observaciones faltantes . . . . . . . . . . .
101
6.7
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
103
7 An
alisis de Componentes de la Varianza
7.1
105
Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
105
7.1.1
105
7.1.2
106
7.1.3
Un modelo mixto . . . . . . . . . . . . . . . . . . . . . . . . . . .
106
7.2
Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . .
107
7.3
110
7.4
111
7.4.1
Dise
no de un factor con efectos jos . . . . . . . . . . . . . . . . .
111
7.4.2
Dise
no de un factor con efectos aleatorios . . . . . . . . . . . . . .
114
7.4.3
Dise
no de dos factores sin interaccion con efectos jos o dise
no en
bloques al azar completos . . . . . . . . . . . . . . . . . . . . . .
118
7.4.4
Dise
no de dos factores sin interaccion con efectos aleatorios . . . .
122
7.4.5
Dise
no de dos factores aleatorios con interaccion . . . . . . . . . .
124
7.4.6
Dise
no de tres factores aleatorios y replicas . . . . . . . . . . . . .
125
7.5
Correlacion intraclasica . . . . . . . . . . . . . . . . . . . . . . . . . . . .
126
7.6
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
129
Nota del autor: Las paginas que siguen constituyen una parte de las exposiciones teoricas
y practicas de asignaturas que se han impartido a lo largo de algunos a
nos en varias
licenciaturas y cursos de doctorado. En particular en la licenciatura de Matematicas,
la licenciatura de Biologia y la diplomatura de Estadstica. Ademas, el tratamiento de
algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro Sanchez Algarra
(1996) que amablemente han cedido para su actualizacion en este libro.
Por u
ltimo, hay que destacar que este libro esta inacabado. Esta version ha sido escrita
mediante el procesador de textos cientco LATEX y presentada en formato electronico.
Gracias a ello y hasta la version denitiva, este libro estara en constante renovacion.
Barcelona, 27 de noviembre de 2001.
Dr. Francesc Carmona
Departamento de Estadstica
Universidad de Barcelona
Captulo 1
Las condiciones
1.1
Introducci
on
Los metodos de la Matematica que estudian los fenomenos deterministas relacionan, por
lo general, una variable dependiente con diversas variables independientes. El problema
se reduce entonces a resolver un sistema lineal, una ecuacion diferencial, un sistema
no lineal, etc.. Sin embargo, la aplicacion de los metodos cuantitativos a las Ciencias
Experimentales ha revelado la poca abilidad de las relaciones deterministas. En tales
Ciencias, el azar, la aleatoriedad, la variabilidad individual, las variables no controladas,
etc. justican el planteo, en terminos muy generales, de la ecuacion fundamental
observacion = modelo + error aleatorio
El experimentador puede, jando las condiciones de su experimento, especicar la estructura del modelo, pero siempre debe tener en cuenta el error aleatorio o desviacion entre
lo que observa y lo que espera observar seg
un el modelo.
Los modelos de regresion utilizan la ecuacion anterior jando el modelo como una funcion
lineal de unos parametros. El objetivo consiste, casi siempre, en la prediccion de valores
mediante el modelo ajustado.
El An
alisis de la Varianza es un metodo estadstico introducido por R.A. Fisher de gran
utilidad en las Ciencias Experimentales, que permite controlar diferentes variables cualitativas y cuantitativas (llamadas factores), a traves de un modelo lineal, suponiendo
normalidad para el error aleatorio. Fisher(1938) denio este metodo como la separacion
de la varianza atribuible a un grupo de la varianza atribuible a otros grupos. Como
veremos, los tests en Analisis de la Varianza se construyen mediante estimaciones independientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teora com
un: los modelos
lineales.
Iniciaremos este captulo con un ejemplo de modelizacion de un problema y su aplicacion
practica. A continuacion explicaremos en que consiste esencialmente el metodo de los
mnimos cuadrados y estableceremos las condiciones para que este metodo sea valido
para su utilizacion en Estadstica.
1.2
Un ejemplo
En el libro de Sen and Srivastava en [10, pag. 2] se explica este ejemplo que nosotros
hemos adaptado a las medidas europeas.
Sabemos que cuantos mas coches circulan por una carretera, menor es la velocidad del
traco. El estudio de este problema tiene como objetivo la mejora del transporte y la
reduccion del tiempo de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehculos por km) y su correspondiente velocidad (en km por hora).
Dato
1
2
3
4
5
6
7
8
9
10
11
12
Densidad
12,7
17,0
66,0
50,0
87,8
81,4
75,6
66,2
81,1
62,8
77,0
89,6
Velocidad Dato
62,4
13
50,7
14
17,1
15
25,9
16
12,4
17
13,4
18
13,7
19
17,9
20
13,8
21
17,9
22
15,8
23
12,6
24
Densidad
18,3
19,1
16,5
22,2
18,6
66,0
60,3
56,0
66,3
61,7
66,6
67,8
Velocidad
51,2
50,8
54,7
46,5
46,3
16,9
19,8
21,2
18,3
18,0
16,6
18,3
i=1
Grfico de dispersin
10
RAIZ(vel)
8
6
4
2
0
0
20
40
60
80
100
densidad
El calculo de estos valores con los datos del traco se deja como ejercicio (ver ejercicio
1.3).
La gura 1.3 muestra los gracos de los residuos.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la
velocidad en la ecuacion
ujo = velocidad densidad
0,6
0,6
0,4
0,4
0,2
0,2
residuo
residuo
0
0
20
40
60
80
100
0
2
-0,2
-0,2
-0,4
-0,4
-0,6
-0,6
prediccin
densidad
0,6
0,4
0,4
0,2
0,2
residuo
residuo
0,6
0
0
20
40
60
80
100
0
2
-0,2
-0,2
-0,4
-0,4
-0,6
-0,6
prediccin
densidad
1.3
El modelo
Cuando en el ejemplo anterior ajustamos los datos a una recta, implcitamente estamos
asumiendo la hipotesis de que los datos siguen un patron lineal subyacente del tipo
y = 0 + 1 x
Pero el ajuste no es perfecto y contiene errores. La ecuacion que dene el modelo es
yi = 0 + 1 xi + i
i = 1, . . . , n
i = 1, . . . , n
que contin
ua siendo un modelo lineal.
Un modelo es lineal si lo es para los parametros. Por ejemplo, el modelo ln yi = 0 +
1 ln(xi ) + i es lineal, mientras que yi = 0 exp(1 xi )i no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor jo mas
una desviacion aleatoria
Y =+
representa la verdadera medida de la variable, es decir, la parte determinista de un
experimento, que depende de ciertos factores cualitativos y variables cuantitativas que
son controlables por el experimentador.
El termino representa el error. Es la parte del modelo no controlable por el experimentador debido a m
ultiples causas aleatorias, inevitables en los datos que proceden
de la Biologa, Psicologa, Economa, Medicina,. . . El error convierte la relacion matematica Y = en la relacion estadstica Y = + , obligando a tratar el modelo desde
la perspectiva del analisis estadstico.
En particular, los modelos de la forma
yi = 0 + 1 xi1 + 2 xi2 + + k xik + i
i = 1, . . . , n
1.4
El m
etodo de los mnimos cuadrados
La paternidad de este metodo se reparte entre Legendre que lo publico en 1805 y Gauss
que lo utilizo en 1795 y lo publico en 1809.
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles
valores de los j , el metodo de los mnimos cuadrados selecciona aquellos que minimizan
S=
n
2i =
i=1
n
i=1
n
i=1
2i =
n
(yi 0 1 xi )2
i=1
de modo que derivando e igualando a cero, se obtienen los estimadores MC (mnimocuadraticos) o LS (least squares)
0 = y 1 x
n
(y y)(xi x)
sxy
n i
1 =
= i=1
2
sx
)2
i=1 (xi x
Tambien se puede considerar el modelo centrado, que consiste en centrar los datos de la
variable regresora
yi = 0 + 1 (xi x) + i i = 1, . . . , n
11
n
ei = 0
i=1
1.5
Hasta aqu, el metodo de los mnimos cuadrados es analtico donde esta la estadstica?
A lo largo de los siguientes captulos vamos a ver que un modelo estadstico y la imposicion
de algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los
metodos estadsticos y calibrar la bondad del ajuste desde esa optica.
Una primera pregunta es que tan bueno es el metodo de los mnimos cuadrados para
estimar los parametros? La respuesta es que este metodo proporciona un buen ajuste y
buenas predicciones si se verican las condiciones de Gauss-Markov.
En el modelo lineal que hemos denido anteriormente, se supone que los errores i son
desviaciones que se comportan como variables aleatorias. Vamos a exigir que estos errores
aleatorios veriquen las siguientes condiciones:
1. E(i ) = 0
2. var(i ) = 2
3. E(i j ) = 0
i = 1, . . . , n
i = 1, . . . , n
i = j
12
Primera condici
on
i = 1, . . . , n
Segunda condici
on
i = 1, . . . , n
Es la propiedad de homocedasticidad.
En el graco se representa una situacion anomala llamada de heterocedasticidad, en la que la var(i ) crece
con xi .
El parametro desconocido 2 es la llamada varianza
del modelo.
Tercera condici
on
E(i j ) = 0
i = j
Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de
regresion. Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco
able.
13
Var() = 2 In
1.6
Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aunque tienen diferentes objetivos, gozan de las mismas bases teoricas.
Por ejemplo, el Analisis de la Varianza con un factor (one-way Analysis of Variance),
representado por el modelo lineal
yij = + i + ij
1.7
Algunas preguntas
15
1.8
Ejercicios
Ejercicio 1.1
Hallar las estimaciones de los parametros en un modelo de regresion lineal simple, minimizando la suma de los cuadrados de los errores:
n
(yi 0 1 xi )2
S=
i=1
Hallar una expresion para las predicciones yi y los residuos ei = yi yi .
Ejercicio 1.2
Hallar las estimaciones de los parametros en un modelo de regresion parabolico, minimizando la suma de los cuadrados de los errores:
S=
n
(yi 0 1 xi 2 x2i )2
i=1
Hallar una expresion para las predicciones yi y los residuos ei = yi yi .
Ejercicio 1.3
Consideremos el problema de traco planteado en el apartado 1.2 de este captulo, con la
variable independiente densidad y la variable dependiente raz cuadrada de la velocidad.
Con los datos proporcionados en la tabla 1.2 realizar el siguiente proceso:
62.4) y
(a) Dibujar
la
nube
de
puntos
y
la
recta
que
pasa
por
los
puntos
(12.7,
(87.8, 12.4). Dibujar el graco de los residuos con la densidad y el graco con
las predicciones. Calcular la suma de cuadrados de los residuos.
(b) Hallar la recta de regresion simple. Dibujar el graco de los residuos con la densidad
y el graco con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresion parabolica. Dibujar el graco
de los residuos con la densidad y el graco con las predicciones. Calcular la suma
de cuadrados de los residuos.
(d) Calcular la capacidad de la carretera o punto de maximo ujo. Recordar que ujo =
vel densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velocidad en atletismo en los Juegos Olmpicos de Atlanta:
16
distancia
100
200
400
800
1500
5000
10000
42192
hombres mujeres
tiempo
9,84
10,94
19,32
22,12
43,19
48,25
102,58
117,73
215,78
240,83
787,96
899,88
1627,34 1861,63
7956,00 8765,00
17
Captulo 2
Estimaci
on
2.1
Introducci
on
2.2
El modelo lineal
Sea Y una variable aleatoria que uctua alrededor de un valor desconocido , esto es
Y =+
donde es el error, de forma que puede representar el valor verdadero e Y el valor
observado.
Supongamos que toma valores distintos de acuerdo con diferentes situaciones experimentales seg
un el modelo lineal
= 1 x1 + + m xm
donde i son parametros desconocidos y xi son valores conocidos, cada uno de los cuales
ilustra situaciones experimentales diferentes.
18
En general se tienen n observaciones de la variable Y . Diremos que y1 , y2 , . . . , yn observaciones independientes de Y siguen un modelo lineal si
yi = xi1 1 + + xim m + i
i = 1, . . . , n
Estas observaciones de Y se pueden considerar variables aleatorias independientes y distribuidas como Y (son copias) o tambien realizaciones concretas (valores numericos) para
los calculos.
La expresion del modelo lineal en
y1
x11
y2 x21
.. = ..
. .
yn
xn1
forma matricial es
x12 . . . x1m
x22 . . . x2m
..
..
.
.
xn2 . . . xnm
1
2
..
.
1
2
..
.
n
o en forma resumida
Y = X +
(2.1)
X=
i = 1, . . . , n
19
Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relaci
on sea polinomica.
Consideremos el modelo
yi = 0 + 1 xi + 2 x2i + + p xpi +
Observemos que es lineal en los par
ametros
1 x1
1 x2
.. ..
. .
1 xn
i = 1, . . . , n
i . La matriz de dise
no es
. . . xp1
. . . xp2
..
.
. . . xpn
Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o m
as variables control. As,
son modelos lineales:
a)
yi = 0 + 1 xi1 + 2 xi2 + i
b)
c)
Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologa se utiliza la formula
C = L1 A2 H 3
donde L = longitud del cr
aneo, A = anchura parietal m
axima y H = altura basio bregma.
La formula anterior se convierte en un modelo lineal tomando logaritmos
log C = log + 1 log L + 2 log A + 3 log H
El parametro expresa el tama
no, mientras que los par
ametros expresan la forma del
cr
aneo.
2.3
Suposiciones b
asicas del modelo lineal
En el modelo lineal denido en el apartado anterior, se supone que los errores i son
desviaciones que se comportan como variables aleatorias que verican las condiciones de
Gauss-Markov:
1. E(i ) = 0
2. var(i ) = 2
3. E(i j ) = 0
i = 1, . . . , n
i = 1, . . . , n
i = j
Var() = 2 In
2.4
Estimaci
on de los par
ametros
(2.2)
i=1
(2.3)
Demostraci
on:
Si desarrollamos la suma de cuadrados tenemos
= (Y X) (Y X)
= Y Y 2 X Y + X X
y si derivamos matricialmente respecto a resulta
= 2X Y + 2X X
Teorema 2.4.3
solucion MC de 2.3 se verica que
Para cualquier
= X
Y
e=YY
(Y X)
SCR = (Y X)
son u
nicos.
Ademas
X Y
SCR = Y Y
Demostraci
on:
Si desarrollamos la suma de cuadrados residual SCR resulta
X Y Y X
+
X X
SCR = Y Y
= X Y, obtenemos
y como X X
X Y +
X Y = Y Y
X Y
SCR = Y Y 2
23
(2.4)
yY
, donde
y
son dos solu 1 = X
2 = X
Consideremos ahora los vectores Y
1
2
1
2
1 y Y
2 pertenecen al subespacio X generado por las columnas
ciones MC. Entonces Y
1 Y
2 tambien. Por otra parte, observamos que
de X y su diferencia Y
1 X X
2 = X Y X Y = 0
1 Y
2 ) = X X
X (Y
1 Y
2 pertenece al ortogonal de X . As pues, necesariamente Y
1 Y
2 =
de modo que Y
1 = Y Y
2 es u
0 y el vector de errores e = Y Y
nico.
En consecuencia, la suma de cuadrados de los errores SCR tambien es u
nica.
Interpretaci
on geom
etrica
El vector de observaciones Y se puede interpretar como un vector de Rn . Entonces
E(Y) = X signica que el valor esperado de Y pertenece al subespacio X , de modo que
Y es la suma de un vector de X mas un vector error e. Admitir el modelo E(Y) = X
signica aceptar que Y pertenece al subespacio X salvo un termino de error.
de Y sobre X , es
La estimacion MC es equivalente a hallar la proyeccion ortogonal Y
es mnima:
decir, la norma eucldea de e = Y Y
2
SCR = e e = e2 = Y Y
Se comprende que cualquier otra proyeccion no ortogonal dara una solucion menos adecuada.
Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1
y 1 = + 1
y2 = 2 + 2
y3 = + 3
que en expresi
on matricial escribimos
y1
1
1
y2 = 2 + 2
y3
3
1
24
1
y
1
1 2 1 2 = 1 2 1 y2
y3
1
es decir
6 = y1 + 2y2 y3
y la estimaci
on MC de es = (y1 + y2 y3 )/6.
La suma de cuadrados residual es
SCR = Y Y X Y = y12 + y22 + y32 (y1 + 2y2 y3 )2 /6
Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son 1 , 2 y 3 . Se
dispone de una balanza de platillos con un error de pesada que podemos considerar con
distribuci
on N (0, ). Un articio para mejorar la precisi
on y ahorrar pesadas consiste
en repartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de
pesos:
x1 1 + x2 2 + x3 3 = y
donde y es el peso observado y xi = 0, 1, 1.
Consideremos las siguientes pesadas:
1 + 2 + 3
1 2 + 3
1 + 2 3
1 + 2 + 3
1 2 + 3
=
=
=
=
=
5.53
1.72
0.64
5.48
1.70
51 + 2 + 33 = 15.07
1 + 52 3 = 8.23
31 2 + 53 = 13.79
La estimacion de los par
ametros proporciona
1 = 1.175
2 = 1.898
3 = 2.433
25
2.5
Estimaci
on de la varianza
i = 1, . . . , n
2 = SCR/(n r)
es un estimador insesgado de la varianza 2 . En el estadstico, SCR es la suma de
cuadrados residual, n el n
umero total de observaciones y r el rango del dise
no.
Demostraci
on:
Las columnas x(1) , . . . , x(m) de la matriz de dise
no X generan el subespacio de dimension
r que escribimos
X = x(1) , . . . , x(m)
Sea ahora V una matriz ortogonal, es decir, tal que VV = V V = In , cuyas columnas
v(1) , . . . , v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de
modo que las r primeras columnas generen el subespacio X
X = v(1) , . . . , v(r)
Por otra parte, Y = (y1 , . . . , yn ) es un vector aleatorio de Rn que, mediante V, transformamos en Z = (z1 , . . . , zn ) = V Y
zi = v1i y1 + + vni yn
i = 1, . . . , n
n
vhi E(yh ) =
v(i)
X
h=1
i si i r
0 si i > r
SCR = e e = (V e) V e =
n
i=r+1
26
zi2
Ademas, por ser una transformacion ortogonal, las variables z1 , . . . , zn siguen siendo incorrelacionadas y de varianza 2 . As pues
E(zi2 ) = var(zi ) = var(yi ) = 2
E(zi ) = 0
y por lo tanto
E(SCR) =
n
E(zi2 ) = (n r) 2
i=r+1
La expresion
2
SCR = zr+1
+ + zn2
(2.5)
2.6
y SCR bajo
Vamos ahora a establecer algunos resultados acerca de la distribucion de
las hipotesis del modelo lineal normal en el caso de rango maximo.
Teorema 2.6.1
Sea Y N (X, 2 In ) con rango X = m. Entonces se verican las siguientes propiedades:
i) La estimacion MC de coincide con la estimacion de la maxima verosimilitud.
Ademas es insesgada y de mnima varianza.
N (, 2 (X X)1 )
ii)
) X X(
)/ 2 2
iii) (
m
es independiente de SCR
iv)
v) SCR/ 2 2nm
Demostraci
on:
i) La funcion de verosimilitud es
1
n
2
L(Y; , ) = ( 2 ) exp 2 (Y X) (Y X)
2
2
2.7
Matriz de dise
no reducida
Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones
experimentales. Para estas observaciones, el modelo que liga yi con las es el mismo, lo
que se traduce en que las las de la matriz de dise
no correspondientes estan repetidas.
Para evitar la redundancia que esto supone nos sera muy u
til, a efectos teoricos y de
calculo, introducir el concepto de matriz de dise
no reducida.
Denici
on 2.7.1
no reducida X a la matriz
Dado el modelo lineal Y = Xa + , llamaremos matriz de dise
k m obtenida tomando las k las distintas de la matriz de dise
no original Xa . Diremos
entonces que k es el n
umero de condiciones experimentales.
28
Y = (y 1 , y 2 , . . . , y k )
X = Xa
D=I
ni = 1
X DY
SCR = Y Y
Demostraci
on:
Sea M una matriz n k de forma que cada columna i es
(0, . . . , 0, 1, . . . , 1, 0, . . . , 0)
n
n
ni
donde k es el n
umero de condiciones experimentales (n
umero de las distintas de Xa ), ni
el n
umero de replicas bajo la condicion i, y ademas
n = n1 + + ni1
n = ni+1 + + nk
Se verica
M Y = DY
MX = Xa
M M = D
Xa Y = X M Y = X DY
29
Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2
Xa =
1
1
1
1 1
1
1
1 1
1
1
1
1 1
1
Y=
1
1
1
1
X = 1 1
1
1 1
5.53
1.72
0.64
5.48
1.70
2 0 0
D= 0 2 0
0 0 1
donde n1 = n2 = 2, n3 = 1, k = 3.
(5.53 + 5.48)/2
5.505
Y = (1.72 + 1.70)/2 = 1.710
0.64
0.640
La matriz M es
M=
1
1
0
0
0
0
0
1
1
0
0
0
0
0
1
Ejemplo 2.7.2
Consideremos el modelo
yij = + i + j + ij
correspondiente al dise
no de dos factores sin interacci
on.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los
n
umeros de replicas son
n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4
La matriz de dise
no reducida es
1 2 1 2 3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
Sin embargo, la matriz de dise
no ampliada tiene 6 columnas y
30
nij = 18 las.
2.8
Ejercicios
Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en funcion de otra variable X con los valores
x1 , x2 y x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su
caso, la matriz de dise
no para x1 = 1, x2 = 2 y x3 = 3.
a) yi = 0 + 1 xi + 2 (x2i 1) + i
b) yi = 0 + 1 xi + 2 exi + i
c) yi = 1 xi (2 tang(xi )) + i
Ejercicio 2.2
Dado el modelo lineal
y1
y2
=
2
1
+
1
2
(In P)2 = In P
Ejercicio 2.6
La matriz de dise
no reducida de un modelo lineal normal es
1 1 1
X= 1 0 1
0 1 0
31
y 2 = 12
y 3 = 17
1
(yi1 y 1 )2 = 2.8
n1
n1 = n2 = n3 = 10
s22 = 4.2
s23 = 4.0
Se pide:
a) Hallar la expresion general de las estimaciones MC de los parametros .
b) Calcular SCR. Estimar la varianza del dise
no 2 .
c) Estudiar si la hipotesis nula H0 : 2 = 3 puede ser aceptada.
Ejercicio 2.7
Consideremos el modelo lineal
yi = 0 + 1 xi1 + + m xim + i
i = 1, . . . , n
n
(yi yi ) =
i=1
n
i=1
32
i = 1, . . . , n
ei = 0
Captulo 3
Funciones param
etricas estimables
3.1
Introducci
on
=
E()
= . Entonces
i) Sea = b Y tal que E()
a = E(b Y) = b E(Y) = b X
cualquiera que sea , luego
a = b X
lo que nos dice que a es combinacion lineal de las las de la matriz de dise
no X.
Recprocamente, si suponemos que b X = a , entonces basta tomar = b Y como
estimador lineal insesgado de .
1) Si rango X = m, entonces todos los parametros i y todas las funciones parametricas son estimables, pues el subespacio generado por las las de X coincide
con Rm .
2) Si rango X < m, pueden construirse funciones parametricas que no son estimables.
3) Una caracterizacion algebraica de que = a es estimable viene dada por la
identidad
a (X X) X X = a
donde (X X) representa una g-inversa de X X.
En efecto, consideremos las matrices
S = X X
S = (X X)
H = S S
SH = S
3.2
Teorema de Gauss-Markov
b
E(c Y) = c E(Y) = c X = 0 = 0
b )X = 0
(b
35
b2 = b21 + + b2n
var(b Y) = b21 2 + + b2n 2 = b2 2
= var(b
Y) = b
2 2 (b
2 + c2 ) 2 = var(b Y)
var(a )
Observaciones:
1) Estos resultados son validos incluso para un modelo lineal sin la hipotesis de normalidad.
2) La estimacion con varianza mnima es
= a (X X) X Y
3) Como la varianza de b Y es b b 2 , resulta que la varianza mnima es
= var(a )
= 2 a (X X) a
var()
4) Utilizando la matriz de dise
no reducida tenemos
= a (X DX) X DY
= 2 a (X DX) a
var()
De aqu deducimos que es combinacion lineal de las medias de las k condiciones
experimentales
= c1 Y1 + + ck Yk = c Y
donde c = (c1 , . . . , ck ) es
c = DX(X DX) a
Entonces
=
var()
k
i=1
36
c2i /ni
2 = 22
P = X(X X) X
que verica
P2 = P
traza P = r
= b P.
P es la matriz del operador que proyecta b en . El vector proyeccion es b
Asimismo, In P es otro operador que proyecta b en el espacio ortogonal a . La
c = 0, se verica
proyeccion es c = b (In P). Como b
Y, c Y) = 0
cov(b
As pues, todo estimador lineal insesgado b Y se descompone en
b Y = b PY + b (In P)Y
donde b PY es el estimador de Gauss-Markov, mientras que b (In P)Y tiene esperanza
cero y provoca un aumento de la varianza mnima del mejor estimador = b PY.
Finalmente, observemos que
=
= b PY = b X(X X) X Y = b X(X X) X X
= a
= b XH
Siendo H = (X X) X X, que verica XH = X, y siendo a = b X.
El aspecto geometrico de las estimaciones se puede resumir en el hecho que el espacio
muestral Rn al que pertenece el vector de observaciones Y, se descompone en
Rn = +
donde representa el espacio estimaci
on. Toda estimacion de los parametros de regresion
esta ligada a . Toda estimacion de la varianza del modelo esta ligada al espacio error
. Ambos espacios son ortogonales y bajo el modelo lineal normal, como veremos mas
adelante, ambas clases de estimaciones son estocasticamente independientes.
Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una poblaci
on N (, ). El
modelo lineal asociado es
1
y1
.. ..
. = . +
1
yn
37
El estimador LS de es
= (1/n)
varianza mnima).
xi = 0}
ai = 1.
Sea a Y = ai yi otro estimador centrado de . Entonces E(a Y) = implica
Luego se verica a =
a + b, es decir,
a1
1/n
a1 1/n
.. ..
..
. = . +
.
an
an 1/n
1/n
a b = 0. Adem
as
con
a , b . Es facil ver que
ai yi = (1/n)
yi +
(ai 1/n)yi
El primer termino es estimador centrado y de varianza mnima 2 /n. El segundo termino
verica
E( (ai 1/n)yi ) = 0
cov(1/n
yi ,
(ai 1/n)yi ) = 0
La matriz del operador que proyecta a en es
1
1/n . . . 1/n
..
...
P = 1/n ... (1, . . . , 1) = ...
.
1
1/n . . . 1/n
siendo f
acil ver que
a P = (1/n, . . . , 1/n)
a (I P) = (a1 1/n, . . . , an 1/n)
Ejemplo 3.2.2
Ver especialmente el nal del ejemplo 4.3.2.
3.3
donde
a1
A = ...
aq
A(X X) X = B
39
A)/q
A) (A(X X) A )1 (A
(A
SCR/(n r)
(3.1)
nr
t=
2 SCR
es la de una t de Student con n r grados de libertad.
3.4
Intervalos de conanza
P (t < t < t ) = 1
40
(3.2)
=1
P t
< < + t
nr
nr
2 SCR
2 SCR
< < + t
(3.3)
nr
nr
es un intervalo de conanza para la funcion parametrica estimable , con coeciente de
conanza 1 .
Por lo tanto
t
P (2nr > b) = /2
SCR
SCR
< 2 <
b
a
=1
(3.4)
dene un intervalo de conanza para la varianza 2 del modelo lineal normal, con coeciente de conanza 1 .
41
3.5
Ejercicios
Ejercicio 3.1
Sea una funcion parametrica estimable y 1 , 2 dos estimadores insesgados, estocasticamente
independientes, de varianzas 12 y 22 . Hallar la combinacion lineal de 1 , 2 cuya varianza
es mnima y ademas es insesgado.
Ejercicio 3.2
En un modelo lineal, la matriz de dise
no es
1 1 1
1 0 1
1 1 1
1 0 1
1
0
0
1
1
0
0
1
= b Y
= = a
E()
1
0 1
1 0
X= 1
0 1 1
Se sabe ademas que
y2 = 10
y3 = 15
y1 = 11
n1 = n2 = n3 = 10
n1
2
s1 = (1/n1 )
(yi y1 )2 = 4.5
s22
= 6.0
i=1
s23 =
Se pide
42
4.3
Captulo 4
Contraste de hip
otesis lineales
4.1
Hip
otesis lineales contrastables
a11 a1m
..
A = ... . . .
.
aq1 aqm
rango A = q
44
4.2
rango X = r
rango A = q
A=0
X
Y
= Y Y
La estimacion MC de los parametros es
= (X
X)
1 X
Y
45
M
etodo 2
Introduzcamos q multiplicadores de Lagrange
= (1 , . . . , q )
uno para cada restriccion lineal. El mnimo restringido de (Y X) (Y X) se halla
igualando a cero las derivadas respecto a cada i de
q
n
2
(Yi xi1 1 xim m ) +
i (ai1 1 + + aim m )
i=1
i=1
2
1 (X X) A
H
=
2
H = 0, resulta
y como A
1 A(X X) A
H
0 = A
2
La matriz A(X X) A posee inversa, puesto que es de rango q, as
1
H = (A(X X) A )1 (A)
2
y nalmente tenemos que la estimacion MC restringida es
=
(X X) A (A(X X) A )1 A
(4.1)
Hemos visto (teorema ??) que la forma canonica de la suma de cuadrados residual bajo
el modelo sin restricciones es
2
+ + Zn2
R02 = Zr+1
= XC, signica que las columnas de X
son
La hipotesis H0 : A = 0, que implica X
combinacion lineal de las de X. Luego los subespacios generados por dichas columnas
verican
X Rn
X
46
R02
r
Zi2
r +1
Ejemplo 4.2.1
Consideremos el siguiente modelo lineal normal
Y1 = 1 + 2 + 1
Y2 = 22 + 2
Y3 = 1 + 2 + 3
y la hipotesis lineal
H0 : 1 = 22
Las matrices de dise
no
1
X= 0
1
y de la hipotesis son
1
2
A = (1 2)
1
ran X = 2
ran A = 1
01 + 62 = Y1 + 2Y2 + Y3
Estimaciones MC
1 = (Y1 Y3 )/2
v2 = (2, 1)
47
2 =
4.3
En esta seccion vamos a deducir un test F que nos permita decidir sobre la aceptacion
de una hipotesis lineal contrastable.
Teorema 4.3.1
Sea Y = X+ un modelo lineal normal, de manera que Y N (X, 2 I). Consideremos
una hipotesis lineal contrastable
H0 : A = 0
rango A = q
verican:
i) R02 / 2 2nr
ii) Si H0 es cierta
2
/ 2 2nr
RH
2
(RH
R02 )/ 2 2q
(r = r q)
2
iii) Si H0 es cierta, los estadsticos RH
R02 y R02 son estocasticamente independientes.
48
Demostraci
on:
i) En el teorema ?? se ha visto que
2
R02 = Zr+1
+ + Zn2
La consecuencia fundamental de este teorema es que, si H0 es cierta, el estadstico
F =
2
2
RH
R02 )/ 2 ]/q
R02 n r
[(RH
=
(R02 / 2 )/(n r)
R02
q
(4.2)
XY = Y Y Y X(X X) X Y
R02 = Y Y
2
Veamos que, del mismo modo, la expresion de RH
es
2
X Y
= Y Y
RH
H
H es la estimacion MC de restringida a A = 0.
donde
En efecto,
2
H ) (Y X
H ) = Y Y 2Y XX
H + X
X XX
H
RH
= (Y X
H
luego
2
H )
+
(X Y 1 A
RH
= Y Y 2Y X
H
H
2
A
H
H + Y X
H 1
= Y Y 2Y X
2 H
H = 0, nos queda
Pero como A
2
H
RH
= Y Y Y X
2
Calculemos ahora RH
R02 . Considerando 4.1 tenemos
= (A)
(A(X X) A )1 A(X X)
H
luego
2
)X Y
R02 = (
RH
H
= (A) (A(X X) A )1 A(X X) X Y
(A(X X) A )1 (A)
= (A)
El estadstico F puede escribirse entonces
(A(X X) A )1 (A)
nr
(A)
F =
Y (I X(X X) X )Y
q
0. Luego es probable que F no sea
Observese que si A = 0 es cierta, entonces A
signicativa.
Utilizando las matrices de dise
no reducidas X, D y Y, las expresiones son
(4.3)
grados de suma de
libertad cuadrados
Desviacion
hipotesis
Residuo
cuadrados
medios
2
RH
R02
2
(RH
R02 )/q
nr
R02
R02 /(n r)
Criterio de decisi
on
Si F > F se rechaza H0 ; si F F se acepta H0 .
Tabla 4.1: Tabla general del analisis de la varianza
Un test m
as general
Consideremos la hipotesis nula
A es q m, ran A = q
H0 : A = c
donde c es un vector columna que logicamente debe ser combinacion lineal de las columnas
de A. Tambien suponemos que las las de A son combinacion lineal de las las de X, de
manera que A es un conjunto de f.p.e..
Sea 0 tal que A 0 = c y consideremos = 0 . Entonces, si en el modelo lineal
Y X 0 = X( 0 ) +
= Y X 0 , obtenemos el modelo transformado
ponemos Y
= X +
Y
y en este modelo la hipotesis planteada adopta la expresion
H0 : A = 0
2
Se puede demostrar que RH
= mnH0 (Y X) (Y X) verica (ver seccion ??)
2
c) (A(X X) A )1 (A
c)
RH
R02 = (A
es tal que X X
= X Y. Se verica tambien
donde
2
E(RH
R02 ) = q 2 + (A c) (A(X X) A )1 (A c)
c)/q
c) (A(X X) A )1 (A
(A
51
Ejemplo 4.3.1
Para decidir sobre la hip
otesis H0 : 1 = 22 en el ejemplo ?? calcularemos
F =
=
2
(RH
142 + 212 + 622
R02 )/1
=
R02 /(3 2)
Y12 + Y22 + Y32 212 622
2 22
1
7(Y12
Y22
Y32
Dise
no cross-over simplicado
Y11
Y21
Y12
Y22
media
varianza
...
...
Y1Na
Y2Na
Y 1
Y 2
s21 =
s22 =
1
Na
1
Na
N a
(Y1i Y 1 )2
i=1
Na
2
i=1 (Y2i Y 2 )
...
...
Y3Nb
Y4Nb
Y 3
Y 4
s23 =
s24 =
1
Nb
1
Nb
N b
(Y3i Y 3 )2
i=1
Nb
2
i=1 (Y4i Y 4 )
Grupo 2
b (primera vez) Y31
a (despues de b) Y41
Y32
Y42
Indicando
=
=
=
=
media general
efecto f
armaco a
efecto f
armaco b
efecto recproco entre a y b
i = 1, . . . , Na
i = 1, . . . , Na
i = 1, . . . , Nb
i = 1, . . . , Nb
Es decir, cuando s
olo se ha tomado un farmaco act
ua un solo efecto, pero cuando se ha
tomado uno despues del otro act
ua entonces un efecto aditivo que recoge la mejora del
enfermo que ya ha tomado el primer medicamento.
52
Tenemos k = 4 condiciones experimentales, que en el cross-over simplicado se consideran independientes, y N1 = N2 = Na , N3 = N4 = Nb . El vector de observaciones Y y
la matriz de dise
no reducida X son
Y = (Y11 , . . . , Y1Na , Y21 , . . . , Y2Na , Y31 , . . . , Y3Nb , Y41 , . . . , Y4Nb )
1 1 0 0
1 0 1 1
X=
ran X = 3
1 0 1 0
1 1 0 1
La hipotesis nula de mayor interes es
H0 : =
H0 : 0 1 1 0
=0
Como el vector 0 1 1 0 es combinacion lineal de las las de X, se trata de una
hipotesis contrastable. Para reparametrizar el dise
no bajo H0 tomaremos como matriz
ortogonal a A
2/3 0
1/3 0
C=
1/3 0
0 1
Observese que las columnas de C son tambien combinacion lineal de las las de X.
Al establecer la relaci
on = C tendremos
1
=
2
siendo 1 = + = + y 2 = .
no reparametrizado depende de dos par
ametros:
Es decir, bajo H0 el dise
on (com
un a a y b bajo H0 )
1 : efecto debido a la medicaci
2 : efecto recproco entre a y b
y la nueva matriz de dise
no es
1
1
= XC =
X
1
1
= r t = 3 1 = 2.
siendo ran X
53
0
1
0
1
Si el dise
no es balanceado (Na = Nb ), entonces N = 4Na = 4Nb y se puede calcular que
4
N
a
R02 =
s2i
(Y1 + Y2 Y3 Y4 )2 + Na
4
i=1
con N 3 grados de libertad
4
N
a
2
RH
=
s2i
[(Y1 + Y2 Y3 Y4 )2 + (Y1 Y2 Y3 + Y4 )2 ] + Na
4
i=1
(Y1 Y2 Y3 + Y4 )2
Na (4Na 3)
4R02
sigue la distribuci
on F con 1 y N 3 g.l..
La tabla 4.2 contiene los datos de dos grupos de 10 y 10 enfermos reumaticos a los que se
valor
o la variaci
on del dolor respecto del estado inicial, mediante una escala convencional,
con el deseo de comparar dos f
armacos antirreum
aticos a y b, administrados a lo largo
de dos meses. Se incluye adem
as la tabla del analisis de la varianza para contrastar H0 .
Grupo 1
a (mes 1)
17
34
26
10
19
17
8
16
13
11
Grupo 2
b (mes 2) b (mes 1)
17
21
41
20
11
26
26
3
42
-6
28
-4
3
11
3
16
16
16
-10
4
a (mes 2)
10
24
32
26
52
28
27
28
21
42
1
37
suma de cuadrados
cuadrados
medios
697
697
6182
167
F
4.17 (p < 0.05)
=1
= 11.375
= 19.725
+ = 12.375
a =
+
= 20.725
a = 3/4
y1 1/4
y2 + 1/4
y3 + 1/4
y4
b = 1/4
y1 + 1/4
y2 + 3/4
y3 1/4
y4
4.4
Elecci
on entre dos modelos lineales
= r
ran X
ran X = r
siendo r < r. Para decidir cual de los dos modelos es valido, plantearemos la hipotesis
lineal
H0 : E(Y) = X
H1 : E(Y) = X
(4.4)
Teorema 4.4.1 La condicion necesaria y suciente para que 4.4 sea contrastable es que
se verique
(4.5)
Fr Fr
y Fr = X los subespacios generados por las columnas de X
y X. El
siendo Fr = X
test F se basa entonces en el estadstico
F =
SCRH SCR n r
SCR
r r
cuya distribuci
on, bajo H0 , es Frr,nr , siendo
(Y X
)
)
SCRH = (Y X
(Y X)
SCR = (Y X)
Demostraci
on:
= XC para una cierta matriz C. Entonces H0
La expresion 4.5 implica la relacion X
signica formular una hipotesis lineal contrastable al modelo E(Y) = X, que lo reduce
El resto es consecuencia del Metodo 1 explicado en la seccion 2.2??.
a E(Y) = X.
55
1 1 0 0 0
1 0 1 1 0
X=
ran X = 4
1 0 1 0 0
1 1 0 0 1
que representa una alternativa
1
1
=
X
1
1
1 0 0
0 1 1
=3
ran X
0 1 0
1 0 1
y X, sobre
Es facil ver que se verica 4.5. El an
alisis de la varianza para decidir entre X
los datos de la tabla 4.2, se encuentra en la tabla 4.4.1. Como F no es signicativo se
admite como v
alido el modelo m
as simple representado por X.
grados de suma de cuadrados
libertad cuadrados
medios
Desviacion
hipotesis
525.73
525.73
Residuo
36
5657.2
157.14
F
3.35
Tabla 4.4: Tabla del analisis de la varianza para contrastar dos modelos de cross-over
4.5
Contraste de hip
otesis sobre funciones param
etricas estimables
1) Sea c = (c1 , . . . , cq ) un vector de constantes, con la condicion de que c sea combinacion lineal de las columnas de A. Planteemos la hipotesis nula
H0 : A = c
(4.6)
i = 1, . . . , q 1
A = ..
..
..
.
.
.
aq1 aq2 . . . aqm
Entonces 4.7 es equivalente a la hipotesis lineal
H0 : A = 0
tomando como matriz de hipotesis
..
..
..
A =
.
.
.
a11 aq1 a12 aq2 . . . a1m aqm
Luego podemos utilizar (Cap2-15)?? con t = q 1 para decidir si 4.7 debe ser
aceptada.
57
4.6
Ejercicios
Ejercicio 4.1
Sean X N (1 , ), Y N (2 , ) variables independientes. En muestras de extension
n1 de X, n2 de Y , plantear la hipotesis nula
H0 : 1 = 2
mediante el concepto de hipotesis lineal contrastable y deducir el test t de Student de
comparacion de medias como una consecuencia del test F .
Ejercicio 4.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores
x1 = 1, x2 = 2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal
yi = 0 + 1 xi + 2 x2i + i
Encontrar la expresion del estadstico F para la hipotesis
H0 : 2 = 0
Ejercicio 4.3
Probar que una hipotesis lineal de matriz A es contrastable si y solo si
A(X X) X X = A
Ejercicio 4.4
Dado el siguiente modelo lineal normal
1 + 2
21 + 2
1 + 2
21 2
=
=
=
=
6.6
7.8
2.1
0.4
58
Captulo 5
Regresi
on
5.1
Regresi
on lineal simple
Sea Y una variable aleatoria y x una variable controlable (los valores que toma x son controlados por el experimentador). Supongamos que calculamos Y para diferentes valores
de x de acuerdo con el siguiente modelo
Yi = 0 + 1 xi + i
donde E(i ) = 0, var(i ) = 2
(5.1)
i = 1, . . . , n.
1
Y1
1 x1
.. .. .. 0
+ ...
rango X = 2
. = . .
1
Yn
1 xn
n
Estudiemos los diferentes aspectos de la regresion lineal simple.
5.1.1
Estimaci
on de los par
ametros de regresi
on
Indiquemos
x = (1/n) xi s2x = (1/n) (xi x)2
y = (1/n) yi s2y = (1/n) (yi y)2
sxy = (1/n)
(xi x)(yi y)
donde x, y, s2x , s2y , sxy son las medias, varianzas y covarianzas muestrales, aunque el signicado de s2x y sxy es convencional pues x no es variable aleatoria. Con esta notacion las
ecuaciones normales son:
X X = X Y
0
n
y
n
n
x
=
1
x i yi
n
x
x2i
59
y como
(X X)
1
= 2
nsx
(1/n) x2i
x
x
1
la solucion es
sxy
1 = 2
sx
0 = y 1 x
(xi x)(yi y)
yi (xi x)
=
=
2
(xi x)
(xi x)2
La recta de regresion es
y = 0 + 1 x
que se expresa tambien en la forma
y y = 1 (x x)
5.1.2
Estimaci
on de la varianza
sxy
sx sy
el coeciente de correlaci
on muestral (cuyo signicado es convencional). Indiquemos
yi = 0 + 1 xi . Entonces se verican las siguientes relaciones
(yi y)2 = (yi yi )2 + (
yi y)2
(
yi y)2
2
ii) r =
(yi yi )2
iii) R02 = (yi yi )2 = (1 r2 ) (yi y)2
i)
Demostraci
on:
(yi y)2 =
(yi yi + yi y)2
=
(yi yi )2 +
(
yi y)2 + 2
(yi yi )(
yi y)
pero
(yi yi )(
yi y) =
(yi yi )
yi y (yi yi ) = 0.
Finalmente
luego
(yi y)2 =
(yi yi )2 + r2
(yi yi )2 = (1 r2 )
(yi y)2
(yi y)2
5.1.3
Supongamos que 5.1 es un modelo lineal normal. Entonces (teorema 1.5.2??) se verica
que
(0 , 1 ) N2 ((0 , 1 ) , )
siendo
1 2
= (X X) =
Es decir
var(0 )
cov(0 , 1 )
cov(0 , 1 )
var(1 )
2
2
xi
var(0 ) =
n (xi x)2
2
var(1 ) =
(xi x)2
E(0 ) = 0
E(1 ) = 1
2 x
cov(0 , 1 ) =
(xi x)2
Ademas (0 , 1 ) es independiente de R02 .
Hip
otesis sobre la pendiente
El test de la hipotesis H0 : 1 = 0 se resuelve utilizando el estadstico
r
t = n 2
1 r2
que sigue una distribucion t de Student con n 2 grados de libertad cuando H0 es cierta.
En efecto:
Si H0 es cierta, el modelo 5.1 se convierte en
yi = 0 + i
de donde
SCRH =
(yi 0|H0 )2 =
(yi y)2
r2 SCRH
r2
SCRH SCR
=
=
(n
2)
F1,n2
SCR/(n 2)
(1 r2 )SCRH /(n 2)
1 r2
s
n2
x
tn2
t = (1 b1 )
sy 1 r 2
Hip
otesis sobre el punto de intercepci
on
Para el contraste de hipotesis H0 : 0 = b0 , se verica
(xi x)2
1 1
(A(X X) A ) = 2
( xi )/n
sx n 2 n
tn2
SCRH SCR = (0 b0 )
x2i
sy 1 r 2
Intervalos de conanza
Como sabemos
SCR
n 2
=
sy (1 r2 )
n2
n2
El intervalos de conanza para 0 con nivel de conanza 1 se obtiene a partir de ??
del captulo ??
2
xi
0 t
n (xi x)2
2 =
1 t
(xi x)2
+
y0 t
n
(xi x)2
62
5.1.4
Car
acter lineal de la regresi
on simple
(5.2)
que verica 0 2 1, y mide el grado de concentracion de los puntos (xi , yij a lo largo
de la curva y = g(x) (ver Figura ??).
Indicando i = g(xi ) i = 1, . . . , k, si H1 es cierta, la estimacion de i es i = yi . La
identidad
SCRH = SCR + (SCRH SCR)
es entonces
(yij 0 1 xi )2 =
i,j
(yij yi )2 +
i,j
ni (
yi 0 1 xi )2
(
2 r2 )/(k 2)
(1 2 )/(n k)
a) 0 2 1
b) 2 = 0 = y = E(Y ) (la curva es la recta y = constante).
c) 2 = 1 = y = g(X) (Y es funcion de X)
2) Solamente se puede aplicar este test si se tienen ni > 1 observaciones de y para
cada xi (i = 1, . . . , k).
3) Analogamente, podemos tambien plantear la hipotesis de que y es alguna funcion
(no lineal) de x frente a la hipotesis nula de que no hay ning
un tipo de relacion.
Las hipotesis son:
H 0 : yi = + i
H1 : yi = g(xi ) + i
siendo constante. Entonces, con las mismas notaciones de antes,
SCRH =
(yij y)2
con n 1 g.l.
i,j
(yij yi )2
SCR =
con n k g.l.
i,j
Luminosidad (Y)
5460
4800
4580
4320
4000
5475
4700
4600
4300
4010
5400 (n1
(n2
4520 (n3
(n4
(n5
= 3)
= 2)
= 3)
= 2)
= 2)
1 = 1.381
Razon de correlaci
on y car
acter lineal de la regresi
on:
y1 = 5445 y2 = 4750 y3 = 4566.7 y4 = 4310 y5 = 4005
s2y1 = 1050 s2y2 = 2500 s2y3 = 1155.5 s2y4 = 100 s2y5 = 25
s2y = 250077
y = 4680.42
n = 12 k = 5
k
1 s2yi
= 1
ni
= 0.996
n i=1 s2y
2
Aplicando (14)
F =
(0.996 0.939)/3
= 33.3
(1 0.996)/7
0.996/4
= 435.7
(1 0.996)/7
5.2
Regresi
on lineal m
ultiple
1
1
X = ..
.
1
i = 1, . . . , n
(5.3)
x11 . . . x1m1
x21 . . . x2m1
..
..
.
.
xn1 . . . xnm1
(5.4)
j = 1, . . . , m 1
cuya solucion son las estimaciones 0 , 1 , . . . , m1 . Bajo el modelo lineal normal, por ser
el dise
no de rango maximo, son insesgadas y de varianza mnima (teorema ??).
65
SCR =
(Yi 0 1 xi1 m1 xim1 )2 = Y Y Y X
y tiene n m grados de libertad. La estimacion centrada de la varianza del dise
no es
2 = SCR/(n m)
La ecuacion de prediccion que permite estimar los valores de Y dadas las observaciones
x1 , . . . , xm1 es
= X
Y
es decir
yi = 0 + 1 xi1 + + m1 xim1
Si consideramos las medias de los datos
yh
xi = (1/n)
xhi
y = (1/n)
h
(5.5)
i = 1, . . . , m 1
P = corr(Y, Y ) =
[ (yi y)2 (
yi y)2 ]1/2
(el signicado correlaci
on es convencional). P verica
0P 1
y es una buena medida del ajuste de Y al modelo X, pues
=0
P = 1 = Y Y
Teorema 5.2.1 Se verica:
yi y)2
(yi y)2 = (yi yi )2 + (
(
yi y)2
2
ii) P =
(yi y)2
iii) SCR = (yi yi )2 = (1 P 2 ) (yi y)2
i)
Demostraci
on:
(17) implica
(yi yi ) = 0
Entonces
(yi y)2 =
(yi yi + yi y)2 =
66
(yi yi )2 +
(
yi y)2
Y
=0
(Y Y)
= X.
ortogonal a Y
De (23) se deduce que la media de y1 , . . . , yn es
y = (1/n)
yi = y
luego
yi y) =
(yi y)(
=
=
(yi yi + yi y)(
yi y)
yi y) +
(
yi y)2
(yi yi )(
(
yi y)2
pues hemos visto que el primer sumando es nulo. Teniendo en cuenta la denicion de P ,
es facil deducir (21).
Finalmente, combinando (20) y (21) obtenemos (22).
5.2.1
Hip
otesis sobre los par
ametros de regresi
on
0 1
0 0
A = .. ..
. .
0 0
es
0 ...
1 ...
..
.
0
0
..
.
rango A = m 1
0 ... 1
(SCRH SCR)/(m 1)
SCR/(n m)
nm
P2
2
1P
m1
m1
Residuo
Total
nm
n1
Suma de
cuadrados
P 2 (yi y)2
(1
P 2 ) (yi y)2
(yi y)2
F
nm
P2
2
1P
m1
5.2.2
C
alculo de la regresi
on m
ultiple
1 r12 . . . r1m1
r21 1 . . . r2m1
..
.. . .
..
.
.
.
.
1
rm1 rm2 . . .
donde
rij = corr(xi , xj )
i = 1, . . . , m 1
j = 1, . . . , m 1
riy = corr(xi , Y )
m1
= rm1y
rm11 1 + rm12 2 + +
Si
1, . . . ,
m1 son las soluciones, los coecientes de regresion son
sy
i
i =
si
i = 1, . . . , m 1
68
x1
1
1
3
7
8
7
4
6
6
9
x2
3
4
7
9
7
6
5
8
5
7
x2
Y
x1
1 0.697 0.849
1
0.781
1
x1 = 5.2 s1 = 2.82
x2 = 6.1 s2 = 1.86
y = 5.2 sy = 2.44
1 = 0.593
Entonces
2 = 0.368
sy
sy
1 =
1 = 0.513
2 =
2 = 0.485
s1
s2
0 = y 1 x1 2 x2 = 0.426
La ecuacion de regresi
on es
y = 0.426 + 0.513x1 + 0.485x2
69
El coeciente de correlaci
on m
ultiple es
P2 =
1 0.849 +
2 0.781 = 0.791
de donde P = 0.889. Puede armarse que hay una buena relaci
on entre el rendimiento
en lenguaje y la comprensi
on lectora y la capacidad intelectual.
Finalmente, para decidir sobre la hip
otesis
H0 : 1 = 2 = 0
calcularemos
P2
10 3
F =
= 13.24
2
1P
31
on anterior es signicativa.
con 2 y 7 g.l. As H0 puede ser rechazada, es decir, la relaci
5.3
Regresi
on polin
omica
Supongamos que una variable aleatoria Y se ajusta a una variable de control x seg
un un
modelo polinomico de grado m
yi = 0 + 1 xi + 2 x2i + + m xm
i + i
(5.6)
La regresion polinomica se justica por el teorema de Weierstrass, el cual dice que toda
funcion continua f (x) se puede aproximar por un polinomio Pm (x) de grado m adecuado.
Se puede probar esta propiedad desde el punto de vista probabilstico: sea f (x) una
funcion continua en el intervalo (0, 1) y consideremos
Pn (x) =
n
f (k/n)xk (1 x)nk
k=0
1 x1
1 x2
X = .. ..
. .
1 xn
la matriz de dise
no es
x21 . . . xm
1
x22 . . . xm
2
..
..
.
.
2
xn . . . x m
n
Sin embargo, el calculo de (X X)1 es problematico debido a que los elementos de la
matriz X X son de la forma
n
xih xjh
h=1
pudiendo alcanzar una magnitud considerable. Se puede probar que variaciones del orden
(vease Seber,
de 1010 en X Y producen variaciones del orden de 3 en los elementos de
1977).
70
5.3.1
Utilizaci
on de polinomios ortogonales
El replanteamiento del modelo 5.6 mediante polinomios ortogonales permite una solucion
sencilla de los problemas numericos mencionados.
Sea
yi = 0 0 (xi ) + 1 1 (xi ) + + m m (xi ) + i
donde j (xi ) es un polinomio de grado j en xi (j = 0, 1, . . . , m). Supongamos que los m
polinomios son ortogonales, es decir,
n
j = j
j (xi )j (xi ) = 0
(5.7)
i=1
siendo
X=
0
21 (xi )
=
X
X
..
..
.
.
0
0
y la solucion de las ecuaciones normales es
j (xi )yi
j = i 2
i j (xi )
...
...
...
...
0
0
..
.
2m (xi )
j = 0, 1, . . . , m
m
(yi y)
(
2j (xi ))
j2
2
j=1
m
j (xi )
j
siendo
y = 0 (xi )
0
j=0
71
(5.8)
siendo ahora
m
(
yi y) =
(
j (xi )
j )2
2
j=1
m
j (xi )
j )2 =
j (xi )
j j (xi )
j
(
j=1
j
j
i
j
m
n
j2 (
2j (xi ))
j=1
i=1
1 (x) = x
se obtienen
2 (x) = 2x2 1
3 (x) = 4x3 3x
4 (x) = 8x4 8x2 + 1
..
.
El campo de variacion de x debe denirse adecuadamente mediante un cambio de variable.
5.3.2
Elecci
on del grado
(5.9)
SCRH = Q(m0 )
m1
n
(
2j (xi ))
j2
j=m0 +1 i=1
(5.10)
n m 1 g.l.
donde P es la correlacion m
ultiple de Y sobre x, x2 , . . . , xm (ver teorema 5.2.1). Calcularemos entonces el estadstico
F =
(
2 P 2 )/(k m 1)
(1 2 )/(n k)
y = Pm (t) +
Para determinar el grado del polinomio al cual se ajustan los valores experimentales se
plantea la hip
otesis 5.9 que se resuelve mediante el test F 5.10.
Los resultados, obtenidos seg
un el metodo de los polinomios ortogonales, son los siguientes
grupo control
g.l.
Q(0) = 273.87
Q(1) = 249.22
Q(2) = 233.52
Q(3) = 41.61
Q(4) = 41.52
9
8
7
6
5
9
8
7
6
5
Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasar
de grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomio
de grado 3.
Las F obtenidas son:
contraste
grupo control
grupo experimental
0 vs. 1
0 v.s. 2
0 v.s. 3
1 v.s. 3
2 v.s. 3
3 v.s. 4
F
F
F
F
F
F
F
F
F
F
F
F
= 0.79 (n.s.)
= 0.60 (n.s.)
= 11.16 (p < 0.01)
= 14.97 (p < 0.01)
= 27.67 (p < 0.01)
= 0.01 (n.s.)
= 1.25 (n.s.)
= 0.60 (n.s.)
= 11.23 (p < 0.01)
= 14.25 (p < 0.01)
= 27.83 (p < 0.01)
= 1.98 (n.s.)
Efectivamente, tanto los datos del grupo control como los del grupo experimental se ajustan
a un polinomio de grado 3 (ver Figura ??).
El modelo es:
grupo control ()
yi = 1929.24 97.86ti + 1.654t2i 0.0092t3i + i
grupo experimental ()
yi = 1892.28 94.94ti + 1.593t2i 0.0088t3i + i
5.4
5.4.1
Comparaci
on de curvas experimentales
Comparaci
on global
Si dos curvas experimentales se ajustan bien a modelos de formulacion matematica diferente (por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvas
experimentales son distintas.
74
i = 0, 1, . . . , m
H0 : i = i
i = 0, 1, . . . , m
analoga a
(5.11)
SCR1 /(n1 m 1)
SCR2 /(n2 m 1)
(5.12)
(5.13)
que bajo H0 sigue una F con m + 1 y n1 + n2 2m 2 g.l.. SCRH = Q12 (m) es la suma
de cuadrados residual bajo H0 , es decir, considerando que las dos curvas son iguales y
que en consecuencia todos los datos se ajustan a un mismo polinomio de grado m.
5.4.2
Test de paralelismo
La hipotesis lineal de que las curvas son paralelas se plantea de la siguiente forma
H0 : i = i
i = 1, . . . , m
H0 : i = i
i = 1, . . . , m
75
(5.14)
(5.15)
41.61/(10 3 1)
= 1.10
37.80/(10 3 1)
con 4 y 12 g.l. que es signicativa (p < 0.01). Debemos aceptar en consecuencia que las
dos curvas son diferentes (la conducta de los individuos del grupo control es diferente de
la conducta de los individuos del grupo experimental).
No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hip
otesis
lineal 5.14 que resolveremos utilizando el estadstico 5.15. La suma de cuadrados residual
bajo H0 es ahora SCRH = Q12 = 82.59
F =
con 3 y 12 g.l. (no signicativa). Podemos entonces aceptar que las dos curvas experimentales son paralelas. La interpretaci
on en terminos la conducta podra realizarse
conociendo con mas precisi
on el planteamiento del problema.
76
dia
grupo control
grupo experimental
47
50
53
56
59
62
65
68
71
74
25.7
20.1
16.2
14.0
21.3
20.3
28.4
23.5
16.8
9.9
34.1
24.9
21.2
23.3
22.0
30.9
31.4
26.5
23.0
17.2
77
Captulo 6
An
alisis de la Varianza
6.1
Introducci
on
El Analisis de la Varianza es un conjunto de tecnicas estadstico-matematicas que permiten analizar como operan diversos factores considerados simultaneamente en un dise
no
factorial. Normalmente interesa estudiar como se diferencian los niveles de un cierto
factor, llamado factor tratamiento, teniendo en cuenta la incidencia de otros factores
cualitativos o cuantitativos (factores ambientales), cuya inuencia es eliminada mediante
una adecuada descomposicion de la variabilidad de una cierta variable observable.
En general, en todo Analisis de la Varianza es necesario considerar tres etapas:
a) Dise
no del experimento a n de obtener observaciones de una variable Y , combinando adecuadamente los factores incidentes.
b) Planteo de hipotesis, calculo de sumas de cuadrados (residuales, de desviacion de
la hipotesis, etc.) y obtencion de los cocientes F . Esta parte del analisis se formula
mediante la teora de los modelos lineales.
c) Toma de decisiones e interpretacion de los resultados. Planteamiento a posteriori
de nuevas hipotesis.
6.2
Dise
no de un factor
Indiquemos tambien:
1
yih
n h
N
umero total de observaciones: n =
ni
1
Media general: y = y =
yih
n i h
1
0
X = ..
.
0
i = 1, . . . , k ; h = 1, . . . , ni
de parametros y
0 ... 0
1 ... 0
.. . . ..
.
.
.
0 ... 1
(6.1)
rango X = k
la matriz de dise
no (reducida).
Se comprueba facilmente que la estimacion MC de los parametros es
i = yi
i = 1, . . . , k
ni
k
(yih yi )2
i=1 h=1
la cual se indica por SCD y se denomina suma de cuadrados dentro de grupos o tambien
intragrupos.
Consideremos la identidad
yih y = (yi y) + (yih yi )
Elevando al cuadrado y sumando tenemos
(yih y)2 =
(yi y)2 +
(yih yi )2
i,h
i,h
+2
i,h
(yi y)(yih yi )
i,h
pero
(yi y)(yih yi ) =
i,h
(yih yi )yi
i,h
(yih yi )
y=0
i,h
En efecto, el vector {yih yi } pertenece al espacio error y por tanto es ortogonal al vector
{yi } que pertenece al espacio estimacion como hemos visto en las secciones ??; por otra
parte
(yih yi ) = 0
i,h
79
Indiquemos entonces
SCT =
SCE =
(yih y)2
i,h
Se verica la identidad
SCT = SCE + SCD
(6.2)
i = 1, . . . , k ; h = 1, . . . , ni
La estimacion MC de es
= y y la suma de cuadrados residual es
SCRH =
(yih y)2 = SCT
i,h
2 = SCD /(n k)
Ademas, suponiendo que ih N (0, ), se verica (ver teorema ??):
a) SCD / 2 2nk
b) Si H0 es cierta, entonces SCE /(k 1) es otra estimacion insesgada de 2 y ademas
SCE / 2 2k1
c) Si H0 es cierta, el estadstico
F =
SCE /(k 1)
SCD /(n k)
(6.3)
Fuente de
variacion
Entre grupos
suma de
cuadrados
SCE =
SCT =
i
g.l.
cuadrados
medios
ni (yi y)2
k1
SCE /(k 1)
yi )2
nk
SCD /(n k)
y)2
n1
i,h (yih
i,h (yih
F
SCE /(k 1)
SCD /(n k)
i = 1, . . . , k ; h = 1, . . . , ni
(6.4)
i = 0
= y
i = yi y
Se verica entonces
SCRH SCR = SCE =
ni
i2
de modo que SCE reeja bien la variabilidad entre los diferentes niveles del factor estudiado.
La formulacion matricial de H0 es
0
0
..
.
1
0
..
.
0 ...
1 ...
.. . .
.
.
0 0 0 ...
1
2
..
.
1 0 k1
k
0
0
..
.
0
0
..
.
81
=0
ni i2
(6.5)
H0
: i = j
utilizaremos el estadstico
yi yj
t=
SCD /(n k)
ni nj
ni + nj
(6.6)
(ij)
que bajo H0 sigue una t de Student con n k grados de libertad. Con mas generalidad,
si se desea estudiar si la funcion parametrica estimable, tal que c1 + + ck = 0,
= c1 1 + + ck k
se aparta signicativamente de 0, utilizaremos
i ci yi
t = 2
SCD /(n k)
i ci /ni
(6.7)
y2 = 27.00
82
y3 = 9.40
y = 18.93
Fuente de
suma de
variacion
cuadrados g.l.
Entre farmacos
790.53
2
558.40
12
Dentro farmacos
Total
1349.93
14
cuadrados
medios
F
395.29
8.49
46.53
SCE = 790.53
SCD = 558.40
1 1 1
c2i /ni = ( + + 1) = 0.3
5 4 4
= 3.827
0.3 46.53
Contrastando con la tabla de la t de Student, para 12 grados de libertad, vemos que
es signicativa al nivel 0.01. Finalmente, para analizar si hay diferencias signicativas
entre D y B, utilizaremos 6.6
20.40 27.00 5 5
= 1.530
t=
5+5
46.53
t=
que no es signicativa.
Conclusion: Hay variabilidad signicativa entre los tres f
armacos. La variabilidad reside
principalmente en la diferencia entre los dos f
armacos activos frente al placebo.
6.3
Dise
no de dos factores sin interacci
on
Supongamos que la variable observable esta afectada por dos causas de variabilidad, es
decir, por dos factores cualitativos A y B, con a y b niveles respectivamente. Supongamos tambien que tenemos u
nicamente una observacion por casilla. Entonces, podemos
83
1
yij
b j
B1 B2
y11 y12
y21 y22
..
..
.
.
ya1 ya2
y1 y2
yj =
. . . Bb
. . . y1b y1
. . . y2b y2
..
..
.
.
. . . yab ya
. . . yb y
1
yij
a i
y = y =
1
yij
ab i,j
i = 1, . . . , a ; j = 1, . . . , b
(6.8)
siendo
= media general
i = efecto del nivel Ai del factor A
j = efecto del nivel Bj del factor B
Como 6.8 no es un dise
no de rango maximo, impondremos las siguientes restricciones
naturales
i =
j = 0
(6.9)
i
b = 1 b1
La matriz de dise
no X para el caso a = 3, b = 2 es
1 2 1
1
1
0
1
1
0
1
1
1 1 1
1
1
1
0 1
1
0
1 1
1 1 1 1
Como las columnas de X correspondientes a parametros distintos son ortogonales, mientras que las correspondientes a los mismos parametros son linealmente independientes,
84
(6.10)
Estimaci
on de par
ametros
Consideremos la identidad
y ) + (yi y i ) + (yj y j )
yij i j = (
+(yij yi yj + y)
Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 6.9, como los productos cruzados se anulan (puede probarse con algo de esfuerzo), obtenemos
(
y )2 +
(yi y i )2
(6.11)
(yij i j )2 =
+
(yj y j )2
+
(yij yi yj + y)2
Entonces 6.11, con las restricciones 6.9, alcanza su mnimo para
= y
i = yi y
j = yj y
(6.12)
(6.13)
i,j
Observese que
yij =
+
i + j + eij
(6.14)
(6.15)
(yij yi yj + y)2
i,j
(6.16)
donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre las, etc. (ver
cuadro 6.3). La suma de cuadrados residual bajo el modelo 6.8 es 6.13. Si la hipotesis
6.15 es cierta, obtendremos el siguiente modelo
yij = + i + ij
que corresponde al modelo de un solo factor. La suma de cuadrados residual (ver seccion
6.2) sera entonces
(yij yi )2
SCRH =
i,j
puesto que para cada i, las observaciones yi1 , . . . , yib hacen el papel de replicas. Pero de
la identidad
yij yi = (yj y) + (yij yi yj + y)
elevando al cuadrado y teniendo en cuenta que los productos cruzados tambien se anulan,
deducimos
SCRH = SCC + SCR
Luego podemos decidir si puede aceptarse o no la hipotesis 6.15 utilizando el estadstico
F =
SCC /(b 1)
SCR/[(a 1)(b 1)]
(6.17)
yi yj
b/2
yi yj
SCR/[(a 1)(b 1)]
86
a/2
Fuente de
variacion
suma de
cuadrados
Entre las
SCF = b
Entre col.
SCC = a
Residuo
Total
y)2
a1
SCF /(a 1)
SCF /(a1)
SCR/[(a1)(b1)]
j (yj
y)2
b1
SCC /(b 1)
SCC /(b1)
SCR/[(a1)(b1)]
(a 1)(b 1)
SCR
(a1)(b1)
SCR =
)2
i,j (yij yi yj + y
i (yi
SCT =
g.l.
cuadrados
medios
i,j (yij
y)2
ab 1
siendo
1
u1
..
.
ua
v1
..
.
vb
= (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1)
= (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0)
= (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1)
= (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0)
= (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1)
La matriz de dise
no es
X = (1, u1 , . . . , ua , v1 , . . . , vb )
y es evidente que 6.18 es equivalente a
Y = X +
siendo = (, 1 , . . . , a , 1 , . . . , b ) .
Se verica
ui1 ui2 = 0 i1 = i2 ,
ui ui = b
ui vj = 1
vj vj = a
vj 1 vj2 = 0 j1 = j2 ,
i ui +
j vj + e
i
87
(6.18)
Como e es ortogonal al subespacio generado por las columnas de X (lema ??), tendremos
ui e = vj e = 0
Entonces
Y
12 =
i2 ui 2 +
Pero
i j =
i,j
i j ui vj + e2
i,j
(yi y)yj y
(yi y)
i,j
yj
(yi y) y
(yi y) = 0
j
i (yi
(yi y)(yj y)
i,j
j2 vj 2 +
i,j
pues
y) = 0.
Luego
Y
12 =
i2 ui 2 +
j2 vj 2 + e2
1
2.1
2.2
1.8
2.1
2
2.2
2.6
1.9
2.0
Finca
3
4
1.8 2.0
2.7 2.5
1.6 2.0
2.2 2.4
5
1.9
2.8
1.9
2.1
Se trata de un dise
no en bloques aleatorizados. Este dise
no utiliza el modelo 6.8 y es especialmente utilizado en experimentacion agrcola. El objetivo es comparar a tratamientos
(4 fertilizantes en este caso) utilizando b bloques (5 ncas) y repartiendo aleatoriamente los a tratamientos en cada uno de los bloques (los fertilizantes son asignados al azar
en las parcelas de cada nca). Para una correcta aplicaci
on de este dise
no debe haber
maxima homogeneidad dentro de cada bloque, de modo que el efecto bloque sea el mismo
para todos los tratamientos. Interesa pues saber si hay diferencias signicativas entre los
tratamientos i y entre los bloques j estableciendo con este n las hipotesis lineales 6.14
y 6.15 respectivamente. Los resultados obtenidos son
y1 = 2.05 y2 = 2.175 y3 = 2.075 y4 = 2.225 y5 = 2.175
y1 = 2.00 y2 = 2.56 y3 = 1.84 y4 = 2.16 y = 2.04
88
Bloques
1
2
3
4
5
1
4
2
3
2
2
3
1
1
4
4
2
4
4
3
3
1
3
2
1
0.022
= 0.65
0.034
0.477
= 14.04
0.034
con 3 y 12 grados de libertad. Dado que es muy signicativo podemos admitir que hay
diferencias entre los fertilizantes.
6.4
Dise
no de dos factores con interacci
on
Supongamos que la variable observable esta inuida por dos causas de variabilidad A y
B, con a y b niveles respectivamente. Pero ahora, a diferencia del dise
no de la seccion
anterior, supongamos ademas que disponemos de r observaciones por casilla. Podemos
disponer los datos de la siguiente manera
A1
..
.
Aa
B1 B2 . . . Bb
y111 y121
y1b1
y112 y122 . . . y1b2
..
..
..
.
.
.
y11r y12r
y1br
..
..
..
.
.
.
ya11 ya21
yab1
ya12 ya22 . . . yab2
..
..
..
.
.
.
ya1r ya2r
89
yabr
Indicaremos
1
yijk
br j,k
1
=
yijk
r k
1
yijk
ar i,k
1
y = y =
yijk
abr i,j,k
yi =
yij
yj =
(6.19)
i
j
ij
=
=
=
=
media general
efecto del nivel i de A
efecto del nivel j de B
interaccion entre los niveles Ai y Bj
(6.20)
(6.21)
parametros.
La interaccion ij debe a
nadirse para prever el caso de que no se verique la aditividad
supuesta en 6.8. Indicando ij = E(yijk ), la interaccion mide la desviacion respecto a un
modelo totalmente aditivo
(6.22)
ij = ij i j
Por otra parte, diremos que un dise
no es de rango completo si el n
umero de parametros
es igual al n
umero de condiciones experimentales, es decir, al n
umero de las distintas de
la matriz de dise
no. En un dise
no que no es de rango completo hay menos parametros
que condiciones experimentales, por lo que en realidad admitimos que los datos se
ajustan al modelo propuesto. Por ejemplo, en el dise
no sin interaccion tenemos (ver 6.10)
a + b 1 < ab, luego admitimos de partida el modelo 6.8. Sin embargo, este modelo puede
no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo. En cambio,
por 6.21, el modelo 6.19 posee tantos parametros como condiciones experimentales de
variabilidad, de modo que es valido por construccion. En general, un modelo de rango
completo se ajusta intrnsecamente a los datos sin problemas. No obstante, para poder
estimar todos los parametros es necesario disponer de mas de una replica por condicion
experimental. Esta es la razon por la cual la interaccion no puede ser incluida en 6.8.
90
(6.23)
(6.24)
Estimaci
on de los par
ametros
Consideremos la identidad
yijk i j ij = (
y ) + (yi y i )
+(yj y j )
+(yij yi yj + y ij )
+(yijk yij )
Elevando al cuadrado y teniendo en cuenta las restricciones 6.20, los productos cruzados
se anulan y queda
(yijk i j ij )2 =
(
y )2 +
(yi y i )2
(6.25)
i,j,k
i,j,k
i,j,k
(yj y j )2
(6.26)
(yij yi yj + y ij )2
(6.27)
(yijk yij )2
(6.28)
i,j,k
i,j,k
i,j,k
Como el u
ltimo termino de esta expresion no depende de los parametros, es facil ver que
las estimaciones MC son
= y
i = yi y j = yj y
ij = yij yi yj + y
(6.29)
que tiene ab(r 1) grados de libertad. Luego la estimacion de la varianza (teorema ??)
es
2 = SCR/[ab(r 1)]
Considerando 6.23 y 6.24 podemos obtener las estimaciones 6.29 por otro camino. Es
obvio que las estimaciones de ij son
ij = yij
91
Interpretando , i , j , ij como funciones parametricas sobre el modelo 6.23, por el teorema de Gauss-Markov, sus estimaciones se obtendran sustituyendo ij por yij en 6.24,
lo que nos dara 6.29.
Hip
otesis lineales
En el dise
no de dos factores con interaccion, las hipotesis de mayor interes son
H0A : 1 = . . . = a = 0
H0B : 1 = . . . = b = 0
H0AB : ij = 0 i, j
i,j,k
+r
(yij yi yj + y)2
i,j
(yijk yij )2
i,j,k
Esta relacion, que se puede probar con algo de esfuerzo, la expresaremos brevemente como
SCT = SCF + SCC + SCI + SCR
donde SCT es la suma de cuadrados total, SCI es la suma de cuadrados correspondiente
a la interaccion, etc.
Consideremos ahora la hipotesis H0A . La suma de cuadrados residual es SCR. Supongamos la hipotesis cierta, entonces el modelo 6.19 se convierte en
yijk = + j + ij + ijk
Ademas, como no hay i , el mnimo de 6.25, es decir, la suma de cuadrados residual bajo
H0A es
(yi y)2 +
(yijk yij )2 = SCF + SCR
SCRH =
Luego si H0A es cierta (teorema ??) tendremos que
F =
(SCRH SCR)/(a 1)
SCF /(a 1)
=
SCR/[ab(r 1)]
SCR/[ab(r 1)]
Fuente de
variacion
suma de
cuadrados
Entre las
SCF = br
Entre col.
SCC = ar
Interaccion
Residuo
Total
SCT =
i (yi
y)2
a1
SCF /(a 1)
SCF /(a1)
SCR/[ab(r1)]
j (yj
y)2
b1
SCC /(b 1)
SCC /(b1)
SCR/[ab(r1)]
(a-1)(b-1)
SCI
(a1)(b1)
SCI /[(a1)(b1)]
SCR/[ab(r1)]
ab(r 1)
SCR
ab(r1)
yi
2
yj + y)
SCR = i,j,h (yijh yij )2
SCI = r
g.l.
cuadrados
medios
i,j (yij
i,j,h (yijh
y)2
abr 1
++
94
93
87.6
79.6
93
86
81.9
49.4
Genotipo
+
95.5 83.5 92
92.5 82
82.5
84
84.4 77
67
69.1 88.4
92
95
85.3
87.4
91
84
89.4
52
90
78
85.4
77
El n
umero X de huevos eclosionados por casilla sigue la distribuci
on binomial con n = 100
o n = 800. Para normalizar la muestra aplicaremos la transformaci
on
X
porcentaje
= arcsen
Y = arcsen
n
100
Los datos transformados son:
Huevos
sembrados
100
74.7
71.6
800
65.9
63.5
++
75.8
74.7
69.4
63.1
74.7
68
64.8
44.7
Genotipo
+
77.8 66
73.6
74.1 64.9 65.3
66.4 66.7 61.3
54.9 56.2 70.1
73.6
77.1
67.5
69.2
72.5
66.4
71
46.1
71.6
62
67.5
61.3
Se calcula:
y11 = 73.25
y22 = 62.6
y1 = 67.58
Podemos obtener entonces la
factores con interacci
on:
Fuente variaci
on suma cuadrados g.l. cuadrados medios
F
Entre siembras
665.64
1
665.64
14.87
Entre genotipos
7.87
2
3.93
0.09
Interacci
on
35.29
2
17.65
0.39
Residuo
1342.61
30
44.75
Total
2051.41
35
93
6.5
Descomposici
on ortogonal de la variabilidad
i,j,k,m
94
SCB =
SCBC = ad
(yj y)2
i,j,k,m
(yjk yj yk + y)2
j,k
(etcetera.)
Total
grados de libertad
2
(yi y) 2
(yj y) 2
(yk y) 2
(ym y)
2
(yij yi yj + y) 2
(yik yi yk + y) 2
(yim yi ym + y)2
(yjk yj yk + y) 2
(yjm yj ym + y) 2
(ykm yk ym + y)
(yijk yij yik yjk
2
+yi + yj + yk y)
(yijm yij yim yjm
2
+yi + yj + ym y)
(yikm yik yim ykm
2
+yi + yk + ym y)
(yjkm yjk yjm ykm
2
+yj + yk + ym y)
(yijkm yijk yijm yikm yjkm
+yij + yik + yjk + yim + yjm
+y
)2
km yi yj yk ym + y
(yijkm y)2
a1
b1
c1
d1
(a 1)(b 1)
(a 1)(c 1)
(a 1)(d 1)
(b 1)(c 1)
(b 1)(d 1)
(c 1)(d 1)
(a 1)(b 1)(c 1)
(a 1)(b 1)(d 1)
(a 1)(c 1)(d 1)
(b 1)(c 1)(d 1)
(a 1)(b 1)(c 1)(d 1)
abcd 1
Estas sumas de cuadrados pueden reunirse convenientemente, sumando tambien los grados de libertad, seg
un el tipo de dise
no factorial para obtener la suma de cuadrados
residual. Veamos tres casos:
1) Supongamos que se trata de un dise
no de tres factores y replicas, como el descrito
en a). Entonces:
SCT = SCA + SCB + SCC + SCAB + SCAC + SCBC + SCABC + SCR
siendo la suma de cuadrados residual
SCR = SCD + SCAD + SCBD + SCCD + SCABD + SCACD + SCBCD + SCABCD
=
(yijkm yijk )2
95
6.5.1
Descomposici
on de la variabilidad en algunos dise
nos
Indicando simbolicamente por A, B, AB, . . . , T las sumas de cuadrados SCA ,SCB , SCAB ,
nos del Analisis de la Varianza, pre. . . , SCT , exponemos seguidamente diferentes dise
sentando la descomposicion de la variabilidad. Algunos dise
nos han sido tratados en las
secciones anteriores de este captulo.
1. Un factor y r
eplicas
yij = + i + ij
T = A + R + AR
Entre grupos A
a1
Residuo
R + AR ar a
96
A
B
AB
R + AR + BR + ABR
a1
b1
(a 1)(b 1)
ab(r 1)
A
B
R
AB
AR + BR + ABR
a1
b1
r1
(a 1)(b 1)
(ab 1)(r 1)
Este modelo se utiliza cuando se combinan dos factores A, B y se obtienen replicas organizadas en bloques. El factor bloque tiene un efecto principal, pero no interacciona con
A, B.
5. Tres factores con una observaci
on por casilla
yijk = + i + j + k + ()ij + ()ik + ()jk + ijk
T = A + B + C + AB + AC + BC + ABC
Efecto A
A
Efecto B
B
Efecto C
C
Interaccion A B AB
Interaccion A C AC
Interaccion B C BC
Residuo
ABC
97
a1
b1
c1
(a 1)(b 1)
(a 1)(c 1)
(b 1)(c 1)
(a 1)(b 1)(c 1)
A
B
C
AB
AB
AC
AC
BC
BC
A B C ABC
R + AR + BR + CR + ABR
+ACR + BCR + ABCR
a1
b1
c1
(a 1)(b 1)
(a 1)(c 1)
(b 1)(c 1)
(a 1)(b 1)(c 1)
abc(r 1)
7. Dise
no de parcela dividida
yijk = + i + j + bk + ()ij + (b)ik + +ijk
T = A + C + B + AC + AB + CB + ACB
Tratamiento principal
Subtratamiento
Bloque
Interaccion A C
Interaccion A B
Residuo
B1
B2
B3
A2
C1 C2
A1
C2 C1
A3
C1 C2
A
C
B
AC
AB
CB + ACB
A1
C2 C1
A3
C2 C1
A4
C1 C2
A3
C2 C1
A4
C1 C2
A2
C2 C1
a1
c1
b1
(a 1)(c 1)
(a 1)(b 1)
a(b 1)(c 1)
A4
C1 C2
A2
C1 C2
A1
C2 C1
Este dise
no se utiliza en investigacion agrcola, tambien en otras ciencias experimentales,
para comparar a tratamientos (factor A) que se asignan aleatoriamente en b bloques
o ncas (factor B), a razon de a tratamientos por bloque. Se divide cada una de las
ab parcelas y se asignan al azar c subtratamientos (f actorC), tal como se ilustra en el
esquema para el caso a = 4, b = 3, c = 2. Se supone que act
uan los efectos principales A,
B y C, la interaccion A C y la interaccion A B. La interaccion entre A y los bloques
es debida a que estos no pueden considerarse completamente homogeneos. Sin embargo,
se supone que cada una de las ab parcelas dentro de los bloques son homogeneas, de modo
que los subtratamientos C no interaccionan con los bloques.
Para la signicacion de C y la interaccion A C debe calcularse
FC =
C/(c 1)
(CB + ABC)/[a(b 1)(c 1)]
FAC =
98
Para estudiar la signicacion del factor A y del factor bloque debe calcularse
FA =
6.5.2
A/(a 1)
AB/[(a 1)(b 1)]
FB =
B/(b 1)
AB/[(a 1)(b 1)]
Estimaci
on de par
ametros y c
alculo del residuo
= y
i = yi y
bk = yk y
ij = yij yi yj + y
Se puede aplicar una regla sencilla para encontrar la expresion algebraica del residuo. En
el dise
no citado, cuyo modelo es
yijk = + i + j + bk + ij + ijk
sustituiremos los parametros por sus estimaciones
yijk = y + (yi y) + (yj y) + (yk y)
+(yij yi yj + y) + eijk
Para que exista identidad entre yijk y el termino de la derecha, la estimacion de la
desviacion aleatoria eijk debe ser
eijk = yijk yij yk + y
El residuo correspondiente al dise
no de dos factores con interaccion en bloques aleatorizados es entonces
e2ijk =
(yijk yij yk + y)2
i,j,k
i,j,k
Orientaci
on (O): N ,S,E,O seg
un la ubicaci
on de la muestra en el toc
on.
Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la supercie de corte.
Profundidad (P ): 0, 2, 5 expresada en cm contados radialmente a partir de la supercie
lateral.
Cada una de las 5 4 4 3 = 240 muestras era en realidad la homogeneizaci
on de 3
muestras procedentes de 3 tocones distintos pero de las mismas caractersticas en cuanto
a la edad, orientaci
on, altura y profundidad.
Se estudiaron 8 variables qumicas. Para la variable que meda la cantidad de hemicelulosa, se obtuvo la siguiente descomposicion ortogonal de la suma de cuadrados:
Fuente de
variaci
on
E
O
A
P
EO
EA
EP
OA
OP
AP
EOA
EOP
EAP
OAP
EOAP
1227.53
51.94
58.59
18.04
152.70
137.13
72.22
54.60
37.26
21.04
189.89
145.12
132.22
60.70
373.19
4
3
3
2
12
12
8
9
6
6
36
24
24
18
72
Total
2732.64
239
306.88
17.31
19.53
9.02
12.72
11.42
9.03
6.06
6.21
3.50
5.27
6.04
5.50
3.37
5.18
F
59.21
3.34
3.76
1.74
2.45
2.20
1.74
1.17
1.20
0.68
1.01
1.16
1.06
0.65
Fuente de
variaci
on
E
O
A
EO
EA
Residuo
1227.53
51.94
58.59
152.70
137.13
1104.26
4
3
3
12
12
205
Total
2732.64
239
306.88
17.31
19.53
12.72
11.42
5.39
F
56.97
3.21
3.63
2.36
2.12
Se observa que sigue existiendo variabilidad signicativa respecto E,O y A. Tambien son
signicativas las interacciones EO y EA. Por lo tanto, se conrman las conclusiones
2 = 5.39.
iniciales. Una estimaci
on insesgada de la varianza 2 es
6.6
Dise
nos no balanceados y con observaciones faltantes
Un dise
no experimental (observaciones y modelo del experimento) puede describirse meno ampliada. Sean
diante el modelo lineal Y = Xa + , donde Xa es la matriz de dise
umeros de replicas para cada una de las condiciones experimentales (ver
n1 , . . . , nk los n
seccion ??). Excepto el dise
no de un factor, los demas dise
nos deben tener el mismo
n
umero de replicas por condicion experimental. Sin embargo, en las aplicaciones no
siempre es posible mantener tal restriccion. Ademas, las replicas de alguna condicion experimental pueden perderse (un tubo de ensayo que se rompe, unos datos que se extravan,
etc.). Veamos como pueden ser tratados ambos problemas.
Dado el modelo lineal Y = Xa + , diremos que corresponde a:
1) Un dise
no balanceado si n1 = n2 = . . . = nk = 0.
2) Un dise
no no balanceado si ni = nj para alg
un i, j.
3) Un dise
no con observaciones faltantes si ni = 0 para alg
un i.
Supongamos que X es la matriz de dise
no reducida estandar para un dise
no experimental determinado. Los dise
nos no balanceados y con observaciones faltantes se pueden
manejar, sin modicar X, utilizando
D = diag(n1 , n2 , . . . , nk )
Adoptemos el convenio de que si ni = 0 para alg
un i, la correspondiente observacion
contenida en Y se sustituye por 0 y en el vector de medias Y = (y 1 , y 2 , . . . , y k ) se toma
y i = 0. Entonces se verica
= (X DX) X DY
X DY
SCR = Y Y
101
1 0 0 0 0 0
0 1 0 0 0 0
1 1 0 1 0 1
0 1 0 0 0 0
1 1 0 0 1 0
0 0 0 0 0 0
1 1 0 0 0 1
X=
M=
1 0 1 1 0 0
0 0 0 1 0 0
0 0 0 1 0 0
1 0 1 0 1 0
0 0 0 1 0 0
1 0 1 0 0 1
0 0 0 0 0 0
0 0 0 0 0 1
D = (1, 2, 0, 3, 1, 0)
Xa = MX =
1
1
1
0
1
1
1
0
1
1
1
1
0
0
0
0
0
0
102
0
0
0
0
1
1
1
0
0
1
0
0
0
1
1
1
0
0
0
1
1
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
6.7
Ejercicios
Ejercicio 6.1
Los siguientes datos corresponden a los ndices de mortalidad, en un perodo de 10 a
nos,
clasicados por estaciones. Determinar si hay diferencias signicativas entre las diferentes
estaciones al nivel 0.01.
Invierno Primavera Verano Oto
no
9.8
9.0
8.8
9.4
9.9
9.3
9.4
9.8
9.3
8.7
10.3
10.6
9.2
8.8
9.8
9.9
9.4
8.6
9.4
10.7
9.1
8.3
9.6
9.7
9.2
8.8
9.5
10.2
8.9
8.7
9.6
10.9
9.3
8.9
9.5
10.0
9.3
9.4
Por otra parte, diere signicativamente de 10.0 el ndice medio registrado en invierno?
Ejercicio 6.2
Para el dise
no de un factor con k niveles
yih = + i + ih
con
i = 1, . . . , k; h = 1, . . . , ni
i = 0, demostrar:
k1
1+
F
nk
n/2
1
ni i2
k1
P
c) Cuando H0 es cierta y min{n1 , . . . , nk } , entonces F 1.
d) Si k = 2, el contraste F para la hipotesis
H0 = 1 = 2 = 0
es equivalente al contraste t de Student para comparar las medias + 1 , + 2
de dos poblaciones normales suponiendo que las varianzas son iguales.
103
Ejercicio 6.3
La siguiente tabla registra las producciones de 4 variedades de maz, plantadas seg
un un
dise
no en bloques aleatorizados
Bloque
a
b
c
d
e
Variedad
1 2 3 4
7 6 6 7
10 8 7 9
6 3 5 7
4 3 3 3
8 5 5 6
Al nivel 0.05 estudiar si hay diferencias entre variedades y entre bloques. Comparar la
variedad 1 con la variedad 3.
Ejercicio 6.4
Ejercicio 6.5
104
Captulo 7
An
alisis de Componentes de la
Varianza
7.1
Introducci
on
En los dise
nos hasta ahora estudiados hemos supuesto que los efectos de los factores son
jos y por este motivo se denominan modelos de efectos jos. Sin embargo, en ciertas
situaciones es necesario interpretar los efectos de los factores como aleatorios. En estos
casos no tiene interes el estudio de las funciones lineales de los efectos sino sus varianzas.
A los modelos relacionados con los efectos aleatorios se les denomina modelos de efectos
aleatorios o de componentes de la varianza. Pueden darse tambien efectos de ambos
tipos en un mismo modelo: son los modelos mixtos. Veamos como distinguirlos mediante
ejemplos.
7.1.1
i
ij
i = 1, 2, 3, 4; j = 1, 2, . . . , 10
7.1.2
Para determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azar
cinco ratas. De cada hgado realizamos tres preparaciones y evaluamos con las tecnicas
adecuadas la cantidad de DNA por celula.
Un modelo apropiado para estos datos sera tambien el de un factor
yij = + Ai + ij
i = 1, 2, . . . , 5; j = 1, 2, 3
7.1.3
Un modelo mixto
Para un estudio sobre la ecologa de un lago se han elegido al azar cuatro tardes de verano
y se ha medido la variable temperatura a diferentes profundidades (0,1,2,3,4 y 5 metros).
Nuestro objetivo es examinar mediante los datos obtenidos si hay diferencias signicativas
entre profundidades y das.
El modelo adecuado en este caso es el de dos factores sin interaccion
yij = + i + Bj + ij
yij
i
Bj
ij
i = 1, 2, . . . , 6; j = 1, 2, 3, 4
es la temperatura a la profundidad i en el da j
es la media general
es un parametro jo y representa el efecto de la profundidad i
es el efecto aleatorio del da j y sigue una distribucion N (0, B )
es el error aleatorio con distribucion N (0, )
106
7.2
Contraste de hip
otesis
E(CMB ) = 2 + aB2
F =
SCRA /(a 1)
SCRI /[(a 1)(b 1)]
H0 : B2 = 0
F =
SCRB /(b 1)
SCRI /[(a 1)(b 1)]
2
H0 : AB
=0
F =
En los dos primeros casos es necesario dividir por la interaccion para hallar la F .
2
2
En efecto, si H0 es cierta A2 = 0 y entonces SCRA /( 2 + rAB
) y SCRI /( 2 + rAB
)
siguen distribuciones ji-cuadrado independientes con a 1 y (a 1)(b 1) grados
de libertad respectivamente. Luego
F =
CMA
CMI
107
Tabla 7.1: Tabla de los cuadrados medios esperados y el cociente a efectuar para obtener
la F en dise
nos de uno y dos factores con efectos jos, aleatorios o mixtos
108
2 +
2
SCRI
SCR
con interacci
on
CMB /CMR
ar
j2
b1
2
r
ij
(a1)(b1)
2 +
SCRB
CMA /CMR
i2
br
a1
2 +
SCRA
CMI /CMR
CMB /CMR
j2
SCR
a
b1
CMA /CMR
CMA /CMR
2 +
i2
ni i2
SCRB
b
a1
1
k1
2 +
SCRA
SCR
dos factores
dos factores
un factor
2 +
esperados
cuadrados
SCRA
cuadrados medios
suma de
EFECTOS FIJOS
2
2 + rAB
2
2
2 + rAB
+ arB
2
2
2 + rAB
+ brA
2
2 + bB
2
2 + bA
(n0 = n1 = . . . = nk )
2
2 + n0 A
esperados
cuadrados medios
CMI /CMR
CMB /CMI
CMA /CMI
CMB /CMR
CMA /CMR
CMA /CMR
EFECTOS ALEATORIOS
b
a1
2
2 + rAB
2
2 + arB
2
br
i
a1
i2
2
2 + rAB
+
2
2 + aB
2 +
esperados
cuadrados medios
F
CMI /CMR
CMB /CMR
CMA /CMI
CMB /CMR
CMA /CMR
(A jo,B aleatorio)
MIXTOS
F =
SCRA /(a 1)
SCRI /[(a 1)(b 1)]
H0 : B2 = 0
F =
SCRB /(b 1)
SCR/[ab(r 1)]
2
=0
H0 : AB
F =
En este caso solamente el efecto principal de A debe ser dividido por la interaccion.
2
) y
En efecto, si H0 es cierta i = 0 i = 1, . . . , a y entonces SCRA /( 2 + rAB
2
2
SCRI /( + rAB ) siguen distribuciones ji-cuadrado independientes. Al realizar el
2
.
cociente para obtener la F desaparece el termino 2 + rAB
En cambio, para B2 = 0 (H0 cierta), tenemos que
SCRB / 2
2
SCRI /( 2 + AB
)
SCR/ 2
Fuente de
suma de
variaci
on
cuadrados
Entre tratam.
27535
Entre individuos
258040
Residuo
37451
Total
323026
g.l.
2
7
14
23
cuadrados
medios
F
13767.5 5.15
36862.8 13.78
2675.0
Para 2 y 14 g.l. F = 5.15 es signicativa al nivel 0.025, aceptamos pues que hay diferencias entre f
armacos. Para 7 y 14 g.l. F = 13.78 es signicativa al nivel 0.005, aceptamos
que hay variabilidad entre individuos.
7.3
Estimaci
on puntual de los componentes de la varianza
2
Una estimacion aproximada de las varianzas 2 , A2 , B2 , AB
se puede obtener igualando los cuadrados medios con los cuadrados medios esperados y resolviendo el sistema
resultante. Por ejemplo, en el dise
no de un factor tenemos
A2
2 + n0
2
= CMA
= CMR
y para el dise
no de dos factores con interaccion
2
AB
+ br
A2
2 + r
2
2 + r
AB
+ ar
B2
2
2
+ r
AB
2
=
=
=
=
CMA
CMB
CMI
CMR
El tiempo de frenado entre los individuos vara con una desviacion tpica estimada
B =
106 milesimas de segundo.
110
7.4
Comparaci
on entre los modelos de efectos jos y
los modelos de efectos aleatorios
A los modelos de efectos jos los denominaremos tambien modelos de tipo I y a los de
efectos aleatorios modelos de tipo II.
7.4.1
Dise
no de un factor con efectos jos
Tal como se ha visto en la seccion 6.2, el modelo lineal que se adapta a este dise
no es
yij = i + ij
o, reparametrizado,
yij = + i + ij
i = 1, . . . , k; j = 1, . . . , ni
con la restriccion ki=1 i = 0. Las yij son independientes y normales N (i , ). Las ij
son independientes y normales N (0, ).
La descomposicion de la variabilidad viene dada por
(yij y)2 =
(yi y)2 +
(yij yi )2
i,j
i,j
es decir
SCT = SCe + SCd
o tambien
SCRH = (SCRH SCR) + SCR
con n 1, k 1 y n k grados de libertad respectivamente, siendo n1 + + nk = n.
Teorema 7.4.1
El valor esperado de la suma de cuadrados entre grupos es
2
E(SCe ) = (k 1) +
k
ni i2
i=1
luego
E(CMe ) = E
Demostraci
on:
Por denicion SCe =
k
i=1
SCe
k1
1
ni i2
= +
k 1 i=1
k
ni (yi y)2 .
ya que
k
i=1
i = 0 y en consecuencia = (1/k)
k
i=1
i = 0.
Entonces
SCe =
=
k
i=1
k
ni (i + i )2
ni i2
i=1
k
ni 2i
k
k
ni i =
ni i 2
i=1
i=1
k
ni i
i=1
ni
ni i i
i=1
i=1
k
+2
k
i=1
2
pero
n2
ni
1
ij
ni j=1
=
ij = n2
i,j
luego
E(SCe ) =
k
ni i2
i=1
k
ni E(2i ) + n E(2 )
i=1
+2
k
ni i E(i ) 2
k
i=1
ni i
E( )
i=1
2n E(2 )
Recordando que las v.a. ij son independientes y normales N (0, ) se verica
i N (0, / ni )
N (0, / n)
Por ser centradas, la esperanza de su cuadrado coincide con la varianza, es decir
2
= var(i ) =
ni
2
E(2 ) = var( ) =
n
E(2i )
Por lo tanto
E(SCe ) =
=
k
i=1
k
ni i2 +
k
ni
i=1
2
2
2
+ n 2n
ni
n
n
ni i2 + k 2 + 2 2 2
i=1
2
= (k 1) +
k
ni i2
i=1
112
Teorema 7.4.2
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = (n k) 2
y por lo tanto
E(CMd ) = E
SCd
nk
= 2
Demostraci
on:
Teniendo en cuenta que SCd = SCR, la demostracion de este teorema ya se realizo en
la seccion ?? con el modelo lineal general. Tambien se puede demostrar siguiendo un
proceso parecido al del teorema anterior.
Caso particular
Si el dise
no es balanceado, es decir, igual n
umero de replicas por condicion experimental
(n1 = . . . = nk = n0 ), entonces los teoremas 7.4.1 y 7.4.2 adoptan respectivamente las
formas
n0 2
k 1 i=1 i
SCd
E(CMd ) = E
= 2
k(n0 1)
k
E(CMe ) = 2 +
SCe /[ 2 (k 1)]
CMe
=
SCd /[ 2 (n k)]
CMd
7.4.2
Dise
no de un factor con efectos aleatorios
i = 1, . . . , k; j = 1, . . . , ni
i = i
3) E(Ai ij ) = 0
i, j
i = 1, . . . , k
es decir, {Ai } son variables aleatorias de media cero y varianza A2 , independientes entre
s y de los errores {ij }. Luego
var(yij ) = var(Ai ) + var(ij )
A2
+ 2
y2 =
y por este motivo es apropiado denominar a A2 y 2 componentes de la varianza.
Para su tratamiento clasico mediante Analisis de la Varianza de un factor es necesario
ademas que
4) Ai N (0, A ), ij N (0, ) y por lo tanto yij N (, y )
5) el dise
no sea balanceado n1 = n2 = . . . = nk = n0
Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelo
de efectos aleatorios, diere de un modelo de efectos jos en que bajo las asunciones
realizadas
a) Para un i dado, todas las observaciones tienen igual esperanza
E(yij ) = + Ai
E(CMe ) = E
SCe
k1
114
= 2 + n0 A2
Demostraci
on:
Por denicion SCe = n0
Del modelo se obtiene
k
i=1 (yi
y)2 .
yi = + Ai + i
y = + A +
de donde
SCe = n0
k
i=1
k
= n0
A2i
k
i=1
+k2 2
A2
i=1
k
2A
i + 2
i=1
pero
k
i=1
k
Ai +
i=1
k
k
2i
i=1
(Ai A )(i )
i=1
n0
n0
k
k
1
1
1
i =
ij =
ij = kn0 = k
n0 j=1
n0 i=1 j=1
n0
i=1
ya que
n0
k
1
ij
=
kn0 i=1 j=1
Entonces
SCe = n0
k
A2i + kA2 +
i=1
k
2i k2 + 2
i=1
E(SCe ) = n0
k
E(A2i )
k
(Ai A )(i )
i=1
n0 kE(A2 )
i=1
+ n0
k
E(2i )
i=1
n0 kE(2 ) + 2n0
k
E[(Ai A )(i )]
i=1
A N (0, A / k)
i N (0, / n0 )
N (0, / kn0 )
=
=
=
=
A2
A2 /k
2 /n0
2 /(kn0 )
E(SCe ) = n0 kA2 n0 k
Teorema 7.4.4
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = k(n0 1)
es decir
E(CMd ) = E
SCd
k(n0 1)
= 2
Demostraci
on:
0
Por denicion SCe = ki=1 nj=1
(yij yi )2 .
Del modelo se obtiene
yi = + Ai + i
Entonces
SCd =
n0
k
(ij i )2
i=1 j=1
n0
k
2ij
i=1 j=1
n0
k
n0
k
n0
k
i=1 j=1
2ij
+ n0
i=1 j=1
2i
k
k
i=1 j=1
i=1
n0
k
k
2ij n0
i=1 j=1
i ij
i=1 j=1
2i
i=1
2ij + n0
n0
k
k
i=1
2i 2
k
i
n0
i n0 i
i=1
2i
i=1
de manera que
E(SCd ) =
n0
k
E(2ij ) n0
i=1 j=1
= kn0 2 n0 k
= kn0 2 k 2
= k(n0 1) 2
116
k
ij
j=1
E(2i )
i=1
2
n0
k
k
2
= n0
(yi y) = n0
(Ai + i A )2
i=1
SCR =
(yij yi ) =
i,j
i=1
(ij i )2
i,j
siendo SCA la suma de cuadrados entre grupos o suma de cuadrados del factor y SCR
la suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadas
hasta ahora por SCe y SCd respectivamente. Recuerdese tambien que A es una variable
aleatoria y en consecuencia susceptible de tomar un valor distinto de cero.
Realizando el cambio gi = Ai + i obtenemos k v.a. independientes con distribucion
normal de media cero y varianza
var(gi ) = var(Ai ) + var(i ) = A2 +
2
n0
)
)2
n
SCA
i
0
i=1
i=1 (gi g
=
=
2k
2
2
2
2
n0 A +
n0 A2 + 2
A + n0
Entonces
E(CMA ) = E
de las estimaciones y ij i pertenece al espacio error, espacios que son ortogonales entre
s. Debido a la normalidad del modelo, sus vectores son independientes, luego SCA y SCR
son independientes. Entonces, si H0 es cierta, el estadstico
F =
SCA /[ 2 (k 1)]
SCA /(k 1)
CMA
=
=
2
SCR/[ k(n0 1)]
SCR/[k(n0 1)]
CMR
cuadrados
medios
g.l.
k1
Modelo I
Modelo II
n0 i2
+
k1
2 + n0 A2
CMA
k1
Fk(n
0 1)
CMR
2 = CMR
A2 =
CMA CMR
n0
solucion obtenida resolviendo el sistema resultante de igualar los cuadrados medios con
los cuadrados medios esperados (ver seccion anterior). Observese que los estimadores
2
y
A2 son siempre estimadores insesgados de los parametros 2 y A2 respectivamente.
7.4.3
Dise
no de dos factores sin interacci
on con efectos jos o
dise
no en bloques al azar completos
Este dise
no recibe tambien el nombre de bloques aleatorizados. Un desarrollo tpico para
este dise
no, utilizando tres tratamientos en cuatro bloques, es el siguiente
Bloque 1
t3
t1
t2
Bloque 2 Bloque 3
t2
t1
t3
t1
t2
t3
118
Bloque 4
t1
t3
t2
Las letras t indican la asignacion aleatoria de los tratamientos en los bloques. Como
ejemplo vease el ejemplo 6.3.1.
Generalizando, consideremos el caso de a tratamientos en b bloques. La observacion yij
indica la respuesta del i-esimo tratamiento aplicado al j-esimo bloque. Se supondra que
yij (i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribucion normal
un 2 . Seran de utilidad tambien
de media ij y varianza com
yi
yj
y
El promedio de las medias poblacionales para el i-esimo tratamiento esta denido por
1
i =
ij
b j=1
b
Asimismo, el promedio de las medias poblacionales para el j-esimo bloque esta denido
por
a
1
ij
j =
a i=1
y el promedio de las ab medias poblacionales es
1
=
ij
ab i=1 j=1
a
b
i = 0
i=1
j = 0
j=1
entonces
i =
1
( + i + j ) = + i
b j=1
j =
1
( + i + j ) = + j
a i=1
(yij yi yj + y)2
i,j
es decir
SCT = SCF + SCC + SCR
donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre las, SCC la
suma de cuadrados entre columnas y SCR la suma de cuadrados residual.
Teorema 7.4.5
El valor esperado de la suma de cuadrados entre las es
2
E(SCF ) = (a 1) + b
a
i2
i=1
luego
b 2
E(CMF ) = E(SCF /(a 1)) = +
a 1 i=1 i
a
Demostraci
on:
Es analoga a la del teorema 7.4.1.
120
Teorema 7.4.6
El valor esperado de la suma de cuadrados entre columnas es
2
E(SCC ) = (b 1) + a
b
j2
j=1
luego
a 2
Demostraci
on:
Es analoga a la del teorema 7.4.1.
Teorema 7.4.7
El valor esperado de la suma de cuadrados residual es
E(SCR) = (a 1)(b 1) 2
luego
Demostraci
on:
Es analoga a la del teorema 7.4.2.
Inferencia en el dise
no de dos factores sin interacci
on con efectos jos
Una de las hipotesis a contrastar es
H0A : 1 = 2 = . . . = a = 0
Por el teorema 7.4.5, CMF es un estimador insesgado de 2 si H0A es cierta. Por el teorema
7.4.7 SCR es siempre un estimador insesgado de 2 , tanto si H0A es cierta como si no lo
es. Ademas, suponiendo que ij N (0, ), se verica el teorema ?? de la teora general
del modelo lineal formal:
a) SCR/ 2 2(a1)(b1)
b) Si H0A es cierta, entonces CMF = SCF /(a 1) es otra estimacion insesgada de 2 y
ademas
SCF / 2 2a1
c) Si H0A es cierta, el estadstico
F =
SCF /[ 2 (a 1)]
CMF
=
2
SCR/[ (a 1)(b 1)]
CMR
121
SCC /[ 2 (b 1)]
CMC
=
SCR/[ 2 (a 1)(b 1)]
CMR
7.4.4
Dise
no de dos factores sin interacci
on con efectos aleatorios
i = 1, . . . , a; j = 1, . . . , b
siendo Ai , Bj , ij variables aleatorias normales independientes con media cero y varianzas
A2 , B2 , respectivamente. La descomposicion fundamental de la suma de cuadrados
(descomposicion de la variabilidad) viene dada por
(yij y)2 = b
(yi y)2 + a
(yj y)2
i,j
(yij yi yj + y)2
i,j
es decir
SCT = SCF + SCC + SCR
Teorema 7.4.8
El valor esperado de la suma de cuadrados entre las es
E(SCF ) = (a 1) 2 + b(a 1)A2
luego
Demostraci
on:
Es analoga a la del teorema 7.4.3.
Teorema 7.4.9
El valor esperado de la suma de cuadrados entre columnas es
E(SCC ) = (b 1) 2 + a(b 1)B2
luego
Demostraci
on:
Es analoga a la del teorema 7.4.3.
Teorema 7.4.10
El valor esperado de la suma de cuadrados residual es
E(SCR) = (a 1)(b 1) 2
luego
Demostraci
on:
Es analoga a la del teorema 7.4.4.
Inferencia en el dise
no de dos factores sin interacci
on con efectos aleatorios
Las hipotesis de interes en este modelo son
H0 : A2 = 0
H0 : B2 = 0
CMF
SCF /[ 2 (a 1)]
=
2
SCR/[ (a 1)(b 1)]
CMR
SCC /[ 2 (b 1)]
CMC
=
2
SCR/[ (a 1)(b 1)]
CMR
que sigue bajo H0 la distribucion F con b 1 y (a 1)(b 1) g.l.. La hipotesis H0 se
rechaza si el estadstico es signicativo.
A modo de resumen de lo expuesto en los apartados anteriores, vease el cuadro 7.3.
Las estimaciones insesgadas de las componentes de la varianza se obtienen igualando los
cuadrados medios a los cuadrados medios esperados y resolviendo el sistema de ecuaciones
resultante (ver seccion 7.3). Las soluciones en este caso son
2 = CMR
vericandose
E(
A2 ) = A2
123
g.l.
cuadrados
medios
Entre las
a1
Entre col.
b1
Error
(a 1)(b 1)
Total
ab 1
CMR =
Modelo I
SCR
(a 1)(b 1)
b 2
i
a1
a 2
2 +
j
b1
2 +
Modelo II
2 + bA2
2 + aB2
7.4.5
Dise
no de dos factores aleatorios con interacci
on
H0B : B2 = 0
2
H0AB : AB
=0
2
SCA /[(a 1)( 2 + rAB
SCA /(a 1)
CMA
)]
=
=
2
2
SCAB /[(a 1)(b 1)( + rAB )]
SCAB /(a 1)(b 1)
CMAB
que sigue bajo H0A la distribucion F con a 1 y (a 1)(b 1) g.l.. La hipotesis H0A se
rechaza si el estadstico es signicativo.
De manera analoga para contrastar la segunda hipotesis se utiliza el estadstico
F =
2
SCB /(b 1)
CMB
)]
SCB /[(b 1)( 2 + rAB
=
=
2
2
SCAB /[(a 1)(b 1)( + rAB )]
SCAB /(a 1)(b 1)
CMAB
g.l.
Entre las
a1
CMA =
SCA
a1
2 +
rb
a1
Entre col.
b1
CMB =
SCB
b1
2 +
ra
b1
Interac.
CMAB =
Residuo
ab(r 1)
CMR =
Total
cuadrados
medios
Modelo I
SCAB
g
2 +
SCR
ab(r1)
abr 1
r
g
Modelo II
i2
2
2 + rAB
+ brA2
j2
2
2 + rAB
+ arB2
2
2 + rAB
ij
2
g = (a 1)(b 1)
7.4.6
2 = CMR
E(
2) = 2
E(
A2 ) = A2
E(
B2 ) = B2
AB
= (CMAB CMR )/r
2
2
E(
AB
) = AB
Dise
no de tres factores aleatorios y r
eplicas
H0B : B2 = 0
H0C : C2 = 0
no hay una razon F apropiada a menos que uno o mas de los componentes de la varianza
de la interaccion de dos factores no sean signicativos. Por ejemplo, supongamos que se
125
Fuente de
variacion
cuadrados
medios
g.l.
a1
CMA
2
2
2
2 + rABC
+ crAB
+ brAC
+ bcrA2
b1
CMB
2
2
2
2 + rABC
+ crAB
+ arBC
+ acrB2
c1
CMC
2
2
2
2 + rABC
+ brAC
+ arBC
+ abrC2
AB
(a 1)(b 1)
CMAB
2
2
2 + rABC
+ crAB
AC
(a 1)(c 1)
CMAC
2
2
2 + rABC
+ brAC
BC
(b 1)(c 1)
CMBC
2
2
2 + rABC
+ arBC
(a 1)(b 1)(c 1)
CMABC
2
2 + rABC
CMR
ABC
Residuo
abc(r 1)
abcr 1
Total
En denitiva, si se desea contrastar las hipotesis relativas a los efectos principales, habra
que estudiar primero la signicacion de los componentes de la varianza relativos a las
interacciones.
7.5
Correlaci
on intracl
asica
i = 1, . . . , k; j = 1, . . . , n0
A2
A2 +
0 I 1
En efecto
cov(yij , yij )
I (yij , yij ) =
var(yij ) var(yij )
126
E[(yij )(yij )]
A2 +
E(A2i + Ai ij + Ai ij + ij ij )
=
A2 +
E(A2i )
A2
=
=
A2 +
A2 +
La correlacion intraclasica nos expresa el porcentaje de la variabilidad entre grupos respecto la variabilidad total y se utiliza para estudiar la dependencia entre los individuos
de un mismo grupo respecto a una variable observable Y . Por ejemplo, es utilizado en
Genetica descomponiendo la variabilidad total y2 (varianza de la componente genetica)
y 2 (varianza de la componente ambiental).
Estimaci
on y contraste de signicaci
on
Una estimacion adecuada de I es
I = max{0, rI }
siendo
rI =
A2
F 1
=
2
2
A +
F + n0 1
44
43
33
56
36
41
46
34
52
37
42
48
37
50
38
40
42
39
51
40
48
50
32
54
40
46
45
35
52
41
46
45
37
49
44
42
49
41
52
44
con 4 g.l.
con 35 g.l.
y entonces
CMA
= 37.57
CMR
El coeciente de correlaci
on intracl
asica es
F =
127
ya que
F 1
36.57
=
= 0.8205
F + n0 1
44.57
Realicemos el contraste de hip
otesis para comprobar que es signicativo. La hip
otesis
2
H0 : I = 0 equivale a plantear el contraste H0 : A = 0, que se resuelve mediante
An
alisis de la Varianza. Como F = 37.57 con 4 y 35 g.l. es muy signicativa, aceptamos
que es distinto de cero. La interpretaci
on en este caso es la siguiente: aproximadamente el
80% de la variabilidad se explica por la componente genetica, el resto es debido a factores
ambientales.
rI =
128
7.6
Ejercicios
Ejercicio 7.1
En una poblacion, de entre las mujeres que haban concebido tres hijos varones, se seleccionaron 5 al azar y se anoto el peso que registro cada hijo al nacer:
1
2
3
4
5
3.250
2.800
3.400
4.100
2.900
3.125
3.100
3.500
4.200
2.750
3.400
2.900
3.350
4.150
2.800
Fecha
2
3
24.0 34.6
22.4 22.9
22.1 22.1
21.8 21.0
19.3 19.0
14.4 14.2
4
24.8
23.2
22.2
21.2
18.8
13.8
Determinar si son factores de efectos jos o de efectos aleatorios y si hay diferencias entre
profundidades y entre fechas.
Ejercicio 7.3
Para valorar la variabilidad del contenido de zumo de una cierta variedad de limon, se
tomaron 4 arboles al azar y se midio el contenido de zumo de 3 limones de cada arbol.
Esta observacion se hizo durante 5 das, eligiendo fechas al azar. Los resultados fueron
(en cm3 ):
Arbol
Da
1
2
3
4
5
24
18
16
21
23
1
26
25
21
24
24
26
19
15
22
28
28
21
24
23
27
2
20
24
20
20
21
27
23
21
26
28
28
27
22
24
26
3
18
19
25
24
25
21
17
24
23
27
27
25
29
20
25
4
24
23
27
21
27
20
22
27
27
28
Estudiar si existe variabilidad entre arboles, entre das y entre las interacciones arboles
das.
129
Ejercicio 7.4
Se han obtenido replicas de una variable observable y combinado dos factores A, B. El
n
umero de replicas (factor R) por casilla es de tres. La descomposicion de la suma de
cuadrados es la siguiente:
Fuente variacion g.l. Suma cuadrados
A
3
420
B
1
143
AB
3
32
R
2
109
AR
6
197
BR
2
39
ABR
6
155
Utilizando el nivel de signicacion 0.01, se pide:
a) Suponiendo A, B factores de efectos jos, estudiar si son signicativos. Hallar tres
estimaciones independientes de la varianza del dise
no.
b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interaccion A B
son signicativos.
Ejercicio 7.5
Consideremos de nuevo el enunciado del problema 6.4. Supongamos ahora que en el
no) es de efectos aleatorios y B (genotipo) es de efectos jos.
modelo () ir = 0, A (a
Estudiar si los efectos principales y las interacciones son signicativas.
Ejercicio 7.6
Los resultados yijh de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , b
combinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .
En este experimento las replicas son bloques y el modelo es
yijk = + Xi + Yj + Iij + Bh + ijh
La tabla de suma de cuadrados es:
Fuente variacion g.l. Suma cuadrados
X
2
625
Y
3
1340
B
4
402
XY
6
227
XB
8
289
YB
12
310
XY B
24
528
Se pide:
a) Suponiendo los efectos jos, estudiar la signicacion de los efectos principales y
la interaccion (nivel 0.05). Hallar dos estimadores insesgados de la varianza del
modelo.
130
b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de los
cuadrados medios son:
2
+ rI2 + 2
E(CMY ) = rpY2 + rI2 + 2
E(CMX ) = rqX
E(CMI ) = rI2 + 2
E(CMB ) = pqB2 + 2
E(CMR ) = 2
131
Bibliografa
[1] J. Alegre y J. Arcarons, Aplicaciones de Econometra. Textos Docents, Universitat
de Barcelona, 1991.
[2] R. Christensen, Plane Answers to Complex Questions. Springer-Verlag, 1987.
[3] C.M. Cuadras, Problemas de Probabilidades y Estadstica. VOL. 2 Inferencia estadstica EUB, Barcelona 2000.
[4] A. Kshirsagar, A Course on Linear Models. Marcel Dekker.
[5] D.C. Montgomery and E.A. Peck, Introduction to Linear Regression Analysis. John
Wiley & Sons, New York, 1992.
[6] D. Pe
na, Estadstica: Modelos y metodos. 2. Modelos Lineales y Series Temporales.
Alianza, 1987.
[7] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.
[8] H. Schee, The Analysis of Variance. John Wiley & Sons, New York,
[9] G.A.F. Seber, Linear Regression Analysis. John Wiley & Sons, New York, 1977.
[10] A. Sen and M. Srivastava, Regression Analysis. Springer-Verlag, 1990.
[11] Weisber, Applied Linear Regression. John Wiley & Sons, New York,
[12] B.J. Winer, Statistical Principes in Experimental Design. McGraw-Hill.
132