Regresión Líneal Simple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 132

MODELOS LINEALES

Francesc Carmona

Departament dEstadstica

Barcelona, 27 de noviembre de 2001

Indice General
1 Las condiciones

1.1

Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2

Un ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

El modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

10

1.4

El metodo de los mnimos cuadrados . . . . . . . . . . . . . . . . . . . .

11

1.5

Las condiciones de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . .

12

1.6

Otros tipos de modelos lineales . . . . . . . . . . . . . . . . . . . . . . .

14

1.7

Algunas preguntas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

1.8

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16

2 Estimaci
on

18

2.1

Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.2

El modelo lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

18

2.3

Suposiciones basicas del modelo lineal . . . . . . . . . . . . . . . . . . . .

21

2.4

Estimacion de los parametros . . . . . . . . . . . . . . . . . . . . . . . .

22

2.5

Estimacion de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . .

26

2.6

Distribuciones de los estimadores . . . . . . . . . . . . . . . . . . . . . .

27

2.7

Matriz de dise
no reducida . . . . . . . . . . . . . . . . . . . . . . . . . .

28

2.8

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

31

3 Funciones param
etricas estimables

33

3.1

Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

33

3.2

Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . .

35

3.3

Sistemas de funciones parametricas estimables . . . . . . . . . . . . . . .

38

3.4

Intervalos de conanza . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40

3.5

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

42

4 Contraste de hip
otesis lineales

44

4.1

Hipotesis lineales contrastables . . . . . . . . . . . . . . . . . . . . . . . .

44

4.2

El modelo lineal de la hipotesis . . . . . . . . . . . . . . . . . . . . . . .

45

4.3

Teorema fundamental del Analisis de la Varianza . . . . . . . . . . . . .

48

4.4

Eleccion entre dos modelos lineales . . . . . . . . . . . . . . . . . . . . .

55

4.5

Contraste de hipotesis sobre funciones parametricas estimables . . . . . .

56

4.6

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

5 Regresi
on
5.1

5.2

5.3

5.4

59

Regresion lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . .

59

5.1.1

Estimacion de los parametros de regresion . . . . . . . . . . . . .

59

5.1.2

Estimacion de la varianza . . . . . . . . . . . . . . . . . . . . . .

60

5.1.3

Inferencia sobre los parametros de regresion . . . . . . . . . . . .

61

5.1.4

Caracter lineal de la regresion simple . . . . . . . . . . . . . . . .

63

Regresion lineal m
ultiple . . . . . . . . . . . . . . . . . . . . . . . . . . .

65

5.2.1

Hipotesis sobre los parametros de regresion . . . . . . . . . . . . .

67

5.2.2

Calculo de la regresion m
ultiple . . . . . . . . . . . . . . . . . . .

68

Regresion polinomica . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

70

5.3.1

Utilizacion de polinomios ortogonales . . . . . . . . . . . . . . . .

71

5.3.2

Eleccion del grado . . . . . . . . . . . . . . . . . . . . . . . . . .

72

Comparacion de curvas experimentales . . . . . . . . . . . . . . . . . . .

74

5.4.1

Comparacion global . . . . . . . . . . . . . . . . . . . . . . . . . .

74

5.4.2

Test de paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . .

75

6 An
alisis de la Varianza

78

6.1

Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

6.2

Dise
no de un factor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

78

6.3

Dise
no de dos factores sin interaccion . . . . . . . . . . . . . . . . . . . .

83

6.4

Dise
no de dos factores con interaccion . . . . . . . . . . . . . . . . . . . .

89

6.5

Descomposicion ortogonal de la variabilidad . . . . . . . . . . . . . . . .

94

6.5.1

Descomposicion de la variabilidad en algunos dise


nos . . . . . . .

96

6.5.2

Estimacion de parametros y calculo del residuo . . . . . . . . . .

99

6.6

Dise
nos no balanceados y con observaciones faltantes . . . . . . . . . . .

101

6.7

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

103

7 An
alisis de Componentes de la Varianza
7.1

105

Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

105

7.1.1

Un modelo de efectos jos . . . . . . . . . . . . . . . . . . . . . .

105

7.1.2

Un modelo de efectos aleatorios . . . . . . . . . . . . . . . . . . .

106

7.1.3

Un modelo mixto . . . . . . . . . . . . . . . . . . . . . . . . . . .

106

7.2

Contraste de hipotesis . . . . . . . . . . . . . . . . . . . . . . . . . . . .

107

7.3

Estimacion puntual de los componentes de la varianza . . . . . . . . . . .

110

7.4

Comparacion entre los modelos de efectos jos y los modelos de efectos


aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

111

7.4.1

Dise
no de un factor con efectos jos . . . . . . . . . . . . . . . . .

111

7.4.2

Dise
no de un factor con efectos aleatorios . . . . . . . . . . . . . .

114

7.4.3

Dise
no de dos factores sin interaccion con efectos jos o dise
no en
bloques al azar completos . . . . . . . . . . . . . . . . . . . . . .

118

7.4.4

Dise
no de dos factores sin interaccion con efectos aleatorios . . . .

122

7.4.5

Dise
no de dos factores aleatorios con interaccion . . . . . . . . . .

124

7.4.6

Dise
no de tres factores aleatorios y replicas . . . . . . . . . . . . .

125

7.5

Correlacion intraclasica . . . . . . . . . . . . . . . . . . . . . . . . . . . .

126

7.6

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

129

Nota del autor: Las paginas que siguen constituyen una parte de las exposiciones teoricas
y practicas de asignaturas que se han impartido a lo largo de algunos a
nos en varias
licenciaturas y cursos de doctorado. En particular en la licenciatura de Matematicas,
la licenciatura de Biologia y la diplomatura de Estadstica. Ademas, el tratamiento de
algunos temas tiene su origen en unos apuntes de C.M. Cuadras y Pedro Sanchez Algarra
(1996) que amablemente han cedido para su actualizacion en este libro.
Por u
ltimo, hay que destacar que este libro esta inacabado. Esta version ha sido escrita
mediante el procesador de textos cientco LATEX y presentada en formato electronico.
Gracias a ello y hasta la version denitiva, este libro estara en constante renovacion.
Barcelona, 27 de noviembre de 2001.
Dr. Francesc Carmona
Departamento de Estadstica
Universidad de Barcelona

Captulo 1
Las condiciones
1.1

Introducci
on

Los metodos de la Matematica que estudian los fenomenos deterministas relacionan, por
lo general, una variable dependiente con diversas variables independientes. El problema
se reduce entonces a resolver un sistema lineal, una ecuacion diferencial, un sistema
no lineal, etc.. Sin embargo, la aplicacion de los metodos cuantitativos a las Ciencias
Experimentales ha revelado la poca abilidad de las relaciones deterministas. En tales
Ciencias, el azar, la aleatoriedad, la variabilidad individual, las variables no controladas,
etc. justican el planteo, en terminos muy generales, de la ecuacion fundamental
observacion = modelo + error aleatorio
El experimentador puede, jando las condiciones de su experimento, especicar la estructura del modelo, pero siempre debe tener en cuenta el error aleatorio o desviacion entre
lo que observa y lo que espera observar seg
un el modelo.
Los modelos de regresion utilizan la ecuacion anterior jando el modelo como una funcion
lineal de unos parametros. El objetivo consiste, casi siempre, en la prediccion de valores
mediante el modelo ajustado.
El An
alisis de la Varianza es un metodo estadstico introducido por R.A. Fisher de gran
utilidad en las Ciencias Experimentales, que permite controlar diferentes variables cualitativas y cuantitativas (llamadas factores), a traves de un modelo lineal, suponiendo
normalidad para el error aleatorio. Fisher(1938) denio este metodo como la separacion
de la varianza atribuible a un grupo de la varianza atribuible a otros grupos. Como
veremos, los tests en Analisis de la Varianza se construyen mediante estimaciones independientes de la varianza del error.
Ambos conjuntos de modelos se pueden abordar con una teora com
un: los modelos
lineales.
Iniciaremos este captulo con un ejemplo de modelizacion de un problema y su aplicacion
practica. A continuacion explicaremos en que consiste esencialmente el metodo de los
mnimos cuadrados y estableceremos las condiciones para que este metodo sea valido
para su utilizacion en Estadstica.

1.2

Un ejemplo

En el libro de Sen and Srivastava en [10, pag. 2] se explica este ejemplo que nosotros
hemos adaptado a las medidas europeas.
Sabemos que cuantos mas coches circulan por una carretera, menor es la velocidad del
traco. El estudio de este problema tiene como objetivo la mejora del transporte y la
reduccion del tiempo de viaje.
La tabla adjunta proporciona los datos de la densidad (en vehculos por km) y su correspondiente velocidad (en km por hora).
Dato
1
2
3
4
5
6
7
8
9
10
11
12

Densidad
12,7
17,0
66,0
50,0
87,8
81,4
75,6
66,2
81,1
62,8
77,0
89,6

Velocidad Dato
62,4
13
50,7
14
17,1
15
25,9
16
12,4
17
13,4
18
13,7
19
17,9
20
13,8
21
17,9
22
15,8
23
12,6
24

Densidad
18,3
19,1
16,5
22,2
18,6
66,0
60,3
56,0
66,3
61,7
66,6
67,8

Velocidad
51,2
50,8
54,7
46,5
46,3
16,9
19,8
21,2
18,3
18,0
16,6
18,3

Tabla 1.1: Datos del problema de traco


Como la congestion afecta a la velocidad, estamos interesados en determinar el efecto
de la densidad en la velocidad. Por razones que explicaremos mas adelante, tomaremos
como variable dependiente la raz cuadrada de la velocidad.
El graco 1.1 presenta la nube de puntos (scatter plot) con la variable independiente
(densidad) en el eje horizontal y la variable dependiente (raz cuadrada de la velocidad)
en el eje vertical.
Como primera aproximacion podramos tomar, como modelo
de ajuste, larecta que une
dos puntos representativos, por ejemplo, los puntos (12, 7, 62, 4) y (87, 8, 12, 4). Dicha
recta es y = 8, 6397 0, 0583x.
Inmediatamente nos proponemos hallar la mejor de las rectas, seg
un alg
un criterio. Como
veremos, el metodo de los mnimos cuadrados proporciona una recta, llamada recta de
regresion, que goza de muy buenas propiedades. Este metodo consiste en hallar a y b
tales que se minimice la suma de los errores al cuadrado.
n


(yi (a + bxi ))2

i=1

En este caso la recta de regresion es y = 8, 0898 0, 0566x.


Para estudiar la bondad del ajuste se utilizan los residuos
ei = yi yi
8

Grfico de dispersin
10

RAIZ(vel)

8
6
4
2
0
0

20

40

60

80

100

densidad

Figura 1.1: Nube de puntos del problema de traco


donde yi = 8, 0898 0, 0566xi . Los gracos de la gura 1.2 nos muestran estos residuos.
Para mejorar el modelo podemos a
nadir el termino cuadratico y considerar el modelo
parabolico
yi = a + bxi + cx2i
Tambien aqu, el metodo de los mnimos cuadrados proporciona un ajuste que es optimo
en varios aspectos. Se trata de hallar los valores de a, b y c que minimizan la suma de
los errores al cuadrado
n

(yi (a + bxi + cx2i ))2
i=1

El calculo de estos valores con los datos del traco se deja como ejercicio (ver ejercicio
1.3).
La gura 1.3 muestra los gracos de los residuos.
Finalmente, podemos utilizar el modelo concreto que hemos obtenido para sustituir la
velocidad en la ecuacion
ujo = velocidad densidad

0,6

0,6

0,4

0,4

0,2

0,2
residuo

residuo

de modo que el ujo queda en funcion de la densidad. Por u


ltimo, el maximo valor de
esta funcion es la capacidad de la carretera.

0
0

20

40

60

80

100

0
2

-0,2

-0,2

-0,4

-0,4

-0,6

-0,6

prediccin

densidad

Figura 1.2: Gracos de los residuos del modelo recta de regresi


on.

0,6

0,4

0,4

0,2

0,2
residuo

residuo

0,6

0
0

20

40

60

80

100

0
2

-0,2

-0,2

-0,4

-0,4

-0,6

-0,6

prediccin

densidad

Figura 1.3: Gracos de los residuos del modelo parab


olico.

1.3

El modelo

Cuando en el ejemplo anterior ajustamos los datos a una recta, implcitamente estamos
asumiendo la hipotesis de que los datos siguen un patron lineal subyacente del tipo
y = 0 + 1 x
Pero el ajuste no es perfecto y contiene errores. La ecuacion que dene el modelo es
yi = 0 + 1 xi + i

i = 1, . . . , n

donde i son los errores aleatorios. Este


es el modelo de regresi
on simple o con una sola
variable independiente.
En el mismo ejemplo anterior, ajustamos mejor con el modelo
yi = 0 + 1 xi + 2 x2i + i

i = 1, . . . , n

que contin
ua siendo un modelo lineal.
Un modelo es lineal si lo es para los parametros. Por ejemplo, el modelo ln yi = 0 +
1 ln(xi ) + i es lineal, mientras que yi = 0 exp(1 xi )i no.
En general, suponemos que una cierta variable aleatoria Y es igual a un valor jo mas
una desviacion aleatoria 
Y =+
representa la verdadera medida de la variable, es decir, la parte determinista de un
experimento, que depende de ciertos factores cualitativos y variables cuantitativas que
son controlables por el experimentador.
El termino  representa el error. Es la parte del modelo no controlable por el experimentador debido a m
ultiples causas aleatorias, inevitables en los datos que proceden
de la Biologa, Psicologa, Economa, Medicina,. . . El error  convierte la relacion matematica Y = en la relacion estadstica Y = + , obligando a tratar el modelo desde
la perspectiva del analisis estadstico.
En particular, los modelos de la forma
yi = 0 + 1 xi1 + 2 xi2 + + k xik + i

i = 1, . . . , n

con k > 1 variables independientes, predictoras o regresoras, se llaman modelos de regresi


on m
ultiple. La variable cuyos datos observados son yi es la llamada variable dependiente
o respuesta.
10

Los parametros j son desconocidos y nuestro objetivo principal es su estimacion. En


cuanto a los errores i , su calculo explcito nos permitira, como veremos extensamente, la
evaluacion del modelo.
Observaci
on:
En el modelo de regresion simple puede suceder que los datos xi i = 1, . . . , n correspondan
a los valores observados de una v.a. X o de una variable controlada no aleatoria. En
cualquier caso, vamos a considerar los valores xi como constantes y no como observaciones
de una variable aleatoria.
En la regresion simple
Y = (x) + 
donde Y es aleatoria y  es aleatoria con E() = 0. De manera que, para cada valor
X = x, Y es una v.a. con esperanza (x). Si asumimos
(x) = E[Y |X = x] = 0 + 1 x
podemos proceder considerando las inferencias como condicionadas a los valores observados de X.
En cualquier caso, tambien en regresion m
ultiple, vamos a considerar los valores de las
umeros.
variables regresoras X1 , . . . , Xk como simplemente n

1.4

El m
etodo de los mnimos cuadrados

La paternidad de este metodo se reparte entre Legendre que lo publico en 1805 y Gauss
que lo utilizo en 1795 y lo publico en 1809.
Obviamente, cuanto menores son los residuos, mejor es el ajuste. De todos los posibles
valores de los j , el metodo de los mnimos cuadrados selecciona aquellos que minimizan
S=

n


2i =

i=1

n


(yi (0 + 1 xi1 + + k xik ))2

i=1

En el caso de la regresion lineal simple


S=

n

i=1

2i =

n


(yi 0 1 xi )2

i=1

de modo que derivando e igualando a cero, se obtienen los estimadores MC (mnimocuadraticos) o LS (least squares)
0 = y 1 x
n
(y y)(xi x)
sxy

n i
1 =
= i=1
2
sx
)2
i=1 (xi x
Tambien se puede considerar el modelo centrado, que consiste en centrar los datos de la
variable regresora
yi = 0 + 1 (xi x) + i i = 1, . . . , n
11

La estimacion MC de 0 , 1 es equivalente a la estimacion de 0 , 1 , ya que 0 = 0 + 1 x.


De modo que 0 = y y la estimacion de 1 es la misma que en el modelo anterior.
Con las estimaciones de los parametros, podemos proceder al calculo de predicciones yi
y residuos ei
yi = 0 + 1 xi = y + 1 (xi x)
ei = yi yi = yi y 1 (xi x)
Como consecuencia resulta que

n


ei = 0

i=1

lo que no ocurre en un modelo sin 0 .


Finalmente, si queremos
medida del ajuste de la regresion podemos pensar en la
n una
2
suma de cuadrados i=1 ei , pero es una medida que depende de las unidades de yi al
cuadrado. Si 0 = 0, la medida que se utiliza es el coeciente de determinacion
n 2
e
2
R = 1 n i=1 i 2
)
i=1 (yi y
Sabemos que 0 R2 1 y cuando R2 1 el ajuste es bueno.
En el caso 0 = 0, el coeciente de determinacion es
n 2
e
2
R = 1 ni=1 i2
i=1 yi
de modo que los modelos que carecen de termino independiente no se pueden comparar
con los que s lo tienen.

1.5

Las condiciones de Gauss-Markov

Hasta aqu, el metodo de los mnimos cuadrados es analtico donde esta la estadstica?
A lo largo de los siguientes captulos vamos a ver que un modelo estadstico y la imposicion
de algunas condiciones, hacen que podamos utilizar el modelo con toda la potencia de los
metodos estadsticos y calibrar la bondad del ajuste desde esa optica.
Una primera pregunta es que tan bueno es el metodo de los mnimos cuadrados para
estimar los parametros? La respuesta es que este metodo proporciona un buen ajuste y
buenas predicciones si se verican las condiciones de Gauss-Markov.
En el modelo lineal que hemos denido anteriormente, se supone que los errores i son
desviaciones que se comportan como variables aleatorias. Vamos a exigir que estos errores
aleatorios veriquen las siguientes condiciones:
1. E(i ) = 0
2. var(i ) = 2
3. E(i j ) = 0

i = 1, . . . , n
i = 1, . . . , n
i = j
12

Veamos con detalle estas condiciones:


E(i ) = 0

Primera condici
on

i = 1, . . . , n

Se trata de una condicion natural sobre un error.


De este modo nos aseguramos que E(yi ) = 0 +1 xi , el
modelo lineal es correcto y la situacion que representa
el graco no se puede dar.

var(i ) = E(2i ) = 2 constante

Segunda condici
on

i = 1, . . . , n

Es la propiedad de homocedasticidad.
En el graco se representa una situacion anomala llamada de heterocedasticidad, en la que la var(i ) crece
con xi .
El parametro desconocido 2 es la llamada varianza
del modelo.

Otras situaciones extra


nas, que tambien se pretende prevenir, son:

El punto I del graco representa un punto inuyente


y atpico (outlier ). En general es un punto a estudiar, un error o incluso una violacion de la primera
condicion.

Tercera condici
on

El punto I del graco es claramente inuyente, aunque


no es atpico (outlier), ya que proporciona un residuo
peque
no.

E(i j ) = 0

i = j

Las observaciones deben ser incorrelacionadas. Con dos puntos tenemos una recta de
regresion. Con 20 copias de esos dos puntos, tenemos 40 puntos y la misma recta, poco
able.
13

Tales condiciones pueden expresarse en forma matricial como


E() = 0

Var() = 2 In

donde E() es el vector de esperanzas matematicas y Var() es la matriz de covarianzas


de  = (1 , . . . , n ) .
Como demostraremos en los siguientes captulos, la adopcion de estas condiciones evitara
teoricamente las situaciones anomalas que aqu hemos esquematizado.

1.6

Otros tipos de modelos lineales

Por suerte, con el mismo tratamiento podremos resolver otros modelos lineales, que aunque tienen diferentes objetivos, gozan de las mismas bases teoricas.
Por ejemplo, el Analisis de la Varianza con un factor (one-way Analysis of Variance),
representado por el modelo lineal
yij = + i + ij

con ij N (0, 2 ) indep.,

se resuelve de forma similar al modelo de regresion.


El Analisis de la Covarianza, que utiliza como variables independientes tanto variables
cuantitativas como factores, y el Analisis Multivariante de la Varianza, con varias variables
dependientes, son dos de los analisis que generalizan el estudio y aplicaciones de los
modelos lineales que vamos a investigar.

1.7

Algunas preguntas

Un tpico problema de estadstica consiste en estudiar la relacion que existe, si existe,


entre dos variables aleatorias X e Y . Por ejemplo, altura y peso, edad del hombre y
la mujer en una pareja, longitud y anchura de unas hojas, temperatura y presion de un
determinado volumen de gas.
Si tenemos n pares de observaciones (xi , yi ) i = 1, 2, . . . , n, podemos dibujar estos puntos
en un graco o scatter diagram y tratar de ajustar una curva a los puntos de forma que
los puntos se hallen lo mas cerca posible de la curva. No podemos esperar un ajuste
perfecto porque ambas variables estan expuestas a uctuaciones al azar debido a factores
incontrolables. Incluso aunque en algunos casos pudiera existir una relacion exacta entre
variables fsicas como temperatura y presion, tambien apareceran uctuaciones debidas
a errores de medida.
Algunas cuestiones que podemos plantearnos en nuestras investigaciones son:
Si existe un modelo fsico teorico y lineal, podemos utilizar la regresion para estimar
los parametros.
Si el modelo teorico no es lineal, se puede, en muchos casos, transformar en lineal.
Por ejemplo:
P V = c log P = log c log V
14

Si no es una recta, se puede estudiar un modelo de regresion polinomico. De que


grado?
En el modelo m
ultiple intervienen varias variables predictoras son todas necesarias? son linealmente independientes las llamadas variables independientes?
Se verican realmente las condiciones de Gauss-Markov?
Que ocurre si las variables predictoras son discretas?
Que ocurre si la variable dependiente es discreta o una proporcion?
Y si faltan algunos datos?
Que hacemos con los puntos atpicos y los puntos inuyentes?
Algunas de estas preguntas las iremos trabajando y resolviendo en los siguientes captulos.
Otras pueden quedar para una posterior profundizacion.

15

1.8

Ejercicios

Ejercicio 1.1
Hallar las estimaciones de los parametros en un modelo de regresion lineal simple, minimizando la suma de los cuadrados de los errores:
n

(yi 0 1 xi )2
S=
i=1

Hallar una expresion para las predicciones yi y los residuos ei = yi yi .
Ejercicio 1.2
Hallar las estimaciones de los parametros en un modelo de regresion parabolico, minimizando la suma de los cuadrados de los errores:
S=

n


(yi 0 1 xi 2 x2i )2

i=1

Hallar una expresion para las predicciones yi y los residuos ei = yi yi .
Ejercicio 1.3
Consideremos el problema de traco planteado en el apartado 1.2 de este captulo, con la
variable independiente densidad y la variable dependiente raz cuadrada de la velocidad.
Con los datos proporcionados en la tabla 1.2 realizar el siguiente proceso:

62.4) y
(a) Dibujar
la
nube
de
puntos
y
la
recta
que
pasa
por
los
puntos
(12.7,

(87.8, 12.4). Dibujar el graco de los residuos con la densidad y el graco con
las predicciones. Calcular la suma de cuadrados de los residuos.
(b) Hallar la recta de regresion simple. Dibujar el graco de los residuos con la densidad
y el graco con las predicciones. Calcular la suma de cuadrados de los residuos.
(c) Mejorar el modelo anterior considerando una regresion parabolica. Dibujar el graco
de los residuos con la densidad y el graco con las predicciones. Calcular la suma
de cuadrados de los residuos.
(d) Calcular la capacidad de la carretera o punto de maximo ujo. Recordar que ujo =
vel densidad.
Ejercicio 1.4
La siguiente tabla contiene los mejores tiempos conseguidos en algunas pruebas de velocidad en atletismo en los Juegos Olmpicos de Atlanta:

16

distancia
100
200
400
800
1500
5000
10000
42192

hombres mujeres
tiempo
9,84
10,94
19,32
22,12
43,19
48,25
102,58
117,73
215,78
240,83
787,96
899,88
1627,34 1861,63
7956,00 8765,00

Si tomamos como variable regresora o independiente la distancia (metros) y como variable


respuesta o dependiente el tiempo (segundos):
(a) Calcular la recta de regresion simple con los datos de los hombres y dibujarla.
Dibujar el graco de los residuos con la distancia y el graco con las predicciones.
Calcular la suma de cuadrados de los residuos y el R2 .
(b) Repetir el apartado anterior utilizando los logaritmos de las variables tiempo y
distancia.
(c) Repetir los dos apartados anteriores utilizando los datos de las mujeres.

17

Captulo 2
Estimaci
on
2.1

Introducci
on

En primer lugar concretaremos la denicion general de un modelo lineal y hallaremos la


estimacion por mnimos cuadrados de los parametros del modelo.
Veremos que la estimacion sera u
nica si la matriz de dise
no es de rango maximo. En
caso contrario, resulta importante denir el concepto de funcion parametrica estimable
y probar, para estas funciones, la unicidad del estimador mnimo-cuadratico, como estudiaremos en el siguiente captulo.
Estudiaremos las propiedades de estos estimadores, entre las que destacaremos el Teorema
de Gauss-Markov que demuestra que los estimadores mnimo-cuadraticos son los mejores,
en el sentido de que son insesgados y de mnima varianza.
Ademas, con la introduccion de la hipotesis de normalidad de los errores, podremos
estudiar las distribuciones de los estimadores y de otros estadsticos, as como la relacion
con los estimadores de maxima verosimilitud.
Mas adelante, trabajaremos la generalizacion del metodo de los mnimos cuadrados cuando la matriz de varianzas-covarianzas de los errores no es 2 I. Por otra parte, tambien
profundizaremos el caso de matrices de dise
no de rango no maximo.

2.2

El modelo lineal

Sea Y una variable aleatoria que uctua alrededor de un valor desconocido , esto es
Y =+
donde  es el error, de forma que puede representar el valor verdadero e Y el valor
observado.
Supongamos que toma valores distintos de acuerdo con diferentes situaciones experimentales seg
un el modelo lineal
= 1 x1 + + m xm
donde i son parametros desconocidos y xi son valores conocidos, cada uno de los cuales
ilustra situaciones experimentales diferentes.
18

En general se tienen n observaciones de la variable Y . Diremos que y1 , y2 , . . . , yn observaciones independientes de Y siguen un modelo lineal si
yi = xi1 1 + + xim m + i

i = 1, . . . , n

Estas observaciones de Y se pueden considerar variables aleatorias independientes y distribuidas como Y (son copias) o tambien realizaciones concretas (valores numericos) para
los calculos.
La expresion del modelo lineal en


y1
x11
y2 x21


.. = ..
. .
yn
xn1

forma matricial es

x12 . . . x1m

x22 . . . x2m

..
..
.
.
xn2 . . . xnm

1
2
..
.

1
2
..
.

n

o en forma resumida
Y = X + 

(2.1)

Los elementos que constituyen el modelo lineal son:


1. El vector de observaciones Y = (y1 , y2 , . . . , yn ) .
2. El vector de parametros = (1 , 2 , , m ) .

3. La matriz del modelo

X=

x11 x12 . . . x1m


x21 x22 . . . x2m
..
..
..
.
.
.
xn1 xn2 . . . xnm

cuyos elementos son conocidos.


En problemas de regresion, X es la matriz de regresion. En los llamados dise
nos
factoriales del Analisis de la Varianza, X recibe el nombre de matriz de dise
no.
4. El vector de errores o desviaciones aleatorias  = (1 , 2 , . . . , n ) , donde i es la
desviacion aleatoria de yi .
Ejemplo 2.2.1
El modelo lineal mas simple consiste en relacionar una variable aleatoria Y con una
variable controlable x (no aleatoria), de modo que las observaciones de Y veriquen
yi = 0 + 1 xi + i

i = 1, . . . , n

Se dice que Y es la variable de predicci


on o dependiente y x es la variable predictora,
asico
por ejemplo Y es la respuesta de un f
armaco a una dosis x. Hallar 0 y 1 es el cl
problema de regresi
on lineal simple.

19

Ejemplo 2.2.2
El modelo anterior se puede generalizar a situaciones en las cuales la relaci
on sea polinomica.
Consideremos el modelo
yi = 0 + 1 xi + 2 x2i + + p xpi + 
Observemos que es lineal en los par
ametros

1 x1
1 x2

.. ..
. .
1 xn

i = 1, . . . , n

i . La matriz de dise
no es

. . . xp1
. . . xp2

..
.
. . . xpn

Ejemplo 2.2.3
En general, cualquier variable Y puede relacionarse con dos o m
as variables control. As,
son modelos lineales:
a)

yi = 0 + 1 xi1 + 2 xi2 + i

b)

yi = 0 + 1 xi1 + 2 xi2 + 3 xi1 xi2 + 4 x2i1 + 5 x2i2 + i

c)

yi = 0 + 1 xi1 + 2 cos(xi2 ) + 3 sen(xi2 ) + i

Sin embargo, no es modelo lineal


yi = 0 + 1 log(2 xi1 ) + 3 xi24 + i
Ejemplo 2.2.4
Supongamos que la producci
on Y de una planta depende de un factor F (fertilizante) y
un factor B (bloque o conjunto de parcelas homogeneas). El llamado modelo del dise
no
del factor en bloques aleatorizados es
yij = + i + j + ij
donde
es una constante (media general)
i el efecto del fertilizante
j el efecto del bloque
Si tenemos 2 fertilizantes y 3 bloques, tendremos en total k = 2 3 = 6 situaciones
experimentales y la siguiente matriz de dise
no:
1 2 1 2 3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
La utilizacion del fertilizante 1 en el bloque 3 queda descrita a traves de la la 5 de X.
20

Ejemplo 2.2.5
Para predecir la capacidad craneal C, en Antropologa se utiliza la formula
C = L1 A2 H 3
donde L = longitud del cr
aneo, A = anchura parietal m
axima y H = altura basio bregma.
La formula anterior se convierte en un modelo lineal tomando logaritmos
log C = log + 1 log L + 2 log A + 3 log H
El parametro expresa el tama
no, mientras que los par
ametros expresan la forma del
cr
aneo.

2.3

Suposiciones b
asicas del modelo lineal

En el modelo lineal denido en el apartado anterior, se supone que los errores i son
desviaciones que se comportan como variables aleatorias que verican las condiciones de
Gauss-Markov:
1. E(i ) = 0
2. var(i ) = 2
3. E(i j ) = 0

i = 1, . . . , n
i = 1, . . . , n
i = j

Como sabemos, la condicion (2) es la llamada condicion de homocedasticidad del modelo y


el parametro desconocido 2 es la llamada varianza del modelo. La condicion (3) signica
que las n desviaciones son mutuamente incorrelacionadas.
Estas condiciones pueden expresarse en forma matricial como
E() = 0

Var() = 2 In

donde E() es el vector de esperanzas matematicas y Var() es la matriz de covarianzas


de  = (1 , . . . , n ) .
Si ademas suponemos que cada i es N (0, ) y que 1 , . . . , n son estocasticamente independientes, entonces diremos que el modelo denido es un modelo lineal normal. As
tendremos que
Y Nn (X, 2 In )
es decir, Y sigue la distribucion normal multivariante de vector de medias X y matriz
de covarianzas 2 In .
Se llama rango del dise
no al rango de la matriz X
r = rango X
y es un elemento muy importante en la discusion de los modelos. Evidentemente r m.
El valor de r es el n
umero efectivo de parametros del dise
no, en el sentido de que si r < m
es posible reparametrizar el modelo para que r sea igual al n
umero de parametros. En
muchos casos el dise
no verica directamente que r = m y entonces se dice que es de rango
maximo.
El modelo lineal que verique las condiciones aqu expuestas, salvo la normalidad, diremos
que esta bajo las condiciones de Gauss-Markov ordinarias.
21

2.4

Estimaci
on de los par
ametros

La estimacion de los parametros = (1 , . . . , m ) se hace con el criterio de los mnimos


 = (1 , . . . , m ) que minimizan
cuadrados. Se trata de hallar el conjunto de parametros
la siguiente suma de cuadrados
  = (Y X) (Y X)
n

(yi xi1 1 xim m )2
=

(2.2)

i=1

 de la llamaremos estimacion MC, abreviacion de mnimo-cuadratica,


La estimacion
o LS del ingles least squares.
Teorema 2.4.1
Toda estimacion MC de es solucion de la ecuacion
X X = X Y

(2.3)

Demostraci
on:
Si desarrollamos la suma de cuadrados   tenemos
  = (Y X) (Y X)
= Y Y 2  X Y +  X X
y si derivamos matricialmente respecto a resulta
 
= 2X Y + 2X X

De modo que, si igualamos a cero, obtenemos la ecuacion enunciada en el teorema. 


Las ecuaciones 2.3 reciben el nombre de ecuaciones normales.
nica solucion de las
Si el rango es maximo y r = m, entonces X X tiene inversa y la u
ecuaciones normales es
 = (X X)1 X Y

Si r < m la solucion de las ecuaciones 2.3 no es u


nica. Una solucion es considerar
 = (X X) X Y

donde A = (X X) es una g-inversa de A = X X, es decir, A verica


AA A = A
Entonces se puede demostrar que la solucion general es
 = (X X) X Y + (I A A)Z

siendo Z un vector parametrico.


22

Ahora podemos denir la suma de cuadrados residual como


  (Y X)

SCR = e e = (Y X)
Como veremos, SCR entendido como un estadstico funcion de la muestra Y, desempe
na
un papel fundamental en el Analisis de la Varianza.
El modelo lineal Y = X + , bajo las hipotesis de Gauss-Markov, verica
E(Y) = X
Teorema 2.4.2
Sea X Rn el subespacio vectorial generado por las columnas de X de dimension
dimX = r = rango X.
Entonces se verica:
i) E(Y) X
 es una estimacion MC, el vector de residuos e = Y X
 es ortogonal a X .
ii) Si
Demostraci
on:
En efecto,
i) Si x(1) , . . . , x(m) son las columnas de X, entonces
E(Y) = x(1) 1 + + x(m) m X
 = X Y X X
=0
ii) X e = X (Y X)

Teorema 2.4.3
 solucion MC de 2.3 se verica que
Para cualquier

 = X
Y


e=YY

  (Y X)

SCR = (Y X)

son u
nicos.
Ademas

  X Y
SCR = Y Y

Demostraci
on:
Si desarrollamos la suma de cuadrados residual SCR resulta
  X Y Y X
 +
  X X

SCR = Y Y
 = X Y, obtenemos
y como X X
  X Y +
  X Y = Y Y
  X Y
SCR = Y Y 2

23

(2.4)

 yY
 , donde
 y
 son dos solu 1 = X
 2 = X
Consideremos ahora los vectores Y
1
2
1
2
1 y Y
 2 pertenecen al subespacio X generado por las columnas
ciones MC. Entonces Y
1 Y
 2 tambien. Por otra parte, observamos que
de X y su diferencia Y
 1 X X
 2 = X Y X Y = 0
1 Y
 2 ) = X X
X (Y
 1 Y
 2 pertenece al ortogonal de X . As pues, necesariamente Y
 1 Y
2 =
de modo que Y
1 = Y Y
 2 es u
0 y el vector de errores e = Y Y
nico.
En consecuencia, la suma de cuadrados de los errores SCR tambien es u
nica.

Interpretaci
on geom
etrica
El vector de observaciones Y se puede interpretar como un vector de Rn . Entonces
E(Y) = X signica que el valor esperado de Y pertenece al subespacio X , de modo que
Y es la suma de un vector de X mas un vector error e. Admitir el modelo E(Y) = X
signica aceptar que Y pertenece al subespacio X salvo un termino de error.
 de Y sobre X , es
La estimacion MC es equivalente a hallar la proyeccion ortogonal Y
 es mnima:
decir, la norma eucldea de e = Y Y
 2
SCR = e e = e 2 = Y Y
Se comprende que cualquier otra proyeccion no ortogonal dara una solucion menos adecuada.

Ejemplo 2.4.1
Consideremos el modelo lineal con n = 3, m = 1 y r = 1
y 1 = + 1
y2 = 2 + 2
y3 = + 3
que en expresi
on matricial escribimos

y1
1
1
y2 = 2 + 2
y3
3
1
24

de modo que X = (1, 2, 1).


Las ecuaciones normales son

1
y
1


1 2 1 2 = 1 2 1 y2
y3
1

es decir
6 = y1 + 2y2 y3
y la estimaci
on MC de es  = (y1 + y2 y3 )/6.
La suma de cuadrados residual es
SCR = Y Y  X Y = y12 + y22 + y32 (y1 + 2y2 y3 )2 /6
Ejemplo 2.4.2
Supongamos que se desea pesar tres objetos cuyos pesos exactos son 1 , 2 y 3 . Se
dispone de una balanza de platillos con un error de pesada que podemos considerar con
distribuci
on N (0, ). Un articio para mejorar la precisi
on y ahorrar pesadas consiste
en repartir los objetos en uno o en los dos platillos y anotar las sumas o diferencias de
pesos:
x1 1 + x2 2 + x3 3 = y
donde y es el peso observado y xi = 0, 1, 1.
Consideremos las siguientes pesadas:
1 + 2 + 3
1 2 + 3
1 + 2 3
1 + 2 + 3
1 2 + 3

=
=
=
=
=

5.53
1.72
0.64
5.48
1.70

A partir de estos datos, las ecuaciones normales son

51 + 2 + 33 = 15.07
1 + 52 3 = 8.23

31 2 + 53 = 13.79
La estimacion de los par
ametros proporciona
1 = 1.175

2 = 1.898

3 = 2.433

y la suma de cuadrados residual es


SCR = (5.53 (1 + 2 + 3 ))2 + = 0.00145

25

2.5

Estimaci
on de la varianza

La varianza de los errores del modelo lineal


2 = var(ei ) = var(yi )

i = 1, . . . , n

es otro parametro que debe ser estimado a partir de las observaciones de y1 , . . . , yn .


Teorema 2.5.1
Sea Y = X +  el modelo lineal con las hipotesis impuestas en la seccion 2.3. Entonces
el estadstico

2 = SCR/(n r)
es un estimador insesgado de la varianza 2 . En el estadstico, SCR es la suma de
cuadrados residual, n el n
umero total de observaciones y r el rango del dise
no.
Demostraci
on:
Las columnas x(1) , . . . , x(m) de la matriz de dise
no X generan el subespacio de dimension
r que escribimos
X = x(1) , . . . , x(m)
Sea ahora V una matriz ortogonal, es decir, tal que VV = V V = In , cuyas columnas
v(1) , . . . , v(r) , v(r+1) , . . . , v(n) forman una base ortogonal de Rn . Es posible construir V de
modo que las r primeras columnas generen el subespacio X
X = v(1) , . . . , v(r)
Por otra parte, Y = (y1 , . . . , yn ) es un vector aleatorio de Rn que, mediante V, transformamos en Z = (z1 , . . . , zn ) = V Y
zi = v1i y1 + + vni yn

i = 1, . . . , n

Para las variables transformadas se verica que


E(zi ) =

n



vhi E(yh ) =


v(i)
X

h=1

i si i r
0 si i > r

pues X X que es ortogonal a v(i) para i > r.


 una estimacion MC. Entonces
Sea
 + (Y X)
 = X
 +e
Y = X
 X y como sabemos e X , de manera que la transformacion
donde obviamente X
ortogonal V aplicada sobre e proporciona
V e = (0, . . . , 0, zr+1 , . . . , zn )
Luego, en funcion de las variables zi tenemos


SCR = e e = (V e) V e =

n

i=r+1

26

zi2

Ademas, por ser una transformacion ortogonal, las variables z1 , . . . , zn siguen siendo incorrelacionadas y de varianza 2 . As pues
E(zi2 ) = var(zi ) = var(yi ) = 2

E(zi ) = 0
y por lo tanto
E(SCR) =

n


E(zi2 ) = (n r) 2

i=r+1

La expresion

2
SCR = zr+1
+ + zn2

(2.5)

se llama forma can


onica de la suma de cuadrados residual del modelo lineal bajo las
hipotesis de Gauss-Markov.

2.6

Distribuciones de los estimadores

 y SCR bajo
Vamos ahora a establecer algunos resultados acerca de la distribucion de
las hipotesis del modelo lineal normal en el caso de rango maximo.
Teorema 2.6.1
Sea Y N (X, 2 In ) con rango X = m. Entonces se verican las siguientes propiedades:
i) La estimacion MC de coincide con la estimacion de la maxima verosimilitud.
Ademas es insesgada y de mnima varianza.
 N (, 2 (X X)1 )
ii)
 ) X X(
 )/ 2 2
iii) (
m
 es independiente de SCR
iv)
v) SCR/ 2 2nm
Demostraci
on:
i) La funcion de verosimilitud es



1
n

2
L(Y; , ) = ( 2 ) exp 2 (Y X) (Y X)
2
2

de modo que el mnimo de (Y X) (Y X) es el maximo de L.


 = (X X)1 X Y
Por otra parte, como
 = (X X)1 X E(Y) = (X X)1 X X =
E()
Ademas, cada i es un estimador lineal de varianza mnima de i , ya que es centrado
y de maxima verosimilitud, luego suciente. Se llega a la misma conclusion como
consecuencia del Teorema 3.2.1.
27

 = [(X X)1 X ]Y,


 es combinacion lineal de una normal y, por tanto,
ii) Como
tiene distribucion normal multivariante con matriz de varianzas-covarianzas
(X X)1 X ( 2 I)X(X X)1 = (X X)1 2
iii) Es consecuencia de las propiedades de la normal multivariante del apartado anterior.
iv) Ver el Teorema 3.3.1
v) Aplicando la ecuacion 2.5
SCR/ 2 = (zm+1 /)2 + + (zn /)2
obtenemos una suma de cuadrados de n m variables normales independientes, es
decir, una distribucion 2nm .
Bajo ciertas condiciones generales se puede probar que
2 = SCR/(nm) es un estimador

de varianza mnima de 2 (vease Seber(1977) pag. 52).
Ejemplo 2.6.1

La distribucion de  del ejemplo 2.4.1 es N (, / 6)


 = E((y1 + 2y2 y3 )/6) = (1/6)( + 4 + ) =
E()
 = ( 2 + 4 2 + 2 )/62 = 2 /6
var()
La distribucion de SCR/ 2 es 22 , siendo
 2 + (y2 2)
 2 + (y3 + )
2
SCR = (y1 )
Ejemplo 2.6.2
La estimacion de la varianza del error 2 en el ejemplo 2.4.2 es

2 = 0.00145/(5 3) = 0.725 103


Observemos que el n
umero de pesadas necesarias para obtener la misma precisi
on sera
mayor si pes
aramos cada objeto individualmente.

2.7

Matriz de dise
no reducida

Supongamos que varias observaciones yi han sido obtenidas bajo las mismas condiciones
experimentales. Para estas observaciones, el modelo que liga yi con las es el mismo, lo
que se traduce en que las las de la matriz de dise
no correspondientes estan repetidas.
Para evitar la redundancia que esto supone nos sera muy u
til, a efectos teoricos y de
calculo, introducir el concepto de matriz de dise
no reducida.
Denici
on 2.7.1
no reducida X a la matriz
Dado el modelo lineal Y = Xa + , llamaremos matriz de dise
k m obtenida tomando las k las distintas de la matriz de dise
no original Xa . Diremos
entonces que k es el n
umero de condiciones experimentales.
28

Las matrices de dise


no original o ampliada y reducida las indicaremos por Xa y X respectivamente, cuando convenga distinguir una de otra.
Si la la i-esima de X esta repetida ni veces en Xa , signica que se han obtenido ni
replicas de la variable observable bajo la i-esima condicion experimental. Si estos n
umeros
de replicas son n1 , n2 , . . . , nk , entonces
n = n1 + n2 + + n k
Ademas de la matriz reducida X, utilizaremos tambien la matriz diagonal
D = diag(n1 , n2 , . . . , nk )
y el vector de medias

Y = (y 1 , y 2 , . . . , y k )

donde cada y i es la media de las replicas bajo la condicion experimental i.


En una experiencia bajo la cual todas las observaciones han sido tomadas en condiciones
experimentales distintas (caso de una sola observacion por casilla), entonces
Y=Y

X = Xa

D=I

ni = 1

Como veremos mas adelante (Captulo 6), la utilizacion de X, D e Y nos permitira


abordar dise
nos no balanceados y el caso de observaciones faltantes.
Teorema 2.7.1
La solucion de las ecuaciones normales y la suma de cuadrados residual en terminos de
la matriz de dise
no reducida X, de D e Y es
 = (X DX)1 X DY

  X DY
SCR = Y Y
Demostraci
on:
Sea M una matriz n k de forma que cada columna i es
(0, . . . , 0, 1, . . . , 1, 0, . . . , 0)
        
n

n

ni

donde k es el n
umero de condiciones experimentales (n
umero de las distintas de Xa ), ni
el n
umero de replicas bajo la condicion i, y ademas
n = n1 + + ni1

n = ni+1 + + nk

Se verica
M Y = DY

MX = Xa

M M = D

Xa Y = X M Y = X DY

de donde se siguen inmediatamente las formulas del teorema.

29

Ejemplo 2.7.1
Con los datos del ejemplo 2.4.2

Xa =

1
1
1
1 1
1

1
1 1

1
1
1
1 1
1

Y=

Agrupando las las 1, 4 y 2, 5 obtenemos

1
1
1
1
X = 1 1
1
1 1

5.53
1.72
0.64
5.48
1.70

2 0 0
D= 0 2 0
0 0 1

donde n1 = n2 = 2, n3 = 1, k = 3.

(5.53 + 5.48)/2
5.505
Y = (1.72 + 1.70)/2 = 1.710
0.64
0.640

La matriz M es

M=

1
1
0
0
0

0
0
1
1
0

0
0
0
0
1

Ejemplo 2.7.2
Consideremos el modelo
yij = + i + j + ij
correspondiente al dise
no de dos factores sin interacci
on.
Supongamos que el primer factor tiene 2 niveles y el segundo tiene 3 niveles, y que los
n
umeros de replicas son
n11 = 2 n21 = 1 n12 = 3 n22 = 3 n13 = 5 n23 = 4
La matriz de dise
no reducida es
1 2 1 2 3
1 1 0 1 0 0
1 0 1 1 0 0
1 1 0 0 1 0
1 0 1 0 1 0
1 1 0 0 0 1
1 0 1 0 0 1
Sin embargo, la matriz de dise
no ampliada tiene 6 columnas y

30

nij = 18 las.

2.8

Ejercicios

Ejercicio 2.1
Una variable Y toma los valores y1 , y2 y y3 en funcion de otra variable X con los valores
x1 , x2 y x3 . Determinar cuales de los siguientes modelos son lineales y encontrar, en su
caso, la matriz de dise
no para x1 = 1, x2 = 2 y x3 = 3.
a) yi = 0 + 1 xi + 2 (x2i 1) + i
b) yi = 0 + 1 xi + 2 exi + i
c) yi = 1 xi (2 tang(xi )) + i
Ejercicio 2.2
Dado el modelo lineal

y1
y2


=

2
1


+

1
2

hallar la estimacion MC de y la suma de cuadrados residual.


Ejercicio 2.3
 es una estimacion MC, probar que
Si
  (Y X)
 + (
 ) X X(
 )
(Y X) (Y X) = (Y X)
Ejercicio 2.4
Cuatro objetos cuyos pesos exactos son 1 , 2 , 3 y 4 han sido pesados en una balanza
de platillos de acuerdo con el siguiente esquema:
1 2 3 4 peso
1
1
1
1
9.2
1 1
1
1
8.3
1
0
0
1
5.4
1
0
0 1 1.6
1
0
1
1
8.7
1
1 1
1
3.5
Hallar las estimaciones de cada i y de la varianza del error.
Ejercicio 2.5
 la estimacion MC de . Si Y
 = PY, probar que la matriz P verica
 = X
Sea
P2 = P

(In P)2 = In P

Ejercicio 2.6
La matriz de dise
no reducida de un modelo lineal normal es

1 1 1
X= 1 0 1
0 1 0
31

Se sabe ademas que


y 1 = 10
s21 =

y 2 = 12

y 3 = 17

1 
(yi1 y 1 )2 = 2.8
n1

n1 = n2 = n3 = 10
s22 = 4.2

s23 = 4.0

Se pide:
a) Hallar la expresion general de las estimaciones MC de los parametros .
b) Calcular SCR. Estimar la varianza del dise
no 2 .
c) Estudiar si la hipotesis nula H0 : 2 = 3 puede ser aceptada.
Ejercicio 2.7
Consideremos el modelo lineal
yi = 0 + 1 xi1 + + m xim + i

i = 1, . . . , n

Sean 0 , 1 , . . . , m las estimaciones MC de los parametros y sea


yi = 0 + 1 xi1 + + m xim
Probar que

n


(yi yi ) =

i=1

n

i=1

32

i = 1, . . . , n

ei = 0

Captulo 3
Funciones param
etricas estimables
3.1

Introducci
on

En los modelos lineales, ademas de la estimacion de los parametros i y de 2 , interesa


tambien la estimacion de ciertas funciones lineales de los parametros. Como vamos a ver,
esto es especialmente necesario cuando los parametros carecen de una estimacion u
nica.
Denici
on 3.1.1
Llamaremos funcion parametrica a toda funci
on lineal de los par
ametros
= a1 1 + + am m = a
 combiy diremos que una funci
on parametrica es estimable si existe un estadstico ,
naci
on lineal de las observaciones y1 , . . . , yn
 = b1 y1 + + bn yn = b Y
tal que

 =
E()

es decir,  es estimador lineal insesgado de .


Estas funciones parametricas tienen la siguiente caracterizacion
Teorema 3.1.1
Sea = a una funcion parametrica estimable asociada al modelo lineal Y = X + .
Se verica:
i) es estimable si y solo si el vector la a es combinacion lineal de las las de X.
ii) Si 1 , . . . , q son funciones parametricas estimables, entonces la combinacion lineal
= c1 1 + + cq q es tambien funcion parametrica estimable.
iii) El n
umero maximo de funciones parametricas estimables linealmente independientes
es r = rango(X).
Demostraci
on:
33

 = . Entonces
i) Sea  = b Y tal que E()
a = E(b Y) = b E(Y) = b X
cualquiera que sea , luego

a = b X

lo que nos dice que a es combinacion lineal de las las de la matriz de dise
no X.
Recprocamente, si suponemos que b X = a , entonces basta tomar  = b Y como
estimador lineal insesgado de .


ii) y iii) para el lector (ver ejercicio 3.4)


Observaciones:

1) Si rango X = m, entonces todos los parametros i y todas las funciones parametricas son estimables, pues el subespacio generado por las las de X coincide
con Rm .
2) Si rango X < m, pueden construirse funciones parametricas que no son estimables.
3) Una caracterizacion algebraica de que = a es estimable viene dada por la
identidad
a (X X) X X = a
donde (X X) representa una g-inversa de X X.
En efecto, consideremos las matrices
S = X X

S = (X X)

H = S S

entonces se comprueba facilmente que


H2 = H

SH = S

Puesto que H es idempotente


rango H = traza H = rango S = rango X = r
Por otra parte tenemos
0 = S SH = (Im H) (S SH) = (Im H) (X X X XH)
= (Im H) (X (X XH)) = (X XH) (X XH)
luego
X = XH
Entonces, si = a es estimable, a = b X y
a H = b XH = b X = a
Recprocamente, si a H = a , resulta que
a = a S S = (a S X )X = b X
siendo b = a S X .
34

3.2

Teorema de Gauss-Markov

Vamos a ver en primer lugar que, cuando el rango de la matriz de dise


no no es maximo
y, por tanto, la estimacion MC de los parametros no es u
nica, la estimacion de cualquier
funcion parametrica estimable utilizando cualquiera de los estimadores MC s es u
nica.
Teorema 3.2.1
 es un estimador MC de , entonces
Si = a una funcion parametrica estimable y


nico.
el estimador = a de es u
Demostraci
on:
Si es una funcion parametrica estimable, existe un estimador lineal insesgado
 = b Y
donde b es un vector n 1. Consideremos el subespacio = X de Rn generado por las
columnas de X. Podemos descomponer de forma u
nica
+c
b=b


b

de modo que c es ortogonal a todo vector de .


  Y y veamos que es insesgado y que su valor es
Consideremos ahora el estimador lineal b
u
nico.
  Y) + E(c Y) = E(b
  Y)
 = E(b Y) = E(b
= E()
pues

E(c Y) = c E(Y) = c X = 0 = 0

Supongamos que b  Y es otro estimador insesgado para y b . Entonces


  Y) E(b  Y) = (b
  b  )X
0 = E(b
luego

  b  )X = 0
(b

  b  ) es ortogonal a . Como tambien pertenece a , debe


lo que quiere decir que (b
 = b .
 b = 0, es decir, b
ser b
 es ortogonal a , de manera que
Por u
ltimo, sabemos que e = Y X
Y b
  X

e = b
0=b
  Y = b X.
 Ademas, sabemos que b
  X = a , luego
de modo que b

 = a

A continuacion se demuestra la principal ventaja de la utilizacion de los estimadores MC.

35

Teorema 3.2.2 (Gauss-Markov)


 es un estimador MC de , entonces
Si = a una funcion parametrica estimable y


= a es el estimador de varianza mnima en la clase de los estimadores lineales
insesgados de .
Demostraci
on:
Con la notacion
tenemos que

b 2 = b21 + + b2n
var(b Y) = b21 2 + + b2n 2 = b 2 2

Si consideramos la descomposicion de cualquier estimador insesgado de que hemos


utilizado en el teorema anterior y dado que
 2 + c 2
b 2 = b
resulta

 = var(b
  Y) = b
 2 2 ( b
 2 + c 2 ) 2 = var(b Y)
var(a )


Observaciones:
1) Estos resultados son validos incluso para un modelo lineal sin la hipotesis de normalidad.
2) La estimacion con varianza mnima es
 = a (X X) X Y
3) Como la varianza de b Y es b b 2 , resulta que la varianza mnima es
 = var(a )
 = 2 a (X X) a
var()
4) Utilizando la matriz de dise
no reducida tenemos

 = a (X DX) X DY
 = 2 a (X DX) a
var()
De aqu deducimos que  es combinacion lineal de las medias de las k condiciones
experimentales

 = c1 Y1 + + ck Yk = c Y
donde c = (c1 , . . . , ck ) es

c = DX(X DX) a

Entonces
 =
var()

 k

i=1

36


c2i /ni

2 = 22

Todo estimador lineal insesgado  = b Y de = a se descompone como hemos visto


en
  Y + c Y
b Y = b
  Y (donde b
 es u
Diremos que b
nico) pertenece al espacio estimaci
on y que c Y pertenece
al espacio error.
Mas explcitamente, la descomposicion de b es
b = b P + b (In P)
siendo

P = X(X X) X

que verica

P2 = P

traza P = r

  = b P.
P es la matriz del operador que proyecta b en . El vector proyeccion es b
Asimismo, In P es otro operador que proyecta b en el espacio ortogonal a . La
  c = 0, se verica
proyeccion es c = b (In P). Como b
  Y, c Y) = 0
cov(b
As pues, todo estimador lineal insesgado b Y se descompone en
b Y = b PY + b (In P)Y
donde b PY es el estimador de Gauss-Markov, mientras que b (In P)Y tiene esperanza
cero y provoca un aumento de la varianza mnima del mejor estimador  = b PY.
Finalmente, observemos que
=
 = b PY = b X(X X) X Y = b X(X X) X X

 = a
= b XH
Siendo H = (X X) X X, que verica XH = X, y siendo a = b X.
El aspecto geometrico de las estimaciones se puede resumir en el hecho que el espacio
muestral Rn al que pertenece el vector de observaciones Y, se descompone en
Rn = +
donde representa el espacio estimaci
on. Toda estimacion de los parametros de regresion
esta ligada a . Toda estimacion de la varianza del modelo esta ligada al espacio error
. Ambos espacios son ortogonales y bajo el modelo lineal normal, como veremos mas
adelante, ambas clases de estimaciones son estocasticamente independientes.
Ejemplo 3.2.1
Sea y1 , . . . , yn una muestra aleatoria simple procedente de una poblaci
on N (, ). El
modelo lineal asociado es

1
y1
.. ..
. = . + 
1
yn
37

El estimador LS de es
 = (1/n)
varianza mnima).

yi que tambien es de Gauss-Markov (centrado y de

En este caso Rn = + , siendo


= (1, . . . , 1)
= {(x1 , . . . , xn )|

xi = 0}



ai = 1.
Sea a Y = ai yi otro estimador centrado de . Entonces E(a Y) = implica
Luego se verica a = 
a + b, es decir,


a1
1/n
a1 1/n
.. ..

..
. = . +

.
an

an 1/n

1/n

a b = 0. Adem
as
con 
a , b . Es facil ver que 



ai yi = (1/n)
yi +
(ai 1/n)yi
El primer termino es estimador centrado y de varianza mnima 2 /n. El segundo termino
verica

E( (ai 1/n)yi ) = 0
 
cov(1/n
yi ,
(ai 1/n)yi ) = 0
La matriz del operador que proyecta a en es

1
1/n . . . 1/n

..
...
P = 1/n ... (1, . . . , 1) = ...
.
1
1/n . . . 1/n
siendo f
acil ver que
a P = (1/n, . . . , 1/n)
a (I P) = (a1 1/n, . . . , an 1/n)
Ejemplo 3.2.2
Ver especialmente el nal del ejemplo 4.3.2.

3.3

Sistemas de funciones param


etricas estimables

Consideremos un sistema de funciones parametricas estimables


1 = a1 , . . . , q = aq
sobre el mismo modelo lineal normal y donde los vectores a1 , . . . , aq (q r = rango X) son
linealmente independientes. Para cada una, tenemos las correspondientes estimaciones
de Gauss-Markov

i = 1, . . . , q
i = ai
38

que podemos condensar matricialmente en la forma


 = (1 , . . . , q ) = A


donde

a1

A = ...
aq

 es el conjunto de estimadores MC del sistema de funciones paCon esta matriz,


rametricas = A.
Teorema 3.3.1
 = A
 del sistema de funciones
Bajo el modelo lineal normal, el conjunto de estimadores
parametricas = A verica:
 sigue la distribucion normal multivariante
i)
 Nq (, )

donde = A es el vector de medias y


= A(X X) A 2
es la matriz de varianzas-covarianzas.
ii) Toda funcion parametrica estimable es estocasticamente independiente de la suma
de cuadrados residual

  (Y X)
SCR = (Y X)
 = A
 es estocasticamente independiente de SCR.
En particular,
Demostracion:
 es una combinacion lineal de variables normales indepeni) Es consecuencia de que
dientes:
i = ai (X X) X Y
luego si

A(X X) X = B

 = y la matriz de covarianzas de BY es = BB 2 , de


sabemos que E()
manera que
= BB 2 = A(X X) X X(X X) A 2 = A(X X) A 2
ii) Como en el teorema 2.5.1, consideremos la transformacion ortogonal
Z = V Y

39

donde las primeras r columnas de la matriz ortogonal V generan el subespacio


= X . Entonces las variables z1 , . . . , zn son normales e independientes, y toda
estimacion de Gauss-Markov es una combinacion lineal de
z1 , . . . , zr
puesto que pertenece al espacio estimaci
on. Sin embargo, la suma de cuadrados
residual es
2
+ + zn2
SCR = zr+1

y, por tanto, sera estocasticamente independiente de cualquier estimacion i = ai .

Teorema 3.3.2
 A) (A(X X) A 2 )1 (A
 A) es una 2 .
La distribucion de U = (A
q
Ademas, U es estocasticamente independiente de SCR/ 2 cuya distribucion es 2nr .
Demostraci
on:
Es consecuencia de las propiedades de la distribucion normal multivariante y de los teoremas 2.6.1 y 3.3.1.

Dos resultados importantes que se deducen de los teoremas anteriores son:
a) Para el modelo lineal normal y el sistema de q funciones parametricas estimables
= A, se verica que la distribucion de
F =

 A)/q
 A) (A(X X) A )1 (A
(A
SCR/(n r)

(3.1)

es una F con q y n r grados de libertad.


b) En el caso q = 1, si  es la estimacion de Gauss-Markov de , entonces 
N (,  ), siendo
2 = a (X X) a 2 = 2 2
luego la distribucion de


nr
t=
2 SCR
es la de una t de Student con n r grados de libertad.

3.4

Intervalos de conanza

Sea t tal que

P (t < t < t ) = 1

40

(3.2)

para una distribucion t de Student con n r grados de libertad. De 3.2 deducimos


entonces que



P t <
n r < t = 1
2 SCR
Despejando obtenemos




2 SCR
2 SCR

=1
P  t
< <  + t
nr
nr



2 SCR
2 SCR

< < + t
(3.3)
nr
nr
es un intervalo de conanza para la funcion parametrica estimable , con coeciente de
conanza 1 .

Por lo tanto

 t

Por otra parte, como SCR/ 2 sigue una 2nr , entonces


P (a < SCR/ 2 < b) = 1
siendo a y b tales que
P (2nr a) = /2

P (2nr > b) = /2

Deducimos entonces que



P

SCR
SCR
< 2 <
b
a


=1

(3.4)

dene un intervalo de conanza para la varianza 2 del modelo lineal normal, con coeciente de conanza 1 .

41

3.5

Ejercicios

Ejercicio 3.1
Sea una funcion parametrica estimable y 1 , 2 dos estimadores insesgados, estocasticamente
independientes, de varianzas 12 y 22 . Hallar la combinacion lineal de 1 , 2 cuya varianza
es mnima y ademas es insesgado.
Ejercicio 3.2
En un modelo lineal, la matriz de dise
no es

1 1 1
1 0 1

1 1 1
1 0 1

1
0
0
1

1
0

0
1

Hallar la expresion general de las funciones parametricas estimables.


Ejercicio 3.3
Probar que

 = b Y

 = = a
E()

siendo b combinacion lineal de las columnas de X, implica que a es combinacion lineal


de las las de X.
Ejercicio 3.4
Probar que toda combinacion lineal de funciones parametricas estimables es tambien
funcion parametrica estimable y que r = ran X es el n
umero maximo de funciones
linealmente independientes.
Ejercicio 3.5
Si  es la estimacion de Gauss-Markov, probar que la expresion
 = c1 y1 + + ck yk
funcion de las medias de las condiciones experimentales, es u
nica.
Ejercicio 3.6
La matriz de dise
no reducida correspondiente a un modelo lineal normal es

1
0 1
1 0
X= 1
0 1 1
Se sabe ademas que
y2 = 10
y3 = 15
y1 = 11
n1 = n2 = n3 = 10
n1

2
s1 = (1/n1 )
(yi y1 )2 = 4.5
s22

= 6.0

i=1
s23 =

Se pide
42

4.3

1) Hallar la expresion general de las estimaciones MC de .


2) Calcular SCR. Se ajustan los datos al modelo denido por X? (nivel de signicacion 0.05)
3) Dada la funcion parametrica estimable
= 1 + 3
contrastar la hipotesis H0 : = 3 en los casos:
a) 2 varianza del dise
no desconocida
2
b) = 5 varianza del dise
no conocida
(nivel de signicacion 0.05)
4) Hallar la funcion parametrica estimable tal que
 = c1 y1 + c2 y2 + c3 y3
verica c21 + c22 + c23 = 1 y ademas  es maximo.
Ejercicio 3.7
Consideremos el modelo lineal
y1 = 1 + 2 + 1
y2 = 1 + 3 + 2
y3 = 1 + 2 + 3
Se pide:
1) Es la funcion parametrica
= 1 + 2 + 3
estimable?
2) Probar que toda funcion parametrica
= a1 1 + a2 2 + a3 3
es estimable si y solo si a1 = a2 + a3 .
Ejercicio 3.8
Diremos que el estimador lineal b Y pertenece al espacio error si E(b Y) = 0. Probar
que la covarianza entre b Y y todo estimador de Gauss-Markov  = a es siempre cero.
Ejercicio 3.9
Consideremos el modelo lineal normal Y = X + , siendo ran X = r. Sea X = UV
una descomposicion en valores singulares de X. Se pide:
1) Expresar la estimacion MC de en terminos de U, , V y Y.
2) Sea = a una funcion parametrica. Probar que es estimable si y solo si se
verica
a = b V
para alg
un vector b.
43

Captulo 4
Contraste de hip
otesis lineales
4.1

Hip
otesis lineales contrastables

Consideremos el modelo lineal


Y = X + 
Una hipotesis lineal consiste en una o varias restricciones lineales planteadas sobre los
parametros . Si rango X = m (dise
no de rango maximo), cualquier hipotesis lineal es
contrastable, testable o demostrable, es decir, es posible encontrar un estadstico (el test
F ) mediante el cual podemos decidir si se rechaza o acepta la hipotesis. Si rango X =
r < m, entonces pueden existir hipotesis estadsticamente no contrastables (ver problema
??).
Denici
on 4.1.1
Una hipotesis lineal de rango q sobre los parametros es un conjunto de restricciones
lineales
i = 1, . . . , q
ai1 1 + + aim m = 0
Si escribimos la matriz de la hipotesis como

a11 a1m

..
A = ... . . .
.
aq1 aqm

rango A = q

entonces las restricciones se resumen en


H0 : A = 0
Una hipotesis se dice que es contrastable o demostrable si el conjunto A es un sistema
de funciones parametricas estimables. Entonces, las las de A son combinacion lineal de
las las de la matriz de dise
no X, es decir, que existe una matriz B de tama
no q k tal
que
A = BX
donde X representa la matriz de dise
no reducida.

44

4.2

El modelo lineal de la hip


otesis

El modelo lineal (donde X representa la matriz de dise


no ampliada)
H1 : Y = X + 

rango X = r

junto con la restriccion lineal contrastable


A = 0

rango A = q

transforma los parametros y la matriz de dise


no X en el nuevo modelo
 +
 =rq >0
H0 : Y = X
rango X
Existen varios procedimientos para estimar y calcular la suma de cuadrados residual.
M
etodo 1
Si la hipotesis es contrastable, las las de A son combinacion lineal de las las de X. El
subespacio A generado por las las de A esta incluido en el subespacio X generado
por las las de X. Existe entonces una base ortogonal
v1 , . . . , vq , vq+1 , . . . , vr , vr+1 . . . , vm
tal que

A = v1 , . . . , vq v1 , . . . , vq , vq+1 , . . . , vr = X Rm

Sea entonces C una matriz m r , con r = r q, construida tomando los vectores


columna vq+1 , . . . , vr
C = (vq+1 , . . . , vr )
y denamos el vector parametrico = (1 , . . . , r ) tal que
= C
Los parametros constituyen la reparametrizacion inducida por la hipotesis H0 , pues
A = AC = 0 = 0
El modelo Y = X +  bajo la restriccion A = 0, se convierte en

E(Y) = XC = X
y la matriz de dise
no se transforma en
 = XC
X
relacion tambien valida para la matriz de dise
no reducida
 = X C
X
La suma de cuadrados residual bajo la restriccion A = 0 es
  (Y X

 )
 )
R2 = min (Y X) (Y X) = (Y X
H

A=0

 X
 Y
= Y Y
La estimacion MC de los parametros es
 = (X
  X)
 1 X
 Y

45

M
etodo 2
Introduzcamos q multiplicadores de Lagrange
= (1 , . . . , q )
uno para cada restriccion lineal. El mnimo restringido de (Y X) (Y X) se halla
igualando a cero las derivadas respecto a cada i de
q
n


2
(Yi xi1 1 xim m ) +
i (ai1 1 + + aim m )
i=1

i=1

En notacion matricial, donde ahora X es la matriz ampliada, escribiremos


f (, ) = (Y X) (Y X) + (  A )
f / = 2X Y + 2X X + A = 0
1
X X = X Y A
2
La solucion es
H
 H = (X X) X Y 1 (X X) A

2
 1 (X X) A
H
=
2
 H = 0, resulta
y como A

 1 A(X X) A
H
0 = A
2
La matriz A(X X) A posee inversa, puesto que es de rango q, as
1

H = (A(X X) A )1 (A)
2
y nalmente tenemos que la estimacion MC restringida es
 =
 (X X) A (A(X X) A )1 A


(4.1)

La suma de cuadrados residual es


2
 H ) (Y X
H )
= (Y X
RH

Hemos visto (teorema ??) que la forma canonica de la suma de cuadrados residual bajo
el modelo sin restricciones es
2
+ + Zn2
R02 = Zr+1
 = XC, signica que las columnas de X
 son
La hipotesis H0 : A = 0, que implica X
combinacion lineal de las de X. Luego los subespacios generados por dichas columnas
verican
 X Rn
X

46

Podemos entonces construir una base ortogonal


u1 , . . . , ur , ur +1 , . . . , ur , ur+1 , . . . , un
tal que

 = u1 , . . . , ur X = u1 , . . . , ur


X

Entonces, si se cumple la hipotesis, por identico razonamiento al seguido en el teorema


?? tendremos que la forma canonica de la suma de cuadrados residual bajo el modelo H0
es
2
= Zr2 +1 + + Zn2
RH
2
Ademas, siempre es RH
> R02 pues
2
RH

R02

r


Zi2

r  +1

Ejemplo 4.2.1
Consideremos el siguiente modelo lineal normal
Y1 = 1 + 2 + 1
Y2 = 22 + 2
Y3 = 1 + 2 + 3
y la hipotesis lineal
H0 : 1 = 22
Las matrices de dise
no

1
X= 0
1

y de la hipotesis son

1
2
A = (1 2)
1

ran X = 2

ran A = 1

Como A es combinacion lineal de las las de X, H0 es una hipotesis contrastable. Ademas,


en este caso particular el rango de la matriz de dise
no es maximo, de modo que toda
hipotesis lineal es contrastable.
Con unos sencillos calculos, tenemos
Ecuaciones normales
21 + 02 = Y1 Y3

01 + 62 = Y1 + 2Y2 + Y3

Estimaciones MC
1 = (Y1 Y3 )/2

2 = (Y1 + 2Y2 + Y3 )/6

Suma de cuadrados residual


R02 = Y12 + Y22 + Y32 212 622
Si consideramos los vectores columna
v1 = (1, 2)

v2 = (2, 1)
47

que constituyen una base ortogonal de R2 , se verica


A = v1 X = v1 , v2
Podemos entonces tomar la matriz
C = (2, 1)
que verica AC = 0. La reparametrizacion = C es
1 = 2

2 =

El modelo bajo la hipotesis es ahora


Y1 = 3 + 1
Y2 = 2 + 2
Y3 = + 3
Finalmente

 = (3Y1 + 2Y2 Y3 )/14


2
= Y12 + Y22 + Y32 142
RH

4.3

Teorema fundamental del An


alisis de la Varianza

En esta seccion vamos a deducir un test F que nos permita decidir sobre la aceptacion
de una hipotesis lineal contrastable.
Teorema 4.3.1
Sea Y = X+ un modelo lineal normal, de manera que Y N (X, 2 I). Consideremos
una hipotesis lineal contrastable
H0 : A = 0

rango A = q

entonces, los estadsticos


  (Y X)

R02 = (Y X)
  (Y X

 )
 )
R2 = (Y X
H

verican:
i) R02 / 2 2nr
ii) Si H0 es cierta
2
/ 2 2nr
RH
2
(RH
R02 )/ 2 2q

(r = r q)

2
iii) Si H0 es cierta, los estadsticos RH
R02 y R02 son estocasticamente independientes.

48

Demostraci
on:
i) En el teorema ?? se ha visto que
2
R02 = Zr+1
+ + Zn2

donde las Zi son normales, independientes y ademas E(Zi ) = 0, var(Zi ) = 2 .


Luego R02 / 2 es suma de los cuadrados de n r variables N (0, 1) independientes.
ii) La forma canonica de la suma de cuadrados residual bajo la restriccion A = 0 es
2
RH
= Zr2 +1 + + Zn2
2
luego tenemos analogamente que RH
/ 2 2nr , donde r = r q. Ademas
2
R02 = Zr2 +1 + + Zr2
RH

es tambien una suma de cuadrados en analogas condiciones.


2
iii) Las variables Zr +1 , . . . , Zn son normales e independientes. RH
R02 depende de
ltimas y no hay terminos
las q primeras, mientras que R02 depende de las n r u
comunes. Luego son estocasticamente independientes.


La consecuencia fundamental de este teorema es que, si H0 es cierta, el estadstico
F =

2
2
RH
R02 )/ 2 ]/q
R02 n r
[(RH
=

(R02 / 2 )/(n r)
R02
q

(4.2)

sigue la distribucion F de Fisher-Snedecor con q y n r grados de libertad.


Observese que F no depende del parametro desconocido 2 y se puede calcular exclusivamente en funcion de las observaciones Y.
La expresion de R02 es


 XY = Y Y Y X(X X) X Y
R02 = Y Y
2
Veamos que, del mismo modo, la expresion de RH
es
2
  X Y
= Y Y
RH
H

 H es la estimacion MC de restringida a A = 0.
donde
En efecto,


2
 H ) (Y X
 H ) = Y Y 2Y XX
 H + X
 X XX
H
RH
= (Y X
H

Ademas (ver seccion ??), se verica


H
 H = X Y 1 A
XX
2
49

luego
2
H )
 +
  (X Y 1 A
RH
= Y Y 2Y X
H
H
2
  A
H
 H + Y X
H 1
= Y Y 2Y X
2 H

 H = 0, nos queda
Pero como A
2
H
RH
= Y Y Y X
2
Calculemos ahora RH
R02 . Considerando 4.1 tenemos


  = (A)
  (A(X X) A )1 A(X X)

H
luego


2

 )X Y
R02 = (
RH
H


= (A) (A(X X) A )1 A(X X) X Y

  (A(X X) A )1 (A)

= (A)
El estadstico F puede escribirse entonces
  (A(X X) A )1 (A)
 nr
(A)
F =

Y (I X(X X) X )Y
q
 0. Luego es probable que F no sea
Observese que si A = 0 es cierta, entonces A
signicativa.
Utilizando las matrices de dise
no reducidas X, D y Y, las expresiones son


R02 = Y Y Y DX(X DX) X DY


2
  (A(X DX) A ) (A)

RH
R02 = (A)
El calculo de ambas cantidades se suele expresar en forma de tabla general del analisis
de la varianza (ver tabla 4.3).
Interpretaci
on geom
etrica
De 4.2 deducimos que, si H0 es cierta, entonces
2
E[(RH
R02 )/q] = 2
2
Luego (RH
R02 )/q y R02 /(n r) son dos estimaciones independientes de la varianza 2 .
El test F nos indica hasta que punto coinciden. Un valor grande de F indica que la
primera estimacion diere demasiado de la varianza 2 y entonces H0 debe ser rechazada.
Se puede demostrar ademas que
2
R02 ) = q 2 + (A) (A(X DX) A ) (A)
E(RH

(4.3)

La interpretacion geometrica del modelo ?? es un subespacio X de Rn generado por las


columnas de la matriz ampliada X. La relacion ?? indica que las columnas de ?? (matriz
2
son distancias de
de dise
no bajo H0 ) generan un subespacio ? de X . Entonces R02 y RH
la observacion Y a los subespacios tal y X , respectivamente. El test F nos dice hasta
2
R02 es peque
na (comparada con R02 ) para poder armar que
que punto la diferencia RH
el modelo se ajusta al subespacio ?? en lugar de X (ver Figura ??).
50

grados de suma de
libertad cuadrados
Desviacion
hipotesis
Residuo

cuadrados
medios

2
RH
R02

2
(RH
R02 )/q

nr

R02

R02 /(n r)

Criterio de decisi
on
Si F > F se rechaza H0 ; si F F se acepta H0 .
Tabla 4.1: Tabla general del analisis de la varianza
Un test m
as general
Consideremos la hipotesis nula
A es q m, ran A = q

H0 : A = c

donde c es un vector columna que logicamente debe ser combinacion lineal de las columnas
de A. Tambien suponemos que las las de A son combinacion lineal de las las de X, de
manera que A es un conjunto de f.p.e..
Sea 0 tal que A 0 = c y consideremos = 0 . Entonces, si en el modelo lineal
Y X 0 = X( 0 ) + 
 = Y X 0 , obtenemos el modelo transformado
ponemos Y
 = X + 
Y
y en este modelo la hipotesis planteada adopta la expresion
H0 : A = 0
2
Se puede demostrar que RH
= mnH0 (Y X) (Y X) verica (ver seccion ??)
2
 c) (A(X X) A )1 (A
 c)
RH
R02 = (A

 es tal que X X
 = X Y. Se verica tambien
donde
2
E(RH
R02 ) = q 2 + (A c) (A(X X) A )1 (A c)

Finalmente, en terminos de la matriz reducida X, el test para contrastar la hipotesis es


F =

 c)/q
 c) (A(X X) A )1 (A
(A


[Y Y Y DX(X DX) X DY]/(n r)

(esta formula se demuestra en la seccion ??)

51

Ejemplo 4.3.1
Para decidir sobre la hip
otesis H0 : 1 = 22 en el ejemplo ?? calcularemos
F =
=

2
(RH
142 + 212 + 622
R02 )/1
=
R02 /(3 2)
Y12 + Y22 + Y32 212 622
2 22
1

7(Y12

Y22

Y32

212 622 )/6

con 1 y 1 grados de libertad.


Ejemplo 4.3.2

Dise
no cross-over simplicado

Supongamos una experiencia clnica en la que se desean comparar dos f


armacos a y b,
para combatir una determinada enfermedad. El estado de los pacientes se valora mediante
una cierta variable cuantitativa Y .
En el dise
no cross-over la experiencia se organiza asignando a Na pacientes el tratamiento a y a Nb pacientes el tratamiento b, en un primer periodo. En un segundo
periodo, los que tomaban a pasan a tomar b y recprocamente. En este dise
no los datos
son de la forma:
Grupo 1
a (primera vez)
b (despues de a)

Y11
Y21

Y12
Y22

media

varianza

...
...

Y1Na
Y2Na

Y 1
Y 2

s21 =
s22 =

1
Na
1
Na

N a
(Y1i Y 1 )2
i=1
Na
2
i=1 (Y2i Y 2 )

...
...

Y3Nb
Y4Nb

Y 3
Y 4

s23 =
s24 =

1
Nb
1
Nb

N b
(Y3i Y 3 )2
i=1
Nb
2
i=1 (Y4i Y 4 )

Grupo 2
b (primera vez) Y31
a (despues de b) Y41

Y32
Y42

Indicando

=
=
=
=

media general
efecto f
armaco a
efecto f
armaco b
efecto recproco entre a y b

se propone el siguiente modelo:


a (primera vez)
Y1i = + + 1i
b (despues de a) Y2i = + + + 2i
b (primera vez) Y3i = + + 3i
a (despues de b) Y4i = + + + 4i

i = 1, . . . , Na
i = 1, . . . , Na
i = 1, . . . , Nb
i = 1, . . . , Nb

Es decir, cuando s
olo se ha tomado un farmaco act
ua un solo efecto, pero cuando se ha
tomado uno despues del otro act
ua entonces un efecto aditivo que recoge la mejora del
enfermo que ya ha tomado el primer medicamento.
52

Tenemos k = 4 condiciones experimentales, que en el cross-over simplicado se consideran independientes, y N1 = N2 = Na , N3 = N4 = Nb . El vector de observaciones Y y
la matriz de dise
no reducida X son
Y = (Y11 , . . . , Y1Na , Y21 , . . . , Y2Na , Y31 , . . . , Y3Nb , Y41 , . . . , Y4Nb )

1 1 0 0
1 0 1 1

X=
ran X = 3
1 0 1 0
1 1 0 1
La hipotesis nula de mayor interes es
H0 : =

a y b tienen la misma efectividad

que expresada en forma de hip


otesis lineal es

H0 : 0 1 1 0
=0


Como el vector 0 1 1 0 es combinacion lineal de las las de X, se trata de una
hipotesis contrastable. Para reparametrizar el dise
no bajo H0 tomaremos como matriz
ortogonal a A

2/3 0
1/3 0

C=
1/3 0
0 1
Observese que las columnas de C son tambien combinacion lineal de las las de X.
Al establecer la relaci
on = C tendremos


1
=
2
siendo 1 = + = + y 2 = .
no reparametrizado depende de dos par
ametros:
Es decir, bajo H0 el dise
on (com
un a a y b bajo H0 )
1 : efecto debido a la medicaci
2 : efecto recproco entre a y b
y la nueva matriz de dise
no es

1
1
 = XC =
X
1
1
 = r t = 3 1 = 2.
siendo ran X
53

0
1

0
1

Si el dise
no es balanceado (Na = Nb ), entonces N = 4Na = 4Nb y se puede calcular que
 4


N
a
R02 =
s2i
(Y1 + Y2 Y3 Y4 )2 + Na
4
i=1
con N 3 grados de libertad

 4


N
a
2
RH
=
s2i
[(Y1 + Y2 Y3 Y4 )2 + (Y1 Y2 Y3 + Y4 )2 ] + Na
4
i=1

con N 2 grados de libertad.


Luego, si H0 es cierta, bajo el modelo lineal normal, el estadstico
F =

(Y1 Y2 Y3 + Y4 )2
Na (4Na 3)
4R02

sigue la distribuci
on F con 1 y N 3 g.l..
La tabla 4.2 contiene los datos de dos grupos de 10 y 10 enfermos reumaticos a los que se
valor
o la variaci
on del dolor respecto del estado inicial, mediante una escala convencional,
con el deseo de comparar dos f
armacos antirreum
aticos a y b, administrados a lo largo
de dos meses. Se incluye adem
as la tabla del analisis de la varianza para contrastar H0 .
Grupo 1
a (mes 1)
17
34
26
10
19
17
8
16
13
11

Grupo 2

b (mes 2) b (mes 1)
17
21
41
20
11
26
26
3
42
-6
28
-4
3
11
3
16
16
16
-10
4

a (mes 2)
10
24
32
26
52
28
27
28
21
42

Tabla 4.2: Datos de los enfermos reumaticos


g.l.
Entre farmacos
Residuo

1
37

suma de cuadrados
cuadrados
medios
697
697
6182
167

F
4.17 (p < 0.05)

Tabla 4.3: Tabla del analisis de la varianza para H0 : =


Con estos datos se han detectado diferencias signicativas entre los dos f
armacos a y
b. Para estimar la ecacia de cada f
armaco, pasaremos a considerar las funciones parametricas
b = +
a = +
54

que son ambas estimables.


Para estimar a , b hallaremos primeramente una estimaci
on LS de los par
ametros:

=1

 = 11.375

 = 19.725

Aplicando el teorema de Gauss-Markov, las estimaciones optimas de a , b se obtienen


sustituyendo par
ametros por estimaciones LS, es decir
b =

 +  = 12.375

a =
+
 = 20.725

Por otra parte, las expresiones en funci


on de las medias y las varianzas mnimas correspondientes son:
a ) = 0.075 2
var(
b ) = 0.075 2
var(

a = 3/4
y1 1/4
y2 + 1/4
y3 + 1/4
y4

b = 1/4

y1 + 1/4
y2 + 3/4
y3 1/4
y4

4.4

Elecci
on entre dos modelos lineales

Supongamos que el vector de observaciones Y puede ajustarse a dos posibles modelos


lineales normales
 +
Modelo 1 : Y = X
Modelo 2 : Y = X + 

 = r
ran X
ran X = r

siendo r < r. Para decidir cual de los dos modelos es valido, plantearemos la hipotesis
lineal

H0 : E(Y) = X
H1 : E(Y) = X

(4.4)

Teorema 4.4.1 La condicion necesaria y suciente para que 4.4 sea contrastable es que
se verique
(4.5)
Fr Fr
 y Fr = X los subespacios generados por las columnas de X
 y X. El
siendo Fr = X
test F se basa entonces en el estadstico
F =

SCRH SCR n r
SCR
r r

cuya distribuci
on, bajo H0 , es Frr,nr , siendo
  (Y X

 )
 )
SCRH = (Y X

  (Y X)

SCR = (Y X)

Demostraci
on:
 = XC para una cierta matriz C. Entonces H0
La expresion 4.5 implica la relacion X
signica formular una hipotesis lineal contrastable al modelo E(Y) = X, que lo reduce
 El resto es consecuencia del Metodo 1 explicado en la seccion 2.2??.
a E(Y) = X.
55

Observese que si Fr  Fr , entonces estamos ante modelos de naturaleza diferente. No


podemos decidir entre ambos modelos mediante ning
un criterio estadstico conocido.
Si se verica Fr = Fr , entonces tenemos dos versiones parametricas del mismo modelo,
pudiendose pasar del uno al otro por una reparametrizacion. Un modelo Y = X +
 determina el espacio Fr , y recprocamente el espacio Fr determina el modelo (salvo
reparametrizaciones que no disminuyan el rango).
Ejemplo 4.4.1
Consideremos de nuevo el dise
no cross-over explicado en el ejemplo 4.3.2. Supongamos
ahora que la inuencia de un farmaco sobre el otro no es recproca. El efecto aditivo
no es necesariamente el mismo cuando se administra a despues de b, que cuando se
administra b despues de a. Entonces debemos introducir los par
ametros
1 : inuencia de a sobre b
2 : inuencia de b sobre a
y admitir que la matriz de dise
no reducida, para los par
ametros , , , 1 , 2 es

1 1 0 0 0
1 0 1 1 0

X=
ran X = 4
1 0 1 0 0
1 1 0 0 1
que representa una alternativa

1
1
 =
X
1
1

a la propuesta inicialmente para los par


ametros , , ,

1 0 0
0 1 1
 =3

ran X
0 1 0
1 0 1

 y X, sobre
Es facil ver que se verica 4.5. El an
alisis de la varianza para decidir entre X
los datos de la tabla 4.2, se encuentra en la tabla 4.4.1. Como F no es signicativo se

admite como v
alido el modelo m
as simple representado por X.
grados de suma de cuadrados
libertad cuadrados
medios
Desviacion
hipotesis

525.73

525.73

Residuo

36

5657.2

157.14

F
3.35

Tabla 4.4: Tabla del analisis de la varianza para contrastar dos modelos de cross-over

4.5

Contraste de hip
otesis sobre funciones param
etricas estimables

Sea = (1 , . . . , q ) = A un sistema de funciones parametricas estimables, de modo


que las las de la matriz A sean linealmente independientes. La expresion 3.1 permite
construir diferentes tests de hipotesis bajo el modelo lineal normal.
56

1) Sea c = (c1 , . . . , cq ) un vector de constantes, con la condicion de que c sea combinacion lineal de las columnas de A. Planteemos la hipotesis nula
H0 : A = c

(4.6)

Para decidir la aceptacion de H0 , como una consecuencia de 3.1, podemos utilizar


el estadstico
 c)/q
 c) (A(X X) A )1 (A
(A
F =
SCR/(n r)
con distribucion Fq,nr .
Observese que 4.6 es una hipotesis lineal contrastable, formalmente equivalente a
(Cap 2-19)??. De este modo queda demostrada (Cap 2-21)?? y tambien que
 c) (A(X X) A )1 (A
 c)
SCRH SCR = (A
2) Consideremos ahora la hipotesis lineal planteada sobre q funciones linealmente independientes
(4.7)
H0 : 1 = 2 = . . . = q
es decir, bajo H0 las q funciones son iguales. Si consideramos las nuevas funciones
i = 1 i+1

i = 1, . . . , q 1

 = (1 , . . . , q1 ) , c = 0 y sustituyendo q


entonces 4.7 se reduce a 4.6 tomando
por q 1. Dicho de otra manera, sea la matriz

a11 a12 . . . a1m


a21 a22 . . . a2m

A = ..
..
..
.
.
.
aq1 aq2 . . . aqm
Entonces 4.7 es equivalente a la hipotesis lineal
H0 : A = 0
tomando como matriz de hipotesis

a11 a21 a12 a22 . . . a1m a2m

..
..
..
A =

.
.
.
a11 aq1 a12 aq2 . . . a1m aqm
Luego podemos utilizar (Cap2-15)?? con t = q 1 para decidir si 4.7 debe ser
aceptada.

57

4.6

Ejercicios

Ejercicio 4.1
Sean X N (1 , ), Y N (2 , ) variables independientes. En muestras de extension
n1 de X, n2 de Y , plantear la hipotesis nula
H0 : 1 = 2
mediante el concepto de hipotesis lineal contrastable y deducir el test t de Student de
comparacion de medias como una consecuencia del test F .
Ejercicio 4.2
Una variable Y depende de otra x (variable control no aleatoria) que toma los valores
x1 = 1, x2 = 2, x3 = 3, x4 = 4 de acuerdo con el modelo lineal normal
yi = 0 + 1 xi + 2 x2i + i
Encontrar la expresion del estadstico F para la hipotesis
H0 : 2 = 0
Ejercicio 4.3
Probar que una hipotesis lineal de matriz A es contrastable si y solo si
A(X X) X X = A
Ejercicio 4.4
Dado el siguiente modelo lineal normal
1 + 2
21 + 2
1 + 2
21 2

=
=
=
=

6.6
7.8
2.1
0.4

estudiar si se puede aceptar la hipotesis H0 : 2 = 21 .


Ejercicio 4.5
Consideremos el modelo lineal normal Y = X + . Probar que para la hipotesis lineal
H0 : X = 0


 X Y. Hallar el estadstico F correspondiente.


se verica SCRH SCR =

58

Captulo 5
Regresi
on
5.1

Regresi
on lineal simple

Sea Y una variable aleatoria y x una variable controlable (los valores que toma x son controlados por el experimentador). Supongamos que calculamos Y para diferentes valores
de x de acuerdo con el siguiente modelo
Yi = 0 + 1 xi + i
donde E(i ) = 0, var(i ) = 2

(5.1)

i = 1, . . . , n.

Este modelo es la formulacion lineal del problema de hallar la recta de regresion de


Y sobre x. Los parametros 0 , 1 reciben el nombre de coecientes de regresion. La
expresion matricial de 5.1 es

1
Y1
1 x1



.. .. .. 0
+ ...
rango X = 2
. = . .
1
Yn
1 xn
n
Estudiemos los diferentes aspectos de la regresion lineal simple.

5.1.1

Estimaci
on de los par
ametros de regresi
on

Indiquemos



x = (1/n)  xi s2x = (1/n) (xi x)2
y = (1/n) yi s2y = (1/n) (yi y)2

sxy = (1/n)
(xi x)(yi y)

donde x, y, s2x , s2y , sxy son las medias, varianzas y covarianzas muestrales, aunque el signicado de s2x y sxy es convencional pues x no es variable aleatoria. Con esta notacion las
ecuaciones normales son:
X X = X Y

 


0
n
y
n 
n
x
= 
1
x i yi
n
x
x2i

59

y como


(X X)

1
= 2
nsx



(1/n) x2i
x

x
1

la solucion es
sxy
1 = 2
sx

0 = y 1 x


(xi x)(yi y)
yi (xi x)

=
= 
2
(xi x)
(xi x)2

La recta de regresion es
y = 0 + 1 x
que se expresa tambien en la forma
y y = 1 (x x)

5.1.2

Estimaci
on de la varianza

Teorema 5.1.1 Sea


r=

sxy
sx sy

el coeciente de correlaci
on muestral (cuyo signicado es convencional). Indiquemos
yi = 0 + 1 xi . Entonces se verican las siguientes relaciones



(yi y)2 = (yi yi )2 + (
yi y)2

(
yi y)2
2

ii) r =
(yi yi )2


iii) R02 = (yi yi )2 = (1 r2 ) (yi y)2
i)

Demostraci
on:


(yi y)2 =
(yi yi + yi y)2



=
(yi yi )2 +
(
yi y)2 + 2
(yi yi )(
yi y)
pero

(yi yi )(
yi y) =



(yi yi )
yi y (yi yi ) = 0.

Efectivamente, de la primera ecuacion normal se deduce





yi
yi = n(
y y) = 0
(yi yi ) =

Ademas, (yi yi )
yi = 0 debido a que (yi yi ) pertenece al espacio error, mientras que
yi pertenece al espacio estimacion y ambos son ortogonales. Queda as demostrada la
relacion (i).
Por otra parte, es facil ver que



(xi x)2 = r2
(yi y)2
(
yi y)2 = 12
que implica (ii).
60

Finalmente
luego

(yi y)2 =


(yi yi )2 + r2

(yi yi )2 = (1 r2 )

(yi y)2

(yi y)2

Como consecuencia tenemos que el estimador centrado de la varianza 2 de modelo 5.1


es

2 = R02 /(n 2) = (1 r2 )ns2y /(n 2)

5.1.3

Inferencia sobre los par


ametros de regresi
on

Supongamos que 5.1 es un modelo lineal normal. Entonces (teorema 1.5.2??) se verica
que
(0 , 1 ) N2 ((0 , 1 ) , )


siendo


1 2

= (X X) =
Es decir

var(0 )
cov(0 , 1 )
cov(0 , 1 )
var(1 )

 2
2

xi
var(0 ) = 
n (xi x)2
2
var(1 ) = 
(xi x)2

E(0 ) = 0
E(1 ) = 1

2 x
cov(0 , 1 ) = 
(xi x)2
Ademas (0 , 1 ) es independiente de R02 .
Hip
otesis sobre la pendiente
El test de la hipotesis H0 : 1 = 0 se resuelve utilizando el estadstico

r
t = n 2
1 r2
que sigue una distribucion t de Student con n 2 grados de libertad cuando H0 es cierta.
En efecto:
Si H0 es cierta, el modelo 5.1 se convierte en
yi = 0 + i
de donde
SCRH =



(yi 0|H0 )2 =
(yi y)2

Del teorema anterior deducimos


SCR = (1 r2 )SCRH = SCRH SCR = r2 SCRH
61

r2 SCRH
r2
SCRH SCR
=
=
(n

2)
F1,n2
SCR/(n 2)
(1 r2 )SCRH /(n 2)
1 r2

Finalmente, t = F sigue la distribucion t de Student anunciada.


F =

Si el contraste de hipotesis es con H0 : 1 = b1 , teniendo en cuenta los resultados del


captulo 3, obtenemos

(xi x)2
(A(X X)1 A )1 =

SCRH SCR = (1 b1 )2
(xi x)2
De aqu se deduce que el test se describe mediante el estadstico

s
n2
x
tn2
t = (1 b1 )
sy 1 r 2
Hip
otesis sobre el punto de intercepci
on
Para el contraste de hipotesis H0 : 0 = b0 , se verica

(xi x)2

1  1
(A(X X) A ) =  2
( xi )/n

sx n 2 n

 tn2
SCRH SCR = (0 b0 )
x2i
sy 1 r 2
Intervalos de conanza
Como sabemos

SCR
n 2
=
sy (1 r2 )
n2
n2
El intervalos de conanza para 0 con nivel de conanza 1 se obtiene a partir de ??
del captulo ??

 2
xi


0 t
n (xi x)2

2 =

siendo t tal que P (|t| < t ) = 1 .


Analogamente, para 1 es

1 t 
(xi x)2

Para un valor dado de x0 se obtiene la prediccion


y0 = 0 + 1 x0 = y + 1 (x0 x)
Podemos interpretar y0 = 0 + 1 x0 como una funcion estimable. Entonces, como
cov(
y , 1 ) = 0, tenemos
2 2 (x0 x)2
var(
y0 ) =
+
n
(xi x)2
El intervalo de conanza para la verdadera prediccion y0 es

1
(x0 x)2

+
y0 t
n
(xi x)2
62

5.1.4

Car
acter lineal de la regresi
on simple

Supongamos ahora que estamos interesados en decidir si la regresion de Y sobre x es


realmente lineal. Consideremos las hipotesis
H0 : Yi = 0 + 1 xi + i
H1 : Yi = g(xi ) + i
donde g(x) es una funcion no lineal desconocida de x. Estamos en la situacion prevista en
la seccion ??. Supongamos (introducimos un cambio de notacion) que tenemos ni valores
de Y para cada xi . Sea, para cada i = 1, . . . , k,


yi = (1/ni ) j yij
s2yi = (1/ni ) j (yij yi )2
xi : yi1 , . . . , yini


y = (1/n) i,j yij s2y = (1/n) i,j (yij y)2
n = n1 + + n k
Introduzcamos a continuacion el coeciente
k
1  s2yi
ni
= 1
n i=1 s2y
2

(5.2)

que verica 0 2 1, y mide el grado de concentracion de los puntos (xi , yij a lo largo
de la curva y = g(x) (ver Figura ??).
Indicando i = g(xi ) i = 1, . . . , k, si H1 es cierta, la estimacion de i es i = yi . La
identidad
SCRH = SCR + (SCRH SCR)
es entonces

(yij 0 1 xi )2 =

i,j

(yij yi )2 +

i,j

ni (
yi 0 1 xi )2

Dividiendo por n tenemos


s2y (1 r2 ) = s2y (1 2 ) + s2y (
2 r2 )
El test para decidir si la regresion es lineal se resuelve a traves del estadstico
F =

(
2 r2 )/(k 2)
(1 2 )/(n k)

que tiene (k 2) y (n k) grados de libertad. Si F resulta signicativa, rechazaremos el


caracter lineal de la regresion.
Observaciones:
1) 2 es una version muestral de la llamada raz
on de correlaci
on entre dos variables
aleatorias X, Y
E[(g(X) E(Y ))2 ]
2 =
var(Y )
siendo
y = g(x) = E(Y |X = x)
la curva de regresion de la media de Y sobre X. Este coeciente 2 verica:
63

a) 0 2 1
b) 2 = 0 = y = E(Y ) (la curva es la recta y = constante).
c) 2 = 1 = y = g(X) (Y es funcion de X)
2) Solamente se puede aplicar este test si se tienen ni > 1 observaciones de y para
cada xi (i = 1, . . . , k).
3) Analogamente, podemos tambien plantear la hipotesis de que y es alguna funcion
(no lineal) de x frente a la hipotesis nula de que no hay ning
un tipo de relacion.
Las hipotesis son:
H 0 : yi = +  i
H1 : yi = g(xi ) + i
siendo constante. Entonces, con las mismas notaciones de antes,

SCRH =
(yij y)2
con n 1 g.l.
i,j


(yij yi )2
SCR =

con n k g.l.

i,j

Operando, se llega al estadstico


2 /(k 1)
F =
(1 2 )/(n k)
Comparando ?? con ??, podemos interpretar ?? como una prueba de signicacion
de la raz
on de correlaci
on.
Ejemplo 5.1.1 Se mide la luminosidad (en l
umenes) de un cierto tipo de l
amparas despues de un tiempo determinado de funcionamiento (en horas). Los resultados para una
serie de 3,2,3,2 y 2 l
amparas fueron:
Tiempo (x)
250
500
750
1000
1250

Luminosidad (Y)
5460
4800
4580
4320
4000

5475
4700
4600
4300
4010

5400 (n1
(n2
4520 (n3
(n4
(n5

= 3)
= 2)
= 3)
= 2)
= 2)

Con estos datos podemos ilustrar algunos aspectos de la regresi


on lineal de la luminosidad
sobre el tiempo de funcionamiento.
Recta de regresi
on y coeciente de correlaci
on:
x = 708.33 y = 4680.42 n=12
sx = 351.09 sy = 500.08 sxy = 170190.97
r = 0.969

1 = 1.381

y 4680.42 = 1.381(x 708.33)


La hipotesis H0 : 1 = 0 debe ser rechazada pues (ver (8)) obtenemos t = 12.403
(10 g.l.) que es muy signicativo.
64

Razon de correlaci
on y car
acter lineal de la regresi
on:
y1 = 5445 y2 = 4750 y3 = 4566.7 y4 = 4310 y5 = 4005
s2y1 = 1050 s2y2 = 2500 s2y3 = 1155.5 s2y4 = 100 s2y5 = 25
s2y = 250077

y = 4680.42

n = 12 k = 5

k
1  s2yi
= 1
ni
= 0.996
n i=1 s2y
2

Aplicando (14)
F =

(0.996 0.939)/3
= 33.3
(1 0.996)/7

con 3 y 7 g.l. Se puede rechazar que la regresi


on es lineal.
Aplicando ahora (15)
F =

0.996/4
= 435.7
(1 0.996)/7

vemos que la razon de correlaci


on es muy signicativa.

5.2

Regresi
on lineal m
ultiple

Sea Y una variable aleatoria observable y sean x1 , . . . , xm1 un grupo de m 1 variables


no aleatorias. Consideremos el modelo
Y = 0 + 1 x1 + + m1 xm1
que signica admitir que Y es una combinacion lineal de x1 , . . . , xm1 . Si y1 , . . . , yn son
n observaciones independientes de Y , tenemos entonces el modelo lineal
yi = 0 + 1 xi1 + + m1 xim1 + i
donde (xi1 , . . . , xim1 ) son los valores
dise
no es

1
1

X = ..
.
1

i = 1, . . . , n

(5.3)

observados correspondientes a yi . La matriz de

x11 . . . x1m1
x21 . . . x2m1

..
..

.
.
xn1 . . . xnm1

Se supone ademas que rango(X) = m.


Las ecuaciones normales son



n0 + (
xi1 )1 + + (
xim1 )m1 =
Yi




(
xij )0 + (
xi1 xij )1 + + (
xim1 xij )m1 =
xij Yi

(5.4)
j = 1, . . . , m 1

cuya solucion son las estimaciones 0 , 1 , . . . , m1 . Bajo el modelo lineal normal, por ser
el dise
no de rango maximo, son insesgadas y de varianza mnima (teorema ??).
65

La suma de cuadrados residual es




SCR =
(Yi 0 1 xi1 m1 xim1 )2 = Y Y Y X
y tiene n m grados de libertad. La estimacion centrada de la varianza del dise
no es

2 = SCR/(n m)
La ecuacion de prediccion que permite estimar los valores de Y dadas las observaciones
x1 , . . . , xm1 es

= X
Y
es decir
yi = 0 + 1 xi1 + + m1 xim1
Si consideramos las medias de los datos


yh
xi = (1/n)
xhi
y = (1/n)
h

(5.5)

i = 1, . . . , m 1

5.5 se expresa tambien en la forma


yi y = 1 (xi1 x1 ) + + m1 (xim1 xm1 )
Es u
til tambien introducir el coeciente de correlacion m
ultiple de Y sobre x1 , . . . , xm1 .
Se dene como la correlacion muestral entre Y e Y

(yi y)(
yi y)


P = corr(Y, Y ) = 
[ (yi y)2 (
yi y)2 ]1/2
(el signicado correlaci
on es convencional). P verica
0P 1
y es una buena medida del ajuste de Y al modelo X, pues
=0
P = 1 = Y Y
Teorema 5.2.1 Se verica:



yi y)2
(yi y)2 = (yi yi )2 + (

(
yi y)2
2
ii) P = 
(yi y)2


iii) SCR = (yi yi )2 = (1 P 2 ) (yi y)2
i)

Demostraci
on:
(17) implica

(yi yi ) = 0

Entonces


(yi y)2 =

(yi yi + yi y)2 =
66

(yi yi )2 +

(
yi y)2

pues considerando (23)





(yi yi )(
yi y) =
(yi yi )
yi y
(yi yi )

=
(yi yi )
yi
pero esta cantidad es

Y
=0
(Y Y)

es ortogonal a S(X) (lema 1.4.2) y, en consecuencia, es


pues el vector e = Y X

= X.
ortogonal a Y
De (23) se deduce que la media de y1 , . . . , yn es

y = (1/n)
yi = y
luego


yi y) =
(yi y)(
=
=





(yi yi + yi y)(
yi y)

yi y) +
(
yi y)2
(yi yi )(
(
yi y)2

pues hemos visto que el primer sumando es nulo. Teniendo en cuenta la denicion de P ,
es facil deducir (21).
Finalmente, combinando (20) y (21) obtenemos (22).

5.2.1

Hip
otesis sobre los par
ametros de regresi
on

Suponiendo que (16) es un modelo lineal normal, la hipotesis de mayor interes es la


armacion de que Y es independiente de las variables x1 , . . . , xm1 , es decir
H0 : 1 = = m1 = 0
La matriz de esta hipotesis lineal

0 1
0 0

A = .. ..
. .
0 0

es
0 ...
1 ...
..
.

0
0
..
.

rango A = m 1

0 ... 1

Si H0 es cierta, entonces 0 = y y la suma de cuadrados residual es



SCRH =
(yi y)2
que tiene n 1 grados de libertad. La hipotesis H0 se describe mediante el estadstico
F =

(SCRH SCR)/(m 1)
SCR/(n m)

cuya distribucion es una F con m 1 y n m grados de libertad.


67

La hipotesis (24) equivale a armar que el coeciente de correlacion m


ultiple poblacional
es cero. Teniendo en cuenta (22)

(yi y)2
SCRH SCR = P 2
deducimos otra expresion equivalente a (25)
F =

nm
P2

2
1P
m1

Usualmente este analisis se presenta en forma de tabla


Fuente de Grados de
libertad
variacion
Regresion

m1

Residuo
Total

nm
n1

Suma de
cuadrados

P 2 (yi y)2

(1 
P 2 ) (yi y)2
(yi y)2

F
nm
P2

2
1P
m1

Tabla 5.1: Tabla del analisis de la varianza en regresion m


ultiple

5.2.2

C
alculo de la regresi
on m
ultiple

El algoritmo para el calculo de los coecientes de regresion al plantear la regresion m


ultiple
de una variable aleatoria Y sobre otras m 1 variables x1 , . . . , xm1 consiste en calcular
primeramente la matriz de correlacion entre las variables

1 r12 . . . r1m1
r21 1 . . . r2m1

..
.. . .
..
.
.
.
.
1
rm1 rm2 . . .
donde
rij = corr(xi , xj )

i = 1, . . . , m 1

j = 1, . . . , m 1

Tambien debemos considerar


i = 1, . . . , m 1

riy = corr(xi , Y )

Seguidamente resolveremos el sistema lineal en las incognitas 1 , . . . , m1


1
+ r12 2 + + r1m1 m1 = r1y
r21 1 +
2
+ + r2m1 m1 = r2y

m1
= rm1y
rm11 1 + rm12 2 + +
Si
1, . . . ,
m1 son las soluciones, los coecientes de regresion son
sy
i
i =
si

i = 1, . . . , m 1
68

donde si es la desviacion tpica de xi , sy es la desviacion tpica de Y . El termino independiente es entonces



0 = y
xi i
Finalmente, la correlacion m
ultiple verica
P2 =
1 r1y +
2 r2y + +
m1 rm1y
Ejemplo 5.2.1 En un estudio sobre la incidencia que puede tener sobre el rendimiento
en lenguaje (Y ), la comprensi
on lectora (x1 ) y la capacidad intelectual (x2 ), se obtuvieron
datos sobre 10 estudiantes tomados al azar de un curso de b
asica (ver tabla 5.2.1).
Y
3
2
4
9
6
7
2
6
5
8

x1
1
1
3
7
8
7
4
6
6
9

x2
3
4
7
9
7
6
5
8
5
7

Tabla 5.2: Tabla de datos del rendimiento en lenguaje


La matriz de correlaciones, las medias y las desviaciones tpicas son:
x1
x2
Y

x2
Y
x1
1 0.697 0.849
1
0.781
1

x1 = 5.2 s1 = 2.82
x2 = 6.1 s2 = 1.86
y = 5.2 sy = 2.44

Empecemos planteando el sistema


1 + 0.6972 = 0.849
0.6971 + 2 = 0.781
cuya soluci
on es

1 = 0.593
Entonces

2 = 0.368

sy
sy
1 =
1 = 0.513
2 =
2 = 0.485
s1
s2
0 = y 1 x1 2 x2 = 0.426

La ecuacion de regresi
on es
y = 0.426 + 0.513x1 + 0.485x2

69

El coeciente de correlaci
on m
ultiple es
P2 =
1 0.849 +
2 0.781 = 0.791
de donde P = 0.889. Puede armarse que hay una buena relaci
on entre el rendimiento
en lenguaje y la comprensi
on lectora y la capacidad intelectual.
Finalmente, para decidir sobre la hip
otesis
H0 : 1 = 2 = 0
calcularemos

P2
10 3
F =

= 13.24
2
1P
31
on anterior es signicativa.
con 2 y 7 g.l. As H0 puede ser rechazada, es decir, la relaci

5.3

Regresi
on polin
omica

Supongamos que una variable aleatoria Y se ajusta a una variable de control x seg
un un
modelo polinomico de grado m
yi = 0 + 1 xi + 2 x2i + + m xm
i + i

(5.6)

La regresion polinomica se justica por el teorema de Weierstrass, el cual dice que toda
funcion continua f (x) se puede aproximar por un polinomio Pm (x) de grado m adecuado.
Se puede probar esta propiedad desde el punto de vista probabilstico: sea f (x) una
funcion continua en el intervalo (0, 1) y consideremos
Pn (x) =

n


f (k/n)xk (1 x)nk

k=0

llamados polinomios de Bernstein. Entonces Pn (x) converge a f (x) cuando n ,


uniformemente en x.
Observese que 5.6 es el modelo de regresion lineal m
ultiple de Y sobre las variables
x1 = x, x2 = x2 , . . . , xm = xm .
Para una regresion polinomica de grado m,

1 x1
1 x2

X = .. ..
. .
1 xn

la matriz de dise
no es

x21 . . . xm
1

x22 . . . xm
2
..
..
.
.
2
xn . . . x m
n

Como en los demas casos, la estimacion de los parametros de regresion es


= (X X)1 X Y

Sin embargo, el calculo de (X X)1 es problematico debido a que los elementos de la
matriz X X son de la forma
n

xih xjh
h=1

pudiendo alcanzar una magnitud considerable. Se puede probar que variaciones del orden
(vease Seber,
de 1010 en X Y producen variaciones del orden de 3 en los elementos de
1977).
70

5.3.1

Utilizaci
on de polinomios ortogonales

El replanteamiento del modelo 5.6 mediante polinomios ortogonales permite una solucion
sencilla de los problemas numericos mencionados.
Sea
yi = 0 0 (xi ) + 1 1 (xi ) + + m m (xi ) + i
donde j (xi ) es un polinomio de grado j en xi (j = 0, 1, . . . , m). Supongamos que los m
polinomios son ortogonales, es decir,
n


j = j 

j (xi )j  (xi ) = 0

(5.7)

i=1

El modelo lineal es entonces


+
Y = X

siendo

X=

0 (x1 ) 1 (x1 ) . . . m (x1 )


0 (x2 ) 1 (x2 ) . . . m (x2 )
..
..
..
.
.
.
0 (xn ) 1 (xn ) . . . m (xn )

Entonces, debido a la ortogonalidad, tenemos que



20 (xi )  0

0
21 (xi )
=
X
X

..
..

.
.
0
0
y la solucion de las ecuaciones normales es

j (xi )yi
j = i 2
i j (xi )

...
...
...
...

0
0
..
.
2m (xi )

j = 0, 1, . . . , m

Si tomamos 0 (x) = 1 tendremos


0 = y
La suma de cuadrados residual es entonces
SCR(m) =

m 

(yi y)
(
2j (xi ))
j2
2

j=1

cantidad que indicaremos por Q(m).


En efecto:
yi =

m


j (xi )
j

siendo

y = 0 (xi )
0

j=0

Aplicando (i) de 5.2.1 tenemos





SCR(m) =
(yi yi )2 =
(yi y)2
(
yi y)2
i

71

(5.8)

siendo ahora

m

(
yi y) =
(
j (xi )
j )2
2

Por otra parte

j=1

m


j (xi )
j )2 =
j (xi )
j j  (xi )
j 
(
j=1

j

y sumando respecto de i tenemos, considerando 5.7,





(
yi y)2 =
j j  (
j (xi )j  (xi ))
i

j
i
j
m
n


j2 (
2j (xi ))
j=1
i=1

lo que demuestra 5.8.


Existen diversos tipos de polinomios ortogonales (Tchebychev, Fisher, etc.). Los polinomios de Tchevychev se generan mediante la relacion de recurrencia
j+1 (x) = 2xj (x) j1 (x)
Tomando inicialmente
0 (x) = 1

1 (x) = x

se obtienen
2 (x) = 2x2 1
3 (x) = 4x3 3x
4 (x) = 8x4 8x2 + 1
..
.
El campo de variacion de x debe denirse adecuadamente mediante un cambio de variable.

5.3.2

Elecci
on del grado

Un aspecto importante de la regresion polinomica es la eleccion es la eleccion del grado


m adecuado. El contraste de hipotesis
H0 : m = m 0
H 1 : m = m 1 > m0

(5.9)

equivale a plantear una regresion polinomica de grado m y entonces establecer la hipotesis


lineal
H0 : m0 +1 = . . . = m1 = 0
sobre el modelo 5.6, o bien, utilizando el modelo equivalente en terminos de polinomios
ortogonales
H0 : m0 +1 = . . . = m1 = 0
72

Las sumas de cuadrados residuales son


SCR = Q(m1 )

SCRH = Q(m0 )

Teniendo en cuenta 5.8 obtenemos


SCRH SCR = Q(m0 ) Q(m1 ) =

m1


n

(
2j (xi ))
j2

j=m0 +1 i=1

Entonces, para contrastar H0 : m = m0 frente H1 : m = m1 , calcularemos el estadstico


F =

(Q(m0 ) Q(m1 ))/(m1 m0 )


Q(m1 )/(n m1 1)

(5.10)

cuya distribucion, bajo H0 , es una F con m1 m0 y n m1 1 g.l..


La estrategia para elegir el grado puede ser mediante eleccion descendente o eleccion
ascendente. En el primer caso empezamos por el grado que se supone maximo. Supongamos, por ejemplo, que m = 5. Entonces se contrasta m = 4 frente a m = 5. Si el test
F no es signicativo, se contrasta m = 3 con m = 4, y as sucesivamente. El proceso es
el inverso en el caso de eleccion ascendente.
Tambien es u
til tener en cuenta que un descenso importante de la suma de cuadrados
residual Q(m) al pasar de grado m 1 a grado m, es un indicio de que el grado es m.
Finalmente, si disponemos de ni observaciones yi1 , . . . , yini para cada valor de la variable
de control xi i = 1, . . . , k, una vez elegido el grado m, podemos analizar la validez del
modelo planteando el contraste
H0 : yih = Pm (xi ) + ih
H1 : yih = g(xi ) + ih
donde g(x) es una funcion desconocida de x. La hipotesis nula signica armar que
g(x) = Pm (x) es un polinomio de grado m en x. Tenemos entonces (vease 5.2):

(yih yi )2 = ns2y (1 2 ) n k g.l.
SCR =
i,h

SCRH = Q(m) = ns2y (1 P 2 )

n m 1 g.l.

donde P es la correlacion m
ultiple de Y sobre x, x2 , . . . , xm (ver teorema 5.2.1). Calcularemos entonces el estadstico
F =

(
2 P 2 )/(k m 1)
(1 2 )/(n k)

Aceptaremos el ajuste polinomico de grado m si esta F no es signicativa.


Ejemplo 5.3.1 Ajuste polin
omico
Se dispone de la respuesta a un test de conducta de dos grupos de ratas, uno control y
otro experimental, para diez observaciones realizadas en el tiempo: cada tres das desde
el da 47 al da 74 de vida (ver tabla 5.3).
El modelo considerado hace depender el par
ametro de conducta (medido mediante el test)
del tiempo seg
un una funcion polin
omica
var. obs. = polinomio de grado m en t + error
73

y = Pm (t) + 
Para determinar el grado del polinomio al cual se ajustan los valores experimentales se
plantea la hip
otesis 5.9 que se resuelve mediante el test F 5.10.
Los resultados, obtenidos seg
un el metodo de los polinomios ortogonales, son los siguientes
grupo control

g.l.

Q(0) = 273.87
Q(1) = 249.22
Q(2) = 233.52
Q(3) = 41.61
Q(4) = 41.52

9
8
7
6
5

grupo experimental g.l.


Q(0) = 249.99
Q(1) = 216.12
Q(2) = 213.15
Q(3) = 37.80
Q(4) = 27.10

9
8
7
6
5

Observemos que hay un fuerte descenso de la suma de cuadrados residual Q(m) al pasar
de grado 2 a grado 3, indicio de que los datos experimentales se ajustan a un polinomio
de grado 3.
Las F obtenidas son:
contraste

grupo control

grupo experimental

0 vs. 1
0 v.s. 2
0 v.s. 3
1 v.s. 3
2 v.s. 3
3 v.s. 4

F
F
F
F
F
F

F
F
F
F
F
F

= 0.79 (n.s.)
= 0.60 (n.s.)
= 11.16 (p < 0.01)
= 14.97 (p < 0.01)
= 27.67 (p < 0.01)
= 0.01 (n.s.)

= 1.25 (n.s.)
= 0.60 (n.s.)
= 11.23 (p < 0.01)
= 14.25 (p < 0.01)
= 27.83 (p < 0.01)
= 1.98 (n.s.)

Efectivamente, tanto los datos del grupo control como los del grupo experimental se ajustan
a un polinomio de grado 3 (ver Figura ??).
El modelo es:
grupo control ()
yi = 1929.24 97.86ti + 1.654t2i 0.0092t3i + i
grupo experimental ()
yi = 1892.28 94.94ti + 1.593t2i 0.0088t3i + i

5.4
5.4.1

Comparaci
on de curvas experimentales
Comparaci
on global

Si dos curvas experimentales se ajustan bien a modelos de formulacion matematica diferente (por ejemplo, dos polinomios de distinto grado) hay que aceptar que las curvas
experimentales son distintas.
74

Si las dos curvas son polinomios del mismo grado


y1 = Pm (x) + 
y2 = P (x) + 
la comparacion se expresa planteando el siguiente contraste de hipotesis
H0 : Pm (x) = Pm (x)
H1 : Pm (x) = Pm (x)
que implica la hipotesis lineal
H0 : i = i

i = 0, 1, . . . , m

H0 : i = i

i = 0, 1, . . . , m

analoga a
(5.11)

si utilizamos el modelo planteado mediante polinomios ortogonales (ver (29)).


Sean SCR1 = Q1 (m), SCR2 = Q2 (m) las sumas de cuadrados residuales para cada curva
y SCR = SCR1 + SCR2 la suma de cuadrados residual del modelo conjunto construido
mediante la union de los dos modelos.
La construccion del modelo conjunto es solo posible si los dos modelos poseen varianzas
iguales. Por este motivo, es necesario plantear previamente el test de homogeneidad de
varianzas
H0 : 12 = 22
H1 : 12 = 22
que se resuelve mediante el estadstico
F =

SCR1 /(n1 m 1)
SCR2 /(n2 m 1)

(5.12)

cuya distribucion si H0 es cierta es una F con n1 m 1 y n2 m 1 g.l..


Si aceptamos la igualdad de varianzas, podemos resolver (37) mediante el estadstico
F =

(SCRH SCR1 SCR2 )/(m + 1)


(SCR1 + SCR2 )/(n1 + n2 2m 2)

(5.13)

que bajo H0 sigue una F con m + 1 y n1 + n2 2m 2 g.l.. SCRH = Q12 (m) es la suma
de cuadrados residual bajo H0 , es decir, considerando que las dos curvas son iguales y
que en consecuencia todos los datos se ajustan a un mismo polinomio de grado m.

5.4.2

Test de paralelismo

La hipotesis lineal de que las curvas son paralelas se plantea de la siguiente forma
H0 : i = i

i = 1, . . . , m

H0 : i = i

i = 1, . . . , m

o bien, si nos referimos a (29)

75

(5.14)

Es decir, las curvas dieren u


nicamente respecto a la ordenada en el origen.
Esta hipotesis tiene generalmente interes cuando se rechaza H0 de (37). Se resuelve
mediante el estadstico
(SCRH SCR1 SCR2 )/m
F =
(SCR1 + SCR2 )/(n1 + n2 2m 2)

(5.15)

cuya distribucion sigue una F con m y n1 + n2 2m 2 g.l. cuando H0 es cierta. SCRH


es la suma de cuadrados residual bajo H0 que supone aceptar la existencia de dos curvas
distintas pero paralelas.
Ejemplo 5.4.1 En el ejemplo 5.3.1 hemos ajustado los datos del grupo control y del
grupo experimental a dos polinomios de grado 3.
Podemos aceptar que en realidad los dos polinomios son iguales? Esta pregunta equivale
a plantear la hip
otesis lineal 5.11. Para resolverla es necesario realizar previamente el
test de homogeneidad de varianzas utilizando 5.12
F =

41.61/(10 3 1)
= 1.10
37.80/(10 3 1)

con 6 y 6 g.l. (no signicativa).


Pasamos pues a contrastar 5.11 mediante el estadstico 5.13. La suma de cuadrados
residual bajo H0 es SCRH = Q12 (3) = 249.06
F =

(249.06 41.61 37.80)/(3 + 1)


= 6.41
(41.61 + 37.80)/(10 + 10 6 2)

con 4 y 12 g.l. que es signicativa (p < 0.01). Debemos aceptar en consecuencia que las
dos curvas son diferentes (la conducta de los individuos del grupo control es diferente de
la conducta de los individuos del grupo experimental).
No obstante, podemos preguntarnos si las dos curvas son paralelas y plantear la hip
otesis
lineal 5.14 que resolveremos utilizando el estadstico 5.15. La suma de cuadrados residual
bajo H0 es ahora SCRH = Q12 = 82.59
F =

(82.59 41.61 37.80)/3


= 0.16
(41.61 + 37.80)/(10 + 10 6 2)

con 3 y 12 g.l. (no signicativa). Podemos entonces aceptar que las dos curvas experimentales son paralelas. La interpretaci
on en terminos la conducta podra realizarse
conociendo con mas precisi
on el planteamiento del problema.

76

dia

grupo control

grupo experimental

47
50
53
56
59
62
65
68
71
74

25.7
20.1
16.2
14.0
21.3
20.3
28.4
23.5
16.8
9.9

34.1
24.9
21.2
23.3
22.0
30.9
31.4
26.5
23.0
17.2

Tabla 5.3: Datos del test de conducta a dos grupos de ratas

77

Captulo 6
An
alisis de la Varianza
6.1

Introducci
on

El Analisis de la Varianza es un conjunto de tecnicas estadstico-matematicas que permiten analizar como operan diversos factores considerados simultaneamente en un dise
no
factorial. Normalmente interesa estudiar como se diferencian los niveles de un cierto
factor, llamado factor tratamiento, teniendo en cuenta la incidencia de otros factores
cualitativos o cuantitativos (factores ambientales), cuya inuencia es eliminada mediante
una adecuada descomposicion de la variabilidad de una cierta variable observable.
En general, en todo Analisis de la Varianza es necesario considerar tres etapas:
a) Dise
no del experimento a n de obtener observaciones de una variable Y , combinando adecuadamente los factores incidentes.
b) Planteo de hipotesis, calculo de sumas de cuadrados (residuales, de desviacion de
la hipotesis, etc.) y obtencion de los cocientes F . Esta parte del analisis se formula
mediante la teora de los modelos lineales.
c) Toma de decisiones e interpretacion de los resultados. Planteamiento a posteriori
de nuevas hipotesis.

6.2

Dise
no de un factor

Supongamos que una variable Y ha sido observada bajo k condiciones experimentales


distintas. Puede ser que las observaciones provengan de k poblaciones, o bien tratarse de
replicas para cada uno de los k niveles de un factor.
Indiquemos por yih la replica h (h = 1, . . . , ni ) en la poblacion o nivel i (i = 1, . . . , k),
donde ni es el n
umero de replicas en la poblacion i. El conjunto de datos es:
Nivel 1 : y11 , y12 , . . . , y1n1
Nivel 2 : y21 , y22 , . . . , y2n2
..
.
Nivel k : yk1 , yk2 , . . . , yknk
78

Indiquemos tambien:
1
yih
n h

N
umero total de observaciones: n =
ni

Media en la poblacion i o nivel i: yi =

1 
Media general: y = y =
yih
n i h

El modelo lineal que se adapta a este dise


no es
yih = i + ih
siendo (1 , 2 , . . . , k ) el vector

1
0

X = ..
.
0

i = 1, . . . , k ; h = 1, . . . , ni

de parametros y

0 ... 0
1 ... 0

.. . . ..
.
.
.
0 ... 1

(6.1)

rango X = k

la matriz de dise
no (reducida).
Se comprueba facilmente que la estimacion MC de los parametros es

i = yi

i = 1, . . . , k

mientras que la suma de cuadrados residual es


SCR =

ni
k 


(yih yi )2

i=1 h=1

la cual se indica por SCD y se denomina suma de cuadrados dentro de grupos o tambien
intragrupos.
Consideremos la identidad
yih y = (yi y) + (yih yi )
Elevando al cuadrado y sumando tenemos



(yih y)2 =
(yi y)2 +
(yih yi )2
i,h

i,h

+2

i,h

(yi y)(yih yi )

i,h

pero

(yi y)(yih yi ) =

i,h

(yih yi )yi

i,h

(yih yi )
y=0

i,h

En efecto, el vector {yih yi } pertenece al espacio error y por tanto es ortogonal al vector
{yi } que pertenece al espacio estimacion como hemos visto en las secciones ??; por otra
parte

(yih yi ) = 0
i,h

79

Indiquemos entonces
SCT =
SCE =

(yih y)2

i,h


suma de cuadrados total

ni (yi y)2 suma de cuadrados entre grupos

Se verica la identidad
SCT = SCE + SCD

(6.2)

La hipotesis nula de mayor interes es


H0 : 1 = 2 = . . . = k
Si H0 es cierta, las medias de las k poblaciones son iguales. En terminos de dise
no
factorial, los niveles del factor no son signicativos para la variable observable. Entonces,
el modelo 6.1 se transforma en
yih = + ih

i = 1, . . . , k ; h = 1, . . . , ni

La estimacion MC de es
 = y y la suma de cuadrados residual es

SCRH =
(yih y)2 = SCT
i,h

Considerando la relacion 6.2 deducimos que la suma de cuadrados debida a la desviacion


de la hipotesis es

SCRH SCR =
ni (yi y)2 = SCE
i

Observese que SCE mide la variabilidad entre las medias


y1 , y2 , . . . , yk
Una estimacion insesgada de 2 es

2 = SCD /(n k)
Ademas, suponiendo que ih N (0, ), se verica (ver teorema ??):
a) SCD / 2 2nk
b) Si H0 es cierta, entonces SCE /(k 1) es otra estimacion insesgada de 2 y ademas
SCE / 2 2k1
c) Si H0 es cierta, el estadstico
F =

SCE /(k 1)
SCD /(n k)

sigue la distribucion F con k 1 y n k grados de libertad.


80

(6.3)

Fuente de
variacion
Entre grupos

suma de
cuadrados
SCE =

Dentro grupos SCD =


Total

SCT =


i

g.l.

cuadrados
medios

ni (yi y)2

k1

SCE /(k 1)

yi )2

nk

SCD /(n k)

y)2

n1

i,h (yih

i,h (yih

F
SCE /(k 1)
SCD /(n k)

Tabla 6.1: Tabla del Analisis de la Varianza para dise


nos de un factor
La hipotesis H0 se rechaza si 6.3 es signicativo. Es recomendable disponer los calculos
de la forma indicada en la tabla.
Otros aspectos
El modelo 6.1 se puede reparametrizar en la forma
yih = + i + ih
con la restriccion

i = 1, . . . , k ; h = 1, . . . , ni


(6.4)

i = 0

Si 6.4 representa el modelo para el dise


no de un factor a k niveles, entonces
= media general
i = efecto del nivel i
La hipotesis H0 se expresa ahora
H0 : 1 = . . . = k = 0
Las estimaciones de y i son

 = y

i = yi y

Se verica entonces
SCRH SCR = SCE =

ni
i2

de modo que SCE reeja bien la variabilidad entre los diferentes niveles del factor estudiado.
La formulacion matricial de H0 es

0
0
..
.

1
0
..
.

0 ...
1 ...
.. . .
.
.
0 0 0 ...

1
2
..
.

1 0 k1
k
0
0
..
.

0
0
..
.

81

=0

Aplicando entonces 4.3 del captulo 4, tenemos que


E(SCRH SCR) = E(SCE ) = (k 1) 2 +

ni i2

(6.5)

Finalmente, si se desean comparar dos niveles, es decir, plantear la hipotesis parcial


(ij)

H0

: i = j

utilizaremos el estadstico
yi yj

t= 
SCD /(n k)

ni nj
ni + nj

(6.6)

(ij)

que bajo H0 sigue una t de Student con n k grados de libertad. Con mas generalidad,
si se desea estudiar si la funcion parametrica estimable, tal que c1 + + ck = 0,
= c1 1 + + ck k
se aparta signicativamente de 0, utilizaremos

i ci yi
t =  2 
SCD /(n k)
i ci /ni

(6.7)

tambien con n k grados de libertad (ver 3.2).


Ejemplo 6.2.1
Se desean comparar dos medicamentos D (diuretico), B (betabloqueante) con un producto
inocuo P (placebo). Se tomo una muestra de 15 individuos hipertensos cuyas condiciones
iniciales eran sucientemente homogeneas y se asignaron los tres tratamientos al azar.
El objetivo del estudio es ver c
omo act
uan los tres tratamientos frente a la hipertensi
on,
concretamente si disminuyen la misma. A tal n se ha elegido la variable observable
porcentaje de descenso de la presi
on arterial media. Los datos obtenidos son
D
B
P
22 20 10
18 28
5
30 35
0
15 19 14
17 3318
Vamos a estudiar si hay diferencias signicativas entre los tres f
armacos y la signicaci
on
de la funcion parametrica
1
= (D + B) P
2
que se puede interpretar como una medida de la diferencia entre los productos activos
respecto al placebo.
Las medias son:
y1 = 20.40

y2 = 27.00
82

y3 = 9.40

y = 18.93

Fuente de
suma de
variacion
cuadrados g.l.
Entre farmacos
790.53
2
558.40
12
Dentro farmacos
Total
1349.93
14

cuadrados
medios
F
395.29
8.49
46.53

Tabla 6.2: Ejemplo de Analisis de la Varianza para un dise


no de un factor
Las sumas de cuadrados son:
SCT = 1349.93

SCE = 790.53

SCD = 558.40

de manera que podemos disponer las estimaciones en forma de tabla del An


alisis de la
Varianza como se muestra en la tabla anterior.
Con 2, 12 grados de libertad y un nivel de signicaci
on del 0.01 leemos en la tabla de la
distribuci
on F el valor 6.93. Luego la diferencia entre los tres f
armacos es claramente
signicativa.
La estimacion de Gauss-Markov de la funci
on parametrica es
1
 = (20.40 + 27.00) 9.40 = 14.30
2
Adem
as

i

1 1 1
c2i /ni = ( + + 1) = 0.3
5 4 4

SCD /(n k) = 46.53


Aplicando 6.7 obtenemos
14.30

= 3.827
0.3 46.53
Contrastando con la tabla de la t de Student, para 12 grados de libertad, vemos que
es signicativa al nivel 0.01. Finalmente, para analizar si hay diferencias signicativas
entre D y B, utilizaremos 6.6

20.40 27.00 5 5

= 1.530
t=
5+5
46.53
t=

que no es signicativa.
Conclusion: Hay variabilidad signicativa entre los tres f
armacos. La variabilidad reside
principalmente en la diferencia entre los dos f
armacos activos frente al placebo.

6.3

Dise
no de dos factores sin interacci
on

Supongamos que la variable observable esta afectada por dos causas de variabilidad, es
decir, por dos factores cualitativos A y B, con a y b niveles respectivamente. Supongamos tambien que tenemos u
nicamente una observacion por casilla. Entonces, podemos
83

disponer las observaciones del siguiente modo


A1
A2
..
.
Aa
siendo
yi =

1
yij
b j

B1 B2
y11 y12
y21 y22
..
..
.
.
ya1 ya2
y1 y2
yj =

. . . Bb
. . . y1b y1
. . . y2b y2
..
..
.
.
. . . yab ya
. . . yb y

1
yij
a i

y = y =

1 
yij
ab i,j

En relacion a la tabla de datos anterior, diremos que A es el factor la y B el factor


columna con A1 , A2 , . . . , Aa y B1 , B2 , . . . , Bb niveles respectivamente.
Modelo aditivo
Si suponemos que tanto el efecto la como el efecto columna son aditivos, admitiremos
el modelo lineal
yij = + i + j + ij

i = 1, . . . , a ; j = 1, . . . , b

(6.8)

siendo
= media general
i = efecto del nivel Ai del factor A
j = efecto del nivel Bj del factor B
Como 6.8 no es un dise
no de rango maximo, impondremos las siguientes restricciones
naturales


i =
j = 0
(6.9)
i

Entonces, el modelo depende de los parametros


, 1 , . . . , a1 , 1 , . . . , b1
siendo
a = 1 a1

b = 1 b1

La matriz de dise
no X para el caso a = 3, b = 2 es
1 2 1
1
1
0
1
1
0
1
1
1 1 1
1
1
1
0 1
1
0
1 1
1 1 1 1
Como las columnas de X correspondientes a parametros distintos son ortogonales, mientras que las correspondientes a los mismos parametros son linealmente independientes,
84

deducimos que el rango de X es igual al n


umero de parametros resultantes despues de
imponer las restricciones 6.9, es decir,
rango X = 1 + (a 1) + (b 1) = a + b 1

(6.10)

Estimaci
on de par
ametros
Consideremos la identidad
y ) + (yi y i ) + (yj y j )
yij i j = (
+(yij yi yj + y)
Elevando al cuadrado, sumando para todo i, j y teniendo en cuenta 6.9, como los productos cruzados se anulan (puede probarse con algo de esfuerzo), obtenemos



(
y )2 +
(yi y i )2
(6.11)
(yij i j )2 =

+
(yj y j )2

+
(yij yi yj + y)2
Entonces 6.11, con las restricciones 6.9, alcanza su mnimo para

 = y

i = yi y

j = yj y

de modo que la suma de cuadrados residual es



(yij yi yj + y)2
SCR =

(6.12)

(6.13)

i,j

Observese que

yij =
+
i + j + eij

siendo eij la estimaci


on del termino de error
eij = yij yi yj + y
Finalmente, SCR tiene ab (a + b 1) = (a 1)(b 1) grados de libertad, luego

2 = SCR/[(a 1)(b 1)]


es un estimador centrado de la varianza del dise
no.
Hip
otesis lineales
La hipotesis de que el factor A no es signicativo (no hay efecto la) es
H0A : 1 = . . . = a = 0

(6.14)

Analogamente, la hipotesis para B (no hay efecto columna), es


H0B : 1 = . . . = b = 0
El rango de H0A es a 1, mientras que el de H0B es b 1.
85

(6.15)

Vamos a obtener el test F adecuado para contrastar la hipotesis 6.15. Consideremos la


siguiente descomposicion fundamental de la suma de cuadrados (que demostraremos mas
adelante)



(yij y)2 = b
(yi y)2 + a
(yj y)2
i,j

(yij yi yj + y)2

i,j

SCT = SCF + SCC + SCR

(6.16)

donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre las, etc. (ver
cuadro 6.3). La suma de cuadrados residual bajo el modelo 6.8 es 6.13. Si la hipotesis
6.15 es cierta, obtendremos el siguiente modelo
yij = + i + ij
que corresponde al modelo de un solo factor. La suma de cuadrados residual (ver seccion
6.2) sera entonces

(yij yi )2
SCRH =
i,j

puesto que para cada i, las observaciones yi1 , . . . , yib hacen el papel de replicas. Pero de
la identidad
yij yi = (yj y) + (yij yi yj + y)
elevando al cuadrado y teniendo en cuenta que los productos cruzados tambien se anulan,
deducimos
SCRH = SCC + SCR
Luego podemos decidir si puede aceptarse o no la hipotesis 6.15 utilizando el estadstico
F =

SCC /(b 1)
SCR/[(a 1)(b 1)]

(6.17)

cuya distribucion bajo H0 es F con b 1 y (a 1)(b 1) grados de libertad.


Analogamente se procede para estudiar el efecto la. Los calculos deben disponerse en
forma de tabla (ver tabla 6.3).
Finalmente, si se desea comparar dos niveles de un mismo factor, plantearemos la hipotesis
parcial
A(ij)
B(ij)
: i = j
o bien
H0
: i = j
H0
seg
un se trate de factor la o columna. El estadstico utilizado en el primer caso sera
t= 

yi yj

SCR/[(a 1)(b 1)]

b/2

cuya distribucion bajo la hipotesis es una t de Student con (a 1)(b 1) grados de


libertad. Analogamente, para comparar dos niveles del factor columna, utilizaremos
t= 

yi yj
SCR/[(a 1)(b 1)]
86

a/2

Fuente de
variacion

suma de
cuadrados

Entre las

SCF = b

Entre col.

SCC = a

Residuo

Total




y)2

a1

SCF /(a 1)

SCF /(a1)
SCR/[(a1)(b1)]

j (yj

y)2

b1

SCC /(b 1)

SCC /(b1)
SCR/[(a1)(b1)]

(a 1)(b 1)

SCR
(a1)(b1)

SCR =
)2
i,j (yij yi yj + y


i (yi

SCT =

g.l.

cuadrados
medios

i,j (yij

y)2

ab 1

Tabla 6.3: Tabla del Analisis de la Varianza para dise


nos de dos factores sin interaccion
con la misma distribucion que el estadstico anterior si la hipotesis es cierta.
Descomposici
on aditiva de la suma de cuadrados
Expresemos el modelo 6.8 en notacion vectorial


Y = 1 +
i ui +
j vj + 
i

siendo
1
u1
..
.
ua
v1
..
.
vb

= (1, 1, . . . , 1; 1, 1, . . . , 1; . . . ; 1, 1, . . . , 1)
= (1, 0, . . . , 0; 1, 0, . . . , 0; . . . ; 1, 0, . . . , 0)
= (0, . . . , 0, 1; 0, . . . , 0, 1; . . . ; 0, . . . , 0, 1)
= (1, 1, . . . , 1; 0, 0, . . . , 0; . . . ; 0, 0, . . . , 0)
= (0, 0, . . . , 0; 0, 0, . . . , 0; . . . ; 1, 1, . . . , 1)

La matriz de dise
no es
X = (1, u1 , . . . , ua , v1 , . . . , vb )
y es evidente que 6.18 es equivalente a
Y = X + 
siendo = (, 1 , . . . , a , 1 , . . . , b ) .
Se verica

ui1 ui2 = 0 i1 = i2 ,

ui ui = b
ui vj = 1
vj vj = a

vj 1 vj2 = 0 j1 = j2 ,

Sustituyendo en 6.18 los parametros por sus estimaciones MC obtenemos




Y
1 =

i ui +
j vj + e
i

87

(6.18)

Como e es ortogonal al subespacio generado por las columnas de X (lema ??), tendremos
ui e = vj e = 0
Entonces
Y
1 2 =

i2 ui 2 +

Pero

i j =

i,j

i j ui vj + e 2

i,j

(yi y)yj y

(yi y)

i,j



yj
(yi y) y
(yi y) = 0

j
i (yi


(yi y)(yj y)

i,j

j2 vj 2 +

i,j

pues

y) = 0.

Luego
Y
1 2 =

i2 ui 2 +

j2 vj 2 + e 2

que demuestra la descomposicion fundamental de la suma de cuadrados expresada en


6.16.
Ejemplo 6.3.1
Para estudiar las diferencias entre los efectos de 4 fertilizantes sobre la producci
on de
patatas, se dispuso de 5 ncas, cada una de las cuales se dividio en 4 parcelas del mismo
tama
no y tipo. Los fertilizantes fueron asignados al azar en las parcelas de cada nca. El
rendimiento en toneladas fue
Fert.
1
2
3
4

1
2.1
2.2
1.8
2.1

2
2.2
2.6
1.9
2.0

Finca
3
4
1.8 2.0
2.7 2.5
1.6 2.0
2.2 2.4

5
1.9
2.8
1.9
2.1

Se trata de un dise
no en bloques aleatorizados. Este dise
no utiliza el modelo 6.8 y es especialmente utilizado en experimentacion agrcola. El objetivo es comparar a tratamientos
(4 fertilizantes en este caso) utilizando b bloques (5 ncas) y repartiendo aleatoriamente los a tratamientos en cada uno de los bloques (los fertilizantes son asignados al azar
en las parcelas de cada nca). Para una correcta aplicaci
on de este dise
no debe haber
maxima homogeneidad dentro de cada bloque, de modo que el efecto bloque sea el mismo
para todos los tratamientos. Interesa pues saber si hay diferencias signicativas entre los
tratamientos i y entre los bloques j estableciendo con este n las hipotesis lineales 6.14
y 6.15 respectivamente. Los resultados obtenidos son
y1 = 2.05 y2 = 2.175 y3 = 2.075 y4 = 2.225 y5 = 2.175
y1 = 2.00 y2 = 2.56 y3 = 1.84 y4 = 2.16 y = 2.04
88

Bloques
1
2
3
4
5

1
4
2
3
2

2
3
1
1
4

4
2
4
4
3

3
1
3
2
1

Tabla 6.4: Formacion correcta de bloques y asignacion al azar de los tratamientos


La tabla del Analisis de la varianza (ver tabla 6.3) es
Fuente variaci
on suma cuadrados g.l. cuadrados medios
Entre las
0.088
4
0.022
Entre fertiliz.
1.432
3
0.477
Residuo
0.408
12
0.034
Total
1.928
19
El estadstico F para comparar las ncas es
F =

0.022
= 0.65
0.034

con 4 y 12 grados de libertad. Como no es signicativo, admitimos que no hay diferencias


entre las ncas. Asimismo, para comparar los fertilizantes, el estadstico F es
F =

0.477
= 14.04
0.034

con 3 y 12 grados de libertad. Dado que es muy signicativo podemos admitir que hay
diferencias entre los fertilizantes.

6.4

Dise
no de dos factores con interacci
on

Supongamos que la variable observable esta inuida por dos causas de variabilidad A y
B, con a y b niveles respectivamente. Pero ahora, a diferencia del dise
no de la seccion
anterior, supongamos ademas que disponemos de r observaciones por casilla. Podemos
disponer los datos de la siguiente manera

A1

..
.
Aa

B1 B2 . . . Bb
y111 y121
y1b1
y112 y122 . . . y1b2
..
..
..
.
.
.
y11r y12r
y1br
..
..
..
.
.
.
ya11 ya21
yab1
ya12 ya22 . . . yab2
..
..
..
.
.
.
ya1r ya2r
89

yabr

Indicaremos
1 
yijk
br j,k
1
=
yijk
r k

1 
yijk
ar i,k
1 
y = y =
yijk
abr i,j,k

yi =
yij

yj =

Modelo aditivo con interacci


on
En este modelo suponemos que el efecto la (efecto debido al factor A) y el efecto columna
(efecto debido al factor B) son aditivos, pero aceptamos ademas que puede estar presente
un nuevo efecto denominado interaccion. En otras palabras, el modelo lineal es
yijk = + i + j + ij + ijk

(6.19)

para todo i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r y donde

i
j
ij

=
=
=
=

media general
efecto del nivel i de A
efecto del nivel j de B
interaccion entre los niveles Ai y Bj

Se imponen tambien las restricciones naturales






i =
j =
ij =
ij = 0
i

(6.20)

con lo cual el modelo depende de


1 + (a 1) + (b 1) + (a 1)(b 1) = ab

(6.21)

parametros.
La interaccion ij debe a
nadirse para prever el caso de que no se verique la aditividad
supuesta en 6.8. Indicando ij = E(yijk ), la interaccion mide la desviacion respecto a un
modelo totalmente aditivo
(6.22)
ij = ij i j
Por otra parte, diremos que un dise
no es de rango completo si el n
umero de parametros
es igual al n
umero de condiciones experimentales, es decir, al n
umero de las distintas de
la matriz de dise
no. En un dise
no que no es de rango completo hay menos parametros
que condiciones experimentales, por lo que en realidad admitimos que los datos se
ajustan al modelo propuesto. Por ejemplo, en el dise
no sin interaccion tenemos (ver 6.10)
a + b 1 < ab, luego admitimos de partida el modelo 6.8. Sin embargo, este modelo puede
no ser cierto y de hecho existe la llamada prueba de Tukey para comprobarlo. En cambio,
por 6.21, el modelo 6.19 posee tantos parametros como condiciones experimentales de
variabilidad, de modo que es valido por construccion. En general, un modelo de rango
completo se ajusta intrnsecamente a los datos sin problemas. No obstante, para poder
estimar todos los parametros es necesario disponer de mas de una replica por condicion
experimental. Esta es la razon por la cual la interaccion no puede ser incluida en 6.8.
90

El modelo 6.19 puede ser reparamentrizado en la forma


yijk = ij + ijk

(6.23)

Pasamos del modelo 6.23 al 6.19 mediante las transformaciones




1 
1 
=
ij
i =
ij
ab i,j
b
j


1 
j =
ij
ij = ij i j
a
i

(6.24)

Estimaci
on de los par
ametros
Consideremos la identidad
yijk i j ij = (
y ) + (yi y i )
+(yj y j )
+(yij yi yj + y ij )
+(yijk yij )
Elevando al cuadrado y teniendo en cuenta las restricciones 6.20, los productos cruzados
se anulan y queda



(yijk i j ij )2 =
(
y )2 +
(yi y i )2
(6.25)
i,j,k

i,j,k

i,j,k

(yj y j )2

(6.26)

(yij yi yj + y ij )2

(6.27)

(yijk yij )2

(6.28)

i,j,k


i,j,k


i,j,k

Como el u
ltimo termino de esta expresion no depende de los parametros, es facil ver que
las estimaciones MC son

 = y
i = yi y j = yj y
ij = yij yi yj + y

(6.29)

mientras que la suma de cuadrados residual es



SCR =
(yijk yij )2
i,j,k

que tiene ab(r 1) grados de libertad. Luego la estimacion de la varianza (teorema ??)
es

2 = SCR/[ab(r 1)]
Considerando 6.23 y 6.24 podemos obtener las estimaciones 6.29 por otro camino. Es
obvio que las estimaciones de ij son
ij = yij
91

Interpretando , i , j , ij como funciones parametricas sobre el modelo 6.23, por el teorema de Gauss-Markov, sus estimaciones se obtendran sustituyendo ij por yij en 6.24,
lo que nos dara 6.29.
Hip
otesis lineales
En el dise
no de dos factores con interaccion, las hipotesis de mayor interes son
H0A : 1 = . . . = a = 0
H0B : 1 = . . . = b = 0
H0AB : ij = 0 i, j

(no hay efecto la)


(no hay efecto columna)
(no hay interaccion)

Los rangos son a 1, b 1 y (a 1)(b 1) respectivamente.


A n de deducir el test F correspondiente, consideremos la siguiente descomposicion
fundamental de la suma de cuadrados



(yijk y)2 = br
(yi y)2 + ar
(yj y)2
i

i,j,k

+r

(yij yi yj + y)2

i,j

(yijk yij )2

i,j,k

Esta relacion, que se puede probar con algo de esfuerzo, la expresaremos brevemente como
SCT = SCF + SCC + SCI + SCR
donde SCT es la suma de cuadrados total, SCI es la suma de cuadrados correspondiente
a la interaccion, etc.
Consideremos ahora la hipotesis H0A . La suma de cuadrados residual es SCR. Supongamos la hipotesis cierta, entonces el modelo 6.19 se convierte en
yijk = + j + ij + ijk
Ademas, como no hay i , el mnimo de 6.25, es decir, la suma de cuadrados residual bajo
H0A es


(yi y)2 +
(yijk yij )2 = SCF + SCR
SCRH =
Luego si H0A es cierta (teorema ??) tendremos que
F =

(SCRH SCR)/(a 1)
SCF /(a 1)
=
SCR/[ab(r 1)]
SCR/[ab(r 1)]

sigue la distribucion F (a 1, ab(r 1)).


La obtencion del test F para decidir sobre H0B y H0AB es analoga. En la practica, los
calculos suelen disponerse en forma de tabla (ver tabla 6.5).
Ejemplo 6.4.1
Se desean comparar tres genotipos distintos de Drosophila melanogaster, observando si
existen diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada
una de las 6 casillas del experimento (3 genotipos 2 siembras) se dispusieron 6 preparados (6 replicas) y al cabo del tiempo suciente de ser sembrados los huevos, se obtuvo
el porcentaje de huevos que haban eclosionado. Los resultados fueron:
92

Fuente de
variacion

suma de
cuadrados

Entre las

SCF = br

Entre col.

SCC = ar

Interaccion
Residuo
Total

SCT =

i (yi

y)2

a1

SCF /(a 1)

SCF /(a1)
SCR/[ab(r1)]

j (yj

y)2

b1

SCC /(b 1)

SCC /(b1)
SCR/[ab(r1)]

(a-1)(b-1)

SCI
(a1)(b1)

SCI /[(a1)(b1)]
SCR/[ab(r1)]

ab(r 1)

SCR
ab(r1)

yi
2
yj + y)
SCR = i,j,h (yijh yij )2
SCI = r

g.l.

cuadrados
medios

i,j (yij

i,j,h (yijh

y)2

abr 1

Tabla 6.5: Tabla del Analisis de la Varianza para dise


nos de dos factores con interaccion
Huevos
sembrados
100
93
90
800
83.3
80.1

++
94
93
87.6
79.6

93
86
81.9
49.4

Genotipo
+
95.5 83.5 92
92.5 82
82.5
84
84.4 77
67
69.1 88.4

92
95
85.3
87.4

91
84
89.4
52

90
78
85.4
77

El n
umero X de huevos eclosionados por casilla sigue la distribuci
on binomial con n = 100
o n = 800. Para normalizar la muestra aplicaremos la transformaci
on


X
porcentaje
= arcsen
Y = arcsen
n
100
Los datos transformados son:
Huevos
sembrados
100
74.7
71.6
800
65.9
63.5

++
75.8
74.7
69.4
63.1

74.7
68
64.8
44.7

Genotipo
+
77.8 66
73.6
74.1 64.9 65.3
66.4 66.7 61.3
54.9 56.2 70.1

73.6
77.1
67.5
69.2

72.5
66.4
71
46.1

71.6
62
67.5
61.3

Se calcula:
y11 = 73.25
y22 = 62.6
y1 = 67.58
Podemos obtener entonces la
factores con interacci
on:

y12 = 70.28 y13 = 70.53 y21 = 61.9


y23 = 63.77 y1 = 71.36 y2 = 62.76
y2 = 66.44 y3 = 67.15 y = 67.06
tabla del An
alisis de la Varianza para un dise
no de dos

Fuente variaci
on suma cuadrados g.l. cuadrados medios
F
Entre siembras
665.64
1
665.64
14.87
Entre genotipos
7.87
2
3.93
0.09
Interacci
on
35.29
2
17.65
0.39
Residuo
1342.61
30
44.75
Total
2051.41
35
93

A la vista de los valores F obtenidos, se concluye que no es signicativa la diferencia


entre genotipos ni la interacci
on, pero s existen diferencias signicativas sembrando 100
o 800 huevos, siendo el porcentaje de eclosiones mayor en el primer caso, ya que seg
un
parece al haber menos huevos, las larvas disponen de m
as alimento.
Observaci
on: cuando un factor no es signicativo, la interacci
on generalmente tampoco
lo es.

6.5

Descomposici
on ortogonal de la variabilidad

En las secciones anteriores han sido tratados los dise


nos de uno y dos factores y se ha
estudiado como descomponer adecuadamente la variabilidad. Los dise
nos en los que intervienen tres o mas factores pueden estudiarse tambien descomponiendo adecuadamente
la variabilidad total

(yij...m y)2
SCT =
en diferentes sumas de cuadrados, mas una suma de cuadrados residual. Veamos como
debe procederse para un dise
no de cuatro factores que indicaremos A, B, C y D, con a,
b, c y d niveles respectivamente. Distinguiremos dos casos:
a) D es el factor replica, es decir, d es el n
umero de replicas para cada condicion
experimental o combinacion de los niveles de los factores A, B, C. El modelo lineal
es
AB
AC
BC
ABC
+ ik
+ jk
+ ijk
+ ijkr
yijkr = + iA + jB + kC + ij
para i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , c; r = 1, . . . , d y siendo
yijkr = replica r para los niveles i, j, k de A, B, C
= media general
iA , jB , kC = efectos principales de A, B, C
AB
AC
BC
, ik
, jk
= interacciones entre los factores A y B, A y C, B y C
ij
ABC
ijk
= interaccion entre los tres factores
ijkr = desviacion aleatoria N (0, )

Debe imponerse la restriccion de que la suma (respecto a uno o dos subndices) de


los parametros sea igual a cero.
b) D es un verdadero factor con d niveles, de modo que el dise
no depende de cuatro
factores con una sola observacion por casilla. El modelo es
D
AB
AC
AD
BC
BD
CD
+ ij
+ ik
+ im
+ jk
+ jm
+ km
yijkm = + iA + jB + kC + m
ABC
ABD
ACD
BCD
+ijk
+ ijm
+ ikm
+ jkm
+ ijkm

La interpretacion de los parametros es analoga.


La tabla 6.6 contiene la descomposicion de la variabilidad. Los sumatorios deben desarrollarse para todos los subndices i, j, k, m, vericandose por lo tanto


SCA =
(yi y)2 = bcd
(yi y)2
i

i,j,k,m

94

SCB =

(yj y)2 = acd

SCBC = ad

(yj y)2

i,j,k,m

(yjk yj yk + y)2

j,k

(etcetera.)

Tabla 6.6: Descomposicion ortogonal de la suma de cuadrados correspondiente a un dise


no
de cuatro factores
Fuente de
variacion suma de cuadrados
A
B
C
D
AB
AC
AD
BC
BD
CD
ABC
ABD
ACD
BCD
ABCD

Total

grados de libertad


2
(yi y) 2
(yj y) 2
(yk y) 2
(ym y)
2
(yij yi yj + y) 2
(yik yi yk + y) 2
(yim yi ym + y)2
(yjk yj yk + y) 2
(yjm yj ym + y) 2
(ykm yk ym + y)
(yijk yij yik yjk
2
 +yi + yj + yk y)
(yijm yij yim yjm
2
 +yi + yj + ym y)
(yikm yik yim ykm
2
 +yi + yk + ym y)
(yjkm yjk yjm ykm
2
 +yj + yk + ym y)
(yijkm yijk yijm yikm yjkm
+yij + yik + yjk + yim + yjm
+y
)2
km yi yj yk ym + y

(yijkm y)2

a1
b1
c1
d1
(a 1)(b 1)
(a 1)(c 1)
(a 1)(d 1)
(b 1)(c 1)
(b 1)(d 1)
(c 1)(d 1)
(a 1)(b 1)(c 1)
(a 1)(b 1)(d 1)
(a 1)(c 1)(d 1)
(b 1)(c 1)(d 1)
(a 1)(b 1)(c 1)(d 1)
abcd 1

Estas sumas de cuadrados pueden reunirse convenientemente, sumando tambien los grados de libertad, seg
un el tipo de dise
no factorial para obtener la suma de cuadrados
residual. Veamos tres casos:
1) Supongamos que se trata de un dise
no de tres factores y replicas, como el descrito
en a). Entonces:
SCT = SCA + SCB + SCC + SCAB + SCAC + SCBC + SCABC + SCR
siendo la suma de cuadrados residual
SCR = SCD + SCAD + SCBD + SCCD + SCABD + SCACD + SCBCD + SCABCD

=
(yijkm yijk )2
95

con (d 1) + + [(a 1)(b 1)(c 1)(d 1)] = abc(d 1) grados de libertad.


Para estudiar, por ejemplo, si la interaccion entre A y B es signicativa, calcularemos
SCAB /[(a 1)(b 1)]
F =
SCR/[abc(d 1)]
y consultaremos la tabla F con (a 1)(b 1) y abc(d 1) grados de libertad.
2) Supongamos que se trata de un dise
no de 4 factores con una sola observacion por
casilla, como el descrito en b). Entonces:
SCT = SCA +SCB +SCC +SCD +SCAB + +SCCD ++SCABC + +SCBCD +SCR
siendo SCR = SCABCD la suma de cuadrados residual. La signicacion de los
efectos principales o las interacciones debera efectuarse dividiendo por SCABCD .
3) Supongamos que C es un factor (por ejemplo, un factor bloque) que no interacciona
con A, B y que D es un factor replica. Entonces
SCT = SCA + SCB + SCC + +SCAB + SCR
siendo
SCR = SCD + SCAC + SCAD + + SCCD + SCABC + SCABD + SCBCD + SCABCD
la suma de cuadrados residual.
La formulacion general de esta descomposicion de la suma de cuadrados permite abordar
muchos tipos de dise
nos que resulten de la combinacion de varios factores, con una sola
replica por casilla, o con el mismo n
umero de replicas por casilla (dise
nos balanceados).
En este caso, las replicas se consideran como un factor formal y el residuo estara formado
por todas las sumas de cuadrados en los que interviene el factor replica. Las interacciones
no presentes en un determinado modelo (por condiciones experimentales o por cocientes
F claramente no signicativos) se a
naden al residuo. Esta formulacion general no permite
tratar ciertos dise
nos como cuadrados latinos, bloques incompletos balanceados, etc.
Esta descomposicion ortogonal, para un n
umero cualquiera de factores, puede programarse por ordenador siguiendo el algoritmo propuesto por Hartley (1962).

6.5.1

Descomposici
on de la variabilidad en algunos dise
nos

Indicando simbolicamente por A, B, AB, . . . , T las sumas de cuadrados SCA ,SCB , SCAB ,
nos del Analisis de la Varianza, pre. . . , SCT , exponemos seguidamente diferentes dise
sentando la descomposicion de la variabilidad. Algunos dise
nos han sido tratados en las
secciones anteriores de este captulo.
1. Un factor y r
eplicas
yij = + i + ij
T = A + R + AR
Entre grupos A
a1
Residuo
R + AR ar a
96

2. Dos factores con una observaci


on por casilla
yij = + i + j + ij
T = A + B + AB
Entre las
A
a1
Entre columnas B
b1
Residuo
AB (a 1)(b 1)
3. Dos factores con interacci
on
yijk = + i + j + ij + ijk
T = A + B + R + AB + AR + BR + ABR
Efecto la
Efecto columna
Interaccion
Residuo

A
B
AB
R + AR + BR + ABR

a1
b1
(a 1)(b 1)
ab(r 1)

4. Dos factores con interacci


on en bloques aleatorizados
yijk = + i + j + bk + ij + ijk
T = A + B + R + AB + AR + BR + ABR
Efecto la
Efecto columna
Efecto bloque
Interaccion
Residuo

A
B
R
AB
AR + BR + ABR

a1
b1
r1
(a 1)(b 1)
(ab 1)(r 1)

Este modelo se utiliza cuando se combinan dos factores A, B y se obtienen replicas organizadas en bloques. El factor bloque tiene un efecto principal, pero no interacciona con
A, B.
5. Tres factores con una observaci
on por casilla
yijk = + i + j + k + ()ij + ()ik + ()jk + ijk
T = A + B + C + AB + AC + BC + ABC
Efecto A
A
Efecto B
B
Efecto C
C
Interaccion A B AB
Interaccion A C AC
Interaccion B C BC
Residuo
ABC
97

a1
b1
c1
(a 1)(b 1)
(a 1)(c 1)
(b 1)(c 1)
(a 1)(b 1)(c 1)

6. Tres factores con r observaciones por casilla


yijkm = + i + j + k + ()ij + ()ik + ()jk + ()ijk + ijkm
T = A + B + C + R + AB + AC + AR + BC + BR + CR
+ ABC + ABR + ACR + BCR + ABCR
Efecto A
Efecto B
Efecto C
Interaccion
Interaccion
Interaccion
Interaccion
Residuo

A
B
C
AB
AB
AC
AC
BC
BC
A B C ABC
R + AR + BR + CR + ABR
+ACR + BCR + ABCR

a1
b1
c1
(a 1)(b 1)
(a 1)(c 1)
(b 1)(c 1)
(a 1)(b 1)(c 1)
abc(r 1)

7. Dise
no de parcela dividida
yijk = + i + j + bk + ()ij + (b)ik + +ijk
T = A + C + B + AC + AB + CB + ACB
Tratamiento principal
Subtratamiento
Bloque
Interaccion A C
Interaccion A B
Residuo
B1
B2
B3

A2
C1 C2
A1
C2 C1
A3
C1 C2

A
C
B
AC
AB
CB + ACB

A1
C2 C1
A3
C2 C1
A4
C1 C2

A3
C2 C1
A4
C1 C2
A2
C2 C1

a1
c1
b1
(a 1)(c 1)
(a 1)(b 1)
a(b 1)(c 1)
A4
C1 C2
A2
C1 C2
A1
C2 C1

Este dise
no se utiliza en investigacion agrcola, tambien en otras ciencias experimentales,
para comparar a tratamientos (factor A) que se asignan aleatoriamente en b bloques
o ncas (factor B), a razon de a tratamientos por bloque. Se divide cada una de las
ab parcelas y se asignan al azar c subtratamientos (f actorC), tal como se ilustra en el
esquema para el caso a = 4, b = 3, c = 2. Se supone que act
uan los efectos principales A,
B y C, la interaccion A C y la interaccion A B. La interaccion entre A y los bloques
es debida a que estos no pueden considerarse completamente homogeneos. Sin embargo,
se supone que cada una de las ab parcelas dentro de los bloques son homogeneas, de modo
que los subtratamientos C no interaccionan con los bloques.
Para la signicacion de C y la interaccion A C debe calcularse
FC =

C/(c 1)
(CB + ABC)/[a(b 1)(c 1)]

FAC =
98

AC/[(a 1)(c 1)]


(CB + ABC)/[a(b 1)(c 1)]

Para estudiar la signicacion del factor A y del factor bloque debe calcularse
FA =

6.5.2

A/(a 1)
AB/[(a 1)(b 1)]

FB =

B/(b 1)
AB/[(a 1)(b 1)]

Estimaci
on de par
ametros y c
alculo del residuo

La estimacion de los efectos principales y las interacciones se obtienen utilizando los


terminos que intervienen en las correspondientes sumas de cuadrados (ver tabla 6.6).
Por ejemplo, en un estudio de dos factores con interaccion en bloques aleatorizados, las
estimaciones son:
j = yj y

 = y

i = yi y
bk = yk y

ij = yij yi yj + y

Se puede aplicar una regla sencilla para encontrar la expresion algebraica del residuo. En
el dise
no citado, cuyo modelo es
yijk = + i + j + bk + ij + ijk
sustituiremos los parametros por sus estimaciones
yijk = y + (yi y) + (yj y) + (yk y)
+(yij yi yj + y) + eijk
Para que exista identidad entre yijk y el termino de la derecha, la estimacion de la
desviacion aleatoria eijk debe ser
eijk = yijk yij yk + y
El residuo correspondiente al dise
no de dos factores con interaccion en bloques aleatorizados es entonces


e2ijk =
(yijk yij yk + y)2
i,j,k

i,j,k

formula que coincide con AR + BR + ABR.


Esta regla sirve para todos los dise
nos que admiten descomposicion ortogonal de la suma
de cuadrados. Por poner otro ejemplo, para el dise
no de parcela dividida se comprueba
de este modo que la estimacion de la desviacion aleatoria es
eijk = yijk yik yij + yi
Ejemplo 6.5.1
Con el n de valorar la acci
on de los hongos xil
ofagos sobre la madera, se han tomado
240 muestras de madera procedente de tocones de Pinus silvestris, clasicados atendiendo
simultaneamente a 4 factores (edad, orientaci
on, altura y profundidad). La descripci
on
de los factores es:
Edad (E): A
nos transcurridos desde la fecha de tala (1,4,7,10 o 13 a
nos).
99

Orientaci
on (O): N ,S,E,O seg
un la ubicaci
on de la muestra en el toc
on.
Altura (A): 0, 2, 5, 15 expresada en cm contados a partir de la supercie de corte.
Profundidad (P ): 0, 2, 5 expresada en cm contados radialmente a partir de la supercie
lateral.
Cada una de las 5 4 4 3 = 240 muestras era en realidad la homogeneizaci
on de 3
muestras procedentes de 3 tocones distintos pero de las mismas caractersticas en cuanto
a la edad, orientaci
on, altura y profundidad.
Se estudiaron 8 variables qumicas. Para la variable que meda la cantidad de hemicelulosa, se obtuvo la siguiente descomposicion ortogonal de la suma de cuadrados:
Fuente de
variaci
on

Suma de Grados de Cuadrados


cuadrados
libertad
medios

E
O
A
P
EO
EA
EP
OA
OP
AP
EOA
EOP
EAP
OAP
EOAP

1227.53
51.94
58.59
18.04
152.70
137.13
72.22
54.60
37.26
21.04
189.89
145.12
132.22
60.70
373.19

4
3
3
2
12
12
8
9
6
6
36
24
24
18
72

Total

2732.64

239

306.88
17.31
19.53
9.02
12.72
11.42
9.03
6.06
6.21
3.50
5.27
6.04
5.50
3.37
5.18

F
59.21
3.34
3.76
1.74
2.45
2.20
1.74
1.17
1.20
0.68
1.01
1.16
1.06
0.65

Los datos se adaptan a un dise


no de 4 factores con una observaci
on por casilla. El residuo
es la suma de cuadrados indicada simb
olicamente por EOAP y su valor es 373.19 con 72
grados de libertad. Un examen inicial de los cocientes F de la tabla, obtenidos dividiendo
los cuadrados medios por 373.19/72 = 5.18, para un nivel de signicacion de 0.05 nos
lleva a las siguientes conclusiones:
a) Son signicativos los efectos principales E,O,A. No es signicativo el efecto principal
P.
b) Son signicativas las interacciones EA y EO. No son signicativas el resto de las
interacciones.
Prescindiendo de los efectos no signicativos, resulta un dise
no de tres factores (E,O,A),
de los cuales interaccionan E con A y E con O (edad con altura y edad con orientacion).
A
nadiendo las correspondientes sumas de cuadrados al residuo, obtenemos la siguiente
tabla:
100

Fuente de
variaci
on

Suma de Grados de Cuadrados


cuadrados
libertad
medios

E
O
A
EO
EA
Residuo

1227.53
51.94
58.59
152.70
137.13
1104.26

4
3
3
12
12
205

Total

2732.64

239

306.88
17.31
19.53
12.72
11.42
5.39

F
56.97
3.21
3.63
2.36
2.12

Se observa que sigue existiendo variabilidad signicativa respecto E,O y A. Tambien son
signicativas las interacciones EO y EA. Por lo tanto, se conrman las conclusiones
2 = 5.39.
iniciales. Una estimaci
on insesgada de la varianza 2 es

6.6

Dise
nos no balanceados y con observaciones faltantes

Un dise
no experimental (observaciones y modelo del experimento) puede describirse meno ampliada. Sean
diante el modelo lineal Y = Xa + , donde Xa es la matriz de dise
umeros de replicas para cada una de las condiciones experimentales (ver
n1 , . . . , nk los n
seccion ??). Excepto el dise
no de un factor, los demas dise
nos deben tener el mismo
n
umero de replicas por condicion experimental. Sin embargo, en las aplicaciones no
siempre es posible mantener tal restriccion. Ademas, las replicas de alguna condicion experimental pueden perderse (un tubo de ensayo que se rompe, unos datos que se extravan,
etc.). Veamos como pueden ser tratados ambos problemas.
Dado el modelo lineal Y = Xa + , diremos que corresponde a:
1) Un dise
no balanceado si n1 = n2 = . . . = nk = 0.
2) Un dise
no no balanceado si ni = nj para alg
un i, j.
3) Un dise
no con observaciones faltantes si ni = 0 para alg
un i.
Supongamos que X es la matriz de dise
no reducida estandar para un dise
no experimental determinado. Los dise
nos no balanceados y con observaciones faltantes se pueden
manejar, sin modicar X, utilizando
D = diag(n1 , n2 , . . . , nk )
Adoptemos el convenio de que si ni = 0 para alg
un i, la correspondiente observacion
contenida en Y se sustituye por 0 y en el vector de medias Y = (y 1 , y 2 , . . . , y k ) se toma
y i = 0. Entonces se verica
 = (X DX) X DY

  X DY
SCR = Y Y
101

  (A(X DX) A )1 (A)



SCRH SCR = (A)
siendo H0 : A = 0 una hipotesis contrastable. La matriz M que relaciona Xa con X
nadiendo una la de ceros en
mediante Xa = MX se dene como en la seccion 2.7, pero a
el lugar correspondiente a una casilla con observaciones faltantes. Vease Cuadras (1983).
Para otros tratamientos del caso no balanceado y de las observaciones faltantes vease
Seber (1977, pag. 259,290).
Ejemplo 6.6.1
Consideremos un dise
no de dos factores A, B sin interacci
on, con a = 2, b = 3, n11 = 1,
n12 = 2, n13 = 0, n21 = 3, n22 = 0, n23 = 1; es decir, no balanceado y con observaciones
ametros , 1 , 2 , 1 , 2 , 3 ,
faltantes en los niveles A1 B3 y A2 B2 . Entonces, para los par
tenemos:

1 0 0 0 0 0
0 1 0 0 0 0

1 1 0 1 0 1
0 1 0 0 0 0
1 1 0 0 1 0

0 0 0 0 0 0
1 1 0 0 0 1

X=
M=
1 0 1 1 0 0
0 0 0 1 0 0

0 0 0 1 0 0

1 0 1 0 1 0
0 0 0 1 0 0

1 0 1 0 0 1
0 0 0 0 0 0
0 0 0 0 0 1

D = (1, 2, 0, 3, 1, 0)

Xa = MX =

1
1
1
0
1
1
1
0
1

1
1
1
0
0
0
0
0
0

102

0
0
0
0
1
1
1
0
0

1
0
0
0
1
1
1
0
0

0
1
1
0
0
0
0
0
0

0
0
0
0
0
0
0
0
1

6.7

Ejercicios

Ejercicio 6.1
Los siguientes datos corresponden a los ndices de mortalidad, en un perodo de 10 a
nos,
clasicados por estaciones. Determinar si hay diferencias signicativas entre las diferentes
estaciones al nivel 0.01.
Invierno Primavera Verano Oto
no
9.8
9.0
8.8
9.4
9.9
9.3
9.4
9.8
9.3
8.7
10.3
10.6
9.2
8.8
9.8
9.9
9.4
8.6
9.4
10.7
9.1
8.3
9.6
9.7
9.2
8.8
9.5
10.2
8.9
8.7
9.6
10.9
9.3
8.9
9.5
10.0
9.3
9.4
Por otra parte, diere signicativamente de 10.0 el ndice medio registrado en invierno?
Ejercicio 6.2
Para el dise
no de un factor con k niveles
yih = + i + ih
con

i = 1, . . . , k; h = 1, . . . , ni

i = 0, demostrar:

a) La relacion entre el contraste de la razon de verosimilitud y el contraste F para


la hipotesis H0 : 1 = . . . = k = 0 es

=

k1
1+
F
nk

n/2

b) El valor esperado de los cuadrados medios entre grupos es


E(CMe ) = 2 +

1 
ni i2
k1

P
c) Cuando H0 es cierta y min{n1 , . . . , nk } , entonces F 1.
d) Si k = 2, el contraste F para la hipotesis
H0 = 1 = 2 = 0
es equivalente al contraste t de Student para comparar las medias + 1 , + 2
de dos poblaciones normales suponiendo que las varianzas son iguales.

103

Ejercicio 6.3
La siguiente tabla registra las producciones de 4 variedades de maz, plantadas seg
un un
dise
no en bloques aleatorizados

Bloque

a
b
c
d
e

Variedad
1 2 3 4
7 6 6 7
10 8 7 9
6 3 5 7
4 3 3 3
8 5 5 6

Al nivel 0.05 estudiar si hay diferencias entre variedades y entre bloques. Comparar la
variedad 1 con la variedad 3.
Ejercicio 6.4
Ejercicio 6.5

104

Captulo 7
An
alisis de Componentes de la
Varianza
7.1

Introducci
on

En los dise
nos hasta ahora estudiados hemos supuesto que los efectos de los factores son
jos y por este motivo se denominan modelos de efectos jos. Sin embargo, en ciertas
situaciones es necesario interpretar los efectos de los factores como aleatorios. En estos
casos no tiene interes el estudio de las funciones lineales de los efectos sino sus varianzas.
A los modelos relacionados con los efectos aleatorios se les denomina modelos de efectos
aleatorios o de componentes de la varianza. Pueden darse tambien efectos de ambos
tipos en un mismo modelo: son los modelos mixtos. Veamos como distinguirlos mediante
ejemplos.

7.1.1

Un modelo de efectos jos

Una experiencia agrcola consistio en comparar la produccion de cuatro variedades de


maz. Para ello, se plantaron las cuatro variedades en 40 parcelas identicas, 10 por
variedad. Transcurrido el tiempo necesario se recolecto, estudiandose la variable peso
de maz por parcela.
Un modelo adecuado para analizar esta experiencia es el de un factor
yij = + i + ij
yij

i
ij

i = 1, 2, 3, 4; j = 1, 2, . . . , 10

es la observacion j del nivel i, es decir, la produccion de la


parcela j de la variedad i
es la media general
es un parametro jo y representa el efecto de la variedad i
es el error aleatorio con distribucion N (0, )

La hipotesis de interes en este estudio es


H0 : 1 = 2 = 3 = 4 = 0
es decir, no hay efecto variedad y las cuatro pueden considerarse homogeneas en cuanto
a la productividad.
105

7.1.2

Un modelo de efectos aleatorios

Para determinar el contenido en DNA de los hepatocitos de rata hemos tomado al azar
cinco ratas. De cada hgado realizamos tres preparaciones y evaluamos con las tecnicas
adecuadas la cantidad de DNA por celula.
Un modelo apropiado para estos datos sera tambien el de un factor
yij = + Ai + ij

i = 1, 2, . . . , 5; j = 1, 2, 3

pero la diferencia respecto al anterior estriba en que Ai no es un parametro jo sino el


efecto aleatorio de la rata i que procede de una poblacion de ratas en la cual se supone
que la variable (cantidad DNA / celula hepatica) sigue una distribucion N (, y ). La
distribucion de los Ai es N (0, A ) que se supone independiente de los errores ij con
distribucion N (0, ).
La hipotesis de interes en este caso es
H0 : A2 = 0
lo que equivale a armar que no hay variabilidad entre las distintas ratas de la poblacion
respecto la variable estudiada.

7.1.3

Un modelo mixto

Para un estudio sobre la ecologa de un lago se han elegido al azar cuatro tardes de verano
y se ha medido la variable temperatura a diferentes profundidades (0,1,2,3,4 y 5 metros).
Nuestro objetivo es examinar mediante los datos obtenidos si hay diferencias signicativas
entre profundidades y das.
El modelo adecuado en este caso es el de dos factores sin interaccion
yij = + i + Bj + ij
yij

i
Bj
ij

i = 1, 2, . . . , 6; j = 1, 2, 3, 4

es la temperatura a la profundidad i en el da j
es la media general
es un parametro jo y representa el efecto de la profundidad i
es el efecto aleatorio del da j y sigue una distribucion N (0, B )
es el error aleatorio con distribucion N (0, )

La hipotesis de que la temperatura no vara con la profundidad es


H0 : 1 = . . . = 6 = 0
mientras que la hipotesis de que existe homogeneidad entre los diferentes das del verano
es
H0 : B2 = 0

106

7.2

Contraste de hip
otesis

El tratamiento mediante Analisis de la Varianza de dise


nos con efectos aleatorios es, en
general, muy similar al caso de efectos jos en dise
nos balanceados, existiendo diferencias
solamente cuando existen interacciones. En dise
nos no balanceados el analisis es mucho
mas complejo.
El cuadro 7.1 muestra los cuadrados medios esperados y el cociente a efectuar para obtener
la F en dise
nos de uno y dos factores con efectos jos, aleatorios o mixtos. Por ejemplo,
en el dise
no de dos factores sin interaccion se verica
a  2

E[SCRB /(b 1)] = E(CMB ) = 2 +


b1 j j
si los efectos son jos y

E(CMB ) = 2 + aB2

si los efectos son aleatorios. Observemos que para este dise


no y el de un factor, los
cocientes F son iguales tanto si se trata de efectos aleatorios como de efectos jos.
Sin embargo, en el dise
no de dos factores con interaccion, los cocientes F dieren seg
un
el modelo sea de efectos jos, aleatorios o mixto:
a) El modelo de efectos jos ya ha sido ampliamente tratado en la seccion 6.4.
b) Si los dos factores son aleatorios, los cocientes F que deben calcularse para las
distintas hipotesis son
H0 : A2 = 0

F =

SCRA /(a 1)
SCRI /[(a 1)(b 1)]

H0 : B2 = 0

F =

SCRB /(b 1)
SCRI /[(a 1)(b 1)]

2
H0 : AB
=0

F =

SCRI /[(a 1)(b 1)]


SCR/[ab(r 1)]

En los dos primeros casos es necesario dividir por la interaccion para hallar la F .
2
2
En efecto, si H0 es cierta A2 = 0 y entonces SCRA /( 2 + rAB
) y SCRI /( 2 + rAB
)
siguen distribuciones ji-cuadrado independientes con a 1 y (a 1)(b 1) grados
de libertad respectivamente. Luego
F =

CMA
CMI

sigue la distribucion F con a 1 y (a 1)(b 1) grados de libertad. Observemos


2
desaparece. Podemos realizar consideraciones
que el termino desconocido 2 +rAB


analogas para H0 y H0 .

107

Tabla 7.1: Tabla de los cuadrados medios esperados y el cociente a efectuar para obtener
la F en dise
nos de uno y dos factores con efectos jos, aleatorios o mixtos

108
2 +
2

SCRI

SCR

con interacci
on

CMB /CMR

ar
j2
b1
 2
r
ij
(a1)(b1)

2 +

SCRB

CMA /CMR

i2

br
a1

2 +

SCRA


CMI /CMR

CMB /CMR

j2

SCR

a
b1

CMA /CMR

CMA /CMR

2 +

i2

ni i2

SCRB

b
a1

1
k1

2 +

SCRA

SCR

dos factores

dos factores

un factor

2 +

esperados

cuadrados

SCRA

cuadrados medios

suma de

EFECTOS FIJOS

2
2 + rAB

2
2
2 + rAB
+ arB

2
2
2 + rAB
+ brA

2
2 + bB

2
2 + bA

(n0 = n1 = . . . = nk )

2
2 + n0 A

esperados

cuadrados medios

CMI /CMR

CMB /CMI

CMA /CMI

CMB /CMR

CMA /CMR

CMA /CMR

EFECTOS ALEATORIOS

b
a1

2
2 + rAB

2
2 + arB

 2
br
i
a1

i2

2
2 + rAB
+

2
2 + aB

2 +

esperados

cuadrados medios
F

CMI /CMR

CMB /CMR

CMA /CMI

CMB /CMR

CMA /CMR

(A jo,B aleatorio)

MIXTOS

c) Si A es jo y B es aleatorio, los cocientes F a efectuar son


H0 : 1 = . . . = a = 0

F =

SCRA /(a 1)
SCRI /[(a 1)(b 1)]

H0 : B2 = 0

F =

SCRB /(b 1)
SCR/[ab(r 1)]

2
=0
H0 : AB

F =

SCRI /[(a 1)(b 1)]


SCR/[ab(r 1)]

En este caso solamente el efecto principal de A debe ser dividido por la interaccion.
2
) y
En efecto, si H0 es cierta i = 0 i = 1, . . . , a y entonces SCRA /( 2 + rAB
2
2
SCRI /( + rAB ) siguen distribuciones ji-cuadrado independientes. Al realizar el
2
.
cociente para obtener la F desaparece el termino 2 + rAB
En cambio, para B2 = 0 (H0 cierta), tenemos que
SCRB / 2

2
SCRI /( 2 + AB
)

SCR/ 2

siguen distribuciones ji-cuadrado independientes entre s con b 1, (a 1)(b 1)


y ab(r 1) g.l. respectivamente. Luego es necesario para obtener la F realizar el
cociente entre CMB / 2 y CMR / 2 de modo que el termino desconocido 2 desapa2
no
rezca. Observemos que dividiendo por la interaccion los terminos 2 y 2 + AB
se anulan, imposibilitando el calculo de la F .
La justicacion de lo tratado en esta seccion se vera en la seccion 7.4.
Ejemplo 7.2.1
Se desea estudiar y comparar la acci
on de tres f
armacos tranquilizantes A, B C en la
conducci
on de autom
oviles. La variable que sirvi
o de referencia fue el tiempo que un
individuo tarda en iniciar la frenada ante la puesta repentina en rojo de un sem
aforo. Se
eligieron 8 hombres al azar y se someti
o a cada hombre a los 3 tratamientos, en perodos
sucesivos y secuencias al azar, mediante el procedimiento del doble ciego (ni el medico
ni el paciente saben cual es el f
armaco suministrado en un determinado momento). Los
resultados fueron, en milesimas de segundo (cada dato es el promedio de varias observaciones):
1
2
3
4
5
6
7
8
A 548 619 641 846 517 876 602 628
Tratamiento B 519 776 678 858 493 741 719 595
C 637 818 701 855 618 849 731 687
Como hay tres tratamientos jos y ocho individuos elegidos al azar de la poblaci
on, nos
encontramos ante un dise
no mixto, donde el efecto individuo (efecto bloque) es aleatorio.
Las hipotesis a contemplar son
(no hay efecto tratamiento)
H0 : 1 = 2 = 3

2
(no hay homogeneidad entre individuos)
H0 : B = 0
donde B2 es la varianza del efecto individuo. La tabla del An
alisis de la Varianza es
109

Fuente de
suma de
variaci
on
cuadrados
Entre tratam.
27535
Entre individuos
258040
Residuo
37451
Total
323026

g.l.
2
7
14
23

cuadrados
medios
F
13767.5 5.15
36862.8 13.78
2675.0

Para 2 y 14 g.l. F = 5.15 es signicativa al nivel 0.025, aceptamos pues que hay diferencias entre f
armacos. Para 7 y 14 g.l. F = 13.78 es signicativa al nivel 0.005, aceptamos
que hay variabilidad entre individuos.

7.3

Estimaci
on puntual de los componentes de la varianza

2
Una estimacion aproximada de las varianzas 2 , A2 , B2 , AB
se puede obtener igualando los cuadrados medios con los cuadrados medios esperados y resolviendo el sistema
resultante. Por ejemplo, en el dise
no de un factor tenemos

A2

 2 + n0
2

= CMA
= CMR

y para el dise
no de dos factores con interaccion
2
AB
+ br
A2

2 + r
2

2 + r
AB
+ ar
B2
2
2

 + r
AB
2

=
=
=
=

CMA
CMB
CMI
CMR

Puede ocurrir que la estimacion puntual de un componente de la varianza resulte negativa.


En este caso aceptaremos que su valor es cero dado que la varianza es un parametro
estrictamente positivo.
Ejemplo 7.3.1
Para estimar la variabilidad entre individuos del ejemplo anterior, igualaremos los cuadrados medios a sus valores esperados
B2
36862.8 =
2 + 3
2675 =
2
de donde

B2 = (36862.8 2675)/3 = 11395.9

El tiempo de frenado entre los individuos vara con una desviacion tpica estimada
B =
106 milesimas de segundo.

110

7.4

Comparaci
on entre los modelos de efectos jos y
los modelos de efectos aleatorios

A los modelos de efectos jos los denominaremos tambien modelos de tipo I y a los de
efectos aleatorios modelos de tipo II.

7.4.1

Dise
no de un factor con efectos jos

Tal como se ha visto en la seccion 6.2, el modelo lineal que se adapta a este dise
no es
yij = i + ij
o, reparametrizado,
yij = + i + ij

i = 1, . . . , k; j = 1, . . . , ni


con la restriccion ki=1 i = 0. Las yij son independientes y normales N (i , ). Las ij
son independientes y normales N (0, ).
La descomposicion de la variabilidad viene dada por



(yij y)2 =
(yi y)2 +
(yij yi )2
i,j

i,j

es decir
SCT = SCe + SCd
o tambien
SCRH = (SCRH SCR) + SCR
con n 1, k 1 y n k grados de libertad respectivamente, siendo n1 + + nk = n.
Teorema 7.4.1
El valor esperado de la suma de cuadrados entre grupos es
2

E(SCe ) = (k 1) +

k


ni i2

i=1

luego


E(CMe ) = E

Demostraci
on:
Por denicion SCe =

k
i=1

SCe
k1

1 
ni i2
= +
k 1 i=1
k

ni (yi y)2 .

Del modelo yij = + i + ij se obtiene


yi = + i + i
y = + 
111

ya que

k
i=1

i = 0 y en consecuencia = (1/k)

k
i=1

i = 0.

Entonces
SCe =
=

k

i=1
k


ni (i + i  )2
ni i2

i=1

k


ni 2i

k


k


ni i = 

ni i 2

i=1

i=1

k


ni i

i=1


ni

ni i i

i=1

i=1
k


+2

k


i=1

2
pero

n2

ni
1 
ij
ni j=1


= 

ij = n2

i,j

luego
E(SCe ) =

k


ni i2

i=1

k


ni E(2i ) + n E(2 )

i=1

+2

k


ni i E(i ) 2

k


i=1


ni i

E( )

i=1

2n E(2 )
Recordando que las v.a. ij son independientes y normales N (0, ) se verica

i N (0, / ni )
 N (0, / n)
Por ser centradas, la esperanza de su cuadrado coincide con la varianza, es decir
2
= var(i ) =
ni
2

E(2 ) = var( ) =
n

E(2i )

Por lo tanto
E(SCe ) =
=

k

i=1
k


ni i2 +

k


ni

i=1

2
2
2
+ n 2n
ni
n
n

ni i2 + k 2 + 2 2 2

i=1
2

= (k 1) +

k


ni i2

i=1

112

Teorema 7.4.2
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = (n k) 2
y por lo tanto


E(CMd ) = E

SCd
nk


= 2

Demostraci
on:
Teniendo en cuenta que SCd = SCR, la demostracion de este teorema ya se realizo en
la seccion ?? con el modelo lineal general. Tambien se puede demostrar siguiendo un
proceso parecido al del teorema anterior.

Caso particular
Si el dise
no es balanceado, es decir, igual n
umero de replicas por condicion experimental
(n1 = . . . = nk = n0 ), entonces los teoremas 7.4.1 y 7.4.2 adoptan respectivamente las
formas
n0  2

k 1 i=1 i


SCd
E(CMd ) = E
= 2
k(n0 1)
k

E(CMe ) = 2 +

Inferencia en el modelo de un factor con efectos jos


La hipotesis nula de mayor interes es
H 0 : 1 = 2 = . . . = k =
o, utilizando el modelo alternativo,
H0 : 1 = 2 = . . . = k = 0
Por el teorema 7.4.1 CMe es un estimador insesgado de 2 si H0 es cierta. Por el teorema
7.4.2 es siempre un estimador insesgado de 2 , sea cierta o no H0 . Ademas, suponiendo
que ij N (0, ), se verica el teorema ?? de la teora general del modelo lineal normal
(Teorema fundamental del Analisis de la Varianza):
a) SCd / 2 2nk
b) Si H0 es cierta, entonces CMe = SCe /(k 1) es otra estimacion insesgada de 2 y
ademas
SCe / 2 2k1
c) Si H0 es cierta, el estadstico
F =

SCe /[ 2 (k 1)]
CMe
=
SCd /[ 2 (n k)]
CMd

sigue la distribucion F con k 1 y n k grados de libertad. La hipotesis H0 se


rechaza si el estadstico es signicativo.
113

7.4.2

Dise
no de un factor con efectos aleatorios

El modelo lineal que se adapta a este dise


no es
yij = + Ai + ij

i = 1, . . . , k; j = 1, . . . , ni

con las siguientes particularidades


1) E(Ai ) = 0, var(Ai ) = A2
2) E(Ai Ai ) = 0

i = i

3) E(Ai ij ) = 0

i, j

i = 1, . . . , k

es decir, {Ai } son variables aleatorias de media cero y varianza A2 , independientes entre
s y de los errores {ij }. Luego
var(yij ) = var(Ai ) + var(ij )
A2
+ 2
y2 =
y por este motivo es apropiado denominar a A2 y 2 componentes de la varianza.
Para su tratamiento clasico mediante Analisis de la Varianza de un factor es necesario
ademas que
4) Ai N (0, A ), ij N (0, ) y por lo tanto yij N (, y )
5) el dise
no sea balanceado n1 = n2 = . . . = nk = n0
Este modelo de efectos aleatorios que hemos formulado y en general cualquier modelo
de efectos aleatorios, diere de un modelo de efectos jos en que bajo las asunciones
realizadas
a) Para un i dado, todas las observaciones tienen igual esperanza
E(yij ) = + Ai

b) Para un i dado, las observaciones no son estocasticamente independientes entre s.



c) La variable ki=1 Ai es aleatoria y puede tomar un valor distinto de cero.
Teorema 7.4.3
Para el dise
no de un factor con efectos aleatorios el valor esperado de la suma de cuadrados
entre grupos es
E(SCe ) = (k 1) 2 + n0 (k 1)A2
luego


E(CMe ) = E

SCe
k1

114


= 2 + n0 A2

Demostraci
on:
Por denicion SCe = n0
Del modelo se obtiene

k

i=1 (yi

y)2 .
yi = + Ai + i
y = + A + 

de donde
SCe = n0

k


[(Ai A ) + (i  )]2

i=1
k



= n0

A2i

k


i=1

+k2 2

A2

i=1
k


2A

i + 2

i=1

pero

k

i=1

k


Ai +

i=1
k


k


2i

i=1

(Ai A )(i  )

i=1

n0
n0
k
k

1 
1
1 
i =
ij =
ij = kn0  = k
n0 j=1
n0 i=1 j=1
n0
i=1

ya que

n0
k
1 
ij
 =
kn0 i=1 j=1

Entonces

SCe = n0

k


A2i + kA2 +

i=1

k


2i k2 + 2

i=1

E(SCe ) = n0

k


E(A2i )

k

(Ai A )(i  )
i=1

n0 kE(A2 )

i=1

+ n0

k


E(2i )

i=1

n0 kE(2 ) + 2n0

k


E[(Ai A )(i  )]

i=1

Por las hipotesis del modelo se verica

A N (0, A / k)
i N (0, / n0 )


 N (0, / kn0 )

Debido a que las variables aleatorias Ai , A , i ,  son centradas, la esperanza de su


cuadrado coincide con su varianza, es decir,
E(A2i ) = var(Ai )
E(A2 ) = var(A )
E(2i ) = var(i )
E(2 ) = var( )
115

=
=
=
=

A2
A2 /k
2 /n0
2 /(kn0 )

Ademas, al ser independientes las variables Ai con las ij


E[(Ai A )(i  )] = E(Ai A ) E(i  ) = 0 0 = 0
Por lo tanto
A2
2
2
+ n 0 k n0 k
k
n0
kn0
2
2
2
2
= n0 kA n0 A + k
= (k 1) 2 + n0 (k 1)A2

E(SCe ) = n0 kA2 n0 k


Teorema 7.4.4
El valor esperado de la suma de cuadrados dentro de los grupos es
E(SCd ) = k(n0 1)


es decir
E(CMd ) = E

SCd
k(n0 1)


= 2

Demostraci
on:

  0
Por denicion SCe = ki=1 nj=1
(yij yi )2 .
Del modelo se obtiene
yi = + Ai + i
Entonces
SCd =

n0
k 


(ij i )2

i=1 j=1

n0
k 


2ij

i=1 j=1

n0
k 


n0
k 


n0
k 


i=1 j=1

2ij

+ n0

i=1 j=1

2i

k


k


i=1 j=1

i=1

n0
k 


k


2ij n0

i=1 j=1

i ij

i=1 j=1

2i

i=1

2ij + n0

n0
k 


k

i=1

2i 2

k


i

n0


i n0 i

i=1

2i

i=1

de manera que
E(SCd ) =

n0
k 


E(2ij ) n0

i=1 j=1

= kn0 2 n0 k
= kn0 2 k 2
= k(n0 1) 2
116

k


ij

j=1

E(2i )

i=1
2

n0

Inferencia en el modelo de un factor con efectos aleatorios


La hipotesis de interes en este modelo es
H0 : A2 = 0
Recordemos que
SCA

k
k


2
= n0
(yi y) = n0
(Ai + i A  )2
i=1

SCR =

(yij yi ) =

i,j

i=1

(ij i )2

i,j

siendo SCA la suma de cuadrados entre grupos o suma de cuadrados del factor y SCR
la suma de cuadrados dentro de los grupos o suma de cuadrados residual, representadas
hasta ahora por SCe y SCd respectivamente. Recuerdese tambien que A es una variable
aleatoria y en consecuencia susceptible de tomar un valor distinto de cero.
Realizando el cambio gi = Ai + i obtenemos k v.a. independientes con distribucion
normal de media cero y varianza
var(gi ) = var(Ai ) + var(i ) = A2 +

2
n0

Por el teorema de Fisher, la variable aleatoria


ks2g /g2
se distribuye seg
un una ji-cuadrado con k 1 g.l., es decir,
k
k
2
(g

)
)2
n
SCA
i
0
i=1
i=1 (gi g
=
=
2k
2
2
2

2
n0 A +
n0 A2 + 2
A + n0
Entonces

E(CMA ) = E

SCA = (n0 A2 + 2 ) 2k1



SCA
= n0 A2 + 2
k1

A este resultado habamos llegado tambien anteriormente por el teorema 7.4.3.


Por otra parte, SCR esta distribuida de identica forma que en los modelos de efectos jos.
nan el papel de las observaciones, con media cero y varianza 2 . Luego
Los ij desempe
SCR = 2 2k(n0 1)


SCR
E(CMR ) = E
= 2
k(n0 1)
Para efectuar comparaciones falta demostrar que SCA y SCR son independientes. Para
ello, basta probar la independencia entre Ai + i A  y ij i . Tenemos que Ai A
y ij i son obviamente independientes. Si expresamos ij =  + (i  ) + (ij i ),
utilizando otra vez la analoga con los modelos de efectos jos, i  pertenece al espacio
117

de las estimaciones y ij i pertenece al espacio error, espacios que son ortogonales entre
s. Debido a la normalidad del modelo, sus vectores son independientes, luego SCA y SCR
son independientes. Entonces, si H0 es cierta, el estadstico
F =

SCA /[ 2 (k 1)]
SCA /(k 1)
CMA
=
=
2
SCR/[ k(n0 1)]
SCR/[k(n0 1)]
CMR

sigue la distribucion F con k1 y k(n0 1) g.l.. La hipotesis H0 se rechaza si el estadstico


es signicativo.
Esperanza del cuadrado medio
Fuente de
variacion
Tratamientos
Error
Total

cuadrados
medios

g.l.
k1

CMA = SCA /(k 1)

Modelo I

Modelo II


n0 i2
+
k1

2 + n0 A2

k(n0 1) CMR = SCR/[k(n0 1)]


n0 k 1

Tabla 7.2: Tabla comparativa para dise


nos de un factor con efectos jos y efectos aleatorios
Como resumen de lo expuesto en los apartados anteriores vease el cuadro 7.2. Observese
que, si bien la hipotesis a contrastar del modelo I es formalmente distinta de la hipotesis
del modelo II, se utiliza el mismo estadstico de contraste
F =

CMA
k1
Fk(n
0 1)
CMR

Una estimacion de los componentes de la varianza es

2 = CMR

A2 =

CMA CMR
n0

solucion obtenida resolviendo el sistema resultante de igualar los cuadrados medios con
los cuadrados medios esperados (ver seccion anterior). Observese que los estimadores
2
y
A2 son siempre estimadores insesgados de los parametros 2 y A2 respectivamente.

7.4.3

Dise
no de dos factores sin interacci
on con efectos jos o
dise
no en bloques al azar completos

Este dise
no recibe tambien el nombre de bloques aleatorizados. Un desarrollo tpico para
este dise
no, utilizando tres tratamientos en cuatro bloques, es el siguiente
Bloque 1
t3
t1
t2

Bloque 2 Bloque 3
t2
t1
t3

t1
t2
t3
118

Bloque 4
t1
t3
t2

Las letras t indican la asignacion aleatoria de los tratamientos en los bloques. Como
ejemplo vease el ejemplo 6.3.1.
Generalizando, consideremos el caso de a tratamientos en b bloques. La observacion yij
indica la respuesta del i-esimo tratamiento aplicado al j-esimo bloque. Se supondra que
yij (i = 1, . . . , a; j = 1, . . . , b) son valores de v.a. independientes con distribucion normal
un 2 . Seran de utilidad tambien
de media ij y varianza com
yi
yj
y

= media del i-esimo tratamiento


= media del j-esimo bloque
= media general

El promedio de las medias poblacionales para el i-esimo tratamiento esta denido por
1
i =
ij
b j=1
b

Asimismo, el promedio de las medias poblacionales para el j-esimo bloque esta denido
por
a
1
ij
j =
a i=1
y el promedio de las ab medias poblacionales es
1 
=
ij
ab i=1 j=1
a

Si representamos por A al factor tratamiento y por B al factor bloque, las hipotesis


lineales de interes son
H0A : 1 = 2 = . . . = a =
H0B : 1 = 2 = . . . = b =
Si se cumple la primera hipotesis, el factor A no es signicativo o, equivalentemente, no
existen diferencias signicativas entre los tratamientos. Tambien se dice que no hay efecto
la. En el caso de que se cumpla la segunda hipotesis, el factor B no es signicativo, es
decir, no existen diferencias signicativas entre los bloques; no hay efecto columna.
Cada observacion puede descomponerse en
yij = ij + ij
donde ij mide la desviacion del valor observado yij frente la media poblacional ij . La
forma mas com
un de expresar esta ecuacion se obtiene al sustituir
ij = + i + j
donde i es el efecto del i-esimo tratamiento y j el efecto del j-esimo bloque. Se supone
que los efectos del tratamiento y del bloque son aditivos. As, el modelo es
yij = + i + j + ij
119

Observese que se asemeja al modelo de un criterio de clasicacion, pero con la adicion


del efecto bloque. Ahora la variacion se controla sistematicamente en dos direcciones.
Si se imponen las restricciones naturales
a


b


i = 0

i=1

j = 0

j=1

entonces
i =

1
( + i + j ) = + i
b j=1

j =

1
( + i + j ) = + j
a i=1

Las hipotesis pueden ahora plantearse del siguiente modo


H0A : 1 = 2 = . . . = a = 0
H0B : 1 = 2 = . . . = b = 0
En la seccion 6.3 se vio que la descomposicion fundamental de la suma de cuadrados
(descomposicion de la variabilidad) viene dada por



(yij y)2 = b
(yi y)2 + a
(yj y)2
i,j

(yij yi yj + y)2

i,j

es decir
SCT = SCF + SCC + SCR
donde SCT es la suma de cuadrados total, SCF la suma de cuadrados entre las, SCC la
suma de cuadrados entre columnas y SCR la suma de cuadrados residual.
Teorema 7.4.5
El valor esperado de la suma de cuadrados entre las es
2

E(SCF ) = (a 1) + b

a


i2

i=1

luego

b  2
E(CMF ) = E(SCF /(a 1)) = +

a 1 i=1 i
a

Demostraci
on:
Es analoga a la del teorema 7.4.1.

120

Teorema 7.4.6
El valor esperado de la suma de cuadrados entre columnas es
2

E(SCC ) = (b 1) + a

b


j2

j=1

luego

a  2

E(CMC ) = E(SCC /(b 1)) = +


b 1 j=1 j
b

Demostraci
on:
Es analoga a la del teorema 7.4.1.
Teorema 7.4.7
El valor esperado de la suma de cuadrados residual es
E(SCR) = (a 1)(b 1) 2
luego

E(CMR ) = E(SCR/[(a 1)(b 1)]) = 2

Demostraci
on:
Es analoga a la del teorema 7.4.2.
Inferencia en el dise
no de dos factores sin interacci
on con efectos jos
Una de las hipotesis a contrastar es
H0A : 1 = 2 = . . . = a = 0
Por el teorema 7.4.5, CMF es un estimador insesgado de 2 si H0A es cierta. Por el teorema
7.4.7 SCR es siempre un estimador insesgado de 2 , tanto si H0A es cierta como si no lo
es. Ademas, suponiendo que ij N (0, ), se verica el teorema ?? de la teora general
del modelo lineal formal:
a) SCR/ 2 2(a1)(b1)
b) Si H0A es cierta, entonces CMF = SCF /(a 1) es otra estimacion insesgada de 2 y
ademas
SCF / 2 2a1
c) Si H0A es cierta, el estadstico
F =

SCF /[ 2 (a 1)]
CMF
=
2
SCR/[ (a 1)(b 1)]
CMR

sigue la distribucion F con a 1 y (a 1)(b 1) g.l.. La hipotesis H0A se rechaza


si el estadstico es signicativo.

121

Otra hipotesis a contrastar es


H0B : 1 = 2 = . . . = b = 0
Analogamente al caso anterior, el estadstico
F =

SCC /[ 2 (b 1)]
CMC
=
SCR/[ 2 (a 1)(b 1)]
CMR

sigue la distribucion F con b 1 y (a 1)(b 1) g.l.. La hipotesis H0B se rechaza si el


estadstico es signicativo.

7.4.4

Dise
no de dos factores sin interacci
on con efectos aleatorios

El modelo lineal que se adapta a este dise


no es
yij = + Ai + Bj + ij

i = 1, . . . , a; j = 1, . . . , b

siendo Ai , Bj , ij variables aleatorias normales independientes con media cero y varianzas
A2 , B2 , respectivamente. La descomposicion fundamental de la suma de cuadrados
(descomposicion de la variabilidad) viene dada por



(yij y)2 = b
(yi y)2 + a
(yj y)2
i,j

(yij yi yj + y)2

i,j

es decir
SCT = SCF + SCC + SCR
Teorema 7.4.8
El valor esperado de la suma de cuadrados entre las es
E(SCF ) = (a 1) 2 + b(a 1)A2
luego

E(CMF ) = E(SCF /(a 1)) = 2 + bA2

Demostraci
on:
Es analoga a la del teorema 7.4.3.
Teorema 7.4.9
El valor esperado de la suma de cuadrados entre columnas es
E(SCC ) = (b 1) 2 + a(b 1)B2
luego

E(CMC ) = E(SCC /(b 1)) = 2 + aB2


122

Demostraci
on:
Es analoga a la del teorema 7.4.3.
Teorema 7.4.10
El valor esperado de la suma de cuadrados residual es
E(SCR) = (a 1)(b 1) 2
luego

E(CMR ) = E(SCR/[(a 1)(b 1)]) = 2

Demostraci
on:
Es analoga a la del teorema 7.4.4.
Inferencia en el dise
no de dos factores sin interacci
on con efectos aleatorios
Las hipotesis de interes en este modelo son
H0 : A2 = 0

H0 : B2 = 0

Para contrastar la primera se utiliza el estadstico


F =

CMF
SCF /[ 2 (a 1)]
=
2
SCR/[ (a 1)(b 1)]
CMR

que sigue bajo H0 la distribucion F con a 1 y (a 1)(b 1) g.l.. La hipotesis H0 se


rechaza si el estadstico es signicativo.
De manera analoga, para contrastar la segunda hipotesis se utiliza el estadstico
F =

SCC /[ 2 (b 1)]
CMC
=
2
SCR/[ (a 1)(b 1)]
CMR

que sigue bajo H0 la distribucion F con b 1 y (a 1)(b 1) g.l.. La hipotesis H0 se
rechaza si el estadstico es signicativo.
A modo de resumen de lo expuesto en los apartados anteriores, vease el cuadro 7.3.
Las estimaciones insesgadas de las componentes de la varianza se obtienen igualando los
cuadrados medios a los cuadrados medios esperados y resolviendo el sistema de ecuaciones
resultante (ver seccion 7.3). Las soluciones en este caso son

2 = CMR
vericandose

A2 = (CMF CMR )/b


E(
2) = 2

E(
A2 ) = A2

123

B2 = (CMC CMR )/a


E(
B2 ) = B2

Esperanza del cuadrado medio


Fuente de
variacion

g.l.

cuadrados
medios

Entre las

a1

CMF = SCF /(a 1)

Entre col.

b1

CMC = SCC /(b 1)

Error

(a 1)(b 1)

Total

ab 1

CMR =

Modelo I

SCR
(a 1)(b 1)

b  2
i
a1
a  2
2 +
j
b1

2 +

Modelo II
2 + bA2
2 + aB2

Tabla 7.3: Tabla comparativa para dise


nos de dos factores con efectos aleatorios y sin
interaccion

7.4.5

Dise
no de dos factores aleatorios con interacci
on

El modelo lineal que se adapta a este dise


no es
yijk = + Ai + Bj + (AB)ij + ijk i = 1, . . . , a; j = 1, . . . , b; k = 1, . . . , r
siendo Ai , Bj , (AB)ij y ijk variables aleatorias normales independientes con media cero
2
y varianza A2 , B2 , AB
y 2 respectivamente.
En el cuadro 7.4 guran las esperanzas de los cuadrados medios tanto para el modelo I
como para el modelo II, indicando por modelo I cuando los dos factores son jos y por
modelo II cuando los dos factores son aleatorios. La demostracion de las formulas de
estas esperanzas se hace de forma analoga a la de los teoremas 7.4.5, 7.4.6 y 7.4.7 para el
modelo I, y 7.4.8, 7.4.9 y 7.4.10 para el modelo II.
Las hipotesis a contrastar en el modelo II son
H0A : A2 = 0

H0B : B2 = 0

2
H0AB : AB
=0

Para contrastar la primera se utiliza el estadstico


F =

2
SCA /[(a 1)( 2 + rAB
SCA /(a 1)
CMA
)]
=
=
2
2
SCAB /[(a 1)(b 1)( + rAB )]
SCAB /(a 1)(b 1)
CMAB

que sigue bajo H0A la distribucion F con a 1 y (a 1)(b 1) g.l.. La hipotesis H0A se
rechaza si el estadstico es signicativo.
De manera analoga para contrastar la segunda hipotesis se utiliza el estadstico
F =

2
SCB /(b 1)
CMB
)]
SCB /[(b 1)( 2 + rAB
=
=
2
2
SCAB /[(a 1)(b 1)( + rAB )]
SCAB /(a 1)(b 1)
CMAB

que sigue bajo H0B la distribucion F con b 1 y (a 1)(b 1) g.l..


124

Esperanza del cuadrado medio


Fuente de
variacion

g.l.

Entre las

a1

CMA =

SCA
a1

2 +

rb
a1

Entre col.

b1

CMB =

SCB
b1

2 +

ra
b1

Interac.

CMAB =

Residuo

ab(r 1)

CMR =

Total

cuadrados
medios

Modelo I

SCAB
g

2 +

SCR
ab(r1)

abr 1

r
g




Modelo II
i2

2
2 + rAB
+ brA2

j2

2
2 + rAB
+ arB2
2
2 + rAB

ij

2
g = (a 1)(b 1)

Tabla 7.4: Tabla comparativa para dise


nos de dos factores con efectos aleatorios y con
interaccion
En el contraste de las dos hipotesis anteriores se divide por el cuadrado medio de la
interaccion; en cambio, para contrastar la tercera hipotesis se divide por el cuadrado
medio del error, es decir, se utiliza el estadstico
SCAB /[(a 1)(b 1)]
CMAB
SCAB /[(a 1)(b 1) 2 ]
=
=
F =
2
SCR/[ab(r 1) ]
SCR/[ab(r 1)]
CMR
que sigue bajo H0AB la distribucion F con (a 1)(b 1) y ab(r 1) g.l.. La hipotesis
H0AB se rechaza si el estadstico es signicativo.
Las estimaciones insesgadas de las componentes de la varianza (ver seccion 7.3) son

7.4.6

2 = CMR

E(
2) = 2

A2 = (CMA CMAB )/(br)

E(
A2 ) = A2

B2 = (CMB CMAB )/(ar)

E(
B2 ) = B2

AB
= (CMAB CMR )/r

2
2
E(
AB
) = AB

Dise
no de tres factores aleatorios y r
eplicas

La esperanza de los cuadrados medios se muestra en el cuadro 7.5. De tales esperanzas se


deduce que se pueden formar las razones F apropiadas para contrastar las hipotesis relativas a los componentes de la varianza de las interacciones. Sin embargo, para contrastar
las hipotesis relativas a los efectos principales, es decir,
H0A : A2 = 0

H0B : B2 = 0

H0C : C2 = 0

no hay una razon F apropiada a menos que uno o mas de los componentes de la varianza
de la interaccion de dos factores no sean signicativos. Por ejemplo, supongamos que se
125

Fuente de
variacion

cuadrados
medios

g.l.

Esperanza del cuadrado medio


Modelo II

a1

CMA

2
2
2
2 + rABC
+ crAB
+ brAC
+ bcrA2

b1

CMB

2
2
2
2 + rABC
+ crAB
+ arBC
+ acrB2

c1

CMC

2
2
2
2 + rABC
+ brAC
+ arBC
+ abrC2

AB

(a 1)(b 1)

CMAB

2
2
2 + rABC
+ crAB

AC

(a 1)(c 1)

CMAC

2
2
2 + rABC
+ brAC

BC

(b 1)(c 1)

CMBC

2
2
2 + rABC
+ arBC

(a 1)(b 1)(c 1)

CMABC

2
2 + rABC

CMR

ABC
Residuo

abc(r 1)
abcr 1

Total

Tabla 7.5: Tabla para dise


nos de tres factores con efectos aleatorios
2
ha comprobado previamente la hipotesis H0 : AC
= 0 y ha resultado no signicativa.
2
Se puede armar entonces que el termino AC puede excluirse de todas las esperanzas de
los cuadrados medios en las que intervenga. Si deseamos ahora contrastar la hipotesis
H0A : A2 = 0 es posible utilizar el estadstico F = CMA /CMAB .

En denitiva, si se desea contrastar las hipotesis relativas a los efectos principales, habra
que estudiar primero la signicacion de los componentes de la varianza relativos a las
interacciones.

7.5

Correlaci
on intracl
asica

Sea el modelo de un factor con efectos aleatorios


yij = + Ai + ij

i = 1, . . . , k; j = 1, . . . , n0

donde var(Ai ) = A2 , var(ij ) = 2 . Se llama correlacion intraclasica al coeciente de


correlacion entre dos observaciones yij , yij  de un mismo grupo i.
El coeciente de correlacion intraclasica viene dado por
I =

A2
A2 +

0 I 1

En efecto
cov(yij , yij  )

I (yij , yij  ) = 
var(yij ) var(yij  )
126

E[(yij )(yij  )]
A2 +
E(A2i + Ai ij + Ai ij  + ij ij  )
=
A2 +
E(A2i )
A2
=
=
A2 +
A2 +

La correlacion intraclasica nos expresa el porcentaje de la variabilidad entre grupos respecto la variabilidad total y se utiliza para estudiar la dependencia entre los individuos
de un mismo grupo respecto a una variable observable Y . Por ejemplo, es utilizado en
Genetica descomponiendo la variabilidad total y2 (varianza de la componente genetica)
y 2 (varianza de la componente ambiental).
Estimaci
on y contraste de signicaci
on
Una estimacion adecuada de I es
I = max{0, rI }
siendo
rI =

A2
F 1
=
2
2

A +

F + n0 1

donde F = CMA /CMR .


Para ver si rI es signicativo hemos de plantear el contraste de la hipotesis H0 : I = 0
equivalente a H0 : A2 = 0 que se resuelve mediante Analisis de la Varianza.
Ejemplo 7.5.1
En un estudio sobre los guisantes se tomaron 5 vainas, cada una de las cuales contena 8
guisantes. Los pesos en centigramos fueron
1
2
vaina 3
4
5

44
43
33
56
36

41
46
34
52
37

42
48
37
50
38

40
42
39
51
40

48
50
32
54
40

46
45
35
52
41

46
45
37
49
44

42
49
41
52
44

Los datos se asimilan a un dise


no de un factor de efectos aleatorios. Las sumas de
cuadrados son (n0 = 8)
SCA = 1176.1
SCR = 273.9

con 4 g.l.
con 35 g.l.

y entonces
CMA
= 37.57
CMR
El coeciente de correlaci
on intracl
asica es
F =

I = max{0, 0.8205} = 0.8205

127

ya que

F 1
36.57
=
= 0.8205
F + n0 1
44.57
Realicemos el contraste de hip
otesis para comprobar que es signicativo. La hip
otesis
2
H0 : I = 0 equivale a plantear el contraste H0 : A = 0, que se resuelve mediante
An
alisis de la Varianza. Como F = 37.57 con 4 y 35 g.l. es muy signicativa, aceptamos
que es distinto de cero. La interpretaci
on en este caso es la siguiente: aproximadamente el
80% de la variabilidad se explica por la componente genetica, el resto es debido a factores
ambientales.
rI =

128

7.6

Ejercicios

Ejercicio 7.1
En una poblacion, de entre las mujeres que haban concebido tres hijos varones, se seleccionaron 5 al azar y se anoto el peso que registro cada hijo al nacer:
1
2
3
4
5

3.250
2.800
3.400
4.100
2.900

3.125
3.100
3.500
4.200
2.750

3.400
2.900
3.350
4.150
2.800

Calcular la correlacion intraclasica y estudiar si es signicativa.


Ejercicio 7.2
Eligiendo 4 tardes al azar del verano, se midio la temperatura de un lago a diferentes
profundidades con los siguientes resultados
Profundidad (m) 1
0
23.8
1
22.6
2
22.2
3
21.2
4
18.4
5
13.5

Fecha
2
3
24.0 34.6
22.4 22.9
22.1 22.1
21.8 21.0
19.3 19.0
14.4 14.2

4
24.8
23.2
22.2
21.2
18.8
13.8

Determinar si son factores de efectos jos o de efectos aleatorios y si hay diferencias entre
profundidades y entre fechas.
Ejercicio 7.3
Para valorar la variabilidad del contenido de zumo de una cierta variedad de limon, se
tomaron 4 arboles al azar y se midio el contenido de zumo de 3 limones de cada arbol.
Esta observacion se hizo durante 5 das, eligiendo fechas al azar. Los resultados fueron
(en cm3 ):

Arbol
Da
1
2
3
4
5

24
18
16
21
23

1
26
25
21
24
24

26
19
15
22
28

28
21
24
23
27

2
20
24
20
20
21

27
23
21
26
28

28
27
22
24
26

3
18
19
25
24
25

21
17
24
23
27

27
25
29
20
25

4
24
23
27
21
27

20
22
27
27
28

Estudiar si existe variabilidad entre arboles, entre das y entre las interacciones arboles
das.

129

Ejercicio 7.4
Se han obtenido replicas de una variable observable y combinado dos factores A, B. El
n
umero de replicas (factor R) por casilla es de tres. La descomposicion de la suma de
cuadrados es la siguiente:
Fuente variacion g.l. Suma cuadrados
A
3
420
B
1
143
AB
3
32
R
2
109
AR
6
197
BR
2
39
ABR
6
155
Utilizando el nivel de signicacion 0.01, se pide:
a) Suponiendo A, B factores de efectos jos, estudiar si son signicativos. Hallar tres
estimaciones independientes de la varianza del dise
no.
b) Suponiendo A, B factores de efectos aleatorios, estudiar si A y la interaccion A B
son signicativos.
Ejercicio 7.5
Consideremos de nuevo el enunciado del problema 6.4. Supongamos ahora que en el
no) es de efectos aleatorios y B (genotipo) es de efectos jos.
modelo () ir = 0, A (a
Estudiar si los efectos principales y las interacciones son signicativas.
Ejercicio 7.6
Los resultados yijh de un cierto experimento, donde i = 1, . . . , p; j = 1, . . . , q; h = 1, . . . , b
combinan dos factores X, Y , junto con un factor bloque B que no interacciona con X, Y .
En este experimento las replicas son bloques y el modelo es
yijk = + Xi + Yj + Iij + Bh + ijh
La tabla de suma de cuadrados es:
Fuente variacion g.l. Suma cuadrados
X
2
625
Y
3
1340
B
4
402
XY
6
227
XB
8
289
YB
12
310
XY B
24
528
Se pide:
a) Suponiendo los efectos jos, estudiar la signicacion de los efectos principales y
la interaccion (nivel 0.05). Hallar dos estimadores insesgados de la varianza del
modelo.
130

b) Suponiendo todos los efectos aleatorios, y sabiendo que los valores esperados de los
cuadrados medios son:
2
+ rI2 + 2
E(CMY ) = rpY2 + rI2 + 2
E(CMX ) = rqX
E(CMI ) = rI2 + 2
E(CMB ) = pqB2 + 2
E(CMR ) = 2

131

Bibliografa
[1] J. Alegre y J. Arcarons, Aplicaciones de Econometra. Textos Docents, Universitat
de Barcelona, 1991.
[2] R. Christensen, Plane Answers to Complex Questions. Springer-Verlag, 1987.
[3] C.M. Cuadras, Problemas de Probabilidades y Estadstica. VOL. 2 Inferencia estadstica EUB, Barcelona 2000.
[4] A. Kshirsagar, A Course on Linear Models. Marcel Dekker.
[5] D.C. Montgomery and E.A. Peck, Introduction to Linear Regression Analysis. John
Wiley & Sons, New York, 1992.
[6] D. Pe
na, Estadstica: Modelos y metodos. 2. Modelos Lineales y Series Temporales.
Alianza, 1987.
[7] C.R. Rao and H. Toutenburg, Linear Models. Springer Series in Statistics, 1995.
[8] H. Schee, The Analysis of Variance. John Wiley & Sons, New York,
[9] G.A.F. Seber, Linear Regression Analysis. John Wiley & Sons, New York, 1977.
[10] A. Sen and M. Srivastava, Regression Analysis. Springer-Verlag, 1990.
[11] Weisber, Applied Linear Regression. John Wiley & Sons, New York,
[12] B.J. Winer, Statistical Principes in Experimental Design. McGraw-Hill.

132

También podría gustarte