Regresion Multiple

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 16

Las técnicas de regresión lineal múltiple

parten de k+1 variables cuantitativas:

La variable respuesta (y)


Las variables explicativas (x1 ,…, xk)

Y tratan de explicar la y mediante una función


lineal de las x1 ,…, xk representada por:

y = β0 + β1x1 +…+ βkxk


Debemos extender a k variables las ideas
y técnicas de la regresión lineal simple

2007 Estadística; 3º CC. AA. 2

Modelo Y = β0 + β1X1 +…+ βkXk + U

Muestra Aleatoria

X = matriz del diseño


2007 Estadística; 3º CC. AA. 3

1
Cuatro hipótesis comunes
con la
regresión lineal simple

•Normalidad
•Homocedasticidad
•Linealidad
•Independencia de las observaciones
Es decir, {(X1i,X2i,…,Xki,Yi): i=1,2,…,n} son vectores
aleatorios independientes

2007 Estadística; 3º CC. AA. 4

Y dos requisitos adicionales


• n > k+1
El modelo depende de k+2 parámetros. Para que la regresión
tenga sentido debemos tener un número suficiente de datos
(evidentemente, en la regresión lineal simple, también
necesitamos más de 2 datos para que tenga sentido ajustar una
recta)
• #inguna de las X es combinación lineal de las otras (no
hay colinealidad)
Si alguna de las Xi es combinación lineal exacta de algunas de
las otras Xj, el modelo puede simplificarse con menos
variables explicativas. También hay que tener cuidado si
alguna de las X está fuertemente correlacionada con otras.

2007 Estadística; 3º CC. AA. 5

2
Datos y estimación de los parámetros
Geométricamente, la
nube de puntos ahora
está en un espacio de
dimensión k+1
¡Difícil de visualizar
para k>2!

X es la matriz del diseño, ahora con los datos; X´ es su traspuesta.


Estimaciones:

donde:
son los residuos
2007 Estadística; 3º CC. AA. 6

Ejemplo 1
Estimación del tamaño de Trilobites
En la mayoría de las condiciones de preservación, es difícil
encontrar ejemplares completos de Trilobites.
La cabeza (cephalon) suelta es mucho más común.

Por ello, es útil poder estimar el tamaño del cuerpo en


función de medidas sobre la cabeza, estableciendo cuáles
de ellas constituyen la mejor determinación del tamaño
total.

El siguiente ejemplo está tomado de:


Norman MacLeod
Keeper of Palaeontology,
The Natural History Museum, London
2007 Estadística; 3º CC. AA. 7

3
Dibujos de Sam Gon III

2007 Estadística; 3º CC. AA. 8

2007 Estadística; 3º CC. AA. 9

4
y = β0 + β1x1 + β2x2

2007 Estadística; 3º CC. AA. 10

Intervalos de confianza

Error típico de la estimación de


(desviación típica estimada de )

2007 Estadística; 3º CC. AA. 11

5
Contrastes de hipótesis

Rechazaremos H0 , al nivel α, si el cero no cae en el intervalo


de confianza 1- α para βi.

Lo que es equivalente al contraste de la t de Student para


cada parámetro β i.

2007 Estadística; 3º CC. AA. 12

Estimación de la respuesta media de Y para los


valores x10 ,…, xk0 de las variables explicativas

2007 Estadística; 3º CC. AA. 13

6
Predicción de un nuevo valor de Y dados los
valores x10 ,…, xk0 de las variables explicativas

2007 Estadística; 3º CC. AA. 14

Ejemplo 1
Estimación del tamaño de Trilobites

Coeficientes Error típico Estadístico t p-valor Inferior 95% Superior 95%


Intercepción 3,9396 4,4531 0,8847 0,3887 -5,4558 13,3349
Gabella length 2,5664 0,8771 2,9259 0,0094 0,7159 4,4170
Glabella width 0,9387 1,0730 0,8749 0,3938 -1,3250 3,2025

2007 Estadística; 3º CC. AA. 15

7
Análisis de la Varianza

Coeficiente de determinación

2007 Estadística; 3º CC. AA. 16

Tabla Anova

Rechazaremos H0 , al nivel α, si :

Relación entre F y R2

2007 Estadística; 3º CC. AA. 17

8
Ejemplo 1
Estimación del tamaño de Trilobites
Gr. de libertad Suma de cuadrados cuadrados medios F Valor crítico de F
Regresión 2 5586'22 2793'11 40'32 0'0000004
Residuos 17 1177'70 69'28
Total 19 6763'92

Estadísticas de la regresión
Coeficiente de correlación múltiple 0'909
Coeficiente de determinación R2 0'826
R2 ajustado 0'805
Error típico 8'323
Observaciones 20

R2=0,83

2007 Estadística; 3º CC. AA. 18

Resumen de los contrastes

2007 Estadística; 3º CC. AA. 19

9
Ejemplo 2
Respiración de líquenes

Se estudia la tasa de respiración (nmoles oxígeno g-1min-1) del


liquen Parmelia saxatilis en crecimiento bajo puntos de goteo
con un recubrimiento galvanizado.

El agua que cae sobre el liquen contiene Zinc y Potasio que


utilizaremos como variables explicativas.

Los datos corresponden a:


Wainwright (1993), J. Biol. Educ., 27(3), 201--204.

2007 Estadística; 3º CC. AA. 20

Respiration Rate Potassium ppm Zinc ppm


71 388 2414
53 258 10693
55 292 11682
Datos 48 205 12560
69 449 2464
84 331 2607
21 114 16205
68 580 2005
68 622 1825
Variable # MEA# MEDIA# TRMEA# STDEV SEMEA#
RespRate 9 59.67 68.00 59.67 18.8 6.06
K ppm 9 359.9 331.0 359.9 168.1 56.0
Zn ppm 9 6939 2607 6939 5742 1914
2007 Estadística; 3º CC. AA. 21

10
Plano de regresión
Tasa de respiración = β0 + β1Potasio + β2Zinc

* *
*
* *
*
* *
*
* * *
*
Datos * *

2007 Estadística; 3º CC. AA. 22

Regresión de la tasa de respiración (RespRate) sobre el Potasio


(K) y el Zinc (Zn). La ecuación de regresión estimada es:
RespRate = 101 - 0.0403 K - 0.00388 Zn

Predictor Coef Stdev t-ratio p

Constant 101.09 18.87 5.36 0.002

K ppm -0.04034 0.03424 -1.18 0.283

Zn ppm -0.00387 0.001002 -3.87 0.008

2007 Estadística; 3º CC. AA. 23

11
Análisis de la varianza (tabla A#OVA)

Source df SS MS F p

Regression 2 2243.3 1121.6 16.80 0.003

Error 6 400.7 66.8

Total 8 2644.0

2007 Estadística; 3º CC. AA. 24

ANÁLISIS DE VARIANZA (sólo Zn)


gr. Libertad Suma de cuadrados cuadrados medios F p-valor
Regresión 1 2150,58 2150,58 30,51 0,00088423
Residuos 7 493,42 70,49
Total 8 2644

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,90
Coeficiente de determinación R^2 0,81
R^2 ajustado 0,79
Error típico 8,40
Observaciones 9

ANÁLISIS DE VARIANZA (sólo K)


gr. Libertad Suma de cuadrados cuadrados medios F p-valor
Regresión 1 1244,51 1244,51 6,22 0,04
Residuos 7 1399,49 199,93
Total 8 2644

Estadísticas de la regresión
Coeficiente de correlación múltiple 0,69
Coeficiente de determinación R^2 0,47
R^2 ajustado 0,40
Error típico 14,14
Observaciones 9

2007 Estadística; 3º CC. AA. 25

12
Extensiones: 1- interacciones
Del análisis anterior concluiríamos que el Potasio (K) no es un importante
predictor para la tasa de respiración del liquen (A pesar de que se sabe que es
significativo en ausencia de Zinc)
Sin embargo, el Análisis de la Varianza permite también estudiar interacciones
entre las variables predictoras.
Por ejemplo, podemos definir la interacción creando una nueva variable
resultante de multiplicar K por Zn (la nueva variable es K*Zn).

Los resultados de una regresión multilineal con predictores K, Zn, K*Zn son

Coeficientes Error típico Estadístico t Probabilidad


Intercepción 106,07 10,32 10,28 0,00015
K -0,0678 0,020 -3,41 0,01898
Zn -0,005999 0,00077 -7,81 0,00055
K*Zn 0,00001118 2,85E-06 3,92 0,01120

2007 Estadística; 3º CC. AA. 26

Tabla ANOVA
ANÁLISIS DE VARIANZA
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 3 2545,6 848,52 43,10 0,00054
Residuos 5 98,4 19,69
Total 8 2644,0

2007 Estadística; 3º CC. AA. 27

13
Al poner el producto de las dos variables como tercer predictor
no tenemos un plano sino una superficie curva.

Tasa de respiración = β0 + β1Potasio + β2Zinc +β


β3 Potasio x Zinc

Ejercicio: comentar y
criticar este ejemplo

2007 Estadística; 3º CC. AA. 28

Extensiones: 2-regresión no lineal


El océano, que cubre el 70% de la superficie terrestre y tiene una
permanente interacción con la atmósfera, juega un papel fundamental
en el equilibrio global.

Para identificar y comprender los vínculos (pasados, presentes y


futuros) del océano con el clima es importante entender el
comportamiento de los ciclos nutrientes y el carbono marino.
La transferencia de carbono desde la superficie del océano a las aguas
profundas puede tener una influencia importante en los niveles
atmosféricos de CO2 a largo plazo.

La siguiente diapositiva muestra un ejemplo de regresión no lineal del


flujo de carbono hacia las profundidades marinas con la
correspondiente profundidad del agua y la producción primaria de
carbono en la superficie.
Los datos provienen de:
AWI Foundation for polar and marine research
Schlüter M., Sauter E. J., Schäfer A., and Ritzrau W. (2000) Spatial budget of organic
carbon flux to the seafloor of the northern #orth Atlantic (60°# - 80°#). Global
Biogeochemical Cycles 14(1), 329-340.
2007 Estadística; 3º CC. AA. 29

14
¿podemos convertirlo en una relación lineal?

2007 Estadística; 3º CC. AA. 30

Ejemplo 3
Predicción de estados tormentosos en Florida
Experimental forecasting of dry season storminess over Florida and the
southeast United States from the ENSO (niño-southern oscillation) signal
using multiple linear regression techniques.
Bartlett C. Hagemeyer, National Weather Service, Melbourne, Florida
Rebecca A. Almeida, Florida Institute of Technology, Melbourne, Florida

13th Symposium on Global Change and Climate Variations and 16th


Conference on Probability and Statistics in the Atmospheric Sciences.
American Meteorological Society.

El objetivo del estudio es predecir, con la mayor


anticipación posible, la aparición de temporales en
Florida durante la estación seca. Para ello se propone
utilizar los valores del índice #iño 3.4 proporcionados
por el Centro de Predicción del Clima.

2007 Estadística; 3º CC. AA. 31

15
Las regiones del #IÑO

El índice #iño 3.4 representa la temperatura anómala de la superficie


marina (en grados centígrados) sobre la región limitada por
120°O-170°O y 5°S- 5°#.

2007 Estadística; 3º CC. AA. 32

Se encontró que el índice #iño 3.4 podía ser un indicador


significativo de anomalías en el nivel de la presión media
marina y estados tormentosos en la estación seca en Florida.

Entre otros resultados, el mejor pronóstico de temporales


basado en dos índices #iño 3-4 resulta de los índices de
septiembre y enero. Septiembre es el indicador principal de
tormentas en noviembre y diciembre y enero confirma la
tendencia durante la estación seca
(Más detalles en www.srh.noaa.gov/mlb/enso/mlb-16thstats.htm)

Storminess (#ov-Apr) = β0 + βSep(#ino3.4Sep)+ βJan(#ino3.4Jan)

R= 0.74
F significativo al nivel 0,01 y los contrastes de la t al nivel 0,005

2007 Estadística; 3º CC. AA. 33

16

También podría gustarte