Regresionboletin

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 11

Departamento

UniversidadeVigo de Estatı́stica http://faitic.uvigo.es


e Investigación
Operativa

PROBLEMAS DEL TEMA 5: REGRESIÓN Y CORRELACIÓN


Asignatura: BIOESTADÍSTICA 1 . 1º GRADO EN BIOLOGÍA. CURSO 2020-21

1. Utilizando el software gapminder (http://www.gapminder.org/) busca relaciones entre variables de interés biológico
(con relación directa y con relación inversa) y comenta brevemente su evolución en el tiempo.
2. Extraı́do de Milton (2007). Se realiza un experimento para estudiar la relación entre la altura de la concha (X) y
su longitud (Y ), cada una medida en milı́metros, de Patelloida pygmaea, una lapa pegada a las rocas y conchas a
lo largo de las costas protegidas en el área Indo-Pacı́fica. Los datos son los siguientes:

x y x y x y x y
0.9 3.1 1.9 5 2.1 5.6 2.3 5.8
1.5 3.6 1.9 5.3 2.1 5.7 2.3 6.2
1.6 4.3 1.9 5.7 2.1 5.8 2.3 6.3
1.7 4.7 2.0 4.4 2.2 5.2 2.3 6.4
1.7 5.5 2.0 5.2 2.2 5.3 2.4 6.4
1.8 5.7 2.0 5.3 2.2 5.6 2.4 6.3
1.8 5.2 2.1 5.4 2.2 5.8 2.7 6.3

Representa la nube de puntos tomando como variable explicada la longitud. Calcula la recta de ajuste y el
coeficiente de determinación. ¿Se puede concluir que mediante el modelo lineal se explica una cantidad significativa
de la variabilidad de Y ? Resuelve el ejercicio con R o bien con una hoja de cálculo.
Resolución. Hemos optado por su resolución con R. En la Figura 1 observamos la relación lineal dada por la recta
Longitud = 1.3611 + 1.9963 Altura. De la salida de resultados de R podemos obtener las siguientes conclusiones.
El coeficiente de determinación vale 0.7461. Los contrastes de hipótesis para los parámetros nos indican que ambos
son significativos, con lo que la recta no pasa por el origen y la variable altura influye significativamente en la
longitud de la lapa.
6.5
6.0
5.5
5.0
Y..longitud

4.5
4.0
3.5
3.0

1.0 1.5 2.0 2.5

X..altura

Figura 1: Diagrama de dispersión y ajuste lineal

1 Prof: Estela Sánchez Rodrı́guez, e-mail: [email protected]. La mayor parte de estos ejercicios están pensados para ayudarse de la hoja

de cálculo Excel o bien de otro programa estadı́stico. De forma manual sólo se pedirá el cálculo del ajuste lineal y los coeficientes que miden
la calidad del ajuste para un número reducido de observaciones, si bien hay que conocer los distintos tipos de ajustes (parabólico, logarı́tmico,
exponencial, ...) e interpretar las salidas de resultados correspondientes. En Faitic se encuentra el fichero Excel con los datos listos para
trabajar.

1
RegModel.1 <- lm(longitud~altura, data=Dataset)

summary(RegModel.1)

Call:
lm(formula = longitud ~ altura, data = Dataset)

Residuals:
Min 1Q Median 3Q Max
-0.95365 -0.15374 -0.00347 0.24691 0.74561

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.3611 0.4681 2.907 0.00736 **
altura 1.9963 0.2284 8.742 3.22e-09 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.4128 on 26 degrees of freedom


Multiple R-squared: 0.7461,Adjusted R-squared: 0.7364
F-statistic: 76.42 on 1 and 26 DF, p-value: 3.223e-09

En la Figura 2 observamos los gráficos de diagnosis que complementamos con el test de normalidad de Shapiro
Wilk. Como el valor p vale 0.6983, admitimos normalidad de los residuos.

Gráfico qq
2

2
1

1
residuos.estandarizados

Cuantiles en la muestra
0

0
-1

-1
-2

-2

3.5 4.5 5.5 6.5 -2 -1 0 1 2

valores.ajustados Cuantiles teóricos

Figura 2: Gráficos de diagnosis del modelo

Shapiro-Wilk normality test

data: residuos.estandarizados
W = 0.97427, p-value = 0.6983

3. Se pretende establecer una ecuación mediante la cual pueda predecirse la duración de la estación de la crı́a un
ave acuática a partir del conocimiento del fotoperı́odo (número de horas de luz por dı́a) bajo el que se inició la
reproducción, X. Se observó el comportamiento de once Aythya (patos buceadores).

2
X (horas de luz por dı́a) Y (dı́as de la estación de cria)
12.8 110
13.9 54
14.1 98
14.7 50
15.0 67
15.1 58
16.0 52
16.5 50
16.6 43
17.2 15
17.9 28

Calcula la recta de regresión, el coeficiente de determinación y el coeficiente de correlación. Contrasta si el modelo


lineal es adecuado.
Resolución. Veamos a continuación el análisis proporcionado por R. Generamos el modelo lineal y lo representamos.

attach(patos)
RegModel.1 <- lm(Y~X)
plot(Y~X)
abline(RegModel.1,col="blue")
100
80
Y

60
40
20

13 14 15 16 17 18

Figura 3: Nube de puntos y recta de regresión

Observamos que a medida que aumentan las horas de luz por dı́a disminuye los dı́as de la estación de crı́a, con lo
que la relación entre las variables es inversa.

summary(RegModel.1)

Call:
lm(formula = Y ~ X, data = Dataset)

Residuals:
Min 1Q Median 3Q Max

3
-26.034 -9.535 3.699 8.831 20.989

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 290.070 47.971 6.047 0.000191 ***
X -15.111 3.094 -4.884 0.000866 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 15.13 on 9 degrees of freedom


Multiple R-squared: 0.7261,Adjusted R-squared: 0.695

La recta estimada es Y = 290.07 − 15.111X. Ambos parámetros son significativos y el porcentaje de variabilidad
explicado es del 72.61 %.
Veamos los gráficos de diagnosis del modelo.

Residuals vs Fitted Normal Q-Q

Standardized residuals
3 3

1
10
Residuals

0
-10

-1
4 4
2
-30

2
-2
20 40 60 80 -1.5 -0.5 0.5 1.5

Fitted values Theoretical Quantiles

Scale-Location Residuals vs Leverage


2
Standardized residuals

1
Standardized residuals

3
1.2

3
1 0.5
4
1
0.8

0
0.4

-1

0.5
1
Cook's distance
-2

2
0.0

20 40 60 80 0.0 0.1 0.2 0.3

Fitted values Leverage

Figura 4: Gráficos de diagnosis

4. Hay investigaciones que relacionan la falta de silicona disuelta en el agua de mar con productividad decreciente.
Se lleva a cabo un estudio. Se consideran la distancia en kilómetros a la costa, X, y la concentración de silicona en
microgramos por litro Y . Las medidas se realizan en tomas efectuadas en la plataforma continental del noroeste
africano. Se eligen 6 distancias de la costa y se hacen 4 medidas a cada distancia.

x y x y x y
5 6.1 25 3.7 42 3.4
5 6.2 25 3.7 42 3.6
5 6.1 25 3.8 42 3.5
5 6.0 25 3.9 42 3.2
15 5.2 32 3.9 55 3.7
15 5.0 32 3.8 55 3.9
15 4.9 32 3.9 55 3.6
15 5.1 32 3.7 55 3.8

Representa la nube de puntos, estima la recta de ajuste y calcula el coeficiente de correlación. ¿Cuál es la concen-
tración media de silicona para una muestra situada a 10 km de la costa?
Resolución abreviada. Mostramos el gráfico de dispersión en la Figura 5. Observamos que la concentración de
silicona disminuye al alejarnos de la costa, con lo que la relación es inversa.

4
 

Falta de silicona disuelta en el agua de mar
7

Concentración de silicona (µg/L)
y = ‐0,0479x + 5,7108
6 R² = 0,694

0
0 10 20 30 40 50 60
Distancia a la costa (km)
 

Figura 5: Diagrama de dispersión y ajuste lineal

Si x = 10 se espera una concentración de silicona de 5.23 microgramos por litro.


5. En un grupo de 8 personas se miden las variables X = edad en años e Y = peso en kilos, obteniéndose los siguientes
resultados:
X 8 X8 X 8 8
X X8
Xi = 79, Xi2 = 823, Yi = 389, Yi2 = 19303, Xi Yi = 3963
i=1 i=1 i=1 i=1 i=1

a) ¿Existe una relación lineal importante entre ambas variables? Calcula la recta de regresión de la edad en
función del peso y la del peso en función de la edad. Calcula la bondad del ajuste.
b) ¿En qué medida, por término medio, varı́a el peso cada año?
Resolución.
a) Calculamos las medidas necesarias
x̄ = 9.875, ȳ = 48.625, S 2 (x) = 5.359, S 2 (y) = 48.484, S(x, y) = 15.203, r(x, y) = 0.943, R2 = 0.889. Sı́, hay
una relación directa y alta, a más edad más peso.
Calculamos la recta de regresión peso en función de la edad:

S(x, y)
βˆ1 = 2 = 2.837, βˆ0 = ȳ − βˆ1 x̄ = 20.612
S (x)
Y la recta de la edad en función del peso:

S(x, y)
βˆ10 = 2 = 0.314, βˆ00 = x̄ − βˆ10 ȳ = −5.372
S (y)
Ambas rectas aparecen representadas en la Figura 6. Observamos que se cortan en el vector de medias. El
código de R para generar dicho gráfico es el siguiente:
curve(20.612+2.837*x,0,20, col="blue",ylab="Peso",xlab="Edad")
curve((x+5.3722204)*1/0.31356752,0, 20,add=TRUE,col="red")
text(9.875,48.625,"(9.875,48.625)")
text(5,60,"Peso=20.612+2.837 Edad",col="blue")
text(10,30,"Edad=-5.372 +0.313 Peso",col="red")
b) Por cada año el peso aumenta, en media, la pendiente de la recta de ajuste del peso en función de la edad, que
en nuestro caso es 2.837 kg. Podrı́amos también complementar el ejercicio dando un intervalo de confianza
para la pendiente.

5
70
60
Peso=20.612+2.837 Edad

Peso

50
(9.875,48.625)

40
30
20 Edad=-5.372 +0.313 Peso

0 5 10 15 20

Edad

Figura 6: Rectas de regresión.

6. Extrae toda la información que puedas de las siguientes salidas de resultados de R en la que se estudian dos
variables CL (longitud caparazón en mm) y CW (anchura del caparazón en mm) en el cangrejo Leptograpsus
variegatus.
sex
F
M
50
frequency
45

20
40

10 20 30 40 50
35

cangrejos$CL
CL

30
25
20

20 40
frequency
15

20 30 40 50

CW 20 30 40 50

cangrejos$CW

a) Shapiro-Wilk normality test

data: cangrejos$CL
W = 0.9921, p-value = 0.3527

data: cangrejos$CW
W = 0.9911, p-value = 0.2542
Se ha efectuado el test de Shapiro-Wilk para ver si se acepta normalidad de las variables CL y CW. Dado que
la significación o valor-p es mayor que α, no hay razones estadı́sticas significativas para rechazar la normalidad
(véanse también los histogramas de las correspondientes variables).

6
b) lm(formula = CW ~ CL, data = cangrejos)

Residuals:
Min 1Q Median 3Q Max
-1.7683 -0.6088 0.1075 0.5394 1.8092

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.089919 0.257490 4.233 3.53e-05 ***
CL 1.100266 0.007831 140.504 < 2e-16 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.7864 on 198 degrees of freedom


Multiple R-squared: 0.9901,Adjusted R-squared: 0.99
F-statistic: 1.974e+04 on 1 and 198 DF, p-value: < 2.2e-16

En la salida de resultados se observa la regresión lineal tomando como variable dependiente CW y como
independiente CL. El modelo ajustado es muy bueno. La variabilidad de CW es explicada en un 99 % a
través de CL. La recta de ajuste es CW = 1.0899 + 1.1CL. Los contrastes de hipótesis sobre los parámetros
indican que la variable CL influye sobre CW y que la recta de ajuste claramente no pasa por el origen de
coordenadas.
c) Welch Two Sample t-test

data: CL by sex
t = -1.4854, df = 195.714, p-value = 0.06952
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 0.1678542
sample estimates:
mean in group F mean in group M
31.360 32.851

La última salida de resultados efectúa un contraste de hipótesis para ver si la media de CL es menor en el
grupo de las hembras que en el grupo de los machos. El valor p de 0.06952 es mayor que α = 0.05 con lo que
no hay razones estadı́sticas significativas tomando α = 0.05 de que la media sea menor en el grupo de las
hembras que en el de los machos. También se presenta el intervalo de confianza unilateral, con lo que también
podrı́amos llegar a la misma conclusión dado que 0 ∈ IC.

7. De tres especies de la flor Iris, Figura 7. Este conjunto de datos se conoce como los datos de Fisher ó de Anderson
y consta de medidas en cm de las variables longitud y anchuras de pétalos y sépalos de tres especies de iris,
concretamente setosa, versicolor y virginica.

Figura 7: Flor Iris con sus tres especies. Foto tomada de PalAss

a) Extrae información de interés de la siguiente salida de resultados.

7
8.0
2.5

7.5
2.0

7.0
6.5
Sepal.Length
1.5
Petal.Width

6.0
1.0

5.5
5.0
0.5

4.5
1 2 3 4 5 6 7 2.0 2.5 3.0 3.5 4.0

Petal.Length Sepal.Width

Figura 8: Gáficos de dispersión del Ejercicio 7

Species
setosa
versicolor
virginica
8.0
7.5
7.0
6.5
Sepal.Length

6.0
5.5
5.0
4.5

2.0 2.5 3.0 3.5 4.0

Sepal.Width

Figura 9: Gráfico de dispersión por especie del Ejercicio 7

8
lm(formula = Sepal.Length ~ Sepal.Width, data = iris)

Residuals:
Min 1Q Median 3Q Max
-1.5561 -0.6333 -0.1120 0.5579 2.2226

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.5262 0.4789 13.63 <2e-16 ***
Sepal.Width -0.2234 0.1551 -1.44 0.152
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.8251 on 148 degrees of freedom


Multiple R-squared: 0.01382,Adjusted R-squared: 0.007159
F-statistic: 2.074 on 1 and 148 DF, p-value: 0.1519

b) Si conocemos que la covarianza entre las variables Sepal.Width y Sepal.Length, para la especie Setosa es de
0.097, y además nos dan la información:
Variable: Sepal.Length
mean (media) sd (desviacion estandar) n
setosa 5.006 0.3524897 50
versicolor 5.936 0.5161711 50
virginica 6.588 0.6358796 50

Variable: Sepal.Width
mean sd n
setosa 3.428 0.3790644 50
versicolor 2.770 0.3137983 50
virginica 2.974 0.3224966 50
Calcula la recta de regresión que explique la variable Sepal.Length en función de Sepal.Width para la especie
Setosa. ¿Es alguna de las representadas anteriormente? ¿Es bueno el ajuste de esta recta?
Resolución abreviada Puedes comprobar que βˆ1 = S(x,y) 2 = 0.097 2 = 0.675, βˆ0 = ȳ − βˆ1 x̄ = 2.6921,
S (x) (0.379)
S(x,y) 0.097
ŷ = 2.6921 + 0.675x, y r(x, y) = S(x)S(y) = 0.3524×0.3790 = 0.726.

8. Se dispone de la siguiente información de 10 alumnos de una escuela en relación a las variables edad (años),
estatura (cm) y peso (Kg).

Niño 1 2 3 4 5 6 7 8 9 10
Edad 9 8 9 8 9 10 7 8 8 10
Estatura 127 125 131 135 125 157 130 123 127 135
Peso 32 35 36 38 30 39 31 30 32 35

a) ¿Existe relación lineal entre Estatura y Peso?


b) Obtén la recta de regresión lineal tomando como variable explicada el peso y como variable explicativa la
estatura.
c) ¿Cuántas rectas de regresión lineal distintas se podrı́an calcular con las tres variables de interés? ¿Entre qué
par de variables existe una relación lineal más fuerte?

9. Extrae información de interés de las siguientes salidas de resultados de R. Un paleontólogo estudió 10 gasterópodos
y midió su altura, la altura de la última vuelta de la espiral del caracol (Alturavuelta), la altura de la boca
(Alturaboca) y la anchura. Además se desconocı́a la altura de un ejemplar que tenı́a la punta rota, cuyas medidas
de las otras variables eran: Alturavuelta= 1.923; Alturaboca= 1.466; Anchura= 1.544.

9
a) > summary(RegModel.1)
lm(formula = Altura ~ Alturaboca + Alturavuelta + Anchura, data = Caracoles)

Residuals:
Min 1Q Median 3Q Max
-0.041617 -0.015528 -0.002016 0.010143 0.057027

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02919 0.07542 0.387 0.712052
Alturaboca -0.31722 0.29382 -1.080 0.321779
Alturavuelta 1.39524 0.19451 7.173 0.000371 ***
Anchura 0.13916 0.27789 0.501 0.634376
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.03319 on 6 degrees of freedom


Multiple R-squared: 0.9948,Adjusted R-squared: 0.9922
F-statistic: 382 on 3 and 6 DF, p-value: 3.084e-07
b) > summary(RegModel.2)

Call:
lm(formula = Altura ~ Alturavuelta, data = Caracoles)

Residuals:
Min 1Q Median 3Q Max
-0.055616 -0.012865 0.000653 0.009638 0.058099

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02993 0.06820 0.439 0.672
Alturavuelta 1.26713 0.03554 35.651 4.2e-10 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.0315 on 8 degrees of freedom


Multiple R-squared: 0.9937,Adjusted R-squared: 0.993
F-statistic: 1271 on 1 and 8 DF, p-value: 4.196e-10

c) ¿Cuál es la altura estimada del caracol que tenı́a la punta rota?

Resolución. En el primer apartado se plantea un modelo de regresión lineal múltiple para explicar la altura del
caracol en función de las variables: altura de la boca, altura de la vuelta y de la anchura. El coeficiente de
determinación del modelo vale 0.9948. Se aprecia como la variable significativa es la altura de la vuelta y el resto
no son significativas, para ello, basta observar los valores p asociados a los coeficientes. En el segundo apartado se
ha construido un modelo de regresión lineal simple para explicar la altura del caracol en función de la altura de la
vuelta. Se explica el 99.37 % de la variabilidad de la altura utilizando la altura de la vuelta. Además de que dicha
variable es significativa, vemos que se podrı́a construir un modelo que pasara por el origen, observando el valor p
del coeficiente β0 que vale 0.672. En base a la información del apartado b) podemos estimar la altura del caracol
que tenı́a la punta rota de la siguiente forma:

Altura = 0.02993 + 1.26713 × 1.923 = 2.466.

10. Considera la siguiente salida de resultados en la que se estudia la tasa de mortalidad de una variedad de lombriz de
tierra en función del nivel de humedad. El ajuste polinómico se ha realizado con R2 . Los datos son los siguientes:
2 En R Commander podrı́as utilizar el módulo Estadı́sticos + Ajustes de modelos + Modelo Lineal.

10
x y x y
0 0.5 0.632 0
0 0.4 0.947 0.1
0 0.5 0.947 0.2
0.316 0.2 0.947 0.1
0.316 0.3 1.26 0.6
0.316 0.3 1.26 0.5
0.632 0 1.26 0.4
0.632 0.1

LinearModel.2 <- lm(Y..tasa.de.mortalidad ~ X..nivel.de.humedad +


+ I(X..nivel.de.humedad^2), data=Ajustes)

summary(LinearModel.2)

Call:
lm(formula = Y..tasa.de.mortalidad ~ X..nivel.de.humedad +
I(X..nivel.de.humedad^2), data = Ajustes)

Residuals:
Min 1Q Median 3Q Max
-0.10311 -0.06998 -0.00311 0.03002 0.12442

Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.50311 0.04503 11.174 1.07e-07 ***
X..nivel.de.humedad -1.35173 0.16931 -7.984 3.84e-06 ***
I(X..nivel.de.humedad^2) 1.05546 0.12887 8.190 2.95e-06 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Residual standard error: 0.08283 on 12 degrees of freedom


Multiple R-squared: 0.8487,Adjusted R-squared: 0.8234
F-statistic: 33.64 on 2 and 12 DF, p-value: 1.202e-05

Interpreta los resultados obtenidos. ¿Cuál es la ecuación matemática del ajuste? Realiza alguna predicción expli-
cando su significado.
Resolución. Observamos que el modelo ajusta considerablemente bien los datos (el coeficiente de determinación
vale 0.8487). La ecuación del polinomio de grado 2 es la siguiente:

Y = 0.50311 − 1.35173X + 1.05546X 2 .

Para realizar predicciones tenemos que sustituir en la ecuación el valor del nivel de humedad para el que queramos
saber su tasa de mortalidad. La nube de puntos ya nos muestra que un ajuste lineal no va a ser adecuado (véase
Figura).
0.6
0.5
0.4
0.3
Y

0.2
0.1
0.0

0.0 0.2 0.4 0.6 0.8 1.0 1.2

Figura 10: Nube de puntos.

11

También podría gustarte