Regresión Lineal Simple Correlación
Regresión Lineal Simple Correlación
Regresión Lineal Simple Correlación
Dirección de Investigación
Área: Estadística
Sesión 6
Regresión Lineal Simple
Correlación
Con frecuencia, las variables que constituyen una distribución bidimensional muestran un
cierto grado de dependencia entre ellas. Un ejemplo de esta relación aparece en la relación
de peso y altura: aunque no existe una ley causal que relacione ambas variables, en
términos estadísticos se aprecia una dependencia entre ellas (cuando aumenta la altura,
suele hacerlo también el peso). Esta dependencia se refleja en la nube de puntos que
representa a la distribución, de modo que los puntos de esta gráfica aparecen condensados
en algunas zonas.
En tales casos, se pretende definir una ecuación de regresión que sirva para relacionar las
dos variables de la distribución. La representación gráfica de esta ecuación recibe el nombre
de línea de regresión, y puede adoptar diversas formas: lineal, parabólica, cúbica,
hiperbólica, exponencial, etc.
ANÁLISIS DE REGRESIÓN
Propósito: determinar la ecuación de regresión; se usa para predecir el valor de la
variable dependiente (Y) basado en la variable independiente (X).
Procedimiento: seleccionar una muestra de la población y enumerar los datos por
pares para cada observación; dibujar un diagrama de dispersión para visualizar la
relación; determinar la ecuación de regresión.
La ecuación de regresión: Y’= a + bX, donde:
o Y’ es el valor promedio pronosticado de Y para cualquier valor de X.
o a es la intercepción en Y, o el valor estimado de Y cuando X = 0
o b es la pendiente de la recta, o cambio promedio en Y’ por cada cambio de
una unidad en X:
REGRESIÓN LINEAL
Cuando la línea de regresión se asemeja a una recta (regresión lineal), puede ajustarse a
esta forma geométrica por medio de un método general conocido como método de los
mínimos cuadrados. La recta de ajuste tendrá por ecuación:
Y = β0 + β 1 X
1
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
∑ Xi : Media Aritmética de X.
X́ = i =1
n
CORRELACIÓN (r)
El coeficiente de correlación (r) mide el grado de relación lineal (intensidad) de la relación
entre dos variables cuantitativas. El coeficiente r puede tomar valores entre -1.00 y 1.00.
Básicamente, esta información se refiere a dos características de la relación lineal: la
dirección o sentido y la cercanía o fuerza.
Correlación
Correlación nula Correlación
perfecta perfecta
negativa-1 0 1 Positiva
Fuerte Débil Débil Fuerte
Negativa Negativa Positiva Positiva
Es importante notar que el uso del coeficiente de correlación sólo tiene sentido si la
relación a analizar es del tipo lineal. Si ésta no fuera no lineal, el coeficiente de
correlación sólo indicaría la ausencia de una relación lineal más no la ausencia
de relación alguna.
n
SC xy=∑ X i Y i−
( )( )
∑ Xi ∑ Y i
i=1 i=1 : Suma Cruzada de X e Y.
i=1 n
2
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
n 2
n
2
SC x =∑ X i −
(∑ )
i=1
Xi
: Suma de Cuadrados de X.
i=1 n
n 2
n
2
SC y =∑ Y i −
(∑ )
i=1
Yi
: Suma de Cuadrados de Y.
i=1 n
Correlación negativa perfecta (r=-1) Correlación Positiva perfecta (r=1)
Correlación Nula
3
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
EJERCICIOS
Después de haber leído la bibliografía básica propuesta en el punto 2.1, resuelve los
siguientes ejercicios:
1. Para cada uno de los siguientes conjuntos de datos bivariantes graficar sus
correspondientes diagramas de dispersión de puntos. ¿Qué tipo de relación
funcional, cree usted, se podría ajustar mejor a los datos?, ¿Por qué?
4
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
X 5 10 8 19 14 19 15 15 25 20 20
a)
Y 2 7 13 14 15 16 10 5 7 10 5
X 3 6 5 1 4 2 3 7 4
b)
Y 16 14 12 8 18 11 11 5 20
X 6 2 1 4 1 3 4 1 3 2 4
c)
Y 10 16 14 10 16 13 11 15 14 14 12
X 6 14 15 18 10 16 14 12 18 17
d)
Y 8 11 16 17 11 14 13 10 14 18
2. Se realiza un estudio para determinar el efecto de la reducción de las horas de sueño
sobre la habilidad para resolver problemas sencillos. La reducción de las horas de
sueño es de 8, 12, 16, 20 y 24 horas sin dormir. En el estudio participaron un total
de 10 individuos, con dos en cada nivel de reducción. Después de su período
específico de reducción de horas de sueño, cada individuo fue sometido a un
conjunto de problemas simples de suma, observándose el número de errores. Los
resultados fueron:
Número de errores (Y) 8, 6 6, 10 8, 14 14, 12 16, 12
Reducción de horas de sueño (X) 8 12 16 20 24
a) Grafica el diagrama de dispersión de puntos.
b) Encuentra la recta de mínimos cuadrados apropiada para estos datos.
c) En el diagrama de dispersión de puntos, grafica la recta de mínimos
cuadrados.
d) Interpreta los coeficientes de regresión.
3. Los gastos semanales de publicidad y las ventas semanales de una empresa, en
dólares, para una muestra de diez semanas son:
Gastos semanales
de publicidad 41 54 63 54 48 46 62 61 64 71
Ventas semanales 1250 1380 1425 1425 1450 130 1400 1510 1575 1650
0
a) Establece la recta de regresión de mínimos cuadrados que permita predecir las
ventas semanales en función de los gastos en publicidad.
b) Representa gráficamente los puntos y la recta de mínimos cuadrados. Comenta.
c) Interpreta la pendiente de la recta de regresión.
d) Pronostica las ventas para gastos semanales de publicidad de 50 y 60 dólares.
e) ¿Cuáles son los errores de estimación cuando se predice las ventas semanales
para gastos semanales de publicidad de 61, 62 y 63 dólares respectivamente?
4. Las calificaciones en un examen de estadística y el número de horas de estudio para
el examen, de una muestra de doce estudiantes de una sección, se presentan en el
siguiente cuadro.
Tiempo de estudio 3 3 3 4 4 5 5 5 6 6 7 8
Calificación 9 12 11 12 15 14 16 15 18 16 15 17
5
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
6
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
7
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
8
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
Año 77 78 79 80 81 82 83 84 85 86
Ahorro 1.9 1.8 2.0 2.1 1.9 2.0 2.2 2.3 2.7 3.0
Renta 20.5 20.8 21.2 21.7 22.1 22.3 22.2 22.6 23.1 23.5
a) Encuentre la recta de regresión considerando el ahorro como variable
independiente.
b) Encuentre la recta de regresión considerando la renta como variable
independiente
c) Para el año 87 se supone una renta de 24.1 billones de pesos. ¿Cuál será el
ahorro esperado para el año 87?
17. La tabla presenta datos ficticios para un estudio de adolescentes en riesgo de
desarrollar obesidad.
N° comidas rápidas
2 2 5 2 4 3 3 2
consumidas última semana
Peso (Kg.) 50,8 59,4 77,6 72,6 82,6 74,8 67,6 62,1
a) Trace un diagrama de dispersión del peso regresionado a partir del número de
comidas rápidas consumidas en la última semana.
b) Calcule el coeficiente de correlación R de Pearson para estas dos variables, así
como la ecuación de regresión Y = β0 + β 1 X .
18. La tabla siguiente contiene la edad (X) y la máxima de la presión sanguínea (Y) de un
grupo de 10 mujeres:
Edad 56 42 72 36 63 47 55 49 38 42
Presió 14,8 12,6 15,9 11,8 14,9 13,0 15,1 14,2 11,4 14,1
n
a) Determine la recta de regresión de Y sobre X, justificando la adecuación de un
modelo lineal.
b) Interprete la pendiente.
c) Mida la bondad del modelo.
d) Realice las siguientes predicciones, sólo si tienen sentido:
Presión sanguínea de una mujer de 51 años.
Presión sanguínea de una niña de 10 años.
Presión sanguínea de un hombre de 54 años.
9
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
21. Un investigador cree que la inteligencia de los niños, medida a través del coeficiente
intelectual (CI en puntos), depende del número de hermanos. Toma una muestra
aleatoria de 15 niños y ajusta una regresión lineal simple. Los resultados aparecen
en la tabla adjunta.
10
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
11
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
12
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
c) ¿Cuál sería el gasto telefónico estimado según esta relación lineal si el tiempo de
conexión a Internet fuera de 2000 minutos? ¿Le parece aceptable tal predicción?
Justifique su respuesta.
Se considera que un incremento del 20% en el tiempo de conexión a Internet
respecto al realizado en el mes de mayo conllevaría a que la factura telefónica se
elevase de forma extraordinaria. ¿Cuál sería el incremento relativo en la misma si
ello se produjese? Justifique su respuesta.
28. Una juguetería ha examinado la evolución reciente de las ventas de su muñeco “Qco”
(Y, en millones de euros) junto con los gastos de publicidad de ese muñeco (X, en
millones de euros), obteniéndose los siguientes resultados:
Año 2003 2004 2005 2006 2007 2008 2009
Y 126 135 156 156 150 150 180
X 20 25 30 32,5 35 32 34
A partir de esta información, responda a las siguientes cuestiones:
a) ¿Se puede afirmar que al aumentar los gastos en publicidad se incrementarán las
ventas? Obtenga los parámetros del ajuste lineal que explique las ventas en
función de los gastos. Interprete dichos coeficientes e indique la bondad del ajuste
realizado.
b) Si para este año 2010 aumentásemos los gastos de publicidad en un 1%, ¿en qué
porcentaje se espera que variasen las ventas, según el modelo lineal?
29. Para un conjunto de personas que están siguiendo una dieta de adelgazamiento, se
han recogido datos sobre el peso perdido desde el inicio de la misma (variable Y,
en Kg.) y el tiempo que llevan siguiendo la dieta (variable X, en semanas), los
cuales se muestran en la siguiente tabla:
Y 2,4 5,4 5,6 8,4 10,6 13,5 15 15
X 3 5 6 8 11 13 15 16
a) Estime el modelo lineal que explica el peso perdido en función del tiempo que se
lleva siguiendo la dieta e interprete los parámetros.
b) Para el modelo estimado en el apartado anterior, descomponga la varianza total
como suma de la explicada y la no explicada por el mismo y obtenga, a partir de
tal descomposición, el coeficiente de determinación.
c) Según el modelo considerado, ¿qué peso esperaría perder una persona que siga
la dieta durante 2 meses (8 semanas)? ¿Y una persona que esté dispuesta a
seguir la dieta durante dos años (108 semanas)? ¿Qué fiabilidad le otorga a cada
una de las estimaciones anteriores?
30. Con el objetivo de estudiar la relación lineal entre el precio de los automóviles y el
número de unidades vendidas, se procedió a recoger datos sobre tales magnitudes
durante el pasado mes en una determinada región. Los resultados obtenidos fueron
los siguientes:
Precio
7,5 9 10,5 12 14 16 18 20,5 23,5 27
(miles de euros)
Cantidad
450 425 400 350 325 300 290 280 260 200
vendida por mes
En función a los datos recabados para esa región y mes:
a) Una empresa radicada en la región tiene previsto para el mes próximo aumentar
el precio de su modelo más vendido en 500 . Si suponemos como válida la
13
Universidad César Vallejo - Trujillo
Dirección de Investigación
Área: Estadística
relación lineal entre las dos variables analizadas para los datos del pasado mes,
¿cómo afectaría este hecho a las ventas de dicho modelo?
b) Si el modelo más caro de la tabla anterior se abaratase para el mes próximo un
3%, ¿cómo variarían las ventas de dicho modelo?
31. En una muestra de familias se han analizado las variables ahorro anual (Y) y renta
anual (X), medidas ambas en miles de euros. Los datos obtenidos han sido los
siguientes:
Ahorro (Y) 1,9 1,8 2,0 2,1 1,9 2,0 2,2 2,3, 2,7 3,0
20, 20,
Renta (X) 21,2 21,7 22,1 22,3 22,2 22,6 23,1 23,5
5 8
A partir de tales datos, se pide:
a) Obtener el modelo lineal que explica el ahorro de las familias en función de su
renta.
b) ¿Qué familia aumentaría en un mayor porcentaje su ahorro si su renta se viese
incrementada en un 5%, la familia que tiene la menor renta de entre todas o la
que posee la mayor renta?
c) ¿Cuál será el incremento absoluto del ahorro cuando una familia aumente su
renta anual en 500 euros?
d) ¿Qué porcentaje de varianza de la variable ahorro queda explicado por la variable
renta a través del modelo lineal planteado?
REFERENCIAS BIBLIOGRÁFICAS
1. ÁVILA ACOSTA, R., (2001). Estadística Elemental. Estudios y Ediciones RA- Lima
– Perú.
2. BERENSON – LEVINE, (1996). Estadística Básica en Administración. 6ta edición.
Edit. PHH S. A. – México.
3. FREUND, John y MANNING SMITH, Richard, (1999). Estadística. 6ta edición –
Edit. Préntice Hall Hispanoamericana S.A.- México.
4. GUILFORD, J.P. y FRUCHTER, Benjamín, (1996). Estadística Aplicada a la
Psicología y la Educación. Edit. Mc Graw-Hill – México.
5. MILLER, Irwin y FREUND, John E.,1995. Probabilidad y Estadística para Ingenieros
– Edit. Préntice Hall Hispanoamericana S.A. – México.
6. MOYA, Rufino, (1991). Estadística Descriptiva. 1era edición –Editorial San Marcos-
Lima- Perú.
7. WEBSTER, A. y otros, (2000). Estadística Aplicada a los Negocios y a la
Economía.3era edición – Edit. McGraw-Hill Companies,
14