09 Regresion y Correlacion Lineal Simple
09 Regresion y Correlacion Lineal Simple
09 Regresion y Correlacion Lineal Simple
PRESENTACIÓN
Cada guía integra el desarrollo del tema con ejercicios, casos de estudio y con
la sección llamada Aprendiendo.com. En esta última sección se le proporciona
al estudiante un ambiente interactivo, utilizando los recursos disponibles en
Internet, de tal forma que los casos planteados los desarrolle en ambientes
de aprendizaje que le permitan encontrarse con el conocimiento,
“manipularlo”, hacerlo suyo. Con esta filosofía se utilizan applets, sitios de
internet con acceso a bases de datos reales, software de uso libre y en
general los recursos de la Web 2.0, que se refieren a una segunda generación
en la historia de la Web basada en comunidades de usuarios, que fomentan la
colaboración y el intercambio ágil de información entre los mismos.
Los Autores
Las relaciones entre las variables pueden ser directas o también inversas.
El método que por lo común se utiliza para ajustar una línea a los datos
muestrales indicados en el diagrama de dispersión, se llama método de
mínimos cuadrados. La línea se deriva en forma tal que la suma de los
cuadrados de las desviaciones verticales entre la línea y los puntos
individuales de datos se reduce al mínimo.
El error es cero.
Los datos obtenidos de las muestra son estadísticamente independientes.
La varianza del error es igual para todos los valores de X.
yˆ a
bx
Para calcular el valor de b (pendiente), que representa el grado de
inclinación que tiene la recta, se emplea la siguiente formula:
b
xy n xy
n x 2
2
x
Para calcular el valor de a (ordenada al origen), que representa el punto
en que la recta corta al eje de las Y, se emplea la siguiente formula:
a y bx
Las variables a y b son constantes numéricas que son las que se calculan
mediante el método de mínimos cuadrados.
ERROR ESTANDAR DE ESTIMACIÓN
y 2 a y b xy n 2
Se
X Y
4. Se calcula la pendiente.
b xy nxy
n x 2
2
x
5. Se calcula la ordenada al origen.
a y bx
6. Se obtiene la ecuación que mejor se ajusta a la información obtenida.
yˆ a bx
y2 a y b xy n 2
Se
Por ejemplo:
Realice una regresión para estimar las ventas de dos sucursales que tienen
14,000 y 30,000 personas como potenciales clientes respectivamente.
Solución
Datos
n=10
X: Población de personas en miles
Y: Ventas trimestrales en miles de pesos
Sucursal X Y XY 2 2
X Y
1 2 58 116 4 3364
2 6 105 630 36 11025
3 8 88 704 64 7744
4 8 118 944 64 13924
5 12 117 1404 144 13689
6 16 137 2192 256 18769
7 20 157 3140 400 24649
8 20 168 3380 400 28224
9 22 149 3278 484 22201
10 26 202 5252 676 40804
140 1300 21040 2528 184393
4. Calculo de la pendiente.
140
x 10 mi personas
14 l
1300
y 10 130 pesos
mil
Por lo tanto la pendiente es
21040 1014130
b 5
2528 1014
2
a 130 514 60
6. Obtener la ecuación que mejor se ajuste.
yˆ
60 5x
7. Trazar la línea estimada.
yˆ 60 514 130
14,130
yˆ 60 530 210
30,210
1
Recuerda que estamos trabajando con miles de pesos, en este ejercicio.
CORRELACIÓN SIMPLE
a y b xy n y 2
r2
y 2
ny2
r r2
INTERVALO DE CONFIANZA
yc S
yˆ t , n 2 e
/2 gl n
INTERVALO DE PREDICCIÓN
Solución
X: Años de experiencia
Y: Ventas anuales en miles de pesos.
Vendedor X Y
1 1 80
2 3 97
3 4 92
4 4 102
5 6 103
6 8 111
7 10 119
8 10 123
9 11 117
10 13 136
70 1080
2. Diagrama de dispersión.
3. Realizar los cálculos correspondientes y determinar la pendiente y
ordenada al origen.
Vendedor X Y XY 2 2
X Y
1 1 80 80 1 6400
2 3 97 291 9 9409
3 4 92 368 16 8464
4 4 102 408 16 10404
5 6 103 618 36 10609
6 8 111 888 64 12321
7 10 119 1190 100 14161
8 10 123 1230 100 15129
9 11 117 1287 121 13689
10 13 136 1768 169 18496
70 1080 8128 632 119082
1080
y 108
10
70
x 7
10
8128 107108
b 632 107
2
a 108 47 80
yˆ
80 4x
Para un vendedor con 7 años de experiencia, sus ventas estimadas serían:
r 2 93.03%
El 93% de las ventas anuales se deben a la experiencia de los vendedores y
el 7% restante de debe a otros factores.
r 0.9303 0.9645
Este número nos indica que las variables X Y tienen una correlación positiva
intensa.
9. Determinar el intervalo de confianza al 95%.
Considerando
yˆ 108 ventas anuales 4.61
y 108 2.306
c
10
108 3.3617 yc 108 3.3617
104.6383 yc 111.3617
Se puede asegurar con un nivel de confianza del 95% que las ventas de los
vendedores con 7 años de experiencia están entre 104.6 y 111.4 miles pesos
anuales.
1 9 7 2
y p 108 2.306 1
10 632 10(7) 2
4.61
108 11.291 y 108 11.291
p
96.709 y 119.291
p
Se puede asegurar con un nivel de confianza del 95% que las ventas
pronosticadas de un vendedor con 9 años de experiencia están entre 96.71
y 119.3 miles pesos anuales.
Ejercicios propuestos:
Galones Tamaño
de de
Agua familia.
Y X
650 2
1200 7
1300 9
430 4
1400 12
900 6
1800 9
640 3
793 3
925 2
Seguro Salario
de Anual.
vida
Y X
50 10
80 29
100 30
130 31
150 36
a) Elabora el diagrama de dispersión.
b) Calcula la pendiente y ordenada al origen.
c) Obtener la ecuación que mejor se ajusta a los datos.
d) Traza la línea estimada en el diagrama de dispersión.
e) Calcula el error estándar de estimación.
f) Calcula el coeficiente de determinación.
g) Determina el coeficiente de correlación.
h) Determina el intervalo de confianza al 90%.
i) Determina el intervalo de predicción 90%
Y X
6.7 9.7
7.3 9.8
8.9 7.6
9.1 6.1
7.2 10.2
5.2 12.7
6.9 14.3
6.9 7.9
7.1 8.9
Ventas Precio de
competencia
Y X
520 13
550 13
600 15
610 15
620 16
724 21
680 21
300 14
962 40
270 12
1. Elabora el diagrama de dispersión.
2. Calcula la pendiente y ordenada al origen.
3. Obtener la ecuación que mejor se ajusta a los datos.
4. Traza la línea estimada en el diagrama de dispersión.
5. Calcula el error estándar de estimación.
6. Calcula el coeficiente de determinación.
7. Determina el coeficiente de correlación.
8. Determina el intervalo de confianza al 99%.
9. Determina el intervalo de predicción 99%
Meses en venta 6.5 7.0 8.6 12.1 9.0 9.5 8.6 10.6 15.0
Precio pedido (en 800 1000 990 1250 1400 1100 990 990 1250
miles de pesos)
Unidades vendidas en el año 2007 170 133 86 161 112 133 136 82
Unidades vendidas en el año 2006 99 95 50 80 92 88 130 100
a) Trace un diagrama de dispersión para estos datos,
b) Aplique el método de mínimos cuadrados para plantear la ecuación
estimada de regresión.
c) Calcule el error estándar en la regresión.
d) Calcule el coeficiente de correlación y el coeficiente de determinación e
interprételos.
e) Determina el intervalo de confianza al 95%.
f) Determina el intervalo de predicción 95%
12. Según el INEGI los nacimientos registrados en el país en el 2007 fueron:
Nacimientos
Mes de Registrados
registro
1 Enero 220,670
2 Febrero 211,330
3 Marzo 213,299
4 Abril 270,819
5 Mayo 225,298
6 Junio 205,572
7 Julio 211,180
8 Agosto 249,626
9 Septiembre 220,666
10 Octubre 241,529
11 Noviembre 211,857
12 Diciembre 173,237
a) Aplique el método de mínimos cuadrados para plantear la ecuación
estimada de regresión.
b) El INEGI reporto que en julio de 2007 se registraron 211,330
nacimientos, utiliza la ecuación obtenida y predice cuantos debieron
de haberse registrado en ese mes, compara resultados y obtén tus
conclusiones.
c) Estime cuantos nacimientos se registraron en enero de 2008.
d) Calcule el error estándar en la regresión.
e) Calcule el coeficiente de correlación y el coeficiente de determinación
e interprételos.
f) Determina el intervalo de confianza al 95%.
g) Determina el intervalo de predicción 95%