Unidad V PDF

UNIDAD V: REGRESION LINEAL SIMPLE
INTRODUCCIÓN
En muchas ocasiones es necesario establecer la naturaleza de la relación entre dos
o más variables. Puede ser que también necesitamos predecir por ejemplo el
rendimiento académico de un estudiante, dado que se conoce la nota obtenida en
las pruebas de admisión, o la dureza de un metal si se conoce la resistencia, o el
peso en kilos de una persona si se conoce la edad. En todas estas situaciones la
precisión de nuestra predicción dependerá de la fuerza de la relación.
Esto nos lleva al estudio de la correlación y de la regresión.
La correlación se refiere a la fuerza de la relación entre los valores de las variables.
El análisis de regresión determina la naturaleza de la relación y nos permite hacer
predicciones, pues representa la relación, por medio de una ecuación.
La regresión y la correlación son dos técnicas, que comprenden una forma de
estimación y que están estrechamente relacionadas entre si.
Los primeros estudios como regresión datan del científico inglés Sir Francis Galton
(1822 – 1911) en sus observaciones relacionadas con genética (herencia).
Galton, dedicado a las investigaciones de la genética, trato de establecer la relación
entre las características de padre e hijo. Al comparar las alturas de padres con las
de sus respectivos hijos, notó que cuando los padres eran altos, los hijos en general,
no alcanzaban sus alturas y cuando los padres eran bajos de estatura, los hijos
tendrán a ser más altos que sus padres, de lo que concluyó que las características
genéticas tendían a regresar a un valor medio de la población.
El análisis de regresión es útil para determinar la forma probable de relación entre
las variables (la ecuación que relaciona a ambas variables) cuando hay un fenómeno
de causa y efecto.
Su objetivo principal, al evaluar la relación entre dos variables, es realizar
predicciones más precisas. Si se ha establecido una relación entre los valores de
dos variables, conocer entonces, el valor una variable ayudará a predecir el valor de
la otra.
Distinguir entre variable dependiente e independiente
En el mundo real es bastante frecuente encontrar dos o más variables. Sin estar
ligadas entre sí por una relación matemática exacta, se mueven, sin embargo, con
una sincronización (interdependencia) más o menos intensa.
Ejemplos:
 El número de vehículos matriculados en un momento dado y el número
de accidentes.
El conocer el número de vehículos matriculados en un momento dado no nos permite
saber con exactitud cuál será el número de accidentes; sin embargo a partir de las
técnicas estadísticas de regresión y correlación se puede realizar una estimación
que permita afirmar, con mayor o menor confianza, cuál será el número de
accidentes en función del comportamiento simultaneo de los dos variables de estudio
• El número de libros vendidos con el desarrollo económico de los
diferentes países.
• Talla y peso de los soldados de un regimiento.
• Calificaciones en Física y Matemáticas de los alumnos de una clase.
• Gastos de publicidad y ventas de una fábrica.
Donde, la variable X se conoce con el nombre de variable independiente (está bajo
el control del investigador, y sus valores son fijos) y la variable Y como variable
dependiente.
Supuestos:
• La variable dependiente Y es una variable aleatoria.
• Los valores de la variable independiente X son fijos, y a X se le llama variable
no aleatoria.
• La variable dependiente e independiente tienen una relación lineal.
• Para cada valor de X, existe un conjunto de valores de Y, que deben seguir
una distribución normal (es decir, los valores de Y deben ser normales), para
aplicar con validez los procedimientos de inferencia y/o estimación.
• Todas las varianzas de las subpoblaciones de Y son iguales.
5.1.1 Prueba de Hipótesis en la regresión lineal simple
Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo
de regresión, debe hacerse la suposición adicional de que término del error εi esta
normalmente distribuido. Por lo tanto, se supone que los errores εi tiene distribución
normal N (0,σ2). Después se pueden probar las suposiciones mediante el análisis
de residuos. Supongamos que el experimentador desea probar la hipótesis de que
la pendiente es igual a un cierto valor, por ejemplo, β1,0. Las hipótesis apropiadas
son:
Ho: 𝛽1 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠)
Ha:𝛽1 ≠ 0 ( ℎ𝑎𝑦 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠)
Definir la ecuación de regresión y cuál es su aplicación
Se puede definir a la Regresión, como una correlación matemática basada en la

ecuación de la recta modificada.
Existen varios tipos de regresión y todos se basan en modificaciones de la fórmula
de regresión lineal:
Y = a + b *X (ecuación matemática de la recta)
Y = es la variable dependiente (de estudio)

X = la variable independiente.
a y b son factores derivados de la ecuación matemática de la recta.
Para un modelo de regresión simple son importantes las variable X e Y.
La regresión lineal simple intenta determinar una línea recta o una ecuación lineal
que describa la relación entre dos variables. Las ecuaciones de regresión pueden
ser utilizadas de diversas formas, veamos algunas aplicaciones:
1. Estimar los valores de una variable con base en los valores conocidos de otra, por
ejemplo, la inversión en publicidad y el monto de ventas son dos variables que
pueden estar relacionadas de tal forma que si se conoce la primera se puede
obtener una estimación de la segunda.
2. Para explicar valores de una variable en términos de la otra, es decir, se puede
intuir una relación de causa efecto entre dos variables, por ejemplo: cambios en
las ventas explicadas en términos de gastos de publicidad. Vale la pena tener en
cuenta que la lógica de la relación proviene de teorías externas al campo de la
estadística, es decir, que el análisis de regresión no puede establecer si una
variable causa la otra, sólo indica la relación matemática si la hay.
3. Predecir valores futuros de una variable, por ejemplo: tendencia de las ventas a
través del tiempo, crecimiento de la población en un periodo de tiempo, costo de
la canasta familiar o índice de precios al consumidor.
Por lo que se puede decir que, la regresión se refiere al procedimiento de obtener
una ecuación con fines de estimación o predicción, la variable a estimar o predecir
se denomina variable dependiente y la otra variable, aquella que proporciona la base
para la estimación se denomina variable independiente.
Es este tipo de distribución bidimensional es fundamental la representación gráfica
de los valores de las dos variables. Esto es así porque cuando se analizan los
comportamientos de dos variables, lo que implícitamente se está buscando es qué
tipo de relación existen entre ellas.
Por ejemplo:
El número de accidentes en carretera y

el número de vehículos matriculados
250
200
Accidentes
150
100
50
0
0 200 400 600 800
Vehiculos m atriculados
La simple observación de este gráfico permite extraer las siguientes conclusiones:
1) Que efectivamente existe relación entre las dos variables.

2) Que hay relación positiva, esto es que cuanto mayor es el número de
vehículos matriculados mayor es el número de accidentes.
3) Que la relación es de tipo lineal.
Un diagrama de dispersiones, es un diagrama en el que se traza cada uno de los

puntos que representan un par de valores observados para las variables,
independiente y dependiente. El valor de la variable independiente se grafica con
respecto al eje horizontal, y el valor de la variable dependiente se traza con respecto
al eje vertical.
Si la gráfica de dispersión indica una relación que, en términos generales es lineal,
entonces se ajusta una línea recta a esos datos. La ubicación precisa de esta línea
se determina mediante el método de mínimos cuadrados.
FIGURA 5.1.1 Gráficas de dispersión y las líneas de regresión asociadas, que
ilustran diversos tipos de relación entre variables.
Aplicar el método de mínimos cuadrados para determinar la recta, parabola o

curva que mejor se ajuste a un conjunto de datos.
El modelo lineal que representa el modelo de regresión lineal simple es:
Donde:
𝑦𝑖= valor de la variable dependiente n el i-ésimo ensayo u observación.
B0 -primer parámetro de la ecuación de regresión que indica el valor de la ordenada
del origen cuando x = 0
B1 -segundo parámetro de la ecuación de regresión, que indica la pendiente de la
línea de regresión, es decir, el valor que aumenta la variable Y (si es +) o
disminuye (si es -), por cada unidad que aumente X.
xi = el valor especificado de la variable independiente en el i-ésimo ensayo u
observación.
ei -error aleatorio de muestreo en el i-ésimo ensayo u observación.
Los valores B0 y B1 del modelo de regresión lineal se estiman mediante los valores
b0 y b1, con base en datos muestrales; así, la ecuación de regresión lineal, con base
en datos muestrales es:
yˆ  b0  b1 x
Al depender del criterio matemático que se utilice, pueden elaborarse diversas
ecuaciones lineales distintas para una gráfica de dispersión determinada. De
acuerdo con el criterio de mínimos cuadrados, la línea de regresión que mejor se
ajusta (y su correspondiente ecuación) es aquella para lo cual se minimiza la suma
de cuadrados de las desviaciones. Entre los valores estimados y los observados de
la variable dependiente, las fórmulas de cálculo para determinar los valores de b0 y
b1 de la ecuación de regresión lineal que satisface el criterio de mínimos
cuadrados son:
 xy  nx y
b1 
 x 2  nx 2
b0  y  b1 x
Una vez que se plantea la ecuación de regresión puede utilizarse para estimar el
valor de la variable dependiente para un determinado valor de la variable
independiente. Sin embargo, estas estimaciones deben hacerse sólo en el rango de
valores dentro de los que se muestreó originalmente la variable independiente,
porque no existe base estadística (para suponer que la línea de regresión es
apropiada fuera de sus límites.
Varianza de la regresión
Aunque la recta de mínimos cuadrados es la recta que mejor se ajusta a los puntos,
todavía muchos de estos se desvían de él. La medida numérica de tales
desviaciones es el estimador de la varianza de la regresión de la población, que se
define como:
n 1 2
s 2( y / x )  ( s y  b1 s x2 )
2
n2
Error estándar de la estimación
La raíz cuadrada positiva de la expresión de la varianza de la regresión, es llamada
error estándar de estimación, esto es:
n 1 2
sy  ( s y  b1 s x2 )
2
x n2
Para probar la hipótesis nula: se utiliza la tabla de distribución t de Student con n-2
grados de libertad ya que se desconoce la varianza poblacional: el estimador se
define:
sy
sb1  x
X 2
 nX 2
Utilizando el estadístico de prueba t de Student
b1
t 
sb1
Esta es una distribución de variables continuas para muestra pequeñas (n≤30) y
además no se conoce la varianza poblacional.
Correlación
En contraste con el análisis de regresión que se usa cuando nos interesa establecer
el tipo de relación que hay entre dos variables, en el análisis de correlación se usa
cuando se mide el grado o intensidad de relación entre las variables, sin importar
cuál es la causa y cuál es el efecto.
Suposiciones:
Las suposiciones sobre la población en las que se basa el análisis de correlación
son:
 Ambas variables son aleatorias, como tales no deben ser designadas como
dependiente e independiente: cualquier designación dará el mismo resultado.
 La distribución es normal.
 La relación entre las dos variables es lineal.
 Para cada una de las variables, las variaciones condicionales (varianza) para
diferentes valores de la otra son iguales.
Coeficiente de Determinación (𝒓𝟐 )

Indica el porcentaje de la varianza de la variable y que queda explicada por la variable
x
La medida del grado de relación de las variables se denomina coeficiente de
correlación.
2
2
∑ 𝑥𝑦 − (𝑛)((𝑥
̅ )(𝑦
̅)
𝑟 =[ ] 𝑥100
(𝑛 − 1)(𝑆𝑥 )(𝑆𝑦 )
Donde:
2(∑ 𝑥)2
𝑆𝑥 = ∑ 𝑥 −
𝑛
2
(∑ 𝑦)2
𝑆𝑦 = ∑ 𝑦 −
𝑛
Coeficiente de Correlación ( r )
𝒓 = √𝒓𝟐
La medida del grado de relación de las variables se denomina coeficiente de
correlación
Interpretación de r
a) Si r=1, la correlación es perfecta, es decir entre las variables hay dependencia
lineal exacta y además, esta dependencia es positiva.
b) Si r=-1, la correlación es perfecta y negativa
c) Si r= 0, no existe relación lineal entre las variables.
La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto
más débil a medida que se aproxima a 0.
Como complemento a estos valores de r, cabe efectuar las siguientes
puntualizaciones
1) Un coeficiente de correlación próximo a cero no debe interpretarse
necesariamente escaso grado de asociación entre las variables, ya que r solo
mide la intensidad de una relación lineal y la relación puede ser estrecha, pero
no lineal.
2) A veces resulta lógico pensar que, si existe correlación alta, una variable es
causa de la otra, pero a veces se puede encontrar ante una correlación sin
sentido, como, por ejemplo, relacionar el número de periódicos vendidos en
España en un determinado año con el número de teléfonos instalados en
Japón ese mismo año, aunque se obtenga desde el punto de vista estadístico
que ambas variables están relacionadas, en este caso es obvio que no tiene
sentido la relación.
Ejemplo 1:
Suponga que un analista toma una muestra aleatoria de 10 embarques
recientemente enviados por camión de una compañía y registra la distancia en
kilómetros y el tiempo de entrega, al medio día más cercano, y a partir del momento
en que el embarque estuvo listo para su transportación.
A) Construya una gráfica de dispersión para los datos de la tabla y ajuste la ecuación
de la recta.
B) Estime el tiempo de entrega, desde el momento que el embarque está disponible
para un viaje de 1000 km.
C) ¿Se podría utilizar la ecuación de la recta de regresión para estimar el tiempo de
entrega para un embarque de 2500 km?
D) Calcular el error de estándar de la estimación.
F) Calcule el coeficiente de correlación e interprételo con los datos de la siguiente
tabla:
Tabla5.1 Observaciones muestrales de transporte y tiempo de
entrega para 10 embarques elegidos al azar.
EMBARQUE
1 2 3 4 5 6 7 8 9 10
MUESTREADO
Distancia en
825 215 1070 550 480 920 1350 325 670 1215
kilómetros (x)
Tiempo de
entrega en días 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
(y)
Solución:
A) Utilizando Excel se construye la gráfica, colocando en el eje x la distancia en
km y en el eje y tiempo en días
Diagrama de dispersion de los datos
6
Tiempo en días
5
4
3
2
1
0
0 500 1000 1500
Distancia del transporte (km)
Como primer paso es un análisis de regresión al representar los puntos en un

diagrama de dispersión en el cual se puede observar que los puntos siguen una
relación lineal, por lo que se puede determinar la recta de ajuste.
Tabla 5.2 Hoja de trabajo para calcular los valores utilizados en Regresión
Lineal simple
Se calcula b0 y b1 por las fórmulas:

 xy  nxy 26370  (10)(762)(2.85)
b1    0.0036
 x 2  nx 2 7104300  (10)(762) 2
b0  y  b1 x  2.85  (0.0036 )(762)  0.11

La ecuación de la recta es:
yˆ  0.11  0.0036 X
Enseguida encontramos los valores ajustados:

𝑦̂1 = 0.11 + 0.0036 (825) = 3.08
𝑦̂2 = 0.11 + 0.0036 (215) = 0.88
𝑦̂3 = 0.11 + 0.0036 (1070) = 3.96
𝑦̂4 = 0.11 + 0.0036 (550) = 2.09
𝑦̂5 = 0.11 + 0.0036 (480) = 1.84
𝑦̂6 = 0.11 + 0.036 (920) = 3.42
𝑦̂7 = 0.11 + 0.036 (1350) = 4.97
𝑦̂8 0.11 + 0.036 (325) = 1.28
𝑦̂9 =0.11 + 0.036 (670) = 2.52
𝑦̂10 =0.11 + 0.036 (1215) = 4.48
Con estos datos ajustados se grafica en el diagrama de dispersión, la recta ajustada.

Gráfica de Regresion lineal simple
3
y
200 400 600 800 1000 1200 1400

x
Deben observarse las líneas punteadas que indican la cantidad de desviación entre
cada uno de los valores muestreados de y y el valor estimado correspondiente, ŷ
Es la suma de estas desviaciones al cuadrado lo que minimiza mediante la línea de
regresión.
Ahora calculamos los residuales y los graficamos:

e  y  yˆ
e1  3.5  3.08  0.42
e2  1.0  0.88  0.12 FIGURA 3.2
e3  4.0  3.96  0.04
e4  2.0  2.09  0.09 0.6
0.3
e5  1.0  1.84  0.84
Residual e
0
e6  3.0  3.42  0.42 -0.3 0 1 2 3 4 5
-0.6
e7  4.5  4.97  0.47 -0.9
e8  1.5  1.28  0.22 -1.2
e9  3.0  2.52  0.48 Valor ajustado y
e10  5.0  4.48  0.52
B) Para estimar el tiempo de entrega, desde el momento que el embarque esta

disponible para un viaje de 1000 Km.
Se utiliza la ecuación de la recta de regresión:
yˆ  0.11  0.0036(1000 )  3.71 días

C) ¿Se podría utilizar la ecuación de la recta de regresión para estimar el tiempo de
entrega para un embarque de 2500 km?
No, porque los datos muestrales para esta ecuación de regresión se incluyeron
solamente datos de distancia de hasta 1350 km.
Ajuste
El criterio de los mínimos cuadrados, implica que la recta elegida para ajustar los
puntos del diagrama de dispersión sea tal, que la suma de los cuadrados de las
distancias verticales entre los puntos y la recta sea lo más pequeña posible.
Si los datos no se ajustan a un modelo lineal, este resultado estaría mostrando una
pendiente cero de la población.
D) Calcular el error de estándar de la estimación
9
sy  2.058  (0.0036 ) 2 (144206 .67 )  0.46
x 8
E) Al utilizar el estimador, pruebe la hipótesis nula Ho: B1=0 la para la distancia de

viaje y el tiempo de entrega, utilizando un nivel de significancia del 5%.
Primeramente, se plantea la hipótesis:
H0: B1 = 0 (no hay relación significativa entre la distancia y el tiempo de entrega)
Ha: B1 ≠ 0 (si hay relación significativa entre la distancia y el tiempo de entrega)
Se calcula el estimador Sb1
Sy.x.
Sb1 
 x 2  nx 2
0.46 0.46 0.46 0.46

Sb1      0.0004
7104300  10(762)2 7104300  5806440 1297860 1139 .24
En las tablas de distribución t de Student se calcula la t critica para g.l = n -2 = 10 –

2 = 8, α=0.05/2
Buscando en tablas la t critica con 8 g.l y α 0.025= ± 2.306
t crítica (g.l.  8,   0.05)  2.306
b1 b1 0.0036
t t   9.0
Sb1 Sb1 0.0004
Como el valor calculado de t de +9.0 se encuentra en una de las regiones de rechazo
para esta prueba con dos criterios de calificación, se concluye que existe una relación
significativa entre la distancia y el tiempo de entrega.
f) calcule el Coeficiente de determinación e interprételo
2
∑ 𝑥𝑦 − (𝑛)((𝑥
̅ )(𝑦
̅)
𝑟2 = [ ] 𝑥100
(𝑛 − 1)(𝑆𝑥 )(𝑆𝑦 )
2
2
26370 − (10)(762)(2.85)
𝑟 =[ ] 𝑥100
(10 − 1)(379.4)(1.43)
2
26370 − 21717)
𝑟2 = [ ] 𝑥100
(9)(379.4)(1.43)
2
2
4653)
𝑟 =[ ] 𝑥100
(4882.878
𝑟 2 = [0.95]2 𝑥100
𝑟 2 = 0.91𝑥100
𝑟 2 = 91%
Interpretación: el 91 % de la varianza del tiempo de entrega (Y) queda explicada por
la distancia (X), el 9 % restante se debe a otras variables.
g) Calcule el coeficiente de correlación e interprételo

Se calcula r por la fórmula:
𝒓 = √𝒓𝟐 = √𝟎. 𝟗𝟏 = 𝟎. 𝟗𝟓
El valor positivo de la correlación se basa en que la pendiente b1 de la línea de
regresión es positiva y como r está muy próximo a + 1 el grado de asociación entre
las variables, distancia y tiempo de entrega es muy alto, confirmándose lo que
concluimos en la prueba de hipótesis.
Ejemplo 2:
En la tabla 2 se presentan datos que relacionan el número de semanas de
experiencia en un trabajo de instalación de cables de componentes electrónicos en
miniatura, y el número de componentes que se rechazaron la semana pasada para
12 trabajadores seleccionados al azar:
TABLA 2 Semanas de experiencia y número de componentes rechazados

durante una semana muestreada para 12 trabajadores.
Trabajador
1 2 3 4 5 6 7 8 9 10 11 12
muestreado
Semanas
7 9 6 14 8 12 10 4 2 11 1 8
Experiencia
Número
26 20 28 16 23 18 24 26 38 22 32 25
rechazos
a) Haga un diagrama de dispersión.

b) Determine la ecuación de regresión y grafique la recta de regresión sobre el
diagrama de dispersión. Comente la naturaleza de la relación, según señala
la ecuación de regresión.
c) Pruebe la hipótesis nula de que no existe relación entre variables y que la
pendiente de la recta poblacional es cero, utilizando un nivel de significancia
del 5%.
d) Estime el número de componentes rechazados para un empleado con tres
semanas de experiencia en el empleo.
e) Determine el coeficiente de determinación y el de correlación e interprete.
f) Pruebe la hipótesis nula de que R=0 utilizando un nivel de significancia del
1%.
Solución:
a) Diagrama de dispersión.
DIAGRAMA DE DISPERSIÓN
40
35
NÚMERO DE
RECHAZOS
30
25
20
15
10
5
0
0 2 4 6 8 10 12 14 16
SEMANAS DE EXPERIENCIA
 xy  nx y 2048  12(7.67)( 24.83) 2048  2285 .3532  237 .3532

b) b1      1.40
 x 2  nx 2 876  12(7.67) 2 876  705 .9468 170 .0532
b0  y  b1 x  24.83  (1.40)(7.67)  24.83  10.738  35.46
TrabajadorSemanas Número
de expe- de recha-
muestreado xy X2 Y2 ŷ
riencia zos (y)
1 7 26 182 25.7
2 9 20 180 22.9
3 6 28 168 27.1
4 14 16 224 15.9
5 8 23 184 24.3
6 12 18 216 18.7
7 10 24 240 21.5
8 4 26 104 29.9
9 2 38 76 32.7
10 11 22 242 20.1
11 1 32 32 34.1
12 8 25 200 24.3
Media 7.67 24.83
 92 298 2040 876 7798
S 3.94 6.01
Por lo tanto la ecuación de regresión es: yˆ  35.5  1.40( x)

Según la ecuación de regresión existe una relación inversa entre x e y.
y diríamos que por cada semana menos de experiencia que tenga el trabajador, se
rechazan 1.40 componentes electrónicos.
yˆ  35.5  1.40(7)  25.7
yˆ  35.5  1.40(9)  22.9
yˆ  35.5  1.40(6)  27.1
yˆ  35.5  1.40(14)  15.9
yˆ  35.5  1.40(8)  24.3
yˆ  35.5  1.40(12)  18.7 .
yˆ  35.5  1.40(10)  21.5
yˆ  35.5  1.40(4)  29.9
yˆ  35.5  1.40(2)  32.7
yˆ  35.5  1.40(11)  20.1
yˆ  35.5  1.40(1)  20.1
yˆ  35.5  1.40(8)  24.3
c) Ho: B1=0
Ha: B1  0
t crítica (n - 2 g.l.,   0.05 2) t crítica (12 - 2 g.l.,   0.05 2)

tcrítica (10 g.l.,   0.025)  2.228
 y 2  b0  y  b1  xy (7798)  (35.5)(298)  (1.40)(2048)

Sy.x.  
n2 12  2
7798  10579  2867 .2 86.2
Sy.x.    8.62  2.94
10 10
Sy.x.
Sb1 
 x 2  nx 2
2.94 2.94 2.94 2.94
Sb1      0.2255
876  12(7.67) 2
876  705.9468 170.0532 13.040
𝑏1 −1.40
𝑡𝑐 = = = −6.21
𝑠𝑏1 0.2255
Conclusión: Se rechaza Ho: B1=0 y se acepta la alternativa, por lo que se dice que
si hay una relación significativa entre las dos variables, es decir, entre las semanas
de experiencia del trabajador y el número de componentes rechazados.
d) yˆ  35.5  1.40(3)  31.3

veamos otra forma de calcular 𝑟 2
b0  y  b1  xy  ny 2 (35.5)(298)  (1.40)(2048 )  (12)(24.83) 2

e) r 2 .  r 2. 
 y 2  ny 2 7798  12(24.83) 2
10579  2867 .2  7398 .3468 313.4532

r 2.    0.78
7798  7398 .3468 399.6532
Lo que indica que aproximadamente el 78% de la varianza de y (número de

componentes rechazados) se explica por la variable x (semanas de experiencia), y
que el resto, 22% se debe a otras variables.
r 2  r  0.78  0.88
Conclusión:
Como r está muy próximo a -1 indica que el grado de asociación entre las semanas
de experiencia del trabajador y el número de componentes rechazados es alto.
PROBLEMAS PROPUESTOS
1. Un comerciante al menudeo llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los siguientes
datos:
Costos de xy X2 Y2
Ventas (y)
publicidad (x)
40 385
20 400
25 395
20 365
30 475
50 440
40 490
20 420
50 560
40 525
25 480
50 510
 = 410  =5445 191325 15650 2512925
x =34.17 y =453.75
a) Dibuje un diagrama de dispersión

b) Encuentre la ecuación de la recta de regresión para pronosticar las ventas
semanales resultantes de los gastos de publicidad. Grafique e interprete la
naturaleza de la relación.
c) Estime las ventas semanales cuando los gastos de publicidad ascienden a
$35.00.
d) Pruebe la hipótesis nula de que no existe relación entre variables, y que la
pendiente de la recta poblacional de regresión es cero utilizando un nivel de
significancia del 5%.
e) Calcule e interprete el coeficiente de determinación y de correlación.
2. A continuación se presentan datos muestrales sobre el número de horas de
estudio invertidas por los estudiantes fuera de clase, durante un periodo de 3
semanas, para un curso de estadística de negocios, con sus calificaciones que
obtuvieron en un examen aplicado al final de ese periodo.
Estudiante 1 2 3 4 5 6 7 8
muestreado
Horas de 20 16 34 23 27 32 18 22
estudio (x)
Calificación 64 61 84 70 88 92 72 77
del examen
a) Realice un diagrama de dispersión para estos datos.

b) Determine la recta de regresión de mínimos cuadrados y trace la recta sobre
el diagrama de dispersión.
c) Estime la calificación que obtendrá en el examen si invierte 25 horas de
estudio.
d) Determine los residuales y construya una gráfica de residuales con los valores
ajustados y compare esta gráfica con el diagrama de dispersión.
e) Calcule el error estándar del estimador (Sx.y) utilizando los residuales.
f) Pruebe la hipótesis nula de que la pendiente de la recta de regresión B0,
utilizando un nivel de significancia del 1%, e interprete el resultado de esta
prueba.
g) Calcule el coeficiente de determinación e interprételo. Calcule el coeficiente
de correlación.
h) Pruebe la hipótesis nula de que R=0 utilizando el nivel de significancia del 1%.

Unidad V PDF

Cargado por

Copyright:

Formatos disponibles

Unidad V PDF

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad V PDF

Cargado por

Copyright:

Formatos disponibles

UNIDAD V: REGRESION LINEAL SIMPLE

Se puede definir a la Regresión, como una correlación matemática basada en la

Y = a + b *X (ecuación matemática de la recta)

Y = es la variable dependiente (de estudio)

El número de accidentes en carretera y

La simple observación de este gráfico permite extraer las siguientes conclusiones:

1) Que efectivamente existe relación entre las dos variables.

Un diagrama de dispersiones, es un diagrama en el que se traza cada uno de los

Aplicar el método de mínimos cuadrados para determinar la recta, parabola o

El modelo lineal que representa el modelo de regresión lineal simple es:

Utilizando el estadístico de prueba t de Student

Coeficiente de Determinación (𝒓𝟐 )

Diagrama de dispersion de los datos

Como primer paso es un análisis de regresión al representar los puntos en un

Se calcula b0 y b1 por las fórmulas:

b0  y  b1 x  2.85  (0.0036 )(762)  0.11

Enseguida encontramos los valores ajustados:

Con estos datos ajustados se grafica en el diagrama de dispersión, la recta ajustada.

200 400 600 800 1000 1200 1400

Ahora calculamos los residuales y los graficamos:

e9  3.0  2.52  0.48 Valor ajustado y

e10  5.0  4.48  0.52

B) Para estimar el tiempo de entrega, desde el momento que el embarque esta

yˆ  0.11  0.0036(1000 )  3.71 días

D) Calcular el error de estándar de la estimación

E) Al utilizar el estimador, pruebe la hipótesis nula Ho: B1=0 la para la distancia de

0.46 0.46 0.46 0.46

En las tablas de distribución t de Student se calcula la t critica para g.l = n -2 = 10 –

Buscando en tablas la t critica con 8 g.l y α 0.025= ± 2.306

t crítica (g.l.  8,   0.05)  2.306

g) Calcule el coeficiente de correlación e interprételo

TABLA 2 Semanas de experiencia y número de componentes rechazados

a) Haga un diagrama de dispersión.

 xy  nx y 2048  12(7.67)( 24.83) 2048  2285 .3532  237 .3532

Por lo tanto la ecuación de regresión es: yˆ  35.5  1.40( x)

t crítica (n - 2 g.l.,   0.05 2) t crítica (12 - 2 g.l.,   0.05 2)

 y 2  b0  y  b1  xy (7798)  (35.5)(298)  (1.40)(2048)

d) yˆ  35.5  1.40(3)  31.3

b0  y  b1  xy  ny 2 (35.5)(298)  (1.40)(2048 )  (12)(24.83) 2

10579  2867 .2  7398 .3468 313.4532

Lo que indica que aproximadamente el 78% de la varianza de y (número de

a) Dibuje un diagrama de dispersión

a) Realice un diagrama de dispersión para estos datos.

También podría gustarte