Unidad V PDF
Unidad V PDF
Unidad V PDF
INTRODUCCIÓN
En muchas ocasiones es necesario establecer la naturaleza de la relación entre dos
o más variables. Puede ser que también necesitamos predecir por ejemplo el
rendimiento académico de un estudiante, dado que se conoce la nota obtenida en
las pruebas de admisión, o la dureza de un metal si se conoce la resistencia, o el
peso en kilos de una persona si se conoce la edad. En todas estas situaciones la
precisión de nuestra predicción dependerá de la fuerza de la relación.
Esto nos lleva al estudio de la correlación y de la regresión.
La correlación se refiere a la fuerza de la relación entre los valores de las variables.
El análisis de regresión determina la naturaleza de la relación y nos permite hacer
predicciones, pues representa la relación, por medio de una ecuación.
La regresión y la correlación son dos técnicas, que comprenden una forma de
estimación y que están estrechamente relacionadas entre si.
Los primeros estudios como regresión datan del científico inglés Sir Francis Galton
(1822 – 1911) en sus observaciones relacionadas con genética (herencia).
Galton, dedicado a las investigaciones de la genética, trato de establecer la relación
entre las características de padre e hijo. Al comparar las alturas de padres con las
de sus respectivos hijos, notó que cuando los padres eran altos, los hijos en general,
no alcanzaban sus alturas y cuando los padres eran bajos de estatura, los hijos
tendrán a ser más altos que sus padres, de lo que concluyó que las características
genéticas tendían a regresar a un valor medio de la población.
El análisis de regresión es útil para determinar la forma probable de relación entre
las variables (la ecuación que relaciona a ambas variables) cuando hay un fenómeno
de causa y efecto.
Su objetivo principal, al evaluar la relación entre dos variables, es realizar
predicciones más precisas. Si se ha establecido una relación entre los valores de
dos variables, conocer entonces, el valor una variable ayudará a predecir el valor de
la otra.
Distinguir entre variable dependiente e independiente
En el mundo real es bastante frecuente encontrar dos o más variables. Sin estar
ligadas entre sí por una relación matemática exacta, se mueven, sin embargo, con
una sincronización (interdependencia) más o menos intensa.
Ejemplos:
El número de vehículos matriculados en un momento dado y el número
de accidentes.
El conocer el número de vehículos matriculados en un momento dado no nos permite
saber con exactitud cuál será el número de accidentes; sin embargo a partir de las
técnicas estadísticas de regresión y correlación se puede realizar una estimación
que permita afirmar, con mayor o menor confianza, cuál será el número de
accidentes en función del comportamiento simultaneo de los dos variables de estudio
• El número de libros vendidos con el desarrollo económico de los
diferentes países.
• Talla y peso de los soldados de un regimiento.
• Calificaciones en Física y Matemáticas de los alumnos de una clase.
• Gastos de publicidad y ventas de una fábrica.
Donde, la variable X se conoce con el nombre de variable independiente (está bajo
el control del investigador, y sus valores son fijos) y la variable Y como variable
dependiente.
Supuestos:
• La variable dependiente Y es una variable aleatoria.
• Los valores de la variable independiente X son fijos, y a X se le llama variable
no aleatoria.
• La variable dependiente e independiente tienen una relación lineal.
• Para cada valor de X, existe un conjunto de valores de Y, que deben seguir
una distribución normal (es decir, los valores de Y deben ser normales), para
aplicar con validez los procedimientos de inferencia y/o estimación.
• Todas las varianzas de las subpoblaciones de Y son iguales.
5.1.1 Prueba de Hipótesis en la regresión lineal simple
Para probar hipótesis acerca de la pendiente y la ordenada en el origen del modelo
de regresión, debe hacerse la suposición adicional de que término del error εi esta
normalmente distribuido. Por lo tanto, se supone que los errores εi tiene distribución
normal N (0,σ2). Después se pueden probar las suposiciones mediante el análisis
de residuos. Supongamos que el experimentador desea probar la hipótesis de que
la pendiente es igual a un cierto valor, por ejemplo, β1,0. Las hipótesis apropiadas
son:
Ho: 𝛽1 = 0 (𝑛𝑜 ℎ𝑎𝑦 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠)
Ha:𝛽1 ≠ 0 ( ℎ𝑎𝑦 𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑒𝑛𝑡𝑟𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠)
Definir la ecuación de regresión y cuál es su aplicación
La regresión lineal simple intenta determinar una línea recta o una ecuación lineal
que describa la relación entre dos variables. Las ecuaciones de regresión pueden
ser utilizadas de diversas formas, veamos algunas aplicaciones:
1. Estimar los valores de una variable con base en los valores conocidos de otra, por
ejemplo, la inversión en publicidad y el monto de ventas son dos variables que
pueden estar relacionadas de tal forma que si se conoce la primera se puede
obtener una estimación de la segunda.
2. Para explicar valores de una variable en términos de la otra, es decir, se puede
intuir una relación de causa efecto entre dos variables, por ejemplo: cambios en
las ventas explicadas en términos de gastos de publicidad. Vale la pena tener en
cuenta que la lógica de la relación proviene de teorías externas al campo de la
estadística, es decir, que el análisis de regresión no puede establecer si una
variable causa la otra, sólo indica la relación matemática si la hay.
3. Predecir valores futuros de una variable, por ejemplo: tendencia de las ventas a
través del tiempo, crecimiento de la población en un periodo de tiempo, costo de
la canasta familiar o índice de precios al consumidor.
Por lo que se puede decir que, la regresión se refiere al procedimiento de obtener
una ecuación con fines de estimación o predicción, la variable a estimar o predecir
se denomina variable dependiente y la otra variable, aquella que proporciona la base
para la estimación se denomina variable independiente.
Es este tipo de distribución bidimensional es fundamental la representación gráfica
de los valores de las dos variables. Esto es así porque cuando se analizan los
comportamientos de dos variables, lo que implícitamente se está buscando es qué
tipo de relación existen entre ellas.
Por ejemplo:
150
100
50
0
0 200 400 600 800
Vehiculos m atriculados
Donde:
𝑦𝑖= valor de la variable dependiente n el i-ésimo ensayo u observación.
B0 -primer parámetro de la ecuación de regresión que indica el valor de la ordenada
del origen cuando x = 0
B1 -segundo parámetro de la ecuación de regresión, que indica la pendiente de la
línea de regresión, es decir, el valor que aumenta la variable Y (si es +) o
disminuye (si es -), por cada unidad que aumente X.
xi = el valor especificado de la variable independiente en el i-ésimo ensayo u
observación.
ei -error aleatorio de muestreo en el i-ésimo ensayo u observación.
Los valores B0 y B1 del modelo de regresión lineal se estiman mediante los valores
b0 y b1, con base en datos muestrales; así, la ecuación de regresión lineal, con base
en datos muestrales es:
yˆ b0 b1 x
Al depender del criterio matemático que se utilice, pueden elaborarse diversas
ecuaciones lineales distintas para una gráfica de dispersión determinada. De
acuerdo con el criterio de mínimos cuadrados, la línea de regresión que mejor se
ajusta (y su correspondiente ecuación) es aquella para lo cual se minimiza la suma
de cuadrados de las desviaciones. Entre los valores estimados y los observados de
la variable dependiente, las fórmulas de cálculo para determinar los valores de b0 y
b1 de la ecuación de regresión lineal que satisface el criterio de mínimos
cuadrados son:
xy nx y
b1
x 2 nx 2
b0 y b1 x
Una vez que se plantea la ecuación de regresión puede utilizarse para estimar el
valor de la variable dependiente para un determinado valor de la variable
independiente. Sin embargo, estas estimaciones deben hacerse sólo en el rango de
valores dentro de los que se muestreó originalmente la variable independiente,
porque no existe base estadística (para suponer que la línea de regresión es
apropiada fuera de sus límites.
Varianza de la regresión
Aunque la recta de mínimos cuadrados es la recta que mejor se ajusta a los puntos,
todavía muchos de estos se desvían de él. La medida numérica de tales
desviaciones es el estimador de la varianza de la regresión de la población, que se
define como:
n 1 2
s 2( y / x ) ( s y b1 s x2 )
2
n2
Error estándar de la estimación
La raíz cuadrada positiva de la expresión de la varianza de la regresión, es llamada
error estándar de estimación, esto es:
n 1 2
sy ( s y b1 s x2 )
2
x n2
Para probar la hipótesis nula: se utiliza la tabla de distribución t de Student con n-2
grados de libertad ya que se desconoce la varianza poblacional: el estimador se
define:
sy
sb1 x
X 2
nX 2
b1
t
sb1
Esta es una distribución de variables continuas para muestra pequeñas (n≤30) y
además no se conoce la varianza poblacional.
Correlación
En contraste con el análisis de regresión que se usa cuando nos interesa establecer
el tipo de relación que hay entre dos variables, en el análisis de correlación se usa
cuando se mide el grado o intensidad de relación entre las variables, sin importar
cuál es la causa y cuál es el efecto.
Suposiciones:
Las suposiciones sobre la población en las que se basa el análisis de correlación
son:
Ambas variables son aleatorias, como tales no deben ser designadas como
dependiente e independiente: cualquier designación dará el mismo resultado.
La distribución es normal.
La relación entre las dos variables es lineal.
Para cada una de las variables, las variaciones condicionales (varianza) para
diferentes valores de la otra son iguales.
2(∑ 𝑥)2
𝑆𝑥 = ∑ 𝑥 −
𝑛
2
(∑ 𝑦)2
𝑆𝑦 = ∑ 𝑦 −
𝑛
Coeficiente de Correlación ( r )
𝒓 = √𝒓𝟐
La medida del grado de relación de las variables se denomina coeficiente de
correlación
Interpretación de r
a) Si r=1, la correlación es perfecta, es decir entre las variables hay dependencia
lineal exacta y además, esta dependencia es positiva.
b) Si r=-1, la correlación es perfecta y negativa
c) Si r= 0, no existe relación lineal entre las variables.
La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto
más débil a medida que se aproxima a 0.
Como complemento a estos valores de r, cabe efectuar las siguientes
puntualizaciones
1) Un coeficiente de correlación próximo a cero no debe interpretarse
necesariamente escaso grado de asociación entre las variables, ya que r solo
mide la intensidad de una relación lineal y la relación puede ser estrecha, pero
no lineal.
2) A veces resulta lógico pensar que, si existe correlación alta, una variable es
causa de la otra, pero a veces se puede encontrar ante una correlación sin
sentido, como, por ejemplo, relacionar el número de periódicos vendidos en
España en un determinado año con el número de teléfonos instalados en
Japón ese mismo año, aunque se obtenga desde el punto de vista estadístico
que ambas variables están relacionadas, en este caso es obvio que no tiene
sentido la relación.
Ejemplo 1:
Suponga que un analista toma una muestra aleatoria de 10 embarques
recientemente enviados por camión de una compañía y registra la distancia en
kilómetros y el tiempo de entrega, al medio día más cercano, y a partir del momento
en que el embarque estuvo listo para su transportación.
A) Construya una gráfica de dispersión para los datos de la tabla y ajuste la ecuación
de la recta.
B) Estime el tiempo de entrega, desde el momento que el embarque está disponible
para un viaje de 1000 km.
C) ¿Se podría utilizar la ecuación de la recta de regresión para estimar el tiempo de
entrega para un embarque de 2500 km?
D) Calcular el error de estándar de la estimación.
F) Calcule el coeficiente de correlación e interprételo con los datos de la siguiente
tabla:
Tabla5.1 Observaciones muestrales de transporte y tiempo de
entrega para 10 embarques elegidos al azar.
EMBARQUE
1 2 3 4 5 6 7 8 9 10
MUESTREADO
Distancia en
825 215 1070 550 480 920 1350 325 670 1215
kilómetros (x)
Tiempo de
entrega en días 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0
(y)
Solución:
A) Utilizando Excel se construye la gráfica, colocando en el eje x la distancia en
km y en el eje y tiempo en días
6
Tiempo en días
5
4
3
2
1
0
0 500 1000 1500
Distancia del transporte (km)
yˆ 0.11 0.0036 X
3
y
Deben observarse las líneas punteadas que indican la cantidad de desviación entre
cada uno de los valores muestreados de y y el valor estimado correspondiente, ŷ
Es la suma de estas desviaciones al cuadrado lo que minimiza mediante la línea de
regresión.
Residual e
0
e6 3.0 3.42 0.42 -0.3 0 1 2 3 4 5
-0.6
e7 4.5 4.97 0.47 -0.9
e8 1.5 1.28 0.22 -1.2
9
sy 2.058 (0.0036 ) 2 (144206 .67 ) 0.46
x 8
b1 b1 0.0036
t t 9.0
Sb1 Sb1 0.0004
Como el valor calculado de t de +9.0 se encuentra en una de las regiones de rechazo
para esta prueba con dos criterios de calificación, se concluye que existe una relación
significativa entre la distancia y el tiempo de entrega.
f) calcule el Coeficiente de determinación e interprételo
2
∑ 𝑥𝑦 − (𝑛)((𝑥
̅ )(𝑦
̅)
𝑟2 = [ ] 𝑥100
(𝑛 − 1)(𝑆𝑥 )(𝑆𝑦 )
2
2
26370 − (10)(762)(2.85)
𝑟 =[ ] 𝑥100
(10 − 1)(379.4)(1.43)
2
26370 − 21717)
𝑟2 = [ ] 𝑥100
(9)(379.4)(1.43)
2
2
4653)
𝑟 =[ ] 𝑥100
(4882.878
𝑟 2 = [0.95]2 𝑥100
𝑟 2 = 0.91𝑥100
𝑟 2 = 91%
Interpretación: el 91 % de la varianza del tiempo de entrega (Y) queda explicada por
la distancia (X), el 9 % restante se debe a otras variables.
Ejemplo 2:
En la tabla 2 se presentan datos que relacionan el número de semanas de
experiencia en un trabajo de instalación de cables de componentes electrónicos en
miniatura, y el número de componentes que se rechazaron la semana pasada para
12 trabajadores seleccionados al azar:
Solución:
a) Diagrama de dispersión.
DIAGRAMA DE DISPERSIÓN
40
35
NÚMERO DE
RECHAZOS
30
25
20
15
10
5
0
0 2 4 6 8 10 12 14 16
SEMANAS DE EXPERIENCIA
TrabajadorSemanas Número
de expe- de recha-
muestreado xy X2 Y2 ŷ
riencia zos (y)
1 7 26 182 25.7
2 9 20 180 22.9
3 6 28 168 27.1
4 14 16 224 15.9
5 8 23 184 24.3
6 12 18 216 18.7
7 10 24 240 21.5
8 4 26 104 29.9
9 2 38 76 32.7
10 11 22 242 20.1
11 1 32 32 34.1
12 8 25 200 24.3
Media 7.67 24.83
92 298 2040 876 7798
S 3.94 6.01
c) Ho: B1=0
Ha: B1 0
Sy.x.
Sb1
x 2 nx 2
2.94 2.94 2.94 2.94
Sb1 0.2255
876 12(7.67) 2
876 705.9468 170.0532 13.040
𝑏1 −1.40
𝑡𝑐 = = = −6.21
𝑠𝑏1 0.2255
Conclusión: Se rechaza Ho: B1=0 y se acepta la alternativa, por lo que se dice que
si hay una relación significativa entre las dos variables, es decir, entre las semanas
de experiencia del trabajador y el número de componentes rechazados.
r 2 r 0.78 0.88
Conclusión:
Como r está muy próximo a -1 indica que el grado de asociación entre las semanas
de experiencia del trabajador y el número de componentes rechazados es alto.
PROBLEMAS PROPUESTOS
1. Un comerciante al menudeo llevó a cabo un estudio para determinar la relación
entre los gastos de publicidad semanal y las ventas. Se obtuvieron los siguientes
datos:
Costos de xy X2 Y2
Ventas (y)
publicidad (x)
40 385
20 400
25 395
20 365
30 475
50 440
40 490
20 420
50 560
40 525
25 480
50 510
= 410 =5445 191325 15650 2512925
x =34.17 y =453.75
Estudiante 1 2 3 4 5 6 7 8
muestreado
Horas de 20 16 34 23 27 32 18 22
estudio (x)
Calificación 64 61 84 70 88 92 72 77
del examen