Regresión Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 36

UNIVERSIDAD NACIONAL DE SAN CRISTÓBAL DE

HUAMANGA
FACULTAD DE CIENCIAS DE LA SALUD
ESCUELA DE FARMACIA Y
BIOQUÍMICA

Regresión lineal simple

E S TA D Í S T I C A APLICADA A LA SALUD
D O C E N T E : B A U T I S TA LÓ P E Z , L U I S
Contenidos:

• El objeto del análisis de regresión


• La especificación de un modelo de regresión lineal simple
• Estimadores de mínimos cuadrados: construcción y propiedades
• Inferencias sobre el modelo de regresión:
• Inferencia sobre la pendiente
• Inferencia sobre la varianza
• Estimación de una respuesta promedio
• Predicción de una nueva respuesta
Objetivos de aprendizaje
• Saber construir un modelo de regresión lineal simple que
describa como influye una variable X sobre otra variable Y.
• Saber obtener estimaciones puntuales de los parámetros de
dicho modelo.
• Saber construir intervalos de confianza y resolver contrastes
sobre dichos parámetros.
• Saber estimar el valor promedio de Y para un valor de X.
• Saber predecir futuros de la variable respuesta, Y
Regresión lineal
El objetivo de un modelo de regresión es tratar de explicar la relación que existe
entre una variable dependiente (variable respuesta) Y un conjunto de variables
independientes (variables explicativas).

• X: Variable independiente o explicativas o exógenas.


• Y: Variable dependiente o respuesta o endógenas.

Modelo de regresión lineal simple:


Trata de explicar la relación que existe entre la variable respuesta Y y una única
variable explicativa X.
Modelo de regresión lineal múltiple:
Tratamos de explicar la relación que existe entre la variable respuesta Y varias
variable explicativas 𝑥1 , 𝑥2 , … 𝑥𝑛, .

4
Ejemplos:

• Estudiar como influye la estatura del padre sobre la


estatura del hijo.
• Estimar el precio de una vivienda en función de su
superficie.
• Predecir la tasa de paro cardiaco para cada edad.
• Aproximar la calificación obtenida en una materia según el
número de horas de estudio semanal.
• Prever el tiempo de computación de un programa en
función de la velocidad del procesador.
Tipos de relación
• Determinista: Tanto la variable dependiente (y) como la independiente (x)
quedan perfectamente establecidos formando una línea perfecta.
Cuyo modelo es :
y = f (x)

Ejemplo: La relación existente entre la temperatura en grados centígrados (X) y


grados Fahrenheit (Y ) es:
y = 1,8x + 32
No determinista: Se pueden conocer el valor de X, el valor de Y no queda perfectamente
establecido. Son del tipo:
y = f (x) + u
donde u es una perturbación desconocida (variable aleatoria).
Ejemplo: Se tiene una muestra del volumen de producción (X) y el costo total (Y )
asociado a un producto en un grupo de empresas.
Existe relación pero no es exacta.
Lineal: Cuando la función f (x) es lineal,
f (x) = β0 + β1x
• Si β1 > 0 hay relación lineal positiva.
• Si β1 < 0 hay relación lineal negativa.

Los datos tienen un aspecto recto


No lineal: Cuando la función f (x) no es lineal.

Por ejemplo, f (x) = log(x), f (x) = x 2 + 3, . . .


Ausencia de relaci´on: Cuando f (x) = 0.

Los datos no tienen un aspecto recto.


La covarianza
Una medida de la dependencia lineal es la covarianza:

• Si hay relación lineal positiva, la covarianza será positiva y grande.


• Si hay relación lineal negativa, la covarianza será negativa y grande en valor
absoluto.
• Si hay no hay relación entre las variables o la relación es marcadamente no lineal, la
covarianza será próxima a cero.
El coeficiente de correlación lineal
Una medida de la dependencia lineal que no depende de las unidades de medida es el
coeficiente de correlación lineal:
𝑐𝑜𝑣 (𝑥, 𝑦)
𝑟(𝑥, 𝑦) = 𝑐𝑜𝑟 (𝑥, 𝑦) =
𝑠𝑥 𝑠𝑦
donde:
Modelo de regresión lineal
Donde:
𝜷𝟎 : es la ordenada en el origen (el valor que toma Y
cuando X vale 0), otras palabras el intercepto de la
recta y el eje y.
𝜷𝟏 : es la pendiente de la recta (indica cómo cambia
Y al incrementar X en una unidad).
𝒖𝒊 ∶ una variable que incluye un conjunto grande de
factores, cada uno de los cuales influye en la
respuesta sólo en pequeña magnitud, a la que
llamaremos error.
Hipótesis del modelo de regresión lineal simple
Ejemplo: Los datos de la producción de trigo en toneladas (X) y el precio del kilo de
harina en pesetas (Y ) :
Producción de trigo (x): 30 28 32 25 25 25 22 24 35 40
Precio de la harina (y): 25 30 27 40 42 40 50 45 30 25
Ajusta la recta de regresión por el método de mínimos cuadrados
1. Se supone que el alargamiento de un cable de acero está relacionado linealmente con la
intensidad de la fuerza aplicada. Cinco especímenes idénticos de cable dieron los resultados
siguientes:

(a) Estudia el grado de asociación lineal entre ambas variables


(b) Predice el alargamiento para una fuerza de 2.2.

2. Los siguientes datos se refieren al crecimiento de una colonia de bacterias en un medio de cultivo:
X: 3 6 9 12 15 18
Y: 115000 147000 239000 356000 579000 864000,
Siendo X el número de días desde la inoculación e Y el número de bacterias.
Comprobar gráfica y numéricamente que el tipo de asociación entre ambas variables no es lineal.
3. Las bodegas modernas utilizan vehículos guiados computarizados y automatizados para el manejo de
materiales. En consecuencia, la disposición física de la bodega debe diseñarse con cuidado a modo de evitar el
congestionamiento de los vehículos y optimar el tiempo de respuesta. En The journal of Engineering for Industry
(agosto 1993) se estudió el diseño óptimo de una bodega automatizada. La disposición empleada supone que los
vehículos no se bloquean entre sí cuando viajan dentro de la bodega, es decir, no hay congestionamiento. La
validez de este supuesto se verificó simulando por ordenador las operaciones de la bodega. En cada simulación se
varió el número de vehículos y se registró el tiempo de congestionamiento (tiempo total que un vehículo bloquea
a otro). Los datos se muestran en la tabla de abajo. Los investigadores están interesados en conocer la relación
entre el tiempo de congestionamiento (Y) y el número de vehículos (X).

(a) Cuantifica la dependencia lineal existente entre ambas variables.


(b) ¿Es significativa la dependencia lineal entre las variables?.
(c) Obtén la recta de regresión que expresa el tiempo de congestión en función del número de vehículos.
(d) Predice linealmente el tiempo de congestión cuando el número de vehículos es de 12. ¿En qué medida
es fiable tal predicción?
4. Se ha realizado un estudio para investigar el efecto de un determinado proceso térmico en la dureza de
una determinada pieza. Once piezas se seleccionaron para el estudio. Antes del tratamiento se realizaron
pruebas de dureza para determinar la dureza de cada pieza. Después, las piezas fueron sometidas a un
proceso térmico de templado con el fin de mejorar su dureza. Al final del proceso, se realizaron nuevamente
pruebas de dureza y se obtuvo una segunda lectura. Se recogieron los siguientes datos (Kg. de presión):

Dureza previa: 182 232 191 200 148 249 276 213 241 480 262
Dureza posterior: 198 210 194 220 138 220 219 161 210 313 226

(a) Calcula la media, mediana, percentiles 25 y 75 de la dureza antes y después del proceso.
(b) Calcula la desviación típica en ambos casos. ¿En qué caso hay mayor variabilidad?.
(c) ¿Se puede afirmar que el proceso de templado mejora la dureza de las piezas?.
(d) Decide si un modelo lineal es adecuado para explicar la dureza posterior en función de la dureza previa.
En caso afirmativo obtenlo y predice la dureza tras el proceso de templado de una pieza con un dureza
previa de 215.
5 En la muestra de 12 estudiantes que rindieron en un examen de simulacro y una pruebas de selección. Para ver si
un modelo de regresión lineal tiene sentido, comenzamos dibujando un diagrama de dispersión.

25
Fórmulas reducidas
1. Coeficiente de correlación

27
Coeficiente de correlación:

La correlación entre dos variables de obtiene mediante la


siguiente fórmula:

𝑛 σ 𝑥𝑦 − (σ 𝑥)(σ 𝑦)
𝑟=
[𝑛 σ 𝑥 2 − (σ 𝑥)2 ][𝑛 σ 𝑦 2 − (σ 𝑦)2 ]

Donde:
x: variable independiente
y: variable dependiente

Correlación positiva: Las dos variables crecen


Correlación negativa: Una variable crece y la otra decrece.

28
Propiedades del coeficiente de correlación

a) No tiene dimensión, y siempre toma valores en [-1,1].


b) Si las variables son independientes, entonces r=0, pero el inverso no tiene por
qué ser cierto.
c) Si existe una relación lineal exacta entre X e Y, entonces r valdría 1 (relación
directa) ó -1 (relación inversa).
d) Si r > 0, esto indica una relación directa entre las variables (es decir, que si
aumentamos X, también aumenta Y).
e) Si r < 0, la correlación entre las variables es inversa (si aumentamos una, la
otra disminuye)

29
2. Método de mínimos cuadrados

Observación:
1. Es totalmente incorrecto despejar X de la ecuación Y = a + bx para calcular la recta de
regresión de X sobre Y.

2. La recta de regresión pasa siempre por el centro de gravedad de la nube de puntos, es


decir por el punto (𝑥,
ഥ 𝑦).

30
Ejemplo:

El dueño de una empresa que vende carros desea determinar si hay relación lineal
entre los años de experiencia de sus vendedores y la cantidad de carros que
venden. Los siguientes datos representan los años de experiencia (X) y las
unidades de carros vendidas al año (Y), de 10 vendedores de la empresa.

X (años) 3 4 6 7 8 12 15 20 22 26
y (Ventas) 9 12 16 19 23 27 34 37 40 45

a. Determine la regresión lineal


b. Realice las predicciones si el trabajador tiene 5 y 19 años de experiencia.

31
Hallamos la correlación i X (años) y (Ventas) xy x2 y2
1 3 9 27 9 81
2 4 12 48 16 144
𝑛 σ 𝑥𝑦 − (σ 𝑥)(σ 𝑦) 3 6 16 96 36 256
𝑟= 4 7 19 133 49 361

[𝑛 σ 𝑥 2 − (σ 𝑥)2 ][𝑛 σ 𝑦 2 − (σ 𝑦)2 ] 5


6
8
12
23
27
184
324
64
144
529
729
7 15 34 510 225 1156
8 20 37 740 400 1369
Reemplazamos los valores 9 22 40 880 484 1600
10 26 45 1170 676 2025

10 4112 − (123)(262) Total 123 262 4112 2103 8250

𝑟=
[10 2103 − 1232 ][10 8250 − 2622 ]

𝑟 = 0.9835929

Interpretación: Existe una muy buena relación lineal entre los años de experiencia y las unidades que vende el
vendedor. Además mientras más experiencia tiene el vendedor más carros venderá. Se puede usar los años de
experiencia para predecir las unidades que venderá anualmente a través de una línea recta.

32
Aplicación en Excel

33
Método de mínimos cuadrados

i X (años) y (Ventas) xy x2 y2
1 3 9 27 9 81
2 4 12 48 16 144
3 6 16 96 36 256
4 7 19 133 49 361
5 8 23 184 64 529

10 4112 − (123)(262) 6 12 27 324 144 729

𝑏= 2 = 1.5072 7 15 34 510 225 1156

10 2103 − (123) 8
9
20
22
37
40
740
880
400
484
1369
1600
10 26 45 1170 676 2025
Total 123 262 4112 2103 8250

262 − 1.5072(123)
𝑎= = 7.66144
10
34
Propiedades

ECUACIÓN LINEAL

Aquí tenemos el modelo de regresión lineal

𝑦 = 7.661 + 1.507𝑥
35
Propiedades

Ejercicio: los siguientes datos corresponden a los precios de los terrenos en venta.

a. Realice la ecuación de regresión lineal y pronostique el


precio si el área es de 4000; 2500 y 3500.

36

También podría gustarte