Regresion y Correlación Lineal

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 40

CORRELACIÓN

Y REGRESIÓN

Joel A. Patiño De Los Santos


Correlación

Es la relación entre dos variables


cuantitativas sin ser capaz de inferir
relaciones causales.

Correlación es una técnica estadística


utilizada para determinar el grado en
el que dos variables están
relacionadas.
• Se calculary para Dos variables cuantitativas
• Una de ellas es llamada independiente (X) y la
otra dependiente (Y)
• VARIABLE INDEPENDIENTE (X): es aquella que
su valor no depende de otra variable.
• VARIABLE DEPENDIENTE (Y): es aquella que su
valor dependerá del valor que tome una variable
independiente.
Relación positiva
Calificación final del curso

Número de horas para estudio


18

16

14
cm

12
in CMen
Estatura

10
Height

0
0 10 20 30 40 50 60 70 80 90
Edad
Age en semanas
in Weeks
Relación negativa

Confiabilidad

Edad del Auto


Sin relación
Peso (libras)

Tasa de pulso (latidos/minuto)


Coeficiente de correlación
Estadístico que muestra el grado de relación entre
las dos variables
CARACTERÍSTICAS DEL COEFICIENTE DE CORRELACIÓN

1. El coeficiente de correlación de la muestra se identifica con la


letra minúscula (r).
2. Muestra la dirección y fuerza de la relación lineal (recta) entre
dos variables cuantitativas.
3. Varía de -1 hasta 1, inclusive.
4. Un valor cercano a 0 indica que hay poca asociación entre las
variables.
5. Un valor cercano a 1 indica una asociación directa o positiva
entre las variables.
6. Un valor cercano a -1 indica una asociación inversa o negativa
entre las variables.
Coeficiente de correlación simple (r)
➢ También llamado correlación de
Pearson
➢ Mide la naturaleza y fuerza entre dos
variables cuantitativas.

El signo de r denota la naturaleza de


la asociación

Mientras que el valor de r denota la


fuerza de asociación.
➢ Si el signo es positivo, significa que la
relación es directa (un incremento en una
variable está asociado con el incremento
de la otra variable; una disminución de una
variable está asociado con la disminución
de la otra variable).

➢ Si el signo es negativo, significa una


relación inversa o indirecta (significando
que el incremento en una variable está
asociado con una disminución de la otra
variable).
➢ El valor de r está entre ( -1) y ( +1)
➢ El valor de r denota la fuerza de la
asociación como se ilustra en el siguiente
diagrama.

Negativa Positiva
fuerte intermedio débil débil intermedio fuerte

-1 -0.75 -0.25 0 0.25 0.75 1


indirecta Directa
Correlación Correlación
inversa Sin Relación directa
perfecta perfecta
Si r = cero significa que no hay asociación o
correlación entre las dos variables.

Si 0 < r < 0.25 = débil correlación.

Si 0.25 ≤ r < 0.75 = intermedia correlación.

Si 0.75 ≤ r < 1 = fuerte correlación.

Si r = l = perfecta correlación.
¿Cómo clacular el coeficiente de correlación
simple (r)?

 xy −  x y
r= n
 ( x) 2
  ( y) 
2
x −
2 .  y −
2 
 n  n 
  
Ejemplo:
Una muestra de 6 niños fue seleccionada, datos de su
edad en años y peso en kilogramos fue registrada
como se muestra en la siguiente tabla. Se requiere
encontrar la correlación entre edad y peso.

Nº Edad Peso (Kg)


serial (años)
1 7 12
2 6 8
3 8 12
4 5 10
5 6 11
6 9 13
Las dos variables son de tipo cuantitativo,
una variable (edad) es llamada
independiente y la otra (peso) es llamada
dependiente y con notación de variable Y,
para encontrar la relación entre edad y
peso, calcule el coeficiente de correlación
simple, usando la siguiente fórmula:

 xy −  x y
r = n
 ( x) 2  ( y)2 
x −
2 .  y −
2 
 n  n 
  
Número Edad Peso X*Y X2 Y2
serial (x) (y)
1 7 12 84 49 144
2 6 8 48 36 64
3 8 12 96 64 144
4 5 10 50 25 100
5 6 11 66 36 121
6 9 13 117 81 169

Total ∑x=41 ∑y=66 ∑xy= ∑x2= ∑y2=


461 291 742
41  66
461 −
r= 6
 (41) 2   (66) 2 
291 − .742 − 
 6  6 

r = 0.76, La edad y el peso (kg) tienen una fuerte


relación y a la vez es directa.
Ejemplo: Relación entre ansiedad y puntaje de
pruebas
Ansiedad Puntaje X2 Y2 XY
(X) de
prueba
(Y)
10 2 100 4 20
8 3 64 9 24
2 9 4 81 18
1 7 1 49 7
5 6 25 36 30
6 5 36 25 30
∑X =32 ∑Y =32 ∑X2 =230 ∑Y2 =204 ∑XY=129
 xy −  x y
r = n
 ( x) 2  ( y)2 
x −
2 .  y −
2 
 n  n 
  

r = -0.94, El puntaje de la prueba tiene una relación


inversa con el nivel de ansiedad y la relación es
inversa y fuerte.
Análisis de regresión
Regresión: técnica enfocada a la predicción de
algunas variables conociendo a otras.

El proceso de predecir la variable Y usando la


variable X.

Se desea estimar el valor de la variable


dependiente Y con base en un valor seleccionado
de la variable independiente X. La técnica para
desarrollar la ecuación y proporcionar las
estimaciones se denomina Análisis De Regresión.
Regresión
➢ Usa la variable (x) para predecir el valor de la
variable resultado (y)
➢ Nos dice cuanto es el valor de cambio de Y en
función del cambio en los valores de X.
Correlación y regresión

➢ Correlación describe la fuerza de una relación


lineal entre dos variables
➢ Lineal significa “línea recta”

➢ Regresión nos dice como trazar la línea recta


descrita en la correlación.
Regresión
➢ Calcule la línea que de “el mejor trazo” para un grupo de
datos
La línea de regresión hace la suma de cuadrados de los
residuales, menores a cualquier otra línea
Regresión minimiza los residuales
SBP(mmH g)
TAS(mmHg)
220

200

180

160

140

120

100
Peso
80 Kg
Wt (kg)
60 70 80 90 100 110 120
Usando el método de los cuadrados mínimos (un
procedimiento que minimiza las desviaciones
verticales de puntos trazados alrededor de la
línea recta) somos capaces de construir el mejor
trazado de la línea recta en la gráfica de puntos
dispersos y luego formular la ecuación de
regresión en la forma de:

ŷ = a + bX
 x y
 xy − n
bb1 =
( x) 2
 x 2

n
Ecuación de regresión
TAS
SBP(mm (mmHg)
Hg)
220

➢ La ecuación de 200

180
regresión describe la 160

línea de regresión 140

120

matemáticamente 100

80

◼ Intersección
Wt (kg)
Peso
60 70 80 90 100 110 120 (Kg)

◼ Pendiente
Horas estudiando y calificaciones
Regresión de calificaciones sobre horas de estudio


Regresión lineal
Linear Regression


Calificación final en el curso= 59.95 + 3.17 * horas de estudio 
90.00 Final grade in course = 59.95 + 3.17 * study
securso

R2=0.88
R -Square = 0.88


en el
e in cour



Final gradfinal

 
80.00
Calificación

 
70.00

2.00 4.00 6.00 8.00 10.00

Number
Número deof hours
horas spentenstudying
empleadas estudio

Calificación final predicha en clase =


59.95 + 3.17*(número de horas de estudio por
semana)
Calificación final en clases predicha= 59.95 + 3.17*(horas de
estudio)
Prediga la calificación final de …

◼ Alguien quien estudia 12 horas


◼ Calificación final = 59.95 + (3.17*12)
◼ Calificación final = 97.99

◼ Alguine quien estudia 1 hora:


◼ Calificación final = 59.95 + (3.17*1)
◼ Calificación final = 63.12
Ejercicio

Una muestra de 6 personas fue


seleccionada el valor de su edad
(variable x) y su peso, mostrados en la
siguiente tabla. Encuentre la ecuación de
regresión y Calcule cual sería el peso de
la persona cuando la edad es 8.5 años.
Número serial Edad (x) Peso (y)
1 7 12
2 6 8
3 8 12
4 5 10
5 6 11
6 9 13
Respuesta

Número Edad Peso X*Y X2 Y2


serial (x) (y)
1 7 12 84 49 144
2 6 8 48 36 64
3 8 12 96 64 144
4 5 10 50 25 100
5 6 11 66 36 121
6 9 13 117 81 169

Total ∑x=41 ∑y=66 ∑xy= ∑x2= 742


461 291
41  66
461 −
6 41 66
b= 2
= 0.92 x= = 6.83 y= = 11
(41) 6 6
291 −
6

Ecuación de regresión
Si la edad es 8.5 años, el peso de la persona sería:
12.6
Kg)
(in Kg) 12.4
12.2
Peso (en

12
Weight

11.8
11.6
11.4
7 7.5 8 8.5 9
Age (in(en
Edad years)
años)

Creamos una línea de regresión trazando dos


valores estimados para y contra su componente de
x, y luego extendiendo la línea a la derecha y a la
izquierda.
Ejercicio 2
Edad PA Edad PA
(x) (y) (x) (y)
20 120 46 128
Los siguientes son las
edades en años y la 43 128 53 136
presión arterial (PA) 63 141 60 146
de 20 adultos 26 126 20 124
aparentemente 53 134 63 143
sanos.
31 128 43 130
58 136 26 124
46 132 19 121
58 140 31 126
70 144 23 123
Encuentre la correlación entre
edad y presión arterial usando el
coeficiente de correlación de
Pearson y comente.
Encuentre la ecuación de
regresión
¿Cual es la presión arterial
predecible para un hombre de 25
años?
Serial x y xy x2
1 20 120 2400 400
2 43 128 5504 1849
3 63 141 8883 3969
4 26 126 3276 676
5 53 134 7102 2809
6 31 128 3968 961
7 58 136 7888 3364
8 46 132 6072 2116
9 58 140 8120 3364
10 70 144 10080 4900
Serial x y xy x2
11 46 128 5888 2116
12 53 136 7208 2809
13 60 146 8760 3600
14 20 124 2480 400
15 63 143 9009 3969
16 43 130 5590 1849
17 26 124 3224 676
18 19 121 2299 361
19 31 126 3906 961
20 23 123 2829 529
Total 852 2630 114486 41678
 x y
 xy −
n 114486 −
852  2630
b1 = = 20 = 0.4547
(  x) 2
852 2

x − n
2 41678 −
20

ŷ =112.13 + 0.4547 x

para edad 25
Presión arterial = 112.13 + 0.4547 * 25=123.49 = 123.5 mm hg

También podría gustarte