Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 35

CAPITULO 5: ANALISIS ESTADISTICO IV

Sesión 1: Correlación y Regresión II


Coeficiente de correlación
Una vez que los diagramas de dispersión se han usado para buscar correlaciones, un coeficiente
de correlación puede usarse para medir la fuerza de cualquier correlación.

El análisis de correlación pone una magnitud cuantificable en la relación gráfica del diagrama de
dispersión.

 Un coeficiente de correlación se usa para medir el grado de asociación linear (correlación) entre
conjuntos de datos continuos.
 El coeficiente de correlación se refiere como “r.”

 El rango posible de “r” es: +1 hasta -1


 r = +1 Relación positiva perfecta
 r= 0 No existe relación linear
 r = -1 Relación negativa perfecta
(mientras el valor de r sea más alto, más fuerte será la correlación)

 El coeficiente de correlación (r):


 Refleja el grado en el que los puntos de datos están agrupados firmemente.
 A veces se le denomina coeficiente de variación de Pearson.
Interpretación del coeficiente de correlación
Ejemplos de diagramas de dispersión y sus coeficientes de correlación asociados:

Indica una fuerte correlación

Tiempo de ciclo de pago


r = - 0.98 positiva, así que el valor r es muy
50 r = +0.06
Velocidad de respuesta

elevado. El r es un número positivo


para representar la inclinación hacia
30 arriba.
Interpretación: mientras haya más
representantes en una central
10 telefónica, mayor será el tiempo de 30
100 110 120 llamada. 100 110 120
N.º de representantes N.º de representantes
50
r = +0.96
Indica una fuerte correlación Indica que no existe correlación,
Tiempo de llamada

negativa, así que el valor r es muy así que el valor de r es muy bajo.
elevado. El r es un número
Interpretación: no existe relación
negativo para representar la
entre la cantidad de
inclinación hacia abajo.
representantes de una central
Interpretación: mientras haya más 10 telefónica y el tiempo de ciclo de
representantes en una central 100 110 120
reclamos.
telefónica disponibles, más rápido No. de recepcionistas
será el tiempo de respuesta.
Interpretación del coeficiente de
correlación
 Antes de poder usar el coeficiente de correlación, se
deberá evaluar el significado estadístico de la
correlación.
 Debido a la naturaleza inconsistente de los datos, es
posible que un diagrama de dispersión sugiera una
correlación entre variables cuando, en realidad, no exista
ninguna.
 Hay un mayor riesgo de que esto ocurra si un r = - 0.98
diagrama de dispersión se basa en una muestra
pequeña

Efecto-y
 Para resolver este problema, se debe revisar el valor-p
correspondiente al coeficiente de correlación
 Así como pasa en la prueba de hipótesis, un valor-p es
generado para un coeficiente de correlación que use
un software estadístico. r = - 0.98
 Si el valor-p es < 0.05, se puede tener un 95% de Valor-p 0.000
seguridad de la existencia de la correlación.
Regresión lineal – Cómo funciona
 El análisis de regresión tiene su propia medida para la
fuerza de la relación. Esta medida es el cuadrado del
coeficiente de correlación, y se le denomina simplemente
como “r-cuadrado” (R-sq).

 R-cuadrado es la medida de cuánta variación en el


resultado del proceso es tomada en cuenta en el modelo.
Otra maneara de verlo, es la medida de qué tan bien la
línea de regresión describe los datos. (Así, mientras más se
acerque al 100%, será mejor).

 Ya que es un valor cuadrado, puede ir desde 0 hasta 1


positivo.
 Se define como la proporción de la variabilidad en Y Y
(el resultado) que se explica por la X ( el aporte y/o el
proceso).

 El proceso de regresión crea una línea que refleja X


mejor la relación entre el proceso o el aporte (X) y el
resultado (Y).
Análisis de la regresión lineal
 La regresión lineal desarrolla un modelo matemático para representar los datos en un
diagrama de dispersión
 Define la relación matemática entre dos variables
 Genera una línea de curva ajustada que cuantifica la relación entre X e Y
 Permite predecir el valor de Y con un valor de X dado Residuales

 La ecuación de la regresión o de la línea es


representada de las siguiente manera:
Línea
y = b0 + b1 “multiplicado por” x 1, donde de curva
ajustada
y = resultado Y

x1 = un aporte
b1 = la inclinación de la línea (se eleva, o cambia
en Y por incremento de unidad en X)
b0 = el valor predicho de y cuando x1 = 0 X1
Regresión lineal – Cómo funciona
 El análisis de regresión tiene su propia medida para la
fuerza de la relación. Esta medida es el cuadrado del
coeficiente de correlación, y se le denomina simplemente
como “r-cuadrado” (R-sq).

 R-cuadrado es la medida de cuánta variación en el


resultado del proceso es tomada en cuenta en el modelo.
Otra maneara de verlo, es la medida de qué tan bien la
línea de regresión describe los datos. (Así, mientras más se
acerque al 100%, será mejor).

 Ya que es un valor cuadrado, puede ir desde 0 hasta 1


positivo.
 Se define como la proporción de la variabilidad en Y Y
(el resultado) que se explica por la X ( el aporte y/o el
proceso).

 El proceso de regresión crea una línea que refleja X


mejor la relación entre el proceso o el aporte (X) y el
resultado (Y).
Interpretación de la regresión lineal
Existen dos valores que se generan a partir del análisis de regresión y que sirven como
indicadores de cómo interpretar los resultados de la regresión:
Valor-p
Valor de R-sq
Interpretación del valor-p:
Hipótesis nula
H0: inclinación = 0 (o sin diferencia en Y cuando X cambia)
Hipótesis alternativa
Ha: inclinación = 0 (o Y cambia cuando X cambia)
Interpretación del valor R-sq:
Representa la cantidad de la variación en el resultado del
proceso que se toma en cuenta en el modelo, de manera
que mientras más se acerque al 100%, se podrá tener más
confianza en los resultados.
Ejemplo de la interpretación de la
Teoría:
regresión lineal
 Un equipo de Lean Six Sigma quería ver si la
cantidad de representantes de centrales

Velocidad de respuesta
telefónicas afectaba en la velocidad de
respuesta.
Y
Pasos tomados:
 Con sus datos realizaron en primer lugar un
diagrama de dispersión y obtuvieron un valor-r.
 Después, realizaron un análisis de regresión en
un programa de software estadístico para crear X1
una línea de curva ajustada.
N.º de reps. de central telefónica
 Finalmente obtuvieron el valor R-sq y el valor P
Los resultados: Interpretación:
 El número de representantes de la central telefónica afecta
 R-sq = 95.4% considerablemente en la velocidad de respuesta (95.4% de la variación
en la velocidad de respuesta se explica con la cantidad de
 Valor-p = 0.0 representantes).
 Esto es X fundamental (ya que p < 0.05,se rechaza H0, y se determina que
Y cambia cuando X cambia)
Consejos y trampas de la regresión
¡No trate de realizar predicciones más allá del rango de sus datos!

0.055
El rango de los datos termina aquí

0.045
Índice de abandono

0.035

0.025

0.015

0.005

10 20 30
Velocidad de respuesta
Ejemplo de Correlación
\DataFile\Correlat.mtw

En dos estaciones se realiza la medida del voltaje de la potencia


suministrada.
¿Hay correlación?
Minitab: Stat>basic stat>correlation

Correlación de Estación 1 y Estación 2 = 0.959, P-Value = 0.000

Las dos están fuertemente correlacionadas (0.959)

¿Es razonable ésto?

?
¿Está satisfecho con 0.959?
¿Qué significa ésto para usted?
¿Que apariencia tienen los datos actualmente?
¿Cómo podría ponerlo de manifiesto?
Minitab
Ejemplo de Correlación
\DataFile\Correlat.mtw

En dos estaciones se realiza la medida del voltaje de la potencia


suministrada.
¿Hay correlación?
Minitab: Stat>basic stat>correlation

Correlación de Estación 1 y Estación 2 = 0.959, P-Value = 0.000

Las dos están fuertemente correlacionadas (0.959)

¿Es razonable ésto?

?
¿Está satisfecho con 0.959?
¿Qué significa ésto para usted?
¿Que apariencia tienen los datos actualmente?
¿Cómo podría ponerlo de manifiesto?
Minitab
Ejemplo 1 Continuación

¿En qué difiere este


gráfico del anterior?
Gráfica de línea ajustada
Station 1 = 1.020 + 0.8729 Station 2
9.5 S 0.0557288
¿Qué implicaciones
R-cuad. 92.0%
9.4 R-cuad.(ajustado) 91.5% tiene?
9.3

9.2
Station 1

9.1
¿Qué acción tomaría?
9.0

8.9

8.8

8.7

8.6

8.6 8.8 9.0 9.2 9.4 9.6


Station 2
Minitab
Fitted Line Plot
Station 1 = 1.020 + 0.8729 Station 2
Regression
9.50 95% CI
95% PI

S 0.0557288
9.25 R-Sq 92.0%
R-Sq(adj) 91.5%
Station 1

9.00

8.75

8.50

8.6 8.8 9.0 9.2 9.4 9.6


Station 2
Minitab
Residual Plots for Station 1
Normal Probability Plot Versus Fits
99
0.10
90
0.05

Residual
Percent

50
0.00

10 -0.05

1 -0.10
-0.10 -0.05 0.00 0.05 0.10 8.50 8.75 9.00 9.25 9.50
Residual Fitted Value

Histogram Versus Order


4.8
0.10

3.6
Frequency

0.05

Residual
2.4 0.00

1.2 -0.05

0.0 -0.10
-0.05 0.00 0.05 0.10 2 4 6 8 10 12 14 16 18 20
Residual Observation Order
Minitab
Recogida del Conjunto de Datos
\DataFile\Cases.mtw Para estudiar la resistencia de fundas de joyas, se
hicieron al mismo tiempo, y en cada lote, pequeñas
Número piezas de funda para realizar un test.
Muestra Test Pieza Funda

1 61 52 Para determinar si la pieza de ensayo es capaz de


2 48 67 predecir la resistencia de los lotes, 31 de ellas y
3 50 69
4 66 85
muestras de fundas de joyas fueron elegidas
5 73 88 aleatoriamente.
6 84 70
7 57 84
8 83 78 Usaremos este ejemplo para profundizar un poco más
9 76 90 en la regresión.
10 95 97
11 73 79 Ver los resultados a la izquierda.
12 78 95
Método de los Mínimos Cuadrados
Método de los Mínimos Cuadrados Se utiliza un método
100
denominado “mínimos
cuadrados” para calcular la

}r “línea que mejor ajusta”


90

80 minimizando los residuos r.


Cases (Y)

i
Las distancias verticales
} r1
70

60 r2{ r1, r2, r3, son ejemplos de


residuos, distancia desde
50 el dato observado hasta
40 la línea.
40 50 60 70 80 90 100
Test Piece (X)
¿Los Residuos son positivos,
negativos o cero?
Método de los Mínimos Cuadrados
100

}r
90 Un residuo puede ser
positivo, negativo o cero:
Cases (Y)

80
i
70 Positivo: punto encima línea
60 r2{ }r1 Negativo: punto debajo línea

Cero: punto sobre la línea


50

40
40 50 60 70 80 90 100
Test Piece (X)

Residuo, ri =Yi -Yajuste (ó Observado - Predicho)


Análisis con Minitab
Stat>Regression>Fitted Line Plot

Seleccione la variable-Y (Cases) como respuesta.


Seleccione la variable-X (Test Piece) como predictor.
Recogida del Conjunto de Datos
\DataFile\Cases.mtw Para estudiar la resistencia de fundas de joyas, se
hicieron al mismo tiempo, y en cada lote, pequeñas
Número piezas de funda para realizar un test.
Muestra Test Pieza Funda

1 61 52 Para determinar si la pieza de ensayo es capaz de


2 48 67 predecir la resistencia de los lotes, 31 de ellas y
3 50 69
4 66 85
muestras de fundas de joyas fueron elegidas
5 73 88 aleatoriamente.
6 84 70
7 57 84
8 83 78 Usaremos este ejemplo para profundizar un poco más
9 76 90 en la regresión.
10 95 97
11 73 79 Ver los resultados a la izquierda.
12 78 95
Método de los Mínimos Cuadrados
Método de los Mínimos Cuadrados Se utiliza un método
100
denominado “mínimos
cuadrados” para calcular la

}r “línea que mejor ajusta”


90

80 minimizando los residuos r.


Cases (Y)

i
Las distancias verticales
} r1
70

60 r2{ r1, r2, r3, son ejemplos de


residuos, distancia desde
50 el dato observado hasta
40 la línea.
40 50 60 70 80 90 100
Test Piece (X)
¿Los Residuos son positivos,
negativos o cero?
Método de los Mínimos Cuadrados
100

}r
90 Un residuo puede ser
positivo, negativo o cero:
Cases (Y)

80
i
70 Positivo: punto encima línea
60 r2{ }r1 Negativo: punto debajo línea

Cero: punto sobre la línea


50

40
40 50 60 70 80 90 100
Test Piece (X)

Residuo, ri =Yi -Yajuste (ó Observado - Predicho)


Análisis con Minitab
Stat>Regression>Fitted Line Plot

Seleccione la variable-Y (Cases) como respuesta.


Seleccione la variable-X (Test Piece) como predictor.
Minitab
Análisis de Regresión en Minitab
Los resultados del análisis de regresión se dan por escrito en la ventana
“Session”. Esta es la primera parte de la salida de Minitab.

Regression Analysis

La Ecuación de Regresión es
Cases = 22.47 + 0.755 Test Piece

Coeficiente del término constante = 22.47


Coeficiente del Predictor X = 0.755

Puesto que es una línea de mínimos cuadrados, es imposible encontrar una línea
recta que tenga una suma de cuadrados de los residuos más pequeña.
Análisis con Minitab de “Cases” 1
Esta es la segunda parte de la salida:

Predictor Coef SE Coef T P


Constant 22.47 10.22 2.20 0.036
Test Pie 0.7546 0.1417 5.32 0.000

P < 0.05 generalmente significa que existe una relación real entre el predictor,
X, y la respuesta, Y.
Análisis con Minitab del
Conjunto de Datos
Otra parte de la salida es el Análisis de Varianza (ANOVA):

Análisis de Varianza

Fuente DF SS MS F P
Regresión 1 3757.4 3757.4 28.35 0.000
Error 29 3844.0 132.6
Total 30 7601.4
Análisis con Minitab de “Cases” 3
Unusual Observations
Obs Test Pie Cases Fit StDev Fit Residual St Resid
28 75.0 52.00 79.06 2.16 -27.06 -2.39R

R denotes an observation with a large standardized residual.

La parte final de la salida nos informa acerca de los residuos que son grandes.
Tales observaciones son posibles “outliers”.

La 28ª observación tiene un valor Y = 52


La línea de mejor ajuste predice una Y = 79.06
El residuo de esta observación es 52 - 79.06 = -27.06
¿Qué Confianza tenemos en la predicción?

Stat>Regression>Fitted
Line Plot
Seleccionar

Seleccionar “Fits y
Residuals”

Seleccionar
Intervalos de Confianza
Fitted Line Plot
Cases = 22.47 + 0.7546 Test Piece

120 Regression
95% CI
95% PI

100 S 11.5131
R-Sq 49.4%
R-Sq(adj) 47.7%
80
Cases

Intervalo de Confianza
60 para la línea ajustada

40
Intervalo de confianza
para las predicciónes
20
40 50 60
individuales
70 80 90 100
Test Piece
Worksheet: cases.MTW

También podría gustarte