Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II
Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II
Capitulo 5: Analisis Estadistico Iv Sesión 1: Correlación y Regresión II
El análisis de correlación pone una magnitud cuantificable en la relación gráfica del diagrama de
dispersión.
Un coeficiente de correlación se usa para medir el grado de asociación linear (correlación) entre
conjuntos de datos continuos.
El coeficiente de correlación se refiere como “r.”
negativa, así que el valor r es muy así que el valor de r es muy bajo.
elevado. El r es un número
Interpretación: no existe relación
negativo para representar la
entre la cantidad de
inclinación hacia abajo.
representantes de una central
Interpretación: mientras haya más 10 telefónica y el tiempo de ciclo de
representantes en una central 100 110 120
reclamos.
telefónica disponibles, más rápido No. de recepcionistas
será el tiempo de respuesta.
Interpretación del coeficiente de
correlación
Antes de poder usar el coeficiente de correlación, se
deberá evaluar el significado estadístico de la
correlación.
Debido a la naturaleza inconsistente de los datos, es
posible que un diagrama de dispersión sugiera una
correlación entre variables cuando, en realidad, no exista
ninguna.
Hay un mayor riesgo de que esto ocurra si un r = - 0.98
diagrama de dispersión se basa en una muestra
pequeña
Efecto-y
Para resolver este problema, se debe revisar el valor-p
correspondiente al coeficiente de correlación
Así como pasa en la prueba de hipótesis, un valor-p es
generado para un coeficiente de correlación que use
un software estadístico. r = - 0.98
Si el valor-p es < 0.05, se puede tener un 95% de Valor-p 0.000
seguridad de la existencia de la correlación.
Regresión lineal – Cómo funciona
El análisis de regresión tiene su propia medida para la
fuerza de la relación. Esta medida es el cuadrado del
coeficiente de correlación, y se le denomina simplemente
como “r-cuadrado” (R-sq).
x1 = un aporte
b1 = la inclinación de la línea (se eleva, o cambia
en Y por incremento de unidad en X)
b0 = el valor predicho de y cuando x1 = 0 X1
Regresión lineal – Cómo funciona
El análisis de regresión tiene su propia medida para la
fuerza de la relación. Esta medida es el cuadrado del
coeficiente de correlación, y se le denomina simplemente
como “r-cuadrado” (R-sq).
Velocidad de respuesta
telefónicas afectaba en la velocidad de
respuesta.
Y
Pasos tomados:
Con sus datos realizaron en primer lugar un
diagrama de dispersión y obtuvieron un valor-r.
Después, realizaron un análisis de regresión en
un programa de software estadístico para crear X1
una línea de curva ajustada.
N.º de reps. de central telefónica
Finalmente obtuvieron el valor R-sq y el valor P
Los resultados: Interpretación:
El número de representantes de la central telefónica afecta
R-sq = 95.4% considerablemente en la velocidad de respuesta (95.4% de la variación
en la velocidad de respuesta se explica con la cantidad de
Valor-p = 0.0 representantes).
Esto es X fundamental (ya que p < 0.05,se rechaza H0, y se determina que
Y cambia cuando X cambia)
Consejos y trampas de la regresión
¡No trate de realizar predicciones más allá del rango de sus datos!
0.055
El rango de los datos termina aquí
0.045
Índice de abandono
0.035
0.025
0.015
0.005
10 20 30
Velocidad de respuesta
Ejemplo de Correlación
\DataFile\Correlat.mtw
?
¿Está satisfecho con 0.959?
¿Qué significa ésto para usted?
¿Que apariencia tienen los datos actualmente?
¿Cómo podría ponerlo de manifiesto?
Minitab
Ejemplo de Correlación
\DataFile\Correlat.mtw
?
¿Está satisfecho con 0.959?
¿Qué significa ésto para usted?
¿Que apariencia tienen los datos actualmente?
¿Cómo podría ponerlo de manifiesto?
Minitab
Ejemplo 1 Continuación
9.2
Station 1
9.1
¿Qué acción tomaría?
9.0
8.9
8.8
8.7
8.6
S 0.0557288
9.25 R-Sq 92.0%
R-Sq(adj) 91.5%
Station 1
9.00
8.75
8.50
Residual
Percent
50
0.00
10 -0.05
1 -0.10
-0.10 -0.05 0.00 0.05 0.10 8.50 8.75 9.00 9.25 9.50
Residual Fitted Value
3.6
Frequency
0.05
Residual
2.4 0.00
1.2 -0.05
0.0 -0.10
-0.05 0.00 0.05 0.10 2 4 6 8 10 12 14 16 18 20
Residual Observation Order
Minitab
Recogida del Conjunto de Datos
\DataFile\Cases.mtw Para estudiar la resistencia de fundas de joyas, se
hicieron al mismo tiempo, y en cada lote, pequeñas
Número piezas de funda para realizar un test.
Muestra Test Pieza Funda
i
Las distancias verticales
} r1
70
}r
90 Un residuo puede ser
positivo, negativo o cero:
Cases (Y)
80
i
70 Positivo: punto encima línea
60 r2{ }r1 Negativo: punto debajo línea
40
40 50 60 70 80 90 100
Test Piece (X)
i
Las distancias verticales
} r1
70
}r
90 Un residuo puede ser
positivo, negativo o cero:
Cases (Y)
80
i
70 Positivo: punto encima línea
60 r2{ }r1 Negativo: punto debajo línea
40
40 50 60 70 80 90 100
Test Piece (X)
Regression Analysis
La Ecuación de Regresión es
Cases = 22.47 + 0.755 Test Piece
Puesto que es una línea de mínimos cuadrados, es imposible encontrar una línea
recta que tenga una suma de cuadrados de los residuos más pequeña.
Análisis con Minitab de “Cases” 1
Esta es la segunda parte de la salida:
P < 0.05 generalmente significa que existe una relación real entre el predictor,
X, y la respuesta, Y.
Análisis con Minitab del
Conjunto de Datos
Otra parte de la salida es el Análisis de Varianza (ANOVA):
Análisis de Varianza
Fuente DF SS MS F P
Regresión 1 3757.4 3757.4 28.35 0.000
Error 29 3844.0 132.6
Total 30 7601.4
Análisis con Minitab de “Cases” 3
Unusual Observations
Obs Test Pie Cases Fit StDev Fit Residual St Resid
28 75.0 52.00 79.06 2.16 -27.06 -2.39R
La parte final de la salida nos informa acerca de los residuos que son grandes.
Tales observaciones son posibles “outliers”.
Stat>Regression>Fitted
Line Plot
Seleccionar
Seleccionar “Fits y
Residuals”
Seleccionar
Intervalos de Confianza
Fitted Line Plot
Cases = 22.47 + 0.7546 Test Piece
120 Regression
95% CI
95% PI
100 S 11.5131
R-Sq 49.4%
R-Sq(adj) 47.7%
80
Cases
Intervalo de Confianza
60 para la línea ajustada
40
Intervalo de confianza
para las predicciónes
20
40 50 60
individuales
70 80 90 100
Test Piece
Worksheet: cases.MTW