UNIDAD 5 VALIDEZ DE UNA ECUACIÓN DE REGRESIÓN Error Estándar de Estimación y Coeficiente de Determinación

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 11

UNIVERSIDAD DE CUENCA

Facultad de Ciencias Económicas y Administrativas

Material de Clase
Carrera: CONTABILIDAD Y AUDITORÍA
Docente: Econ. Catalina Salgado Córdova

Validez de una ecuación de regresión (Evaluación de la capacidad predictiva de una


ecuación)

a) Pruebas de significancia
b) Error estándar de estimación
c) Coeficiente de determinación

A) Prueba de significancia de la pendiente

Esta prueba se realiza para probar la significancia de la pendiente. En el caso de una


muestra la pendiente de la recta se designa por b, en el caso de la población por la letra
griega beta ( β ).
Las hipótesis a probar son:
Ho: β=0 La pendiente no es significativa
Ha: β ≠ 0 La pendiente es significativa

En el caso de no ser significativa la pendiente, es decir que β=0, se concluye que la variable
independiente (X) no es una buena opción para estimar la variable dependiente (Y). En estos
^ ).
casos es preferible utilizar el promedio de Y (Ý ¿para hacer estimaciones de Y (Y

El estadístico de prueba es t con n-2 gl.

Fórmula del estadístico de prueba:

b− β
t=
sB

Donde:
b Pendiente de la regresión de la ecuación de la muestra.
Β Pendiente de la regresión de la ecuación de la población
sB Error estándar de la pendiente

Procedimiento para calcular el error estándar de la pendiente:

1. Encontrar la media de la variable dependiente (Y) y de la variable independiente (X).

x́=
∑x
n

Ý =
∑Y
n
2. Encontrar la desviación estándar de la variable dependiente y de la variable
dependiente.
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

SX=
√ ∑ ( X− X́ )
n−1
2

SY =
√ ∑ ( Y −Ý )
n−1
3. Determinar el coeficiente de correlación (r).

r=
∑ ( X− X́ )( Y −Ý )
( n−1 ) s x s y
4. Determinar el valor de la pendiente (b).
sY
b=r
sX
5. Determinar el valor de la intersección (a).
a=Ý −b X́
6. Determinar la ecuación de regresión:
Y^ =a+bX
7. Determinar la suma de cuadrados del error o residuo.
2
SSE=∑ ( Y −Y^ )
8. Determinar la estimación de la varianza de los residuos
2
2
s=
∑ ( Y −Y^ )
e
n−2
9. Determinar el error estándar de la pendiente.
s 2e
s B=
√ ∑ ( X− X́ )
2

Ejemplo:
Representante No. de No. Copiadoras
llamadas vendidas (Y)
(X)
1 20 30
2 40 60
3 20 40
4 30 60
5 10 30
6 10 40
7 20 40
8 20 50
9 20 30
10 30 70

Datos:

x́=22

Ý =45
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

S X =¿9.19

SY =14.34

r =0.7588
b=1.184
a=¿ 18.95
Y^ =18.95+ 1.184 X

^
Calcular la suma de cuadrados de las diferencias entre el valor de Y y el valor estimado de Y ( Y
).
No. No. de No. Y estimado ( Y −Y^ )2 ( X − X́ )
2

llamada Copiadoras Y^
s (X) vendidas (Y)
1 20 30 42,632 159,567 4
2 40 60 66,312 39,8413 324
3 20 40 42,632 6,927 4
4 30 60 54,472 30,5588 64
5 10 30 30,792 0,6273 144
6 10 40 30,792 84,7873 144
7 20 40 42,632 6,9274 4
8 20 50 42,632 54,2874 4
9 20 30 42,632 159,5674 4
10 30 70 54,472 241,1188 64
784,2097 760
Determinar la estimación de la varianza de los residuos
2
2
s=
∑ ( Y −Y^ )
e
n−2
784,2097
s2e =
10−2
2
se =¿ 98,0262

Determinar el error estándar de la pendiente.


s 2e
s B=
√ ∑ ( X− X́ )
98,0262
2

s B=
√760
s B=0.3591

Prueba de hipótesis de la pendiente


¿La pendiente es significativa?

1. Hipótesis
Ho: β=0
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

Ha: β ≠ 0
2. Nivel de significancia
α= 0.05
3. Estadístico de prueba crítico
t con 10-2 gl con 8gl. Prueba de dos colas
t=+ -2.306
4. Regla de decisión: Si al calcular el estadístico de prueba t este está entre -2.306 y
+2.306 se acepta la hipótesis nula, de lo contrario se acepta la hipótesis alternativa.

-2.306 2.306 3,3 Escala t

5. calcular el estadístico de prueba

b− β
t=
sB
1,184−0
t=
0.3591
t=3,2971

6. Conclusión:
Con un nivel de significancia de 0,05 existe suficiente evidencia estadística para
aceptar que la pendiente de la ecuación de regresión es significativa, por lo tanto, es
diferente de cero.

Valor p

Sirve para confirmar la aceptación o rechazo de una hipótesis nula, bajo el siguiente criterio:

Si valor p <α se rechaza la hipótesis nula.

Si el valor p>α se acepta la hipótesis nula.

Interpretar

0.10 Existe cierta evidencia de que la hipótesis nula no sea verdadera.

0.05 Existe evidencia fuerte de que la hipótesis nula no sea verdadera.

0.01 Existe evidencia muy fuerte de que la hipótesis nula no sea verdadera.

0.001 Existe evidencia extremadamente fuerte de que la hipótesis nula no sea verdadera.

Un valor t=3.3 con 8gl y una prueba de dos colas


UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

El valor t se encuentra entre 2.896 y 3.355 y tienen un nivel de significancia de 0.02 y 0.01.Por
lo tanto el valor p esta entre 0.01 y 0.02.

De acuerdo al valor p, se confirma la aceptación de la hipótesis alternativa. Existe evidencia


fuerte de que la hipótesis nula no sea verdadera.

Validez de una ecuación de regresión (Evaluación de la capacidad predictiva de una ecuación


de regresión)

Es necesario contar con una medida para describir cuán preciso es, el pronóstico de Y con base
en X, o a la inversa, qué tan inexacta puede ser la estimación. Esta medida se denomina error
estándar de estimación, simbolizado por Sy.x El subíndice y.x se interpreta como el error de Y
para un valor dado de X.

El error estándar de estimación mide la dispersión respecto de la recta de regresión.

B) ERROR ESTÁNDAR DE ESTIMACIÓN

El error estándar de estimación es la medida de la dispersión que existe entre el valor de la


variable dependiente y su valor pronosticado, elevado al cuadrado y dividido para el número
de observaciones menos dos. Proporciona una medida relativa de la capacidad de predicción
de una ecuación de regresión.
2
Suma de cuadrados de los residuos ∑ ( Y −Y^ )
2
Estimación de la varianza de los residuos: ∑ ( Y −Y^ )
n−2

2
Desviación estándar de los residuos: sy.x= se=
√ ∑ ( Y −Y^ )
n−2

La desviación estándar de los residuos se conoce como el error estándar de estimación. Y es el


típico error en la ecuación de regresión.

Si el error estándar de estimación es pequeño significa que los datos están relativamente
cercanos a la recta de regresión, y la ecuación de regresión sirve para predecir los valores
estimados de Y con poco error, es mejor el ajuste de la ecuación.

Si el error estándar de estimación es grande significa que los datos están muy dispersos
respecto a la recta de regresión, y, la ecuación de regresión no proporcionará una estimación
precisa de Y.

Ejemplo:

Determinar la estimación de la varianza de los residuos y el error estándar de estimación


referido al ejercicio número de llamadas y número de copiadoras vendidas.
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

s2e =
∑ ( Y −Y^ )
n−2
2 784,208
s=
e
10−2
2
se =¿ 98,026

2
784,2097
se=sy.x=
√ ∑ ( Y −Y^ )
n−2 √ 10−2
= 9,901

C) EL COEFICIENTE DE DETERMINACIÓN

El coeficiente de determinación es una medida que explica el porcentaje de la variación de la


variable dependiente (Y) que se explica, o contabiliza, por la variación de la variable
independiente (X). Se simboliza por r 2. Se determina elevando al cuadrado el coeficiente de
correlación.

Un coeficiente de determinación de 100% se asocia con un coeficiente de correlación de +1 o


-1.

Ejemplo: Dado el ejemplo sobre el número de llamadas y el número de copiadoras vendidas se


obtuvo un coeficiente de correlación de 0,759. Obtener el coeficiente de determinación.

r2=0,7592=0.5761 Se convierte en porcentaje: 57,61%.

Interpretación: El 57,61% de la variación en el número de copiadoras vendidas está explicado


por la variación en el número de llamadas de ventas.

Realizar autoevaluación 13-5 p.488

Consulte la autoevaluación 13-1 donde se estudió la relación entre la cantidad que gastó en
publicidad (X) y los ingresos por ventas en un mes dado (Y)

A) Determine el error estándar de estimación


B) Determine el coeficiente de determinación. Interprete el resultado.

1,8
A) se=sy.x=
√ 4−2
= 0.9487

B) r2= 0.9682= 0.9370 93,70%

El 93.70% de la variación en los ingresos por ventas en un mes dado se explica por la variación
en la cantidad que gastó en publicidad.

Relaciones entre el coeficiente de correlación, el coeficiente de determinación y el error


estándar de estimación.

El error estándar de estimación y el coeficiente de correlación están inversamente


relacionados. A medida que aumenta la fuerza de la relación lineal entre dos variables
aumenta el coeficiente de correlación y disminuye el error estándar de estimación.
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

Así mismo, sabemos que el cuadrado del coeficiente de correlación es el coeficiente de


determinación que mide el porcentaje de la variación de Y que se explica por la variación de X.

Un medio conveniente para mostrar la relación entre estas tres medidas es una tabla ANOVA.

Tabla ANOVA en el análisis de regresión:

La suma de cuadrados ANOVA se calcula como sigue:


2
Suma de regresión de los cuadrados = SSR= ∑ ( Y^ −Ý )
2
Suma del residual o error de los cuadrados = SSE= ∑ ( Y −Y^ )
2
Suma total de los cuadrados = SSTotal=∑ ( Y −Ý )

Fuente de variación Grados de Libertad Suma de Cuadrados Media Cuadrática F


gl SS MS
2
Regresión (# de variables X) 1 SSR=∑ ( Y^ −Ý ) MSR=SSR/1 F=MSR/MSE
2
Error o residual n-2 SSE=∑ ( Y −Y^ ) MSE=SSE/n- 2
2
Total n-1 SSTotal=∑ ( Y −Ý )

Coeficiente de determinación:
SSR
r 2=
SSTotal

SSE
r 2=1−
SSTotal

Ejemplo:
Fuente de variación Grados de Libertad Suma de Cuadrados Media Cuadrática F
gl SS MS
Regresión 1 1065,41 1065.41 10.87
Residual o error 8 784,21 98.03
Total 9 1849,62

Coeficiente de determinación:
SSR 1065.41
r 2= = =0.576
SSTotal 1849,62

r 2=57.6 %

SSE
r 2=1−
SSTotal

784,21
r 2=1− =0.576
1849,62
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

Realizar la autoevaluación 13-5


Consulte los datos muestrales en la autoevaluación 13-1 donde se estudió la relación entre las
ventas y la cantidad que gastó en publicidad. Elabore una tabla ANOVA para llegar al
coeficiente de determinación.
Ejemplo:
Fuente de variación Grados de Libertad Suma de Cuadrados Media Cuadrática F
gl SS MS
Regresión 1 24.2 24.2 26.89
Residual o error 2 1.80 0.9
Total 3 26

SSR 24.2
r 2= = =0.9308
SS 26

SSE
r 2=1−
SSTotal

1.8
r 2=1− =0.9308 93,08%
26

Estimaciones a través del intervalo de confianza e intervalo de predicción

El error estándar de estimación y el coeficiente de determinación son dos estadísticos que


proporcionan una evolución general de la capacidad de predicción de una ecuación de
regresión. Es decir, el hecho de predecir una variable dependiente en base a una variable
independiente. Es posible, además, calcular el intervalo de confianza del valor pronosticado de
la variable dependiente para un valor seleccionado de la variable independiente.

Suposiciones para aplicar de forma apropiada la regresión lineal:

1. Para cada valor de X, existen valores de Y. Los valores de Y siguen una distribución
normal.
2. Las medias de estas distribuciones normales se encuentran en la recta de regresión,
^ es la media de la distribución.
por lo tanto Y
3. Todas las desviaciones estándares de estas distribuciones normales son iguales y su
mejor estimación es el error estándar de estimación.
4. Todos los valores de Y son independientes.
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

Suponiendo que los valores de Y siguen una distribución normal con media Y ^ y
desviación estándar igual al error estándar de estimación (Se) o (Sx.y) se pueden
obtener los intervalos de confianza y los intervalos de predicción.

^ , dado X. (Todos)
Intervalo de confianza: Determina el intervalo para la media de Y

Fórmula: IC=Y^ ± t∗se


√ 1
+
( X − X́ )
n ∑ ( X− X́ )2
t con n-2 gl.

^ , dado un
Intervalo de predicción: Determina el intervalo para un valor puntual de Y
valor de X. (Un valor particular)

Formula:

1
IC=Y^ ± t∗se 1+ +
( X − X́ )
n ∑ ( X− X́ )2
t con n-2 gl.

Nota: Siempre el intervalo de predicción es más amplio que el intervalo de confianza.

Ejemplo: Dado el ejemplo sobre número de llamadas y ventas, calcular el intervalo de


confianza y el intervalo de predicción para 25 llamadas.
Datos:
r=0,759
Y^ =18.95+ 1.184 X
Se=9,9
NC= Nivel de confianza=95%
x́=22
X=25
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

2
∑ ( X− X́ ) =760
X=25

Y^ =18.95+ 1.184 X
Y^ =18.95+ 1.184 ( 25 )=48,5526
t con 8 gl dos colas (porque es intervalo se suma y se resta) = ± 2.306
Intervalo de confianza:
2

IC=Y^ ± t∗se
1

+
( X − X́ )
n ∑ ( X− X́ )2

2
1 ( 25−22 )
IC=48,5526± 2,306∗9,9
√ 10
+
760
IC=48,5526± 7,6356
Li= 40,917

Ls= 56,1882

Interpretación: Para todos los vendedores que realicen 25 llamadas se espera que las ventas
varíen entre 40,9 y 56,2 copiadoras.

Intervalo de predicción: Si queremos estimar el número de copiadoras que vendió Doménica


Rojas, quien hizo 25 llamadas con un nivel de confianza del 95%
2


1
IC=Y^ ± t∗se 1+ +
( X − X́ )
n ∑ ( X− X́ )2

2
1 (25−22 )
IC=48,5526± 2,306∗9,9 1+ +
10 √ 760
IC=48,5526± 24.072
Li= 24,4806

Ls= 72,6244

Interpretación: Si la vendedora Doménica Rojas realiza 25 llamadas se espera que el promedio


de ventas varié entre 24 y 72 copiadoras.
UNIVERSIDAD DE CUENCA
Facultad de Ciencias Económicas y Administrativas

Las estimaciones son menos precisas cuando hay un alejamiento en cualquier dirección, de la
media de la variable independiente. El intervalo de predicción siempre será más ancho debido
al 1 adicional debajo del radical

También podría gustarte