0% encontró este documento útil (0 votos)
135 vistas

Regresión Múltiple - Excel - Spss

El documento presenta un ejemplo de regresión múltiple con Excel y SPSS para estimar los parámetros de un modelo y calcular el coeficiente de determinación R^2. Se ajusta un modelo de regresión a un conjunto de datos e interpreta los resultados incluyendo intervalos de confianza, pruebas estadísticas y ecuación de regresión. Luego, presenta un segundo ejemplo utilizando datos reales para estimar el precio de monitores en función de sus características.
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
135 vistas

Regresión Múltiple - Excel - Spss

El documento presenta un ejemplo de regresión múltiple con Excel y SPSS para estimar los parámetros de un modelo y calcular el coeficiente de determinación R^2. Se ajusta un modelo de regresión a un conjunto de datos e interpreta los resultados incluyendo intervalos de confianza, pruebas estadísticas y ecuación de regresión. Luego, presenta un segundo ejemplo utilizando datos reales para estimar el precio de monitores en función de sus características.
Derechos de autor
© © All Rights Reserved
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 15

Tema: Regresión Múltiple con EXCEL y SPSS 

[email protected]
Ejemplo 1. El objetivo es ajustar un modelo de la forma   estimando los
parámetros correspondientes   y calcular el coeficiente de determinación  . Asume alfa
de 5%.
Solución: 
Primeramente crea una base de datos para las variables   de la siguiente forma:
EXCEL A B C
1 Y X1 X2
2 8 4 20
3 10 3 22
4 12 6 23
5 13 6 26
6 15 7 27
7 18 8 30
En el menú principal abrir la barra de Datos y marcar Análisis de datos con el cursor (si no
aparece la opción Análisis de datos se debe activar desde complementos la
opción Herramientas de Análisis)
Se abre la ventana Análisis de datos y en ella marcar la opción Regresión al activarla hay que
llenar los siguientes campos: 
Rango Y de entrada: Debe contener los datos de la variable dependiente. Escribe  A2:A7
Rango X de entrada: Debe contener los datos de las variables independientes DIGITA: B2:C7
Nivel de confianza: Activarla y escribir 95%.
Opciones de salida: Activar Rango de salida si quieres que los resultados del análisis se
muestren en la misma hoja de cálculo donde están los datos (debes indicar la celda donde quieres
que se muestren). Activar Hoja nueva si quieres que los resultados se muestren en una nueva hoja
de cálculo. Observa en la siguiente figura las opciones marcadas:
Luego Aceptar y los resultados se muestran de la siguiente manera:

Resumen

Estadísticas de la regresión

Coeficiente de correlación múltiple 0.989137681

Coeficiente de determinación R^2 0.978393352

R^2 ajustado 0.96398892

Error típico 0.675381634

Observaciones 6

ANÁLISIS DE VARIANZA

Promedio
Grados de Suma de Valor
de los F
libertad cuadrados crítico de F
cuadrados
 
67.923076
Regresión 2 61.9649123 30.9824561 9 0.003176

Residuos 3 1.36842105 0.45614035

Total 5 63.3333333      
Probabili Inferior Superior
Coeficientes Error típico Estadístico t
  dad 95% 95%
Intercepción -8.89474 2.808059 -3.16757 0.05058 -17.83123 0.04176
X1 0.36842 0.352627 1.04479 0.37289 -0.75380 1.49064
X2 0.78947 0.178913 4.41261 0.02160 0.22009 1.35885
Resultados de datos de
Análisis de los residuales
probabilidad
Pronóstico Residuos
Observación Residuos Percentil Y
Y estándares

1 8.3684 -0.3684211 -0.7042382 8.333333333 8

2 9.5789 0.42105263 0.80484364 25 10

3 11.4737 0.52631579 1.00605455 41.66666667 12

4 13.8421 -0.8421053 -1.6096873 58.33333333 13

5 15.0000 0 0 75 15

6 17.7368 0.26315789 0.50302727 91.66666667 18


 
De aquí se puede extraer lo siguiente:
 Intercepción =   = -8,894737
Variable X1 =    = 0,3684211
Variable X1 =    = 0,7894737

La ecuación de regresión múltiple ajustada y el coeficiente de determinación


son: 

   y su 

INTERVALOS DE CONFIANZA
Intervalo de confianza para el término constante β0 al nivel de 95%:
-17,83123 < β0 < 0,04176
Con un 95% de confianza el verdadero valor de β0 se encuentra dentro del intervalo
(-17,83123; 0,04176)
Intervalo de confianza para el parámetro β1:
--0,75380 < β1 < 1,49064
Con un 95% de confianza el verdadero valor de β1 se encuentra dentro del intervalo
(-0,75380; 1,49064)
Intervalo de confianza para el parámetro β2:
--0,22009 < β2 < 1,35885
Con un 95% de confianza el verdadero valor de β2 se encuentra dentro del intervalo
(-0,22009; 1,35885)

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE


La variación de la variable Y es explicada en un 97,84% por la variación de las
variables X1 y X2.

ANOVA
H0: β1 = β2 = 0 (El modelo no es apropiado)
Ha: β1 ≠ β2 ≠ 0 (El modelo es apropiado)

Como Fc = 0,003176 es menor que Fp = 67.9230769 rechazamos la hipótesis nula, por lo


menos una de las variables X influye en la variable Y. El modelo es adecuado.

PRUEBAS PARA EL INTERCEPTO.

H0: β0 = 0 (La recta pasa por el origen)


Ha: β0 ≠ 0 (La recta pasa fuera del origen)

El intercepto Β0 tiene como Pvalue (0,05057503) > α, por lo tanto, la recta pasa por el
origen.

PRUEBAS PARA LAS PENDIENTES (PRUEBA T):

H0: β1 = 0 (La variable X1 no influye en el modelo)


Ha: β1 ≠ 0 (La variable X1 si influye en el modelo)
Como la pendiente de la variable X 1 tiene como Pvalue (0,37289365) > α(0.05), se
acepta H0 y la variable X1 no influye en el modelo y así sucesivamente continuamos
analizando el resto de las pendientes:

H0: β2 = 0 (La variable X2 no influye en el modelo)


Ha: β2 ≠ 0 (La variable X2 si influye en el modelo)

Ejemplo 2. La empresa ChanChung S.A. está interesada en la adquisición de un lote de


monitores para lo cual en el área de planeamiento deciden realizar un estudio acerca de los
factores que influyen en el precio de los monitores; apareciendo los siguientes datos
acerca de la característica necesaria para que un usuario pueda seleccionar el monitor
adecuado para su sistema de cómputo. Para las características de foco y de brillantez, las
calificaciones más altas indican mejor calidad. Para la falta de convergencia, distorsión y
uniformidad, las calificaciones menores indican mejor calidad. Haz un análisis de los datos y
realice una estimación lineal para determinar el precio del monitor.

Data de Chanchung para establecer precios adecuados de sus monitores


FALTA DE
BRILLAN DISTORSIÓ UNIFORMID PRECIO
MONITOR Marca FOCO CONVERGEN
TEZ N AD (S/)
CIA
Sony CPD-1730 0 51.5 43.8 2 9.4 9.5 1100
Sonny T560i 0 66 37.5 3.6 10.9 6.4 1700
Samsung 447B 1 47 30.8 3 11 4.9 920
Samsung T16 II 1 51.5 22.3 3.3 12.7 4.9 1200
Samsung F560iW 1 58 29.6 3.4 18 9.6 1490
Samsung 5FGe 1 49.5 30.6 4.9 15.2 8.2 1100
Samsung PRO 17 1 51 38.2 6.1 7.8 3 1175
Sony 17se 0 50 29.2 3.5 14 6.8 1195
Sony 16" Trinitron 0 43.5 30.4 3.2 20.2 4.9 999
Sony V-Scan 70 0 53.5 28.4 4.1 9.3 10.4 1000
Sony 17 0 53 36.4 7.1 8.7 7.2 1010
Samsung 17MBD 1 42 30.9 4 17.5 6.7 875
Samsung 1720 1 50.5 27.5 5.9 13.1 5.4 1170
Samsung Ergo 1 46 25.1 4.2 21.5 6 1035
Samsung P766D 1 49.5 20.8 4.7 15 8.5 880
Sony F550iW 0 52.5 28.8 5.7 17.5 8.9 1225
Sony Scan 16 0 43 25.8 4.1 16.7 8.6 875
Samsung 17-T 1 47.5 23 3.3 14.2 10 1045
Samsung Tuba 1 46 28.7 4.4 15.6 8.8 995
Sony F550i 0 53 27.3 4.2 16.5 8.5 1120
Samsung VividVie 1 48.5 25 5.8 13.1 12.8 800
Sony Scan 17FS 0 52.5 19.6 6.4 15.9 9.4 1085
Objetivo. Predecir el precio de los monitores en función del foco y brillantez, la falta de
convergencia, distorsión y uniformidad. Comandos SPSS: Analizar/Regresión/Lineales... En el
cuadro de la Regresión lineal se introduce la variable dependiente (Y) y las variables
independientes Foco (X1), Brillantez (X2), Falta de convergencia (X3), Distorsión (X4) y
Uniformidad (X5). Luego ir al botón OPCIONES.

1. Modelo a usar:
a. Estimación del Modelo

Y= β 0 + β1 X+ β2 X+ β3 X+ β4 X + β5 X+ε
Donde:
Y = variable dependiente: Precio.
Β0: Constante del modelo.
Β1: Coeficiente de X1, siendo X1 la variable independiente: Foco.
Β2: Coeficiente de X2, siendo X2 la variable independiente: Brillantez.
Β3: Coeficiente de X3, siendo X3 la variable independiente: Falta de
convergencia.
Β4: Coeficiente de X4, siendo X4 la variable independiente: Distorsión.
Β5: Coeficiente de X5, siendo X5 la variable independiente: Uniformidad.

Cuadro Nº1
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -950.061 266.332 -3.567 .003
Foco 37.903 3.552 .970 10.672 .000
Brillantez 4.623 3.569 .133 1.295 .214
Falta de Convergencia -20.318 13.554 -.128 -1.499 .153
Distorsiòn 19.573 5.631 .355 3.476 .003
Uniformidad -24.419 7.644 -.275 -3.194 .006
a. Dependent Variable: Precio

El modelo estimado es:


Y = - 950,061 + 37,903X1 + 4,623X2 – 20,318X3 + 19,573X4 – 24,419X5

Observando el Cuadro N° 1, los parámetros resultan ser significativos para el foco,


distorsión y uniformidad (valor p < α) a un nivel de significación 5%, pero la falta de
convergencia y la brillantez son no significativos, estadísticamente nos induce a buscar
un mejor modelo aunque teóricamente, la experiencia indica que estas variable influyen
significativamente (según estudios anteriores).
En cuanto al intercepto Β0: pvalue < α por lo tanto la recta no pasa por el origen.

b. Adecuación del Modelo


A nivel de muestra
Cuadro Nº 2:
Model Summaryb

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .945a .893 .860 76.43092
a. Predictors: (Constant), Uniformidad, Falta de
Convergencia, Foco, Distorsiòn, Brillantez
b. Dependent Variable: Precio

En el Cuadro N° 2, el índice de correlación lineal r = 0,945, indica que existe una


relación alta entre la precio y las variables: foco, brillantez, falta de convergencia,
distorsión, uniformidad; luego, observando el R2 = 0,893 (La fiabilidad del ajuste se
refleja mediante R2 coeficiente de determinación lineal) la relación en conjunto lineal es
fuerte y el R2 ajustado (índice de determinación) es 0,860; por lo que podemos
interpretar a nivel de muestra que el precio de los monitores es explicado en un 86%
por el foco, brillantez, falta de convergencia, distorsión y uniformidad; es decir que un
14% está por explicar.
A nivel de población
Cuadro Nº 3:
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 781130.1 5 156226.025 26.743 .000a
Residual 93466.964 16 5841.685
Total 874597.1 21
a. Predictors: (Constant), Uniformidad, Falta de Convergencia, Foco, Distorsiòn,
Brillantez
b. Dependent Variable: Precio

H0: β1 = β2 = β3 = β4 = β5 = 0
Ha: β1 ≠ β2 ≠ β3 ≠ β4 ≠ β5 ≠ 0

A nivel poblacional podemos observar que en el Cuadro N° 3, que la prueba Fisher =


26,743 resulta ser significativa es decir para el α = 0,05 > sig.= 0,000, por lo que
rechazamos la hipótesis nula; es decir el modelo es adecuado.
3. Inducción del mejor modelo
Utilizando el método Stepwise (pasos sucesivos) se propone tres modelos:
Primer modelo: con la variable Foco
Segundo modelo con las variables: Foco y Uniformidad
Tercer modelo con las variables: Foco, Uniformidad y Distorsión
Se pudo observar en el Cuadro N° 4, que los R cuadrados ajustados para la
adecuación del modelo a nivel muestral, es:
Modelo 1 = 0,683
Modelo 2 = 0,752
Modelo 3 = 0,834
De acuerdo a estos valores el mejor modelo es el modelo 3.

Cuadro Nº 4
Model Summaryd

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .836a .698 .683 114.87939
2 .881b .775 .752 101.67302
3 .926c .858 .834 83.14393
a. Predictors: (Constant), Foco
b. Predictors: (Constant), Foco, Uniformidad
c. Predictors: (Constant), Foco, Uniformidad, Distorsiòn
d. Dependent Variable: Precio

A continuación en el Cuadro N° 5 se muestran las pruebas ”t” para analizar la


significancia de cada uno de los parámetros incluidos en los modelos
Para el caso del mejor modelo estimado, los coeficientes son altamente significativos.
Cuadro Nº 5
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -550.681 242.529 -2.271 .034
Foco 32.663 4.802 .836 6.802 .000
2 (Constant) -406.268 221.960 -1.830 .083
Foco 33.585 4.265 .859 7.874 .000
Uniformidad -24.770 9.691 -.279 -2.556 .019
3 (Constant) -880.654 233.579 -3.770 .001
Foco 38.577 3.815 .987 10.111 .000
Uniformidad -27.897 7.984 -.314 -3.494 .003
Distorsiòn 17.360 5.380 .315 3.227 .005
a. Dependent Variable: Precio

El modelo estimado es:


Y= - 880,654 + 38,577X1 - 27,897X2 + 17,360X3
B1 = El precio queda aumentado en 38.577, cada vez que aumenta el nivel del foco en
una unidad y el resto de variables Uniformidad y Distorsión) se mantienen fijas..
B2 = El precio de los monitores disminuye en -27.897, cada vez que aumenta el nivel
de uniformidad en una unidad.
B3 = Por cada unidad que aumenta la distorsión el precio de los monitores queda
aumentado en 17.360.
4. Validación del modelo: Análisis de los Residuos
4.1 Diagrama de dispersión de los residuos
De la figura 2, se observan los residuos con la variable (in) dependiente precio y
estos no están muy dispersos, se nota variabilidad es homocedástica.

Scatterplot
Dependent Variable: Precio
1800

1600

1400

1200

1000
P re c io

800

600
-2.0 -1.5 -1.0 -.5 0.0 .5 1.0 1.5 2.0

Regression Standardized Residual

Figura N° 2

4.2 Normalidad de los residuos


a) Se observa en el gráfico de los histogramas de residuales que las barras se
ajustan a la curva de Gauss. El promedio de los residuos es 0,00 y la desviación
estándar 0,87. Lo podemos observar en la Figura N° 3.
Histogram
Dependent Variable: Precio
6

2
Frequency

Std. Dev = .87


1
Mean = 0.00
0 N = 22.00
-1.50 -1.00 -.50 0.00 .50 1.00 1.50

Regression Standardized Residual

Figura N° 3
b) En el gráfico P-P Plot los residuos se ajusta a la línea recta, por lo que podemos
afirmar que los residuos son normales.
Normal P-P Plot of Unstandardized Residual
1,0

,8
E x p e c te d C u m P r o b

,5

,3

0,0
0,0 ,3 ,5 ,8 1,0

Observed Cum Prob

Figura 4
Conclusiones del ejemplo N° 2. La empresa ChanChung S.A. con la finalidad de
obtener mejor información en la adquisición de los monitores realizó el estudio de la
influencia de características (Variables: foco, brillantez, falta de convergencia,
distorsión y uniformidad) en el precio, quedando con la propuestas:
a) Modelo1: con todas las variables
El modelo estimado es:
Y= - 950,061 + 37,903X1 + 4,623X2 – 20,318X3 + 19,573X4 – 24,419X5
Los parámetros resultan ser significativos para el foco, distorsión y uniformidad
a un nivel de significación 5% (Cuadro N°1), pero la falta de convergencia y la
brillantez son no significativos, estadísticamente induce a buscar un mejor
modelo aunque teóricamente, la experiencia indica que estas variable influyen
significativamente (según estudios anteriores).
b) Modelo 2: con tres variables
El modelo estimado es:
Y= - 880,654 + 38,577X1 – 27,897X2 + 17,360X3
B1 = El precio queda aumentado en 38,577, cada vez que aumenta el nivel del
foco en una unidad.
B2 = El precio de los monitores disminuye en – 27,897, cada vez que aumenta
el nivel de uniformidad en una unidad.
B3 = Por cada unidad que aumenta la distorsión el precio de los monitores
queda aumentado en 17,360.
Finalmente, se recomienda a la empresa el modelo 2, con tres variables.

Ejemplo 3. La empresa ChanChung S.A. está interesada en la adquisición de un lote de


monitores para lo cual en el área de planeamiento deciden realizar un estudio acerca
de los factores que influyen en el precio de los monitores; apareciendo los siguientes
datos acerca de la característica necesaria para que un usuario pueda seleccionar el
monitor adecuado para su sistema de cómputo. Para las características de foco y
brillantez, las calificaciones más altas indican mejor calidad. Para la falta de
convergencia, distorsión y uniformidad, las calificaciones menores indican mejor
calidad. Haga un análisis de los datos y realice una estimación lineal para determinar el
precio del monitor. Los datos obtenerlos del Ejemplo N° 2: “Data de Chanchung para
establecer precios adecuados de sus monitores”
OBJETIVO
Predecir el precio de los monitores en función del foco y la marca.
Modelo a usar:
Estimación del Modelo

Y= β 0 + β1 X+ β2 X+ ε
Donde:
Y = variable dependiente: Precio.
Β0: es la constante del modelo.
Β1: es coeficiente de X1, siendo X1 la variable independiente: Foco.
Β2: es coeficiente de X2, siendo X2 la variable ficticia: Marca.

Gráfico Nº1

1800

1600

1400

1200

1000

Marca
800
P r e c io

Samsung

600 Sony
40 50 60 70

Foco

Como podemos observar que a mayor nivel de foco, aumenta el precio de los
monitores, no habiendo interacción entre la marca (Sony y Samsung). Si bien tienen las
mismas pendientes son linealmente coincidentes.
El modelo estimado es:
Y= - 597,407 + 33,333X1 + 23,959X2

Observando el Cuadro N° 1, los parámetros resultan ser significativos para el foco a un


nivel de significación 5%, pero no para la marca de monitor, es decir la marca es no
significativo, estadísticamente nos induce a buscar un mejor modelo aunque
teóricamente, la experiencia indica que estas variable influyen significativamente
(según estudios anteriores).
Cuadro Nº1
Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -597.405 267.727 -2.231 .038
Marca 23.959 52.384 .060 .457 .653
Foco 33.333 5.114 .853 6.518 .000
a. Dependent Variable: Precio

Del modelo estimado se desprenden dos sub-modelos:

Para la marca Sony es modelo es:


Y= -597.407 + 33.333X1 + 23.959(0)
Y= - 597.407 + 33.333(Foco)

Para la marca Samsung el modelo es.


Y= - 597.407 + 33.333X1 + 23.959(1)
Y= - 573.448 + 33.333(Foco)
Cuadro Nº2
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 .838a .701 .670 117.22022
a. Predictors: (Constant), Foco, Marca

Observando el cuadro Nº2. en la adecuación a nivel muestral el R cuadrado es 0,701,


es decir el precio queda explicado en un 70% por la variable Foco.
Tareas.
En cada tarea (a) Estima el modelo de regresión (b) Calcula los intervalos de confianza
para los parámetros. (c) ¿Qué parte de la variabilidad de Y queda explicada a través
del plano de regresión? (d) Interpreta los gráficos emitidos por el software. Cada
respuesta debe estar interpretada en función al enunciado. UD = Último dígito de tu
matrícula.
1) Res 2) Ing 3) Ta
uelv res ma
e en os ño
Exce
l. Se
pret
ende
esti
mar
los
gast
os
en
alim
enta
ción
de
una
famil
ia de
elfos
en
base
a la
infor
maci
ón
que
prop
orcio
nan
las
varia
bles
regr
esar
as
'ingr
esos
men
sual
es
y 'nú
mer
o de
mie
mbr
os
de la
famil
ia'.
Para
ello
se
reco
ge
una
mue
stra
aleat
oria
simp
le de
15
famil
ias,
cuyo
s
resul
tado
s se
facili
tan
en la
tabla
adju
nta.
(El
gast
oe
ingre
so
se
expr
esan
en
diez
mil
sole
s).X
Gasto
de
Alime
ntaci
ón
5) 2,1
4) 0,43
0 6) 3
8) 1,1
7) 0,31
0 9) 4
11)0,9
10)0,32
0 12)5
14)1,6
13)0,46
0 15)4
17)6,2
16)1,25
0 18)4
20)2,3
19)0,44
0 21)3
23)1,8
22)0,52
0 24)6
26)1,0
25)0,29
0 27)5
29)8,9
28)1,29
0 30)3
32)2,4
31)0,35
0 33)2
35)1,2
34)0,35
0 36)4
38)4,7
37)0,78
0 39)3
41)3,5
40)0,43
0 42)2
44)2,9
43)0,47
0 45)3
48)(4
+
46)0,38
47)1,4 U
0 D)
49)

50)Resuelve en SPSS. El gerente de la empresa textil Cortar X Lozano, estudia las


posibles relaciones entre beneficios mensuales, gastos en publicidad mensuales
y horas extraordinarias mensuales de los empleados. Para ello utiliza datos, de
estas tres variables, proporcionadas por algunas empresas del sector.

Gastos de
Beneficios Horas
publicidad
(Miles US$) extras
(Miles US$)
1,3 0,3 4
3,5 1,5 9
2,8 0,7 6
3 1,1 7,5
3,3 1,2 8
4 2  7
3,7 2 (1 + UD)

También podría gustarte