Analisis de Regresion, Paso A Paso, Usando Excel: PRQ 801 - Diseño de Plantas de Procesos

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

PRQ 801 – DISEÑO DE PLANTAS DE PROCESOS

ANALISIS DE REGRESION, PASO A PASO, USANDO EXCEL

Ing. Pastor Rafael Deuer Deuer, MBA, Ph. D. c


Profesor titular

2018
Análisis de regresión, paso a paso, usando Excel

Paso 1.-. Introducir los datos en la hoja de cálculo

El ejemplo utilizado es un modelo de regresión referido a los precios de las casas explicado por

- Metros cuadrados
- Número de dormitorios
- Número de baños
- Número de garajes
- Existencia o no de una piscina
- Si está cerca de un lago artificial y
- Si está dentro de un country club

El objetivo es el de explicar la variación en los precios de las casa, usando la variación en las variables
independientes. En otras palabras, se está haciendo la pregunta, “porqué varían los precios de casas
de una a otra?” Una explicación es que pueden haber diferentes características que expliquen este
hecho. Por lo tanto, se usarán las variaciones en las características de las casas para explicar la
variación en los precios de las casas.

Se requiere organizar los datos en columnas, para usar la función de regresión, incorporada en Excel.
La primera columna contiene los valores de la variable dependiente (precio) y las siguientes
columnas contienen los valores referidos a las variables independientes. Cada columna tiene un
nombre para facilitar la interpretación de los resultados.

Los datos utilizados en el presente ejemplo se muestran en la Figura 1.

En el menú Tools, se encuentra la opción Data Analysis. Dentro de Data Analysis se debe elegir
Regression

Ver Figura 2
Figura 1: Datos sobre precios de casas en función de sus diferentes características

Paso 2: Usar el Programa de Análisis de datos de Excel, Regression

Para habilitar la opción de Análisis de Regresión, si no estuviera habilitado, se debe ir a:

File/Options/Add-ins/Go

(Ver Figura 2)
Figura 2: Cómo habilitar la opción de Análisis de Datos

Posteriormente, seleccionar la opción Analysis


Una vez que esté habilitada la opción de Análisis de datos, seleccionar Data/Data Analysis
Tool/Regression:

Paso 3: Especificar los datos a usarse en la regresión y el lugar de salida de los resultados

De la regresión, a partir del menú con las especificaciones de la regresión, se puede especificar la
variable dependiente [Input Y Range] y las columnas de las variables independientes [Input X
Range].

Si se desea incluir los nombres


de las variables que se
muestran en los encabezados
de las columnas como parte de
los rangos de las observaciones
que se van a especificar,
asegurarse de seleccionar la
opción Labels.

También se puede especificar


donde se deberían colocar los
resultados. Si se selecciona la
opción New Worksheet Ply, se crea una nueva hoja de cálculo, en la que se colocarán los resultados.

Este proceso es similar a la especificación de la correlación. Por ejemplo, si se desea ver la


correlación entre las variables dependientes, se puede usar un proceso de análisis similar, usando la
función Data Analysys/Correlation
El resultado de la regresión se muestra en la pantalla siguiente:
Si se hacen los siguientes cambios de variable:

Y= Precio de la casa
a0 = Variable independiente X4 = Número de autos que entran en el garaje
X1 = Superficie X5 = Existencia de piscina
X2 = Número de dormitorios X6 = Cercanía a un lago artificial
X3 = Número de baños X7 = Está en un country club

La ecuación ajustada es de la forma:

Y = a0 + a1X1+a2X2+a3X3+a4X4+a5X5+a6X6+a7X7+Error

Paso 4: Interpretación de los resultados

Información resumida

1. El coeficiente de correlación múltiple (multiple R) es 0.888780042. Este valor indica que


la correlación entre la variable dependiente y las variables independientes es positiva.

Este estadístico, cuyo valor varía de -1 a 1, no indica una significatividad estadística de la

correlación

2. El coeficiente de determinación (R ) es 0.789929964 o sea 78.99 % . El significado de


2

este valor es que el 79 % de la variación de la variable dependiente (precios de las casas)

está explicado por las variables independientes.

3. El R-cuadrado ajustado, (Adjusted R Square), una medida del poder explicativo de la

regresión es 0.719906618. Este estadístico no se interpreta, generalmente, ya que no es


ni un porcentaje (tal como R2) ni un test de significativas (tal como el estadístico F).

4. El error standard de la regresión, $us 135,427.7088, es una estimación de la variación

observada en los precios de las casas, respecto a la recta de regresión 1.

1
El error standard está expresado en la misma unidad de medida que la variable dependiente. Por eso, en este caso, como
los precios están datos en dólares, este valor está expresado en la misma unidad.
5. Observations (observaciones), se refiere al número de datos –observaciones – que se

utilizaron para ajustar la curva.

Análisis de varianza
La información proveniente del análisis de varianza, proporciona un desglose de la variación total

de la variable dependiente (en este caso el precio de las casas), en las porciones explicadas y no

explicadas por las variables dependientes utilizadas para ajustar la ecuación de regresión.

1. La SS Regressión (Regresión de la Suma de Cuadrados) es la variación explicada por la

línea de regresión. SS Residual (Residuo de la Suma de Cuadrados) es la variación de la

variable dependiente que no es explicada por la línea de regresión.

2. El F-statistic (estadístico F) se calcula usando la relación entre la media cuadrática de

la regresión (MS Regression) y la media cuadrática residual (MS Residual). Este

estadístico puede compararse, entonces, con el valor crítico para 7 y 21 grados de

libertad (degrees of freedom, df) de la regresión y del residual, para verificar la

hipótesis nula:

H 0: β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0

Versus la hipótesis alternativa:

HA: Por lo menos una βi es diferente de cero

3. El valor calculado de p (p-value) asociado con el estadístico F calculado, es la

probabilidad más allá del valor calculado. Comparando este valor con – por ejemplo – 5%,

indica el rechazo de la hipótesis nula.

La recta estimada de regresión

Los resultados de la recta estimada de regresión incluyen los coeficientes estimados, el error

estándar de los coeficientes, los estadísticos t calculados, el valor correspondiente de p,y los

límites de los intervalos de confianza al 90 y al 95 % de confianza.


Datos referidos a la recta de regresión

Las variables independientes que son estadísticamente significativas en la explicación de la

variación de los precios de las casas, son la superficie (en pies cuadrados), el número de

dormitorios y el número de baños, tal como se indica por (1) el estadístico t calculado que es

mayor que los otros valores críticos, y (2), los valores calculados de p que son menores que el

valor significativo del 5 %.

1. La relación entre la superficie de las casas y los precios de las mismas es positiva: cuanto

mayor la superficie, mayor el precio de la casa. El coeficiente de 148.43 indica, en

promedio, que por cada pie cuadrado adicional de superficie, el precio de la casa sube en

148.43 dólares.

2. El número de dormitorios está negativamente relacionado al precio de la casa (el

coeficiente es de – 46,291.53); este hecho podría deberse a una interacción con la

variable de superficie, ya que casa más grandes tienden a tener más dormitorios.

3. El número de baños está positivamente relacionado con los precios de las casas (el valor

del coeficiente es 106,958.81). Adicionar un baño, aparte del efecto en la superficie,

incrementa el precio de la casa.

4. Las otras variables independientes no añaden nada más que pudiera ser significativo a la

explicación de la variación en los precios de las casas.

Correlaciones

Cuando se usa regresión múltiple para estimar una relación, siempre existe la posibilidad de que

exista correlación entre las variables independientes. Esta correlación puede ser pareada (pair-
wise) o múltiple. Observando los datos referidos a la correlación, generados a partir de la

función Correlation (Correlación) con Data Analysis (Análisis de Datos), se observa que existe

correlación positiva entre varias variables:

También podría gustarte