Análisis de Regresion Lineal Múltiple
Análisis de Regresion Lineal Múltiple
Análisis de Regresion Lineal Múltiple
) , , ... por
Se debe minimizar la funcin respecto a , , . . . . Los estimadores de mnimos cuadrados deben satisfacer la siguiente condicin: | Y |
Ntese que hay ecuaciones normales, una para cada uno de los coeficientes desconocidos de regresin. La solucin de las ecuaciones normales sern estimadores por . mnimos cuadrados Si se expresa en notacin matricial se permite presentar de forma ms compacta el modelo como sigue:
De donde
Ya que es una matriz de , es decir, un escalar, y que su traspuesta ( el mismo escalar. Los estimadores de mnimos cuadrados deben satisfacer | Que se simplifica a Estas son las ecuaciones normales de mnimos cuadrados, Son la forma matricial de la presentacin escalar.
es
Para resolver las ecuaciones normales se multiplican ambos lados de la ecuacin por la inversa . As, el estimador de por mnimo cuadrado es ( )
Siempre y cuando exista la matriz inversa ( ) . La matriz ( ) siempre existe si los regresores son linealmente independientes, esto es, si ninguna columna de la matriz es una combinacin lineal de las dems columnas. La forma matricial de las ecuaciones normales es idntica a la forma escalar, escribiendo con detalle se obtiene:
Si se hace la multiplicacin matricial indicada, se obtiene la forma escalar de las ecuaciones normales. Es por ello que es una matriz simtrica de , y que es un vector columna de . El modelo ajustado de regresin que corresponde a los niveles de las variables regresoras [ ] es
es
La matriz H se le llama matriz de sombrero siendo una matriz de observado y el valor ajustado correspondiente es el residual pueden escribir con notacin matricial como sigue: Existe otra manera de expresar el vector de residuales como sigue: Ejemplo: ( )
Un embotellador de bebidas gaseosas analiza las rutas de servicio de las maquitas expendedoras en su sistema de distribucin. Le interesa predecir el tiempo necesario para que el representante de ruta atienda las mquinas expendedoras en una tienda. Esta actividad de servicio consiste en abastecer la mquina con productos embotellados, y algo de mantenimiento o limpieza. El ingeniero industrial responsable del estudio ha sugerido que las dos variables ms importantes que afectan el tiempo de entrega son la cantidad de cajas de producto abastecido, , y la distancia caminada por el representante, . El ingeniero ha reunido 25 observaciones de tiempo de entrega que se ven en la siguiente tabla. Se ajustar el modelo de regresin lineal mltiple siguiente:
y el vector
Matriz Primera Columna Segunda Columna = Cantidad de Cajas Tercera Columna = Distancia Matriz = Tiempo de Entrega en minutos
Y el vector
es igual a
As el estimador ( )
Es decir que
El ajuste por mnimos cuadrados, con coeficientes de regresin expresados con cinco decimales, es La siguiente tabla muestra las observadas junto con los valores ajustados de la correspondientes, as como los residuales
Realizando un anlisis terico tenemos que: Es decir que a mayor nmero de cajas existe un mayor tiempo de entrega. Es correcto Es decir que a una mayor distancia es mayor el tiempo de entrega. Es correcto
1.61591 por cada caja que se reparte se incrementa 1.61591 minutos 0.001438 por cada unidad de distancia que se incrementa 0.001438 minutos
Nota: Es posible demostrar que la suma de cuadrados de residuales tiene n-p grados de libertado asociados con ella, porque se estiman p parmetros en el modelo de regresin. El valor esperado de es , por lo que un estimador insesgado de =
Aplicado al ejemplo se estimar la varianza del error para el ajuste del modelo de regresin mltiple datos de tiempo de entrega de bebidas gaseosas. Y [ ][ ]
Prueba de la significancia de la regresin. La prueba de la significancia de la regresin es para determinar si hay una relacin lineal entre la respuesta y cualquiera de las variables regresoras este procedimiento suele considerarse como una prueba general o global de la adecuacin del modelo.
El rechazo de la hiptesis nula implica que al menos uno de los regresores al modelo en forma significativa.
contribuye
El procedimiento de prueba es una generalizacin del anlisis de varianza anteriormente visto, .La suma total de cuadrados se divide en una suma de cuadrados debidos a la regresin, ya una suma de cuadrados de residuales, . Por lo tanto:
distribucin con la misma cantidad de grados de libertad que la cantidad de variables regresoras del modelo. Por consiguiente Para probar la hiptesis , se calcula el estadstico y se rechaza si
El procedimiento de prueba se reduce normalmente en una tabla de anlisis de varianza (ANOVA) Una frmula de clculo para es : O bien ( )
La suma de cuadrados de residuales, o suma residual de cuadrados es Y la suma total de cuadrados es ( Analizando el ejemplo tratado tenemos: ( ( ) ) )
( )
Para probar
Asi para
Se rechaza El modelo es aceptable en su forma general estadsticamente recordando que la varianza general del modelo es manera individual y estadstica. y se pueden verificar cada uno de los coeficientes de
Pruebas sobre coeficientes individuales de regresin Una vez determinado que al menos uno de los regresores es importante. Debemos verificar si stos sirven o no; es decir si se agrega una variable a un modelo de regresin, la suma de cuadrados de la regresin aumenta, y la suma de cuadrados residuales disminuye. Se debe decir si el aumento de la suma de cuadrados de la regresin es suficiente para garantizar el uso del regresor adicional en el modelo. La adicin de un regresor tambin aumenta la varianza de valor ajustado , por lo que se debe tener cuidado de incluir slo regresores que tengan valor para explicar la respuesta. Adems, si se agrega un regresor no importante se puede aumentar el cuadrado medio de residuales, y con eso se disminuye la utilidad del modelo. La hiptesis para probar la significancia de cualquier coeficiente individual de regresin, como por ejemplo son
Si no se rechaza quiere decir que se puede eliminar el regresor prueba para esta hiptesis es Donde es el elemento diagonal de ( si | | ) ( ) que corresponde a
Haciendo el anlisis sobre nuestro ejemplo tenemos: Suponemos que deseamos evaluar la importancia de la variable regresora (distancia, ) Dado que el regresor (cajas, Las hiptesis son: ) est en el modelo.
que corresponde a
es
, por
)(
En vista de que se rechaza , y la conclusin es que el regresor (distancia, ), constituye en forma significativa al modelo, dado que el regresor (cajas, ) ya est tambin en el modelo.