Análisis Factorial - Roberto Piol

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

El Anlisis Factorial como Instrumento Decisorio ante los Problemas de Multicolinialidad en una Regresin.

por Ing. Roberto Piol Puppio CIV 32.290 SOITAVE: 260

I.- Introduccin En el texto de esta monografa, se ha hecho mucho hincapi en el problema que representa la Multicolinialidad entre Variables Independientes en una Regresin. Como ya se indic, un coeficiente de determinacin alto (R), no es garanta para que la regresin exista. Una alta correlacin entre Dos (2) o mas variables independientes, lo afectan directamente. Para la deteccin de un problema de Multicolinialidad en una regresin; se utiliza como instrumento: La Matriz de Correlacin (o la matriz de covarianza). Interpretando a un coeficiente de correlacin alto (r>0.75) entre dos variables independientes como seal de su presencia. Tambin en el texto se explic que dos variables independientes autocorrelacionadas, no podan convivir juntas en una regresin. Por lo tanto una de las dos deba eliminarse. La pregunta ante un problema de multicolinealidad, que una persona se hace es: Cul es la variable independiente que hay que eliminar del juego de datos referenciales? La respuesta a esta pregunta es: La menos significativa. Pero, Cmo se identifica esa variable menos significativa en una regresin?. No es fcil. Tampoco se puede deducir empricamente de una simple observacin a los datos.

Aqu es donde entra el Anlisis Factorial. Este procedimiento estadstico, ser utilizado para identificar la o las variables menos significativas de una regresin con problemas de Multicolinialidad,

II.- Conceptos Bsicos Se define como Anlisis Factorial, al procedimiento estadstico que permite identificar un nmero de factores que representan la relacin que existe entre un conjunto de variables independientes autocorrelacionadas entre si. Por lo tanto, el procedimiento intenta agrupar las variables independientes autocorrelacionadas entre s, de manera que las mismas tenga una correlacin baja con el resto de las variables independientes. De esta manera, identificaremos el grupo de variables independientes correlacionadas entre s y podremos clasificarlas segn su importancia; de manera que podamos eliminar la menos representativa sin perturbar (o con la mnima perturbacin) a la serie de datos. Otros de las ventajas del Mtodo de Anlisis Factorial, es el de reducir la nmero de variables independientes en un modelo de regresin, de tal manera de obtener otro modelo de regresin con menos variables independientes. Sin embargo, esto no forma parte del curso y nos centraremos en el problema de la Multicolinialidad. El hecho de eliminar la Variable Independiente menos representativa, no implica necesariamente que el nuevo nivel de significacin (R) del modelo de regresin aumente. Puede que la variable eliminada sea en realidad representativa en el modelo de regresin mltiple definitiva. En su lugar puede ser sustituida por la siguiente variable en orden de su representatividad. Lo realmente importante es que solo una de las variables independientes de un factor compuesto por variables muy correlacionadas entre s podr quedar en la regresin. En caso de que esto no se cumpliera, seguiramos teniendo problemas de multicolinialidad. Es de hacer notar, que este procedimiento estadstico es vlido para series grandes; mientras ms pequea sea la serie, el mtodo menos significativo ser. III.- El uso del paquete estadstico SPSS (versin 9) en el desarrollo del Anlisis Factorial. El paquete estadstico dedicado SPSS, por su facilidad y amigabilidad de sus comandos, es uno de los preferidos a nivel global. En este curso, no se ensear el manejo de dicho paquete; tan solo se explicar paso a paso el procedimiento.

El objetivo final ser el de clasificar la variable (o variables) menos significativas dentro de un factor y eliminarla (o eliminarlas), a fin de resolver el problema de la multicolinialidad en una regresin. Generalizando, los pasos para una Anlisis Factorial son: Generar la Matriz de Correlacin Extraer los factores de la Matriz, en base a los coeficientes de correlacin de las variables 3. Rotar los factores con el fin de maximizar la relacin entre las variables a algunos de los factores 4. Seleccionar Una (1) Variable Independiente por Factor.
1. 2.

Es de notar, que para lograr los enunciados anteriores es necesario tener nociones del manejo de un paquete estadstico dedicado. En este caso se usar el software SPSS versin 9. En este texto, se tratar de indicar paso a paso el procedimiento, sin embargo, esta monografa no es suficiente para el dominio de este procedimiento automatizado.

IV El Anlisis Factorial paso a paso: 1.- Preparacin de la Data En el editor de datos (DATA EDITOR) del SPSS, se debe crear la data a procesar. El software permite enterar directamente la data o importarla desde la Hoja de Clculo Excel. El siguiente ejemplo se corresponde a una serie de 20 referenciales de Casas Quintas en el sureste de Caracas. Las Variables seleccionadas son:

Punit aterreno aconstr ao habitac# baos vista Fecha

Precio Unitario del inmueble rea del Terreno rea de Construccin Ao de construccin del inmueble Nmero de dormitorios Nmero de baos Inmuebles con vista a Caracas = 1 Con vista al los Valles del Tuy =0 Fecha[1] de protocolizacin de la compra-venta

Salida del Editor de Datos del SPSS:

2.- Acceso a la Subrutina de Anlisis Factorial (FACTOR ANLISIS): Una vez cargados los datos en el Editor de Datos (DATA EDITOR), en la Barra de Men seleccione: Analyze Data Reduction Factor Estos comandos presentaran la caja de dilogo principal del Anlisis Factorial (FACTOR ANLISIS), que tendr la forma siguiente[2]:

Ilumnese con el ratn nicamente las Variables Independientes de la ventanilla izquierda y por medio de la flecha central (>) psense a la ventanilla derecha (denominada Variables:). A continuacin, configrese cada uno de los Cinco (5) botones que conformarn la salida (OUTPUT) de la subrutina Anlisis Factorial (FACTOR ANLISIS):

2.1.- Configuracin del botn Descriptives: La caja de dilogo del botn Descriptives, debe estar configurado de la siguiente manera:

2.2.- Configuracin del botn Extraction: La caja de dilogo del botn Extraction, debe estar configurado de la siguiente manera:

2.3.- Configuracin del botn Rotation: La caja de dilogo del botn Rotation, debe estar configurado de la siguiente manera:

2.4.- Configuracin del botn Scores: La caja de dilogo del botn Scores, debe estar configurado de la siguiente manera:

2.5.- Configuracin del botn Options: La caja de dilogo del botn Options, debe estar configurado de la siguiente manera:

3.- Interpretacin de la Salida (OUTPUT) de la Subrutina Anlisis Factorial (FACTOR ANLISIS): 3.1.- La Matriz de Correlacin: La primera salida del software es la matriz de correlacin:

Obsrvese que existe una correlacin muy alta entre las variables:

HABITC# - ACONSTR: BAOS ACONSTR: BAOS HABITAC#:

0.978 0.977 0.930

Como puede observarse, existe un problema de Multicolinialidad en la serie y por lo tanto solo una de las tres variables: HABITC# - ACONSTR BAOS debe quedar para que la regresin exista. 3.2 Tests KMO y de Bartlett: Para que sea significativo el Anlisis Factorial, el test KMO (Kaiser Meyer Olkin) debe ser > 0.5. El test de esfericidad de Bartlett, indica que la matriz de correlacin no sea una matriz identidad[3]. El nivel de significancia (sig.) debe ser < 0.05 (mientras ms se aproxime a cero (0) mejor).

3.3.- Las Comunalidades (COMMUNALITIES): La tabla de Comunalidades, muestra la proporcin de la varianza de cada variable explicada por los factores extrados.

3.4.- La Varianza Total Explicada (TOTAL VARIANCE EXPLAINED)

La tabla de Varianza Total Explicita (TOTAL VARIANCE EXPLAINED), muestra todos los Factores extrables ordenados de acuerdo a su Valor Propio (EIGENVALUES). Si se observa la columna identificada Total, se puede notar que solamente en Dos (2) Factores su Valor Propio (EIGENVALUES) es mayor que 1.00. Todos los dems factores no son significativos y por lo tanto sern ignorados. Obsrvese en la columna identificada Cumulative % (por nosotros como B), que los Dos (2) factores seleccionados suman el 72.546% de la varianza (52.922% + 19.624%). 3.5.- La Rotacin de la Estructura de los Factores El objetivo de la rotacin de la estructura de los factores, es la de obtener un claro esquema para su correcta interpretacin de la relacin entre las variables y los factores extrados. El mtodo de rotacin de mayor uso en este tipo de anlisis, es el denominado Varimax; y consiste rotar los ejes en cualquier direccin, sin cambiar la localizacin relativa de los factores extrados, hasta obtener una claro esquema de la posicin de las variables independientes en relacin a los factores extrados.

La tabla denominada Matriz de Componentes Rotados (ROTATED COMPONENT MATRIZ); indican la correlacin existente entre cada una de las variables independientes y su correspondiente factor:

Ntese que la matriz est ordenada bajo el criterio del grado de correlacin de las variables independientes con respecto al Factor Extrado; de manera que sea fcil identificar las variables independientes incluidas en cada Factor. Pero, regresando nuevamente a la Matriz de Correlacin de la serie observamos:

Las variables autocorrelacionadas entre s (que generan los problema de multicolinealidad) son nicamente: ACONST HABITAC# BAOS Como se puede observar, esas variables son precisamente las mismas que conforman el FACTOR 1. Por lo tanto solamente una de esas tres variables

podr existir en la regresin y las dems deben ser excluidas, porque si as no se hiciera el problema de multicolinialidad persistira en la serie. 3.6.- Representacin Grfica La representacin grfica de los Factores Extrados, nos permiten una mas fcil comprensin de las variables incluidas en cada Factor:

Ntese que las variables con un factor de correlacin mas cercano a 1.00 (y por lo tanto mas correlacionados con el FACTOR 1 (Eje X) son: ACONST HABITAC# BAOS 4.0.- La Seleccin de la Variable Independiente Ya se defini en el punto anterior que de las Tres (3) variables independientes que se encuentran correlacionadas entre si, solo una podr entrar en el modelo de regresin mltiple. Si volvemos a observar la tabla Matriz de Componentes Rotados (ROTATED COMPONENT MATRIX):

Component Matriz Component 1 BAOS .931 ACONSTR .923 HABITAC# .888 VISTA .726 FECHA .616 AO .538 ATERRENO 4.917E-02

2 -.284 -.361 -.397 .480 .425 .586 .501

Extraction Method: Principal Component Analysis. 2 components extracted.

Observaramos que la variable independiente BAOS, tiene el coeficiente de correlacin ms alto. Pero, estos coeficientes de correlacin son los correspondientes entre la variable BAOS y el FACTOR 1. Por lo tanto, no necesariamente es esta la variable que va a quedar en el modelo de regresin mltiple. El criterio para aceptar la variable que va a quedar en la regresin mltiple, debemos buscarla en la Matriz de Correlacin de la serie: En este caso debemos solicitar al software SPSS la Matriz de Correlacin incluyendo la Variable Dependiente (PUNIT)[4] 4.1.- Clculo de la Matriz de Correlacin incluyendo la Constante Para obtener la Matriz de Correlacin incluyendo la constante; debemos regresar al men principal de SPSS: ANALYZE DATA REDUCTION FACTOR

y al obtener la caja de dilogo principal marcar todas las variables (dependientes e independientes), cuidando que en la parte superior de la ventanilla derecha sea inicializada por la variable dependiente (PUNIT):

Cerciorarse que dentro de la configuracin del botn DESCRIPTIVES, se marque el recuadro Coeficients para poder obtener la salida de la matriz de la siguiente forma:

Si analizamos la primera columna redefinida como Cte., podremos inferir la correlacin que existe entre cada variable independiente con la variable dependiente (regresin). Podemos observar, que la correlacin mas alta es 0.876 (AO Cte). Sin embargo, lo que nos interesa a nosotros es seleccionar la Variable Independiente que quedar en la regresin entre ACONSTR HABITAC# BAOS (que generan nuestros problemas de multicolinialidad). De la matriz de correlacin observamos los siguientes coeficientes de correlacin: Cte ACONST Cte HABITAC# Cte BAOS r= 0.379 r= 0.339 r= 0.448

Obsrvese que el coeficiente de correlacin mas alto corresponde a la variable independiente BAOS. En teora, este sera la variable independiente que quedara dentro del modelo de regresin; mientras que las variables ACONST y HABITAC# tendran que salir para darle solucin al problema de multicolinialidad de la serie. 4.2.- Comprobacin de los Resultados Para comprobar la hiptesis anterior; correremos tres veces el modelo de regresin lineal mltiple; utilizando para cada corrida una de las tres variables diferentes:

Serie 1
PUNIT ACONST ATERRENO AO VISTA FECHA

Serie2
PUNIT HABITAC# ATERRENO AO VISTA FECHA

Serie 3
PUNIT BAOS ATERRENO AO VISTA FECHA

4.3.- Regresin Lineal Mltiple con SPSS Para correr los modelos anteriores, utilizaremos la subrutina del paquete SPSS denominado Regresin Lineal Mltiple. Desde el Editor de Datos (DATA EDITOR), accionaremos los siguientes comandos: Analize Regresin Lineal Y se activar la caja de dilogo correspondiente al mdulo de regresin lineal mltiple. Se selecciona como variable dependiente independientes sealadas en la Serie 1: PUNIT y las variables

Hacer Clic sobre el botn Estadsticas (STADISTICS) y configurar la caja de dilogo de la siguiente forma:

Clic en el botn Contnue y el SPSS lo devolver al men principal de regresin mltiple lineal y Clic en el botn OK. El software correr la regresin de la Serie 1 y la salida del Resumen del Modelo (MODEL SUMMARY) ser:

De igual manera se correr la Serie 2; y su resultado ser:

Repetimos el procedimiento para la Serie 3:

4.4.- Resumen de los Resultados: Serie Serie 1 Serie 2 Serie 3 R 0.972 0.972 0.973 R adj. 0.962 0.962 0.963 Variable ACONSTR HABITAC# BAOS

Como se puede observar, el modelo que mejor explica el fenmeno es la Serie 3; por lo tanto la variable independiente BAOS, es la queda en la regresin mltiple y las otras dos (ACONSTR y HABITAC#) saldrn. Quedando de esta manera comprobada la hiptesis planteada en el punto anterior. 5.- Conclusin 5.1.- Salida del software El modelo de regresin que explica el comportamiento de los precios unitarios de casas en el suroeste de Caracas ser:

Fo = 2.39 F >> Fo

5.2.- Modelo El modelo de regresin lineal mltiple, quedar de la siguiente forma:

Donde:

X1: X2: X3: X4: X5:

rea del terreno Ao de construccin de la casa Vista a la ciudad de caracas Fecha de protocolizacin Nmeros de baos

Revisin: Enero-2002
[1]

La fecha (Variable No Numrica), esta expresada en el formato de MS-Excel; donde cuenta los das transcurridos desde el 1ro de Enero del ao 1900. Este formato permite a la Hoja de Clculo expresar la fecha o bien como un nmero o bien como algunos de los formatos tradicionales: dd-mm-aa. [2] Ntese que la caja de dialogo tiene Dos (2) ventanillas verticales. En la ventanilla izquierda el software present todas las variables de nuestra serie en estudio. Tambin fjense los Cinco Botones en la parte baja de la caja:

Descriptives

Extraction

Rotation

Scores

Options

Estos Cinco (5) botones conforman la configuracin del Anlisis Factorial y su uso es fundamental para la correcta salida del programa. [3] Se define como Matriz Identidad, aquella que todos sus elementos son Cero (0) menos la diagonal principal que es Uno (1), por ejemplo: 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1

También podría gustarte