Descargue como PDF, TXT o lea en línea desde Scribd
Descargar como pdf o txt
Está en la página 1de 46
Profesores: Jess Varela Mallou
Antonio Rial Boubeta
www.usc.es/psicom 1 ANLISIS MULTIVARIANTE rea de Metodologa de las Ciencias del Comportamiento Facultad de Psicologa Universidad de Santiago de Compostela Curso 2011-2012 Anlisis Multivariante 2 1. Contextualizacin y Revisin General de las Tcnicas Multivariantes 2. El Anlisis Preliminar de los Datos 3. Anlisis de Regresin Lineal Mltiple 5. Anlisis de Regresin Logstica TEMARIO 4. Anlisis Conjunto 6. Anlisis de Supervivencia TEMA II TEMA II EL ANLISIS PRELIMINAR DE LOS DATOS Anlisis Multivariantes Modelos Multivariantes 4 Modelos Multivariantes 4 Preparacin del Archivo de Datos. En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 17-27. Anlisis de Datos para una sola variable. En Rial, A. y Varela, J. (2008). Estadstica Prctica para la Investigacin en Ciencias de la Salud. Corua: Netbiblo. Pginas 31-57. RECOMENDADA Rial, A.; Varela, J. y Rojas, A. (2001). Depuracin y Anlisis Preliminares de Datos en SPSS . Ra-ma. Madrid LECTURA OBLIGATORIA Modelos Multivariantes 5 Desde que se recogen los datos hasta que stos son procesados, se experimentan una serie de procesos que pueden escaparse del control del investigador Algunos de los errores ms frecuentes: Utilizacin de un valor invlido Ausencia de valores dentro del rango de la distribucin. ser porque nadie tiene tales ingresos?, o se trata de un problema de seleccin muestral?. Nos alerta de un fenmeno extrao. Missing Outliers. 3 sujetos tienen ingresos que cuadriplican el ingreso medio !!! Exploratory Data Analysis (EDA): Tcnicas grficas y analticas para conseguir un conocimiento previo de los datos, propugnando un cambio de actitud y enfoque metodolgico ante el anlisis de la informacin. Tukey, 1977 Anlisis Preliminar de los Datos Modelos Multivariantes 6 Todo Anlisis Estadstico de los datos debe iniciarse con la preparacin y realizacin de un estudio detallado del archivo o base de datos La aplicacin de cualquier Tcnica Multivariante carece de validez alguna si el archivo de datos contiene errores o incoherencias, casos perdidos de manera no aleatoria o variables que no se adecuan a los supuestos de las tcnicas empleadas Preparar la informacin recogida tambin significa llevar a cabo transformaciones o creaciones de nuevas variables a partir de las empricas o directas (ej.: el ndice de Masa Corporal, IMC (peso/talla2); o la segmentacin del archivo) Anlisis Preliminar de los Datos Modelos Multivariantes 7 O Depurar errores e incoherencias y Transformacin de Variables: Preparar el archivo de datos O Missing: Resolver el problema de la falta de respuesta: tamao de la muestra (potencia de los contrastes) y sesgo de los resultados (no se distribuyen al azar) O Outliers: Tratar los casos anmalos: eleccin de la prueba o estadstico adecuado O Comprobacin de supuestos paramtricos: pruebas paramtricas vs. no paramtricas, eleccin de la tcnica multivariante concreta O Y, en general, Resumir la informacin que contienen los datos, informar de las tendencias, (anlisis univariable) 5 Razones para el Anlisis Preliminar de los datos Modelos Multivariantes 8 Errores de introduccin de datos: Razn 1. La depuracin de Errores e Incoherencias Valores fuera de rango o no permitidos: Ej. Sexo (1: hombre, 2: mujer. No deberamos de encontrar ningn 3 Tablas de Frecuencias para todas las variables Depuracin de Incoherencias entre respuestas (preguntas filtro): Ej. Variable uno: nmero de cigarrillos que fuma al da (=7) Variable dos: Es fumador (1=si; 2=no) Tablas de Contingencia para pares de variables Errores durante la recogida: Modelos Multivariantes 9 Crear una nueva variable que sea la combinacin de dos variables originales como puede ser el ndice de Masa Corporal (Peso/Altura 2 ) Otro tipo de transformacin es el clculo de las puntuaciones Diferenciales (de desviacin) y Tpicas (Estandarizadas), reescalar, Las puntuaciones tpicas no tienen una unidad de media particular. Su unidad siempre es la misma (indica cuntas desviaciones tpicas por encima o por debajo de la media se sita una puntuacin determinada). Por ello son comparables entre s, independientemente de la unidad de medida de la puntuacin original Tambin sirven para detectar puntuaciones anmalas o outliers: sujetos que tienen un comportamiento que se aleja de la normalidad. El 95% de los casos tienen puntuaciones Z comprendidas entre 1.96 Anlisis Preliminar de los Datos tambin significa CREAR y TRANSFORMAR Variables Modelos Multivariantes 10 Hay que conocer la base de respuestas para saber si estamos ante una prdida de representatividad. La reduccin excesiva del tamao de la muestra condiciona las estimaciones (INTERVALOS DE CONFIANZA) y las comparaciones (SIGNIFICACIN ESTADSTICA). LA CAPACIDAD DE GENERALIZACIN DE LOS RESULTADOS (lo que en principio era una muestra adecuada se convierte en inadecuada y no representativa). Atentamos contra la validez externa LOS MISSING. Tenemos que preguntarnos: Son iguales los que responden a una encuesta que los que no responden?, de quin estamos informando realmente?, siguen algn patrn o se distribuyen de manera aleatoria?, estn sesgados los resultados? Razn 2. Determinacin de la base de Respuesta (MISSING) Modelos Multivariantes 11 Identificar los sujetos con missing (filas) Identificar las variables con missing (columnas) SPSS: Anlisis de Valores Perdidos IDENTIFICACIN DE LA NO RESPUESTA O MISSING Modelos Multivariantes 12 Varias estrategias: Comprobar si los distintos segmentos presentan un porcentaje similar de falta de repuesta (Provincia, Centro, Grupos de Edad, ...) 2 Estudiar posibles patrones o tendencias Identificar variables relacionadas y comprobar que los que responden y los missing se comportan igual, que no existen diferencias estadsticamente significativas t EN CASO DE QUE INFLUYAN o presenten diferencias, qu hacer con ellos?: Sustitucin vs. Imputacin Ahora debemos preguntamos Se distribuyen al azar? Modelos Multivariantes 13 2 POSIBILIDADES: SUSTITUIR: TRANSFORMAR / REEMPLAZAR por Media de la serie Media de puntos adyacentes Mediana de puntos adyacentes IMPUTAR: ANALIZAR LOS VALORES PERDIDOS con el fin de examinar patrones en diferentes variables relacionadas con la variable con missing Mtodo de Regresin, Fichero caliente (hot deck) Cmo hacerlo en SPSS? Modelos Multivariantes 14 Valores que caen fuera del rango normal de los datos Ej. Media edad en el aula CRITERIO de OUTLIER: son aquellos valores que se alejan del cuerpo central de la distribucin entre 1.5 y 3 veces el valor del IQR IQR: Recorrido o Amplitud Intercuartlica se trata de una medida de variabilidad de los datos. Si los valores se alejan ms de tres unidades del cuerpo central de los datos entonces es un caso EXTREMO ( 3 IQR) Razn 3: Los valores ANMALOS o atpicos Amplitud intercuartlica = tercer cuartil - primer cuartil = Q3 - Q1 Modelos Multivariantes 15 A nivel univariante: IQR Grficos de Caja o Boxplot Grficos de Tallo y Hojas A nivel bivariado: Grficos de Dispersin A nivel multivariado: Residuos (tipificados, studentizados, etc.) Distancia de Mahalanobis Distancia de Cook Outliers: Cmo detectarlos? Modelos Multivariantes 16 Lmites inferior y superior son los percentiles 25 y 75 respectivamente La lnea horizontal indica la mediana o percentil 50. Si est en el centro de la caja ndica que se trata de una distribucin simtrica 20 N = INGRESOS 600000 500000 400000 300000 200000 100000 0 9 10 Grficos de caja o BOXPLOT Outlier Extremo Modelos Multivariantes 17 10 10 N = SEXO MUJER HOMBRE I N G R E S O S 600000 500000 400000 300000 200000 100000 0 10 Comparar la distribucin de dos o ms grupos Asimtrica negativa (prxima al tercer cuartil) y Asimtrica Positiva (si aproxima al primero) Modelos Multivariantes 18 SOLUCIONES: Acudir a estadsticos distintos de los habituales y RESISTENTES (Mediana, Media reducida, M-estimadores: Andres, Huber, Tukey, Hampel) Utilizar Contrastes no paramtricos: Mann-Withney, Prueba de la Mediana, Kruskal-Wallis Detectarlos y eliminarlos de la muestra, recurrir a un procedimiento de remuestreo o a procedimientos de estimacin robustos Qu hacer ante la presencia de casos anmalos? Modelos Multivariantes 19 Para elegir la prueba estadstica adecuada en cada caso t de Student Mann-Withney Anova Kruskal-Wallis Discriminante o Regresin Logstica Pruebas Paramtricas y No Paramtricas Razn 4: comprobacin de supuestos paramtricos Modelos Multivariantes 20 NORMALIDAD: que la VD se distribuya normalmente ALEATORIEDAD o Independencia de las medidas: que los sujetos hayan sido seleccionados al azar (ANOVA) HOMOCEDASTICIDAD u Homogeneidad de varianzas: que los distintos grupos posean una variabilidad similar LINEALIDAD: Relacin lineal entre las variables analizadas Cules son esos SUPUESTOS? Modelos Multivariantes 21 NORMALIDAD: Prueba K-S de Lilliefors (SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos) ALEATORIEDAD: Prueba de las Rachas (SPSS: ANALIZAR / Pruebas no paramtricas / Rachas) HOMOCEDASTICIDAD: Prueba de Levene (SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos) LINEALIDAD: Grfico de dispersin (SPSS: ANALIZAR / Estadsticos descriptivos / Explorar / Grficos) Cmo se comprueban? Modelos Multivariantes 22 Grfico Q-Q normal de INGRESOS Valor observado 500000 400000 300000 200000 100000 0 -100000 N o r m a l
e s p e r a d o 2,0 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 Pruebas de normalidad ,257 20 ,001 ,717 20 ,010** INGRESOS Estadstico gl Sig. Estadstico gl Sig. Kolmogorov-Smirnov a Shapiro-Wilk Este es un lmite superior de la significacin verdadera. **. Correccin de la significacin de Lilliefors a. NORMALIDAD Lilliefors: se desconoce la varianza poblacional (habitual) Shapiro-Wilk: muestras pequeas (n<30) Hiptesis nula: la poblacin de la que se ha estrado la muestra es normal Se rechaza Ho (p<0.05) Modelos Multivariantes 23 2 ALTERNATIVAS: TRANSFORMAR LA VARIABLE Posibles transformaciones Asimetra Positiva FUERTE: -1/X 3 , -1/X SUAVE: log X X Asimetra Negativa FUERTE: antilog X SUAVE: X 2 X 3 Recurrir a una prueba no paramtrica o a tcnicas multivariantes ms robustas y... si no se distribuye NORMALMENTE Modelos Multivariantes 24 * En el que lo primero es realizar un anlisis detallado de las variables incluidas en la matriz de datos: O Estudiando grficamente la forma de cada distribucin O Detectar posibles valores extremos O Distribuciones asimtricas, varianzas desiguales, etc * Y lo segundo es preguntarnos si es conveniente realizar alguna transformacin de las variables con el fin de preparar el camino para la correcta aplicacin de las tcnicas confirmatorias EDA, un cambio de actitud Modelos Multivariantes 25 UN REPASO MEDIANTE UN EJEMPLO O Supongamos que deseamos relacionar el nivel de renta del hogar con el lugar de residencia (hbitat rural, semirrural, semiurbano y urbano) y el nmero de miembros en el hogar O Supongamos que una vez recogida la informacin elaboramos una matriz de datos donde expresamos los ingresos brutos de la unidad familiar (en miles). O Veamos los datos correspondientes a los 16 primeros entrevistados: Ing: 150, 81, 102,195, 375, 99, 147, 171, 87, 192, 75, 147, 159, 252, 57, 201 Lug: 4, 4, 4, 4, 4, 4, 4, 4, 2, 3, 4, 4, 4, 4, 2, 4 Miemb: 2, 2, 3, 5, 4, 3, 5, 5, 3, 3, 3, 2, 5, 2, 4, 2 Modelos Multivariantes 26 Para realizar un anlisis exploratorio es necesario pulsar Analizar, a continuacin Estadsticos descriptivos y, por ltimo Explorar. seleccionamos la variable Ingresos unidad familiar y la colocamos en el recuadro de Variables Dependientes: Modelos Multivariantes 27 1. Estadsticos Descriptivos: a) Medidas de localizacin y tendencia central: media, mediana, media recortada al 5%, intervalo de confianza b) Medidas de dispersin: errores tpicos, varianza, mnimo, amplitud intercuartlica c) Medidas de forma de la distribucin: asimetra, curtosis y sus errores tpicos 2. Estimadores Robustos Centrales: alternativas robustas a la mediana y a la media como son el estimador M de Huber, onda de Andrews, M de Hampel y bioponderado de Tukey 3. Valores atpicos: muestra los 5 valores mayores y menores 4. Percentiles: los valores que aparecen situados en los percentiles 5, 10, 25, 50, 75, 90 y 95 Botn Estadsticos: Modelos Multivariantes 28 1. Diagramas de Caja: Grficos de caja para el estudio de las colas de la distribucin (los extremos). Es posible elegir entre dos formas de representacin : niveles de factores, dependientes juntas 2. Grficos descriptivos de tallo y hojas e histogramas: tiles para el anlisis del centro de la distribucin 3. Grficos con pruebas de normalidad: presenta los diagramas de probabilidad normal y de probabilidad sin tendencias. El programa realiza tambin el test de Kolmogorov-Smirnov con el nivel de significacin de Lilliefors, o el test de Shapiro-Wilk cuando la muestra tiene menos de 50 observaciones 4. Grficos de dispersin por nivel con pruebas de Levene: / Botn Grficos: Modelos Multivariantes 29 4. Grficos de dispersin por nivel con pruebas de Levene: slo disponible cuando en el cuadro anterior se selecciona una variable FACTOR. Y se utiliza para controlar la transformacin de los datos para los grficos de dispersin por nivel. En cada grfico se muestra la pendiente de la recta de regresin y las pruebas de Levene de igualdad de varianzas. Estos grficos presentan 3 opciones: Estimacin de potencia, no transformados y transformados (permite llevar a cabo diversas transformaciones como logartmicas, raz cuadradas, cubo, inversa, etc.) Botn Grficos: Modelos Multivariantes 30 Botn Opciones: Opciones: Est dedicado al tratamiento de los valores perdidos Excluir casos segn pareja: permite trabajar con los sujetos que tienen valores perdidos para cada par de variables Excluir casos segn lista: Incluye nicamente aquellos que disponen de valores vlidos para todas las variables analizadas Mostrar Valores: En lugar de eliminar los valores perdidos, los considera como una categora diferente VISUALIZACIN DE LA DISTRIBUCIN DE LA VARIABLE ing (EXMEN GRFICO DE LOS DATOS 31 Si ejecutamos todo cul es la visualizacin de la distribucin o examen grfico de los datos?: Recomendamos pulsar el botn Pegar para mostrar los comandos de sintaxis del programa SPSS para el procedimiento EXAMINE Modelos Multivariantes 32 PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LA DISTRIBUCCIN: El histograma, los grficos descriptivos de tallo y hojas y los grficos de pruebas de normalidad. INTERPRETACIN Histograma: representa las frecuencias obtenidas por cada categora Hay 15 rectngulos de amplitud 50.000 Casi 300 personas viven en hogares con ingresos entre 125 y 175.000 Fijmonos ahora en las 200 personas con ingresos inferiores a 75.000 se distribuyen uniformemente en todo el intervalo o puede ser que prcticamente todos ganen 74.000. Ello nos lo permite saber el grfico de tallo y hojas Modelos Multivariantes 33 PRIMERO ANALIZAMOS LA PARTE CENTRAL DE LA DISTRIBUCCIN: El grfico de caja, los grficos descriptivos de tallo y hojas, el histograma y los grficos de pruebas de normalidad. En el histograma vimos que menos de 200 entrevistados tienen ingresos inferiores a las 75.000. Tallo y hojas: Vemos que de los 200 (64+100+72) con ingresos inferiores a 74.000: 64 ganan entre 54 y 57 100 ganan entre 60 y 69 y el resto entre 72 y 75.000 Nota: cada hoja representa a tres casos En la ltima lnea aparecen 4 casos extremos con ingresos superiores a 280.000 Modelos Multivariantes 34 VENTAJAS DEL GRFICO TALLO Y HOJAS Tallo y hojas: 1. Mantiene los valores originales y no los agrupa en intervalos 2. es muy sencillo localizar los valores centrales de la distribucin 3. facilita la identificacin de concentraciones de datos y posibilita la localizacin de saltos o discontinuidades en la serie de datos (ausencia de determinados niveles de ingresos) 4. Permite la identificacin de aquellos valores poco frecuentes y los valores desviados del conjunto 5. Facilita el estudio de la forma de la distribucin PUNTOS DBILES Tallo y hojas informa de los valores centrales de las distribuci, pero contribuye poco al estudio de los casos extremos. El DIAGRAMA DE CAJA o boxplot permite solventar este problema con informacin del centro de la distribucin, pero tambin permite un anlisis detallado de las colas 35 GRFICO DE CAJA O BOXPLOT La parte oscura dividida por una lnea horizontal informa de: Lmites inferior y superior de la caja son los percentiles 25 y 75 respectivamente La lnea horizontal indica la mediana o percentil 50. Si est en el centro de la caja ndica que se trata de una distribucin simtrica Asimtrica negativa la media est por debajo de la mediana (si la mediana est prxima al tercer cuartil) y asimtrica positiva si aproxima al primero y, en ese caso, la media est por encima de la mediana Entre los percentiles 25 y 75 se concentra el 50% de los casos y esta distancia indica la dispersin (similar al recorrido intercuartlico) Pero dnde est el resto de casos de la distribucin? La T invertida informa del menor valor observado que no es un atpico La parte ms alta de la T indica el mayor valor observado, sin atpicos El resto son ATPICOS, con valores extremos en la variable Modelos Multivariantes 36 LOS CASOS ATPICOS Definicin: Son observaciones con valores extremos, observaciones muy diferentes del resto de valores de la distribucin y que tienen un importante efecto sobre las medidas de tendencia central y variabilidad Dos tipos de casos atpicos: Extremos: smbolo * los que se encuentran a una distancia de la mediana tres veces superior a la longitud de la caja o recorrido intercuartlico Outliers: smbolo 0, separados de la mediana entre 1,5 y 3 veces la longitud de la caja En la grfica se observan 4 casos atpicos (1 outlier y 3 extremos) Modelos Multivariantes 37 Grfico de caja con varias variables dependientes La opcin de dependientes juntas permite comparar fcilmente varias distribuciones examinar la situacin del 50% central de la distribucin definido por la longitud de la caja Examinar la forma del 50% central de la distribucin en funcin de la posicin que ocupa la mediana dentro de la caja evaluar el posible sesgo en las colas de la distribucin en funcin de la longitud de las patas detectar posibles valores atpicos 38 Grfico Q-Q normal de INGRESOS Valor observado 500000 400000 300000 200000 100000 0 -100000 N o r m a l
e s p e r a d o 2,0 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 Pruebas de normalidad ,257 20 ,001 ,717 20 ,010** INGRESOS Estadstico gl Sig. Estadstico gl Sig. Kolmogorov-Smirnov a Shapiro-Wilk Este es un lmite superior de la significacin verdadera. **. Correccin de la significacin de Lilliefors a. Test de Normalidad: Contraste de Lilliefors Grfico Q-Q: La distribucin Normal se representa con una recta inclinada. Los datos desvelan una diferencia o falta de ajuste entre la Normal y la dibujada por la variable. No coinciden o se superponen. SPSS tambin ofrece el contraste de Lilliefors basado en el test de Kolmogorov Smirnov, cuando las medias y las varianzas son desconocidas: Prueba de Normalidad para Ingresos Unidad Familiar Hiptesis nula: la poblacin de la que se ha extrado la muestra es normal El nivel de significacin indica la probabilidad de equivocarnos cuando rechazamos la Ho y sta es verdadera (error tipo I). (p<.05) El valor obtenido es 0.257, que con 20 grados de libertad presenta una significacin del 0.001. Por lo que rechazamos que esa variable tenga una distribucin normal, con una probabilidad de equivocarnos del 0.0% Modelos Multivariantes 39 Grfico Q-Q normal de INGRESOS Valor observado 500000 400000 300000 200000 100000 0 -100000 N o r m a l
e s p e r a d o 2,0 1,5 1,0 ,5 0,0 -,5 -1,0 -1,5 -2,0 Transformaciones para la Normalidad EL PROBLEMA ES QUE CUANDO TENEMOS DISTRIBUCIONES NO NORMALES, entonces no deberamos utilizar determinados test estadsticos como, por ejemplo, la F de Snedecor. As que deberamos adaptar o ajustar esta variable a este requisito, mediante transformaciones No obstante, antes de TRANSFORMACIONES hemos de saber que la ausencia de normalidad puede deberse a la violacin de otros supuestos. Por ello, ANTES debemos comprobar todos los supuestos multivariantes. Muchas veces, remediar estos supuestos solucionan el problema de la no normalidad. Pero si no es as, entonces recurrimos a la Transformacin de la distribucin Modelos Multivariantes 40 Transformaciones de la distribucin El ADE busca realizar transformaciones en las distribuciones para conseguir cambios en la distribucin de las variables, para obtener modelos ms ajustados 4 tipos de Transformaciones sobre los datos observados: 1. Cambios lgicos originados por la Unin de Categoras para reducir la amplitud de la variable. Uniendo unas categoras con otras, eliminando categoras sin respuestas, convirtiendo variables de intervalo en ordinales o nominales, creando variables ficticias o dummy, etc. (SPSS: Transformar/Recodificar) 2. Transformaciones Lineales. Al sumar, restar, multiplicar o dividir los datos originales por una contante no se cambia la distribucin, ni las distancias entre valores, ni el orden porque es una combinacin lineal de los datos originales. Con ello mejoramos la interpretacin sin generar cambios importantes en las variables Modelos Multivariantes 41 Transformaciones de la distribucin 3. Transformaciones algebraicas o no lineales monotnicas. Al aplicar operaciones como la raz cuadrada, cbica, logaritmos. Cambian las distancias entre los valores originales modificando la forma de la distribucin aunque mantienen el orden. Segn la funcin aplicada produciremos una DISPERSIN en una parte de la distribucin. Su eleccin depender de dnde deseamos efectuar dichos cambios Tukey propone una escalera de las transformaciones donde se muestra el tipo de transformacin ms conveniente atendiendo al grado de asimetra de la distribucin original, y al lugar (izquierda o derecha) donde se produce esa asimetra Asimetra negativa se corrige mediante antilogaritmos distribuciones asimtricas positivas se corrigen con races cuadradas 4. Transformaciones no lineales no monotnicas: cambian las distancias y el orden entre los valores. Son las ms difciles de utilizar porque cambian totalmente la informacin original Comprendiendo la distribucin utilizando Medidas de Tendencia Central Adems de representaciones grficas, los estadsticos univariantes completan el conocimiento de la distribucin de una variable: De Tendencia Central: moda, mediana y media Error tpico de la media es la desviacin de la distribucin muestral del estadstico. Se utiliza para calcular el valor de la media de la poblacin de la que se han extrado los datos. Cuanto menor sea, mayor es la probabilidad de que un estadstico extrado de una muestra aleatoria se acerque al valor poblacional Intervalo de confianza para la media: Son los valores entre lo que se situar la media en la poblacin, con un nivel de confianza del 95% Media truncada o trimedia: media de los casos centrales de la distribucin recortada al 5%, eliminando casos inferiores y superiores. Un estadstico ms resistente porque elimina la influencia de posibles valores extremos La mediana, el valor central de la distribucin. Por debajo y encima el 50%. La distribucin normal es simtrica de modo que deben coincidir los valores de la moda, media y mediana Los cuartiles: valores que dividen la distribucin en cuatro partes iguales Un percentil, es el valor de la variable que deja por debajo a un correspondiente porcentaje de datos, y por encima el resto. Los percentiles 10, 20, 30., 90 reciben el nombre de deciles. Primer cuartil es el percentil 25. Adems de la media truncada, otros estadsticos que no estn afectados por los casos atpicos son los M-estimadores. Estimadores Robustos centrales Modelos Multivariantes 43 Los M-estimadores reducen la influencia de los casos extremos ponderando cada valor en funcin de su distancia al centro de la distribucin. Las observaciones centrales se ponderan por el mximo valor (1) y el coeficiente de ponderacin disminuye cuanto ms se aleje se encuentre reducindose as su contribucin en el clculo del estadstico correspondiente. Pudiendo llegar a recibir, incluso, una ponderacin nula (0). La diferencia entre los M-estimadores est en el tipo de ponderacin: Huber pondera con un valor de 1 todos los valores situados a menos de 1,339 de la mediana. Se recomienda cuando la distribucin se acerca a la normalidad sin valores extremos Tukey y Andrews ponderan con un valor de 0 los valores situados a 4,385 y 4,2 de la mediana. Se recomienda cuando hay valores extremos o atpicos Hampel, utiliza tres coeficientes de ponderacin segn cada valor se encuentre a una distancia de la mediana de 1,7; 3,4 y 8,5 Comprendiendo la distribucin utilizando Medidas de Tendencia Central Modelos Multivariantes 44 Reflejan el grado en el que los datos tienden a extenderse respecto a un valor medio. Dos tipos de medidas de variabilidad: 1. Segn la amplitud de la escala en la que se distribuyen las puntuaciones Rango o amplitud total: diferencia entre el valor ms alto y ms bajo. Muy sensible a la presencia de valores atpicos y depende de los valores extremos Recorrido Intercuartlico: elimina estos problemas. Es la diferencia entre el tercer y el primer cuartil. Es menos sensible a la presencia de datos extremos 2. Segn la variacin producida entre todos los valores de la distribucin y un ndice de tendencia central: Desviacin media: promedio desviaciones absolutas respecto a la media La varianza: media de los cuadrados de las desviaciones de los datos Desviacin tpica: la raz cuadrada de la varianza. Es, sin duda, la ms utilizada. (El 68.26% 1Sx; el 95,44% 2Sx; y el 99% entre 3Sx) La mejor forma de saber si una desviacin tpica es alta o baja, es calcular el cociente de la desviacin tpica entre la media. Una puntuacin lejana de la unidad est indicando homogeneidad o escasa diferenciacin Comprendiendo la distribucin utilizando MEDIDAS DE DISPERSIN O VARIABILIDAD Modelos Multivariantes 45 Grado de Simetra: Hasta qu punto la median divide una distribucin en dos partes con formas iguales Asimetra positiva: muchas puntuaciones en la izquierda. media > mediana Asimetra negativa: muchas puntuaciones altas. media < mediana Otros estadsticos de asimetra ms robustos son los ndices de simetra Yulle y Kelley Kelley utiliza los deciles primero y noveno, que son sumados y divididos entre dos. El valor resultante es restado de la mediana. Un valor negativo significa una asimetra positiva (hacia la derecha); es decir, el promedio de deciles supera la mediana Comprendiendo la distribucin utilizando MEDIDAS DE FORMA O ASIMETRA Modelos Multivariantes 46 O Potenciar el uso de tcnicas grficas. Observar el grfico de la distribucin de las variables proporciona informacin excelente O Durante el Anlisis de los Datos, tenemos que detenernos en el anlisis de las diferencias entre los datos reales y el ajuste del modelo (residuales). El EDA tambin contribuye a reducir los residuos al mnimo y as encontrar el mejor ajuste a los datos. Los residuales no siempre significan un error de prediccin del modelo estadstico!! O Utiliza transformaciones de los datos para conseguir modelos ms ajustados O Cuestionar las propiedades de algunos estadsticos. En ocasiones stos pueden resultar inservibles ante la presencia de datos alejados de la mayora de los valores de la distribucin (ej. Media Aritmtica) O Existen otros estadsticos ms robustos ante posibles desviaciones de los supuestos modelos probabilsticos. Por ejemplo, la mediana y la amplitud intercuartlica frente a la media y la varianza EDA, Un cambio de actitud en el que debemos
Incidencia de La Formación Pública o Privada en El Desempeño Académico de Estudiantes de Primer Semestre en Matemáticas Básicas de La Universidad Nacional de Colombia