0% encontró este documento útil (0 votos)
38 vistas36 páginas

Pruebas Estdidticas Homosteseacidad

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 36

Objetivos

1. Representar el diagrama de dispersión


2. Ajustar una recta de regresión a las observaciones
3. Analizar la bondad del ajuste lineal
4. Ajustar una curva parabólica a las observaciones
5. Analizar la bondad del ajuste parabólico
6. Comparar el ajuste lineal y el parabólico.

Introducción

En esta práctica estudiamos dos tipos de problemas. El primero es el de encontrar


una función que se ajuste lo mejor posible a un conjunto de puntos observados,
gráficamente equivale a encontrar una curva que aunque no pase por todos los
puntos esté lo más próxima posible de dichos puntos. El segundo es medir el
grado de ajuste entre la función teórica (función ajustada) y la nube de puntos.
Distinguimos así, entre Teoría de Regresión y Teoría de Correlación.

 Teoría de Regresión: Consiste en la búsqueda de una "función" que


exprese lo mejor posible el tipo de relación entre dos o más variables. Esta
práctica sólo estudia la situación de dos variables.
Una de las aplicaciones más interesante que tiene la Regresión es la
de Predecir, es decir, conocido el valor de una de las variables, estimar el
valor que presentará la otra variable relacionada con ella.
 Teoría de Correlación: Estudia el grado de dependencia entre las
variables es decir, su objetivo es medir el grado de ajuste existente entre la
función teórica (función ajustada) y la nube de puntos.
Cuando la relación funcional que liga las variables X e Y es una recta
entonces la regresión y correlación reciben el nombre de Regresión
Lineal y Correlación Lineal. Una medida de la Correlación Lineal la da
el Coeficiente de Correlación Lineal de Pearson.

Regresión y Correlación Lineal

En primer lugar se plantea el ajuste de una recta entre dos variables. Sea Y la
variable dependiente (variable cuyos valores se desea predecir), y X la variable
independiente (también llamada variable explicativa y que se utiliza para predecir
el valor de la variable dependiente).
En primer lugar, antes de realizar la regresión vamos a visualizar la nube de
puntos. Para ello se seleciona en el menú principal Gráficos/Cuadros de diálogo
antiguos/Dispersión/Puntos...

se muestra la siguiente ventana

Se selecciona la opción que se desee representar, que en nuestro caso


es Dispersión simple y se pulsa el botón Definir. En la ventana correspondiente
se sitúan las variables X e Y en su lugar correspondiente.
Se pulsa Aceptar y se muestra el gráfico de dispersión
El gráfico muestra una posible adecuación del modelo lineal y la tendencia
creciente del mismo.

Para obtener la recta de regresión mínima cuadrática de Y sobre X , y = b0 + b1 x,


se debe elegir el procedimiento Regresión lineal. Para ello se
selecciona Analizar/Regresión/Lineales...
Se muestra la siguiente ventana
Se desplazan las variables X e Y a su campo correspondiente
Se pulsa el botón Estadísticos...

donde se selecciona en Coeficientes de regresión: Estimaciones e Intervalos de


confianza y se marca Ajuste del modelo. Se pulsa Continuar.

Se pulsa el botón Gráficos...

donde se elige *ZRESID para Y y *ZPRED para X. Por último se marca la


opción Gráfico de prob. normal. Se pulsa Continuar

Las representaciones gráficas son una forma de juzgar visualmente la bondad de


ajuste y de detectar comportamientos extraños de observaciones individuales,
valores atípicos. Una visión global de la gráfica nos puede orientar sobre el
cumplimiento de los supuestos del modelo: Normalidad, Linealidad y
Homocedasticidad (Igualdad de las Varianzas) e Independencia de los Residuos.
Además de representar un Histograma y un Gráfico Probabilístico Normal,
también se pueden confeccionar diversos gráficos que aportan información sobre
el cumplimiento de las hipótesis del modelo. Así se pueden realizar Diagramas
de Dispersión para cualquier combinación de las siguientes variables: la variable
dependiente, los valores pronosticados (ajustados o predichos), residuos
tipificados (estandarizados), los residuos eliminados (sin considerar el caso),
ajustados en función de los valores pronosticados, residuos estudentizados, o
residuos estudentizados eliminados (sin considerar el caso).

Por ejemplo:

Gráfico de Residuos tipificados/Valores pronosticados tipificados o


simplemente Residuos/Valor predicho: Este gráfico se utiliza para comprobar
las hipótesis de Linealidad y de Homocedasticidad y estudiar si el modelo es
adecuado o no. Si en el gráfico observamos alguna tendencia, ésta puede ser
indicio de autocorrelación, de heterocedasticidad o falta de linealidad. En general
no se debe observar ninguna tendencia ni comportamiento anómalo.

Gráfico de Valores Observados/Valores predichos: Este gráfico incluye una


línea de pendiente 1. Si los puntos están sobre la línea indican que todas las
predicciones son perfectas. Como el gráfico anterior, también se utiliza para
comprobar la hipótesis de igualdad de varianzas, así se detecta los casos en que la
varianza no es constante y se determina si es preciso efectuar una transformación
de los datos que garantice la homocedasticidad.

Gráfico de Residuos/Variable X: Este gráfico que representa los residuos frente


a una variable independiente, permite detectar la adecuación del modelo con
respecto a la variable independiente seleccionada y también detecta si la varianza
de los residuos es constante en relación a la variable independiente seleccionada.
Si en este gráfico observamos alguna tendencia nos puede indicar el
incumplimiento de la hipótesis de homocedasticidad o falta de linealidad, así
como autocorrelación.

Se pulsa el botón Guardar...
y en Valores pronosticados y Residuos se elige Tipificados. Se
pulsa Continuar. En la ventana del Editor de datos se han creado dos variables
con los nombres ZPR_1 (para los valores pronosticados tipificados)
y ZRE_1 (para los residuos tipificados).
Se pulsa Continuar y Aceptar. Y se obtienen, entre otros, los siguientes
resultados

Esta tabla muestra los resultados del ajuste del modelo de regresión. El valor
de R cuadrado, que corresponde al coeficiente de determinación, mide la
bondad del ajuste de la recta de regresión a la nube de puntos, el rango de valores
es de 0 a 1. Valores pequeños de R cuadrado indican que el modelo no se ajusta
bien a los datos. R cuadrado = 0.481 indica que el 48.1% de la variabilidad
de Y es explicada por la relación lineal con X. El valor R (0.694) representa el
valor absoluto del Coeficiente de Correlación, es decir es un valor entre 0 y 1.
Valores próximos a 1 indican una fuerte relación entre las variables. La última
columna nos muestra el Error típico de la estimación (raíz cuadrada de la
varianza residual) con un valor igual a 16.52243
En la Tabla ANOVA, se muestra la descomposición de la Variabilidad Total
(SCT = 10000) en la Variabilidad debida a la Regresión (SCR_{reg = 4813.175)
y la Variabilidad Residual (SCR = 5186.825) es decir en Variabilidad explicada
por el modelo de regresión y la Variabilidad no explicada. SCT = SCR_{eg} +
SCR. La Tabla de Ánalisis de la Varianza (Tabla ANOVA) se construye a partir
de esta descomposición y proporciona el valor del estadístico F que permite
contrastar la hipótesis nula de que la pendiente de la recta de regresión es igual a
cero contra la alternativa de que la pendiente es distinta de cero, es decir:

donde H0 se conoce, en general, como hipótesis de no linealidad entre X e Y

La Tabla ANOVA muestra el valor del estadístico de contraste, F = 17.631, que


se define como el cociente entre el Cuadrado medio debido a la
regresión (CMR_{eg} = 4813.175) y el Cuadrado medio residual (CMR =
272.991), por tanto cuanto mayor sea su valor, mejor será la predicción mediante
el modelo lineal. El p-valor asociado a F, en la columna Sig, es menor que 0.001,
menor que el nivel de significación α = 0.05, lo que conduce a rechazar la
hipótesis nula, es decir existe una relación lineal significativa entre Y y X. Esto
indica que es válido el modelo de regresión considerado, en este caso el modelo
lineal simple. Sin embargo, esto no significa que este modelo sea el único válido,
puesto que pueden existir otros modelos también válidos para predecir la variable
dependiente.

La siguiente tabla muestra las estimaciones de los parámetros del modelo de


regresión lineal simple, la ordenada en el origen, ß0=375.252 y la pendiente ß1=
0.036
Por tanto, la ecuación de la recta estimada o ajustada es: y =375.252 + 0.036 x.
Así mismo, en esta tabla se presentan los resultados de los dos contrastes
individuales de la significación de cada uno de estos parámetros

 El primero de estos contrastes carece de interés en la mayoría de los casos


ya que raramente el punto de corte de la recta de regresión con el eje de
ordenadas (ordenada en el origen) será el punto (0,0). Además dicho punto
de corte carece de significado casi siempre. En nuestro caso, la
interpretación de ß0 indica el valor de Y que correspondería a un valor de
X igual a 0.
 El segundo contraste, el contraste de la pendiente de la recta, es una
alternativa equivalente al contraste que acabamos de comentar en la Tabla
ANOVA. El estadístico de contraste que aparece en la
columna t vale 4.199 tiene un p-valor asociado, columna Sig, menor que
0.001, menor que el nivel de significación &alpha = 0.05 que conduce al
rechazo de la hipótesis nula y podemos afirmar que existe una relación
lineal significativa entre Y y X. En la última columna de la tabla se
muestran los intervalos de confianza para ß 0 y ß1, al 95%. El intervalo para
ß1 es (0.018, 0.054), puesto que el cero no pertenece al intervalo, hay
evidencia empírica para concluir que X influye en Y y por tanto al nivel de
confianza del 95% el parámetro ß1 no podría considerarse igual a cero.

Validación y diagnosis del modelo

En este apartado vamos a comprobar que se verifcan los supuestos del modelo de
regresión lineal (normalidad, homocedasticidad (igualdad de varianzas) y
linealidad) estos supuestos resultan necesarios para validar la inferencia respecto
a los parámetros. Utilizaremos el analisis de los residuos para realizar los
contrastes a posteriori de dichas hipótesis del modelo. Los residuos se definen
como la diferencia entre el valor observado y el valor predicho por el modelo.
Normalidad

El análisis de normalidad de los residuos lo realizaremos gráficamente


(Histograma y gráfico de probabilidad normal) y analiticamente (Contraste de
Kolmogorov-Smirnov)

Histograma
Representaremos los residuos mediante un histograma superponiendo sobre él
una curva normal de media cero. Si los residuos siguen un distribución normal
las barras del histograma deberán representar un aspecto similar al de dicha
curva.

En primer lugar se guardan los residuos tipificados (realizado anteriormente),


para ello en el Cuadro de diálogo de Analizar/Regresión/Lineal... se pulsa el
botón Guardar... y en Residuos elegimos Tipificados.
Clik Continuar y Aceptar.

En la ventana del Editor de datos se ha creado una variable con el


nombre ZRE_1.

A continuación representamos el histograma, para ello


elegimos Gráfico/Cuadros de diálogo antiguos/Histograma... y en la ventana
emergente seleccionamos la variable que representa los residuos tipificados y
marcamos la opción Mostrar curva normal
Se pulsa Continuar y Aceptar y se muestra el siguiente histograma con la curva
normal superpuesta. Podemos apreciar, en este gráfico, que los datos no se
aproximan razonablemente a una curva normal, puede ser consecuencia de que el
tamaño muestral considerado es muy pequeño (Esta representación no es
aconsejable en tamaños muestrales pequeños).
Gráfico probabilístico normal
Es el procedimiento gráfico más utilizado para comprobar la normalidad de un
conjunto de datos. Para obtener dicho gráfico
seleccionamos Analizar/Estadísticos descriptivos/Gráficos Q-Q... en
el Cuadro de diálogo resultante se selecciona la variable que representa los
residuos tipificados
Se muestra el Gráfico siguiente que representa las funciones de distribución
teórica y empírica de los residuos tipificados. En el eje de ordenadas se
representa la función teórica bajo el supuesto de normalidad y en el eje de
abcisas, la función empírica. Desviaciones de los puntos del gráfico respecto de
la diagonal indican alteraciones de la normalidad. Observamos la ubicación de
los puntos del gráfico, estos puntos se aproximan razonablemente bien a la
diagonal lo que confirma la hipótesis de normalidad.
Contraste de normalidad: Prueba de Kolomogorov-Smirnov
El estudio analítico de la normalidad de los residuos lo realizaremos mediante el
contraste no-paramétrico de Kolmogorov-Smirnov.
Seleccionamos Analizar/Pruebas no paramétricas/Cuadros de diálogos
antiguos/K-S de 1 muestra...
en el Cuadro de diálogo resultante se selecciona la variable que representa los
residuos tipificados
La salida correspondiente la muestra la siguiente tabla

Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de
que los residuos surgieran de una distribución normal y los valores observados.
Se distingue entre la mayor diferencia en valor absoluto, la mayor diferencia
positiva y la mayor diferencia negativa. Se muestra el valor del estadístico Z
(0.861) y el valor del p-valor asociado (0.448). Por lo tanto no se puede rechazar
la hipótesis de normalidad de los residuos.

Homocedasticidad
Comprobamos la hipótesis de homogeneidad de las varianzas gráficamente
representando los residuos tipificados frente a los tiempos de incubación
estimados tipificados. El análisis de este gráfico puede revelar una posible
violación de la hipótesis de homocedasticidad, por ejemplo si detectamos que el
tamaño de los residuos aumenta o disminuye de forma sistemática para algunos
valores ajustados de la variable Y, si observamos que el gráfico muestra forma de
embudo... Si por el contario dicho gráfico no muestra patrón alguno, entonces no
podemos rechazar la hipótesis de igualdad de varianzas.
Se selecciona Analizar/Regresión/Lineal... se pulsa el botón Gráficos... y en
el Cuadro de diálogo correspondiente se selecciona la variable *ZRESID para el
eje Y (dicha variable representa los residuos tipificados) y la
variable *ZPRED (variable que representa los valores predichos tipificados) para
el eje X

Se pulsa Continuar y Aceptar y se muestra el siguiente gráfico


Si trazamos una línea horizontal a la altura de 0, la variación de los residuos
sobre esta línea, si las varianzas son iguales, debería ser semejante para los
diferentes valores de Y. En el gráfico podemos observar, razonablemente, dicho
comportamiento si exceptuamos algún residuo atípico que está por encima de 2.
No apreciamos tendencia clara en este gráfico, los residuos no presentan
estructura definida respecto de los valores predichos por el modelo por lo que no
debemos rechazar la hipótesis de homocedasticidad.
Este mismo gráfico resulta muy útil para detectar indicios de falta de adecuación
del modelo propuesto a los datos, posibles desviaciones de la hipótesis de
linealidad. Si observamos trayectorias de comportamiento no aleatorio esto es
indicio de que el modelo propuesto no describe adecuadamente los datos.

Independencia de los residuos: Contraste de Durbin-Watson

La hipótesis de independencia de los residuos la realizaremos mediante el


contraste de Durbin-Watson. Para ello se
selecciona Analizar/Regresión/Lineal... y en la ventana emergente pulsamos el
botón Estadísticos... En el Cuadro de diálogo resultante elegimos en Residuos
Durbin-Watson y hacemos Clik en Continuar y Aceptar

SPSS proporciona el valor del estadístico de Durbin-Watson pero no muestra el


p-valor asociado por lo que hay que utilizar las tablas correspondientes. El
estadístico de Durbin-Watson mide el grado de autocorrelación entre el residuo
correspondiente a cada observación y la anterior. Si su valor está próximo a 2,
entonces los residuos están incorrelados, si se aproxima a 4, estarán
negativamente autocorrelados y si su valor está cercano a 0 estarán positivamente
autocorrelados. En nuestro caso, toma el valor 1.747, próximo a 2 lo que indica la
incorrelación de los residuos.
El Diagrama de dispersión y el valor de R cuadrado (0.481), nos muestra que el
ajuste lineal no es satisfactorio por lo que se deben considerar otros modelos.

Regresión Cuadrática y Correlación

Para ajustar un modelo cuadrático o parabólico, y = b0 + b1 x + b2 x^2, se


selecciona Analizar/Regresión/Estimación curvilínea...
se muestra la siguiente ventana
Se sitúan las variables X e Y en su campo correspondiente y se marca
en Modelos la opción Cuadrático. Para incluir en el modelo el término
constante (b0) se deja marcada la opción de Incluir constante en la ecuación. Si
se desea obtener el gráfico de la función ajustada junto con la nube de puntos hay
que dejar marcada la opción de Representar los modelos.
Se pulsa Aceptar y se obtienen las siguientes salidas

El modelo ajustado tiene la siguiente expresión y = 442.883 - 0.007 x + 6.64E-


006 x^2.

La representación gráfica de la función ajustada junto con el diagrama de


dispersión es:
Se aprecia que la función curvilínea se ajusta moderadamente al diagrama de
dispersión.
Para comparar las gráficas del ajuste lineal y del ajuste parabólico, se tienen que
dejar seleccionados ambos modelos en la ventana de Estimación curvilínea. Se
pulsa Aceptar y se obtienen los siguientes resultados

La comparación del ajuste de ambos modelos se puede realizar a partir de los


valores del coeficiente de determinación de cada uno de ellos, en este caso R
cuadrado (lineal) = 0.481 y R cuadrado (cuadrático) = 0.488. Los resultados
en el caso lineal son un poco menos satisfactorios que el cuadrático.
Se aprecia, en el gráfico que el modelo cuadrático (línea discontinua) se
aproxima un poco mejor a la nube de puntos que el modelo lineal (línea
continua).

También podemos realizar la comparación del ajuste de los dos modelos a partir
de las varianzas residuales. Para ello se debe marcar en la ventana de Estimación
curvilínea la opción Mostrar tabla de ANOVA
Y se muestran los siguientes resultados

Para el modelo lineal

Para el modelo cuadrático

Los resultados en el caso lineal son un poco menos satisfactorios.


En la Tabla ANOVA se muestra un p-valor = 0.002 menor que el nivel de
significación α = 0.05, por lo que se rechaza la hipótesis nula de no regresión
curvilínea. Conviene puntualizar que la elección de un modelo de regresión debe
tener en cuenta no sólo la bondad del ajuste numérico sino también la adecuación
gráfica de los datos al mismo y, finalmente, su adecuación o explicación
biológica.

6 ERRORES QUE COMETES AL USAR LAS PRUEBAS DE


HIPÓTESIS CLÁSICAS

 Publicado por: Rosana Ferrero


  Categoría: Data Science +R
 23 comentarios

Cualquier investigador habrá escuchado hablar alguna vez de las técnicas paramétricas


clásicas (la t de Student, el ANOVA, la regresión por mínimos cuadrados, etc.). Son el tipo
de pruebas más utilizado aunque requieren que se cumplan ciertos supuestos (como el
de normalidad y homogeneidad de varianza) para que realmente generen buenos
resultados.

Cuando los datos no cumplen con estos supuestos disminuye la capacidad de


detectar efectos reales (afecta al p-valor, al tamaño del efecto y a los intervalo de
confianza estimados).

¡Toda la interpretación de tus datos puede ser errónea!.


 

Hoy te contamos cómo resolver estos problemas.

Tabla de contenidos

 Los problemas de los métodos clásicos

 6 errores comunes que cometen los investigadores

 3 posibles soluciones

 ¿Qué son los métodos robustos?

 ¿Por qué se utilizan poco los métodos robustos?

 Poco que perder y mucho que ganar.

Máster de Estadística Aplicada con R Software 8ª edición 2019 (Reserva de plaza)

 
Los problemas de los métodos clásicos
Revisemos los principales problemas de los métodos paramétricos clásicos para entender
su importancia.

I. Los datos reales suelen ser multimodales, asimétricos y con largas colas en su
distribución de valores, por lo que raramente son normales.

II. La igualdad de varianza poblacional (i.e. homogeneidad de varianza u


homocedasticidad) suele no cumplirse, debido a la naturaleza de los diseños
experimentales y de las muestras.

III. Variabilidad inherente a los datos. Los grupos definidos por un factor pre-existente
pueden tener varianzas diferentes. Por ejemplo, la respuesta a un test cognitivo es más
variable en personas mayores que en los jóvenes. También puede ocurrir que una
variable experimental cause diferencias en la variabilidad entre grupos. Por ejemplo, la
respuesta de los sujetos ante un nuevo fármaco pueden generar gran variabilidad en el
grupo experimental, mientras que el grupo control tendrá una respuesta bastante
homogénea; aún cuando en el pre-test los grupos fueran homogéneos en su respuesta.

El incumplimiento de la normalidad y homogeneidad de varianza puede tener gran


influencia en los resultados de las pruebas paramétricas clásicas, en particular en las
probabilidades de error tipo I y tipo II.

 El error tipo I ocurre cuando falsamente se rechaza la hipótesis nula (i.e.


concluimos que existe un efecto cuando realmente no ocurre). El nivel de
confianza (1-alfa) es la probabilidad de no cometer el error tipo I.
 El error tipo II ocurre cuando la hipótesis nula no es rechazada aún cuando a
pesar de que es falsa (i.e. concluimos falsamente que no existe efecto).
La potencia (1-beta) de una prueba es la probabilidad de que el error tipo II no
ocurra.
 

6 errores comunes que cometen los


investigadores
Estos son los 6 errores más comunes que cometen los investigadores al usar las pruebas
de hipótesis clásicas:
1. Falta de corroboración de los supuestos clásicos. Por olvido o por desconocimiento.
Además, softwares como el SPSS no son muy útiles para ello. Por ejemplo, cuando los
tamaños muestrales son pequeños, el test de Levene para la homogeneidad de varianza,
puede dar resultados engañosos pero no es fácil encontrar alternativas en SPSS. También,
las pruebas para corroborar los supuestos tienen sus propios supuestos. Las pruebas de
normalidad asumen homocedasticidad, y las pruebas de homocedasticidad asumen
normalidad.

No se debemos utilizar solamente pruebas estadísticas para corroborar los supuestos,


tendremos que ayudarnos con gráficos para determinar qué ocurre con nuestros datos.

2. Argumento erróneo sobre la resistencia. Se suele decir que las pruebas paramétricas
clásicas son resistentes a las variaciones en los supuestos de normalidad y
homocedasticidad, negando así la necesidad de utilizar procedimientos alternativos. Sin
embargo, esta afirmación se basa en estudios que solo analizan el impacto de pequeñas
desviaciones de la normalidad y homocedasticidad, no en grandes desviaciones que son
las más frecuentes en los datos reales. Incluso estos estudios suelen analizar dichos
supuestos de manera aislada cuando en la práctica los dos supuestos se incumplen al
mismo tiempo.

Las pruebas paramétricas clásicas son resistentes solo en un número limitado de


circunstancias, no para la mayoría de ellas. Además, aún si un investigador insiste en que
las pruebas clásicas son resistentes, debemos recordarle que las pruebas robustas son
más potentes.

3. Incorrecta utilización de las transformaciones. Algunos investigadores suelen optar


por transformar sus datos para cumplir los supuestos clásicos. Sin embargo, las
transformaciones son problemáticas: i) a menudo fallan en conseguir la normalidad y
homocedasticidad, ii) no se ocupan de los outliers, iii) pueden reducir la potencia, iv)
dificultan la interpretación de los resultados ya que los hallazgos se basan en la
transformación, no en los datos originales. Recomendamos utilizar los métodos robustos
en lugar de utilizar los métodos clásicos con datos transformados.

4. Utilización errónea de las pruebas no-paramétricas clásicas. Estas pruebas no son


robustas ante la hetorocedasticidad, y solo son útiles para análisis simples (a no ser que
se incluyan técnicas de remuestreo o bootstrap).

5. Conceptos erróneos acerca de la disponibilidad los métodos modernos


robustos. Como no están disponibles de manera sencilla en los softwares más
comerciales (SPSS, SAS, etc.) no los uso. ¡Error! Ya existen complementos en estos
programas y además están disponibles en softwares gratuitos y avanzados como R.
6. Argumento erróneo sobre que los métodos modernos descartan información
valiosa. Vale, entiendo que sea contraintuitivo que las pruebas más precisas sean
aquellas que eliminan información (outliers). Por ello hay que ser cuidadosos en evaluar
primero a qué se debe la presencia de casos atípicos, pero si su presencia no se explica
por otras variables no consideradas, tiene sentido aplicar técnicas robustas para disminuir
su influencia en nuestros resultados.

3 posibles soluciones
En muchas ocasiones no se cumplen los supuestos de la estadística
clásica (normalidad y homocedasticidad) y por ende, las técnicas paramétricas no nos
son útiles. En estos casos tenemos 3 posibles soluciones:

 la transformación de los datos, de tal manera de que sigan una distribución


normal y/o homocedástica.
 Esta opción no siempre es útil ya que, por ejemplo, la nueva variable transformada
puede no ser sencilla de interpretar; además, no solucionan los problemas de
outliers, pueden reducir la potencia estadística, etc..
 utilizar pruebas no paramétricas
 Esta es una buena alternativa ya que las pruebas no paramétricas no se basan en
ninguna suposición en cuanto la distribucón de los datos (normalidad; pero sí sigue
asumiendo homocedasticidad).
 utilizar pruebas robustas.
 Son similares a las paramétricas pero resistentes a la presencia de datos extremos,
y son estables respecto a pequeñas desviaciones del modelo paramédico asumido
(desviaciones de la normalidad y homocedásticidad).

¿Qué son los métodos robustos?


Los métodos estadísticos robustos son técnicas modernas que hacen frente a estos
problemas. Son capaces de disminuir la tasa de error tipo I y también mejorar la potencia
de la prueba cuando los datos no son normales ni homogéneos. Además, son sencillos y
se encuentran disponibles en softwares gratuitos como R.

Razones para utilizar pruebas robustas


 Son estables respecto a pequeñas desviaciones del modelo paramétrico
asumido (normalidad y homocedasticidad). A diferencia de los procedimientos
no paramétricos, los procedimientos estadísticos robustos no tratan de
comportarse necesariamente bien para una amplia clase de modelos, pero son de
alguna manera óptimos en un entorno de cierta distribución de probabilidad, por
ejemplo, normal.
 Solucionan los problemas de influencia de los outliers.
 Son más potentes que las pruebas paramétricas y no paramétricas cuando los
datos no son normales y/o no son homocedásticos.
 

¿Por qué se utilizan poco los métodos


robustos?
Principalmente porque no los conocen. En parte porque no aparecen en los libros de
texto clásicos y en parte porque la actualización curricular en métodos estadísticos es
pobre.

La mayoría de los investigadores no son conscientes de las serias limitaciones de los


métodos clásicos, no saben cómo comprobar los supuestos de la estadística clásica y/o no
están familiarizados con las alternativas modernas.

La mayoría de los investigadores no son conscientes de las serias limitaciones de los


métodos clásicos, no saben cómo comprobar sus supuestos y/o no están
familiarizados con alternativas modernas como los métodos robustos.

Poco que perder y mucho que ganar.


Los métodos robustos modernos son diseñados para obtener un buen desempeño
cuando los supuestos clásicos se cumplen y también cuando se incumplen. Por lo
tanto, hay poco que perder y mucho que ganar a la hora de utilizar estas técnicas en
lugar de las clásicas.

Los métodos robustos modernos son diseñados para obtener un buen desempeño
cuando los supuestos clásicos se cumplen y también cuando se incumplen.
 

Y ahora te toca actuar a ti, ¿cómo vas a realizar tus próximos análisis de datos?

Este texto es una adaptación del artículo:

Erceg-Hurn, D. M., & Mirosevich, V. M. (2008). Modern robust statistical methods: an easy
way to maximize the accuracy and power of your research. American Psychologist, 63(7),
591.

Artículos Relacionados

Guía definitiva para encontrar la prueba


estadística que buscas
2 Comentarios

Si quieres conseguir una super hoja de ruta para saber qué prueba estadística debes
elegir para analizar tus datos continúa leyendo este post. Ah… y un plus, ¡la lista de
funciones en R Software para realizar cada tipo de prueba!
 Ver más

También podría gustarte