0% encontró este documento útil (0 votos)
102 vistas54 páginas

Actividad2 U4

Este documento trata sobre la unidad 4, que incluye temas sobre pruebas de bondad de ajuste y pruebas no paramétricas. Se discuten varias pruebas estadísticas como la prueba de chi-cuadrado, la prueba de independencia, las tablas de contingencia, y las pruebas de Kolmogorov-Smirnov, Anderson-Darling y Ryan-Joiner. También se explica la diferencia entre métodos paramétricos y no paramétricos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
102 vistas54 páginas

Actividad2 U4

Este documento trata sobre la unidad 4, que incluye temas sobre pruebas de bondad de ajuste y pruebas no paramétricas. Se discuten varias pruebas estadísticas como la prueba de chi-cuadrado, la prueba de independencia, las tablas de contingencia, y las pruebas de Kolmogorov-Smirnov, Anderson-Darling y Ryan-Joiner. También se explica la diferencia entre métodos paramétricos y no paramétricos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PPTX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 54

Unidad 4

Pruebas de bondad de ajuste y pruebas no paramétricas.


 Introduccion
 Tema1. Bondad de ajuste
 Tema 2. Análisis ji-cuadrada
 Tema 3. Prueba de independencia
 Tema 4. Prueba de la bondad de ajuste
Indice  Tema 5. Tabla de contingencia
 Tema 6. Pruebas no paramétricas
 Tema 7. Escala de medición
 Tema8. Métodos estadísticos contra no paramétricos
 Tema 9. Prueba de kolmogorov-smirnov
 Tema 10. Prueba de Anderson-Darling
 Tema 11. Prueba de Ryan-joiner
 Tema 12. Prueba de shappiro-wilk
 En esta sección se llevo a cabo el desarrollo de la unidad 4 con sus
respectivos subtemas el cual nos dimos a la tarea de investigar cada uno de
ellos, en estos temas se abordaron teas de pruebas de bondad de ajuste y
pruebas no paramétricas, como sabemos la prueba de chi- cuadrado es
recomendable para distribuciones continuas o discretas cuando existen gran
cantidad de datos. Así también la prueba de Kolmogórov-Smirnov es

Introduccion
recomendable para distribuciones continuas y muestras de cualquier tamaño.
También se planteará la prueba de Darling es recomendable para
distribuciones con colas pronunciadas.
 La estadística no paramétrica es una rama de la estadística que estudia las
pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a
los llamados criterios paramétricos. Su distribución no puede ser definida a
priori, pues son los datos observados los que la determinan. Cabe mencionar
que se verán lo del análisis Ji-cuadrada, prueba de independencia, tablas de
contingencia, escala de medición, métodos estadísticos contra no
paramétricos, sólo por mencionar algunos de los temas que se analizaran.
A.  El término bondad de ajuste se refiere a una prueba
estadística que determina qué tan bien se ajustan los
datos de una muestra a una distribución de una población
con una distribución normal .
Bondad de Ajuste  una prueba estadística que intenta determinar si un
conjunto de valores observados coincide con los
esperados según el modelo aplicable .
La prueba de ji cuadrado se usa para comprobar hipótesis sobre si
ciertos datos son como se esperaba.
A-1.
La idea clave tras la prueba es comparar los valores observados en
los datos con los valores esperados que tendríamos si la hipótesis
nula es cierta.
El índice "Chi (Ji) Cuadrado" se define:
Análisis Ji-Cuadrada
Donde:

fe: Frecuencia empírica.

ft: Frecuencia teórica.


se basa en la comparación de las frecuencias bivariadas obtenidas a partir de
los datos (frecuencias empíricas) con las frecuencias que resultarían si NO
hubiere relación de asociación entre las variables (frecuencias teóricas).
Las frecuencias teóricas pueden ser obtenidas a partir de un razonamiento
sencillo: Si no hubiere asociación entre X e Y, cada una de las modalidades
de cada variable estaría emparejada con cada una de las modalidades del
índice Ji otra variable. Si no hay emparejamiento significa que hay asociación entre

Cuadrado
las variables.
El cálculo consiste en:
a) Sumar cada fila y cada columna, obteniendo las
renombradas distribuciones marginales (que son las de cada variable por
separado).
b) Para cada casilla del interior de la Tabla, obtener el producto de la
casilla de su marginal fila por la casilla de su marginal columna y dividir por
N (número de casos).
A continuación se aplica la fórmula obteniendo para cada casilla
del cuerpo central de la Tabla el cuadrado de la diferencia entre
la frecuencia empírica y la teórica, dividiéndolo por la
frecuencia teórica. La suma total es el valor del estadístico Ji

Ejemplo Cuadrado:

Principales características

a) El índice Ji Cuadrado tiene valor mínimo 0, que indica NO asociación entre las variables.
b) No hay máximo, por lo que no se puede hacer comparaciones entre diferentes variables.
Las pruebas de independencia implican el uso de una tabla de
A-2. contingencia de valores observados (datos).
El estadístico de prueba de independencia es similar al de la
prueba de bondad de ajuste:
Prueba de donde:
Independencia  O = valores observados
 E = valores esperados
 i = el número de filas de la tabla
 j = el número de columnas de la tabla
Hay i ⋅ j términos de la forma
 Supongamos que A = una infracción por exceso de velocidad en el último año
y B = un usuario de teléfono móvil mientras conduce. Si A y B son
independientes, entonces P(A Y B) = P(A)P(B). A Y B es el evento en que un
conductor recibió una infracción por exceso de velocidad el año pasado y
también utilizaba el teléfono móvil mientras conducía. Supongamos que se
encuestaron 755 personas en un estudio sobre conductores que recibieron
infracciones por exceso de velocidad durante el año pasado que usaron el

EJEMPLO teléfono móvil mientras conducían. De los 755, 70 tenían una infracción por
exceso de velocidad y 685 no; 305 usaba el teléfono móvil mientras conducían y
450 no.

 Supongamos que y = número esperado de conductores que usaron un teléfono


móvil mientras conducían y recibieron infracciones por exceso de velocidad.

 Si A y B son independientes, entonces P(A Y B) = P(A)P(B).


Por sustitución,

Resuelva para y: y =
Se espera que unas 28 personas de la muestra usen teléfonos móviles mientras conducen y
reciban infracciones por exceso de velocidad.

En una prueba de independencia planteamos las hipótesis nula y alternativa con palabras. Dado
La prueba de independencia es que la tabla de contingencia consta de dos factores, la hipótesis nula afirma que los factores
siempre de cola derecha debido al son independientes y la hipótesis alternativa afirma que no son independientes (dependientes).
cálculo del estadístico de prueba. Si los Si hacemos una prueba de independencia usando el ejemplo, entonces la hipótesis nula es:
valores esperados y observados no H0: Hablar por el teléfono móvil mientras se conduce y recibir una infracción por exceso de
están cerca, entonces el estadístico de velocidad son eventos independientes.
prueba es muy grande y se encuentra
en la cola derecha de la curva de chi- Si la hipótesis nula fuera cierta, esperaríamos que unas 28 personas usaran el móvil mientras
cuadrado, al igual que en una bondad conducen y recibieran una infracción por exceso de velocidad.
de ajuste.
 El número de grados de libertad para la prueba de independencia es:

 df = (número de columnas – 1)(número de filas – 1)

La siguiente fórmula calcula el número esperado (E):


A.-3

 La prueba de bondad de ajuste es casi siempre de cola


Prueba de Bondad derecha. Si los valores observados y los correspondientes
valores esperados no se aproximan entre sí, el estadístico de
de Ajuste prueba puede ser muy grande y se situará en la cola derecha de
la curva de chi-cuadrado.
En este tipo de prueba de hipótesis se determina si los datos “se
ajustan” a una determinada distribución o no.
puede sospechar que sus datos desconocidos se ajustan a una

Por ejemplo distribución binomial.


Se utiliza una prueba de chi-cuadrado (lo que significa que la
distribución para la prueba de hipótesis es chi-cuadrado) para
determinar si hay un ajuste o no. 
De esta prueba se pueden escribir en oraciones o plantear como ecuaciones o
desigualdades.

 El estadístico de prueba para una prueba de bondad de ajuste es:

hipótesis nula donde:

y  O = valores observados (datos)

alternativa
 E = valores esperados (de la teoría)
 k = el número de celdas o categorías de datos diferentes.

Los valores observados son los valores de los datos y los valores esperados son los
valores que se esperarían obtener si la hipótesis nula fuera cierta.

Hay n términos de la forma.

 El número de grados de libertad es df = (número de categorías – 1).


el ausentismo de los estudiantes universitarios a las clases de Matemáticas
es una de las principales preocupaciones de los instructores de
Matemáticas, ya que ausentarse de clase parece aumentar la tasa de
abandono. Supongamos que se realiza un estudio para determinar si la tasa
real de ausentismo de los estudiantes sigue la percepción del profesorado.
El profesorado esperaba que un grupo de 100 estudiantes se ausentara de

Ejemplo clase según se indica.

Luego, se realizó una encuesta aleatoria en todos los cursos de


Matemáticas para determinar el número real (observado) de ausencias en
un curso.
Determine las hipótesis nula y alternativa necesarias para realizar
una prueba de bondad de ajuste.

H0: El ausentismo de los estudiantes se ajusta a la percepción del


profesorado.

Ejemplo
La hipótesis alternativa es la opuesta a la hipótesis nula.

Ha: El ausentismo de los estudiantes no se ajusta a la percepción


del profesorado.
 Tome nota que el número de ausencias previsto para la entrada “más de 12”
es inferior a cinco (es dos). Combine ese grupo con el de “9-11” para crear
nuevas tablas en las que el número de estudiantes de cada entrada sea de
cinco como mínimo.

Solución

Solución

 b. Hay cuatro “celdas” o categorías en cada una de las nuevas tablas.


 df = número de celdas – 1 = 4 – 1 = 3
A-4

 es una herramienta utilizada en la rama de la estadística, la cual consiste


en crear al menos dos filas y dos columnas para representar datos

Tablas de categóricos en términos de conteos de frecuencia. 

Contingencia
 también se conoce como tabla cruzada o como tabla de dos vías, tiene
el objetivo de representar en un resumen, la relación entre diferentes
variables categóricas. 
 La tabla permite medir la interacción entre dos variables para
conocer una serie de información “oculta”  de gran utilidad
para comprender con mayor claridad los resultados de una
investigación. 
 Ordenar la información recolectada para un estudio cuando los
Objetivos datos se encuentran divididos de forma bidimensional, esto
significa a que se relaciona con dos factores cualitativos.   
 El otro objetivo de la tabla de contingencia es analizar si hay
una relación entre las variables cualitativas, ya sean
dependientes o independientes. 
 Facilita la lectura de los datos recolectados, ya que permite
agruparlos cuando aún se encuentran sin procesar, lo que
disminuye el margen de error al realizar un informe de
investigación. 

Ventajas   Gracias a la tabla de contingencia es posible realizar gráficas que


permitan visualizar la información fácilmente para su
comprensión. 
 A diferencia de otros métodos estadísticos de análisis de datos, la
tabla de contingencia permite ahorrar tiempo durante la
correlación de variables.  
 Las tablas ofrecen resultados claros y precisos que permiten
tomar mejores decisiones y crear estrategias basadas en datos. 
 La información sin procesar puede ser difícil de interpretar.
Incluso para pequeños conjuntos de datos, es demasiado fácil
obtener resultados incorrectos con solo mirar los datos. La tabla
ofrece un método simple de agrupar variables, que minimiza el
Importancia potencial de confusión o error al proporcionar resultados claros.
 La tabla facilita la interpretación de los datos, lo cual es
beneficioso para los investigadores que tienen un conocimiento
limitado del análisis estadístico. Las personas no necesitan
programación estadística para correlacionar variables
categóricas. 
 La claridad que ofrece una tabla ayuda a los profesionales a
evaluar su trabajo actual y trazar estrategias futuras.
B.
 son aquellas que se encargan de analizar datos que no tienen
una distribución particular y se basan una hipótesis, pero los
datos no están organizados de forma normal. 
Pruebas  Aunque tienen algunas limitaciones, cuentan con resultados
No estadísticos ordenados que facilita su comprensión.

Paramétrica  también conocidas como pruebas de distribución libre, son las


que se basan en determinadas hipótesis, pero lo datos
observados no tienen un organización normal. 
 Es un método de medición difícil de aplicar.
 Es necesario realizar pruebas de hipótesis.

características  Las hipótesis son estrictas.


 Las observaciones deben de ser independientes.
 Prueba de signos de una muestra
 Prueba de los rangos con signo de Wilcoxon
Tipos de pruebas no  Prueba U de Mann-Whitney
paramétricas  Prueba de Kruskal-Wallis
y
sus aplicación  Prueba de la mediana de Mood
 Prueba de Friedman
 Pueden utilizarse en diferentes situaciones, ya que no
deben de cumplir con parámetros estrictos.
 Generalmente, sus métodos son más sencillos, lo que las
Ventajas hace más fácil de entender.
 Se pueden aplicar en datos no numéricos.
 Facilita la obtención de información particular más
importante y adecuada para el proceso de investigación.
 No son pruebas sistemáticas.
 La distribución varía, lo que complica seleccionar la
elección correcta.
 Los formatos de aplicación son diferentes y provoca
Desventajas confusión.
 Es posible que se pierda información porque los datos
recolectados se convierten en información cualitativa.
 Es posible que se necesite tener fuentes y un respaldo
con más peso.

Este tipo de estadísticas se pueden utilizar sin el tamaño de la muestra o


la estimación de cualquier parámetro relacionado del que no se tenga
información.
Dado que las suposiciones son menores, pueden aplicarse de múltiples
formas.
B-1.  Una escala de medición es un criterio de ordenación utilizado
en estadística para organizar, clasificar y comparar un conjunto

Escala
de datos. Son sistemas de clasificación mediante los cuales la
información se puede ordenar de acuerdo a

de una jerarquía preestablecida.
 Estas se pueden definir como la manera en que unos datos se
Medición relacionan y se jerarquizan entre sí, de manera que, durante el
análisis, se pueden ordenar de menor a mayor (o viceversa) y
buscar igualdades entre las variables. 
 En los diferentes análisis estadísticos, se tienen en cuenta una
gran cantidad de datos los cuales deben ser evaluados con
precisión. Para la evaluación se basa en una comparación entre
los mismos, con el fin de determinar diferentes parámetros
estadísticos, como la frecuencia absoluta, la tendencia, entre
Aplicación otros.
 Las escalas de medición estadísticas permiten realizar esta
comparación de manera efectiva, pues ofrecen a los
investigadores un sistema o criterio a partir del cual,
dependiendo del tipo de dato, se pueden ordenar las diferentes
variables involucradas en el análisis. 
 Gran parte de la aplicación de estas escalas se basa en la
medición de unas características específicas, con el fin de
determinar cuál es mayor, cuál es menor, cuáles son iguales o
diferentes, y operar entre ellas matemáticamente.
 Escala nominal : es el criterio a partir del cual se organizan
los datos cualitativos nominales, es decir, aquellas cualidades o
características que no cuentan con una jerarquía específica
entre sí y, por lo tanto, no se pueden ordenar. 

Tipos de escalas  Se dice que las variables de este tipo son mutuamente


de medición excluyentes, una expresión propia de la lógica, que indica que
dos o más estados no pueden existir simultáneamente. Es decir,
en un momento o contexto dados, dos eventos no pueden
ocurrir al mismo tiempo.
 La única operación matemática que se puede realizar para este
tipo de escala es la igualdad (=) o, en su defecto, la diferencia
(≠). Dado que los datos no se pueden ordenar, solo se puede
realizar una comparación entre ellos mediante las anteriores
operaciones.
escala nominal

 Naturalmente, no existe una jerarquía que permita clasificar los


colores en mayores y menores. Por lo tanto, las distintas
Ejemplo  variables se pueden organizar de acuerdo al criterio del
investigador, como se evidencia en la siguiente la tabla: 

 El investigador pudo haber organizado las diferentes variables


de una manera distinta, sin afectar, significativamente, el
análisis ni los resultados del mismo.
 se emplea para organizar datos cualitativos ordinales o, en otros
términos, aquellas características que cuentan con un orden
específico. Generalmente, el criterio de ordenación para este
tipo de variables se ha establecido de manera artificial, o con
base en otro. 
Escala ordinal  se pueden realizar las operaciones básicas de comparación, es
decir, igualdad (=), desigualdad (≠), mayor que (>) y menor
que (<). En este caso, cada variable tiene un valor que puede
ser mayor o menor respecto a otro, lo que permite realizar las
anteriores operaciones y ordenar los datos.
 El sistema de calificación alfabético se utiliza en diferentes
países. En estos casos, las notas se pueden organizar según la
escala ordinal establecida previamente. De esta manera, se
puede obtener la siguiente tabla:

Ejemplo 
 Un docente puede organizar las variables como se muestra en la
tabla anterior, considerando que A es la nota más alta que un
estudiante puede obtener, y F, la más baja. Esto se debe a que
dicho sistema de calificación jerarquiza las notas de esa
manera.
 es un tipo de escala de medición para el ordenamiento y
operación con datos cuantitativos, es decir, datos numéricos. En
este caso, se conoce la diferencia o distancia entre cada dato,
pues esta es constante. 

Escala de  se suele calificar a los estudiantes con un puntaje numérico, en

Intervalo el que 100 equivale a un grado excelente de lectura. Por lo


tanto, se puede emplear la siguiente tabla para el presente
ejemplo:
se utiliza para datos cuantitativos que no aceptan valores menores
que cero. Por lo anterior, se dice que este tipo de escala de
medición implica un cero absoluto.
El cero, en este caso, indica una ausencia de valor, a diferencia de

Escala de razón la escala de intervalos.

Las magnitudes físicas, como la velocidad, la distancia, la altura,


el peso o la energía, hacen parte de este tipo de escala, pues la
implicación del cero supone la inexistencia de ese estado físico.
De igual manera, estas no aceptan valores negativos.
En este tipo de escala, se pueden realizar todas las operaciones
aritméticas básicas, es decir, la división, la multiplicación, la
sustracción y la adición, así como emplear los operadores de
comparación para cotejar los datos. 
Durante el proceso de selección de personal para la comisaría de
una ciudad, se evalúan las diferentes alturas de los postulantes al
cargo. Al final de la evaluación, se han registrado y ordenado los
siguientes valores:

Ejemplo

Por lo tanto, el postulante con mayor altura es el número 2,


seguido por el número 1 y 8, con unas alturas respectivas de 88,4
cm y 85,6 cm.
B-2.
Para que un método estadístico se clasifique como NO
PARAMÉTRICO, debe satisfacer alguna de las siguientes 3:
Métodos condiciones:

Estadísticos contra  1.Que pueda ser usado con datos nominales.


 2.Que puede ser usado con datos ordinales.
No Paramétricos  3.Que pueda ser usado con datos de intervalo o de razón.
Los métodos que cumplen con estas características son:

 PRUEBA DE LOS SIGNOS


 PRUEBA DE LOS RANGOS CON SIGNO DE
COMO WICOLXON

CUMPLIRLOS  PRUEBA DE MANN-WHITNEY-WICOLXON

VALUES

datos para poder calcularlos:


 MEDIA
 VARIANZA
 DESVIACIÓN ESTÁNDAR
VENTAJAS:

 Si el tamaño de la muestra es muy pequeño, puede no haber


VENTAJAS otra opción que usar estadística no paramétrica, a menos que la
VS naturaleza de la distribución de la población se conozca con
exactitud.
DESVENTAJAS  Las pruebas estadísticas típicamente son mas fáciles de
aprender y aplicar que las pruebas paramétricas. Además su,
interpretación suela ser mas directa que la interpretación de las
pruebas paramétricas
 Los métodos paramétricos están disponibles para tratar datos
que son simplemente clasificatorios o categóricos, es decir que
son medios en una escala nominal. Ninguna técnica
paramétrica se aplica a tales datos.
 Una objeción de las pruebas no paramétricas es que no son
sistemáticas, mientras que las pruebas estadísticas paramétricas
han sido sistematizadas y diferentes pruebas son simplemente
variaciones de un tema central.
 Otra objeción de este tipo de prueba estadística se relaciona con
DESVENTAJAS la conveniencia, este se debe a que no se tiene una distribución
fija para este tipo de estadística, por lo que en ocasiones puede
ser un problema elegir la adecuada.
 El procedimiento Prueba de Kolmogorov-Smirnov para una
muestra compara la función de distribución acumulada
B-3. observada de una variable con una distribución teórica
determinada, que puede ser la normal, la uniforme, la de Poisson
o la exponencial.
 La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia
Prueba de mayor (en valor absoluto) entre las funciones de distribución
Kolmogorov – Smirnov acumuladas teórica y observada. Esta prueba de bondad de
ajuste contrasta si las observaciones podrían razonablemente
proceder de la distribución especificada.
 A partir de la versión 27.0, la estadística de prueba Lilliefors se
puede utilizar para estimar el valor p utilizando el muestreo de
Monte Carlo para probar en una distribución normal con
parámetros estimados (esta funcionalidad era posible
anteriormente únicamente a través del procedimiento Explorar).
 Muchas pruebas paramétricas requieren que las variables se
distribuyan de forma normal.
 La prueba de Kolmogorov-Smirnov para una muestra se puede
utilizar para comprobar que una variable (por ejemplo ingresos)
se distribuye normalmente.

Ejemplo Estadísticas

 Media, desviación estándar, mínimo, máximo, número de casos


no perdidos, cuartiles, prueba de Lilliefors y simulación de
Monte Carlo.
Datos
Utilice variables cuantitativas (a nivel de medición de razón o de intervalo).

Supuestos

La prueba de Kolmogorov-Smirnov asume que los parámetros de la


distribución de prueba se han especificado previamente. Este procedimiento
Consideraciones estima los parámetros a partir de la muestra.

La media y la desviación estándar de la muestra son los parámetros de una


distribución normal, los valores mínimo y máximo de la muestra definen el
rango de la distribución uniforme, la media muestral es el parámetro de la
distribución de Poisson y la media muestral es el parámetro de la distribución
exponencial. La capacidad de la prueba para detectar desviaciones a partir de
la distribución hipotetizada puede disminuir gravemente.

La prueba de Lilliefors se aplica a las tres distribuciones continuas


(Normal, Exponencial y Uniforme). Tenga en cuenta que la prueba no se aplica
si la distribución subyacente es discreta (Poisson). 
 característica requiere la opción Statistics Base.
En los menús seleccione:
Analizar > Pruebas no paramétricas > Diálogos heredados > 1-
Obtención Ejemplo K-S. ..

de una prueba  Seleccione una o más variables de contraste numéricas. Cada


variable genera una prueba independiente.
 Opcionalmente, seleccione un método de distribución de
prueba:
 Cuando se selecciona, puede especificar si los parámetros de
distribución se calculan a partir de los datos de muestra (el
valor predeterminado) o de los valores personalizados. Cuando
se selecciona Utilizar datos de muestra, se utilizan tanto los

Normal resultados asintóticos existentes como la corrección de


significación de Lilliefors basada en el muestreo de Monte
Carlo.
 Cuando se selecciona Personalizado, proporcione valores
para Media y Desv. estándar.
 Cuando se selecciona, puede especificar si los parámetros de
distribución se calculan a partir de los datos de muestra (el
valor predeterminado) o de los valores personalizados.

Uniforme
 Cuando se selecciona Utilizar datos de ejemplo, se utiliza la
prueba de Lilliefors. Cuando se selecciona Personalizado,
proporcione valores tanto para Mín. como para Máx.
 Cuando se selecciona, especifique un valor de
parámetro Media.

Exponencial
Poisson  Cuando se selecciona, puede especificar si los parámetros de
distribución se calculan a partir de la media muestral (el valor
predeterminado) o de los valores personalizados. Cuando se
selecciona Utilizar datos de ejemplo, se utiliza la prueba de
Lilliefors. Cuando se selecciona Personalizado, especifique un
valor de parámetro Media.
B-4
 La prueba AD es una forma de estimación de mínima distancia, y uno
de los estadísticos más potentes para detectar discrepancia con respecto
a normalidad. Se puede utilizar con un tamaño muestral bajo (n ≤ 25).
Tamaños muestrales muy grandes pueden rechazar el supuesto de
Prueba de normalidad con tan solo pequeñas imperfecciones.

Anderson – Darling  La prueba AD ve si la muestra proviene de una distribución específica.


La fórmula del estadístico A para ver si los datos provienen de una
distribución con f.d.c. F es A2 = – n – S. Para ello, los datos {Y1 < … <
Yn} deben estar ordenados.
El estadístico de prueba puede entonces ser comparado contra los
valores críticos de la distribución teórica (dependiendo de que F es
utilizada) para determinar el p-valor. La prueba AD para normalidad es
una prueba de distancia o prueba de función de distribución empírica.
Esta basada en el concepto de que cuando se da una distribución
subyacente hipotética, los datos pueden ser transformados a una
Prueba de Anderson – Darling distribución uniforme.

Procedimiento: Esta explicación esta basada en una prueba para una


distribución normal Los datos Xi para i = 1,…,n de la variable X que se
quiere probar se organizan ascendentemente (menor a mayor). La media
y desviación estándar s son calculadas para la muestra X. Los valores Xi
se estandarizan como . Con la f.d.c. normal estándar Φ, A 2
se calcula como
La prueba es unidireccional (una cola), entonces si el estadístico A es
mayor al valor critico, se rechaza la hipótesis nula de que la distribución
sigue una forma especifica.
Si la desviación estándar s = 0 ó Φ(Yi) = (0 ó 1), entonces A 2 no puede
ser calculado y es indefinido. (notar que 0 lim x→ LnX = – ∞). Cualquier
otra distribución teórica se puede asumir utilizando la respectiva f.d.c.

Prueba de Anderson – Darling Cada distribución teórica tiene sus propios valores críticos. La H0 sigue la
verdadera distribución (en el ejemplo N(0,1) ).
La prueba AD es una modificación de la prueba KS y da mayor peso a las
colas que KS. La KS es libre de distribución en el sentido que los valores
críticos no dependen en la distribución específica que se está probando.
La AD hace uso de la distribución específica al calcular los valores
críticos. Esto tiene la ventaja de permitir una prueba más sensible y la
desventaja de tener que calcular los valores críticos para cada
distribución.
 Esta prueba evalúa la normalidad calculando la correlación
B-5 entre los datos y las puntuaciones normales de los datos. Si el
coeficiente de correlación se encuentra cerca de 1, es probable
que la población sea normal.
 El estadístico de Ryan-Joiner evalúa la fuerza de esta
Prueba de correlación; si se encuentra por debajo del valor crítico
Ryan – Joiner apropiado, usted rechazará la hipótesis nula de normalidad de
la población. Esta prueba es similar a la prueba de normalidad
de Shapiro-Wilk.
 La prueba de Ryan-Joiner (similar a la prueba de Shapiro-Wilk)
se basa en regresión y correlación.
El gráfico cuantil - cuantil, como se vio anteriormente, es un
método informal para evaluar la forma de la distribución de la
población. Cuánto más cercano se encuentren los puntos a la
recta, es más probable suponer la distribución en la cual se basa el
gráfico.

Prueba de Ryan – Joiner Sea x(i)


las observaciones muestrales ordenadas. El gráfico para
comprobar la normalidad sería el representado por las parejas
(x(i),yi)
donde
Una medida de la magnitud con la que los puntos se agrupan
alrededor de la recta es el coeficiente de correlación muestral r.

En la medida en que los puntos se alejen de la recta el coeficiente de


correlación tenderá a ser más pequeño. Esta idea se puede utilizar
para realizar un procedimiento de prueba, tal como rechazar la
hipótesis de normalidad si el coeficiente de correlación es menor que
Prueba de Ryan – Joiner
algún valor crítico, a un nivel de significancia especificado.

Se define como el coeficiente de correlación entre los datos y las


puntuaciones normales de los datos. Si el coeficiente de correlación
está cercano a 1 los datos se encuentran cerca de la gráfica de
probabilidad normal.
B-6 es una herramienta fundamental en estadística para evaluar si un
conjunto de datos sigue una distribución normal.
Esta prueba es ampliamente utilizada en diferentes campos, desde
investigación hasta análisis de datos, y es una forma fácil y
Prueba de efectiva de evaluar la normalidad de tus datos.

Shappiro - Wilk  Esta prueba es una de las más utilizadas para evaluar la
normalidad de los datos en psicología.
 Es una prueba de bondad de ajuste que compara la distribución
de los datos con una distribución normal (ampliar información).
 Esta herramienta compara los datos recopilados con una
distribución normal teórica, y determina si existe una
diferencia significativa entre los dos. Si los datos se
asemejan significativamente a la distribución normal, se
Prueba de Shappiro - Wilk concluye que los datos son normales.
 Por otro lado, si existe una diferencia significativa, se
concluye que los datos no son normales.
 La Prueba de Shapiro-Wilk es adecuada para muestras
pequeñas, que tienen menos de 50 observaciones. Sin
embargo, es importante tener en cuenta que la precisión
de la prueba disminuye con muestras más grandes.
una situación posible para aplicar esta prueba es la de un estudio
sobre a altura de una población. Si se recopilan las alturas de un
grupo de personas y se utiliza la prueba de Shapiro-Wilk para
evaluar si los datos son normales, se puede concluir si la altura de
la población sigue una distribución normal o no.

Por ejemplo
En resumen, la Prueba de Shapiro-Wilk es una herramienta
valiosa para evaluar la normalidad de los datos y determinar si es
necesario realizar una transformación antes de realizar pruebas
estadísticas adicionales.
Barbara Illowsky, Susan Dean. (2022, febrero 14). prueba de bondad de ajuste. p.
https://openstax.org.

Barbara Illowsky, Susan Dean. (2022, feb 14). Prueba de independencia. OpenStax, p.
https://openstax.org/.

ERIC ESTÉVEZ, RYAN EICHLER. (n.d.). Bondad de ajuste. pp. https://www-investopedia-


com.translate.goog/.

Escalas de medición. (n.d.). p. https://excelparatodos.com/.

Bibliografias Ji Cuadrado. (n.d.). p. https://www.uv.es/.


Flórez, O. M. (n.d.). Prueba de Ryan-Joiner. p. https://rpubs.com/.

Métodos estadísticos paramétricos contra no paramétricos. (n.d.). p.


https://hopelchen.tecnm.mx.

Parra, A. (n.d.). tabla de contingencia. p. https://www.questionpro.com/.

Prueba de Kolmogorov-Smirnov. (2022, 09 13). p. https://www.ibm.com/.


Velázquez, A. (n.d.). pruebas no paramétricas. p.
https://www.questionpro.com/.

Prueba de normalidad de Ryan-Joiner. (n.d.). p. https://support.minitab.com/.


Prueba de Shapiro-Wilk. (n.d.). p. https://trabajofinal.es/.
Simulación Financiera . (n.d.). Prueba Anderson-Darling. p. http://fpfn24.wdfiles.com/.

También podría gustarte