Prueba de Normalidad
Prueba de Normalidad
Prueba de Normalidad
De tal manera que para contrastar la hipótesis de que el modelo generado de los datos es se
calcula el estadístico cuya distribución, cuando es cierta se ha tabulado. Si la distancia
calculada es mayor que la encontrada en las tablas , fijando un nivel de significancia ,
rechazaremos el modelo . Es decir
Considerando el caso del peso de las píldoras Estile, se toma la información a la salida de
una de las máquinas de pesaje y estos son los resultados:
Este procedimiento se realiza para cada uno de los valores obtenidos en la muestra
seleccionada. Una vez calculado todos los valores se calculan las diferencias y se obtiene
finalmente el valor máximo de es 0.16357963.
Para obtener la diferencia, por ejemplo tomando el primer valor donde ; un valor anterior de
, por lo tanto la diferencia resultante es .
1. Minimizar la respuesta.
2. Maximizar la respuesta
Siendo es la porción del modelo que incluye solo las variables controlables. El modelo de la
varianza para la respuesta, se determina mediante la siguiente formulación:
Recuérdese que el valor de cero indica nivel bajo en este factor y uno el nivel alto, por
ejemplo tomemos las observaciones 505, 500, 501 que se encuentran en la Geometría del
molde 1(nivel bajo en el factor A), ángulo de corte 30 grados (nivel bajo en el factor C) y
velocidad de corte 30 (nivel alto en el factor B), tenemos cero para el factor A, cero para el
factor C, por ser niveles bajos; y uno para el factor B, lo que implica que en el orden
numérico el valor para este nivel es 010. Lo que es lo mismo, el factor B es el único cuyo
nivel es alto, por lo que alfabéticamente (ABC) la letra asignada es , es decir que se asigna
la letra alfabética si el nivel alto del factor se encuentra en las replicaciones u
observaciones.
El valor F que se obtuvo para cada efecto, en la tabla de análisis de varianza; se compara
con el estadístico de prueba .
Los factores más significativos resultantes son los efectos principales , y las combinaciones
, y . Se obtiene el siguiente modelo de regresión lineal,
Utilizando las ecuaciones (1) y (2) implica que el modelo de la media para la respuesta es Y
el modelo de la varianza para la respuesta ,
La varianza del ruido , ya que se considera el ruido como una variable cuya distribución es
normal estándar con media cero y varianza uno, y la varianza de la respuesta
Ecuación que permite modelar la variabilidad del proceso de tal manera que se busque
minimizar su influencia en el proceso.
CONTRASTES DE NORMALIDADINTRODUCCIÓN
(http://www.ub.edu/aplica_infor/spss/cap5-6.htm)
Los contrastes o pruebas de bondad del ajuste tienen como objeto decidir si puede aceptarse
la hipótesis de que una muestra dada procede de una población con una distribución de
probabilidad totalmente especificada en la hipótesis nula. Estos contrastes se basan en la
comparación de las frecuencias observadas en la muestra con aquellas que cabría esperar si
la hipótesis nula fuera cierta. La hipótesis nula se rechaza si existe una diferencia
significativa entre las frecuencias observadas y las esperadas.
Para comprobar la hipótesis nula de que la muestra ha sido extraída de una población con
distribución de probabilidad normal
PRUEBA DE KOLMOGOROV-SMIRNOV
PRUEBA DE SHAPIRO-WILK
EJEMPLO
Ejemplo 1.
En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro
categorías contempladas en la hipótesis nula. Para ello, se crea una nueva variable, Trans2,
a partir de Trans con las siguientes categorías: Metro, Bus, Privado (que resultará de
agregar Coche y Moto) y Otros (que agrupará Tren y Otros).Una vez creada la nueva
variable, con la secuencia Analizar > Pruebas no paramétricas > Chi-cuadrado se llega al
cuadro de diálogo en donde se selecciona la variable Trans2 y se introduce en Valores
esperados las frecuencias relativas de cada categoría según la hipótesis nula correctamente
ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se
obtienen los siguientes resultados:
Como todas las categorías presentan frecuencia esperada mayor que 5 se puede aplicar el
contraste Chi-cuadrado sin modificar el número de categorías. El valor del estadístico Chi-
cuadrado permite rechazar la hipótesis nula para niveles de significación superiores al
2,7%. Así pues, al 5% de significación se llega a la conclusión de que la distribución del
tipo de transporte que utilizan los alumnos no se adapta a la publicada por el ayuntamiento.
Ejemplo 2.
Ejemplo 3.
Con la base de datos Encinf.sav, se desea comprobar si la variable gasto presenta una
distribución normal.
Analizar
Pruebas no paramétricas
K-S de 1 muestra
El botón Opciones presenta las mismas opciones que las del contraste anterior: valores
missing y descripción de los datos: Descriptivos y Cuartiles.
PRUEBA DE RACHAS
El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es decir, si las sucesiva
observaciones son independientes. Este contraste se basa en el número de rachas que presenta una muestra.
Una racha se define como una secuencia de valores muestrales con una característica común precedida y
seguida por valores que no presentan esa característica. Así, se considera una racha la secuencia de k valores
consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de
corte) siempre que estén precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a l
moda, o a cualquier otro valor de corte).
El número total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en la muestra. Un
número reducido de rachas (el caso extremo es 2) es indicio de que las observaciones no se han extraído de
forma aleatoria, los elementos de la primera racha proceden de una población con una determinada
característica (valores mayores o menores al punto de corte) mientras que los de la segunda proceden de otra
población. De forma idéntica un número excesivo de rachas puede ser también indicio de no aleatoriedad de la
muestra.
En Contrastar variables se traslada la variable y en Punto de corte se indica el o los puntos de corte que se
quieren considerar.
El botón Opciones presenta las opciones ya vistas correspondientes a la gestión de los valores missing y a la
descripción de los datos: Descriptivos y Cuartiles.
PRUEBA BINOMIAL
Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis
nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente
especificada como el modelo matemático de la población que ha generado la muestra.
Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada
valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A
continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o
intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada
(Ei=n·pi , donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o
intervalo de valores según la hipótesis nula). El estadístico de prueba se basa en las
diferencias entre la Oi y Ei y se define como:
Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es
suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En
la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.
En Valores esperados se debe especificar la distribución teórica activando una de las dos
alternativas. Por defecto está activada Todas la categorías iguales que recoge la hipótesis
de que la distribución de la población es uniforme discreta. La opción Valores requiere
especificar uno a uno los valores esperados de las frecuencias relativas o absolutas
correspondientes a cada categoría, introduciéndolos en el mismo orden en el que se han
definido las categorías.
El recuadro Rango esperado presenta dos opciones: por defecto está activada Obtener de
los datos que realiza el análisis para todas las categorías o valores de la variable; la otra
alternativa, Usar rango especificado, realiza el análisis sólo para un deteminado rango de
valores cuyos límites Inferior y Superior se deben especificar en los recuadros de texto
correspondientes.