Prueba de Normalidad

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 18

TRABAJO SOBRE ESTADISTICA

5.3 Prueba de Normalidad


(http://www.eumed.net/libros-gratis/index.htm)
Es indispensable conocer que cuando se aplica una herramienta estadística en donde se
involucran variables continuas o cuantitativas es fundamental determinar si la información
obtenida en el proceso, tiene un comportamiento mediante una distribución normal. Para
ello la estadística posee algunas pruebas, entre ellas encontramos la prueba de Ji-cuadrado ,
Kolmogorov-Smirnov Lilliefors, Shapiro y Wilks o la prueba de Anderson Darling; pero
una manera muy sencilla de realizar la prueba de normalidad es construyendo un
Histograma de Frecuencia, figura 6.

5.3.1 Prueba de Normalidad Mediante el Método de Kolmogorov Smirnov


Lilliefors. La prueba de Kolmogorov Smirnov Lilliefors KSL es aplicada únicamente a
variables continuas y calcula la distancia máxima entre la función de distribución empírica
de la muestra seleccionada y la teórica, en este caso la normal.

Sea una muestra la muestra ordenada de la siguiente forma. La función de distribución


empírica de esta muestra es de la forma:

De tal manera que para contrastar la hipótesis de que el modelo generado de los datos es se
calcula el estadístico cuya distribución, cuando es cierta se ha tabulado. Si la distancia
calculada es mayor que la encontrada en las tablas , fijando un nivel de significancia ,
rechazaremos el modelo . Es decir

Considerando el caso del peso de las píldoras Estile, se toma la información a la salida de
una de las máquinas de pesaje y estos son los resultados:

La información de la muestra estimamos el promedio y la desviación estándar .

Calculamos el valor de para cada uno de los valores de la muestra.

Ejemplo de ello, es cuando se toma el valor de , el cálculo de la norma estandarizada resulta


de la siguiente manera:

Este procedimiento se realiza para cada uno de los valores obtenidos en la muestra
seleccionada. Una vez calculado todos los valores se calculan las diferencias y se obtiene
finalmente el valor máximo de es 0.16357963.

Para obtener la diferencia, por ejemplo tomando el primer valor donde ; un valor anterior de
, por lo tanto la diferencia resultante es .

En el caso de la diferencia los valores se realizan de la siguiente manera:


En la tabla de KSL se obtiene con : , por lo que se acepta que la muestra se distribuye
normalmente.

5.4 Diseño de Parámetro Robusto.

Es la parte de la metodología de Taguchi que involucra diseños de tratamientos factoriales,


los cuales consisten en factores, los que se pueden controlar durante el proceso de
manufactura y los que no son controlables. En la terminología de Taguchi los factores
controlables se identifican como los parámetros o factores controlables; los que no se
controlan se conocen como factores ruido o no controlables. Las variables y los factores de
ruido son los más sensibles a los cambios en las condiciones del entorno durante la
producción y por lo tanto transmiten la variabilidad a las respuestas de interés en el
proceso.

Un objetivo es determinar que combinación de factores controlables es la menos sensible a


los cambios en las variables de ruido, de este concepto se deriva el nombre de diseño de
parámetros robustos.

El método de análisis de Taguchi tiene como metas principales:

1. Minimizar la respuesta.

2. Maximizar la respuesta

3. Lograr una respuesta nominal, diferente de la mínima o la máxima.

El diseño de Taguchi atiende al siguiente modelo para tres factores

El modelo de la media para las respuestas se representa como:

Siendo es la porción del modelo que incluye solo las variables controlables. El modelo de la
varianza para la respuesta, se determina mediante la siguiente formulación:

La varianza de la respuesta se estima mediante el cuadrado medio del error, CME y es


conocida como la varianza del ruido.

La aplicación de este diseño robusto se presenta en la información suministrada por la


empresa Pastillas S.A. en donde se encuentran interesados en evaluar los siguientes
factores: el efecto de la geometría del molde (A) (como factor que no se puede controlar),
velocidad de tableteado (B), y el ángulo de corte (C). Se eligen dos niveles de cada factor y
se corren tres réplicas, lo que implica un diseño factorial 23. Los resultados son los
siguientes:

Recuérdese que el valor de cero indica nivel bajo en este factor y uno el nivel alto, por
ejemplo tomemos las observaciones 505, 500, 501 que se encuentran en la Geometría del
molde 1(nivel bajo en el factor A), ángulo de corte 30 grados (nivel bajo en el factor C) y
velocidad de corte 30 (nivel alto en el factor B), tenemos cero para el factor A, cero para el
factor C, por ser niveles bajos; y uno para el factor B, lo que implica que en el orden
numérico el valor para este nivel es 010. Lo que es lo mismo, el factor B es el único cuyo
nivel es alto, por lo que alfabéticamente (ABC) la letra asignada es , es decir que se asigna
la letra alfabética si el nivel alto del factor se encuentra en las replicaciones u
observaciones.

En la tercera columna el primer valor es el total de las replicaciones , y los valores


inferiores son los contrastes. La suma de cuadrados en el diseño se determina por , donde ,
el efecto se calcula mediante y el coeficiente del modelo es evaluado mediante, .

El valor F que se obtuvo para cada efecto, en la tabla de análisis de varianza; se compara
con el estadístico de prueba .

Los factores más significativos resultantes son los efectos principales , y las combinaciones
, y . Se obtiene el siguiente modelo de regresión lineal,

Reemplazando los valores correspondientes para cada coeficiente se tiene que

Ajustamos este modelo al diseño de Taguchi y el modelo de respuestas

Utilizando las ecuaciones (1) y (2) implica que el modelo de la media para la respuesta es Y
el modelo de la varianza para la respuesta ,

La varianza del ruido , ya que se considera el ruido como una variable cuya distribución es
normal estándar con media cero y varianza uno, y la varianza de la respuesta

Por lo tanto el modelo para la varianza está definida de la siguiente manera:

Reacomodando los términos la varianza es calculada como:

Ecuación que permite modelar la variabilidad del proceso de tal manera que se busque
minimizar su influencia en el proceso.

CONTRASTES DE NORMALIDADINTRODUCCIÓN
(http://www.ub.edu/aplica_infor/spss/cap5-6.htm)

Los contrastes o pruebas de bondad del ajuste tienen como objeto decidir si puede aceptarse
la hipótesis de que una muestra dada procede de una población con una distribución de
probabilidad totalmente especificada en la hipótesis nula. Estos contrastes se basan en la
comparación de las frecuencias observadas en la muestra con aquellas que cabría esperar si
la hipótesis nula fuera cierta. La hipótesis nula se rechaza si existe una diferencia
significativa entre las frecuencias observadas y las esperadas.

En este tipo de contrastes la distribución de probabilidad del estadístico de prueba es


independiente de la postulada en la hipótesis nula y depende sólo del tamaño de la muestra
o del número de clases en que se agrupa la variable.

Un caso específico de ajuste a una distribución teórica es la correspondiente a la


distribución normal. Este contraste se realiza para comprobar si se verifica la hipótesis de
normalidad necesaria para que el resultado de algunos análisis sea fiable, como por ejemplo
para el ANOVA.

Para comprobar la hipótesis nula de que la muestra ha sido extraída de una población con
distribución de probabilidad normal

se puede realizar un estudio gráfico y/o analítico.

PRUEBA DE KOLMOGOROV-SMIRNOV

Cuando la prueba Kolmogorov-Smirnov kolmogorov se aplica para contrastar la hipótesis


de normalidad de la población, el estadístico de prueba es la máxima diferencia:

siendo Fn(x) la función de distribución muestral y Fo(x) la función teórica o


correspondiente a la población normal especificada en la hipótesis nula.

La distribución del estadístico de Kolmogorov-Smirnov es independiente de la distribución


poblacional especificada en la hipótesis nula y los valores críticos de este estadístico están
tabulados. Si la distribución postulada es la normal y se estiman sus parámetros, los valores
críticos se obtienen aplicando la corrección de significación propuesta por Lilliefors.

PRUEBA DE SHAPIRO-WILK

Cuando la muestra es como máximo de tamaño 50 se puede contrastar la normalidad con la


prueba de shapiro Shapiro-Wilk. Para efectuarla se calcula la media y la varianza muestral,
S2, y se ordenan las observaciones de menor a mayor. A continuación se calculan las
diferencias entre: el primero y el último; el segundo y el penúltimo; el tercero y el
antepenúltimo, etc. y se corrigen con unos coeficientes tabulados por Shapiro y Wilk.
El estadístico de prueba es:

Donde: D es la suma de las diferencias corregidas.

Se rechazará la hipótesis nula de normalidad si el estadístico W es menor que el valor


crítico proporcionado por la tabla elaborada por los autores para el tamaño muestral y el
nivel de significación dado.

La secuencia para realizar los contrastes de normalidad es:


Analiza
Estadísticos Descriptivos
Explorar
En el cuadro de diálogo que aparece al activar el botón Gráficos se activa la
opción Gráficos con pruebas de normalidad.

EJEMPLO

Ejemplo 1.

Con los datos correspondientes a la variable Trans de la encuesta Enctrans.sav y con


referencia a los encuestados que viven en Barcelona, se quiere comprobar si su
distribución en cuanto al tipo de transporte utilizado se adapta a los resultados de un
estudio realizado por el Ayuntamiento de Barcelona, que son los siguientes: el 40% de los
desplazamientos al trabajo se realizan en metro; el 30% en autobús; el 20% en transporte
privado y 10% otros medios.

La distribución de frecuencias de la variable Trans es:

En este caso para realizar el contraste Chi-cuadrado es necesario definir las cuatro
categorías contempladas en la hipótesis nula. Para ello, se crea una nueva variable, Trans2,
a partir de Trans con las siguientes categorías: Metro, Bus, Privado (que resultará de
agregar Coche y Moto) y Otros (que agrupará Tren y Otros).Una vez creada la nueva
variable, con la secuencia Analizar > Pruebas no paramétricas > Chi-cuadrado se llega al
cuadro de diálogo en donde se selecciona la variable Trans2 y se introduce en Valores
esperados las frecuencias relativas de cada categoría según la hipótesis nula correctamente
ordenadas: 0,4 para la categoría 1; 0,3 para la 2; 0,2 para la 3 y 0,10 para la 4. Al aceptar se
obtienen los siguientes resultados:

Como todas las categorías presentan frecuencia esperada mayor que 5 se puede aplicar el
contraste Chi-cuadrado sin modificar el número de categorías. El valor del estadístico Chi-
cuadrado permite rechazar la hipótesis nula para niveles de significación superiores al
2,7%. Así pues, al 5% de significación se llega a la conclusión de que la distribución del
tipo de transporte que utilizan los alumnos no se adapta a la publicada por el ayuntamiento.

Ejemplo 2.

Con la información correspondiente a la variable Pla de la base de datos Encinf.sav, se


desea comprobar si la valoración que realizan los alumnos del plan de estudios sigue una
distribución uniforme.

Para realizar la prueba de bondad de ajuste Kolmogorov-Smirnov la secuencia a seguir


es Analizar > Pruebas no paramétricas> K-S de 1 muestra. Se selecciona la variable Pla de
la base de datos Encinf.sav y se indica que la Distribución de contraste es uniforme.

Los resultados son:

A la vista de los resultados se concluye que no se puede rechazar la hipótesis de que la


valoración asignada por este grupo de alumnos al plan de estudios es uniforme para
cualquier nivel de significación inferior al 7,1%.

Ejemplo 3.

Con la base de datos Encinf.sav, se desea comprobar si la variable gasto presenta una
distribución normal.

Para realizar la prueba de normalidad la secuencia a seguir es Analizar> Estadísticos


Descriptivos> Explorar. Se selecciona la variable Gasto y en el cuadro de diálogo
correspondiente a los Gráficos se activa la opción Gráficos con pruebas de normalidad.

Los resultados obtenidos son:


El estadístico de prueba Kolmogorov-Smirnov con la correción de Lilliefors presenta un
nivel de significación igual a 0,000. Enconsecuencia se rechaza la hipótesis de normalidad.
El gráfico Q-Q normal ratifica la conclusión anterior, ya que los valores observados no se
situan sobre la recta esperada bajo el supuesto de normalidad.
PRUEBA KOLMOGOROV-SMIRNOV PARA UNA MUESTRA

El contraste Kolmogorov-Smirnov compara los valores de las funciones de distribución de


la muestra y de la población que se ha postulado en la hipótesis nula. El estadístico de
prueba z se calcula en función de la máxima diferencia entre ambas
funciones: siendo Fn(x) la función de distribución muestral y Fo(x)
la función teórica correspondiente a la población especificada en la hipótesis nula.

La secuencia para realizar este contraste es:

Analizar

Pruebas no paramétricas

K-S de 1 muestra

Se indica la variable trasladándola a Contrastar variables y se selecciona(n) la Distribución


de contraste que puede ser Normal, Uniforme, Poisson o Exponencial.

El botón Opciones presenta las mismas opciones que las del contraste anterior: valores
missing y descripción de los datos: Descriptivos y Cuartiles.

PRUEBA DE RACHAS

El contraste de rachas permite verificar la hipótesis nula de que la muestra es aleatoria, es decir, si las sucesiva
observaciones son independientes. Este contraste se basa en el número de rachas que presenta una muestra.
Una racha se define como una secuencia de valores muestrales con una característica común precedida y
seguida por valores que no presentan esa característica. Así, se considera una racha la secuencia de k valores
consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de
corte) siempre que estén precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a l
moda, o a cualquier otro valor de corte).

El número total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en la muestra. Un
número reducido de rachas (el caso extremo es 2) es indicio de que las observaciones no se han extraído de
forma aleatoria, los elementos de la primera racha proceden de una población con una determinada
característica (valores mayores o menores al punto de corte) mientras que los de la segunda proceden de otra
población. De forma idéntica un número excesivo de rachas puede ser también indicio de no aleatoriedad de la
muestra.

Si la muestra es suficientemente grande y la hipótesis de aleatoriedad es cierta, la distribución muestral del


número de rachas, R, puede aproximarse mediante una distribución normal de parámetros:

donde n1 es el número de elementos de una clase, n2 es el número de elementos de la otra clase y n es el


número total de observaciones.

La secuencia para realizar este contraste es:


Analizar
Pruebas no paramétricas
Rachas
El cuadro de diálogo que se abre es el siguiente:

En Contrastar variables se traslada la variable y en Punto de corte se indica el o los puntos de corte que se
quieren considerar.

El botón Opciones presenta las opciones ya vistas correspondientes a la gestión de los valores missing y a la
descripción de los datos: Descriptivos y Cuartiles.

PRUEBA BINOMIAL

La prueba binomial analiza variables dicotómicas y compara las frecuencias observadas en


cada categoría con las que cabría esperar según una distribución binomial de
parámetro especificado en la hipótesis nula tal como se ha explicado en elcapítulo
anterior *.
La secuencia para realizar este contraste es:
Analizar
Pruebas no paramétricas
Binomial
En el cuadro de diálogo se debe seleccionar la variable en Contrastar variables e indicar la
proporción postulada en la hipótesis nula en Contrastar proporción.
PRUEBA CHI-CUADRADO

Esta prueba puede utilizarse incluso con datos medibles en una escala nominal. La hipótesis
nula de la prueba Chi-cuadrado postula una distribución de probabilidad totalmente
especificada como el modelo matemático de la población que ha generado la muestra.

Para realizar este contraste se disponen los datos en una tabla de frecuencias. Para cada
valor o intervalo de valores se indica la frecuencia absoluta observada o empírica (Oi). A
continuación, y suponiendo que la hipótesis nula es cierta, se calculan para cada valor o
intervalo de valores la frecuencia absoluta que cabría esperar o frecuencia esperada
(Ei=n·pi , donde n es el tamaño de la muestra y pi la probabilidad del i-ésimo valor o
intervalo de valores según la hipótesis nula). El estadístico de prueba se basa en las
diferencias entre la Oi y Ei y se define como:

Este estadístico tiene una distribución Chi-cuadrado con k-1 grados de libertad si n es
suficientemente grande, es decir, si todas las frecuencias esperadas son mayores que 5. En
la práctica se tolera un máximo del 20% de frecuencias inferiores a 5.

Si existe concordancia perfecta entre las frecuencias observadas y las esperadas el


estadístico tomará un valor igual a 0; por el contrario, si existe una gran discrepancias entre
estas frecuencias el estadístico tomará un valor grande y, en consecuencia, se rechazará la
hipótesis nula. Así pues, la región crítica estará situada en el extremo superior de la
distribución Chi-cuadrado con k-1 grados de libertad.
Para realizar un contraste Chi-cuadrado la secuencia es:
Analizar
Pruebas no paramétricas
Chi-cuadrado

En el cuadro de diálogo Prueba chi-cuadrado se indica la variable a analizar en Contrastar


variables.

En Valores esperados se debe especificar la distribución teórica activando una de las dos
alternativas. Por defecto está activada Todas la categorías iguales que recoge la hipótesis
de que la distribución de la población es uniforme discreta. La opción Valores requiere
especificar uno a uno los valores esperados de las frecuencias relativas o absolutas
correspondientes a cada categoría, introduciéndolos en el mismo orden en el que se han
definido las categorías.

El recuadro Rango esperado presenta dos opciones: por defecto está activada Obtener de
los datos que realiza el análisis para todas las categorías o valores de la variable; la otra
alternativa, Usar rango especificado, realiza el análisis sólo para un deteminado rango de
valores cuyos límites Inferior y Superior se deben especificar en los recuadros de texto
correspondientes.

El cuadro de diálogo al que se accede con el botón Opciones ofrece la posibilidad de


calcular los Estadísticos Descriptivos y/o los Cuartiles, así como seleccionar la forma en
que se desea tratar los valores perdidos.

También podría gustarte