Tema 5 Bondad de Ajuste
Tema 5 Bondad de Ajuste
Tema 5 Bondad de Ajuste
Independencia y Homogeneidad
Claudio Álvaro Cerrón Landeo
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de plantear, aplicar e
interpretar pruebas de hipótesis para la bondad de ajuste y de tablas
de contingencia a partir de una muestra aleatoria.
Reconocer las características de una
prueba no paramétrica Multinomial.
Desgaste N° de
Nivel mgr/Kg Neumáticos
Ejemplo
Se tienen una muestra de 1 50 a 100 23
una serie de neumáticos
para realizar un experimento 2 100 a 150 15
y probar su resistencia al
desgaste. 3 150 a 200 36
4 200 a 250 24
2. Pruebas de bondad de ajuste
Pruebas con experimentos multinomiales
PRUEBAS DE BONDAD DE AJUSTE
Las pruebas de bondad de ajuste son pruebas de hipótesis para
verificar si los datos observados en una muestra aleatoria se
ajustan con algún nivel de significancia a determinada distribución
de probabilidad (uniforme, exponencial, normal, poisson, u otra
cualquiera).
Desgaste
Nivel mgr/Kg fi=Oi
Las frecuencias absolutas
“fi” obtenidas con la 1 50 a 100 23
muestra se denominan
2 100 a 150 15
frecuencias observadas,
se simbolizan como fo, 3 150 a 200 36
también como Oi.
4 200 a 250 24
98
2. Prueba de Bondad de Ajuste
también:
Conclusión: No existe evidencia para probar que las resistencias se ajustan al patrón propuesto por el fabricante.
2. Prueba de Bondad de Ajuste
Solución
Parámetro de interés: Los parámetros de interés son p1, p2, p3, p4, las frecuencias de
cada uno de los k =4 niveles respectivamente, y queremos saber si p1 = 0.3, p2 = 0.3,
p3 = 0.2, p4 = 0.2
H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2
H1: O ≠ E: Por lo menos una de las proporciones es diferente.
Usando R: chisq.test(x,p)
Conclusión: No existe evidencia para probar que los datos confirman la teoría genética.
3. Bondad de ajuste: Distribuciones uniformes
Solución
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las frecuencias de cada uno
de los k =3 niveles respectivamente, y queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en cualquier color. (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Usando R: chisq.test(x,p)
Como el p valor es 0,000 menor que
el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
la hipótesis nula. Se concluye que
los datos contradicen la teoría
genética.
2. Prueba de Bondad de Ajuste
Adicional:
Los maestros quieren saber qué noche de la semana sus estudiantes hacen
la mayor parte de las tareas para la casa. La mayoría de los maestros
piensan que los estudiantes hacen las tareas para la casa por igual a lo largo
de la semana. Supongamos que se pregunta a una muestra aleatoria de 56
estudiantes en qué noche de la semana hacen más tareas para la casa. Los
resultados se distribuyeron de la siguiente manera:
Domingo Lunes Martes Miércoles Jueves Viernes Sábado
N° de estudiantes 11 8 10 7 10 5 5
Se debe probar si la distribución de las baterías sigue una distribución binomial con p=0,36
Solución
Distribución binomial:
H0: O = E: La distribución tiene comportamiento binomial
dbinom(x,n =.. ,prob =.. )
H1: O ≠ E: La distribución no tiene comportamiento binomial
N° de bacterias 0 1 2 3 Más de 4
N° de sectores 229 211 93 35 8
¿Se ajustan los datos a una distribución de Poisson de intensidad λ ? Use un nivel de significación de 0.05
𝑥 −𝜆
𝜆 ⋅ 𝑒
𝑃 ( X =𝑥 ) = Distribución de Poisson:
𝑥!
dpois(x,lamda)
3. Bondad de ajuste a una
distribuciones Discretas y
Continuas
Pruebas con experimentos multinomiales.
4. Bondad de ajuste: Distribuciones Discretas y
Continuas
383 393 407 407 434 427 440 407 450 440
456 460 456 476 480 490 497 526 546 700
PRUEBAS DE NORMALIDAD CON R
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo
Como el p valor es 0.1435 mayor que el nivel de significancia de 0.05, existe evidencia
estadística para no rechazar la hipótesis nula y se concluye que hay NORMALIDAD.
• También se puede utilizar el gráfico Q-Q plot que compara los cuantiles de la
muestra con los de la distribución normal.
> qqPlot(data$X,distribution = "norm")
EJERCICIO:
1. Genera la gráfica de densidad de la data “tiempo” de la hoja 2 del Excel compartido
de revisión técnica y compárala con la gráfica de la curva normal.
2. Aplica la prueba de normalidad que corresponda. Indica las hipótesis de acuerdo a
los pasos que conoces .
3. Genera el gráfico QQ plot para validar la normalidad e indica que puntos generan
problemas de normalidad si es que se presentaran.
3. Pruebas de Independencia
y de homogeneidad
Tablas de contingencia.
Prueba de independencia
En un estudio de una vacuna de hepatitis participan 1083 voluntarios. De éstos, se eligen aleatoriamente 549 y son
vacunados. Los otros, 534, no son vacunados. Después de un cierto tiempo, se observa que 70 de los 534 no
vacunados han contraído la hepatitis, mientras que sólo 11 de los 549 vacunados la han contraído.
Esquematicemos los resultados en lo que se llama una tabla de contingencia:
¿Enfermo?/¿Vacunado? Sí No Total
SÍ 11 70 81
NO 538 464 1002
Total 549 534 1083
¿Es el hecho de contraer hepatitis independiente de haber sido vacunado contra la dolencia?
En este ejemplo, contrastar si la manera de clasificar a los voluntarios entre vacunados y no vacunados y la manera
de clasificarlos entre enfermos por hepatitis y no enfermos es equivalente a contrastar si la vacuna es efectiva contra
la hepatitis. Y decir que la vacuna no es efectiva sería equivalente a decir que vacunar a un individuo es
independiente de que contraiga la hepatitis.
Prueba de independencia
Variable B
Poco Medio Mucho
0 a 100 fo11 fo12 fo13 Total F1
100 a 200 fo21 fo22 fo23 Total F2
Variable A
200 a 300 fo31 fo32 fo33 Total F3
400 a 500 fo41 fo42 fo43 Total F4
Total C1 Total C2 Total C3 Total
Variable B
Poco Medio Mucho
0 a 100 Total F1
100 a 200 Total F2
Variable A
200 a 300 Total F3
400 a 500 Total F4
Total C1 Total C2 Total C3 Total
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe11 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C1 Total
=
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe12 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C2 Total
= =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe13 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C3 Total
= = =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.
Variable B
Poco Medio Mucho
0 a 100 fe11 fe12 fe13 Total F1
100 a 200 fe21 fe22 fe23 Total F2
Variable A
200 a 300 fe31 fe32 fe33 Total F3
400 a 500 fe41 fe42 fe43 Total F4
Total C1 Total C2 Total C3 Total
Ejemplo
Se toma una muestra aleatoria de 3800 familias y se les clasifica según su nivel de
ingresos (alto, medio o bajo) y el tipo de colegio a la que envían sus hijos. La
siguiente tabla muestra los resultados obtenidos:
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
354.6343 9.488
Contraste de independencia con R
Para realizar el contraste de independencia en R hacemos lo siguiente:
chisq.test(tabla.contingencia,correct=FALSE)