Tema 5 Bondad de Ajuste

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 52

Pruebas de Bondad de Ajuste,

Independencia y Homogeneidad
Claudio Álvaro Cerrón Landeo
Propósito de la Clase
Al finalizar la unidad, el estudiante será capaz de plantear, aplicar e
interpretar pruebas de hipótesis para la bondad de ajuste y de tablas
de contingencia a partir de una muestra aleatoria.
Reconocer las características de una
prueba no paramétrica Multinomial.

Realizar pruebas No paramétricas de


Bondad de Ajuste.

Realizar pruebas de Independencia y


Homogeneidad.
1. Generalidades
Bondad de ajuste
Por “bondad de ajuste” queremos decir que los datos muestrales, que consisten en conteos de
frecuencia observados y se disponen en una sola fila o columna (llamada tabla de frecuencias
unidireccional) concuerdan con alguna distribución particular (por ejemplo, normal o uniforme) en
consideración. (Mario Triola)
Analicemos los datos que corresponden al
ancho de los sépalos de la data IRIS:
Experimento multinomial
• Distribución multinomial La distribución multinomial es una distribución discreta multivariante y,
como su nombre indica, es una generalización de la distribución binomial cuando el experimento
aleatorio considerado no tiene solo dos resultados posibles, ´éxito o fracaso, sino tres o más.
• Generaliza un experimento binomial al permitir que cada intento resulte en uno de k posibles
resultados, donde k>2.

Desgaste N° de
Nivel mgr/Kg Neumáticos
Ejemplo
Se tienen una muestra de 1 50 a 100 23
una serie de neumáticos
para realizar un experimento 2 100 a 150 15
y probar su resistencia al
desgaste. 3 150 a 200 36
4 200 a 250 24
2. Pruebas de bondad de ajuste
Pruebas con experimentos multinomiales
PRUEBAS DE BONDAD DE AJUSTE
Las pruebas de bondad de ajuste son pruebas de hipótesis para
verificar si los datos observados en una muestra aleatoria se
ajustan con algún nivel de significancia a determinada distribución
de probabilidad (uniforme, exponencial, normal, poisson, u otra
cualquiera).

La hipótesis nula Ho indica la distribución propuesta, mientras que


la hipótesis alternativa H1, nos indica que la variable en estudio
tiene una distribución que no se ajusta a la distribución propuesta.
Proceso de la Prueba de Bondad de ajuste:
La prueba es de una cola a la derecha.
Se utiliza la distribución χ2
El Valor Crítico (VC) con nivel de significancia α y gl = K – 1.
Se calcula el valor-p
Ho: Oi=Ei La población sigue o se ajusta a la distribución ……..
H1: Oi≠Ei La población no sigue o no se ajusta a la distribución ……
Oi : frecuencia observada (corresponde a los datos de la muestra)
Ei : frecuencia esperada (corresponde al modelo propuesto)
Para realizar la prueba, se clasifican los datos
observados en k clases o categorías, y se
contabiliza el número de observaciones en cada
clase, para posteriormente comparar la frecuencia
observada en cada clase con la frecuencia que se
esperaría obtener en esa clase si la hipótesis nula
es correcta.
Condiciones de una Prueba de Bondad de ajuste:
• El tamaño de la muestra deberá ser moderadamente grande, pues si la muestra
es muy pequeña no se podrá formar un número suficiente de clases y si la
muestra es muy grande la prueba conducirá al rechazo casi con seguridad. Se
sugiere que n sea aproximadamente igual a 5 veces el número de clases.
• Se recomienda clasificar la muestra en mínimo cinco clases y máximo diez.
• Hacer que toda frecuencia observada o esperada no sea menor que cinco, esto
puede lograrse combinando clases vecinas, pero para cada par de clases que se
combinan, el número de grados de libertad debe reducirse en uno (k es el
número de clases efectivas en la tabla de frecuencias).
• Las frecuencias esperadas se obtienen de E=npi
2 2
𝑘
(
• El estadístico de𝑓𝑟𝑒𝑐 .𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑎
prueba − 𝑓𝑟𝑒𝑐 .𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑖
se calcula 𝑖con: ) ( 𝑜𝑖 − 𝑒𝑖 )
𝑋 =∑
2
=
𝑖=1 𝑓𝑟𝑒𝑐 .𝑒𝑠𝑝𝑒𝑟𝑎𝑑𝑎 𝑖 𝑒𝑖
2. Prueba de Bondad de Ajuste
Ejemplo 1
• Resistencia de neumáticos: Se tienen Desgaste N° de
Niv.
una muestra de una serie de neumáticos mgr/Kg Neumáticos
para realizar un experimento y probar su
resistencia al desgaste para poder
introducirlos al mercado. Los niveles (k) 1 50 a 100 23
de desgaste y las frecuencias en cada
nivel se muestran a continuación. Según 2 100 a 150 15
el fabricante la distribución de las
resistencias sigue un patrón como:
p1 = 0.3 p2 = 0.3 p3 = 0.2 p4 = 0.2 3 150 a 200 36
• Al nivel de 5% pruebe que las
resistencias se ajustan al patrón 4 200 a 250 24
propuesto por el fabricante.
2. Prueba de Bondad de Ajuste

Desgaste
Nivel mgr/Kg fi=Oi
Las frecuencias absolutas
“fi” obtenidas con la 1 50 a 100 23
muestra se denominan
2 100 a 150 15
frecuencias observadas,
se simbolizan como fo, 3 150 a 200 36
también como Oi.
4 200 a 250 24
98
2. Prueba de Bondad de Ajuste

• Las frecuencias hipotéticas en


Desgaste Proporción
la población se denominan Nivel mgr/kg Oi de Ei
frecuencias esperadas, se Neumáticos
simbolizan como fe o Ei.
• Las frecuencias hipotéticas se 1 50 a 100 23 p1=0.3 E1=
pueden obtener utilizando los 2 100 a 150 15 p2=0.3 E2=
pi . 3 150 a 200 36 p3=0.2 E3=
Ei=pi*n 4 200 a 250 24 p4=0.2 E4=
n 98
2. Prueba de Bondad de Ajuste

• Las frecuencias hipotéticas en la


Desgaste Proporción de
población se denominan frecuencias Nivel mgr/kg Oi Neumáticos Ei
esperadas, se simbolizan como fe o
Ei.
1 50 a 100 23 p1=0.3 E1=0.3*98=29.4
• Las frecuencias hipotéticas para la 2 100 a 150 15 p2=0.3 E2=0.3*98=29.4
población se pueden obtener
3 150 a 200 36 p3=0.2 E3=0.2*98=19.6
utilizando los pi .
4 200 a 250 24 p4=0.2 E4=0.2*98=19.6
Ei=pi*n
n 98
2. Prueba de Bondad de Ajuste
Planteamiento de las hipótesis
• La hipótesis nula de interés especificará el valor de cada pi. En el ejemplo, k = 4, se tiene:
p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2.
• La hipótesis alternativa indicará que al menos una de la pi tiene un valor diferente de lo
expresado por H0

Las hipótesis se pueden plantear de la siguiente manera:

H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2


H1: O ≠ E: Por lo menos una de las proporciones es diferente.

también:

H0: O = E: Los datos se ajustan a la distribución esperada.


H1: O ≠ E: Los datos no se ajustan a la distribución esperada.
2. Prueba de Bondad de Ajuste
Solución
H0: O = E: p1 = 0.3, p2 = 0.3, p3 = 0.2, p4 = 0.2 Regla de decisión:
H1: O ≠ E: El patrón expresado por el fabricante no se cumple
 = 0.05
Cálculo del estadístico de prueba: gl = 4 – 1= 3

Cat. Desgaste O n*p E ( 𝑂 − 𝐸 )2


mgr/Kg 𝐸 7.815
1 50 a 100 23 0.3(98) = 29.4
Rechazamos H0
2 100 a 150 15 0.3(98) = 29.4 como
3 150 a 200 36 0.2(98) = 19.6 verdadera
4 200 a 250 24 0.2(98) = 19.6
=
98 98

Conclusión: No existe evidencia para probar que las resistencias se ajustan al patrón propuesto por el fabricante.
2. Prueba de Bondad de Ajuste
Solución
Parámetro de interés: Los parámetros de interés son p1, p2, p3, p4, las frecuencias de
cada uno de los k =4 niveles respectivamente, y queremos saber si p1 = 0.3, p2 = 0.3,
p3 = 0.2, p4 = 0.2
H0: O = E: p1 = 0.3; p2 = 0.3; p3 = 0.2; p4 = 0.2
H1: O ≠ E: Por lo menos una de las proporciones es diferente.
Usando R: chisq.test(x,p)

Como el p valor es 0,000 menor que


el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
la hipótesis nula. Se concluye que
los datos no tienen la distribución
esperada
2. Prueba de Bondad de Ajuste
Adicional:
Considere un estudio sobre participación en el mercado realizado por la empresa Scott
Marketing Research. A lo largo de los años la participación es en el mercado se han
estabilizado en 30% para la empresa A, 50% para la empresa B y 20% para la empresa
C. Recién la empresa C ha elaborado un nuevo y mejorado producto para sustituir a
uno de sus productos en el mercado y pidió a la empresa Scott Marketing Research
que determinará si el nuevo producto modificaría su participación en el mercado.
Considere que para este estudio la empresa de investigación de mercado ha empleado
un panel de 200 consumidores. A cada individuo se le puide que indique su preferencia
entre el producto de la empresa A, empresa B o el nuevo producto de la empresa C,
obtenido el resultado a continuación:
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo 2
El sorgo o maicillo es un importante producto de exportación cuya calidad y aspecto podrían ser afectadas
por la presencia de pigmentos con el respectivo reclamo de las empresas que importan dicho producto. El
administrador de la empresa informa al Jefe de Planta que un artículo, “A Genetic and Biochemical Study
on Pericarp Pigments” muestra un experimento que comprendía una cruza inicial, entre una variedad
norteamericana con semillas blancas y una variedad etíope con semillas amarillas que, de acuerdo a la
teoría genética, esta cruza debería producir plantas con semillas rojas, amarillas o blancas en igual
proporción. El Jefe de Planta decide replicar el experimento y encuentra la información a continuación.
¿Se podrá exportar dicho producto en proporciones similares de colores? Utilice un nivel de significancia
de 0.05
Color de
Rojo Amarillo Blanco
semilla
Frecuencia
195 73 100
observada
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco


pasos que es la siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las
frecuencias de cada uno de los k =3 niveles respectivamente, y
queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en
cualquier color (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
3. Bondad de ajuste: Distribuciones uniformes
Ejemplo
H0: O = E: p1 = p2 = p3 La cruza produce plantas con semillas rojas, amarillas o blancas en igual
proporción.
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Regla de decisión:
Estadístico de la prueba:
Color de ( 𝑶 − 𝑬 )𝟐
O n*p E  = 0.05
semilla 𝑬
gl = 3 – 1= 2
Rojo 195 368(0.333)= 122,544 42,841

Amarillo 73 368(0.333)= 122,544 20,030 5.991


Rechazamos H0 como
Blanco 100 368(0.333)= 122,544 4,147 verdadera
368 368 67,018 =

Conclusión: No existe evidencia para probar que los datos confirman la teoría genética.
3. Bondad de ajuste: Distribuciones uniformes

Solución
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, las frecuencias de cada uno
de los k =3 niveles respectivamente, y queremos saber si p1 = p2 = p3
2. Hipótesis:
H0: O = E: p1 = p2 = p3 Las semillas se dan por igual en cualquier color. (distribución uniforme)
H1: O ≠ E: Las semillas se dan en proporciones diferentes.
Usando R: chisq.test(x,p)
Como el p valor es 0,000 menor que
el nivel de significancia de 0,05, hay
evidencia estadística para rechazar
la hipótesis nula. Se concluye que
los datos contradicen la teoría
genética.
2. Prueba de Bondad de Ajuste
Adicional:
Los maestros quieren saber qué noche de la semana sus estudiantes hacen
la mayor parte de las tareas para la casa. La mayoría de los maestros
piensan que los estudiantes hacen las tareas para la casa por igual a lo largo
de la semana. Supongamos que se pregunta a una muestra aleatoria de 56
estudiantes en qué noche de la semana hacen más tareas para la casa. Los
resultados se distribuyeron de la siguiente manera:
Domingo Lunes Martes Miércoles Jueves Viernes Sábado
N° de estudiantes 11 8 10 7 10 5 5

De la población de estudiantes, ¿las noches en las que el mayor número


de estudiantes hace la mayoría de sus tareas para la casa ocurren con
igual frecuencia durante una semana?
3. Bondad de ajuste: Distribución binomial
Ejemplo 3
Cierto tipo de linterna eléctrica se vende con las cuatro baterías incluidas. Se obtiene una muestra
aleatoria de 150 linternas y se determina el número de baterías defectuosas; con los resultados
siguientes:

Se debe probar si la distribución de las baterías sigue una distribución binomial con p=0,36
Solución
Distribución binomial:
H0: O = E: La distribución tiene comportamiento binomial
dbinom(x,n =.. ,prob =.. )
H1: O ≠ E: La distribución no tiene comportamiento binomial

Respuesta: Como el p valor es 0.000 menor que


0.05, se rechaza Ho.
Conclusión: Los datos no tienen
comportamiento binomial.
Adicional:
Con el fin de conocer si un cierto tipo de bacterias se distribuyen al azar en un determinado cultivo o si, por el
contrario, lo hacen con algún tipo de preferencia (el centro, los extremos, etc...), se divide un cultivo en 576
parcelas o sectores iguales y se cuenta el número de bacterias en cada uno. Los resultados son los siguientes:

N° de bacterias 0 1 2 3 Más de 4
N° de sectores 229 211 93 35 8

¿Se ajustan los datos a una distribución de Poisson de intensidad λ ? Use un nivel de significación de 0.05

𝑥 −𝜆
𝜆 ⋅ 𝑒
𝑃 ( X =𝑥 ) = Distribución de Poisson:
𝑥!
dpois(x,lamda)
3. Bondad de ajuste a una
distribuciones Discretas y
Continuas
Pruebas con experimentos multinomiales.
4. Bondad de ajuste: Distribuciones Discretas y
Continuas

• La prueba ji cuadrada también se puede usar para probar si la muestra


proviene de una familia especificada de distribuciones continuas, como es el
caso de la familia binomial, de Poisson, exponencial, o la familia normal.

• H0: O=E: La distribución de la población es . . . .


• H1: O≠E: La distribución de la población no es . . . .

• Los valores pi se deben hallar usando las distribuciones correspondientes.


4. Bondad de ajuste: Distribuciones Discretas y
Continuas
• Los datos siguientes son los montos en miles de soles de 30
facturas tomadas al azar de una empresa exportadora de insumos
químicos pertenecientes a los últimos 10 años. Con un nivel de
significación de 0.05, ¿dichos montos se ajustan a una distribución
normal?
257 327 317 300 340 340 343 374 377 386

383 393 407 407 434 427 440 407 450 440

456 460 456 476 480 490 497 526 546 700
PRUEBAS DE NORMALIDAD CON R
4. Bondad de ajuste a distribuciones
Discretas y Continuas
Ejemplo

•La solución utiliza el procedimiento de prueba de hipótesis de cinco pasos que es la


siguiente:
1. Parámetro de interés: Los parámetros de interés son p1, p2, p3, . . . . pn las
frecuencias de cada uno de los k = n niveles respectivamente, y queremos saber si
p1 , p2, p3, . . . pn tiene una distribución normal.
2. Hipótesis:
H0: O = E: La población tiene una distribución normal
H1: O ≠ E: La población no tiene una distribución normal.
Solución con R
H0: O = E: La población tiene una distribución normal.
H1: O ≠ E: La población no tiene una distribución normal.
Copiamos los datos al Excel poniendo de encabezado “X”, luego seleccionamos todo,
copiamos con Ctrl+C.
Luego abrimos el R y cargamos los datos con el comando read.delim, luego seguimos la
secuencia.

Como el p valor es 0.1435 mayor que el nivel de significancia de 0.05, existe evidencia
estadística para no rechazar la hipótesis nula y se concluye que hay NORMALIDAD.
• También se puede utilizar el gráfico Q-Q plot que compara los cuantiles de la
muestra con los de la distribución normal.
> qqPlot(data$X,distribution = "norm")
EJERCICIO:
1. Genera la gráfica de densidad de la data “tiempo” de la hoja 2 del Excel compartido
de revisión técnica y compárala con la gráfica de la curva normal.
2. Aplica la prueba de normalidad que corresponda. Indica las hipótesis de acuerdo a
los pasos que conoces .
3. Genera el gráfico QQ plot para validar la normalidad e indica que puntos generan
problemas de normalidad si es que se presentaran.
3. Pruebas de Independencia
y de homogeneidad
Tablas de contingencia.
Prueba de independencia
En un estudio de una vacuna de hepatitis participan 1083 voluntarios. De éstos, se eligen aleatoriamente 549 y son
vacunados. Los otros, 534, no son vacunados. Después de un cierto tiempo, se observa que 70 de los 534 no
vacunados han contraído la hepatitis, mientras que sólo 11 de los 549 vacunados la han contraído.
Esquematicemos los resultados en lo que se llama una tabla de contingencia:

¿Enfermo?/¿Vacunado? Sí No Total
SÍ 11 70 81
NO 538 464 1002
Total 549 534 1083

¿Es el hecho de contraer hepatitis independiente de haber sido vacunado contra la dolencia?
En este ejemplo, contrastar si la manera de clasificar a los voluntarios entre vacunados y no vacunados y la manera
de clasificarlos entre enfermos por hepatitis y no enfermos es equivalente a contrastar si la vacuna es efectiva contra
la hepatitis. Y decir que la vacuna no es efectiva sería equivalente a decir que vacunar a un individuo es
independiente de que contraiga la hepatitis.
Prueba de independencia

El contraste que nos planteamos es el siguiente:

H0: Los criterios de clasificación ”X” y ”Y” son independientes,


H1: Los criterios de clasificación ”X” y ”Y” no son independientes.
(están relacionados)

Para poder realizar el contraste anterior, lo plantearemos como un


contraste de bondad de ajuste.
Tablas de Contingencia

Variable B
Poco Medio Mucho
0 a 100 fo11 fo12 fo13 Total F1
100 a 200 fo21 fo22 fo23 Total F2
Variable A
200 a 300 fo31 fo32 fo33 Total F3
400 a 500 fo41 fo42 fo43 Total F4
Total C1 Total C2 Total C3 Total

• Las frecuencias esperadas tienen que calcularse de manera


tal que hipotéticamente las frecuencias se distribuyen de
manera homogénea
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 Total F1
100 a 200 Total F2
Variable A
200 a 300 Total F3
400 a 500 Total F4
Total C1 Total C2 Total C3 Total
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe11 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C1 Total

=
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe12 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C2 Total

= =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe13 Total F1
100 a 200
Variable A
200 a 300
400 a 500
Total C3 Total

= = =
Tablas de Contingencia
• Las frecuencias esperadas tienen que calcularse de manera tal que
hipotéticamente las frecuencias se distribuyen de manera homogénea.

Variable B
Poco Medio Mucho
0 a 100 fe11 fe12 fe13 Total F1
100 a 200 fe21 fe22 fe23 Total F2
Variable A
200 a 300 fe31 fe32 fe33 Total F3
400 a 500 fe41 fe42 fe43 Total F4
Total C1 Total C2 Total C3 Total
Ejemplo
Se toma una muestra aleatoria de 3800 familias y se les clasifica según su nivel de
ingresos (alto, medio o bajo) y el tipo de colegio a la que envían sus hijos. La
siguiente tabla muestra los resultados obtenidos:

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto

Alto 506 394 210


Medio 438 462 512
Bajo 215 385 678

¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
1110
Alto 506 394 210
Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
1159 ∗ 1110
3800
Alto
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
1110
Alto 506 394 210
Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55
Alto
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto

Alto 506 394 210


1412
Medio 438 462 512
Bajo 215 385 678
1159 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55
Alto 1159 ∗ 1412
3800
Medio
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
1110
Alto 506 394 210
1412
Medio 438 462 512
1278
Bajo 215 385 678
1159 1241 1400 3800
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto
338.55 362.5026 408.9474
Alto
430.66 461.1295 520.2105
Medio
389.79 417.3679 470.8421
Bajo
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto
O E
Alto 506 394 210
506 338.55
Medio 438 462 512
438 430.66
Bajo 215 385 678
215 389.79
Categoría de Tipo de Colegio
Ingresos
Privado Público Mixto

Alto 338.55 362.5026 408.9474


Medio 430.66 461.1295 520.2105
Bajo 389.79 417.3679 470.8421
Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?

Categoría de Tipo de Colegio


Ingresos
Privado Público Mixto O E

Alto 506 338.55


506 394 210
Medio 438 430.66
438 462 512
Bajo 215 389.79
215 385 678
394 362.5026
Categoría de Tipo de Colegio 462 461.1295
Ingresos
Privado Público Mixto 385 417.3679

Alto 338.55 362.5026 408.9474 210 408.9474

Medio 430.66 461.1295 520.2105 512 520.2105

Bajo 389.79 417.3679 470.8421 678 470.8421


Ejemplo
¿A un nivel de significancia del 5% hay razón para creer que el ingreso y el tipo de
colegio no son variables independientes?
H0: O=E Ingreso y tipo de colegio son
O E independientes
H1: O≠E Ingreso y tipo de colegio no son
506 338.55 82.8223
independientes (están relacionados)
438 430.66 0.1251
215 389.79
• Rechazamos H0 como verdadera:
78.3795
394 362.5026 2.7368 • Tipo de colegio y nivel de ingresos no
son independientes, están relacionados
462 461.1295 0.0016
385 417.3679 2.5102
gl =(3-1)(3-1)
210 408.9474 96.7852 gl = 4

512 520.2105 0.1296  = 0.05

678 470.8421 91.1439

354.6343 9.488
Contraste de independencia con R
Para realizar el contraste de independencia en R hacemos lo siguiente:

chisq.test(tabla.contingencia,correct=FALSE)

tabla.contingencia: es la tabla de las frecuencias empíricas.


correct: es un parámetro lógico. Si su valor es FALSE, hará los cálculos como hemos explicado.
Si su valor es TRUE, aplica la corrección a la continuidad sólo para tablas de contingencia 2 × 2.
En el ejemplo:
chisq.test(matrix(c(506,438,215,394,462,385,210,512,678),
3,3),correct=FALSE)
Rpta.: Como el p valor es 0.000
## menor que 0.05, existe evidencia
## Pearson's Chi-squared test estadística para rechazar Ho.
## Conclusión: El nivel de ingresos
## data: matrix(c(506, 438, 215, 394, 462, 385, 210, 512, está relacionado con el tipo de
678), 3, 3) colegio al que asisten sus hijos.
X-squared = 354.63, df = 4, p-value <2.2e-16
Ejemplo 2
Una gran firma de electrónica que contrata a muchos trabajadores con discapacidades quiere
determinar si las discapacidades influyen en el desempeño de dichos trabajadores. Utilice el nivel
de significancia α = 0.05 para decidir, sobre la base de los datos muestrales que se presentan en la
siguiente tabla, si es razonable sostener que las discapacidades no tienen efecto sobre el
desempeño de los trabajadores:
>chisq.test(matrix(c(21,16,29,64,49,93,17,14
Arriba del Desempeño Abajo del
,28),3,3),correct=FALSE)
promedio promedio promedio
Pearson's Chi-squared test
Ceguera 21 64 17
data: matrix(c(21, 16, 29, 64, 49, 93, 17, 14,
Sordera 16 49 14 28), 3, 3)
Sin discapacidad 29 93 28 X-squared = 0.19609, df = 4, p-value= 0.9955

Hipótesis: Rpta.: Como el p valor es 0.9955 mayor


H0: O = E Discapacidad y Desempeño son que 0.05, existe evidencia estadística para
independientes. V no rechazar la hipótesis nula.
H1: O ≠ E Discapacidad y Desempeño están
relacionados. Conclusión: La discapacidad de los
trabajadores y su respectivo desempeño
son independientes.

También podría gustarte