Qweert
Qweert
Qweert
El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la
forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.
glTotal = glError + glFactores
Nota: Por grados de libertad entendemos el número efectivo de observaciones que contribuyen
a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el
número de datos que sean combinación lineal de otros.
COMPARACION DE LAS MEDIAS DE VARIAS MUESTRAS
Antes de empezar aclaramos que no es correcto aplicar una prueba como la t de Student para
comparar todas las posibles combinaciones por parejas entre los grupos, ya que esto
incrementa significativamente el error tipo I. El número de comparaciones posibles a realizar
depende de cuántos grupos tengamos y se calcula del siguiente modo:
#comparaciones= (k*(k-1))/2
siendo k el número de grupos que tenemos. En nuestro ejemplo con cuatro grupos tendríamos
6 posibles comparaciones.
Existen dos tipos de comparaciones: las planificadas previamente antes de iniciar la recogida
de los datos, denominadas a priori y las realizadas con posterioridad y sin una planificación
previa, construidas con todas las posibles combinaciones 2 a 2 denominadas post hoc. Aunque
lo deseable son siempre las comparaciones a priori, esto no siempre es posible y con frecuencia
se recurre en la práctica a compararlo todo con todo. En este caso se hace necesario penalizar
de alguna manera el valor original de p en las comparaciones 2 a 2, para de este modo
protegernos del denominado error tipo I.
Hay muchas formas de penalizar o ajustar estos valores de p en las comparaciones múltiples.
La idea general que subyace es todos estos procedimientos es ser más exigentes con el valor
estándar de p<0,05 en función del número de comparaciones realizadas para decir que las
diferencias son estadísticamente significativas. Uno de los métodos más conocidos y utilizados
en el ajuste de la p, es el de Bonferroni. Una aproximación muy buena para su cálculo consiste
en multiplicar el valor original de p, por el número de comparaciones posibles a realizar. De este
modo, si tenemos 10 posibles comparaciones, sólo serían significativas después de ajustar,
aquellas diferencias cuya p original fuese aproximadamente menor de 0,005. Al utilizar la
aproximación de multiplicar la p por el número de comparaciones, el valor de p no puede nunca
superar el valor de 1 (hablamos de una probabilidad). Para el caso en el que esto suceda,
debemos de poner 1 como el valor de p ajustado.
En realidad, la forma exacta de calcular la p ajustada por el procedimiento de Bonferroni es la
siguiente:
p ajustada =1 – (1– p original) *n
Siendo n el número de posibles comparaciones.
Existen otras muchas formas de penalizar la p, siendo unos métodos más conservadores que
otros en función del número de comparaciones, homogeneidad de varianzas o desigualdad en
los tamaños de los grupos. Actualmente existe mucha controversia sobre su uso y no hay un
acuerdo universal sobre cuál es el que debe emplearse en cada momento, e incluso de si se
debe o no realizar el ajuste del valor de p original. Tanto los procedimientos de Bonferroni como
el de Scheffé, suelen ser bastante conservadores y se utilizan cuando no son muchas las
comparaciones a realizar y, además, los grupos son homogéneos en varianzas. En el caso de
que las varianzas no sean homogéneas, se puede utilizar el método de Tamhane. Otros
métodos menos conservadores son los de Tukey y Student-Newman-Keuls (S-N-K) para
varianzas homogéneas.
Una prueba muy conservadora nos evitará cometer un error tipo I, es decir, al penalizar la p nos
evitará equivocarnos al rechazar la hipótesis nula de igualdad de medias ya que estamos siendo
más exigentes, sin embargo, esto provoca un aumento del error tipo II. Es decir, diremos que
no hay diferencias entre las medias de los grupos cuando en realidad sí que las hay.
En nuestro ejemplo en el que comparamos el IMC entre los distintos grupos de gravedad de
EPOC, hemos realizado el ajuste de la p por el método de Bonferroni (Tabla III) adecuado para
varianzas iguales, ya que la prueba de homogeneidad de varianzas (prueba de Levene) no fue
significativa. Al tener cuatro grupos, tenemos 6 posibles comparaciones, siendo significativas
después de ajustar la p, las comparaciones entre las medias de los grupos Moderado con Grave
y Moderado con Muy grave.
Tabla I: Comparaciones de medias entre los 4 grupos con la corrección de Bonferroni.
De donde:
La diferencia
de medias
es
significativa
al nivel 0,05.
EEDM: Error
estándar de la diferencia de medias. IC: intervalo de confianza.
ANALISIS DE LA VARIANZA DE UN FACTOR
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e
independientes. En ocasiones necesitamos contrastar la igualdad de medias de un número
mayor de poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a
una variable o característica:
𝐻0 = 𝜇𝑖 = ⋯ = 𝜇𝐼
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
Alguna distinta, siendo I el número de poblaciones. Surge así el análisis de la varianza.
El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer la
variabilidad de un experimento en componentes independientes que puedan asignarse a
causas distintas. El problema general que vamos a estudiar es el siguiente: disponemos de “n”
elementos que se diferencian en un factor: por ejemplo, alumnos de distintas clases (factor
clase), coches de distintas marcas (factor marca), componentes producidos por distintas
máquinas (factor máquina), etc. En cada elemento observamos una característica continua (X)
que varía aleatoriamente de un individuo a otro: notas de Estadística de los alumnos, consumo
de gasolina, tiempo de vida de los componentes, etc. A esta característica se le llama variable
respuesta. Nuestro objetivo será conocer si existe o no relación entre la variable respuesta y el
factor: ¿habrá diferencias en las notas de los distintos grupos de Estadística?, ¿tendrán coches
similares de distintas marcas el mismo consumo de gasolina?, ¿tendrán los componentes
fabricados por las distintas máquinas la misma duración?
Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso
en un problema del análisis de la varianza. Supongamos que se desea comprobar si la duración
de piezas fabricadas por un grupo de I máquinas es la misma, es decir, la duración no depende
de la máquina. Supongamos además que la duración de las piezas producidas por una misma
máquina varía debido a muchos factores no controlables como por ejemplo la pureza de la
materia prima, desajustes aleatorios de la máquina, la habilidad del operario, etc. Es decir, la
duración de las piezas producidas por cada máquina será una variable aleatoria. Denotamos
por Xij la duración de la pieza j producida por la máquina i. Si para cada máquina i medimos la
duración a una muestra de ni piezas, tendremos un total de:
𝐼
𝑛 = ∑ 𝑛𝑖
𝑖=1
Cantidad de observaciones
Para el Modelo:
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma:
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜇𝑖𝑗 , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir
que la duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente
alrededor de un valor desconocido µi que caracteriza a la máquina i (duración media de sus
piezas) y que las diferencias entre los valores observados para esta máquina, y ij, y su media,
µi, son el resultado de múltiples factores que no controlamos y que influyen en la variable
respuesta, en este caso en la duración. Las englobamos en un término uij llamado error
experimental o perturbación, 𝜇𝑖𝑗 = 𝜇𝑖 + 𝑦𝑖𝑗
Hipótesis del modelo:
En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza es
la misma en todos los grupos y los grupos son independientes.
El paso siguiente sería estimar los parámetros del modelo.
Estimación de los parámetros del modelo:
Los parámetros a estimar son: µi, i = 1, ..., I, y σ2. Utilizamos para ello el método de máxima
verosimilitud, y resultan:
𝑛𝑖
∑𝑗=1 𝑛𝑖𝑗
𝜇̂𝑖 = 𝑦̅𝑖 = ; 𝑖 = 1; … ; 𝐼
𝑛𝑖
𝑛 2
∑𝐼𝑖=1 ∑𝑗=1
𝑖
𝑛𝑖 (𝑦𝑖𝑗 − 𝑦̅)
𝑖
̂2 =
𝜎
𝑛
Los residuos del modelo son:
𝜇̂
𝑖𝑗 = 𝑦𝑖𝑗 − 𝑦
̅𝑖 = 𝑒𝑖𝑗
y se utilizan sobre todo a la hora de comprobar si se verifican o no las hipótesis del modelo. Si
no se verifican, este modelo no sería el adecuado.
𝑉𝑇 = 𝑉𝐸 + 𝑉𝑁𝐸
Donde: VT=variabilidad total, VE=: Variabilidad explicada por el modelo; variabilidad entre
grupos y VNE=Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los
grupos.
La medida 𝑅 2 =
𝑉𝐸
indica la
𝑉𝑇
variabilidad que
explica el
modelo de
entre toda la presente en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0
indicaría que el modelo no es válido.
y 𝑦𝑖.. y
̅̅̅ 𝜎𝑛2 la
media y varianza
del total de las
observaciones.
La media total puede calcularse de la siguiente forma:
∑𝐼𝑖=1 𝑛𝑖 𝑦̅𝑖. 2
𝑦𝑖.. =
̅̅̅
𝑛
Contraste de la F:
𝐻0 = 𝜇𝑖 = ⋯ = 𝜇𝐼
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
El estadístico de contraste (bajo 𝐻0 ) es:
2
𝑆̂𝑒
𝐹= 2 → 𝐹𝐼−1,𝑛−1
𝑆̂𝑅
Rechazamos 𝐻0 cuando 𝐹 > 𝐹1−𝛼,𝐼−1,𝑛−1 . En tal caso, podremos decir que no se han detectado
diferencias significativas entre los grupos en cuanto a la variable respuesta, para un nivel de
significación del αx100 %.
Si rechazamos en el contraste anterior 𝐻0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las
medias sí coincidan (ver ejemplo 1).
EJEMPLOS
Ejemplo 1:
Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad de una
válvula electrónica que tienen tres tipos diferentes de recubrimiento para los tubos de rayos
catódicos utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se
obtienen los siguientes datos:
Solución:
Queremos comprobar si la conductividad media de la válvula será la misma con los tres tipos
de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto sobre la
conductividad.
Planteamos el contraste:
𝐻0 = 𝜇1 = 𝜇2 = 𝜇3
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras:
Ahora concluimos: como F = 10,725 es mayor que F 0,95,2,9 = 4,26, rechazamos H0. Existen por
tanto diferencias significativas entre los tres tipos de recubrimiento, es decir, el tipo de
recubrimiento influye en la conductividad de la válvula.
Ejemplo 2:
Se ha realizado un estudio para averiguar si las mujeres de diferentes subgrupos profesionales
dan diferentes niveles de importancia a las marcas cuando compran bebidas refrescantes.
Solución:
Se pidió a muestras aleatorias independientes de 101 empleadas de oficina, 112 administrativas
y 96 profesionales que valoraran en una escala de 1 a 7 la importancia que daban a la marca
cuando compraban bebidas refrescantes. El valor del estadístico de Kruskal-Wallis de este
estudio era 25,22. Contraste la hipótesis nula de que las medias poblacionales de las
valoraciones de los tres subgrupos son iguales.
El estadístico del contraste calculado es:
W = 25.22
Dado que hay K = 3 grupos, tenemos para un contraste al 0,5 por ciento
2 2
𝑋𝑘−1,𝛼 = 𝑋2,0.005 = 10.60
Por 10 tanto, la hipótesis nula de que las medias poblacionales de las valoraciones de los tres
subgrupos son iguales se rechaza claramente con los datos de esta muestra, incluso at nivel
de significación del 0,5 por ciento. Tenemos pruebas contundentes de que las mujeres de
diferentes subgrupos profesionales dan diferentes niveles de importancia a las marcas.
Modelo:
Yij representa la respuesta de la variable en el i-ésimo nivel del factor 1 ()y en el j-ésimo nivel
del factor 2 ().
i representa el efecto que sobre la media global tiene del nivel i del factor1
j representa el efecto que sobre la media global tiene del nivel j del factor 2
Supondremos que U sigue una distribución N(0,) lo que implica que Yij sigue una
distribución N(ij ,)
Se desea estudiar la eficiencia (en cuanto a menor emisión de CO2) de 5 máquinas desaladoras. Se piensa
que la cantidad de sal en el agua puede influir en dicha eficiencia.
Factor 1: distintas máquinas (I=5) Factor 2: nivel de sal (J=3)
ANÁLISIS ESTADÍSTICO:
SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 1)
SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 2)
TABLA
USANDO LOS DATOS ANTERIORES
En cuanto a las emisiones de CO2 las 5 máquinas no son iguales (p-valor 0.0026) y también
influye la cantidad de sal (p-valor 0.0001).
¿Y si no hubiéramos tenido en cuenta el factor “cantidad de sal”?
ANÁLISIS POSTERIORES AL RECHAZO DE H0
H0 : No hay diferencia entre los niveles i, j del factor 1 Con nivel de significación
rechazamos H0 si el cero no está en el siguiente intervalo de confianza:
H0 : No hay diferencia entre los niveles i, j del factor 2 Con nivel de significación
rechazamos H0 si el cero no está en el siguiente intervalo de confianza:
Al igual que en el análisis de la varianza con un factor podemos hacer pruebas simultáneas
entre todas las posibles parejas de niveles en cada factor. Por ejemplo utilizando el Test de
Bonferroni.
En el ejemplo:
ANÁLISIS DE LA VARIANZA CON DOS FACTORES
Modelo:
Yij representa la respuesta de la variable en el i-ésimo nivel del factor 1 ()y en el j-ésimo
nivel del factor 2 ().
i representa el efecto que sobre la media global tiene del nivel i del factor1
j representa el efecto que sobre la media global tiene del nivel j del factor 2
()ij representa el efecto de la interacción entre el nivel i del factor 1 y el nivel j del factor
2
U es la variación aleatoria de las Yij (igual para todas ellas)
Supondremos que U sigue una distribución N(0, ) lo que implica que Yij sigue una
distribución N(ij ,)
NOTA:
En un diseño equilibrado todas las casillas tendrán el mismo número de datos (K)
nij = K para todo i,j
Grupo 1 (contar): se les pidió que contasen el nº de letras de cada palabra Grupo 2
(rimar): se les pidió que rimasen cada palabra con otra
Grupo 3 (adjetivar): se les pidió que a cada palabra le asignasen un adjetivo Grupo
4 (imaginar): se les pidió que a cada palabra le asignasen una imagen Grupo 5
(recordar): se les pidió que memorizasen las palabras.
A los 4 primeros grupos no se les dijo que deberían recordar las palabras. Finalmente,
tras revisar la lista 3 veces, se recogió el nº de palabras recordadas por cada grupo
ANÁLISIS ESTADÍSTICO:
Estimación de los parámetros desconocidos Parámetros desconocidos del modelo (IJ + 1)
SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 1)
SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 2)
NOTA:
Recordemos que siempre deben cumplirse los siguientes requisitos previos
Linealidad: los residuos (diferencia de los datos a su media, en cada nivel de los
factores) se distribuyen alrededor del cero
E(U) = 0
Cada nivel de un factor se cruza solo una vez con cada uno de los niveles de los otros
factores
Se puede aplicar el diseño cuando:
Existen 3 factores
El número de niveles (I) es el mismo en cada factor
No hay interacción entre los factores:
En primer lugar, se elige un cuadrado con I filas, I columnas e I letras de forma que no
haya letras repetidas en ninguna fila ni en ninguna columna
ANALISIS DE VARIANZA CON TRES FACTORES CUADRADOS LATINOS:DISEÑO
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados
equivalentes? O por el contrario ¿Hay algún método superior a los demás? Solución:
Comenzamos calculando los totales y los cuadrados de los totales divididos por el número de
observaciones:
Met Met Me Tota Total
d. I d. II td. III l ²/n
Su 77 72 61 210 2940
ma
Su 118 103 74 296
m² /n 5.8 6.8 4.2 6.8
¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con un nivel
de significación del 5%? Solución: Comenzamos calculando los totales y los cuadrados de los
totales divididos por el número de observaciones:
M M M M T Tot
etd. I etd. II etd. III etd. IV otal al²/n
S 4 4 4 1 1 81
uma 3 2 3 8 46 9.8
S 2 3 2 5 9
um² /n 31.1 52.8 64.1 4 02
Solución:
Una vez más, las medias de los cuadrados se obtienen dividiendo las sumas de los cuadrados
por sus grados de libertad correspondientes. Los cocientes F se deducen de la división de las
medias de los cuadrados de las tareas, de los tipos de trabajadores y de las interacciones por la
media de los cuadrados de los errores. Ahora podemos completar la tabla del análisis de la
varianza.
Fuente de Sum Grado Medi
Coeficient
variación a de s Libertad a de los
eF
cuadrados Cuadrados
Tarea 62.0 1 62.0 167.68
4 4
Trabajado 0.06 1 0.06 0.16
r
Interacció 1.85 1 1.85 5.00
n|
Error 23.3 63 0.37
1
Total 87.2 66
6
La tabla del análisis de la varianza puede utilizarse para contrastar tres hip6tesis nulas. En el
caso de la hip6tesis nula de la igualdad de las medias poblacionales de los niveles de satisfacci6n
con los dos tipos de tarea, el cociente F calculado es 167,68. Tenemos 1 grado de libertad en el
numerador y 63 en el denominador, por 10 que vemos en el apéndice que en un contraste al 1
por ciento
Por lo tanto, se rechaza claramente la hipótesis nula de la igualdad de las medias poblacionales
de los niveles de satisfacci6n con las tareas estimulantes y no estimulantes. Este resultado no
es sorprendente. Seria 16gico esperar que los trabajadores estuvieran más satisfechos
realizando tareas estimulantes que realizando tareas no estimulantes.
A continuación, contrastamos la hipótesis nula de que las medias poblacionales de los niveles
de satisfacci6n de los trabajadores introvertidos y extrovertidos son iguales. En este caso, el
cociente F calculado es 0,16. Una vez más, los grados de libertad son 1 y 63, por 10 que en el
caso de un contraste al 5 pOl' ciento1,63, O,05 = 4,00 La hip6tesis nula de la igualdad de los
niveles medios de satisfacci6n de los trabajadores introvertidos y extrovertidos no puede
rechazarse al nivel de significaci6n del 5 por ciento.
Suponiendo que se cumplen los supuestos del ANOVA para dos factores, ¿podemos afirmar si
la población presenta diferencias significativas en la apreciación del político según la ciudad o
según su nivel adquisitivo?
Solución:
Para resolver la cuestión planteada deberemos escribir los datos en la hoja, en su segunda hoja,
correspondiente a dos factores. El esto lo hará la hoja de cálculo y te presentará estos resultados:
Fuente de SL GL CM F
Variación
Factor A 83.83 2 41.92 14.55
Factor B 59.13 1 59.13 20.53
Interacción 30.12 2 15.06 5.23
AB
Error 239.03 83 2.88
Total 412.11 88
P-valor de FA 0,182
P-valor de FB 0,045 Significativa al 5%
P-valor de FAB 0,007 Significativa al 5%
Observa que ahora se pueden considerar cinco sumas de cuadrados:
Representa la variabilidad propia del factor Nivel adquisitivo. Sus grados de libertad son 2, que
equivalen al número de niveles menos 1, y su cuadrado medio 41,92
Factor A: SCA=83,83.
Es la suma correspondiente al factor Ciudad. Como sólo hay dos ciudades, sus grados de libertad
equivalen a 1, y su cuadrado medio 59,13, muy alto respecto al estimador 2,88.
Factor B: SCB=59,13.
Este factor no se considera si existen motivos para creer que no existe influencia mutua entre el
factor Ciudad y el factor Nivel adquisitivo. Aquí lo consideraremos porque no tenemos suficiente
información. Sus grados de libertad son 2, producto de los G.L. anteriores.
Interacción: SCAB=30,12
Error: SCE=239,03.
Nos sirve para ver si cuadran bien todos los cálculos de sumas de cuadrados y grados de libertad,
o para calcular SCE mediante la operación de restar.
Total: SCT=412,11.
Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada factor, y aplicando el
contraste correspondiente obtenemos que son significativas al 5% tanto la influencia de la Ciudad
como de la Interacción, no siendo significativa la influencia del Nivel adquisitivo.
Se toman muestras aleatorias de los salarios por hora en cada sucursal para determinar las
varianzas muéstrales y elegimos un nivel de significancia de 0,05. La hipótesis nula y alternativa
son:
S12 14,3641
F = 2,34
S22 6,1504
El cociente F indica que la varianza muestral de la población 1 es 2,34 veces la varianza muestral
de la población 2. Sin embargo, dados los tamaños de las muestras ¿Es suficiente esta evidencia
para rechazar la hipótesis de que las poblaciones tiene la misma varianza? Se necesita el valor
crítico de F para contestar esta pregunta. Primero, se calculan los grados de libertad para el
numerador y el denominador:
Las columnas de la tabla F representan los grados de libertad del numerador, por lo que se
selecciona la columna 20. Las filas corresponden a los grados de libertad del denominador, así
que se elige la fila 24. El valor crítico de F a un nivel de significancia de 0,05 para 20 grados de
libertad en el numerador y 24 grados de libertad en el denominador es 2,02.
El cociente F calculado a partir de los datos de la muestra es 2,34. Según este valor de prueba,
la hipótesis nula se rechaza (2,34 > 2,02). Si acepta un riesgo del 5% de un error de tipo I, las
poblaciones no tienen la misma varianza.
6. ¿Son iguales las varianzas de dos poblaciones de edades de los artículos en inventario,
o la población 2 tiene una mayor varianza? Se toman muestras aleatorias de 53 artículos
de cada población de inventario y se calculan las varianzas muéstrales. La prueba ha de
llevarse a cabo con un nivel de significancia de 0,01. Las hipótesis nula y alternativa son:
Los grados de libertad del numerador y denominador son 52 (53-1). En la tabla F abreviada, la
fila 50 y la columna 50 se usan como aproximaciones de los grados de libertad. La regla de
decisión es: Si el cociente F calculado es mayor que 1,94, se rechaza la hipótesis nula (se
rechaza H0 si F > 1,94).
S12 1,370
F = 2,8
S22 489
Una de las varianzas muéstrales es 2,8 veces más grande que la otra.
La hipótesis nula se rechaza ya que el estadístico de prueba (2,8) excede al valor crítico (1,94)
de la tabla F. Se puede concluir que el inventario 2 tiene más variabilidad en el tiempo que el
inventario 1.
7. Se obtienen muestras del peso del llenado de cuatro paquetes de espinacas congeladas,
a partir de tres contenedores. La pregunta es si los pesos promedio de los paquetes son
iguales o diferentes entre los tres contenedores. Seguidamente se ofrecen los pesos de la
muestra (en onzas), medias de grupos, media global y estimación de la varianza con el
método dentro usando la ecuación correspondiente.
Grupo Grupo Grupo
1 2 3
12.4 11.9 10.3
13.7 9.3 12.4
11.5 12.1 11.9
10.3 10.6 10.2
Media: 12.00 11.00 10.2
Σ (xi - x1) ² = (12,4 - 12) ² + (13,7 - 12) ² + (11,5 - 12) ² + (10,3 - 12) ² = 6,19
Σ (xi - x2) ² = (11,9 - 11) ² + (9,3 - 11) ² + (12,1 - 11) ² + (10,6 - 11) ² = 5,07
Σ (xi - x3) ² = (10,3 - 11,2) ² + (12,4 - 11,2) ² + (11,9 - 11,2) ² + (10,2 - 11,2) ² = 3,74
Luego:
Σ (xi - x1) ² = (3 - 4) ² + (2 - 4) ²+ (5 - 4) ² + (6 - 4) ² = 10
Σ (xi - x2) ² = (5 - 4) ² + (1 - 4) ² + (4 - 4) ² + (6 - 4) ² = 14
Σ (xi - x3) ² = (2 - 6) ² + (10 - 6) ² + (5 - 6) ² + (7 - 6) ² = 34
Σ (xi - x4) ² = (3 - 4,5) ² + (6 - 4,5) ² + (4 - 4,5) ² + (5 - 4,5) ²= 9,25
Luego
SW2 = 5,60416
c(n-1) = 4(4-1) = 12
9. Una analista de una cadena de supermercados, quiere saber si las tres tiendas tienen el
mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras
en cada tienda. La tabla número 1 presenta los datos recolectados de esta muestra junto
con las medias maestrales para cada tienda y la media global de todos los datos. Hará una
prueba con un nivel de significancia de 0,01.
La hipótesis nula que se quiere probar es que todas las poblaciones de las que se obtuvieron los
datos maestrales tienen la misma media. La hipótesis alternativa es que las poblaciones no
tienen la misma media. Las primeras dos medias maestrales en la tabla número 1 sugieren que
la hipótesis nula es cierta, ya que son muy cercanas. La tercera media muestral, es
considerablemente más pequeña que las otras dos. Pero, ¿Se debe esta diferencia a la
aleatoriedad del muestreo o al hecho de que las poblaciones tienen medias distintas? Esta es la
pregunta que vamos a responder con el procedimiento de ANOVA.
Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejemplo
Se usan ambos métodos, dentro y entre, para estimar la varianza de las tres poblaciones.
Recuerde la suposición fundamental de ANOVA: todas las poblaciones tienen la misma varianza
sin importar si tienen la misma media. La tabla número 2 contiene los cálculos para el método
dentro, y la tabla número 3 da los cálculos para el método entre.
Tienda 1:
Σ (xi - x1) ² = (12,05 - 18,73) ² + (23,94 - 18,73) ² + (14,63 - 18,73) ² + (25,78 - 18,73) ²
+ (17,52 - 18,73) ² + (18,45 - 18,73) ² = 139,82
Tienda 2
Σ (xi – x2) ² = (15,17 - 18,14) ²+ (18,52 - 18,14) ² + (19,57 - 18,14) ² + (21,40 - 18,14) ²
+ (13,59 - 18,14) ² + (20,57 - 18,14) ² = 48,25
Tienda 3
Σ (xi – x3) ² = (9,48 - 8,72) ² + (6,92 - 8,72) ² + (10,47 - 8,72) ² + (7,63 - 8,72) ² + (11,90
- 8,72) ² + (5,92 - 8,72) ² = 26,02
Suma de cuadrados dentro (SCw) = 139,82 + 48,25 + 26,02 = 214,09
Tabla número 3 Cálculos del método entre para el ejemplo.
Los valores calculados en las tablas 2 y 3 se usan para rellenar la tabla ANOVA. Como se tienen
tres poblaciones en la prueba,
TOTAL 592,63 17
c- 1 = 3 - 1 = 2 (Grupos entre)
c (n - 1) = 3 (6 - 1) = 15 (Grupos dentro)
10. Se pide a cuatro personas que beben una marca determinada de café que registren el
número de tazas que consumen durante un día. Se hace lo mismo con bebedores de otras
marcas. Los resultados se muestran a continuación. Construya la tabla ANOVA para
probar si existe alguna diferencia en el número promedio de tazas consumidas, para cada
marca.
Marca Marca Marca Marca
A B C D
3 5 2 3
2 1 10 6
5 4 5 4
6 6 7 3
METODO DENTRO
METODO ENTRE
TABLA ANOVA
TOTAL 81,75
Bibliografía:
http://biblio3.url.edu.gt/Libros/2012/esta-AE/17.pdf
https://uam.es/departamentos/economicas/econapli/anova.pdf
http://biplot.usal.es/problemas/libro/7%20ANOVA.pdf
https://www.monografias.com/trabajos7/anva/anva.shtml
http://elestadistico.blogspot.com/2007/07/anlisis-de-la-varianza-anova.html
http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%2
0INFERENCIA_ESTADISTICA/DOC_%20INFERENCIA/TEMA%204/11%20ANALISIS%
20DE%20VARIANZA.pdf
http://epidemiologiamolecular.com/prueba-anova-comparacion-medias-grupos/
http://www4.ujaen.es/~dmontoro/Metodos/Temas/Tema9.pdf
http://virtual.uptc.edu.co/ova/estadistica/docs/libros/ftp.bioestadistica.uma.es/libro/node1
56.htm