Qweert

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 39

INTRODUCCIÓN

En el estudio experimental de un fenómeno se plantea una hipótesis, para cuya


prueba se diseña un procedimiento de ejecución, que se denomina diseño del experimento el
cual debe adecuarse al material experimental con que se cuenta y a las preguntas que desea
contestar el investigador. Sus resultados se resumen en un cuadro de Análisis de Varianza y
en una Tabla de Comparación de Medias de Tratamientos, que indican las diferencias entre
dichas medidas. El análisis de varianza proporciona la variación de la variable de interés, en
fuentes explicables por algunos factores y la variación debida a fuentes para las cuales el
investigador no tiene control, no puede medir y no le es posible explicar o atribuir a algún factor
en particular; variaciones que conforman el llamado error experimental. Por ejemplo: si se
realiza un experimento en el cual se estudian 4 tipos de dietas para cerdos de engorda y se
medie la ganancia de peso, la variación de dicha ganancia puede descomponerse en el fuete
de variación atribuible a las diferentes dietas y alas fuentes desconocidas o error experimental.
El análisis de varianza es una técnica que se puede utilizar para decidir si las medias de dos o
más poblaciones son iguales. La prueba se basa en una muestra única, obtenida a partir de
cada población. El análisis de varianza puede servir para determinar si las diferencias entre las
medias muestrales revelan las verdaderas diferencias entre los valores medios de cada una de
las poblaciones, o si las diferencias entre los valores medios de la muestra son más indicativas
de una variabilidad de muestreo.
Si el valor estadístico de prueba (análisis de varianza) nos impulsa a aceptar la hipótesis nula,
se concluiría que las diferencias observadas entre las medias de las muestras se deben a la
variación casual en el muestreo (y por tanto, que los valores medios de población son iguales).
Si se rechaza la hipótesis nula, se concluiría que las diferencias entre los valores medios de la
muestra son demasiado grandes como para deberse únicamente a la casualidad (y por ello, no
todas las medias de población son iguales).
Los datos para el análisis de varianza se obtienen tomando una muestra de cada población y
calculando la media muestral y la variancia en el caso de cada muestra.
En el siguiente trabajo estudiaremos el análisis de varianza para un factor y el análisis
bifactorial, también veremos los modelos empleados para cada tipo de factor adelanto respecto
a esto diremos que existen tres modelos planteados de acuerdo al factor que ha considerado
el experimentador, hablaremos también acerca del Contraste de Kruskall-Wallis empleado con
el fin desarrollar una alternativa no paramétrica al contraste del análisis de la varianza de un
factor; entre otros puntos importantes que detallaremos en el desarrollo del presente trabajo.
ANÁLISIS DE VARIANZA
El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos
son significativamente distintos a los valores de otro o más conjuntos de datos. El método para
comparar estos valores está basado en la varianza global observada en los grupos de datos
numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una
probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la
media de otro grupo de puntuaciones.
El Análisis de Varianza parte de algunos supuestos que han de cumplirse:
La variable dependiente debe medirse al menos a nivel de intervalo.
Independencia de las observaciones.
La distribución de la variable dependiente debe ser normal.
Homocedasticidad: homogeneidad de las varianzas.
Existen tres tipos de modelos:
El modelo de efectos fijos: asume que el experimentador ha considerado para el factor todos
los posibles valores que éste puede tomar. Ejemplo: Si el género del individuo es un factor, y el
experimentador ha incluido tantos individuos masculinos como femeninos, el género es un
factor fijo en el experimento.
Los modelos de efectos aleatorios: asumen que en un factor se ha considerado tan sólo una
muestra de los posibles valores que éste puede tomar. Ejemplo: Si el método de enseñanza es
analizado como un factor que puede influir sobre el nivel de aprendizaje y se ha considerado
en el experimento sólo tres de los muchos más métodos posibles, el método de enseñanza es
un factor aleatorio en el experimento.
Los modelos mixtos: describen situaciones donde están presentes ambos tipos de factores:
fijos y aleatorios.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of
squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo,
mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles.
(Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis
de regresión lineal).

SSTotal = SSError + SSFactores

El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la
forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.
glTotal = glError + glFactores

Nota: Por grados de libertad entendemos el número efectivo de observaciones que contribuyen
a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el
número de datos que sean combinación lineal de otros.
COMPARACION DE LAS MEDIAS DE VARIAS MUESTRAS
Antes de empezar aclaramos que no es correcto aplicar una prueba como la t de Student para
comparar todas las posibles combinaciones por parejas entre los grupos, ya que esto
incrementa significativamente el error tipo I. El número de comparaciones posibles a realizar
depende de cuántos grupos tengamos y se calcula del siguiente modo:
#comparaciones= (k*(k-1))/2
siendo k el número de grupos que tenemos. En nuestro ejemplo con cuatro grupos tendríamos
6 posibles comparaciones.
Existen dos tipos de comparaciones: las planificadas previamente antes de iniciar la recogida
de los datos, denominadas a priori y las realizadas con posterioridad y sin una planificación
previa, construidas con todas las posibles combinaciones 2 a 2 denominadas post hoc. Aunque
lo deseable son siempre las comparaciones a priori, esto no siempre es posible y con frecuencia
se recurre en la práctica a compararlo todo con todo. En este caso se hace necesario penalizar
de alguna manera el valor original de p en las comparaciones 2 a 2, para de este modo
protegernos del denominado error tipo I.
Hay muchas formas de penalizar o ajustar estos valores de p en las comparaciones múltiples.
La idea general que subyace es todos estos procedimientos es ser más exigentes con el valor
estándar de p<0,05 en función del número de comparaciones realizadas para decir que las
diferencias son estadísticamente significativas. Uno de los métodos más conocidos y utilizados
en el ajuste de la p, es el de Bonferroni. Una aproximación muy buena para su cálculo consiste
en multiplicar el valor original de p, por el número de comparaciones posibles a realizar. De este
modo, si tenemos 10 posibles comparaciones, sólo serían significativas después de ajustar,
aquellas diferencias cuya p original fuese aproximadamente menor de 0,005. Al utilizar la
aproximación de multiplicar la p por el número de comparaciones, el valor de p no puede nunca
superar el valor de 1 (hablamos de una probabilidad). Para el caso en el que esto suceda,
debemos de poner 1 como el valor de p ajustado.
En realidad, la forma exacta de calcular la p ajustada por el procedimiento de Bonferroni es la
siguiente:
p ajustada =1 – (1– p original) *n
Siendo n el número de posibles comparaciones.

Existen otras muchas formas de penalizar la p, siendo unos métodos más conservadores que
otros en función del número de comparaciones, homogeneidad de varianzas o desigualdad en
los tamaños de los grupos. Actualmente existe mucha controversia sobre su uso y no hay un
acuerdo universal sobre cuál es el que debe emplearse en cada momento, e incluso de si se
debe o no realizar el ajuste del valor de p original. Tanto los procedimientos de Bonferroni como
el de Scheffé, suelen ser bastante conservadores y se utilizan cuando no son muchas las
comparaciones a realizar y, además, los grupos son homogéneos en varianzas. En el caso de
que las varianzas no sean homogéneas, se puede utilizar el método de Tamhane. Otros
métodos menos conservadores son los de Tukey y Student-Newman-Keuls (S-N-K) para
varianzas homogéneas.
Una prueba muy conservadora nos evitará cometer un error tipo I, es decir, al penalizar la p nos
evitará equivocarnos al rechazar la hipótesis nula de igualdad de medias ya que estamos siendo
más exigentes, sin embargo, esto provoca un aumento del error tipo II. Es decir, diremos que
no hay diferencias entre las medias de los grupos cuando en realidad sí que las hay.
En nuestro ejemplo en el que comparamos el IMC entre los distintos grupos de gravedad de
EPOC, hemos realizado el ajuste de la p por el método de Bonferroni (Tabla III) adecuado para
varianzas iguales, ya que la prueba de homogeneidad de varianzas (prueba de Levene) no fue
significativa. Al tener cuatro grupos, tenemos 6 posibles comparaciones, siendo significativas
después de ajustar la p, las comparaciones entre las medias de los grupos Moderado con Grave
y Moderado con Muy grave.
Tabla I: Comparaciones de medias entre los 4 grupos con la corrección de Bonferroni.
De donde:
La diferencia
de medias
es
significativa
al nivel 0,05.
EEDM: Error
estándar de la diferencia de medias. IC: intervalo de confianza.
ANALISIS DE LA VARIANZA DE UN FACTOR
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e
independientes. En ocasiones necesitamos contrastar la igualdad de medias de un número
mayor de poblaciones para detectar posibles diferencias significativas entre ellas en cuanto a
una variable o característica:
𝐻0 = 𝜇𝑖 = ⋯ = 𝜇𝐼
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
Alguna distinta, siendo I el número de poblaciones. Surge así el análisis de la varianza.
El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer la
variabilidad de un experimento en componentes independientes que puedan asignarse a
causas distintas. El problema general que vamos a estudiar es el siguiente: disponemos de “n”
elementos que se diferencian en un factor: por ejemplo, alumnos de distintas clases (factor
clase), coches de distintas marcas (factor marca), componentes producidos por distintas
máquinas (factor máquina), etc. En cada elemento observamos una característica continua (X)
que varía aleatoriamente de un individuo a otro: notas de Estadística de los alumnos, consumo
de gasolina, tiempo de vida de los componentes, etc. A esta característica se le llama variable
respuesta. Nuestro objetivo será conocer si existe o no relación entre la variable respuesta y el
factor: ¿habrá diferencias en las notas de los distintos grupos de Estadística?, ¿tendrán coches
similares de distintas marcas el mismo consumo de gasolina?, ¿tendrán los componentes
fabricados por las distintas máquinas la misma duración?
Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso
en un problema del análisis de la varianza. Supongamos que se desea comprobar si la duración
de piezas fabricadas por un grupo de I máquinas es la misma, es decir, la duración no depende
de la máquina. Supongamos además que la duración de las piezas producidas por una misma
máquina varía debido a muchos factores no controlables como por ejemplo la pureza de la
materia prima, desajustes aleatorios de la máquina, la habilidad del operario, etc. Es decir, la
duración de las piezas producidas por cada máquina será una variable aleatoria. Denotamos
por Xij la duración de la pieza j producida por la máquina i. Si para cada máquina i medimos la
duración a una muestra de ni piezas, tendremos un total de:
𝐼

𝑛 = ∑ 𝑛𝑖
𝑖=1

Cantidad de observaciones
Para el Modelo:
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma:
𝑦𝑖𝑗 = 𝜇𝑖 + 𝜇𝑖𝑗 , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir
que la duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente
alrededor de un valor desconocido µi que caracteriza a la máquina i (duración media de sus
piezas) y que las diferencias entre los valores observados para esta máquina, y ij, y su media,
µi, son el resultado de múltiples factores que no controlamos y que influyen en la variable
respuesta, en este caso en la duración. Las englobamos en un término uij llamado error
experimental o perturbación, 𝜇𝑖𝑗 = 𝜇𝑖 + 𝑦𝑖𝑗
Hipótesis del modelo:

En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza es
la misma en todos los grupos y los grupos son independientes.
El paso siguiente sería estimar los parámetros del modelo.
Estimación de los parámetros del modelo:
Los parámetros a estimar son: µi, i = 1, ..., I, y σ2. Utilizamos para ello el método de máxima
verosimilitud, y resultan:
𝑛𝑖
∑𝑗=1 𝑛𝑖𝑗
𝜇̂𝑖 = 𝑦̅𝑖 = ; 𝑖 = 1; … ; 𝐼
𝑛𝑖
𝑛 2
∑𝐼𝑖=1 ∑𝑗=1
𝑖
𝑛𝑖 (𝑦𝑖𝑗 − 𝑦̅)
𝑖
̂2 =
𝜎
𝑛
Los residuos del modelo son:
𝜇̂
𝑖𝑗 = 𝑦𝑖𝑗 − 𝑦
̅𝑖 = 𝑒𝑖𝑗
y se utilizan sobre todo a la hora de comprobar si se verifican o no las hipótesis del modelo. Si
no se verifican, este modelo no sería el adecuado.

Contraste de igualdad de medias


Hemos visto que los yij → N (µi, σ2) y son independientes. Por lo tanto, los grupos (máquinas)
sólo difieren en las medias, la varianza es la misma en todos. Esto significa que contrastar si
los grupos son estadísticamente iguales equivale a contrastar si sus medias lo son:
𝐻0 = 𝜇𝑖 = ⋯ = 𝜇𝐼
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
Descomposición de la Variabilidad
Según se comentó al principio, el análisis de la varianza es un procedimiento para descomponer
la variabilidad total presente en un experimento en componentes independientes que puedan
asignarse a causas distintas. Concretamente, según el modelo se llega a que la variabilidad
total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos más
la variabilidad existente entre los grupos.
𝑦𝑖𝑗 − 𝑦̅.. = (𝑦̅𝑖. − 𝑦̅.. ) + (𝑦𝑖𝑗 − 𝑦̅𝑖. )

∑ ∑(𝑦𝑖𝑗 − 𝑦̅.. )2 = ∑ 𝑛𝑖 (𝑦̅𝑖. − 𝑦̅.. )2 (𝑦̅𝑖. − 𝑦̅.. ) + ∑ ∑ 𝑒𝑖𝑗 2


𝑖 𝑗 𝑖 𝑖 𝑗

𝑉𝑇 = 𝑉𝐸 + 𝑉𝑁𝐸
Donde: VT=variabilidad total, VE=: Variabilidad explicada por el modelo; variabilidad entre
grupos y VNE=Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los
grupos.
La medida 𝑅 2 =
𝑉𝐸
indica la
𝑉𝑇

variabilidad que
explica el
modelo de
entre toda la presente en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0
indicaría que el modelo no es válido.

Tabla Anova. Contraste de la F


El contraste básico del análisis de la varianza utiliza la descomposición de la variabilidad
𝑉𝑇 = 𝑉𝐸 + 𝑉𝑁𝐸
Siendo 𝑦̅𝑖. y σ2 ni respectivamente la media y varianza de los datos de la muestra del grupo i ,

y 𝑦𝑖.. y
̅̅̅ 𝜎𝑛2 la
media y varianza
del total de las

observaciones.
La media total puede calcularse de la siguiente forma:
∑𝐼𝑖=1 𝑛𝑖 𝑦̅𝑖. 2
𝑦𝑖.. =
̅̅̅
𝑛
Contraste de la F:
𝐻0 = 𝜇𝑖 = ⋯ = 𝜇𝐼
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
El estadístico de contraste (bajo 𝐻0 ) es:
2
𝑆̂𝑒
𝐹= 2 → 𝐹𝐼−1,𝑛−1
𝑆̂𝑅
Rechazamos 𝐻0 cuando 𝐹 > 𝐹1−𝛼,𝐼−1,𝑛−1 . En tal caso, podremos decir que no se han detectado
diferencias significativas entre los grupos en cuanto a la variable respuesta, para un nivel de
significación del αx100 %.
Si rechazamos en el contraste anterior 𝐻0 estamos diciendo que no todas las medias de los
diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las
medias sí coincidan (ver ejemplo 1).

El Contraste de Kruskal-Wallis (ver ejemplo 2)


El contraste de Kruskall-Wallis es la alternativa no paramétrica del método ANOVA, es decir,
sirve para contrastar la hipótesis de que k muestras cuantitativas han sido obtenidas de la
misma población. La única exigencia versa sobre la aleatoriedad en la extracción de las
muestras, no haciendo referencia a ninguna de las otras condiciones adicionales de
homocedasticidad y normalidad necesaria para la aplicación del test paramétrico ANOVA.
De este modo, este contraste es el que debemos aplicar necesariamente cuando no se cumple
algunas de las condiciones que se necesitan para aplicar dicho método.
Al igual que las demás técnicas no paramétricas, esta se apoya en el uso de los rangos
asignados a las observaciones.
Para la exposición de este contraste, supongamos que tenemos k muestras representadas en
una tabla como sigue:

El número total de elementos en todas las muestras es:


𝑁 = 𝑛1 + 𝑛2 + ⋯ + 𝑛𝑘
La hipótesis a contrastar es:
𝐻0 : las k muestras provienen de la misma población.
𝐻1 : alguna proviene de una población con mediana diferente a las demás.
El modo de realizar el contraste es el siguiente:
Se ordenan las observaciones de menor a mayor, asignando a cada una de ellas su
rango (1 para la menor, 2 para la siguiente, ... ,N para la mayor).
Para cada una de las muestras, se calcula Ri, i=1, …,k, como la suma de los rangos
de las observaciones que les corresponden. Si 𝐻0 es falsa, cabe esperar que esas
cantidades sean muy diferentes.
12 𝑅𝑖2
Se calcula el estadístico: 𝐻 = ∑𝑘𝑖=1 − 3(𝑁 + 1)
𝑁(𝑁+1) 𝑛𝑖

La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente:


Si el número de muestras es k=3 y el número de observaciones en cada una de ellas no
pasa de 5 se rechaza 𝐻0 si el valor de H supera el valor teórico que encontramos en la
tabla de Kruskall-Wallis
2
En cualquier otro caso, se compara el valor de H con el de la tabla de la 𝑋𝑘−1 con k-1
grados de libertad. Se rechaza 𝐻0 si el valor del estadístico supera el valor teórico
2
𝑋𝑘−1,1−𝛼

EJEMPLOS
Ejemplo 1:
Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad de una
válvula electrónica que tienen tres tipos diferentes de recubrimiento para los tubos de rayos
catódicos utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se
obtienen los siguientes datos:

Contrastar con un nivel de significación


del 5 % si el tipo de recubrimiento tiene algún efecto sobre la conductividad.
Se supone que las muestras proceden de poblaciones normales e independientes con la misma
varianza.

Solución:
Queremos comprobar si la conductividad media de la válvula será la misma con los tres tipos
de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto sobre la
conductividad.
Planteamos el contraste:
𝐻0 = 𝜇1 = 𝜇2 = 𝜇3
𝐻𝑎 = ∃𝑖, 𝑗/𝜇𝐼 ≠ 𝜇
y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir
en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras:

La media y varianza totales resultan:


𝑦̅.. = 140,583 y 𝜎𝑛2 = 58.576
Calculamos ahora las variabilidades explicada, no explicada y total.

𝑉𝑁𝐸 = ∑ 𝑛𝑖 𝜎𝑛2 = 4(11.5 + 331.188 + 7.25) = 207.752


𝑖

𝑉𝑇 = 𝑛𝜎𝑛2 = 12(58.576) = 702.912


𝑉𝐸 = 𝑉𝑇 − 𝑉𝑁𝐸 = 495.160
Las varianzas explicada y no explicada son entonces:
2 𝑉𝐸 495.160
𝑆̂𝑒 = = = 247.58
𝐼−1 2
2 𝑉𝑁𝐸 207.752
𝑆̂𝑅 = = = 23.084
𝑛−1 2
Y el estadístico resulta:
2
𝑆̂𝑒 247.58
𝐹= 2 = = 10.725
𝑆̂𝑅 23.084

Ahora concluimos: como F = 10,725 es mayor que F 0,95,2,9 = 4,26, rechazamos H0. Existen por
tanto diferencias significativas entre los tres tipos de recubrimiento, es decir, el tipo de
recubrimiento influye en la conductividad de la válvula.
Ejemplo 2:
Se ha realizado un estudio para averiguar si las mujeres de diferentes subgrupos profesionales
dan diferentes niveles de importancia a las marcas cuando compran bebidas refrescantes.
Solución:
Se pidió a muestras aleatorias independientes de 101 empleadas de oficina, 112 administrativas
y 96 profesionales que valoraran en una escala de 1 a 7 la importancia que daban a la marca
cuando compraban bebidas refrescantes. El valor del estadístico de Kruskal-Wallis de este
estudio era 25,22. Contraste la hipótesis nula de que las medias poblacionales de las
valoraciones de los tres subgrupos son iguales.
El estadístico del contraste calculado es:
W = 25.22
Dado que hay K = 3 grupos, tenemos para un contraste al 0,5 por ciento
2 2
𝑋𝑘−1,𝛼 = 𝑋2,0.005 = 10.60
Por 10 tanto, la hipótesis nula de que las medias poblacionales de las valoraciones de los tres
subgrupos son iguales se rechaza claramente con los datos de esta muestra, incluso at nivel
de significación del 0,5 por ciento. Tenemos pruebas contundentes de que las mujeres de
diferentes subgrupos profesionales dan diferentes niveles de importancia a las marcas.

ANÁLISIS DE LA VARIANZA MULTIFACTORIAL

Tratamos de explicar el comportamiento de una variable aleatoria


(Variable respuesta) debido a la influencia de varios factores
(Variables explicativas)

Definición de la variable a explicar

Definición de los distintos factores que pueden influir en la respuesta y, en cada


uno de ellos, sus distintos niveles o grupos.

Estudiaremos tres casos:

1. Dos factores (diseño por bloques)


2. Dos factores con interacción
3. Tres factores (Cuadrados latinos)
Análisis de la varianza con dos factores Diseño por bloques

Modelo:

Yij =  + i+ j + Ui =1, 2,…, Ij = 1,2,...,J

Yij representa la respuesta de la variable en el i-ésimo nivel del factor 1 ()y en el j-ésimo nivel
del factor 2 ().

ij = E(Yij ) =  + i + j es el valor medio de Yij

i representa el efecto que sobre la media global  tiene del nivel i del factor1

j representa el efecto que sobre la media global  tiene del nivel j del factor 2

U es la variación aleatoria de las Yij (igual para todas ellas)

Supondremos que U sigue una distribución N(0,) lo que implica que Yij sigue una
distribución N(ij ,)

MUESTRA ALEATORIA (UNA OBSERVACION POR CASILLA)


EJEMPLO

Se desea estudiar la eficiencia (en cuanto a menor emisión de CO2) de 5 máquinas desaladoras. Se piensa
que la cantidad de sal en el agua puede influir en dicha eficiencia.
Factor 1: distintas máquinas (I=5) Factor 2: nivel de sal (J=3)

ANÁLISIS ESTADÍSTICO:

Estimación de los parámetros desconocidos


Parámetros desconocidos del modelo (I + J):
ESTIMACIONES DE LOS PARÁMETROS:

ANÁLISIS ESTADÍSTICO: ANOVA

Se cumple que: SCE) + SCE) + SCR = SCT

SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 1)

SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 2)

SCR Suma de cuadrados residual (variabilidad no debida a los factores)

SCT Suma de cuadrados total (variabilidad total de todos los datos)


ANÁLISIS ESTADÍSTICO: ANOVA
(CONTRASTES DEL EFECTO DE CADA FACTOR)

TABLA
USANDO LOS DATOS ANTERIORES

En cuanto a las emisiones de CO2 las 5 máquinas no son iguales (p-valor 0.0026) y también
influye la cantidad de sal (p-valor 0.0001).
¿Y si no hubiéramos tenido en cuenta el factor “cantidad de sal”?
ANÁLISIS POSTERIORES AL RECHAZO DE H0

H0 : No hay diferencia entre los niveles i, j del factor 1 Con nivel de significación
rechazamos H0 si el cero no está en el siguiente intervalo de confianza:

H0 : No hay diferencia entre los niveles i, j del factor 2 Con nivel de significación
rechazamos H0 si el cero no está en el siguiente intervalo de confianza:

COMPARACIONES MÚLTIPLES: PRUEBAS POST HOC: TEST DE BONFERRONI

Al igual que en el análisis de la varianza con un factor podemos hacer pruebas simultáneas
entre todas las posibles parejas de niveles en cada factor. Por ejemplo utilizando el Test de
Bonferroni.
En el ejemplo:
ANÁLISIS DE LA VARIANZA CON DOS FACTORES
Modelo:

Yij =  + i + j + ()ij + U i =1, 2,…,I j = 1,2,...,J

Yij representa la respuesta de la variable en el i-ésimo nivel del factor 1 ()y en el j-ésimo
nivel del factor 2 ().

ij = E(Yij ) =  + i + j + ()ij es el valor medio de Yij

i representa el efecto que sobre la media global tiene del nivel i del factor1

j representa el efecto que sobre la media global  tiene del nivel j del factor 2

()ij representa el efecto de la interacción entre el nivel i del factor 1 y el nivel j del factor
2
U es la variación aleatoria de las Yij (igual para todas ellas)
Supondremos que U sigue una distribución N(0, ) lo que implica que Yij sigue una
distribución N(ij ,)

MUESTRA ALEATORIA (N OBSERVACIONES EN LA CASILLAI,J)


IJ

NOTA:
En un diseño equilibrado todas las casillas tendrán el mismo número de datos (K)
nij = K para todo i,j

Ejemplo Eysenck (1974)


En un estudio sobre memoria verbal se seleccionaron al azar 50 personas mayores y 50
jóvenes (factor 1: edad). Dentro de cada uno de estos grupos se asignaron, al azar, 10
personas a 5 distintos grupos a los que se les presentó una misma lista de 27 palabras. A
cada uno de los 5 grupos se les dieron las siguientes instrucciones (factor 2: método)

Grupo 1 (contar): se les pidió que contasen el nº de letras de cada palabra Grupo 2
(rimar): se les pidió que rimasen cada palabra con otra
Grupo 3 (adjetivar): se les pidió que a cada palabra le asignasen un adjetivo Grupo
4 (imaginar): se les pidió que a cada palabra le asignasen una imagen Grupo 5
(recordar): se les pidió que memorizasen las palabras.
A los 4 primeros grupos no se les dijo que deberían recordar las palabras. Finalmente,
tras revisar la lista 3 veces, se recogió el nº de palabras recordadas por cada grupo
ANÁLISIS ESTADÍSTICO:
Estimación de los parámetros desconocidos Parámetros desconocidos del modelo (IJ + 1)

ESTIMACIONES DE LOS PARAMETROS


ANÁLISIS ESTADÍSTICO: ANOVA

Se cumple que: SCE() + SCE() + SCE() + SCR = SCT

SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 1)

SCE() Suma de cuadrados explicada (variabilidad debida a que hay distintos niveles del
factor 2)

SCE () Suma de cuadrados explicada (variabilidad debida a las interacciones)

SCR Suma de cuadrados residual (variabilidad no debida a los factores)

SCT Suma de cuadrados total (variabilidad total de todos los datos)

CONTRASTES DEL EFECTO DE CADA FACTOR


TABLA

NOTA:
Recordemos que siempre deben cumplirse los siguientes requisitos previos

Normalidad: los datos obtenidos en cada nivel de los factores se ajustan


razonablemente a una distribución Normal (gráficos y contrastes)

Yij sigue una distribución N(ij ,) para cada i,j

Homocedasticidad: la variabilidad de los datos en cada nivel de los factores es


similar (contraste de igualdad de varianzas)
2 = Var (Yij) igual para todo i,j

Linealidad: los residuos (diferencia de los datos a su media, en cada nivel de los
factores) se distribuyen alrededor del cero
E(U) = 0

Independencia: las observaciones se realizan de forma independiente unas de


otras (diseño de la obtención de datos)
RECORDAR:
Si hay desviaciones significativas sobre estos requisitos los resultados posteriores
pueden ser incorrectos
ANÁLISIS DE LA VARIANZA CON TRES FACTORES CUADRADOS LATINOS

Cada nivel de un factor se cruza solo una vez con cada uno de los niveles de los otros
factores
 Se puede aplicar el diseño cuando:
 Existen 3 factores
 El número de niveles (I) es el mismo en cada factor
 No hay interacción entre los factores:
 En primer lugar, se elige un cuadrado con I filas, I columnas e I letras de forma que no
haya letras repetidas en ninguna fila ni en ninguna columna
ANALISIS DE VARIANZA CON TRES FACTORES CUADRADOS LATINOS:DISEÑO

cuadrado latino con i=3 (12 diseños posibles)


tres factores(filas, columnas, letra)
se rellena con n=9 datos

ANÁLISIS DE LA VARIANZA CON TRES FACTORES

Cuadrados latinos: estimación de los parámetros Parámetros desconocidos del


modelo (3I - 1) :

 , 1 , ... , I , 1 ,..., I ,  ,..., I ,



TABLA ANOVA
EJERCICIOS DE ANALISIS DE VARIANZA
1.- Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con
métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo
grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas
y se ejercita en el pedaleo de alta frecuencia. Después de un mes de entrenamiento se
realiza un test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los
tiempos empleados fueron los siguientes:
Método Método Método
I II III
15 14 13
16 13 12
14 15 11
16 16 14
17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados
equivalentes? O por el contrario ¿Hay algún método superior a los demás? Solución:
Comenzamos calculando los totales y los cuadrados de los totales divididos por el número de
observaciones:
Met Met Me Tota Total
d. I d. II td. III l ²/n
Su 77 72 61 210 2940
ma
Su 118 103 74 296
m² /n 5.8 6.8 4.2 6.8

A continuación, calculamos los cuadrados de las observaciones y su total:


Método Método Método
I II III
225 196 169
256 169 144
196 225 121
256 256 196
289 196 121
Total 1191 1042 751 2984

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:


SC(total) = 2984 - 2940 = 44
SC(intra) = 2984 – 2966,8 = 17,2
SC(entre) = 2966,8 – 2940 = 26,8
Los cuadrados medios serán:
CM(entre) = 26,8/2 = 13,4
CM(intra) = 17,2/12 = 1,43
Por consiguiente, el estadístico de contraste vale:
F = 13,4/ 1,43 = 9,37
El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es 3,89.
Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de
entrenamiento producen diferencias significativas.
2.- Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro
procedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente se les
realiza una prueba de recuerdo de dichas palabras, obteniéndose los siguientes
resultados:
Método Método Método Método
I II III IV
5 9 8 1
7 11 6 3
6 8 9 4
3 8 5 5
9 7 7 1
7 4 4
4 4
2

¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con un nivel
de significación del 5%? Solución: Comenzamos calculando los totales y los cuadrados de los
totales divididos por el número de observaciones:
M M M M T Tot
etd. I etd. II etd. III etd. IV otal al²/n
S 4 4 4 1 1 81
uma 3 2 3 8 46 9.8
S 2 3 2 5 9
um² /n 31.1 52.8 64.1 4 02

A continuación, calculamos los cuadrados de las observaciones y su total:


M M M M
étodo étodo étodo étodo
I II III IV
2 8 6 1
5 1 4
4 1 3 9
9 21 6
3 6 8 1
6 4 1 6
9 6 2 2
4 5 5
8 4 4 1
1 9 9
4 1 1
9 6 6
1 1
6 6
4
T 2 3 2 6 9
ot 96 64 87 1 8
al 8

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:


SC(total) = 988 – 819,8 = 168,2
SC(intra) = 988 – 902 = 86
SC(entre) = 902 – 819,8 = 82,2
Los cuadrados medios serán:
CM(entre) = 82,2/3 = 27,4
CM(intra) = 86/22 = 3,9
Por consiguiente, el estadístico de contraste vale:
F = 27,4/ 3,9 = 7,03
El valor de la F teórica con 3 y 22 grados de libertad, a un nivel de confianza del 95% es 3,05.
Por consiguiente, se rechaza la hipótesis nula y se concluye que los cuatro procedimientos de
presentación producen diferencias significativas.
3. Existe un estudio en el que se comparan los niveles de satisfacción de los trabajadores
introvertidos y extrovertidos que realizan tareas estimulantes y no estimulantes. Para
realizar este estudio, se utilizaron dos tipos de trabajadores y dos tipos de tareas, 10 que
nos da cuatro combinaciones. Las medias muéstrales de los niveles de satisfacción
declarados por los trabajadores de estas cuatro combinaciones fueron:
Trabajador introvertido, tarea no estimulante (16 observaciones): 2,78
Trabajador extrovertido, tarea no estimulante (15 observaciones): 1,85
Trabajador introvertido, tarea estimulante (17 observaciones): 3,87
Trabajador extrovertido, tarea estimulante (19 observaciones): 4,12
La tabla siguiente muestra las sumas de los cuadrados calculadas y los grados de Libertad
correspondientes. Complete la tabla del análisis de la varianza y analice los resultados de este
experimento.
Fuente de Suma Grados
variación de cuadrados Libertad
Tarea 62.04 1
Trabajador 0.06 1
Interacción| 1.85 1
Error 23.31 63
Total 87.26 66

Solución:
Una vez más, las medias de los cuadrados se obtienen dividiendo las sumas de los cuadrados
por sus grados de libertad correspondientes. Los cocientes F se deducen de la división de las
medias de los cuadrados de las tareas, de los tipos de trabajadores y de las interacciones por la
media de los cuadrados de los errores. Ahora podemos completar la tabla del análisis de la
varianza.
Fuente de Sum Grado Medi
Coeficient
variación a de s Libertad a de los
eF
cuadrados Cuadrados
Tarea 62.0 1 62.0 167.68
4 4
Trabajado 0.06 1 0.06 0.16
r
Interacció 1.85 1 1.85 5.00
n|
Error 23.3 63 0.37
1

Total 87.2 66
6

La tabla del análisis de la varianza puede utilizarse para contrastar tres hip6tesis nulas. En el
caso de la hip6tesis nula de la igualdad de las medias poblacionales de los niveles de satisfacci6n
con los dos tipos de tarea, el cociente F calculado es 167,68. Tenemos 1 grado de libertad en el
numerador y 63 en el denominador, por 10 que vemos en el apéndice que en un contraste al 1
por ciento

Por lo tanto, se rechaza claramente la hipótesis nula de la igualdad de las medias poblacionales
de los niveles de satisfacci6n con las tareas estimulantes y no estimulantes. Este resultado no
es sorprendente. Seria 16gico esperar que los trabajadores estuvieran más satisfechos
realizando tareas estimulantes que realizando tareas no estimulantes.
A continuación, contrastamos la hipótesis nula de que las medias poblacionales de los niveles
de satisfacci6n de los trabajadores introvertidos y extrovertidos son iguales. En este caso, el
cociente F calculado es 0,16. Una vez más, los grados de libertad son 1 y 63, por 10 que en el
caso de un contraste al 5 pOl' ciento1,63, O,05 = 4,00 La hip6tesis nula de la igualdad de los
niveles medios de satisfacci6n de los trabajadores introvertidos y extrovertidos no puede
rechazarse al nivel de significaci6n del 5 por ciento.

La hipótesis nula de la igualdad de los niveles medios de satisfacci6n de los trabajadores


introvertidos y extrovertidos no puede rechazarse al nivel de significaci6n del 5 por ciento.
4. Se ha recogido la valoración de un líder político en dos ciudades distintas A y B, dividida
cada una en tres barrios según su nivel adquisitivo (Alto, Medio y Bajo), obteniéndose los
siguientes resultados:
Nivel Nivel Nivel
Alto Medio Bajo
6, 5, 6, 7, 3, 2,
Ciudad 6, 7, 4, 8, 9 8, 5, 4, 5, 3, 3, 4, 5, 4,
A 4, 4, 6, 8 10, 6, 7,7, 4, 1, 0, 4, 6, 2,
8,8,3, 10 7, 6, 8 5, 4, 4
6, 6, 4, 4, 5 4,
Ciudad 5, 6, 4, 5, 2, 5, 1, 4, 3, 3, 6, 3, 2, 3, 2,
B 4, 2, 8, 6, 5, 3, 6, 4, 2, 2, 3, 1, 6 4, 2,
4, 4, 3 6, 3, 1 2, 3, 1

Suponiendo que se cumplen los supuestos del ANOVA para dos factores, ¿podemos afirmar si
la población presenta diferencias significativas en la apreciación del político según la ciudad o
según su nivel adquisitivo?
Solución:
Para resolver la cuestión planteada deberemos escribir los datos en la hoja, en su segunda hoja,
correspondiente a dos factores. El esto lo hará la hoja de cálculo y te presentará estos resultados:

Fuente de SL GL CM F
Variación
Factor A 83.83 2 41.92 14.55
Factor B 59.13 1 59.13 20.53
Interacción 30.12 2 15.06 5.23
AB
Error 239.03 83 2.88
Total 412.11 88

P-valor de FA 0,182
P-valor de FB 0,045 Significativa al 5%
P-valor de FAB 0,007 Significativa al 5%
Observa que ahora se pueden considerar cinco sumas de cuadrados:

Representa la variabilidad propia del factor Nivel adquisitivo. Sus grados de libertad son 2, que
equivalen al número de niveles menos 1, y su cuadrado medio 41,92

Factor A: SCA=83,83.

Es la suma correspondiente al factor Ciudad. Como sólo hay dos ciudades, sus grados de libertad
equivalen a 1, y su cuadrado medio 59,13, muy alto respecto al estimador 2,88.

Factor B: SCB=59,13.

Este factor no se considera si existen motivos para creer que no existe influencia mutua entre el
factor Ciudad y el factor Nivel adquisitivo. Aquí lo consideraremos porque no tenemos suficiente
información. Sus grados de libertad son 2, producto de los G.L. anteriores.
Interacción: SCAB=30,12

Es la variabilidad de la encuesta si se prescinde de la influencia de los factores. Su cuadrado


medio es el mejor estimador de la varianza de la población: 2,88.

Error: SCE=239,03.

Nos sirve para ver si cuadran bien todos los cálculos de sumas de cuadrados y grados de libertad,
o para calcular SCE mediante la operación de restar.

Total: SCT=412,11.

Si dividimos cada cuadrado medio entre 2,88 obtenemos la F de cada factor, y aplicando el
contraste correspondiente obtenemos que son significativas al 5% tanto la influencia de la Ciudad
como de la Interacción, no siendo significativa la influencia del Nivel adquisitivo.

5. Averiguar si la variabilidad del salario por hora es la misma en dos sucursales, o si la


variabilidad de la sucursal 1 es mayor que la de la sucursal 2. La comparación de la
variabilidad de las dos sucursales constituye el primer paso en un estudio detallado sobre
ingresos.

Se toman muestras aleatorias de los salarios por hora en cada sucursal para determinar las
varianzas muéstrales y elegimos un nivel de significancia de 0,05. La hipótesis nula y alternativa
son:

 H0: S12 -S22 = 0


 H1: S12 - S22 > 0

Los resultados de la muestra son:

S1 = $3,79 S12 = 14,3641 n1 = 21 (Sucursal 1)


S2 = $2,48 S22 = 6,1504 n2 = 25 (Sucursal 2)

El estadístico F se calcula mediante la ecuación anteriormente explicada:

S12 14,3641
F = 2,34
S22 6,1504

El cociente F indica que la varianza muestral de la población 1 es 2,34 veces la varianza muestral
de la población 2. Sin embargo, dados los tamaños de las muestras ¿Es suficiente esta evidencia
para rechazar la hipótesis de que las poblaciones tiene la misma varianza? Se necesita el valor
crítico de F para contestar esta pregunta. Primero, se calculan los grados de libertad para el
numerador y el denominador:

Gl (numerador) = (n1 - 1) = (21 - 1) = 20


Gl (denominador) = (n2 - 1) = (25 - 1) = 24
Se usa la tabla F para encontrar el valor crítico. Hay dos valores de F en la tabla: uno para el
nivel de significancia de 0,05 y otro para el nivel de 0,01. Al ser ésta una prueba de una cola,
como sugiere la hipótesis alternativa, toda el área de 0,05 o de 0,01 estará en el extremo superior
de la curva.

Las columnas de la tabla F representan los grados de libertad del numerador, por lo que se
selecciona la columna 20. Las filas corresponden a los grados de libertad del denominador, así
que se elige la fila 24. El valor crítico de F a un nivel de significancia de 0,05 para 20 grados de
libertad en el numerador y 24 grados de libertad en el denominador es 2,02.

El cociente F calculado a partir de los datos de la muestra es 2,34. Según este valor de prueba,
la hipótesis nula se rechaza (2,34 > 2,02). Si acepta un riesgo del 5% de un error de tipo I, las
poblaciones no tienen la misma varianza.

6. ¿Son iguales las varianzas de dos poblaciones de edades de los artículos en inventario,
o la población 2 tiene una mayor varianza? Se toman muestras aleatorias de 53 artículos
de cada población de inventario y se calculan las varianzas muéstrales. La prueba ha de
llevarse a cabo con un nivel de significancia de 0,01. Las hipótesis nula y alternativa son:

 H0: S22 - S12 = 0


 H1: S22 - S12 > 0

Los grados de libertad del numerador y denominador son 52 (53-1). En la tabla F abreviada, la
fila 50 y la columna 50 se usan como aproximaciones de los grados de libertad. La regla de
decisión es: Si el cociente F calculado es mayor que 1,94, se rechaza la hipótesis nula (se
rechaza H0 si F > 1,94).

Los resultados de la muestra son:

S12 = 489 n1 = 53 (inventario 1)


S22 = 1,37 n2 = 53 (inventario 2)

El estadístico F se calcula mediante la ecuación anteriormente explicada:

S12 1,370
F = 2,8
S22 489

Una de las varianzas muéstrales es 2,8 veces más grande que la otra.

La hipótesis nula se rechaza ya que el estadístico de prueba (2,8) excede al valor crítico (1,94)
de la tabla F. Se puede concluir que el inventario 2 tiene más variabilidad en el tiempo que el
inventario 1.

7. Se obtienen muestras del peso del llenado de cuatro paquetes de espinacas congeladas,
a partir de tres contenedores. La pregunta es si los pesos promedio de los paquetes son
iguales o diferentes entre los tres contenedores. Seguidamente se ofrecen los pesos de la
muestra (en onzas), medias de grupos, media global y estimación de la varianza con el
método dentro usando la ecuación correspondiente.
Grupo Grupo Grupo
1 2 3
12.4 11.9 10.3
13.7 9.3 12.4
11.5 12.1 11.9
10.3 10.6 10.2
Media: 12.00 11.00 10.2

 Σ (xi - x1) ² = (12,4 - 12) ² + (13,7 - 12) ² + (11,5 - 12) ² + (10,3 - 12) ² = 6,19
 Σ (xi - x2) ² = (11,9 - 11) ² + (9,3 - 11) ² + (12,1 - 11) ² + (10,6 - 11) ² = 5,07
 Σ (xi - x3) ² = (10,3 - 11,2) ² + (12,4 - 11,2) ² + (11,9 - 11,2) ² + (10,2 - 11,2) ² = 3,74

Luego:

 Σ (xIJ - xJ) ² = 6,19 + 5,07 + 3,74 = 15


 SW2 =1,67
 c(n-1) = 3(4-1) = 9
8. Se pidió a cuatro personas que beben una marca determinada de café que registraran
el número de tazas consumidas por día. Lo mismo se hizo con bebedores de otras tres
marcas. Los resultados se muestran en la tabla. Estime la varianza poblacional común
mediante el método dentro.

Marc Marc Marc Marc


aA aB aC aD
3 5 2 3
2 1 10 6
5 4 5 4
6 6 7 5
Media 4 4 6 4.5
:

Media Global 4,625

 Σ (xi - x1) ² = (3 - 4) ² + (2 - 4) ²+ (5 - 4) ² + (6 - 4) ² = 10
 Σ (xi - x2) ² = (5 - 4) ² + (1 - 4) ² + (4 - 4) ² + (6 - 4) ² = 14
 Σ (xi - x3) ² = (2 - 6) ² + (10 - 6) ² + (5 - 6) ² + (7 - 6) ² = 34
 Σ (xi - x4) ² = (3 - 4,5) ² + (6 - 4,5) ² + (4 - 4,5) ² + (5 - 4,5) ²= 9,25
Luego

Σ (xIJ - xJ) ² 10 + 14 + 34 + 9,25 67,25

SW2 = 5,60416

c(n-1) = 4(4-1) = 12

9. Una analista de una cadena de supermercados, quiere saber si las tres tiendas tienen el
mismo promedio en dólares por compra. Se elige una muestra aleatoria de seis compras
en cada tienda. La tabla número 1 presenta los datos recolectados de esta muestra junto
con las medias maestrales para cada tienda y la media global de todos los datos. Hará una
prueba con un nivel de significancia de 0,01.

La hipótesis nula que se quiere probar es que todas las poblaciones de las que se obtuvieron los
datos maestrales tienen la misma media. La hipótesis alternativa es que las poblaciones no
tienen la misma media. Las primeras dos medias maestrales en la tabla número 1 sugieren que
la hipótesis nula es cierta, ya que son muy cercanas. La tercera media muestral, es
considerablemente más pequeña que las otras dos. Pero, ¿Se debe esta diferencia a la
aleatoriedad del muestreo o al hecho de que las poblaciones tienen medias distintas? Esta es la
pregunta que vamos a responder con el procedimiento de ANOVA.

Tabla número 1 Datos maestrales para ANOVA (en dólares) para el ejemplo

Tienda Tienda Tienda


1 2 3
12,05 15,17 9,48
23,94 18,52 6,92
14,63 19,57 10,47
25,78 21,40 7,63
17,52 13,59 11,90
18,45 20,57 5,92
Media: 18.73 20.57 5.92

Media global: x = 15,20, c=3, n=6

Se usan ambos métodos, dentro y entre, para estimar la varianza de las tres poblaciones.
Recuerde la suposición fundamental de ANOVA: todas las poblaciones tienen la misma varianza
sin importar si tienen la misma media. La tabla número 2 contiene los cálculos para el método
dentro, y la tabla número 3 da los cálculos para el método entre.

Tabla número 2 Cálculos del método dentro para el ejemplo.

 Tienda 1:
Σ (xi - x1) ² = (12,05 - 18,73) ² + (23,94 - 18,73) ² + (14,63 - 18,73) ² + (25,78 - 18,73) ²
+ (17,52 - 18,73) ² + (18,45 - 18,73) ² = 139,82
 Tienda 2
Σ (xi – x2) ² = (15,17 - 18,14) ²+ (18,52 - 18,14) ² + (19,57 - 18,14) ² + (21,40 - 18,14) ²
+ (13,59 - 18,14) ² + (20,57 - 18,14) ² = 48,25
 Tienda 3
Σ (xi – x3) ² = (9,48 - 8,72) ² + (6,92 - 8,72) ² + (10,47 - 8,72) ² + (7,63 - 8,72) ² + (11,90
- 8,72) ² + (5,92 - 8,72) ² = 26,02
Suma de cuadrados dentro (SCw) = 139,82 + 48,25 + 26,02 = 214,09
Tabla número 3 Cálculos del método entre para el ejemplo.

Luego: (18,73 - 15,20) ² + (18,14 - 15,20) ² + (8,72 - 15,20) ² = 63,09

Suma de los cuadrados entre (SCb) = 6(63,09) = 378,54

Los valores calculados en las tablas 2 y 3 se usan para rellenar la tabla ANOVA. Como se tienen
tres poblaciones en la prueba,

c = 3. Se obtuvo una muestra de seis valores de cada población, así que n = 6.

La tabla número cuatro presenta la tabla ANOVA para este ejemplo.

Fuente de Variación SC gl Estimación de 2 Coeficiente F

 Grupos entre 378,54


 Grupos dentro 214,09

TOTAL 592,63 17

Los grados de libertad se calcularon como sigue:

 c- 1 = 3 - 1 = 2 (Grupos entre)
 c (n - 1) = 3 (6 - 1) = 15 (Grupos dentro)

10. Se pide a cuatro personas que beben una marca determinada de café que registren el
número de tazas que consumen durante un día. Se hace lo mismo con bebedores de otras
marcas. Los resultados se muestran a continuación. Construya la tabla ANOVA para
probar si existe alguna diferencia en el número promedio de tazas consumidas, para cada
marca.
Marca Marca Marca Marca
A B C D
3 5 2 3
2 1 10 6
5 4 5 4
6 6 7 3

Media global 4.25


n=4
c=4

METODO DENTRO

 Marca A: Σ (xi - x1) ² = (3 - 4) ² + (2 - 4) ² + (5 - 4) ² + (6 - 4) ² = 10


 Marca B: Σ (xi – x2) ² = (5 - 4) ² + (1 - 4) ² + (5 - 4) ² + (6 - 4) ² = 17
 Marca C: Σ (xi – x3) ² = (2 - 6) ²+ (10 - 6) ² + (5 - 6) ² + (7 - 6) ² = 34
 Marca D: Σ (xi – x4) ² = (3 - 3) ² + (6 - 3) ² + (4 - 3) ² + (5 - 3) ² = 14

METODO ENTRE

(4 - 4,25) ² + (4 - 4,25) ² + (6 - 4,25) ² + (3 - 4,25) ² = 6,75

TABLA ANOVA

Fuente de Variación SC GL Estimación Σ² Coeficiente F

 Método Entre: 6,75


 Método Dentro: 75

TOTAL 81,75
Bibliografía:
http://biblio3.url.edu.gt/Libros/2012/esta-AE/17.pdf
https://uam.es/departamentos/economicas/econapli/anova.pdf
http://biplot.usal.es/problemas/libro/7%20ANOVA.pdf
https://www.monografias.com/trabajos7/anva/anva.shtml
http://elestadistico.blogspot.com/2007/07/anlisis-de-la-varianza-anova.html
http://asesorias.cuautitlan2.unam.mx/Laboratoriovirtualdeestadistica/CARPETA%203%2
0INFERENCIA_ESTADISTICA/DOC_%20INFERENCIA/TEMA%204/11%20ANALISIS%
20DE%20VARIANZA.pdf
http://epidemiologiamolecular.com/prueba-anova-comparacion-medias-grupos/
http://www4.ujaen.es/~dmontoro/Metodos/Temas/Tema9.pdf
http://virtual.uptc.edu.co/ova/estadistica/docs/libros/ftp.bioestadistica.uma.es/libro/node1
56.htm

También podría gustarte