Capitulo 3
Capitulo 3
Capitulo 3
CONTENIDO
Pág.
3.0 Inferencia estadística 3-2
3.1 División del estudio de la inferencia estadística 3-4
3.2 Estimación 3-5
3.3 Pruebas o contrastes de hipótesis 3-16
3.4 Determinación de datos anómalos 3-41
3.5 Problemas de Inferencia estadística 3-46
REFERENCIAS BIBLIOGRAFICAS 3-68
ANEXO A3. Curvas de potencia para contrastes de hipótesis 3-70
ANEXO B3. Valores críticos para la prueba Q 3-71
ANEXO C3. Valores críticos para la prueba t 3-72
ANEXO D3. Valores críticos para la prueba de Grubbs 3-73
3-2
En general, el propósito de la gran parte de estudios analíticos va más allá de describir las
distribuciones de las variables; y se pretende generalizar los resultados obtenidos en la
muestra a la población.
Las herramientas estadísticas que se describieron en el capitulo 1, tales como tablas de
distribución de frecuencia, gráficos y calculo de medidas descriptivas, se podrían englobar
en el término estadística descriptiva, puesto que ellas esencialmente permiten describir,
presentar y resumir información que ha sido recolectada de alguna forma. Sin embargo,
las técnicas de estadística descriptiva no permiten responder interrogantes que pueden
surgir cuando no se dispone de la información sobre todos los elementos de la población
de interés sino sólo de una parte de ella, es decir, que los datos provienen de una muestra
de elementos de la población bajo estudio. Por ejemplo, si se conoce que la media o el
promedio de 15 mediciones de concentración de ión nitrato, en una muestra concreta de
agua, es de 0.5 µg/ml, ¿qué se puede decir sobre el verdadero valor de la media de todas
las posibles mediciones de la concentración de nitrato en el río?
La estadística dispone de una gran cantidad de métodos que se engloban dentro de
la llamada estadística inferencial, los cuales se usan esencialmente para determinar
la probabilidad de que una conclusión sacada a partir de los datos de una muestra
sea admisible en la población muestreada.
El proceso conocido como inferencia estadística requiere consideraciones de cómo fue
seleccionada la muestra y de cuánto varían las observaciones de una muestra a otra. De
manera que los métodos de selección de los elementos que se usarán en las
investigaciones analíticas son de considerable importancia para la obtención de resultados
y conclusiones válidas (ver capítulo 2.0).
El requisito fundamental de una buena muestra es que sea representativa de la población
que se trata de describir. Sin embargo, aún cuando se esté seguro que la muestra se
obtiene de la apropiada población, otra fuente potencial de error en el muestreo, es el
procedimiento en la toma de las mediciones que puede llevar a resultados sesgados. El
grado de confianza que se puede asignar al valor experimental, método de medición o la
3-3
calibración del instrumental utilizado puede dar lugar a resultados que no reflejan la
realidad que se quiere analizar1 (Ver capítulo 6.0).
Por otra parte, en muchas ocasiones no es posible obtener la muestra a partir de todos los
elementos que definen la población objetivo, sino sólo a partir de una subpoblación que es
accesible al investigador analista en el momento de hacer la selección de los elementos de
la muestra y ella recibe el nombre de población muestreada.
Los métodos de la inferencia estadística permiten generalizar los resultados de la muestra
sólo a los elementos que componen la población muestreada y la generalización hacia la
población objetivo está fuera del alcance de la Estadística. Sin embargo, si es posible
suponer que la población muestreada es similar a la población objetivo no se cometería un
error grande en generalizar los resultados hacia la población objetivo (DAWSON et al.,
1994, cap. 5).
En la Figura 3.1, se presentan los alcances de las inferencias realizadas de una muestra.
Población objetivo
Población muestreada
1
Aún cuando se esté seguro de que la muestra se obtiene de la población apropiada, es igualmente importante que la muestra se saque de
una manera objetiva e insesgada. El problema que surge si el esquema de muestreo no es aleatorio y los datos luego, se analizan como si
provienen de una muestra aleatoria, es que se pierde la vital vinculación entre un esquema de muestreo aleatorio y el apropiado método de
inferencia estadística, el cual supone siempre que hubo una selección aleatoria de la muestra.
3-4
MUESTREO Y MUESTRAS
MUESTREO MEDICION
POBLACION MUESTRA DATOS
INFERENCIA
CALCULOS
ESTADISTICA
ESTADISTICA
La suposición o no de una
distribución de la población TABLA Z, t
permite clasificar al
estudio de la estadística en
estadística paramétrica y
no paramétrica
Existen dos formas generales de efectuar una inferencia acerca de la población que son:
De ahí que la inferencia estadística se divida en dos áreas básicas que son:
1. Problemas de estimación
2. Pruebas o contrastes de hipótesis
3-5
La diferencia principal entre ambas áreas radica en que en los problemas de estimación se
debe elegir un valor de una posible continuidad de alternativas, mientras que en las
pruebas de hipótesis se debe decidir si aceptar o rechazar un valor especificado o un
conjunto de valores especificados de un parámetro.
La inferencia estadística está basada en la teoría de la probabilidad, pero tiene un carácter
diferente. En inferencia estadística se consideraran fenómenos en los que se manifiesta
regularidad estadística y se construyen modelos probabilísticos para describirlos.
El problema que se presenta, a la vista de lo expuesto, consiste en determinar el valor de
ciertos parámetros poblacionales y/o determinar hipótesis respecto a dichos valores (por
ejemplo, la media y la varianza) a partir de la información muestral. Debe advertirse que
cuando se trate de poblaciones no caracterizadas por sus parámetros, poblaciones que se
denominan no paramétricas, los criterios esbozados en orden a la especificación de la
población permanecen válidos, aún cuando, en tal caso, los objetivos que satisface el
muestreo no sean lógicamente la estimación de parámetros, sino la verificación de otras
características poblacionales mediante la denominada estadística no paramétrica.
3.2 ESTIMACION
ξ= Θ
ˆ−Θ
ECM( Θ
ˆ ) = E((Θ
ˆ − Θ) 2 )
3-7
ECM ( Θ [
ˆ ) = σ 2 (Θ) + Θ − E ( Θ ]2
ˆ ) = σ 2 ( Θ) + ( sesgo) 2
[Θ − E(Θˆ )]2
=0
ˆ ) = 0, entonces E(Θ
Θ − E(Θ ˆ) = Θ
2. Eficiente: Significa que las estimaciones obtenidas para distintas muestras varían
poco entre ellas. De una manera más formal, el estimador más eficiente dentro de
3-8
1) El principio de momentos
2) Chi-cuadrado mínima
3) El método de los mínimos cuadrados
4) El principio de la máxima verosimilitud
2
No debe confundirse “desvío estándar” de la distribución de la población (variabilidad entre los elementos)
con “error estándar” del estimador que es el desvío estándar de la distribución muestral (variabilidad entre las
estimaciones de las muestras).
3-9
(a)
(b)
2) Determine:
3-10
n
L = log ∏ f(X i ; Θ)
i =1
Este paso no es esencial. Sin embargo, ya que las funciones de probabilidad son
productos y ya que las sumas son más fáciles de manejar que los productos, se
acostumbra aumentar al máximo el logaritmo de la probabilidad, más que la
probabilidad misma.
En el cuadro 3.1 se presentan los estimadores de máxima verosimilitud para los principales
parámetros de distintas distribuciones poblacionales.
Poisson n
λ (=µ
µ)
∑x i
λˆ = µ
ˆ=x= i =1
n
Normal n
µ
∑x i
µ
ˆ= x = i =1
n
n
σ σ̂ 2 = s 2 = ∑ (x i − x )2 n
i =1
Exponencial θ θˆ = 1 / µˆ = 1 / x = n n
∑x i
i =1
Dado que no puede esperarse que las estimaciones puntuales realmente coincidan con las
cantidades que intentan estimar y que estas no garantizan la precisión de dicha estimación
3-11
(pues aun el estimador insesgado más eficiente es improbable que estime con exactitud al
valor del parámetro poblacional) es preferible reemplazarlas con estimaciones por
intervalos. Esto es, con intervalos en los cuales se puede esperar con un grado razonable
de certeza que contengan al parámetro en cuestión.
Una estimación por intervalo de un parámetro Θ es un intervalo de la forma L1 ≤ Θ ≤ L2,
donde L1 y L2 dependen del valor puntual que tome el estimador Θ̂ en una muestra dada
[ ˆ − k 1 SE(Θ
IC (1−α )100% = Θ ˆ ), Θ
ˆ − k 2 SE(Θ
ˆ ]
En las tablas 3.2 a 3.4 se presentan los intervalos de confianza para la estimación de
diversos parámetros en poblaciones normales y no normales.
3-13
n < 30 µ S S
x ± t ( α / 2 ,n −1 ) x ± t ( α / 2 ,n −1)
distribuciones normales n n
x :promedio muestral x :promedio muestral
t(α/2, n-1 ):valor de la distribución t para el t(α/2, n-1 ):valor de la distribución t para el
nivel significación α. nivel significación α.
S: desviación típica de la muestra S: desviación típica de la muestra
n: tamaño de la muestra n: tamaño de la muestra
n-1: grados de libertad n-1: grados de libertad
σ2 (n − 1)S 2 (n − 1)S 2
2 ,
χα / 2 ,n − 1 χ12−α / 2 ,n −1
χα2 / 2 ,n−1 :valor de distribución chi-
cuadrado
σ (n − 1)S 2 (n − 1)S 2
,
χα2 / 2 ,n −1 χ12−α / 2 ,n−1
3-14
En general, las hipótesis pueden ser simples y compuestas. Una hipótesis es simple
si se especifica exactamente el valor del parámetro, ejemplos: µ = 10, σ2 = 4 ó ρ xy
= 1, etc. Una hipótesis es compuesta si contiene dos o más valores para el
parámetro, como por ejemplo: µ ≠ 10, σ2 > 4, etc.
La hipótesis nula, por ser más concreta, suele ser simple, y la alternativa
compuesta. No obstante, es frecuente plantearlas como complementarias. Suele
ser habitual hacer supuestos que dependen del tipo de contraste o prueba y que se
pueden resumir como:
lo que lleva consigo distintas zonas críticas (en ocasiones infinitas) de las que
habrá seleccionar la mejor. En la práctica, los niveles de significación más
frecuentemente empleados son de 0.05 y 0.01, que en algunos casos aparecen
como 5 por 100 y el 1 por 100.
En general, una prueba de hipótesis estadística no es otra cosa que un procedimiento para
tomar una decisión bajo incertidumbre, sobre la validez de la hipótesis nula. Usando la
evidencia de los datos de la muestra o de las muestras se llega a dos decisiones:
En general, se puede decir que un buen contraste o una buena regla de decisión tenderá a
minimizar los errores inherentes a toda decisión. Pero esto no es fácil, pues para una
muestra de tamaño n, al intentar disminuir uno de los errores aumenta el otro. El
investigador analista debe saber en cada caso qué error tiene mayor importancia, para
controlarlo y tratar de disminuirlo.
Se llama potencia de un contraste, a la probabilidad de rechazar la hipótesis nula cuando
es falsa (decisión correcta), su probabilidad es 1-β. Más estrictamente debería llamarse
potencia de una región crítica, y no es más que la probabilidad de que esta detecte una Ho
falsa, dado un valor para H1 (MONTGOMERY, 1991, cap.2). En resumen, las probabilidades
de importancia en los contrastes de hipótesis son (PEREZ, 1999, cap. 5):
3
Que pueden ser de tipo compuestas
3-21
Los intervalos de confianza tienen la ventaja frente a los contrastes de hipótesis de que
siempre dan una idea de la zona en que se va a encontrar el verdadero valor del
parámetro poblacional, mientras que en el caso de los contrastes de hipótesis, cuando se
rechaza una hipótesis nula, no se conoce el valor del parámetro de la población en
cuestión. Todo lo que se sabe es que es más verosímil que el valor del parámetro sea
mayor o menor que un valor concreto (PEREZ, 1999, cap. 5).
En algunas ocasiones, en lugar de llevar a cabo un procedimiento de contraste de
hipótesis sobre un parámetro, se puede construir un intervalo de confianza para el
parámetro y extraer conclusiones del mismo. Supóngase que se desea contrastar Ho: µ =
µo frente a H1: µ ≠ µo. Si el nivel de significación es α, se pueden utilizar los datos de la
muestra para construir un intervalo de confianza para µ al (1-α)100%. Si el valor de µo no
está incluido en el intervalo hay que rechazar Ho; pero si el valor de µo se encuentra en el
intervalo calculado, no hay evidencia para rechazar a Ho. Una ventaja de este
3-24
procedimiento es que se pueden contrastar muchas hipótesis nulas de una vez, ya que se
puede rechazar cualquier hipótesis nula de la forma Ho: µ = k para cualquier valor de k
que no pertenezca al intervalo (PEREZ, 1999, cap.5).
∆ µ − µo
d= =
σ σ
3-25
En la figura b, del anexo A3, se presenta la curva de potencia para una diferencia de
medias de dos poblaciones en la que la cantidad que se grafica es (MONTGOMERY, 1991,
cap.2):
∆ µ1 − µ2
d= =
2σ 2σ
En los apartados anteriores, se daba por supuesto que el tamaño muestral se fijaba por
razones estadísticas y que el error tipo I solo quedaba predefinido en la prueba. El
procedimiento ideal es definir los errores tipo I y II deseados y calcular el tamaño muestral
n requerido para cubrir ambos tipos de errores. El tamaño requerido dependerá de (JURAN
y GRYMA, 1993, cap. 23):
µ − µo 35 − 30
d= = = 0.5
σ 10
Localizando el punto correspondiente a d = 0.5 y β = 0.10 en el diagrama a del anexo A3,
se encuentra que la muestra n ha de ser igual a 30, aproximadamente.
En la práctica del análisis químico, es necesario el análisis de las curvas OC
correspondientes a muestras de varios tamaños para ayudar a adoptar una decisión acerca
del tamaño requerido de los riesgos I y II. En general, los valores de α y β deberán
3-26
poblacional de interés, por ejemplo, θ puede ser µ, (µ1- µ2), π ó (π 1-π 2), y el símbolo è̂
para denotar el estimador puntual insesgado correspondiente. Desde el punto de vista
práctico se puede tener interés en contrastar la hipótesis nula H0 : θ = θ0, contra la
alternativa de que el parámetro poblacional es mayor que θ0, o sea H1 : θ > θ0. En esta
mientras que si θ0 menor o igual que el extremo superior del intervalo de confianza, no
hay evidencia para rechazar Ho. Si se quiere contrastar Ho: θ = θ0 frente a H1: θ < θ0, a un
nivel de significación α se puede razonar de manera similar, si se construye un intervalo
de confianza para θ al 100(1-2α)%. Si el valor de θ0 es menor que el extremo inferior del
intervalo, hay que rechazar Ho; si θ0 es mayor o igual que el extremo inferior del intervalo,
no hay evidencia para rechazar Ho. Para el caso de contrastes bilaterales, se rechaza Ho si
θ0 cae fuera del intervalo creado del 100(1-α)% (JURAN y GRYMA, 1993, cap. 23).
A continuación se detallan algunas directrices para la realización de un ensayo unilateral o
bilateral basado en el análisis de las curvas características de operación (JURAN y GRYMA,
1993, cap. 23):
• Realícese un ensayo unilateral (una cola) con todo el riesgo a la derecha si: (1) se
sabe que (si θ0 no es verdadero) el parámetro real (o de comparación) es mayor
que θ0; (2) los valores del parámetro poblacional menores que θ0 (o el valor
especificado) son aceptables y solo se está interesado en detectar un parámetro
poblacional mayor que θ0.
• Realícese un ensayo bilateral (dos colas) si: (1) no hay un conocimiento previo
acerca de la posición del parámetro real o, (2) se está interesado en detectar un
parámetro poblacional real menor o mayor que el θ0 enunciado en la hipótesis
original.
Con los contrastes de hipótesis se pueden sacar conclusiones útiles. Cuando se rechaza
una hipótesis, la conclusión práctic a es “el valor del parámetro especificado en la hipótesis
es erróneo”. Se llega a esta conclusión con profunda convicción, sencillamente hablando,
con un nivel de confianza del 100(1-α)%. La pregunta clave es entonces: ¿Cuál es, pues,
una buena estimación del valor del parámetro correspondiente a la población? Se puede
ayudar a responder esta pregunta calculando los “límites de confianza” del parámetro
(JURAN y GRYMA, 1993, cap. 23).
3-28
En los contrastes de hipótesis es frecuente hacer supuestos que dependen del tipo de
contraste o prueba, como son las características acerca de los datos que se van a
manipular (independencia de las observaciones, nivel de medida utilizada, etc.) y los
supuestos de la distribución de partida (normal, binomial, etc.). Algunos de estos
supuestos podrían controlarse, otros serán de difícil verificación. La violación de dichos
supuestos podrá invalidar más o menos el modelo probabilístico y conducir a conclusiones
erróneas.
presentan tres casos particulares: (i) Comparación de dos promedios cuando las
3-30
desviaciones estándar de las dos poblaciones son conocidas (σ 1 y σ 2); (ii) comparación
de dos promedios cuando las desviaciones estándar de las dos poblaciones son
desconocidas y consideradas diferentes (σ 1 ≠ σ 2); y (iii) comparación de dos promedios
cuando las desviaciones estándar de las dos poblaciones son desconocidas y
consideradas iguales (σ 1 = σ 2).
El control de algunos supuestos a tomar en cuenta para llevar a cabo estos tipos de contrastes,
puede lograrse cuando los datos se recolectan de forma que el único factor que influya, sea
aquel cuyo efecto se quiere evaluar, así como también, mediante la aleatorización de la
recogida de datos (todo lo que se pueda) para protegerse de posibles sesgos introducidos por
factores no identificados.
En las tablas de la 3.5 a la 3.9 se describen los componentes principales de los contrastes de
hipótesis antes mencionados en sus distintos casos particulares.
x − µo
3. Estadístico de contraste: Z=
σ n
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
Z> Zα z > Zα/2
(o sea, Z < -Zα cuando la hipótesis
alternativa es H1: µ < µo)
Los valores de z, zα, y zα/2 se obtienen de las
tablas de la distribución N(0,1), como la que se
presenta en la tabla A2 del capítulo 1.
x − µo
3. Estadístico de contraste: t=
s n
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µ < µo)
Los valores de t, tα y tα/2 se basan en ( n-1)
grados de libertad. Estos valores están
tabulados en el anexo A del capítulo 2.
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
Z> Zα z > Zα/2
(o sea, Z < -Zα cuando la hipótesis
alternativa es H1: µ1 < µ2)
Los valores de z, zα, y zα/2 se obtienen de las
tablas de la distribución N(0,1), como la que se
presenta en la tabla A2 del capítulo 1.
s s
n + n
2 2
1
+ 2
n1 n 2 1 2
ν = −2
(s 2
1 / n1 ) 2
+
(s 2
2 / n2 ) 2
n1 + 1 n2 + 1
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µ1 < µ2)
Los valores de t, tα y tα/2 se basan en ν grados
de libertad. Estos valores están tabulados en el
anexo A del capítulo 2.
∑ (x i − x1 ) − ∑ (x i − x 2 ) 2
2
s 2p = i=1 i=1
ó
n1 + n 2 − 2
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µ1 < µ2)
Los valores de t, tα y tα/2 se basan en ν grados
de libertad. Estos valores están tabulados en el
anexo A del capítulo 2.
(n − 1)s 2
3. Estadístico de contraste: χ2 =
σo2
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
(o bien, χ2 < χ(21−α ) cuando la hipótesis Donde χα2 / 2 y χ(21−α / 2 ) son los valores de la cola superior
e inferior, respectivamente, de χ2 que ponen α/2 en las
alternativa es H1: σ2<σo2)
áreas de las colas.
χα2 y χ(21−α ) son los valores de la cola superior e inferior, Los valores críticos de χ2 se basan en (n-1) grados de
libertad. Estos valores tabulados se dan en el anexo B del
respectivamente de χ2 que ponen α en las áreas de las colas. capítulo 2.
2
1. Hipótesis nula: Ho: σ1 = σ2 2
2. Hipótesis alternativa
s 21
3. Estadístico de contraste: F=
s 22
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
Los valores críticos de Fα y Fα/2 se basan en (n1 - Los valores críticos de Fα/2 y F1-α/2 se basan en
1) grados de libertad en el numerador y (n2 -1) (n1 -1) grados de libertad en el numerador y (n2
grados de libertad en el denominador. Estos -1) grados de libertad en el denominador. Estos
valores se encuentran tabulados, para α= 0.05, valores se encuentran tabulados, para α= 0.05,
0.01, 0.025, 0.975, en el anexo C del capítulo 2. 0.01, 0.025, 0.975, en el anexo C del capítulo 2.
II. Factores identificados que pueden influir en la respuesta, pero que es posible
mantener constantes durante la extracción de las dos muestras.
III. Factores identificados que pueden influir en la respuesta y que resulta imposible
mantener constantes para los dos tratamientos. Esto hace necesario bloquear, es
3-37
decir analizar diferencias dentro de bloques homogéneos en los que los factores
afectan por igual.
IV. Otros factores no identificados, que también pueden influir en los resultados
obtenidos (respuesta). Lo anterior, implica la aleatorización.
Si se considera un único factor del tercer tipo que influye sobre la respuesta y del cual no
puede asegurarse que afecte exactamente igual a los dos tratamientos, es necesario
“bloquear” (crear bloques), es decir analizar las diferencias dentro de los bloques
homogéneos en que los factores afectan por igual. Por ejemplo, con frecuencia ocurre que
deben compararse dos métodos de análisis por medio del estudio de muestras que
contienen, de manera sustancial, diferentes cantidades de analito. El problema consiste en
estudiar la eficiencia de los métodos de análisis independientemente de las
concentraciones analito que pueden contener las muestras de diferente procedencia. En
general, la consigna en el diseño de la recolección de datos es bloquear lo que sea
necesario y aleatorizar el resto.
Lo anterior sugiere que los pares de datos se recolecten por bloque considerando que este
afecta por igual a los dos tratamientos. La idea básica es que las diferencias dentro de los
distintos bloques fluctúan menos que los valores individuales, ello va a hacer posible llevar
a cabo comparaciones mucho más precisas, y el análisis se hará sobre los valores de
dichas diferencias. Las diferencia entre los tratamientos para los distintos bloques se
definen como:
di = x i1 − xi 2
µ 1 - µ2 ) = µd
TABLA 3.12 PRUEBA DE HIPOTESIS PARA DATOS POR PARES (µ
3. Estadístico de contraste:
d −0 d
t = = n
2
sd n sd n
n
∑ di
di −
∑ 2 i=1
n
1 sd = i =1
d= ∑ di
n i=1
y n −1
n
∑ (d − d)
2
i
sd = i =1
n −1
4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µd < 0)
Los valores de t, tα y tα/2 se basan en ( n-1)
grados de libertad. Estos valores están
tabulados en el anexo A del capítulo 2.
Si se quiere evaluar las diferencias entre los parámetros de más de dos grupos, por
ejemplo la durabilidad de distintos tipos de cubiertas, no es correcto realizar tales
evaluaciones usando el contraste de diferencias de medias tomando los diferentes pares
de medias. Para solucionar este problema si las mediciones resultantes son continuas y se
cumplen las siguientes suposiciones: i) los datos son obtenidos de manera aleatoria e
independiente o que los individuos sean asignados a los grupos aleatoriamente, ii) los
valores de cada grupo están distribuidos normalmente, iii) la varianza dentro de cada
3-39
población debería ser igual para todas las poblaciones, existe una metodología conocida
como análisis de varianza (ANOVA) para comparar la medias de los grupos y cuya
hipótesis nula es H0 : µ1 = µ2 = …= µk . Por otra parte, si los supuestos ii) o iii) no se
cumplen existen metodologías que permiten todavía llevar cabo las comparaciones
deseadas (métodos no paramétricos).
Sea p = xi/n la proporción poblacional estimada del número de veces que aparece el
suceso de Bernoulli de entre n repeticiones de un experimento (x= nº de veces que
X + 1 / 2 − np
aparece el suceso). Si np(1-p) >9 el estadístico z = se aproxima a una
np (1 − p )
distribución Normal(0, 1), siendo X = nº de veces que aparece en la muestra el suceso
considerado.
HO: p = p o
HO: λ = λo
HO: p1 = p2
Los valores de p̂1 y p̂ 2 del cuadro anterior representan las proporciones de éxitos en dos
Frecuentemente en los resultados de una serie de mediciones se observa que una o más
de ellas parecen ser muy improbablemente grandes o pequeñas respecto de la mayoría de
mediciones de la muestra. Tal medición (o mediciones) recibe el nombre de valor inusitado
o anómalo o “outlier”. Es decir, los datos anómalos o outliers son las observaciones que
3-41
aparentan ser inconsistentes con el resto de los datos colectados. Un valor anómalo puede
ser consecuencia de:
b. Una medición que provenga de una muestra que realmente no forme parte de la
población muestreada (por ejemplo, debido a una contaminación).
En general, la elección de criterios para el rechazo de valores anómalos tiene sus peligros.
Si se establece un criterio poco riguroso que haga difícil eliminar un resultado dudoso, se
corre el riesgo de retener resultados falsos que pueden tener un efecto errático sobre las
estimaciones e inferencias que deban hacerse con dichos datos. Si por el contrario hay
mucha rigurosidad en el criterio elegido, posiblemente se descarten mediciones que son
correctas dentro del conjunto, lo que podría llevar a una tendencia en los datos. Por
desgracia, no hay una regla universal que resuelva el asunto del rechazo o retención de
resultados. Sin embargo, existen dos caminos para administrar la presencia de los datos
anómalos. En el laboratorio, es recomendable el mantenimiento de un buen registro de
cada experimento (aseguramiento de calidad), en donde todos los datos deberían ser
registrados con cualquier posible explicación o información adicional. En el análisis de los
datos, existen varios métodos estadísticos robustos recomendados, como contrastes de
hipótesis, que permiten detectar con cierta probabilidad la presencia de valores anómalos
y en los que puede definirse el siguiente contraste de hipótesis:
X ± 4s
4. Si el cociente es más pequeño que ese valor tabulado en la tabla del anexo B3 para
un nivel de confianza dado, no hay razón para creer que el dato sospechoso es un
dato anómalo.
La prueba de Dixon puede repetirse para evaluar otros outliers, sin embargo, el poder
de la misma disminuye cuando el número de repeticiones incrementa.
(n − 1) t ( α /( 2 n ), n − 2 )
2
n n − 2 + t ( α /( 2 n ),n −2 )
2
Se dice que un valor es un dato anómalo si no cae dentro del intervalo MEDIANA±
kmad, con k = 3.5 (que corresponde a un error en la estimación del 5%, con un grado
de confianza del 95%). Ó bien, un dato es un anómalo si su residuo absoluto es
mayor que 5.06kMAD (a un nivel de confianza del 95%).
Esta es una prueba confiable dado que los parámetros usados para calcular el
estadístico están mínimamente afectados por la presencia de datos anómalos outliers.
Como puede observarse se han desarrollado muchas pruebas estadísticas como criterios
de rechazo o retención de resultados discordantes. No obstante la mayoría de ellas asume
normalidad por lo que es recomendable verificar primero que los datos se distribuyen
razonablemente con una distribución normal. Estas pruebas para datos normales son
potentes y fáciles de usar, sin embargo, las pruebas para datos no normales son menos
potentes y más difíciles (Iglewicz, 1993). Algunas de estas pruebas están incluidas en
Barnett y Lewis (1984). En muchas situaciones los datos pueden transformarse en
distribuciones aproximadamente normales y analizarse luego las técnicas presentadas
anteriormente (Ejemplo, muchas mediciones ambientales son log-normales) (SKOOG et
al., 2000, cap. 6).
3-45
Por otra parte, estas pruebas deben usarse con extrema precaución cuando se aplican a
muestras que sólo tienen unos cuantos datos. Mandel (1978), en su análisis del
tratamie nto conjuntos pequeños de datos, escribe “Quienes crean que con la sanción
estadística pueden descartar observaciones usando pruebas estadísticas para rechazar
datos discordantes, simplemente, se engañan a sí mismos”. De tal forma, las pruebas
estadísticas para el rechazo de datos sólo deben usarse como ayuda al sentido común
cuando se tienen pocos datos (SKOOG et al., 2000, cap. 6).
4
Si las observaciones son determinadas estadísticamente como anómalas, la EPA sugiere
determinar una explicación para estos datos antes de su exclusión de los análisis posteriores (US
EPA, 1992). Si no puede encontrarse una explicación, la observación debe tratarse como una
medición extrema pero válida que debe mantenerse en los análisis posteriores.
3-46
• Si las pruebas indican retener el dato, hay que considerar expresar los resultados
en términos de la mediana y no como la media. La mediana tiene la gran ventaja
de permitir que se incluyan todos los datos de un conjunto sin que influya mucho
un valor discordante (recuerde que la mediana es un estimador “robusto”).
Solución
a. De la tabla del anexo A1, Z(1-α) = Z90% = 1.64 y , Z(1-α) = Z95% = 1.96. De
esta forma:
1.64x ( 0.32 µg de Cu / ml )
I.C. (90%) = (8.53 µg de Cu/ml) ±
1
I.C.(90%) = (8.53 ± 0.52) µg de Cu/ml
1.96x ( 0.32 µg de Cu / ml )
I.C. (95%) = (8.53 µg de Cu/ml) ±
1
I.C.(95%) = (8.53 ± 0.63) µg de Cu/ml
De los cálculos anteriores puede concluirse que existe un 90% de probabilidad que
el intervalo de 8.01 y 9.05 µg de Cu/ml contenga el valor medio de la
concentración de cobre del tipo de gasolina analizada. Así mismo la probabilidad de
que el intervalo 7.9 y 9.16 µg de Cu/ml contenga el promedio de la concentración
media de cobre es del 95%.
1.64x ( 0.32 µg de Cu / ml )
I.C. (90%) = (8.53 µg de Cu/ml) ±
3
I.C.(90%) = (8.53 ± 0.30) µg de Cu/ml
1.96x ( 0.32 µg de Cu / ml )
I.C. (95%) = (8.53 µg de Cu/ml) ±
3
I.C.(95%) = (8.53 ± 0.36) µg de Cu/ml
De los cálculos anteriores puede concluirse que para esta muestra de tamaño 3,
existe un 90% de probabilidad de que el intervalo de 8.23 y 8.83 µg de Cu/ml
contenga valor medio de la concentración de cobre en la gasolina del análisis.
Asimismo la probabilidad de que el intervalo 8.17 y 8.89 µg de Cu/ml contenga el
promedio de la concentración de cobre es del 95%.
Como puede observarse a medida que se aumenta el tamaño muestral se reduce el
intervalo creado para ambos niveles de confianza.
3-48
Solución
n = 3; σ = 0.80 ppm
zα /2σ
x ±
n
n = (1.64*0.80ppm)/0.5ppm = 2.624
n = 6.88
es decir que deben efectuarse 7 análisis
3-49
Solución:
Se quiere determinar un intervalo de confianza para el porcentaje medio
de lindano en muestras de pesticidas, cuando se hacen tres mediciones
(n = 3) y no se cuenta con el valor de σ (σ desconocida). En este caso el
intervalo de confianza para la media viene dado como:
t α / 2 ,n −1s
I.C.(1 -α) = x ±
n
∑x i
7.47 + 6.98 + 7.27
X = i =1
= = 7.24%
n 3
n
∑ (x i −X )2
(7.47 − 7.24) 2 + (6.98 − 7.24) 2 + (7.27 − 7.24) 2
s = i =1
= = 0.25%
n −1 3 −1
4.3x (0.25%)
I.C. (95%) = (7.24%) ±
3
I.C.(95%) = (7.24 ± 0.62) % es decir [6.62%,7.86%]
Solución:
El intervalo de confianza para una proporción viene dado como (ver
tabla 3.4):
p(1 − p)
p ± zα / 2 ó p ± zα / 2 σp
n
p (1 − p) 0.11(0.89 )
sp = = = 0.033
n 90
O sea que la probabilidad de contaminación con cromo del río oscila entre 0.04< p
< 0.17 con un nivel de confianza del 95%.
1. El tanto por ciento de níquel de una muestra particular de acero de referencia del
NIST, es de un 1.12%. Un nuevo método espectrofotométrico para la
determinación de níquel dio los siguientes resultados sobre muestras de dicho
acero de referencia: 1.10, 1.08, 1.09, 1.12, 1.109. ¿Hay algún indicio de error
sistemático del método para un nivel de significación del 5%?;
Solución:
En general, este problema consiste en determinar si existe evidencia de error
sistemático del nuevo método empleado para la determinación de níquel. Esta
3-51
∑x i
1.10 + 1.08 + 1.09 + 1.12 + 1.09
X = i =1
= = 1.096%
n 5
∑ (x i − X )2
s = i =1
= 0.0152%
n −1
Conclusión:
Dado que el valor observado de t ( t o = 3.53) es mayor que el valor crítico (t0.025,4
= 2.78), existe evidencia significativa al 5% de error sistemático en el nuevo
método espectrofotométrico para la determinación de níquel en muestras de acero.
3-52
Solución:
La media de los cuatro datos es de 30.26% de CaO, la desviación estándar
estimada a partir de diversos análisis es σ = 0.094% de CaO, y el contraste de
hipótesis bilatera l es el siguiente:
(X − µ o )
zo =
σ n
(30.26 − 30.15)%
zo = = 2.34
0.094% 4
El criterio de rechazo para estas condiciones viene dado por: z o > z α / 2 . El valor
del zcrítico para un nivel de significación del 5%, según la tabla del anexo A1, es de
1.96.
Conclusión:
Dado que el valor del estadístico calculado (zo = 2.34) es mayor que el zcrítico (zα/2 =
1.96), existe evidencia significativa a un 5% de error determinado (sistemático) al
aplicar el método volumétrico para la determinación de CaO.
(X − µo )
to = y t o > t α / 2 ,n −1
s n
Conclusión:
Dado que el valor observado de t ( t o = 2.59) es menor que el valor crítico (t0.025,3
= 3.18), no existe evidencia significativa al 5%, como para concluir sobre la
presencia de error sistemático en el método volumétrico para la determinación de
CaO.
La probabilidad de que una diferencia como esta se deba únicamente a errores
aleatorios se puede obtener con la función de Excel DISTR.T ( to, grados de
libertad, nº de colas). El resultado para el problema se presenta a continuación:
DISTR.T(2.59,3,2)= 0.08107407
Superficie Fondo
26.32 26.28
26.33 26.25
26.38 26.38
26.39
Solución:
Los promedios y varianzas calculados de acuerdo a los datos para cada porción son
los siguientes:
s 12 0.00463
Fo = = = 3.76
s 22 0.00123
Dado que Fo = 3.76 no es mayor que F 0 .025,2 ,3 = 16.04 ó bien no es menor que
F 0 .975 ,2 ,3 = 0.0255 , no existe evidencia como para afirmar que la variabilidad en el
3-55
SUPERFICIE FONDO
26.32 26.28
26.33 26.25
26.38 26.38
26.39
P-VALOR= 0.30485271
s 12 s 12
s 2
σ 2
s 22
2
< 1 <
F α / 2 ,n1 −1 ,n 2 −1 σ 22 F 1−α / 2 ,n1 −1 ,n 2 −1
3.76 σ2 3.76
< 1 2<
16.04 σ 2 0.0255
σ12
0.234 < <147.45
σ 22
Como puede observarse el intervalo de confianza para la razón de varianzas
contempla el valor de uno, por lo que puede concluirse que no existe suficiente
evidencia como para afirmar que las varianzas del contenido de %Cl para ambas
porciones del material son diferentes, a un nivel de significación del 5%. Sin
embargo, el intervalo es bastante amplio se sugeriría aumentar el nivel de
significación o bien preferiblemente el tamaño de la muestra.
(x 1 − x 2 ) − Do
to = ; Criterio para la prueba de una cola t > tα/2,ν
1 1
sp +
n1 n 2
Dado que to = 1.418 es menor que t0.025,5 = 2.571, a un nivel de significación del
5%, no existe evidencia como para afirmar que el % de Cl encontrado en ambas
porciones de la muestra difiere significativamente o bien, que no hay evidencia
significativa al 5% de falta de homogeneidad en el material.
Usando la función de Excel PRUEBA.T (matriz1, matriz2, colas, tipo)
(PRUEBA.T(superficie, fondo, 2, 2)) para el cálculo del p-valor de la prueba t, se
tiene:
SUPERFICIE FONDO
26.32 26.28
26.33 26.25
26.38 26.38
26.39
P-VALOR,Prueba F= 0.30485271
P-VALOR,Prueba T= 0.24145269
3-57
Dado que 0.2414 > α = 0.05, no existe evidencia como para rechazar Ho, a un
nivel de significación de 0.05.
1 1
I.C. = ( X 1 − X 2 ) ± t α / 2 ,νs p +
n1 n 2
1 1
I.C. = (26.355 − 26.30) ± (2.571)( 0.0508) + = 0.055 ± 0.099
4 3
I.C. = [− 0.45,0.154]
X1 − X 2 26.355 − 26.30
Zo = = = 2.40
σ12 σ22 1 1
+
+ 0.03
n1 n2 4 3
Comparando los resultados de los literales a) y b) puede decirse que para obtener
resultados más concluyentes, si no se conoce la desviación estándar poblacional, es
necesario aumentar el tamaño de cada muestra o bien por lo menos usar igual
número de réplicas en cada una. Lo anterior también depende de cuan critica sea
la falta de homogeneidad del material para el análisis químico, así como de los
recursos disponibles.
Si se emplearan o l s datos anteriores como base para el recalculo del tamaño de
muestra, para detectar con alta probabilidad una diferencia mínima (∆) de 0.1% de
Cl y una desviación estándar estimada según el ensayo del literal a.1) de 0.0508%,
se tendría que d = ∆/2σ = 0.05 = 0.098, por lo tanto, el tamaño de muestra
requerido para un β = 0.1 viene dado según la figura b del anexo A3, como n* ≅ 13
= 2n – 1, es decir, se necesitarían n1 = n2 = 7 ensayos para cada porción del
material.
3-58
Estudiar si: a) la variabilidad de los resultados es más grande para los tiempos
largos de ebullición; b) Las medias difieren significativamente.
Solución:
La media y la desviación típica para los dos tiempos de reflujo son:
a) Las hipótesis para probar que la variabilidad de los resultados es más grande a
medida que aumenta el tiempo de ebullición, vienen dada como:
s 12
Estadístico: F o = en donde s 12 es la mayor de las varianzas.
s2 2
Dado que Fo = 102.05 > F 0 .05 ,7 ,7 = 3.787 , existe evidencia como para afirmar que
la variabilidad de los resultados es más grande a tiempos más largos de ebullición
con un nivel de significación del 5%. En otras palabras, hay evidencia significativa
al 5% como para rechazar la hipótesis nula de igualdad de varianzas.
Usando la función DISTR.F de Excel, para el cálculo del p-valor del F calculado, se
tiene:
DISTR.T(102.05,7,7)= 1.64521E-06
Dado que 1.645 x 10-6 < α = 0.05, existe evidencia significativa como para
rechazar Ho, a un nivel de significación de 0.05.
s 12 s 12
s 22 σ12 s 22
< <
F α / 2 ,n1 −1 ,n 2 −1 σ 2
2 F 1−α / 2 ,n1 −1 ,n 2 −1
σ12
20.45 < < 510.25
σ 22
(x1 − x 2 ) − D o
t= ; Criterio para la prueba de una cola t > tα/2,ν
s 12 s 22
+
n1 n 2
Dado que las varianzas son diferentes (literal a), los grados de libertad para el
cálculo de tα,ν , vienen dados por:
s 12 s 22
2
+
n n
ν= −2
1 2
(
s 1 / n1
2 2
+
) (
s2 /n2
2 2
)
n1 + 1 n2 +1
+
(0.696 / 8)
2
8 8 9 9
tα/2,ν = t0.025,7 = 2.365
Dado que t = 2.13 > t0.05,7 = 2.365, a un nivel de significación del 5%, no existe
evidencia como para afirmar que las cantidades de estaño extraídas a los tiempos
de reflujo de 30 y 75 minutos difieren significativamente.
Usando la función DISTR.T para el cálculo del p-valor del t calculado, se tiene:
DISTR.T(2.13,7,2)= 0.0706702
Dado que 0.07067 > α = 0.05, no existe evidencia como para rechazar Ho, a un
nivel de significación de 0.05.
El intervalo de confianza para la diferencia de medias viene dado por:
s 12 s 22
I.C. = ( X 1 − X 2 ) ± t α / 2 ,ν +
n1 n 2
3-61
71.06 0.696
I.C. = (56.125 − 49.75) ± 2.365 + = 6.37 ± 7.09
8 8
I.C. = [− 0.72,13.46]
Solución:
Se quiere comparar si hay diferencia en el trabajo de los dos laboratorios de
análisis, sin embargo, una fuente significativa de variación puede ser el hecho de
que las muestras sean de distintas procedencias. Para concluir sobre el trabajo de
los dos laboratorios independientemente de la procedencia de las muestras se
usará un análisis de datos por pares, prueba bilateral(Ver sección 3.3.6.3, tabla
3.12).
El primer paso en la solución de este problema es sacar las diferencias entre los
dos datos de cada muestra y luego continuar con el análisis de dichas diferencias.
3-62
HIPOTESIS DE TRABAJO:
OBTENCIÓN DE ESTADISTICOS
∑d i
0.05 + 0.06 + ..... + (−0.06)
D = i =1
= = −0.00917
n 12
n
∑ (d i − D )2
(0.05 + 0.0092) 2 + (0.06 + 0.0092) 2 + .... + (−0.06 + 0.0092) 2
sd = =
2 i =1
n −1 11
sd = 0.00579
2
s d = 0.0761
t o = D / s d n = (−0.0092) /(0.0761) 12 = −0.0349
CRITERIO DE DECISION
t0.05/2, 12-1 < t o debe rechazarse Ho. Para el caso, t0.025, 11 = 2.201 > |to|= 0.0349
por lo tanto no existe evidencia significativa al 5% como para decir que los dos
laboratorios arrojan diferentes resultados.
3-63
P-VALOR = 0.684481475
Dado que el P-valor es de 0.6844 > α = 0.05, no existe evidencia como para
rechazar Ho, a un nivel de significación de 0.05. En el archivo Fluor.xls se
encuentra el procedimiento de cálculo en la hoja Excel.
Fluor.xls
Solución:
Se quiere comparar si hay diferencia entre la medición hecha con el método
desarrollado en el laboratorio y la concentración certificada del patrón empleado.
Sin embargo, una fuente significativa de variación puede ser el hecho de que los
patrones sean de diferentes concentraciones. Para concluir sobre la fiabilidad del
método desarrollado independientemente de la concentración de los patrones de
referencia empleados se usará un análisis de datos por pares a partir de la creación
de un intervalo de confianza para las diferencias.
3-64
El primer paso en la solución de este problema es sacar las diferencias entre los
dos datos de cada muestra y luego continuar con el análisis de dichas diferencias.
HIPOTESIS DE TRABAJO:
∑d i
− 1 + 1 − 1 − 2 + ..... + 0 − 1
D = i =1
= = −0.18
n 11
n
∑ (d i − D )2
(−1 + 0.18) 2 + (1 + 0.18) 2 + .... + ( −1 + 0.18) 2
sd = i =1
=
2
n −1 10
sd = 5.57
2
s d = 2.36
3-65
Dado que el intervalo de confianza contempla el valor de cero puede concluirse que
no existe evidencia significativa al 5% como para dudar de la confiabilidad del
método desarrollado en el laboratorio.
El intervalo de confianza creado mediante el uso de la hoja Excel puede calcularse
mediante la opción herramientas con las sub-opciones análisis de datos y luego
estadística descriptiva o bien mediante la función INTERVALO.CONFIANZA (alfa,
desv. Est., n). Para este análisis se presenta en el archivo Zn.xls , que puede
accesarse mediante el siguiente icono:
Zn.xls
Solución:
Prueba de Dixon
1. El rango de los datos existentes: RA = 11.9 – 9.5 = 2.4
Dado que Qcalcaludo (= 0.67) > Q crítico (= 0.526) puede concluirse que el dato 11.9 es
un dato anómalo con un nivel de confianza del 5%.
3-66
Prueba de Huber:
1. La mediana es: 10.05
2. Las desviaciones absolutas son por tanto: 0.15, 0.55, 0.05, 0.25, 0.25, 0.15,
1.85, 0.05
3. La mediana de las desviaciones absolutas es: MAD = 0.20
4. El intervalo para un 95% de confianza es: MEDIANA ± kMAD= 10.05 ±
(3.5*0.20) = 10.05 ± 0.20
Dado que 11.9 cae fuera del intervalo [9.85,10.25] este puede considerarse un
dato anómalo con un nivel de significación del 0.05.
Solución:
(n − 1) t ( α /( 2 n ), n − 2 )
2
Estadístico =
n n − 2 + t (2α /( 2 n ),n −2 )
( 7 − 1) 18.48
Estadístico = = 2.011
7 7 − 2 + 18.48
3-67
Dado que G(=2.05) > Estadístico (=2.011) puede concluirse con un nivel de
significación del 5% que el dato de 0.38 es un dato anómalo.
3. Los datos de una muestra control de un experimento de HPLC son los siguientes:
Solución:
La determinación de la consistencia del nuevo resultado se hará empleando
una prueba t. El primer paso consiste en la determinación de los estadísticos de la
muestra y el segundo en la aplicación del criterio de decisión establecido por la
prueba al nuevo resultado.
4. Por otra parte el valor de t tabulado (ver tabla del anexo C3) es t(0.05/2, 5) =
1.82. Si se compara el valor del tcalculado con el valor de t tabulado se observa
que el valor calculado de t pertenece al intervalo -1.82 < t < 1.82, por lo
que puede concluirse que la nueva medición está bajo control estadístico.
3-68
REFERENCIAS BIBLIOGRAFICAS
• Juran, J.M. y Gryma, F.M. (1993). Manual de control de calidad. Tomo II. México:
McGRAW-HILL.
• Pérez, C. (1999). Control estadístico de calidad. Mexico: Alfaomega grupo editor S.A
de C.V.
• Skoog, D.A., West, D.M., Holler, F.J. y Crouch, S.R. (2001). Química analítica.
Séptima edición. México: McGRAW-HILL.
3 1.15 1.15
4 1.46 1.49
5 1.67 1.75
6 1.82 1.94
7 1.94 2.10
8 2.03 2.22
9 2.11 2.32
10 2.18 2.41
12 2.29 2.55
14 2.37 2.66
15 2.41 2.71
16 2.44 2.75
18 2.50 2.82
20 2.56 2.88
30 2.74 3.10
50 2.96 3.34
60 3.03 3.41