Capitulo 3

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 73

3-1

CONTENIDO

Pág.
3.0 Inferencia estadística 3-2
3.1 División del estudio de la inferencia estadística 3-4
3.2 Estimación 3-5
3.3 Pruebas o contrastes de hipótesis 3-16
3.4 Determinación de datos anómalos 3-41
3.5 Problemas de Inferencia estadística 3-46
REFERENCIAS BIBLIOGRAFICAS 3-68
ANEXO A3. Curvas de potencia para contrastes de hipótesis 3-70
ANEXO B3. Valores críticos para la prueba Q 3-71
ANEXO C3. Valores críticos para la prueba t 3-72
ANEXO D3. Valores críticos para la prueba de Grubbs 3-73
3-2

3.0 INFERENCIA ESTADÍSTICA

En general, el propósito de la gran parte de estudios analíticos va más allá de describir las
distribuciones de las variables; y se pretende generalizar los resultados obtenidos en la
muestra a la población.
Las herramientas estadísticas que se describieron en el capitulo 1, tales como tablas de
distribución de frecuencia, gráficos y calculo de medidas descriptivas, se podrían englobar
en el término estadística descriptiva, puesto que ellas esencialmente permiten describir,
presentar y resumir información que ha sido recolectada de alguna forma. Sin embargo,
las técnicas de estadística descriptiva no permiten responder interrogantes que pueden
surgir cuando no se dispone de la información sobre todos los elementos de la población
de interés sino sólo de una parte de ella, es decir, que los datos provienen de una muestra
de elementos de la población bajo estudio. Por ejemplo, si se conoce que la media o el
promedio de 15 mediciones de concentración de ión nitrato, en una muestra concreta de
agua, es de 0.5 µg/ml, ¿qué se puede decir sobre el verdadero valor de la media de todas
las posibles mediciones de la concentración de nitrato en el río?
La estadística dispone de una gran cantidad de métodos que se engloban dentro de
la llamada estadística inferencial, los cuales se usan esencialmente para determinar
la probabilidad de que una conclusión sacada a partir de los datos de una muestra
sea admisible en la población muestreada.
El proceso conocido como inferencia estadística requiere consideraciones de cómo fue
seleccionada la muestra y de cuánto varían las observaciones de una muestra a otra. De
manera que los métodos de selección de los elementos que se usarán en las
investigaciones analíticas son de considerable importancia para la obtención de resultados
y conclusiones válidas (ver capítulo 2.0).
El requisito fundamental de una buena muestra es que sea representativa de la población
que se trata de describir. Sin embargo, aún cuando se esté seguro que la muestra se
obtiene de la apropiada población, otra fuente potencial de error en el muestreo, es el
procedimiento en la toma de las mediciones que puede llevar a resultados sesgados. El
grado de confianza que se puede asignar al valor experimental, método de medición o la
3-3

calibración del instrumental utilizado puede dar lugar a resultados que no reflejan la
realidad que se quiere analizar1 (Ver capítulo 6.0).
Por otra parte, en muchas ocasiones no es posible obtener la muestra a partir de todos los
elementos que definen la población objetivo, sino sólo a partir de una subpoblación que es
accesible al investigador analista en el momento de hacer la selección de los elementos de
la muestra y ella recibe el nombre de población muestreada.
Los métodos de la inferencia estadística permiten generalizar los resultados de la muestra
sólo a los elementos que componen la población muestreada y la generalización hacia la
población objetivo está fuera del alcance de la Estadística. Sin embargo, si es posible
suponer que la población muestreada es similar a la población objetivo no se cometería un
error grande en generalizar los resultados hacia la población objetivo (DAWSON et al.,
1994, cap. 5).
En la Figura 3.1, se presentan los alcances de las inferencias realizadas de una muestra.

Población objetivo

Se requiere sentido común para


hacer inferencias del muestreo a
la población objetivo

Población muestreada

Para hacer inferencias estadísticas


de la muestra a la población
muestreada se requiere que la
muestra sea aleatoria
Muestra

FIGURA 3.1 ALCANCES DE LAS INFERENCIAS REALIZADAS DE UNA MUESTRA (DAWSON


et al., 1994, cap. 5)

1
Aún cuando se esté seguro de que la muestra se obtiene de la población apropiada, es igualmente importante que la muestra se saque de

una manera objetiva e insesgada. El problema que surge si el esquema de muestreo no es aleatorio y los datos luego, se analizan como si
provienen de una muestra aleatoria, es que se pierde la vital vinculación entre un esquema de muestreo aleatorio y el apropiado método de
inferencia estadística, el cual supone siempre que hubo una selección aleatoria de la muestra.
3-4

3.1 DIVISION DEL ESTUDIO DE LA INFERENCIA ESTADISTICA

Como se mencionó anteriormente, la inferencia estadística, es la metodología consistente


en inferir resultados, predicciones y generalizaciones sobre la población estadística,
basándose en la información contenida en las muestras representativas previamente
elegidas por métodos de muestreo formales (PEREZ, 1999, cap. 5). En la figura 3.2, se
presenta un esquema para el proceso general de inferencia.

MUESTREO Y MUESTRAS

MUESTREO MEDICION
POBLACION MUESTRA DATOS

INFERENCIA
CALCULOS
ESTADISTICA
ESTADISTICA

La suposición o no de una
distribución de la población TABLA Z, t
permite clasificar al
estudio de la estadística en
estadística paramétrica y
no paramétrica

FIGURA 3.2 PROCESO GENERAL DE INFERENCIA

Existen dos formas generales de efectuar una inferencia acerca de la población que son:

• Estimar valores de parámetros poblacionales, y


• contrastar hipótesis respecto a los valores de parámetros poblacionales o bien del
comportamiento de la población.

De ahí que la inferencia estadística se divida en dos áreas básicas que son:
1. Problemas de estimación
2. Pruebas o contrastes de hipótesis
3-5

La diferencia principal entre ambas áreas radica en que en los problemas de estimación se
debe elegir un valor de una posible continuidad de alternativas, mientras que en las
pruebas de hipótesis se debe decidir si aceptar o rechazar un valor especificado o un
conjunto de valores especificados de un parámetro.
La inferencia estadística está basada en la teoría de la probabilidad, pero tiene un carácter
diferente. En inferencia estadística se consideraran fenómenos en los que se manifiesta
regularidad estadística y se construyen modelos probabilísticos para describirlos.
El problema que se presenta, a la vista de lo expuesto, consiste en determinar el valor de
ciertos parámetros poblacionales y/o determinar hipótesis respecto a dichos valores (por
ejemplo, la media y la varianza) a partir de la información muestral. Debe advertirse que
cuando se trate de poblaciones no caracterizadas por sus parámetros, poblaciones que se
denominan no paramétricas, los criterios esbozados en orden a la especificación de la
población permanecen válidos, aún cuando, en tal caso, los objetivos que satisface el
muestreo no sean lógicamente la estimación de parámetros, sino la verificación de otras
características poblacionales mediante la denominada estadística no paramétrica.

3.2 ESTIMACION

Los procedimientos de estimación pueden dividirse en dos tipos: estimación puntual y


estimación por intervalo. Supóngase que se quiere estimar el contenido medio de nitrito
(mg/l), en una muestra de agua de río. La estimación podría darse mediante un solo valor
o número, por ejemplo 0.41mg/l, o bien puede reportarse que el contenido de nitrito en el
agua, oscila entre 0.405 y 0.415 mg/l. En el ejemplo anterior, a la primera forma de
determinar el contenido medio de nitrito en el agua se le conoce como estimación puntual,
ya que se utiliza un único valor o punto para dar una estimación del parámetro. La
segunda forma de dar tal estimación se conoce como estimación por intervalo, por que se
estiman dos valores o puntos de la recta real que definen un intervalo de valores
continuos no numerables.
En esta sección se darán algunas propiedades que debería cumplir un estimador para
conseguir estimaciones confiables del parámetro de interés. Se considerarán diferentes
formas de estimación y se estudiará una forma de medir la confiabilidad de la estimación.
3-6

3.2.1 ESTIMACION PUNTUAL

El procedimiento de estimación puntual utiliza la información de una muestra para llegar a


un solo número o punto, que estima al parámetro de interés. La estimación real se realiza
mediante un estimador. Un estimador es una regla que expresa como calcular la
estimación, basándose en la información de la muestra y se enuncia en general mediante
una fórmula. Los estadísticos son en general estimadores de los parámetros poblacionales
(ver capítulo 2). Por ejemplo, la media muestral ( X ), puede ser un estimador puntual de
la media poblacional (µ).
Matemáticamente un estimador se define como (MEYER, 1973, cap.14):
“Sea X una variable aleatoria con función de probabilidad f(x,Θ), caracterizada por el
parámetro desconocido Θ y sea x = {X1, X2,…., Xn} una muestra aleatoria, entonces el

estadístico Θ̂ = h( X1, X2,…., Xn) correspondiente a Θ se denomina estimador puntual de


Θ”.
Por ejemplo, suponiendo que x es una variable aleatoria con media µ = 4 y se selecciona
una muestra x = {2, 5, 11}, entonces su media es x = 6, y su mediana ~
x = 5. En este
caso, el estimador ~
x produce una estimación más cercana al parámetro µ que el
estimador x .
En general, se pueden establecer muchos estadísticos para estimar al mismo parámetro y
como es de suponer cualquier estimador que se elija evaluará con error al parámetro
poblacional. A la diferencia entre un estimador y el correspondiente parámetro de la
población se le denomina error en la estimación del parámetro Θ y se expresa como:

ξ= Θ
ˆ−Θ

Se denomina sesgo de un estimador a la diferencia Θ − E(Θ


ˆ ) , donde E() es el operador

esperanza matemática (MENDENHALL, 1990, cap. 9).


Otro concepto de interés, es el del error cuadrático medio (ECM) de un estimador el cual
matemáticamente viene dado como (FREUD y WALPOLE,1990, cap. 10):

ECM( Θ
ˆ ) = E((Θ
ˆ − Θ) 2 )
3-7

que mediante desarrollo algebraico y basándose en las propiedades del operador


esperanza matemática (E()), puede expresarse como:

ECM ( Θ [
ˆ ) = σ 2 (Θ) + Θ − E ( Θ ]2
ˆ ) = σ 2 ( Θ) + ( sesgo) 2

3.2.1.1 PROPIEDADES DE LOS ESTIMADORES

El análisis del concepto de error en la estimación del parámetro Θ puede conducir a


pensar que lo que debe buscarse al elegir un estimador es que sus valores no estén
demasiado alejados del valor exacto del parámetro poblacional que se quiere estimar. Sin
embargo, es claro que al obtener una estimación puntual su valor dependerá de la
muestra que se haya seleccionado y que el valor encontrado puede cambiar de muestra en
muestra. De esta forma, las propiedades deseables no serían solamente que cada
estimación no se encuentre muy alejada del verdadero valor del parámetro, sino también
que no haya demasiada variabilidad entre los valores del estadístico, obtenidos de muestra
en muestra. Esto se puede formalizar definiendo las siguientes propiedades a tener en
cuenta de los estimadores y que son deseables para una buena estimación puntual,
permitiendo a la vez diferenciar y elegir a un estimador de otro (FREUD y WALPOLE,1990,
cap. 10):

1. Insesgado: Informalmente esto significa ausencia de error sistemático. De una


manera más formal, un estimador cualquiera Θ̂ se dice insesgado si la media o el
valor esperado de su correspondiente distribución muestral es igual al parámetro
poblacional de interés Θ , es decir el sesgo es cero. De la definición de sesgo, en el
ECM se tiene:

[Θ − E(Θˆ )]2
=0
ˆ ) = 0, entonces E(Θ
Θ − E(Θ ˆ) = Θ

2. Eficiente: Significa que las estimaciones obtenidas para distintas muestras varían
poco entre ellas. De una manera más formal, el estimador más eficiente dentro de
3-8

un conjunto de estimadores insesgados será aquel que tiene la menor varianza2. Si


la variabilidad de las estimaciones se mide a través del desvío estándar, este desvío
estándar recibe el nombre de error estándar del estimador (SE). Si Θ̂ es un
estimador insesgado de Θ y
1
Var (Θˆ ) =
 ∂ ln f ( x)  2 
n.E   
 ∂Θ  
entonces Θ̂ es un Estimador Insesgado de Varianza Mínima (EIVM).

3. Consistente: Informalmente, un estimador Θ̂ se dice consistente si su


variabilidad disminuye a medida que aumenta el tamaño de la muestra (n), es
decir que el estimador tiende a acercarse al valor del parámetro. Este hecho se
expresa simbólicamente como:

Si n → ∞, entonces σΘ̂ → 0 o sea que Θ̂ → Θ

Lo que también indica que:

ˆ − Θ → 0 donde N es el tamaño de la población


Lim Θ
n→N

Las distribuciones muestrales para un estimador insesgado y sesgado, se presentan en la


figura 3.3(a) y las distribuciones muestrales para dos estimadores uno con varianza
pequeña y uno con varianza mayor se presenta en la figura 3.3(b).
Varios principios de estimación han sido propuestos para la obtención de “buenos”
estimadores. Todos ellos conducen a procedimientos matemáticos rutinarios. Tales
principios incluyen (OST LE, 1977, cap. 6):

1) El principio de momentos
2) Chi-cuadrado mínima
3) El método de los mínimos cuadrados
4) El principio de la máxima verosimilitud

2
No debe confundirse “desvío estándar” de la distribución de la población (variabilidad entre los elementos)
con “error estándar” del estimador que es el desvío estándar de la distribución muestral (variabilidad entre las
estimaciones de las muestras).
3-9

(a)

(b)

FIGURA 3.3 PROPIEDADES DE LOS ESTIMADORES (a) DISTRIBUCION DE


ESTIMADORES INSESGADOS Y SESGADOS; (b) COMPARACION DE VARIABILIDAD DE
ESTIMADORES (MENDENHALL, 1990, cap. 6)

La aplicación de estos principios a casos particulares conduce a estimadores que pueden


diferir y, por lo mismo, tener diferentes atributos de “bondad”. Un principio muy de uso
que conduce a estimadores con muchos atributos de deseables de “bondad”, por
procedimientos matemáticos rutinarios fácilmente aplicables, es el de la máxima
verosimilitud establecido por R.A. Fisher (1922) (OSTLE, 1977, cap. 6).
El procedimiento para determinar la estimación de máxima verosimilitud de un parámetro
Θ de una población es como sigue (OSTLE, 1977, cap. 6):

1) Determine la función de densidad de la muestra g(X1, X2,….,Xn; Θ), con función de


probabilidad:
n
g(X1, X2,….,Xn; Θ) = f(X1; Θ) f(X2; Θ)….. f(X n; Θ) = ∏ f(X i ; Θ)
i =1

2) Determine:
3-10

n
L = log ∏ f(X i ; Θ)
i =1

Este paso no es esencial. Sin embargo, ya que las funciones de probabilidad son
productos y ya que las sumas son más fáciles de manejar que los productos, se
acostumbra aumentar al máximo el logaritmo de la probabilidad, más que la
probabilidad misma.

3) Determine el valor de Θ que aumente al máximo a L, mediante la solución de la


ecuación ∂L/∂Θ = 0.

En el cuadro 3.1 se presentan los estimadores de máxima verosimilitud para los principales
parámetros de distintas distribuciones poblacionales.

TABLA 3.1 ESTIMADORES DE MAXIMA VEROSIMILITUD ASOCIADOS A CIERTAS


DISTRIBUCIONES
DISTRIBUCION PARAMETRO (ΘΘ) ESTIMADOR PUNTUAL ( Θ̂ ) 1

Binomial P P̂ = f / n = frecuencia relativa

Poisson n

λ (=µ
µ)
∑x i
λˆ = µ
ˆ=x= i =1
n
Normal n

µ
∑x i
µ
ˆ= x = i =1
n
n
σ σ̂ 2 = s 2 = ∑ (x i − x )2 n
i =1

Exponencial θ θˆ = 1 / µˆ = 1 / x = n n

∑x i
i =1

3.2.2 ESTIMACION POR INTERVALOS

Dado que no puede esperarse que las estimaciones puntuales realmente coincidan con las
cantidades que intentan estimar y que estas no garantizan la precisión de dicha estimación
3-11

(pues aun el estimador insesgado más eficiente es improbable que estime con exactitud al
valor del parámetro poblacional) es preferible reemplazarlas con estimaciones por
intervalos. Esto es, con intervalos en los cuales se puede esperar con un grado razonable
de certeza que contengan al parámetro en cuestión.
Una estimación por intervalo de un parámetro Θ es un intervalo de la forma L1 ≤ Θ ≤ L2,

donde L1 y L2 dependen del valor puntual que tome el estimador Θ̂ en una muestra dada

y también de la distribución muestral de Θ̂ (FREUD y WALPOLE, 1990, cap. 11).

Como diferentes muestras generalmente producirán valores diferentes de Θ̂ , y por


consiguiente, diferentes valores de L1 y L2, estos puntos extremos del intervalo son valores
de variables aleatorias. Por tanto, con base a la distribución muestral de Θ̂ se puede
calcular el intervalo al cual pertenecería la proporción (1-α) de las estimaciones (FREUD y
WALPOLE, 1990, cap. 11).
Este intervalo L1 ≤ Θ ≤ L2 determinado en relación con una muestra particular recibe el
nombre de intervalo de confianza del (1-α)100%. La proporción (1-α) se conoce como
coeficiente o grado de confianza, α es el nivel de significación, y los extremos L1 y L2
reciben el nombre de límites de confianza inferior y superior. Por ejemplo, cuando α =
0.05 el grado de confianza es de 0.95 y se obtiene un intervalo de confia nza del 95%
(FREUD y WALPOLE, 1990, cap. 11).
Al interpretarse un intervalo de confianza se tiende a decir: “hay un (1-α)100% de
confianza de que el intervalo contenga al parámetro”. La interpretación correcta, si el nivel
de confianza es del (1-α)100%, es que si se toman cien muestras y se calcula para cada
una de ellas el intervalo de confianza, se espera que el (1-α)100% de esos intervalos
contengan al parámetro Θ. O se puede decir que la probabilidad de que un intervalo de
confianza contenga al valor exacto del parámetro Θ es de (1-α)/100 ((1-α) de 100
intervalos posibles).
En el grado de confianza (1-α)100%, α se considera a menudo como la probabilidad de
cometer un error, ya que indica la proporción de intervalos creados que no contienen al
parámetro Θ. De esta forma, (1-α) será la proporción intervalos de confianza creados que
contienen al parámetro. Por ejemplo, si el valor (1-α)100% es de 95%, se llegaría a
establecer que en promedio sólo en el 5% de los casos se cometería error al suponer que
el intervalo contiene al valor exacto del parámetro.
3-12

Para encontrar estos intervalos se debe conocer la distribución muestral de cada


estimador. Como ya se estableció en la sección 3.2.1.1, esto depende del parámetro de
interés y del estadístico que se elija para estimar dicho parámetro. Sin embargo, es posible
dar la forma general que adopta un intervalo de confianza en cualquier caso.
En general, si se quiere estimar un parámetro Θ de la población a través del estadístico

Θ̂ , y si el error estándar de la distribución de Θ̂ es σ Θ̂ , que se denotará como SE( Θ̂ ),


entonces un intervalo de confianza para Θ con un nivel de confianza del (1-α)100% (IC(1-
α)100% ) viene dado por la expresión:

[ ˆ − k 1 SE(Θ
IC (1−α )100% = Θ ˆ ), Θ
ˆ − k 2 SE(Θ
ˆ ]

Donde k1 y k2 dependen de la forma de la distribución muestral de Θ̂ .


En síntesis, en el proceso de construcción de intervalos de confianza (IC(1-α)100% ) se pueden
distinguir dos etapas (PEREZ, 1999, cap.5):

1. Etapa teórica: En esta etapa se establece formalmente el intervalo aleatorio


[L 1 , L 2 ] de tal forma que P [L1 ≤ Θ ≤ L2 ] = (1 − α) . Se puede hablar de la
probabilidad de que el intervalo contenga el valor del parámetro Θ.

2. Etapa práctica: Se toma una muestra de la población a la que pertenece el


parámetro, y sustituida en L1 y L2 se obtienen dos números. Como no se sabe si el
parámetro estará o no contenido en el intervalo, se tiene un nivel de confianza del
(1-α)100% de que lo esté. También se dice que el nivel de significación es α. Es
deseable lograr que la longitud del intervalo de confianza sea lo más corta posible.
Otra propiedad deseable es que la longitud esperada, E[L1-L2], sea lo más pequeña
posible.

En las tablas 3.2 a 3.4 se presentan los intervalos de confianza para la estimación de
diversos parámetros en poblaciones normales y no normales.
3-13

TABLA 3.2 CONSTRUCCION DE INTERVALOS DE CONFIANZA PARA LOS PARAMETROS DE


POBLACIONES NORMALES

Parámetro σconocido σdesconocido


n ≥ 30 µ σ S
x ± zα / 2 x ± t ( α / 2 ,n −1 )
distribuciones normales n n
o no normales
x :promedio muestral x :promedio muestral

z α / 2 :valor de la distribución N(0,1), t(α/2, n-1 ):valor de la distribución t para el


nivel significación α.
para el nivel de significación α S: desviación típica de la muestra
σ:desviación típica de la población n: tamaño de la muestra
n: tamaño de la muestra n-1: grados de libertad

n < 30 µ S S
x ± t ( α / 2 ,n −1 ) x ± t ( α / 2 ,n −1)
distribuciones normales n n
x :promedio muestral x :promedio muestral
t(α/2, n-1 ):valor de la distribución t para el t(α/2, n-1 ):valor de la distribución t para el
nivel significación α. nivel significación α.
S: desviación típica de la muestra S: desviación típica de la muestra
n: tamaño de la muestra n: tamaño de la muestra
n-1: grados de libertad n-1: grados de libertad

σ2  (n − 1)S 2 (n − 1)S 2 
 2 , 
 χα / 2 ,n − 1 χ12−α / 2 ,n −1 
 
χα2 / 2 ,n−1 :valor de distribución chi-
cuadrado

σ  (n − 1)S 2 (n − 1)S 2 
 , 
 χα2 / 2 ,n −1 χ12−α / 2 ,n−1 
 
3-14

TABLA 3.3 CONSTRUCCION DE INTERVALOS DE CONFIANZA PARA COMPARACION DE


POBLACIONES NORMALES (PEREZ, 1999, cap.5)
3-15

TABLA 3.4 CONSTRUCCION DE INTERVALOS DE CONFIANZA PARA PARAMETROS DE


POBLACIONES NO NORMALES

DISTRIBUCION PARAMETRO INTERVALO


BINOMIAL p p(1 − p)
p ± zα / 2 ó p ± zα / 2 σp
n
p(1 − p) N − n
para poblaciones finitas σp = .
n N−1
p: proporción de éxitos
n: tamaño de la muestra
N: tamaño de la población
z α / 2 :coeficiente de la distribución
σp: desviación típica de la muestra
DIFERENCIA DE p1 – p2 p1 (1 − p1 ) p 2 (1 − p 2 )
PARAMETROS (p1 − p 2 ) ± z α / 2 +
BINOMIALES n1 n2
subíndices 1 y 2: indican muestras 1 y 2
POISSON λ X
X ± λα
n
siendo λα = F -1(1-α/2) que es la función de distribución de una
N(0.1)
x : promedio muestral

FIGURA 3.4 REPRESENTACION GRAFICA DE UN INTERVALO DE CONFIANZA


3-16

3.3 PRUEBAS O CONTRASTES DE HIPÓTESIS

El problema central de la inferencia estadística es un problema de toma de decisiones,


del cual la estimación y contraste de hipótesis son aspectos importantes, diferenciados
pero complementarios.
Existen múltiples problemas en los cuales, en lugar de tener la necesidad de hacer una
estimación de un parámetro, se debe decidir si una afirmación relativa a un parámetro es
verdadera o falsa. Esto es, se debe probar una hipótesis relativa a un parámetro. Por
ejemplo, para un análisis EDTA se quiere determinar si la concentración rotulada de una
solución estándar de tiosulfato continúa siendo la misma o bien ha cambiado a tal grado
que el uso de esa solución para un análisis ya no sea confiable y deba reemplazarse.
Un contraste de hipótesis , una prueba de significación o una prueba de hipótesis , son
términos que indican el proceso mediante el cual se decide si una proposición acerca de la
población debe ser aceptada o no. Esta proposición es lo que se conoce como hipótesis
estadística. Una hipótesis estadística es por tanto, una proposición acerca de la
distribución de probabilidad de una o de varias variables aleatorias. Tal proposición puede
referirse bien a la forma de la distribución, bien al valor o valores de los parámetros o bien
a ambos.
El contraste de la hipótesis estadística se basará en la información proporcionada por la
muestra. De modo que si se rechaza la hipótesis, se quiere indicar que los datos de la
muestra ofrecen cierta evidencia sobre su falsedad. Si se acepta simplemente se quiere
significar que no se rechaza.
Todo contraste va a implicar la comparación entre dos hipótesis a la luz de la información
muestral. Como resultado el investigador tomará una decisión.
Por ejemplo, se desea decidir si la utilización de un nuevo método de tratamiento de
muestras para la determinación de calcio mejora o permite la obtención de datos tan
confiables como los generados al tratar las muestras con el método oficial. La
investigación anterior puede ir orientada a tratar de comparar la media muestral del
contenido de calcio en un estándar o bien comparar los promedios muestrales entre un
grupo de datos en los que se ha utilizado el método oficial de tratamiento de muestras, y
un grupo de datos en los que se ha empleado el nuevo método de tratamiento de
muestras. El contraste en el primer caso consistirá en comparar la hipótesis: “Existe
diferencia entre el promedio muestral y el verdadero”, con la hipótesis de que “no existe
3-17

diferencia”, y en el segundo caso contrastar las hipótesis sobre la igualdad o diferencia


entre los promedios de calcio utilizando ambos métodos a partir de las observaciones de
las dos muestras. En general, los resultados favorecerán más a una de las dos hipótesis
que a la otra, y por tanto se podrá tomar una decisión.

3.3.1 ELEMENTOS DE UNA PRUEBA DE HIPOTESIS

A continuación se describen los elementos más importantes para cualquier contraste de


hipótesis (MENDENHALL, 1990, cap.7):

a. HIPOTESIS NULA: Es aquella hipótesis que se desea contrastar, se simboliza por


Ho. Esta suele ser una estrategia o medio del que se sirve el investigador para
probar la alternativa. El planteamiento de Ho permite elaborar un modelo
probabilístico a partir del cual se puede llegar a una decisión final.

b. HIPOTESIS ALTERNATIVA: También se conoce como experimental y se representa


por H1. Esta es la hipótesis de investigación. De modo que se espera que hay un
argumento para la hipótesis de investigación (o alternativa) H1, demostrando que
no lo hay para su contraria, la hipótesis nula.

En general, las hipótesis pueden ser simples y compuestas. Una hipótesis es simple
si se especifica exactamente el valor del parámetro, ejemplos: µ = 10, σ2 = 4 ó ρ xy
= 1, etc. Una hipótesis es compuesta si contiene dos o más valores para el
parámetro, como por ejemplo: µ ≠ 10, σ2 > 4, etc.
La hipótesis nula, por ser más concreta, suele ser simple, y la alternativa
compuesta. No obstante, es frecuente plantearlas como complementarias. Suele
ser habitual hacer supuestos que dependen del tipo de contraste o prueba y que se
pueden resumir como:

• Características de los datos que se van a manipular: independencia de las


observaciones, nivel de medida utilizado, etc.
• Supuestos acerca de la forma de la distribución de partida: normal, binomial, etc.
3-18

Algunos de estos supuestos podrán contrastarse, otros serán de difícil verificación.


La violación de los supuestos podrá invalidar más o menos el modelo probabilístico
y conducir a conclusiones erróneas.

c. ESTADISTICO DE PRUEBA: Los valores muestrales se emplean para calcular un


solo número que corresponde a un punto sobre una recta. Tal número sirve para
tomar decisiones y se denomina estadístico de prueba o contraste y se simboliza
en general como T. Tal estadístico, será una variable aleatoria, con una distribución
muestral, conocida si la hipótesis hecha es verdadera, que proporcionará las
probabilidades asociadas a un valor determinado o a un intervalo de valores del
estadístico de contraste.

d. REGLAS DE DECISION: Una regla de decisión es un criterio utilizado para decidir si


se acepta o se rechaza la hipótesis nula, a partir del espacio muestral de valores
del estadístico de contraste y de las probabilidades asociadas. Este criterio consiste
en dividir tal espacio en dos zonas mutuamente excluyentes y exhaustivas: la zona
de rechazo (o región crítica) y la zona de aceptación. La zona de rechazo está
constituida por aquellos valores del estadístico de contraste que por ser muy
grandes o muy pequeños (o lo que es igual alejarse mucho de Ho), es muy poco
probable que ocurran si Ho es verdadera.
Las reglas de decisión se pueden expresar en términos de probabilidad como:
“rechazar Ho si la probabilidad de que ocurra un valor concreto T (T K ) del
estadístico de prueba es menor que α”. Por ejemplo, para el problema de comparar
los dos métodos de tratamiento de muestras para la cuantificación de la
concentración de calcio, la regla de decisión puede ser: “rechazar el hecho de que
ambos métodos de tratamiento de muestras producen resultados equivalentes si T K
toma un valor tan grande (o tan pequeño) que la probabilidad de su ocurrencia sea
menor o igual que α = 0.05”. El valor de α se conoce como nivel de signif icación o
nivel de riesgo y representa la probabilidad de que un valor concreto del estadístico
de contraste caiga en la zona de rechazo o crítica.
Si se establece previamente la zona de rechazo o crítica, se determina un valor
único de α. Sin embargo, en la práctica, se suele fijar de antemano un valor de α,
3-19

lo que lleva consigo distintas zonas críticas (en ocasiones infinitas) de las que
habrá seleccionar la mejor. En la práctica, los niveles de significación más
frecuentemente empleados son de 0.05 y 0.01, que en algunos casos aparecen
como 5 por 100 y el 1 por 100.

3.3.2 ERRORES EN LOS CONTRASTES DE HIPOTESIS

En general, una prueba de hipótesis estadística no es otra cosa que un procedimiento para
tomar una decisión bajo incertidumbre, sobre la validez de la hipótesis nula. Usando la
evidencia de los datos de la muestra o de las muestras se llega a dos decisiones:

Decisión 1: rechazar Ho ; Decisión 2: aceptar Ho

La realidad es también doble: Ho es falsa o Ho es verdadera. Por tanto, si Ho es verdadera


y se rechaza se comete un error. Si Ho es falsa y se acepta se comete otro error. En
conclusión, existe un riesgo inherente de llegar a una conclusión incorrecta cuando se
prueban hipótesis, a causa de la naturaleza aleatoria del muestreo. Este riesgo se puede
clasificar de dos maneras:

• ERROR TIPO I: Es el que se comete al rechazar Ho cuando es verdadera. La


probabilidad de cometer este error es α.
• ERROR TIPO II: Es el que se comete al aceptar Ho cuando es falsa. La probabilidad
de cometer este error es β.

Lo antes expuesto se puede resumir esquemáticamente como sigue:


SITUACIÓN DE Ho
DECISION Verdadera Falsa
Decisión correcta Error tipo II
Aceptar Ho
(1-α) (β)
Error tipo I Decisión correcta
Rechazar Ho
(α) (1-β)
3-20

En general, se puede decir que un buen contraste o una buena regla de decisión tenderá a
minimizar los errores inherentes a toda decisión. Pero esto no es fácil, pues para una
muestra de tamaño n, al intentar disminuir uno de los errores aumenta el otro. El
investigador analista debe saber en cada caso qué error tiene mayor importancia, para
controlarlo y tratar de disminuirlo.
Se llama potencia de un contraste, a la probabilidad de rechazar la hipótesis nula cuando
es falsa (decisión correcta), su probabilidad es 1-β. Más estrictamente debería llamarse
potencia de una región crítica, y no es más que la probabilidad de que esta detecte una Ho
falsa, dado un valor para H1 (MONTGOMERY, 1991, cap.2). En resumen, las probabilidades
de importancia en los contrastes de hipótesis son (PEREZ, 1999, cap. 5):

• α = P{ error tipo I } = P{ rechazar Ho/Ho es verdadera }


• β = P{ error tipo II } = P{ no rechazar Ho/Ho es falsa }
• 1-β = Poder de la prueba = P{ rechazar H o/Ho es falsa }

En una situación práctica, en la mayoría de las pruebas estadísticas el interés


generalmente es “rechazar Ho”, por lo que la mayor parte de las veces la probabilidad de
error que se controla usualmente durante este procedimiento es, justamente, el error
asociado a esta decisión ( probabilidad de error tipo I) es decir la probabilidad de rechazar
Ho cuando es cierta.
Puede ser muy difícil calcular los valores de β para los diferentes parámetros de prueba ya
que dependerá de la hipótesis alternativa que se escoja3. Es más fácil detectar diferencias
grandes con un valor de Ho de un parámetro, que detectar diferencias pequeñas. Si se
quieren detectar diferencias pequeñas con el valor de Ho de un parámetro, β será grande.
Si se desea detectar diferencias grandes, β será pequeño. Para un tamaño muestral fijo
(n) al aumentar la región de rechazo (y por lo tanto α), β disminuye. Si por el contrario α
decrece, β aumentará. Por otra parte, al aumentar el tamaño de la muestra (n), α y β
decrecen a la vez (MENDENHALL, 1990, cap. 7).

3
Que pueden ser de tipo compuestas
3-21

3.3.3 PROCEDIMIENTOS DE UN CONTRASTE O PRUEBA DE HIPOTESIS

En resumen, el procedimiento general para realizar un contraste de hipótesis es especificar


el valor de la probabilidad de cometer un error tipo I (α), y después dis eñar un
procedimiento de prueba para obtener un pequeño valor de la probabilidad de cometer un
error tipo II (β) (≤ 10%). Por regla general, se elige directamente el riesgo α y se intenta
minimizar el riesgo β. El riesgo β como se vio en la sección 3.3.2, es una función del
tamaño muestral, y se controla indirectamente. Cuanto más grande es el tamaño muestral
para la prueba, tanto menor será el riesgo β.
Existen tres procedimientos generales para el contraste de hipótesis que son:

a. Procedimiento general de un contraste de hipótesis basado en la región de


rechazo.
b. Procedimiento general de un contraste de hipótesis basado en el p-valor.
c. Procedimiento general de un contraste de hipótesis basado en la creación de
intervalos de confianza.

En las secciones de la 3.3.3.1 a la 3.3.3.3 se detallan estos procedimientos.

3.3.3.1 PROCEDIMIENTO GENERAL DE UN CONTRASTE DE HIPOTESIS


BASADO EN LA REGION DE RECHAZO

A continuación se presenta una secuencia de pasos que puede usarse de forma


sistemática para efectuar cualquier contraste de hipótesis (PEREZ, 1999, cap.5):

1) Formular, de forma clara y explícita, cual es la hipótesis nula (Ho), y cuál es la


hipótesis alternativa (H1) en términos de parámetros.
2) Determinar el tamaño de la muestra (n), y fijar el nivel de significación deseado α,
que es el máximo error aceptable cuando se rechaza Ho siendo cierta, y usar este
valor para construir la región crítica.
3) Usar la teoría estadística para construir un indicador de concordancia entre los
datos y la hipótesis nula. Este indicador denominado estadístico de prueba será
usado para juzgar la hipótesis Ho.
3-22

4) Establecer el criterio o regla de decisión, es decir la zona de la distribución del


estadístico de prueba donde se rechaza Ho, la cual se denomina región crítica.
5) Calcular el valor del estadístico de prueba a partir de la muestra.
6) Aplicar la regla de decisión: si el valor del estadístico de prueba pertenece a la
región crítica, entonces rechazar Ho. En caso contrario, lo que se puede afirmar es
que no existe suficiente evidencia para rechazar Ho, y se acepta Ho.
7) Si se dispone de una hipótesis alternativa y de la distribución del estadístico de
contraste bajo la suposición de que es válida la hipótesis alternativa, es posible
calcular la probabilidad de error tipo II.

3.3.3.2 PROCEDIMIENTO GENERAL DE UN CONTRASTE DE HIPOTESIS


BASADO EN EL P-VALOR

Cuando se interpretan los resultados de un contraste, las conclusiones están basadas en


una regla de decisión. Esta, como se ha visto anteriormente, se establece teniendo en
cuenta el riesgo que asume el investigador analista de cometer un error tipo I, siendo la
probabilidad de este error el nivel de significación α. Otras personas que quieran utilizar
los resultados del experimento pueden tener en mente, sin embargo, la decisión a tomar
para un nivel de significación diferente, con lo cual será útil conocer qué tipo de decisión
se puede adoptar según el nivel de significación real de un contraste basándose en los
datos observados. Este concepto actuará como contrapuesto al nivel de significación
elegido antes de realizar el contraste (PEREZ, 1999, cap.5).
Otro procedimiento general para efectuar un contraste de hipótesis, más usado en la
actualidad debido a la potencialidad de los ordenadores y del software estadístico
existente, consiste en tomar una decisión a partir del cálculo de la probabilidad del
estadístico muestral que se utiliza para contrastar la hipótesis nula, y que es
proporcionada por las salidas de tales programas. Esta probabilidad se denomina p-valor o
simplemente p. En otras palabras se denomina p-valor o nivel de significación observado o
valor p, a la probabilidad del estadístico muestral en su distribución y se compara con el
nivel de significación α.
El procedimiento de contraste de hipótesis usando el concepto del p-valor se puede
resumir en los siguientes pasos (PEREZ, 1999, cap.5):
3-23

1) Suponer que Ho es cierta.


2) Para confrontar esta suposición con la información (parcial) que proveen los datos
sobre la realidad de Ho, se forma una especie de “indicador” de concordancia,
denominado estadístico de la prueba, el cual es función de los datos.
3) Como el estadístico depende de la información de los datos, con cada muestra
posible hay asociado un valor de este estadístico y en consecuencia se genera una
nueva variable aleatoria. Asociada a esta variable hay una cierta distribución de
probabilidad, a partir de la cual se determina la probabilidad de que la información
de los datos concuerde con la hipótesis nula, denominado p-valor.
4) Es claro que si de antemano se fija la máxima probabilidad de error al rechazar Ho
cuando es cierta, esta debe ser igual a α, otra forma de tomar la decisión es
comparar el valor del p-valor con α. Así:

• Si p ≤ α entonces la decisión es rechazar Ho.


• Si p> α la decisión es que no existe evidencia suficiente para
rechazar Ho.

3.3.3.3 PROCEDIMIENTO GENERAL DE UN CONTRASTE DE HIPOTESIS


BASADO EN LA CREACION DE INTERVALOS DE CONFIANZA

Los intervalos de confianza tienen la ventaja frente a los contrastes de hipótesis de que
siempre dan una idea de la zona en que se va a encontrar el verdadero valor del
parámetro poblacional, mientras que en el caso de los contrastes de hipótesis, cuando se
rechaza una hipótesis nula, no se conoce el valor del parámetro de la población en
cuestión. Todo lo que se sabe es que es más verosímil que el valor del parámetro sea
mayor o menor que un valor concreto (PEREZ, 1999, cap. 5).
En algunas ocasiones, en lugar de llevar a cabo un procedimiento de contraste de
hipótesis sobre un parámetro, se puede construir un intervalo de confianza para el
parámetro y extraer conclusiones del mismo. Supóngase que se desea contrastar Ho: µ =
µo frente a H1: µ ≠ µo. Si el nivel de significación es α, se pueden utilizar los datos de la
muestra para construir un intervalo de confianza para µ al (1-α)100%. Si el valor de µo no
está incluido en el intervalo hay que rechazar Ho; pero si el valor de µo se encuentra en el
intervalo calculado, no hay evidencia para rechazar a Ho. Una ventaja de este
3-24

procedimiento es que se pueden contrastar muchas hipótesis nulas de una vez, ya que se
puede rechazar cualquier hipótesis nula de la forma Ho: µ = k para cualquier valor de k
que no pertenezca al intervalo (PEREZ, 1999, cap.5).

3.3.4 USO DE CURVAS DE POTENCIA O CURVAS OC

Un aspecto de mucha importancia en los problemas de contrastes de hipótesis es la


selección del tamaño muestral. Dicha selección y la probabilidad del error tipo II(β) están
muy relacionados. Supóngase que se contrasta la hipótesis: Ho: µ = µo frente a H1: µ ≠
µo, y que la media no es igual al valor especificado, de forma que ∆ = µ - µo. Como Ho: µ
= µo no es verdadera el problema está en decidir erróneamente no rechazar Ho. La
probabilidad de error tipo II depende de la diferencia verdadera que hay entre la media y
el valor especificado (∆). La gráfica de β contra ∆, en el caso particular de un tamaño
muestral n de la muestra, se conoce como Curva Característica de Operación o Curva
OC de la prueba. Generalmente, para un valor dado de ∆, el valor de β disminuye a
medida que aumenta el tamaño de la muestra n. Esto significa que la diferencia específica
del nivel medio es más fácil de detectar en muestras grandes que en muestras pequeñas.
Todo contraste de hipótesis tiene una curva característica de operación (OC) (JURAN y
GRYMA, 1993, cap. 23).
En muchas situaciones prácticas, las probabilidades de error tipo II (β) pueden
determinarse a partir de diagramas semejantes a los dados en el anexo A3. El diagrama a,
del anexo A3, permite localizar los valores de β que corresponden a los de µ, µo, σ, n y α
para la hipótesis propuesta, y se fundamenta en la suposición de que la distribución
muestral de la media es una normal; en consecuencia puede utilizarse cuando n es
relativamente grande o si la población que se está muestreando tiene forma aproximada a
la distribución normal. Para el caso, la figura a, se aplica a pruebas de dos colas con α =
0.05 y la cantidad que se grafica no es µ sino (MILLER y FREUND, 1986, cap. 7):

∆ µ − µo
d= =
σ σ
3-25

En la figura b, del anexo A3, se presenta la curva de potencia para una diferencia de
medias de dos poblaciones en la que la cantidad que se grafica es (MONTGOMERY, 1991,
cap.2):

∆ µ1 − µ2
d= =
2σ 2σ

3.3.4.1 DETERMINACION DEL TAMAÑO MUESTRAL PARA CONTRASTAR


HIPOTESIS.

En los apartados anteriores, se daba por supuesto que el tamaño muestral se fijaba por
razones estadísticas y que el error tipo I solo quedaba predefinido en la prueba. El
procedimiento ideal es definir los errores tipo I y II deseados y calcular el tamaño muestral
n requerido para cubrir ambos tipos de errores. El tamaño requerido dependerá de (JURAN
y GRYMA, 1993, cap. 23):

i) Los riesgos de muestreo deseados α y β.


ii) El tamaño de la menor diferencia verdadera que ha de ser
detectada.
iii) La variación de la característica que ha de ser medida.

El tamaño muestral n puede determinarse haciendo uso de la curva OC correspondiente a


la prueba.
Supóngase que el tiempo medio de secado de un precipitado es aproximadamente de 35
minutos, específicamente se tiene un 90% de seguridad de detectar ese cambio (β = 0.1).
Además si la media verdadera fuera de 30 minutos y σ = 10, debía haber sólo un 5% de
riesgo de rechazar Ho (α = 0.05). Del gráfico a) del anexo A3 se define “d” como:

µ − µo 35 − 30
d= = = 0.5
σ 10
Localizando el punto correspondiente a d = 0.5 y β = 0.10 en el diagrama a del anexo A3,
se encuentra que la muestra n ha de ser igual a 30, aproximadamente.
En la práctica del análisis químico, es necesario el análisis de las curvas OC
correspondientes a muestras de varios tamaños para ayudar a adoptar una decisión acerca
del tamaño requerido de los riesgos I y II. En general, los valores de α y β deberán
3-26

mantener un equilibrio, α debe regularse de tal forma que la probabilidad de β no sea


superior al 10%.

3.3.4.2 CONTRASTES DE HIPOTESIS UNILATERALES Y BILATERALES

Supóngase, como ilustración que se utiliza el símbolo θ para denotar el parámetro

poblacional de interés, por ejemplo, θ puede ser µ, (µ1- µ2), π ó (π 1-π 2), y el símbolo è̂
para denotar el estimador puntual insesgado correspondiente. Desde el punto de vista
práctico se puede tener interés en contrastar la hipótesis nula H0 : θ = θ0, contra la
alternativa de que el parámetro poblacional es mayor que θ0, o sea H1 : θ > θ0. En esta

situación, se rechazará H0 cuando è̂ sea grande, o sea cuando el estadístico de prueba


sea mayor que un cierto valor llamado valor crítico, que separa las regiones de rechazo y
no rechazo de la hipótesis. La probabilidad de rechazar la hipótesis nula cuando es cierta
será igual al área bajo la curva de la distribución muestral del estadístico de prueba sobre
la región de rechazo. Por ejemplo, en el caso de que se esté trabajando con una
distribución normal y un α = 0.05, se rechaza la hipótesis nula cuando è̂ se encuentre a
más de 1,645σθˆ a la derecha de θ0. En general, para detectar θ > θ0, se sitúa la región

de rechazo en la extremidad de valores superiores a è̂ . Para detectar θ < θ0 se ubica la

región de rechazo en la extremidad izquierda de la distribución de è̂ , o sea para valores


inferiores a è̂ . A este tipo de contraste se le denomina prueba estadística de una cola o
unilateral , es decir que un contraste unilateral es aquel tipo de prueba en la que la región
de rechazo se localiza solamente en una cola o extremo de la distribución muestral del
estadístico de contraste (JURAN y GRYMA, 1993, cap. 23).
Si hay que detectar diferencias mayores o menores de θ0, la hipótesis alternativa será
H1: θ ≠ θ0, es decir: θ > θ0 o bien θ < θ0. En este caso la probabilidad de error Tipo I (α)
se repartirá entre las dos colas de la distribución muestral del estadístico, y se rechazará
H0 para valores de è̂ mayores que un valor crítico (θ0 + C) o menor que (θ0- C). Esta
prueba se llama prueba estadística bilateral o de dos colas (JURAN y GRYMA, 1993, cap.
23).
En los contrastes unilaterales, utilizando la creación de un intervalo de confianza, Ho se
rechaza si θ0 es mayor que el extremo superior del intervalo de confianza (caso de θ > θ0),
3-27

mientras que si θ0 menor o igual que el extremo superior del intervalo de confianza, no
hay evidencia para rechazar Ho. Si se quiere contrastar Ho: θ = θ0 frente a H1: θ < θ0, a un
nivel de significación α se puede razonar de manera similar, si se construye un intervalo
de confianza para θ al 100(1-2α)%. Si el valor de θ0 es menor que el extremo inferior del
intervalo, hay que rechazar Ho; si θ0 es mayor o igual que el extremo inferior del intervalo,
no hay evidencia para rechazar Ho. Para el caso de contrastes bilaterales, se rechaza Ho si
θ0 cae fuera del intervalo creado del 100(1-α)% (JURAN y GRYMA, 1993, cap. 23).
A continuación se detallan algunas directrices para la realización de un ensayo unilateral o
bilateral basado en el análisis de las curvas características de operación (JURAN y GRYMA,
1993, cap. 23):

• Realícese un ensayo unilateral (una cola) con todo el riesgo a la derecha si: (1) se
sabe que (si θ0 no es verdadero) el parámetro real (o de comparación) es mayor
que θ0; (2) los valores del parámetro poblacional menores que θ0 (o el valor
especificado) son aceptables y solo se está interesado en detectar un parámetro
poblacional mayor que θ0.

• Realícese un ensayo bilateral (dos colas) si: (1) no hay un conocimiento previo
acerca de la posición del parámetro real o, (2) se está interesado en detectar un
parámetro poblacional real menor o mayor que el θ0 enunciado en la hipótesis
original.

3.3.5 MODO DE SACAR CONCLUSIONES DE LOS CONTRASTES DE


HIPOTESIS

Con los contrastes de hipótesis se pueden sacar conclusiones útiles. Cuando se rechaza
una hipótesis, la conclusión práctic a es “el valor del parámetro especificado en la hipótesis
es erróneo”. Se llega a esta conclusión con profunda convicción, sencillamente hablando,
con un nivel de confianza del 100(1-α)%. La pregunta clave es entonces: ¿Cuál es, pues,
una buena estimación del valor del parámetro correspondiente a la población? Se puede
ayudar a responder esta pregunta calculando los “límites de confianza” del parámetro
(JURAN y GRYMA, 1993, cap. 23).
3-28

Cuando se acepta una hipótesis, el valor numérico del parámetro contrastado en la


hipótesis no se ha probado, pero no se ha refutado. No es válido decir que ha quedado
probado que la hipótesis es correcta, con un nivel de confianza del 100(1-α)%. Se podrían
aceptar otras muchas hipótesis para la misma muestra de observaciones y, sin embargo,
sólo una hipótesis puede ser verdadera. Por lo tanto, una aceptación no significa haber
probado, con una elevada probabilidad, que una hipótesis determinada es correcta. (Si
permanecen invariables todos los demás factores, cuanto más pequeña sea la muestra,
más probable es que se acepte la hipótesis. La menor evidencia no implica ciertamente
una prueba.) Por esta razón, la expresión más frecuente utilizada actualmente es la de que
“la hipótesis no ha sido rechazada, con un nivel de significación α” en vez de “la hipótesis
ha sido aceptada, con un nivel α” (JURAN y GRYMA, 1993, cap. 23).
Cuando se acepta una hipótesis, la pregunta clave es: ¿Qué conclusión puede extraerse, si
es que puede extraerse alguna, acerca del valor del parámetro de la hipótesis? Se
sugieren dos enfoques (JURAN y GRYMA, 1993, cap. 23):

1. Calcular los límites de confianza del resultado de la muestra. Estos límites de


confianza definen un intervalo dentro del cual está el verdadero parámetro de la
población. Si este intervalo es pequeño, una decisión de aceptación en el ensayo
de hipótesis significa que el verdadero valor de la población es igual o muy próximo
al indicado en la hipótesis. Luego, es razonable actuar como si el valor del
parámetro especificado fuera de hecho correcto. Si el intervalo de confianza es
relativamente amplio, implica una seria advertencia de que el valor enunciado en la
hipótesis no ha quedado probado y que el valor verdadero de la población podría
ser muy diferente al especificado en la hipótesis.

2. Construir y analizar la curva característica para el contraste de hipótesis. Esta


define la probabilidad de que puedan aceptarse con la prueba otros valores
posibles del parámetro poblacional. El conocimiento de estas probabilidades para
valores relativamente cercanos a la hipótesis original puede ayudar a extraer
nuevas conclusiones acerca de la aceptación de la hipótesis original.

Hay que tener siempre cuidado de extraer conclusiones técnicas de conclusiones


estadísticas, en particular cuando se acepta la hipótesis (JURAN y GRYMA, 1993, cap. 23).
3-29

3.3.6 CASOS PARTICULARES DE CONTRASTES DE HIPOTESIS

En los contrastes de hipótesis es frecuente hacer supuestos que dependen del tipo de
contraste o prueba, como son las características acerca de los datos que se van a
manipular (independencia de las observaciones, nivel de medida utilizada, etc.) y los
supuestos de la distribución de partida (normal, binomial, etc.). Algunos de estos
supuestos podrían controlarse, otros serán de difícil verificación. La violación de dichos
supuestos podrá invalidar más o menos el modelo probabilístico y conducir a conclusiones
erróneas.

En general, un contraste de hipótesis puede servir para:

Ø Comparar un promedio muestral con un valor especificado.

Ø Comparar la variabilidad muestral con un valor específico.

Ø Comparar varianzas de dos muestras.

Ø Comparar promedios de dos muestras.

Ø Comparar parámetros de poblaciones binomiales.

Ø Comparar parámetros de poblaciones de Poisson.

En las secciones de la 3.3.6.1 a la 3.3.6.3, se presentan los resúmenes de los elementos


principales para los distintos tipos de contrastes de hipótesis, tanto para el caso unilateral
como bilateral.

3.3.6.1 COMPARACION DE PROMEDIOS MUESTRALES

En la comparación de promedios muestrales pueden presentarse dos casos generales:

1. Comparación de un promedio muestral con un valor especificado (µo). Que


presenta dos casos particulares: (i) Comparación de un promedio muestral con un
valor especificado (µo) cuando se conoce la desviación estándar de la población
(σ), y (ii) comparación de un promedio muestral con un valor especificado (µo)
cuando no se conoce la desviación estándar de la población (σ).

2. Comparación de dos promedios a partir de las medias muestrales (X 1 y X 2 ). Se

presentan tres casos particulares: (i) Comparación de dos promedios cuando las
3-30

desviaciones estándar de las dos poblaciones son conocidas (σ 1 y σ 2); (ii) comparación
de dos promedios cuando las desviaciones estándar de las dos poblaciones son
desconocidas y consideradas diferentes (σ 1 ≠ σ 2); y (iii) comparación de dos promedios
cuando las desviaciones estándar de las dos poblaciones son desconocidas y
consideradas iguales (σ 1 = σ 2).

El control de algunos supuestos a tomar en cuenta para llevar a cabo estos tipos de contrastes,
puede lograrse cuando los datos se recolectan de forma que el único factor que influya, sea
aquel cuyo efecto se quiere evaluar, así como también, mediante la aleatorización de la
recogida de datos (todo lo que se pueda) para protegerse de posibles sesgos introducidos por
factores no identificados.

En las tablas de la 3.5 a la 3.9 se describen los componentes principales de los contrastes de
hipótesis antes mencionados en sus distintos casos particulares.

TABLA 3.5 COMPARACION DE LA MEDIA MUESTRAL CON UN VALOR ESPECIFICADO,


CASO σ CONOCIDA

1. Hipótesis nula: Ho: µ = µo


2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: µ > µo H1: µ ≠ µo
(o bien µ < µo)

x − µo
3. Estadístico de contraste: Z=
σ n

4. Región de rechazo:
Prueba de una cola Prueba de dos colas
Z> Zα z > Zα/2
(o sea, Z < -Zα cuando la hipótesis
alternativa es H1: µ < µo)
Los valores de z, zα, y zα/2 se obtienen de las
tablas de la distribución N(0,1), como la que se
presenta en la tabla A2 del capítulo 1.

Suposiciones: La muestra se seleccionó aleatoria e independientemente de una población


distribuida normalmente o bien para muestras con n > 30.
3-31

TABLA 3.6 COMPARACION DE LA MEDIA MUESTRAL CON UN VALOR ESPECIFICADO,


CASO σ DESCONOCIDA

1. Hipótesis nula: Ho: µ = µo


2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: µ > µo H1: µ ≠ µo
(o bien µ < µo)

x − µo
3. Estadístico de contraste: t=
s n

4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µ < µo)
Los valores de t, tα y tα/2 se basan en ( n-1)
grados de libertad. Estos valores están
tabulados en el anexo A del capítulo 2.

Suposiciones: La muestra se seleccionó aleatoria e independientemente de una población


distribuida normalmente con n < 30.
3-32

TABLA 3.7 COMPARACION DE LAS MEDIAS MUESTRALES DE DOS MUESTRAS, CASO σ1 Y


σ2 DADAS

1. Hipótesis nula: Ho : µ1 - µ2 = Do , donde Do es


una diferencia especificada que se quiere
probar. Para muchas pruebas tal vez se desee
probar que no hay una diferencia entre µ1 y µ2,
es decir Do =0.
2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: (µ1 - µ2) > Do H1: (µ1-µ2) ≠ Do
(o bien (µ1- µ2) < Do)

3. Estadístico de contraste: (x1 − x2 ) − D o


z=
σ12 σ22
+
n1 n2

4. Región de rechazo:
Prueba de una cola Prueba de dos colas
Z> Zα z > Zα/2
(o sea, Z < -Zα cuando la hipótesis
alternativa es H1: µ1 < µ2)
Los valores de z, zα, y zα/2 se obtienen de las
tablas de la distribución N(0,1), como la que se
presenta en la tabla A2 del capítulo 1.

Suposiciones: Las muestras se seleccionaron aleatoriamente de poblaciones distribuidas


normalmente con n > 30.
3-33

TABLA 3.8 COMPARACION DE LAS MEDIAS MUESTRALES DE DOS MUESTRAS, CASO σ1 Y


σ2 DESCONOCIDAS Y DIFERENTES

1. Hipótesis nula: Ho : µ1 - µ2 = Do , donde Do


es una diferencia especificada que se quiere
probar. Para muchas pruebas tal vez se desee
probar que no hay una diferencia entre µ1 y µ2,
es decir Do =0.
2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: (µ1 - µ2) > Do H1: (µ1-µ2) ≠ Do
(o bien (µ1- µ2) < Do)

3. Estadístico de contraste: Grados de libertad:


(x1 − x 2 ) − D o
t=  s 12 s 22 
2

s s  
n + n 
2 2
1
+ 2

n1 n 2  1 2 
ν = −2
(s 2
1 / n1 ) 2

+
(s 2
2 / n2 ) 2

n1 + 1 n2 + 1

4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µ1 < µ2)
Los valores de t, tα y tα/2 se basan en ν grados
de libertad. Estos valores están tabulados en el
anexo A del capítulo 2.

Suposiciones: Las muestras se seleccionaron aleatoria e independientemente de dos poblaciones


distribuidas normalmente. Las varianzas poblacionales, σ1 y σ2, son diferentes.
3-34

TABLA 3.9 COMPARACION DE LAS MEDIAS MUESTRALES DE DOS MUESTRAS, CASO σ1 Y


σ2 DESCONOCIDAS E IGUALES

1. Hipótesis nula: Ho : µ1 - µ2 = Do , donde Do


es una diferencia especificada que se quiere
probar. Para muchas pruebas tal vez se desee
probar que no hay una diferencia entre µ1 y µ2,
es decir Do =0.
2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: (µ1 - µ2) > Do H1: (µ1-µ2) ≠ Do
(o bien (µ1- µ2) < Do)

3. Estadístico de contraste: Grados de libertad:


(x1 − x 2 ) − D o ν = n1 + n2 – 2
t=
1 1
sp + Desviación estándar ponderada sp:
n1 n 2 n1 n2

∑ (x i − x1 ) − ∑ (x i − x 2 ) 2
2

s 2p = i=1 i=1
ó
n1 + n 2 − 2

(n1 − 1)s 12 + (n 2 − 1)s 22


s 2p =
n1 + n2 − 2

4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µ1 < µ2)
Los valores de t, tα y tα/2 se basan en ν grados
de libertad. Estos valores están tabulados en el
anexo A del capítulo 2.

Suposiciones: Las muestras se seleccionaron aleatoria e independientemente de dos poblaciones


distribuidas normalmente. Las varianzas poblacionales, σ1 y σ2, son iguales. En el caso de que la
suposición de igualdad de varianzas de las dos poblaciones no se cumpla, la prueba t de varianzas
iguales es robusta cuando los tamaños de las dos muestran no difieren. Dicha prueba también es
robusta frente a desviaciones moderadas de la normalidad cuando el tamaño de las muestras son
grandes.
3-35

3.3.6.2 COMPARACION DE VARIANZAS MUESTRALES

La comparación de varianzas muestrales puede ser de dos tipos:

1. Comparar una varianza (o desviación típica) con un valor especificado (σo).

2. Comparar dos varianzas (o desviaciones típicas) σ1 y σ2.

Las consideraciones a tomar en cuenta en la recolección de datos para asegurar la


aproximación al cumplimiento de los supuestos tomados en este tipo de contrastes de
hipótesis son las mismas que las sugeridas en la sección 3.3.6.1 para la comparación de
promedios. En las tablas 3.10 y 3.11 se describen los componentes principales de los
contrastes de hipótesis antes mencionados.

TABLA 3.10 COMPARACION DE LA VARIANZA MUESTRAL CON UN VALOR ESPECIFICADO σO

1. Hipótesis nula: Ho: σ2 = σo2


2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: σ2 > σo2 H1: σ2 ≠ σo2
2 2
(o bien σ <σo )

(n − 1)s 2
3. Estadístico de contraste: χ2 =
σo2

4. Región de rechazo:
Prueba de una cola Prueba de dos colas

χ2> χα2 χ2> χα2 / 2 o sea χ2 < χ(21−α / 2 )

(o bien, χ2 < χ(21−α ) cuando la hipótesis Donde χα2 / 2 y χ(21−α / 2 ) son los valores de la cola superior
e inferior, respectivamente, de χ2 que ponen α/2 en las
alternativa es H1: σ2<σo2)
áreas de las colas.

χα2 y χ(21−α ) son los valores de la cola superior e inferior, Los valores críticos de χ2 se basan en (n-1) grados de
libertad. Estos valores tabulados se dan en el anexo B del
respectivamente de χ2 que ponen α en las áreas de las colas. capítulo 2.

Suposiciones: La muestra se seleccionó aleatoriamente de una población distribuida normalmente.


3-36

TABLA 3.11 COMPARACION DE DOS VARIANZAS σ1 Y σ2

2
1. Hipótesis nula: Ho: σ1 = σ2 2
2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


2 2 2 2
H1: σ1 > σ2 H1: σ1 ≠ σ2
(o bien σ1 2<σ2 2)

s 21
3. Estadístico de contraste: F=
s 22

En donde s 12 , es la varianza muestral mayor

4. Región de rechazo:
Prueba de una cola Prueba de dos colas

F > F α ,n 1 − 1 ,n 2 −2 ó F < F 1 −α ,n 1 −1 ,n 2 − 2 F > F α / 2 ,n 1 − 1 ,n 2 −1 ó F < F 1−α / 2 ,n1 −1 ,n 2 −1

Los valores críticos de Fα y Fα/2 se basan en (n1 - Los valores críticos de Fα/2 y F1-α/2 se basan en
1) grados de libertad en el numerador y (n2 -1) (n1 -1) grados de libertad en el numerador y (n2
grados de libertad en el denominador. Estos -1) grados de libertad en el denominador. Estos
valores se encuentran tabulados, para α= 0.05, valores se encuentran tabulados, para α= 0.05,
0.01, 0.025, 0.975, en el anexo C del capítulo 2. 0.01, 0.025, 0.975, en el anexo C del capítulo 2.

Suposiciones: Las dos muestras se seleccionaron aleatoria e independientemente de dos


poblaciones con distribución normal.

3.3.6.3 COMPARACION DE DATOS POR PARES

En una comparación del comportamiento de un sistema sometido a dos tratamientos


puede considerarse que en los datos obtenidos influyen cuatro tipos de factores:

I. El factor cuyo efecto se desea estudiar.

II. Factores identificados que pueden influir en la respuesta, pero que es posible
mantener constantes durante la extracción de las dos muestras.

III. Factores identificados que pueden influir en la respuesta y que resulta imposible
mantener constantes para los dos tratamientos. Esto hace necesario bloquear, es
3-37

decir analizar diferencias dentro de bloques homogéneos en los que los factores
afectan por igual.

IV. Otros factores no identificados, que también pueden influir en los resultados
obtenidos (respuesta). Lo anterior, implica la aleatorización.

Si se considera un único factor del tercer tipo que influye sobre la respuesta y del cual no
puede asegurarse que afecte exactamente igual a los dos tratamientos, es necesario
“bloquear” (crear bloques), es decir analizar las diferencias dentro de los bloques
homogéneos en que los factores afectan por igual. Por ejemplo, con frecuencia ocurre que
deben compararse dos métodos de análisis por medio del estudio de muestras que
contienen, de manera sustancial, diferentes cantidades de analito. El problema consiste en
estudiar la eficiencia de los métodos de análisis independientemente de las
concentraciones analito que pueden contener las muestras de diferente procedencia. En
general, la consigna en el diseño de la recolección de datos es bloquear lo que sea
necesario y aleatorizar el resto.

Lo anterior sugiere que los pares de datos se recolecten por bloque considerando que este
afecta por igual a los dos tratamientos. La idea básica es que las diferencias dentro de los
distintos bloques fluctúan menos que los valores individuales, ello va a hacer posible llevar
a cabo comparaciones mucho más precisas, y el análisis se hará sobre los valores de
dichas diferencias. Las diferencia entre los tratamientos para los distintos bloques se
definen como:

di = x i1 − xi 2

En la tabla 3.12 se presenta un resumen para la prueba de hipótesis de comparación de


tratamientos considerando el efecto de bloque.
3-38

µ 1 - µ2 ) = µd
TABLA 3.12 PRUEBA DE HIPOTESIS PARA DATOS POR PARES (µ

1. Hipótesis nula: Ho: µd = 0


2. Hipótesis alternativa

Prueba de una cola Prueba de dos colas


H1: µd > 0 H1: µd ≠ 0
(o bien µd < 0)

3. Estadístico de contraste:
d −0 d
t = =  n 
2

sd n sd n
n
 ∑ di 
di −  
∑ 2 i=1

n
1 sd = i =1
d= ∑ di
n i=1
y n −1
n

∑ (d − d)
2
i
sd = i =1

n −1

4. Región de rechazo:
Prueba de una cola Prueba de dos colas
t > tα t > tα/2 o bien t < -tα/2
(o sea, t < -tα cuando la hipótesis
alternativa es H1: µd < 0)
Los valores de t, tα y tα/2 se basan en ( n-1)
grados de libertad. Estos valores están
tabulados en el anexo A del capítulo 2.

Suposiciones: Se seleccionan aleatoriamente las n diferencias por parejas de una población


distribuida normalmente.

Si se quiere evaluar las diferencias entre los parámetros de más de dos grupos, por
ejemplo la durabilidad de distintos tipos de cubiertas, no es correcto realizar tales
evaluaciones usando el contraste de diferencias de medias tomando los diferentes pares
de medias. Para solucionar este problema si las mediciones resultantes son continuas y se
cumplen las siguientes suposiciones: i) los datos son obtenidos de manera aleatoria e
independiente o que los individuos sean asignados a los grupos aleatoriamente, ii) los
valores de cada grupo están distribuidos normalmente, iii) la varianza dentro de cada
3-39

población debería ser igual para todas las poblaciones, existe una metodología conocida
como análisis de varianza (ANOVA) para comparar la medias de los grupos y cuya
hipótesis nula es H0 : µ1 = µ2 = …= µk . Por otra parte, si los supuestos ii) o iii) no se
cumplen existen metodologías que permiten todavía llevar cabo las comparaciones
deseadas (métodos no paramétricos).

3.3.6.4 CONTRASTES PARA LOS PARAMETROS BINOMIALES p Y (p1 – p2) Y

PARA EL PARAMETRO DE LA DISTRIBUCION DE POISSON λ

Sea p = xi/n la proporción poblacional estimada del número de veces que aparece el
suceso de Bernoulli de entre n repeticiones de un experimento (x= nº de veces que
X + 1 / 2 − np
aparece el suceso). Si np(1-p) >9 el estadístico z = se aproxima a una
np (1 − p )
distribución Normal(0, 1), siendo X = nº de veces que aparece en la muestra el suceso
considerado.

Cuando la población sigue una distribución de Poisson de parámetro λ con λ >9, el


X + 1/ 2 − λ
estadístico z = se aproxima a una distribución Normal(0, 1) (PEREZ, 1999,
λ
cap.5).

En la tabla 3.13 se presentan los elementos para el contraste de hipótesis de parámetros


binomiales y de Poisson.
3-40

TABLA 3.13 CONTRASTES DE HIPOTESIS PARA PARÁMETROS BINOMIALES Y DE


POISSON

HIPOTESIS ESTADISTICO REGIONES CRITICAS

HO: p = p o

H1: p ≠ po X + 1 / 2 − np o z > zα/2


z =
np o (1 − p o )
H1: p < po z < -zα
H1: p > po z > zα

HO: λ = λo

H1: λ ≠ λo X + 1 / 2 − λo z > zα/2


z=
λo
H1: λ < λo z < -zα
H1: λ> λo z > zα

HO: p1 = p2

H1: p1 ≠ p2 pˆ1 − pˆ2 z > zα/2


z =
pˆ1 (1 − pˆ1 ) pˆ2 (1 − pˆ2 )
H1: p1 < p 2 + z < -zα
n1 n2
H1: p1 > p 2 z > zα

Los valores de p̂1 y p̂ 2 del cuadro anterior representan las proporciones de éxitos en dos

muestras grandes independientes de tamaños n1 y n2 respectivamente, tomadas de dos


poblaciones binomiales.

3.4 DETERMINACIÓN DE DATOS ANOMALOS

Frecuentemente en los resultados de una serie de mediciones se observa que una o más
de ellas parecen ser muy improbablemente grandes o pequeñas respecto de la mayoría de
mediciones de la muestra. Tal medición (o mediciones) recibe el nombre de valor inusitado
o anómalo o “outlier”. Es decir, los datos anómalos o outliers son las observaciones que
3-41

aparentan ser inconsistentes con el resto de los datos colectados. Un valor anómalo puede
ser consecuencia de:

a. Un evento poco probable pero que ocurre en alguna ocasión.

b. Una medición que provenga de una muestra que realmente no forme parte de la
población muestreada (por ejemplo, debido a una contaminación).

c. Una medición errónea.

El término de dato anómalo o outlier se usa colectivamente tanto para observaciones


discordantes (caso c), como para contaminantes (casos a y b).

La presencia de un valor (o valores) anómalos hace surgir en el químico analista la


siguiente interrogante: ¿Es conveniente conservar este dato en la muestra o debe
rechazarse?

En general, la elección de criterios para el rechazo de valores anómalos tiene sus peligros.
Si se establece un criterio poco riguroso que haga difícil eliminar un resultado dudoso, se
corre el riesgo de retener resultados falsos que pueden tener un efecto errático sobre las
estimaciones e inferencias que deban hacerse con dichos datos. Si por el contrario hay
mucha rigurosidad en el criterio elegido, posiblemente se descarten mediciones que son
correctas dentro del conjunto, lo que podría llevar a una tendencia en los datos. Por
desgracia, no hay una regla universal que resuelva el asunto del rechazo o retención de
resultados. Sin embargo, existen dos caminos para administrar la presencia de los datos
anómalos. En el laboratorio, es recomendable el mantenimiento de un buen registro de
cada experimento (aseguramiento de calidad), en donde todos los datos deberían ser
registrados con cualquier posible explicación o información adicional. En el análisis de los
datos, existen varios métodos estadísticos robustos recomendados, como contrastes de
hipótesis, que permiten detectar con cierta probabilidad la presencia de valores anómalos
y en los que puede definirse el siguiente contraste de hipótesis:

Ho: no hay datos anómalos en el conjunto de datos, y

H1 : hay al menos un dato anómalo en el conjunto de datos.


3-42

Entre estos métodos se encuentran: a) La prueba GRAF/HENNING (ó z-score) (n>25); b)


La prueba “Q” de Dixon; c) La prueba t; y d) La prueba de GRUBBS (3<n<150); y e) La
prueba de HUBER.:

A continuación se exponen los procedimientos para las pruebas antes mencionadas:

a. PRUEBA DE GRAF/HENNING (MENDENHALL, 1990, cap. 2)

Esta prueba se aplica cuando se cuenta con un numero de más de 25 mediciones, y


consiste en comparar si el valor del dato anómalo (x) excede el rango:

X ± 4s

en donde X y s son el promedio y desviación estándar de al muestra sin tomar en


cuenta el valor anómalo (x).

b. PRUEBA “Q” DE DIXON (BODE, 1999)

La prueba Q es buena para sistemas con datos relativamente dispersos o cuando el


control estadístico no esta todavía establecido, es bueno para detectar un pequeño
número de datos anómalos, y se usa para muestras de tamaños que oscilen entre 3 y
25 datos. El procedimiento para la prueba es el siguiente:

1. Definir el rango de los datos existentes: RA = XM A X – XMIN

2. Encontrar la distancia entre el valor anómalo (Xa) y el valor más cercano a él


existente (Xc), DI = abs(Xa – Xc ).

3. Calcule el cociente QU = DI/RA y compare con un valor tabulado.

4. Si el cociente es más pequeño que ese valor tabulado en la tabla del anexo B3 para
un nivel de confianza dado, no hay razón para creer que el dato sospechoso es un
dato anómalo.

La prueba de Dixon puede repetirse para evaluar otros outliers, sin embargo, el poder
de la misma disminuye cuando el número de repeticiones incrementa.

c. PRUEBA “t” (APHA, 1996, cap. 1)


3-43

Este criterio se aplica a un grupo de 3 o más resultados, el procedimiento para la


prueba “t” es el siguiente:

1. Se encuentra el promedio ( x ) y la desviación estándar (s) de los datos.

2. Se obtiene la distancia entre el valor sospechoso (Xa) y el promedio ( x ): Dp =


abs(Xa – x ).

3. Se obtiene el cociente t = Dp/R.

4. Si el valor de t es menor que el valor tabulado en la tabla del anexo B3 para un


nivel confianza dado, no hay razón para creer que el dato debe rechazarse. Esta
prueba puede emplearse además, para determinar si un nuevo resultado obtenido
pertenece a la distribución establecida por una serie anterior, sólo que en este caso
el valor de t tabulado deberá obtenerse de la tabla de distribución t del anexo C3
para el nivel de significación propuesto en la prueba.

d. PRUEBA DE GRUBBS (GRUBBS, 1979)

La prueba de Grubbs, también conocida como la prueba del máximo residuo


normalizado (esta prueba es la recomendada por la EPA como la prueba estadística
para la determinación de outliers (US EPA, 1992)), se utiliza cuando un sistema esta
bajo un buen control estadístico, para una muestra de tamaño n en el intervalo de 3 a
150 (3<n<150). La prueba de Grubbs detecta un dato anómalo cada vez. El dato
anómalo es eliminado del set de datos y la prueba es iterada hasta que no se detectan
más datos anómalos. Sin embargo, las iteraciones múltiples cambian las probabilidades
de detección, y la prueba de esta forma no puede usarse para muestras de tamaño
seis o menos.

El procedimiento para la prueba es el siguiente:

1. Calcule la desviación estándar (s) de los datos existentes.

2. Definir la distancia DM= x − x , donde x es el dato sospechoso

3. Calcular el cociente G = DM/s, para pruebas iterativas el estadístico de Grubbs se

define como G = máx x − x /s


3-44

(n − 1) t ( α /( 2 n ), n − 2 )
2

4. Si G > , en donde t ( α /( 2 n ),n − 2 ) es el valor crítico de la


2

n n − 2 + t ( α /( 2 n ),n −2 )
2

distribución t con (n-2) grados de libertad y un nivel de significación α/(2n), puede


concluirse que el dato es anómalo o outlier. También puede compararse G con los
valores críticos (Gα,n) presentados en la tabla del anexo D3 para diferentes
tamaños muestrales.

e. PRUEBA DE HUBER (z-score modificado) (BODE, 1999)

Consiste en calcular la mediana de las desviaciones absolutas (MAD) de los datos


individuales con respecto a la mediana, es decir:

DESVIACIONES ABSOLUTAS = / xobs – mediana /

Se dice que un valor es un dato anómalo si no cae dentro del intervalo MEDIANA±
kmad, con k = 3.5 (que corresponde a un error en la estimación del 5%, con un grado
de confianza del 95%). Ó bien, un dato es un anómalo si su residuo absoluto es
mayor que 5.06kMAD (a un nivel de confianza del 95%).

Esta es una prueba confiable dado que los parámetros usados para calcular el
estadístico están mínimamente afectados por la presencia de datos anómalos outliers.

Como puede observarse se han desarrollado muchas pruebas estadísticas como criterios
de rechazo o retención de resultados discordantes. No obstante la mayoría de ellas asume
normalidad por lo que es recomendable verificar primero que los datos se distribuyen
razonablemente con una distribución normal. Estas pruebas para datos normales son
potentes y fáciles de usar, sin embargo, las pruebas para datos no normales son menos
potentes y más difíciles (Iglewicz, 1993). Algunas de estas pruebas están incluidas en
Barnett y Lewis (1984). En muchas situaciones los datos pueden transformarse en
distribuciones aproximadamente normales y analizarse luego las técnicas presentadas
anteriormente (Ejemplo, muchas mediciones ambientales son log-normales) (SKOOG et
al., 2000, cap. 6).
3-45

Por otra parte, estas pruebas deben usarse con extrema precaución cuando se aplican a
muestras que sólo tienen unos cuantos datos. Mandel (1978), en su análisis del
tratamie nto conjuntos pequeños de datos, escribe “Quienes crean que con la sanción
estadística pueden descartar observaciones usando pruebas estadísticas para rechazar
datos discordantes, simplemente, se engañan a sí mismos”. De tal forma, las pruebas
estadísticas para el rechazo de datos sólo deben usarse como ayuda al sentido común
cuando se tienen pocos datos (SKOOG et al., 2000, cap. 6).

La aplicación indiscriminada de las pruebas estadísticas para retener o descartar una


medición dudosa en un conjunto pequeño de datos no puede ser más confiable que una
decisión arbitraria. Una mejor estrategia es aplicar un buen criterio basado en una amplia
experiencia del método analítico. Finalmente, la única razón válida para descartar un
resultado de un conjunto pequeño de datos es la certidumbre de que se cometió un error
durante el proceso de medición. Sin este conocimiento, es recomendable ser muy
precavidos al rechazar los datos discordantes4 (SKOOG et al., 2000, cap. 6).

Las siguientes son algunas recomendaciones para el tratamiento de un conjunto pequeño


de datos que contenga un valor dudoso (SKOOG et al., 2000, cap. 6):

• Volver a examinar cuidadosamente todos los datos relacionados con el valor


dudoso para ver si un error grueso puedo haber alterado su valor.

• De ser posible tratar de estimar la incertidumbre que razonablemente puede


esperarse de un procedimiento para asegurarse que el resultado discordante es
realmente dudoso.

• Si se dispone de muestra y tiempo suficientes, conviene repetir el análisis. La


concordancia entre el nuevo dato obtenido y los que en el conjunto original se
consideran como válidos, apoyarán la decisión de rechazar el dato discordante.

• Si no pueden obtenerse más datos, deben aplicarse las pruebas de rechazo de


resultados (que se consideren convenientes), para establecer sobre bases

4
Si las observaciones son determinadas estadísticamente como anómalas, la EPA sugiere
determinar una explicación para estos datos antes de su exclusión de los análisis posteriores (US
EPA, 1992). Si no puede encontrarse una explicación, la observación debe tratarse como una
medición extrema pero válida que debe mantenerse en los análisis posteriores.
3-46

estadísticas si el resultado dudoso debe rechazarse o no. Es preferible aplicar la


pruebas paramétricas siempre y cuando se tenga la confianza en la normalidad de
los datos, de lo contrario es recomendable aplicar pruebas no paramétricas.

• Si las pruebas indican retener el dato, hay que considerar expresar los resultados
en términos de la mediana y no como la media. La mediana tiene la gran ventaja
de permitir que se incluyan todos los datos de un conjunto sin que influya mucho
un valor discordante (recuerde que la mediana es un estimador “robusto”).

3.5 PROBLEMAS DE INFERENCIA ESTADISTICA

3.5.1 PROBLEMAS DE ESTIMACION

1. Un método de absorción atómica para la determinación de cobre en combustibles


tiene una desviación estándar ponderada de σ = 0.32 µg de Cu/ml. El análisis de
una muestra de combustible mostró un contenido de cobre de 8.53 µg de Cu/ml.
Calcule los límites de confianza al 90 y 95% para el resultado, si se basa en: a) Un
solo análisis; b) El promedio de tres análisis.

Solución

El problema expuesto se trata de la creación de intervalos de confianza para el


valor medio en la determinación de cobre en muestras de combustible. Dado que
se tiene el valor de σ, de la tabla 3.2, se obtiene entonces que el intervalo de
confianza viene dado como:
zα /2σ
x ±
n

x :promedio muestral; z α / 2 :valor de la distribución N(0,1), para el nivel de


significación α/2; σ:desviación típica de la población; n: tamaño de la muestra.

A continuación se presenta la solución de cada literal:

a. De la tabla del anexo A1, Z(1-α) = Z90% = 1.64 y , Z(1-α) = Z95% = 1.96. De
esta forma:

El intervalo de confianza al 90% es:


3-47

1.64x ( 0.32 µg de Cu / ml )
I.C. (90%) = (8.53 µg de Cu/ml) ±
1
I.C.(90%) = (8.53 ± 0.52) µg de Cu/ml

Y el intervalo de confianza al 95% es:

1.96x ( 0.32 µg de Cu / ml )
I.C. (95%) = (8.53 µg de Cu/ml) ±
1
I.C.(95%) = (8.53 ± 0.63) µg de Cu/ml

De los cálculos anteriores puede concluirse que existe un 90% de probabilidad que
el intervalo de 8.01 y 9.05 µg de Cu/ml contenga el valor medio de la
concentración de cobre del tipo de gasolina analizada. Así mismo la probabilidad de
que el intervalo 7.9 y 9.16 µg de Cu/ml contenga el promedio de la concentración
media de cobre es del 95%.

b) Para las tres mediciones

el intervalo de confianza al 90% viene dado por:

1.64x ( 0.32 µg de Cu / ml )
I.C. (90%) = (8.53 µg de Cu/ml) ±
3
I.C.(90%) = (8.53 ± 0.30) µg de Cu/ml

Mientras que el intervalo de confianza al 95% es:

1.96x ( 0.32 µg de Cu / ml )
I.C. (95%) = (8.53 µg de Cu/ml) ±
3
I.C.(95%) = (8.53 ± 0.36) µg de Cu/ml

De los cálculos anteriores puede concluirse que para esta muestra de tamaño 3,
existe un 90% de probabilidad de que el intervalo de 8.23 y 8.83 µg de Cu/ml
contenga valor medio de la concentración de cobre en la gasolina del análisis.
Asimismo la probabilidad de que el intervalo 8.17 y 8.89 µg de Cu/ml contenga el
promedio de la concentración de cobre es del 95%.
Como puede observarse a medida que se aumenta el tamaño muestral se reduce el
intervalo creado para ambos niveles de confianza.
3-48

2. Teniendo en cuenta una amplia experiencia previa, se ha encontrado que la


desviación estándar de un método para el análisis de monóxido de carbono en los
gases de escape de los automóviles es de 0.80 ppm. a) Estimar el intervalo de
confianza al 95% para un análisis por triplicado; b) ¿Cuantas mediciones se
necesitarían para que el intervalo de confianza del 90% sea de 0.50 ppm?

Solución

a) En este caso debe determinarse el ancho del intervalo para un grado


de confianza del 95%. Las características de la muestra son las
siguientes:

n = 3; σ = 0.80 ppm

Dado que se cuenta con el valor de σ, el intervalo de confianza y el


ancho de dicho intervalo, a un determinado nivel de confianza, vienen
definidos por:

zα /2σ
x ±
n

De la tabla para la distribución normal tipificada (anexo A1) se ve que z


para el 95% de probabilidad es 1.96, por lo tanto sustituyendo en la
ecuación se tiene:

1.96 * 0.80 ppm


X ±( )
3
X ± 0.905 ppm

es decir que el ancho del intervalo es de 0.905 ppm

b) Para un ancho de intervalo de 0.50 ppm, y un nivel de confianza del


90% (Z90% = 1.64), el tamaño de muestra vendrá dado por:

z α/2 σ/ n = ±0.5 ppm

n = (1.64*0.80ppm)/0.5ppm = 2.624
n = 6.88
es decir que deben efectuarse 7 análisis
3-49

3. Un químico obtuvo los siguientes datos para el porcentaje de lindano en


el análisis de un insecticida: 7.47, 6.98, 7.27. Calcular el límite de
confianza al 90% para la media de los datos suponiendo que la única
información que se tiene acerca de la precisión del método es la
desviación estándar para los tres datos.

Solución:
Se quiere determinar un intervalo de confianza para el porcentaje medio
de lindano en muestras de pesticidas, cuando se hacen tres mediciones
(n = 3) y no se cuenta con el valor de σ (σ desconocida). En este caso el
intervalo de confianza para la media viene dado como:

t α / 2 ,n −1s
I.C.(1 -α) = x ±
n

x :promedio muestral; tαα/2,n-1 :coeficiente de la distribución t-student para el nivel


de significación α/2 y con n-1 grados de libertad; s:desviación típica de la de la
muestra; n: tamaño de la muestra.

Los estadísticos para las tres mediciones vienen dados por:


n

∑x i
7.47 + 6.98 + 7.27
X = i =1
= = 7.24%
n 3
n

∑ (x i −X )2
(7.47 − 7.24) 2 + (6.98 − 7.24) 2 + (7.27 − 7.24) 2
s = i =1
= = 0.25%
n −1 3 −1

El valor de la variable t para α/2= 0.05/2 = 0.025 y n-1=3-1= 2 grados


de libertad es 4.3. Por tanto, el intervalo de confianza al 95% viene
dado como:

4.3x (0.25%)
I.C. (95%) = (7.24%) ±
3
I.C.(95%) = (7.24 ± 0.62) % es decir [6.62%,7.86%]

El valor promedio del porcentaje de lindano en las muestras de pesticidas oscila


entre 6.62% y 7.86%, con un grado de confianza en la estimación del 95%.
3-50

4. En el monitoreo de la contaminación de un río se ha determinado un


nivel contaminación considerable con cromo en 10 de los noventa días
monitoreados. Construir un intervalo de confianza a un nivel de
confianza del 95% para la probabilidad de que se de una elevada
concentración de cromo bajo las condiciones de monitoreo establecidas.

Solución:
El intervalo de confianza para una proporción viene dado como (ver
tabla 3.4):
p(1 − p)
p ± zα / 2 ó p ± zα / 2 σp
n

La proporción de contaminación es p = 10/90 = 0.11, por tanto el valor


estimado de sp es:

p (1 − p) 0.11(0.89 )
sp = = = 0.033
n 90

De la tabla del anexo A1, el valor de Z al 95% de confianza es 1.96. Los


límites del intervalo son por tanto:

Limite inferior = 0.11 – (1.96*0.033) = 0.04


Limite superior = 0.11 + (1.96*0.033) = 0.169

O sea que la probabilidad de contaminación con cromo del río oscila entre 0.04< p
< 0.17 con un nivel de confianza del 95%.

3.5.2 PROBLEMAS DE CONTRASTE DE HIPOTESIS

1. El tanto por ciento de níquel de una muestra particular de acero de referencia del
NIST, es de un 1.12%. Un nuevo método espectrofotométrico para la
determinación de níquel dio los siguientes resultados sobre muestras de dicho
acero de referencia: 1.10, 1.08, 1.09, 1.12, 1.109. ¿Hay algún indicio de error
sistemático del método para un nivel de significación del 5%?;

Solución:
En general, este problema consiste en determinar si existe evidencia de error
sistemático del nuevo método empleado para la determinación de níquel. Esta
3-51

determinación se hará mediante un contraste de hipótesis bilateral de comparación


de un promedio muestral con un valor especific ado, en este caso, no se cuenta con
una estimación de σ.
El contraste de hipótesis es por tanto:

Ho: µ = 1.12% (no existe evidencia de error sistemático)


H1: µ ≠ 1.12% (si existe evidencia de error sistemático)

El estadístico de contraste y el criterio de rechazo para esta prueba vienen dados,


según la tabla 3.7, por:
(X − µo )
to = y t o > t α / 2 ,n −1
s n

La media y la desviación típica para la muestra son los siguientes:


n

∑x i
1.10 + 1.08 + 1.09 + 1.12 + 1.09
X = i =1
= = 1.096%
n 5

∑ (x i − X )2
s = i =1
= 0.0152%
n −1

De esta forma el valor del estadístico de contraste para la muestra es:


(1.096 − 1.12) − 0.024
to = = = −3.53
0.0152 5 0.0068

de la tabla del anexo A2, se tiene:


t α / 2 ,n −1 = t0.05/2,5-1 = t0.025,4 = 2.78

Conclusión:
Dado que el valor observado de t ( t o = 3.53) es mayor que el valor crítico (t0.025,4
= 2.78), existe evidencia significativa al 5% de error sistemático en el nuevo
método espectrofotométrico para la determinación de níquel en muestras de acero.
3-52

2. Un método volumétrico para la determinación de calcio en piedra caliza se


comprobó analizando una piedra caliza del NIST que contenía un 30.15% de CaO.
El resultado de la media de cuatro análisis fue de 30.26% de CaO, con una
desviación estándar del 0.085%. A partir de la ponderación de diversos análisis, se
estableció que σ = 0.094% de CaO. (a) ¿Indican los datos la presencia de un error
determinado (sistemático) para un nivel de confianza del 95%?; (b) ¿indican los
datos la presencia de un error determinado para un nivel de confianza del 95%,
sino se dispusiera para σ de un valor ponderado?

Solución:
La media de los cuatro datos es de 30.26% de CaO, la desviación estándar
estimada a partir de diversos análisis es σ = 0.094% de CaO, y el contraste de
hipótesis bilatera l es el siguiente:

Ho: µ = 30.15% (no existe evidencia de error sistemático)


H1: µ ≠ 30.15% (si existe evidencia de error sistemático)

a) Dado que se cuenta con una estimación de σ poblacional, el estadístico de


contraste, según la tabla 3.6, vendrá dado por:

(X − µ o )
zo =
σ n

Que de acuerdo a la información proporcionada toma un valor de:

(30.26 − 30.15)%
zo = = 2.34
0.094% 4

El criterio de rechazo para estas condiciones viene dado por: z o > z α / 2 . El valor
del zcrítico para un nivel de significación del 5%, según la tabla del anexo A1, es de
1.96.

Conclusión:
Dado que el valor del estadístico calculado (zo = 2.34) es mayor que el zcrítico (zα/2 =
1.96), existe evidencia significativa a un 5% de error determinado (sistemático) al
aplicar el método volumétrico para la determinación de CaO.

b) Para el caso en que no se cuenta con una estimación de σ, el estadístico de


contraste y el criterio de aceptación son los siguientes:
3-53

(X − µo )
to = y t o > t α / 2 ,n −1
s n

Por tanto, para la muestra se tiene:


(30.26 − 30.15)
to = = 2.59
0.085 4
de la tabla del anexo A2, se tiene:
t α / 2 ,n −1 = t0.05/2,4-1 = t0.025,3 = 3.18

Conclusión:
Dado que el valor observado de t ( t o = 2.59) es menor que el valor crítico (t0.025,3
= 3.18), no existe evidencia significativa al 5%, como para concluir sobre la
presencia de error sistemático en el método volumétrico para la determinación de
CaO.
La probabilidad de que una diferencia como esta se deba únicamente a errores
aleatorios se puede obtener con la función de Excel DISTR.T ( to, grados de
libertad, nº de colas). El resultado para el problema se presenta a continuación:

DISTR.T(2.59,3,2)= 0.08107407

probabilidad que al compararla con el valor de α de 0.05, conduce a la misma


conclusión descrita en función de la comparación de valores del estadístico
calculado y de tablas.

3. La homogeneidad de una muestra patrón de cloruro se evaluó mediante el análisis


de porciones de material tomadas en la superficie y en el fondo del contenedor, los
resultados obtenidos fueron:
% de cloruro

Superficie Fondo
26.32 26.28
26.33 26.25
26.38 26.38
26.39

a) ¿Se puede demostrar la no homogeneidad del material a un nivel de


3-54

confianza del 95%?


b) ¿Se puede demostrar la no homogeneidad del material con un nivel de
confianza del 95% si se sabe que σ = 0.03% de Cl?

Solución:

Los promedios y varianzas calculados de acuerdo a los datos para cada porción son
los siguientes:

Estadístico Superficie Fondo


X 26.355 26.30
S2 0.00123 0.0046

a) Antes de probar si existe falta de homogeneidad del material es conveniente


primero efectuar un contraste de homogeneidad de varianzas entre ambas
porciones, ya que esto permitirá seleccionar adecuadamente el tipo de estadístico y
el criterio de rechazo que deben emplearse para la prueba.

El contraste para la prueba de igualdad de varianzas viene dado por:

Ho: σfondo = σ sup erficie


2 2

H1: σfondo ≠ σ sup erficie


2 2

Las hipótesis anteriores sugieren un contraste bilateral de la igualdad de varianzas,


según la tabla 3.11, el estadístico de contraste y el criterio de rechazo para esta
prueba son los siguientes:
s 12
Estadístico: F o = en donde s 12 es la mayor de las varianzas.
s2 2

Criterio de rechazo: F o > F α / 2 ,n1 −1 ,n 2 −1 ó Fo < F 1 −α / 2 ,n1 −1 ,n 2 −1

La razón de varianzas para el problema es:

s 12 0.00463
Fo = = = 3.76
s 22 0.00123

y F α / 2 ,n1 −1 ,n 2 −1 = F 0 .025,2 ,3 = 16.04 , F 1 −α / 2 ,n1 −1 ,n 2 −1 = F 0 .975 ,2 ,3 = 0.0255 (según tabla del


anexo B2).

Dado que Fo = 3.76 no es mayor que F 0 .025,2 ,3 = 16.04 ó bien no es menor que
F 0 .975 ,2 ,3 = 0.0255 , no existe evidencia como para afirmar que la variabilidad en el
3-55

% de Cl difiere en ambas porciones con un nivel de significación del 5%. No hay


evidencia significativa al 5% como para rechazar a la hipótesis nula.
Usando la función PRUEBA.F (matriz1, matriz2) de Excel, para el cálculo del p-valor
de la prueba, se tie ne:

SUPERFICIE FONDO
26.32 26.28
26.33 26.25
26.38 26.38
26.39
P-VALOR= 0.30485271

Dado que el P-Valor de la prueba (=0.3048) es mayor que el nivel de significación


de 0.05, no existe evidencia significativa como para rechazar la hipótesis nula.
A continuación se presenta el análisis para el contraste a partir de la creación de un
intervalo de confianza para la razón de varianzas:

El intervalo de confianza para la razón de varianzas para un nivel de confianza (1-


α)%, viene dado por (ver tabla 3.3):

s 12 s 12
s 2
σ 2
s 22
2
< 1 <
F α / 2 ,n1 −1 ,n 2 −1 σ 22 F 1−α / 2 ,n1 −1 ,n 2 −1

De esta forma el intervalo de confianza al 95% (α = 0.05) para la razón de


varianzas para ambas porciones es:

3.76 σ2 3.76
< 1 2<
16.04 σ 2 0.0255

σ12
0.234 < <147.45
σ 22
Como puede observarse el intervalo de confianza para la razón de varianzas
contempla el valor de uno, por lo que puede concluirse que no existe suficiente
evidencia como para afirmar que las varianzas del contenido de %Cl para ambas
porciones del material son diferentes, a un nivel de significación del 5%. Sin
embargo, el intervalo es bastante amplio se sugeriría aumentar el nivel de
significación o bien preferiblemente el tamaño de la muestra.

a.1) El contraste de hipótesis para determinar si los promedios de %Cl encontrado


para ambas porciones difieren significativamente, es el siguiente:

Ho: µ fondo = µ sup erficie


H1: µ fondo > µ sup erficie
3-56

El estadístico de contraste y el criterio de aceptación según la tabla 3.8 para


diferencia de medias cuando las varianzas son desconocidas e iguales, son los
siguientes:

(x 1 − x 2 ) − Do
to = ; Criterio para la prueba de una cola t > tα/2,ν
1 1
sp +
n1 n 2

sp se calcula como sigue:


(n 1 − 1)s 12 + (n 2 − 1)s 22
s 2
p =
n1 + n 2 − 2
ν = n1 + n2 − 2

Efectuando cálculos se tiene:


( 26.355 − 26.30) − 0
to = = 1.418
1 1
0.0508 +
4 3
( 4 − 1)0.00123 + ( 3 − 1) 0.0046
s 2p = = 0.002578
4 + 3− 2
s p = s 2p = 0.0508
ν = 4 + 3− 2 = 5
tα/2,ν = t0.025,5 = 2.571

Dado que to = 1.418 es menor que t0.025,5 = 2.571, a un nivel de significación del
5%, no existe evidencia como para afirmar que el % de Cl encontrado en ambas
porciones de la muestra difiere significativamente o bien, que no hay evidencia
significativa al 5% de falta de homogeneidad en el material.
Usando la función de Excel PRUEBA.T (matriz1, matriz2, colas, tipo)
(PRUEBA.T(superficie, fondo, 2, 2)) para el cálculo del p-valor de la prueba t, se
tiene:

SUPERFICIE FONDO
26.32 26.28
26.33 26.25
26.38 26.38
26.39
P-VALOR,Prueba F= 0.30485271
P-VALOR,Prueba T= 0.24145269
3-57

Dado que 0.2414 > α = 0.05, no existe evidencia como para rechazar Ho, a un
nivel de significación de 0.05.

El intervalo de confianza para la diferencia de medias viene dado por:

1 1
I.C. = ( X 1 − X 2 ) ± t α / 2 ,νs p +
n1 n 2

1 1
I.C. = (26.355 − 26.30) ± (2.571)( 0.0508) + = 0.055 ± 0.099
4 3
I.C. = [− 0.45,0.154]

Si se usa el criterio del intervalo de confianza para contrastar la hipótesis de la


diferencia de medias puede concluirse que: “dado que el intervalo creado
contempla el valor de cero no existe evidencia como para rechazar que los
promedios de %Cl obtenidos para ambas porciones son iguales, a un nivel de
significación del 5%”.
b) Dado que en este caso se conoce el valor de la desviación estándar de la
población (σ = 0.03%), el estadístico de contraste viene dado por (ver tabla 3.7):

X1 − X 2 26.355 − 26.30
Zo = = = 2.40
σ12 σ22 1 1
+
+ 0.03
n1 n2 4 3

De la tabla de la distribución normal estándar se obtiene (ver anexo A1)


Zα/ 2 = Z 0 .025 = 1.96 . Como puede observarse Z O ≥ Z 0.025 , por lo que se concluye
que existe evidencia significativa al 5% de que el material no es homogéneo si σ =
0.03%.

Comparando los resultados de los literales a) y b) puede decirse que para obtener
resultados más concluyentes, si no se conoce la desviación estándar poblacional, es
necesario aumentar el tamaño de cada muestra o bien por lo menos usar igual
número de réplicas en cada una. Lo anterior también depende de cuan critica sea
la falta de homogeneidad del material para el análisis químico, así como de los
recursos disponibles.
Si se emplearan o l s datos anteriores como base para el recalculo del tamaño de
muestra, para detectar con alta probabilidad una diferencia mínima (∆) de 0.1% de
Cl y una desviación estándar estimada según el ensayo del literal a.1) de 0.0508%,
se tendría que d = ∆/2σ = 0.05 = 0.098, por lo tanto, el tamaño de muestra
requerido para un β = 0.1 viene dado según la figura b del anexo A3, como n* ≅ 13
= 2n – 1, es decir, se necesitarían n1 = n2 = 7 ensayos para cada porción del
material.
3-58

4. En una serie de experimentos para la determinación de estaño en productos


alimenticios, las muestras se llevaron al punto de ebullición con HCl a reflujo
durante diferentes tiempos. Los resultados fueron los siguientes:

Tiempo de Estaño encontrado (mg/kg)


ebullición (min)
30 57, 57, 55, 56, 56, 57,56, 55
75 51, 60, 48, 32, 46, 54, 56,51

Estudiar si: a) la variabilidad de los resultados es más grande para los tiempos
largos de ebullición; b) Las medias difieren significativamente.

Solución:
La media y la desviación típica para los dos tiempos de reflujo son:

Tiempo de Promedio y varianza del


ebullición Estaño encontrado (mg/kg)
(min)
30 X = 56.125 s = 0.8345
75 X = 49.75 s = 8.43

a) Las hipótesis para probar que la variabilidad de los resultados es más grande a
medida que aumenta el tiempo de ebullición, vienen dada como:

Ho: σ 230 min = σ 275 min


H1: σ30
2
min > σ 75 min
2

Las hipótesis anteriores sugieren un contraste unilateral de la igualdad de


varianzas, según la tabla 3.11, el estadístico de contraste y el criterio de rechazo
para esta prueba son los siguientes:

s 12
Estadístico: F o = en donde s 12 es la mayor de las varianzas.
s2 2

Criterio de rechazo: F o > F α ,n 1 −1,n 2 −1


La razón de varianzas para el problema es:
s 12 (8.43) 2
Fo = = = 102.05
s 22 ( 0.8345) 2
3-59

y F α ,n 1 −1,n 2 −1 = F 0 .05 ,7 ,7 = 3.787

Dado que Fo = 102.05 > F 0 .05 ,7 ,7 = 3.787 , existe evidencia como para afirmar que
la variabilidad de los resultados es más grande a tiempos más largos de ebullición
con un nivel de significación del 5%. En otras palabras, hay evidencia significativa
al 5% como para rechazar la hipótesis nula de igualdad de varianzas.
Usando la función DISTR.F de Excel, para el cálculo del p-valor del F calculado, se
tiene:

DISTR.T(102.05,7,7)= 1.64521E-06

Dado que 1.645 x 10-6 < α = 0.05, existe evidencia significativa como para
rechazar Ho, a un nivel de significación de 0.05.

A continuación se presenta el análisis del contraste a partir de la creación de un


intervalo de confianza.
El intervalo de confianza para la razón de varianzas para un nivel de confianza (1-
α)%, viene dado por (ver tabla 3.3):

s 12 s 12
s 22 σ12 s 22
< <
F α / 2 ,n1 −1 ,n 2 −1 σ 2
2 F 1−α / 2 ,n1 −1 ,n 2 −1

De esta forma el intervalo de confianza al 95% (α = 0.05) para la razón de


varianzas de las muestras a 30 y 75 minutos de tiempo de reflujo es:

102.05 σ12 102.05


< 2 <
4.99 σ2 0.20

σ12
20.45 < < 510.25
σ 22

Como puede observarse el intervalo de confianza para la razón de varianzas no


contempla el valor de uno y se desplaza a la derecha respecto a este valor, por lo
que puede concluirse que existe suficiente evidencia como para afirmar que la
varianza al tiempo de reflujo de 75 minutos es mayor que la varianza al tiempo de
reflujo de 30 minutos, a un nivel de significación del 5%.

b) El contraste de hipótesis para determinar si los promedios de estaño encontrado


para ambos tiempos difieren significativamente, es el siguiente:
3-60

Ho: µ 30 min = µ 75 min


H1: µ 30 min > µ 75 min

El estadístico de contraste y el criterio de aceptación según la tabla 3.8 para


diferencia de medias cuando las varianzas son desconocidas y diferentes, son los
siguientes:

(x1 − x 2 ) − D o
t= ; Criterio para la prueba de una cola t > tα/2,ν
s 12 s 22
+
n1 n 2

Dado que las varianzas son diferentes (literal a), los grados de libertad para el
cálculo de tα,ν , vienen dados por:

 s 12 s 22 
2

 + 
 n n 
ν= −2
1 2

(
s 1 / n1
2 2

+
) (
s2 /n2
2 2
)
n1 + 1 n2 +1

Efectuando cálculos se tiene:


2
 71.06 0.696 
 + 
(56.125 − 49.75) − 0  8 8 
t = = 2.13: ν = − 2 = 7.2 ∼ 7
71.06 0.696
+
(71.06 / 8)
2

+
(0.696 / 8)
2

8 8 9 9
tα/2,ν = t0.025,7 = 2.365

Dado que t = 2.13 > t0.05,7 = 2.365, a un nivel de significación del 5%, no existe
evidencia como para afirmar que las cantidades de estaño extraídas a los tiempos
de reflujo de 30 y 75 minutos difieren significativamente.
Usando la función DISTR.T para el cálculo del p-valor del t calculado, se tiene:

DISTR.T(2.13,7,2)= 0.0706702

Dado que 0.07067 > α = 0.05, no existe evidencia como para rechazar Ho, a un
nivel de significación de 0.05.
El intervalo de confianza para la diferencia de medias viene dado por:

s 12 s 22
I.C. = ( X 1 − X 2 ) ± t α / 2 ,ν +
n1 n 2
3-61

71.06 0.696
I.C. = (56.125 − 49.75) ± 2.365 + = 6.37 ± 7.09
8 8
I.C. = [− 0.72,13.46]

Si se usa el criterio del intervalo de confianza para contrastar la hipótesis de la


diferencia de medias puede concluirse que: “dado que el intervalo creado
contempla el valor de cero no existe evidencia como para rechazar que los
promedios de estaño obtenidos para ambos tiempos de reflujo son iguales, a un
nivel de significación del 5%”.

5. Se han enviado 12 muestras de agua a dos laboratorios para un estudio de


determinación de contenido de Flúor en aguas provenientes de doce pozos
ubicados en distintos puntos del país. Los resultados obtenidos por cada laboratorio
en µg/l se presentan en la tabla a continuación:

Muestra Laboratorio A Laboratorio B


1 0.13 0.08
2 0.14 0.08
3 0.2 0.09
4 0.07 0.06
5 0.11 0.13
6 0.15 0.1
7 0.07 0.07
8 0.09 0.14
9 0.08 0.09
10 0.65 0.83
11 0.76 0.83
12 0.77 0.83

¿Los dos laboratorios proporcionaron valores para las concentraciones medias


de fluor que difieren significativamente?

Solución:
Se quiere comparar si hay diferencia en el trabajo de los dos laboratorios de
análisis, sin embargo, una fuente significativa de variación puede ser el hecho de
que las muestras sean de distintas procedencias. Para concluir sobre el trabajo de
los dos laboratorios independientemente de la procedencia de las muestras se
usará un análisis de datos por pares, prueba bilateral(Ver sección 3.3.6.3, tabla
3.12).
El primer paso en la solución de este problema es sacar las diferencias entre los
dos datos de cada muestra y luego continuar con el análisis de dichas diferencias.
3-62

HIPOTESIS DE TRABAJO:

Ho: µd = 0 (que significa que no existe diferencia entre los dos


métodos)

H1: µd ≠ 0 (que significa que sí existe diferencia entre los métodos)

OBTENCION DE LAS DIFERENCIAS

Muestra Laboratorio A Laboratorio B di = LA - LB


1 0.13 0.08 0.05
2 0.14 0.08 0.06
3 0.2 0.09 0.11
4 0.07 0.06 0.01
5 0.11 0.13 -0.02
6 0.15 0.1 0.05
7 0.07 0.07 0
8 0.09 0.14 -0.05
9 0.08 0.09 -0.01
10 0.65 0.83 -0.18
11 0.76 0.83 -0.07
12 0.77 0.83 -0.06

OBTENCIÓN DE ESTADISTICOS

∑d i
0.05 + 0.06 + ..... + (−0.06)
D = i =1
= = −0.00917
n 12
n

∑ (d i − D )2
(0.05 + 0.0092) 2 + (0.06 + 0.0092) 2 + .... + (−0.06 + 0.0092) 2
sd = =
2 i =1

n −1 11
sd = 0.00579
2

s d = 0.0761
t o = D / s d n = (−0.0092) /(0.0761) 12 = −0.0349

CRITERIO DE DECISION

t0.05/2, 12-1 < t o debe rechazarse Ho. Para el caso, t0.025, 11 = 2.201 > |to|= 0.0349
por lo tanto no existe evidencia significativa al 5% como para decir que los dos
laboratorios arrojan diferentes resultados.
3-63

Usando la función de Excel PRUEBA.T (matriz1, matriz2, colas, tipo)


(PRUEBA.T(Laboratorio A, Laboratorio B, 2, 1)) para el cálculo del p-valor de la
prueba t, se tiene:

P-VALOR = 0.684481475

Dado que el P-valor es de 0.6844 > α = 0.05, no existe evidencia como para
rechazar Ho, a un nivel de significación de 0.05. En el archivo Fluor.xls se
encuentra el procedimiento de cálculo en la hoja Excel.

Fluor.xls

6. Un laboratorio ha desarrollado un método nuevo para la determinación de Indio en


Zinc y sus aleaciones, usando ICPAES. El método se verificó usando patrones de
referencia a diferentes concentraciones, las mediciones hechas con el método y la
concentración reportada del patrón se presentan en la tabla a continuación.

Patrón Observación Certificado


CRM322 2 3
CRM323 6 5
CRM324 15 16
CRM325 44 46
CRM352 2 3
CRM353 1 3
CRM354 7 10
CRM357 6 3
CRM358 12 7
CRM359 16 16
CRM360 29 30

¿Puede decirse que el método permite obtener resultados confiables?.

Solución:
Se quiere comparar si hay diferencia entre la medición hecha con el método
desarrollado en el laboratorio y la concentración certificada del patrón empleado.
Sin embargo, una fuente significativa de variación puede ser el hecho de que los
patrones sean de diferentes concentraciones. Para concluir sobre la fiabilidad del
método desarrollado independientemente de la concentración de los patrones de
referencia empleados se usará un análisis de datos por pares a partir de la creación
de un intervalo de confianza para las diferencias.
3-64

El primer paso en la solución de este problema es sacar las diferencias entre los
dos datos de cada muestra y luego continuar con el análisis de dichas diferencias.

HIPOTESIS DE TRABAJO:

Ho: µd = 0 (que signific a que no existe diferencia entre los dos


métodos)

H1: µd ≠ 0 (que significa que sí existe diferencia entre los métodos)

Este problema puede resolverse usando el procedimiento establecido en el


problema 5. Sin embargo, en este caso se analizará mediante la creación de un
intervalo de confianza para la diferencia media. Según se especifica en la tabla 3.2,
el intervalo de confianza para un promedio viene dado por:
t α / 2 ,n −1s
I.C. (1-α) = x ±
n

En la tabla se presenta la obtención de las diferencias y a continuación el cálculo


del promedio y desviación estándar para dichas diferencias:

Patrón Observación Certificado di = obs- Cert.


CRM322 2 3 -1
CRM323 6 5 1
CRM324 15 16 -1
CRM325 44 46 -2
CRM352 2 3 -1
CRM353 1 3 -2
CRM354 7 10 -3
CRM357 6 3 3
CRM358 12 7 5
CRM359 16 16 0
CRM360 29 30 -1

∑d i
− 1 + 1 − 1 − 2 + ..... + 0 − 1
D = i =1
= = −0.18
n 11
n

∑ (d i − D )2
(−1 + 0.18) 2 + (1 + 0.18) 2 + .... + ( −1 + 0.18) 2
sd = i =1
=
2

n −1 10
sd = 5.57
2

s d = 2.36
3-65

El intervalo de confianza al 95%, para el promedio de las diferencias es por tanto:


(2.201) * ( 2.36)
I.C.(95%) = − 0.18 ±
11
I.C.(95%) = -0.18 ± 1.57 ó [− 1.75,1.39]

Dado que el intervalo de confianza contempla el valor de cero puede concluirse que
no existe evidencia significativa al 5% como para dudar de la confiabilidad del
método desarrollado en el laboratorio.
El intervalo de confianza creado mediante el uso de la hoja Excel puede calcularse
mediante la opción herramientas con las sub-opciones análisis de datos y luego
estadística descriptiva o bien mediante la función INTERVALO.CONFIANZA (alfa,
desv. Est., n). Para este análisis se presenta en el archivo Zn.xls , que puede
accesarse mediante el siguiente icono:

Zn.xls

3.5.3 PRUEBA DE RECHAZO DE DATOS

1. Los resultados siguientes fueron obtenidos de un estudio de calculo del límite de


detección (MDL):

10.2, 9.5, 10.1, 10.3, 9.8, 9.9, 11.9,10

El analista sospecha que 11.9 es un dato anómalo. ¿Tiene razón?

Solución:

Prueba de Dixon
1. El rango de los datos existentes: RA = 11.9 – 9.5 = 2.4

2. La distancia entre el valor anómalo (11.9) y el valor más cercano a él existente


(10.2), DI = abs(11.9 – 10.3) = 1.6

3. El cociente QU viene dado por QU = 1.6/2.4 = 0.67

4. El valor tabulado de Q para n = 8 según la tabla del anexo A3 es: 0.526

Dado que Qcalcaludo (= 0.67) > Q crítico (= 0.526) puede concluirse que el dato 11.9 es
un dato anómalo con un nivel de confianza del 5%.
3-66

Prueba de Huber:
1. La mediana es: 10.05
2. Las desviaciones absolutas son por tanto: 0.15, 0.55, 0.05, 0.25, 0.25, 0.15,
1.85, 0.05
3. La mediana de las desviaciones absolutas es: MAD = 0.20
4. El intervalo para un 95% de confianza es: MEDIANA ± kMAD= 10.05 ±
(3.5*0.20) = 10.05 ± 0.20
Dado que 11.9 cae fuera del intervalo [9.85,10.25] este puede considerarse un
dato anómalo con un nivel de significación del 0.05.

2. Analice mediante la prueba de GRUBBS los siguientes resultados de concentración


en ppm de nitrito de un agua de río:

0.403, 0.410, 0.401, 0.380, 0.400, 0.413, 0.411

Solución:

Analizando la serie de datos se observa que el punto de 0.38 ppm, parece no


corresponder adecuadamente a la serie de datos. Esta aparente no
correspondencia se analizará mediante la prueba de GRUBB.

1. La desviación estándar (s) de los datos existentes es: 0.011ppm

2. La distancia DM es: DM= 0.4026 − 0.38 =0.0226

3. El cociente es por tanto: G = DM/s = 0.0226/0.011 = 2.05

4. El estadístico de comparación viene dado por

(n − 1) t ( α /( 2 n ), n − 2 )
2

Estadístico =
n n − 2 + t (2α /( 2 n ),n −2 )

Para la muestra: t ( α /( 2 n ),n − 2 ) = t ( 0 .05 /( 2 *7 ), 7 − 2 ) = t ( 0 .00357),5 ) = (4.299) 2 , que se ha


2 2 2

calculado con la función DISTR.T.INV (probabilidad, grados de libertad) de la


hoja Excel. Por tanto, el estadístico tiene el valor de:

( 7 − 1) 18.48
Estadístico = = 2.011
7 7 − 2 + 18.48
3-67

Dado que G(=2.05) > Estadístico (=2.011) puede concluirse con un nivel de
significación del 5% que el dato de 0.38 es un dato anómalo.

3. Los datos de una muestra control de un experimento de HPLC son los siguientes:

2.79, 2.63, 2.64, 2.71, 2.85, 2.70

Se ha obtenido una nueva observación con un valor de 2.87. Determine, con un


nivel de significación de 0.05, si el nuevo resultado pertenece a la distribución
prescrita por las observaciones anteriores.

Solución:
La determinación de la consistencia del nuevo resultado se hará empleando
una prueba t. El primer paso consiste en la determinación de los estadísticos de la
muestra y el segundo en la aplicación del criterio de decisión establecido por la
prueba al nuevo resultado.

1. El promedio ( x ) y la desviación estándar (s) de los datos son (que pueden


calcularse usando la función estadística de cualquier calculadora científica):
X = 2.72 ; s = 0.086

2. La distancia entre el nuevo valor (Xa = 2.87) y el promedio ( x = 2.72) es:


Dp = abs(Xa – x ) = abs (2.87-2.72) = 0.15

3. Por lo tanto el cociente t = Dp/s, es:

tcalculado = 0.15/0.086 = 1.74

4. Por otra parte el valor de t tabulado (ver tabla del anexo C3) es t(0.05/2, 5) =
1.82. Si se compara el valor del tcalculado con el valor de t tabulado se observa
que el valor calculado de t pertenece al intervalo -1.82 < t < 1.82, por lo
que puede concluirse que la nueva medición está bajo control estadístico.
3-68

REFERENCIAS BIBLIOGRAFICAS

• American Public Health Association (1996). Standard methods for the


examination of water and wastewater. 19th Edition. United States of America: American
Public Health Association.

• Bode, P. (1996). Curso sobre validación e incertidumbre de métodos analíticos. El


Salvador: Universidad de El Salvador.

• Freund, J.E. y Walpole, R.E. (1990). Estadística matemática con aplicaciones.


Cuarta edición. México: Prentice Hall Hispanoamericana.

• Grubbs, F.E. (1979). Procedures for detecting outlying observations. In Army


Statistics Manual DARCOM-P706-103, Chapter 3. U:S: Army Research and Development
Center, Aberdeen Proving Ground, MD 21005.

• Juran, J.M. y Gryma, F.M. (1993). Manual de control de calidad. Tomo II. México:
McGRAW-HILL.

• Kume, H.S. (1997). Herramientas estadísticas básicas para el mejoramiento de la


calidad. Colombia: Grupo editorial NORMA.

• Mendenhall, W. (1990). Estadística para administradores. Segunda edición. México:


Grupo Editorial Iberoamérica.

• Miller, J. C. y Miller, J. N. (1993). Estadística para química analítica. Segunda


edición. Wilmington, Delaware, E.U.A: Addison-Wesley Iberoamericana, S.A.

• Miller, I. y Fr eud, J. E. (1996). Probabilidad y estadística para ingenieros. Tercera


edición. México: Prentice Hall hispanoamericana S.A.

• Montgomery, D.C. (1991). Diseño y análisis de experimentos. México: Grupo


Editorial Iberoamérica, S.A. de C.V.

• Ostle, B. (1977). Estadística Aplicada. México: Editora López.

• Pérez, C. (1999). Control estadístico de calidad. Mexico: Alfaomega grupo editor S.A
de C.V.

• Pérez, C. (2002). Estadística aplicada a través de Excel. España: Pearson Education.


3-69

• Skoog, D.A., West, D.M., Holler, F.J. y Crouch, S.R. (2001). Química analítica.
Séptima edición. México: McGRAW-HILL.

• Vitoriano, B. (1997). Cursos de cálculo de probabilidades I y estadística. Maestría en


Estadística. El Salvador: Universidad complutense de Madrid.
3-70

ANEXO A3: CURVAS DE POTENCIA PARA CONTRASTES DE HIPOTESIS

Figura a. Curva característica para contraste bilateral de comparación con un valor


especificado ( α = 0.05 ) (JURAN y GRYMA, 1993)

Figura b. Curva característica para contraste bilateral de comparación de dos


promedios ( α =0.05 ) (MONTGOMERY, 1990)
3-71

ANEXO B3: VALORES CRITICOS DE LA PRUEBA Q (SKOOG et al., 2001, pag.165)

n 90% de confianza 95% de confianza 99% de confianza

3 0.941 0.970 0.994

4 0.765 0.829 0.926

5 0.642 0.710 0.821

6 0.560 0.625 0.740

7 0.507 0.568 0.680

8 0.468 0.526 0.634

9 0.437 0.493 0.598

10 0.412 0.466 0.568


3-72

ANEXO C3: VALORES CRITICOS DE LA PRUEBA t


(AMERICAN PUBLIC HEALTH ASOCIATION, 1996, cap. 1)

n t crítico al 95% de t crítico al 99% de


confianza confianza

3 1.15 1.15

4 1.46 1.49

5 1.67 1.75

6 1.82 1.94

7 1.94 2.10

8 2.03 2.22

9 2.11 2.32

10 2.18 2.41

12 2.29 2.55

14 2.37 2.66

15 2.41 2.71

16 2.44 2.75

18 2.50 2.82

20 2.56 2.88

30 2.74 3.10

50 2.96 3.34

60 3.03 3.41

100 3.21 3.60

120 3.27 3.66


3-73

ANEXO D3: VALORES CRITICOS DE LA PRUEBA DE GRUBBS


(GRUBBS, 1979, cap. 3)

También podría gustarte