Estadistica Inferencial
Estadistica Inferencial
Estadistica Inferencial
N
n
Nn
. Si pueden repetirse individuos, el nmero de muestras ser igual a
b) p( Z>13)
c) p(Z<-05)
d) p(-05<Z<13)
Z
a) tipificarla a una N(0, 1) con el cambio
b) calcular las siguientes probabilidades:
p(X<21)
p(X<-7)
Parmetros muestrales
p(X>31)
X
poblacional, esto es
Sin embargo, no se cumple lo mismo para la desviacin tpica de las medias muestrales,
S
sino que se verifica que
n
, siendo n el tamao de las muestras.
N ( ,
N ( , )
normal
)
n
.
N ( ,
)
n
.
www.elalmanaque.com/.../Muestreo%20y%20Estimacin%20estadstica....
1.3 ESTIMACIN PUNTUAL
X 1 , X 2 ,..., X n
=g (
x1 , x2 ,..., xn
Para una realizacin particular de la muestra (
) se obtiene un valor especfico
del estimador que recibe el nombre de estimacin del parmetro poblacional y lo
notaremos por
x1 , x2 ,..., xn
=g(
x1 , x2 ,..., xn
concreta (
muestral.
Parmetro
Estimador
Estimacin
poblacional
n
Media
Varianza
i 1
2 S 2
p
Proporcin
Xi
n
1 n
( X i X )2
n 1 i 1
X
nmeroxitos
n nmeropruebas
x
i 1
s2
1 n
xi x
n 1 i 1
x
n
a) Estimador insesgado
Si tenemos un gran nmero de muestras de tamao n y obtenemos el valor del
estimador en cada una de ellas, sera deseable que la media de todas estas estimaciones
coincidiera con el valor de .
Se dice que un estimador es insesgado si su esperanza matemtica coincide con el
valor del parmetro a estimar.
b) Estimador eficiente
Se dice que los estimadores son eficientes cuando generan una distribucin muestral
con el mnimo error estndar ,es decir, entre dos estimadores insesgados de un
parmetro dado es ms eficiente el de menor varianza.
c) Estimador consistente
Un estimador se dice consistente cuando su valor tiende hacia el verdadero valor del
parmetro a medida que aumenta el tamao de la muestra. Es decir, la probabilidad de
que la estimacin sea el verdadero valor del parmetro tiende a 1.
d) Estimador suficiente
Se dice de un estimador que es suficiente cuando es capaz de extraer de los datos toda la
informacin importante sobre el parmetro.
X 1 , X 2 ,..., X n
desconocido,
tendremos
que
obtener
dos
estadsticos
X 1 , X 2 ,..., X n
que nos darn los valores extremos del intervalo, tales que
P X 1 , X 2 ,..., X n X 1 , X 2 ,..., X n 1
p z
p q
, p z
n
2
p q
z / 2
en donde
es tal que
z / 2
P[Z>
]=
x
distribucin N(, ). Si es conocida, y la media muestral observada es , entonces el
intervalo de confianza para la media poblacional , al nivel de confianza del 100(1-)%
viene dado por:
x z / 2
, x z / 2
n
n
z / 2
donde
es tal que
P ( Z z / 2 )
x t / 2
s$
s$
, x t / 2
n
n
t / 2
donde
es tal que
P tn 1 t / 2
tn 1
y la variable
(n 1) s (n 1) s
, 2
2
n 1, / 2 n 1,1 / 2
n21,1 / 2
donde
es tal que:
P n21 n21,1 / 2
n21, / 2
y
es tal que:
P n21 n21, / 2 1
n21
y la variable aleatoria
libertad.
ny
nx
Supongamos dos muestras independientes de tamao
poblaciones normales.
procedentes de
N y , y
N x , x
y
x
son
x y
para las diferencias de medias poblacionales
( x y ) z / 2
2
2
x2 y
x2 y
, ( x y ) z / 2
nx n y
nx n y
P Z z / 2
z / 2
en donde
aleatoria Z sigue una N(0, 1).
2
y la variable
I x z / 2
, x z / 2
n
n
L ( x z / 2
) ( x z / 2
) 2 z / 2
n
n
n
(*)
z / 2
n de la expresin (*), pues L,
muestra ser:
n 4 z2 / 2
2
L2
|---------------------------|----------------|---------------------------|
error
x z / 2
x z / 2
x
-|, que como mximo ser:
z / 2
E=
entonces si queremos determinar el tamao de muestra necesario para obtener un
intervalo de confianza para la media poblacional , admitiendo un error E, tendremos que
despejando de la expresin anterior:
n z2 / 2
2
E2
z2 / 2 p q
L2
z2 / 2 p q
E2
https://www.google.com.mx/url?
sa=t&rct=j&q=&esrc=s&source=web&cd=9&ved=0CE4QFjAIahUKEwjR4IiB34vGAhWGTpIKHZkFAI
Y&url=https%3A%2F%2Ffanyv88.com%3A443%2Fhttp%2Fmancomunidadcg.info%2FUniversidad%2FDocs%2FJaioneFernandez
%2FEstad%25C3%25ADstica%2520Administrativa.%25202%25C2%25BA%2520GAP%2FTema
%25202.doc&ei=X6V7VZG1FYadyQSZi4CwCA&usg=AFQjCNF3U5G5eyOgvsz3_iHsqJaHcba3fg
1-5 INTERVALOS DE CONFIANZA PARA MEDIAS
Intervalo de confianza para la media, cuando se selecciona una muestra aleatoria de tamao
n de una poblacin con distribucin normal con media y varianza
conocida.
En este caso, por las condiciones de la muestra se utiliza la distribucin normal estndar, por lo
tanto
y
pertenecen a una distribucin normal estndar. Como se trabaja con una
distribucin normal,
y
son iguales pero con diferente signo,
es negativo y
es
positivo, por lo tanto en la frmula se incluye el signo y
y
se reemplazan por Z. Para
obtener el intervalo de confianza para la media se utiliza la siguiente expresin:
(2.1)
Donde Z pertenece a una distribucin normal estndar.
Interpretando este intervalo se dir que el promedio poblacional estar entre:
con una confiabilidad del (1-
) por ciento.
EJEMPLO
Un proceso manufacturero usado por una fbrica durante los ltimos 10 aos, tiene una
distribucin normal con desviacin estndar de 8 unidades por hora. Se desea estimar un intervalo
de confianza del 90 por ciento para el promedio de unidades por hora producido con dicho proceso.
Para tal efecto, se toma una muestra aleatoria de la produccin por hora durante 25 horas y se
obtiene un promedio de 160 unidades.
Solucin . Como la distribucin de la poblacin es normal y se conoce la desviacin estndar
poblacional, se utiliza la expresin 2.1 para calcular el intervalo de confianza.
El valor de Z se halla en una tabla de la distribucin normal. La confiabilidad es del 90 por ciento,
por lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2 en la cola inferior y a /2
en la cola superior. En la figura 2.2, el rea que hay de - a Z es 0,95 y para sta rea el valor de
Z en la distribucin normal es 1,64
Interpretacin. El promedio de unidades por hora producidas en dicha fbrica est entre 157 y 163
con una confiabilidad del 90 por ciento.
http://www.virtual.unal.edu.co/cursos/sedes/manizales/4030006/lecciones/capitulodos/tema2.htm
1.6 INTERVALO DE CONFIANZA PARA DIFERENCIA ENTRE MEDIAS
en donde:
Solucin:
El estimador combinado de la desviacin estndar es:
6.72
Medicamento B
nA = 12
nB = 12
SA2= 15.57
SB2 = 17.54
Solucin:
2.35
9.25
Con un nivel confianza del 95% se sabe que el tiempo promedio para
alcanzar un nivel especfico es mayor para el medicamento B.
NORMALES,
Las situaciones que ms prevalecen e implican pruebas sobre dos medias son las que tienen
varianzas desconocidas. Si el cientfico prueba mediante una prueba F, que las varianzas de las
dos poblaciones son iguales, se utiliza la siguiente frmula:
donde:
Ejemplos:
1. Para encontrar si un nuevo suero detiene la leucemia, se
seleccionan nueve ratones, todos con una etapa avanzada de la
enfermedad. Cinco ratones reciben el tratamiento y cuatro no. Los
tiempos de sobrevivencia en aos, a partir del momento en que
comienza el experimento son los siguientes:
Con Tratamiento
2.1
5.3
1.4
4.6
Sin Tratamiento
1.9
0.5
2.8
3.1
0.9
s= 1.97
n=5
Sin tratamiento
s = 1.1672
n=4
Ensayo de hiptesis:
Estadstico de prueba:
Regla de decisin:
Si 0.10 Fc
Decisin y Justificacin:
Como 2.85 esta entre los dos valores de Ho no se rechaza , y se concluye
con un
= 0.05 que existe suficiente evidencia para decir que las
varianza de las poblaciones son iguales.
Con la decisin anterior se procede a comparar las medias:
Ensayo de Hiptesis
Ho;
CT
ST
H1;
CT
=0
ST
>0
Justificacin y decisin:
Medicamento B
nA = 12
nB = 12
SA2= 15.57
SB2 = 17.54
Solucin:
Primero se pondr a prueba el supuesto de varianzas iguales mediante
una prueba de hiptesis con
= 0.10.
Ensayo de hiptesis:
Estadstico de prueba:
Regla de decisin:
Si 0.355
Fc
Decisin y Justificacin:
Como 1.13 esta entre los dos valores de Ho no se rechaza , y se concluye
con un
= 0.10 que existe suficiente evidencia para decir que las
varianza de las poblaciones son iguales.
Con la decisin anterior se procede a comparar las medias:
Ensayo de Hiptesis
Ho;
H1;
=0
0
tc
Justificacin y decisin:
P = (2)(0.00139) = 0.00278
grados de libertad,
Como
rara vez es nmero entero, lo redondeamos al nmero entero
ms cercano menor. Esto es si el valor de nu es de 15.9 se redondear a
15.
Al despejar la diferencia de medias poblacionales de la formula de t nos
queda:
Ejemplos:
1. El departamento de zoologa de la Universidad de Virginia llev a
cabo un estudio para estimar la diferencia en la cantidad de
ortofsforo qumico medido en dos estaciones diferentes del ro
James. El ortofsforo se mide en miligramos por litro. Se reunieron
15 muestras de la estacin 1 y se ontuvo una media de 3.84 con
una desviacin estndar de 3.07 miligramos por litro, mientras que
12 muestras de la estacin 2 tuvieron un contenido promedio de
1.49 con una desviacin estndar 0.80 miligramos por litro.
Encuentre un intervalo de confianza de 95% para la diferencia del
contenido promedio real de ortofsforo en estas dos estaciones,
suponga que las observaciones vienen de poblaciones normales
con varianzas diferentes.
Solucin:
Datos:
Estacin 1
Estacin 2
n1 = 15
n2 = 12
S1= 3.07
S2 = 0.80
Al usar
=0.05, encontramos en la tabla con 16 grados de libertad que
el valor de t es 2.120, por lo tanto:
que se simplifica a:
0.60
4.10
Por ello se tiene una confianza del 95% de que el intervalo de 0.60 a 4.10
miligramos por litro contiene la diferencia de los contenidos promedios
reales de ortofsforo para estos dos lugares.
NORMALES,
Ejemplo:
Diseo 1
n1 = 16
s12 = 10
Diseo 2
n2 = 10
s22 = 40
Con
= 0.05, se desea determinar si existe alguna diferencia
significativa en el flujo de corriente promedio entre los dos diseos,
donde se supone que las dos poblaciones son normales, pero no
es posible suponer que las varianzas desconocidas sean iguales.
Solucin:
Primero se probarn varianzas desiguales.
Ensayo de hiptesis:
Estadstico de prueba:
Regla de decisin:
Si 0.265 Fc
Decisin y Justificacin:
Como 4 es mayor que 3.12 se rechaza Ho , y se concluye con
un
= 0.05 que existe suficiente evidencia para decir que las
varianza de las poblaciones son diferentes.
Con la decisin anterior se procede a comparar las medias:
Ensayo de Hiptesis
Ho;
H1;
=0
0
Regla de decisin:
Si 2.201 tR
2.201 No se rechaza Ho
Justificacin y decisin:
Proveedor 1
Proveedor 2
n1 = 10
n2 = 16
S1= 12
S2 = 45
Estadstico de prueba:
Regla de decisin:
Si 0.320 Fc
Decisin y Justificacin:
Como 14.06 es mayor que 3.01 se rechaza Ho , y se concluye con un
= 0.05 que existe suficiente evidencia para decir que las varianza de las
poblaciones son diferentes.
Con la decisin anterior se procede a comparar las medias:
Ensayo de Hiptesis
Ho;
=0
H1;
>0
Regla de decisin:
Si tR
1.734 No se rechaza Ho
Justificacin y decisin:
que sigue una distribucin N(0, 1), y aadiendo una correccin por continuidad al pasar de una
variable discreta a una continua, se obtiene el intervalo de confianza asinttico:
donde z/2 es el valor de una distribucin Normal estndar que deja a su derecha una probabilidad
de /2 para un intervalo de confianza de (1 ) 100 %. Las condiciones generalmente aceptadas
para considerar vlida la aproximacin asinttica anterior son:
donde F/2,a,b es el valor de una distribucin F de Fisher-Snedecor con a y b grados de libertad que deja
a su derecha una probabilidad de /2 para un intervalo de confianza de (1 ) 100 %.
1.8 INTERVALOS DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES
Sea X1, X2,..., Xn1 una muestra aleatoria extrada de una poblacin Bernoulli. Sea X la variable
Binomial definida como el nmero de xitos en esta muestra y con parmetro 1, proporcin
poblacional de xitos.
Sea Y1, Y2,..., Yn2 una muestra aleatoria extrada de una poblacin Bernoulli. Sea Y la variable
Binomial definida como el nmero de xitos en esta muestra y tomemos a 2 como la proporcin
de xitos en esta otra poblacin. Supongamos que ambas muestras son independientes.
Si p1 y p2 son los estadsticos muestrales y definimos a
Nota:
Si n1 y n2 son bastante grandes el radical se calcula usando los estadsticos de la muestra; es decir,
las proporciones muestrales.
Ejemplo 44
MillWard Brown, empresa investigadora de mercado es requerida para hacer un estudio sobre la
preferencia de un producto. Se le pide que estime la proporcin de hombres y mujeres que
conocen el producto que est siendo promocionado en toda la ciudad.
En una muestra aleatoria de 100 hombres y 200 mujeres se determina que 20 hombres y 60
mujeres estn familiarizados con el producto indicado. Construya un intervalo de confianza del 95%
para la diferencia de proporciones de hombres y mujeres que conocen el producto. En base a
estos resultados, se estara inclinado a concluir que existe una diferencia significativa entre las
dos proporciones?
Solucin
Sea 1 la proporcin de mujeres que prefieren el producto.
Sea 2 la proporcin de hombres que prefieren el producto.
Segn los datos: Se trata de un problema de diferencia de proporciones. Los datos son:
Se invierte:
Reescribiendo:
(2.6)
Donde
tanto,
son diferentes y
<
Ejemplo
La varianza de la resistencia a la rotura de 30 cables probados fu de 32.000 lbs 2. Halle un
intervalo de confianza del 90 por ciento, para la varianza de la resistencia de todos los cables de
sta marca.
Solucin . Se utiliza la expresin 2.6. Los valores de
y
pertenecen a una distribucin
chi-cuadrado con 29 grados de libertad. como puede observarse en la figura 2.3 el rea que hay
por debajo de Z a /2 es 0,05, por lo tanto
0,95, por lo tanto
=42,56
es
Por razones de utilidad se halla el intervalo de confianza para la desviacin estndar, sacando la
raz cuadrada de los lmites, por lo tanto:
1.10
Intervalo de confianza para el cociente de varianzas de distribuciones normales independientes
Supondremos la existencia de dos poblaciones sobre las que una determinada variable sigue una
distribucin Normal. Sobre la poblacin 1 la variable sigue una distribucin N( 1, 1) y sobre la
poblacin 2 sigue una distribucin N( 2, 2). Igualmente supondremos que disponemos de
dos muestras aleatorias independientes, una para cada poblacin, de tamaos
muestrales n1 y n2 respectivamente.
El objetivo es construir un intervalo de confianza, con nivel de confianza (1 ) 100 %, para el
cociente de varianzas
= 50 cm/s
50 cm/s
La proposicin Ho;
= 50 cm/s Ho;
= 50 cm/s
> 50 cm/s
H1;
afirmacin
= 50 cm/s
50 cm/s
50 cm/s.
Los valores de que son menores que 48.5 o mayores que 51.5
constituyen la regin crtica de la prueba, mientras que todos los valores
que estn en el intervalo 48.5
51.5 forman la regin de aceptacin.
Las fronteras entre las regiones crtica y de aceptacin reciben el nombre
de valores crticos. La costumbre es establecer conclusiones con
respecto a la hiptesis nula Ho. Por tanto, se rechaza Ho en favor de H1 si
el estadstico de prueba cae en la regin crtica, de lo contrario, no se
rechaza Ho.
Este procedimiento de decisin puede conducir a una de dos
conclusiones errneas. Por ejemplo, es posible que el valor verdadero de
la rapidez promedio de combustin del agente propulsor sea igual a 50
cm/s. Sin embargo, para todos los especmenes bajo prueba, bien puede
observarse un valor del estadstico de prueba que cae en la regin
crtica. En este caso, la hiptesis nula H o ser rechazada en favor de la
alternativa H1cuando, de hecho, Ho en realidad es verdadera. Este tipo de
conclusin equivocada se conoce como error tipo I.
El error tipo I se define como el rechazo de la hiptesis nula Ho cuando
sta es verdadera. Tambin es conocido como
nivel de
significancia.
Si tuviramos un nivel de confianza del 95% entonces el nivel de
significancia sera del 5%. Anlogamente si se tiene un nivel de confianza
del 90% entonces el nivel de significancia sera del 10%.
Ahora supngase que la verdadera rapidez promedio de combustin es
diferente de 50 cm/s, aunque la media muestral caiga dentro de la
regin de aceptacin. En este caso se acepta H o cuando sta es falsa.
Este tipo de conclusin recibe el nombre de error tipo II.
El error tipo II error
se define como la aceptacin de la hiptesis
nula cuando sta es falsa.
Por tanto, al probar cualquier hiptesis estadstica, existen cuatro
situaciones diferentes que determinan si la decisin final es correcta o
errnea.
Decisin
Ho es verdadera
Ho es falsa
Aceptar Ho
No hay error
Error tipo II
Rechazar Ho
Error tipo I
No hay error
de forma
Desarrollo de la nula
El modelo de la Tierra Plana era comn en los tiempos antiguos, tales
como en las civilizaciones de la Edad del Bronce y la Edad de Hierro.
Esto podra ser considerado la hiptesis nula (H0) del momento.
H0: el mundo es plano
Muchos de los antiguos filsofos griegos suponan que el sol, la luna y
otros objetos en el universo daban vueltas alrededor de la Tierra. La
astronoma helenstica estableci la forma esfrica de la tierra alrededor
del ao 300 a.C.
H0: el modelo geocntrico: la Tierra es el centro del universo y es
esfrica
Coprnico tena una hiptesis alternativa (H1) que indicaba que el mundo
en realidad daba vueltas alrededor del Sol, centro del universo. Con el
tiempo, las personas se convencieron y la aceptaron como la nula o H0.
H0: el modelo heliocntrico: el Sol es el centro del universo
Posteriormente, alguien propuso una hiptesis alternativa de que el
mismo sol tambin daba vueltas alrededor de algo dentro de la galaxia,
Prueba de Hiptesis para la media. En la fbrica de llantas la hiptesis nula y alternativa para el
problema se plantearon como,
Ho: = 25 000
H1: 25 000
Si se considera la desviacin estndar las llantas producidas en el turno de da, entonces, con
base en el teorema de limite central, la distribucin en el muestreo de la media seguira la
distribucin normal, y la prueba estadstica que esta basada en la diferencia entre la media
X de la
x o
/ n
Por tanto, la regla para decisin sera rechazar Ho si Z > +1.96 o s z < -1.96, de lo contrario, no
rechazar Ho. No obstante, en la mayor parte de los casos se desconoce la desviacin estndar
x de la muestra y la media
la muestra, se expresa
t n 1
X
s/ n
Para una muestra de 100, si se selecciona un nivel de significancia de 0.05, los valores crticos de
la distribucin t con 100-1= 99 grados de libertad se puede obtener como se indica en la siguiente
tabla tenemos el valor de 1.9842. Como esta prueba de dos colas, la regin de rechazo de 0.05 se
vuelve a dividir en dos partes iguales de 0.025 cada una. Con el uso de las tablas para t, los
valores crticos son 1.984 y +1.984. La regla para la decisin es,
Rechazar Ho si
Los
t 99 1.9842
resultados
de
la
o t 99 1.9842
muestra
para
n da 100
el
de lo contrario, no rechazar Ho
turno
de
da
(en
millas)
fueron
t n 1
X
S/ n
t 1001
25.430 25.00
4.000 / 100
1.075
Dado que t100-1=1.075, se ve que -1.984 < +1.075 < + 1.984, entonces no se rechaza Ho.
Por ello, la decisin de no rechazar la hiptesis nula Ho. En conclusin es que la duracin
promedio de las llantas es 25 000 millas. A fin de tener en cuenta la posibilidad de un error de tipo
II, este enunciado se puede redactar como no hay pruebas de que la duracin promedio de las
llantas sea diferente a 25 000 millas en las llantas producidas en el turno de da.
H 0 P 0.08
(Funciona correctamente)
H 1 P 0.08
Ps P
Pq
n
Ps
X
n
Ps 0.05 Z
Ps P
Pq
n
1.107
Una hiptesis estadstica es una suposicin hecha con respecto a la funcin de distribucin de una
variable aleatoria. Para establecer la verdad o falsedad de una hiptesis estadstica con certeza
total, ser necesario examinar toda la poblacin. En la mayora de las situaciones reales no es
posible o practico efectuar este examen, y el camino mas aconsejable es tomar una muestra
aleatoria de la poblacin y en base a ella, decidir si la hiptesis es verdadera o falsa.
En la prueba de una hiptesis estadstica, es costumbre declarar la hiptesis como verdadera si la
probabilidad calculada excede el valor tabular llamado el nivel de significacin y se declara falsa si
la probabilidad calculada es menor que el valor tabular. La prueba a realizar depender del tamao
de las muestras, de la homogeneidad de las varianzas y de la dependencia o no de las variables.
Si las muestras a probar involucran a ms de 30 observaciones, se aplicar la prueba de Z, si las
muestras a evaluar involucran un nmero de observaciones menor o igual que 30 se emplea la
prueba de t de student. La frmula de clculo depende de si las varianzas son homogneas o
heterogneas, si el nmero de observaciones es igual o diferente, o si son variables dependientes.
Para determinar la homogeneidad de las varianzas se toma la varianza mayor y se divide por la
menor, este resultado es un estimado de la F de Fisher. Luego se busca en la tabla de F usando
como numerador los grados de libertad (n-1) de la varianza mayor y como denominador (n-1) de la
varianza menor para encontrar la F de Fisher tabular. Si la F estimada es menor que la F tabular se
declara que las varianzas son homogneas. Si por el contrario, se declaran las varianzas
heterogneas. Cuando son variables dependientes (el valor de una depende del valor de la otra),
se emplea la tcnica de pruebas pareadas.
Como en general estas pruebas se aplican a dos muestras, se denominarn a y b para referirse a
ellas, as entenderemos por:
- na al nmero de elementos de la muestra a
- nb al nmero de elementos de la muestra b
- xb al promedio de la muestra b
- s2a la varianza de la muestra a
- Y as sucesivamente
Entonces se pueden distinguir 6 casos a saber:
- Caso de muestras grandes (n>30)
- Caso de na = nb y s2a = s2b
- Caso de na = nb y s2a s2b
- Caso de na nb y s2a = s2b
- Caso de na nb y s2a s2b
- Caso de variables dependientes
zc
aX b X
as 2 bs 2
na
nb
tc
aX b X
2
as 2 bs 2
(2 / n )
tc
aX b X
tc
as 2 bs 2
n
aX bX
cs 2 cs 2
an bn
ta
tg
s a2
s2
tb b
na
nb
2
2
sa sb
na nn
tc
Xa Xb
s a2 s 2b
na nn
Donde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b respectivamente
6.- Caso de muestras pareadas (de variables dependientes). En este caso, se asume que las
muestras han sido distribuidas por pares.
tc
n
(D D ) 2
n 1
Z 2 / 2 2
e2
n
1 n / n
o aplicar
Para obtener el tamao de la muestra si hay grandes diferencias en el tamao muestral o hay
escasez de informacin
Ejemplo, Una poblacin a encuestar tiene 10000 personas y una varianza de 9.648. Trabajando
con un nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo del 10%, cul
debe ser el tamao muestral para trabajar?
En las tablas de la curva Normal el valor de
elegido,
Z / 2
Z / 2 1.96
H 0 P 0.08
(Funciona correctamente)
H1 P 0.08
Ps P
Pq
n
Ps
X
n
Ps 0.05 Z
Ps P
Pq
n
1.107
zc
aX b X
tc
as 2 bs 2
na
nb
tc
aX b X
aX b X
tc
as 2 bs 2
n
as 2 bs 2
(2 / n )
aX bX
cs 2 cs 2
an bn
s a2
s 2b
ta
tb
na
nb
tg
2
2
sa sb
na nn
tc
Xa Xb
s a2 s 2b
na nn
Donde: ta y tb son los valores de la tabla con n-1 grados de libertad para a y b respectivamente
6.- Caso de muestras pareadas (de variables dependientes). En este caso, se asume que las
muestras han sido distribuidas por pares.
tc
(D D )
n 1
La media est representada por un tringulo y se puede interpretar como un punto de equilibrio. Al
arrastrarlo se modifica tambin la media. El mismo efecto tiene el mover el punto correspondiente
en la cspide de la curva.
Arrastrando el otro punto sobre la curva (que es uno de los dos puntos de inflexin de la curva) se
modifica la desviacin tpica.
Podemos ver la funcin de distribucin acumulada y cmo cambia al modificar la media (simple
traslacin) y la desviacin tpica (reflejando la mayor o menor dispersin de la variable).
Los puntos grises controlan la escala vertical y horizontal de la grfica y pulsando el boton derecho
y arrastrando podemos moverla a derecha e izquierda.
Las distribuciones t de Student fueron descubiertas por William S. Gosset (1876-1937) en 1908
cuando trabajaba para la compaa de cervezas Guinness en Dubln (Irlanda). No pudo publicar
sus descubrimientos usando su propio nombre porque Guinness haba prohibido a sus empleados
que publicaran informacin confidencial. Gosset firm sus publicaciones usando el nombre de
"Student". Gosset tena buena relacin con Karl Pearson que haba sido su maestro. Necesitaba
una distribucin que pudiera usar cuando el tamao de la muestra fuera pequeo y la varianza
desconocida y tena que ser estimada a partir de los datos. Las distribuciones t se usan para tener
en cuenta la incertidumbre aadida que resulta por esta estimacin. Fisher comprendi la
importancia de los trabajos de Gosset para muestras pequeas.
Si el tamao de la muestra es n entonces decimos que la distribucin t tiene n-1 grados de libertad.
Hay una distribucin t diferente para cada tamao de la muestra. Estas distribuciones son una
familia de distribuciones de probabilidad continuas. Las curvas de densidad son simtricas y con
forma de campana como la distribucin normal estndar. Sus medias son 0 y sus varianzas son
mayores que 1 (tienen colas ms pesadas). Las colas de las distribuciones t disminuyen ms
lentamente que las colas de la distribucin normal. Si los grados de libertad son mayores ms
prxima a 1 es la varianza y la funcin de densidad es ms parecida a la densidad normal.
Cuando n es mayor que 30, la diferencia entre la normal y la distribucin t de Student no suele ser
muy importante. En la imagen podemos ver varios ejemplos de funciones de distribucin
acumulada.
de
II.A)
significacin
Pruebas
1.
Prueba
paramtricas
de
Student
Con esta prueba se pretende averiguar si dos muestras que tienen medias iguales, provienen de la
misma poblacin.
Hiptesis
nula
"H0"
1 =
2;
Hiptesis alternativa "H1" 1 2
La prueba permite comparar la media con su valor verdadero o bien las medias de dos
poblaciones. Se basa en los lmites de confianza "LC" para el promedio x de n mediciones
repetidas
(Ec.
2.1).
A
partir
de
dicha
ecuacin
tenemos:
=
t(s/n)
(Ec.
2.1)
s/n
(Ec.
2.2)
s/n: error estndar "EE" o desviacin estndar "DE" de la distribucin muestral de medias. Como
las medias son n veces ms probables que los resultados aislados, la DE de las medias es n
veces menor que la DE de resultados aislados, siendo n el nmero de determinaciones con las que
se
calcula
la
media.
t: "t de student" (tabla 2). Es un parmetro tabulado que depende de los grados de libertad de la
muestra (n-1) "gl" y del intervalo de confianza que se quiera (generalmente 95%).
* Datos apareados: tienen la ventaja de permitir trabajar simplificando a una sola muestra (cuyos
valores corresponden a la diferencia "Di" entre cada par de datos apareados). Sustituimos x - (Ec.
2.2) por Di - 0 porque el valor real de las diferencias, suponiendo que las dos muestras tienen la
misma media, es 0. La DE se calcula con la muestra de diferencias.
* Datos no apareados: como no se puede simplificar a una sola muestra, se ha de introducir el
concepto de desviacin estndar ponderada "sp" (Ec. 2.3). En la ecuacin 2.2 se sustituye s por
sp y x - por x1 - x2 y el tamao de muestra "n" se sustituye por N ponderado "(N1 + N2)/ N1N2".
Sp=[S(x1 - x1)2+S(x2 - x2)2+ ...]/(n1+ n2+ ... - Ns) (Ec. 2.3)
n1,
n2,
...:
el
tamao
de
las
muestras.
Ns:
nmero
de
muestras.
(n1+n2+...-Ns):
nmero
de
grados
de
libertad.
Ejemplo 1: se analizaron dos sueros control (A y B) para la determinacin de la glucemia. Se
realiz sobre cada uno de ellos 5 determinaciones (tabla 3a) y se quiere determinar si estos dos
sueros control son diferentes en relacin al nivel de glucosa.
Como la diferencia de las medias es menor que 13.8, puede decirse que las dos muestras son
significativamente
iguales
(p<
0.05).
2.
Pruebas
de
una
dos
colas
En las "pruebas bilaterales o de dos colas" se comparan dos muestras para saber si difieren
entre s, sin preguntarse cul de ellas tiene mayor estadstico (Ej. media). Si se pretende evaluar
qu muestra tiene el estadstico mayor (sesgo positivo) se realiza una "prueba unilateral o de una
cola". Para un tamao "n" determinado y un nivel de probabilidad concreto, los valores crticos de
ambas pruebas difieren. Suponiendo una poblacin simtrica, la probabilidad de la prueba
unilateral es la mitad de la probabilidad de la prueba bilateral. Por ello, para encontrar el valor
adecuado para una significacin del 95% (p=0.05) en una prueba de una cola, se busca en la
columna de p=0.1 de la tabla de pruebas bilaterales.
La decisin de utilizar una prueba de una o dos colas, depende del grado de conocimiento del
sesgo positivo o negativo que se tenga a priori. Nunca debe decidirse despus de realizar el
experimento,
pues
la
decisin
est
influenciada
por
los
resultados.
Ejemplo 2: antes de analizar la vitamina A por cromatografa se realiza una extraccin lquidolquido. Si se quiere evaluar la recuperacin de la vitamina A en el proceso de extraccin, el sesgo
ser forzosamente negativo, pues nunca puede extraerse ms de lo que hay. En este caso se
aplicar
una
prueba
de
una
cola.
3.
Comparacin
de
variancias
por
contraste
de
Fisher
Para comparar las variancias de dos muestras (S 12 y S22) se plantea la hiptesis nula y la
alternativa.
Hiptesis
Hiptesis
nula
alternativa
"H0"
"H1"
S12 =
S12
S22
S22
Dos muestras tienen variancias diferentes cuando la razn de sus variancias "F", colocando en el
numerador la variancia mayor para que siempre sea mayor de uno, excede el valor crtico F
tabulado. El valor crtico de F se escoge de la tabla 5 segn los tamaos de muestra (n1, n2) y el
nivel de significacin deseado (generalmente 95%). Hay que tener en cuenta que aunque slo se
exponga la tabla de dos colas, se debe aplicar la tabla de valores F para pruebas de una o dos
colas
segn
el
caso.
F=S12/S22 (Ec. 2.4) F Ftabulado (g l=n1-1; n2-1 y 95% significacin) no se puede rechazar H 0 con
una probabilidad de error menor del 5% (p < 0.05).
4.
Anlisis
de
variancia
(Anova)
de
un
factor
Regresin
correlacin
Ambas tcnicas permiten analizar la relacin entre dos variables cuantitativas. Es muy comn la
confusin entre regresin y correlacin a pesar de que son completamente distintas.
5A) Correlacin por ajuste de una recta con el criterio de mnimos cuadrados
A partir de la matriz de datos con n pares de valores (x i, yi) se pueden representar los pares de
valores por puntos en un diagrama de ejes cartesianos (figura 2). El eje de abscisas representa la
variable X y el eje de ordenadas la variable Y. Los pares de valores (x i, yi) se representan por los
puntos de interseccin de las rectas que perpendicularmente a los ejes X e Y, pasan por los puntos
xi e yi de dichos ejes. Para buscar la recta que mejor se ajusta al conjunto de puntos representados
y evaluar el grado de ajuste a dicha recta, se determinan los coeficientes A y B de la recta de ajuste
(Ec. 2.6) que hagan mnima la suma de los residuales "ei" al cuadrado (Ec. 2.7).
y = A + Bx (Ec. 2.6)
Los residuales "ei" representan la distancia, perpendicular a la recta, de los puntos a la recta.
ei2= 1n [yi-(A+Bxi)]2 (Ec. 2.7)
Como las derivadas de una funcin al alcanzar los valores mnimos deben ser cero, los valores A y
B se calculan (Ec. 2.8) haciendo cero las derivadas parciales del sumatorio de residuales (Ec. 2.7)
con respecto a A y B, ordenada en el origen y pendiente 1 de la recta de correlacin (figura 2):
A= y-B x , B = [xiyi - xiyi/n]/xi2-(xi)2/n (Ec. 2.8)
1
Recordar que la pendiente es el valor de la tangente del ngulo que forma la recta con el eje de
abscisas.
Nota: es importante saber que la recta de correlacin pasa por el punto (x, y) siendo x, y las
medias de los datos xi e yi. Aplicando la ecuacin punto-pendiente de una recta podemos obtener
la ecuacin de la recta de mnimos cuadrados:
y= y + B(x- x)
5.a.1.
Descomposicin
de
la
suma
de
cuadrados
Como se observa en la figura 2 para un sujeto "i" cualquiera, se verifica que:
(yi - y)TOTAL= (^yi - y)REGRESIN+(yi-^yi)RESIDUAL (Ec. 2.9)
yi:
valor
aislado
de
y
del
sujeto
i.
y:
media
del
conjunto
de
valores
y i.
Se
supone
el
valor
verdadero.
^yi: valor de y del sujeto i, calculado por la ecuacin de la recta de mnimos cuadrados.
Total:
variacin
total,
distancia
desde
yi al
valor
medio
de
y.
Regresin:
variacin
explicada
por
la
recta
de
regresin.
Residual: variacin no explicada.
Y para el conjunto de los sujetos se demuestra que la variacin total se descompone como:
(yi - y)2= (^yi - y)2+(yi-^yi)2 (Ec. 2.10)
5.
a.2
Valoracin
del
ajuste
de
la
recta
En el laboratorio es muy comn el ajuste de datos experimentales a una recta, por ejemplo para
construir la recta de calibracin de una determinada tcnica. El ajuste perfecto se da cuando la
variancia residual es nula y todos los puntos estn sobre la recta de regresin. El ajuste nulo se da
cuando
la
variacin
explicada
por
la
regresin
es
cero.
Se define el coeficiente de correlacin "r 2" como la relacin entre la variacin explicada y la
variacin total.
r2 = SCRegresin/SCTotal = B2 (SCx/SCy) (Ec. 2.11)
El coeficiente toma valor de 1 cuando el ajuste es perfecto y 0 cuando es nulo. Es importante
indicar que un ajuste nulo no quiere decir ausencia de relacin, ya que slo indica ausencia de
relacin lineal (puede existir una relacin de tipo parablico, exponencial...). Hay que indicar que es
preferible hablar de r2 que de r porque r vara desde 1 hasta +1, correspondiendo con una
pendiente de la recta negativa o positiva, sin embargo r 2 siempre toma valores positivos.
En algunas circunstancias se obtienen valores bajos de "r". Para valuar si el coeficiente es
significativo se debe considerar el nmero de pares de valores usados en su clculo. El mtodo
ms simple es calcular un valor de t usando la ecuacin 2.12.
t= [|r|(n-2)]/(1-r2) (Ec. 2.12)
El valor de t calculado se compara con el tabulado para el nivel de significacin deseado, usando
una prueba de t de dos colas con (n-2) gl. Si t calculado es mayor que el tabulado, H0 se rechaza
(hay
correlacin
significativa).
H0:
no
existe
correlacin
entre
x
e
y.
Hay que indicar que los clculos anteriores permiten obtener la "recta de regresin de y sobre x" es
decir, la recta que evala cmo vara y cuando x se ajusta a los valores elegidos. La "recta de
regresin de x sobre y", la que supone que todos los errores ocurren en x , no coincide con la
anterior salvo cuando r =1.
http://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S0034-79732001000400008
Uno de los anlisis estadsticos ms comunes en la prctica es probablemente el utilizado para comparar dos
grupos independientes de observaciones con respecto a una variable numrica. Como ejemplo, consideremos
los datos que se muestran en la Tabla 1, correspondientes a 75 individuos con sobrepeso sometidos a dos
dietas alimenticias distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada una
de las dietas.
Como ya se ha adelantado, la aplicacin de un contraste paramtrico requiere la normalidad de las
observaciones para cada uno de los grupos. La comprobacin de esta hiptesis puede realizarse tanto por
mtodos grficos (por medio de histogramas, diagramas de cajas o grficos de normalidad) como mediante
tests estadsticos5 (test de Kolmogorov-Smirnov, test de Shapiro-Wilks). Un nmero suficiente de
observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la
utilizacin del mismo test. As mismo, este tipo de metodologa exigir que la varianza en ambos grupos de
observaciones sea la misma. En primer lugar se desarrollar el test t de Student para el caso en el que se
verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente el caso en el que
las varianzas no sean similares.
Bajo las hiptesis de normalidad e igual varianza la comparacin de ambos grupos puede realizarse en
trminos de un nico parmetro como el valor medio (Figura 1a), de modo que en el ejemplo planteado la
hiptesis de partida ser, por lo tanto:
H0: La media de peso inicial es igual en ambos grupos
Se denotar por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos sometidos a la dieta
A y a la dieta B respectivamente. En general no se exigir que coincida el nmero de observaciones en cada
uno de los grupos que se comparan, de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadstico:
(1)
donde
Con lo cual, en este caso particular, el valor utilizado para el contraste ser:
Si la hiptesis de partida es cierta el estadstico (1) seguir una distribucin t de Student con n+m-2 grados de
libertad. De ser as, el valor obtenido debera estar dentro del rango de mayor probabilidad segn esta
distribucin (Figura 2). Usualmente se toma como referencia el rango de datos en el que se concentra el 95%
de la probabilidad. El valor-p que usualmente reportan la mayora de paquetes estadsticos no es ms que la
probabilidad de obtener, segn esa distribucin, un dato ms extremo que el que proporciona el test. Como ya
se dijo, refleja tambin la probabilidad de obtener los datos observados si fuese cierta la hiptesis inicial. Si el
valor-p es muy pequeo (usualmente se considera p<0.05) es poco probable que se cumpla la hiptesis de
partida y se debera de rechazar. La regin de aceptacin corresponde por lo tanto a los valores centrales de
la distribucin para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo
que no existe evidencia estadstica de que el peso medio en ambos grupos sea diferente. En la Tabla 2, se
determina los grados de libertad (en la primera columna) y el valor de (en la primera fila). El nmero que
determina su interseccin es el valor crtico correspondiente. De este modo, si el estadstico que se obtiene
toma un valor mayor se dir que la diferencia es significativa.
Otro modo de obtener esta misma informacin es mediante el clculo de intervalos de confianza para la
diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza constituye una
medida de la incertidumbre con la que se estima esa diferencia a partir de la muestra, permitiendo valorar
tanto la significacin estadstica como la magnitud clnica de esa diferencia6. En el caso que nos ocupa, el
intervalo de confianza vendr dado como:
donde
denota el valor que segn la distribucin t de Student con n+m-2 grados de libertad deja a su
derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad del 95% para la
diferencia de peso viene dado por:
que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la diferencia
entre los pesos de ambos grupos. Proporciona adems la misma informacin que obtenamos del contraste
estadstico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de evidencia para
concluir que el peso sea distinto en ambos grupos.
A medida que el tamao muestral aumenta, la distribucin del estadstico (1) se hace ms prxima a la de una
variable Normal estndar. De este modo, en algunos textos se opta por utilizar esta distribucin para realizar
la comparacin de medias. Aunque esta aproximacin es correcta para muestras suficientemente grandes,
ambos mtodos proporcionan en este caso resultados prcticamente idnticos, por lo que resulta ms simple
utilizar, independientemente del tamao de la muestra, la misma metodologa a partir de la distribucin t. El
mismo planteamiento podra utilizarse en el caso de varianzas distintas o de muestras apareadas.
El caso en el que se dispone de dos grupos de observaciones independientes con diferentes varianzas, la
distribucin de los datos en cada grupo no puede compararse nicamente en trminos de su valor medio
(Figura 1b). El contraste estadstico planteado en el apartado anterior requiere de alguna modificacin que
tenga en cuenta la variabilidad de los datos en cada poblacin. Obviamente, el primer problema a resolver es
el de encontrar un mtodo estadstico que nos permita decidir si la varianza en ambos grupos es o no la
misma. El F test o test de la razn de varianzas viene a resolver este problema. Bajo la suposicin de que las
dos poblaciones siguen una distribucin normal y tienen igual varianza se espera que la razn de varianzas:
que, bajo la hiptesis nula seguir una distribucin t de Student con un nmero f de grados de libertad que
depender de las varianzas muestrales segn la expresin:
La tcnica para realizar el contraste es anloga a la vista anteriormente cuando las varianzas son
desconocidas e iguales. Por ejemplo, en el caso planteado, la prdida media de peso para los individuos en
cada una de las dietas fue de
e
con las variabilidades anteriormente expresadas. Esto
conduce a un valor del estadstico de t=5.58 a relacionar con una distribucin t de Student con
aproximadamente 56 grados de libertad. El valor-p resultante es, por lo tanto, p<0.001 con lo cual podemos
rechazar la hiptesis de partida y concluir que la reduccin de peso experimentada es distinta segn la dieta
que se siga.
Al igual que en el caso anterior, podr optarse por calcular el correspondiente 95% intervalo de confianza para
la diferencia de medias dado por:
Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es importante distinguir
el caso en el que son independientes de aquel en el que los datos estn apareados. Las series dependientes
surgen normalmente cuando se evala un mismo dato ms de una vez en cada sujeto de la muestra. Tambin
se puede encontrar este tipo de observaciones en estudios de casos y controles donde cada caso se aparea
individualmente con un control.
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se produce una prdida de
peso significativa en esos individuos, para lo que se recoge en cada sujeto su peso antes y despus de
someterse a la dieta. En este tipo de anlisis el inters no se centra en la variabilidad que puede haber entre
los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento y otro. Por este
motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo ser la prdida de
peso), de modo que se quiere contrastar la hiptesis:
H0: La prdida de peso es nula
frente a la alternativa de que la prdida de peso sea importante (es decir, distinta de cero).
La veracidad de dicha hiptesis puede ser contrastada igualmente mediante el test t de Student. Como se ha
dicho, este tipo de mtodos tienen como hiptesis fundamental la normalidad de los datos. En este caso, sin
embargo, no ser necesario que las observaciones en ambos grupos provengan de poblaciones normales,
sino que nicamente se requiere verificar la normalidad de su diferencia. Denotando por
de peso la hiptesis de la que se parte es que:
la prdida media
frente a la alternativa
A partir de las observaciones muestrales {Y1,Y2,...,Yn} e {Y1,Y2,...,Yn} en cada uno de los grupos se calcula la
diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj
j=1,2,...,n. Ntese que en este caso un
requisito fundamental es que se tenga un nmero igual de observaciones en ambos grupos. A partir de estos
datos, el contraste se basa en el estadstico:
donde
a comparar del modo habitual con la distribucin t de Student con n-1=74 grados de libertad. El intervalo de
confianza para la prdida media de peso correspondiente a una seguridad del 95% es de (3.56;4.41), lo cual
se traduce en una prdida de peso significativamente distinta de cero, tal y como indica el valor-p
correspondiente de p<0.001.
Dieta
Peso inicial
Peso final
Dieta
Peso inicial
Peso final
94,07
86,59
88,02
84,12
96,79
93,08
88,22
86,13
92,15
87,85
103,45
101,21
92,30
86,83
82,94
79,08
96,50
92,70
89,71
86,19
83,11
76,80
94,83
91,93
91,16
83,40
81,93
78,97
90,81
86,74
83,41
78,89
81,37
77,67
73,59
69,76
89,81
85,70
108,47
104,20
84,92
79,96
72,67
70,01
84,43
79,80
96,84
93,66
86,33
81,15
88,48
87,00
87,60
81,92
89,57
87,24
81,08
76,32
85,22
82,09
92,07
90,20
103,76
102,24
81,14
73,34
87,84
84,66
96,87
93,58
91,50
88,95
99,59
92,36
93,04
88,73
83,90
77,23
92,14
88,07
89,41
85,45
85,26
81,36
85,31
84,59
89,42
86,64
89,25
84,89
92,42
88,99
93,20
93,10
93,13
89,73
89,17
86,87
80,86
77,81
93,51
86,36
88,75
85,93
88,85
83,24
95,02
91,90
88,40
81,20
92,29
91,28
82,45
77,18
89,43
87,22
96,47
88,61
93,32
89,77
99,48
94,67
92,88
89,38
99,95
93,87
89,88
88,00
100,05
94,15
82,25
80,81
87,33
82,17
88,99
86,87
87,61
86,01
82,07
79,74
89,28
83,78
89,72
83,56
95,57
89,58
97,71
91,35
98,73
97,82