Estimación Por Intervalo 0218
Estimación Por Intervalo 0218
Estimación Por Intervalo 0218
Índice general 1
Introducción 2
Bibliografía 41
1
Introducción
2
CAPÍTULO 1
3
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
calculado: intuitivamente la confianza se refiere a la certeza con la que el método dará una
respuesta correcta, y por lo tanto se pedirá que ese nivel de confianza sea alto.
Replanteando el problema de encontrar un rango de valores para θ, se tiene lo siguiente:
si θ ∈ Θ (el espacio paramétrico) y se quiere disminuir el grado de desconocimiento de θ
en f (x; θ), se debe seleccionar un subconjunto Θ1 de Θ en el cual pueda afirmarse, con un
margen de error pequeño, que se encuentra el valor de θ que caracteriza la distribución de
la población. Por ejemplo, suponga que se tiene una muestra aleatoria X1 , . . . , Xn de una
población con distribución N(µ, σ 2 ), con σ 2 conocida y µ desconocida y se desea estimar el
parámetro µ. La estadística T (X) = X̄ tiene distribución N(µ, σ 2 /n), entonces,
X̄ − µ
Z := √ ∼ N(0, 1).
σ/ n
Note que
P[−1.96 < Z < 1.96] = φ(1.96) − φ(−1.96) = φ(1.96) − (1 − φ(1.96))
= 2φ(1.96) − 1 = 2(0.9725) − 1 = 0.95.
A partir de que se sabe que P[−1.96 < Z < 1.96] = 0.95, se obtiene lo siguiente:
X̄ − µ
−1.96 < √ < 1.96,
σ/ n
si y sólo si
σ σ
−1.96 √ < X̄ − µ < 1.96 √ ,
n n
si y sólo si
σ σ
X̄ − 1.96 √ < µ < X̄ + 1.96 √ ,
n n
de donde
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95.
n n
Lo que indica la expresión
σ σ
P X̄ − 1.96 √ < µ < X̄ + 1.96 √ = 0.95,
n n
es que hay una probabilidad de 0.95 de obtener una muestra tal que el intervalo
σ σ
X̄ − 1.96 √ , X̄ + 1.96 √ ,
n n
incluya al valor de µ. Esto motiva la definición 1.1 de intervalo aleatorio, aunque en este
momento, y haciendo referencia al ejemplo anterior, se puede adelantar que un intervalo en
el que al menos uno de los extremos es una variable aleatoria se llama intervalo aleatorio.
4
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
En este caso no tiene sentido hablar de la probabilidad de que el intervalo aleatorio contenga
al parámetro, ya que no hay ninguna variable aleatoria. Ahora, el 0.95 expresa el margen de
confianza con el que se puede afirmar que el valor desconocido de µ está entre los extremos del
intervalo, en el sentido de que repitiendo el muestreo un gran número de veces, se obtendrían
intervalos distintos, entre los cuales aproximadamente el 95 % de estos intervalos contienen
el valor correcto de µ.
Por lo tanto, el intervalo numérico x̄ − 1.96 √σn , x̄ + 1.96 √σn se llama intervalo de con-
fianza para µ con un nivel del 95 %.
- Cada una de las gráficas representa intervalos correspondientes a 100 muestras para
diferentes tamaños de muestra, todas con µ = 100 y diferentes valores de σ.
- El ejercicio se hizo utilizando el software estadístico R.
- Las líneas en negro representan los intervalos que no contienen al verdadero valor de la
media µ en cada uno de los casos considerados.
- Se usó un nivel de confianza del 95 %.
Así, la primera gráfica representa los intervalos correspondientes a 100 muestras de tamaño
10 de una distribución normal con media igual a 100 y σ = 10.
5
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
100
100
100
80
80
80
60
60
60
40
40
40
20
20
20
0
0
85 90 95 100 110 85 90 95 100 110 85 90 95 100 110
Figura 1.1: Intervalos correspondientes a 100 muestras para diferentes tamaños de muestra,
todas con µ = 100 y diferentes valores de σ.
valo del 95 % de confianza para µ, pues P[−1.74 < Z < 2.37)] = φ(2.37) − φ(−1.74) =
φ(2.37) − 1 + φ(1.74) = 0.95. Sin embargo, el de longitud mínima es el originado por
P[−1.96 < Z < 1.96] = 0.95.
6
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
entonces,
X̄ − µ σ σ σ σ
a< √ < b ⇔ a √ < X̄ − µ < b √ ⇔ X̄ − b √ < µ < X̄ − a √ .
σ/ n n n n n
Suponga que se desea minimizar la longitud del intervalo dada por (b−a) √σn , con la restricción
de que P[a < Z < b] = 0.95, es decir, FZ (b) − FZ (a) = 0.95, donde FZ (z) es la función de
distribución de una población N (0, 1) . Para este problema de optimización, se define la
función
L = b − a − λ(FZ (b) − FZ (a) − 0.95).
Entonces,
∂L
= 0 ⇔ −1 + λfZ (a) = 0 ⇔ λfZ (a) = 1 y también
∂a
∂L
= 0 ⇔ 1 − λfZ (b) = 0 ⇔ λfZ (b) = 1.
∂b
De donde, fZ (a) = fZ (b); por lo tanto, a = −b debido a la simetría de fZ . Es decir, la
distancia b − a será minimizada (para un área fija) cuando fZ (a) = fZ (b).
Definición 1.1 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f (x; θ) y τ (θ) una
función de θ. Sean T1 (X) y T2 (X) de forma que T1 ≤ T2 y P(T1 < τ (θ) < T2 ) = γ (γ no
depende de θ). Entonces a (T1 , T2 ) se le llama un intervalo aleatorio y a un valor del intervalo
aleatorio (t1 , t2 ), se le llama intervalo de confianza o un intervalo del γ(100 %) de confianza
para τ (θ).
Note que alguna de las dos estadísticas (pero no ambas) T1 (X) ó T2 (X) puede ser cons-
tante; es decir, alguno de los dos extremos del intervalo aleatorio (T1 , T2 ) puede ser constante.
7
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Definición 1.2 Sea X1 , . . . , Xn una muestra aleatoria de la densidad f(x; θ). Sean T1 (X)
una estadística para la cual P(T1 < τ (θ)) = γ; entonces T1 induce el intervalo de confianza
unilateral inferior (t1 (x), ∞) con un nivel de confianza γ. De manera análoga, si T2 (X) es
una estadística para la cual P(τ (θ) < T2 ) = γ; entonces T2 induce el intervalo de confianza
unilateral superior (−∞, t2 (x)) con un nivel de confianza γ (γ no depende de θ).
Observación 1.2 Si ya se ha determinado un intervalo de confianza para θ, entonces, se
puede determinar una familia de intervalos de confianza. De manera más específica, para un
nivel de confianza del γ(100 %) dado; si se tiene un intervalo de confianza para θ al γ(100 %)
de confianza, entonces se puede obtener un intervalo con el mismo nivel de confianza para
τ (θ) donde τ es una función creciente (estricta). Por ejemplo, si τ es una función creciente
y (T1 , T2 ) es un intervalo de confianza para θ, entonces (τ (T1 ), τ (T2 )) es un intervalo de
confianza para τ (θ) pues
γ = P[T1 (X) < θ < T2 (X)] = P[τ (T1 (X)) < τ (θ) < τ (T2 (X))].
A continuación se describirá un método para encontrar intervalos de confianza, el cual se
conoce como el método de la cantidad pivotal o simplemente método pivotal.
8
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
En este método, la desigualdad q1 < Q < q2 se reescribe, invierte o pivotea como t1 (x) <
τ (θ) < t2 (x).
Como se vió antes en el ejemplo de la distribución normal, puede haber distintos interva-
los que proporcionen el mismo nivel de confianza, por lo que se busca el que tenga longitud
mínima. Desde una perspectiva más general, el siguiente resultado será de utilidad para en-
contrar el intervalo de confianza más corto cuando la cantidad pivotal tenga una distribución
con una densidad unimodal.
Proposición 1.1 Sea f (x) una densidad unimodal y F (x) su función de distribución aso-
ciada. Sea [a, b] un intervalo que satisface que
para α tal que 0 < α < 1. Entonces de entre todos los intervalos que cumplen (1.2), [a0 , b0 ]
tiene la longitud mínima si f (a0 ) = f (b0 ) > 0 y a0 ≤ x∗ ≤ b0 , donde
x∗ es la moda de f (x) .
Si además f (x) es simétrica, entonces a0 = F −1 2 y b0 = F −1 1 − α2 .
α
Demostración:
Se trata de minimizar la longitud b − a sujeta a F (b) − F (a) = 1 − α. Usando multipli-
cadores de Lagrange, se define:
de donde:
∂L
= 1 − λf(a) = 0,
∂a
∂L
= 1 − λf (b) = 0
∂b
y
1 − α − F (b) + F (a) = 0.
De las primeras dos ecuaciones se obtiene que f(a) = f (b) > 0. Si x∗ ∈/ [a, b] y f(a) = f (b),
entonces b − a > b0 − a0 , pues f (x) es unimodal y F (b) − F (a) = F (b0 ) − F (a0 ) .
Así por ejemplo, si la cantidad pivotal tiene una distribución Ji cuadrada, los cuantiles
de orden α/2 y 1 − α/2 de esta distribución contendrán a la moda de la distribución para
α pequeño y, de acuerdo a la proposición anterior, proporcionarán el intervalo más corto de
tamaño 1 − α.
9
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Algunos ejemplos
Ejemplo 1.2 Suponga que se tiene una variable aleatoria con una distribución exponencial
con parámetro λ = 1θ . Obtenga un intervalo del 90 % de confianza para θ.
Como X ∼exponencial, sus funciones de densidad y de distribución son, respectivamente,
1 −x/θ
f (x; θ) = e ,
θ
FX (x) = 1 − e−x/θ ,
X
con x > 0 y θ > 0. Sea Y = θ
, entonces
FY (y) = P [Y ≤ y]
X
= P ≤y
θ
= P [X ≤ θy]
= FX (θy),
que implica que Y ∼exponencial(1). Por lo tanto Y = Xθ puede ser una cantidad pivotal ya
que es una función de la muestra X y del parámetro θ, y su distribución no depende de θ.
Así que el intervalo del 90 % de confianza para θ puede determinarse a partir de
X
P a< < b = 0.90,
θ
donde
X
P < a = P [X < aθ]
θ
= 1 − e−a = 0.05
e−a = 0.95
a = − log(0.95) = 0.051,
10
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
entonces
X
0.051 < < 2.996 ,
θ
X X
<θ< .
2.996 0.051
X
Por lo tanto, , X
2.996 0.051
es el intervalo del 90 % de confianza para θ.
Ejemplo 1.3 Sea X una variable aleatoria con distribución uniforme en el intervalo (0, θ).
Obtener un intervalo del 95 % de confianza para θ.
Se sabe que
1 (x)
fX (x) = I(0,θ) ,
θ x
1 x
FX (x) = dt = .
0 θ θ
X
Sea Y una variable aleatoria definida como Y = θ
, entonces
FY (y) = P (Y ≤ y)
X
= P ≤y
θ
= P (X ≤ θy)
= FX (θy)
θy
=
θ
= y.
Por lo tanto, la variable aleatoria Y = Xθ tiene una distribución uniforme en el intervalo
(0, 1). Así, Q = Xθ es una cantidad pivotal ya que Q es una función de la muestra X y del
parámetro θ y la distribución de Q no depende de θ porque Q ∼ U nif orme (0, 1).
Para obtener un intervalo del 95 % de confianza para θ puede usarse la cantidad pivotal
de la siguiente manera:
P [a < Q < b] = 0.95.
Como Q ∼ U nif orme (0, 1), se pueden tomar cualesquiera cantidades a y b pertene-
cientes al intervalo (0, 1) tal que b − a = 0.95. Esto implica que se podría tomar a ∈ (0, 0.05)
y b = 0.95 + a. Entonces, el intervalo del 95 % confianza para θ estaría determinado por lo
siguiente:
X
P a< < b = 0.95
θ
X X
P <θ< = 0.95.
b a
11
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
X X
PorXlo tanto
X
,
b a
es un intervalo del 95 % de confianza para θ. O de manera equivalente,
,
0.95+a a
es un intervalo del 95 % de confianza para θ.
La longitud del intervalo es
X X
L= − ,
a 0.95 + a
y la longitud esperada del intervalo es
1 1
E [L] = − E [X] .
a 0.95 + a
donde qα/2 y q1−α/2 son los cuantiles α/2 y 1 − α/2 de una distribución χ2(2n) . El intervalo
para θ que se deduce de esta última expresión es
n
2 i=1 Xi 2 ni=1 Xi
, .
q1−α/2 qα/2
12
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Proposición 1.2 Sea X1 , ..., Xn una muestra aleatoria de la población con función de den-
sidad f (x; θ) , tal que la función de distribución correspondiente F (x; θ) es continua en x.
n
Entonces − ni=1 ln F (Xi ; θ) o alternativamente F (Xi ; θ), es una cantidad pivotal para
i=1
estimar θ.
Demostración:
F (Xi ; θ) tiene distribución uniforme en el intervalo (0, 1) , pues si U = F (X; θ) , se tiene
que
P (U ≤ u) = P [F (X; θ) ≤ u]
= P X ≤ F −1 (u)
= F F −1 (u)
= u,
para 0 < u < 1. Por lo tanto, − ln F (Xi ; θ) tiene distribución exponencial con parámetro 1,
debido a lo siguiente:
tiene distribución Gama con parámetros n y 1, al ser la suma de variables aleatorias inde-
pendientes con distribución exponencial (1) .
Ahora (1.3) puede usarse como una cantidad pivotal de la siguiente manera:
13
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
n
n
P q1 < − ln F (Xi ; θ) < q2 = P −q2 < ln F (Xi ; θ) < −q1
i=1 i=1
n
= P −q2 < ln F (Xi ; θ) < −q1
i=1
n
= P e−q2 < F (Xi ; θ) < e−q1
i=1
n
= P a< F (Xi ; θ) < b ,
i=1
donde q1 y q2 son los cuantiles de la distribución Gama (n, 1) que corresponderán al nivel de
confianza deseado y con 0 < a < b < 1. La expresión anterior es equivalente a
n
P − ln b < − ln F (Xi ; θ) < − ln a .
i=1
Por ejemplo, si se tiene una muestra aleatoria de tamaño n de la población con densidad
o
n
P q1 < − ln F (Xi ; θ) < q2 = 1 − α,
i=1
14
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
n
donde la última desigualdad se sigue del hecho de que ln Xi es negativo. Entonces puede
i=1
concluirse que
ln b ln a
,
n n
ln xi ln xi
i=1 i=1
es un intervalo del 100(1 − α) % de confianza para θ.
15
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
estudiado.
n
(Xj − µ)2
2
∼ χ2(n) .
j=1
σ
n−1 2
S ∼ χ2(n−1) .
σ2
16
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribución N(µ, σ 2 ), con
2
σ conocida.
X̄−µ
Se sabe que X̄ ∼ N (µ, σ 2 /n), entonces √
σ/ n
∼ N(0, 1).
X̄−µ
La cantidad pivotal es Q = √ .
σ/ n
De aquí que Q ∼ N (0, 1).
Sean zα/2 , z1−α/2 ∈ R tales que P(Q ≤ zα/2 ) = α/2 y P(Q ≤ z1−α/2 ) = 1 − α/2.
Note que
P(zα/2 < Q < z1−α/2 ) = P(Q ≤ z1−α/2 ) − P(Q ≤ zα/2 )
= (1 − α/2) − α/2 = 1 − α.
También observe que por simetría de la densidad normal estándar zα/2 = −z1−α/2 .
Así,
17
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Caso 2: σ 2 desconocida.
Sea X1 , . . . , Xn es una muestra aleatoria de una población con distribución N (µ, σ 2 ) donde
µ y σ 2 son desconocidos.
X̄−µ (n−1)S 2
Se sabe que √
σ/ n
∼ N(0, 1) y σ2
∼ χ2(n−1) . Entonces,
X̄−µ
√
σ/ n
∼ t(n−1) .
(n−1)S 2
σ2
n−1
Pero,
√ √
X̄−µ
√ X̄−µ
√ n(X̄−µ)
σ/ n σ/ n σ n(X̄ − µ) X̄ − µ
=! = S
= = √ ,
(n−1)S 2 S2 σ
S S/ n
σ2 σ2
n−1
√
donde S := S 2 .
X̄ − µ
∴ √ ∼ t(n−1) .
S/ n
X̄−µ
Es decir, la cantidad pivotal es Q = S/ √ .
n
1−α/2 1−α/2
Sea tn−1 ∈ R, tal que P Y ≤ tn−1 = 1 − α/2, donde Y ∼ t(n−1) . Entonces,
1−α/2 1−α/2
P −tn−1 <Q< tn−1 = 1 − α,
si y sólo si
1−α/2 X̄ − µ 1−α/2
P −tn−1 < √ < tn−1 = 1 − α,
S/ n
si y sólo si
1−α/2 S 1−α/2 S
P −tn−1 √ < X̄ − µ < tn−1 √ = 1 − α,
n n
si y sólo si
1−α/2 S 1−α/2 S
P −X̄ − tn−1 √ < −µ < −X̄ + tn−1 √ = 1 − α,
n n
si y sólo si
1−α/2 S 1−α/2 S
P X̄ − tn−1 √ < µ < X̄ + tn−1 √ = 1 − α.
n n
18
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Ahora,
α/2 1−α/2
P(χn−1 < Q < χn−1 ) = 1 − α,
si y sólo si
α/2 (n − 1)S 2 1−α/2
P(χn−1 < < χn−1 ) = 1 − α,
σ2
si y sólo si " #
1 σ2 1
P α/2
> 2
> 1−α/2 = 1 − α,
χn−1 (n − 1)S χn−1
si y sólo si " #
(n − 1)S 2 (n − 1)S 2
P 1−α/2
< σ2 < α/2
= 1 − α.
χn−1 χn−1
∴ Un intervalo del 100(1 − α) % de confianza para σ 2 está dado por
" #
(n − 1)S 2 (n − 1)S 2
1−α/2
, α/2
.
χn−1 χn−1
19
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Caso 1: σ 2x y σ 2y conocidas.
X̄ − Ȳ − (µx − µy )
Q= ! .
σ2x σ 2y
n
+ m
De aquí que
P −z1−α/2 < Q < z1−α/2 = 1 − α,
si y sólo si
X̄ − Ȳ − (µx − µy )
P −z1−α/2 < ! < z1−α/2 = 1 − α,
σ2x σ 2y
n
+ m
si y sólo si
" #
σ 2x σ 2y σ 2x σ 2y
P −z1−α/2 + < X̄ − Ȳ − (µx − µy ) < z1−α/2 + = 1 − α,
n m n m
si y sólo si
σ 2x σ 2y
P −(X̄ − Ȳ ) − z1−α/2 + < −(µx − µy ) <
n m
σ 2x σ 2y
< −(X̄ − Ȳ ) + z1−α/2 + = 1 − α,
n m
20
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
si y sólo si
σ 2x σ 2y σ 2x σ 2y
P (X̄ − Ȳ ) − z1−α/2 + < µx − µy < (X̄ − Ȳ ) + z1−α/2 + = 1 − α.
n m n m
(n − 1)Sx2 (m − 1)Sy2
2
+ 2
∼ χ2(n+m−2) .
σ σ
1
∴ 2
((n − 1)Sx2 + (m − 1)Sy2 ) ∼ χ2(n+m−2) . (1.4)
σ
Y también se sabe que
X̄ − Ȳ − (µx − µy )
! ∼ N (0, 1). (1.5)
2 1 1
σ n+m
Como se hace el supuesto de que las muestras son independientes, se tiene que (1.4) y
(1.5) son independientes, por lo que
X̄−Ȳ −(µx −µy )
σ2 ( n
1 1
+m )
! ∼ t(m+n−2) .
(n−1)Sx2 +(m−1)Sy2
σ 2 (n+m−2)
Pero,
21
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
(n−1)Sx2 +(m−1)Sy2
donde Sp2 = n+m−2
.
Entonces,
X̄ − Ȳ − (µx − µy )
! ∼ t(m+n−2) .
1 1 2
n
+ m Sp
X̄−Ȳ −(µx −µy )
De aquí que Q = sea una cantidad pivotal tal que Q ∼ t(m+n−2) .
( n1 + m1 )Sp2
1−α/2
Ahora, si tn+m−2 representa el cuantil 1−α/2 de una distribución t de student con n+m−2
grados de libertad,
1−α/2 1−α/2
P −tn+m−2 < Q < tn+m−2 = 1 − α,
si y sólo si
1−α/2 X̄ − Ȳ − (µx − µy ) 1−α/2
P −tn+m−2 < ! < tn+m−2 = 1 − α,
1
n
+ m1 Sp2
si y sólo si $
1−α/2 1 1
P −(X̄ − Ȳ ) − tn+m−2 + Sp2 < −(µx − µy ) <
n m
$
1−α/2 1 1
< −(X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α,
n m
si y sólo si $
1−α/2 1 1
P (X̄ − Ȳ ) − tn+m−2 + Sp2 < µx − µy <
n m
$
1−α/2 1 1
< (X̄ − Ȳ ) + tn+m−2 + Sp2 = 1 − α.
n m
∴ Un intervalo del 100(1−α) % de confianza para µx −µy , cuando σ 2x y σ 2y son desconocidas
pero σ 2x = σ 2y = σ 2 , está dado por
" $ $ #
1−α/2 1 1 1−α/2 1 1
(X̄ − Ȳ ) − tn+m−2 + Sp2 , (X̄ − Ȳ ) + tn+m−2 + Sp2 .
n m n m
22
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Ejemplo 1.5 Una operación de ensamble en una planta manufacturadora requiere aproxi-
madamente de un mes de periodo de entrenamiento para que un empleado nuevo alcance su
eficiencia máxima. Se sugirió un nuevo método de entrenamiento y se hizo una prueba para
comparar el método nuevo con el procedimiento estándar. Se entrenaron a dos grupos de nueve
empleados nuevos por un periodo de tres semanas, un grupo usando el nuevo método (Y ) y
el otro siguiendo el procedimiento de entrenamiento estándar (X). Se registró la duración
de tiempo (en minutos) requerido por cada empleado para ensamblar el aparato al final del
periodo de tres semanas.
Suponiendo que los tiempos de ensamblado se distribuyen aproximadamente normal y
que las varianzas de los tiempos de ensamblado son aproximadamente iguales para los dos
métodos, obtener un intervalo del 95 % de confianza para µx − µy .
Procedimiento Medidas
Estándar X 32 37 35 28 41 44 35 31 34
Nuevo Y 35 31 29 25 34 40 27 32 31
x = 35.22, y = 31.56,
9
9
(xi − x)2 = 195.56, (yi − y)2 = 160.22,
i=1 i=1
9 9
1
Sp2 = 2
(xi − x) + 2
(yi − y) = 22.24.
n + m − 2 i=1 i=1
23
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Pero
Sx2
σ 2x Sx2 σ 2y
Sy2
= 2 2.
Sy σ x
σ2y
Sx2 σ2y
De aquí que Q = Sy2 σ 2x
sea una cantidad pivotal tal que Q ∼ F(n−1,m−1) .
α/2 1−α/2
Es necesario determinar los cuantiles fn−1,m−1 fn−1,m−1 , tales que:
α/2 1−α/2
P fn−1,m−1 < Q < fn−1,m−1 = 1 − α,
si y sólo si
α/2 Sx2 σ 2y 1−α/2
P fn−1,m−1 < 2 2 < fn−1,m−1 = 1 − α,
Sy σ x
si y sólo si
α/2 Sy2 σ 2y 1−α/2 Sy2
P fn−1,m−1 2 < 2 < fn−1,m−1 2 = 1 − α,
Sx σx Sx
o " #
1 Sx2 σ 2x 1 Sx2
P 1−α/2
< < α/2
= 1 − α.
fn−1,m−1 Sy2 σ 2y fn−1,m−1 Sy2
2
∴ Un intervalo del 100(1 − α) % de confianza para σσx2 está dado por
y
" #
1 Sx2 1 Sx2
1−α/2 2
, α/2 2
. (1.6)
fn−1,m−1 Sy fn−1,m−1 Sy
Observación 1.3 Los valores de la distribución F(n,m) están tabulados para valores altos de
1 − α (o equivalentemente valores bajos de α). Debido a que
α/2
α
P Q < fn,m = ,
2
24
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
con Q ∼ F(n,m) , y
1 1 1−α/2
P Q< 1−α/2
= P > fm,n
fm,n Q
1 1−α/2
= 1−P < fm,n (1.7)
Q
α α
= 1− 1− = ,
2 2
se tiene que
α/2 1
fn,m = 1−α/2
.
fm,n
1
(Note que en (1.7) se ha utilizado el hecho de que si Q ∼ F(n,m) , entonces Q
∼ F(m,n) ).
25
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
donde CICR representa la Cota Inferior de Cramer y Rao para estimadores insesgados de
τ (θ) . A partir de estos resultados, puede construirse una cantidad pivotal para el parámetro
de interés.
Ejemplo 1.6 Sea X1 , ..., Xn una muestra aleatoria de la distribución exponencial (θ) . En-
contrar un intervalo del 100(1 − α) % de confianza para θ.
El estimador máximo verosímil de θ está dado por % θM V = X1 , mientras que la información
esperada de Fisher es IX (θ) = θn2 . Entonces por la propiedad asintótica de los estimadores
máximo verosímiles, se tiene que
1 θ2
∼ N θ,
X n
por lo que
1
X
−θ
! ∼ N (0, 1) ,
θ2
n
26
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
si y sólo si
−z1−α/2 1 z1−α/2
P √ +1≤ ≤ √ + 1 = 1 − α,
n θX n
o
−z1−α/2 1 z1−α/2
P √ + 1 X ≤ ≤ √ + 1 X = 1 − α,
n θ n
de donde: " √ √ #
n n
√ , √ ,
x n + z1−α/2 x n − z1−α/2
es un intervalo del (1 − α) % de confianza para θ.
Ejemplo 1.7 Sea X la media muestral de una muestra aleatoria de tamaño n = 25 de una
distribución Gama(α, λ) con α = 4 y λ = β1 > 0. Use el teorema del límite central para
obtener un intervalo de confianza para la media de la distribución Gama con un coeficiente
de confianza de 0.954.
Por el teorema del límite central se sabe que
X −E X
! ∼ Normal(0, 1),
V ar X
donde
1
E X = nE [X] = αβ = 4β,
n
1 1 2 1 2
V ar X = nV ar (X) = αβ = 4β ,
n2 n n
X − 4β
! ∼ N ormal(0, 1),
1 2
n
4β
27
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
m
x1 +···+xm nm−(x1 +···+xm ) n (xi )
= p (1 − p) I ,
i=1
xi {0,...,n}
' () *
α
por lo que
28
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
y
∂l x1 + · · · + xm nm − (x1 + · · · + xm )
= − = 0.
∂p p̂ p̂ 1 − p̂
De donde,
m
Xi
i=1 X
p% = . =
nm n
Por otra parte, la información esperada de Fisher está dada por:
2
∂
IX = −mE ln(f (x; n, p)) ,
∂p2
así:
n
ln(f(x; n, p)) = x ln(p) + (n − x) ln(1 − p) + ln( ),
x
De esta manera, se obtiene que la Cota Inferior de Crámer y Rao para estimadores insesgados
de p está dada por:
p(1 − p)
CICR = .
mn
29
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
donde X tiene distribución Binomial (n, p) , lo cual también se puede ver como el resultado
de considerar una muestra aleatoria de tamaño n de una distribución Bernoulli(p) , donde
X representaría la suma de las variables de dicha muestra. Aún en este caso es complicado
obtener el intervalo para p a partir de esta expresión, pues el parámetro aparece tanto en
el numerador como en el denominador. Un resultado de la teoría asintótica establece que la
cantidad
X
−p
!n , (1.9)
p(1−p)
n
también tiene distribución N (0, 1) . Para revisar la justificación de este tema, ver Casella
(2002), sección 10.1. Note que para este caso, p% = Xn , por lo que usando (1.9) como cantidad
pivotal, se obtiene que
X
−p
P −z1− α2 < !nX X < z1− α2 = 1 − α,
n
(1− n )
n
que es equivalente a
$ $
X X X X
X (1 − ) X (1 − )
P − z1− α2 n n
<p< + z1− α2 n n
= 1 − α,
n n n n
30
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
π(θ|x) ∝ f(x|θ)π(θ)
∝ θx (1 − θ)n−x θ1−g (1 − θ)h−1
= θg+x (1 − θ)h+n−x .
31
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
3.0
2.5
2.0
Colas Iguales
HPD
1.5
Cola Inferior
Cola Superior
1.0
0.5
0.0
32
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
1.5. Ejercicios
1. (Construcción del concepto de intervalo de confianza mediante simulación en R). Revise
cuidadosamente las siguientes gráficas obtenidas por simulación en R.
80
80
40
40
40
0
0
0
80 100 120 80 100 120 80 100 120
80
80
80
40
40
40
0
0
80
40
40
40
0
0
Figura 1.3: Intervalos obtenidos por simulación para diferentes valores de σ y distintos
tamaños de muestra.
Ahí se presentan 100 intervalos de confianza variando el tamaño de muestra según tres
posibilidades (10, 30 y 50) y la desviación estándar según 3 opciones (5, 10 y 15). Así,
finalmente se tienen 9 combinaciones según varía el tamaño de muestra y la desviación
33
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
Repita el proceso generando cada una de estas muestras 100 veces. ¿Cómo son los
intervalos? Identifique los intervalos con mayor longitud y con menor longitud. Compare
y explique los resultados.
3. Suponga que X es una variable aleatoria de la población con función de densidad dada
por
2(θ − x)
fX (x; θ) = I(0,θ) (x),
θ2
donde θ > 0 es un parámetro desconocido. Sea α ∈ (0, 1). Construya un intervalo del
100(1 − α) % de confianza para θ, utilizando como cantidad pivotal Q = Xθ .
34
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
(a) Encuentre una cantidad pivotal y utilícela para encontrar un intervalo de confian-
za para θ.
(b) Demuestre que Y2 , Y es un intervalo de confianza para θ, donde Y = − log(X) 1
.
Encuentre su nivel de confianza.
5. Sea X una variable aleatoria de una población con función de densidad fX (x; θ) = θe−θx ,
donde x > 0 y θ > 0.
(a) Sea (X, 2X) un intervalo de confianza para 1/θ. ¿Cuál es su nivel de confianza?
(b) Encuentre otro intervalo de confianza para 1/θ que tenga el mismo nivel de con-
fianza que el intervalo de (a), pero con menor longitud esperada.
6. Considere una sola observación X de las siguientes distribuciones. Dado α ∈ (0, 1),
encuentre un intervalo del 100(1 − α) % de confianza para θ.
(a) Laplace-localización
1
fX (x; θ) = e−|x−θ| IR (x) , θ ∈ R.
2
(b) Cauchy
1 1
fX (x; θ) = IR (x) , θ ∈ R.
π 1 + (x − θ)2
(c) Laplace-escala
1 −|x|/θ
fX (x; θ) = e IR (x) , θ ∈ R+ .
2θ
7. Sea X1 , X2 , X3 , X4 una muestra aleatoria de tamaño 4 de una población con distribución
U (0, θ). Sea Y(4) la máxima estadística de orden. Sean 0 < κ1 < κ2 ≤ 1 constantes tales
que
P(κ1 θ < Y(4) < κ2 θ) = 0.95.
√
Verifique que κ1 = 4 0.05 y κ2 = 1 satisfacen estas condiciones. ¿Cuál es entonces un
intervalo del 95 % de confianza para θ?
8. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución U(0, θ). Sea
Y = máxi=1,...,n {Xi }. Pruebe que Y /θ es una cantidad pivotal, y muestre que el intervalo
(Y, Y α−1/n ) es el intervalo del (1 − α)100 % de confianza para θ con menor longitud.
35
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
10. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución Exp(θ), cuya
función de densidad es
fXi (x) = θe−θx I(0,∞) (x).
Y1 = mı́n{X1 , . . . , Xn },
11. Sea Y1 , . . . , Yn una muestra aleatoria de tamaño n de una población con distribución
uniforme en el intervalo (0, 1/θ). Encuentre un intervalo del 95 % de confianza para θ.
12. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución Gamma(α, β). Si
α es una constante conocida, obtenga un intervalo de confianza para la media µ = αβ.
36
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
14. Sea X1 , . . . , Xn una muestra aleatoria de una población con función de densidad
fXi (xi ; θ) = eiθ−xi ,
donde xi > iθ.
18. Sea X1 , . . . , Xn una muestra aleatoria de la población con distribución N(µ, σ 2 ). Sean
0 < a < b. Demuestre que la esperanza de la longitud del intervalo
n 2
n 2
i=1 (Xi − µ) i=1 (Xi − µ)
,
b a
2
es (b − a) nσ
ab
.
19. Sean X̄ y Ȳ las medias de dos muestras aleatorias independientes entre sí, cada una
de tamaño n, de las distribuciones N (µx , σ 2 ) y N (µy , σ 2 ), respectivamente, donde la
varianza común es conocida. Encuentre n tal que
σ σ
P X̄ − Ȳ − < µx − µy < X̄ − Ȳ + = 0.9.
5 5
37
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
20. Considere X una variable aleatoria tal que X ∼ N(0, σ 2 ), donde σ > 0 es un parámetro
desconocido. Considere el siguiente intervalo de confianza (|X|, 10|X|) para σ.
21. Se desea hacer una comparación entre dos tratamientos para el SIDA. Se mide el tiempo
de falla (en años) de cada uno de estos tratamientos en siete pacientes seleccionados
aleatoriamente. La información se detalla en la siguiente tabla.
Paciente 1 2 3 4 5 6 7
Tratamiento 1 3.1 3.3 1.7 1.2 0.7 2.3 2.9
Tratamiento 2 1.8 2.3 2.2 3.5 1.7 1.6 1.4
Construya un intervalo del 80 % de confianza para la diferencia de medias. ¿Se necesita
hacer alguna suposición adicional?
22. Sea realizó un estudio para determinar si la variabilidad en la presión arterial de hom-
bres y mujeres es la misma o no. Se seleccionó aleatoriamente a 13 mujeres y a 16
hombres, se les midió la presión arterial (en milímetros de mercurio) y los resultados
fueron los siguientes:
Hombres 120 120 118 112 120 114 130 114
124 125 130 100 120 108 112 122
Mujeres 122 102 118 126 108 130 104 116
102 122 120 118 130
¿Se puede concluir con un 95 % de confianza que la variabilidad de la presión arterial
de hombres y mujeres es la misma? ¿Se necesitan hacer suposiciones adicionales?
23. Sean X̄ y Ȳ las medias muestrales, y Sx2 y Sy2 los estimadores insesgados de la varianza,
obtenidos de dos muestras independientes cada una de tamaño 7 de dos poblaciones
normales con varianza común σ 2 y media desconocida. Encuentre k ∈ R, tal que
+ 2 2,
Sx Sy
P máx , > κ = 0.05.
Sy2 Sx2
25. Se cuenta con dos grupos similares de pacientes, A y B, que consisten de 50 y 100
individuos, respectivamente. Al grupo A se le administró una nueva pastilla para dormir
y a la segunda una pastilla para dormir ya existente. En el grupo A, el número promedio
38
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
de horas de sueño fué de 7.82 con una desviación estándar de 15 minutos. En el grupo
B, el número promedio de horas de sueño fué de 6.75 con una desviación estándar de
18 minutos. Construya intervalos del 95 % y 99 % de confianza para la diferencia de las
horas promedio dormidas.
26. Los siguientes datos representan el tiempo de vida útil de un artículo, medido en días:
29.1, 207.6, 81.8, 0.8, 76.1, 108.9, 48.4, 108.1, 52.2, 272.8, 150.5, 80.3, 97.4, 11.5, 46.2,
144.1, 62.5, 262.9, 247.6, 4.1. Este tiempo se supone distribuído como una exponencial
con media θ, Exp(1/θ).
27. Se lanza una moneda 500 veces, y se obtienen 275 águilas y 225 soles. Obtenga un
intervalo de confianza para la probabilidad de obtener águila. Obtenga también un
intervalo del 99 % de confianza. ¿Está bien construida la moneda?
28. Una urna contiene una proporción desconocida de cánicas rojas y blancas. De una
muestra aleatoria con reemplazo de 60 cánicas se obtuvo un 70 % de cánicas rojas.
Encuentre intervalos del 95 % y 99.73 % de confianza para la proporción de cánicas
rojas en la urna.
30. De una lista electoral de opinión pública se invita a 100 personas de entre 10,000 adultos
a expresar su preferencia por los candidatos A y B. Treinta personas prefirieron a A.
De esto se concluyó que entre 2100 y 3900 de la población prefieren a A. ¿Qué nivel de
confianza se usó en este informe?. Nótese que n = 100 y Y = 30 es el número de éxitos
(las personas que prefirieron a A) y que el intervalo está dado para la media np.
31. Sea X1 , . . . , Xn una muestra aleatoria de una población con distribución P oisson(λ).
Suponga que el tamaño de la muestra es lo suficientemente grande y por lo tanto se
39
Estimación por Intervalo Vázquez-Naranjo-Fuentes-Chávez
32. Encuentra una cantidad pivotal basada en una muestra aleatoria de una distribución
N (θ, θ) con θ > 0. Usa la cantidad pivotal para encontrar un intervalo del (1 − α) % de
confianza para θ.
40
Bibliografía
[1] Casella, G. y Berger, R. L. (2002). Statistical Inference. Duxbury Advanced Series. 2nd.
ed.
[3] Hogg, R.V., McKean, J. W., Craig, A. T. (2014). Introduction to Mathematical Statistics.
Pearson Education International. 7th. ed.
[4] Kapadia, A.S., Chan, W. y Moyé, L. (2005). Mathematical Statistics with Applications.
Chapman & Hall, Inc./CRC Press.
[5] Lindgren, B.W. (1993). Statistical Theory. Chapman & Hall, Inc. 4th ed.
[6] Mood, A. M., Graybill, F. A. y Boes, D. C. (1974). Introduction to the theory of stastistics.
Mc Graw-Hill, Inc. 3rd. ed.
[7] Stuart, A., Ord, J. K. y Arnold, S. (1999). Advanced Theory of Statistics, 2A: Clasical
Inference and the Linear Model. London: Oxford University Press, 6th ed.
41