21 - Sesgo y ECM
21 - Sesgo y ECM
21 - Sesgo y ECM
Matías Carrasco
6 de octubre de 2019
Índice
1. Propiedades de los estimadores 1
2. Sesgo de un estimador 1
Como vimos, pueden haber varios estimadores razonables para un mismo parámetro θ . Es
por esto que nos gustaría disponer de ciertos criterios que nos permitan elegir un estimador
entre varios.
Sin embargo, esto es como cuando vamos a comprar una computadora nueva, existen varias
características que pueden indicar que una computadora es mejor que otra, pero difícilmente
nos podamos poner de acuerdo en un solo criterio que sirva para decir cuál es la mejor
computadora. Con los estimadores pasa exactamente los mismo, dependiendo del contexto,
ciertas personas priorizan algunos criterios sobre otros.
Para entender las dos nociones que discutiremos a seguir, supongamos que queremos saber
qué hora es ahora mismo. Obviamente es imposible saberlo, pero podemos estimarla usando
un reloj. Si disponemos de varios relojes, ¿qué reloj es mejor? Seguramente estés de acuerdo
con los siguientes criterios:
Exactitud: ¿está nuestro reloj en hora? ¿o está atrasado/adelantado?
Precisión: ¿marca nuestro reloj los segundos? ¿o se limita a marcar los minutos?
Cuando se trata de un estimador, la primer propiedad refiere al sesgo y la segunda al error
cuadŕatico medio1 .
2. Sesgo de un estimador
Un estimador debe estar “próximo” en algún sentido al valor verdadero del parámetro des-
conocido. De manera formal, se dice que T es un estimador insesgado de θ si el valor
esperado de T es igual a θ .
1A veces al error cuadrático medio se lo llama error estándar.
1
Notas PyE 2019-S2 Clase 6
Sesgo
El estimador T es un estimador insesgado del parámetro θ si
E (T ) = θ .
Sesgo (θ ) = E (T ) − θ
Muchas veces nos interesan propiedades asintóticas de los estimadores. Es decir, propieda-
des para valores grandes de n. Así, aunque un estimador puede ser sesgado, puede que el
sesgo tienda a cero a medida que n crece.
Sesgo asintótico
Un estimador T es un estimador asintóticamente insesgado del parámetro θ si
lı́m E (T ) = θ .
n→+∞
µ2 + σ 2 n − 1 2 σ2
= + µ = µ2 + .
n n n
Por otro
2 1 n µ2 + σ 2 n − 1 2 σ2
E X n = 2 ∑ E (Xi X j ) = + µ = µ2 + .
n i, j=1 n n n
2
Notas PyE 2019-S2 Clase 6
como estimador de σ 2 , pues este sí es insesgado. Nosotros usaremos de todos modos ambos
estimadores, Sn2 y Σ2n , pues el sesgo es pequeño para muestras grandes.
3
Notas PyE 2019-S2 Clase 6
Distribución de T1
Distribución de T2
Si la eficiencia relativa es menor que uno, entonces puede concluirse que T1 es un estimador
más eficiente de θ que T2 , en el sentido de que tiene un error cuadrático medio más pequeño.
Por ejemplo, supongamos que queremos estimar la media µ de una población. Se tiene
un muestreo aleatorio de n observaciones X1 , . . . , Xn y se quiere comparar dos estimadores
posibles de µ: la media muestral X n y una observación de la muestra, por ejemplo Xi .
Notar que X n y Xi son ambos estimadores insesgados de µ; en consecuencia el error cua-
drático medio de ambos estimadores es simplemente la varianza. Para la media muestral, se
tiene
∑n var (Xi ) σ 2
ECM X n = i=1 2 = .
n n
Para Xi la varianza es var (Xi ) = σ 2 . Por consiguiente, la eficiencia relativa de Xi con res-
pecto a X n es
ECM (T1 ) σ 2 /n 1
= = .
ECM (T2 ) σ2 n
Puesto que 1/n < 1 si n ≥ 2, podemos concluir que la media muestral es un mejor estimador
de µ que una sola observación Xi .
Estimador consistente
4
Notas PyE 2019-S2 Clase 6
Consistencia
Si Tn es un estimador de θ basado en un muestreo aleatorio de n observaciones,
entonces Tn es consistente para θ si
P
Esto se suele escribir Tn → θ en donde la letra P recuerda que la convergencia es con
probabilidad alta.
θ− θ θ+
Como veremos en seguida, una forma de mostrar que un estimador es consistente es probar
que su error cuadrático medio tiende a cero cuando n tiende a infinito.
Recordar que la desigualdad de Chebychev establece una cota superior para las colas de una
distribución de una variable que tiene varianza.
5
Notas PyE 2019-S2 Clase 6
E (Tn − θ )2
P (|Tn − θ | ≥ ε) ≤ .
ε2
Notar que por definición ECM (Tn ) = E (Tn − θ )2 . Hemos probado entonces la desigual-
dad siguiente:
ECM (Tn )
P (|Tn − θ | ≥ ε) ≤ .
ε2
Criterio de consistencia
Sea Tn un estimador del parámetro θ basado en un muestreo de tamaño n. Si el
error cuadrático medio de Tn tiende a cero cuando n tiende a infinito, entonces Tn es
consistente.
Notar que un estimador con error cuadrático medio que tiende a cero es asintóticamente
insesgado. De hecho, la desigualdad de Cauchy-Schwarz nos dice que
q
|E (Tn ) − θ | ≤ E (|Tn − θ |) ≤ E ((Tn − θ )2 ) → 0
cuando n → +∞.
6
Notas PyE 2019-S2 Clase 6
Consistencia y continuidad
Si Tn es un estimador consistente del parámetro θ , y g : R → R es una función
continua, entonces g(Tn ) es un estimador consistente de g(θ ).
1 n 2 2
Σ2n = ∑ Xi − X n .
n i=1
El primer término del lado derecho converge, con probabilidad alta, a E X 2 por la LGN
aplicada a la sucesión i.i.d. de variables X12 , . . . , Xn2 . Para ver la convergencia del segundo
miembro aplicamos el teorema anterior con g(x) = x2 . Es decir, como X n es un estimador
2 2
consistente de E (X), entonces X n es un estimador consistente de E (X) . Entonces Σn es un
2
2
estimador consistente de E X 2 − E (X) = σ 2 . Lo mismo vale para Sn2 .
Un fabricante produce componentes eléctricos que tienen un tiempo de vida útil que se
modela mediante una variable aleatoria X con distribución exponencial de parámetro λ .
Para estimar λ se proponen los siguientes métodos:
1. Hacer un muestreo de n componentes y medir sus tiempos de vida útil X1 , . . . , Xn con
total exactitud, observado en tiempo continuo a cada uno de ellos. Esta opción puede
ser bastante costosa.
2. Observar los componentes una vez al día, de modo que si al comenzar el día un
determinado componente está roto, pero estaba sano el día anterior, solo se puede
deducir que se rompió en el lapso de 24hrs que transcurrieron entre las observaciones.
En este caso se mide Yi el redondeo al mayor entero más cercano de Xi . Esta opción
es, sin dudas, menos costosa que la anterior.
3. Una opción intermedia respecto al costo es observar con total exactitud los compo-
nentes, pero solamente hasta que la mitad de ellos hayan fallado. Esto equivale a
medir el tiempo de vida medio τ.
Consideremos el caso 1. Vamos a aplicar el método de los momentos para definir un esti-
mador λ̂1 de λ . Como la esperanza E (X) = 1/λ , vemos fácilmente que
1
λ̂1 = .
Xn
7
Notas PyE 2019-S2 Clase 6
Notar que λ̂1 se puede calcular en el caso 1, pues estamos suponiendo que se miden con
total exactitud las Xi0 s.
¿Es λ̂1 un estimador insesgado de λ ? Para responder debemos calcular su distribución.
Comencemos por calcular la densidad de Z = X1 + X2 . Recordando la fórmula de convolu-
ción para densidades, tenemos que
Z +∞ Z z
p(z) = p(x)p(z − x)dx = λ 2 e−λ x e−λ (z−x) dx = λ 2 ze−λ z , (z > 0).
−∞ 0
8
Notas PyE 2019-S2 Clase 6
A diferencia del caso anterior, las cuentas son bastante más complicadas
para
λ̂2 . Por la ley
de los grandes números y la continuidad de la función g(y) = − ln 1 − y deducimos que
1
λ̂2 es un estimador consistente de λ . Sin embargo es bastante más difícil calcular el sesgo.
La f.p.p. de Y n es relativamente simple, y está dada por
k−1 n
P Y n = k/n = p (1 − p)k−n .
n−1
Luego, la fórmula para la esperanza de λ̂2 es
n k −1 n
∞
E λ̂2 = − ∑ ln 1 − p (1 − p)k−n .
k=n k n − 1
Pero esta suma es prácticamente imposible de calcular analíticamente. Sin embargo se pue-
de probar (aplicando una desigualdad conocida que no vimos en el curso; la desigualdad de
Jensen) que
E λ̂2 > λ ,
por lo que λ̂2 no es insesgado. ¿Pero qué podemos decir del sesgo asintótico? Por ahora ¡no
mucho! (más adelante veremos un método llamado el método delta que sirve para este caso).
Una posibilidad es usar técnicas de análisis numérico, o incluso simular el experimento para
varios valores de λ . Pero ambas opciones escapan al contenido del curso. Aunque sea una
opción más barata, es más cara desde el punto de vista del análisis estadístico.
Veamos ahora la tercera opción. El tiempo de vida medio corresponde a estimar la mediana
M de X usando la mediana muestral. Esto quiere decir que si ordenamos las variables
X1∗ < X2∗ < · · · < Xn∗ ,
entonces τ = Xb∗n+1 c , y es de esperar que esté cerca de M. Como M es el valor que cumple
2
P (X > M) = 1/2,
es fácil calcularla: M = ln(2)/λ .
Si medimos experimentalmente el tiempo de vida medio τ, entonces
ln(2)
λ̂3 =
τ
es un estimador razonable para λ .
Para facilitar las cuentas vamos a servirnos del siguiente truco. Cada Xi tiene distribución
exponencial de parámetro λ , por lo que podemos escribir Xi = Zi /λ con Zi exponencial de
parámetro 1. De este modo τ se escribe τ1 /λ en donde τ1 = Zb∗n+1 c es la mediana muestral
2
de las Zi0 s.