21 - Sesgo y ECM

Clase 6: Sesgo y error cuadrático medio
Matías Carrasco
6 de octubre de 2019
Índice
1. Propiedades de los estimadores 1
2. Sesgo de un estimador 1
3. Error cuadrático medio de un estimador 3
1. Propiedades de los estimadores
Como vimos, pueden haber varios estimadores razonables para un mismo parámetro θ . Es
por esto que nos gustaría disponer de ciertos criterios que nos permitan elegir un estimador
entre varios.
Sin embargo, esto es como cuando vamos a comprar una computadora nueva, existen varias
características que pueden indicar que una computadora es mejor que otra, pero difícilmente
nos podamos poner de acuerdo en un solo criterio que sirva para decir cuál es la mejor
computadora. Con los estimadores pasa exactamente los mismo, dependiendo del contexto,
ciertas personas priorizan algunos criterios sobre otros.
Para entender las dos nociones que discutiremos a seguir, supongamos que queremos saber
qué hora es ahora mismo. Obviamente es imposible saberlo, pero podemos estimarla usando
un reloj. Si disponemos de varios relojes, ¿qué reloj es mejor? Seguramente estés de acuerdo
con los siguientes criterios:
Exactitud: ¿está nuestro reloj en hora? ¿o está atrasado/adelantado?
Precisión: ¿marca nuestro reloj los segundos? ¿o se limita a marcar los minutos?
Cuando se trata de un estimador, la primer propiedad refiere al sesgo y la segunda al error
cuadŕatico medio1 .
2. Sesgo de un estimador
Un estimador debe estar “próximo” en algún sentido al valor verdadero del parámetro des-
conocido. De manera formal, se dice que T es un estimador insesgado de θ si el valor
esperado de T es igual a θ .
1A veces al error cuadrático medio se lo llama error estándar.
1
Notas PyE 2019-S2 Clase 6
Sesgo
El estimador T es un estimador insesgado del parámetro θ si
E (T ) = θ .
Si el estimador es no es insesgado, entonces la diferencia
Sesgo (θ ) = E (T ) − θ
es conocida como sesgo del estimador T .
Muchas veces nos interesan propiedades asintóticas de los estimadores. Es decir, propieda-
des para valores grandes de n. Así, aunque un estimador puede ser sesgado, puede que el
sesgo tienda a cero a medida que n crece.
Sesgo asintótico
Un estimador T es un estimador asintóticamente insesgado del parámetro θ si
lı́m E (T ) = θ .
n→+∞
Es decir, si Sesgo (θ ) → 0 cuando n → +∞.
Veamos un par de ejemplos. Si utilizamos el promedio X n como estimador de µ la esperanza

de X, entonces
!
1 n 1 n µ +···+ µ
E Xn = E X

∑ i = ∑ E (Xi ) = = µ.
n i=1 n i=1 n
Luego, X n es un estimador insesgado de µ.

¿Qué pasa con la varianza? Veamos si Σ2n es un estimador insesgado de σ 2 . Calculamos
!
n
1 2 1 n 2
E Σ2n = E Xi − X n = ∑ E Xi − X n

∑
n i=1 n i=1
1 n
2
= ∑ E Xi2 − 2E Xi X n + E X n

n i=1
Calculemos cada término por separado. Por un lado

n E Xi2

1 1
E Xi X n ∑ E (Xi X j ) = n + n ∑ E (Xi ) E (X j )

=
n j=1 i6= j
µ2 + σ 2 n − 1 2 σ2
= + µ = µ2 + .
n n n
Por otro

2 1 n µ2 + σ 2 n − 1 2 σ2
E X n = 2 ∑ E (Xi X j ) = + µ = µ2 + .
n i, j=1 n n n
2
Juntando ambos cálculos obtenemos

σ2 n−1 2
E Σ2n = µ 2 + σ 2 − µ 2 −

= σ .
n n
Vemos así que Σ2n es un estimador sesgado de σ 2 . El sesgo de Σ2n es
σ2
Sesgo Σ2n = −

→0
n
cuando n → +∞. Entonces, Σ2n es un estimador asintóticamente insesgado de σ 2 .
Es por esto que muchas veces se define
n 2 1 n 2
Sn2 = Σn = ∑ Xi − X n
n−1 n − 1 i=1
como estimador de σ 2 , pues este sí es insesgado. Nosotros usaremos de todos modos ambos
estimadores, Sn2 y Σ2n , pues el sesgo es pequeño para muestras grandes.
3. Error cuadrático medio de un estimador
Supongamos que T1 y T2 son estimadores insesgados de θ . Esto indica que la distribución

de cada estimador está centrada en el verdadero valor θ . Sin embargo, las varianzas de
estas distribuciones pueden ser diferentes. La Figura 1 representa esta situación. Puesto que
T1 tiene una varianza más pequeña que T2 , es más probable que el estimador T1 produzca
una estimación más cercana al verdadero valor θ . Cuando se elige uno de entre varios
estimadores, un principio útil es seleccionar el estimador que tenga la menor varianza.
A veces es necesario utilizar un estimador sesgado, como por ejemplo Sn2 . En tales casos la
cantidad que mide la precisión del estimador es el error cuadrático medio, que es el cuadrado
esperado de la diferencia entre T y θ .
Error cuadrático medio

El error cuadrático medio de un estimador T del parámetro θ está definido como

ECM (T ) = E (T − θ )2 .
El error cuadrático medio puede reescribirse de la siguiente manera:

ECM (T ) = E (T − E (T ))2 + (θ − E (T ))2 = var (T ) + Sesgo (T )2
= (varianza) + (sesgo)2
Esto es, el error cuadrático medio de T es igual a la varianza del estimador más el cuadrádo
del sesgo. Si T es un estimador insesgado de θ , el error cuadrático medio de T es igual a la
varianza de T .
El error cuadrático medio es un criterio importante para comparar dos estimadores. Sean
T1 y T2 do estimadores del parámetro θ , y ECM (T1 ) y ECM (T2 ) los errores cuadráticos
medios de T1 y T2 . Entonces, la eficiencia relativa de T2 con respecto a T1 se define como
ECM (T1 )
.
ECM (T2 )
3
Distribución de T1
Distribución de T2
Figura 1: Distribuciones de muestreo de dos estimadores insesgados T1 y T2 .
Si la eficiencia relativa es menor que uno, entonces puede concluirse que T1 es un estimador
más eficiente de θ que T2 , en el sentido de que tiene un error cuadrático medio más pequeño.
Por ejemplo, supongamos que queremos estimar la media µ de una población. Se tiene
un muestreo aleatorio de n observaciones X1 , . . . , Xn y se quiere comparar dos estimadores
posibles de µ: la media muestral X n y una observación de la muestra, por ejemplo Xi .
Notar que X n y Xi son ambos estimadores insesgados de µ; en consecuencia el error cua-
drático medio de ambos estimadores es simplemente la varianza. Para la media muestral, se
tiene
∑n var (Xi ) σ 2
ECM X n = i=1 2 = .
n n
Para Xi la varianza es var (Xi ) = σ 2 . Por consiguiente, la eficiencia relativa de Xi con res-
pecto a X n es
ECM (T1 ) σ 2 /n 1
= = .
ECM (T2 ) σ2 n
Puesto que 1/n < 1 si n ≥ 2, podemos concluir que la media muestral es un mejor estimador
de µ que una sola observación Xi .
Estimador consistente
Otra manera de medir la proximidad de un estimador T al parámetro θ es en términos de la

consistencia. Denotemos el estimador como Tn para enfatizar que depende de un muestreo
aleatorio de tamaño.
4
Consistencia
Si Tn es un estimador de θ basado en un muestreo aleatorio de n observaciones,
entonces Tn es consistente para θ si
lı́m P (|Tn − θ | < ε) = 1.

n→+∞
P
Esto se suele escribir Tn → θ en donde la letra P recuerda que la convergencia es con
probabilidad alta.
Es así que la consistencia es una propiedad de un muestreo grande, describe el comporta-

miento límite de Tn a medida que n tiende a infinito. Ver la Figura 2, en la cual se muestra
la distribución de un estimador consistente a medida que n crece. Notar que la definición es
equivalente a que
lı́m P (|Tn − θ | ≥ ε) = 0.
n→+∞
Estas probabilidades se muestran en la figura en rojo.
θ− θ θ+
Figura 2: Distribución de un estimador consistente de θ para varios valores de n. Las áreas

marcadas en rojo tienden a cero a medida que n crece.
Como veremos en seguida, una forma de mostrar que un estimador es consistente es probar
que su error cuadrático medio tiende a cero cuando n tiende a infinito.
Recordar que la desigualdad de Chebychev establece una cota superior para las colas de una
distribución de una variable que tiene varianza.
5
Sea Tn es un estimador de θ . Apliquemos la desigualdad de Chebyshev:
E (Tn − θ )2

P (|Tn − θ | ≥ ε) ≤ .
ε2
Notar que por definición ECM (Tn ) = E (Tn − θ )2 . Hemos probado entonces la desigual-

dad siguiente:
Desigualdad de Chebychev para estimadores

Sea Tn un estimador del parámetro θ basado en un muestreo de tamaño n. Entonces,
para todo ε > 0 vale que
ECM (Tn )
P (|Tn − θ | ≥ ε) ≤ .
ε2
El siguiente corolario es inmediato a partir de la desigualdad de Chebychev.
Criterio de consistencia
Sea Tn un estimador del parámetro θ basado en un muestreo de tamaño n. Si el
error cuadrático medio de Tn tiende a cero cuando n tiende a infinito, entonces Tn es
consistente.
Notar que un estimador con error cuadrático medio que tiende a cero es asintóticamente
insesgado. De hecho, la desigualdad de Cauchy-Schwarz nos dice que
q
|E (Tn ) − θ | ≤ E (|Tn − θ |) ≤ E ((Tn − θ )2 ) → 0
cuando n → +∞.
Consistencia del promedio y varianza muestral
Una consecuencia del criterio de consistencia de la sección anterior es que el promedio X n

es un estimador consistente de µ = E (X) la esperanza de la distribución de la población.
Ley de los Grandes Números

El promedio muestral X n es un estimador consistente de µ = E (X).
La demostración es de nuevo muy simple. Por el criterio de consistencia que probamos

antes, nos basta con probar que el error cuadrático medio de X n tiende a cero cuando n →
+∞. Sabemos del cálculo que hicimos más arriba que
σ2
ECM X n = →0
n
cuando n → +∞, lo cual prueba nuestra afirmación.
¿Qué ocurre con Σ2n o Sn2 ? ¿Es un estimador consistente de σ 2 ? La respuesta es sí, pero
para probarlo precisamos un argumento que nos permita aplicar una función continua a un
estimador consistente.
6
Consistencia y continuidad
Si Tn es un estimador consistente del parámetro θ , y g : R → R es una función
continua, entonces g(Tn ) es un estimador consistente de g(θ ).
La prueba se basa en las definiciones de consistencia y de continuidad. Fijemos un ε > 0,

y tomemos δ > 0 tal que si |x − θ | < δ entonces |g(x) − g(θ )| < ε. El δ > 0 sabemos que
existe pues g es continua.
Esto implica que si |Tn − θ | < δ , entonces |g(Tn ) − g(θ )| < ε. Dicho de otro modo
P (|Tn − θ | < δ ) ≤ P (|g(Tn ) − g(θ )| < ε) ≤ 1.
Si hacemos n tender a infinito, el lado izquierdo de la ecuación anterior tiende a 1, por lo

que P (|g(Tn ) − g(θ )| > ε) → 1 cuando n → +∞. Esto prueba que g(Tn ) es un estimador
consistente de g(θ ).
Apliquemos este resultado a Σ2n . Por un lado, un cálculo directo muestra que
1 n 2 2
Σ2n = ∑ Xi − X n .
n i=1
El primer término del lado derecho converge, con probabilidad alta, a E X 2 por la LGN

aplicada a la sucesión i.i.d. de variables X12 , . . . , Xn2 . Para ver la convergencia del segundo
miembro aplicamos el teorema anterior con g(x) = x2 . Es decir, como X n es un estimador
2 2
consistente de E (X), entonces X n es un estimador consistente de E (X) . Entonces Σn es un
2
2
estimador consistente de E X 2 − E (X) = σ 2 . Lo mismo vale para Sn2 .

¿Qué estimador elegir?
Un fabricante produce componentes eléctricos que tienen un tiempo de vida útil que se
modela mediante una variable aleatoria X con distribución exponencial de parámetro λ .
Para estimar λ se proponen los siguientes métodos:
1. Hacer un muestreo de n componentes y medir sus tiempos de vida útil X1 , . . . , Xn con
total exactitud, observado en tiempo continuo a cada uno de ellos. Esta opción puede
ser bastante costosa.
2. Observar los componentes una vez al día, de modo que si al comenzar el día un
determinado componente está roto, pero estaba sano el día anterior, solo se puede
deducir que se rompió en el lapso de 24hrs que transcurrieron entre las observaciones.
En este caso se mide Yi el redondeo al mayor entero más cercano de Xi . Esta opción
es, sin dudas, menos costosa que la anterior.
3. Una opción intermedia respecto al costo es observar con total exactitud los compo-
nentes, pero solamente hasta que la mitad de ellos hayan fallado. Esto equivale a
medir el tiempo de vida medio τ.
Consideremos el caso 1. Vamos a aplicar el método de los momentos para definir un esti-
mador λ̂1 de λ . Como la esperanza E (X) = 1/λ , vemos fácilmente que
1
λ̂1 = .
Xn
7
Notar que λ̂1 se puede calcular en el caso 1, pues estamos suponiendo que se miden con
total exactitud las Xi0 s.
¿Es λ̂1 un estimador insesgado de λ ? Para responder debemos calcular su distribución.
Comencemos por calcular la densidad de Z = X1 + X2 . Recordando la fórmula de convolu-
ción para densidades, tenemos que
Z +∞ Z z
p(z) = p(x)p(z − x)dx = λ 2 e−λ x e−λ (z−x) dx = λ 2 ze−λ z , (z > 0).
−∞ 0
En general, se puede probar por inducción que la densidad de la suma X1 + · · · Xn es

λn
pn (x) = xn−1 e−λ x , (x > 0).
(n − 1)!
Esta es la densidad de la distribución Gamma(n, λ ), pero eso no es relevante. Usando la
fórmula de cambio de variable se ve fácilmente que la densidad de λ̂1 es
(nλ )n 1 −nλ /y
p(y) = e , (y > 0).
(n − 1)! yn+1
Siendo duchos con las integrales se puede probar que
n n2
E λ̂1 = λ, var λ̂1 = λ 2.
n−1 (n − 1)2 (n − 2)
En particular λ̂1 no es insesgado, pero si es asintóticamente insesgado, ya que

λ
Sesgo λ̂1 = → 0 (n → ∞).
n−1

Además, como la varianza de λ̂1 también tiende a cero, deducimos que ECM λ̂1 también
tiende a cero cuando n → ∞. En particular λ̂1 es consistente, aunque esto lo podríamos haber
deducido directamente de la LGN y de que la función g(x) = 1/x es continua para x > 0.
Veamos ahora el caso 2. Llamemos Yi = dXi e el menor de los enteros mayores que Xi .
Entonces lo que se mide en este caso es Yi , y no Xi .
¿Cuál es la distribución de Yi ? Como Yi es discreta, debemos calcular su f.p.p.. Para cada
k ≥ 1, tenemos que
Z k
P (Yi = k) = P (k − 1 < Xi ≤ k) = λ e−λ x dx = e−λ (k−1) − e−λ k .
k−1
Si llamamos p = 1 − e−λ , podemos escribir la probabilidad anterior como
P (Yi = k) = p(1 − p)k−1 , (k ≥ 1).
Es decir, Yi tiene distribución geométrica de parámetro p = 1 − e−λ . De aquí se puede

despejar λ en función de p:
λ = − ln(1 − p).
Como la esperanza de una geométrica es 1/p, el estimador de momentos de p es también
1/Y n . Entonces un estimador razonable para λ es

1
λ̂2 = − ln 1 − .
Yn
8
A diferencia del caso anterior, las cuentas son bastante más complicadas
para
λ̂2 . Por la ley
de los grandes números y la continuidad de la función g(y) = − ln 1 − y deducimos que
1
λ̂2 es un estimador consistente de λ . Sin embargo es bastante más difícil calcular el sesgo.
La f.p.p. de Y n es relativamente simple, y está dada por
k−1 n

P Y n = k/n = p (1 − p)k−n .

n−1
Luego, la fórmula para la esperanza de λ̂2 es
n k −1 n
∞
E λ̂2 = − ∑ ln 1 − p (1 − p)k−n .
k=n k n − 1
Pero esta suma es prácticamente imposible de calcular analíticamente. Sin embargo se pue-
de probar (aplicando una desigualdad conocida que no vimos en el curso; la desigualdad de
Jensen) que
E λ̂2 > λ ,
por lo que λ̂2 no es insesgado. ¿Pero qué podemos decir del sesgo asintótico? Por ahora ¡no
mucho! (más adelante veremos un método llamado el método delta que sirve para este caso).
Una posibilidad es usar técnicas de análisis numérico, o incluso simular el experimento para
varios valores de λ . Pero ambas opciones escapan al contenido del curso. Aunque sea una
opción más barata, es más cara desde el punto de vista del análisis estadístico.
Veamos ahora la tercera opción. El tiempo de vida medio corresponde a estimar la mediana
M de X usando la mediana muestral. Esto quiere decir que si ordenamos las variables
X1∗ < X2∗ < · · · < Xn∗ ,
entonces τ = Xb∗n+1 c , y es de esperar que esté cerca de M. Como M es el valor que cumple
2
P (X > M) = 1/2,
es fácil calcularla: M = ln(2)/λ .
Si medimos experimentalmente el tiempo de vida medio τ, entonces
ln(2)
λ̂3 =
τ
es un estimador razonable para λ .
Para facilitar las cuentas vamos a servirnos del siguiente truco. Cada Xi tiene distribución
exponencial de parámetro λ , por lo que podemos escribir Xi = Zi /λ con Zi exponencial de
parámetro 1. De este modo τ se escribe τ1 /λ en donde τ1 = Zb∗n+1 c es la mediana muestral
2
de las Zi0 s.
La ventaja de esto es que λ̂3 = λ ln(2)

τ1 , y por lo tanto

1
2 2 1
E λ̂3 = λ ln(2)E , var λ̂3 = λ (ln(2)) var ,
τ1 τ1
con el aditivo de que la esperanza y la varianza de 1/τ1 no dependen de λ . Si bien este
cálculo sigue siendo difícil, se puede proceder con la ayuda de aproximaciones numéricas.
Se puede ver que λ̂3 tiene sesgo, pero es asintóticamente insesgado. Esta opción también es
intermedia desde el punto de vista del análisis estadístico.

21 - Sesgo y ECM

Cargado por

Copyright:

Formatos disponibles

21 - Sesgo y ECM

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

21 - Sesgo y ECM

Cargado por

Copyright:

Formatos disponibles

Clase 6: Sesgo y error cuadrático medio

3. Error cuadrático medio de un estimador 3

1. Propiedades de los estimadores

Si el estimador es no es insesgado, entonces la diferencia

es conocida como sesgo del estimador T .

Es decir, si Sesgo (θ ) → 0 cuando n → +∞.

Veamos un par de ejemplos. Si utilizamos el promedio X n como estimador de µ la esperanza

Luego, X n es un estimador insesgado de µ.

Calculemos cada término por separado. Por un lado

Juntando ambos cálculos obtenemos

3. Error cuadrático medio de un estimador

Supongamos que T1 y T2 son estimadores insesgados de θ . Esto indica que la distribución

Error cuadrático medio

El error cuadrático medio puede reescribirse de la siguiente manera:

Figura 1: Distribuciones de muestreo de dos estimadores insesgados T1 y T2 .

Otra manera de medir la proximidad de un estimador T al parámetro θ es en términos de la

lı́m P (|Tn − θ | < ε) = 1.

Es así que la consistencia es una propiedad de un muestreo grande, describe el comporta-

Estas probabilidades se muestran en la figura en rojo.

Figura 2: Distribución de un estimador consistente de θ para varios valores de n. Las áreas

Sea Tn es un estimador de θ . Apliquemos la desigualdad de Chebyshev:

Desigualdad de Chebychev para estimadores

El siguiente corolario es inmediato a partir de la desigualdad de Chebychev.

Consistencia del promedio y varianza muestral

Una consecuencia del criterio de consistencia de la sección anterior es que el promedio X n

Ley de los Grandes Números

La demostración es de nuevo muy simple. Por el criterio de consistencia que probamos

La prueba se basa en las definiciones de consistencia y de continuidad. Fijemos un ε > 0,

P (|Tn − θ | < δ ) ≤ P (|g(Tn ) − g(θ )| < ε) ≤ 1.

Si hacemos n tender a infinito, el lado izquierdo de la ecuación anterior tiende a 1, por lo

¿Qué estimador elegir?

En general, se puede probar por inducción que la densidad de la suma X1 + · · · Xn es

En particular λ̂1 no es insesgado, pero si es asintóticamente insesgado, ya que

Si llamamos p = 1 − e−λ , podemos escribir la probabilidad anterior como

P (Yi = k) = p(1 − p)k−1 , (k ≥ 1).

Es decir, Yi tiene distribución geométrica de parámetro p = 1 − e−λ . De aquí se puede

La ventaja de esto es que λ̂3 = λ ln(2)

También podría gustarte