Tema 1. Estadístico y Reducción

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 9

INFERENCIA ESTADÍSTICA.

GRADO MATEMÁTICAS 1

Estadístico y Estimador

Por el Teorema Fundamental de la Estadística sabemos que la muestra es sucien-


temente informativa para conocer la distribución teórica. La pregunta natural que
nace es ¾cómo transformar la muestra para averiguar la característica poblacional que
nos interese? ¾Es válida cualquier tipo de transformación de la muestra? ¾Todas las
transformaciones son iguales? En este epígrafe deniremos funciones de la muestra con
el objetivo de reducir la dimensión inicial de la información contenida en la muestra;
"transformamos la muestra a través de una función".

Problema de inferencia clásica


Recordamos que tenemos el siguiente problema desde el punto de vista de la inferen-
cia paramétrica clásica -la única información disponible es la contenida en la muestra-:

Problema: Partimos de una población descrita a través de una v. a. X denida


sobre un espacio probabilístico (Ω, S, P ), donde X tiene una función de distribución
(f. D.) con forma funcional conocida salvo a lo sumo un n
o nito de parámetros, θ, y
notaremos a ésta por F (x, θ). Nuestro objetivo va a ser obtener a partir de una m.a.s.
extraída de dicha población un valor que se le pueda asignar al parámetro desconocido.
Recordamos la denición de espacio paramétrico:

Denición 1. Se dene el espacio paramétrico como el conjunto formado por todos los
posibles valores del parámetro desconocido de la f. de distribución. Se denota por Θ.
(Θ ⊆ IR k ).
Nota Importante: Recordamos que dado un vector aleatorio X procedente de
una m.a.s éste hereda una distribución procedente de la variable X que lo genera.
Recordamos que el vector aleatorio será discreto o continuo en función de la naturaleza
de X. Para simplicar la notación, a partir de ahora se denotará por f (x|θ) la función
de densidad -si es continua- o la masa de probabilidad -si es discreta- del vector aleatorio
X.
Como f (x|θ) mide la probabilidad o la densidad de cada realización muestral, jado
un parámetro, es natural preguntarse en qué medida la inferencia que hagamos del
parámetro depende de esta probabilidad -responderemos a esta pregunta más tarde-.
Observamos que f (x|θ) depende de la muestra y del parámetro. Si consideramos la
función:
7 → R+
L(·|x) : Θ −
θ −7 → f (x|θ),
donde jamos una muestra y calculamos el valor de la densidad o masa de probabilidad
de dicha muestra para cada valor del parámetro, estaremos evaluando la verosimilitud
credibilidad de la muestra para un determinado valor. Por dicha razón, la función
L(·|x) se denomina función de verosimilitud. Replanteando la pregunta anterior, ¾en
qué medida la inferencia que hagamos depende de la verosimilitud?
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 2

Denición 2. Sea (X1 , . . . , Xn ) una m.a.s. procedente de una v. a. X y sea T : IR n 7−→


IR una función medible borel. Se dirá que T (X1 , . . . , Xn ) = T (X) es un estadísti-
k

co siempre que en su denición, en la imagen de los valores, no dependa de ningún


parámetro desconocido de la población.
Ejemplo 1. Ejemplos de Estadísticos muy usuales -sus deniciones aparecen habitual-
mente en los procedimientos de la Estadística Descriptiva-:
Pn
La media muestral T (X) = i=1
n
Xi
= X.
Pn 2
i=1 (Xi −X)
La varianza muestral T (X) = n = S2.

La desviación muestral T (X) = S 2 = S .
Pn 2
i=1 (Xi −X)
La cuasivarianza muestral T (X) = n−1 = Sc2 .
q
La cuasidesviación muestral T (X) = SC2 = SC .

El coeciente de variación muestral, T (X) = S


X
= CV

Los estadísticos ordenados: X(1) = mı́n1≤i≤n Xi , X(2) = mı́n({X1 , X2 , . . . , Xn } −


X(1) ), . . ., X(n) = máx1≤i≤n Xi
Pn
Xir
Momentos muestrales ordinarios o con respecto al origen: T (X) = i=1
n = ar,n .
Obsérvese que a1,n = X .
Pn r
i=1 (Xi −X)
Momentos muestrales centrados o con respecto a la media: T (X) = n =
br,n . Obsérvese que b1,n = 0 y b2,n = S 2 .

Observación 1. Para una realización concreta de la muestra el estadístico toma un


único valor, pero como este valor depende del vector de la muestra, observamos fácil-
mente que T (X) es una variable aleatoria o, si k > 1, un vector aleatorio, y por tanto
tendrá una distribución denominada distribución del estadístico debido al muestreo. A
diferencia del cálculo de la distribución del vector X , que es relativamente fácil, sólo en
ocasiones singulares será posible determinar exactamente la distribución del estadístico,
en otros casos nos contentaremos con dar sólo sus características principales; la esperan-
za y la varianza, en determinadas ocasiones estudiaremos sólo su distribución asintótica
y, desgraciadamente, a veces tendrá una distribución intratable matemáticamente.

Algunas propiedades de Estadísticos muy habituales


½Recordamos!. Dada una v. a. X con f. de D. F. Se denen los momentos poblacio-
nales de X como la esperanza de ciertas transformaciones de la variable:

Momentos poblacionales ordinarios o con respecto al origen: αr = E(X r ).

Momentos poblacionales centrados o con respecto al valor medio: µr = E(X −µ)r .


INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 3

Es fácil de ver que α1 = E(X) = µ y µ2 = V ar(X) = σ 2 . Igualmente, µ2 = α2 − α12 .

Observación 2. Comprobamos que podemos calcular algunas características de deter-


minados estadísticos muy habituales -sin necesidad de conocer su distribución exacta-
sólo basándonos en la propiedades de linealidad de la media, la varianza, etc. Obvia-
mente dichas características dependen de la distribución poblacional.

E(ar,n ) = αr . En particular E(X) = µ.

1 σ2
V ar(ar,n ) = {α2r − αr2 }. En particular V ar(X) = .
n n
E(br,n ) = µr + o(1/n).

µ2r − 2rµr−1 µr+1 − µ2r + r2 µ2 µ2r−1


V ar(br,n ) = + o(1/n2 ).
n
En particular para b2,n = S 2 , se verica:

n−1 2 µ4 − µ22 2(µ4 − 2µ22 ) µ4 − 3µ22


E(S 2 ) = σ , V ar(S 2 ) = − +
n n n2 n3

En el caso de la cuasivarianza muestral se verica E(Sc2 ) = σ 2 .

Ejercicio 1. Ejercicio Propuesto. Supongamos que tenemos una m.a.s. (X1 , X2 ) de


tamaño 2 de la distribución discreta que posee la siguiente función de probabilidad:


 1/2 x = 1,
1/4 x = 2,

pX (x) =
 1/4 x = 3,
en otro caso.

0

Sea T (X1 , X2 ) = (X1 X2 )1/2 una transformación de la muestra, estadístico. En este


caso corresponde al cálculo de media geométrica de los valores muestrales. Halle su
distribución muestral.
Conocemos la denición de estadístico, matizamos con la denición de estimador:

Denición 3. Sea X1 , X2 , . . . , Xn una m.a.s. procedente de una población X con f. D.


igual a F (x, θ), con θ ∈ Θ. Se dirá que un estadístico T (X) = T (X1 , X2 , . . . , Xn ) es
un estimador puntual del parámetro θ si la imagen del estadístico está incluida en el
espacio paramétrico, i.e. T : IR n 7−→ Θ.
Los valores que toma el estimador para cada realización muestral es lo que se deno-
mina estimación puntual, ya que suponen un posible valor del parámetro.

Ejercicio 2. Ejercicio Propuesto. Sea X1 , X2 , . . . , Xn una m.a.s. procedente de X ∼


Be(p), pPdesconocido. ¾Tenemos un problema de inferencia paramétrica clásica? ¾Es
T (X) = ni=1 Xi un estadístico? ¾ Es estimador puntual del parámetro p? Proponga de
forma intuitiva un estimador de p.
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 4

Reducción de la información -dimensión-

Suciencia
Las propiedades y deniciones de reducción de la dimensión se tratan para cualquier
estadístico.
Sea X1 , X2 , . . . , Xn una m.a.s. procedente de una población X con f. D. F (x, θ) θ ∈
Θ. Nuestro objetivo es poder estimar el parámetro y por tanto especicar completamente
la distribución de la población. Como ya sabemos, la muestra es informativa para el
conocimiento del parámetro, pero ¾cómo cuanticar la información? Debemos recordar
que, desde nuestro punto de vista clásico, la única información que disponemos es la
contenida en la muestra.
La muestra debemos transformarla para obtener información. Por tanto, uno de los
primeros objetivos que nos planteamos es transformar los valores de la muestra en ex-
presiones que sean cómodas para poder obtener conclusiones razonables. Al transformar
la muestra, aparecen de forma natural los estadísticos, funciones T (X) : IR n 7−→ IR k
que condensan la información en uno o varios valores, (k ≥ 1). Obviamente sería intere-
sante que en esa condensación o sintetización no se perdiera ïnformación". Por lo tanto,
cabría hacerse las siguientes preguntas:

¾El resumen que supone T supone pérdida de información relevante que contuviese
la muestra sobre el parámetro?

¾Podremos cuanticar la información que contiene la muestra sobre θ? Si es así,


el punto anterior se puede reformular como ¾recoge T toda la información?

Suciencia:
Fisher introdujo el concepto de suciencia en 1920, así como otros conceptos y
principios de la Inferencia Estadística. Intuitivamente con el concepto de suciencia
haremos alusión a un resumen de los datos sin ninguna pérdida de la información.
Cualquier estadístico me va a producir una partición en el espacio muestral. Si t0
representa un valor del estadístico, entonces

PT : IR k −7 → P (IR n )
t0 7−→ At0 = {x : T (x) = t0 } ≡ {T (X) = t0 } ⊆ IR n
produce una partición en el espacio muestral. Para cada t0 se forma el conjunto de
elementos muestrales que tienen la misma imagen a través del estadístico. Notemos que
lo importante no van a ser los valores del estadístico, sino la partición que genere en el
espacio muestral.
La idea intuitiva del concepto de suciencia se reere a que la condensación que
supone el estadístico sobre el espacio muestral no lleve consigo pérdida de la información
relevante sobre θ. Formalmente:

Denición 4. Sea X = (X1 , X2 , . . . , Xn ) m.a.s. procedente de una población X cuya


f. de D. pertenece a la familia F = {F (x, θ) : θ ∈ Θ}. Un estadístico T diremos que
es suciente para la familia F o para el parámetro θ si la distribución condicionada de
la muestra a cualquier valor del estadístico, es decir [(X1 , X2 , . . . , Xn )|T (X) = t], es
independiente de θ, ∀t.
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 5

Al ser independiente de θ, en la muestra no hay más información sobre el parámetro


que la que proporciona el estadístico T . Por tanto es suciente conocer el valor de T
para averiguar la información que la muestra encierra del parámetro.

Observación 3. Siempre existe un estadístico suciente, la propia muestra.


Un corolario que puede sernos útil cuando realizamos transformaciones:

Corolario 1. Sea T un estadístico suciente y g una función medible y biyectiva, en-


tonces g(T ) es suciente.
Ejercicio 3. Sea X1 , X2 , . . . , Xn m.a.s. procedente de X ∼ Be(p), demostrar que T =
n
es suciente para p. ¾Qué ocurre en el caso de n = 3 con el estadístico U =
P
i=1 Xi
X1 X2 + X3 ?
Teorema 1. Sea f (x|θ) la función de densidad o masa de probabilidad del vector alea-
torio X y fT (t|θ) la función de densidad o masa de probabilidad del estadístico T (X).
Entonces, T (X) es suciente para θ si y sólo si para cada realización muestral, x, el
cociente
f (x|θ)
fT (T (x)|θ)
no depende de θ.
La denición dada y el anterior teorema nos permiten comprobar si un estadístico
dado es suciente, pero no nos dan ningún criterio para calcular un estadístico suciente.
Veamos un procedimiento para obtener un estadístico suciente. Fisher (1922) descubrió
la idea fundamental de factorización y Neyman (1935) redescubrió una aproximación
renada.

Teorema 2. (Criterio de factorización de Fisher-Neyman) Sea X1 , X2 , . . . , Xn una


m.a.s. procedente de X con distribución perteneciente a la familia F (x|θ) y sea f (x|θ)
la función de densidad o masa de probabilidad del vector aleatorio X . Entonces el esta-
dístico T es suciente para θ si y sólo si podemos expresar
f (x|θ) = gθ (T (x))h(x)
donde h es una función no negativa que no depende de θ, -sólo de las observaciones- y
gθ es una función no negativa que depende del parámetro y del estadístico.
Corolario 2. (Corolario Propuesto). Un estadístico T (X) es suciente si y sólo si
la distribución condicionada [R(X)|T (X) = t)] no depende de θ para cualquier otro
estadístico R(X).
Observación 4. Observamos que dicho criterio de factorización es válido tanto para
distribuciones continuas como discretas.
Observación 5. El teorema anterior es extensible a estadísticos de más de una di-
mensión y a vectores paramétricos. Hablaremos en este caso de estadístico sucientes
k -dimensionales. Adicionalmente, si θ es un escalar, un estadístico T suciente puede
ser un vector. Por otra parte, si el parámetro y el estadístico tienen la misma dimen-
sión, k > 1, puede darse que T = (T1 , . . . , Tk ) sea suciente para θ = (θ1 , . . . , θk ) y sin
embargo Tj no sea suciente para θj .
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 6

Estadístico minimal suciente (Lhemann y Scheé (1950)):

Existirán muchos estadísticos sucientes que generarán distintas particiones y nos


preguntamos con cuál nos interesaría quedarnos. Lo ideal será con el que me produzca
la partición con menos clases, i.e., la más gruesa (la que condensa más la información),
½Aquí radica la idea de estadístico minimal suciente!

Denición 5. Un estadístico T es minimal suciente si:


a) T es suciente.
b) La partición generada por cualquier otro estadístico suciente S es una subparti-
ción de la generada por T .
Observación 6. Un estadístico sucente genera como mínimo la misma partición que
un estadístico minimal sucente. Por tanto, un estadístico minimal suciente se podría
expresar como función de cualquier estadístico suciente.
Veamos el siguiente procedimiento de construcción de un estadístico minimal
suciente.
Dado el espacio de todas las muestras, se dene la relación ∼ como:
Dos muestras x e y están relacionadas, x ∼ y, si el cociente de densidades

f (x|θ)
= k(x, y),
f (y|θ)

no depende de θ. Dicha relación es relación de equivalencia y por tanto produce una par-
tición en el espacio muestral. ¾Cómo comparamos dicha partición con la que produciría
un estadístico suciente?

Teorema 3. Sea X1 , X2 , . . . , Xn una m.a.s. procedente de X con distribución pertene-


ciente a la familia F (x|θ) y sea f (x|θ) la función de densidad o masa de probabilidad
del vector aleatorio X . Entonces
1. Cualquier estadístico suciente, S(X), verica que dadas dos muestras x e y en
la misma partición, i.e., tales que S(x) = S(y), entonces x ∼ y .
2. Sea T un estadístico tal que la partición que genera es equivalente a la que genera
la relación ∼, en otras palabras, T (x) = T (y) ⇐⇒ x ∼ y . Entonces se verica
que T es minimal suciente.
Ejercicio 4. Calcular un estadístico minimal suciente para X ∼ P (λ).
Corolario 3. Cualquier estadístico que sea una función biyectiva de un estadístico mi-
nimal suciente es también minimal suciente.
Ejemplo 2. Sea X1 . . . , Xn una m.a.s. procedentePde X ∼P N (µ, σ), con θ = (µ, σ)
desconocido. Se puede probar fácilmente que T = ( i=1 Xi , ni=1 Xi2 ) es minimal su-
n

ciente para θ. Y considerando el estadístico S = (X, S 2 ) una función biyectiva de T ,


también verica que es minimal suciente.
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 7

Observación 7. -Principio de Verosimilitud-. Si x e y son dos realizaciones mues-


trales tales que el cociente f (x|θ)
f (y|θ) = k(x, y) es independiente de θ, entonces se verica
fácilmente que
L(θ1 |x) L(θ1 |y)
=
L(θ2 |x) L(θ2 |y)
y por tanto, los valores del parámetro más verosímiles -que hagan la muestra x más
creíble-, serán los mismos que si se observa y , debido a que el cociente de verosimilitudes
es el mismo. Como consecuencia, x e y deben dar lugar a la misma inferencia sobre θ.
Obsérvese que los cocientes anteriores miden cuanto más verosímil es θ1 que θ2 . Con lo
cual se cierra la pregunta que iniciamos: la verosimilitud está presente en la información
suciente.
Para nalizar el tema, veremos varias deniciones que refuerzan la idea de sucien-
cia. En primer lugar hablaremos de estadísticos ancilares. Se dene un estadístico ancilar
como aquel cuya distribución no depende del parámetro. Los estadísticos ancilares son
los que resumen la parte de información de la muestra que no recogen los estadísticos
minimales sucientes. A primera vista, parece que no deben aportar información rele-
vante en la estimación del parámetro de interés. Sin embargo, hay ocasiones en que en
combinación con otros estadísticos son útiles en la estimación del parámetro (ver Ejem-
plo 21, página 36, libro Curso de Inferencia y Decisión). Siguiendo con el refuerzo de
la idea de suciencia, presentamos la dención de estadístico completo. El concepto de
completitud fue introducido por Lehmann y Scheé (1950) y explorado posteriormente
a través de la teoría de la medida por Bahadur (1957).

Denición 6. Sea un estadístico T y consideremos fT (t|θ) la función de densidad o


masa de probabilidad del estadístico. Diremos que la familia de distribuciomes {fT (t|θ) :
θ ∈ Θ} -una distribución por cada parámetro- es completa si se da la siguiente implica-
ción. Para cualquier función del estadístico g(T ),

si Eθ [g(T )] = 0, ∀θ ∈ Θ =⇒ Pθ [g(T ) = 0] = 1, ∀θ ∈ Θ.

La única transformación del estadístico con esperanza igual a cero, para todo parámetro,
es la función nula. En el caso anterior, abusando del lenguaje, diremos que T es un
estadístico completo.
Observación 8. Es fácil de ver que si T es un estadístico completo, entonces g(T ) es
completo para toda función g biyectiva.
La completitud de los estadísticos sucientes en ciertos modelos estadísticos es una
propiedad importante; jugando un papel esencial, como veremos después, en la teoría
de la estimación insesgada de mínima varianza, fundamentalmente en el teorema de
Lehmann-Schee. ¾Cómo la completitud refuerza la idea de suciencia? A partir de los
siguientes resultados -cuya demostración omitimos-.

Teorema 4. Si T es un estadístico suciente y completo entonces también es minimal


suciente. El recíproco no se tiene en general.
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 8

Teorema 5. (Basu) Si T es un estadístico suciente y completo, y S es un estadístico


ancilar, entonces T y S son independientes.
Es decir, en el caso de que exista un estadístico suciente y completo, sí es cierta
la idea intuitiva de que los estadístico ancilares no pueden aportar nada relevante a
la estimación del parámetro. Esto no ocurre si sólo se tienen estadísticos sucientes y
minimales.
Generalmente es muy complicado comprobar si un estadístico es completo a través
de la denición. Veamos un ejemplo.

Ejercicio 5. Consideremos un estadístico T tal que T ∼ B(n, p), con n jo, -familia
de distribuciones binomiales-. Demuestre que T es completo.
Los siguientes resultados, los cuales no demostraremos, me permiten hallar, en de-
termiandas situaciones particulares, un estadístico suciente y completo.

Familia de distribuciones exponencial


Denición 7. Sea X1 , X2 , . . . , Xn m.a.s. procedente de la población X cuya distribución
pertenece a la familia F = {f (x, θ), θ ∈ Θ} -familia de densidades-. Supongamos que
el recorrido de la variable no depende del parámetro y el espacio paramétrico es un
intervalo abierto de la recta real Θ ⊂ IR -familia uniparámetrica, una sola dimensión-.
Si se verica que:
f (x|θ) = exp{Q(θ)T (x) + S(x) + D(θ)}
diremos que dicha familia F es una familia de distribuciones exponencial uniparamétri-
ca. (Usualmente se trabajará con ln f (x, θ)).
Ejemplo 3. La distribución exponencial, Exp(λ), la Poisson, P (λ), la Binomial, B(n, p)
y la normal, N (µ, σ), -con algunos de los parámetros conocidos-, son ejemplos de fami-
lias exponenciales uniparamétricas.
Teorema 6. Si la familia es exponencial uniparamétrica con la descomposición anterior
entonces se verica que el estadístico T (X) sigue perteneciendo a la familia exponencial
uniparamétrica y su función de densidad o de masa de probabilidad viene dada por
fT (t|θ) = exp{Q(θ)t + S ∗ (t) + D(θ)}

Análogamente se puede denir la familia exponencial k -paramétrica:


Denición 8. Sea X1 , X2 , . . . , Xn m.a.s. procedente de X , F = {f (x, θ), θ ∈ Θ},
Θ ⊂ IR k , k ≤ n. Diremos que F es una familia exponencial k -paramétrica si existen
funciones
Q1 , Q2 , . . . , Qk , D : Θ 7−→ IR
T1 , T2 , . . . , Tk , S : IR n 7−→ IR
medibles, tal que
( k )
X
f (x|θ) = exp Qi (θ)Ti (x) + S(x) + D(θ)
i=1
INFERENCIA ESTADÍSTICA. GRADO MATEMÁTICAS 9

Teorema 7. Sea X1 , X2 , . . . , Xn m.a.s. procedente de X , F = {f (x, θ), θ ∈ Θ}, con F


familia exponencial k-paramétrica con la descomposición anterior. Entonces se verica
que T = (T1 , . . . , Tk ) es suciente y completo para dicha familia.

También podría gustarte