Inferencia Estatistica
Inferencia Estatistica
Inferencia Estatistica
Content
Aula 0: Revisão de Probabilidade
Aula 1: O que é e para que serve Inferência Estatı́stica?
Aula 2: Distribuição a priori e a posteriori
Aula 3: Prioris conjugadas e função de perda
Aula 4: Estimadores de Bayes e EMV
Aula 5: EMV
Aula 6: Método dos momentos e suficiência
Aula 7: Suficiência conjunta e mı́nima, teorema de Rao-Blackwell
Aula 8: Admissibilidade e viés
Aula 9: Eficiência
Aula 10: Distribuição de uma estatı́stica amostral e qui-quadrado
Aula 11: Distribuição da média e variância amostrais
Aula 12: Distribuição t de Student e intervalos de confiança
Aula 13: Intervalos de confiança e Quantidades Pivotais
Aula 14: Testes de hipótese I
Aula 15: Testes de hipótese II
Aula 16: Testes de hipótese III
Aula 17: Testes e conjuntos de confiança
Aula 18: Teste t I
Aula 19: Teste t II
Aula 20: Teste f
Aula 21: Regressão Linear I
Aula 22: Regressão Linear II
1
Aula 0: Revisão de Probabilidade
Teorema 1 (Desigualdade de Marvok) Seja X uma variável aleatória não-negativa e t > 0. Então
E[X n ]
P (X ≥ t) ≤ . (1)
tn
Teorema 2 (Desigualdade de Chebychev) Seja uma variável aleatória com média E[Y ] := µ e variância
V ar(Y ) := σ 2 , ambas finitas. Mas uma vez, t > 0. Então
V ar(Y )
P (|Y − µ| ≥ t) ≤ . (2)
t2
Teorema 3 (Média e variância em uma amostra i.i.d.) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d.,
com média µ e variância σ 2 . Temos que
(i) E[X̄n ] = µ
σ2
(ii) V ar(X̄n ) = n
Definição 1 (Convergência em probabilidade) Dizemos que uma sequência de variáveis aleatórias con-
verge em probabilidade para b se, ∀ε > 0, temos
Teorema 4 (Lei Fraca dos Grandes Números) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d., com
média µ e variância σ 2 . Então
p
X̄n −
→µ
Definição 2 (Convergência quase certa) Dizemos que uma sequência de variáveis aleatórias (Zn )n≤1
converge quase certamente para b se
P ( lim Zn = b) = 1
n→∞
Teorema 5 (Lei Forte dos Grandes Números) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d., com
média µ. Então
P ( lim X̄n = µ) = 1
n→∞
2
Aula 1: O que é e para que serve Inferência Estatı́stica?
Definição 3 (Modelo estatı́stico: informal) Um modelo estatı́stico consiste na identificação de variáveis
aleatórias de interesse (observáveis e potencialmente observáveis), na especificação de uma distribuição con-
junta para as variáveis aleatórias observáveis e na identificação dos parâmetros (θ) desta distribuição con-
junta. Às vezes é conveniente assumir que os parâmetros são variáveis aleatórias também, mas para isso é
preciso especificar uma distribuição conjunta para θ.
Definição 4 (Modelo estatı́stico: formal) Seja X um espaço amostral qualquer, Θ um conjunto não-
vazio arbitrário e P(X ) o conjunto de todas as distribuições de probabilidade em X . Um modelo estatı́stico
paramétrico é uma função P : Θ → P(X ) que associa a cada θ ∈ Θ uma distribuição de probabilidade Pθ
em X .
Definição 5 (Afirmação probabilı́stica) Dizemos que uma afirmação é probabilı́stica quando ela uti-
liza conceitos da teoria de probabilidade para falar de um objeto.
ξ(θ)Πni=1 f (xi | θ)
ξ(θ | x) = , θ∈Ω (4)
gn (x)
Chamamos gn (x) de distribuição marginal de X1 , X2 , . . . , Xn .
3
Aula 3: Prioris conjugadas e função de perda
Definição 12 (Hiper-parâmetros) Seja ξ(θ | φ) a distribuição a priori para o parâmetro θ, indexada por
φ ∈ Φ. Dizemos que φ é(são) o(s) hiper-parâmetro(s) da priori de θ.
onde Ω é o espaço de parâmetros. Dizemos que Ψ é uma famı́lia de distribuições conjugadas para
f (x | θ) se ∀f ∈ Ψ e toda realização x de X = X1 , X2 , . . . , Xn
f (x | θ)f (θ)
R ∈Ψ (6)
Ω
f (x | θ)f (θ)dθ
(θ − µ1 )2
2 1
ξ(θ | x, σ ) = √ exp , (7)
2πσ 2 2v12
onde
σ 2 µ0 + nv02 xn σ2 v2
µ1 := 2 2 e v12 := 2 0 2 (8)
σ + nv0 σ + nv0
R
Definição 14 (Priori imprópria) Seja ξ : Λ → (0, ∞), Ω ⊆ Λ, uma função tal que Ω ξ(θ)dθ = ∞. Se
utilizamos ξ como uma p.d.f. 1 para θ, dizemos que ξ é uma priori imprópria para θ.
Definição 17 (Função de perda) Uma função de perda é uma função real em duas variáveis
L : Ω × Rd → R, (9)
em que dizemos que o estatı́stico perde L(θ, a) se o parâmetro vale θ e a estimativa dada vale a.
Famı́lias Conjugadas
Se X1 , . . . , Xn são iid
Pne seguem a distribuição
Pn da coluna “Dados” na tabela 1.
Notações: x̄n = n1 i=1 xi ; y = i=1 xi
1 p.d.f. - “probability density function” ou função de densidade de probabilidade
4
Dados Priori Posteriori
Bernoulli(θ) Beta(α, β) Beta(α + y, β + n − y)
Poisson(θ) Gama(α, β) Gama(α
2 + y,2 β + n)2 2
σ µ0 +nv0 x̄n σ v0
Normal(µ, σ 2 ) Normal(µ0 , v02 ) Normal σ 2 +nv 2
, σ2 +nv 2
0 0
Exp(θ) Gama(α, β) Gama(α + n, β + y)
Em outras palavras, um estimador de Bayes é uma função real dos dados que minimiza a perda esperada
com respeito à posteriori dos parâmetros.
Teorema 9 (δ ∗ sob perda quadrática) Seja θ um parâmetro tomando valores reais. Sob perda quadrática,
Z
δ ∗ (x) = E[θ | X = x] = θξ(θ | x)dθ (12)
Ω
∗
Teorema 10 (δ sob perda absoluta) Suponha que a função de perda é dada por
L(θ, δ ∗ ) = |θ − δ ∗ |. (13)
Dizemos que a função de perda é absoluta. Seja θ um parâmetro tomando valores na reta. Sob perda
absoluta, δ ∗ (x) é a mediana a posteriori, isto é,
Z δ ∗ (x)
1
ξ(θ | x)dθ = (14)
∞ 2
Definição 20 (Estimador de máxima verossimilhança) Para cada possı́vel vetor (de observações) x,
seja δ(x) ∈ Ω um valor de θ ∈ Ω de modo que a função de verossimilhança, L(θ) ∝ f (x | θ) 2 , atinge
o máximo. Dizemos que θ̂ = δ(X) é o estimador de máximo verossimilhança de θ (Fisher, 1922)3 .
Quando observamos X = x, dizemos que δ(x) é uma estimativa de θ. Dito de outra forma:
5
Aula 5: EMV
Teorema 11 (Invariância do EMV) Considere uma função φ : Ω → R. Se θ̂ é um EMV para θ, então
φ(θ̂) é um EMV para ω = φ(θ).
Então
θ̂EM V → θ
θ̂EM M = M (m1 , . . . , mk ).
Teorema 13 (Consistência do EMM) Suponha que X1 , . . . , Xn formam uma amostra aleatória com dis-
tribuição conjunta fn (X1 , . . . , Xn | θ), θ ∈ Ω ⊆ Rk e que o k-ésimo momento existe. Suponha que a inversa
M existe e é continua. Então o EMM é consistente para θ.
Definição 22 (Estatı́stica suficiente) Seja X1 , . . . , Xn uma amostra aleatória de uma distribuição in-
dexada pelo parâmetro θ. Seja T = r(X1 , . . . , Xn ) uma estatı́stica. Dizemos que T é uma estatı́stica
suficiente para θ se e somente se
Definição 23 (Aleatorização auxiliar) Suponha que T é suficiente para θ. O processo de simular X10 , . . . , Xn0
dado que T = r(X1 , . . . , Xn ) de modo que
Teorema 14 (Teorema de fatorização) Suponha que X1 , . . . , Xn perfazem uma amostra aleatória com
f.d.p./f.m.p. f (x | θ), θ ∈ Ω. Uma estatı́stica T = r(X1 , . . . , Xn ) é suficiente para θ se, e somente se, para
todo x ∈ X e θ ∈ Ω existem u e v não negativos tal que
6
Definição 24 (Suficiência conjunta) Dizemos que um conjunto de estatı́sticas T = {T1 , . . . , Tn } é sufi-
ciente (conjuntamente) se que a distribuição condicional conjunta de X1 , . . . , Xn dado T1 = t1 , . . . , Tn = tn
não dependentes de θ.
R(θ, δ0 ) ≤ R(θ, δ)
Além disso, se R(θ, δ) < ∞ e δ(X) não é função de T, vale a desigualdade estrita:
7
Aula 9: Eficiência
Definição 32 (Informação de Fisher) Seja X uma variável aleatória com f.d.p./f.m.p. f (x | θ), θ ∈
Ω ⊆ R. Suponha que f (x | θ) é duas vezes diferenciável com respeito a θ. Defina λ(x | θ) = log f (x | θ) e
∂λ(x | θ) ∂ 2 λ(x | θ)
λ0 (x | θ) = e λ00 (x | θ) = (22)
∂θ ∂θ2
Definimos a informação de Fisher como
(1)
I(θ) = Eθ {λ0 (x | θ)}2 = −Eθ [λ00 (x | θ)] = V arθ (λ0 (x | θ)) .
(23)
Teorema 19 (Informação de Fisher em uma amostra aleatória) Seja X = {X1 , . . . , Xn } uma amostra
aleatória e seja In = Eθ [−λ00n (X | θ)] a informação de Fisher da amostra. Então
In (θ) = nI(θ)
Teorema 20 (Teorema de Cramér-Rao) Seja X = {X1 , . . . , Xn } uma amostra aleatória, onde f.d.p./f.m.p.
tem as mesmas premissas da Definição 32. Supondo que T = r(X) é uma estatı́stica com variância finita.
Seja m(θ) = Eθ (T ) uma função diferenciável de θ. Então,
[m0 (θ)]2
V arθ (T ) ≥ , (24)
nI(θ)
com igualdade apenas se existem u e v tal que
T = u(θ)λ0n (X | θ) + v(θ).
Definição 33 (Estimador eficiente) Um estimador δ(X) é dito eficiente de (sua esperança) m(θ) se
[m0 (θ)]2
V arθ (δ) = .
nI(θ)
X ∼ N ormal(0, 1), Y = X 2
então, tem distribuição qui-quadrado com m = 1.
8
Aula 11: Distribuição da média e variância amostrais
Teorema 23 (Independência da média e variância amostrais na Normal) Seja X1 , . . . , Xn uma amostra
2
aleatória de uma distribuição Normal com parâmetros µ e σ 2 , X n e a variância amostral S n , são indepen-
2
dentes. Ademais, X n ∼ N ormal µ, σ 2 e S n ∼ Gama n−1 n
2 , 2n2
Dizemos que X tem distribuição t de Student com m graus de liberdade. E sabemos que
− m+1
Γ( m+1 x2
2 )
2
fX =√ 1+ , x ∈ (−∞, +∞).
mπΓ( m2) m
9
Definição 37 (Quantidade pivotal) Seja X = {X1 , . . . , Xn } uma amostra aleatória com p.d.f. f (x | θ).
Seja V (X, θ) uma variável aleatória cuja distribuição é a mesma para todo θ ∈ Ω. Dizemos que V (X, θ) é
uma quantidade pivotal.
Teorema 26 (Intervalo de confiança unilateral) Seja X = {X1 , . . . , Xn } uma amostra aleatória com
p.d.f. f (x | θ). Suponha que existe uma quantidade pivotal V, com c.d.f. 4 continua G. Assuma que existe
r(v, x) estritamente crescente em v para todo x. Finalmente, tome 0 < γ < 1 e γ1 < γ2 de modo que
γ2 − γ1 = γ. Então as estatı́sticas
H0 := θ ∈ Ω0 ,
H1 := θ ∈ Ω1 ,
E dizemos que H0 é a hipótese nula e H1 é a hipótese alternativa. Se θ ∈ Ω1 , então dizemos que
rejeitamos a hipótese nula. Por outro lado, se θ ∈ Ω0 , então dizemos que não rejeitamos ou falhamos em
rejeitar H0 .
Definição 39 (Hipótese simples e hipótese composta) Dizemos que uma hipótese Hi , é simples, se
Ωi = {θi }, isto é, se a partição correspondente é um único ponto. Uma hipótese é dita composta se não é
simples.
S1 := {x : |X n − µ0 | ≥ c}
é chamado de região crı́tica do teste.
10
Definição 44 (Tipos de erros) Tipos de erros que podem ser cometidos
Definição 45 (Tamanho/nı́vel de um teste) Dizemos que um teste, δ, tem tamanho ou nı́vel de sig-
nificância α(δ), com
H0 : g(θ) = g0 ,
H1 : g(θ) 6= g0 ,
de modo que existe um teste δg0 com nı́vel α0 destas hipóteses. Para cada X = x, defina
P (g(θ0 ) ∈ w(X) | θ = θ0 ) ≥ γ,
para todo θ0 ∈ Ω, então chamamos w(X) de um conjunto de confiança para g(θ).
Teorema 27 (Testando hipóteses a partir de conjuntos de confiança) Suponha que dispomos de da-
dos X = {X1 , . . . .Xn } com f.d.p. comum f (x | θ) e que w(X) é um conjunto de confiança para uma função
de interesse g(θ). Então para todo valor g0 assumido por g(θ) existe um teste δg0 , de nı́vel α0 que rejeita
H0 : g(θ) = g0 se e somente se g(θ0 ) = g0 ∈/ w(X).
11
Teorema 29 (Teorema de Wilks) Suponha que temos um espaço de parâmetros com k coordenadas, θ =
(θ1 , . . . , θn ) e desejamos testar a hipótese (simples) da forma
H0 : θj = θ0j , j = 1, . . . , k,
H1 : θj 6= θ0j , j = 1, . . . , k.
Então, sob condições de regularidade, temos que, à medida que n → ∞,
d
−2 log ∧(x) → X 2 (k)
H0 : θ ∈ Ω 0 ,
H1 : θ ∈ Ω 1 ,
através do teste δ. Dizemos que δ é não-viesado se (e somente se) para θ ∈ Ω0 e θ0 ∈ Ω1 , vale
• µ = µ0 =⇒ π(µ, σ 2 | δc ) = α0
Teorema 31 (P-valor para um teste t unicaudal) Suponha que observarmos U = u e seja T (·.n − 1)
a f.d.a. de uma distribuição t de Student com n - 1 graus de liberdade. Para a hipótese
H0 : µ ≥ µ0 ,
H1 : µ < µ0 ,
o p-valor vale T (u; n − 1), enquanto para a hipótese
H0 : µ ≤ µ0 ,
H1 : µ > µ0 ,
o p-valor vale 1 − T (u; n − 1).
12
Aula 19: Teste t II
Teorema 32 (Teste pareado) Sejam amostras X e Y (antes e depois), tais que Xi ∼ Normal(µ1 , σ 2 ) e
Yi ∼ Normal(µ2 , σ 2 ), a hipótese
H0 : µ1 ≤ µ2
H1 : µ1 > µ2
Pode ser modelada com a variável Zi = Xi − Yi (Zi ∼ Normal(µZ = µ1 − µ2 , 2σ 2 )), então podemos testar
hipóteses sobre µZ a partir de Z
H0 : µZ ≤ 0
H1 : µZ > 0
H0 : µ1 ≤ µ2
H1 : µ1 > µ2
computando a estatı́stica
√
m + n − 2(X m − Y n )
U= q
1
(m + n1 )(SX
2 + S2 )
Y
2 2
onde X m e X m são as médias e SX e SX são a soma das variâncias.
Y /m
X= ,
W/n
tem distribuição F com m e n graus de liberdade, com f.d.p.
Γ( m+n
2 )m
m/2 n/2
n xm/2−1
fX (x) = n m · , x > 0,
Γ( 2 )Γ( 2 ) (mx + n)(m+n)/2
13
Teorema 36 (Igualdade de duas variâncias) Suponha Xi ∼ Normal(µ1 , σ12 ), i = 1, . . . , m e Yj ∼
Normal(µ2 , σ22 ), j = 1, . . . , n. Queremos testar
H0 : σ12 ≤ σ22
H1 : σ12 > σ22
Para isso, vamos computar a estatı́stica de teste
2
SX /(m − 1)
V = 2
SY /(n − 1)
2
Pm Pm
onde SX = i=1 (Xi − X m )2 e SY2 = j=1 (Yj − Y m )2
σ22
V ∼ F (m − 1, n − 1).
σ12
Além disso, se σ12 = σ22 , V ∼ F (m − 1, n − 1).
yi = β0 + β1 xi . (29)
Os valores dos coeficientes que minimizam a soma de quadrados são
β̂0 = y − β̂1 x,
Pn
(y − y)(xi − x)
β̂1 = Pn i
i=1
2
.
i=1 (xi − x)
Definição 53 (Modelo linear) Podemos construir um modelo estatı́stico explı́cito para a relação entre as
variáveis X e Y:
E[Y | X = x1 , . . . , xP ] = β0 + β1 x1 + . . . + βP xP (30)
Podemos então idealizar o seguinte modelo
P
X
Yi = β0 βj xij + εi , ε ∼ Normal(0, σ 2 ).
j=1
14
Aula 22: Regressão Linear II
Teorema 39 (EMV para os coeficientes de uma regressão linear (simples)) Sob as premissas já lis-
tadas, os estimadores de máxima verossimilhança para θ = (β0 , β1 , σ 2 ) são
β̂0EM V = y − β̂1EM V x,
Pn
(y − y)(xi − x)
β̂1EM V Pn i
= i=1 2
,
i=1 (xi − x)
n 2
ˆ2
1 X
σ EM V = yi − (β̂0EM V + β̂1EM V xi ) ,
n i=1
ou seja, os estimadores de máxima verossimilhança dos coeficientes minimizam a soma de quadrados da reta
estimada.
x2
1
β̂0EM V ∼ Normal β0 , σ 2 + 2 ,
n sX
σ2
β̂1EM V ∼ Normal β0 , 2 ,
sX
xσ 2
Cov(β̂0EM V , β̂1EM V ) = − ,
s2X
pPn
onde sx = i=1 (xi − x)2 .
Teorema 41 (Intervalos de confiança para os coeficientes de uma regressão linear) Podemos com-
putar intervalos de confiança para os coeficientes da regressão linear de maneira muito similar ao que já vimos
para o caso da média da Normal
s
1 x̄2 σ̂ 0
βˆ0 ± σ̂ 0 c + 2 e βˆ1 ± c ,
n sx sx
s
2
1 (xpred − x̄)
βˆ0 + βˆ1 xpred ± cσ̂ 0
+
n s2x
α0
onde c = T −1 (1 − 2 ;n − 2) e
v
uP 2
u n Y − ˆ
β − ˆ
β x
t i=1 i 0 1 i
σ̂ 0 := .
n−2
βˆ1 − β ?
U1 = sx , (31)
σ̂ 0
15
e computar o p-valor como
Teorema 42 (Predição pontual) Suponha que queremos prever o valor de Y para um certo xpred que não
foi observado no experimento. Podemos compor nossa predição (pontual) como
(xpred − x)2
h i 1
E (Ŷ − Y )2 = σ 2 1 + + .
n s2X
Teorema 43 (Intervalos de predição para Ŷ ) A probabilidade de Ŷ = β̂0 + β̂1 xpred estar no intervalo
s
(xpred − x)2
−1 α0 0 1
Ŷ ± T (1 − ; n − 2)σ̂ 1+ + ,
2 n s2X
é 1 − α0 .
16