Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez
Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez
Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez
ISBN: 978-85-5585-210-7
2019
ii
Conteúdo
Prefácio vii
1 Conceitos Básicos 1
1.1 Funções gama e beta . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Função de probabilidade e variável aleatória . . . . . . . . . . . . 2
1.3 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.7 Função geradora de momentos . . . . . . . . . . . . . . . . . . . 7
1.8 Alguns modelos probabilı́sticos discretos . . . . . . . . . . . . . . 8
1.8.1 Modelo uniforme discreto . . . . . . . . . . . . . . . . . . 8
1.8.2 Modelo de Bernoulli . . . . . . . . . . . . . . . . . . . . . 9
1.8.3 Modelo binomial . . . . . . . . . . . . . . . . . . . . . . . 10
1.8.4 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . 11
1.8.5 Modelo geométrico . . . . . . . . . . . . . . . . . . . . . . 13
1.8.6 Modelo hipergeométrico . . . . . . . . . . . . . . . . . . . 13
1.8.7 Modelo binomial negativo . . . . . . . . . . . . . . . . . . 14
1.9 Alguns modelos probabilı́sticos contı́nuos . . . . . . . . . . . . . . 15
1.9.1 Modelo uniforme . . . . . . . . . . . . . . . . . . . . . . . 15
1.9.2 Modelo normal . . . . . . . . . . . . . . . . . . . . . . . . 15
1.9.3 Modelo exponencial . . . . . . . . . . . . . . . . . . . . . 15
1.9.4 Modelo gama . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9.5 Modelo qui-quadrado . . . . . . . . . . . . . . . . . . . . 17
1.9.6 Modelo de Laplace . . . . . . . . . . . . . . . . . . . . . . 18
1.9.7 Modelo gama inverso . . . . . . . . . . . . . . . . . . . . . 19
1.9.8 Modelo beta . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.9 Modelo t de Student . . . . . . . . . . . . . . . . . . . . . 20
1.9.10 Modelo de Cauchy . . . . . . . . . . . . . . . . . . . . . . 21
1.9.11 Modelo F de Snedecor . . . . . . . . . . . . . . . . . . . . 23
1.10 Alguns modelos multivariados . . . . . . . . . . . . . . . . . . . . 23
1.10.1 Modelo multinomial . . . . . . . . . . . . . . . . . . . . . 23
1.10.2 Modelo de Dirichlet . . . . . . . . . . . . . . . . . . . . . 24
1.10.3 Modelo normal multivariado . . . . . . . . . . . . . . . . 25
iii
iv CONTEÚDO
2 O método frequentista 31
2.1 Estatı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Estimação paramétrica por ponto . . . . . . . . . . . . . . . . . . 31
2.3 Erro quadrático médio . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Consistência em erro quadrático médio . . . . . . . . . . . . . . . 32
2.5 Estimador não viciado para τ (θ) . . . . . . . . . . . . . . . . . . 32
2.6 Desigualdade de Cramér-Rao . . . . . . . . . . . . . . . . . . . . 32
2.7 Estimadores de máxima verossimilhança . . . . . . . . . . . . . . 35
2.8 Estatı́stica suficiente . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8.1 Teorema da fatoração . . . . . . . . . . . . . . . . . . . . 38
2.9 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . 39
2.9.1 Quantidade pivotal . . . . . . . . . . . . . . . . . . . . . . 41
2.9.2 Método da quantidade pivotal . . . . . . . . . . . . . . . 42
2.9.3 Obtenção de quantidades pivotais . . . . . . . . . . . . . 43
2.10 Método assintótico . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.11 Teste de hipóteses frequentista . . . . . . . . . . . . . . . . . . . 45
2.11.1 Hipóteses simples e compostas . . . . . . . . . . . . . . . 46
2.11.2 Poder do teste . . . . . . . . . . . . . . . . . . . . . . . . 46
2.11.3 Tamanho do teste . . . . . . . . . . . . . . . . . . . . . . 46
2.11.4 Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 47
2.11.5 Teste da razão de verossimilhanças . . . . . . . . . . . . . 48
2.11.6 Nı́vel descritivo . . . . . . . . . . . . . . . . . . . . . . . . 49
2.12 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Métodos bayesianos 53
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Distribuições a priori conjugadas . . . . . . . . . . . . . . . . . . 57
3.3 Priori normal e verossimilhança normal . . . . . . . . . . . . . . 60
3.4 Inferência bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4.1 Estimação por intervalo . . . . . . . . . . . . . . . . . . . 61
3.4.2 Teoria bayesiana assintótica . . . . . . . . . . . . . . . . . 62
3.4.3 Estimação por ponto . . . . . . . . . . . . . . . . . . . . . 63
3.5 Vetores paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5 Distribuições a Priori 85
5.1 Método estrutural de elicitação . . . . . . . . . . . . . . . . . . . 85
5.2 Método preditivo de elicitação . . . . . . . . . . . . . . . . . . . . 86
5.3 Distribuições a priori não-informativas . . . . . . . . . . . . . . . 88
5.3.1 Método de Bayes-Laplace . . . . . . . . . . . . . . . . . . 88
5.3.2 Método de Jeffreys . . . . . . . . . . . . . . . . . . . . . . 89
5.3.3 Caso Multiparamétrico . . . . . . . . . . . . . . . . . . . . 93
5.3.4 Método da Entropia Máxima . . . . . . . . . . . . . . . . 95
5.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
vii
viii
Capı́tulo 1
Conceitos Básicos
d Γ0 (α)
ψ (α) = ln Γ (α) = ,
dα Γ (α)
1
2
A integral
Z 1
β−1
B (α, β) = xα−1 (1 − x) dx, (1.3)
0
Γ (α) Γ (β)
c) B (α, β) = .
Γ (α + β)
a) FX (·) é não decrescente; se a e b são valores tais que a < b, então FX (a) ≤
FX (b),
1 ●
5/6 ●
4/6 ●
F X (x)
1/2 ●
2/6 ●
1/6 ●
−1 0 1 2 3 4 5 6 7
Por sua vez, uma v.a. X é contı́nua se existe uma função fX (·) não negativa
tal que
Z x
FX (x) = P (X ∈ (−∞, x]) = P (X ≤ x) = fX (w)dw
−∞
para todo x real. Neste caso, FX (·) é absolutamente contı́nua, não possui a
forma de escada que caracteriza a função de distribuição cumulativa de uma
v.a. discreta. A função fX (·) é chamada de função densidade de probabilidade
(f dp) de X, tal que
a) fX (x) ≥ 0, para qualquer x ∈ <,
R∞
b) −∞ fX (x)dx = 1, e
0 d hR x i
c) FX (x) = f X (w)dw = fX (x), para os valores x em que FX (x) é
dx −∞
diferenciável.
Se X1 , X2 , ...., Xn são variáveis aleatórias que seguem a mesma distribuição
de probabilidade, diz-se que estas variáveis são identicamente distribuı́das (id).
Em adição, se X1 , X2 , ...., Xn são independentes e identicamente distribuı́das
(iid), considera-se que as variáveis Xi , i = 1, ..., n, constituem uma amostra
aleatória de tamanho n, retiradas de uma população especı́fica. Assim, se
cada uma destas variáveis possui f dp (ou função de probabilidade, f p, se as
variáveis são discretas) dada por f (·), a f dp (ou f p) conjunta de X1 , X2 , ...., Xn
é chamada distribuição da amostra, dada por
n
Y
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn ) = f (xi ). (1.4)
i=1
1.3 Média
Se X é uma variável aleatória (v.a.), a média de X, denotada por µX ou E(X),
é definida por
X
E(X) = xj fX (xj ) se X é v.a. discreta, ou
j
Z ∞
E(X) = xfX (x)dx se X é v.a. contı́nua.
−∞
1.4. VARIÂNCIA 5
Exemplo 1.3: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = λe−λx I[0,∞) (x), λ > 0. A média de X é
Z ∞ Z ∞
E(X) = xλe−λx dx = λ xe−λx dx.
0 0
Exemplo 1.4: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = x−2 I[1,∞) (x). Temos que
Z ∞
1 ∞
E(X) = x dx = ln x|1 = ∞,
1 x2
1.4 Variância
2
Seja X uma v.a. A variância de X, denotada por σX ou V ar(X), é definida por
X 2
V ar(X) = (xj − µX ) fX (xj ) se X é v.a. discreta, ou
j
Z ∞
2
V ar(X) = (x − µX ) fX (x)dx se X é v.a. contı́nua.
−∞
1.5 Esperança
Seja X uma v.a. e g(·) uma função com domı́nio e contradomı́nio reais. A
esperança, ou valor esperado de g(X), denotada por E [g (X)] é definida por
X
E [g (X)] = g (xj ) fX (xj ) se X é v.a. discreta, ou
j
Z ∞
E [g (X)] = g (x) fX (x)dx se X é v.a. contı́nua.
−∞
Observar que:
a) V ar(aX) = a2 V ar(X)
b) V ar(X + b) = V ar(X)
c) V ar(aX + b) = a2 V ar(X)
a) E (c) = c,
c) E [c1 g1 (X) + c2 g2 (X)] = c1 E [g1 (X)] + c2 E [g2 (X)], em que g1 (·) e g2 (·)
são funções com domı́nio e contradomı́nio reais.
Exemplo 1.5: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = λe−λx I[0,∞) (x), λ > 0. Do exemplo 1.3, temos que E(X) = λ1 .
A esperança de X 2 é
Z ∞
2
2
E(X ) = x2 λe−λx dx = 2 ,
0 λ
e a variância de X é
2 1 1
V ar(X) = E(X 2 ) − E 2 (X) = 2
− 2 = 2.
λ λ λ
1.6 Covariância
Sejam X e Y variáveis aleatórias, com médias µX e µY , respectivamente. A
covariância entre X e Y é dada por
Cov(X, Y ) = E [(X − µX ) (Y − µY )]
= E (XY ) − E (X) E (Y )
= E (XY ) − µX µY .
1.7. FUNÇÃO GERADORA DE MOMENTOS 7
Como consequência,
mX (t) = E etX ,
desde que a esperança E etX seja finita para t real em algum intervalo −t0 <
t < t0 , com t0 > 0.
Observar que
2 3
(tX) (tX)
etX = 1 + tX + + + ...
2! 3!
Assim,
tX
2E X2 3E X
3
mX (t) = E e = 1 + tE (X) + t +t + ...
2! 3!
A derivada de mX (t) em relação a t é dada por
0 ∂mX (t) E X2 2E X
3
mX (t) = = E (X) + 2t + 3t + ...
∂t 2! 3!
Notar que a esperança de X pode ser obtida por m0X (0). A segunda derivada
de mX (t) em relação a t é dada por
00 ∂ 2 mX (t) E X2 E X3 2E X
4
mX (t) = =2 + 6t + 12t + ...
∂t2 2! 3! 4!
Portanto,
m00X (0) = E X 2 ,
k k
X 1 1X 2 1 k (2k + 1) (k + 1) (2k + 1) (k + 1)
E(X 2 ) = j2 = j = = .
j=1
k k j=1 k 6 6
Assim,
2
(2k + 1) (k + 1) k+1
= E X 2 − E 2 (X) =
V ar (X) − =
6 2
2k 2 + 2k + k + 1 k 2 + 2k + 1
= −
6 4
4k + 6k + 2 − 3k 2 − 6k − 3
2
k2 − 1 (k + 1) (k − 1)
= = = .
12 12 12
P (X = 0) = 1 − θ,
P (X = 1) = θ
E(X) = 0 × (1 − θ) + 1 × θ = θ
E X 2 − E 2 (X) = 02 × (1 − θ) + 12 × θ − θ2
V ar(X) =
= θ − θ2 = θ (1 − θ) .
P (X = 0) = 1 − 0, 8 = 0, 2 e
P (X = 1) = 0, 8,
ou seja,
fX (x) = P (X = x) = 0, 8x 0, 21−x I{0,1} (x).
P (Y = 0) = P (X1 = 0, X2 = 0, X3 = 0)
= P (X1 = 0) P (X2 = 0) P (X3 = 0)
0, 2 × 0, 2 × 0, 2 = 0, 23 = 0, 008,
=
(X1 = 0, X2 = 0, X3 = 1) ou (X1 = 0, X2 = 1, X3 = 0)
P (Y = 1) = P
ou (X1 = 1, X2 = 0, X3 = 0)
= 0, 2 × 0, 2 × 0, 8 + 0, 2 × 0, 8 × 0, 2 + 0, 8 × 0, 2 × 0, 2
3 × 0, 22 × 0, 8 = 0, 096,
=
(X1 = 0, X2 = 1, X3 = 1) ou (X1 = 1, X2 = 0, X3 = 1)
P (Y = 2) = P
ou (X1 = 1, X2 = 1, X3 = 0)
= 0, 2 × 0, 8 × 0, 8 + 0, 8 × 0, 2 × 0, 8 + 0, 8 × 0, 8 × 0, 2
= 3 × 0, 2 × 0, 82 = 0, 384, e
P (Y = 3) = P (X1 = 1, X2 = 1, X3 = 1)
= P (X1 = 1) P (X2 = 1) P (X3 = 1)
= 0, 8 × 0, 8 × 0, 8 = 0, 83 = 0, 512.
1.8. ALGUNS MODELOS PROBABILÍSTICOS DISCRETOS 11
3
, y = 0, 1, 2 ou 3,
y
n y n−y
fY (y) = P (Y = y) = θ (1 − θ) I{0,1,2,...,n} (y). (1.9)
y
n
E(Y ) = nθ, V ar(Y ) = nθ(1 − θ) e mY (t) = 1 − θ + θet .
Seja X uma variável aleatória tal que X ∼ Binomial (n, θ). Assim,
n x n−x
P (X = x) = θ (1 − θ) I{0,1,2,...,n} (x).
x
0, 1, 2, ..., n,
x n−x
n! λ λ
P (X = x) = 1−
(n − x)!x! n n
x
n −x
n! λ λ λ
= 1− 1−
(n − x)!nx x! n n
x
n −x
n (n − 1) (n − 2) ... (n − x)! λ λ λ
= 1 − 1 −
(n − x)!nx x! n n
x
n −x
n (n − 1) (n − 2) (n − x − 1) λ λ λ
= ... 1− 1−
n n n n x! n n
x n −x
1 2 x+1 λ λ λ
= 1− 1− ... 1 − 1− 1− .
n n n x! n n
e−λ λx
fX (x) = P (X = x) = I{0,1,2,...,n} (x). (1.10)
x!
Por notação, X ∼ P oisson (λ). A f gm de X é
n n x
X e−λ λx X (λet )
= E etX = etx = e−λ = exp −λ + λet
mX (t)
x=0
x! x=0
x!
t
= exp λ e − 1 .
(a) λ = 2 (b) λ = 4
0.30
0.20
● ●
● ●
0.25
0.15
●
●
0.20
●
P(X=x)
P(X=x)
0.15
0.10
●
●
0.10
●
● ●
0.05
0.05
●
●
●
●
●
0.00
0.00
● ● ●
● ● ● ● ● ● ● ● ● ●
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
x x
(c) λ = 8 (d) λ = 10
● ●
0.12
0.12
● ● ●
●
● ●
●
●
● ●
0.08
0.08
P(X=x)
P(X=x)
● ●
●
●
●
●
0.04
0.04
●
●
● ●
●
● ●
● ●
● ● ●
0.00
0.00
● ● ● ● ●
● ● ● ● ●
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x x
sendo que r > 0 é um número inteiro e 0 < θ ≤ 1. Por notação, X ∼ BN (r, θ).
A média, a variância e a f gm de X são dadas, respectivamente, por
r
r (1 − θ) r (1 − θ) θ
E(X) = , V ar(X) = e mX (t) = ,
θ θ2 1 − (1 − θ)et
(a) (b)
0.4
1.0
σ=1
σ=2
0.8
0.3
σ=3
0.6
F X (x)
f X (x)
0.2
0.4
σ=1
0.1
σ=2
0.2
σ=3
0.0
0.0
−10 −5 0 5 10 −10 −5 0 5 10
x x
(c) (d)
0.4
1.0
µ=0
µ=2
0.8
0.3
µ=4
0.6
F X (x)
f X (x)
0.2
0.4 µ=0
0.1
µ=2
0.2
µ=4
0.0
0.0
−5 0 5 10 −5 0 5 10
x x
Z x
FX (x) = P (X ≤ x) = θe−θx dx = 1 − e−θx (1.14)
0
em que α > 0 , β > 0 e Γ (·) é a função gama dada pela expressão (1.1). Por
notação, X ∼ Gama(α, β). A média, a variância e a f gm de X são dadas,
respectivamente, por
α
α α β
E(X) = , V ar(X) = 2 e mX (t) = para t < β,
β β β−t
conforme (1.6) , (1.7) e (1.5). Notar que o modelo exponencial é um caso par-
ticular do modelo gama, em que α = 1 e β = θ.
α = 1, β = 2
α = 2, β = 2
α = 3, β = 2
α = 6, β = 6
1.5
f X (x)
1.0
0.5
0.0
0 1 2 3 4 5
(a) (b)
0.20
2.0
1 g.l. 4 g.l.
2 g.l. 5 g.l.
3 g.l. 6 g.l.
0.15
1.5
f X (x)
f X (x)
0.10
1.0
0.05
0.5
0.00
0.0
0 2 4 6 8 0 5 10 15
x x
β α −(α+1)
β
fX (x) = x exp − I(0,∞) (x), (1.16)
Γ(α) x
β β2
E(X) = e V ar(X) = 2 .
α−1 (α − 1) (α − 2)
A moda de X é
α−1
M oda(X) = ,
α+β−2
se α > 1 e β > 1.
em que α > 0 , β > 0, Γ (·) é a função gama (1.1) e B(·) é a função beta
(1.3). Por notação, X ∼ Beta(α, β). A esperança e a variância de X são,
respectivamente,
α αβ
E(X) = e V ar(X) = 2 .
α+β (α + β) (α + β + 1)
A moda de X é
α−1
M oda(X) = ,
α+β−2
20
(a) (b)
4
α = 1, β = 1 α = 1, β = 2
α = 0.5, β = 0.5 α = 2, β = 4
α = 2, β = 2 α = 2, β = 8
3 α = 4, β = 1
3
f X (x)
f X (x)
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
se α > 1 e β > 1.
e indefinida, se v ≤ 1.
1 g.l.
2 g.l.
200 g.l.
0.3
f X (x)
0.2
0.1
0.0
−10 −5 0 5 10
0.4
σ=1
σ=2
σ=3
0.3
f X (x)
0.2
0.1
0.0
−6 −4 −2 0 2 4 6
se x ≥ 0 e FX (x) = 0 se x < 0.
m 2m2 (n + m − 2)
E(X) = se m > 2 e V ar(X) = se m > 4.
m−2 n(m − 2)2 (m − 4)
Pk
se xi ∈ {0, ..., n} e i=1 xi = n, e 0 caso contrário. Em cada um dos n ensaios,
a probabilidade de ocorrência da i-ésima possibilidade (i = 1, ..., k) é θi , tal que
Pk
i=1 θi = 1. Para um dado i , i = 1, ..., k, a média de Xi é E(Xi ) = nθi e a
variância de Xi é V ar(Xi ) = nθi (1 − θi ). Para um dado j, sendo j = 1, ..., k e
24
Grupo O A B AB
Frequência 45% 42% 10% 3%
a) 4 pessoas com sangue tipo O, 4 pessoas com sangue tipo A, 2 pessoas com
sangue tipo B e nenhuma pessoa com sangue tipo AB?
10!
P (X1 = 4, X2 = 4, X3 = 2, X4 = 0) = 0, 454 0, 424 0, 102 0, 030
4!4!2!0!
' 0, 0402.
b) 5 pessoas com sangue tipo O, 4 pessoas com sangue tipo A, 1 pessoa com
sangue tipo B e nenhuma pessoa com sangue tipo AB?
10!
P (X1 = 5, X2 = 4, X3 = 1, X4 = 0) = 0, 455 0, 424 0, 101 0, 030
5!4!1!0!
' 0, 0724.
c) 2 pessoas com sangue tipo O, 2 pessoas com sangue tipo A, 2 pessoas com
sangue tipo B e 4 pessoas com sangue tipo AB?
10!
P (X1 = 2, X2 = 2, X3 = 2, X4 = 4) = 0, 452 0, 422 0, 102 0, 034
2!2!2!4!
' 0, 0000055.
Pk
tal que A = i=1 αk . A covariância entre Xi e Xj para i 6= j é dada por
αi αj
Cov(Xi , Xj ) = − 2 .
A (A + 1)
Notar que a distribuição beta (1.17) é um caso particular da distribuição de
Dirichlet, quando k = 2.
para −∞ < xi < ∞, i = 1, ..., k, tal que |Σ| é o determinante da matriz Σ. Por
notação, X ∼ N Mk (µ, Σ).
para −∞ < xi < ∞, sendo Γk (·) uma função gama multivariada dada por (1.2)
e tr(S) o traço da matriz S positiva definida. Por notação, X ∼ W ishartk (Σ, n).
Se σij é o elemento da linha i e coluna j da matriz Σ (sendo 1 ≤ i ≤ k, 1 ≤
j ≤ k), em que σi2 = σii para algum i, a média e a variância de Xij são dadas
por
2
+ σi2 σj2 .
E (Xij ) = nσij e V ar (Xij ) = n σij
tal que a(·) e c(·) são funções reais de θ e b(·) e d(·) são funções reais de x.
tal que a(·), c1 (·), ..., ck (·) são funções reais de θ e b(·), d1 (·), ..., dk (·) são
funções reais de x.
√
tal que t é real e i = −1.
Notas:
a) φX (t) = mX (it),
b) φX (0) = 1 e
c) |φX (t)| ≤ 1.
A função caracterı́stica de Y é
φY (t) = φX1 +X2 +...+Xn (t) = E eit(X1 +X2 +...+Xn )
n
Y
E eitXj = exp nλ eit − 1 .
=
j=1
Y = a1 X1 + a2 X2 + ... + an Xn
28
é dada por
n
Y
φY (t) = φa1 X1 +a2 X2 +...+an Xn (t) = φXj (aj t) .
j=1
Portanto,
α1 α2
β β
φX1 +X2 (t) = φX1 (t)φX2 (t) =
β − it β − it
α1 +α2
β
= .
β − it
1.13 Exercı́cios
1. Se X e Y são variáveis aleatórias independentes com variâncias finitas,
demonstre que:
2. Mostre que:
1.13. EXERCÍCIOS 29
3. Resolva as integrais:
R1 2
(a) 0 x3 (1 − x) dx
R∞
(b) 0 x3 e−2x dx
R∞
(c) 0 xe−x dx
" #
2
R∞ (x − 3)
(d) −∞ exp − dx
8
P∞
(a) Mostre que y=0 P (Y = y) = 1
(b) Escreva como devem ser definidos λ e ω, os parâmetros desta dis-
tribuição
(c) Encontre E(Y ) e V ar(Y )
Capı́tulo 2
O método frequentista
2.1 Estatı́stica
Uma estatı́stica é qualquer função dos elementos de uma amostra aleatória,
que não depende de nenhum parâmetro desconhecido.PSe X1 , X2 , ..., XQ
n é uma
n n
amostra aleatória, são exemplos de estatı́sticas: T1 = i=1 Xi e T2 = i=1 Xi .
Pn Qn θ
Por outro lado, T3 = i=1 (Xi − θ) e T4 = ln ( i=1 Xi ) não são estatı́sticas,
considerando θ desconhecido.
Dizemos que b
θ é consistente para θ se, para algum ε > 0,
lim P bθ − θ > ε = 0.
n→∞
31
32
Notar que
EQM (T ) = E T 2 − 2τ (θ)E (T ) + τ 2 (θ),
e, considerando E T 2 = V ar (T ) + E 2 (T ), temos
EQM (T ) = V ar (T ) .
∂
a) ln f (x; θ) existe para todo x e todo θ,
∂θ
∂ R R Q n R R ∂ Q n
b) ... f (xi ; θ) dx1 ...dxn = ... f (xi ; θ) dx1 ...dxn ,
∂θ i=1 ∂θ i=1
∂ R R n
Q
c) ... g(x1 , ..., xn ) f (xi ; θ) dx1 ...dxn
∂θ i=1
R R ∂ Q n
= ... g(x1 , ..., xn ) f (xi ; θ) dx1 ...dxn e
∂θ i=1
( 2 )
∂
d) 0 < Eθ ln f (X; θ) < ∞ para todo θ ∈ Θ,
∂θ
∂τ (θ)
em que τ 0 (θ) = . As condições de regularidade apresentadas referem-se
∂θ
a uma variável aleatória contı́nua, mas podem ser adaptadas a uma variável
aleatória discreta. O lado direito desta desigualdade é chamado limite inferior
de Cramér-Rao.
Notar que:
( 2 ) 2
∂ ∂
a) Eθ ln f (X; θ) = −Eθ ln f (X; θ) ,
∂θ ∂θ2
∂
b) a quantidade ln f (X; θ) é chamada função escore, e
∂θ
( 2 )
∂
c) a quantidade I(θ) = Eθ ln f (X; θ) é chamada informação de Fisher
∂θ
de θ.
34
∂ ∂ 1
ln f (X; θ) = [ln θ − θX] = − X.
∂θ ∂θ θ
1 1 θ2
V arθ (T ) ≥ ( 2 ) = nV ar (X) = n .
1 θ
nEθ −X
θ
com −∞ < x < ∞, −∞ < θ < ∞ e σ > 0, e seja τ (θ) = θ. Temos τ 0 (θ) = 1 e
" #
∂ ∂ √ (X − θ)2 X −θ
ln f (X; θ) = − ln 2πσ − = .
∂θ ∂θ 2σ 2 σ2
1 1 σ2
V arθ (T ) ≥ " 2 # = h i = ,
X −θ Eθ (X − θ)
2 n
nEθ n
σ2 σ4
h i
2 Pn Xi
dado que Eθ (X − θ) = V arθ (X) = σ 2 . Seja a estatı́stica T1 = i=1 n .
Dado que
n
1X
E (T1 ) = E (Xi ) = θ,
n i=1
θ = maxL(X, θ).
b
θ
Observar que:
d) se b
θ é o EM V de θ e τ (θ) é uma função de θ que possui uma única inversa,
a propriedade de invariância diz que o EM V de τ (θ) é τ (b
θ).
b = 9 + 11 + 4 + 11 + ... + 6 = 7, 25.
λ
20
−200
−400
ln L (x|λ)
−600
−800
−1000
−1200
7.25
0 5 10 15
Igualando a expressão
n
∂ ln L(X, θ) 1 X
= (Xi − θ1 )
∂θ1 θ2 i=1
e igualando a expressão
n
∂ ln L(X, θ) n 1 X 2
=− + 2 (Xi − θ1 )
∂θ2 2θ2 2θ2 i=1
x <- c(40.0, 40.2, 35.0, 40.4, 44.2, 39.2, 34.5, 45.5, 40.3, 37.8,
32.0, 35.8, 42.6, 40.5, 36.9, 40.5, 38.6, 39.7, 46.3, 39.9)
n <- length(x)
theta1.hat <- sum(x)/n
theta2.hat <- sum((x-theta1.hat)^2)/n
Obtemos então:
> theta1.hat
[1] 39.495
> theta2.hat
[1] 12.20348
P (X1 = x1 , X2 = x2 , ..., Xn = xn )
fX1 ,....,Xn (x1 , ..., xn |T = t ) =
P (T = t)
Qn Qn
i=1 P (Xi = xi ) θxi (1 − θ)1−xi
= = i=1
P (T = t) n t
θ (1 − θ)n−t
t
Pn Pn
xi
(1 − θ)n− i=1 xi
θ i=1 1
= = ,
n t n
θ (1 − θ)n−t
t t
Pn
que não depende de θ. Portanto, T = i=1 Xi é suficiente para θ.
em que h2 (x) é uma função não negativa que não depende de θ e a função
h1 [g(x), θ] é não negativa e depende de x somente através de g(x).
Notar que se fX (x, θ) pertence à famı́lia exponencial (1.21), temos que
n
Y n
Y
L(x, θ) = fX (xi , θ) = {a(θ)b(xi ) exp [c(θ)d(xi )]}
i=1 i=1
" n
# " n
#
n
Y X
= [a(θ)] b(xi ) exp c(θ) d(xi ) .
i=1 i=1
Pn
Sendo h1 [g(x), θ] = expP[c(θ) i=1 d(xi )] uma função
Pque depende de x so-
n n
mente através de g(x) = i=1 d(xi ), temos que T = i=1 d(Xi ) é suficiente
para θ.
2.9. INTERVALOS DE CONFIANÇA 39
Pn Pn n
Y
xi
L(x, θ) = θ i=1 (1 − θ)n− i=1 xi
I{0;1} (x)
i=1
= h1 [g(x), θ] × h2 (x),
Pn Pn Qn
em que h1 [g(x), θ] = θ i=1 xi (1 − θ)n− i=1 xi e h2 (x) = P i=1 I{0;1} (x), sendo
n
h1 [g(x),
Pn θ] uma função que depende de x através de g(x) = i=1 xi . Portanto,
T = i=1 Xi é suficiente para θ.
sendo que escolhemos q1 e q2 tais que a área sombreada sob a curva qui-quadrado
com n − 1 graus de liberdade mostrada na Figura 2.2 é igual a γ. Notar que
não há uma única possı́vel escolha para q1 e q2
0 q1 5 10 q2 15
Figura 2.2: Curva qui-quadrado com n−1 graus de liberdade. A área sombreada
sob a curva, de q1 a q2 , equivale a γ×100% de sua área total e define um intervalo
de confiança γ × 100% para θ.
(ii) para um γ fixo, não há um único par q1 e q2 tal que P (q1 < Q < q2 ) = γ.
É desejável escolher q1 e q2 tais que a diferença q2 − q1 seja a menor
possı́vel, o que minimiza a amplitude do IC. Se Q segue uma distribuição
normal padrão ou outra distribuição simétrica em torno de 0, o mı́nimo
para q2 − q1 é tal que q2 = −q1 = q.
temos que um IC γ × 100% para θ tem por limites inferior e superior, respec-
tivamente,
q1 q2
n
P e Pn .
2 Xi 2 Xi
i=1 i=1
2.9. INTERVALOS DE CONFIANÇA 43
De (2.1), temos FY (e−w ) = e−w para w > 0. Assim, FW (w) = 1 − e−w , o que
caracteriza uma distribuição exponencial (ver (1.14)) com parâmetro igual a 1.
é quantidade pivotal.
√
1
−θ n
Xn
Q= ∼ N (0; 1).
θ
H0 : θ 6= 1/2
HA : θ = 1/2.
H0 : θ = θ0
HA : θ 6= θ0
H0 : θ = θ0
HA : θ > θ0
√
Rejeitaremos H0 se T (X) > 17 + 5/ n, ou seja, a região crı́tica é dada por
5
CΥ = (x1 , x2 , ..., xn ) : xn > 17 + √ .
n
Considerando
que, se X ∼ N (θ, 25), a distribuição amostral de X n é X n ∼
N θ, √25n , a função poder do teste Υ é dada por
5
βΥ (θ) = P X n > 17 + √ θ
n
√ √ √ !
Xn − θ n 17 n + 5 − θ n
= P > θ
5 5
√ √
17 n + 5 − θ n
= P Z> ,
5
L (x1 , x2 , ..., xn ; θ0 )
a) ≤ k se (x1 , x2 , ..., xn ) ∈ CΥ ,
L (x1 , x2 , ..., xn ; θ1 )
L (x1 , x2 , ..., xn ; θ0 ) C
b) > k se (x1 , x2 , ..., xn ) ∈ CΥ ,e
L (x1 , x2 , ..., xn ; θ1 )
rejeitamos H0 quando
Pn Pn
L (x1 , x2 , ..., xn ; θ0 ) θ0n exp (−θ0 i=1 xi ) 2n exp (−2 i=1 xi )
= n Pn = n Pn ≤ k,
L (x1 , x2 , ..., xn ; θ1 ) θ1 exp (−θ1 i=1 xi ) 4 exp (−4 i=1 xi )
e
n
n
2
exp − 2σ1 2
Q P
sup fX (Xi ; θ) (Xi − θ0 )
θ∈Θ0 i=1 i=1
Λ(X) = n = n
Q 1
2
sup fX (Xi ; θ)
P
exp − 2σ2 Xi − X n
θ∈Θ i=1 i=1
( " n #)
1 X 2 2
= exp − 2 (Xi − θ0 ) − (n − 1)S ,
2σ i=1
Pn 2
em que S 2 = i=1 Xi − X n /(n − 1) é a variância amostral. Notar que
n n
X 2
X 2 2 2
(Xi − θ0 ) = Xi − X n + n X n − θ0 = (n − 1)S 2 + n X n − θ0 .
i=1 i=1
Portanto, " 2 #
n X n − θ0
Λ(X) = exp − ,
2σ 2
é equivalente a
X n − θ 0 √n
√
−2 ln k,
>
σ
√
ou seja, rejeitamos H0 se Λ∗ (X) = X n − θ0 σ −1 n for maior que k ∗ =
√
−2 ln k. A constante k ∗ é determinada tal que, para um αΥ fixo,
X n − θ 0 √n
!
∗
P >k = αΥ .
σ
Sob H0 , temos que Λ∗ (X) ∼ N (0; 1). Seja, por exemplo, αΥ = 0, 05. Re-
jeitamos H0 se, considerando
√ as observações de uma amostra tamanho n, a
quantidade |xn − θ0 | σ −1 n é maior que 1, 96.
2.12 Exercı́cios
1. Verifique se as seguintes funções densidade de probabilidade pertencem à
famı́lia exponencial, e, se pertencem, encontre uma estatı́stica suficiente
para θ ∈ Θ.
1 x
(a) fX (x) = exp − I(0,∞) (x)
θ θ
(b) fX (x) = exp [− (x − θ)] I(0,∞) (x)
2 (θ − x)
(c) fX (x) = I[0,θ] (x)
θ2
2. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição com função
densidade de probabilidade
θ
(
se 0 < θ ≤ x < ∞
fX (x) = x2
0 caso contrário
Encontre um estimador de máxima verossimilhança para θ.
3. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição com função
densidade de probabilidade
1 x
fX (x) = exp − I(0,∞) (x).
θ θ
Encontre um estimador não viciado e uniformemente de variância mı́nima
(EN V U V M ) para τ (θ).
4. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável aleatória com
função de distribuição cumulativa
θ2
θ1
FX (x) = 1 − I(θ1 ,∞) (x).
x
Encontre os estimadores de máxima verossimilhança de θ1 e θ2 .
2.12. EXERCÍCIOS 51
Métodos bayesianos
3.1 Introdução
A inferência bayesiana é baseada na fórmula de Bayes dada a seguir:
Seja A1 , A2 , . . . , Ak uma sequência de eventos mutuamente exclusivos e ex-
Sk
austivos, formando uma partição do espaço amostral Ω, isto é, Aj = Ω e
j=1
Ai ∩ Aj = φ (conjunto vazio) para i 6= j tal que
[k Xk
P Aj = P (Aj ) = 1.
j=1 j=1
P (B | Ai ) P (Ai )
P (Ai | B) = k
(3.1)
P
P (B | Aj ) P (Aj )
j=1
53
54
vı́rus HIV e seja B o evento que representa um resultado positivo para o teste.
Temos interesse em determinar P (A | B). Observe que uma sensibilidade igual
a 95% é dada por
P (B | A) P (A)
P (A | B) = ,
P (B | A) P (A) + P B | Ā P Ā
f (y | θi ) π (θi )
π (θi | y) = k
. (3.2)
P
f (y | θj ) π (θj )
j=1
Supondo agora que o parâmetro θ assume valores contı́nuos num dado in-
tervalo, podemos escrever (3.2) na forma
f (y | θ) π (θ)
π (θ | y) = R , (3.3)
f (y | θ) π (θ) dθ
sendo que B (a, b) denota uma função beta, dada por (1.3), e Γ (a) denota uma
função gama, dada por (1.1). A distribuição a posteriori para θ é dada, a partir
de (3.3), por
n+b−y−1
θy+a−1 (1 − θ)
π (θ | y) = R 1 n+b−y−1
.
0
θy+a−1 (1 − θ) dθ
Como
1
Γ (y + a) Γ (n + b − y)
Z
n+b−y−1
θy+a−1 (1 − θ) dθ = ,
0 Γ (n + a + b)
temos
1 n+b−y−1
π (θ | y) = θy+a−1 (1 − θ) (3.4)
B (y + a, n + b − y)
para 0 < θ < 1. Observar que a distribuição a posteriori para θ também é dada
por uma distribuição beta, agora com parâmetros y + a e n + b − y.
n
P
em que ny = yi .
i=1
De (3.3), a distribuição a posteriori para θ é dada por
π (θ) L (θ)
π (θ | y) = R∞
π (θ) L (θ) dθ
0
θα+nȳ−1 exp [− (n + β) θ]
= R∞ .
θα+nȳ−1 exp [− (n + β) θ] dθ
0
Como
Z∞
Γ (α + nȳ)
θα+nȳ−1 exp [− (n + β) θ] dθ = α+nȳ ,
(n + β)
0
encontramos
α+nȳ
(n + β) θα+nȳ−1 exp [− (n + β) θ]
π (θ | y) = . (3.6)
Γ (α + nȳ)
Nota: Uma distribuição a priori π (θ) não precisa ser uma densidade própria
para que π (θ | y) seja uma distribuição própria.
ou seja, " #
n
X
π (θ | y) = π ∗ θ | k1 + b (yi ) , n + k2 .
i=1
1 n−y+19
π (θ | y) = θy+2 (1 − θ) ,
B (y + 3, n + 20 − y)
3.2. DISTRIBUIÇÕES A PRIORI CONJUGADAS 59
7
6
5
4
π(θ)
3
2
1
0
com 0 < θ < 1. Vamos supor que, em uma amostra de tamanho n = 300, o
epidemiologista encontrou y = 31 pessoas portadoras da doença. Considerando
que π (θ | y) segue uma distribuição beta com parâmetros y + a = 31 + 3 = 34
e n + b − y = 300 + 20 − 31 = 289, uma estimativa bayesiana para a prevalência
da doença, dada pela média de π (θ | y), é
34
θB =
b ≈ 0, 105.
34 + 289
Maiores detalhes sobre a estimação pontual de parâmetros serão apresen-
tados na seção 3.4.4. A Figura 3.2 compara os gráficos de π (θ) e de π (θ | y).
Neste exemplo, a distribuição a priori para θ e a distribuição a posteriori π (θ | y)
seguem distribuições beta (ver equação 1.17).
30
Um caso especial é dado por distribuições a priori uniformes, isto é, π (θ) ∝ 1,
em que 0 < θ < 1. A distribuição a posteriori para θ usualmente será uma dis-
tribuição própria (integral igual a 1 em toda variação de θ) independentemente
da distribuição a priori ser ou não própria.
π (µ | y) ∝ π (µ) L (µ | y) (3.12)
( " n
#)
2
1 (µ − υ) 1 X 2
∝ exp − + 2 (yi − µ) .
2 τ2 σ i=1
isto é,
σ2
µ | y ∼ N ωυ + (1 − ω) y; (1 − ω) , (3.14)
n
em que
1
τ2
ω= 1 n .
τ2 + σ2
Assim, a média de (3.14) é a média ponderada da média da distribuição a
priori com a média amostral.
3.4. INFERÊNCIA BAYESIANA 61
2 2 2 AB 2
A (z − a) + B (z − b) = (A + b) (z − c) + (a − b)
A+B
para
(Aa + Bb)
c=
(A + B)
(ver Box e Tiao, 1973).
e Z ∞
π (θ | y) dθ ≈ 0, 975.
0,141
15
10
5
0
dl(θ)
de verossimilhança e igualando-se a zero, isto é, dθ = 0), temos,
1 2 d2 l (θ)
l (θ) ' l θ̂ + θ − θ̂ | . (3.16)
2 dθ2 θ̂
Dessa forma, a distribuição
h a i
posteriori para θ pode ser aproximada por uma
−1
distribuição normal N θ̂; I θ̂ , em que
d2 l (θ)
I θ̂ = − |
dθ2 θ̂
(informação de Fisher observada). Assim,
h i
a
θ | y ∼ N θ̂; I −1 θ̂ . (3.17)
θ | y ∼ Gama (α + nȳ; n + β) .
(α + nȳ)
θ̂ = E (θ | y) = .
(n + β)
(α + nȳ) 25 + 104
E (θ | y) = = = 10, 32.
(n + β) 10 + 2, 5
Exemplo
3.8: Seja (y1 , . . . , yn ) uma a. a. de uma distribuição
normal
N µ; σ 2 com σ 2 conhecido. Assumir uma priori normal N υ; τ 2 para µ, com
υ e τ 2 conhecidos. A distribuição a posteriori para µ (de (3.13)) é dada por
!
υ nȳ
τ 2 + σ2 1
µ|y∼N 1 n ; 1 n
τ 2 + σ2 τ 2 + σ2
yi = θ + i (3.21)
π (θ | y) = c × L (θ) π (θ) ,
0
A média a posteriori para uma função g (θ) de θ = (θ1 , θ2 , . . . , θk ) é dada
por Z Z Z
E [g (θ) | y] = ... g (θ) π (θ | y) dθ1 . . . dθk ,
θ1 θ2 θk
ou, simplesmente, Z
E [g (θ) | y] = g (θ) π (θ | y) dθ. (3.27)
Dessa forma, observar que precisamos resolver integrais múltiplas para en-
contrar c−1 dado em (3.26) e E [g (θ) | y] dado em (3.27).
Para encontrarmos a distribuição marginal para alguns componentes de θ
ou mesmo para um componente individual, também precisamos resolver uma
integral múltipla. Como caso especial, a distribuição a posteriori marginal para
θ1 é dada por
Z Z Z
π (θ1 | y) = ... π (θ1 , θ2 , . . . , θk | y) dθ2 . . . dθk .
θ2 θ3 θk
Exemplo
3.10: Seja Y uma 0 variável aleatória com distribuição normal
N µ; σ 2 . Neste caso θ = µ, σ 2 é um vetor de dois parâmetros. Vamos supor
0
uma a. a. y = (y1 , . . . , yn ) de tamanho n da distribuição N µ; σ 2 . A função
0
de verossimilhança para θ = µ, σ 2 é dada por
n2 "n
#
2
1 1 X 2
L µ; σ = exp − 2 (yi − µ) .
2πσ 2 2σ i=1
µ ∼ N 0; a2 ; a conhecido
(3.28)
2
σ ∼ GI (b; d) ; b e d conhecidos
68
em que GI (b; d) denota uma distribuição gama inversa (1.16). Vamos também
assumir independência a priori entre µ e σ 2 . A distribuição a posteriori conjunta
para µ e σ 2 é dada por
µ2
−(b+ n2 +1)
π µ, σ 2 | y ∝ σ 2
exp − 2 × (3.29)
2a
( " n
#)
1 1X 2
× exp − 2 d + (yi − µ) .
σ 2 i=1
3.6 Exercı́cios
1. Assuma que a distribuição a posteriori de um parâmetro θ dado o vetor
de dados y segue uma densidade Beta (1.17) com parâmetros α∗ e β ∗ , isto
3.6. EXERCÍCIOS 69
é,
Γ (α∗ + β ∗ ) α∗ −1 β ∗ −1
π (θ | y) = θ (1 − θ) ,
Γ (α∗ ) Γ (β ∗ )
2
em que 0 < θ < 1. Assuma uma função de perda L (d, θ) = θ−2 (d − θ) , d ≥
0 e encontre a decisão de Bayes que minimiza o erro esperado.
4. Assumir X uma variável aleatória com densidade normal N (θ, 4), isto é,
1 1 2
f (x | θ) = √ exp − (x − θ)
2 2π 8
2 d2 θ 2
L (d, θ) = (d − θ) +
1000
e comente porque esse estimador é maior do que E (θ).
6. Suponha que (x1 , . . . , xn ) é uma amostra aleatória de uma distribuição de
Poisson (1.10) com média θ e que θ segue uma distribuição a priori gama
com parâmetros conhecidos α e β.
(a) Encontre a distribuição a posteriori para θ e escrever a média a posteri-
ori como uma média ponderada da média a priori α/β e a média amostral
x̄.
(b) Mostre que a variância a posteriori é dada por
α + nx̄
V ar (θ | x) = 2.
(β + n)
Densidades preditivas e
discriminação de modelos
0
Seja y1 = (y1 , . . . , yn ) o vetor dos dados observados em uma amostra aleatória
0
de tamanho n e seja y2 = (yn+1 , . . . , ym ) um vetor de observações futuras. A
densidade preditiva para y2 dado y1 é dada por
Z
f (y2 | y1 ) = f (y2 | θ) π (θ | y1 ) dθ, (4.1)
em que
1 1 2
f (yi | θ) = √ exp − (yi − θ) ,
2πV 2V
para i = 1, . . . , n.
Vamos assumir uma distribuição normal N (m; W ) para θ, com m e W
conhecidos. Dessa forma, a distribuição a posteriori para θ dado y1 é dada
distribuição normal N (m1 ; W1 ) com m1 = W1−1 W −1 m + nV −1 ȳ ,
por uma
Pn
yi
e W1 = W −1 + nV −1 .
ȳ = i=1
n
71
72
isto é,
β1α1 Γ (α1 + 1)
f (yn+1 | y) = α1 +1 .
Γ (α1 ) (β1 + yn+1 )
Observando que Γ (α1 + 1) = α1 Γ (α1 ), temos
α1 β1α1
f (yn+1 | y) = α1 +1 ,
(β1 + yn+1 )
f (y | M1 )
B12 = . (4.6)
f (y | M2 )
f (y | θ i ) π (θ i )
π (θ i | y) = R
f (y | θ i ) π (θ i ) dθ i
(ver Geisser e Eddy, 1979, ou Geisser, 1990). Podemos discriminar dois ou mais
modelos, a partir de gráficos de dr versus r, r = 1, 2, . . . , n; maiores valores
de dr em média, indicam o melhor modelo. Como alternativa, podemos usar o
produto de CP O0 s dado por
n
Y
c (l) = dr (l)
r=1
para i = 1, 2, . . . , n.
para i = 1, 2, . . . , n.
Nota: Os valores observados de f xi | x(i) (ordenadas preditivas condi-
cionais ou CPO) podem ser usados em um diagnóstico informal. Valores baixos
de CPO devem corresponder a observações mal ajustadas.
4.6. PSEUDO-FATOR DE BAYES 77
Nota: A soma dos quadrados (ou dos valores absolutos) dos resı́duos pa-
dronizados também podem ser usados na seleção de modelos.
supM1 f (y | θ 1 , M1 )
BIC = −2 ln − 2 (p2 − p1 ) ln(n), (4.7)
supM2 f (y | θ 2 , M2 )
78
Notas (1): Para amostras grandes, Schwarz (1978) mostra que BIC é uma
boa aproximação para −2 ln B12 , em que B12 (4.5) é o fator de Bayes.
Notas (2): Carlin e Louis (2000) introduziram uma modificação na ex-
pressão do BICi , da forma
[ i = 2E [ln L (θ i | y, Mi )] − pi ln(n).
BIC (4.8)
n
yn yn
P
em que Q (θ) = limn→∞ P n ≤ θ com yn = Xi e θ = limn→∞ n (ver
i=1
demonstração em Bernardo e Smith, 1995).
Exemplo 4.4: Vamos assumir que Y é uma variável aleatória com densidade
f (y | θ) e vamos supor o teste de hipóteses H0 : θ = θ0 versus H1 : θ = θ1 , em
que θ0 e θ1 são valores especificados. Vamos supor que, baseado numa amostra
aleatória de tamanho n, dada por y = (y1 , . . . , yn ), temos a estatı́stica T =
T (y1 , . . . , yn ) apropriada ao teste com uma dada distribuição de probabilidade
amostral. Pela fórmula de Bayes (3.1), temos
P (T | H0 ) P (H0 )
P (H0 | T ) =
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )
Exemplo 4.5: Supor que Y seja uma variável aleatória com distribuição
normal N (θ; 1). Considerar as hipóteses H0 : θ = 0 e H1 : θ = 1. Assumir a
priori que P (H0 ) = P (H1 ) = 0, 5.
é, √
n n
P (T | H0 ) = √ exp − y 2
2π 2
e √
n h n
2
i
P (T | H1 ) = √ exp − (y − 1) .
2π 2
Assim,
exp − n2 y 2
P (H0 | T )
= h i
P (H1 | T ) exp − n2 (y − 1)
2
n nh io
2
= exp − y 2 − (y − 1)
h n2 i
= exp − (2y − 1) .
2
Como ilustração numérica supor que foi observado em uma amostra tamanho
n = 10 uma média amostral y = 2. Portanto,
P (H0 | T ) h n i
= exp − (2y − 1) = 3, 1 × 10−7 .
P (H1 | T ) 2
P (H0 | T ) P (T | H0 ) P (H0 )
=
P (H1 | T ) P (T | H1 ) P (H1 )
P (H0 ) P (T | H0 , θ0 )
= R
P (H1 ) P (T | H1 , θ) π (θ) dθ
82
em que π (θ) é a densidade a priori para θ sob H1 . Observar que, quando há
mais de um parâmetro, devemos integrar os parâmetros adicionais.
Exemplo 4.6: Supor que a variável aleatória Y siga uma distribuição nor-
mal N (θ; 1) e assumir o teste de hipóteses H0 : θ = 0 versus H1 : θ 6= 0.
Também supor que selecionamos uma amostra aleatória de tamanho n = 10
cuja média amostral é y = 2. Observar que T = Y é uma estatı́stica suficiente
para θ. Assumir P (H0 ) = P (H1 ) = 0, 5. Observar que Y | θ ∼ N θ; n1 .
Portanto,
n 21 n
P (T | H0 , θ = 0) = exp − ȳ 2
2π 2
e
n 21 h n i
2
P (T | H1 , θ) = exp − (ȳ − θ) .
2π 2
Assumir uma distribuição a priori normal N (1, 1) para θ sob H1 , isto é,
1 1 2
π (θ) = √ exp − (θ − 1)
2π 2
De (4.12) temos:
n
12
exp − n2 ȳ 2
P (H0 | T ) 2π
= 21 h 12 i
P (H1 | T ) R∞ n 2
exp − n2 (ȳ − θ) −
1 1
(θ − 1)
2
dθ
−∞ 2π 2π 2
1
(2π) 2 exp − n2 ȳ 2
= .
R∞ −[(θ−1)2 +n(θ−ȳ)2 ]
−∞
exp 2 dθ
Como
Z ∞
" 2 # 12
1 nȳ + 1 2π
exp − −1 θ− dθ = ,
−∞ 2 (n + 1) n+1 n+1
4.10. EXERCÍCIOS 83
temos
n
12 1
exp − n2 ȳ 2 (2π) 2
P (H0 | T ) 2π
=
P (H1 | T ) n 2
1 2π 12 h
1 (nȳ+1)2
i
2π n+1 exp − 2 nȳ + 1 + 2(n+1)
1
n 2
(n + 1) 2 exp − 2 ȳ
= h 2 2
i
exp − nȳ2 − 12 + 12 (nȳ+1)
(n+1)
( " #)
2
1 1 (nȳ + 1)
= (n + 1) 2 exp − −1 .
2 (n + 1)
Com n = 10 e ȳ = 2 temos:
P (H0 | T )
= 1, 1 × 10−8 .
P (H1 | T )
4.10 Exercı́cios
0
1. Seja y = (y1 , . . . , yn ) uma amostra aleatória da distribuição exponencial
com densidade f (y | λ) = λ exp (−λy) , y > 0, λ > 0. Considere uma
distribuição a priori conjugada para λ. Encontre:
Distribuições a Priori
Uma distribuição a priori para um parâmetro pode ser elicitada de várias formas:
85
86
Qi pi
[0; 0, 05] 0, 096
(0, 05; 0, 075] 0, 108
(0, 075; 0, 1] 0, 1233
(0, 1; 0, 325] 0, 6308
(0, 325; 0, 55] 0, 0415
(0, 55; 1] 0, 0004
A partir daı́, escolhemos h (θ) tal que a integral em (5.1) leve a uma boa
aproximação para pT (t) (isto nem sempre é um problema simples).
5.2. MÉTODO PREDITIVO DE ELICITAÇÃO 87
5
4
3
2
1
0
(a) m = 1, e
(b) m = 2.
bp1 p2 (1 − p1 )
a= e b= .
1 − p1 2p1 (1 − p1 ) − p2
Observar que uma limitação do método é que ele necessariamente exige que
2p1 (1 − p1 ) > p2 .
1
π (θi ) = ,
k
em que i = 1, 2, . . . , k. Observar que na situação em que θ é representado por
uma variável contı́nua, o uso de distribuições a priori uniformes para θ pode
levar a distribuições a priori não-uniformes para transformações ψ = ψ (θ) de θ.
Neste caso, se π (θ) é uma distribuição a priori para θ, então,
dθ
π (ψ) = π [θ (ψ)] .
dψ
para θ é dada pela distribuição uniforme contı́nua (1.11) no intervalo (0, 1), isto
é, π (θ) = 1, 0 < θ < 1.
θ
Considerando a reparametrização ψ = ln 1−θ , ψ segue uma distribuição
logı́stica padronizada (o parâmetro de locação é igual a zero e o parâmetro de
escala é igual a um), isto é,
exp (ψ)
π (ψ) = 2
[1 + exp (ψ)]
em que −∞ < ψ < ∞. Vamos agora supor uma distribuição a priori uniforme
para ψ (priori imprópria). Isso corresponde à uma distribuição a priori para θ
dada por
−1
π (θ) ∝ θ−1 (1 − θ)
para 0 < θ < 1, que é o núcleo de uma distribuição beta (a, b) com a = b = 0
(priori imprópria).
ou seja,
dθ 1
= I − 2 [θ (ψ)] . (5.5)
dψ
Como nessa parametrização ψ, a função de verossimilhança só muda em
locação para amostras diferentes de mesmo tamanho, uma distribuição a priori
não-informativa para ψ é dada por uma distribuição localmente uniforme, isto
é,
πψ (ψ) ∝ constante.
Isso implica que na parametrização θ, a priori não-informativa correspon-
dente é dada por
dψ
πθ (θ) = πψ [θ (ψ)]
dθ
dψ
∝ constante .
dθ
1
De (5.5), observar que dψdθ = I (θ), o que leva a uma distribuiçãopriori
2
1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 91
Nota: Observar que a informação de Fisher (5.3) também pode ser dada na
forma 2
d ln f (y | θ)
I (θ) = E − .
dθ2
isto é,
1
π (θ) ∝1 , θ > 0. (5.7)
θ2
Combinando-se (5.6) com (5.7) , encontramos a distribuição a posteriori para
θ dada por
π (θ | y) ∝ θ(nȳ+ 2 )−1 exp (−nθ) ,
1
ou seja,
1
θ | y ∼ Gama nȳ + , n .
2
Um estimador de Bayes com respeito à função perda quadrática para θ é
dado por
nȳ + 21 1
θ̃ = E (θ | y) = = ȳ + .
n 2n
Observar que o EMV (estimador de máxima verossimilhança) para θ é dado
por θ̂ = Y .
Exemplo 5.7: Vamos assumir que Y é uma variável aleatória com densi-
dade exponencial f (y | λ) = λ exp (−λy) , y > 0. Assumiremos uma amostra
aleatória de tamanho n dada por y = (y1 , . . . , yn ). A função de verossimilhança
para λ é dada por
n n
!
Y X
n
L (λ) = λ exp (−λyi ) = λ exp −λ yi .
i=1 i=1
em que
∂ (θ1 , . . . θk )
A= .
∂ (φ1 , . . . φk )
Portanto,
2
|In (φ)| = |A| |In (θ)| ,
94
0
Exemplo 5.8: Sejam y = (y1 , . . . , yn ) observações de uma a. a. de
2
tamanho
n da distribuição normal com média µ e variância σ . Assim, θ =
2 0
µ, σ . A função de verossimilhança para θ é dada por
" n
#
n
2 −2 1 X 2
L (θ) = f (y | θ) ∝ σ exp − 2 (yi − µ) .
2σ i=1
n
n 1 X 2
ln σ 2 − 2
l (θ) = ln L (θ) ∝ − (yi − µ) ,
2 2σ i=1
∂ 2 l (θ) 1
= − n,
∂µ2 σ2
n
∂ 2 l (θ) n 2 X 2
2 = 2 − 3 (yi − µ) e
∂ (σ 2 ) 2 (σ 2 ) 2 (σ 2 ) i=1
n
∂ 2 l (θ) 1 X
= − 2 (yi − µ)
∂µ∂ (σ 2 ) (σ 2 ) i=1
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 95
2
Como E (Yi ) = µ e E (Yi − µ) = σ 2 , observamos que
2
∂ l (θ) n
E − 2
= ,
∂µ σ2
!
∂ 2 l (θ) n
E − 2 = 4
e
∂ (σ )2 2σ
∂ 2 l (θ)
E − = 0.
∂µ∂ (σ 2 )
1
π µ, σ 2 ∝ 2
σ
para −∞ < µ < ∞ e σ 2 > 0. A distribuição a posteriori conjunta para µ e σ 2
é dada por
" n
#
2
(n+3)
2 − 2 1 X 2
π µ, σ | y ∝ σ exp − 2 (yi − µ) .
2σ i=1
Esse conceito pode ser utilizado para encontrar uma distribuição a priori
não-informativa para θ.
De
∂E ∗ [h (θ)]
= 0,
∂pi
i = 1, . . . , k temos o sistema de equações
− ln pi − 1 + λ = 0
5.4 Exercı́cios
1. Seja X = (X1 , . . . , Xn ) uma amostra aleatória de uma distribuição normal
N µ, σ 2 .
(a) Assumindo σ conhecido, encontre uma distribuição a priori não-informativa
de Jeffreys para µ.
(b) Assumindo µ conhecido, encontre uma distribuição a priori priori não-
informativa de Jeffreys para σ.
(c) Com µ e σ desconhecidos, encontre a distribuição a priori a priori de
Jeffreys para µ e σ.
5.4. EXERCÍCIOS 97
Aproximações Numéricas e
Métodos de Monte Carlo
0
em que g (θ) é uma função de interesse, θ = (θ1 , . . . , θk ) é o vetor de parâmetros
0
e y = (y1 , . . . , yn ) é o vetor de dados. Como a distribuição a posteriori para θ
é dada por
f (y | θ) π (θ)
π (θ | y) = R ,
f (y | θ) π (θ) dθ
em que f (y | θ) é a função de verossimilhança para θ e π (θ) é uma distribuição
a priori para θ, podemos escrever (6.1) na forma
R
g (θ) f (y | θ) π (θ) dθ
E [g (θ) | y] = R . (6.2)
f (y | θ) π (θ) dθ
Vamos supor que g (θ) é uma função positiva. Podemos reescrever (6.2) na
forma
exp [−nh∗ (θ)] dθ
R
E [g (θ) | y] = R ,
exp [−nh (θ)] dθ
99
100
em que
−nh (θ) = ln π (θ) + ln f (y | θ)
e
−nh∗ (θ) = ln g (θ) + ln π (θ) + ln f (y | θ) .
e
h 00 ∗ i− 21
σ̂ ∗ = h∗ θ̂ ,
e Z √ 1
h i
˜ 2πσ̂n− 2 exp −nh θ̂
exp [−nh (θ)] dθ = (6.4)
˜ Ê [g (θ) | y] 1 + o n−2 ,
E [g (θ) | y] =
0
Caso Multiparamétrico: Seja θ = (θ1 , . . . , θk ) , em que θ ∈ Rk . Neste
caso, a aproximação de Laplace é dada por,
Z
k
− 12 h i
˜ (2π) 2 n 52 h θ̂ exp −nh θ̂ ,
exp [−nh (θ)] dθ = (6.6)
6.1. APROXIMAÇÃO DE LAPLACE 101
e ∗ − 12
σ̂ ∗ = n 52 h∗ θ̂ ,
∗
em que θ̂ maximiza −h (θ) e θ̂ maximiza −h (θ ∗ ), encontramos a aproximação
de Laplace,
∗
σ̂ n h ∗ io
E [g\
(θ) | y]=
˜ exp −n h∗ θ̂ − h θ̂ .
σ̂
Neste caso, observamos que a média a posteriori para θ é dada, em sua forma
exata, por
y + 12
E (θ | y) = .
n+1
Como ilustração numérica, vamos considerar a aproximação de Laplace para
a média a posteriori para θ. Observar que (ver 6.1)
R1 1 n−y− 12
0
θy+ 2 (1 − θ) dθ
E (θ | y) = R1 1 n−y− 21
. (6.7)
0
θy− 2 (1 − θ) dθ
em que
−nh (θ) = a ln θ + b ln (1 − θ) .
0
De −h (θ) = 0, o máximo de −h (θ) é dado por
a
θ̂ = .
(a + b)
102
Pn Pn
em que nȳ1 = i=1 y1i e nȳ2 = i=1 y2i .
e
n∂ 2 h
− | = 0.
∂λ∂φ (φ̂,λ̂)
Portanto, a matriz hessiana (ver (6.6)) é dada por
a3
!
(nȳ1 )2
0
n∇2 h φ̂, λ̂ = b3
,
0 (nȳ2 )2
isto é,
n h io− 12 (nȳ1 ) (nȳ2 )
det n∇2 h φ̂, λ̂ = 3 3 .
a2 b2
Em adição, temos
h i aa bb
exp −nh φ̂, λ̂ = a b
exp (−a − b) .
(nȳ1 ) (nȳ2 )
Assim, a aproximação de Laplace (ver (6.6)) para (6.10) é dada por
3 3
2πaa− 2 bb− 2 exp [− (a + b)]
Z Z
nȳ1 nȳ2
φ−a λ−b exp − − dφdλ=
˜ . (6.11)
φ λ na+b−2 ȳ1a−1 ȳ2b−1
Dessa forma, usando a expressão (6.11) no numerador e denominador de
(6.9) encontramos
\
n− 3 n+ 1
φ n 2 (n + 2) 2 ȳ1
E |y =˜ 2n−1 .
λ (n + 1) ȳ2
Observar que o resultado exato para esse caso é dado por
φ n ȳ1
E |y = .
λ n − 1 ȳ2
104
em que y e θ podem ser vetores. Pelo método de Monte Carlo ordinário, vamos
simular uma amostra θ1 , . . . , θn da distribuição a posteriori π (θ | y). Assim, a
expressão (6.12) é aproximada por
n
1X
Ê [g (θ) | y] = g (θi ) .
n i=1
Observar que, pela lei forte dos grandes números, Ê [g (θ) | y] converge quase
certamente para E [g (θ) | y]. A precisão dessa aproximação pode ser medida
pelo erro padrão de Monte Carlo, dado por
n
" n
#2 21
1 X 1 X
p g (θi ) − g (θi ) .
n (n − 1) i=1 n i=1
(1−α) (1+α)
cujos extremos definem quantis de probabilidade a posteriori 2 e 2 de
θ. Assim,
h i 1−α
P θ ≤ θ (1−α) | y =
2 2
e
h i 1−α 1+α
P θ ≤ θ (1+α) | y = 1 − = .
2 2 2
(6.12) na forma
R
g (θ) f (y | θ) π (θ) dθ
Z
g (θ) π (θ | y) dθ = R
f (y | θ) π (θ) dθ
g (θ) f (y|θ)π(θ)
R
p(θ) p (θ) dθ
= R f (y|θ)π(θ)
p(θ) p (θ) dθ
R
g (θ) w (θ) p (θ) dθ
= R ,
w (θ) p (θ) dθ
em que
f (y | θ) π (θ)
w (θ) = ,
p (θ)
f (y | θ) é a função de verossimilhança para θ e π (θ) é a distribuição a priori
para θ. Obtendo uma amostra θ1 , . . . , θn de p (θ), encontramos a aproximação
de Monte Carlo para E [g (θ) | y] dada por
n
1 X
E [g\
(θ) | y] = Pn wi g (θi ) , (6.13)
i=1 wi i=1
em que
f (y | θi ) π (θi )
wi = .
p (θi )
Nota: Observar que o método de amostragem via função de importância
atribui mais peso à regiões em que p (θ) < π (θ | y) e menos peso às regiões em
que p (θ) > π (θ | y). Geweke (1989) mostra que se o suporte de p (θ) inclui
suporte
R de π (θ | y), os θi , i = 1, . . . , n são os elementos de uma a. a. de p (θ) e
se g (θ) π (θ | y) dθ existe e é finito, então,
n Z
1 X
Pn wi g (θi ) → g (θ) π (θ | y) dθ.
i=1 wi i=1
q.c.
L (θ) = ln [π (θ | y)]
∝ y1 ln (2 + θ) + (y2 + y3 + b − 1) ln (1 − θ) + (y4 + a − 1) ln (θ) .
y1 y4 + a − 1 (y2 + y3 + b − 1)
L0 (θ) = + −
2+θ θ 1−θ
e
y1 (y2 + y3 + b − 1)
y4 + a − 1
−L00 (θ) = 2 + 2 . +
(2 + θ) (1 − θ) θ2
h i−1
Seja θ̂ o valor total que L0 θ̂ = 0 e σ 2 = −L00 θ̂ . Vamos assumir
esses valores como aproximações para a média e para a variância da distribuição
importância. São possı́veis candidatas as distribuições normal (1.12) e beta
(1.17). Vamos então seguir o seguinte roteiro:
considerando:
6.3. MÉTODO DE MONTE CARLO POR IMPORTÂNCIA 107
π (θ | y) = cH (θ) (6.14)
em que
h i−1
2
H (θ) = 105 1 + (11, 4 − θ) ×
h i−1 h i−1
2 2
× 1 + (7, 3 − θ) 1 + (9, 8 − θ) ×
h i−1 h i−1
2 2
× 1 + (13, 7 − θ) 1 + (10, 6 − θ)
e Z ∞
−1
c = H (θ) dθ.
−∞
em que
H(θi )
p(θi )
wi = P1000
H(θm )
,
i=1
p(θm )
Assim, encontramos E\
(θ | y)=10,
˜ 620.
108
em que
n
X n
X
nȳ1 = y1i e nȳ2 = y2i .
i=1 i=1
6.4. ALGORITMO SIR 109
φ
(c) Considerando a reparametrização ψ = λ e φ = φ, encontrar a priori de
Jefreys para ψ e φ.
Soluções:
(b) Seja
φ
E (ψ | ȳ) = E | ȳ =
λ
R ∞ R ∞ −n −(n+2)
nȳ1 nȳ2
0 0
φ λ exp − φ − λ dφdλ
= R∞R∞ .
φ −(n+1) λ−(n+1) exp − nȳ1 − nȳ2 dφdλ
0 0 φ λ
Z Z
−a −b nȳ1 nȳ2
I1 = φ λ exp − − dφdλ
φ λ
Z Z
= exp [−nh (φ, λ)] dφdλ,
em que
nȳ1 nȳ2
−nh (φ, λ) = −a log (φ) − b log (λ) − − .
φ λ
Pelo método de Laplace, temos:
h i− 12 h i
I1 u (2π) det nD2 h φ̂, λ̂ exp −nh φ̂, λ̂ ,
n∂ 2 h (φ, λ) a 2nȳ1
− = − 3
∂φ2 φ 2 φ
2
n∂ h (φ, λ) b 2nȳ2
− = − 3
∂λ2 λ2 λ
2
n∂ h (φ, λ)
− = 0
∂φ∂λ
n∂ 2 h (φ, λ) a3
= 2 e
∂φ2
(λ̂,φ̂) n (nȳ1 )
n∂ 2 h (φ, λ) b3
= 2.
∂λ2
(λ̂,φ̂) n (nȳ2 )
Assim,
a3
!
2
n(nȳ1 )2
0
nD h φ̂, λ̂ = b3
,
0 n(nȳ2 )2
isto é,
n h io− 12 (nȳ1 ) (nȳ2 )
det nD2 h φ̂, λ̂ = 3 3
a2 b2
e i nȳ −a nȳ −b
h
1 2 nȳ1 a nȳ2 b
exp −nh φ̂, λ̂ = exp − − .
a b nȳ1 nȳ2
Note que
h i aa bb
exp −nh φ̂, λ̂ = a b
exp (−a − b) .
(nȳ1 ) (nȳ2 )
Concluı́mos, finalmente, que
3 3
2πaa− 2 bb− 2 exp [− (a + b)]
I1 u .
na+b−2 ȳ1a−1 ȳ2b−1
Observar que, com a = n, b = n + 2 no numerador de I1 , e com a = n + 1 e
b = n + 1 no denominador de I1 , temos
3 n+ 1
nn− 2 (n + 2) 2 ȳ1
φ
E y u 2n−1 .
λ (n + 1) ȳ2
ψ n−1
exp −nφ−1 (ȳ1 + ȳ2 ψ) , ψ > 0, φ > 0.
π (ψ, φ | y) ∝
φ2n−1
(d) A média a posteriori para ψ é dada por
R ∞ R ∞ n −(2n+1)
exp −nφ−1 (ȳ1 + ȳ2 ψ) dψdφ
0 0
ψ φ
E (ψ | y) = R ∞ R ∞ n−1 −(2n+1) .
0 0
ψ φ exp [−nφ−1 (ȳ1 + ȳ2 ψ)] dψdφ
6.5 Exercı́cios
1. Seja y1 , . . . , yn uma amostra aleatória de tamanho n de uma distribuição
exponencial com média θ, ou seja, f (y | θ) ∝ θ−1 exp − yθ . Assuma
Vamos supor que temos interesse em gerar uma amostra de uma distribuição
a posteriori π (θ | y), θ ∈ Rk , mas não podemos fazer isso diretamente. En-
tretanto, podemos construir uma cadeia de Markov com espaço de estados no
espaço paramétrico Θ (conjunto de todos valores possı́veis de θ), o que é simples
para simular, e cuja distribuição de equilı́brio é dada por π (θ | y). Se temos
muitas simulações dessa cadeia, os valores simulados podem ser usados como
uma base para sumarizar caracterı́sticas da distribuição a posteriori π (θ | y).
Lembrar que uma cadeia de Markov é um processo estocástico em que os estados
futuros são independentes dos estados passados, dado o estado presente.
113
114
observamos que
t
1 X (i) qc
g θ → E [g (θ | y)]
t i=1
qc
(nesta expressão, a notação → denota convergência quase certa). Na prática,
θ (i) pode estar correlacionado, mas poderı́amos considerar espaços adequados
entre os θ (i) gerados para garantir uma amostra aleatória de π (θ | y).
(1)
Então, substituı́mos os valores iniciais com uma nova realização θ (1) = (θ1 ,
(1) (1)
θ2 , . . . , θk )0 de θ e repetimos o processo acima. Para um t suficientemente
(t) (t) (t)
grande, observar que o valor θ1 , θ2 , . . . , θk converge para um valor da quan-
tidade aleatória com distribuição π (θ | y) (ver Geman e Geman, 1984). Além
(t)
disso, θj pode ser considerado como uma observação simulada da distribuição
a posteriori marginal π (θj | y), j = 1, 2, . . . , k.
B
1 X g
π\
(θj | y) = π θj | θ (j) , y ,
B g=1
em que j = 1, . . . , k.
que é a variância entre as médias das m sequências ūi. , cada uma baseada
em n valores de uij .
(d) Estimar a média de U como uma média amostral de todos os nm valores
simulados de U , isto é,
m
1 X
µ̂ = ū.. = ūi.
m i=1
Observar que esta razão (dada na expressão 7.1) decresce para 1 quando
n → ∞. Valores R̂=1 ˜ sugerem que o perı́odo de aquecimento é suficiente e o
processo iterativo continua.
i ti xi i ti xi i ti xi
1 9 9 11 1 71 21 11 116
2 12 21 12 6 77 22 33 149
3 11 32 13 1 78 23 1 150
4 4 36 14 9 87 24 97 247
5 7 43 15 4 91 25 2 249
6 2 45 16 1 92 26 1 250
7 5 50 17 3 95
8 8 58 18 3 98
9 5 63 19 6 104
10 7 70 20 1 105
Assumimos que o teste termina quando encontramos n erros, isto é, temos
uma amostra aleatória de tamanho n para os tempos entre falhas ti , i = 1, . . . , n.
Λn+a−1 A (N ) θN
π (Λ, N | t) ∝ × (7.4)
(N !" n
# )
X
× exp − b + (N − n) xn + xi Λ
i=1
em que Λ > 0 e N = n, n + 1, n + 2, . . ..
SET C1 (Xi)
9 21 32 36 43 45 50 58 63 70 71 77 78 87
91 92 95 98 104 105 116 149 156 247 249 250
END
LET K1=3 (N’ inicial)
LET K2=0,01 (Lambda inicial)
SUM C1 K3
STORE ’a’
LET K4=1/(20+250*k1+k3)
RANDOM 3 C2;
GAMMA 26,2 K4.
LET K2=C2 (2)
LET K5=30*EXPONENTIAL(-250*K2)
RANDOM 3 C3;
POISSON K5.
LET K1=C3 (2)
STACK C10 K1 C10
STACK C11 K2 C11
END
EXEC ’a’ 1000
model
{
for(i in 1:n)
{
t[i] ~ dexp(lambda[i])
lambda[i] <- lambda0 * (N-i+1)
}
lambda0 ~ dgamma(0.2,20)
N ~ dpois(30)
}
# Dados
list(t=c(9,12,11,4,7,2,5,8,5,7,1,6,1,9,4,1,3,3,6,1,11,33,7,91,
2,1), n=26)
# Valores iniciais
list(lambda0=0.01,N=29) # Cadeia 1
list(lambda0=0.02,N=28) # Cadeia 2
list(lambda0=0.03,N=29) # Cadeia 3
list(lambda0=0.01,N=28) # Cadeia 4
list(lambda0=0.02,N=30) # Cadeia 5
A Figura 7.1 mostra os gráficos das séries temporais das amostras de Gibbs
simuladas para lambda0 (Λ) e N , gerados pelo programa OpenBUGS. Observa-
mos que o algoritmo converge para séries estacionárias. Também apresentamos,
na Figura 7.1, os gráficos das autocorrelações das amostras de Gibbs simuladas
para Λ e N ; os gráficos das distribuições a posteriori marginais aproximadas
para lambda0 (Λ) e N e os gráficos dos ı́ndices de Gelman e Rubin para as
amostras de Gibbs simuladas para lambda0 (Λ) e N ; observa-se convergência
das séries pois os fatores de redução de Gelman e Rubin se estabilizam em torno
do valor um.
y X1 X2 X3
0,10 0,08 0,40 0,75
0,65 0,17 0,40 1,02
0,30 0,08 0,38 1,09
0,30 0,30 0,50 1,35
0,28 0,05 0,52 1,20
0,78 0,18 0,32 2,20
0,28 0,09 0,45 2,95
0,45 0,45 0,65 2,50
∼ N 0; a20
α
∼ N 0; a21
β1
∼ N 0; a22
β2
∼ N 0; a23
β3
σ2 ∼ GI (b, d) (7.8)
124
α2
−(b+1) d
π (θ | x, y) ∝ σ 2 exp − 2 exp − 2 ×
σ 2a0
β12 β22 β2
× exp − 2 exp − 2 exp − 32 ×
2a1 2a2 2a3
n
!
− n 1 X 2
× σ 2 2 exp − 2 , (7.10)
2σ i=1 i
0
em que y = (y1 , . . . , yn ) , x denota o vetor das covariáveis e i é dado em (7.9).
" n
!#
2
2 −(b+ 2 +1)
n 1 1X 2
(i) π σ | α, β1 , β2 , β3 , x, y ∝ σ exp − 2 d+
σ 2 i=1 i
em que
i = yi − α − β1 x1i − β2 x2i − β3 x3i , i = 1, . . . , n
" n
#
α2
2
1 X (0)
(ii) π α | β1 , β2 , β3 , σ 2 , X, y ∝ exp − 2
exp − 2 α − µi
2a0 2σ i=1
em que
(0)
µi = yi − β1 x1i − β2 x2i − β3 x3i , i = 1, . . . , n
7.1. O AMOSTRADOR DE GIBBS 125
" n
#
βl2
2
1 X (l)
(iii) π βl | θ (βl ) , x, y ∝ exp − 2 exp − 2 βl xli − µi
2al 2σ i=1
em que
3
(l)
X
µi = yi − α − βj xji , i = 1, . . . , n; l = 1, 2, 3
j=1;j6=l
para l = 1, 2, 3.
Para análise dos dados da Tabela (7.3), vamos assumir a20 = a21 = a22 = a23 =
6
10 , isto é, distribuições a priori não informativas para α, β1 , β2 e β3 . Também
assumir b = d = 1. Para iniciar o amostrador de Gibbs, assumir os valores
(0) (0) (0) 1
iniciais α(0) = 0, β1 = β2 = β3 = 0 e τ (0) = σ(0) 2 = 1. Então, geramos
model
{
for (i in 1:N)
{
y[i] ~ dnorm(mu[i],tau)
mu[i] <- alpha + beta[1]*x1[i] + beta[2]*x2[i] + beta[3] * x3[i]
}
# Distribuicoes a priori:
tau ~ dgamma(1,1)
sigma <- 1/sqrt(tau)
alpha ~ dnorm(0,1.0E-6)
beta[1] ~ dnorm(0,1.0E-6)
126
beta[2] ~ dnorm(0,1.0E-6)
beta[3] ~ dnorm(0,1.0E-6)
}
# Valores iniciais
list(tau=1,alpha=0,beta=c(0,0,0))
# Dados:
list(y=c(0.10,0.65,0.30,0.30,0.28,0.78,0.28,0.45),
x1=c(0.08,0.17,0.08,0.30,0.05,0.18,0.09,0.45),
x2=c(0.40,0.40,0.38,0.50,0.52,0.32,0.45,0.65),
x3=c(0.75,1.02,1.09,1.35,1.20,2.20,2.95,2.50), N=8)
Observar que:
(a) O algoritmo de Metropolis Hastings é especificado pela densidade can-
didata para geração q (x, y) ;
(b) Se um valor candidato é rejeitado, o valor atual é considerado na próxima
etapa;
(c) O cálculo de p em (7.11) não depende da constante normalizadora;
(d) Se a densidade candidata para geração das amostras é simétrica, isto é,
q (x, y) = q (y, x), a probabilidade de movimento se reduz a pp(β) . Assim, se
(j) [θ(j) ]
p (β) > p θ , a cadeia se move para β; em caso contrário, ela se move para β
com probabilidade pp(β) . Em outras palavras, um salto na direção “ascendente”
[θ(j) ]
é sempre aceito, enquanto um salto na direção “descendente” é aceito com uma
dada probabilidade.
7.2. ALGORITMO DE METROPOLIS-HASTINGS 129
exp (−λi ) λm
i
i
P (Mi = mi ) = ,
mi !
em que mi = 0, 1, 2, . . ..
n
!
X
L (λa , k1 ) ∝ λda1 k1d2 exp −λa k1i ,
i=1
Pn Pn
em que d1 = i=1 mi e d2 = i=1 i × mi . Assumindo independência a priori
entre λa e k1 , vamos considerar as seguintes distribuições a priori:
λa ∼ Gama (b1 , b2 ) e
k1 ∼ Beta (e1 , e2 ) , (7.12)
7.2. ALGORITMO DE METROPOLIS-HASTINGS 131
em que !
n
X
ψ (λa , k1 ) = exp d2 ln k1 − λa k1i .
i=1
(s) (s−1)
em outro caso, fazer k1 = k1 . Após uma análise preliminar dos dados
(observar que os estimadores de máxima verossimilhança para λa e k1 são dados,
respectivamente, por λ̂a = 18, 8849 e k̂ = 0, 88285) considerar os valores dos
hiperparâmetros para as distribuições a priori (7.12) dadas por b1 = 16; b2 =
0, 8; e1 = 2, 5 e e2 = 0, 6. Observar que
b1 b1
E(λa ) = = 20, V ar(λa ) = = 25,
b2 b22
e1
E(k1 ) = = 0, 8,
e1 + e2
132
e
e1 e2
V ar (k1 ) = 2 = 0, 04.
(e1 + e2 ) (e1 + e2 + 1)
Vamos então usar as distribuições condicionais (7.14) para gerar amostras
da distribuição a posteriori (7.13). Alternativamente, podemos usar o software
OpenBUGS:
model
{ for(i in 1:N)
{ m[i] ~ dpois(lambda[i])
lambda[i] <- lambda0 * pow(k1,i) }
lambda.a ~ dgamma(16,0.8)
k1 ~ dbeta(2.5,0.6)
}
list(m=c(27,16,11,10,11,7,2,5,3,1,4,7,2,5,5,6,0,5,1,1,2,1,2,1,
1),N=25)
Exemplo 7.4 (Regressão logı́stica): Uma droga muito usada para tratar
certos tipos de câncer (droga adriamicina) pode apresentar problemas de toxi-
dade. Alguns pacientes recebendo essa droga apresentam falha coronária con-
gestiva (CHF) e outros pacientes não apresentam. Com intuito de verificar se
alguns fatores especı́ficos podem aumentar o risco de desenvolver CHF, duas co-
variáveis foram consideradas no estudo: X1∗ representando a dose total da droga
e X2∗ representando o percentual de decréscimo da voltagem eletrocardiográfica
QRS. Na Tabela 7.7 temos os dados de um estudo considerando 53 pacientes
(dados em Lee 1980, pág. 359) em que yi é a resposta CHF (1 =sim; 0 =não)
∗
e as duas covariáveis são dadas numa escala transformada: X1i = X1i − X̄1∗ e
∗ ∗
X2i = X2i − X̄2 , i = 1, . . . , 53.
Neste caso, temos uma variável aleatória y binária (CHF) com distribuição
de Bernoulli com função de probabilidade,
1−yi
P (Yi = yi ) = pyi i (1 − pi ) (7.15)
para i = 1, 2, . . . , n.
αl ∼ N al , b2l ,
(7.19)
Como uma análise preliminar dos dados e também para obtermos informações
empı́ricas para os hiperparâmetros das distribuições a priori para αl , l = 0, 1, 2
dada em (7.19), considerar uma análise frequentista do modelo de regressão
logı́stica definido por (7.15) e (7.16) usando o software MINITAB.
Para uma análise bayesiana dos dados da Tabela 7.7, vamos assumir os
seguintes valores para os hiperparâmetros das distribuições a priori (7.19) para
α0 , α1 e α2 : a0 = −3, b20 = 1, a1 = −0, 009, b21 = 0, 01, a2 = 0, 23 e b22 = 1
(lembrar que a variância da distribuição normal usando o software OpenBUGS
é invertida).
model
{
for(i in 1:N)
{ y[i] ~ dbin(p[i],N)
logit(p[i]) <- alpha0 + alpha1*x1[i]+alpha2*x2[i] }
alpha0 ~ dnorm(-3,1)
alpha1 ~ dnorm(-0.009,100)
alpha2 ~ dnorm(0.23,1)
}
# Dados
list(y=c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
x1=c(-82.6792,82.3208,82.3208,22.3208,-7.6792,222.3208,307.3208,
17.3208,-7.6792,-34.6792,-57.6792,-57.6792,32.3208,22.3208,
-207.6792,-17.6792,-117.6792,-77.6792,82.3208,-7.6792,-107.6792,
22.3208,57.3208,46.3208,-67.6792,52.3208,-37.6792,67.3208,
-97.6792,-47.6792,22.3208,67.3208,82.3208,52.3208,52.3208,
-7.6792,-47.6792,-112.6792,57.3208,22.3208,-17.6792,-67.6792,
2.3208,-22.6792,67.3208,-67.6792,-67.6792,-17.6792,22.3208,
-77.6792,-37.6792,32.3208,-17.6792),
x2=c(41,71,51,40,63,79,61,44,53,27,53,60,65,58,41,64,44,9,42,19,
24,-24,39,35,10,6,6,21,14,1,33,33,4,2,5,12,-1,44,14,-10,-43,23,
-1,29,40,30,23,12,-11,7,-22,20,19),N=53)
[1] 0.5013
Exemplo 7.6: No exemplo anterior, cada valor simulado foi gerado inde-
pendentemente de uma mesma distribuição Beta(3,3).
M Z
1 X
g(θ(i) ) → g(θ)p(θ)dθ
M i=1
7.4 Exercı́cios
1. Sejam os dados de economia informal, considerando oito firmas. Sejam
as variáveis: y = ı́ndice de funcionários registrados, x1 = ı́ndice de fun-
cionários com segundo grau completo, x2 = ı́ndice de funcionários do sexo
feminino, e x3 = capital da firma (em $1000000,00). Os dados são apre-
sentados a seguir.
F irma 1 2 3 4 5 6 7 8
y 0, 10 0, 65 0, 30 0, 30 0, 28 0, 78 0, 28 0, 45
x1 0, 08 0, 17 0, 08 0, 30 0, 05 0, 18 0, 09 0, 45
x2 0, 40 0, 40 0, 38 0, 50 0, 52 0, 32 0, 45 0, 65
x3 0, 75 1, 02 1, 09 1, 35 1, 20 2, 20 2, 95 2, 50
model
{
for(i in 1:N)
{
y[i] ~ dnorm(mu[i], tau)
mu[i] <- alpha + beta1*x1[i] + beta2*x2[i] + beta3*x3[i]
}
alpha ~ dnorm(0,1.0E-6)
beta1 ~ dnorm(0,1.0E-6)
beta2 ~ dnorm(0,1.0E-6)
beta3 ~ dnorm(0,1.0E-6)
tau ~ dgamma(1,1)
}
# Dados
list(y=c(0.10,0.65,0.30,0.30,0.28,0.78,0.28,0.45),
x1=c(0.08,0.17,0.08,0.30,0.05,0.18,0.09,0.45),
x2=c(0.40,0.40,0.38,0.50,0.52,0.32,0.45,0.65),
x3=c(0.75,1.02,1.09,1.35,1.20,2.20,2.95,2.50), N=8)
# Valores iniciais
list(alpha=1, beta1=0, beta2=0, beta3=0, tau=1)
Ano
1990 1991 1992
y x1 x2 x3 y x1 x2 x3 y x1 x2 x3
0, 06 0, 02 0, 36 0, 98 0, 12 0, 07 0, 42 0, 85 0, 10 0, 08 0, 40 0, 75
0, 65 0, 12 0, 45 1, 32 0, 72 0, 15 0, 38 1, 42 0, 65 0, 17 0, 40 1, 02
0, 25 0, 07 0, 38 1, 84 0, 32 0, 10 0, 42 1, 86 0, 30 0, 08 0, 38 1, 09
0, 32 0, 32 0, 49 1, 26 0, 26 0, 35 0, 53 1, 32 0, 30 0, 30 0, 50 1, 35
0, 28 0, 02 0, 51 0, 85 0, 25 0, 01 0, 55 0, 92 0, 28 0, 05 0, 52 1, 20
0, 67 0, 18 0, 28 2, 34 0, 83 0, 15 0, 30 2, 45 0, 78 0, 18 0, 32 2, 20
0, 25 0, 08 0, 36 3, 20 0, 32 0, 09 0, 30 2, 86 0, 28 0, 09 0, 45 2, 95
0, 37 0, 25 0, 38 1, 96 0, 42 0, 32 0, 32 2, 65 0, 45 0, 45 0, 65 2, 50
em que εij são variáveis aleatórias independentes com média zero e variância σ 2
para i = 1, . . . , 8; j = 1, 2, 3 (tempos), e assuma diferentes distribuições a priori
para os parâmetros. Em cada caso, assuma cinco cadeias paralelas e verifique
a convergência do algoritmo Gibbs sampling. Como sugestão, usar o software
OpenBUGS.
model {
for(i in 1:N) {
for(j in 1:T) {
y[i,j] ~ dnorm(mu[i,j], tau.c)
mu[i,j] <- alpha[i] + tau[j] + gamma[i,j] + beta0 +
beta1*x1[i,j] + beta2*x2[i,j] + beta3*x3[i,j] }}
tau.gamma ~ dgamma(1,1)
tau.c ~ dgamma(1,1)
beta0 ~ dnorm(0,1.0E-6)
beta1 ~ dnorm(0,1.0E-6)
beta2 ~ dnorm(0,1.0E-6)
beta3 ~ dnorm(0,1.0E-6)
tau.alpha ~ dgamma(1,1)
tau.beta ~ dgamma(1,1)
}
# Dados
list(y=structure(.Data = c(0.06,0.12,0.1,0.65,0.72,0.65,0.25,
0.32,0.3,0.32,0.26,0.3,0.28,0.25,0.28,0.67,0.83,0.78,0.25,0.32,
0.28,0.37,0.42,0.45),.Dim=c(8,3)),
x1=structure(.Data = c(0.02,0.07,0.08,0.12,0.15,0.17,0.07,0.1,
0.08,0.32,0.35,0.3,0.02,0.01,0.05,0.18,0.15,0.18,0.08,0.09,0.09,
0.25,0.32,0.45),.Dim=c(8,3)),
x2=structure(.Data = c(0.36,0.42,0.4,0.45,0.38,0.4,0.38,0.42,0.38,
0.49,0.53,0.5,0.51,0.55,0.52,0.28,0.3,0.32,0.36,0.3,0.45,0.38,
0.32,0.65),.Dim=c(8,3)),
x3=structure(.Data = c(0.98,0.85,0.75,1.32,1.42,1.02,1.84,1.86,
1.09,1.26,1.32,1.35,0.85,0.92,1.2,2.34,2.45,2.2,3.2,2.86,2.95,
1.96,2.65,2.5),.Dim=c(8,3)),
N=8,T=3)
# Valores iniciais
list(tau.c=1, alpha=c(0,0,0,0,0,0,0,0), beta0=0, beta1=0,
142
Algumas aplicações
143
144
π (θ, δ | y) ∝ f (y | θ) π1 (θ | δ) π2 (δ) .
Assim, " #
n
X n
Y
π (θ, δ | y) ∝ δ n−1
exp − (δ + 1) θi θiyi .
i=1 i=1
As distribuições condicionais necessárias para o amostrador de Gibbs são
dadas por:
n
!
X
(i) δ | θ, y ∼ Gama n, θi
i=1
(ii) θi | δ, θ (i) , y ∼ Gama (yi + 1, δ + 1)
yi | θi ∼ N θi , σ12
para i = 1, . . . , n.
π µ, σ22 ∝ π2 σ22 ,
em que π2 σ22 é uma distribuição a priori para σ22 . Dessa forma, a distribuição
a posteriori para θ1 , . . . , θn , µ, σ22 é dada por:
( n )
Y 1 1 2
π θ1 , . . . , θn , µ, σ22 | y ∝
p exp − 2 (yi − θi ) ×
i=1 2πσ12 2σ1
( n )
Y 1 1 2
× p exp − 2 (θi − µ) ×
i=1 2πσ22 2σ2
×π2 σ22 ,
8.2. ANÁLISE BAYESIANA EMPÍRICA 145
Vamos assumir uma distribuição a priori gama inversa para σ22 , isto é,
σ22 ∼ GI (a, b)
em que a e b são conhecidos. Portanto,
−(a+ n2 +1) b
θ1 , . . . , θn , µ, σ22 σ22
π |y ∝ exp − 2 ×
σ2
" n n
#
1 X 2 1 X 2
× exp − 2 (yi − θi ) − 2 (θi − µ) .
2σ1 i=1 2σ2 i=1
em que Z
f (yi | α) = f (yi | θi ) π (θi | α) dθi .
146
ou seja,
(yi +1)−1 1
π (θi | y) ∝ θi exp − + 1 θi ,
ȳ
8.2. ANÁLISE BAYESIANA EMPÍRICA 147
i = 1, . . . , n. Assim,
1
θi | yi ∼ Gama yi + 1; + 1 .
ȳ
α+S
E (θ | y) = .
α+β+n
Assim, E (θ | y) = 0, 178.
148
yi Erro padrão da
Centro Médico zi pi
diferença em % diferença em%
UK-1 2, 77 1, 65 1, 68 0, 047
CDPA 2, 50 1, 31 1, 91 0, 028
GAMS 1, 84 2, 34 0, 79 0, 216
UK-2 2, 56 1, 67 1, 54 0, 062
Paris 2, 31 1, 96 1, 17 0, 129
AMIS −1, 15 0, 90 −1, 27 0, 898
Total 0, 86 0, 59 1, 47 0, 072
que 0, 05). O último estudo (conduzido no centro médico AMIS) leva a uma
aumento na taxa de mortalidade para pacientes recebendo aspirina. Observar
que esse grupo tem o maior número de pacientes.
model {
for (i in 1:N) {
y1[i] ~ dnorm(theta1[i], tau1)
y2[i] ~ dnorm(theta2[i], tau2)
150
# Dados:
list(y1=c(7.97, 5.8, 8.52, 12.26, 10.49, 10.58),
y2=c(10.74,8.3,10.36,14.82,12.81,9.7), N=6)
diferentes cidades pequenas que foram aleatorizados para dois grupos: um grupo
com 287 pessoas (grupo experimental recebendo um novo tipo de medicina pre-
ventiva). O objetivo do estudo foi verificar se a nova terapia preventiva aplicada
aos idosos melhora a saúde.
Ci | µc , σc2 ∼ N µc , σc2
Ej | µe , σe2 ∼ N µe , σe2
Observar que os dados da Tabela 8.4 são dados de contagem (dados discre-
tos). Portanto assumir para uma análise bayesiana uma distribuição de Poisson
para as variáveis aleatórias Ci e Ej dados por:
Ci | λc ∼ P oisson (λc )
Ej | λe ∼ P oisson (λe )
8.2. ANÁLISE BAYESIANA EMPÍRICA 153
para i = 1, . . . , nc e j = 1, . . . , ne .
model {
lambda.c ~ dgamma(0.01,0.01)
lambda.e ~ dgamma(0.01,0.01)
for(i in 1:n.c) { C[i] ~ dpois(lambda.c) }
for(i in 1:n.e) { E[i] ~ dpois(lambda.e) }
# Delta
effect <- lambda.e - lambda.c
}
# Dados
list(
C=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,7,
7),n.c=287,
E=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
154
2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,5,6),
n.e=285)
# Valores iniciais
list(lambda.c=1.0, lambda.e=1.0)
A partir dos resultados da Tabela 8.5, observar que uma estimativa de Monte
Carlo para a média a posteriori da diferença ∆ = λe − λc baseada nas 1.000
amostras de Gibbs é dada por ∆ ˆ = −0, 1711, um resultado similar ao obtido na
inferência frequentista assumindo a estatı́stica Z. Entretanto, observa-se um in-
tervalo de credibilidade 95% para essa diferença dado por (−0, 3272; −0, 01809)
que tem comprimento menor ao obtido pelo intervalo de confiança 95% usando
a estatı́stica Z. Também observamos que o valor zero não está incluı́do no in-
tervalo de credibilidade 95%, um indicativo de que a nova terapia diminui o
número de internações dos idosos. O critério DIC para esse valor foi estimado
por DIC
[ = 1497, 21.
E = C + Ef eito.
E = (1 + Ef eito) C.
γ0 ∼ N 0, 104
γ1 ∼ N 0, 104 .
model
{
for(i in 1:n)
{
log(lambda[i]) <- gamma.0 + gamma.1*x[i]
y[i] ~ dpois(lambda[i])
}
lambda.c <- exp(gamma.0)
lambda.e <- exp(gamma.0+gamma.1)
mult.effect <- exp(gamma.1)
gamma.0 ~ dnorm(0,0.0001)
gamma.1 ~ dnorm(0,0.0001)
}
# Dados
list(y=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
156
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,
5,7,7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,5,6),
x=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1),
n=572)
# Valores iniciais
list(gamma.0=0, gamma.1=0)
Para o modelo multiplicativo, encontramos uma valor para DIC dado por
DIC
[ = 1497, 10 que é um valor muito próximo ao obtido assumindo um modelo
aditivo e assim concluı́mos que os dois modelos (aditivo e multiplicativo) levam
à resultados similares.
para i = 1, . . . , n.
model
{
for(i in 1:n)
{ log(lambda[i]) <- gamma.0 + gamma.1*x[i] + e[i]
y[i] ~ dpois(lambda[i])
e[i] ~ dnorm(0,sigma)
}
gamma.0 ~ dnorm(0,0.1)
gamma.1 ~ dnorm(0,0.1)
sigma ~ dgamma(1,1)
lambda.c <- exp(gamma.0)
lambda.e <- exp(gamma.0+gamma.1)
mult.effect <- exp(gamma.1)
}
Placebo Acarbose
Paciente 0-2(a) 2-4(b) 4-6(c) Paciente 0-2(a) 2-4(b) 4-6(c)
1 1 1 0 15 0 0 1
2 1 1 1 16 1 0 0
3 0 1 1 17 0 0 0
4 1 1 1 18 1 0 1
5 0 0 0 19 0 1 1
6 1 1 0 20 0 0 1
7 1 1 1 21 1 1 1
8 0 0 1 22 0 0 1
9 1 1 1 23 1 1 1
10 0 1 1 24 1 1 1
11 0 0 0 25 1 1 1
12 1 0 0 26 0 1 1
13 0 0 0 27 0 0 1
14 0 0 0
(a) Após dois meses de tratamento. (b) Entre o segundo e o quarto mês de
tratamento. (c) Entre o quarto e o sexto mês de tratamento.
em que yji é uma variável binária dada por yji = 1 (ocorrência de menstruação)
e yji = 0 (não ocorrência de menstruação), sendo que j = 1, 2, 3 corresponde
aos três perı́odos de avaliação (0-2, 2-4 e 4 6), respectivamente, i = 1, 2, ..., 27
160
em que α = (α1 , α2 , ..., αn )0 e β = (β01 , β02 , β03 , β11 , β12 , β13 )0 . Sejam as
seguintes distribuições a priori para os parâmetros do modelo:
αi ∼ N (0, σα2 ), i = 1, ..., n,
σα2 ∼ GI(a, b), a e b conhecidos,
βkj ∼ N (ckj , d2kj ), ckj e d2kj conhecidos, k = 0, 1, j = 1, 2, 3.
Lembrar que GI(a, b) denota uma distribuição gama inversa com média
b(a − 1)−1 e variância b2 [(a − 1)2 (a − 2)]−1 . Assumindo independência en-
tre as distribuições a priori, as distribuições condicionais para o algoritmo de
amostradores de Gibbs são dadas por
π(αi |σα2 , β, x, y) ∼
N (0, σα2 ) ×
X 3 X3
× exp αi yji − ln [1 + exp(αi + β0j + β1j xi )] ,
j=1 j=1
n
!
n X αi2
π(σα2 |α, β, x, y) ∼ IG + a, b +
2 i=1
2
e
π(βkj |α, σα2 , x, y) ∼ N (ckj , d2kj ) ×
( n n
)
X X
× exp βkj xi yji − ln [1 + exp(αi + β0j + β1j xi )] ,
i=1 i=1
para i = 1, ..., n, k = 0, 1 e j = 1, 2, 3.
model
{
for (i in 1:N) {
for (j in 1:3) {
y[i,j] ~ dbern(p[i,j])
logit(p[i,j]) <- alpha[i] + beta0[j] + beta1[j]*x[i] }
alpha[i] ~ dnorm(0,tau.a) }
tau.a ~ dgamma(0.001,0.001)
sigma.a <- 1/tau.a
for (j in 1:3) {
beta0[j] ~ dnorm(0,1.0E-6)
beta1[j] ~ dnorm(0,1.0E-6)
}
dif[1,1] <- beta0[2] - beta0[1]
dif[1,2] <- beta0[3] - beta0[1]
dif[1,3] <- beta0[3] - beta0[2]
dif[2,1] <- beta1[2] - beta1[1]
dif[2,2] <- beta1[3] - beta1[1]
dif[2,3] <- beta1[3] - beta1[2]
}
# Valores iniciais
list(tau.a=1,alpha=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0),beta0=c(0,0,0),beta1=c(0,0,0))
# Dados
list(N = 27, x = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,
1,1,1,1,1,1,1,1), y = structure(.Data = c(1,1,0,1,1,1,0,
1,1,1,1,1,0,0,0,1,1,0,1,1,1,0,0,1,1,1,1,0,1,1,0,0,0,1,0,
0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,1,0,1,0,1,1,0,0,1,1,1,1,
0,0,1,1,1,1,1,1,1,1,1,1,0,1,1,0,0,1), .Dim = c(27,3)))
PR = P (D = 1)
S = P (Y = 1|D = 1)
e
E = P (Y = 0|D = 0)
são, respectivamente, a sensibilidade e a especificidade do método de classi-
ficação. Assim,
PA = S × PR + (1 − E)(1 − PR ), (8.8)
e, consequentemente,
PA + E − 1
PR = .
S+E−1
Esta expressão é comumente chamada de fórmula de Rogan-Gladen, e é
bastante utilizada em estudos epidemiológicos para “corrigir” as medidas de
prevalência baseadas em um método de classificação sujeito a erros, sendo as
probabilidades P (Y = 1|D = 1) e P (Y = 0|D = 0) conhecidas. Notar que a
fórmula de Rogan-Gladen exige que 1 − E seja menor que PA .
model {
x ~ dbin(PA,n)
PA <- S*PR + (1-E)*(1-PR)
PR ~ dbeta(a,b)
S <- 0.732
E <- 0.993
}
# Dados
list(x=84,n=1055,a=0.5,b=0.5)
8. CARLIN, B. P.; T., L. Bayes and empirical Bayes methods for data anal-
ysis, Segunda Edição. London: Chapman Hall, 2000.
167
168
13. FINETTI, B. de. La prevision: ser lois logiques, ses sources subjects..
Ann. Inst. H. Poincare, v. 7, p. 1–68, 1937/1964.
16. GEISSER, S.; EDDY W.F.A predictive approach to model selection. Jour-
nal of the American Statistical Association, 74, 153-60, 1979.
25. KADANE, J. B. Predictive and structural methods for eliciting prior dis-
tributions. North-Holland, Amsterdam: Bayesian Analysis and economet-
rics and statistics (A. Zellner, ed), 1980. 89–93.
27. LEE, T. E. Statistical Methods for Survival Data Analysis. New York:
John Wiley and Sons, 1992.
28. MARTIN, L. M.; LEFF, M.; CALONGE, N.; GARRETT, C.; NELSON,
D.E. Validation of self-reported chronic conditions and health services in
a managed care population. American Journal of Preventive Medicine,
v.18, p. 215–218, 2000.
29. MARTINEZ, E. Z.; TERADA, N. A. Y.; GIGLIO, F. M.; ZUCOLOTO,
M. L. Prevalence of self-reported diabetes and hypertension among users
of primary health care services. Acta Scientiarum. Health Sciences, 2018.
In press.
30. MILLAR, R. B. Maximum Likelihood Estimation and Inference: With
Examples in R, SAS and ADMB. Chichester: John Wiley & Sons, 2011.
31. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to Statis-
tical Theory. 3rd edition. McGraw-Hill, 1974.
32. OCHI, Y.; PRENTICE, R. L. Likelihood inference in a correlated probit
regression model. Biometrika, v.71, p. 531–543, 1984.
33. PAULINO, C.; TURKMAN, M.; MURTEIRA, B. Estatı́stica Bayesiana.
Lisboa: Fundação Calouste Gulbenkian, 2003.
34. PRENTICE , R. L. Correlated binary regression with covariate specific to
each binary observation. Biometrics, v.44, p. 1033–1048, 1988.
35. RAFTERY, A. E.; LEWIS, S. M. Implementing MCMC. In: Markov chain
Monte Carlo in practice. London: Chapman and Hall, 1996. p. 115–130.
36. RUBIN, H. A weak system of axioms for rational behaviour and the non-
separability of utility from the prior. Statistical and Decisions, v. 5, p.
47–58, 1987.
37. SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics,
v. 6, p. 461–466, 1978.
38. SPIEGELHALTER, D. J. et al. Bayesian measures of model complexity
and fit (with discussion). Journal of the Royal Statistical Society, B, v.
64, p. 583–639, 2002.
39. SPIEGELHALTER, D. J.; SMITH, A. F. M. Bayes factors for linear and
log-linear models with vague prior information. Journal of the Royal Sta-
tistical Society, B, v. 44, p. 377–387, 1982.
40. SPIEGELHALTER, D. J. et al. WinBUGS Version 1.4 User Manual.
[S.l.], 2003.
41. TIERNEY, L. Markov chains of exploring posterior distributions. Annals
of Statistics, v. 22, p. 1701–1762, 1994.
170
Capı́tulo 3
Exercı́cio 1
Seja a distribuição a posteriori π (θ | y) beta com parâmetros α∗ e β ∗ (funções
dos dados). Vamos considerar a função de perda:
2
L (d∗ , θ) = θ−2 (d∗ − θ) , d∗ ≥ 0 e 0 ≤ θ ≤ 1
Assim:
Γ (α∗ + β ∗ )
∗ β ∗ −1
π (θ | y) = ∗ ∗
θα −1 (1 − θ) , 0≤θ≤1
Γ (α ) Γ (β )
Γ (α∗ + β ∗ )
Z
1 ∗ 2 ∗ β ∗ −1
R= 2
(d − θ) ∗ ) Γ (β ∗ )
θα −1 (1 − θ) dθ
θ θ Γ (α
∂R (d∗ , θ) Γ (α∗ + β ∗ )
Z
2 ∗ ∗ β ∗ −1
∗
= 2
(d − θ) ∗ ∗
θα −1 (1 − θ) dθ = 0
∂d θ θ Γ (α ) Γ (β )
α∗ − 2
d∗ =
α∗ + β ∗ − 2
Exercı́cio 2
Vamos considerar a função de confiabilidade S (t) = P (T > t), em que S (t) =
θ1 = 0, 50 ou S (t) = θ2 = 0, 90. Assim, sendo as decisões d1 (estimador de S (t)
é θ1 ) e d2 (estimador de S (t) é θ2 ), temos a seguinte função de perda L (d, θ):
171
172
d1 d2
S (t) = θ1 0 5
S (t) = θ2 3 0
1
Sejam as distribuições a priori π (θ1 ) = 4 e π (θ2 ) = 43 .
1 3
E [L (d1 , θ)] = L (d1 , θ1 ) π (θ1 ) + L (d1 , θ2 ) π (θ2 ) = 0 × + 3 × = 2, 25.
4 4
Tomando a decisão 2, temos:
1 3
E [L (d2 , θ)] = L (d2 , θ1 ) π (θ1 ) + L (d2 , θ2 ) π (θ2 ) = 5 × + 0 × = 1, 25.
4 4
Assim, a decisão d2 minimiza o erro esperado.
(b) Vamos retirar uma unidade e testá-la para o tempo t : falha ou so-
brevivência. Seja Z = 1 para sobrevivência e Z = 0 para falha, e ainda,
f (z = 1 | θ1 ) = 0, 50, f (z = 1 | θ2 ) = 0, 90, f (z = 0 | θ1 ) = 0, 50 e f (z = 0 | θ2 )
= 0, 10. Qual é a solução bayesiana quando você retira uma unidade?
Para Z = 1 temos:
π (θ1 ) f (z = 1 | θ1 )
π (θ1 | z = 1) =
π (θ1 ) f (z = 1 | θ1 ) + π (θ2 ) f (z = 1 | θ2 ) .
1
4 × 0, 50
= 1 3 = 0, 15.
4 × 0, 50 + 4 0, 90
π (θ2 | z = 1) = 1 − π (θ1 | z = 1) = 0, 85.
Para Z = 0 temos:
π (θ1 ) f (z = 0 | θ1 )
π (θ1 | z = 0) =
π (θ1 ) f (z = 0 | θ1 ) + π (θ2 ) f (z = 0 | θ2 )
1
4 × 0, 50
= 1 3 = 0, 62.
4 × 0, 50 + 4 0, 10
π (θ2 | z = 0) = 1 − π (θ1 | z = 0) = 0, 38.
Exercı́cio 3
Supor que o tempo de sobrevivência X de um componente eletrônico tenha uma
distribuição exponencial com densidade:
ou seja, !
n
X
λ | x ∼ Gama n, xi .
i=1
Z
2
R= (d∗ − λ) π (λ | x) dλ
λ
∂R (d∗ , λ)
Z
= 2 (d∗ − λ) π (λ | x) dλ = 0
∂d∗ λ
1
d∗ = E [π (λ | x)] = ,
x̄
Pn
xi
em que x̄ = i=1
n .
∂ log [π (λ | x)]
=0
∂λ
(n − 1)
λ= para n ≥ 1,
nx̄
Pn
em que nx̄ = i=1 xi .
Exercı́cio 4
Vamos assumir uma amostra de tamanho n de uma distribuição normal com
média θ e variância 4. Considerar uma priori normal para θ com média 0 e
variância conhecida σ 2 .
Notar que:
nx̄σ 2 4σ 2
θ∼N ; .
4 + nσ 4 + nσ 2
2
(b) Temos:
Z
2
R= (d∗ − θ) π (θ | x) dθ,
θ
∂R (d∗ , θ)
Z Z
= d∗ π (θ | x) dθ − θπ (θ | x) dθ = 0
∂d∗ θ θ
e
nx̄σ 2
Z
∗
d = θπ (θ | x) dθ = E (θ | x) = .
θ 4 + nσ 2
Exercı́cio 5
Suponha que você tenha uma distribuição subjetiva para a temperatura média
θ dos próximos dias, dada por uma distribuição gama com parâmetros α e β
com média E (θ) = α α
β e variância V ar (θ) = β 2 , em que α e β são valores especi-
ficados. Escolhemos então valores para a média e a variância que representam
a sua opinião sobre a temperatura e calculamos os valores correspondentes de
α e β.
2 2 θ2
L (d∗ , θ) = (d∗ − θ) + (d∗ ) ,
1000
e comentamos porque esse estimador é menor que E (θ | y).
176
α
Seja E (θ) = 30 e V ar (θ) = 5. Logo, a partir de E (θ) = β = 30 e V ar(θ) =
α
β2 = 5, encontramos α = 180 e β = 6.
Assim,
∂R (d∗ , θ) d∗ θ2
Z
∗
= d −θ+ π (θ | y) dθ = 0,
∂d∗ θ 1000
e
d∗
Z Z Z
∗ 2
d π (θ | y) dθ + θ π (θ | y) dθ − θπ (θ | y) dθ = 0.
θ 1000 θ θ
R
Dado que θ π (θ | y) dθ = 1, temos
d∗
d∗ + E θ2 | y dθ = E (θ | y) ,
1000
e então
E (θ | y)
d∗ = .
E(θ 2 |y)
1+ 1000
1
Observar que 1 + 1000 E θ2 | y > 1, pois E θ2 | y > 0.
E(θ|y)
Como conclusão, E (θ | y) >
E (θ 2 |y)
.
1+ 1000
1000αβ
d∗ = ,
1000β + α (1 + α)
Exercı́cio 6
Suponha que (x1 , ..., xn ) denota uma amostra aleatória de uma distribuição de
Poisson com média θ, e θ segue uma distribuição a priori gama com parâmetros
conhecidos α e β.
Potanto,
(α + nx̄)
E(θ | x) = .
(β + n)
(b) Como a distribuição a posteriori é uma função gama, sabemos que a
variância é dada por
(α + nx̄)
V ar(θ | x) = .
(β + n)2
(c) Vamos mostrar que a variância a posteriori é menor do que a variância
a priori se e somente se x < (2 + nβ )E(θ). Temos que
o que implica
(α + nx̄) α
2
< 2,
(n + β) β
α(n + β)2
nx̄ < − α,
β2
α (n2 + 2nβ + β 2 − β)
x̄ < ,
β nβ
α n
x̄ < (2 + ),
β β
e, finalmente,
n
x̄ < E(θ)(2 + ).
β
Capı́tulo 4
Exercı́cio 1
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatória da distribuição ex-
ponencial com densidade
Logo, !
n
X
λ | y ∼ Gama n + a, yi + b .
i=1
Seja h i
a
λ | y ∼ λ̂, I −1 λ̂ .
(c) Vamos encontrar a densidade preditiva para uma observação futura Yn+1 .
Z
f (yn+1 | y) = f (yn+1 | λ) π (λ | y) dλ
Zλ∞
v z z−1
= λ exp (−λyn+1 ) λ exp (−λv) dλ,
0 Γ (z)
em que v = nȳ + b e z = n + a. Assim,
Z ∞
vz
f (yn+1 | y) = exp (−λyn+1 + v) λz+1−1 dλ
Γ (z) 0
vz Γ (z + 1)
= .
Γ (z) (yn+1 + v)z+1
Exercı́cio 2
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatória da distribuição uni-
forme com densidade
1
f (y | θ) = , 0 < y < θ,
θ
e vamos considerar uma densidade a priori para θ dada por
π (θ) = αaα θ−(α+1) , θ > a, α > 0 e a > 0 (a conhecido)
(a) Vamos encontrar a densidade a posteriori para θ dado y1 , y2 , ..., yn e
a densidade preditiva para uma observação futura yn+1 dado y1 , y2 , ..., yn . A
respectiva função de verossimilhança é dada por
n
Y
L (θ) = θ−n I(0,θ) (yi ) .
i=1
Observar que 0 < y1 < θ, 0 < y2 < θ, . . . , 0 < yn < θ, isto é,
y(n) = max (y1 , . . . , yn ) .
Assim,
L (θ) = θ−n I[y(n) ,∞] (θ) .
A distribuição a posteriori é dada por
π (θ | y) ∝ θ−(α+1) θ−n I[y(n) ,∞] (θ)
∝ θ−(α+n+1) I[y(n) ,∞] (θ) .
Portanto,
θ−(α+n+2)+1
f (yn+1 | y) = k |∞
− (α + n + 2) + 1 max((yn+1 ),k)
k
= (n+α+3)
.
(α + n + 2 − 1) [max ((yn+1 ) , k)]
180
Exercı́cio 3
Vamos considerar uma distribuição gaussiana inversa IG (µ, λ) com densidade
− 21 "
2
!#
λ λ (y − µ)
f (y | µ, λ) = exp − , y > 0; λ > 0 e µ > 0.
2πy 3 2µ2 y
Observar que
µ3
E (Y ) = µ e V ar (Y ) = .
λ
Considerando uma amostra aleatória (y1 , y2 , ..., yn ) e uma distribuição a pri-
ori não informativa para µ e λ dada por
1
π (µ, λ) ∝ ,
µλ
vamos encontrar:
Como Z ∞
Γ (a)
xa−1 exp (−bx) dx = ,
0 ba
temos
n
µ−1 Y 3
Γ (a)
π (µ | λ, y) ∝ n yi2 × a ,
(2π) 2
i=1
b
em que
n
a= −n
2
181
e " #
n 2
1 X (yi − µ)
b= .
2µ2 i=1 yi
(c) Para encontrar a densidade preditiva para uma observação futura Yn+1
dado y1 , y2 , ..., yn , notar que
Z
f (yn+1 | y) = f (yn+1 | θ) π (θ | y) dθ
θ
Z Z 12 ( "
2
#)
λ λ (yn+1 − µ)
= 3 exp − ×
µ λ 2πyn+1 2µ2 yn+1
n2 Y n ( n
"
2
#)
1 λ 1 λ X (yi − µ)
exp − 2 dµdλ
µλ 2π i=1
yi3 2µ i=1 yi
n
Y 1 n+1
= Γ ×
i=1
yi3 2
( n
" #)− n+1
2 2 2
1 (yn+1 − µ) (yi − µ)
Z
1 X
+ dµ.
µ µ 2µ2 yn+1 i=1
yi
Capı́tulo 5
Exercı́cio 1
p
(a) Considere I (µ) ∝ n (uma constante).
p p n 1
(b) Considere I (σ 2 ) ∝ σ2 ∝ σ.
Exercı́cio 2
(a) A função de verossimilhança para α e β é dada por
!n1 !n2
n1 n2
V1β V β X
V2β V β X
L (α, β) = exp − 1 t1j exp − 2 t2j .
α α j=1 α α j=1
1
(b) Considere π (α, β) ∝ α.
!n1
n1
V1β β X
1 V
f (α, β | y) ∝ exp − 1 t1j ×
α α α j=1
!n2
n2
V2β V β X
exp − 2 t2j .
α α j=1
Capı́tulo 6
Exercı́cio 1
Seja y1 , ..., yn uma amostra aleatória com distribuição exponencial
1 y
f (y | θ) = exp − , y > 0.
θ θ
Suponha n = 30 e ȳ = 12, e seja uma priori de Jeffreys para θ dada por
1
π (θ) ∝ , θ > 0.
θ
(a) Vamos encontrar uma aproximação de Laplace para E (θ | y) e V ar (θ | y).
A esperança de θ dado y é dada por
R∞
θπ (θ) L (θ) dθ
E (θ | y) = R0 ∞ ,
0
π (θ) L (θ) dθ
em que nȳ
L (θ) = θ−n exp − .
θ
Logo, R ∞ −n
θ exp − nȳ
0 θ dθ
E (θ | y) = ∞ −(n+1) .
exp − nȳ
R
0
θ θ dθ
Assumindo I, como uma expressão auxiliar tem-se, por Laplace,
Z ∞
b
I= θ−a exp − dθ = exp [−nh (θ)] .
0 θ
183
Assim, √
2π h i
I ≡ √ σ exp −nh θ̂ ,
n
em que
− 21 .
σ = [h00 (θ)]
As quantidades necessárias para a resolução da integral por Laplace são:
b
−nh (θ) = −a log (θ) − ,
θ
a b
−nh0 (θ) = − + 2 = 0,
θ θ
b
θ̂ = ,
a
a 2b a3
−nh00 (θ) = 2 − 3 = − 2 ,
θ θ b
√
nb
σ= 3
a2
e h i aa
exp −nh θ̂ = a exp (−a) .
b
Retomando então a expressão para I, temos
√ 3
2πaa− 2 exp (−a)
I= .
ba−1
De acordo com a notação desta expressão para I, para o numerador da
expressão dada E (θ | y), temos a = n e b = nȳ, e para o denominador, temos
a = n + 1 e b = nȳ. Assim,
1 n(n)
3 (nȳ)n exp (−n) n(n− 2 ) ȳe
1
n2
E (θ | y) = = .
(n+1)(n+1)
(n + 1)( 2 )
1 n− 1
3
(nȳ)(n+1)
exp [− (n + 1)]
(n+1) 2
A expressão √
2π h i
I ≡ √ σ exp −nh θ̂ ,
n
184
pode ser usada neste caso, tal que, para o numerador temos a = n − 1 e b = nȳ,
e para o denominador, temos a = n + 1 e b = nȳ. Assim,
1 (n−1)(n−1)
3
(nȳ)(n−1)
exp [− (n − 1)]
(n−1) 2
E θ2 | y
=
1 (n+1)(n+1)
3
(nȳ)(n+1)
exp [− (n + 1)]
(n+1) 2
Logo,
" #2
n(n− 2 ) ȳe
1
Logo,
R∞
θ θ exp − nȳ
−1 −n
exp − 10
0 R∞ θ θ dθ
E [g (θ) | y] =
θ−1 θ−n exp − nȳ
dθ
0
R ∞ −(n+1) nȳ+10
θ
0R
θ exp − θ dθ
= ∞ −(n+1) nȳ
.
0
θ exp − θ dθ
A expressão para I também pode ser usada neste caso, tal que, para o
numerador temos a = n + 1 e b = nȳ + 10, e para o denominador, temos
a = n + 1 e b = nȳ. Logo,
1
(nȳ + 10) (nȳ+10)(n+1)
−n n
E [g (θ) | y] = = (nȳ + 10) (nȳ) .
(nȳ) (nȳ)1(n+1)
Exato Laplace
E (θ | y) 12, 0 12, 4
V ar (θ | y) 4, 8 5, 5
S (10) 0, 43 0, 44
Exercı́cio 2
(a) Seja y1 , ..., yn uma amostra aleatória com distribuição de Poisson, dada por
θy exp (−θ)
f (y | θ) = , y > 0.
y!
Vamos assumir uma priori de Jeffreys para θ e encontrar aproximações de
Laplace para E (θc | y), sendo n = 5 e ȳ = 10 para c = 1, 2, 3, 5 e 10. A priori
de Jeffreys para θ é dada por
1
π (θ) ∝ √ , θ > 0,
θ
e a esperança de θc dado y é dada por
R ∞ c − 1 nȳ
c θ θ 2 θ exp (−nθ) dθ
E (θ | y) = R0 ∞ − 1
0
θ 2 θnȳ exp (−nθ) dθ
R ∞ c− 1 +nȳ
θ 2 exp (−nθ) dθ
= R0∞ − 1 +nȳ .
0
θ 2 exp (−nθ) dθ
Seja
Z ∞ Z
a
I1 = θ exp (−nθ) dθ = exp [−nh (θ)] − nh (θ) = a log (θ) − nθ.
0
Notar que
a
−nh0 (θ) =
− n = 0,
θ
a
θ̂ = ,
n
e
a
−nh00 (θ) = − 2 .
θ
Para encontrarmos uma aproximação pelo método de Laplace, sejam as quan-
tidades Z √ 1
h i
exp [−nh (θ)] dθ ≈ 2πn− 2 σ exp −nh θ̂ ,
h i− 21
σ = h00 θ̂ ,
an2 n2
−nh00 θ̂ = − 2
=−
a a
n
h00 θ̂ = ,
a
e
h i a
a a na
exp −nh θ̂ = θ̂ exp −nθ̂ = exp −
n n
aa
= exp (−a) .
nn
186
Assim,
√
√ − 12
n − 12 aa 2πn−1 a+ 1
I1 u 2πn exp (−a) u a 2 exp (−a) ,
a nn nn
ou seja, √
2π a+ 1
I1 u
a 2 exp (−a) .
nn+1
Assim, considerando a = c − 12 + nȳ no numerador e a = − 12 + nȳ no
denominador de E (θc | y), temos:
√ c− 12 +nȳ+ 12
2π 1
exp − c − 12 + nȳ
1 c− 2 + nȳ
c nn+ 2
E (θ | y) u √ nȳ− 12 + 12
2π
nȳ − 12 exp − nȳ − 12
1
nn+ 2
nȳ+c
nȳ + c − 12 exp (−c)
u
1 nȳ
nȳ − 2
1
(b) Vamos considerar a reparametrização φ = θ 2 . Assim,
1
π (φ) ∝ 1 , θ > 0.
θ2
A transformação baseada nas expressões
1
φ = θ2,
1 1 −1
dφ = θ 2 dθ
2
e
dθ 2
= − 1 , com θ = φ2 ,
dφ θ 2
resulta em
1 dθ 1 2
π (φ) ∝ ∝ = constante.
φ dφ φ φ−1
Assim,
φ2c π (φ) L (φ) dφ
R
c 2c
E (θ | y) = E φ |y =
R
π (φ) L (φ) dφ
R 2 c 2 nȳ R θ 2 nȳ+c
exp −nφ2 dφ
φ φ exp −nφ2 dφ 0
φ
= R nȳ = R∞ nȳ .
(φ2 ) exp (−nφ2 ) dφ 0
(φ2 ) exp (−nφ2 ) dφ
em que
−nh (φ) = a log (φ) − nφ2 .
187
Notar que
a
−nh0 (φ) = − 2nφ = 0.
φ
Da expressão
a
= 2nφ,
φ
temos que
2 a
φ̂ = .
2n
Em adição, temos
a a 2na
−nh00 (φ) = − − 2n = − a − 2n = − − 2n = −4n,
φ2 2n
a
e
h00 φ̂ = 4.
Assim,
h i a
2
2 a2 2
exp −nh φ̂ = φ̂ exp −nφ̂ = φ̂ exp −nφ̂
a a2 a
= exp −n
2n 2n
a
a2 a
= a exp − ,
(2n) 2 2
e
1 a
√ n− 2 a 2 a
I2 ≈ 2π √ a exp −
4 (2n) 2 2
√ a
2πa 2 a
≈ a 1 a exp − .
n 2 + 2 2 2 +1 2
Capı́tulo 7
Exercı́cio 2
(b) Seja Yij uma variável aleatória que indica o investimento de uma firma,
sendo i = 1, . . . , 8; (firmas) e j = 1, 2, 3 (tempos). Sejam X1 , X2 e X3 as demais
variáveis regressoras apresentadas neste exercı́cio. O modelo é dado por
em que εij são variáveis aleatórias independentes com média zero e variância σ 2
para i = 1, . . . , 8 e j = 1, 2, 3 (tempos). Vamos utilizar uma análise bayesiana
hierárquica em dois estágios. No primeiro estágio assumiremos as seguintes
distribuições a priori:
∼ N 0, σα2 , i = 1, . . . , 8,
αi
∼ N 0, στ2 , j = 1, 2, 3,
τj
∼ N 0, σγ2 , i = 1, . . . , 8, j = 1, 2, 3,
γij
∼ N 0; a20 ,
β0
∼ N 0; a21 ,
β1
∼ N 0; a22 ,
β2
∼ N 0; a23 e
β3
σ2 ∼ GI (b, d) ,
σα2 ∼ IG (bα , dα ) ,
στ2 ∼ IG (bτ , dτ ) , e
σγ2 ∼ IG (bγ , dγ ) .
A função de verossimilhança para θ = αi , τj , γij , β0 , β1 , β2 , β3 , σ 2 , σα2 , στ2 , σγ2
é dada por:
3 Y
n
2
Y 1
L (θ) = √ exp − i 2
j=1 i=1 2πσ 2 2σ
0
em que y = (y1 , . . . , yn ) , x denota o vetor das covariáveis e i é dado em (7.9).
As distribuições condicionais para as quantidades aleatórias são dadas a seguir:
3 X n
α2
2
1 X (α)
∝ exp − i2
(i) π αi | θ (αi ) exp − 2 αi − µij ,
2σα 2σ j=1 i=1
em que
(α)
µij = yij − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
!
3 X n
τj2 1 X (τ )
2
(ii) π τj | θ (τj ) ∝ exp − 2 exp − 2 τj − µij ,
2στ 2σ j=1 i=1
em que
(τ )
µij = yij − αi − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
190
!
2 3 X n
γij 1 X (γ)
2
(iii) π γij | θ (γij ) ∝ exp − 2 exp − 2 γij − µij ,
2σγ 2σ j=1 i=1
em que
(γ)
µij = yij − αi − τj − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
!
3 X n
β2 1 X (β )
2
∝ exp − 02
(iv) π β0 | θ (β0 ) exp − 2 β0 − µij 0 ,
2σβ0 2σ j=1 i=1
em que
(β )
µij 0 = yij − αi − τj − γij − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n; j = 1, 2, 3
" n
#
β2
2
1 X (l)
∝ exp − l2
(v) π βl | θ (βl ) exp − 2 βl xlij − µij ,
2al 2σ i=1
em que
3
(l)
X
µij = yij − αi − τj − γij − βj xji , i = 1, . . . , n, j = 1, 2, 3.
j=1;j6=l
191
para l = 1, 2, 3.
" n
!#
2
2 −(b+ 2 +1)
3n 1 1X 2
(vi) π σ | θ (σ2 ) ∝ σ exp − 2 d+ ,
σ 2 i=1 i
" n
!#
−(bα + n2 +1) 1 1X 2
σα2 σα2
(vii) π | θ (σα2 ) ∝ exp − 2 dα + α ,
σα 2 i=1 i
3
2 −(bτ + 2 +1)
3 1 1X
(viii) π στ2 | θ (στ2 ) ∝ στ τj2 ,
exp − dτ +
στ2 2 j=1
3 n
2 −(bγ + 2 +1)
3n 1 1 XX
(ix) π σγ2 | θ (σ2 ) ∝ σγ
exp − dγ + γij ,
γ σγ2 2 j=1 i=1