Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez

Copyright © 2019 por Jorge Alberto Achcar, Emilio Augusto Coelho Barros,
Roberto Molina de Souza e Edson Zangiacomi Martinez
A Cia do eBook apoia os direitos autorais. Eles incentivam a criatividade, promovem

a liberdade de expressão e criam uma cultura vibrante. Obrigado por comprar uma edição
autorizada desta obra e por cumprir a lei de direitos autorais não reproduzindo ou
distribuindo nenhuma parte dela sem autorização. Você está apoiando os autores e a Cia do
eBook para que continuem a publicar novas obras.
PRODUÇÃO EDITORIAL: Equipe Cia do eBook
ISBN: 978-85-5585-210-7
EDITORA CIA DO EBOOK

Rua Ataliba Souza Silva, 311
Timburi/SP
Website: https://www.ciadoebook.com.br/
Uma Introdução aos Métodos
Bayesianos Aplicados à Análise de
Dados
Jorge Alberto Achcar

Faculdade de Medicina de Ribeirão Preto
Universidade de São Paulo
Emı́lio Augusto Coelho Barros

Universidade Tecnológica Federal do Paraná
Campus Cornélio Procópio
Roberto Molina de Souza

Universidade Tecnológica Federal do Paraná
Campus Cornélio Procópio
Edson Zangiacomi Martinez

Faculdade de Medicina de Ribeirão Preto
Universidade de São Paulo
2019
ii
Conteúdo
Prefácio vii
1 Conceitos Básicos 1
1.1 Funções gama e beta . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Função de probabilidade e variável aleatória . . . . . . . . . . . . 2
1.3 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.7 Função geradora de momentos . . . . . . . . . . . . . . . . . . . 7
1.8 Alguns modelos probabilı́sticos discretos . . . . . . . . . . . . . . 8
1.8.1 Modelo uniforme discreto . . . . . . . . . . . . . . . . . . 8
1.8.2 Modelo de Bernoulli . . . . . . . . . . . . . . . . . . . . . 9
1.8.3 Modelo binomial . . . . . . . . . . . . . . . . . . . . . . . 10
1.8.4 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . 11
1.8.5 Modelo geométrico . . . . . . . . . . . . . . . . . . . . . . 13
1.8.6 Modelo hipergeométrico . . . . . . . . . . . . . . . . . . . 13
1.8.7 Modelo binomial negativo . . . . . . . . . . . . . . . . . . 14
1.9 Alguns modelos probabilı́sticos contı́nuos . . . . . . . . . . . . . . 15
1.9.1 Modelo uniforme . . . . . . . . . . . . . . . . . . . . . . . 15
1.9.2 Modelo normal . . . . . . . . . . . . . . . . . . . . . . . . 15
1.9.3 Modelo exponencial . . . . . . . . . . . . . . . . . . . . . 15
1.9.4 Modelo gama . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9.5 Modelo qui-quadrado . . . . . . . . . . . . . . . . . . . . 17
1.9.6 Modelo de Laplace . . . . . . . . . . . . . . . . . . . . . . 18
1.9.7 Modelo gama inverso . . . . . . . . . . . . . . . . . . . . . 19
1.9.8 Modelo beta . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.9 Modelo t de Student . . . . . . . . . . . . . . . . . . . . . 20
1.9.10 Modelo de Cauchy . . . . . . . . . . . . . . . . . . . . . . 21
1.9.11 Modelo F de Snedecor . . . . . . . . . . . . . . . . . . . . 23
1.10 Alguns modelos multivariados . . . . . . . . . . . . . . . . . . . . 23
1.10.1 Modelo multinomial . . . . . . . . . . . . . . . . . . . . . 23
1.10.2 Modelo de Dirichlet . . . . . . . . . . . . . . . . . . . . . 24
1.10.3 Modelo normal multivariado . . . . . . . . . . . . . . . . 25
iii
iv CONTEÚDO
1.10.4 Modelo de Wishart . . . . . . . . . . . . . . . . . . . . . . 25

1.11 Famı́lia exponencial . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.12 Função caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2 O método frequentista 31
2.1 Estatı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Estimação paramétrica por ponto . . . . . . . . . . . . . . . . . . 31
2.3 Erro quadrático médio . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Consistência em erro quadrático médio . . . . . . . . . . . . . . . 32
2.5 Estimador não viciado para τ (θ) . . . . . . . . . . . . . . . . . . 32
2.6 Desigualdade de Cramér-Rao . . . . . . . . . . . . . . . . . . . . 32
2.7 Estimadores de máxima verossimilhança . . . . . . . . . . . . . . 35
2.8 Estatı́stica suficiente . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8.1 Teorema da fatoração . . . . . . . . . . . . . . . . . . . . 38
2.9 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . 39
2.9.1 Quantidade pivotal . . . . . . . . . . . . . . . . . . . . . . 41
2.9.2 Método da quantidade pivotal . . . . . . . . . . . . . . . 42
2.9.3 Obtenção de quantidades pivotais . . . . . . . . . . . . . 43
2.10 Método assintótico . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.11 Teste de hipóteses frequentista . . . . . . . . . . . . . . . . . . . 45
2.11.1 Hipóteses simples e compostas . . . . . . . . . . . . . . . 46
2.11.2 Poder do teste . . . . . . . . . . . . . . . . . . . . . . . . 46
2.11.3 Tamanho do teste . . . . . . . . . . . . . . . . . . . . . . 46
2.11.4 Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 47
2.11.5 Teste da razão de verossimilhanças . . . . . . . . . . . . . 48
2.11.6 Nı́vel descritivo . . . . . . . . . . . . . . . . . . . . . . . . 49
2.12 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3 Métodos bayesianos 53
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Distribuições a priori conjugadas . . . . . . . . . . . . . . . . . . 57
3.3 Priori normal e verossimilhança normal . . . . . . . . . . . . . . 60
3.4 Inferência bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4.1 Estimação por intervalo . . . . . . . . . . . . . . . . . . . 61
3.4.2 Teoria bayesiana assintótica . . . . . . . . . . . . . . . . . 62
3.4.3 Estimação por ponto . . . . . . . . . . . . . . . . . . . . . 63
3.5 Vetores paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4 Densidades preditivas e discriminação de modelos 71

4.1 Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 O Fator de Bayes a posteriori . . . . . . . . . . . . . . . . . . . . 74
4.3 Distribuições preditivas alternativas . . . . . . . . . . . . . . . . 74
4.4 Uso da densidade preditiva na discriminação de modelos . . . . . 75
4.5 Resı́duos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . 76
CONTEÚDO v
4.6 Pseudo-fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 77

4.7 Outros critérios para discriminação de modelos . . . . . . . . . . 77
4.8 Teoria bayesiana de De Finetti . . . . . . . . . . . . . . . . . . . 78
4.8.1 Permutabilidade Finita . . . . . . . . . . . . . . . . . . . 79
4.8.2 Teorema da Representação de De Finetti para quanti-
dades aleatórias 0-1 . . . . . . . . . . . . . . . . . . . . . 79
4.9 Uma nota sobre testes de hipóteses . . . . . . . . . . . . . . . . . 80
4.9.1 Hipótese simples contra alternativa composta . . . . . . . 81
4.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5 Distribuições a Priori 85
5.1 Método estrutural de elicitação . . . . . . . . . . . . . . . . . . . 85
5.2 Método preditivo de elicitação . . . . . . . . . . . . . . . . . . . . 86
5.3 Distribuições a priori não-informativas . . . . . . . . . . . . . . . 88
5.3.1 Método de Bayes-Laplace . . . . . . . . . . . . . . . . . . 88
5.3.2 Método de Jeffreys . . . . . . . . . . . . . . . . . . . . . . 89
5.3.3 Caso Multiparamétrico . . . . . . . . . . . . . . . . . . . . 93
5.3.4 Método da Entropia Máxima . . . . . . . . . . . . . . . . 95
5.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6 Aproximações Numéricas e Métodos de Monte Carlo 99

6.1 Aproximação de Laplace . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Método de Monte Carlo ordinário . . . . . . . . . . . . . . . . . . 104
6.3 Método de Monte Carlo por importância . . . . . . . . . . . . . . 104
6.4 Algoritmo SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7 Métodos de Monte Carlo em Cadeias de Markov 113

7.1 O Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 114
7.1.1 Método de Gelman e Rubin para monitorar a convergência
do algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . 126
7.2.1 Casos especiais para q (y, x) . . . . . . . . . . . . . . . . . 129
7.2.2 Escolha da locação e da escala da distribuição ger-
adora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3 Conceitos adicionais . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.3.1 A integração de Monte Carlo . . . . . . . . . . . . . . . . 138
7.3.2 Lei forte dos grandes números (LFGN) . . . . . . . . . . . 138
7.3.3 Teorema ergódico . . . . . . . . . . . . . . . . . . . . . . . 139
7.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
8 Algumas aplicações 143

8.1 Modelos bayesianos hierárquicos . . . . . . . . . . . . . . . . . . 143
8.2 Análise bayesiana empı́rica . . . . . . . . . . . . . . . . . . . . . 145
8.3 Dados binários correlacionados . . . . . . . . . . . . . . . . . . . 159
8.4 Aplicações em epidemiologia . . . . . . . . . . . . . . . . . . . . . 162
vi CONTEÚDO
Referências Bibliográficas 167
Resolução de alguns exercı́cios 171

Prefácio
O uso de métodos bayesianos tem se tornado muito popular na análise de dados

em várias áreas de aplicação como economia, medicina, engenharia, indústria,
ecologia, meio ambiente, finanças, educação, quı́mica, farmácia, biologia entre
várias outras. Esse grande avanço do uso dos métodos bayesianos nas aplicações
é devido ao avanço computacional verificado nas últimas décadas em termos de
software e hardware, pois os métodos bayesianos permitem modelagens com-
plexas para os dados usando métodos de simulaçã para as distribuições a pos-
teriori conjuntas de interesse. Entre essas técnicas de simulação, destacamos
as técnicas de Monte Carlo em Cadeias de Markov, com destaque especial
para o amostrador de Gibbs e o algoritmo de Metropolis-Hastings. Para a
simplificação na obtenção dos sumários a posteriori de interesse usados para
obtenção de inferências como estimadores pontuais ou inferências por intervalo
para parâmetros do modelo estatı́stico proposto a literatura apresenta softwares
de livre acesso como o software OpenBugs e o software R. Nesse texto, intro-
duzimos com um mı̀nimo de formalismo matemático, uma breve introdução aos
métodos bayesianos, que pode ser muito útil para análise estatı́stica de dados
obtidos de diversas áreas de aplicação. O texto mescla alguns conceitos básicos
e necessários dos métodos bayesianos com muitas aplicações em diversas áreas
com ênfase em dados médicos, inclusive apresentando a parte computacional
necessária na análise estatı́stica dos dados. Esse texto foi originado de uma
breve monografia elaborada no Departamento de Medicina Social da Univer-
sidade de São Paulo, campus de Ribeirão Preto, Estado de São Paulo, para
auxiliar bioestatı́sticos e outros profissionais na análise estatı́stica de dados.
Jorge A. Achcar, novembro de 2018.
vii
viii
Capı́tulo 1
Conceitos Básicos
1.1 Funções gama e beta

Considerando uma constante α > 0, a integral
Z ∞
Γ (α) = xα−1 e−x dx (1.1)
0
é chamada função gama. Observar que:
a) Γ (α + 1) = αΓ (α) para α > 0,

b) Γ (α + 1) = α! se α ≥ 0, α inteiro,
√
c) Γ (1/2) = π, e
. √
d) n! = Γ (n + 1) = nn e−n 2πn se n é suficientemente grande (aproximação
de Stirling).
Provas para estas relações são encontradas em Rohatgi (1984).
A derivada do logaritmo de uma função gama, dada por
d Γ0 (α)
ψ (α) = ln Γ (α) = ,
dα Γ (α)
é chamada função digama.
Uma forma multivariada da função gama, de ordem k (k inteiro e positivo),

é dada por Z
α−(p+1)/2
Γk (α) = exp [−tr(S)] |S| dS, (1.2)
S>0
em que S é uma matriz quadrada positiva definida, tr(S) é o traço da matriz S

e |S| é o determinante da matriz S. Notar que Γ1 (α) = Γ (α).
1
2
A integral
Z 1
β−1
B (α, β) = xα−1 (1 − x) dx, (1.3)
0
com α e β constantes, α > 0 e β > 0, é chamada função beta. São válidas as

relações:
a) B (α, β) = B (β, α),

R∞ −α−β
b) B (α, β) = 0
xα−1 (1 − x) dx, e
Γ (α) Γ (β)
c) B (α, β) = .
Γ (α + β)
1.2 Função de probabilidade e variável aleatória

Uma função de probabilidade P (·) é uma função com domı́nio A (uma álgebra
de eventos) e como contradomı́nio o intervalo [0; 1] satisfazendo aos axiomas
apresentados por Kolmogorov, por volta de 1930:
a) P (A) ≥ 0 para todo A ∈ A,
b) P (Ω) = 1, sendo Ω o espaço amostral e
∈ A são eventos mutuamente exclusivos, então P (A1 ∪ A2 ∪

c) se A1 , A2 , ... P
∞
A3 ∪ ...) = i=1 P (Ai ).
A tripla (Ω, A, P (·)) é chamada espaço de probabilidade. Uma variável

aleatória (v.a.), denotada por X ou X(·), é uma função com domı́nio Ω e con-
tradomı́nio <. A função X(·) deve ser tal que o conjunto Ar , definido por
Ar = {w : X(w) ≤ r} pertence a A para todo r real.
Por sua vez, a função de distribuição cumulativa de X é a função FX (·) com

domı́nio < e contradomı́nio [0; 1] que satisfaz FX (x) = P (X ≤ x) = P [{w :
X(w) ≤ x}] para todo x real. São propriedades de FX (·):
a) FX (·) é não decrescente; se a e b são valores tais que a < b, então FX (a) ≤
FX (b),
b) lim FX (x) = 1 e lim FX (x) = 0,

x→+∞ x→−∞
c) FX (·) é contı́nua à direita e tem limite à esquerda, e
d) se a e b são valores tais que a < b, P (a < X ≤ b) = P (X ∈ (a, b]) =

FX (b) − FX (a).
1.2. FUNÇÃO DE PROBABILIDADE E VARIÁVEL ALEATÓRIA 3
Uma v.a. é discreta se sua função de distribuição cumulativa FXS

(·) tem
a forma de uma escada, isto é, existe um conjunto enumerávelPΩ = n {w :
X(w) = xn } P
tal que fX (x) = P (X = x) = 0 se x ∈ / Ω e FX (x) = xi <x fX (xi ).
Nota-se que n P (X = xn ) = 1. A função fX (·) definida por

P (X = xj ) se x = xj , j = 1, 2, 3, ...
fX (x) =
0 se x 6= xj
é chamada função de probabilidade (f p) de X.
Exemplo 1.1: Se lançamos um dado honesto de 6 faces e observamos a

variável X definida pelo número impresso na face voltada para cima, temos a
função de probabilidade de X definida por

1/6 se x ∈ {1, 2, 3, 4, 5, 6}
fX (x) = ,
0 caso contrário
ou
1
fX (x) = I{1,2,3,4,5,6} (x),
6
em que I{A} (x) é a função indicadora, tal que I{A} (x) = 1 se x ∈ A e I{A} (x) = 0
P6
se x ∈
/ A. Notar que j=1 fX (xj ) = 1. A função de distribuição cumulativa de
X é a função
5
X i
FX (x) = I[i,i+1) (x) + I[6,∞) (x),
i=1
6
cujo gráfico é exibido na Figura 1.1.
1 ●
5/6 ●
4/6 ●
F X (x)
1/2 ●
2/6 ●
1/6 ●
−1 0 1 2 3 4 5 6 7
Figura 1.1: Gráfico da função de distribuição cumulativa de X.

4
Por sua vez, uma v.a. X é contı́nua se existe uma função fX (·) não negativa
tal que
Z x
FX (x) = P (X ∈ (−∞, x]) = P (X ≤ x) = fX (w)dw
−∞
para todo x real. Neste caso, FX (·) é absolutamente contı́nua, não possui a
forma de escada que caracteriza a função de distribuição cumulativa de uma
v.a. discreta. A função fX (·) é chamada de função densidade de probabilidade
(f dp) de X, tal que
a) fX (x) ≥ 0, para qualquer x ∈ <,
R∞
b) −∞ fX (x)dx = 1, e
0 d hR x i
c) FX (x) = f X (w)dw = fX (x), para os valores x em que FX (x) é
dx −∞
diferenciável.
Se X1 , X2 , ...., Xn são variáveis aleatórias que seguem a mesma distribuição
de probabilidade, diz-se que estas variáveis são identicamente distribuı́das (id).
Em adição, se X1 , X2 , ...., Xn são independentes e identicamente distribuı́das
(iid), considera-se que as variáveis Xi , i = 1, ..., n, constituem uma amostra
aleatória de tamanho n, retiradas de uma população especı́fica. Assim, se
cada uma destas variáveis possui f dp (ou função de probabilidade, f p, se as
variáveis são discretas) dada por f (·), a f dp (ou f p) conjunta de X1 , X2 , ...., Xn
é chamada distribuição da amostra, dada por
n
Y
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn ) = f (xi ). (1.4)
i=1
Exemplo 1.2: Sejam X1 , X2 , ...., Xn variáveis aleatórias iid com f dp dada

por
fX (x) = θe−θx I(0,∞) (x), θ > 0.
A distribuição da amostra é, portanto, dada por
n
!
X
n
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn ) = θ exp −θ xi , tal que xi > 0, i = 1, ..., n.
i=1
1.3 Média
Se X é uma variável aleatória (v.a.), a média de X, denotada por µX ou E(X),
é definida por
X
E(X) = xj fX (xj ) se X é v.a. discreta, ou
j
Z ∞
E(X) = xfX (x)dx se X é v.a. contı́nua.
−∞
1.4. VARIÂNCIA 5
Exemplo 1.3: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = λe−λx I[0,∞) (x), λ > 0. A média de X é
Z ∞ Z ∞
E(X) = xλe−λx dx = λ xe−λx dx.
0 0
Integrando por partes, temos u = x e dv = e−λx dx. Assim,

Z ∞ Z ∞
E(X) = λ udv = λ uv − vdu
0 0
x −xλ ∞ 1 ∞ −xλ
Z
= λ − e + e dx =
λ 0 λ
∞ 0
1 1 −xλ 1 1
= λ − e =λ 2 = .
λλ
0 λ λ
bilidade fX (x) = x−2 I[1,∞) (x). Temos que
Z ∞
1 ∞
E(X) = x dx = ln x|1 = ∞,
1 x2
ou seja, a média de X não existe.
1.4 Variância
2
Seja X uma v.a. A variância de X, denotada por σX ou V ar(X), é definida por
X 2
V ar(X) = (xj − µX ) fX (xj ) se X é v.a. discreta, ou
j
Z ∞
2
V ar(X) = (x − µX ) fX (x)dx se X é v.a. contı́nua.
−∞
1.5 Esperança
Seja X uma v.a. e g(·) uma função com domı́nio e contradomı́nio reais. A
esperança, ou valor esperado de g(X), denotada por E [g (X)] é definida por
X
E [g (X)] = g (xj ) fX (xj ) se X é v.a. discreta, ou
j
Z ∞
E [g (X)] = g (x) fX (x)dx se X é v.a. contı́nua.
−∞
Observar que:
a) se g (x) = x, então E [g (X)] = E (X) é a média de X,

6
h i
2 2
b) se g (x) = (x − µX ) , então E [g (X)] = E (X − µX ) = V ar(X),
R∞
c) E [g (X)] é definida como a integral de Stieljes −∞
g (x) dFX (x) (ver James,
1996) e
h i
2
d) a variância de X pode ser escrita na forma V ar(X) = E (X − E(X)) =

E X 2 − E 2 (X) se E X 2 existe.

2
Da observação (d), temos que, se a e b são constantes conhecidas e E |X|
< ∞, então são válidas as expressões:
a) V ar(aX) = a2 V ar(X)
b) V ar(X + b) = V ar(X)
c) V ar(aX + b) = a2 V ar(X)
Se c, c1 e c2 são constantes, são propriedades da esperança, se E [g (X)] < ∞:
a) E (c) = c,
b) E [cg (X)] = cE [g (X)] e
c) E [c1 g1 (X) + c2 g2 (X)] = c1 E [g1 (X)] + c2 E [g2 (X)], em que g1 (·) e g2 (·)
são funções com domı́nio e contradomı́nio reais.
bilidade fX (x) = λe−λx I[0,∞) (x), λ > 0. Do exemplo 1.3, temos que E(X) = λ1 .
A esperança de X 2 é
Z ∞
2
2
E(X ) = x2 λe−λx dx = 2 ,
0 λ
e a variância de X é
2 1 1
V ar(X) = E(X 2 ) − E 2 (X) = 2
− 2 = 2.
λ λ λ
1.6 Covariância
Sejam X e Y variáveis aleatórias, com médias µX e µY , respectivamente. A
covariância entre X e Y é dada por
Cov(X, Y ) = E [(X − µX ) (Y − µY )]
= E (XY ) − E (X) E (Y )
= E (XY ) − µX µY .
1.7. FUNÇÃO GERADORA DE MOMENTOS 7
Como consequência,
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) e

V ar(X − Y ) = V ar(X) + V ar(Y ) − 2Cov(X, Y ).
Observar que se X e Y são variáveis aleatórias independentes, ou seja, a

f dp conjunta de X e Y é dada por fX,Y (x, y) = fX (x)fY (y) onde fX (x) e
fY (y) são respectivamente as f dp marginais para X e Y , então V ar(X + Y ) =
V ar(X)+V ar(Y ) e V ar(X −Y ) = V ar(X)+V ar(Y ), dado que Cov(X, Y ) = 0.
No entanto, há situações em que Cov(X, Y ) = 0 mas X e Y não são variáveis
aleatórias independentes.
1.7 Função geradora de momentos

A função geradora de momentos (f gm) da variável X é dada por
mX (t) = E etX ,

desde que a esperança E etX seja finita para t real em algum intervalo −t0 <
t < t0 , com t0 > 0.
Observar que
2 3
(tX) (tX)
etX = 1 + tX + + + ...
2! 3!
Assim,

tX
2E X2 3E X
3
mX (t) = E e = 1 + tE (X) + t +t + ...
2! 3!
A derivada de mX (t) em relação a t é dada por

0 ∂mX (t) E X2 2E X
3
mX (t) = = E (X) + 2t + 3t + ...
∂t 2! 3!
Notar que a esperança de X pode ser obtida por m0X (0). A segunda derivada
de mX (t) em relação a t é dada por

00 ∂ 2 mX (t) E X2 E X3 2E X
4
mX (t) = =2 + 6t + 12t + ...
∂t2 2! 3! 4!
Portanto,
m00X (0) = E X 2 ,

e a variância de X pode ser obtida da relação

2
V ar(X) = E X 2 − E 2 (X) = m00X (0) − [m0X (0)] .

8
A f gm para uma variável aleatória X é única, tal que, se duas variáveis

aleatórias possuem f gm que existem e são iguais, então elas possuem a mesma
função de distribuição.
Exemplo 1.6: Seja X uma variável aleatória com função densidade de

probabilidade
β α α−1 −βx
fX (x) = x e I(0,∞) (x),
Γ (α)
sendo que α > 0 e β > 0. A f gm de X é
Z ∞
1 tx α−1 −βx
mX (t) = E etX = β α

e x e dx
0 Γ (α)
Z ∞ α
βα (β − t) α−1 −(β−t)x
= α x e dx
(β − t) 0 Γ (α)
α
β
= , t < β. (1.5)
β−t
A derivada de mX (t) é dada por

α α
∂ β α β
m0X (t) = = ,
∂t β − t β−t β−t
e a segunda derivada de mX (t) é dada por

α α
∂2

β α (α + 1) β
m00X (t) = 2 = 2 .
∂t β−t (β − t) β−t
Assim, a esperança e a variância de X são dadas, respectivamente, por

α
E(X) = m0X (0) = (1.6)
β
e
α2
= E X 2 − E 2 (X) = m00X (0) − 2

V ar(X)
β
2
α (α + 1) α α
= − 2 = 2. (1.7)
β2 β β
1.8 Alguns modelos probabilı́sticos discretos

1.8.1 Modelo uniforme discreto
Uma variável X segue o modelo uniforme discreto com valores x1 , x2 , ..., xk se
a sua função de probabilidade é dada por
1
fX (x) = P (X = x) = I{1,2,3,...,k} (x), (1.8)
k
1.8. ALGUNS MODELOS PROBABILÍSTICOS DISCRETOS 9
sendo k > 0 um número inteiro. A esperança de X é dada por

k k
X 1 1X 1 k (k + 1) k+1
E (X) = j = j= = ,
j=1
k k j=1 k 2 2

e a variância de X é V ar (X) = E X 2 − E 2 (X), em que E 2 (X) é dada por
k k
X 1 1X 2 1 k (2k + 1) (k + 1) (2k + 1) (k + 1)
E(X 2 ) = j2 = j = = .
j=1
k k j=1 k 6 6
Assim,
2
(2k + 1) (k + 1) k+1
= E X 2 − E 2 (X) =

V ar (X) − =
6 2
2k 2 + 2k + k + 1 k 2 + 2k + 1
= −
6 4
4k + 6k + 2 − 3k 2 − 6k − 3
2
k2 − 1 (k + 1) (k − 1)
= = = .
12 12 12
1.8.2 Modelo de Bernoulli

Uma variável aleatória X segue o modelo de Bernoulli se assume apenas os
valores 0 e 1. Sendo θ um parâmetro tal que 0 ≤ θ ≤ 1, vamos considerar
P (X = 0) = 1 − θ,
P (X = 1) = θ
e P (X = x) = 0 se x não for igual a 0 ou 1. Notar que P (X = 0)+P (X = 1) =

1. A função de probabilidade é dada por
1−x
fX (x) = P (X = x) = θx (1 − θ) I{0,1} (x),
sendo a esperança de X dada por
E(X) = 0 × (1 − θ) + 1 × θ = θ
e a variância dada por
E X 2 − E 2 (X) = 02 × (1 − θ) + 12 × θ − θ2

V ar(X) =
= θ − θ2 = θ (1 − θ) .
Assim, um experimento em que são apenas possı́veis dois resultados diferen-

tes é chamado de ensaio de Bernoulli. Comumente, denominamos o evento X =
1 de “sucesso” e o evento X = 0 de “fracasso”. Por notação, X ∼ Bernoulli (θ),
sendo 0 ≤ θ ≤ 1. A f gm de X é mX (t) = 1 − θ (1 − et ).
10
Exemplo 1.7: Sob condições ideais, a probabilidade da semente de uma

planta especı́fica germinar é 0, 8. Portanto,
P (X = 0) = 1 − 0, 8 = 0, 2 e
P (X = 1) = 0, 8,
ou seja,
fX (x) = P (X = x) = 0, 8x 0, 21−x I{0,1} (x).
1.8.3 Modelo binomial

Exemplo 1.8: Considerando o exemplo anterior, seja uma situação em que
são plantadas simultaneamente três sementes, sob condições ideais. Sejam as
variáveis X1 , X2 e X3 , assim definidas:

1 se a semente j germina
Xj = , j = 1, 2, 3.
0 se a semente j não germina
Temos, portanto, P (Xj = 1) = 0, 8 e P (Xj = 0) = 0, 2, para j = 1, 2, 3. O
trio (X1 , X2 , X3 ) pode assumir os valores:
{(0, 0, 0) , (0, 0, 1) , (0, 1, 0) , (1, 0, 0) , (0, 1, 1) , (1, 0, 1) , (1, 1, 0) , (1, 1, 1)} .
Vamos considerar Xj e Xj ∗ independentes, j 6= j ∗ , ou seja, a probabilidade

de uma das sementes germinar independe da germinação ou não da outra. Seja Y
uma variável aleatória definida como o número de ”sucessos” observados quando
plantadas as três sementes. Assim, Y pode assumir valores 0 (nenhuma semente
germinou), 1 (apenas uma semente germinou), 2 (duas sementes germinaram) ou
3 (todas as 3 sementes germinaram). Deixando de lado algum rigor de notação,
observamos que:
P (Y = 0) = P (X1 = 0, X2 = 0, X3 = 0)
= P (X1 = 0) P (X2 = 0) P (X3 = 0)
0, 2 × 0, 2 × 0, 2 = 0, 23 = 0, 008,
=

(X1 = 0, X2 = 0, X3 = 1) ou (X1 = 0, X2 = 1, X3 = 0)
P (Y = 1) = P
ou (X1 = 1, X2 = 0, X3 = 0)
= 0, 2 × 0, 2 × 0, 8 + 0, 2 × 0, 8 × 0, 2 + 0, 8 × 0, 2 × 0, 2
3 × 0, 22 × 0, 8 = 0, 096,
=

(X1 = 0, X2 = 1, X3 = 1) ou (X1 = 1, X2 = 0, X3 = 1)
P (Y = 2) = P
ou (X1 = 1, X2 = 1, X3 = 0)
= 0, 2 × 0, 8 × 0, 8 + 0, 8 × 0, 2 × 0, 8 + 0, 8 × 0, 8 × 0, 2
= 3 × 0, 2 × 0, 82 = 0, 384, e
P (Y = 3) = P (X1 = 1, X2 = 1, X3 = 1)
= P (X1 = 1) P (X2 = 1) P (X3 = 1)
= 0, 8 × 0, 8 × 0, 8 = 0, 83 = 0, 512.
Notar que P (Y = 0) + P (Y = 1) + P (Y = 2) + P (Y = 3) = 0, 008 + 0, 096 +

0, 384 + 0, 512 = 1. Enquanto há apenas uma combinação entre X1 , X2 e X3 em
que nenhuma semente germina, {(0, 0, 0)}, há três combinações onde uma única
semente germina, {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)}, três combinações em que duas se-
mentes germinam, {(0, 1, 1) , (1, 0, 1) , (1, 1, 0)}, e uma única combinação em que
todas as sementes germinam, {(1, 1, 1)}. Portanto, o número de combinações
das três sementes onde y sementes germinam é dado por

3
, y = 0, 1, 2 ou 3,
y
e notamos que uma expressão que generaliza a probabilidade P (Y = y) é dada

por

3
P (Y = y) = 0, 8y 0, 33−y I{0,1,2,3} (y).
y
Neste exemplo, consideramos n = 3 ensaios de Bernoulli independentes,

sendo a probabilidade de sucesso em cada ensaio dada por θ = 0, 8. De modo
geral, dizemos que Y segue um modelo binomial se a sua função de probabilidade
é dada por

n y n−y
fY (y) = P (Y = y) = θ (1 − θ) I{0,1,2,...,n} (y). (1.9)
y
Por notação, Y ∼ Binomial (n, θ) considerando n ensaios independentes de

Bernoulli e sendo a probabilidade de sucesso igual a θ (0 ≤ θ ≤ 1) em todos os
ensaios. Notar que, quando n = 1, Y segue uma distribuição de Bernoulli. A
média, a variância e a f gm de Y são dadas, respectivamente, por
n
E(Y ) = nθ, V ar(Y ) = nθ(1 − θ) e mY (t) = 1 − θ + θet .
1.8.4 Modelo de Poisson
Seja X uma variável aleatória tal que X ∼ Binomial (n, θ). Assim,

n x n−x
P (X = x) = θ (1 − θ) I{0,1,2,...,n} (x).
x
Denotaremos por λ o produto nθ. Assim, θ = λ/n, e considerando x =

12
0, 1, 2, ..., n,
x n−x
n! λ λ
P (X = x) = 1−
(n − x)!x! n n
x
n −x
n! λ λ λ
= 1− 1−
(n − x)!nx x! n n
x
n −x
n (n − 1) (n − 2) ... (n − x)! λ λ λ
= 1 − 1 −
(n − x)!nx x! n n
x
n −x
n (n − 1) (n − 2) (n − x − 1) λ λ λ
= ... 1− 1−
n n n n x! n n
x n −x
1 2 x+1 λ λ λ
= 1− 1− ... 1 − 1− 1− .
n n n x! n n
Se a probabilidade de sucesso θ é pequena, tal que θ tende a 0, o número de

ensaios de Bernoulli independentes é bastante grande, tal que n tende a infinito,
e λ > 0 é constante, temos
g
lim 1 − = 1 para g = 1, 2, ..., x + 1,
n→∞ n
−x
λ
lim 1 − = 1
n→∞ n
e
n
λ
lim 1− = e−λ .
n→∞ n
Portanto, o modelo de Poisson é dado por
e−λ λx
fX (x) = P (X = x) = I{0,1,2,...,n} (x). (1.10)
x!
Por notação, X ∼ P oisson (λ). A f gm de X é
n n x
X e−λ λx X (λet )
= E etX = etx = e−λ = exp −λ + λet

mX (t)
x=0
x! x=0
x!
t

= exp λ e − 1 .
Da f gm de X, encontramos E(X) = λ e V ar(X) = λ.
A distribuição de Poisson é relacionada a contagens de um evento de interesse

em um intervalo (ou volume) com taxa média igual a λ.
A Figura 1.2 exibe gráficos da função de probabilidade da distribuição de

Poisson para diferentes valores de λ.
(a) λ = 2 (b) λ = 4
0.30
0.20
● ●
● ●
0.25
0.15
●
●
0.20
●
P(X=x)
P(X=x)
0.15
0.10
●
●
0.10
●
● ●
0.05
0.05
●
●
●
●
●
0.00
0.00
● ● ●
● ● ● ● ● ● ● ● ● ●
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
x x
(c) λ = 8 (d) λ = 10
● ●
0.12
0.12
● ● ●
●
● ●
●
●
● ●
0.08
0.08
P(X=x)
P(X=x)
● ●
●
●
●
●
0.04
0.04
●
●
● ●
●
● ●
● ●
● ● ●
0.00
0.00
● ● ● ● ●
● ● ● ● ●
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
x x
Figura 1.2: Gráficos da função de probabilidade da distribuição de Poisson para

λ igual a (a) 2, (b) 4, (c) 8 e (d) 10.
1.8.5 Modelo geométrico

Uma variável aleatória X segue uma distribuição geométrica se sua função de
probabilidade é dada por
x
fX (x) = P (X = x) = θ (1 − θ) I{0,1,...} (x),
em que 0 < θ ≤ 1. Por notação, X ∼ Geom (θ). A média, a variância e a f gm
de X são dadas, respectivamente, por
1−θ 1−θ θ
E(X) = , V ar(X) = e mX (t) = .
θ θ2 1 − (1 − θ)et
A distribuição geométrica é relacionada à contagem de fracassos até a ocor-
rência do primeiro sucesso em um experimento de Bernoulli onde a probabilidade
de sucesso é dada por θ.
1.8.6 Modelo hipergeométrico

Uma variável aleatória X segue uma distribuição hipergeométrica se sua função
de probabilidade é dada por

m N −m
x n−x
fX (x) = P (X = x) = I{0,1,...,min(m,n)} (x),
N
n
sendo que N > 0 é um número inteiro, m é um número inteiro tal que 0 ≤ m ≤
N e n é um número inteiro tal que 0 < n ≤ N . Interpreta-se P (X = x) como a
14
probabilidade de se obter x elementos de um determinado tipo em n retiradas

de uma população de tamanho N , na qual m elementos são deste determinado
tipo e N − m não são. A média e a variância de X são dadas, respectivamente,
por
nm nm (N − m) (N − n)
E(X) = , e V ar(X) = .
N N 2 (N − 1)
Exemplo 1.9: Um globo possui N = 60 esferas, numeradas sequencial-
mente de 1 a 60. Serão sorteadas n = 6 destas esferas. Se, previamente ao
sorteio, um apostador anotar m = 6 diferentes números (de 1 a 60) em um
cartão, a probabilidade dele acertar os 6 números sorteados será

6 60 − 6
6 6−6 1 1
P (X = 6) = = = .
60 60 50.063.860
6 6
Se o apostador anotou no cartão m = 6 números, a probabilidade dele acertar
4 números dentre aqueles sorteados é

6 60 − 6
4 6−4 15 × 1431 1
P (X = 4) = = ≈ .
60 50.063.860 2332
6
Se o apostador anotou no cartão m = 9 números, a probabilidade dele ter
anotado todos os 6 números sorteados é

9 60 − 9 9
6 6−6 6 84 1
P (X = 6) = = = ≈ .
60 60 50.063.860 595.998
6 6
1.8.7 Modelo binomial negativo

Uma variável aleatória X segue uma distribuição binomial negativa se sua função
de probabilidade é dada por

x+r−1 r x
fX (x) = P (X = x) = θ (1 − θ) I{0,1,...} (x),
x
sendo que r > 0 é um número inteiro e 0 < θ ≤ 1. Por notação, X ∼ BN (r, θ).
A média, a variância e a f gm de X são dadas, respectivamente, por
r
r (1 − θ) r (1 − θ) θ
E(X) = , V ar(X) = e mX (t) = ,
θ θ2 1 − (1 − θ)et
se t < − ln(1 − θ). Notar que o modelo geométrico é um caso particular do

modelo binomial negativo, quando r = 1.
1.9. ALGUNS MODELOS PROBABILÍSTICOS CONTÍNUOS 15
1.9 Alguns modelos probabilı́sticos contı́nuos

1.9.1 Modelo uniforme
Uma variável aleatória contı́nua X é uniformemente distribuı́da no intervalo
[a, b] se a sua função densidade de probabilidade é dada por
1
fX (x) = I[a,b] (x), (1.11)
b−a
em que −∞ < a < b < ∞. Por notação, X ∼ U nif orme [a, b]. A média, a
variância e a f gm de X são dadas, respectivamente, por
2
a+b (b − a) ebt − eat
E(X) = , V ar(X) = e mX (t) = .
2 12 (b − a)t
1.9.2 Modelo normal

Uma variável aleatória contı́nua X segue uma distribuição normal com média
µ e variância σ 2 se a sua função densidade de probabilidade é dada por
" #
2
1 (x − µ)
fX (x) = √ exp − I(−∞,∞) (x), (1.12)
2πσ 2σ 2
em que µ é um valor real e σ > 0. Por notação, X ∼ N (µ, σ 2 ). Se Z é uma

variável aleatória com distribuição normal, em que µ = 0 e σ 2 = 1, diz-se que Z
segue uma distribuição normal padrão, com função densidade de probabilidade
2
1 z
fZ (z) = √ exp − I(−∞,∞) (z).
2π 2
Notar que, se X ∼ N (µ, σ 2 ), então
X −µ
∼ N (0; 1).
σ
A Figura 1.3 exibe gráficos da função densidade de probabilidade fX (x) e da
função acumulada FX (x) da distribuição normal, considerando alguns diferentes
valores de µ e σ.
1.9.3 Modelo exponencial

Uma variável aleatória contı́nua X segue uma distribuição exponencial com
parâmetro θ, θ > 0, se a sua função densidade de probabilidade é dada por
fX (x) = θe−θx I[0,∞) (x). (1.13)
Por notação, X ∼ Exp(θ). A média, a variância e a f gm de X são dadas,
respectivamente, por
1 1 θ
E(X) = , V ar(X) = 2 e mX (t) = para t < θ.
θ θ θ−t
16
(a) (b)
0.4
1.0
σ=1
σ=2
0.8
0.3
σ=3
0.6
F X (x)
f X (x)
0.2
0.4
σ=1
0.1
σ=2
0.2
σ=3
0.0
0.0
−10 −5 0 5 10 −10 −5 0 5 10
x x
(c) (d)
0.4
1.0
µ=0
µ=2
0.8
0.3
µ=4
0.6
F X (x)
f X (x)
0.2
0.4 µ=0
0.1
µ=2
0.2
µ=4
0.0
0.0
−5 0 5 10 −5 0 5 10
x x
Figura 1.3: (a) Gráficos da função densidade de probabilidade e da (b) função

distribuição acumulada FX (x) da distribuição normal para µ = 0 e σ igual a
1, 2 e 3. (c) Gráficos da função densidade de probabilidade e da (d) função
distribuição acumulada FX (x) da distribuição normal para σ = 1 e µ igual a 0,
2 e 4.
A função distribuição acumulada FX (x) é
Z x
FX (x) = P (X ≤ x) = θe−θx dx = 1 − e−θx (1.14)
0
se x ≥ 0 e FX (x) = 0 se x < 0. Uma propriedade conhecida de distribuição

exponencial é a sua “ausência de memória”, ou seja, para quaisquer valores
s ≥ 0 e t ≥ 0, é válida a relação
P ( X > s + t| X > s) = P (X > t).

1.9.4 Modelo gama

Uma variável aleatória contı́nua X segue uma distribuição gama com parâmetros
α e β se a sua função densidade de probabilidade é dada por
β α α−1 −βx
fX (x) = x e I(0,∞) (x), (1.15)
Γ (α)
em que α > 0 , β > 0 e Γ (·) é a função gama dada pela expressão (1.1). Por
notação, X ∼ Gama(α, β). A média, a variância e a f gm de X são dadas,
α
α α β
E(X) = , V ar(X) = 2 e mX (t) = para t < β,
β β β−t
conforme (1.6) , (1.7) e (1.5). Notar que o modelo exponencial é um caso par-
ticular do modelo gama, em que α = 1 e β = θ.
Em adição, se k é uma constante conhecida e X ∼ Gama(α, β), temos que

kX ∼ Gama(α, kβ).
2.0
α = 1, β = 2
α = 2, β = 2
α = 3, β = 2
α = 6, β = 6
1.5
f X (x)
1.0
0.5
0.0
0 1 2 3 4 5
Figura 1.4: Gráficos da função densidade de probabilidade da distribuição gama

para diferentes valores de α e β.
A Figura 1.4 mostra gráficos de fX (x) para diferentes valores de α e β.
1.9.5 Modelo qui-quadrado

Se X é uma variável aleatória com distribuição gama (1.15), com parâmetros
α = n/2 e β = 1/2, então X segue uma distribuição qui-quadrado com n graus
18
(a) (b)
0.20
2.0
1 g.l. 4 g.l.
2 g.l. 5 g.l.
3 g.l. 6 g.l.
0.15
1.5
f X (x)
f X (x)
0.10
1.0
0.05
0.5
0.00
0.0
0 2 4 6 8 0 5 10 15
x x
Figura 1.5: Função densidade de probabilidade da distribuição qui-quadrado

para alguns valores de n.
de liberdade, onde n é um número inteiro positivo. Assim,

n2
1
2 n x
fX (x) = n x 2 −1 e− 2 I(0,∞) (x).
Γ
2
Por notação, X ∼ χ2(n) . A esperança, a variância e a f gm de X são, respec-
tivamente,
−n
E(X) = n, V ar(X) = 2n e mX (t) = (1 − 2t) 2
para t < 1/2.
Os painéis (a) e (b) da Figura 1.5 descrevem os gráficos da função densidade

de probabilidade da distribuição qui-quadrado para alguns valores de n.
1.9.6 Modelo de Laplace

A distribuição de Laplace é também chamada de exponencial dupla. Sua função
densidade de probabilidade é dada por

1 |x − µ|
fX (x) = exp − I(−∞,∞) (x),
2σ σ
sendo µ um parâmetro de locação e σ > 0 um parâmetro de escala. Por notação,

X ∼ Laplace(µ, σ). A média de X é E(X) = µ e a variância de X é V ar(X) =
2σ 2 . São algumas propriedades da distribuição de Laplace:
a) Se a e b são constantes conhecidas, e X ∼ Laplace(µ, σ), então aX + b ∼

Laplace(aµ + b, |a| σ).
b) Se X ∼ Laplace(0, σ), então |X| ∼ Exp(σ −1 ).
c) Das propriedades anteriores, se X ∼ Laplace(µ, σ −1 ), então |X − π| ∼

Exp(σ).
1.9.7 Modelo gama inverso

Uma variável aleatória contı́nua X segue uma distribuição gama inversa com
parâmetros α e β se a sua função densidade de probabilidade é dada por
β α −(α+1)

β
fX (x) = x exp − I(0,∞) (x), (1.16)
Γ(α) x
em que α > 0 , β > 0 e Γ (·) é a função gama (1.1). Diz-se que α é um

parâmetro de forma e β é um parâmetro de escala. Por notação, X ∼ GI(α, β).
A esperança e a variância de X são, respectivamente,
β β2
E(X) = e V ar(X) = 2 .
α−1 (α − 1) (α − 2)
A moda de X é
α−1
M oda(X) = ,
α+β−2
se α > 1 e β > 1.
Notar que, se Y ∼ Gama(α, β), então X = 1/Y segue uma distribuição

gama inversa com parâmetros α e β.
1.9.8 Modelo beta

Uma variável aleatória contı́nua X segue uma distribuição beta com parâmetros
α e β se a sua função densidade de probabilidade é dada por
Γ(α + β) α−1 β−1

fX (x) = x (1 − x) I(0,1) (x)
Γ(α)Γ(β)
1 β−1
= xα−1 (1 − x) I(0,1) (x) (1.17)
B(α, β)
em que α > 0 , β > 0, Γ (·) é a função gama (1.1) e B(·) é a função beta
(1.3). Por notação, X ∼ Beta(α, β). A esperança e a variância de X são,
respectivamente,
α αβ
E(X) = e V ar(X) = 2 .
α+β (α + β) (α + β + 1)
A moda de X é
α−1
M oda(X) = ,
α+β−2
20
(a) (b)
4
α = 1, β = 1 α = 1, β = 2
α = 0.5, β = 0.5 α = 2, β = 4
α = 2, β = 2 α = 2, β = 8
3 α = 4, β = 1
3
f X (x)
f X (x)
2
2
1
1
0
0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x x
Figura 1.6: Função densidade de probabilidade da distribuição beta para alguns

valores de α e β.
se α > 1 e β > 1.
Notar que, se X ∼ Beta(α, β), então 1 − X ∼ Beta(β, α). E ainda, se

X ∼ Beta(1, 1), então X ∼ U nif orme(0; 1).
Os painéis (a) e (b) da Figura 1.6 mostram os gráficos da função densidade

de probabilidade da distribuição beta para alguns valores de α e β.
1.9.9 Modelo t de Student

Sejam Z e Y variáveis aleatórias independentes, com distribuições Z ∼ N (0; 1)
e Y ∼ χ2 (v). Então,
Z
X=r
Y
v
segue uma distribuição t de Student com v graus de liberdade. Por notação,
X ∼ t(v) . A função densidade de probabilidade de X é

v+1 v+1
Γ −
x2

2 2
fX (x) = √ v 1 + I(−∞,∞) (x),
vπΓ v
2
tal que v é o número de graus de liberdade e Γ é a função gama (1.1). Notar
que fX (x) pode ser reescrita na forma
v+1
−
x2

1 2
fX (x) = 1+ I(−∞,∞) (x),
√

1 v v
vB ,
2 2
na qual B(·) é a função beta (1.3). A média de X é dada por E(X) = 0, se

v > 1, e indefinida, caso contrário, e a variância de X é dada por
( v
se v > 2
V ar(X) = v+2 ,
∞ se 1 < v ≤ 2
e indefinida, se v ≤ 1.
A Figura 1.7 exibe gráficos da função densidade de probabilidade da dis-

tribuição t de Student com 1, 2 e 200 graus de liberdade.
0.4
1 g.l.
2 g.l.
200 g.l.
0.3
f X (x)
0.2
0.1
0.0
−10 −5 0 5 10
Figura 1.7: Função densidade de probabilidade da distribuição t de Student com

1, 2 e 200 graus de liberdade.
1.9.10 Modelo de Cauchy

A função densidade de probabilidade da distribuição de Cauchy é dada por
1
fX (x) = " 2 # I(−∞,∞) (x),
x−µ
πσ 1 +
σ
sendo µ um parâmetro de locação e σ um parâmetro de escala. Por notação,

X ∼ Cauchy(µ, σ). A média de X não existe e sua variância é infinita.
Um caso especial ocorre quando µ = 0 e σ = 1, chamado de distribuição

padrão de Cauchy. Neste caso, fX (x) é equivalente à distribuição t de Student,
quando v = 1. Sua função densidade de probabilidade é
1
fX (x) = I(−∞,∞) (x). (1.18)
π (1 + x2 )
22
0.4
σ=1
σ=2
σ=3
0.3
f X (x)
0.2
0.1
0.0
−6 −4 −2 0 2 4 6
Figura 1.8: Função densidade de probabilidade da distribuição de Cauchy com

µ = 0 e diferentes valores de σ.
A Figura 1.8 descreve gráficos da função densidade de probabilidade da

distribuição de Cauchy com µ = 0 e diferentes valores de σ. Observa-se que as
curvas resultantes são simétricas em torno do parâmetro µ = 0.
A função distribuição acumulada FX (x) é

1 x−µ 1
FX (x) = P (X ≤ x) = arctan +
π σ 2
se x ≥ 0 e FX (x) = 0 se x < 0.
Algumas propriedades da distribuição de Cauchy são apresentadas a seguir:
a) Se a e b são constantes conhecidas, e X ∼ Cauchy(µ, σ), então aX + b ∼

Cauchy(aµ + b, |a| σ).
b) Se X ∼ Cauchy(µX , σX ) e Y ∼ Cauchy(µY , σY ) são distribuições indepen-

dentes, então X + Y ∼ Cauchy(µX + µY , σX + σY ).
c) Se X ∼ Cauchy(0, σ), então 1/X ∼ Cauchy(0, σ −1 ).
d) Se X ∼ N (0; 1) e Y ∼ N (0, 1), X e Y independentes, então X/Y ∼

Cauchy(0, 1).
1.10. ALGUNS MODELOS MULTIVARIADOS 23
1.9.11 Modelo F de Snedecor

Sejam W e Y variáveis aleatórias independentes, com distribuição W ∼ χ2 (n)
e Y ∼ χ2 (m). Então,
W
X= n
Y
m
segue uma distribuição F de Snedecor com n e m graus de liberdade. Por
notação, X ∼ Fn,m . A sua função densidade de probabilidade é dada por

m+n
Γ
2 n n/2 x(n−2)/2
fx (x) = n m I (x).
Γ Γ m nx (n+m)/2 (0,∞)
2 2 1 +
m
A média e a variância de X são dadas, respectivamente, por
m 2m2 (n + m − 2)
E(X) = se m > 2 e V ar(X) = se m > 4.
m−2 n(m − 2)2 (m − 4)
Algumas propriedades da distribuição F de Snedecor:

1
a) Se X ∼ Fn,m , então ∼ Fm,n .
X
b) Se X segue uma distribuição t de Student com m graus de liberdade, ou
seja, X ∼ t(m) , então X 2 ∼ F1,m .
1
c) Como consequência das propriedades anteriores, se X ∼ t(n) , então 2 ∼
X
Fn,1 .
1.10 Alguns modelos multivariados

1.10.1 Modelo multinomial
A distribuição multinomial é uma generalização da distribuição binomial con-
siderando n ensaios que resultam em uma dentre k possibilidades, tal que
k
n! Y xi
P (X1 = x1 , X2 = x2 , ..., Xk = xk ) = k
θi
Q
xi ! i=1
i=1
Pk
se xi ∈ {0, ..., n} e i=1 xi = n, e 0 caso contrário. Em cada um dos n ensaios,
a probabilidade de ocorrência da i-ésima possibilidade (i = 1, ..., k) é θi , tal que
Pk
i=1 θi = 1. Para um dado i , i = 1, ..., k, a média de Xi é E(Xi ) = nθi e a
variância de Xi é V ar(Xi ) = nθi (1 − θi ). Para um dado j, sendo j = 1, ..., k e
24
j 6= i, a covariância entre Xi e Xj é Cov(Xi , Xj ) = −nθi θj . Se k = 2, o modelo

multinomial reduz-se ao modelo binomial.
Exemplo 1.10: Em uma população, a distribuição dos indivı́duos conforme

seus grupos sanguı́neos (sistema ABO) se dá conforme o quadro a seguir.
Grupo O A B AB
Frequência 45% 42% 10% 3%
Assim, θ1 = 0, 45, θ2 = 0, 42, θ3 = 0, 10 e θ4 = 0, 03. Se escolhidos ao acaso

10 pessoas desta população, qual é a probabilidade de encontrarmos:
a) 4 pessoas com sangue tipo O, 4 pessoas com sangue tipo A, 2 pessoas com
sangue tipo B e nenhuma pessoa com sangue tipo AB?
10!
P (X1 = 4, X2 = 4, X3 = 2, X4 = 0) = 0, 454 0, 424 0, 102 0, 030
4!4!2!0!
' 0, 0402.
b) 5 pessoas com sangue tipo O, 4 pessoas com sangue tipo A, 1 pessoa com
sangue tipo B e nenhuma pessoa com sangue tipo AB?
10!
P (X1 = 5, X2 = 4, X3 = 1, X4 = 0) = 0, 455 0, 424 0, 101 0, 030
5!4!1!0!
' 0, 0724.
c) 2 pessoas com sangue tipo O, 2 pessoas com sangue tipo A, 2 pessoas com
sangue tipo B e 4 pessoas com sangue tipo AB?
10!
P (X1 = 2, X2 = 2, X3 = 2, X4 = 4) = 0, 452 0, 422 0, 102 0, 034
2!2!2!4!
' 0, 0000055.
1.10.2 Modelo de Dirichlet

A distribuição de Dirichlet de ordem k ≥ 2 possui f dp dada por
P
k k
Γ i=1 αk Y α −1
fX (x1 , ..., xk−1 , α1 , ..., αk ) = Qk xi i , (1.19)
i=1 Γ (αk ) i=1
Pk−1
para xi > 0 e αi > 0, i = 1, ..., k, satisfazendo a condição i=1 xi < 1 sendo
Pk−1
xk = 1 − i=1 xi . Em (1.19), Γ (·) é a função gama, dada em (1.1). Sendo
α = (α1 , ..., αk ) o vetor de parâmetros e X = (X1 , ..., Xk ), por notação, X ∼
Dir(α). Para um dado i , i = 1, ..., k, a média e a variância de Xi são dadas
respectivamente por
αi αi (A − αi )
E(Xi ) = e V ar(Xi ) = 2 ,
A A (A + 1)
1.11. FAMÍLIA EXPONENCIAL 25
Pk
tal que A = i=1 αk . A covariância entre Xi e Xj para i 6= j é dada por
αi αj
Cov(Xi , Xj ) = − 2 .
A (A + 1)
Notar que a distribuição beta (1.17) é um caso particular da distribuição de
Dirichlet, quando k = 2.
1.10.3 Modelo normal multivariado

A distribuição normal multivariada de ordem k ≥ 2 com vetor de médias µ =
(µ1 , ..., µk )T e matriz de variâncias e covariâncias Σ simétrica e positiva-definida
possui f dp dada por

1 1 T −1
fX (x1 , ..., xk ) = k 1 exp − (x − µ) Σ (x − µ) , (1.20)
(2π) 2 |Σ| 2 2
para −∞ < xi < ∞, i = 1, ..., k, tal que |Σ| é o determinante da matriz Σ. Por
notação, X ∼ N Mk (µ, Σ).
1.10.4 Modelo de Wishart

O modelo introduzido por John Wishart em 1928 assume que Y é uma matriz
de dimensões n×k com n > k−1 tal que cada linha de Y segue uma distribuição
normal multivariada, ou seja,
Y(i) = (Xi1 , Xi2 , ..., Xik ) ∼ N Mk (µ, Σ),
i = 1, ..., n, sendo µ = (0, ..., 0)T um vetor de k médias iguais a zero e Σ a
matriz de variâncias e covariâncias. A matriz X de dimensões k × k dada por
X = YT Y segue uma distribuição de Wishart com n graus de liberdade. A f dp
de X é dada por

1 n−k−1 1 −1

fX (x1 , ..., xk ) = nk n |X| 2
exp − tr Σ X ,
2 2 |Σ| 2 Γk n2 2
para −∞ < xi < ∞, sendo Γk (·) uma função gama multivariada dada por (1.2)
e tr(S) o traço da matriz S positiva definida. Por notação, X ∼ W ishartk (Σ, n).
Se σij é o elemento da linha i e coluna j da matriz Σ (sendo 1 ≤ i ≤ k, 1 ≤
j ≤ k), em que σi2 = σii para algum i, a média e a variância de Xij são dadas
por
2
+ σi2 σj2 .

E (Xij ) = nσij e V ar (Xij ) = n σij
1.11 Famı́lia exponencial

Diz-se que a distribuição fX (x |θ), θ ∈ Θ ⊂ R, de uma variável aleatória X
pertence à famı́lia exponencial unidimensional de distribuições se a sua função
de probabilidade ou função densidade de probabilidade pode ser escrita na forma
fX (x |θ) = a(θ)b(x) exp [c(θ)d(x)] , (1.21)
26
tal que a(·) e c(·) são funções reais de θ e b(·) e d(·) são funções reais de x.
Exemplo 1.11: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável

com distribuição de Poisson com média θ. Temos que
e−θ θx 1
fX (x |θ) = I{0,1,...} (x) = e−θ I{0,1,...} (x) exp(ln θ × x)
x! x!
pertence à famı́lia exponencial (1.21), sendo a(θ) = e−θ , b(x) = x! 1
I{0,1,...} (x),
c(θ) = ln θ e d(x) = x.

n x n−x
Exemplo 1.12: Seja fX (x |θ) = θ (1 − θ) I{0,1,2,...,n} (x). Dado
x
que
x
n−x n θ n θ
θx (1 − θ) = (1 − θ) = (1 − θ) exp x ln ,
1−θ 1−θ
n
fX (x |θ) pertence à famı́lia
temos que exponencial, sendo a(θ) = (1 − θ) ,
n
θ

b(x) = I{0,1,2,...,n} (x), c(θ) = ln 1−θ e d(x) = x.
x
Diz-se que a distribuição fX (x |θ), θ = (θ1 , ..., θk ) ∈ Θ ⊂ Rk , de uma

variável aleatória X pertence à famı́lia exponencial k-dimensional (k ≥ 2) de
distribuições se a sua função de probabilidade ou função densidade de probabi-
lidade pode ser escrita na forma
 
Xk
fX (x |θ) = a(θ)b(x) exp  cj (θ)dj (x) ,
j=1
tal que a(·), c1 (·), ..., ck (·) são funções reais de θ e b(·), d1 (·), ..., dk (·) são
funções reais de x.

com distribuição normal com média µ e variância σ 2 . Assim, k = 2 e θ = (µ, σ 2 ).
Temos
" #
2
1 (x − µ)
fX (x |θ) = √ exp − I(−∞,∞) (x)
2πσ 2σ 2
x2 µ2

1 µx
= √ exp − 2 + 2 − 2 I(−∞,∞) (x)
2πσ 2σ σ 2σ
2
x2

1 µ 1 µx
= exp − 2 √ I(−∞,∞) (x) exp − 2 + 2 .
σ 2σ 2π 2σ σ
Notamos que fX (x |θ) pertence à famı́lia exponencial, sendo a(θ) =
assim,
1 µ2 √1 I(−∞,∞) (x), c1 (θ) = − 1 2 , d1 (x) = x2 , c2 (θ) = µ2 e
σ exp − 2σ 2 , b(x) = 2π 2σ σ
d2 (x) = x.
1.12. FUNÇÃO CARACTERÍSTICA 27
1.12 Função caracterı́stica

A função caracterı́stica φX (t) da variável aleatória X é definida por
φX (t) = E eitX = E (cos tX) + iE (sen tx) ,

√
tal que t é real e i = −1.
Notas:
a) φX (t) = mX (it),
b) φX (0) = 1 e
c) |φX (t)| ≤ 1.
A função caracterı́stica determina por completo a distribuição de proba-

bilidade de X, tal que, se duas variáveis aleatórias possuem a mesma função
caracterı́stica, elas possuem a mesma função de distribuição.
Exemplo 1.14: Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes e

identicamente distribuı́das, com distribuição de Poisson com média λ. Qual é a
distribuição de
Xn
Y = Xi = X1 + X2 + ... + Xn ?
i=1
Se X ∼ P oisson(λ), a função caracterı́stica de X é

∞ ∞ x
itX
X λ e −λ x
−λ
X eit λ
eitx

φX (t) = E e = i =e
x=0
x! x=0
x!
e−λ exp eit λ = exp λ eit − 1 .

=
A função caracterı́stica de Y é

φY (t) = φX1 +X2 +...+Xn (t) = E eit(X1 +X2 +...+Xn )
n
Y
E eitXj = exp nλ eit − 1 .

=
j=1
Dado que φY (t) é a função caracterı́stica de uma variável aleatória com

distribuição de Poisson com parâmetro nλ, temos que Y ∼ P oisson(nλ).
Notar que, se a1 , a2 , ..., an são constantes conhecidas e X1 , X2 , ..., Xn são

variáveis aleatórias independentes, então a função caracterı́stica de
Y = a1 X1 + a2 X2 + ... + an Xn
28
é dada por
n
Y
φY (t) = φa1 X1 +a2 X2 +...+an Xn (t) = φXj (aj t) .
j=1
Em particular, temos que a função caracterı́stica da soma de duas variáveis

aleatórias X1 e X2 independentes é
h i
φX1 +X2 (t) = E eit(X1 +X2 ) = E eitX1 eitX2 = E eitX1 E eitX2

= φX1 (t)φX2 (t).
Exemplo 1.15: Sejam X1 e X2 variáveis aleatórias independentes, com

distribuição X1 ∼ Gama (α1 , β) e X2 ∼ Gama (α2 , β), com α1 > 0, α2 > 0 e
β > 0. De modo geral, se X ∼ Gama (α, β), a função caracterı́stica de X é
dada por
Z ∞ α
βα

β
φX (t) = E eitX = xα−1 e−(β−it)x dx =

.
Γ (α) 0 β − it
Portanto,
α1 α2
β β
φX1 +X2 (t) = φX1 (t)φX2 (t) =
β − it β − it
α1 +α2
β
= .
β − it
Temos, portanto, X1 + X2 ∼ Gama (α1 + α2 , β). Por extensão, se X1 , X2 ,

..., Xn são variáveis aleatórias independentes com distribuição Xj ∼ Gama (αj , β),
j = 1, ..., n, temos  
X n Xn
Xj ∼ Gama  αj , β  . (1.22)
j=1 j=1
1.13 Exercı́cios
1. Se X e Y são variáveis aleatórias independentes com variâncias finitas,
demonstre que:
(a) V ar (XY ) = V ar(X)V ar(Y ) + E 2 (X) V ar(Y ) + E 2 (Y ) V ar(X)

(b) V ar(Y ) = E [V ar (Y |X )] + V ar [E (Y |X )]
2. Mostre que:
1.13. EXERCÍCIOS 29
(a) Se a e b são constantes, e X e Y são variáveis aleatórias, Cov(aX, bY ) =

abCov(X, Y ).
(b) Se a1 , a2 , ..., an , b1 , b2 , ..., bm são constantes,
 
X n X m Xn X m
Cov  ai Xi , bj Yj  = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1
3. Resolva as integrais:
R1 2
(a) 0 x3 (1 − x) dx
R∞
(b) 0 x3 e−2x dx
R∞
(c) 0 xe−x dx
" #
2
R∞ (x − 3)
(d) −∞ exp − dx
8
4. Seja X uma variável aleatória tal que X ∼ Binomial(n, θ).

n n−1
(a) Encontre E(X). Dica: x =n .
x x−1
(b) Encontre V ar(X).
5. Encontre E(X) e V ar(X) quando:
(a) fX (x) = axa−1 I(0;1) (x), a > 0

(b) fX (x) = n−1 I{1,2,...,n} (x), n inteiro, n > 0
(c) fX (x) = 23 (x − 1)2 I(0;2) (x),
(d) fX (x) = 12 e|x−θ| I(−∞;∞) (x), em que −∞ < θ < ∞.
6. Considerando X uma variável aleatória, mostre que

2
2 x
fX (x) = √ exp − I(0;∞) (x)
2π 2
é função densidade de probabilidade.
7. Seja X1 , X2 , ..., Xn uma amostra aleatória com distribuição X ∼ N (µ, σ 2 ).
Mostre que p
n(n − 1)(X n − µ)
q
Pn 2 ∼ t(n−1) .
i=1 Xi − X n
8. Seja Y uma variável aleatória com função de probabilidade

ω + (1 − ω) e−λ se y = 0


P (Y = y) = e−λ λy
 (1 − ω) se y = 1, 2, ...
y!
30
P∞
(a) Mostre que y=0 P (Y = y) = 1
(b) Escreva como devem ser definidos λ e ω, os parâmetros desta dis-
tribuição
(c) Encontre E(Y ) e V ar(Y )
Capı́tulo 2
O método frequentista
Neste capı́tulo, exploraremos alguns conceitos fundamentais do método frequen-

tista, antes de introduzirmos o método bayesiano. Estes conceitos serão úteis,
inclusive, para fazermos algumas analogias entre as duas abordagens. Maiores
detalhes sobre o método frequentista podem ser encontrados em livros texto
como Mood et al. (1974), Casella e Berger (2001) e Millar (2011).
2.1 Estatı́stica
Uma estatı́stica é qualquer função dos elementos de uma amostra aleatória,
que não depende de nenhum parâmetro desconhecido.PSe X1 , X2 , ..., XQ
n é uma
n n
amostra aleatória, são exemplos de estatı́sticas: T1 = i=1 Xi e T2 = i=1 Xi .
Pn Qn θ
Por outro lado, T3 = i=1 (Xi − θ) e T4 = ln ( i=1 Xi ) não são estatı́sticas,
considerando θ desconhecido.
2.2 Estimação paramétrica por ponto

Seja X1 , X2 , ..., Xn uma amostra aleatória de uma função densidade de proba-
bilidade (ou função de probabilidade) f (x; θ). Um estimador para τ (θ), uma
função do parâmetro θ, é qualquer estatı́stica T = g(X1 , X2 , ..., Xn ) utilizada
para representar τ (θ). Se, desta forma, T é um estimador para τ (θ) = θ, deno-
tamos
θ = g(X1 , X2 , ..., Xn ).
b
Dizemos que b
θ é consistente para θ se, para algum ε > 0,

lim P bθ − θ > ε = 0.

n→∞
31
32
2.3 Erro quadrático médio

Seja T um estimador de τ (θ). O erro quadrático médio (EQM ) de T é dado
por h i
2
EQM (T ) = E (T − τ (θ)) .
Notar que
EQM (T ) = E T 2 − 2τ (θ)E (T ) + τ 2 (θ),

e, considerando E T 2 = V ar (T ) + E 2 (T ), temos
EQM (T ) = V ar (T ) + E 2 (T ) − 2τ (θ)E (T ) + τ 2 (θ)

2
= V ar (T ) + [E (T ) − τ (θ)]
= V ar (T ) + B 2 (T ) ,
em que B (T ) = E (T ) − τ (θ) é o vı́cio do estimador T .
2.4 Consistência em erro quadrático médio

Seja T1 , T2 , ..., Tn uma sequência de estimadores de τ (θ), sendo Tk = gk (X1 , ...,
Xk ) baseado em uma amostra tamanho k, para k = 1, ..., n. Esta sequência de
estimadores é definida como consistente em erro quadrático médio se e somente
se h i
2
lim E (Tn − τ (θ)) = 0.
n→∞
2.5 Estimador não viciado para τ (θ)

Um estimador T é considerado não viciado para τ (θ) se E (T ) = τ (θ), ou seja,
se
B (T ) = E (T ) − τ (θ) = 0,
para todo θ pertencente ao espaço paramétrico Θ. Neste caso,
EQM (T ) = V ar (T ) .
Por outro lado, um estimador T é considerado assintoticamente não viciado

para θ se
lim B (T ) = 0,
n→∞
para todo θ pertencente ao espaço paramétrico Θ.
2.6 Desigualdade de Cramér-Rao

Seja T = g(X1 , X2 , ..., Xn ) um estimador não viciado de τ (θ). Se satisfeitas as
condições de regularidade
2.6. DESIGUALDADE DE CRAMÉR-RAO 33
∂
a) ln f (x; θ) existe para todo x e todo θ,
∂θ
∂ R R Q n R R ∂ Q n
b) ... f (xi ; θ) dx1 ...dxn = ... f (xi ; θ) dx1 ...dxn ,
∂θ i=1 ∂θ i=1
∂ R R n
Q
c) ... g(x1 , ..., xn ) f (xi ; θ) dx1 ...dxn
∂θ i=1
R R ∂ Q n
= ... g(x1 , ..., xn ) f (xi ; θ) dx1 ...dxn e
∂θ i=1
( 2 )
∂
d) 0 < Eθ ln f (X; θ) < ∞ para todo θ ∈ Θ,
∂θ
então é válida a desigualdade de Cramér-Rao:

2
[τ 0 (θ)]
V arθ (T ) ≥ ( 2 ) ,
∂
nEθ ln f (X; θ)
∂θ
∂τ (θ)
em que τ 0 (θ) = . As condições de regularidade apresentadas referem-se
∂θ
a uma variável aleatória contı́nua, mas podem ser adaptadas a uma variável
aleatória discreta. O lado direito desta desigualdade é chamado limite inferior
de Cramér-Rao.
Consequentemente, a estatı́stica T = g(X1 , X2 , ..., Xn ) é considerada um

estimador não viciado e uniformemente de variância mı́nima (EN V U V M ) para
τ (θ) se:
a) Eθ (T ) = τ (θ) para todo θ ∈ Θ e

b) se T ∗ é qualquer outro estimador não viciado para τ (θ), é sempre válida a
desigualdade V arθ (T ) ≤ V arθ (T ∗ ).
Notar que:
( 2 ) 2
∂ ∂
a) Eθ ln f (X; θ) = −Eθ ln f (X; θ) ,
∂θ ∂θ2
∂
b) a quantidade ln f (X; θ) é chamada função escore, e
∂θ
( 2 )
∂
c) a quantidade I(θ) = Eθ ln f (X; θ) é chamada informação de Fisher
∂θ
de θ.
34
Exemplo 2.1: Seja X1 , X2 , ..., Xn uma amostra aleatória de f (x; θ) =

θe−θx I(0,∞) (x), e seja τ (θ) = θ. Temos τ 0 (θ) = 1 e
∂ ∂ 1
ln f (X; θ) = [ln θ − θX] = − X.
∂θ ∂θ θ
Portanto, se T = t(X1 , X2 , ..., Xn ) é um estimador não viciado de θ,
1 1 θ2
V arθ (T ) ≥ ( 2 ) = nV ar (X) = n .
1 θ
nEθ −X
θ
Exemplo 2.2: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-

tribuição com função densidade de probabilidade
" #
2
1 (x − θ)
fX (x; θ, σ) = √ exp −
2πσ 2σ 2
com −∞ < x < ∞, −∞ < θ < ∞ e σ > 0, e seja τ (θ) = θ. Temos τ 0 (θ) = 1 e
" #
∂ ∂ √ (X − θ)2 X −θ
ln f (X; θ) = − ln 2πσ − = .
∂θ ∂θ 2σ 2 σ2
Se T = t(X1 , X2 , ..., Xn ) é um estimador não viciado de θ,
1 1 σ2
V arθ (T ) ≥ " 2 # = h i = ,
X −θ Eθ (X − θ)
2 n
nEθ n
σ2 σ4
h i
2 Pn Xi
dado que Eθ (X − θ) = V arθ (X) = σ 2 . Seja a estatı́stica T1 = i=1 n .
Dado que
n
1X
E (T1 ) = E (Xi ) = θ,
n i=1
temos que T1 é não viciado para θ. E ainda,

n
1 X σ2
V ar (T1 ) = 2
V ar (Xi ) = .
n i=1 n
Portanto, T1 é estimador não viciado e uniformemente de variância mı́nima

(EN V U V M ) para θ, dado que a sua variância é igual ao limite inferior de
Cramér-Rao.
2.7. ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA 35
2.7 Estimadores de máxima verossimilhança

Dada uma amostra aleatória X1 , X2 , ..., Xn , tal que estas variáveis aleatórias
seguem a mesma distribuição de probabilidade fX (x, θ) com vetor de parâmetros
θ, a função de verossimilhança da amostra L(x, θ) é dada pela função de dis-
tribuição conjunta da amostra (1.4), ou seja,
n
Y
L(x, θ) = fX1 ,X2 ,....,Xn (x, θ) = f (xi , θ),
i=1
sendo x = (x1 , x2 , ..., xn ) o vetor de observações amostrais de X1 , X2 , ..., Xn .

O método da máxima verossimilhança objetiva encontrar estimadores para os
parâmetros em θ tais que estes estimadores maximizem a “probabilidade de
ocorrência” (ou melhor, verossimilhança) dos elementos da amostra aleatória.
Por simplicidade, se X1 , X2 , ..., Xn é uma amostra aleatória de uma f dp (ou

f p) fX (x, θ) com um único parâmetro θ e X = (X1 , X2 , ..., Xn ), o estimador de
máxima verossimilhança (EM V ) de θ é tal que
θ = maxL(X, θ).
b
θ
Observar que:
a) maximizar a função L(X, θ) é equivalente a maximizar ln L(X, θ);

b) se L(X, θ) é diferenciável em relação a θ, o valor de θ que maximiza L(X, θ)
é tal que
d
ln L(X, θ) = 0;
dθ
c) se f (x, θ) depende de mais de um parâmetro, ou seja, θ = (θ1 , ..., θk ), os es-
timadores de máxima verossimilhança são obtidos do sistema de equações
∂
ln L(X, θ) = 0, j = 1, ..., k;
∂θj
d) se b
θ é o EM V de θ e τ (θ) é uma função de θ que possui uma única inversa,
a propriedade de invariância diz que o EM V de τ (θ) é τ (b
θ).
Exemplo 2.3: Seja X1 , X2 , ..., Xn uma amostra aleatória de distribuição

de Poisson, sendo
e−λ λx
fX (x, λ) = ,
x!
com x = 0, 1, 2, ... e λ > 0. A função de verossimilhança é dada por
n n
Y
−nλ
Pn
xi
Y 1
L(x, λ) = fX (xi , λ) = e λ i=1 ,
i=1
x
i=1 i
!
36
e seu logaritmo é dado por

Xn Xn
ln L(x, λ) = −nλ + xi ln λ − ln xi !.
i=1 i=1
A derivada de ln L(X, λ) em relação a λ é dada por

∂ ln L(X, λ) Xn 1
= −n + Xi .
∂λ i=1 λ
Igualando essa expressão a zero, temos que o estimador de máxima verossim-
ilhança λ
b de λ é dado por
Pn
Xi
λ = i=1 .
b
n
Seja uma amostra aleatória de tamanho n = 20, sendo observados os valores:
9, 11, 4, 11, 4, 4, 9, 5, 7, 9, 5, 10, 7, 6, 10, 7, 12, 4, 5 e 6. A Figura 2.1 mostra um
gráfico de ln L(x, λ) em relação a valores de λ variando de 0 a 15. Observa-se
que o máximo de ln L(x, λ) em relação a λ encontra-se no ponto
b = 9 + 11 + 4 + 11 + ... + 6 = 7, 25.
λ
20
−200
−400
ln L (x|λ)
−600
−800
−1000
−1200
7.25
0 5 10 15
Figura 2.1: Gráfico de ln L(x, λ) em relação a valores de λ.

tribuição com densidade
" #
2
1 (x − θ1 )
fX (x, θ) = fX (x; θ1 , θ2 ) = √ exp − ,
2πθ2 2θ2
com −∞ < x < ∞, −∞ < θ1 < ∞ e θ2 > 0. A função de verossimilhança é

dada por
n n2 " n
#
Y 1 1 X 2
L(x, θ) = fX (xi ; θ1 , θ2 ) = exp − (xi − θ1 ) ,
i=1
2πθ2 2θ2 i=1
2.7. ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA 37
e seu logaritmo é dado por

n
n 1 X 2
ln L(x, θ) = − ln (2πθ2 ) − (xi − θ1 ) .
2 2θ2 i=1
Igualando a expressão
n
∂ ln L(X, θ) 1 X
= (Xi − θ1 )
∂θ1 θ2 i=1
a zero, temos que o estimador b

θ1 de máxima verossimilhança de θ1 é dado por
n
X Xi
θ1 =
b ,
i=1
n
e igualando a expressão
n
∂ ln L(X, θ) n 1 X 2
=− + 2 (Xi − θ1 )
∂θ2 2θ2 2θ2 i=1
a zero e substituindo θ1 por b

θ1 , temos que o estimador b
θ2 de máxima verossim-
ilhança de θ2 é dado por
2
n
X Xi − b
θ1
θ2 =
b .
i=1
n
Seja, por exemplo, uma amostra de tamanho n = 20, sendo observados os

valores 40,0, 40,2, 35,0, 40,4, 44,2, 39,2, 34,5, 45,5, 40,3, 37,8, 32,0, 35,8, 42,6,
40,5, 36,9, 40,5, 38,6, 39,7, 46,3 e 39,9. As estimativas de máxima verossimi-
lhança de θ1 e θ2 podem ser facilmente obtidas usando o programa R:
x <- c(40.0, 40.2, 35.0, 40.4, 44.2, 39.2, 34.5, 45.5, 40.3, 37.8,
32.0, 35.8, 42.6, 40.5, 36.9, 40.5, 38.6, 39.7, 46.3, 39.9)
n <- length(x)
theta1.hat <- sum(x)/n
theta2.hat <- sum((x-theta1.hat)^2)/n
Obtemos então:
> theta1.hat
[1] 39.495
> theta2.hat
[1] 12.20348
Assim, as estimativas são b

θ1 = 39, 495 e b
θ2 = 12, 20348.
38
2.8 Estatı́stica suficiente

O objetivo de buscar uma estatı́stica suficiente consiste em sumarizar a in-
formação contida em uma amostra aleatória, necessária para estimar um parâme-
tro θ. Assim, uma estatı́stica suficiente para θ é uma função da amostra aleatória
que fornece tanta informação sobre θ quanto a própria amostra. Assim, seja
X1 , X2 , ..., Xn uma amostra aleatória de uma f dp (ou f p) fX (x, θ). Então a es-
tatı́stica T = g(X1 , X2 , ..., Xn ) é suficiente para θ se a distribuição condicional
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn |T = t ) não depende de θ, sendo t = g(x1 , x2 , ..., xn ).
Exemplo 2.5: Seja X1 , X2 , ..., Xn uma amostra aleatória de P uma dis-

n
tribuição binomial, tal que X ∼ Binomial(1; θ). Seja a estatı́stica T = i=1 Xi .
Temos que T ∼ Binomial(n; θ) e, para 0 ≤ θ ≤ 1 e t = 0, 1, 2, ..., n,
P (X1 = x1 , X2 = x2 , ..., Xn = xn )
fX1 ,....,Xn (x1 , ..., xn |T = t ) =
P (T = t)
Qn Qn
i=1 P (Xi = xi ) θxi (1 − θ)1−xi
= = i=1
P (T = t) n t
θ (1 − θ)n−t
t
Pn Pn
xi
(1 − θ)n− i=1 xi
θ i=1 1
= = ,
n t n
θ (1 − θ)n−t
t t
Pn
que não depende de θ. Portanto, T = i=1 Xi é suficiente para θ.
2.8.1 Teorema da fatoração

Seja X1 , X2 , ..., Xn uma amostra aleatória de tamanho n de uma f dp (ou f p)
fX (x, θ). A estatı́stica T = g(X1Q
, X2 , ..., Xn ) é suficiente para θ se e somente se
n
a densidade conjunta L(x, θ) = i=1 fX (xi , θ) pode ser escrita na forma
L(x, θ) = h1 [g(x), θ] × h2 (x),
em que h2 (x) é uma função não negativa que não depende de θ e a função
h1 [g(x), θ] é não negativa e depende de x somente através de g(x).
Notar que se fX (x, θ) pertence à famı́lia exponencial (1.21), temos que
n
Y n
Y
L(x, θ) = fX (xi , θ) = {a(θ)b(xi ) exp [c(θ)d(xi )]}
i=1 i=1
" n
# " n
#
n
Y X
= [a(θ)] b(xi ) exp c(θ) d(xi ) .
i=1 i=1
Pn
Sendo h1 [g(x), θ] = expP[c(θ) i=1 d(xi )] uma função
Pque depende de x so-
n n
mente através de g(x) = i=1 d(xi ), temos que T = i=1 d(Xi ) é suficiente
para θ.
2.9. INTERVALOS DE CONFIANÇA 39

tribuição de Bernoulli com probabilidade de sucesso θ. Assim, fX (x, θ) =
θx (1 − θ)1−x I{0;1} (x). Nota-se que
Pn Pn n
Y
xi
L(x, θ) = θ i=1 (1 − θ)n− i=1 xi
I{0;1} (x)
i=1
= h1 [g(x), θ] × h2 (x),
Pn Pn Qn
em que h1 [g(x), θ] = θ i=1 xi (1 − θ)n− i=1 xi e h2 (x) = P i=1 I{0;1} (x), sendo
n
h1 [g(x),
Pn θ] uma função que depende de x através de g(x) = i=1 xi . Portanto,
T = i=1 Xi é suficiente para θ.

com função densidade de probabilidade fX (x, θ) = θ(1 + x)−(1+θ) I(0;∞) (x), em
que θ > 0. Notar que fX (x, θ) pertence à famı́lia exponencial (1.21), dado que
fX (x, θ) = θ exp [− (1 + θ) ln(1 + x)] I(0;∞) (x),

Pn
com d(x) = ln(1+x). Portanto, pelo teorema da fatoração, T = i=1 ln(1+Xi )
é suficiente para θ.
2.9 Intervalos de confiança

bilidade (ou função de probabilidade) f (·, θ). Sejam T1 = t1 (X1 , X2 , ..., Xn ) e
T2 = t2 (X1 , X2 , ..., Xn ) duas estatı́sticas satisfazendo T1 ≤ T2 e Pθ [T1 < τ (θ)
< T2 ] = γ, tal que τ (θ) é uma função de θ estritamente monótona e γ não
depende de θ. O intervalo aleatório (T1 , T2 ) é chamado intervalo de confiança
(IC) para τ (θ), tal que γ é chamado coeficiente de confiança, γ ∈ (0; 1), e T1 e
T2 são, respectivamente, os limites de confiança inferior e superior.
Exemplo 2.8: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma

Pn variável
aleatória X ∼ N (θ; σ 2 ), tal que σ 2 é conhecido. Seja X n = n−1 i=1 Xi , tal
que X n ∼ N (θ; n−1 σ 2 ). Assim,
√
Xn − θ n
∼ N (0; 1).
σ
Considerando P (−1, 96 < Z < 1, 96) = 0, 95 quando Z ∼ N (0; 1), temos
√ !
Xn − θ n
P −1, 96 < < 1, 96 = 0, 95, e
σ

σ σ
P X n − 1, 96 √ < θ < X n + 1, 96 √ = 0, 95.
n n
40
Portanto, um intervalo de confiança 95% para θ é

σ σ
X n − 1, 96 √ ; X n + 1, 96 √ .
n n
Vamos supor uma amostra de tamanho n = 20, sendo observados os valores
40,0, 40,2, 35,0, 40,4, 44,2, 39,2, 34,5, 45,5, 40,3, 37,8, 32,0, 35,8, 42,6, 40,5,
36,9, 40,5, 38,6, 39,7, 46,3 e 39,9. Suponha σ = 3 conhecido e xn = 39, 495 um
valor de X n obtido desta amostra. A função a seguir, escrita no programa R,
calcula um intervalo de confiança para θ:
x <- c(40.0, 40.2, 35.0, 40.4, 44.2, 39.2, 34.5, 45.5, 40.3, 37.8,
32.0, 35.8, 42.6, 40.5, 36.9, 40.5, 38.6, 39.7, 46.3, 39.9)
ICmedia <- function(x,sigma,coef=0.95) {

z <- qnorm(1-(1-coef)/2)
n <- length(x)
m <- mean(x)
r <- z*sigma/sqrt(n)
print(paste("IC",100*coef,"%: (",round(m-r,3)," ; ",
round(m+r,3),")"))
}
Assim,
ICmedia(x,sigma=3,coef=0.95)
[1] "IC 95 %: ( 38.18 ; 40.81 )"
Nota: No método frequentista, não é correto concluir que há uma proba-
bilidade de 95% do parâmetro θ estar inserido no intervalo (38, 18; 40, 81). O
parâmetro é sempre considerado um valor fixo, e não um evento. Portanto, não
é possı́vel atribuir a θ uma probabilidade. Considera-se que, se obtivermos um
número bastante grande de amostras de tamanho n de uma população, sem-
pre utilizando o mesmo método de amostragem, em aproximadamente 95% das
amostras encontrarı́amos um intervalo de confiança que contém θ. Nos próximos
capı́tulos, veremos que no método bayesiano estes conceitos serão tratados de
forma diferente.

X ∼ N (0; θ). Sendo
(n − 1) S 2
∼ χ2(n−1) ,
θ
temos
(n − 1) S 2

P q1 < < q2 = γ,
θ
q2 > q1 , e, consequentemente, um intervalo de confiança γ × 100% para θ é
(n − 1) S 2 (n − 1) S 2

; ,
q2 q1
sendo que escolhemos q1 e q2 tais que a área sombreada sob a curva qui-quadrado
com n − 1 graus de liberdade mostrada na Figura 2.2 é igual a γ. Notar que
não há uma única possı́vel escolha para q1 e q2
0 q1 5 10 q2 15
Figura 2.2: Curva qui-quadrado com n−1 graus de liberdade. A área sombreada
sob a curva, de q1 a q2 , equivale a γ×100% de sua área total e define um intervalo
de confiança γ × 100% para θ.
Nota: Se (T1 , T2 ) é IC γ ×100% para θ, então (τ (T1 ) , τ (T2 )) é IC γ ×100%

para τ (θ) desde que τ (·) seja uma função estritamente monótona. Notar que
Pθ [τ (T1 ) < τ (θ) < τ (T2 )] = Pθ [T1 < θ < T2 ] = γ.
2.9.1 Quantidade pivotal

bilidade (ou função de probabilidade) f (·, θ). Seja Q = q(X1 , X2 , ..., Xn , θ).
Notar que Q não é uma estatı́stica, dado que é uma função de X1 , X2 , ..., Xn e
também de θ. Se Q segue uma distribuição que não depende de θ, então Q é
uma quantidade pivotal.
(n − 1) S 2
Exemplo 2.10: Seja Q = , tal que S 2 é a variância amostral,
θ
Pn 2
i=1 Xi − X n
dada por S 2 = . Assim, Q ∼ χ2(n−1) . Observamos que Q é
n−1
quantidade pivotal, dado que é função de X1 , X2 , ..., Xn e θ e a sua distribuição
não depende de θ.
√
Xn − θ n
Exemplo 2.11: Seja Q = , sendo σ conhecido e X n ∼
σ
σ2

N θ; . Assim, Q ∼ N (0; 1). Observamos que Q é quantidade pivotal,
n
dado que é função de X1 , X2 , ..., Xn e θ e sua distribuição não depende de θ.
42
2.9.2 Método da quantidade pivotal

Se Q = q(X1 , X2 , ..., Xn , θ) é quantidade pivotal e segue uma função densidade
de probabilidade (ou função de probabilidade), então, para um γ fixo, γ ∈ (0; 1),
existem q1 e q2 tais que P [q1 < Q < q2 ] = γ. Observamos que:
(i) para qualquer distribuição de Q, q1 e q2 são independentes de θ e
(ii) para um γ fixo, não há um único par q1 e q2 tal que P (q1 < Q < q2 ) = γ.
É desejável escolher q1 e q2 tais que a diferença q2 − q1 seja a menor
possı́vel, o que minimiza a amplitude do IC. Se Q segue uma distribuição
normal padrão ou outra distribuição simétrica em torno de 0, o mı́nimo
para q2 − q1 é tal que q2 = −q1 = q.
Assim, os passos para a obtenção de um IC γ × 100% para θ pelo método

da quantidade pivotal são:
(i) encontrar uma quantidade pivotal Q = q(X1 , X2 , ..., Xn , θ) e
(ii) “pivotar” Q, ou seja, encontrar q1 e q2 tais que P (q1 < Q < q2 ) = γ e

a partir daı́ encontrar T1 = g1 (X1 , X2 , ..., Xn ) e T2 = g2 (X1 , X2 , ..., Xn )
satisfazendo T1 ≤ T2 e Pθ [T1 < θ < T2 ] = γ.

aleatória X ∼ Exp(θ), θ > 0. Desejamos encontrar umPIC γ × 100% para
n
θ. Se X ∼ Exp(θ), então X ∼ Gama(1; θ). Se Y = i=1 Xi , temos que
Y ∼ Gama(n; θ) (ver (1.22)). Notar que Y não é quantidade pivotal, pois sua
distribuição de probabilidade depende de θ. No entanto, Q = 2θY segue uma
distribuição qui-quadrado com 2n graus de liberdade (o que pode ser provado
pela f gm de Q). Como Q = 2θY é função de X1 , X2 , ..., Xn e θ e sua dis-
tribuição não depende de θ, Q é quantidade pivotal. Assim, a probabilidade
P (q1 < Q < q2 ) = γ, tal que Q = 2θY ∼ χ2(2n) , é utilizada para gerar o IC
γ × 100% para θ. De
 
n
!
X  q1 q2 
P (q1 < Q < q2 ) = P q1 < 2θ Xi < q2 =P
 P n <θ< Pn
 = γ,

i=1 2 Xi 2 Xi
i=1 i=1
temos que um IC γ × 100% para θ tem por limites inferior e superior, respec-
tivamente,
q1 q2
n
P e Pn .
2 Xi 2 Xi
i=1 i=1
2.9.3 Obtenção de quantidades pivotais

Se X1 , X2 , ..., Xn é uma a.a. de uma variável contı́nua com função densidade
de probabilidade f (·, θ), uma quantidade pivotal Q = q(X1 , X2 , ..., Xn , θ) pode
ser encontrada a partir destes três resultados:
Resultado 1: Se X1 , X2 , ..., Xn é uma a.a. de uma função densidade de

probabilidade com distribuição FX (·) contı́nua, então
Y = FX (X) ∼ U (0; 1).
Este resultado pode ser demonstrado a partir da relação:
−1 −1

FY (y) = P (Y ≤ y) = P [FX (X) ≤ y] = P FX (FX (X)) ≤ FX (y)
−1
−1
= P X ≤ FX (y) = FX FX (y) = y (2.1)
se 0 ≤ y < 1, FY (y) = 0 se y < 0 e FY (y) = 1 se y > 1, o que caracteriza uma
distribuição uniforme no intervalo (0; 1).
Resultado 2: Se Y ∼ U (0; 1), então W = − ln Y segue uma distribuição

W ∼ Exp(1). Notar que
FW (w) = P (W ≤ w) = P (− ln Y ≤ w) = 1 − P (ln Y ≤ −w)
= 1 − P Y ≤ e−w = 1 − FY (e−w ).

De (2.1), temos FY (e−w ) = e−w para w > 0. Assim, FW (w) = 1 − e−w , o que
caracteriza uma distribuição exponencial (ver (1.14)) com parâmetro igual a 1.
W2 , ..., Wn é uma a.a. com distribuição W ∼ Exp(1),

Resultado 3: Se W1 ,P
n
então W ∼ Gama(1; 1) e i=1 Wi ∼ Gama(n; 1) (ver (1.22)).
Se X1 , X2 , ..., Xn são variáveis aleatórias contı́nuas independentes e identica-

mente distribuı́das (iid) com distribuição FX (·), a partir destes três resultados
temos as relações:
Yi = FX (Xi ) ∼ U (0; 1), i = 1, ..., n,
− ln Yi = − ln FX (Xi ) ∼ Exp(1), i = 1, ..., n, e
n
X Yn
[− ln FX (Xi )] = − ln FX (Xi ) ∼ Gama(n; 1).
i=1 i=1
n
P n
Q
Como Q = [− ln FX (Xi )] = − ln FX (Xi ) é função de X1 , X2 , ..., Xn
i=1 i=1
e de θ e sua distribuição não depende de θ, Q é quantidade pivotal.
Exemplo 2.13: Seja X1 , X2 , ..., Xn uma amostra aleatória de f (x; θ) =

θxθ−1 I(0,1) (x). Desde que FX (x) = xθ I(0,1) (x) + I[1,∞) (x),
n
Y n
Y n
Y
Q = − ln FX (Xi ) = − ln Xiθ = −θ ln Xi ∼ Gama(n; 1)
i=1 i=1 i=1
44
é quantidade pivotal.
Exemplo 2.14: Seja X1 , X2 , ..., Xn uma amostra aleatória com distribuição

X ∼ U (0, θ). Como f (x; θ) = θ−1 I(0,θ) (x), então
Z x
1 x
FX (x) = dy = I[0,θ) (x) + I[θ,∞) (x).
0 θ θ
Assim,
n n
Y Y Xi
Q = − ln FX (Xi ) = − ln ∼ Gama(n; 1)
i=1 i=1
θ
é quantidade pivotal.
2.10 Método assintótico

Seja X uma variável aleatória com função densidade de probabilidade (ou função
de probabilidade) f (x; θ) e seja b
θn = g(X1 , X2 , ..., Xn ) o estimador de máxima
verossimilhança (EM V ) de θ para uma amostra aleatória de tamanho n de
f (x; θ). Temos que b θn segue uma distribuição assintoticamente normal com
média θ e variância
1 1
σn2 (θ) = ( 2 ) = 2 .
∂ ∂
nEθ ln f (X; θ) −nEθ ln f (X; θ)
∂θ ∂θ2
Se Tn é uma sequência de estimadores de θ com distribuição assintoticamente

normal, podemos obter intervalos de confiança aproximados para θ tratando
T −θ Tn − θ
pn =
σn2 (θ) σn (θ)
como uma quantidade pivotal aproximada, com distribuição assintótica normal
padrão.
Exemplo 2.15: Seja X1 , X2 , ..., Xn uma amostra aleatória de

f (x; θ) = θe−θx I(0,∞) (x).
−1
θn = X n , com média θ e variância σn2 (θ). Dado que
O EM V de θ é b
∂ ∂ 1
ln f (X; θ) = [ln θ − θX] = − X,
∂θ ∂θ θ
a variância σn2 (θ) é dada por
1 1 θ2
σn2 (θ) = ( 2 ) = nV ar (X) = n .
1 θ
nEθ −X
θ
2.11. TESTE DE HIPÓTESES FREQUENTISTA 45
Assim, uma quantidade pivotal aproximada é dada por
√

1
−θ n
Xn
Q= ∼ N (0; 1).
θ
2.11 Teste de hipóteses frequentista

Uma hipótese estatı́stica é uma conjectura sobre um parâmetro desconhecido
θ de uma variável aleatória com distribuição Fθ . No método frequentista, são
assumidas duas hipóteses, a hipótese nula (H0 ) e a hipótese alternativa (HA ),
ou seja, para um espaço paramétrico denotado por Θ,
H0 : θ ∈ Θ0 é a hipótese nula, em que Θ0 ⊂ Θ, e

HA : θ ∈ ΘC C
0 é a hipótese alternativa, em que Θ0 = ΘA
é o complemento de Θ0 .
Um teste de hipóteses, denotado por Υ, é uma regra usada para decidir

quando rejeitar (ou não) uma hipótese nula (H0 ). Essa regra é baseada em
uma amostra aleatória X1 , X2 , ..., Xn de uma distribuição Fθ . A rejeição de H0
quando H0 é verdadeira é chamada de erro tipo I, e a não rejeição de H0 quando
H0 é falsa é chamada de erro tipo II. Assim, denotam-se as probabilidades
condicionais:
Tamanho de um erro tipo I = P (rejeitar H0 |H0 é verdadeira )

Tamanho de um erro tipo II = P (não rejeitar H0 |HA é verdadeira ).

tribuição de Bernoulli com probabilidade de sucesso θ. Sejam as hipóteses
H0 : θ 6= 1/2
HA : θ = 1/2.
Como regra de decisão, decidimos rejeitar H0 se 1/4 ≤ T (X) ≤ 3/4, em que

n
X Xi
T (X) =
i=1
n
é denominada estatı́stica do teste, ou seja, é a estatı́stica T (X) = g(X1 , X2 , ..., Xn )

utilizada para gerar a regra de decisão com base na amostra. Dado que rejeitare-
mos H0 se e somente se T (X) ∈ [1/4; 3/4], definimos a região crı́tica CΥ do teste
Υ como
CΥ = {(x1 , x2 , ..., xn ) : T (x1 , x2 , ..., xn ) ∈ [1/4; 3/4]}.
46
2.11.1 Hipóteses simples e compostas

Se uma hipótese estatı́stica especifica completamente a distribuição em questão,
ou seja, é constituı́da por apenas um particular valor do parâmetro, a denomi-
namos hipótese simples. Caso contrário, a denominamos hipótese composta. Por
exemplo, se θ é um parâmetro de uma variável com distribuição Fθ , H0 : θ = 2
é uma hipótese simples, enquanto HA : θ ≥ 2 é uma hipótese composta.
Em adição, considerando θ0 uma constante conhecida, um teste da forma
H0 : θ = θ0
HA : θ 6= θ0
é conhecido como teste bilateral, devido a forma da hipótese alternativa. Neste

caso, o espaço paramétrico Θ é tal que Θ = Θ0 ∪ ΘA , em que Θ0 = {θ0 } e
ΘA = ΘC 0 = (−∞, θ0 ) ∪ (θ0 , ∞). Por outro lado, um teste da forma
H0 : θ = θ0
HA : θ > θ0
é conhecido como teste unilateral. Agora o espaço paramétrico Θ é dado por

[θ0 , ∞), em que Θ0 = {θ0 } e ΘA = ΘC0 = (θ0 , ∞).
2.11.2 Poder do teste

A função poder do teste Υ, denotada por βΥ (θ), é a probabilidade de H0 ser
rejeitada quando a distribuição da qual a amostra foi retirada é parametrizada
em θ. Portanto, é desejado que βΥ (θ) assuma valores relativamente grandes se
H0 é falsa.
2.11.3 Tamanho do teste

O tamanho do teste Υ, denotado por αΥ , é dado por
αΥ = sup {βΥ (θ) : θ ∈ Θ0 } = sup {βΥ (θ)} = sup {T (X) ∈ CΥ |θ } ,

θ∈Θ0 θ∈Θ0
ou seja, a menor cota superior de βΥ (θ) em que a hipótese nula é verdadeira. O

tamanho αΥ do teste Υ é comumente chamado de nı́vel de significância.

tribuição normal com média θ e variância igual a 25. Sejam as hipóteses
H0 : θ ≤ 17 e HA : θ > 17, e a estatı́stica de teste Υ dada por
n
X Xi
T (X) = X n = .
i=1
n
√
Rejeitaremos H0 se T (X) > 17 + 5/ n, ou seja, a região crı́tica é dada por

5
CΥ = (x1 , x2 , ..., xn ) : xn > 17 + √ .
n
Considerando
que, se X ∼ N (θ, 25), a distribuição amostral de X n é X n ∼
N θ, √25n , a função poder do teste Υ é dada por

5
βΥ (θ) = P X n > 17 + √ θ
n
√ √ √ !
Xn − θ n 17 n + 5 − θ n
= P > θ
5 5
√ √
17 n + 5 − θ n
= P Z> ,
5
em que Z ∼ N (0, 1). O tamanho do teste Υ é dado por

√ √
17 n + 5 − θ n
αΥ = sup {βΥ (θ) : θ ≤ 17} = sup P Z > .
θ≤17 5
2.11.4 Lema de Neyman-Pearson

Seja X1 , X2 , ..., Xn uma amostra aleatória de f (x; θ) e sejam as hipóteses H0 :
θ = θ0 e HA : θ = θ1 , θ0 e θ1 constantes, θ0 6= θ1 . O lema de Neyman-Pearson
diz que a região crı́tica CΥ de tamanho αΥ mais adequado para testar estas
hipóteses é aquela que satisfaz a
L (x1 , x2 , ..., xn ; θ0 )
a) ≤ k se (x1 , x2 , ..., xn ) ∈ CΥ ,
L (x1 , x2 , ..., xn ; θ1 )
L (x1 , x2 , ..., xn ; θ0 ) C
b) > k se (x1 , x2 , ..., xn ) ∈ CΥ ,e
L (x1 , x2 , ..., xn ; θ1 )
c) Pθ0 [(X1 , X2 , ..., Xn ) ∈ CΥ ] = αΥ ,

C
em que L(x1 , x2 , ..., xn ; θ) é a função de verossimilhança da amostra, CΥ é o
complemento de CΥ , αΥ é determinado tal que 0 < αΥ < 1 e k é uma constante
tal que k > 0 (ver demonstração em Mood et al., 1975, p.412, ou em Hogg e
Craig, 1978, p.245).

tribuição fX (x; θ) = θe−θx I(0,∞) (x), em que θ > 0. Desejamos testar as
hipóteses H0 : θ = 2 e HA : θ = 4. Sendo
Xn
L(x1 , x2 , ..., xn ; θ) = θn exp −θ xi ,
i=1
48
rejeitamos H0 quando
Pn Pn
L (x1 , x2 , ..., xn ; θ0 ) θ0n exp (−θ0 i=1 xi ) 2n exp (−2 i=1 xi )
= n Pn = n Pn ≤ k,
L (x1 , x2 , ..., xn ; θ1 ) θ1 exp (−θ1 i=1 xi ) 4 exp (−4 i=1 xi )
ou seja, quando em uma amostra tamanho n, encontramos

Xn
exp 2 xi ≤ 2n k, ou
i=1
Xn ln (2n k)
xi ≤ .
i=1 2
Pn
Assim, seja a estatı́stica de teste Y = T (X) = i=1 Xi . Dado que X ∼
Exp(θ) (ver (1.13)), temos que Y ∼ Gama(n, θ) (o que pode ser verificado
encontrando a função caracterı́stica de Y ). A constante k é então escolhida de
acordo com uma especificação do tamanho αΥ do teste, ou seja, k é tal que
ln (2n k)

P Y ≤ θ = 2 = αΥ .
2
2.11.5 Teste da razão de verossimilhanças

Seja X1 , X2 , ..., Xn uma amostra aleatória de fX (x; θ), θ ∈ Θ, e sejam as
hipóteses H0 : θ ∈ Θ0 e HA : θ ∈ Θ1 , em que Θ0 ⊂ Θ, Θ1 = ΘC 0 ⊂ Θ e
Θ0 e Θ1 são disjuntos. A razão de verossimilhanças é definida por
n
Q
sup L (x1 , x2 , ..., xn ; θ) sup fX (xi ; θ)
θ∈Θ0 θ∈Θ0 i=1
Λn = Λ(x1 , x2 , ..., xn ) = = n .
supL (x1 , x2 , ..., xn ; θ) Q
θ∈Θ sup fX (xi ; θ)
θ∈Θ i=1
Assim, Λ(X) é uma estatı́stica usada para testar as hipóteses H0 : θ ∈ Θ0 e

HA : θ ∈ Θ1 , sendo H0 rejeitada se e somente se Λ(X) ≤ k, em que a constante
k é determinada de acordo com a especificação do tamanho αΥ do teste, ou seja,
k é tal que
sup P (Λ(X) ≤ k) = αΥ .
θ∈Θ0

tribuição normal com média θ e variância σ 2 conhecida. Desejamos testar as
hipóteses H0 : θ = θ0 e HA : θ 6= θ0 , sendo θ0 conhecido. Temos
" n
#
2 −n/2
1 X 2
L(x; θ) = 2πσ exp − 2 (xi − θ) .
2σ i=1
A função L(x; θ) tem seu máximo em θ = X n . Portanto,

n
" n
#
Y
2 −n/2
1 X 2
sup fX (xi ; θ) = 2πσ exp − 2 xi − X n ,
θ∈Θ i=1 2σ i=1
e
n
n

2
exp − 2σ1 2
Q P
sup fX (Xi ; θ) (Xi − θ0 )
θ∈Θ0 i=1 i=1
Λ(X) = n = n

Q 1
2
sup fX (Xi ; θ)
P
exp − 2σ2 Xi − X n
θ∈Θ i=1 i=1
( " n #)
1 X 2 2
= exp − 2 (Xi − θ0 ) − (n − 1)S ,
2σ i=1
Pn 2
em que S 2 = i=1 Xi − X n /(n − 1) é a variância amostral. Notar que
n n
X 2
X 2 2 2
(Xi − θ0 ) = Xi − X n + n X n − θ0 = (n − 1)S 2 + n X n − θ0 .
i=1 i=1
Portanto, " 2 #
n X n − θ0
Λ(X) = exp − ,
2σ 2
sendo H0 rejeitada se e somente se Λ(X) ≤ k, para um valor constante de k.

Notar que a desigualdade
" 2 #
n X n − θ0
exp − ≤k
2σ 2
é equivalente a
X n − θ 0 √n

√
−2 ln k,
>
σ
√
ou seja, rejeitamos H0 se Λ∗ (X) = X n − θ0 σ −1 n for maior que k ∗ =
√
−2 ln k. A constante k ∗ é determinada tal que, para um αΥ fixo,
X n − θ 0 √n
!
∗
P >k = αΥ .
σ
Sob H0 , temos que Λ∗ (X) ∼ N (0; 1). Seja, por exemplo, αΥ = 0, 05. Re-
jeitamos H0 se, considerando
√ as observações de uma amostra tamanho n, a
quantidade |xn − θ0 | σ −1 n é maior que 1, 96.
2.11.6 Nı́vel descritivo

Para uma regra de decisão baseada em uma estatı́stica T = T (X), o nı́vel
descritivo do teste Υ (também chamado de valor p ou nı́vel de significância ob-
servado), é a menor possibilidade de escolha para αΥ que permite ao pesquisador
rejeitar H0 . Sejam as hipóteses H0 : θ ∈ Θ0 e HA : θ ∈ ΘC C
0 , tal que Θ0 ⊂ Θ e Θ0
é o complemento de Θ0 , e seja tn = T (x) o valor observado de T em uma amostra
50
aleatória tamanho n. Se decidirmos rejeitar H0 quando T ≤ k, em que k é um

número real, o nı́vel descritivo será dado por P ( T ≤ tn | θ ∈ Θ0 ). Se decidirmos
rejeitar H0 quando T ≥ k, o nı́vel descritivo será dado por P ( T ≥ tn | θ ∈ Θ0 ).
Desta forma, alguns autores definem o nı́vel descritivo como a probabilidade de
observar resultados tão extremos quanto os obtidos da amostra se a hipótese
nula for verdadeira.
Nas aplicações dos testes de hipóteses em diferentes áreas de pesquisa, é

comum a prática de adotar-se um teste de tamanho (nı́vel de significância)
αΥ , fixado previamente à obtenção dos dados amostrais, sendo a hipótese H0
rejeitada quando o nı́vel descritivo obtido da amostra é menor que o valor de
αΥ e não rejeitada caso contrário.
2.12 Exercı́cios
1. Verifique se as seguintes funções densidade de probabilidade pertencem à
famı́lia exponencial, e, se pertencem, encontre uma estatı́stica suficiente
para θ ∈ Θ.
1 x
(a) fX (x) = exp − I(0,∞) (x)
θ θ
(b) fX (x) = exp [− (x − θ)] I(0,∞) (x)
2 (θ − x)
(c) fX (x) = I[0,θ] (x)
θ2
2. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição com função
densidade de probabilidade
θ
(
se 0 < θ ≤ x < ∞
fX (x) = x2
0 caso contrário
Encontre um estimador de máxima verossimilhança para θ.
3. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição com função
densidade de probabilidade
1 x
fX (x) = exp − I(0,∞) (x).
θ θ
Encontre um estimador não viciado e uniformemente de variância mı́nima
(EN V U V M ) para τ (θ).
4. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável aleatória com
função de distribuição cumulativa
θ2
θ1
FX (x) = 1 − I(θ1 ,∞) (x).
x
Encontre os estimadores de máxima verossimilhança de θ1 e θ2 .
5. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição

1
fX (x) = I[θ,2θ] (x), θ > 0.
θ
(a) Mostre que fX (x) é função densidade de probabilidade.
(b) Encontre E(X) e V ar(X).
(c) Encontre um EM V para θ.
52
Capı́tulo 3
Métodos bayesianos
3.1 Introdução
A inferência bayesiana é baseada na fórmula de Bayes dada a seguir:
Seja A1 , A2 , . . . , Ak uma sequência de eventos mutuamente exclusivos e ex-
Sk
austivos, formando uma partição do espaço amostral Ω, isto é, Aj = Ω e
j=1
Ai ∩ Aj = φ (conjunto vazio) para i 6= j tal que
 
[k Xk
P Aj  = P (Aj ) = 1.
j=1 j=1
Então, para qualquer outro evento B (B ⊂ Ω), temos
P (B | Ai ) P (Ai )
P (Ai | B) = k
(3.1)
P
P (B | Aj ) P (Aj )
j=1
para todo i variando de 1 até k. Podemos interpretar a fórmula de Bayes (3.1) da

seguinte forma: antes do conhecimento de qualquer informação sobre o evento
Ai , atribuı́mos uma probabilidade a priori para Ai , dada por P (Ai ). Essa pro-
babilidade é atualizada a partir da ocorrência do evento B. Essa probabilidade
atualizada, ou probabilidade condicional do evento Ai dado a ocorrência do
evento B, ou seja, P (Ai | B) é dada pela fórmula de Bayes (3.1).
Exemplo 3.1: Um novo teste diagnóstico para detectar o vı́rus HIV é

apresentado como tendo 95% de sensibilidade e 98% de especificidade. Em uma
população com um prevalência de 1/1000 para o vı́rus HIV, qual é a chance de
alguma pessoa com teste positivo ter realmente o vı́rus HIV? Seja A o evento que
representa o indivı́duo que realmente é portador do vı́rus HIV. Vamos denotar
por Ā o evento complementar, isto é, o indivı́duo realmente não é portador do
53
54
vı́rus HIV e seja B o evento que representa um resultado positivo para o teste.
Temos interesse em determinar P (A | B). Observe que uma sensibilidade igual
a 95% é dada por
P (B | A) = (teste positivo | indivı́duo é portador do vı́rus HIV) = 0, 95
e uma especificidade igual a 98% é dada por

P B | A = (teste negativo | indivı́duo não é portador do vı́rus HIV) = 0, 98,

isto é, P B | A = 1 − P B | A = 0, 02.
Pela fórmula de Bayes (3.1), temos
P (B | A) P (A)
P (A | B) = ,
P (B | A) P (A) + P B | Ā P Ā
Observe que neste caso os eventos A e A particionam o espaço amostral Ω.

Assim,
0, 95 × 0, 001
P (A | B) = = 0, 045.
0, 95 × 0, 001 + 0, 02 × 0, 999
Observe que P (A) = 0, 001 é a probabilidade a priori de um indivı́duo ser
portador do vrus HIV (prevalência do virus HIV na população) e P (A | B) =
0, 045 é a probabilidade a posteriori atualizada com a informação de um teste
com resultado positivo para o indivı́duo. Desse resultado, observamos que mais
de 95% dos indivı́duos com resultados positivos para o teste não é portador o
vrus HIV.
Vamos assumir agora que temos um vetor de dados y = (y1 , . . . , yn ) 0 e

quantidades desconhecidas θ representando os parâmetros de uma distribuição
de probabilidade associada com a variável aleatória Yi com valores observados
yi , i = 1, . . . , n.
Considerando uma amostra aleatória y = (y1 , . . . , yn ) 0, isto é, os dados são

independentes e identicamente distribuı́dos com uma distribuição conjunta dada
pela densidade f (y | θ), também definida como função de verossimilhança para
θ quando os dados foram observados e uma distribuição a priori para θ, dada por
π (θ), assumindo os valores discretos θ1 , . . . , θk , temos de (3.1), a distribuição a
posteriori para θi dado y,
f (y | θi ) π (θi )
π (θi | y) = k
. (3.2)
P
f (y | θj ) π (θj )
j=1
Observar que o parâmetro θ também é considerado como uma quantidade

aleatória sob o enfoque bayesiano.
3.1. INTRODUÇÃO 55
Supondo agora que o parâmetro θ assume valores contı́nuos num dado in-
tervalo, podemos escrever (3.2) na forma
f (y | θ) π (θ)
π (θ | y) = R , (3.3)
f (y | θ) π (θ) dθ
em que a integral no denominador de (3.3) é definida no intervalo de variação

de θ.
Exemplo 3.2: Seja Y uma variável aleatória com distribuição binomial

(1.9) denotada por Binomial (n, θ), em que o parâmetro θ é assumido com uma
distribuição a priori beta (1.17), denotada por Beta (a, b), com hiperparâmetros
a e b conhecidos. Assim,

n y n−y
f (y | θ) = θ (1 − θ) ,
y
em que y = 0, 1, 2, . . . , n, e
1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)
sendo que B (a, b) denota uma função beta, dada por (1.3), e Γ (a) denota uma
função gama, dada por (1.1). A distribuição a posteriori para θ é dada, a partir
de (3.3), por
n+b−y−1
θy+a−1 (1 − θ)
π (θ | y) = R 1 n+b−y−1
.
0
θy+a−1 (1 − θ) dθ
Como
1
Γ (y + a) Γ (n + b − y)
Z
n+b−y−1
θy+a−1 (1 − θ) dθ = ,
0 Γ (n + a + b)
temos
1 n+b−y−1
π (θ | y) = θy+a−1 (1 − θ) (3.4)
B (y + a, n + b − y)
para 0 < θ < 1. Observar que a distribuição a posteriori para θ também é dada
por uma distribuição beta, agora com parâmetros y + a e n + b − y.
Exemplo 3.3: Seja Y uma variável aleatória com distribuição de Poisson

(1.10) com parâmetro θ. Vamos assumir que θ é uma quantidade aleatória com
distribuição gama (1.15), denotada por Gama (α, β), com hiperparâmetros α e
β conhecidos. Assim,
exp (−θ) θy
f (y | θ) = ,
y!
em que y = 0, 1, 2, . . . e
β α α−1
π (θ) = θ exp (−βθ) , (3.5)
Γ (α)
56
em que θ > 0. Considerando uma amostra aleatória y1 , . . . , yn de tamanho n

da distribuição de Poisson (1.10) com parâmetro θ, a função de verossimilhança
para θ é dada por
n
Y
L (θ) = f (y | θ) = f (yi | θ) =
i=1
n
Y exp (−θ) θyi exp (−nθ) θnȳ
= = n ,
yi ! Q
i=1 yi !
i=1
n
P
em que ny = yi .
i=1
De (3.3), a distribuição a posteriori para θ é dada por
π (θ) L (θ)
π (θ | y) = R∞
π (θ) L (θ) dθ
0
θα+nȳ−1 exp [− (n + β) θ]
= R∞ .
θα+nȳ−1 exp [− (n + β) θ] dθ
0
Como
Z∞
Γ (α + nȳ)
θα+nȳ−1 exp [− (n + β) θ] dθ = α+nȳ ,
(n + β)
0
encontramos
α+nȳ
(n + β) θα+nȳ−1 exp [− (n + β) θ]
π (θ | y) = . (3.6)
Γ (α + nȳ)
Observar que a distribuição a posteriori para θ também é uma distribuição

gama (1.15), agora com parâmetros α + nȳ e n + β.
Exemplo 3.4 (Ensaios de Bernoulli com priori discreta): Assumir

que uma droga pode ter taxa de resposta θ igual a 0, 2, 0, 4, 0, 6 ou 0, 8, cada
uma com mesma probabilidade a priori. Se observamos uma única resposta
positiva (y = 1), como nossa crença pode ser revisada? Neste caso, a função de
verossimilhança é dada por
1−y
f (y | θ) = θy (1 − θ) .
A Tabela 3.1 mostra valores para a distribuição a posteriori π (θi | y = 1),

encontrados a partir de (3.2). Sob o enfoque bayesiano, como Y e θ são quan-
tidades aleatórias, podemos determinar a predição de forma direta.
3.2. DISTRIBUIÇÕES A PRIORI CONJUGADAS 57
Tabela 3.1: Ensaios de Bernoulli com priori discreta.
θi priori verossimilhança × priori posteriori

π (θi ) f (y = 1 | θi ) π (θi ) π (θi | y = 1)
0, 2 0, 25 0, 05 0, 10
0, 4 0, 25 0, 10 0, 20
0, 6 0, 25 0, 15 0, 30
0,
P8 0, 25 0, 20 0, 40
1, 00 0, 50 1, 00
i
Vamos supor que desejamos prever o resultado de uma nova observação,

digamos Z, dado que foi observado o resultado y. Como θ é discreto, temos
X
f (z | y) = f (z, θj | y) .
j
Assumindo Z condicionalmente independente de y dado θ, temos

X
f (z | y) = f (z | θj ) wj , (3.7)
j
em que wj = π (θj | y) representa os pesos a posteriori. Dos resultados da

Tabela 3.1, encontrados de (3.7), a probabilidade preditiva de que o próximo
tratamento seja bem sucedido (sucesso, isto é, z = 1) dado que foi observado
um tratamento bem sucedido (y = 1) é dada por
X
f (z = 1 | y = 1) = θj wj
j
= 0, 2 × 0, 1 + 0, 4 × 0, 2 + 0, 6 × 0, 3 + 0, 8 × 0, 4
= 0, 60.
Observar que f (z | θj ) = θj para z = 1 e wj = π (θj | y) = π (θj | y = 1).
Nota: Uma distribuição a priori π (θ) não precisa ser uma densidade própria
para que π (θ | y) seja uma distribuição própria.
3.2 Distribuições a priori conjugadas

Uma famı́lia de distribuições é conjugada se as distribuições a posteriori per-
tencem a esta mesma famı́lia de distribuições. Como um caso especial, vamos
considerar observações independentes e identicamente distribuı́das (observações
iid) cuja distribuição pertence à famı́lia exponencial (1.21),
f (yi | θ) = exp [a (θ) b (yi ) + c (θ) + d (yi )] .

58
Com as observações yi , a função de verossimilhança para θ é dada por

" n
#
X
L (θ) ∝ exp a (θ) b (yi ) + nc (θ) . (3.8)
i=1
Uma distribuição a priori conjugada para θ com k1 e k2 conhecidos é dada

por
π ∗ (θ | k1 , k2 ) ∝ exp [k1 a (θ) + k2 c (θ)] . (3.9)
Combinando (3.8) e (3.9), a distribuição a posteriori para θ é dada por
( " n # )
X
π (θ | y) ∝ exp a (θ) b (yi ) + k1 + c (θ) [n + k2 ] ,
i=1
ou seja, " #
n
X
π (θ | y) = π ∗ θ | k1 + b (yi ) , n + k2 .
i=1
Exemplo 3.5: No Exemplo 3.2, observamos que as distribuições a posteriori

e a priori para θ seguem a mesma famı́lia de distribuição. Como ilustração,
vamos supor que um epidemiologista objetiva estimar a prevalência de uma
doença em uma determinada população. Ele considera que, nessa população, a
probabilidade de uma pessoa portar a doença é P (X = 1) = θ, e a probabilidade
de uma pessoa não portar a doença é P (X = 0) = 1 − θ. Se a variável aleatória
Y denota o número de portadores da doença em uma amostra de tamanho n,
temos
n y n−y
f (y | θ) = θ (1 − θ) ,
y
em que y = 0, 1, 2, . . . , n, e a distribuição a priori para θ é dada por
1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)
com a e b conhecidos. O epidemiologista, de sua experiência, acredita que

a proporção de pessoas doentes na população é próxima a 13%. Assim, ele
considerou os valores a = 3 e b = 20, de modo que
19
π (θ) ∝ θ2 (1 − θ) I(0,1) (θ).
Notar que a média da distribuição a priori para θ é a/(a + b) = 3/23 ≈ 0, 13.

A Figura 3.1 mostra o gráfico de π (θ), representando o conhecimento a priori
para θ.
Da expressão (3.4), temos que a distribuição a posteriori para θ é dada por
1 n−y+19
π (θ | y) = θy+2 (1 − θ) ,
B (y + 3, n + 20 − y)
3.2. DISTRIBUIÇÕES A PRIORI CONJUGADAS 59
7
6
5
4
π(θ)
3
2
1
0
0.0 0.2 0.4 0.6 0.8 1.0
Figura 3.1: Gráfico da distribuição a priori π (θ).
com 0 < θ < 1. Vamos supor que, em uma amostra de tamanho n = 300, o
epidemiologista encontrou y = 31 pessoas portadoras da doença. Considerando
que π (θ | y) segue uma distribuição beta com parâmetros y + a = 31 + 3 = 34
e n + b − y = 300 + 20 − 31 = 289, uma estimativa bayesiana para a prevalência
da doença, dada pela média de π (θ | y), é
34
θB =
b ≈ 0, 105.
34 + 289
Maiores detalhes sobre a estimação pontual de parâmetros serão apresen-
tados na seção 3.4.4. A Figura 3.2 compara os gráficos de π (θ) e de π (θ | y).
Neste exemplo, a distribuição a priori para θ e a distribuição a posteriori π (θ | y)
seguem distribuições beta (ver equação 1.17).
30
Distribuição a priori π(θ)

Distribuição a posteriori π(θ|y)
25
20
15
10
5
0
0.0 0.1 0.2 0.3 0.4 0.5
Figura 3.2: Comparação entre a distribuição a priori π (θ) e a distribuição a

posteriori π (θ | y).
Nota: Uma distribuição a priori para um parâmetro θ pode ser elicitada

60
de várias formas: a partir da opinião de um ou vários especialistas, a partir de

procedimentos objetivos ou a partir de procedimentos subjetivos.
Um caso especial é dado por distribuições a priori uniformes, isto é, π (θ) ∝ 1,
em que 0 < θ < 1. A distribuição a posteriori para θ usualmente será uma dis-
tribuição própria (integral igual a 1 em toda variação de θ) independentemente
da distribuição a priori ser ou não própria.
3.3 Priori normal e verossimilhança normal

Supor uma amostra aleatória de tamanho n de uma variável aleatória Y com
distribuição normal N µ; σ 2 com média µ desconhecida e variância σ 2 conhe-
cida. Vamos assumir que µ tenha uma distribuição a priori normal N υ; τ 2
com υ e τ 2 conhecidos, sendo υ real e τ > 0, isto é,

1 1 2
π (µ) = √ exp − 2 (µ − υ) . (3.10)
2πτ 2 2τ
A função de verossimilhança para µ baseada numa amostra aleatória y =
0
(y1 , . . . , yn ) é dada por
" n
#
1 X 2
L (µ | y) ∝ exp − 2 (yi − µ) . (3.11)
2σ i=1
Combinando (3.10) com (3.11), encontramos a densidade a posteriori para

µ dada por:
π (µ | y) ∝ π (µ) L (µ | y) (3.12)
( " n
#)
2
1 (µ − υ) 1 X 2
∝ exp − + 2 (yi − µ) .
2 τ2 σ i=1
Após um breve desenvolvimento algébrico, podemos notar, a partir de (3.12),

que esta expressão define o núcleo de uma distribuição normal para µ. Assim,
!
υ nȳ
τ 2 + σ2 1
π (µ | y) ∼ N 1 n ; 1 n , (3.13)
τ 2 + σ2 τ 2 + σ2
isto é,
σ2

µ | y ∼ N ωυ + (1 − ω) y; (1 − ω) , (3.14)
n
em que
1
τ2
ω= 1 n .
τ2 + σ2
Assim, a média de (3.14) é a média ponderada da média da distribuição a
priori com a média amostral.
3.4. INFERÊNCIA BAYESIANA 61
Nota: Na combinação de uma distribuição a priori normal com uma verossim-

ilhança normal, podemos usar o seguinte resultado:
2 2 2 AB 2
A (z − a) + B (z − b) = (A + b) (z − c) + (a − b)
A+B
para
(Aa + Bb)
c=
(A + B)
(ver Box e Tiao, 1973).
3.4 Inferência bayesiana

3.4.1 Estimação por intervalo
Seja θ um parâmetro unidimensional e assumir que a distribuição a posteriori
para θ seja unimodal. Um estimador por intervalo bayesiano com probabilidade
(1 − α) é dado por (θ∗ , θ∗ ) para
Z θ∗
α
π (θ | y) dθ =
−∞ 2
e Z ∞
α
π (θ | y) dθ =
θ∗ 2
O intervalo (θ∗ , θ∗ ) é chamado um intervalo de credibilidade para θ com
probabilidade (1 − α).
Nota: No procedimento frequentista, se y1 , y2 , . . . , yn é uma a. a. de uma

população com densidade f (yi ; θ) e S = g (y1 , . . . , yn ) é uma estatı́stica com
uma distribuição amostral fS (s; θ), usamos fS (s; θ) para encontrarmos um in-
tervalo de confiança para θ. Com uma confiança 100 (1 − α) %, temos
P [s∗ (θ) ≤ S ≤ s∗ (θ)] = 1 − α
e assim encontramos h∗ (s) e h∗ (s) tal que
P [h∗ (s) ≤ θ ≤ h∗ (s)] = 1 − α.
O intervalo de confiança [h∗ (s) ; h∗ (s)] é interpretado da seguinte forma:

100 (1 − α) % dos intervalos construı́dos contém o verdadeiro valor de θ. Ob-
servar que os intervalos de credibilidade bayesianos baseados na distribuição a
posteriori têm uma interpretação mais simples do que os intervalos de confiança
frequentistas.
Exemplo 3.6: No Exemplo 3.5, um epidemiologista desejava estimar a

prevalência de uma doença em uma determinada população. Ele considerou
62
que, nessa população, a probabilidade de uma pessoa portar a doença é P (X =

1) = θ. Considerando uma distribuição a priori beta para θ, com parâmetros
a = 3 e b = 20, e uma amostra de tamanho n = 300 em que y = 31 pessoas
eram portadoras da doença, ele encontrou a densidade a posteriori π (θ | y), que
tambm segue uma distribuição beta, com parâmetros 34 e 289. Temos que
Z 0,074
π (θ | y) dθ ≈ 0, 025
−∞
e Z ∞
π (θ | y) dθ ≈ 0, 975.
0,141
Assim, um intervalo de credibilidade bayesiano para θ com probabilidade

95% é dado por (0, 074; 0, 141). A Figura 3.3 mostra o gráfico de π (θ | y), tal
que 95% da área total da curva está inserida nos limites de 0,074 a 0,141.
30
25
20
π(θ|y)
15
10
5
0
0.00 0.05 0.10 0.15 0.20
Figura 3.3: Gráfico da distribuição a posteriori π (θ | y). A área cinza corres-

ponde a 95% da área total da curva e descreve um intervalo de credibilidade
bayesiano para θ, dado por (0, 074; 0, 141).
3.4.2 Teoria bayesiana assintótica

Para tamanhos amostrais grandes, a distribuição a posteriori depende quase
que exclusivamente da função de verossimilhança. Considere y1 , y2 , . . . , yn uma
a. a. da distribuição f (y | θ) e assumir θ com uma distribuição a priori π (θ).
Assim temos
π (θ | y) ∝ exp [l (θ) + ln π (θ)] (3.15)
em que l (θ) = ln L (θ) (logaritmo natural da função de verossimilhança L (θ)).
Considerando o desenvolvimento de uma série de Taylor na vizinhança do

estimador de máxima verossimilhança (EMV) θ̂ (obtido derivando-se o logaritmo
dl(θ)
de verossimilhança e igualando-se a zero, isto é, dθ = 0), temos,
1 2 d2 l (θ)
l (θ) ' l θ̂ + θ − θ̂ | . (3.16)
2 dθ2 θ̂
Dessa forma, a distribuição
h a i
posteriori para θ pode ser aproximada por uma
−1
distribuição normal N θ̂; I θ̂ , em que
d2 l (θ)
I θ̂ = − |
dθ2 θ̂
(informação de Fisher observada). Assim,
h i
a
θ | y ∼ N θ̂; I −1 θ̂ . (3.17)
3.4.3 Estimação por ponto

Um estimador bayesiano para θ dado por θ̂ = d (y) é obtido minimizando-se o
erro esperado (função de risco) com respeito à distribuição a posteriori para θ.
Para isso, consideramos uma função de perda α (d; θ).
Uma função de perda muito usada na inferência bayesiana aplicada é dada

pela função de perda quadrática,
2
α (d, θ) = (d − θ) .
Assim, devemos encontrar d (y) que minimiza o risco bayesiano dado por,
R (d, θ) = Eθ|y [α (d, θ)]
Z
2
= [d (y) − θ] π (θ | y) dθ
θ
Sendo uma função diferenciável, o estimador de Bayes com respeito à função

de perda quadrática é dada por
Z
dR (d, θ)
= 2 (d − θ) π (θ | y) dθ = 0,
d (d)
isto é,
θ̂ = d (y) = E (θ | y) (3.18)
(média a posteriori de θ). Observar que
Z R
θπ (θ) L (θ) dθ
E (θ | y) = θπ (θ | y) dθ = R .
π (θ) L (θ) dθ
Exemplo 3.7: Seja y1 , . . . , yn uma a. a. de uma distribuição de Poisson
(1.10) com função de probabilidade
e−θ θyi
P (Yi = yi ) = f (yi | θ) = (3.19)
yi !
64
em que i = 1, 2, . . . , n. Vamos assumir uma distribuição a priori para θ dada

pela distribuição gama com hiperparâmetros conhecidos α e β (ver (3.5)). Isto
é, θ ∼ Gama (α, β). A distribuição a posteriori para θ (ver (3.6)) é dada por
uma distribuição gama com parâmetros α + nȳ e n + β, isto é,
θ | y ∼ Gama (α + nȳ; n + β) .
Considerando uma função de perda quadrática, um estimador pontual para

θ (ver (3.18)) é dado pela média a posteriori,
(α + nȳ)
θ̂ = E (θ | y) = .
(n + β)
Como uma ilustração numérica, seja Y uma variável aleatória representando

o número de consultas médicas feitas por 10 pessoas pelo perı́odo de 5 anos num
dado centro médico:
(y1 , . . . , y10 ) = (10, 12, 8, 7, 9, 15, 10, 12, 13, 8) .

10
P
yi 10
P
i=1
Assim, ȳ = 10 = 10, 4 e, desta forma, ny = yi = 104. Vamos as-
i=1
sumir que a distribuição a priori para θ seja uma distribuição gama, isto é, θ
∼ Gama (α; β), com E (θ) = α α
β e V ar (θ) = β 2 . A partir da opinião de um
especialista em saúde, vamos assumir E (θ) = 10 e V ar (θ) = 4. Dessa forma,
consideraremos α = 25 e β = 2, 5, que determinamos a partir das equações
E (θ) = α α
β = 10 e V ar (θ) = β 2 = 4. O estimador pontual para θ com respeito
à função de perda quadrática é dado por
(α + nȳ) 25 + 104
E (θ | y) = = = 10, 32.
(n + β) 10 + 2, 5
Exemplo
3.8: Seja (y1 , . . . , yn ) uma a. a. de uma distribuição
normal
N µ; σ 2 com σ 2 conhecido. Assumir uma priori normal N υ; τ 2 para µ, com
υ e τ 2 conhecidos. A distribuição a posteriori para µ (de (3.13)) é dada por
!
υ nȳ
τ 2 + σ2 1
µ|y∼N 1 n ; 1 n
τ 2 + σ2 τ 2 + σ2
em que y = (y1 , . . . , yn ) é o vetor dos dados. Um estimador por ponto para µ

é dado pela média a posteriori E (µ | y) dada por,
υ nȳ
τ2 + σ2
µ̂ = E (µ | y) = 1 n . (3.20)
τ2 + σ2
Como uma ilustração numérica, considere yi , i = 1, . . . , 100 como os pesos

das crianças com 10 meses de idade com média amostral ȳ = 11, 85. Assumir
que yi ∼ N (µ; 4). A partir da informação de um médico pediatra, considerar
uma distribuição a priori N (13; 25) para µ. Neste caso, υ = 13; τ 2 = 25 e

100
σ 2 = 4. E ainda,
P
yi = 1185.
i=1
De (3.20), a média a posteriori para µ é dada por
υ nȳ 13 1185
τ2 + σ2 25 + 4
µ̂ = E (µ | y) = 1 n = 1 100 = 11, 825.
τ2 + σ2 25 + 4
Nota: Outras funções de perda também podem ser consideradas. Um caso

especial é dado pela função de perda α (d, θ) = |d − θ|, o estimador de Bayes
que minimiza o erro esperado é dado pela mediana a posteriori.
Exemplo 3.9: Vamos assumir o modelo estatı́stico
yi = θ + i (3.21)
para i = 1, 2, . . . , n em que i é um erro suposto com uma distribuição normal

N (0, 4), isto é, i ∼ N (0, 4). Vamos assumir também que a distribuição a priori
para θ seja dada por θ ∼ N (2; 1).
De (3.21), observar que a variável aleatória Yi tem uma distribuição normal

N (θ; 4). Assim, a função de verossimilhança para θ é dada por,
" n
#
1X 2
L (θ) ∝ exp − (yi − θ) (3.22)
8 i=1
e a priori para θ é dada por,

1 2
π (θ) ∝ exp − (θ − 2) (3.23)
2
Combinando-se a verossimilhança normal (3.22) com a priori normal (3.23),

obtemos (ver (3.13)), a distribuição a posteriori para θ dada por,

8 + nȳ 4
θ|y∼N ; (3.24)
4+n 4+n
Como uma ilustração numérica, assumir uma a. a. de tamanho 10, represen-

tando os tempos até a recuperação (em semanas) de 10 pacientes: 2,3,1,2,4,3,2,3,5
e 2. A média amostral é dada por ȳ = 2, 7.
Assim, um estimador por ponto para θ assumindo uma função de perda
quadrática é dada por
8 + nȳ 8 + 27
θ̂ = E (θ | y) = = = 2, 5
4+n 4 + 10
Notas:
66
(1) Observar que o EMV (estimador de máxima verossimilhança) para θ é

obtido maximizando-se a função de verossimilhança (3.22) ou o logaritmo da
função de verossimilhança l (θ), isto é,
n
dl (θ) 2X
= (yi − θ) = 0.
d (θ) 8 i=1
n
P
n yi
27
P i=1
Assim, yi = nθ ou θ̂ = n . Com os dados, θ̂ = 10 = 2, 7.
i=1
(2) Supondo uma distribuição a priori não-informativa para θ, os resultados
devem ser próximos (estimador de máxima verossimilhança para θ é a média a
posteriori E (θ | y)).
Assim, se considerarmos uma priori normal N 2; 103 (variância muito grande),
a distribuição a posteriori para θ é dada por

0, 008 + nȳ 4
θ|y∼N ; .
0, 004 + n 0, 004 + n
Com os dados,
0, 008 + 27 27, 008
E (θ | y) = = = 2, 69972
0, 004 + 10 10, 004
ou seja E (θ | y) ≈ 2, 70 (um resultado bem próximo ao EMV, θ̂ = 2, 7).

(3) Assumindo a mesma distribuição a priori N (2; 1) para θ, mas con-
siderando uma amostra muito grande, os resultados frequentista e bayesiano
também devem ser muito próximos.
Pn
Assim, se considerarmos uma a. a. de tamanho n = 1000 com nȳ = yi =
i=1
2758, observamos que (ver (3.24)),
8 + nȳ 8 + 2758 2766
E (θ | y) = = = = 2, 755.
4+n 4 + 1000 1004
Também observar que o EMV para θ é dado por θ̂ = ȳ = 2, 758 (resultados

muito próximos).
3.5 Vetores paramétricos

Seja Y uma variável aleatória com distribuição de probabilidade dada pela den-
0
sidade f (y | θ) em que θ é um vetor de dimensão k, isto é, θ = (θ1 , θ2 , . . . , θk ) .
Seja π (θ) uma distribuição a priori conjunta para θ. A função de verossimil-
0
hança para θ dada uma a. a. y = (y1 , . . . , yn ) da variável aleatória Y é dada
por
Yn
L (θ) = f (yi | θ) .
i=1
3.5. VETORES PARAMÉTRICOS 67
A distribuição a posteriori conjunta para θ é dada por
π (θ | y) = c × L (θ) π (θ) ,
em que c é uma constante normalizadora, cuja integração deverá ser igual a 1

(assumir todos parâmetros contı́nuos), isto é,
Z Z Z
−1
c = ... L (θ) π (θ) dθ1 dθ2 . . . dθk (3.25)
θ1 θ2 θk
(uma integral múltipla). Para simplificação, vamos denotar (3.25) por

Z
c−1 = L (θ) π (θ) dθ (3.26)
0
A média a posteriori para uma função g (θ) de θ = (θ1 , θ2 , . . . , θk ) é dada
por Z Z Z
E [g (θ) | y] = ... g (θ) π (θ | y) dθ1 . . . dθk ,
θ1 θ2 θk
ou, simplesmente, Z
E [g (θ) | y] = g (θ) π (θ | y) dθ. (3.27)
Dessa forma, observar que precisamos resolver integrais múltiplas para en-
contrar c−1 dado em (3.26) e E [g (θ) | y] dado em (3.27).
Para encontrarmos a distribuição marginal para alguns componentes de θ
ou mesmo para um componente individual, também precisamos resolver uma
integral múltipla. Como caso especial, a distribuição a posteriori marginal para
θ1 é dada por
Z Z Z
π (θ1 | y) = ... π (θ1 , θ2 , . . . , θk | y) dθ2 . . . dθk .
θ2 θ3 θk
Exemplo
3.10: Seja Y uma 0 variável aleatória com distribuição normal
N µ; σ 2 . Neste caso θ = µ, σ 2 é um vetor de dois parâmetros. Vamos supor
0
uma a. a. y = (y1 , . . . , yn ) de tamanho n da distribuição N µ; σ 2 . A função
0
de verossimilhança para θ = µ, σ 2 é dada por
n2 "n
#
2
1 1 X 2
L µ; σ = exp − 2 (yi − µ) .
2πσ 2 2σ i=1
Vamos assumir as seguintes distribuições a priori para µ e σ 2 :
µ ∼ N 0; a2 ; a conhecido

(3.28)
2
σ ∼ GI (b; d) ; b e d conhecidos
68
em que GI (b; d) denota uma distribuição gama inversa (1.16). Vamos também
assumir independência a priori entre µ e σ 2 . A distribuição a posteriori conjunta
para µ e σ 2 é dada por
µ2

−(b+ n2 +1)
π µ, σ 2 | y ∝ σ 2

exp − 2 × (3.29)
2a
( " n
#)
1 1X 2
× exp − 2 d + (yi − µ) .
σ 2 i=1
A distribuição a posteriori marginal para µ é obtida integrando-se σ 2 em

(3.29), isto é, Z ∞
π µ, σ 2 | y dσ 2 ,

π (µ | y) = (3.30)
0
Assim,
µ2

π (µ | y) = k exp − 2 × (3.31)
2σ
Z ∞ ( " n
#)
−(b+ n2 +1) 1 1X 2
× σ2 exp − 2 d + (yi − µ) dσ 2 ,
0 σ 2 i=1
em que k é uma constante normalizadora. Observar que

Z ∞ a Γ (p)
x−(p+1) exp − dx = p . (3.32)
0 x a
Assim, usando (3.32) em (3.31), encontramos

µ2
k1 exp − 2σ 2
π (µ | y) = b+ n2 (3.33)
n
1
P 2
d+ 2 (yi − µ)
i=1
para −∞ < µ < ∞ e k1 é uma constante normalizadora. Da mesma forma, a

distribuição a posteriori marginal para σ 2 é dada por
Z ∞
2
π µ, σ 2 | y dµ

π σ |y =
−∞

2 −(b+ 2 +1)
n d
= k σ exp − 2 ×
σ
Z ∞ " n
#
µ2 1 X 2
× exp − 2 − 2 (yi − µ) dµ.
−∞ 2a 2σ i=1
3.6 Exercı́cios
1. Assuma que a distribuição a posteriori de um parâmetro θ dado o vetor
de dados y segue uma densidade Beta (1.17) com parâmetros α∗ e β ∗ , isto
é,
Γ (α∗ + β ∗ ) α∗ −1 β ∗ −1
π (θ | y) = θ (1 − θ) ,
Γ (α∗ ) Γ (β ∗ )
2
em que 0 < θ < 1. Assuma uma função de perda L (d, θ) = θ−2 (d − θ) , d ≥
0 e encontre a decisão de Bayes que minimiza o erro esperado.
2. Considere a função de confiabilidade S (t) = P (T > t), em que T é uma

variável aleatória positiva representando o tempo de vida de um com-
ponente. Assuma que S (t) para t fixado, assume dois valores possı́veis:
S (t) = θ1 = 0, 50 ou S (t) = θ2 = 0, 90. Assuma duas decisões possı́veis:
d1 : o estimador de S (t) é θ1 ou
d2 : o estimador de S (t) é θ2 .
Considere a seguinte função de perda L (d; θ):
Tabela 3.2: Decisão.

d1 d2
S (t) = θ1 0 5
S (t) = θ2 3 0
Assuma também a seguinte distribuição a priori discreta: π (θ1 ) = 1/4 e

π (θ2 ) = 3/4.
(a) Encontre a solução bayesiana.
(b) Retire uma unidade e testá-la para o tempo t: falha ou sobrevivência.
Assuma Z = 1 (sobrevivência) e Z = 0 (falha) e assuma f (z = 1 | θ1 ) =
0, 50; f (z = 1 | θ2 ) = 0, 90; f (z = 0 | θ1 ) = 0, 50 e f (z = 0 | θ2 ) = 0, 10.
Encontre a solução de Bayes quando retiramos uma unidade.
3. Assuma que X representa o tempo de sobrevivência de uma unidade com

distribuição exponencial com densidade f (x | λ) = λ exp (−λx) , x > 0.
Assumir uma amostra aleatória de tamanho n, X = (x1 , . . . , xn ). Também
assuma uma distribuição a priori não-informativa para λ dada por π (λ) ∝
1/λ, λ > 0.
(a) Encontre a densidade a posteriori para λ dado X.
(b) Encontre o estimador bayesiano para λ considerando o erro quadrático
médio.
(c) Qual é a moda da distribuição a posteriori?
(d) Encontre a distribuição a posteriori para o tempo de sobrevivência
mediano.
70
4. Assumir X uma variável aleatória com densidade normal N (θ, 4), isto é,

1 1 2
f (x | θ) = √ exp − (x − θ)
2 2π 8
em que −∞ < x < ∞. Considere uma distribuição a priori normal

N 0, σ 2 , com σ 2 conhecido, para θ.
(a) Encontre a distribuição a posteriori para θ.
(b) Encontre o estimador de Bayes para θ com respeito à função de perda
quadrática.
(c) Em qual situação a solução obtida pelo estimador de máxima verossim-
ilhança coincide com a solução de Bayes com respeito à perda quadrática?
5. Assuma que você tenha uma distribuição subjetiva para a temperatura

média dos próximos dias, dada pela densidade,
β α α−1
π (θ) = θ exp (−βθ) , θ > 0
Γ (α)
em que α e β são conhecidos (E (θ) = α/β e V ar (θ) = α/β 2 ). Escolher

valores para E (θ) e V ar (θ) que representam sua opinião sobre a tempe-
ratura e calcular os valores correspondentes de α e β. Encontrar a decisão
de Bayes d∗ para θ quando a função de perda é dada por
2 d2 θ 2
L (d, θ) = (d − θ) +
1000
e comente porque esse estimador é maior do que E (θ).
6. Suponha que (x1 , . . . , xn ) é uma amostra aleatória de uma distribuição de
Poisson (1.10) com média θ e que θ segue uma distribuição a priori gama
com parâmetros conhecidos α e β.
(a) Encontre a distribuição a posteriori para θ e escrever a média a posteri-
ori como uma média ponderada da média a priori α/β e a média amostral
x̄.
(b) Mostre que a variância a posteriori é dada por
α + nx̄
V ar (θ | x) = 2.
(β + n)
(c) Mostre que a variância

aposteriori é menor do que a variância a priori
n
se e somente se x̄ < 2 + β E (θ).
Capı́tulo 4
Densidades preditivas e
discriminação de modelos
0
Seja y1 = (y1 , . . . , yn ) o vetor dos dados observados em uma amostra aleatória
0
de tamanho n e seja y2 = (yn+1 , . . . , ym ) um vetor de observações futuras. A
densidade preditiva para y2 dado y1 é dada por
Z
f (y2 | y1 ) = f (y2 | θ) π (θ | y1 ) dθ, (4.1)
em que f (y2 | θ) é a distribuição conjunta de y2 dado o vetor de parâmetros θ

e π (θ | y1 ) é a distribuição a posteriori para θ dado y1 . Observe que y1 e y2
são independentes, dado θ. Assim,
f (y2 | y1 ) = Eθ|y1 [f (y2 | θ)]
Exemplo 4.1: Vamos supor que yi , i = 1, 2, . . . , n, são medidas de uma

carga viral em uma amostra de sangue supostos com distribuição normal N (θ; V )
com variância V conhecida. Assim,
n
Y
f (y1 | θ) = f (yi | θ) ,
i=1
em que
1 1 2
f (yi | θ) = √ exp − (yi − θ) ,
2πV 2V
para i = 1, . . . , n.
Vamos assumir uma distribuição normal N (m; W ) para θ, com m e W
conhecidos. Dessa forma, a distribuição a posteriori para θ dado y1 é dada
distribuição normal N (m1 ; W1 ) com m1 = W1−1 W −1 m + nV −1 ȳ ,

por uma
Pn
yi
e W1 = W −1 + nV −1 .

ȳ = i=1
n
71
72
A densidade preditiva para uma observação futura yn+1 é dada por

Z ∞
f (yn+1 | y1 ) = f (yn+1 | θ) π (θ | y1 ) dθ
−∞
−1 1 −1
= (2π) V − 2 W1 2 ×
Z ∞ i
1h 2 2
exp − V −1 (θ − yn+1 ) + W1−1 (θ − m1 ) dθ.
−∞ 2
Após alguma álgebra, encontramos a densidade preditiva para yn+1 dado y1

dada por
yn+1 | y1 ∼ N (m1 ; V + W1 ) .
Exemplo 4.2: Vamos supor que Yi , i = 1, 2, . . . , n, são variáveis aleatórias

iid com densidade exponencial
f (yi | θ) = θ exp (−θyi ) , (4.2)
em que yi > 0. Assumindo uma distribuição Gama (α, β) para θ com α e β

conhecidos, a função de verossimilhança para θ é dada por
n
!
X
n
L (θ) = θ exp −θ yi . (4.3)
i=1
Combinando a distribuição a priori Gama (α, β) para θ com a função de

verossimilhança (4.3), encontramos a distribuição a posteriori para θ dada por
uma distribuição Gama (α1 , β1 ) com α1 = α + n e β1 = β + nȳ. A densidade
preditiva para uma observação futura yn+1 é dada por
Z ∞
f (yn+1 | y) = θ exp (−θyn+1 ) π (θ | y) dθ (4.4)
0
Z ∞
β1α1
= θ(α1 +1)−1 exp [−θ (β1 + yn+1 )] dθ,
Γ (α1 ) 0
isto é,
β1α1 Γ (α1 + 1)
f (yn+1 | y) = α1 +1 .
Γ (α1 ) (β1 + yn+1 )
Observando que Γ (α1 + 1) = α1 Γ (α1 ), temos
α1 β1α1
f (yn+1 | y) = α1 +1 ,
(β1 + yn+1 )
que é chamada densidade de Pareto.
Exemplo 4.3: Como ilustração numérica, considere o trabalho cirúrgico de

um médico que exige o uso de uma máquina de controle de batimentos cardı́acos
4.1. FATOR DE BAYES 73
por um perı́odo de 4 horas consecutivas de funcionamento. A taxa de falhas

por hora dessa máquina varia, dependendo de onde é usada, mas o fabricante
garante que a taxa média θ de falha da máquina é de 10 eventos a cada 100 horas
de uso. A variância de θ é dada por V = 0, 01. Com o objetivo de controle
de qualidade, supor uma a. a. com m = 5 funcionamentos consecutivos do
equipamento até falhar: 3, 2, 12, 7, 20, 6, 7, 9 e 10, 2 (tempos em horas). A
partir desses dados, encontramos a média amostral ȳ = 10, 92. Para encontrar
a probabilidade de que a próxima falha ocorrerá antes do término do trabalho
cirúrgico, vamos assumir:
(a) Os tempos de vida (funcionamento até falhar) yi , i = 1, 2, . . . , 5 são

variáveis aleatórias i.i.d. com distribuição exponencial com taxa de falhas igual
a θ;
(b) O parâmetro θ segue uma distribuição a priori Gama (α, β) com α e β
conhecidos;
(c) E (θ) = α α
β = 0, 10 e V ar (θ) = β 2 = 0, 01. Assim encontramos α = 1 e
β = 10, a partir da informação do fabricante do equipamento.
Dessa maneira, a distribuição a posteriori para θ é uma distribuição Gama

(α1 , β1 ) com α1 = α + n = 1 + 5 = 6 e β1 = β + nȳ = 10 + 54, 6 = 64, 6, e
6
α1 β1α1 6 (64, 6)
f (y6 | y) = α1 +1 = 7.
(β1 + y6 ) (64, 6 + y6 )
Assim,
P (y6 > 4) = 1 − P (y6 ≤ 4) ,
em que
Z 4 6
6 (64, 6)
P (y6 ≤ 4) = 7 dy6
0 (64, 6 + y6 )
6
(64, 6)
= 1− 6 = 0, 26.
(4 + 64, 6)
Portanto, P (y6 > 4) = 0, 74.
4.1 Fator de Bayes

O fator de Bayes faz uso da densidade preditiva para verificação da adequabi-
lidade de um modelo. Seja f (y | θ) a densidade conjunta para os dados e seja
π (θ) a densidade a priori para θ. Uma definição alternativa para a densidade
preditiva é dada por Z
f (y) = f (y | θ) π (θ) dθ. (4.5)
A densidade preditiva (4.5) também é definida como função de verossimi-

lhança marginal.
74
Vamos supor que M1 e M2 denotam dois modelos distintos. O fator de

Bayes, usado para comparar os modelos M1 e M2 , é definido por
f (y | M1 )
B12 = . (4.6)
f (y | M2 )
Observar que o fator de Bayes B12 requer a especificação da distribuição a

priori π (θ) sob ambos os modelos. Quando consideramos distribuições a priori
não informativas impróprias para θ, essas distribuições são definidas em termos
de constantes arbitrárias ci , i = 1, 2. Dessa forma, B12 é definida em termos da
razão c1 /c2 , que é arbitrária. Isso é um problema que pode limitar o uso do fator
de Bayes na discriminação de dois modelos quando consideramos distribuições
a priori não informativas impróprias para os parâmetros dos modelos. Para
contornar esse problema, algumas modificações são sugeridas na literatura para
o fator de Bayes (ver por exemplo, Spiegelhalter e Smith, 1982; Berger e Perichi,
1996; Aitkin, 1991). Quando consideramos distribuições a priori próprias para
θ, o fator de Bayes é reduzido a um problema de testes de hipóteses.
4.2 O Fator de Bayes a posteriori

Sob o modelo Mi , i = 1, 2, dada a função de verossimilhança f (y | θ i ) e a
distribuição a priori π (θ i ), a distribuição a posteriori é dada por,
f (y | θ i ) π (θ i )
π (θ i | y) = R
f (y | θ i ) π (θ i ) dθ i
para i = 1, 2. Aitkin (1991) define o fator de Bayes a posteriori do modelo M1

contra o modelo M2 por
A LA1
B12 = A ,
L2
em que Z
LA
i = f (y | θ i ) π (θi | y) dθi
para i = 1, 2 e θ i representa o vetor dos parâmetros sob o modelo Mi , i =

1, 2. Observar que LA i = Eθ i |y [f (y | θ i )] é a média a posteriori da função de
verossimilhança f (y | θ i ). Observar também que o fator de Bayes a posteriori
existe sob distribuições a priori não-informativas.
4.3 Distribuições preditivas alternativas

Para discriminação de modelos podemos definir uma versão “cross-validation”
da distribuição preditiva dada por
Z

f yr | y(r) = f (yr | θ) π θ | y(r) dθ,
4.4. USO DA DENSIDADE PREDITIVA NA DISCRIMINAÇÃO DE MODELOS75

para y(r) = (y1 , . . . , yr−1 , yr+1 , . . . , yn ) em que π θ | y(r) é a densidade a pos-
teriori para θ dado y(r) (ver por exemplo, Geisser, 1975; ou Gelfand e Dey,
1994).
Para a verificação da adequabilidade de um modelo, a densidade preditiva

f yr | y(r) é usada com yr , r = 1, . . . , n no sentido de que um modelo é ade-
quado se yr pode ser considerado como uma observação aleatória da densidade
f yr | y(r) .
Definimos a ordenada preditiva condicional (CP O, de conditional predictive

ordinate) por

dr = f yr | y(r)
(ver Geisser e Eddy, 1979, ou Geisser, 1990). Podemos discriminar dois ou mais
modelos, a partir de gráficos de dr versus r, r = 1, 2, . . . , n; maiores valores
de dr em média, indicam o melhor modelo. Como alternativa, podemos usar o
produto de CP O0 s dado por
n
Y
c (l) = dr (l)
r=1
em que l indexa modelos. Assim, o modelo M1 é mais adequado que o modelo

M2 , se c (1) > c (2).
4.4 Uso da densidade preditiva na discriminação

de modelos
Para comparar um modelo M1 com um modelo M2 , podemos usar o fator de
Bayes B12 , dado por (4.6). Com os dados observados y, o modelo M1 é mais
adequado que o modelo M2 se B12 > 1. Em geral, podemos considerar 2 log B12
(ver Raftery, 1996; ou Kass e Raftery, 1995) e sua intepretação é baseada no
critério proprosto por Jeffreys (1961) e apresentada na Tabela 4.1.
Tabela 4.1: Escala de evidência do modelo M1 .
B12 2 log B12 Evidência de M1

<1 <0 negativa
1, 2, 3 0, 1, . . . , 2 difı́cil decisão
3, . . . , 12 2, . . . , 5 positiva
12, . . . , 150 5, . . . , 10 forte
> 150 > 10 muito forte
76
4.5 Resı́duos bayesianos

0
Seja x = (x1 , . . . , xn ) uma amostra observada e π (θ | x) a distribuição a pos-
0
teriori para θ dado x. Seja y = (y1 , . . . , yn ) uma amostra de validação, isto
é, uma amostra independente de x usada para validar o modelo em estudo. A
densidade preditiva para y dado x (ver (4.1)) é dada por
Z
f (y | x) = f (y |θ) π (θ | x) dθ.
Usamos f (y | x) para avaliação do modelo. O valor médio e a variância

preditiva para cada componente de y são dados, respectivamente, por
Z
E (yi | x) = yi f (y | x) dy e
Z
2
V ar (yi | x) = [yi − E (yi | x)] f (y | x) dy
para i = 1, 2, . . . , n.
Os resı́duos bayesianos padronizados são dados por:

yi − E (yi | x)
d∗i = p
V ar (yi | x)
para i = 1, 2, . . . , n.
O uso dos resı́duos bayesianos é semelhante ao uso dos resı́duos na inferência

frequentista: construı́mos gráficos de resı́duos versus preditos (valores médios
preditos) e gráficos de resı́duos em ordem temporal. Na prática, podemos parti-
cionar uma amostra grande em duas amostras: uma parte (amostra observada)
é usada para construir a distribuição a posteriori e a outra parte (amostra de
validação) é usada para obter a distribuição preditiva.
Outra possibilidade na construção de resı́duos bayesianos é o uso de técnicas

0
“Jacknife” (leave one out). Assim, consideramos x(i) = (x1 , . . . , xi−1 , xi+1 , . . . , xn )
e encontramos a densidade preditiva de xi dado x(i) para i = 1, 2, . . . , n:
Z

f xi | x(i) = f (xi | θ) π θ | x(i) dθ
Os resı́duos bayesianos são então definidos por

∗0 xi − E xi | x(i)
di = q
V ar xi | x(i)
para i = 1, 2, . . . , n.

Nota: Os valores observados de f xi | x(i) (ordenadas preditivas condi-
cionais ou CPO) podem ser usados em um diagnóstico informal. Valores baixos
de CPO devem corresponder a observações mal ajustadas.
4.6. PSEUDO-FATOR DE BAYES 77
4.6 Pseudo-fator de Bayes

Como alternativa ao fator de Bayes, podemos usar o produto das preditivas
n
Q
para xi dado x(i) , definido por f xi | x(i) , na comparação de modelos.
i=1
Sejam M1 e M2 dois modelos propostos para analisar um conjunto de dados.
O pseudo-fator de Bayes é dado por
n
Q
f xi | x(i) , M1
PF
B12 = i=1
n
Q .
f xi | x(i) , M2
i=1
Na presença de mais de dois modelos, encontramos para cada modelo o pro-

n
Q
duto f xi | x(i) , ou equivalentemente, a soma dos logaritmos das ordenadas
i=1
preditivas condicionais e escolhemos o modelo que apresentar o maior valor.
Nota: A soma dos quadrados (ou dos valores absolutos) dos resı́duos pa-
dronizados também podem ser usados na seleção de modelos.
4.7 Outros critérios para discriminação de mo-

delos
Para discriminar modelos, também podemos considerar os critérios AIC (Akaike
information criterion), BIC (Bayesian information criterion) e DIC (Deviance
information criterion). Esses critérios “penalizam” a função de verossimilhança
(a complexidade do modelo, dada pelo número de parâmetros, é incorporada no
critério de seleção).
Critério AIC: Vamos assumir dois modelos, M1 e M2 . O critério AIC é

dado por
supM1 f (y | θ 1 , M1 )

AIC = −2 ln − 2 (p2 − p1 )
supM2 f (y | θ 2 , M2 )
em que pi , i = 1, 2, representa o número de parâmetros em cada modelo
(critério baseado na eficiência frequentista). A função de verossimilhança f (y |
θ i , Mi ) deve ser
maximizada
sob cada modelo. Também poderı́amos definir
AICi = 2 ln L θ̂i | Mi − 2pi , i = 1, 2 em que θ̂i é o estimador de máxima
verossimilhança para θi e assim maiores AICi indicam melhores modelos.
Critério BIC: Vamos assumir dois modelos, M1 e M2 . O critério BIC é

dado por
supM1 f (y | θ 1 , M1 )

BIC = −2 ln − 2 (p2 − p1 ) ln(n), (4.7)
supM2 f (y | θ 2 , M2 )
78
em que n é a dimensão da amostra e pi , i = 1, 2, é o número de parâmetros no

modelo Mi .

Da mesma forma, poderiamos definir BICi = 2 ln L θ̂i | Mi −pi ln (n) para
i = 1, 2, em que θ̂i é o estimador de máxima verossimilhança para θi .
Notas (1): Para amostras grandes, Schwarz (1978) mostra que BIC é uma
boa aproximação para −2 ln B12 , em que B12 (4.5) é o fator de Bayes.
Notas (2): Carlin e Louis (2000) introduziram uma modificação na ex-
pressão do BICi , da forma
[ i = 2E [ln L (θ i | y, Mi )] − pi ln(n).
BIC (4.8)
Assim, é escolhido o modelo Mi que apresenta maior valor de BIC

[ i . Essa
forma do BIC é muito usada quando métodos MCMC (Monte Carlo em cadeias
de Markov) são utilizados.
Critério DIC: O critério DIC é muito utilizado em inferência bayesiana

aplicada, especialmente quando são utilizados métodos de Monte Carlo em
cadeias de Markov. O desvio D (θ) (deviance) é definido por
D (θ) = −2 ln L (θ) + C, (4.9)
em que θ é um vetor de parâmetros desconhecidos do modelo, L (θ) é a função

de verossimilhança e C é uma constante não necessariamente conhecida na com-
paração de dois modelos. O critério DIC, definido por Spiegelhalter et al (2002),
é dado por
DIC = D θ̂ + 2pD (4.10)

em que D θ̂ é o desvio calculdado na média a posteriori θ̂ = E (θ | y) e pD é

o número efetivo de parâmetros no modelo, dado por pD = D̄ − D θ̂ , em que
D̄ = E [D (θ) | y] é a média a posteriori do desvio, que mede a qualidade do
ajuste dos dados para cada modelo. Menores valores de DIC indicam melhores
modelos e esses valores podem ser negativos.
O critério DIC é implementado em softwares usados para obter inferências

bayesianas usando métodos MCMC (Monte Carlo em cadeias de Markov), que
serão descritos no Capı́tulo 7. Um software muito utilizado para esta finalidade
é o OpenBUGS (Spiegelhalter et al, 1999).
4.8 Teoria bayesiana de De Finetti

Um método mais formal foi introduzida por De Finetti (1930, 1937/1964) baseada
nas distribuições preditivas. Dessa forma, um modelo preditivo para uma sequência
4.8. TEORIA BAYESIANA DE DE FINETTI 79
de variáveis aleatórias X1 , X2 , . . . é uma medida de probabilidade P , que matem-

aticamente especifica a forma da distribuição conjunta para qualquer subcon-
junto de X1 , X2 , . . . que deve incorporar alguma forma de dependência entre as
quantidades aleatórias. Isso é baseado na especificação da permutabilidade e no
teorema da representação de De Finetti (ver por exemplo, Bernardo e Smith,
1995).
4.8.1 Permutabilidade Finita

As quantidades aleatórias X1 , . . . , Xn são permutáveis sob uma medida de pro-
babilidade P se

P (X1 , . . . , Xn ) = P Xπ(1) , . . . , Xπ(n) ,
para todas as permutações π definidas no conjunto {1, 2, . . . , n}. Em termos de

densidade ou função de probabilidade,

p (x1 , . . . , xn ) = p xπ(1) , . . . , xπ(n) .
Nota: Observar que a suposição de permutabilidade captura em essência a idéia
de “amostra aleatória”, aqui sem sentido pois implica a ideia de “independência

condicional” dado o valor do parâmetros do modelo.
4.8.2 Teorema da Representação de De Finetti para quan-

tidades aleatórias 0-1
Se X1 , X2 , . . ., é uma sequência infinita permutável de quantidades aleatórias
0 − 1 com medida de probabilidade P , existe uma função distribuição Q tal que
a função de probabilidade conjunta p (x1 , . . . , xn ) para X1 , . . . , Xn tem a forma,
Z n
1Y
1−xi
p (x1 , . . . , xn ) = θxi (1 − θ) dQ (θ)
0 i=1
n
yn yn
P
em que Q (θ) = limn→∞ P n ≤ θ com yn = Xi e θ = limn→∞ n (ver
i=1
demonstração em Bernardo e Smith, 1995).
Uma interpretação subjetivista para esse resultado:

(a) as variáveis Xi são julgadas como variáveis aleatórias de Bernoulli inde-
pendentes condicional em uma quantidade aleatória θ;
(b) a quantidade aleatória θ tem uma distribuição de probabilidade Q;
(c) pela lei forte dos grandes números, θ = limn→∞ ynn , tal que Q pode ser

interpretada como a “crença sobre a frequência relativa limite dos resultados

yi = 1”.
80
(d) condicionada à quantidade aleatória θ, X1 , . . . , Xn é uma amostra aleatória

de uma distribuição de Bernoulli com parâmetro θ gerando uma distribuição
amostral conjunta
n
Y
p (x1 , . . . , xn | θ) = p (xi | θ)
i=1
Yn
1−xi
= θxi (1 − θ)
i=1
em que o parâmetro θ tem uma distribuição a priori Q (θ). Considerado como

uma função de θ, a distribuição amostral conjunta é a função de verossimilhança.
4.9 Uma nota sobre testes de hipóteses

Na prática, para comparar parâmetros de interesse, um estatı́stico bayesiano
não considera testes de hipóteses, mas determina densidades a posteriori para
razões ou diferenças entre estes parâmetros, tais como θθ21 ou θ1 − θ2 . Apesar
disso, podemos sugerir um teste de hipóteses sob o enfoque bayesiano.
Exemplo 4.4: Vamos assumir que Y é uma variável aleatória com densidade
f (y | θ) e vamos supor o teste de hipóteses H0 : θ = θ0 versus H1 : θ = θ1 , em
que θ0 e θ1 são valores especificados. Vamos supor que, baseado numa amostra
aleatória de tamanho n, dada por y = (y1 , . . . , yn ), temos a estatı́stica T =
T (y1 , . . . , yn ) apropriada ao teste com uma dada distribuição de probabilidade
amostral. Pela fórmula de Bayes (3.1), temos
P (T | H0 ) P (H0 )
P (H0 | T ) =
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )
em que P (H0 ) e P (H1 ) são probabilidades a priori para H0 e H1 . Analoga-

mente,
P (T | H1 ) P (H1 )
P (H1 | T ) = .
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )
Observar que P (H0 | T ) + P (H1 | T ) = 1. Portanto, podemos escrever a
relação
P (H0 | T ) P (H0 ) P (T | H0 )
= . (4.11)
P (H1 | T ) P (H1 ) P (T | H1 )
De (4.11) , observar que a razão das probabilidades a posteriori a favor de H0
é igual ao produto entre a razão a priori e a razão de verossimilhanças. Assim,
escrevemos a regra de decisão:
(i) Se P (H0 | T ) > P (H1 | T ) aceitar H0 ;

(ii) Se P (H0 | T ) < P (H1 | T ) rejeitar H0 .
4.9. UMA NOTA SOBRE TESTES DE HIPÓTESES 81
Observar que enquanto os testes de hipóteses frequentistas (ver seção 2.11)

consideram apenas duas hipóteses, o teste bayesiano pode ser aplicados a mais
de duas hipóteses, e o procedimento consistirá em encontrar a hipótese com
maior probabilidade a posteriori.
Exemplo 4.5: Supor que Y seja uma variável aleatória com distribuição
normal N (θ; 1). Considerar as hipóteses H0 : θ = 0 e H1 : θ = 1. Assumir a
priori que P (H0 ) = P (H1 ) = 0, 5.
Observar que T = Y (estatı́stica suficiente para θ), sendo Y ∼ N θ; n1 , isto

é, √
n n
P (T | H0 ) = √ exp − y 2
2π 2
e √
n h n
2
i
P (T | H1 ) = √ exp − (y − 1) .
2π 2
Assim,
exp − n2 y 2

P (H0 | T )
= h i
P (H1 | T ) exp − n2 (y − 1)
2
n nh io
2
= exp − y 2 − (y − 1)
h n2 i
= exp − (2y − 1) .
2
Como ilustração numérica supor que foi observado em uma amostra tamanho
n = 10 uma média amostral y = 2. Portanto,
P (H0 | T ) h n i
= exp − (2y − 1) = 3, 1 × 10−7 .
P (H1 | T ) 2
Como esse valor é muito pequeno, concluı́mos que devemos rejeitar H0 em

favor de H1 : θ = 1.
4.9.1 Hipótese simples contra alternativa composta

Supor que H0 seja uma hipótese simples e que H1 seja uma hipótese composta.
Supor que θ seja o parâmetro de interesse e que T = T (y1 , . . . , yn ) seja a es-
tatı́stica do teste. A razão entre a distribuição a posteriori de H0 e a distribuição
a posteriori de H1 é dada por
P (H0 | T ) P (T | H0 ) P (H0 )
=
P (H1 | T ) P (T | H1 ) P (H1 )
P (H0 ) P (T | H0 , θ0 )
= R
P (H1 ) P (T | H1 , θ) π (θ) dθ
82
em que π (θ) é a densidade a priori para θ sob H1 . Observar que, quando há
mais de um parâmetro, devemos integrar os parâmetros adicionais.
Exemplo 4.6: Supor que a variável aleatória Y siga uma distribuição nor-
mal N (θ; 1) e assumir o teste de hipóteses H0 : θ = 0 versus H1 : θ 6= 0.
Também supor que selecionamos uma amostra aleatória de tamanho n = 10
cuja média amostral é y = 2. Observar que T = Y é uma estatı́stica suficiente
para θ. Assumir P (H0 ) = P (H1 ) = 0, 5. Observar que Y | θ ∼ N θ; n1 .

Portanto,
n 21 n
P (T | H0 , θ = 0) = exp − ȳ 2
2π 2
e
n 21 h n i
2
P (T | H1 , θ) = exp − (ȳ − θ) .
2π 2
Assumir uma distribuição a priori normal N (1, 1) para θ sob H1 , isto é,

1 1 2
π (θ) = √ exp − (θ − 1)
2π 2
De (4.12) temos:
n
12
exp − n2 ȳ 2

P (H0 | T ) 2π
= 21 h 12 i
P (H1 | T ) R∞ n 2
exp − n2 (ȳ − θ) −
1 1
(θ − 1)
2
dθ
−∞ 2π 2π 2
1
(2π) 2 exp − n2 ȳ 2

= .
R∞ −[(θ−1)2 +n(θ−ȳ)2 ]
−∞
exp 2 dθ
Desenvolvendo o denominador desta expressão, temos:

 h i
Z ∞  − (θ − 1)2 + n (θ − ȳ)2 
exp dθ
−∞  2 
Z ∞ " 2 #
1 (nȳ + 1) 1 nȳ + 1
= exp − (nȳ + 1) + exp − −1 θ− dθ
2 2 (n + 1) −∞ 2 (n + 1) n+1
Como
Z ∞
" 2 # 12
1 nȳ + 1 2π
exp − −1 θ− dθ = ,
−∞ 2 (n + 1) n+1 n+1
temos
n
12 1
exp − n2 ȳ 2 (2π) 2

P (H0 | T ) 2π
=
P (H1 | T ) n 2
1 2π 12 h
1 (nȳ+1)2
i
2π n+1 exp − 2 nȳ + 1 + 2(n+1)
1
n 2

(n + 1) 2 exp − 2 ȳ
= h 2 2
i
exp − nȳ2 − 12 + 12 (nȳ+1)
(n+1)
( " #)
2
1 1 (nȳ + 1)
= (n + 1) 2 exp − −1 .
2 (n + 1)
Com n = 10 e ȳ = 2 temos:
P (H0 | T )
= 1, 1 × 10−8 .
P (H1 | T )
Assim, devemos rejeitar H0 : θ = 0 em favor de H1 : θ 6= 0.
4.10 Exercı́cios
0
1. Seja y = (y1 , . . . , yn ) uma amostra aleatória da distribuição exponencial
com densidade f (y | λ) = λ exp (−λy) , y > 0, λ > 0. Considere uma
distribuição a priori conjugada para λ. Encontre:
(a) A densidade a posteriori para λ.

(b) Um aproximação normal para a densidade a posteriori para λ.
(c) A densidade preditiva para uma observação futura yn+1 .
(d) Encontre a moda da distribuição preditiva para uma observação fu-
tura de yn+1 .
2. Seja y = (y1 , . . . , yn ) representando uma amostra aleatória da distribuição

uniforme com densidade f (y | θ) = 1/θ, 0 < y < θ e considere uma
densidade a priori para θ dada por π (θ) = αaα θ−(α+1) , θ > a, α > 0 e
a > 0 (a conhecido).
(a) Encontre a densidade a posteriori para θ.

(b) Encontre a densidade preditiva para uma observação futura yn+1 .
3. Considere uma distribuição Gaussiana inversa IG (µ, λ) com densidade,

3 − 12 h i
2
f (y | µ, λ) = 2πy
λ exp − 2µλ2 y (y − µ) , y > 0; λ > 0 e µ > 0.
Observar que E (y) = µ e V ar (y) = µ3 /λ. Assuma uma amostra aleatória
84
y = (y1 , . . . , yn ) e uma priori não informativa conjunta para µ e λ dada

por
1
π (µ, λ) ∝ , µ > 0, λ > 0.
µλ
Encontre:
(a) A densidade a posteriori conjunta para µ e λ. Encontre também a

densidade a posteriori marginal para µ.
(b) Considere duas amostras independentes com distribuições Gaussianas
inversas IG (µ1 , λ1 ) e IG (µ2 , λ2 ) com λ1 e λ2 conhecidos. Encontre
a densidade a posteriori marginal para µ1 /µ2 (razão de médias).
(c) Encontre a densidade preditiva para uma observação futura yn+1 dado
y1 , . . . , y n .
Capı́tulo 5
Distribuições a Priori
Uma distribuição a priori para um parâmetro pode ser elicitada de várias formas:
(a) Podemos assumir distribuições a priori definidas no domı́nio de variação do

parâmetro de interesse. Como um caso particular, poderı́amos considerar
uma distribuição a priori Beta (ver (1.17)), que é definida no intervalo
(0, 1), para proporções que também são definidas no intervalo (0, 1), ou
considerar uma distribuição a priori normal para parâmetros definidos em
toda reta;
(b) Podemos assumir uma distribuição a priori baseada em informações de um
ou mais especialistas;
(c) Podemos considerar métodos estruturais de elicitação de distribuições a
priori (ver por exemplo, Paulino et al., 2003);
(d) Podemos considerar distribuições a priori não-informativas quando temos
total ignorância sobre parâmetros de interesse;
(e) Podemos usar métodos bayesianos empı́ricos baseados em dados ou exper-
imentos prévios para construir a priori de interesse.
Alguns casos especiais são dados a seguir.
5.1 Método estrutural de elicitação

Um método estrutural é qualquer método de elicitação da distribuição a pri-
ori para um parâmetro θ baseado em questões relacionadas diretamente com
o parâmetro (Kadane, 1980). Como um caso especial, vamos considerar que
θ pode assumir um valor entre os possı́veis valores θ1 , . . . , θk . A partir da in-
formação de um especialista podemos atribuir as probabilidades a priori para
cada valor possı́vel θ.
85
86
Método do Histograma: Vamos considerar uma partição do espaço para-

k
S
métrico θ em k intervalos, isto é, Θ = θi , e então consultarmos um especial-
i=1
ista para atribuir probabilidades para cada intervalo θi . Então, construimos um
histograma com essas probabilidades.
Exemplo 5.1: Seja θ um parâmetro representando a proporção de com-

ponentes defeituosos em um equipamento hospitalar. Vamos supor a moda da
distribuição como igual
aM = 0, 1. Assim,dividimos3M o intervalo [0, 1] em k = 6
subintervalos: Q1 = 0, M M 3M
= M, 3M4+1 ,

2 , Q2 = 2 , , Q 3 = , M , Q4
3M +1 M +1
M +1
4 4
Q5 = 4 , 6 e Q6 = 6 , 1 . Então, solicitamos a um especialista as
P6
probabilidades pi para cada intervalo, i = 1, . . . , 6, com i=1 pi = 1. Como um
exemplo, considerar os valores de pi exibidos na Tabela 5.1.
Tabela 5.1: Distribuição a priori para pi .
Qi pi
[0; 0, 05] 0, 096
(0, 05; 0, 075] 0, 108
(0, 075; 0, 1] 0, 1233
(0, 1; 0, 325] 0, 6308
(0, 325; 0, 55] 0, 0415
(0, 55; 1] 0, 0004
A partir dos resultados da Tabela 5.1, temos que a distribuição Beta(a, b)

(ver (1.17)) com valores a = 2, 4 e b = 13, 6 se ajusta satisfatoriamente a
um histograma construı́do a partir destas informações (Figura 5.1). Assim,
consideramos que a distribuição a priori para θ é θ ∼ Beta (2, 4; 13, 6).
5.2 Método preditivo de elicitação

Na prática, um especialista pode achar mais simples fornecer informação nas ob-
servações do que em parâmetros (ou sumários ou estatı́sticas dessas observações).
Assumindo que f (y | θ) é o modelo formulado pelo estatı́stico, é solicitada a
informação de um especialista sobre uma estatı́stica T com distribuição pT (t).
Seja fT (t | θ) a distribuição dessa estatı́stica baseada no modelo estatı́stico elab-
orado. Se h (θ) é a distribuição a priori desconhecida, então pT (t) e h (θ) estão
relacionadas a partir da expressão
Z
pT (t) = fT (t | θ) h (θ) dθ. (5.1)
θ
A partir daı́, escolhemos h (θ) tal que a integral em (5.1) leve a uma boa
aproximação para pT (t) (isto nem sempre é um problema simples).
5.2. MÉTODO PREDITIVO DE ELICITAÇÃO 87
5
4
3
2
1
0
0.000 0.100 0.325 0.550 1.000
Figura 5.1: Histograma para os resultados mostrados na Tabela 5.1. A curva

sobreposta ao histograma descreve uma densidade beta com parâmetros a = 2, 4
e b = 13, 6.
Uma simplificação possı́vel é escolher uma famı́lia de distribuição a priori

h (θ) e escolher então os valores dos hiperparâmetros que melhor se aproxime
de pT (t).
Exemplo 5.2: Supondo o parâmetro θ de uma distribuição binomial, vamos

assumir que a distribuição a priori seja uma distribuição Beta(a, b) (ver (1.17)).
A seguir, o estatı́stico solicita a um especialista a distribuição para o número de
sucessos T em uma amostra imaginária de dimensão m. A distribuição marginal
(preditiva) para T é dada por
Z 1
m t m−t 1 b−1
pT (t) = θ (1 − θ) θa−1 (1 − θ) dθ
t B (a, b)
0
m B (a + t, m − t + b)
= (5.2)
t B (a, b)
para t = 0, 1, 2, . . . , m. Nesta expressão, B (a, b) é a função Beta, dada por (1.3).
Então, com base em (5.2), encontramos os hiperparâmetros a e b. Winkler
(1980) sugere pedir ao especialista elicitação da probabilidade de se observar
um sucesso (T = 1) na seguintes situações:
(a) m = 1, e
(b) m = 2.
Supor que o especialista fornece valores p1 e p2 , respectivamente. De (5.2),

temos:
a
p1 = , se m = 1, e
a+b
2ab
p2 = , se m = 2.
(a + b) (a + b + 1)
88
Destas expressões, temos que
bp1 p2 (1 − p1 )
a= e b= .
1 − p1 2p1 (1 − p1 ) − p2
Observar que uma limitação do método é que ele necessariamente exige que
2p1 (1 − p1 ) > p2 .
Se, por exemplo, o especialista fornece os valores p1 = 0, 3 e p2 = 0, 4, temos

a = 5, 143 e b = 12.
5.3 Distribuições a priori não-informativas

O uso de distribuições a priori não-informativas tem vários objetivos:
(a) Deduzir crenças a posteriori para quem parte de um conhecimento escasso,

isto é, quando os dados fornecem grande parte da informação sobre o
parâmetro (a chamada “ignorância a priori”).
(b) Permitir a comparação com os resultados obtidos da inferência frequentista,

descrita no Capı́tulo 2, que só usa a informação amostral.
(c) Averiguar a influência de uma priori subjetiva quando comparada com os

resultados obtidos usando uma distribuição a priori não-informativa.
5.3.1 Método de Bayes-Laplace

Vamos assumir que o parâmetro θ é representado por uma distribuição discreta
de probabilidade, tomando k valores θ1 , . . . , θk . Uma distribuição a priori não-
informativa para θ é dada pela distribuição uniforme discreta (1.8),
1
π (θi ) = ,
k
em que i = 1, 2, . . . , k. Observar que na situação em que θ é representado por
uma variável contı́nua, o uso de distribuições a priori uniformes para θ pode
levar a distribuições a priori não-uniformes para transformações ψ = ψ (θ) de θ.
Neste caso, se π (θ) é uma distribuição a priori para θ, então,

dθ
π (ψ) = π [θ (ψ)] .
dψ
Observar que π (ψ) não é necessariamente uniforme.
Exemplo 5.3: Seja θ o parâmetro de uma distribuição de Bernoulli, 0 <

θ < 1. Pela regra de Bayes-Laplace, uma distribuição a priori não-informativa
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 89
para θ é dada pela distribuição uniforme contı́nua (1.11) no intervalo (0, 1), isto
é, π (θ) = 1, 0 < θ < 1.

θ
Considerando a reparametrização ψ = ln 1−θ , ψ segue uma distribuição
logı́stica padronizada (o parâmetro de locação é igual a zero e o parâmetro de
escala é igual a um), isto é,
exp (ψ)
π (ψ) = 2
[1 + exp (ψ)]
em que −∞ < ψ < ∞. Vamos agora supor uma distribuição a priori uniforme
para ψ (priori imprópria). Isso corresponde à uma distribuição a priori para θ
dada por
−1
π (θ) ∝ θ−1 (1 − θ)
para 0 < θ < 1, que é o núcleo de uma distribuição beta (a, b) com a = b = 0
(priori imprópria).
Dessa forma, precisamos ter muito cuidado em usar a priori não-informativa

de Bayes-Laplace em aplicações em geral, dado que diferentes escolhas de para-
metrizações leva a diferentes distribuições a priori.
5.3.2 Método de Jeffreys

Vamos considerar a medida de informação de Fisher para um parâmetro θ em
toda a reta dos valores reais, ou seja,
( 2 )
d ln f (y |θ)
I (θ) = E , (5.3)
dθ
em que o valor esperado é determinado sob a distribuição f (y|θ). Para qualquer

transformação ψ um a um de θ, temos
2
dθ
I (ψ) = I [θ (ψ)] (5.4)
dψ
(ver Box e Tiao, 1973). Ao assumirmos essa nova parametrização ψ, notamos

que a função de verossimilhança só se modifica em amostras diferentes de mesmo
tamanho em locação e não em escala. Assim, terı́amos uma variância constante
na aproximação assintótica (ver equação 3.17) para a distribuição a posteriori
para ψ, ou seja I (ψ) = constante (informação de Fisher constante). Dessa
forma, terı́amos de (5.4) a relação
2
dθ
= I −1 [θ (ψ)] ,
dψ
90
ou seja,
dθ 1
= I − 2 [θ (ψ)] . (5.5)
dψ
Como nessa parametrização ψ, a função de verossimilhança só muda em
locação para amostras diferentes de mesmo tamanho, uma distribuição a priori
não-informativa para ψ é dada por uma distribuição localmente uniforme, isto
é,
πψ (ψ) ∝ constante.
Isso implica que na parametrização θ, a priori não-informativa correspon-
dente é dada por

dψ
πθ (θ) = πψ [θ (ψ)]
dθ

dψ
∝ constante .
dθ
1
De (5.5), observar que dψdθ = I (θ), o que leva a uma distribuiçãopriori
2
não-informativa de Jeffreys para θ dada por

1
π (θ) ∝ I 2 (θ) .
É importante salientar que a priori de Jeffreys é invariante.
Exemplo 5.4: Seja Xi uma variável

Pn aleatória com distribuição de Bernoulli,
i = 1, . . . , n. Dessa forma, Y = i=1 Xi segue uma distribuição binomial
Binomial (n, θ) (ver (1.9)) em que a informação de Fisher é dada por I (θ) =
−1
nθ−1 (1 − θ) . Portanto, uma distribuição a priori não-informativa de Jeffreys
para θ é dada por
1 − 12
π (θ) ∝ θ− 2 (1 − θ) ,
1 1

isto é, θ ∼ Beta 2, 2 .
Exemplo 5.5: No Exemplo 3.5, um epidemiologista desejava estimar a

prevalência de uma doença em uma determinada população. Ele considerou
que, nessa população, a probabilidade de uma pessoa portar a doença é P (X =
1) = θ. Se a variável aleatória Y denota o número de portadores da doença em
uma amostra de tamanho n, temos

n y n−y
f (y | θ) = θ (1 − θ) ,
y
em que y = 0, 1, 2, . . . , n, e a distribuição a priori para θ é dada por
1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)
com a e b conhecidos. Considerando uma distribuição a priori não-informativa

de Jeffreys para θ, temos a = 1/2 e b = 1/2 (Exemplo 5.4). A distribuição a
posteriori para θ é dada por
1 n−y−1/2
π (θ | y) = θy−1/2 (1 − θ) ,
B (y + 1/2, n + 1/2 − y)
com 0 < θ < 1. Novamente, vamos supor que em uma amostra de tamanho
n = 300, o epidemiologista encontrou y = 31 pessoas portadoras da doença.
Considerando que π (θ | y) segue uma distribuição beta com parâmetros y + a =
31 + 1/2 = 31, 5 e n + b − y = 300 + 1/2 − 31 = 269, 5, uma estimativa bayesiana
para a prevalência da doença, dada pela média de π (θ | y), é
31, 5
θB =
b ≈ 0, 105.
31, 5 + 269, 5
Nota: Observar que a informação de Fisher (5.3) também pode ser dada na
forma 2
d ln f (y | θ)
I (θ) = E − .
dθ2
Exemplo 5.6: Seja Yi uma variável aleatória com distribuição de Poisson

(1.10) com parâmetro θ, i = 1, . . . , n. Assumindo observações iid, a função de
verossimilhança para θ é dada por
n Pn
Y e−θ θyi exp (−nθ) θ i=1 yi
L (θ) = = n . (5.6)
yi ! Q
i=1 yi !
i=1
O logaritmo da função de verossimilhança é dado por

n
!
Y
l (θ) = −nθ + nȳ log (θ) − log yi ! ,
i=1
Pn
em que nȳ = i=1 yi . A primeira e segunda derivadas de l (θ) são dadas,
dl nȳ
= −n + e
dθ θ
d2 l nȳ
= −
dθ2 θ2

Observando que E (Y ) = θ, isto é, E Ȳ = θ, a informação de Fisher para
θ é dada por
d2 l

n
I (θ) = E − 2 = .
dθ θ
92
Dessa forma, a priori de Jeffreys para θ é dada por

1
π (θ) ∝ I 2 (θ) ,
isto é,
1
π (θ) ∝1 , θ > 0. (5.7)
θ2
Combinando-se (5.6) com (5.7) , encontramos a distribuição a posteriori para
θ dada por
π (θ | y) ∝ θ(nȳ+ 2 )−1 exp (−nθ) ,
1
ou seja,
1
θ | y ∼ Gama nȳ + , n .
2
Um estimador de Bayes com respeito à função perda quadrática para θ é
dado por
nȳ + 21 1
θ̃ = E (θ | y) = = ȳ + .
n 2n
Observar que o EMV (estimador de máxima verossimilhança) para θ é dado
por θ̂ = Y .
Exemplo 5.7: Vamos assumir que Y é uma variável aleatória com densi-
dade exponencial f (y | λ) = λ exp (−λy) , y > 0. Assumiremos uma amostra
aleatória de tamanho n dada por y = (y1 , . . . , yn ). A função de verossimilhança
para λ é dada por
n n
!
Y X
n
L (λ) = λ exp (−λyi ) = λ exp −λ yi .
i=1 i=1
Observar que E (Y ) = λ1 . O logaritmo da função de verossimilhança para λ

é dado por
l (λ) = n log λ − λnȳ. (5.8)
A primeira e segunda derivada de l (λ) são dadas, respectivamente, por
dl n
= − nȳ e
dλ λ
d2 l n
= − 2.
dλ2 λ
A informação de Fisher é dada por
d2 l

n
I (λ) = E − 2 = 2 .
dλ λ
Portanto, a priori de Jeffreys para λ é dada por
1
π (λ) ∝ . (5.9)
λ
Combinando-se (5.8) com (5.9), encontramos a distribuição a posteriori para

λ dada por
π (λ | y) ∝ λn−1 exp (−λnȳ) ,
isto é,
λ | y ∼ Gama (n; nȳ) .
Observar que o estimador de Bayes para λ com respeito a função de perda
quadrática é dado por
n 1
λ̃ = E (λ | y) = = .
nȳ ȳ
Neste caso, o estimador de Bayes coincide com estimador de máxima verossim-
ilhança para λ.
5.3.3 Caso Multiparamétrico

De forma similar ao caso uniparamétrico (ver Box e Tiao, 1973), determinamos a
0
priori de Jeffreys para um vetor de parâmetros θ = (θ1 , . . . , θk ) . O logaritmo da
0
função de verossimilhança para um vetor θ = (θ1 , . . . , θk ) pode ser aproximado
por uma série de Taylor na vizinhança do EMV θ̂ na forma
n 0
˜ θ̂ −
l (θ) = log L (θ) =l θ − θ̂ Dθ θ − θ̂
2
em que
1 ∂2l

Dθ̂ = −
n ∂θi ∂θj θ̂
para i, j = 1, 2, . . . , k. Observar que Dθ̂ é uma matriz k × k.

˜ −n In θ̂ , em que In θ̂ é a matriz de informação de
Para n grande, Dθ̂ =n
Fisher, dada por
∂2l

In θ̂ = E − .
∂θi ∂θj
Vamos considerar uma transformação φ (θ) tal que In (φ) seja uma matriz
de constantes independentes de φ tal que a função de verossimilhança só se
modifica em locação. Assim,
I (φ) = AIn (φ) A0 ,
em que
∂ (θ1 , . . . θk )
A= .
∂ (φ1 , . . . φk )
Portanto,
2
|In (φ)| = |A| |In (θ)| ,
94
em que o sı́mbolo |A| denota o determinante de uma matriz A. Então, consid-

eramos

∂ (θ1 , . . . θk ) 1
|A| = ∝ |In (θ)|− 2 ,
∂ (φ1 , . . . φk )
e conclui-se que a priori de Jeffreys é dada por

1
π (θ) ∝ |In (θ)| 2 . (5.10)
A matriz de informação de Fisher é dada por

 2 2 2 
E − ∂ ln∂θf 2(ypθ) E − ∂ ∂θ
ln f (ypθ)
. . E − ∂ ∂θ
. ln f (ypθ)
 1 2 1 ∂θ2 2 1 ∂θk 
∂ ln f (ypθ)
E − . . . E − ∂ ∂θ
ln f (ypθ) 


 ∂θ22 2 ∂θk


I (θ) = 
 . . 


 . . 


 . 2 . 

∂ ln f (ypθ)
E − ∂θ2
k
0
Exemplo 5.8: Sejam y = (y1 , . . . , yn ) observações de uma a. a. de
2
tamanho
n da distribuição normal com média µ e variância σ . Assim, θ =
2 0
µ, σ . A função de verossimilhança para θ é dada por
" n
#
n
2 −2 1 X 2
L (θ) = f (y | θ) ∝ σ exp − 2 (yi − µ) .
2σ i=1
O logaritmo l (θ) da função de verossimilhança L (θ) é dado por
n
n 1 X 2
ln σ 2 − 2

l (θ) = ln L (θ) ∝ − (yi − µ) ,
2 2σ i=1
e as segundas derivadas de l (θ) com respeito a µ e σ 2 são dadas por
∂ 2 l (θ) 1
= − n,
∂µ2 σ2
n
∂ 2 l (θ) n 2 X 2
2 = 2 − 3 (yi − µ) e
∂ (σ 2 ) 2 (σ 2 ) 2 (σ 2 ) i=1
n
∂ 2 l (θ) 1 X
= − 2 (yi − µ)
∂µ∂ (σ 2 ) (σ 2 ) i=1
2
Como E (Yi ) = µ e E (Yi − µ) = σ 2 , observamos que
2
∂ l (θ) n
E − 2
= ,
∂µ σ2
!
∂ 2 l (θ) n
E − 2 = 4
e
∂ (σ )2 2σ
∂ 2 l (θ)

E − = 0.
∂µ∂ (σ 2 )
Portanto, a informação de Fisher é dada por

n
0
I µ, σ 2 = σ2

,
0 2σn4
e, consequentemente, a priori de Jeffreys (ver 5.10) é dada por
1
π µ, σ 2 ∝ 2

σ
para −∞ < µ < ∞ e σ 2 > 0. A distribuição a posteriori conjunta para µ e σ 2
é dada por
" n
#
2
(n+3)
2 − 2 1 X 2
π µ, σ | y ∝ σ exp − 2 (yi − µ) .
2σ i=1
5.3.4 Método da Entropia Máxima

Supor inicialmente que θ seja um parâmetro discreto com função de probabi-
lidade h (θ). A entropia é definida como o valor esperado de − ln h (θ), dado
por X
E [h (θ)] = − ln [h (θi )] h (θi ) .
i
Esse conceito pode ser utilizado para encontrar uma distribuição a priori
não-informativa para θ.
Exemplo 5.9: Vamos supor que o parâmetro θ assume um número finito de

valores distintos θ1 , . . . , θk , com probabilidade P (θ = θi ) = pi > 0, i = 1, . . . , k.
Dessa forma, usamos o P método de entropia máxima para encontrarPk pi , i =
k
1, . . . , k com a restrição i=1 pi = 1 que maximize E [h (θ)] = − i=1 pi ln pi .
Introduzindo multiplicadores de Lagrange, devemos maximizar
k k
!
X X
∗
E [h (θ)] = − pi ln pi + λ pi − 1 .
i=1 i=1
96
De
∂E ∗ [h (θ)]
= 0,
∂pi
i = 1, . . . , k temos o sistema de equações
− ln pi − 1 + λ = 0
para i = 1, . . . , k, isto é, ln pi = λ − 1 para todo i = 1, . . . , k, o que leva pi

a ser constante. Assim, pi = k −1 , i = 1, . . . , k, é uma distribuição a priori
não-informativa que maximiza a entropia.
Outra possibilidade é assumir uma ignorância parcial (e não total) onde

se conhece alguns momentos da distribuição. Como um caso especial, vamos
assumir novamente θ discreto, tal que conhecemos para m funções gj (θ) , j =
1, . . . , m os seus momentos E [gj (θ)] = µj .
Com a introdução de multiplicadores de Lagrange devemos maximizar E ∗ [h (θ)]

dado por
! m
" #
X X X X
∗
E [h (θ)] = − pi ln pi + λ pi − 1 + λj gj (θi ) pi − µj .
i i j=1 i
No caso contı́nuo, a entropia de uma distribuição h (θ) é definida por,

Z
E [h (θ)] = − h (θ) ln h (θ) dθ
Nota: Outros métodos para obtenção de distribuições a priori não-informa-

tivas são introduzidos na literatura. Por exemplo, Bernardo (1979) introduziu
a priori de referência explorando a medida de divergência de Kullback-Leibler
(ver Bernardo e Smith, 1995).
5.4 Exercı́cios
1. Seja X = (X1 , . . . , Xn ) uma amostra aleatória de uma distribuição normal
N µ, σ 2 .
(a) Assumindo σ conhecido, encontre uma distribuição a priori não-informativa
de Jeffreys para µ.
(b) Assumindo µ conhecido, encontre uma distribuição a priori priori não-
informativa de Jeffreys para σ.
(c) Com µ e σ desconhecidos, encontre a distribuição a priori a priori de
Jeffreys para µ e σ.
2. Seja T uma variável aleatória representando o tempo de vida de um com-

ponente, com distribuição exponencial com densidade
f (t | λi ) = λi exp (−λi t) , t > 0, λi ≥ 0,
em que λi = θi−1 , θi = E (T | λi ) e o modelo de potência inversa θi =

αVi−β , i = 1, . . . , k usado em testes acelerados industriais (Vi é fixo) .
Considere k = 2 e os dados de um teste acelerado com dois nı́veis para a
variável stress Vi :
i Vi ni tji ; i = 1, 2; j = 1, . . . , ni
1 10 5 6, 8, 10, 12, 14
2 20 8 4, 5, 5, 6, 8, 8, 9, 14
(a) Escreva a função de verossimilhança para α e β;
(b) Encontre uma distribuição a priori não-informativa para α e β usando
a regra de Jeffreys;
(c) Encontre a distribuição a posteriori conjunta para α e β;
(d) Encontre a distribuição a posteriori marginal para β.
3. Considere uma variável aleatória Y com densidade Gaussiana inversa com
parâmetros θ e λ e densidade,

− 1 1 2
f (y | θ, λ) = 2πλ−1 y 3 2 exp − λy −1 yθ−1 − 1
2
θ3
em que y > 0, θ > 0, λ > 0, E (y) = θ e V ar (y) = λ.
0
(a) Assumindo uma amostra aleatória de tamanho n, y = (y1 , . . . , yn ) ,
encontre uma densidade a priori não informativa conjunta para θ e λ
usando a regra de Jeffreys;
(b) Encontre a distribuição a posteriori conjunta para θ e λ usando a priori
obtido em (a) ;
(c) Encontre a densidade a posteriori marginal para θ;
(d) Assumindo λ conhecido, encontre uma priori não-informativa para θ
usando a regra de Jeffreys.
98
Capı́tulo 6
Aproximações Numéricas e
Métodos de Monte Carlo
Na obtenção de sumários a posteriori de interesse, geralmente precisamos re-

solver integrais que não apresentam solução analı́tica. Isto é comum em proble-
mas que envolvem um vetor θ de parâmetros. Várias alternativas são introduzi-
das na literatura para resolver essas integrais. Neste capı́tulo, apresentaremos
alguns casos especiais.
6.1 Aproximação de Laplace

Supor que estamos interessados em encontrar momentos a posteriori da forma
Z
E [g (θ) | y] = g (θ) π (θ | y) dθ, (6.1)
0
em que g (θ) é uma função de interesse, θ = (θ1 , . . . , θk ) é o vetor de parâmetros
0
e y = (y1 , . . . , yn ) é o vetor de dados. Como a distribuição a posteriori para θ
é dada por
f (y | θ) π (θ)
π (θ | y) = R ,
f (y | θ) π (θ) dθ
em que f (y | θ) é a função de verossimilhança para θ e π (θ) é uma distribuição
a priori para θ, podemos escrever (6.1) na forma
R
g (θ) f (y | θ) π (θ) dθ
E [g (θ) | y] = R . (6.2)
f (y | θ) π (θ) dθ
Vamos supor que g (θ) é uma função positiva. Podemos reescrever (6.2) na
forma
exp [−nh∗ (θ)] dθ
R
E [g (θ) | y] = R ,
exp [−nh (θ)] dθ
99
100
em que
−nh (θ) = ln π (θ) + ln f (y | θ)
e
−nh∗ (θ) = ln g (θ) + ln π (θ) + ln f (y | θ) .
Caso Uniparamétrico: Seja θ unidimensional (θ ∈ R) em que θ̂ maximiza

∗
−h (θ) e θ̂ maximiza −h∗ (θ). Vamos definir
h i− 21
σ̂ = h00 θ̂
e
h 00 ∗ i− 21
σ̂ ∗ = h∗ θ̂ ,
em que h00 (.) é a segunda derivada de h (.).
As aproximações de Laplace para as integrais no numerador e denominador

de (6.1) são dadas respectivamente por
Z √ 1
h ∗ i
˜ 2πσ̂ ∗ n− 2 exp −nh∗ θ̂
exp [−nh∗ (θ)] dθ = (6.3)
e Z √ 1
h i
˜ 2πσ̂n− 2 exp −nh θ̂
exp [−nh (θ)] dθ = (6.4)
Observe que as aproximações de Laplace são aproximações normais para os

integrandos. Assim, obtém-se a aproximação
∗
σ̂ n h ∗ io
E [g\(θ) | y]=
˜ exp −n h∗ θ̂ − h θ̂ . (6.5)
σ̂
Tierney e Kadane (1986) mostraram que a aproximação (6.5) é bem precisa

e satisfaz à relação
˜ Ê [g (θ) | y] 1 + o n−2 ,

E [g (θ) | y] =
em que o n−2 é a ordem do erro de aproximação (observar que an = θ (bn )

se abnn → 0 quando n ↑ ∞).
0
Caso Multiparamétrico: Seja θ = (θ1 , . . . , θk ) , em que θ ∈ Rk . Neste
caso, a aproximação de Laplace é dada por,
Z
k
− 12 h i
˜ (2π) 2 n 52 h θ̂ exp −nh θ̂ ,
exp [−nh (θ)] dθ = (6.6)

6.1. APROXIMAÇÃO DE LAPLACE 101
em que θ̂ maximiza −h (θ) e

2

2
∂ h (θ)
5 h θ̂ = |θ=θ̂

ij ∂θi ∂θj
é a matriz hessiana de H calculada em θ̂. Escrevendo

− 12
σ̂ = n 52 h θ̂

e ∗ − 12
σ̂ ∗ = n 52 h∗ θ̂ ,

∗
em que θ̂ maximiza −h (θ) e θ̂ maximiza −h (θ ∗ ), encontramos a aproximação
de Laplace,
∗
σ̂ n h ∗ io
E [g\
(θ) | y]=
˜ exp −n h∗ θ̂ − h θ̂ .
σ̂
Podemos usar a aproximação de Laplace para calcular momentos a poste-

riori de interesse, densidades preditivas e densidades a posteriori marginais de
interesse (ver Tierney e Kadane, 1986).
Exemplo 6.1: Seja Y uma variável aleatória com distribuição Binomial(n,

θ) e vamos assumir uma distribuição a priori Beta 21 , 12 para o parâmetro θ. A

distribuição a posteriori para θ é dada pela distribuição Beta y + 12 , n − y + 12 .

Neste caso, observamos que a média a posteriori para θ é dada, em sua forma
exata, por
y + 12
E (θ | y) = .
n+1
Como ilustração numérica, vamos considerar a aproximação de Laplace para
a média a posteriori para θ. Observar que (ver 6.1)
R1 1 n−y− 12
0
θy+ 2 (1 − θ) dθ
E (θ | y) = R1 1 n−y− 21
. (6.7)
0
θy− 2 (1 − θ) dθ
Vamos considerar a aproximação de Laplace para a integral

Z 1 Z 1
a b
θ (1 − θ) dθ = exp [−nh (θ)] dθ, (6.8)
0 0
em que
−nh (θ) = a ln θ + b ln (1 − θ) .
0
De −h (θ) = 0, o máximo de −h (θ) é dado por
a
θ̂ = .
(a + b)
102
A segunda derivada de −nh (θ) calculada em θ̂ é dada por

3
(a + b)
−nh00 (θ) = − ,
ab
isto é,
i− 21 √ 1
h
00 n (ab) 2
σ̂ = h θ̂ = 3 .
(a + b) 2
E ainda,
h i aa bb
exp −nh θ̂ = a+b
.
(a + b)
Dessa forma, a aproximação de Laplace para (6.8) é dada (ver (6.3) e (6.4))
por √
1 1 1
2πaa+ 2 bb+ 2
Z
a b
θ (1 − θ) dθ=
˜ a+b+ 23
.
0 (a + b)
Com a = y + 12 , b = n − y − 21 (numerador de (6.7)) e a = y − 12 , b = n − y − 21
(denominador de (6.7)), encontramos
n+ 12 1 y+1

(n − 1) y+ 2
E (θ | y) =
˜ 3 1
.
nn+ 2 y − 2
Nota: A aproximação de Laplace para integrais não é invariante à repara-

metrizações (ver Achcar e Smith, 1989).
Exemplo 6.2: Vamos considerar a razão das médias de duas distribuições

exponenciais com médias φ e λ, respectivamente. Seja y11 , . . . , y1n uma a.a. de
tamanho n de uma distribuição exponencial com média φ e seja y21 , . . . , y2n
uma a.a. de tamanho n de uma distribuição exponencial com média λ. Vamos
assumir independência entre as duas amostras. A função de verossimilhança
para φ e λ é dada por
−n
L (φ, λ) ∝ (φλ) exp −nȳ1 φ−1 − nȳ2 λ−1 ,

Pn Pn
em que nȳ1 = i=1 y1i e nȳ2 = i=1 y2i .
A distribuição a priori de Jeffreys para φ e λ é dada por

1
π (φ, λ) ∝ ,
φλ
em que φ > 0 e λ > 0. A razão das médias é dada por ψ = φλ e a média a

posteriori para ψ é dada por

nȳ1 nȳ2
R R −n −(n+2)

φ
φ λ exp − φ − λ dφdλ
E |y = R R . (6.9)
λ φ−(n+1) λ−(n+1) exp − nȳ1 − nȳ2 dφdλ φ λ
6.1. APROXIMAÇÃO DE LAPLACE 103
Vamos considerar a aproximação de Laplace para a integral

Z Z Z Z
−a −b nȳ1 nȳ2
φ λ exp − − dφdλ = exp [−nh (φ, λ)] dφdλ, (6.10)
φ λ
em que
nȳ1 nȳ2
−nh (φ, λ) = −a ln φ − b ln λ − − .
φ λ
O máximo de −h (φ, λ) é dado por
nȳ1
φ̂ =
a
e
nȳ2
λ̂ = .
b
E ainda,
n∂ 2 h a3
− | = ,
∂φ2 (φ̂,λ̂) (nȳ1 )2
n∂ 2 h b3
− | =
∂λ2 ( ) (nȳ2 )2
φ̂,λ̂
e
n∂ 2 h
− | = 0.
∂λ∂φ (φ̂,λ̂)
Portanto, a matriz hessiana (ver (6.6)) é dada por
a3
!

(nȳ1 )2
0
n∇2 h φ̂, λ̂ = b3
,
0 (nȳ2 )2
isto é,
n h io− 12 (nȳ1 ) (nȳ2 )
det n∇2 h φ̂, λ̂ = 3 3 .
a2 b2
Em adição, temos
h i aa bb
exp −nh φ̂, λ̂ = a b
exp (−a − b) .
(nȳ1 ) (nȳ2 )
Assim, a aproximação de Laplace (ver (6.6)) para (6.10) é dada por
3 3
2πaa− 2 bb− 2 exp [− (a + b)]
Z Z
nȳ1 nȳ2
φ−a λ−b exp − − dφdλ=
˜ . (6.11)
φ λ na+b−2 ȳ1a−1 ȳ2b−1
Dessa forma, usando a expressão (6.11) no numerador e denominador de
(6.9) encontramos
\
n− 3 n+ 1
φ n 2 (n + 2) 2 ȳ1
E |y =˜ 2n−1 .
λ (n + 1) ȳ2
Observar que o resultado exato para esse caso é dado por

φ n ȳ1
E |y = .
λ n − 1 ȳ2
104
6.2 Método de Monte Carlo ordinário

Vamos supor que estamos interessados em aproximar uma integral na forma
Z
E [g (θ) | y] = g (θ) π (θ | y) dθ, (6.12)
em que y e θ podem ser vetores. Pelo método de Monte Carlo ordinário, vamos
simular uma amostra θ1 , . . . , θn da distribuição a posteriori π (θ | y). Assim, a
expressão (6.12) é aproximada por
n
1X
Ê [g (θ) | y] = g (θi ) .
n i=1
Observar que, pela lei forte dos grandes números, Ê [g (θ) | y] converge quase
certamente para E [g (θ) | y]. A precisão dessa aproximação pode ser medida
pelo erro padrão de Monte Carlo, dado por

n
" n
#2  21
1  X 1 X 
p g (θi ) − g (θi ) .
n (n − 1)  i=1 n i=1 
Intervalos de credibilidade para θ podem ser obtidos usando o método de

Monte Carlo ordinário. Da ordenação da amostra simulada de π (θ | y) obtemos
θ(1) < θ(2) < . . . < θ(n) . Um intervalo de credibilidade 100α% para θ é dado
por
h i
Rc (α) = θ (1−α) ; θ (1+α) ,
2 2
(1−α) (1+α)
cujos extremos definem quantis de probabilidade a posteriori 2 e 2 de
θ. Assim,
h i 1−α
P θ ≤ θ (1−α) | y =
2 2
e
h i 1−α 1+α
P θ ≤ θ (1+α) | y = 1 − = .
2 2 2
6.3 Método de Monte Carlo por importância

Observar que em muitas aplicações, não podemos simular uma amostra direta-
mente da distribuição a posteriori π (θ | y), como considerado usando o método
de Monte Carlo ordinário. Uma alternativa é simular uma amostra de uma
distribuição semelhante à distribuição a posteriori π (θ | y), uma amostragem
via função de importância. Seja p (θ) uma densidade da qual seja fácil simu-
lar amostras e que aproxime a distribuição π (θ | y). Assim, podemos escrever
6.3. MÉTODO DE MONTE CARLO POR IMPORTÂNCIA 105
(6.12) na forma
R
g (θ) f (y | θ) π (θ) dθ
Z
g (θ) π (θ | y) dθ = R
f (y | θ) π (θ) dθ
g (θ) f (y|θ)π(θ)
R
p(θ) p (θ) dθ
= R f (y|θ)π(θ)
p(θ) p (θ) dθ
R
g (θ) w (θ) p (θ) dθ
= R ,
w (θ) p (θ) dθ
em que
f (y | θ) π (θ)
w (θ) = ,
p (θ)
f (y | θ) é a função de verossimilhança para θ e π (θ) é a distribuição a priori
para θ. Obtendo uma amostra θ1 , . . . , θn de p (θ), encontramos a aproximação
de Monte Carlo para E [g (θ) | y] dada por
n
1 X
E [g\
(θ) | y] = Pn wi g (θi ) , (6.13)
i=1 wi i=1
em que
f (y | θi ) π (θi )
wi = .
p (θi )
Nota: Observar que o método de amostragem via função de importância
atribui mais peso à regiões em que p (θ) < π (θ | y) e menos peso às regiões em
que p (θ) > π (θ | y). Geweke (1989) mostra que se o suporte de p (θ) inclui
suporte
R de π (θ | y), os θi , i = 1, . . . , n são os elementos de uma a. a. de p (θ) e
se g (θ) π (θ | y) dθ existe e é finito, então,
n Z
1 X
Pn wi g (θi ) → g (θ) π (θ | y) dθ.
i=1 wi i=1
q.c.
O erro-padrão dessa estimativa de Monte Carlo via função de importância é

dado por

n
" n
#2  12
1 X 1 X 
Pn g (θi ) − Pn wi g (θi ) wi2 .
j=1 wj  i=1 j=1 wj i=1 
Observar que a razão de convergência depende de como p (θ), a função de im-

portância, está próxima de π (θ | y). Uma boa escolha da função de importância
segue as propriedades:
1. Simplicidade na geração de amostras;

2. Ter caudas mais pesadas do que π (θ | y);
106
3. Ser uma boa aproximação para π (θ | y).
Para vetores paramétricos θ, podemos considerar como função de importância

distribuições normais multivariadas ou distribuições t de Student multivariadas.
Exemplo 6.3: De acordo com um modelo genético, animais de uma de-

terminada espécie estão distribuı́dos em quatro categorias, de acordo com as
probabilidades:
2+θ 1−θ 1−θ θ
p1 = , p2 = , p3 = e p4 = ,
4 4 4 4
0 < θ < 1. Assumir que o parâmetro de interesse θ tem uma distribuição a priori
Beta(a, b) com a e b conhecidos (ver (1.17)) e para uma amostra de Ptamanho n
n
se observa yi animais na i-ésima categoria, i = 1, 2, 3, 4. Notar que i=1 yi = n.
Assim a distribuição a posteriori para θ é dada por:
y1 y2 +y3 +b−1
π (θ | y) ∝ (2 + θ) (1 − θ) θy4 +a−1
para 0 < θ < 1. O logaritmo da distribuição posteriori é dado por
L (θ) = ln [π (θ | y)]
∝ y1 ln (2 + θ) + (y2 + y3 + b − 1) ln (1 − θ) + (y4 + a − 1) ln (θ) .
A primeira e segunda derivadas de L (θ) são dadas, respectivamente, por
y1 y4 + a − 1 (y2 + y3 + b − 1)
L0 (θ) = + −
2+θ θ 1−θ
e
y1 (y2 + y3 + b − 1)
y4 + a − 1
−L00 (θ) = 2 + 2 . +
(2 + θ) (1 − θ) θ2
h i−1
Seja θ̂ o valor total que L0 θ̂ = 0 e σ 2 = −L00 θ̂ . Vamos assumir
esses valores como aproximações para a média e para a variância da distribuição
importância. São possı́veis candidatas as distribuições normal (1.12) e beta
(1.17). Vamos então seguir o seguinte roteiro:
1. Simular θ1 , . . . , θm de p (θ) a função de importância escolhida;

2. Calcular
f (y | θi ) π (θi )
wi = , i = 1, . . . , m;
p (θi )
3. Calcular
m
1 X
Pm wi g (θi )
i=1 wi i=1
considerando:
6.3. MÉTODO DE MONTE CARLO POR IMPORTÂNCIA 107
• g (θ) = θ para o cálculo aproximado da média a posteriori; e

• g (θ) = θ2 para obter uma aproximação para a variância a posteriori.
Exemplo 6.4: Vamos considerar uma amostra aleatória de tamanho n =

5 com observações 11, 4, 7, 3, 9, 8, 13, 7 e 10, 6 de uma densidade f (y | θ) de
Cauchy padrão (ver (1.18)) dada por
1
f (y | θ) = h i I(−∞,∞) (y).
2
π 1 + (y − θ)
A média amostral é dada por ȳ = 10, 56. Assumindo uma distribuição a

priori não informativa localmente uniforme π (θ) ∝ constante, −∞ < y < ∞, a
densidade a posteriori para θ é dada por
π (θ | y) = cH (θ) (6.14)
em que
h i−1
2
H (θ) = 105 1 + (11, 4 − θ) ×
h i−1 h i−1
2 2
× 1 + (7, 3 − θ) 1 + (9, 8 − θ) ×
h i−1 h i−1
2 2
× 1 + (13, 7 − θ) 1 + (10, 6 − θ)
e Z ∞
−1
c = H (θ) dθ.
−∞
(ver Box e Tiao, 1973). Observar que a variação de θ na distribuição a posteriori

está entre 6 e 16 com média amostral ȳ = 10, 56. Portanto, devemos escolher
uma “função importância” p (θ) dada por uma densidade normal com média 11
e variância igual a 4. Então, geramos M = 1000 observações da distribuição
normal N (11; 4) e aproximamos a média a posteriori para θ por (6.13), isto é,
1000
X
E\
(θ | y) = wi θi ,
i=1
em que
H(θi )
p(θi )
wi = P1000
H(θm )
,
i=1
p(θm )
H (θi ) é dado por (6.15) e p (θm ) é dado por

1 1 2
p (θm ) = √ exp − (θm − 11) .
2 2π 2 (4)
Assim, encontramos E\
(θ | y)=10,
˜ 620.
108
6.4 Algoritmo SIR

Outra forma para simular amostras para uma distribuição a posteriori de inte-
resse é dada pelo algoritmo SIR (sampling-importance-resampling) ou algoritmo
de amostragem-reamostragem por importância. Assumir que a distribuição a
posteriori de interesse g ∗ (θ) = π (θ | y) é difı́cil para simular amostras direta-
mente. Dessa forma, considerar uma “função importância” p (θ) que aproxima
g ∗ (θ) e é simples para simulação de amostras. O algoritmo SIR apresenta duas
etapas:
1. Gerar m amostras θ 1 , θ 2 , . . . , θ m de p (θ). Calcular os pesos

g ∗ (θ i )
wi = w (θ i ) =
p (θ i )
para i = 1, 2, . . . , m.
2. Selecionar uma amostra θ ∗1 , . . . , θ ∗n com reposição de θ 1 , θ 2 , . . . , θ m com
probabilidades proporcionais a [w (θ 1 ) , . . . , w (θ m )].
Rubin (1987) mostra que a amostra (θ ∗i ) é aproximadamente distribuı́da da

densidade a posteriori de interesse g (θ ∗ ). Alguns autores denominam este pro-
cedimento como bootstrap ponderado pois selecionamos amostras com reposição
de (θ 1 , . . . , θ m ) usando pesos (probabilidades) diferentes w (θ i ). A precisão
aumenta quando m na amostra original aumenta. É importante salientar que:
1. Se as médias de p (θ) e g ∗ (θ) são muito diferentes, é importante que um

número suficiente de pontos amostrais de p (θ) seja selecionado na região
em que g ∗ (θ) está concentrado.
2. Em inferência bayesiana, g ∗ (θ) seria a posteriori π (θ | y) e p (θ) poderia
ser a distribuição a priori para θ se a priori for própria; dessa forma, os
pesos seriam proporcionais à função de verossimilhança, pois,
L (θ i ) π (θ i )
w (θ i ) = = L (θ i ) .
π (θ i )
Exemplo 6.5: Vamos considerar a razão de médias de duas distribuições

exponenciais com parâmetros φ e λ. Vamos assumir uma amostra de tamanho n,
com observações y11 , . . . , y1n de uma distribuição exponencial (1.13) com média
φ e uma amostra de tamanho n, y21 , . . . , y2n , de uma distribuição exponencial
com média λ. A função de verossimilhança para φ e λ, assumindo independência
entre as duas amostras é dada por
−n
L (φ, λ) ∝ (φλ) exp −nȳ1 φ−1 − nȳ2 λ−1 ,

em que
n
X n
X
nȳ1 = y1i e nȳ2 = y2i .
i=1 i=1
6.4. ALGORITMO SIR 109
Vamos considerar os seguintes problemas:

(a) Encontrar a distribuição a priori de Jeffreys para φ e λ.
(b) Encontrar a aproximação de Laplace para E (ψ | ȳ) quando ψ = g (φ, λ) =

φ
λ (razão de médias).
φ
(c) Considerando a reparametrização ψ = λ e φ = φ, encontrar a priori de
Jefreys para ψ e φ.
(d) Encontrar a aproximação de Laplace para E (ψ | ȳ) na parametrização

ψ = φλ e φ = φ.
(e) Considerar n = 10, y1 = 4 e y2 = 2. Calcular E (ψ | ȳ) em cada caso.
Soluções:
(a) A solução para este item é deixada como um exercı́cio.
(b) Seja

φ
E (ψ | ȳ) = E | ȳ =
λ
R ∞ R ∞ −n −(n+2)
nȳ1 nȳ2
0 0
φ λ exp − φ − λ dφdλ
= R∞R∞ .
φ −(n+1) λ−(n+1) exp − nȳ1 − nȳ2 dφdλ
0 0 φ λ
Observe o seguinte resultado:
Z Z
−a −b nȳ1 nȳ2
I1 = φ λ exp − − dφdλ
φ λ
Z Z
= exp [−nh (φ, λ)] dφdλ,
em que
nȳ1 nȳ2
−nh (φ, λ) = −a log (φ) − b log (λ) − − .
φ λ
Pelo método de Laplace, temos:
h i− 12 h i
I1 u (2π) det nD2 h φ̂, λ̂ exp −nh φ̂, λ̂ ,
sendo as derivadas parciais dadas por

n∂h (φ, λ) a nȳ1 nȳ1
− = − + 2 = 0 ⇒ φ̂ =
∂φ φ φ a
n∂h (φ, λ) b nȳ2 nȳ2
− = − + 2 = 0 ⇒ λ̂ =
∂λ λ λ b
110
n∂ 2 h (φ, λ) a 2nȳ1
− = − 3
∂φ2 φ 2 φ
2
n∂ h (φ, λ) b 2nȳ2
− = − 3
∂λ2 λ2 λ
2
n∂ h (φ, λ)
− = 0
∂φ∂λ
n∂ 2 h (φ, λ) a3

= 2 e
∂φ2
(λ̂,φ̂) n (nȳ1 )
n∂ 2 h (φ, λ) b3

= 2.
∂λ2
(λ̂,φ̂) n (nȳ2 )
Assim,
a3
!
2

n(nȳ1 )2
0
nD h φ̂, λ̂ = b3
,
0 n(nȳ2 )2
isto é,
n h io− 12 (nȳ1 ) (nȳ2 )
det nD2 h φ̂, λ̂ = 3 3
a2 b2
e i nȳ −a nȳ −b
h
1 2 nȳ1 a nȳ2 b
exp −nh φ̂, λ̂ = exp − − .
a b nȳ1 nȳ2
Note que
h i aa bb
exp −nh φ̂, λ̂ = a b
exp (−a − b) .
(nȳ1 ) (nȳ2 )
Concluı́mos, finalmente, que
3 3
2πaa− 2 bb− 2 exp [− (a + b)]
I1 u .
na+b−2 ȳ1a−1 ȳ2b−1
Observar que, com a = n, b = n + 2 no numerador de I1 , e com a = n + 1 e
b = n + 1 no denominador de I1 , temos
3 n+ 1
nn− 2 (n + 2) 2 ȳ1

φ
E y u 2n−1 .
λ (n + 1) ȳ2
Notar que o resultado exato neste caso é dado por

φ n ȳ1
E y = .
λ n−1 ȳ2
(c) A distribuição a priori de Jefreys para ψ e φ é dada por
π (ψ, φ) ∝ ψ −1 φ−1 , ψ > 0, φ > 0,

e a distribuição a posteriori conjunta para ψ e φ é
ψ n−1
exp −nφ−1 (ȳ1 + ȳ2 ψ) , ψ > 0, φ > 0.

π (ψ, φ | y) ∝
φ2n−1
(d) A média a posteriori para ψ é dada por
R ∞ R ∞ n −(2n+1)
exp −nφ−1 (ȳ1 + ȳ2 ψ) dψdφ

0 0
ψ φ
E (ψ | y) = R ∞ R ∞ n−1 −(2n+1) .
0 0
ψ φ exp [−nφ−1 (ȳ1 + ȳ2 ψ)] dψdφ
Para encontrar uma solução para a integral, seja a aproximação de Laplace:

5
∞ ∞ 1 b−a− 2
(2π) aa+ 2 (b − a)
Z Z
exp (−b)
ψ a φ−b exp −nφ−1 (ȳ1 + ȳ2 ψ) dψdφ u

3 .
0 0 nb− 2 ȳ1b−a−2 ȳ2a+1
Então,
1 n− 23
nn+ 2 (n + 1)

ȳ1
E\
(ψ | y) u n− 12 n− 21
.
(n − 1) (n + 2) ȳ2
Como uma ilustração numérica, seja n = 10, ȳ1 = 4 e ȳ2 = 2. Assim,
(i) Método exato:

φ n ȳ1
E y = = 2, 2222.
λ n − 1 ȳ2
(ii) Método de Laplace na parametrização φ e λ :

3 n+ 1
nn− 2 (n + 2) 2 ȳ1
\

φ
E y u 2n−1 = 2, 21805.
λ (n + 1) ȳ2
φ
(iii) Método de Laplace na parametrização ψ = λ e φ:
1 n− 23
nn+ 2 (n + 1) ȳ1
E\
(ψ | y) u n− 12 n− 21
= 2, 16442.
(n − 1) (n + 2) ȳ2
Como conclusão, observamos uma melhor aproximação na parametrização φ

e λ.
6.5 Exercı́cios
1. Seja y1 , . . . , yn uma amostra aleatória de tamanho n de uma distribuição
exponencial com média θ, ou seja, f (y | θ) ∝ θ−1 exp − yθ . Assuma

n = 30 e ȳ = 12, e considere uma priori de Jeffreys para θ.

(a) Encontre a aproximação de Laplace para E (θ | y) e V ar (θ | y);
(b) Encontre a aproximação de Laplace para a confiabilidade em y = 10;
112
(c) Determine os valores exatos de E (θ | y) e V ar (θ | y). Compare com

as aproximações obtidas em (a);
(d) Considere a parametrização φ = ln (θ). Qual é a priori de Jeffreys
para φ?
(e) Encontre as aproximações de Laplace para E (θ | y) e V ar (θ | y) na
parametrização φ = ln (θ) ou θ = exp (φ). Compare os resultados exatos
obtidos em (c);
(f ) Escreva algumas conclusões, com base nestes resultados.
2. Seja y1 , . . . , yn uma a. a. de tamanho n de uma distribuição de Poisson
(1.10) com parâmetro θ.
(a) Considere uma distribuição a priori de Jeffreys para θ. Calcule aprox-
imações de Laplace para E (θa | y), sendo n = 5 e ȳ = 10, para a =
1, 2, 3, 5 e 10;
1
(b) Considere a parametrização φ = θ 2 . Qual é a priori de Jeffreys para φ?
Na parametrização φ, encontre
aproximações de Laplace para E (θa | y) ,
2
a = 1, 2, 3, 5 e 10 θ = φ . Quais conclusões você pode escrever?
3. Seja T uma variável aleatória representando o tempo de vida de um com-
ponente, com distribuição exponencial com densidade
f (t | λi ) = λi exp (−λi t) , t > 0; λi ≥ 0
em que λi = θi−1 , θi = E (T | λi ) e o modelo de potência inversa θi = α

Viβ
,
i = 1, . . . , k usado em testes acelerados industriais (Vi é fixo) .
Considere k = 2 e os dados de um teste acelerado com dois nı́veis para a
variável estresse Vi :
i Vi ni tji ; i = 1, 2, ; j = 1, . . . , ni
1 10 5 6, 8, 10, 12, 14
2 20 8 4, 5, 5, 6, 8, 8, 9, 14
Assuma uma distribuição a priori de Jeffreys para α e β.
(a) Encontre a aproximação de Laplace para E (α | D) e E (β | D);
(b) Encontre E (θ1 | α) (tempo de vida sob nı́vel usual de estresse) usando
método de Laplace;
(c) Encontre π (α | D) e π (β | D) (distribuições marginais).
Capı́tulo 7
Métodos de Monte Carlo

em Cadeias de Markov
Vamos supor que temos interesse em gerar uma amostra de uma distribuição
a posteriori π (θ | y), θ ∈ Rk , mas não podemos fazer isso diretamente. En-
tretanto, podemos construir uma cadeia de Markov com espaço de estados no
espaço paramétrico Θ (conjunto de todos valores possı́veis de θ), o que é simples
para simular, e cuja distribuição de equilı́brio é dada por π (θ | y). Se temos
muitas simulações dessa cadeia, os valores simulados podem ser usados como
uma base para sumarizar caracterı́sticas da distribuição a posteriori π (θ | y).
Lembrar que uma cadeia de Markov é um processo estocástico em que os estados
futuros são independentes dos estados passados, dado o estado presente.
Resultado: Se a distribuição conjunta a posteriori π (θ | y) for positiva

em Θ1 × Θ2 × · · · × Θk , com Θi sendo suporte para a distribuição de θi , i =
1, . . . , k, então a distribuição a posteriori π (θ | y) é unicamente
determinada
pelas distribuições condicionais completas π θi | y, θ (i) para i = 1, . . . , k em
que θ = (θ1 , . . . , θk ) e θ (i) é o vetor de todos os componentes de θ exceto θi ,
isto é, θ (i) = (θ1 , . . . , θi−1 , θi+1 , . . . , θk ) (Besag, 1994). Sob algumas condições
de regularidade, é fácil observar que os resultados simulados da cadeia com dis-
tribuição de equilı́brio π (θ | y) podem ser supostos com uma amostra aleatória
de π (θ | y).
Se θ (1) , θ (2) , . . . , θ (t) , . . . é uma realização de uma cadeia, temos

D
θ (t) → θ ∼π (θ | y) ,
D
em que o sı́mbolo → significa convergência em distribuição.
Da mesma forma, para estimar o valor esperado de g (θ) com respeito a

π (θ | y), isto é, Z
E [g (θ | y)] = g (θ) π (θ | y) dθ,
113
114
observamos que
t
1 X (i) qc
g θ → E [g (θ | y)]
t i=1
qc
(nesta expressão, a notação → denota convergência quase certa). Na prática,
θ (i) pode estar correlacionado, mas poderı́amos considerar espaços adequados
entre os θ (i) gerados para garantir uma amostra aleatória de π (θ | y).
7.1 O Amostrador de Gibbs

Supor que estamos interessados em obter inferências da distribuição a posteriori
conjunta, π (θ | y), sendo θ = (θ1 , . . . , θk ). Para isso
simulamos
quantidades
aleatórias de distribuições condicionais completas π θi | y, θ (i) que produzem
uma cadeia de Markov.
Observar que em geral π θi | y, θ (i) são facilmente identificadas como fun-
ções de probabilidade de θi , ou seja, por inspeção da forma de π (θ | y), a dis-
tribuição a posteriori para θ dado y, identificam-se as distribuições condicionais
a posteriori para cada θi , i = 1, ..., k (ver por exemplo, Gamerman, 1997). Su-
(0) (0) (0)
por que atribuı́mos um conjunto arbitrário de valores iniciais θ1 , θ2 , . . . , θk
para o vetor de parâmetros θ. Escrevemos assim o algoritmo:

(1) (0) (0)
(i) Gerar θ1 de π θ1 | y, θ2 , . . . , θk ;

(1) (1) (0) (0)
(ii) Gerar θ2 de π θ2 | y, θ1 , θ3 , . . . , θk ;

(1) (1) (1) (0) (0)
(iii) Gerar θ3 de π θ3 | y, θ1 , θ2 , θ4 , . . . , θk ;
.
.
.
(1) (1) (1) (1)
(k) Gerar θk de π θk | y, θ1 , θ2 , . . . , θk−1 .
(1)
Então, substituı́mos os valores iniciais com uma nova realização θ (1) = (θ1 ,
(1) (1)
θ2 , . . . , θk )0 de θ e repetimos o processo acima. Para um t suficientemente
(t) (t) (t)
grande, observar que o valor θ1 , θ2 , . . . , θk converge para um valor da quan-
tidade aleatória com distribuição π (θ | y) (ver Geman e Geman, 1984). Além
(t)
disso, θj pode ser considerado como uma observação simulada da distribuição
a posteriori marginal π (θj | y), j = 1, 2, . . . , k.
(t) (t) (t)

Replicando o processo acima B vezes, obtemos B vetores θ1g , θ2g , . . . , θkg ,
sendo g = 1, 2, . . . , B. Da convergência do amostrador de Gibbs, qualquer
caracterı́stica da densidade a posteriori marginal π (θj | y) pode ser obtida.
7.1. O AMOSTRADOR DE GIBBS 115

Em particular, se π θj | θ (j) , y é dada em forma fechada, então
B
1 X g

π\
(θj | y) = π θj | θ (j) , y ,
B g=1
em que j = 1, . . . , k.
Nota: Observar que

Z
π (θj | y) = π θj | θ (j) , y π θ (j) | y dθ (j) .
(1) (g) (B)

Assim, geramos θ (s) , . . . , θ (s) , . . . , θ (s) de π θ (s) | y .
Para verificar a convergência do algoritmo, podemos considerar várias técnicas.

Gelfand e Smith (1990) sugerem o uso de técnicas gráficas, em que várias
cadeias paralelas são geradas a partir de valores iniciais diferentes. Após um
grande número de interações em cada cadeia, comparamos os histogramas para
cada componente θj de θ. Histogramas similares indicam convergência da
cadeia. Geweke (1992) sugere métodos gráficos baseados em séries temporais
das amostras selecionadas. Uma técnica para monitorar a convergência do al-
goritmo é proposta por Gelman e Rubin (1992) baseada na análise de variância.
Nota: Na geração de amostras de Gibbs devemos considerar as l primeiras

iterações como perı́odo de aquecimento (“burn-in-samples”) que devem ser descar-
tadas para eliminar o efeito de valores iniciais.
7.1.1 Método de Gelman e Rubin para monitorar a con-

vergência do algoritmo
Vamos supor vários pontos iniciais dispersos. O método proposto por Gelman
e Rubin funciona da seguinte forma:
(a) Simular m ≥ 2 sequências. Cada sequência possui comprimento 2n, con-

siderando pontos ou valores iniciais diferentes. Mantemos somente as n
últimas iterações de cada sequência.
(b) Seja U a quantidade de interesse que se pretende estimar (U é uma função
de θ). Seja Uij o valor de U na j−ésima iteração (entre as n últimas das
2n amostras geradas) da i−ésima cadeia. Calcular
n
1X
ūi. = uij
n j=1
n
1 X 2
s2i = (uij − ūi. ) .
n − 1 j=1
116
Observar que ūi. e s2i são, respectivamente, a média e a variância amostral

de U para cada sequência i = 1, 2, . . . , m.
(c) Calcular as seguintes componentes de variância
m
1 X 2
W = s ,
m i=1 i
o que corresponde à média das m variâncias dentro das sequências, cada

uma baseada em n − 1 graus de liberdade, e
m
B 1 X 2
= (ūi. − ū.. ) ,
n m − 1 i=1
que é a variância entre as médias das m sequências ūi. , cada uma baseada
em n valores de uij .
(d) Estimar a média de U como uma média amostral de todos os nm valores
simulados de U , isto é,
m
1 X
µ̂ = ū.. = ūi.
m i=1
(e) Estimar a variância de U como uma média ponderada de W e B, isto é,

n−1 1
σ̂ 2 = W + B.
n n
Observar que σ̂ 2 superestima σ 2 se a distribuição inicial for superdispersa

e não é viciada sob estacionaridade.
(f ) Criar uma distribuição t de Student conservativa (com poucos graus de
liberdade) para U com média µ̂, dispersão
r
p B
V̂ = σ̂ 2 +
mn
e graus de liberdade
2V̂ 2
V = ,
V ar V̂
em que
2 2
2B 2

n−1 1 m+1
V ar s2i +

V ar V̂ = +
n m mn m−1
2 (m − 1) (n − 1) n
Cov s2i , ū2i. − 2ū.. Cov s2i , ūi.

+ 2
mn m
As variâncias e covariâncias são estimadas a partir dos m valores amostrais
de s2i , ūi. e ū2i. .
(g) Estimar o fator de redução de escala por

s
p V̂ V
R̂ = (7.1)
W V −2
Observar que esta razão (dada na expressão 7.1) decresce para 1 quando
n → ∞. Valores R̂=1 ˜ sugerem que o perı́odo de aquecimento é suficiente e o
processo iterativo continua.
Exemplo 7.1: Considere os dados de confiabilidade de um novo software

usado em um equipamento de diagnóstico computadorizado para ser usado em
hospitais. Antes desse novo software ser colocado no mercado, os analistas
fazem um teste para detectar possı́veis erros que devem ser corrigidos antes do
software ser colocado em uso. Dessa forma, diferentes “inputs” são colocados
em teste por uma dado perı́odo de funcionamento contı́nuo do equipamento e
cada vez que um erro é detectado, o software é inspecionado e refeito para tentar
corrigir esse erro. Na Tabela 7.1 temos os dados representando as datas xi em
que ocorrem os erros (tempos desde o inicio da fase de teste até a ocorrência
do erro) e os tempos entre falhas ti = xi − xi−1 , i = 1, . . . , n. O teste termina
quando observamos um número previamente fixado de erros.
Tabela 7.1: Dados de confiabilidade de um software.
i ti xi i ti xi i ti xi
1 9 9 11 1 71 21 11 116
2 12 21 12 6 77 22 33 149
3 11 32 13 1 78 23 1 150
4 4 36 14 9 87 24 97 247
5 7 43 15 4 91 25 2 249
6 2 45 16 1 92 26 1 250
7 5 50 17 3 95
8 8 58 18 3 98
9 5 63 19 6 104
10 7 70 20 1 105
Seja N o número total (desconhecido) de erros no software. Assumir uma

distribuição exponencial para os tempos entre falhas ti , com densidade
f (ti | λi ) = λi exp (−λi ti ) ,
em que i = 1, 2, 3, . . . , ti > 0, e a taxa de falhas λi é dada por
λi = Λ (N − i + 1) .
118
Esse modelo é conhecido como modelo de confiabilidade de software de Jelin-

ski e Moranda (1972).
Assumimos que o teste termina quando encontramos n erros, isto é, temos
uma amostra aleatória de tamanho n para os tempos entre falhas ti , i = 1, . . . , n.
A aleatoriedade é dada a partir de “inputs” aleatórios na fase de teste. A

função de verossimilhança para Λ e N é dada por,
L (Λ, N ) = Λn A (N ) exp [−ΛB (N )]

n
Q Pn
em que A (N ) = (N − i + 1) e B (N ) = (N − i + 1) ti . Em termos
i=1
i=1 Pn
das estatı́sticas de ordem xi , podemos reescrever B (N ) por B (N ) = i=1 xi +
(N − n) xn .
Vamos considerar as seguintes distribuições a priori para Λ e N :
Λ ∼ Gama (a, b) (7.2)

N ∼ P oisson (θ)
em que a, b e θ são hiperparâmetros conhecidos; Gama (a, b) denota uma dis-

tribuição Gama com média ab e variância ba2 e P oisson (θ) denota uma dis-
tribuição de Poisson (1.10) com média e variância iguais a θ.
Assumindo independência a priori entre Λ e N , a distribuição a priori con-

junta para Λ e N é dada por,
exp (−θ) θN a−1

π (Λ, N ) ∝ Λ exp (−bΛ) (7.3)
N!
A distribuição a posteriori conjunta para Λ e N é dada por,
Λn+a−1 A (N ) θN
π (Λ, N | t) ∝ × (7.4)
(N !" n
# )
X
× exp − b + (N − n) xn + xi Λ
i=1
em que Λ > 0 e N = n, n + 1, n + 2, . . ..
Escrevendo N 0 = N − n, isto é, N = N 0 + n, encontramos as distribuições

condicionais necessárias para o amostrador de Gibbs dadas por:
n
!
X
0 0
(i) Λ | N , t ∼ Gama a + n, b + N xn + xi (7.5)
i=1
(ii) N 0 | Λ, t ∼ P oisson [θ exp (−xn Λ)]
Para os dados da Tabela 7.1 temos n = 26 e X26 = 250. Assumir a = 0, 2;

b = 20 e θ = 30 na priori (7.3) para Λ e N (a escolha dos hiperparâmetros da
distribuição a priori foi feita a partir de métodos bayesianos empı́ricos; neste
caso consideramos os estimadores de máxima verossimilhança para Λ e N ).
Dessa forma, as distribuições condicionais (7.5) são dadas por:

26
!
X
(i) Λ | N 0 , t ∼ Gama 26, 2; 20 + 250N 0 + xi (7.6)
i=1
(ii) N 0 | Λ, t ∼ P oisson [30 exp (−250Λ)]
Para obter amostras simuladas da distribuição a posteriori (7.4), geramos

amostras das distribuições condicionais (7.6).
Considerando um programa usando o software MINITAB geramos 5 cadeias

de Markov com 1000 amostras cada cadeia. Cada cadeia foi gerada a partir
dos seguintes valores iniciais diferentes: N 0(0) , Λ(0) = (3; 0, 01) , (2, 5; 0, 02) ,
(3; 0, 03) , (3, 5; 0, 01) e (3, 5; 0, 02). Em cada cadeia descartamos as 800 primeiras
amostras simuladas e ficamos com as 200 últimas, o que totaliza 1000 amostras.
O código do programa MINITAB usado é dado por:
SET C1 (Xi)
9 21 32 36 43 45 50 58 63 70 71 77 78 87
91 92 95 98 104 105 116 149 156 247 249 250
END
LET K1=3 (N’ inicial)
LET K2=0,01 (Lambda inicial)
SUM C1 K3
STORE ’a’
LET K4=1/(20+250*k1+k3)
RANDOM 3 C2;
GAMMA 26,2 K4.
LET K2=C2 (2)
LET K5=30*EXPONENTIAL(-250*K2)
RANDOM 3 C3;
POISSON K5.
LET K1=C3 (2)
STACK C10 K1 C10
STACK C11 K2 C11
END
EXEC ’a’ 1000
A partir de 1000 amostras finais, p

determinamos sumários a posteriori de
interesse. Assim E (N 0 | t) =5,
˜ 933 e V ar (N 0 | t) =3,
˜ 720. Temos também
120
p
E (Λ | t) =˜ 0, 00680 e V ar (Λ | t) = ˜ 0, 00205. Com N 0 = N − 26, temos
E (N | t) = 26 + 5, 933 = 31, 933. Intervalos de credibilidade 95% para N 0 e
Λ são dados, respectivamente, por (0; 13) e (0, 00352; 0, 01058). Uma grande
simplificação na obtenção dos sumários a posteriori de interesse é dado pelo
software OpenBUGS (Spiegelhalter et al, 1999) em que só precisamos especi-
ficar a distribuição conjunta para os dados e as distribuições a priori para os
parâmetros. O código do programa OpenBUGS é dado por:
model
{
for(i in 1:n)
{
t[i] ~ dexp(lambda[i])
lambda[i] <- lambda0 * (N-i+1)
}
lambda0 ~ dgamma(0.2,20)
N ~ dpois(30)
}
# Dados
list(t=c(9,12,11,4,7,2,5,8,5,7,1,6,1,9,4,1,3,3,6,1,11,33,7,91,
2,1), n=26)
# Valores iniciais
list(lambda0=0.01,N=29) # Cadeia 1
Os sumários a posteriori obtidos para os parâmetros Λ (denotado por lambda0

no programa OpenBUGS), N e λi considerando 5 cadeias iniciais são apresenta-
dos na Tabela 7.2. Um perı́odo “burn-in” de tamanho 1000 e saltos de tamanho
10 foram considerados para a geração das 100.000 amostras. Na Tabela 7.2,
os erros Monte Carlo, gerados pelo OpenBUGS, são similares aos erros padrão
da média, mas ajustados para amostras com autocorrelação. Quanto maior o
número de amostras simuladas, menores são os erros Monte Carlo. Assim, os
erros Monte Carlo podem ser úteis para se decidir quantas amostras serão simu-
ladas após o perı́odo “burn-in”, sendo que erros Monte Carlo pequenos indicam
um número adequado de amostras simuladas. Ainda na Tabela 7.2, observa-se
que o OpenBUGS mostra os valores P 2, 5% e P 97, 5%, que são respectivamente
os percentis 2, 5% e 97, 5% a posteriori. Estes percentis compõem intervalos de
credibilidade 95% para cada parâmetro.
Tabela 7.2: Sumários a posteriori, obtidos do programa OpenBUGS (dados de

confiabilidade de um software).
Parâmetro média DP Erro MC P 2, 5% mediana P 97, 5%

Λ 0,0068 0,00203 2, 574 × 10−5 0,00363 0,00652 0,01154
N 32,2 3,749 0,05924 26,51 31,66 40,74
λ1 0,2129 0,04837 5, 919 × 10−4 0,1325 0,2083 0,3205
λ2 0,2061 0,04645 5, 684 × 10−4 0,1286 0,2017 0,3095
λ3 0,1994 0,04454 5, 452 × 10−4 0,1251 0,1952 0,2982
λ4 0,1926 0,04264 5, 221 × 10−4 0,1212 0,1888 0,2871
λ5 0,1858 0,04075 4, 993 × 10−4 0,1173 0,1822 0,2761
λ6 0,1790 0,03887 4, 768 × 10−4 0,1135 0,1758 0,2645
λ7 0,1722 0,03701 4, 546 × 10−4 0,1099 0,1693 0,2539
λ8 0,1655 0,03517 4, 328 × 10−4 0,1061 0,1628 0,2431
λ9 0,1587 0,03336 4, 115 × 10−4 0,1024 0,1562 0,2325
λ10 0,1519 0,03157 3, 907 × 10−4 0,09835 0,1497 0,2213
λ11 0,1451 0,02981 3, 706 × 10−4 0,09393 0,143 0,2107
λ12 0,1384 0,02808 3, 511 × 10−4 0,08996 0,1365 0,2004
λ13 0,1316 0,0264 3, 325 × 10−4 0,08598 0,1299 0,1898
λ14 0,1248 0,02478 3, 15 × 10−4 0,08186 0,1234 0,1792
λ15 0,1180 0,02321 2, 986 × 10−4 0,07741 0,1166 0,1685
λ16 0,1112 0,02173 2, 836 × 10−4 0,07303 0,11 0,1584
λ17 0,1045 0,02034 2, 703 × 10−4 0,06836 0,1033 0,1479
λ18 0,0977 0,01906 2, 588 × 10−4 0,06378 0,09651 0,1387
λ19 0,0909 0,01793 2, 494 × 10−4 0,05872 0,08984 0,1294
λ20 0,0841 0,01696 2, 425 × 10−4 0,05355 0,08307 0,121
λ21 0,0773 0,01619 2, 381 × 10−4 0,0484 0,07625 0,1121
λ22 0,0706 0,01565 2, 364 × 10−4 0,04293 0,06942 0,1044
λ23 0,0638 0,01536 2, 376 × 10−4 0,03683 0,06258 0,0971
λ24 0,0570 0,01534 2, 415 × 10−4 0,02997 0,05589 0,08951
λ25 0,0502 0,01558 2, 48 × 10−4 0,02233 0,04916 0,08297
λ26 0,0434 0,01608 2, 57 × 10−4 0,01401 0,04266 0,07723
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%,
P 97, 5%: percentil 97, 5%.
122
Figura 7.1: Gráficos das séries temporais, autocorrelações, ı́ndices de Gelman

e Rubin e distribuições a posteriori, segundo as amostras de Gibbs simuladas
para lambda0 (Λ) e N , geradas pelo programa OpenBUGS.
A Figura 7.1 mostra os gráficos das séries temporais das amostras de Gibbs
simuladas para lambda0 (Λ) e N , gerados pelo programa OpenBUGS. Observa-
mos que o algoritmo converge para séries estacionárias. Também apresentamos,
na Figura 7.1, os gráficos das autocorrelações das amostras de Gibbs simuladas
para Λ e N ; os gráficos das distribuições a posteriori marginais aproximadas
para lambda0 (Λ) e N e os gráficos dos ı́ndices de Gelman e Rubin para as
amostras de Gibbs simuladas para lambda0 (Λ) e N ; observa-se convergência
das séries pois os fatores de redução de Gelman e Rubin se estabilizam em torno
do valor um.
Exemplo 7.2: Na Tabela 7.3 temos os dados de um estudo médico consid-

erado para avaliar a influência de três covariáveis: X1 (proporção de pacientes
que frequentaram a escola por pelo menos 8 anos), X2 (proporção de pacientes
do sexo feminino), X3 (salário mensal médio dos pacientes em unidades de
$1.000,00) na resposta y (ı́ndice médio de resposta para pacientes recebendo
uma nova terapia contra o vı́rus HIV) realizado por oito hospitais (um estudo de
metanálise). Para analisar esses dados foi considerado um modelo de regressão
linear dado por
yi = α + β1 X1i + β2 X2i + β3 X3i + i (7.7)
em que os termos de erros i são supostosindependentes e identicamente dis-
tribuı́dos com distribuição normal N 0; σ 2 , para i = 1, . . . , 8.
Tabela 7.3: Dados de n = 8 hospitais.
y X1 X2 X3
0,10 0,08 0,40 0,75
0,65 0,17 0,40 1,02
0,30 0,08 0,38 1,09
0,30 0,30 0,50 1,35
0,28 0,05 0,52 1,20
0,78 0,18 0,32 2,20
0,28 0,09 0,45 2,95
0,45 0,45 0,65 2,50
Assumindo independência a priori entre os parâmetros α, β1 , β2 , β3 e σ 2 ,

vamos assumir as seguintes distribuições a priori:
∼ N 0; a20

α
∼ N 0; a21

β1
∼ N 0; a22

β2
∼ N 0; a23

β3
σ2 ∼ GI (b, d) (7.8)
124
em que a0 , a1 , a2 , a3 , b e d são supostamente conhecidos e GI (b, d) denota uma

2
d
distribuição gama inversa com média (b−1) e variância (b−1)d2 (b−2) , b > 2.
[ ]
Observar que se σ 2 ∼ IG (b, d) então τ = σ12 ∼ Gama (b, d). A função de
verossimilhança para θ = α, β1 , β2 , β3 , σ 2 é dada por
n
2

Y 1
L (θ) = √ exp − i 2 , (7.9)
i=1 2πσ 2 2σ
em que i = yi − α − β1 X1i − β2 X2i − β3 X3i , i = 1, 2, . . . , n (n = 8).
α2

−(b+1) d
π (θ | x, y) ∝ σ 2 exp − 2 exp − 2 ×
σ 2a0
β12 β22 β2

× exp − 2 exp − 2 exp − 32 ×
2a1 2a2 2a3
n
!
− n 1 X 2
× σ 2 2 exp − 2 , (7.10)
2σ i=1 i
0
em que y = (y1 , . . . , yn ) , x denota o vetor das covariáveis e i é dado em (7.9).
As distribuições condicionais necessárias para o amostrador de Gibbs são

dadas por:
" n
!#
2
2 −(b+ 2 +1)
n 1 1X 2
(i) π σ | α, β1 , β2 , β3 , x, y ∝ σ exp − 2 d+
σ 2 i=1 i
que define o núcleo de uma distribuição gama inversa, isto é,

" n
#
2 n 1X 2
σ | α, β1 , β2 , β3 , x, y ∼ GI b + ; d +
2 2 i=1 i
em que
i = yi − α − β1 x1i − β2 x2i − β3 x3i , i = 1, . . . , n
" n
#
α2
2
1 X (0)
(ii) π α | β1 , β2 , β3 , σ 2 , X, y ∝ exp − 2

exp − 2 α − µi
2a0 2σ i=1
em que
(0)
µi = yi − β1 x1i − β2 x2i − β3 x3i , i = 1, . . . , n
Desenvolvendo-se essas expressões encontramos o núcleo de uma distribuição

normal; isto é,
 P n 
2 (0)
a µ
 0 i=1 i a20 σ 2 
α | β1 , β2 , β3 , σ 2 , x, y ∼ N  ;
 σ 2 + na2 σ 2 + na2 

0 0
" n
#
βl2
2
1 X (l)
(iii) π βl | θ (βl ) , x, y ∝ exp − 2 exp − 2 βl xli − µi
2al 2σ i=1
em que
3
(l)
X
µi = yi − α − βj xji , i = 1, . . . , n; l = 1, 2, 3
j=1;j6=l
θ (βl ) denota o vetor de todos os parâmetros exceto βl . Isto é,

 n 
(l)
a2l
P
xli µi
 i=1 a2l σ 2 
βl | θ (βl ) , x, y ∼ N 
 n ; n


σ 2 + a2l x2li σ 2 + a2l x2li
P P
i=1 i=1
para l = 1, 2, 3.
Para análise dos dados da Tabela (7.3), vamos assumir a20 = a21 = a22 = a23 =
6
10 , isto é, distribuições a priori não informativas para α, β1 , β2 e β3 . Também
assumir b = d = 1. Para iniciar o amostrador de Gibbs, assumir os valores
(0) (0) (0) 1
iniciais α(0) = 0, β1 = β2 = β3 = 0 e τ (0) = σ(0) 2 = 1. Então, geramos
amostras da posteriori (7.10) usando as distribuições condicionais (7.8).
Usando o programa OpenBUGS, escrevemos os seguinte programa:
model
{
for (i in 1:N)
{
y[i] ~ dnorm(mu[i],tau)
mu[i] <- alpha + beta[1]*x1[i] + beta[2]*x2[i] + beta[3] * x3[i]
}
# Distribuicoes a priori:
tau ~ dgamma(1,1)
sigma <- 1/sqrt(tau)
alpha ~ dnorm(0,1.0E-6)
beta[1] ~ dnorm(0,1.0E-6)
126
}
# Valores iniciais
list(tau=1,alpha=0,beta=c(0,0,0))
# Dados:
list(y=c(0.10,0.65,0.30,0.30,0.28,0.78,0.28,0.45),
x1=c(0.08,0.17,0.08,0.30,0.05,0.18,0.09,0.45),
x2=c(0.40,0.40,0.38,0.50,0.52,0.32,0.45,0.65),
x3=c(0.75,1.02,1.09,1.35,1.20,2.20,2.95,2.50), N=8)
É importante observar que a função dnorm(mu,tau) do programa Open-

BUGS denota uma distribuição normal com média mu e variância dada por
1/tau.
Os sumários a posteriori de interesse considerando um perı́odo “burn-in” de

5.000 amostras e tomando uma amostra final de tamanho 500.000 escolhidas de
50 em 50 são apresentadas na Tabela 7.4.
Tabela 7.4: Sumários a posteriori (dados da Tabela 7.3).
Parâmetro Média Intervalo de credibilidade 95%

α 0,8635 (-1.983 ; 3.665)
β1 1,2410 (-4.234 ; 6.852)
β2 -1,7690 (-8.806 ; 5.133)
β3 0,0669 (-0.6724 ; 0.8037)
σ 0,6626 (0.3898 ; 1.3200)
τ 2,7510 (0.5751 ; 6.5810)
A convergência do amostrador de Gibbs é verificada a partir de gráficos de

séries temporais das amostras geradas para cada parâmetro do modelo (7.7).
Dos sumários a posteriori dados na Tabela 7.4 observa-se que as três covariáveis
X1 , X2 e X3 não apresentam evidências de efeitos significativos na resposta
y, pois os intervalos de credibilidade com probabilidade 0, 95 para β1 , β2 e β3
incluem o valor zero.
7.2 Algoritmo de Metropolis-Hastings

O amostrador de Gibbs seleciona amostras de todas densidades a posteriori
condicionais de π (θ | y), a distribuição a posteriori conjunta para θ. Quando us-
amos uma priori conjugada, as distribuições condicionais em geral são de forma
7.2. ALGORITMO DE METROPOLIS-HASTINGS 127
Figura 7.2: Gráficos das séries temporais, autocorrelações, distribuições a pos-

teriori e resumos a posteriori, segundo as amostras de Gibbs simuladas para α,
β1 , β2 , β2 , σ e τ , geradas pelo programa OpenBUGS.
128
conhecida como, por exemplo, as distribuições normal, gama, Poisson (1.10),

beta (1.17), etc., e a simulação de amostras dessas distribuições são disponı́veis
em muitos programas estatı́sticos. Quando as distribuições condicionais não são
facilmente identificadas, devemos usar o algoritmo de Metropolis-Hastings ou
métodos de amostragem por importância.
Supor que desejamos simular amostras de uma densidade não-regular

π θi | θ (i) , y , ou simplesmente π θi | θ (i) , em que θ (i) = (θ1 , . . . , θi−1 , θi+1 ,
. . . , θk ). Definimos o núcleo de transição q (θ, β) da distribuição p (θ) que re-
presenta π θi | θ (i) e que transforma θ em β. Se θ é uma variável real com
amplitude em toda reta R, podemos construir q tal que β ← θ + σz, com
Z ∼ N 0, σ 2 , em que σ 2 reflete a variância condicional de θ em p (θ).
Se θ é limitado com amplitude (a, b) usamos uma transformação que leva

(a, b) em (−∞, ∞) e daı́ usamos o núcleo de transição q e aplicamos o algo-
ritmo de Metropolis para a densidade da variável transformada. O algoritmo
de Metropolis é dado pelos passos:
(i) Iniciar com um valor θ(0) e indicador de estágio, j = 0;

(ii) Gerar um ponto β do núcleo de transição q θ(j) , β ;
(iii) Atualizar θ(j) por θ(j+1) = β com probabilidade
( )
p (β) q θ(j) , β
p = min 1, (j) . (7.11)
p θ q β, θ(j)
Manter θ(j) com probabilidade 1 − p;

(iv) Repetir os estágios (ii) e (iii) até conseguir uma distribuição esta-
cionária.
Observar que:
(a) O algoritmo de Metropolis Hastings é especificado pela densidade can-
didata para geração q (x, y) ;
(b) Se um valor candidato é rejeitado, o valor atual é considerado na próxima
etapa;
(c) O cálculo de p em (7.11) não depende da constante normalizadora;
(d) Se a densidade candidata para geração das amostras é simétrica, isto é,
q (x, y) = q (y, x), a probabilidade de movimento se reduz a pp(β) . Assim, se
(j) [θ(j) ]
p (β) > p θ , a cadeia se move para β; em caso contrário, ela se move para β
com probabilidade pp(β) . Em outras palavras, um salto na direção “ascendente”
[θ(j) ]
é sempre aceito, enquanto um salto na direção “descendente” é aceito com uma
dada probabilidade.
7.2.1 Casos especiais para q (y, x)

Alguns casos especiais são dados para q (y, x), a densidade usada para gerar
amostras candidatas no processo de simulação.
(i) Seja q (y, x) = q1 (y − x), em que q1 (.) é uma densidade multivariada.

Então, o candidato y é selecionado de acordo com o processo y = x + z, em
que z é chamada variável aleatória incremento e segue a distribuição q1 . Assim,
candidato = valor atual + ruı́do, isto é, temos uma cadeia de passeio ao acaso.
Como escolhas possı́veis para q1 , podemos considerar a densidade normal
multivariada (1.20) ou a distribuição t de Student multivariada.
(ii) Seja q (x, y) = q2 (y), em que q2 é uma densidade normal multivariada
(1.20) ou t de Student multivariada. Neste caso é necessário especificar a locação
e a variabilidade da distribuição q (x, y).
(iii) Explorar a forma conhecida da distribuição condicional π θi | θ (i) , y
para especificar uma densidade geradora de amostras candidatas (ver por exem-
plo, Chib e Greenberg, 1995). Por exemplo, se π (t) ∝ ψ (t) h (t) em que h (t) é
uma densidade conhecida que pode ser facilmente simulada e ψ (t) é uma função
uniformemente limitada, considerar q (x, y) = h (y) para gerar amostras candi-
datas. Neste caso, a probabilidade de movimento só exige o cálculo da função
ψ que é dada por ( )
ψ θ(j+1)
p = min 1, .
ψ θ(j)
(iv) Outras possibilidades são cadeias autoregressivas e o método de aceitação-

rejeição (ver Tierney, 1994).
7.2.2 Escolha da locação e da escala da distribuição ger-

adora
O desempenho do algoritmo Metropolis-Hastings pode ser afetado pela escolha
da locação e da escala da distribuição geradora. Assim, podemos ter:
(i) A variabilidade da densidade geradora de amostras candidatas afeta o

comportamento da cadeia em pelo menos duas dimensões: uma é a “taxa de
aceitação” (percentual de vezes que uma mudança é feita para um novo ponto)
e a outra é a região do espaço amostral que é coberta pela cadeia.
(ii) Se a variabilidade é muito grande, alguns dos candidatos gerados estarão
muito distantes do valor atual e terão uma probabilidade pequena de aceitação,
pois a ordenada do candidato é pequena em relação a ordenada perto da moda
da distribuição.
(iii) A redução da variabilidade corrige esse problema, mas se a variabili-
dade for muito pequena, a cadeia levará muito tempo para cobrir o suporte da
densidade.
130
Exemplo 7.3: Vamos supor que um novo software é desenvolvido para um

equipamento de tomografia computadorizada usado por centros médicos. Numa
fase de testes e correções de possı́veis erros do software, o mesmo é testado por
um dado perı́odo de tempo fixado. Os dados de confiabilidade do software são
dados pelas contagens de erros (em que o software é tentativamente corrigido)
que ocorrem em intervalos fixos de tempo durante esse perı́odo de testes. Vamos
considerar os dados da Tabela 7.5, representando os números de falhas ou erros
do software testado por 25 horas, continuamente. Vamos assumir um processo
de Poisson homogêneo com função intensidade λi = λa k1i , em que 0 < k1 <
1, λa > 0 para i = 1, 2, 3, . . . com distribuição para o número de falhas mi no
i−ésimo perı́odo de tempo dada por
exp (−λi ) λm
i
i
P (Mi = mi ) = ,
mi !
em que mi = 0, 1, 2, . . ..
Tabela 7.5: Dados de confiabilidade de software de um equipamento médico.
hora n◦ falhas hora n◦ falhas hora n◦ falhas

1 27 11 4 21 2
2 16 12 7 22 1
3 11 13 2 23 2
4 10 14 5 24 1
5 11 15 5 25 1
6 7 16 6
7 2 17 0
8 5 18 5
9 3 19 1
10 1 20 1
Considerando m1 , m2 , . . . , mn os números de falhas observadas durante os

n = 25 perı́odos de tempo, a função de verossimilhança para λa e k1 é dada por
n
!
X
L (λa , k1 ) ∝ λda1 k1d2 exp −λa k1i ,
i=1
Pn Pn
em que d1 = i=1 mi e d2 = i=1 i × mi . Assumindo independência a priori
entre λa e k1 , vamos considerar as seguintes distribuições a priori:
λa ∼ Gama (b1 , b2 ) e
k1 ∼ Beta (e1 , e2 ) , (7.12)
em que b1 , b2 , e1 e e2 são hiperparâmetros conhecidos. A distribuição a posteriori

conjunta para λa e k1 é dada por
" n
! #
X
d1 +b1 −1 i
π (λa , k1 | m) ∝ λa exp − b2 + k1 λa ×
i=1
e2 −1
×k1d2 +e1 −1 (1 − k1 ) , (7.13)
0
em que m = (m1 , m2 , . . . , mn ) .
As distribuições condicionais para o amostrador de Gibbs são dadas por

n
!
X
i
(i) λa | k1 , m ∼ Gama d1 + b1 , b2 + k1 e
i=1
n
!
e2 −1
X
(ii) π (k1 | λa , m) ∝ k1d2 +e1 −1 (1 − k1 ) exp −λa k1i . (7.14)
i=1
Observar que a quantidade aleatória k1 deve ser simulada usando o algoritmo

de Metropolis-Hastings, pois a distribuição condicional π (k1 | λa , m) não apre-
senta uma forma conhecida. Neste caso, observar que a densidade condicional
para k1 dado λa e m pode ser reescrita na forma
e2 −1
π (k1 | λa , m) ∝ k1e1 −1 (1 − k1 ) ψ (λa , k1 ) ,
em que !
n
X
ψ (λa , k1 ) = exp d2 ln k1 − λa k1i .
i=1
Assim o valor de k1 é simulado da seguinte forma: na s-ésima iteração

(s) (s)
(dado o valor atual λa ), simulamos um candidato k1 de uma distribuição
Beta (e1 , e2 ) (ver (1.17)); mover para este ponto com probabilidade dada por
 
(s) (s)
 ψ λa , k1 
min 1,
 ψ λ(s) , k (s−1) 
a 1
(s) (s−1)
em outro caso, fazer k1 = k1 . Após uma análise preliminar dos dados
(observar que os estimadores de máxima verossimilhança para λa e k1 são dados,
respectivamente, por λ̂a = 18, 8849 e k̂ = 0, 88285) considerar os valores dos
hiperparâmetros para as distribuições a priori (7.12) dadas por b1 = 16; b2 =
0, 8; e1 = 2, 5 e e2 = 0, 6. Observar que
b1 b1
E(λa ) = = 20, V ar(λa ) = = 25,
b2 b22
e1
E(k1 ) = = 0, 8,
e1 + e2
132
e
e1 e2
V ar (k1 ) = 2 = 0, 04.
(e1 + e2 ) (e1 + e2 + 1)
Vamos então usar as distribuições condicionais (7.14) para gerar amostras
da distribuição a posteriori (7.13). Alternativamente, podemos usar o software
OpenBUGS:
model
{ for(i in 1:N)
{ m[i] ~ dpois(lambda[i])
lambda[i] <- lambda0 * pow(k1,i) }
lambda.a ~ dgamma(16,0.8)
k1 ~ dbeta(2.5,0.6)
}
list(m=c(27,16,11,10,11,7,2,5,3,1,4,7,2,5,5,6,0,5,1,1,2,1,2,1,
1),N=25)
Observe que estamos denotando λa por lambda.a. Os sumários a posteriori

de interesse considerando um perı́odo “burn-in” de 1000 amostras e tomando
uma amostra final de tamanho 1000 escolhidas de 10 em 10 para se ter uma
amostra aproximadamente não-correlacionada é dada na Tabela 7.6.
Exemplo 7.4 (Regressão logı́stica): Uma droga muito usada para tratar
certos tipos de câncer (droga adriamicina) pode apresentar problemas de toxi-
dade. Alguns pacientes recebendo essa droga apresentam falha coronária con-
gestiva (CHF) e outros pacientes não apresentam. Com intuito de verificar se
alguns fatores especı́ficos podem aumentar o risco de desenvolver CHF, duas co-
variáveis foram consideradas no estudo: X1∗ representando a dose total da droga
e X2∗ representando o percentual de decréscimo da voltagem eletrocardiográfica
QRS. Na Tabela 7.7 temos os dados de um estudo considerando 53 pacientes
(dados em Lee 1980, pág. 359) em que yi é a resposta CHF (1 =sim; 0 =não)
∗
e as duas covariáveis são dadas numa escala transformada: X1i = X1i − X̄1∗ e
∗ ∗
X2i = X2i − X̄2 , i = 1, . . . , 53.
Neste caso, temos uma variável aleatória y binária (CHF) com distribuição
de Bernoulli com função de probabilidade,
1−yi
P (Yi = yi ) = pyi i (1 − pi ) (7.15)
em que pi = P (yi = 1) é a probabilidade de sucesso (apresentar CHF) e 1−pi =

P (yi = 0) é a probabilidade de fracasso (não apresentar CHF).
Um modelo de regressão logı́stica considera

exp (α0 + α1 X1i + α2 X2i )
pi = (7.16)
1 + exp (α0 + α1 X1i + α2 X2i )
Tabela 7.6: Sumários a posteriori de interesse (dados da tabela 7.5).

k1 0,8823 0,01243 3,134E-4 0,8567 0,8822 0,9066
λ1 16,88 1,974 0,05333 13,16 16,81 20,98
λ2 14,88 1,59 0,04408 11,85 14,86 18,22
λ3 13,11 1,284 0,03664 10,71 13,12 15,84
λ4 11,56 1,044 0,03072 9,668 11,55 13,71
λ5 10,19 0,8604 0,02608 8,588 10,18 11,88
λ6 8,989 0,7245 0,0225 7,592 8,987 10,42
λ7 7,93 0,6274 0,01977 6,695 7,921 9,19
λ8 6,996 0,5603 0,01771 5,919 6,978 8,125
λ9 6,174 0,5148 0,01615 5,173 6,183 7,213
λ10 5,45 0,4836 0,01495 4,483 5,464 6,416
λ11 4,811 0,461 0,014 3,901 4,809 5,754
λ12 4,248 0,4428 0,01321 3,378 4,249 5,166
λ13 3,752 0,4266 0,01252 2,918 3,745 4,613
λ14 3,314 0,411 0,01189 2,521 3,301 4,118
λ15 2,928 0,395 0,0113 2,165 2,908 3,71
λ16 2,587 0,3785 0,01074 1,878 2,571 3,362
λ17 2,287 0,3615 0,01018 1,616 2,272 3,023
λ18 2,022 0,344 0,009641 1,387 2,008 2,746
λ19 1,787 0,3262 0,009111 1,187 1,778 2,488
λ20 1,581 0,3084 0,008591 1,026 1,569 2,253
λ21 1,398 0,2906 0,008085 0,884 1,387 2,029
λ22 1,237 0,273 0,007594 0,7569 1,224 1,838
λ23 1,095 0,2558 0,007119 0,647 1,079 1,656
λ24 0,9687 0,2392 0,006661 0,5531 0,954 1,494
λ25 0,8575 0,2231 0,006222 0,4728 0,8429 1,347
λ0 19,16 2,45 0,06471 14,71 19,02 24,36
P 97, 5%: percentil 97, 5%.
134
Tabela 7.7: Dados médicos para 53 pacientes com câncer.

paciente yi X1i X2i
1 1 -82,6792 14,9811
2 1 82,3208 44,9811
3 1 82,3208 24,9811
4 1 22,3208 13,9811
5 1 -7,6792 36,9811
6 1 222,3208 52,9811
7 1 307,3208 34,9811
8 1 17,3208 17,9811
9 1 -7,6792 26,9811
10 1 -34,6792 0,9811
11 1 -57,6792 26,9811
12 1 -57,6792 33,9811
13 1 32,3208 38,9811
14 1 22,3208 31,9811
15 1 -207,6792 14,9811
16 1 -17,6792 37,9811
17 1 -117,6792 17,9811
18 0 -77,6792 -17,0189
19 0 82,3208 15,9811
20 0 -7,6792 -7,0189
21 0 -107,6792 -2,0189
22 0 22,3208 -50,0189
23 0 57,3208 12,9811
24 0 46,3208 8,9811
25 0 -67,6792 -16,0189
26 0 52,3208 -20,0189
27 0 -37,6792 -20,0189
28 0 67,3208 -5,0189
29 0 -97,6792 -12,0189
30 0 -47,6792 -25,0189
31 0 22,3208 6,9811
32 0 67,3208 6,9811
33 0 82,3208 -22,0189
34 0 52,3208 -24,0189
35 0 52,3208 -21,0189
36 0 -7,6792 -14,0189
37 0 -47,6792 -27,0189
38 0 -112,6792 17,9811
39 0 57,3208 -12,0189
40 0 22,3208 -36,0189
41 0 -17,6792 -69,0189
42 0 -67,6792 -3,0189
43 0 2,3208 -27,0189
44 0 -22,6792 2,9811
45 0 67,3208 13,9811
46 0 -67,6792 3,9811
47 0 -67,6792 -3,0189
48 0 -17,6792 -14,0189
49 0 22,3208 -37,0189
50 0 -77,6792 -19,0189
51 0 -37,6792 -48,0189
52 0 32,3208 -6,0189
53 0 -17,6792 -7,0189
para i = 1, 2, . . . , n.
A função de verossimilhança para α0 , α1 e α2 é dada por

n
Y 1−yi
L (α0 , α1 , α2 ) = pyi i (1 − pi ) (7.17)
i=1
em que pi é dado por (7.16). Assim, temos

Pn Pn Pn
exp (α0 i=1 yi + α1 i=1 X1i yi + α2 i=1 X2i yi )
L (α0 , α1 , α2 ) = Qn . (7.18)
[1 + exp (α0 + α1 X1i + α2 X2i )]
i=1
Vamos assumir as seguintes distribuições a priori para os parâmetros:
αl ∼ N al , b2l ,

(7.19)
em que l = 0, 1, 2 e al e bl são hiperparâmetros conhecidos. Vamos assumir

independência a priori entre α0 , α1 e α2 . A distribuição a posteriori conjunta
para α0 , α1 e α2 é dada combinando-se (7.18) com (7.19), isto é,
2
Y 1 2
π (α0 , α1 , α2 | x, y) = exp − 2 (αl − al ) × (7.20)
2bl
l=0
Pn Pn Pn
exp (α0 i=1 yi + α1 i=1 X1i yi + α2 i=1 X2i yi )
× n
Q
[1 + exp (α0 + α1 X1i + α2 X2i )] .
i=1
Amostras da distribuição a posteriori (7.20) podem ser geradas usando métodos

MCMC. Observar, de (7.20) , que as distribuições condicionais π (α0 | α1 , α2 , x, y),
π (α1 | α0 , α2 , x, y) e π (α2 | α0 , α1 , x, y) não apresentam formas conhecidas. As-
sim, usamos o algoritmo Metropolis-Hasting para gerar amostras de (7.20).
Como uma análise preliminar dos dados e também para obtermos informações
empı́ricas para os hiperparâmetros das distribuições a priori para αl , l = 0, 1, 2
dada em (7.19), considerar uma análise frequentista do modelo de regressão
logı́stica definido por (7.15) e (7.16) usando o software MINITAB.
Assim, o modelo ajustado por métodos de máxima verossimilhança é dado

por
p̂i
ln = −3, 27361 − 0, 0090453X1 + 0, 230609X2 .
1 − p̂i
Dos resultados obtidos usando o software MINITAB observamos que X1 não
apresenta efeito significativo na incidência de CHF (p-value igual a 0, 186) mas
a covariável X2 apresenta um grande efeito na incidência de CHF (p-value igual
a 0, 002).
136
Para uma análise bayesiana dos dados da Tabela 7.7, vamos assumir os
seguintes valores para os hiperparâmetros das distribuições a priori (7.19) para
α0 , α1 e α2 : a0 = −3, b20 = 1, a1 = −0, 009, b21 = 0, 01, a2 = 0, 23 e b22 = 1
(lembrar que a variância da distribuição normal usando o software OpenBUGS
é invertida).
Usando o software OpenBUGS, escrevemos o seguinte programa para anali-

sar os dados:
model
{
for(i in 1:N)
{ y[i] ~ dbin(p[i],N)
logit(p[i]) <- alpha0 + alpha1*x1[i]+alpha2*x2[i] }
alpha0 ~ dnorm(-3,1)
alpha1 ~ dnorm(-0.009,100)
alpha2 ~ dnorm(0.23,1)
}
# Dados
list(y=c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
x1=c(-82.6792,82.3208,82.3208,22.3208,-7.6792,222.3208,307.3208,
17.3208,-7.6792,-34.6792,-57.6792,-57.6792,32.3208,22.3208,
-207.6792,-17.6792,-117.6792,-77.6792,82.3208,-7.6792,-107.6792,
22.3208,57.3208,46.3208,-67.6792,52.3208,-37.6792,67.3208,
-97.6792,-47.6792,22.3208,67.3208,82.3208,52.3208,52.3208,
-7.6792,-47.6792,-112.6792,57.3208,22.3208,-17.6792,-67.6792,
2.3208,-22.6792,67.3208,-67.6792,-67.6792,-17.6792,22.3208,
-77.6792,-37.6792,32.3208,-17.6792),
x2=c(41,71,51,40,63,79,61,44,53,27,53,60,65,58,41,64,44,9,42,19,
24,-24,39,35,10,6,6,21,14,1,33,33,4,2,5,12,-1,44,14,-10,-43,23,
-1,29,40,30,23,12,-11,7,-22,20,19),N=53)
Os sumários a posteriori de interesse considerando um perı́odo “burn-in” de

1.000 amostras que são descartadas para eliminar o efeito dos valores iniciais e
tomando uma amostra final de tamanho 1000 escolhidas de 10 em 10 para se
ter uma amostra aproximadamente não-correlacionada é dada na Tabela 7.8.
Dos resultados da Tabela 7.8, observar que a covariável X1 não apresenta

efeito significativo na resposta CHF (zero incluı́do no intervalo de credibilidade
com probabilidade 0, 95 para α1 ) e a covariável X2 apresenta um efeito significa-
tivo na resposta CHF (o valor zero não é incluı́do no intervalo de credibilidade
com probabilidade 0, 95 para α2 ).
Tabela 7.8: Sumários a posteriori de interesse (dados da Tabela 7.7).

α0 -6,294 0,4814 0,0164 -7,294 -6,3 -5,383
−5
α1 -0,001871 0,002417 8, 9 × 10 -0,006526 -0,001759 0,002974
−4
α2 0,03598 0,01026 3, 388 × 10 0,01544 0,03634 0,0564
p1 0,009789 0,003031 9, 697 × 10−5 0,004774 0,009309 0,01675
p2 0,02121 0,007361 2, 688 × 10−4 0,009167 0,02023 0,03873
p3 0,01019 0,002756 1, 011 × 10−4 0,005473 0,009998 0,01628
p4 0,007605 0,001704 5, 904 × 10−5 0,004722 0,007481 0,01116
p5 0,01862 0,005723 1, 895 × 10−4 0,008713 0,01808 0,03097
−4
p6 0,02365 0,01289 5, 076 × 10 0,005529 0,0211 0,05689
p7 0,01167 0,008474 3, 202 × 10−4 0,002126 0,009761 0,03494
p8 0,008847 0,00195 6, 727 × 10−5 0,005575 0,008732 0,01285
p9 0,01286 0,003223 1, 07 × 10−4 0,00726 0,01271 0,01954
p10 0,005374 0,00147 4, 876 × 10−5 0,002995 0,005249 0,008619
−4
p11 0,01432 0,00441 1, 407 × 10 0,006956 0,01369 0,02366
p12 0,01858 0,006457 2, 061 × 10−4 0,008522 0,01764 0,03264
p13 0,01853 0,005569 1, 928 × 10−4 0,009126 0,01809 0,0305
p14 0,01457 0,003807 1, 306 × 10−4 0,008121 0,01433 0,02253
p15 0,01371 0,008173 2, 487 × 10−4 0,003525 0,01161 0,03357
p16 0,01974 0,006384 2, 096 × 10−4 0,009021 0,01906 0,03411
−4
p17 0,0119 0,004564 1, 432 × 10 0,00486 0,01109 0,02231
p18 0,003193 0,001323 4, 249 × 10−5 0,001355 0,002915 0,006227
p19 0,007406 0,002048 7, 394 × 10−5 0,004046 0,007262 0,01197
p20 0,003887 0,00123 4, 048 × 10−5 0,00193 0,003724 0,00673
−5
p21 0,005684 0,002089 6, 748 × 10 0,002629 0,005375 0,01069
−5
p22 0,000962 0,000729 2, 23 × 10 0,000168 0,000761 0,002944
p23 0,006924 0,001747 6, 189 × 10−5 0,003976 0,006804 0,01068
p24 0,006129 0,001559 5, 437 × 10−5 0,003532 0,005949 0,00956
p25 0,003232 0,001291 4, 158 × 10−5 0,001392 0,002959 0,006242
p26 0,002309 0,001078 3, 495 × 10−5 0,000813 0,00208 0,00483
p27 0,002671 0,001121 3, 581 × 10−5 0,001072 0,002416 0,005409
−5
p28 0,003689 0,001331 4, 493 × 10 0,001699 0,003468 0,006789
p29 0,003943 0,001578 5, 097 × 10−5 0,001678 0,003655 0,007646
p30 0,002316 0,001079 3, 409 × 10−5 0,000849 0,00205 0,005131
p31 0,00595 0,001455 4, 99 × 10−5 0,00354 0,005818 0,009196
−5
p32 0,005537 0,001591 5, 567 × 10 0,002983 0,005339 0,009073
p33 0,002086 0,001097 3, 579 × 10−5 0,000641 0,001826 0,004853
−5
p34 0,002034 0,001027 3, 302 × 10 0,000646 0,001813 0,004579
p35 0,002237 0,001065 3, 446 × 10−5 0,000768 0,002009 0,00474
p36 0,00308 0,001141 3, 696 × 10−5 0,001362 0,002885 0,005805
p37 0,002172 0,001052 3, 31 × 10−5 0,000770 0,001904 0,004918
p38 0,01175 0,004384 1, 379 × 10−4 0,004908 0,01099 0,02169
−5
p39 0,00297 0,001196 3, 951 × 10 0,001212 0,002751 0,005821
p40 0,001461 0,000873 2, 725 × 10−5 0,000359 0,001255 0,003868
p41 0,000593 0,000581 1, 714 × 10−5 0,000740 0,000404 0,002248
p42 0,005014 0,001598 5, 236 × 10−5 0,002559 0,004812 0,00871
p43 0,001991 0,000979 3, 093 × 10−5 0,000636 0,00176 0,004454
−5
p44 0,005625 0,001456 4, 86 × 10 0,003225 0,005523 0,008792
p45 0,007061 0,001845 6, 586 × 10−5 0,003974 0,006925 0,01102
p46 0,006394 0,001872 6, 132 × 10−5 0,003432 0,006179 0,01065
p47 0,005014 0,001598 5, 236 × 10−5 0,002559 0,004812 0,00871
p48 0,003135 0,001156 3, 742 × 10−5 0,0014 0,002947 0,005916
−5
p49 0,001417 0,000863 2, 687 × 10 0,000339 0,001212 0,003794
p50 0,002989 0,001283 4, 108 × 10−5 0,001229 0,002702 0,006052
p51 0,001117 0,000786 2, 376 × 10−5 0,000242 0,000880 0,003241
p52 0,003758 0,001237 4, 12 × 10−5 0,001827 0,003573 0,006608
p53 0,003959 0,00125 4, 109 × 10−5 0,002006 0,003789 0,006803
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%, P 97, 5%: percentil
97, 5%.
138
7.3 Conceitos adicionais

7.3.1 A integração de Monte Carlo
A integração de Monte Carlo é usada para encontrar resultados para integrais
sem resolvê-las analiticamente. Basicamente, é possı́vel determinar quantidades
de uma distribuição de probabilidade de interesse a partir uma grande quanti-
dade de valores gerados da distribuição de probabilidade. Suponha que temos
uma distribuição p(θ) (possivelmente uma distribuição a posteriori), que dese-
jamos tomar quantidades de interesse. Vamos supor a integral
Z
I = g(θ)p(θ)dθ,
em que g(θ) pode ser a média E(θ) ou a variância
V ar(θ) = E[θ − E(θ)]2 .
Podemos aproximar a integral via integração de Monte Carlo a partir de M

valores simulados de p(θ), dados por
M
1 X
Ib = g(θ(i) ).
M i=1
Exemplo 7.5: Podemos facilmente calcular o valor esperado da distribuição

Beta(3, 3) por integração de Monte Carlo usando o software R:
> M <- 10000

> beta.sims <- rbeta(M, 3, 3)
> sum(beta.sims)/M
[1] 0.5013
Nota: Essa aproximação determina um estimador consistente do verdadeiro

valor de I a partir da lei forte dos grandes números (LFGN).
7.3.2 Lei forte dos grandes números (LFGN)

Seja X1 , X2 , ... uma sequência de variáveis aleatórias independentes e identica-
mente distribuı́das com média finita µ = E(Xi ). Então, com probabilidade 1,
(X1 + X2 + · · · + XM )/M converge para µ quando M → ∞.
Exemplo 7.6: No exemplo anterior, cada valor simulado foi gerado inde-
pendentemente de uma mesma distribuição Beta(3,3).
Nota: Quando são gerados valores dependentes, podemos usar o teorema

ergódico.
7.3.3 Teorema ergódico

Seja θ(1) , θ(2) , θ(3) , ..., θ(M ) uma sequência de M valores de uma cadeia de Markov
aperiódica, irredutivel, e recorrente positiva (cadeia ergódica), e seja E[g(θ)] <
1. Então, com probabilidade 1,
M Z
1 X
g(θ(i) ) → g(θ)p(θ)dθ
M i=1
quando M → ∞, sendo p(θ) uma distribuição estacionária. Assim, esta cadeia

de Markov é análoga à LFGN, permitindo ignorar a dependência entre os va-
lores simulados da cadeia de Markov quando determinamos quantidades de in-
teresse desses valores. Se temos uma cadeia de Markov aperiódica, irredutivel,
e recorrente positiva (isso ocorre quando usamos estatı́stica bayesiana), então
o teorema ergódico nos permite usar integração de Monte Carlo para calcular
quantidades de interesse dos valores gerados, ignorando a dependência entre os
valores simulados a partir das distribuições condicionais a posteriori para cada
parâmetro do modelo.
7.4 Exercı́cios
1. Sejam os dados de economia informal, considerando oito firmas. Sejam
as variáveis: y = ı́ndice de funcionários registrados, x1 = ı́ndice de fun-
cionários com segundo grau completo, x2 = ı́ndice de funcionários do sexo
feminino, e x3 = capital da firma (em $1000000,00). Os dados são apre-
sentados a seguir.
F irma 1 2 3 4 5 6 7 8
y 0, 10 0, 65 0, 30 0, 30 0, 28 0, 78 0, 28 0, 45
x1 0, 08 0, 17 0, 08 0, 30 0, 05 0, 18 0, 09 0, 45
x2 0, 40 0, 40 0, 38 0, 50 0, 52 0, 32 0, 45 0, 65
x3 0, 75 1, 02 1, 09 1, 35 1, 20 2, 20 2, 95 2, 50
(a) Considere um modelo linear para analizar estes dados:
yi = α + β1 x1i + β2 x2i + β3 x3i + εi
em que εi são variáveis aleatórias normais independentes com média zero

e variância σ 2 para i = 1, . . . , 8. Assuma diferentes distribuições a priori
para os parâmetros. Em cada caso, assuma cinco cadeias paralelas e ver-
ifique a convergência do algoritmo Gibbs sampling. Como sugestão, usar
o software OpenBUGS:
140
model
{
for(i in 1:N)
{
y[i] ~ dnorm(mu[i], tau)
mu[i] <- alpha + beta1*x1[i] + beta2*x2[i] + beta3*x3[i]
}
alpha ~ dnorm(0,1.0E-6)
beta1 ~ dnorm(0,1.0E-6)
tau ~ dgamma(1,1)
}
# Dados
list(y=c(0.10,0.65,0.30,0.30,0.28,0.78,0.28,0.45),
x1=c(0.08,0.17,0.08,0.30,0.05,0.18,0.09,0.45),
x2=c(0.40,0.40,0.38,0.50,0.52,0.32,0.45,0.65),
x3=c(0.75,1.02,1.09,1.35,1.20,2.20,2.95,2.50), N=8)
# Valores iniciais
list(alpha=1, beta1=0, beta2=0, beta3=0, tau=1)
(b) Escreva as distribuições condicionais necessárias para o amostrador de

Gibbs;
2. Seja I uma variável denotando o investimento de uma firma e seja K

o seu ativo imobilizado. Defina uma variável resposta y como o ı́ndice
I
y = K de investimento da firma. Sejam x1 , x2 e x3 covariáveis dadas
por x1 = fluxo de
K
caixa
; x2 = financiamento
K
da firma
; e x3 é o custo anual com
empregados. Dados para oito firmas acompanhadas durante os anos de
1990, 1991 e 1992, são apresentados a seguir.
Ano
1990 1991 1992
y x1 x2 x3 y x1 x2 x3 y x1 x2 x3
0, 06 0, 02 0, 36 0, 98 0, 12 0, 07 0, 42 0, 85 0, 10 0, 08 0, 40 0, 75
0, 65 0, 12 0, 45 1, 32 0, 72 0, 15 0, 38 1, 42 0, 65 0, 17 0, 40 1, 02
0, 25 0, 07 0, 38 1, 84 0, 32 0, 10 0, 42 1, 86 0, 30 0, 08 0, 38 1, 09
0, 32 0, 32 0, 49 1, 26 0, 26 0, 35 0, 53 1, 32 0, 30 0, 30 0, 50 1, 35
0, 28 0, 02 0, 51 0, 85 0, 25 0, 01 0, 55 0, 92 0, 28 0, 05 0, 52 1, 20
0, 67 0, 18 0, 28 2, 34 0, 83 0, 15 0, 30 2, 45 0, 78 0, 18 0, 32 2, 20
0, 25 0, 08 0, 36 3, 20 0, 32 0, 09 0, 30 2, 86 0, 28 0, 09 0, 45 2, 95
0, 37 0, 25 0, 38 1, 96 0, 42 0, 32 0, 32 2, 65 0, 45 0, 45 0, 65 2, 50
(a) Considere um modelo linear para analizar esses dados:
yij = αi + τj + γij + β0 + β1 x1ij + β2 x2ij + β3 x3ij + εij

em que εij são variáveis aleatórias independentes com média zero e variância σ 2
para i = 1, . . . , 8; j = 1, 2, 3 (tempos), e assuma diferentes distribuições a priori
para os parâmetros. Em cada caso, assuma cinco cadeias paralelas e verifique
a convergência do algoritmo Gibbs sampling. Como sugestão, usar o software
OpenBUGS.
model {
for(i in 1:N) {
for(j in 1:T) {
y[i,j] ~ dnorm(mu[i,j], tau.c)
mu[i,j] <- alpha[i] + tau[j] + gamma[i,j] + beta0 +
beta1*x1[i,j] + beta2*x2[i,j] + beta3*x3[i,j] }}
for(i in 1:8) { alpha[i] ~ dnorm(0, tau.alpha) }

for(j in 1:3) { tau[j] ~ dnorm(0, tau.beta) }
for(i in 1:N) {
for(j in 1:T) { gamma[i,j] ~ dnorm(0, tau.gamma) }}
tau.gamma ~ dgamma(1,1)
tau.c ~ dgamma(1,1)
tau.alpha ~ dgamma(1,1)
tau.beta ~ dgamma(1,1)
}
# Dados
list(y=structure(.Data = c(0.06,0.12,0.1,0.65,0.72,0.65,0.25,
0.32,0.3,0.32,0.26,0.3,0.28,0.25,0.28,0.67,0.83,0.78,0.25,0.32,
0.28,0.37,0.42,0.45),.Dim=c(8,3)),
x1=structure(.Data = c(0.02,0.07,0.08,0.12,0.15,0.17,0.07,0.1,
0.08,0.32,0.35,0.3,0.02,0.01,0.05,0.18,0.15,0.18,0.08,0.09,0.09,
0.25,0.32,0.45),.Dim=c(8,3)),
x2=structure(.Data = c(0.36,0.42,0.4,0.45,0.38,0.4,0.38,0.42,0.38,
0.49,0.53,0.5,0.51,0.55,0.52,0.28,0.3,0.32,0.36,0.3,0.45,0.38,
0.32,0.65),.Dim=c(8,3)),
x3=structure(.Data = c(0.98,0.85,0.75,1.32,1.42,1.02,1.84,1.86,
1.09,1.26,1.32,1.35,0.85,0.92,1.2,2.34,2.45,2.2,3.2,2.86,2.95,
1.96,2.65,2.5),.Dim=c(8,3)),
N=8,T=3)
# Valores iniciais
list(tau.c=1, alpha=c(0,0,0,0,0,0,0,0), beta0=0, beta1=0,
142
beta2=0, beta3=0, tau.alpha=1, tau.gamma=1, tau.beta=1,

tau=c(0,0,0), gamma=structure(.Data=c(0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0),.Dim=c(8,3)))
(b) Escreva as distribuições condicionais necessárias para o amostrador de

Gibbs.
Capı́tulo 8
Algumas aplicações
8.1 Modelos bayesianos hierárquicos

Vamos considerar uma estrutura de vários nı́veis de relação a priori em um
modelo com verossimilhança f (y | θ) e priori π (θ) em que π (θ) é decomposto
pelas distribuições condicionais π1 (θ | α1 ) , π2 (α1 | α2 ) , . . . , πl−1 (αl−2 | αl−1 ) e
na distribuição marginal πl (αl−1 ) . Assim, temos:
Z
π (θ) = π1 (θ | α1 ) π2 (α1 | α2 ) . . . πl−1 (αl−2 | αl−1 ) πl (αl−1 ) dα1 dα2 . . . dαl−1
em que αi denota o hiperparâmetro no nı́vel i = 1, 2, . . . e a integral é consider-

ada para α1 , α2 , . . . , αl−1 .
Exemplo 8.1 (Modelo Poisson-exponencial hierárquico): Seja Yi , i =

1, . . . , n, uma variável aleatória denotando o número de acidentes de trabalho
durante um dado perı́odo fixado de tempo em n linhas de produção de uma
indústria. Vamos assumir uma distribuição de Poisson (1.10) para Yi ,
Yi | θi ∼ P oisson (θi ) ,
em que θ1 , θ2 , . . . , θn é suposto como uma amostra aleatória de uma distribuição
exponencial com hiperparâmetro δ desconhecido.
Vamos assumir uma distribuição a priori não-informativa para δ, dada por

π2 (δ) ∝ δ −1 , δ > 0. Dessa forma, temos um modelo bayesiano hierárquico
0
definido pela distribuição conjunta para y = (y1 , . . . , yn ) dado θ = (θ1 , θ2 , . . . ,
θn ),
n
Y exp (−θi ) θiyi
f (y | θ) = . (8.1)
i=1
yi !
Assim, uma distribuição a priori para θ no primeiro estágio é dada por
n
Y
π1 (θ | δ) = δ exp (−δθi ) (8.2)
i=1
143
144
e uma priori para δ no segundo estágio é dada por,

1
π2 (δ) ∝ (8.3)
δ
em que δ > 0. Combinando (8.1) , (8.2) e (8.3) temos a distribuição a posteriori
conjunta para θ e δ dada por
π (θ, δ | y) ∝ f (y | θ) π1 (θ | δ) π2 (δ) .
Assim, " #
n
X n
Y
π (θ, δ | y) ∝ δ n−1
exp − (δ + 1) θi θiyi .
i=1 i=1
dadas por:
n
!
X
(i) δ | θ, y ∼ Gama n, θi
i=1
(ii) θi | δ, θ (i) , y ∼ Gama (yi + 1, δ + 1)
em que i = 1, 2, . . . , n e θ (i) = (θ1 , θ2 , . . . , θi−1 , θi+1 , . . . , θn ) .
Exemplo 8.2 (Modelo normal/normal hierárquico): Sejam y1 , . . . , yn

observações independentes de uma distribuição normal, isto é,
yi | θi ∼ N θi , σ12

para i = 1, . . . , n e com σ12 conhecido. Vamos assumir no primeiro nı́vel de um

modelo bayesiano hierárquico, a distribuição a priori para θi dada por
iid
θi | µ, σ22 ∼ N µ, σ22

para i = 1, . . . , n.
No segundo nı́vel de hierarquia, assumir independência a priori entre µ e σ22

e uma distribuição localmente uniforme para µ, isto é,
π µ, σ22 ∝ π2 σ22 ,

em que π2 σ22 é uma distribuição a priori para σ22 . Dessa forma, a distribuição
a posteriori para θ1 , . . . , θn , µ, σ22 é dada por:
( n )
Y 1 1 2
π θ1 , . . . , θn , µ, σ22 | y ∝

p exp − 2 (yi − θi ) ×
i=1 2πσ12 2σ1
( n )
Y 1 1 2
× p exp − 2 (θi − µ) ×
i=1 2πσ22 2σ2
×π2 σ22 ,

8.2. ANÁLISE BAYESIANA EMPÍRICA 145
em que −∞ < θi < ∞; −∞ < µ < ∞ e σ22 > 0.
Vamos assumir uma distribuição a priori gama inversa para σ22 , isto é,
σ22 ∼ GI (a, b)
em que a e b são conhecidos. Portanto,

−(a+ n2 +1) b
θ1 , . . . , θn , µ, σ22 σ22

π |y ∝ exp − 2 ×
σ2
" n n
#
1 X 2 1 X 2
× exp − 2 (yi − θi ) − 2 (θi − µ) .
2σ1 i=1 2σ2 i=1

dadas por
" n
#
n 1 X 2
(a) σ22 | θ, µ, y ∼ GI a + ; b + (θi − µ) ,
2 2 i=1
σ22

2
(b) µ | θ, σ2 , y ∼ N θ̄; , e
n
yi σ22 + µσ12 σ12 σ22

2
(c) θi | θ (i) , µ, σ2 , y ∼ N , ,
σ12 + σ22 σ12 + σ22
Pn
em que θ = (θ1 , . . . , θn ); θ̄ = n1 i=1 θi ; i = 1, . . . , n.
8.2 Análise bayesiana empı́rica

Em muitas aplicações podemos usar os dados y para elicitar uma distribuição a
priori π (θ) para os parâmetros do modelo f (y | θ). A função de verossimilhança
marginal é dada por Z
f (y) = f (y | θ) π (θ) dθ.
Assim, usamos o método da máxima verossimilhança marginal para a escolha

da priori π (θ). Vamos supor n observações yi independentes com distribuições
f (yi | θi ), em que os parâmetros θi , i = 1, . . . , n, são considerados como gerados
independentemente da mesma distribuição a priori π (θ) desconhecida. Para
simplificação, vamos assumir que π (θ | α) é especificada, mas com α desco-
nhecido.
A função de verossimilhança marginal para α é dada por

Z Z
f (y | α) = . . . f (yi | θi ) π (θi | α) dθ1 . . . dθn ,
em que Z
f (yi | α) = f (yi | θi ) π (θi | α) dθi .
146
Usando o método de máxima verossimilhança ou o método dos momentos,

obtemos uma estimativa α̂ do hiperparâmetro α. Então consideramos esse valor
para o hiperparâmetros α da distribuição a priori π (θ | α).
Como um caso particular, consideramos o modelo Poisson/exponencial, com

função de probabilidade
exp (−θi ) θiyi

f (yi | θi ) =
yi !
para yi = 0, 1, 2, . . ., e a distribuição a priori
π (θi | δ) = δ exp (−δθi )
para θi > 0. Dessa forma, temos

Z ∞
f (yi | δ) = f (yi | θi ) π (θi | δ) dθi
0
Z ∞
(y +1)−1
∝ δ θi i exp [− (δ + 1) θi ] dθi
0
δΓ (yi + 1)
∝ yi +1 .
(δ + 1)
Portanto, a função de verossimilhança para δ, assumindo n observações in-

dependentes é dada por
n
δn
Q
Γ (yi + 1)
i=1
L (δ) ∝ n+ n
P .
i=1 yi
(δ + 1)
O logaritmo da função de verossimilhança L (δ) é dado por

n
!
X
l (δ) = ln L (δ) ∝ n ln (δ) − n + yi ln (δ + 1) .
i=1
De l0 (δ) = 0, encontramos δ̂ = ȳ −1 , em que

Pn
yi
ȳ = i=1 .
n
A distribuição a posteriori para θi é dada por

π (θi | y) ∝ δ̂ exp −δ̂θi θiyi exp (−θi ) ,
ou seja,
(yi +1)−1 1
π (θi | y) ∝ θi exp − + 1 θi ,
ȳ
i = 1, . . . , n. Assim,

1
θi | yi ∼ Gama yi + 1; + 1 .
ȳ
Exemplo 8.3 (Qualidade do atendimento em um hospital): Vamos

considerar uma amostra de n = 400 pacientes com infarto agudo do miocárdio
(IAM), que tiveram um ataque cardı́aco após 30 dias do diagnóstico de IAM,
durante o perı́odo janeiro de 2000 a dezembro de 2003 em um grande hospital.
A variável resposta Y é o status da mortalidade (1 = morte e 0 = sobre-

vivência). Vamos denotar essa variável aleatória por Y com uma distribuição
de Bernoulli com probabilidade de sucesso θ = P (Y = 1). Assumiremos uma
distribuição a priori Beta (α, β) para θ. Observar que essas 400 pessoas não
formam uma amostra aleatória de uma população. Apesar disso, vamos as-
sumir permutabilidade para as observações yi , i = 1, . . . , n. O teorema da re-
presentação de DeFinetti para variáveis 0 − 1 mostra que, dado θ, as variáveis
Yi são independentes.
Vamos supor que um especialista da área de cardiologia afirma que a taxa

de mortalidade para pacientes com 30 dias de IAM é, em média, 15%. Além
disso, o especialista fornece outra informação: a taxa de mortalidade a partir
de estudos prévios é um valor entre 5% e 30%. Com essas informações do
especialista, escolhemos os valores dos hiperparâmetros da distribuição beta
p α = 4, 5 e β = 25, 5, o que leva a uma média E (θ) ≈ 0, 15 e desvio-padrão
por
V ar (θ) ≈ 0, 064 para a distribuição Beta (α, β) (ver (1.17)).
A função de verossimilhança para θ é dada por

n−S
f (y | θ) = L (θ) = θS (1 − θ) ,
Pn
em que S = i=1 yi .
Combinando a função de verossimilhança (8.2) com a distribuição a priori

Beta (4, 5; 25, 5) para θ, a distribuição a posteriori para θ é uma distribuição
Beta (α + S; β + n − S). Com os dados, temos
θ | y, α, β ∼ Beta (76, 5; 353, 5) .
Um estimador de Bayes com respeito a função de perda quadrática é dado

pela média a posteriori para θ, isto é,
α+S
E (θ | y) = .
α+β+n
Assim, E (θ | y) = 0, 178.
148
Tabela 8.1: Resultados de um estudo conduzido em seis centros médicos.
Centro Aspirina Placebo

N◦ de Taxa de N◦ de Taxa de
Médico
pacientes mortalidade (%) pacientes mortalidade (%)
UK-1 615 7, 97 624 10, 74
CDPA 758 5, 80 771 8, 30
GAMS 317 8, 52 309 10, 36
UK-2 832 12, 26 850 14, 82
Paris 810 10, 49 406 12, 81
AMIS 2.267 10, 58 2.257 9, 70
Total 5.599 9, 88 5.217 10, 73
Exemplo 8.4 (Meta-análise para efeitos de aspirina em ataques

cardı́acos): Vamos supor um experimento realizado por seis centros médicos
para comparar o uso de aspirina e placebo em pacientes após um ataque cardı́aco
(ver Tabela 8.1).
Considerando inicialmente um estudo baseado no método frequentista, temos

na Tabela 8.2 os sumários obtidos para as diferenças entre as taxas de mortali-
dade para cada um dos centros médicos considerados.
Tabela 8.2: Sumários da inferência frequentista para os seis centros médicos.
yi Erro padrão da
Centro Médico zi pi
diferença em % diferença em%
UK-1 2, 77 1, 65 1, 68 0, 047
CDPA 2, 50 1, 31 1, 91 0, 028
GAMS 1, 84 2, 34 0, 79 0, 216
UK-2 2, 56 1, 67 1, 54 0, 062
Paris 2, 31 1, 96 1, 17 0, 129
AMIS −1, 15 0, 90 −1, 27 0, 898
Total 0, 86 0, 59 1, 47 0, 072
Observar que zi dado na Tabela 8.2 representa a razão das diferenças em

taxas de mortalidade em relação aos seus erros-padrão (EP). Da mesma forma,
pi denota o p-value (teste unicaudal) associado com zi , usando uma aproximação
normal.
A partir dos resultados da Tabela 8.2 observamos que os cinco primeiros

estudos levam a um declı́nio na taxa de mortalidade usando aspirina, apesar
de alguns estudos não mostrarem evidências de significância (p-values maiores
que 0, 05). O último estudo (conduzido no centro médico AMIS) leva a uma
aumento na taxa de mortalidade para pacientes recebendo aspirina. Observar
que esse grupo tem o maior número de pacientes.
Vamos assumir um modelo bayesiano hierárquico com as taxas de mortal-

idade para os dois grupos (aspirina e placebo) com distribuições normais, isto
é,
y1i ∼ N θ1i , σ12

y2i ∼ N θ2i , σ22

para i = 1, . . . , 6, em que y1i é a taxa de mortalidade para pacientes recebendo

aspirina e y2i é a taxa de mortalidade para pacientes recebendo placebo.
Assumiremos em um primeiro estágio da análise bayesiana as seguintes dis-

tribuições a priori para os parâmetros do modelo:
θ1i ∼ N α1i , η12

θ2i ∼ N α2i , η22

σ12 ∼ Gama (a1 , b1 )

σ22 ∼ Gama (a2 , b2 ) (8.4)
para i = 1, . . . , 6, sendo a1 , a2 , b1 e b2 hiperparâmetros conhecidos. Vamos

assumir independência a priori entre os parâmetros.
Em um segundo estágio da análise bayesiana hierárquica, assumiremos as

distribuições a priori
α1i ∼ N c1i , d21i

α2i ∼ N c2i , d22i

η12 ∼ Gama (e1 , f1 )

η22 ∼ Gama (e2 , f2 ) (8.5)
para i = 1, . . . , 6, e com todos os hiperparâmetros em (8.5) assumidos conhe-

cidos. Com a informação obtida dos resultados da inferência frequentista (ver
Tabela 8.2), escolhemos os valores dos hiperparâmetros para as distribuições a
priori (8.4) e (8.5) (uso de métodos bayesianos empı́ricos).
Usando o software OpenBUGS, considere o programa:
model {
for (i in 1:N) {
y1[i] ~ dnorm(theta1[i], tau1)
y2[i] ~ dnorm(theta2[i], tau2)
150
theta1[i] ~ dnorm(alpha1[i], eta1)

theta2[i] ~ dnorm(alpha2[i], eta2)
d[i] <- theta2[i] - theta1[i] }
# Distribuicoes a priori:
alpha1[1] ~ dnorm(8,1)
alpha1[2] ~ dnorm(5.8,1)
tau1 ~ dgamma(0.1,0.1)
tau2 ~ dgamma(0.1,0.1)
eta1 ~ dgamma(0.1,0.1)
eta2 ~ dgamma(0.1,0.1)
}
# Dados:
list(y1=c(7.97, 5.8, 8.52, 12.26, 10.49, 10.58),
y2=c(10.74,8.3,10.36,14.82,12.81,9.7), N=6)
Na geração de amostras para a distribuição a posteriori usando o amostrador

de Gibbs, consideramos um perı́odo “burn-in” de tamanho 1000 e geramos uma
amostra final de tamanho 1000 escolhendo amostras de 10 em 10.
Na Tabela 8.3, temos os sumários a posteriori obtidos usando o programa

OpenBUGS. Os parâmetros τ1 e τ2 so o inverso das variâncias σ12 e σ22 , respec-
tivamente, dada a notação usada pelo programa.
A partir dos resultados da Tabela 8.3 observamos que os intervalos de cred-

ibilidade 95% para as diferenças di = θ2i − θ1i , i = 1, . . . , 6, para os cinco
primeiros tratamentos não incluem o valor zero, isto é, a aspirina apresenta
um ganho em relação ao placebo em termos de taxas de mortalidade menores.
Além disso todas as estimativas de Monte Carlo baseadas nas 1.000 amostras
geradas de Gibbs para as médias a posteriori de di , isto é, E (di | y) são positi-
vas. O intervalo de credibilidade 95% para o último estudo (i = 6, AMIS) inclui
o valor zero, isto é, indicando um efeito não significativo da aspirina na taxa de
mortalidade para os pacientes após um ataque cardı́aco.
Exemplo 8.5: Suponha os dados de um experimento conduzido com pes-

soas idosas na Dinamarca nos anos 1980, considerando 572 idosos vivendo em
Tabela 8.3: Sumários a posteriori (análise bayesiana para os dados da Tabela

8.2).
Parâmetro média DP Erro MC P2,5% mediana P97,5%

α11 8,012 0,6213 0,02164 6,805 8,002 9,332
α12 5,811 0,6123 0,02328 4,573 5,812 7,014
α13 8,528 0,6122 0,01645 7,381 8,508 9,765
α14 12,30 0,5966 0,01637 11,17 12,29 13,46
α15 10,48 0,6407 0,02329 9,307 10,48 11,8
α16 10,57 0,6314 0,01924 9,310 10,58 11,78
α21 10,76 0,5948 0,01458 9,621 10,75 11,96
α22 8,31 0,6122 0,01985 6,991 8,316 9,541
α23 10,35 0,6145 0,01964 9,141 10,31 11,61
α24 14,82 0,6256 0,02158 13,56 14,82 16,09
α25 12,78 0,6041 0,01527 11,47 12,78 13,96
α26 9,682 0,6171 0,01849 8,405 9,691 10,94
θ11 7,997 0,5034 0,01628 7,006 7,997 9,065
θ12 5,791 0,4899 0,01648 4,727 5,812 6,792
θ13 8,507 0,4986 0,01677 7,54 8,51 9,577
θ14 12,29 0,5215 0,01575 11,22 12,28 13,44
θ15 10,49 0,4792 0,01726 9,513 10,49 11,46
θ16 10,59 0,5237 0,01746 9,423 10,57 11,65
θ21 10,75 0,485 0,01476 9,742 10,76 11,78
θ22 8,297 0,4868 0,01444 7,345 8,284 9,303
θ23 10,36 0,5144 0,01540 9,281 10,36 11,43
θ24 14,83 0,5133 0,01761 13,78 14,81 16,0
θ25 12,8 0,4805 0,01253 11,78 12,8 13,76
θ26 9,688 0,5225 0,01696 8,621 9,702 10,71
θ21 − θ11 2,754 0,7151 0,02227 1,247 2,777 4,149
θ22 − θ12 2,505 0,6918 0,02022 1,214 2,505 3,926
θ23 − θ13 1,852 0,6981 0,02203 0,3278 1,841 3,277
θ24 − θ14 2,535 0,7298 0,0262 1,032 2,539 4,053
θ25 − θ15 2,308 0,671 0,01984 0,934 2,331 3,642
θ26 − θ16 -0,8969 0,7191 0,02416 -2,364 -0,8849 0,5441
η1 6,674 7,068 0,2017 0,5855 4,191 27,23
η2 6,878 7,07 0,2111 0,4839 4,639 26,1
τ1 6,719 7,011 0,1986 0,5612 4,317 28,34
τ2 6,591 6,687 0,1972 0,6053 4,307 25,24
P 97, 5%: percentil 97, 5%.
152
diferentes cidades pequenas que foram aleatorizados para dois grupos: um grupo
com 287 pessoas (grupo experimental recebendo um novo tipo de medicina pre-
ventiva). O objetivo do estudo foi verificar se a nova terapia preventiva aplicada
aos idosos melhora a saúde.
A resposta associada a cada idoso foi relacionada ao número de hospital-

izações durante o perı́odo de 2 anos (tempo de duração do estudo). Os dados
desse estudo são apresentados na Tabela 8.4.
Tabela 8.4: Dados de pacientes idosos.
Número de hospitalizações n média DP

Grupo 0 1 2 3 4 5 6 7
(C) Controle 140 75 46 12 8 4 0 2 287 0, 944 1, 24
(E) Experimental 147 83 37 13 3 1 1 0 285 0, 768 1, 01
DP: desvio padrão.
Considerando inicialmente uma análise preliminar descritiva dos dados, ob-

servar que a redução do mı́nimo de hospitalizações é dado pela diferença 0, 944−
0, 768 = 0, 176, isto é, levando a uma redução no nı́vel de controle de

0, 944 − 0, 768
100 % = 19%.
0, 768
Uma análise frequentista (errônea) poderia ser feita assumindo distribuições
normais para Ci (controle) e Ej (experimental), isto é,
Ci | µc , σc2 ∼ N µc , σc2

Ej | µe , σe2 ∼ N µe , σe2

para i = 1, . . . , nc (nc é o número de pacientes do grupo controle, sendo nc =

287) e j = 1, . . . , ne (ne é o numero de pacientes idosos no grupo experimental,
sendo ne = 285).
Usando a estatı́stica Z (comparação de amostras independentes), temos

para o efeito de tratamento uma média amostral igual a −0, 176 (diferença das
médias), um desvio-padrão amostral igual a 0, 0944 e um intervalo de confiança
95% para a diferença de médias dado por (−0, 361; 0, 009).
Observar que os dados da Tabela 8.4 são dados de contagem (dados discre-
tos). Portanto assumir para uma análise bayesiana uma distribuição de Poisson
para as variáveis aleatórias Ci e Ej dados por:
Ci | λc ∼ P oisson (λc )
Ej | λe ∼ P oisson (λe )
para i = 1, . . . , nc e j = 1, . . . , ne .
Vamos assumir as seguintes distribuições a priori (independentes) para λc e

λe :
λc ∼ Gama (0, 01; 0, 01) (8.6)

λe ∼ Gama (0, 01; 0, 01)
Observar que as distribuições a priori (8.6) são não-informativas para os

parâmetros. Também observar que temos interesse no efeito de tratamento
dado por ∆ = λe − λc .
Um programa usando o software OpenBUGS considerando as respostas para

cada indivı́duo nos grupos C e E é dado a seguir.
model {
lambda.c ~ dgamma(0.01,0.01)
lambda.e ~ dgamma(0.01,0.01)
for(i in 1:n.c) { C[i] ~ dpois(lambda.c) }
for(i in 1:n.e) { E[i] ~ dpois(lambda.e) }
# Delta
effect <- lambda.e - lambda.c
}
# Dados
list(
C=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,7,
7),n.c=287,
E=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
154
2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,5,6),
n.e=285)
# Valores iniciais
list(lambda.c=1.0, lambda.e=1.0)
Na Tabela 8.5, temos os sumários a posteriori de interesse assumindo um

perı́odo “burn-in” de tamanho 2.000 e gerando 1.000 amostras finais selecionadas
de 10 em 10.
Tabela 8.5: Sumários a posteriori (análise bayesiana para os dados da Tabela

6.5).
Parâmetro média DP Erro MC P2,5% mediana P97,5%

∆ -0,1711 0,07823 0,002539 -0,3272 -0,1691 -0,01809
λc 0,9375 0,05813 0,001708 0,8253 0,9372 1,056
λe 0,7664 0,05143 0,00174 0,67 0,766 0,8693
P 97, 5%: percentil 97, 5%.
A partir dos resultados da Tabela 8.5, observar que uma estimativa de Monte
Carlo para a média a posteriori da diferença ∆ = λe − λc baseada nas 1.000
amostras de Gibbs é dada por ∆ ˆ = −0, 1711, um resultado similar ao obtido na
inferência frequentista assumindo a estatı́stica Z. Entretanto, observa-se um in-
tervalo de credibilidade 95% para essa diferença dado por (−0, 3272; −0, 01809)
que tem comprimento menor ao obtido pelo intervalo de confiança 95% usando
a estatı́stica Z. Também observamos que o valor zero não está incluı́do no in-
tervalo de credibilidade 95%, um indicativo de que a nova terapia diminui o
número de internações dos idosos. O critério DIC para esse valor foi estimado
por DIC
[ = 1497, 21.
Observar que sob os dois modelos considerados, frequentista e bayesiano,

estamos assumindo um efeito de tratamento aditivo, isto é,
E = C + Ef eito.
Outros modelos poderiam ser considerados para analisar os dados de con-

tagem (número de hospitalizações por idosos em um perı́odo de 2 anos). Dessa
forma, assumir um modelo multiplicativo dado por,
E = (1 + Ef eito) C.
Portanto, considerar um modelo de regressão da resposta y (contagem de

hospitalizações por indivı́duo) versus uma variável independente “dummy” Xi
especificando os dois grupos: 1 para o grupo experimental e 0 para o grupo

controle. Assim, assumiremos o modelo,
ind
yi | λi ∼ P oisson (λi ) (8.7)
em que log (λi ) = γ0 +γ1 Xi , i = 1, 2, . . . , 572 (número total de idosos no estudo).
Sejam as seguintes distribuições a priori não-informativas para os parâmetros

γ0 e γ1 :
γ0 ∼ N 0, 104

γ1 ∼ N 0, 104 .

Observar do modelo (8.7) que o parâmetro λc da distribuição de Poisson

para as pessoas no grupo controle é dado por
λc = exp [γ0 + γ1 (0)]

= exp (γ0 )
e o parâmetro λe da distribuição de Poisson para as pessoas no grupo experi-

mental é dado por
λe = exp [γ0 + γ1 (1)]

exp (γ0 + γ1 )
Como exp (γ1 ) ≈ 1 + γ1 , observar que λe ≈ (1 + γ1 ) λc (modelo de efeito

multiplicativo). Um programa usando o software OpenBUGS para esse modelo
é dado a seguir.
model
{
for(i in 1:n)
{
log(lambda[i]) <- gamma.0 + gamma.1*x[i]
y[i] ~ dpois(lambda[i])
}
lambda.c <- exp(gamma.0)
lambda.e <- exp(gamma.0+gamma.1)
mult.effect <- exp(gamma.1)
gamma.0 ~ dnorm(0,0.0001)
}
# Dados
list(y=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
156
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,
5,7,7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,5,6),
x=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1),
n=572)
# Valores iniciais
list(gamma.0=0, gamma.1=0)
Na Tabela 8.6 temos os sumários obtidos para os parâmetros de interesse con-

siderando um “burn-in” de tamanho 2000 e uma amostra de Gibbs de tamanho
1000 em que as amostras foram escolhidas de 10 em 10.
Tabela 8.6: Sumários a posteriori considerando um modelo multiplicativo.
Parâmetro média DP P2,5% mediana P97,5%

γ0 −0, 07006 0, 06091 −0, 1851 −0, 0686 0, 04647
γ1 −0, 1952 0, 08916 −0, 3624 −0, 1939 −0, 01261
λc 0, 9341 0, 05685 0, 831 0, 9337 1, 048
λe 0, 7687 0, 05082 0, 674 0, 7663 0, 8755
exp(γ1 ) 0, 826 0, 07414 0, 696 0, 8238 0, 9875
DP: desvio padrão, P 2, 5%: percentil 2, 5%, P 97, 5%: percentil 97, 5%.
Observar que as estimativas de Monte Carlo para as médias a posteriori para

λc e λe (ver Tabela 8.6) usando um modelo multiplicativo são muito próximas
dos resultados obtidos usando um modelo aditivo (ver Tabela 8.5).
Para o modelo multiplicativo, encontramos uma valor para DIC dado por
DIC
[ = 1497, 10 que é um valor muito próximo ao obtido assumindo um modelo
aditivo e assim concluı́mos que os dois modelos (aditivo e multiplicativo) levam
à resultados similares.
Outra possibilidade é considerar um modelo com variabilidade extra-Poisson.

Dos dados para cada indivı́duo nos dois grupos, observamos que as médias
amostrais e as variâncias amostrais não são iguais (a média no grupo controle
é 0, 9373, e a respectiva variância é 1, 5416, enquanto no grupo experimental,
a média é 0, 7649 e a variância é 1, 044). Observar que para uma distribuição
de Poisson devemos ter média igual à variância e isso não ocorre para os dados
dos dois grupos. Assim, temos a presença de variabilidade extra-Poisson. Isso
pode ser interpretado da seguinte forma: cada indivı́duo tem sua taxa própria
de hospitalização que depende de sua saúde, idade, etc.
Portanto, assumir o modelo de regressão de Poisson com efeitos aleatórios,

ind
yi | λi ∼ P oisson (λi )
em que log (λi ) = γ0 + γ1 Xi + ei , em que ei é um efeito aleatório ou variável
latente com distribuição normal com media zero e variância σ 2 , isto é,
ind
ei ∼ N 0, σ 2

para i = 1, . . . , n.
Vamos assumir as seguintes distribuições a priori para os parâmetros do

modelo:
γ0 ∼ N (0, 10)
γ1 ∼ N (0, 10)
σ2 ∼ Gama (1, 1)
158
Também assumiremos independência a priori entre os parâmetros γ0 , γ1 e

σ 2 . O código em OpenBUGS para esse modelo é dado a seguir:
model
{
for(i in 1:n)
{ log(lambda[i]) <- gamma.0 + gamma.1*x[i] + e[i]
y[i] ~ dpois(lambda[i])
e[i] ~ dnorm(0,sigma)
}
sigma ~ dgamma(1,1)
lambda.c <- exp(gamma.0)
lambda.e <- exp(gamma.0+gamma.1)
mult.effect <- exp(gamma.1)
}
Na Tabela 8.7 temos os sumários a posteriori obtidos a partir de uma amostra

de Gibbs com 1000 amostras simuladas tomadas de 10 em 10 após “burn-in” de
1000 amostras descartadas para eliminar o efeito dos valores iniciais.
Tabela 8.7: Sumários a posteriori (modelo multiplicativo na presença de um

efeito aleatório).
Parâmetro média DP P2,5% mediana P97,5%

γ0 -0,3229 0,08896 -0,5035 -0,3228 -0,1564
γ1 -0,1828 0,1143 -0,39 -0,1839 0,04032
λc 0,7269 0,06445 0,6044 0,7241 0,8552
λe 0,6058 0,05749 0,5043 0,6053 0,7266
exp(γ1 ) 0,8384 0,09634 0,6771 0,832 1,041
σ2 2,059 0,416 1,383 2,005 3,061
DP: desvio padrão, P 2, 5%: percentil 2, 5%, P 97, 5%: percentil 97, 5%.
Considerando o modelo multiplicativo na presença de um efeito aleatório

encontramos o valor de DIC baseado nas 1000 amostras de Gibbs dado por
DIC
[ = 1414, 25. Concluı́mos que o modelo multiplicativo na presença do efeito
aleatório ei leva a melhor ajuste para os dados quando comparado com o modelo
aditivo DIC [ = 1497, 21 e com o modelo multiplicativo sem efeito aleatório

DIC
[ = 1497, 10 .
8.3. DADOS BINÁRIOS CORRELACIONADOS 159
8.3 Dados binários correlacionados

Exemplo 8.6: Em um ensaio clı́nico, após alguns critérios de inclusão e ex-
clusão, foram selecionadas n = 27 pacientes, distribuı́das aleatoriamente em
dois grupos. As pacientes alocadas no grupo A receberam tratamento com um
medicamento chamado acarbose e às pacientes alocadas no grupo B foi admin-
istrado um tratamento por placebo, em uma avaliação duplo cega, ou seja, nem
o pesquisador nem as pacientes sabiam o fármaco administrado ao longo de seis
meses de tratamento. Essas avaliações foram realizadas bimestralmente. A fim
de avaliar o efeito da acarbose no padrão menstrual dessas pacientes foi obser-
vado a ocorrência ou não de menstruação em três perı́odos bimestrais. A Tabela
8.8 apresenta os dados obtidos em cada tratamento.
Tabela 8.8: Dados de um ensaio clı́nico sobre o efeito da acarbose. A ocorrência

de menstruação é denotada por 1 e a não ocorrência é denotada por 0.
Placebo Acarbose
Paciente 0-2(a) 2-4(b) 4-6(c) Paciente 0-2(a) 2-4(b) 4-6(c)
1 1 1 0 15 0 0 1
2 1 1 1 16 1 0 0
3 0 1 1 17 0 0 0
4 1 1 1 18 1 0 1
5 0 0 0 19 0 1 1
6 1 1 0 20 0 0 1
7 1 1 1 21 1 1 1
8 0 0 1 22 0 0 1
9 1 1 1 23 1 1 1
10 0 1 1 24 1 1 1
11 0 0 0 25 1 1 1
12 1 0 0 26 0 1 1
13 0 0 0 27 0 0 1
14 0 0 0
(a) Após dois meses de tratamento. (b) Entre o segundo e o quarto mês de
tratamento. (c) Entre o quarto e o sexto mês de tratamento.
Para a modelagem dos dados da Tabela 8.8, assumimos um modelo de

regressão logı́stica com efeitos aleatórios dado por
y
P (Yji = yji ) = pjiji (1 − pji )1−yji ,
em que yji é uma variável binária dada por yji = 1 (ocorrência de menstruação)
e yji = 0 (não ocorrência de menstruação), sendo que j = 1, 2, 3 corresponde
aos três perı́odos de avaliação (0-2, 2-4 e 4 6), respectivamente, i = 1, 2, ..., 27
160
(pacientes envolvidas no estudo), e

exp(αi + β0j + β1j xi )
pji = ,
1 + exp(αi + β0j + β1j xi )
sendo xi uma variável indicadora associada ao tratamento com xi = 0 se a i-
ésima paciente recebeu tratamento com placebo e xi = 1 se a i-ésima paciente
recebeu o medicamento acarbose. Observe que αi denota um efeito aleatório da
i-ésima observação que captura a possı́vel correlação entre y1i , y2i e y3i (ver, por
exemplo, Chen e Dey, 1998, Prentice, 1988, Ochi e Prentice, 1984). Podemos
assumir diferentes distribuições para αi . Chen e Dey (1998) assumem que os
efeitos aleatórios αi são independentes e seguem uma distribuição normal com
média zero e variância σα2 . A função de verossimilhança para α e β é dada por
n Y 3
Y exp[(αi + β0j + β1j xi )yji ]
L(α, β) = ,
i=1 j=1
1 + exp(αi + β0j + β1j xi )
em que α = (α1 , α2 , ..., αn )0 e β = (β01 , β02 , β03 , β11 , β12 , β13 )0 . Sejam as
seguintes distribuições a priori para os parâmetros do modelo:
αi ∼ N (0, σα2 ), i = 1, ..., n,
σα2 ∼ GI(a, b), a e b conhecidos,
βkj ∼ N (ckj , d2kj ), ckj e d2kj conhecidos, k = 0, 1, j = 1, 2, 3.
Lembrar que GI(a, b) denota uma distribuição gama inversa com média
b(a − 1)−1 e variância b2 [(a − 1)2 (a − 2)]−1 . Assumindo independência en-
tre as distribuições a priori, as distribuições condicionais para o algoritmo de
amostradores de Gibbs são dadas por
π(αi |σα2 , β, x, y) ∼
N (0, σα2 ) ×
 
 X 3 X3 
× exp αi yji − ln [1 + exp(αi + β0j + β1j xi )] ,
 
j=1 j=1
n
!
n X αi2
π(σα2 |α, β, x, y) ∼ IG + a, b +
2 i=1
2
e
π(βkj |α, σα2 , x, y) ∼ N (ckj , d2kj ) ×
( n n
)
X X
× exp βkj xi yji − ln [1 + exp(αi + β0j + β1j xi )] ,
i=1 i=1
para i = 1, ..., n, k = 0, 1 e j = 1, 2, 3.
Para a análise dos dados, vamos considerar a = b = 0.001, ckj = 0 e d2kj =

106 . Um programa OpenBUGS para este modelo é apresentado a seguir.
8.3. DADOS BINÁRIOS CORRELACIONADOS 161
model
{
for (i in 1:N) {
for (j in 1:3) {
y[i,j] ~ dbern(p[i,j])
logit(p[i,j]) <- alpha[i] + beta0[j] + beta1[j]*x[i] }
alpha[i] ~ dnorm(0,tau.a) }
tau.a ~ dgamma(0.001,0.001)
sigma.a <- 1/tau.a
for (j in 1:3) {
beta0[j] ~ dnorm(0,1.0E-6)
beta1[j] ~ dnorm(0,1.0E-6)
}
dif[1,1] <- beta0[2] - beta0[1]
dif[1,2] <- beta0[3] - beta0[1]
dif[1,3] <- beta0[3] - beta0[2]
dif[2,1] <- beta1[2] - beta1[1]
dif[2,2] <- beta1[3] - beta1[1]
dif[2,3] <- beta1[3] - beta1[2]
}
# Valores iniciais
list(tau.a=1,alpha=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0),beta0=c(0,0,0),beta1=c(0,0,0))
# Dados
list(N = 27, x = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,
1,1,1,1,1,1,1,1), y = structure(.Data = c(1,1,0,1,1,1,0,
1,1,1,1,1,0,0,0,1,1,0,1,1,1,0,0,1,1,1,1,0,1,1,0,0,0,1,0,
0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,1,0,1,0,1,1,0,0,1,1,1,1,
0,0,1,1,1,1,1,1,1,1,1,1,0,1,1,0,0,1), .Dim = c(27,3)))
A Tabela 8.9 mostra as médias a posteriori e os intervalo de credibilidade

95% para os parâmetros de interesse. Intervalo de credibilidade 95% que não
contêm o valor 0 são marcados com um asterisco.
Na Tabela 8.9, observar que os intervalo de credibilidade 95% para as diferenças

β13 − β11 e β13 − β12 não contêm o valor 0, evidenciando que no grupo tratado
por acarbose, as frequências relativas de ocorrência de menstruação diferem-se
quando comparadas entre o terceiro e o primeiro perı́odo, e entre o segundo e o
primeiro perı́ido.
162
Tabela 8.9: Resultados do modelo bayesiano.
Parâmetro Média Intervalo de credibilidade 95%
β01 -0,044 (-2,375 ; 2,239)

β02 0,555 (-1,697 ; 2,949)
β03 -0,043 (-2,352 ; 2,246)
β11 -0,177 (-3,436 ; 3,162)
β12 -0,776 (-4,123 ; 2,518)
β13 3,408 (-0,008 ; 7,690)
β02 − β01 0,599 (-1,515 ; 2,824)

β03 − β01 0,001 (-2,133 ; 2,138)
β03 − β02 -0,598 (-2,830 ; 1,527)
β12 − β11 -0,599 (-3,729 ; 2,470)
β13 − β11 3,585 (0,174 ; 7,595)*
β13 − β12 4,184 (0,718 ; 8,300)*
8.4 Aplicações em epidemiologia

Exemplo 8.7 (estimando a “prevalência real” de uma doença): Alguns
estudos epidemiológicos objetivam estimar a prevalência de uma doença em uma
população especı́fica, ou seja, a frequência de pessoas portadoras da doença na
população. Entretanto, nem sempre é disponı́vel um método laboratorial ou
instrumento que permita classificar cada indivı́duo amostrado como realmente
portador ou não da doença em estudo. Vamos supor que uma pesquisa utiliza
um método que fornece resultados positivos ou negativos para uma doença, mas
estes resultados são sujeitos a má classificações. Seja Y uma variável aleatória
que representa estes resultdos, sendo que Y = 1 representa um resultado pos-
itivo para o método e Y = 0 representa um resultado negativo. Assim, a
probabilidade
PA = P (Y = 1)
é chamada “prevalência aparente” da doença. Seja D uma variável aleatória que
representa o verdadeiro estado de saúde do indivı́duo, sendo que D = 1 denota
um indivı́duo realmente portador da doença e D = 0 denota um indivı́duo que
não é portador desta doença. A probabilidade
PR = P (D = 1)
é chamada “prevalência real” da doença. Notar que
PA = P (Y = 1|D = 1)P (D = 1) + P (Y = 1|D = 0)P (D = 0)

= P (Y = 1|D = 1)PR + P (Y = 1|D = 0)(1 − PR ),
8.4. APLICAÇÕES EM EPIDEMIOLOGIA 163
sendo que as probabilidades condicionais
S = P (Y = 1|D = 1)
e
E = P (Y = 0|D = 0)
são, respectivamente, a sensibilidade e a especificidade do método de classi-
ficação. Assim,
PA = S × PR + (1 − E)(1 − PR ), (8.8)
e, consequentemente,
PA + E − 1
PR = .
S+E−1
Esta expressão é comumente chamada de fórmula de Rogan-Gladen, e é
bastante utilizada em estudos epidemiológicos para “corrigir” as medidas de
prevalência baseadas em um método de classificação sujeito a erros, sendo as
probabilidades P (Y = 1|D = 1) e P (Y = 0|D = 0) conhecidas. Notar que a
fórmula de Rogan-Gladen exige que 1 − E seja menor que PA .
Para uma estimação bayesiana da prevalência real PR , vamos supor que X

é uma variável aleatória que denota o número de indivı́duos classificados como
positivos pelo método sujeito a erros em uma amostra de tamanho n. Assim,

n
f (x|PR ) = (PA )x (1 − PA )n−x ,
x
em que x = 0, 1, ..., n e PA é dado por (8.8). Se supormos S e E conheci-

dos, e uma distribuição a priori beta para PR , com hiperparâmetros a e b, a
distribuição a posteriori para PR é dada por
x
π(PR |x) ∝ [S × PR + (1 − E)(1 − PR )] ×
n−x
[1 − S × PR + (1 − E)(1 − PR )] (PR )a−1 (1 − PR )b−1 I(0,1) (PR ).
Um estudo conduzido em Ribeirão Preto (Martinez et al., 2018) entrevistou

n = 1.055 usuários de serviços de saúde, e x = 84 pessoas disseram que eram
portadoras de diabetes. Portanto, a prevalência aparente desta doença é
x 84
PA = = = 0, 0796.
n 1.055
Segundo um estudo prévio (Martin et al., 2000), a probabilidade de uma
pessoa realmente portadora de diabetes ter conhecimento desta condição é S =
0, 732, enquanto a probabilidade de uma pessoa que não é portadora de diabetes
saber que não porta a doença é E = 0, 993. Considerando uma distribuição a
priori beta para PR , com hiperparâmetros a = 0, 5 e b = 0, 5, um programa
OpenBUGS para estimar a prevalência real é dado a seguir.
164
model {
x ~ dbin(PA,n)
PA <- S*PR + (1-E)*(1-PR)
PR ~ dbeta(a,b)
S <- 0.732
E <- 0.993
}
# Valor inicial para PR

list(PR=0.5)
# Dados
list(x=84,n=1055,a=0.5,b=0.5)
Usando este programa, simulamos 400.000 amostras de Gibbs para a den-

sidade a posteriori de PR , com saltos de tamanho 10 e um perı́odo ”burn-in”
de tamanho 1.000. A Figura 8.1 mostra o gráfico de autocorrelações entre as
sucessivas amostras, o gráfico da densidade a posteriori de PR simulada, os su-
cessivos valores simulados e os sumários a posteri. A estimativa bayesiana para
PR é 0,1007, com um intervalo de credibilidade 95% dado por (0,0791 ; 0,1242).
Figura 8.1: Gráfico dos sucessivos valores simulados para PR , autocorrelações

entre as sucessivas amostras, o gráfico da densidade a posteriori de PR simulada,
e os sumários a posteri, obtidos do programa OpenBUGS.
8.4. APLICAÇÕES EM EPIDEMIOLOGIA 165
Tabela 8.10: Estimativas bayesianas para PR de acordo com diferentes especi-

ficações para a respectiva distribuição a priori.
Distribuição a priori, PR ∼ Beta(a, b) Distribuição a posteriori

Moda Média Variância a b Média IC 95%
Bimodal 0,5 0,125 0,5 0,5 0,1007 (0,0791 ; 0,1242)

0,1 0,3105 0,045 1,18 2,62 0,1012 (0,0796 ; 0,1250)
0,1 0,1401 0,006 2,794 17,146 0,1013 (0,0800 ; 0,1245)
0,2 0,3261 0,038 1,552 3,208 0,1016 (0,0801 ; 0,1254)
0,2 0,4372 0,070 1,106 1,424 0,1013 (0,0799 ; 0,1248)
0,6 0,5675 0,034 3,496 2,664 0,1043 (0,0826 ; 0,1280)
A Tabela 8.10 compara os resumos a posteriori para PR , de acordo com

várias escolhas para os hiperparâmetros a e b. Notar que as médias a posteriori
e os respectivos intervalos de credibilidade 95% são muito próximos, quando
comparados os diferentes cenários. Assim, notamos que neste exemplo a especi-
ficação da distribuição a priori tem um efeito bastante pequeno na estimação
bayesiana de PR .
166
Referências Bibliográficas
1. ACHCAR, J. A.; SMITH, A. F. M. Aspects of reparametrization in ap-

proximate Bayesian inference. Bayesian and Likelihood methods in Statis-
tics and Econometrics: Essays in Honor of George A. Bernard. S. Geisser,
J.S. Hodges, S.J. Press, A. Zellner, eds. Amsterdan: North Holland, p.
439–452, 1989.
2. AITKIN, M. Posterior Bayes factors. Journal of Royal Statistical Society,

B, v. 53, p. 111–142, 1991.
3. BERGER, J. O.; PERICCHI, L. R. The intrinsic Bayes factor for model

selection and prediction. [S.l.], 1993.
4. BERNARDO, J.; SMITH, A. (Ed.). Bayesian Theory. New York: Wiley

Series in Probability and Statistics, 2000.
5. BERNARDO, J. M. Reference posterior distribuions for Bayesian infer-

ence (with discussion). Journal of the Royal Statistical Society, B, v. 41,
p. 113–148, 1979.
6. BESAG, J.; GREEN P. J. Spatial statistics and Bayesian computation.

Journal of the Royal Statistical Society, B, v. 55, p. 25–37, 1993.
7. BOX, G.; TIAO, G. Bayesian Inference in Statistical Analysis. New York:

Addison-Wesley, 1973.
8. CARLIN, B. P.; T., L. Bayes and empirical Bayes methods for data anal-
ysis, Segunda Edição. London: Chapman Hall, 2000.
9. CASELLA, G; BERGER, R. L. Statistical Inference. 2nd Edition. Duxbury

Press, 2001.
10. CHEN, M. H.; DEY, D. K. Bayesian modeling of correlated binary re-

sponses via scale mixture of multivariate normal link functions. Sankhyā:
The Indian Journal of Statistics, Series A, v. 60, p. 322–343, 1998.
11. CHIB, S.; GREENBERG, E. Understanding the Metropolis-Hastings al-

gorithm. The American Statistician, v. 49, p. 327–335, 1995.
167
168
12. FINETTI, B. de. Funzione caratteristica di un fenomeno aleatorio. Memo-

rias Academicas Naz. Lincei, v. 4, p. 86–133, 1930.
13. FINETTI, B. de. La prevision: ser lois logiques, ses sources subjects..
Ann. Inst. H. Poincare, v. 7, p. 1–68, 1937/1964.
14. GAMERMAN, D. Markov Chain Monte Carlo: Stochastic simulation for

Bayesian inference. London: Chapman and Hall, 1997.
15. GEISSER, S. Predictive inference: an introduction. London: Chapman

and Hall, 1993.
16. GEISSER, S.; EDDY W.F.A predictive approach to model selection. Jour-
nal of the American Statistical Association, 74, 153-60, 1979.
17. GELFAND, A. E.; DEY, D. K. Bayesian model choice: asymptotics and

exact calculations. Journal of the Royal Statistical Society, B, v. 56, n.
56, p. 501–514, 1994.
18. GELFAND, A. E.; SMITH, A. F. M. Sampling-based approaches to cal-

culating marginal distributions. Journal of the American Statistical As-
sociation, v. 85, n. 410, p. 398–409, 1990.
19. GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using

multiple sequences. Statistical Science, v. 7, p. 457–511, 1992.
20. GEMAN, S.; GEMAN, D. Stochatisc relaxation, Gibbs distribution and

the bayesian restoration of images. IEEE Tramsaction on Patterm Anal-
ysis and Machine Intelligence, v. 6, p. 721–741, 1984.
21. GEWEKE, J. Bayesian inference in econometric models using Monte Carlo

integration. Econometrica, v. 57, p. 1317–1339, 1989.
22. GEWEKE, J. Evaluating the accuracy of sampling-based approaches to

calculating posterior moments. In: Bayesian Statistics 4. [S.l.]: Oxford:
Clarendon Press, 1992.
23. JAMES, B.R. Probabilidade: um curso em nı́vel intermediário. Rio de

Janeiro: Instituto de Matemática Pura e Aplicada, 1996.
24. JELINSKI, Z.; MORANDA, P. B. Software realibility research. New York:

Academic Press: Freiberger, W (ed). Statistical Computer Performance
Evaluation, 1972. 465–497.
25. KADANE, J. B. Predictive and structural methods for eliciting prior dis-
tributions. North-Holland, Amsterdam: Bayesian Analysis and economet-
rics and statistics (A. Zellner, ed), 1980. 89–93.
26. KASS, R. E.; RAFTERY, A. E. Bayes factor. Journal of the American

Statistical Association, v. 90, p. 773–795, 1995.
169
27. LEE, T. E. Statistical Methods for Survival Data Analysis. New York:
John Wiley and Sons, 1992.
28. MARTIN, L. M.; LEFF, M.; CALONGE, N.; GARRETT, C.; NELSON,
D.E. Validation of self-reported chronic conditions and health services in
a managed care population. American Journal of Preventive Medicine,
v.18, p. 215–218, 2000.
29. MARTINEZ, E. Z.; TERADA, N. A. Y.; GIGLIO, F. M.; ZUCOLOTO,
M. L. Prevalence of self-reported diabetes and hypertension among users
of primary health care services. Acta Scientiarum. Health Sciences, 2018.
In press.
30. MILLAR, R. B. Maximum Likelihood Estimation and Inference: With
Examples in R, SAS and ADMB. Chichester: John Wiley & Sons, 2011.
31. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to Statis-
tical Theory. 3rd edition. McGraw-Hill, 1974.
32. OCHI, Y.; PRENTICE, R. L. Likelihood inference in a correlated probit
regression model. Biometrika, v.71, p. 531–543, 1984.
33. PAULINO, C.; TURKMAN, M.; MURTEIRA, B. Estatı́stica Bayesiana.
Lisboa: Fundação Calouste Gulbenkian, 2003.
34. PRENTICE , R. L. Correlated binary regression with covariate specific to
each binary observation. Biometrics, v.44, p. 1033–1048, 1988.
35. RAFTERY, A. E.; LEWIS, S. M. Implementing MCMC. In: Markov chain
Monte Carlo in practice. London: Chapman and Hall, 1996. p. 115–130.
36. RUBIN, H. A weak system of axioms for rational behaviour and the non-
separability of utility from the prior. Statistical and Decisions, v. 5, p.
47–58, 1987.
37. SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics,
v. 6, p. 461–466, 1978.
38. SPIEGELHALTER, D. J. et al. Bayesian measures of model complexity
and fit (with discussion). Journal of the Royal Statistical Society, B, v.
64, p. 583–639, 2002.
39. SPIEGELHALTER, D. J.; SMITH, A. F. M. Bayes factors for linear and
log-linear models with vague prior information. Journal of the Royal Sta-
tistical Society, B, v. 44, p. 377–387, 1982.
40. SPIEGELHALTER, D. J. et al. WinBUGS Version 1.4 User Manual.
[S.l.], 2003.
41. TIERNEY, L. Markov chains of exploring posterior distributions. Annals
of Statistics, v. 22, p. 1701–1762, 1994.
170
42. TIERNEY, L.; KADANE, J. B. Accurate approximations for posterior

moments and marginal densities. Journal of the American Statistical As-
sociation, v. 81, p. 82–86, 1996.
43. WINKLER, R. L. Prior information, predictive distribution and Bayesian
model building. North-Holland, Amsterdam: Bayesian Analysis and econo-
metrics and statistics (A. Zellner, ed), 1980. 95–109.
44. WISHART, J. The generalised product moment distribution in samples
from a normal multivariate population. Biometrika, v.20A, n.1-2, p.32–52,
1928.
Resolução de alguns
exercı́cios
Capı́tulo 3
Exercı́cio 1
Seja a distribuição a posteriori π (θ | y) beta com parâmetros α∗ e β ∗ (funções
dos dados). Vamos considerar a função de perda:
2
L (d∗ , θ) = θ−2 (d∗ − θ) , d∗ ≥ 0 e 0 ≤ θ ≤ 1
Assim:
Γ (α∗ + β ∗ )

∗ β ∗ −1
π (θ | y) = ∗ ∗
θα −1 (1 − θ) , 0≤θ≤1
Γ (α ) Γ (β )
Para encontrar a decisão de Bayes que minimiza o erro esperado, seja a

decisão de Bayes dada por:
Γ (α∗ + β ∗ )
Z
1 ∗ 2 ∗ β ∗ −1
R= 2
(d − θ) ∗ ) Γ (β ∗ )
θα −1 (1 − θ) dθ
θ θ Γ (α
A decisão de Bayes que minimiza o erro esperado é dada por:
∂R (d∗ , θ) Γ (α∗ + β ∗ )
Z
2 ∗ ∗ β ∗ −1
∗
= 2
(d − θ) ∗ ∗
θα −1 (1 − θ) dθ = 0
∂d θ θ Γ (α ) Γ (β )
α∗ − 2
d∗ =
α∗ + β ∗ − 2
Exercı́cio 2
Vamos considerar a função de confiabilidade S (t) = P (T > t), em que S (t) =
θ1 = 0, 50 ou S (t) = θ2 = 0, 90. Assim, sendo as decisões d1 (estimador de S (t)
é θ1 ) e d2 (estimador de S (t) é θ2 ), temos a seguinte função de perda L (d, θ):
171
172
d1 d2
S (t) = θ1 0 5
S (t) = θ2 3 0
1
Sejam as distribuições a priori π (θ1 ) = 4 e π (θ2 ) = 43 .
(a) Qual é a solução bayesiana?
Tomando a decisão 1, temos:
1 3
E [L (d1 , θ)] = L (d1 , θ1 ) π (θ1 ) + L (d1 , θ2 ) π (θ2 ) = 0 × + 3 × = 2, 25.
4 4
Tomando a decisão 2, temos:
1 3
E [L (d2 , θ)] = L (d2 , θ1 ) π (θ1 ) + L (d2 , θ2 ) π (θ2 ) = 5 × + 0 × = 1, 25.
4 4
Assim, a decisão d2 minimiza o erro esperado.
(b) Vamos retirar uma unidade e testá-la para o tempo t : falha ou so-
brevivência. Seja Z = 1 para sobrevivência e Z = 0 para falha, e ainda,
f (z = 1 | θ1 ) = 0, 50, f (z = 1 | θ2 ) = 0, 90, f (z = 0 | θ1 ) = 0, 50 e f (z = 0 | θ2 )
= 0, 10. Qual é a solução bayesiana quando você retira uma unidade?
Para Z = 1 temos:
π (θ1 ) f (z = 1 | θ1 )
π (θ1 | z = 1) =
π (θ1 ) f (z = 1 | θ1 ) + π (θ2 ) f (z = 1 | θ2 ) .
1
4 × 0, 50
= 1 3 = 0, 15.
4 × 0, 50 + 4 0, 90
π (θ2 | z = 1) = 1 − π (θ1 | z = 1) = 0, 85.
Para Z = 0 temos:
π (θ1 ) f (z = 0 | θ1 )
π (θ1 | z = 0) =
π (θ1 ) f (z = 0 | θ1 ) + π (θ2 ) f (z = 0 | θ2 )
1
4 × 0, 50
= 1 3 = 0, 62.
4 × 0, 50 + 4 0, 10
π (θ2 | z = 0) = 1 − π (θ1 | z = 0) = 0, 38.
O risco de Bayes, com relação à distribuição a posteriori, se z = 1 e, tomando

a decisão 1, é dado por:
E [L (d1 , θ)] = L (d1 , θ1 ) π (θ1 | z = 1) + L (d1 , θ2 ) π (θ2 | z = 1)

= 0 × 0, 15 + 3 × 0, 85 = 2, 25.
173
O risco de Bayes, se z = 1 e, executando a decisão 2, é dado por:

= 5 × 0, 15 + 0 × 0, 85 = 0, 75.
Logo, se z = 1, escolher a decisão d2 .
O risco de Bayes, com relação à distribuição a posteriori, se z = 0 e, tomando

a decisão 1, é dado por:

= 0 × 0, 62 + 3 × 0, 38 = 1, 14.
O risco de Bayes, se z = 1 e, tomando a decisão 2, é dado por:

= 5 × 0, 62 + 0 × 0, 38 = 3, 10.
Logo, se z = 0 escolher a decisão d1 .
Exercı́cio 3
Supor que o tempo de sobrevivência X de um componente eletrônico tenha uma
distribuição exponencial com densidade:
f (x | λ) = λ exp (−λx) , x > 0 e λ > 0
Vamos assumir uma amostra aleatória de n unidades (x1 , x2 , ..., xn ) e a dis-

tribuição a priori π (λ) = λ1 , λ > 0.
(a) Assumindo independência entre as informações (x1 , x2 , ..., xn ), a função

de verossimilhança é dada por
n
!
X
n
L (λ | x) = λ exp −λ xi .
i=1
A densidade a posteriori é dada por

n
!
X
n−1
π (λ | x) ∝ λ exp −λ xi ,
i=1
ou seja, !
n
X
λ | x ∼ Gama n, xi .
i=1
(b) Encontrar o estimador de Bayes para λ considerando a função de perda

quadrática:
2
L (d∗ , λ) = (d∗ − λ)
174
Z
2
R= (d∗ − λ) π (λ | x) dλ
λ
∂R (d∗ , λ)
Z
= 2 (d∗ − λ) π (λ | x) dλ = 0
∂d∗ λ
1
d∗ = E [π (λ | x)] = ,
x̄
Pn
xi
em que x̄ = i=1
n .
(c) A moda da densidade a posteriori é dada por
∂ log [π (λ | x)]
=0
∂λ
(n − 1)
λ= para n ≥ 1,
nx̄
Pn
em que nx̄ = i=1 xi .
(d) Qual é a densidade a posteriori para o tempo de sobrevivência mediano?
A mediana é dada por

n
(nx̄) [log (2)] log (2) log (2)
f (tmed | x) = exp −nx̄
Γ (n) tmed tmed t2med
tmed | x ∼ GI (n, nx̄ log (2))
Dica: Usar transformação de variáveis.
Exercı́cio 4
Vamos assumir uma amostra de tamanho n de uma distribuição normal com
média θ e variância 4. Considerar uma priori normal para θ com média 0 e
variância conhecida σ 2 .
(a) Assumindo independência entre as informações (x1 , x2 , ..., xn ), a função

de verossimilhança é dada por
" n
#
1X 2
L (θ | x) ∝ exp − (xi − θ) .
8 i=1
A distribuição a priori para θ é dada por

1
π (θ) ∝ exp − 2 θ2 .
2σ
175
A densidade a posteriori é dada por

" n
#
1X 2 1 2
π (θ | x) ∝ exp − (xi − θ) − 2 θ .
8 i=1 2σ
Notar que:
nx̄σ 2 4σ 2

θ∼N ; .
4 + nσ 4 + nσ 2
2
(b) Temos:
Z
2
R= (d∗ − θ) π (θ | x) dθ,
θ
∂R (d∗ , θ)
Z Z
= d∗ π (θ | x) dθ − θπ (θ | x) dθ = 0
∂d∗ θ θ
e
nx̄σ 2
Z
∗
d = θπ (θ | x) dθ = E (θ | x) = .
θ 4 + nσ 2
(c) Em qual situação a solução obtida pelo estimador de máxima verossimil-

hança (EM V ) coincide com a solução de Bayes com respeito a perda quadrática?
Ao igualarmos o EM V ao estimador bayesiano com respeito à perda quadrática,
temos
nx̄σ 2
= x̄,
4 + nσ 2
o que implica
σ2 n
= 1.
4 + nσ 2
Logo, os mesmos serão iguais se σ 2 → ∞ ou n → ∞.
Exercı́cio 5
Suponha que você tenha uma distribuição subjetiva para a temperatura média
θ dos próximos dias, dada por uma distribuição gama com parâmetros α e β
com média E (θ) = α α
β e variância V ar (θ) = β 2 , em que α e β são valores especi-
ficados. Escolhemos então valores para a média e a variância que representam
a sua opinião sobre a temperatura e calculamos os valores correspondentes de
α e β.
Encontramos a decisão de Bayes d∗ (ou estimador de Bayes) para θ quando

a função de perda é dada por
2 2 θ2
L (d∗ , θ) = (d∗ − θ) + (d∗ ) ,
1000
e comentamos porque esse estimador é menor que E (θ | y).
176
α
Seja E (θ) = 30 e V ar (θ) = 5. Logo, a partir de E (θ) = β = 30 e V ar(θ) =
α
β2 = 5, encontramos α = 180 e β = 6.
Da função de perda, tem-se que o risco bayesiano é dado por:

Z 2

2 2 θ
R= (d∗ − θ) + (d∗ ) π (θ | y) dθ.
θ 1000
Assim,
∂R (d∗ , θ) d∗ θ2
Z
∗
= d −θ+ π (θ | y) dθ = 0,
∂d∗ θ 1000
e
d∗
Z Z Z
∗ 2
d π (θ | y) dθ + θ π (θ | y) dθ − θπ (θ | y) dθ = 0.
θ 1000 θ θ
R
Dado que θ π (θ | y) dθ = 1, temos
d∗
d∗ + E θ2 | y dθ = E (θ | y) ,

1000
e então
E (θ | y)
d∗ = .
E(θ 2 |y)
1+ 1000
1

Observar que 1 + 1000 E θ2 | y > 1, pois E θ2 | y > 0.
E(θ|y)
Como conclusão, E (θ | y) >
E (θ 2 |y)
.
1+ 1000
Para os dados deste problema, temos
1000αβ
d∗ = ,
1000β + α (1 + α)
sendo d∗ = 27, 99 < E (θ) = 30.
Exercı́cio 6
Suponha que (x1 , ..., xn ) denota uma amostra aleatória de uma distribuição de
Poisson com média θ, e θ segue uma distribuição a priori gama com parâmetros
conhecidos α e β.
(a) Vamos encontrar a distribuição a posteriori para β e escrever a média a

posteriori como uma média ponderada da média a priori α β e a média amostral
x̄. Observamos que:
π(θ | x) ∼ Gama (nx̄ + α, n + β) .

177
Potanto,
(α + nx̄)
E(θ | x) = .
(β + n)
(b) Como a distribuição a posteriori é uma função gama, sabemos que a
variância é dada por
(α + nx̄)
V ar(θ | x) = .
(β + n)2
(c) Vamos mostrar que a variância a posteriori é menor do que a variância
a priori se e somente se x < (2 + nβ )E(θ). Temos que
V ar(θ | X) < V ar(θ),
o que implica
(α + nx̄) α
2
< 2,
(n + β) β
α(n + β)2
nx̄ < − α,
β2
α (n2 + 2nβ + β 2 − β)
x̄ < ,
β nβ
α n
x̄ < (2 + ),
β β
e, finalmente,
n
x̄ < E(θ)(2 + ).
β
Capı́tulo 4
Exercı́cio 1
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatória da distribuição ex-
ponencial com densidade
f (y | λ) = λ exp (−λy) , y > 0 e λ > 0.
Vamos considerar uma distribuição a priori conjugada para λ, e então en-

contrar:
(a) A densidade a posteriori para λ.
Assumindo independência entre as observações, a função de verossimilhança

L é dada por !
X n
n
L (y | λ) = λ exp −λ yi
i=1
178
Assumindo como priori λ ∼ Gama (a, b) com a e b conhecidos, a distribuição

a posteriori é dada por
" n
!#
X
(n+a)−1
π (λ | y) ∝ λ exp −λ yi + b .
i=1
Logo, !
n
X
λ | y ∼ Gama n + a, yi + b .
i=1
(b) Uma aproximação normal para a densidade a posteriori para λ.
Seja h i
a
λ | y ∼ λ̂, I −1 λ̂ .
O estimador de máxima verossimilhança para λ λ̂ = ȳ1 . Assim,

n
I λ̂ = 2 ,
λ̂
e " 2#
a λ̂
λ | y ∼ λ̂, .
n
Veja a equação (3.17).
(c) Vamos encontrar a densidade preditiva para uma observação futura Yn+1 .
Z
f (yn+1 | y) = f (yn+1 | λ) π (λ | y) dλ
Zλ∞
v z z−1
= λ exp (−λyn+1 ) λ exp (−λv) dλ,
0 Γ (z)
em que v = nȳ + b e z = n + a. Assim,
Z ∞
vz
f (yn+1 | y) = exp (−λyn+1 + v) λz+1−1 dλ
Γ (z) 0
vz Γ (z + 1)
= .
Γ (z) (yn+1 + v)z+1
Como Γ (z + 1) = zΓ (z), temos

vz
f (yn+1 | y) = z z+1 para yn+1 ≥ v,
(yn+1 + v)
que corresponde à distribuição de Pareto.
(d) Para encontrar a moda da distribuição de Pareto podemos construir um

gráfico ou utilizar resultados conhecidos.
179
Exercı́cio 2
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatória da distribuição uni-
forme com densidade
1
f (y | θ) = , 0 < y < θ,
θ
e vamos considerar uma densidade a priori para θ dada por
π (θ) = αaα θ−(α+1) , θ > a, α > 0 e a > 0 (a conhecido)
(a) Vamos encontrar a densidade a posteriori para θ dado y1 , y2 , ..., yn e
a densidade preditiva para uma observação futura yn+1 dado y1 , y2 , ..., yn . A
respectiva função de verossimilhança é dada por
n
Y
L (θ) = θ−n I(0,θ) (yi ) .
i=1
Observar que 0 < y1 < θ, 0 < y2 < θ, . . . , 0 < yn < θ, isto é,
y(n) = max (y1 , . . . , yn ) .
Assim,
L (θ) = θ−n I[y(n) ,∞] (θ) .
A distribuição a posteriori é dada por
π (θ | y) ∝ θ−(α+1) θ−n I[y(n) ,∞] (θ)
∝ θ−(α+n+1) I[y(n) ,∞] (θ) .
Como conclusão, temos que

k
π (θ | y) = , θ > max a, y(n) ,
θα+n+1
em que Z ∞
k −1 = θ−(α+n+1) dθ.
max(a,y(n) )
A densidade preditiva para uma observação futura é dada por

Z
f (yn+1 | y) = f (yn+1 | θ) π (θ | y) dθ,
θ

em que θ > yn+1 e θ > max a, y(n) . Assim,
Z ∞ Z ∞
1 k
f (yn+1 | y) = α+n+1
dθ = k θ−(α+n+1) dθ.
max(y(n+1) ,A) θ θ max(y(n+1) ,A)
Portanto,
θ−(α+n+2)+1
f (yn+1 | y) = k |∞
− (α + n + 2) + 1 max((yn+1 ),k)
k
= (n+α+3)
.
(α + n + 2 − 1) [max ((yn+1 ) , k)]
180
Exercı́cio 3
Vamos considerar uma distribuição gaussiana inversa IG (µ, λ) com densidade
− 21 "
2
!#
λ λ (y − µ)
f (y | µ, λ) = exp − , y > 0; λ > 0 e µ > 0.
2πy 3 2µ2 y
Observar que
µ3
E (Y ) = µ e V ar (Y ) = .
λ
Considerando uma amostra aleatória (y1 , y2 , ..., yn ) e uma distribuição a pri-
ori não informativa para µ e λ dada por
1
π (µ, λ) ∝ ,
µλ
vamos encontrar:
(a) A densidade a posteriori conjunta para µ e λ, e também a densidade a

posteriori marginal para µ. Assumindo independência entre as observações, a
função de verossimilhança (L) é dada por
− n2 Y n − 21 ( n
"
2
#)
λ 1 λ X (yi − µ)
L (y | µ, λ) = exp − 2 .
2π i=1
yi3 2µ i=1 yi
A densidade a posteriori conjunta para para µ e λ é dada por

− n2 Y n
( n
"
2
#)
1 λ 3
λ X (yi − µ)
π (µ, λ | y) ∝ yi exp − 2
2
.
µλ 2π i=1
2µ i=1 yi
A densidade a posteriori marginal para µ é dada por:

− n2 Y n
( n
"
2
#)
λ X (yi − µ)
Z
1 λ 3

π (µ | λ, y) ∝ yi exp − 2
2
dλ
λ µλ 2π i=1
2µ i=1 yi
n
( n
" #)
2
µ−1 Y 32 −
Z
−n −1 λ X (y i µ)
∝ −n
yi (λ) 2 exp − 2 dλ.
(2π) 2 i=1 λ 2µ i=1 yi
Como Z ∞
Γ (a)
xa−1 exp (−bx) dx = ,
0 ba
temos
n
µ−1 Y 3
Γ (a)
π (µ | λ, y) ∝ n yi2 × a ,
(2π) 2
i=1
b
em que
n
a= −n
2
181
e " #
n 2
1 X (yi − µ)
b= .
2µ2 i=1 yi
(c) Para encontrar a densidade preditiva para uma observação futura Yn+1
dado y1 , y2 , ..., yn , notar que
Z
f (yn+1 | y) = f (yn+1 | θ) π (θ | y) dθ
θ
Z Z 12 ( "
2
#)
λ λ (yn+1 − µ)
= 3 exp − ×
µ λ 2πyn+1 2µ2 yn+1
n2 Y n ( n
"
2
#)
1 λ 1 λ X (yi − µ)
exp − 2 dµdλ
µλ 2π i=1
yi3 2µ i=1 yi
n
Y 1 n+1
= Γ ×
i=1
yi3 2
( n
" #)− n+1
2 2 2
1 (yn+1 − µ) (yi − µ)
Z
1 X
+ dµ.
µ µ 2µ2 yn+1 i=1
yi
Capı́tulo 5
Exercı́cio 1
p
(a) Considere I (µ) ∝ n (uma constante).
p p n 1
(b) Considere I (σ 2 ) ∝ σ2 ∝ σ.
(c) Veja o Exemplo 5.8.
Exercı́cio 2
(a) A função de verossimilhança para α e β é dada por
!n1   !n2  
n1 n2
V1β V β X
V2β V β X
L (α, β) = exp − 1 t1j  exp − 2 t2j  .
α α j=1 α α j=1
1
(b) Considere π (α, β) ∝ α.
(c) A distribuição a posteriori conjunta para α e β é dada por

182
!n1  
n1
V1β β X

1 V
f (α, β | y) ∝ exp − 1 t1j  ×
α α α j=1
!n2  
n2
V2β V β X
exp − 2 t2j  .
α α j=1
(d) A distribuição a posteriori marginal para β é dada por

Z
f (β | y) = f (α, β | y) dα
α
= V1n1 β V2n2 β ×
 
Z n1
X n2
X
α−(n1 +n2 +1) exp n1 + n2 , V1β t1j + V2β t2j  dα.
α j=1 j=1
Capı́tulo 6
Exercı́cio 1
Seja y1 , ..., yn uma amostra aleatória com distribuição exponencial
1 y
f (y | θ) = exp − , y > 0.
θ θ
Suponha n = 30 e ȳ = 12, e seja uma priori de Jeffreys para θ dada por
1
π (θ) ∝ , θ > 0.
θ
(a) Vamos encontrar uma aproximação de Laplace para E (θ | y) e V ar (θ | y).
A esperança de θ dado y é dada por
R∞
θπ (θ) L (θ) dθ
E (θ | y) = R0 ∞ ,
0
π (θ) L (θ) dθ
em que nȳ
L (θ) = θ−n exp − .
θ
Logo, R ∞ −n
θ exp − nȳ

0 θ dθ
E (θ | y) = ∞ −(n+1) .
exp − nȳ
R
0
θ θ dθ
Assumindo I, como uma expressão auxiliar tem-se, por Laplace,
Z ∞
b
I= θ−a exp − dθ = exp [−nh (θ)] .
0 θ
183
Assim, √
2π h i
I ≡ √ σ exp −nh θ̂ ,
n
em que
− 21 .
σ = [h00 (θ)]
As quantidades necessárias para a resolução da integral por Laplace são:
b
−nh (θ) = −a log (θ) − ,
θ
a b
−nh0 (θ) = − + 2 = 0,
θ θ
b
θ̂ = ,
a
a 2b a3
−nh00 (θ) = 2 − 3 = − 2 ,
θ θ b
√
nb
σ= 3
a2
e h i aa
exp −nh θ̂ = a exp (−a) .
b
Retomando então a expressão para I, temos
√ 3
2πaa− 2 exp (−a)
I= .
ba−1
De acordo com a notação desta expressão para I, para o numerador da
expressão dada E (θ | y), temos a = n e b = nȳ, e para o denominador, temos
a = n + 1 e b = nȳ. Assim,
1 n(n)
3 (nȳ)n exp (−n) n(n− 2 ) ȳe
1
n2
E (θ | y) = = .
(n+1)(n+1)
(n + 1)( 2 )
1 n− 1
3
(nȳ)(n+1)
exp [− (n + 1)]
(n+1) 2
A variância de θ dado y é dada por

2
V ar (θ | y) = E θ2 | y − [E (θ | y)] .

Logo, o objetivo é encontrar a esperança de θ2 dado y, dada por

R∞ 2 R ∞ −(n−1)
exp − nȳ

2
0
θ π (θ) L (θ) dθ 0
θ θ dθ
E θ |y = ∞ = ∞ −(n+1) .
exp − nȳ
R R
0
π (θ) L (θ) dθ 0
θ θ dθ
A expressão √
2π h i
I ≡ √ σ exp −nh θ̂ ,
n
184
pode ser usada neste caso, tal que, para o numerador temos a = n − 1 e b = nȳ,
e para o denominador, temos a = n + 1 e b = nȳ. Assim,
1 (n−1)(n−1)
3
(nȳ)(n−1)
exp [− (n − 1)]
(n−1) 2
E θ2 | y

=
1 (n+1)(n+1)
3
(nȳ)(n+1)
exp [− (n + 1)]
(n+1) 2
(nȳ) (n − 1)( 2 ) e2 (n + 1)( 2 ) .

2 n− 5 1
−n
=
Logo,
" #2
n(n− 2 ) ȳe
1
(nȳ) (n − 1)( 2 ) e2 (n + 1)( 2 ) −

2 n− 5 1
−n
V ar (θ | y) =
(n + 1)( 2 )
n− 1
h i
n2 (n − 1)( 2 ) (n + 1)( 2 ) − n2(n− 2 ) (n + 1) ( 2 ) .
2 n− 5 1
−n 1 2 1 −n
= (ȳe)
(b) Vamos encontrar uma aproximação de Laplace para a confiabilidade em

y = 10. Seja a confiabilidade em y = 10 dada por

10
g (θ) = exp − .
θ
Logo,
R∞
θ θ exp − nȳ
−1 −n
exp − 10

0 R∞ θ θ dθ
E [g (θ) | y] =
θ−1 θ−n exp − nȳ

dθ
0
R ∞ −(n+1) nȳ+10
θ
0R
θ exp − θ dθ
= ∞ −(n+1) nȳ
.
0
θ exp − θ dθ
A expressão para I também pode ser usada neste caso, tal que, para o
numerador temos a = n + 1 e b = nȳ + 10, e para o denominador, temos
a = n + 1 e b = nȳ. Logo,
1
(nȳ + 10) (nȳ+10)(n+1)
−n n
E [g (θ) | y] = = (nȳ + 10) (nȳ) .
(nȳ) (nȳ)1(n+1)
(c) A seguir são exibidos os valores exatos para E (θ | y), V ar (θ | y) e a

confiabilidade em y = 10.
Exato Laplace
E (θ | y) 12, 0 12, 4
V ar (θ | y) 4, 8 5, 5
S (10) 0, 43 0, 44
(d) Considere a reparametrização φ = log (θ). A distribuição a priori de

Jeffreys para a reparametrização apresentada é dada por π (φ) ∝ constante.
185
Exercı́cio 2
(a) Seja y1 , ..., yn uma amostra aleatória com distribuição de Poisson, dada por
θy exp (−θ)
f (y | θ) = , y > 0.
y!
Vamos assumir uma priori de Jeffreys para θ e encontrar aproximações de
Laplace para E (θc | y), sendo n = 5 e ȳ = 10 para c = 1, 2, 3, 5 e 10. A priori
de Jeffreys para θ é dada por
1
π (θ) ∝ √ , θ > 0,
θ
e a esperança de θc dado y é dada por
R ∞ c − 1 nȳ
c θ θ 2 θ exp (−nθ) dθ
E (θ | y) = R0 ∞ − 1
0
θ 2 θnȳ exp (−nθ) dθ
R ∞ c− 1 +nȳ
θ 2 exp (−nθ) dθ
= R0∞ − 1 +nȳ .
0
θ 2 exp (−nθ) dθ
Seja
Z ∞ Z
a
I1 = θ exp (−nθ) dθ = exp [−nh (θ)] − nh (θ) = a log (θ) − nθ.
0
Notar que
a
−nh0 (θ) =
− n = 0,
θ
a
θ̂ = ,
n
e
a
−nh00 (θ) = − 2 .
θ
Para encontrarmos uma aproximação pelo método de Laplace, sejam as quan-
tidades Z √ 1
h i
exp [−nh (θ)] dθ ≈ 2πn− 2 σ exp −nh θ̂ ,
h i− 21
σ = h00 θ̂ ,
an2 n2
−nh00 θ̂ = − 2
=−
a a
n
h00 θ̂ = ,
a
e
h i a
a a na
exp −nh θ̂ = θ̂ exp −nθ̂ = exp −
n n
aa
= exp (−a) .
nn
186
Assim,
√
√ − 12
n − 12 aa 2πn−1 a+ 1
I1 u 2πn exp (−a) u a 2 exp (−a) ,
a nn nn
ou seja, √
2π a+ 1
I1 u
a 2 exp (−a) .
nn+1
Assim, considerando a = c − 12 + nȳ no numerador e a = − 12 + nȳ no
denominador de E (θc | y), temos:
√ c− 12 +nȳ+ 12
2π 1
exp − c − 12 + nȳ

1 c− 2 + nȳ
c nn+ 2
E (θ | y) u √ nȳ− 12 + 12
2π
nȳ − 12 exp − nȳ − 12

1
nn+ 2
nȳ+c
nȳ + c − 12 exp (−c)
u
1 nȳ

nȳ − 2
1
(b) Vamos considerar a reparametrização φ = θ 2 . Assim,
1
π (φ) ∝ 1 , θ > 0.
θ2
A transformação baseada nas expressões
1
φ = θ2,
1 1 −1
dφ = θ 2 dθ
2
e
dθ 2
= − 1 , com θ = φ2 ,
dφ θ 2
resulta em
1 dθ 1 2
π (φ) ∝ ∝ = constante.
φ dφ φ φ−1
Assim,
φ2c π (φ) L (φ) dφ
R
c 2c

E (θ | y) = E φ |y =
R
π (φ) L (φ) dφ
R 2 c 2 nȳ R θ 2 nȳ+c
exp −nφ2 dφ

φ φ exp −nφ2 dφ 0
φ
= R nȳ = R∞ nȳ .
(φ2 ) exp (−nφ2 ) dφ 0
(φ2 ) exp (−nφ2 ) dφ
Como resultado, temos

Z Z
a 2

I2 = φ exp −nφ dφ = exp [−nh (φ)] ,
em que
−nh (φ) = a log (φ) − nφ2 .
187
Notar que
a
−nh0 (φ) = − 2nφ = 0.
φ
Da expressão
a
= 2nφ,
φ
temos que
2 a
φ̂ = .
2n
Em adição, temos
a a 2na
−nh00 (φ) = − − 2n = − a − 2n = − − 2n = −4n,
φ2 2n
a
e
h00 φ̂ = 4.
Assim,
h i a
2
2 a2 2

exp −nh φ̂ = φ̂ exp −nφ̂ = φ̂ exp −nφ̂
a a2 a
= exp −n
2n 2n
a
a2 a
= a exp − ,
(2n) 2 2
e
1 a
√ n− 2 a 2 a
I2 ≈ 2π √ a exp −
4 (2n) 2 2
√ a
2πa 2 a
≈ a 1 a exp − .
n 2 + 2 2 2 +1 2
Por fim, substitumos a = 2 (nȳ + c) no numerador de E (θc | y) e a = 2nȳ no

denominador de E (θc | y), para encontrarmos a aproximação de Laplace para
1
E (θc | y) na parametrização φ = θ 2 .
Capı́tulo 7
Exercı́cio 2
(b) Seja Yij uma variável aleatória que indica o investimento de uma firma,
sendo i = 1, . . . , 8; (firmas) e j = 1, 2, 3 (tempos). Sejam X1 , X2 e X3 as demais
variáveis regressoras apresentadas neste exercı́cio. O modelo é dado por
yij = αi + τj + γij + β0 + β1 x1ij + β2 x2ij + β3 x3ij + εij ,

188
em que εij são variáveis aleatórias independentes com média zero e variância σ 2
para i = 1, . . . , 8 e j = 1, 2, 3 (tempos). Vamos utilizar uma análise bayesiana
hierárquica em dois estágios. No primeiro estágio assumiremos as seguintes
distribuições a priori:
∼ N 0, σα2 , i = 1, . . . , 8,

αi
∼ N 0, στ2 , j = 1, 2, 3,

τj
∼ N 0, σγ2 , i = 1, . . . , 8, j = 1, 2, 3,

γij
∼ N 0; a20 ,

β0
∼ N 0; a21 ,

β1
∼ N 0; a22 ,

β2
∼ N 0; a23 e

β3
σ2 ∼ GI (b, d) ,
em que a0 , a1 , a2 , a3 , b e d são conhecidos e GI (b, d) denota uma distribuição

2
d
gama inversa (1.16) com média (b−1) e variância (b−1)d2 (b−2) , b > 2.
[ ]
Em um segundo estágio, vamos assumir:
σα2 ∼ IG (bα , dα ) ,
στ2 ∼ IG (bτ , dτ ) , e
σγ2 ∼ IG (bγ , dγ ) .

A função de verossimilhança para θ = αi , τj , γij , β0 , β1 , β2 , β3 , σ 2 , σα2 , στ2 , σγ2
é dada por:
3 Y
n
2

Y 1
L (θ) = √ exp − i 2
j=1 i=1 2πσ 2 2σ
em que i = yij − αi − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, 2, . . . , n,

(n = 8).
189

n 3
!
αi2 τj2
Y
Y 1 1
π (θ | x, y) ∝ p exp − 2 × p exp − 2 ×
i=1
2πσα2 2σα j=1
2πστ2 2στ
3 Y n
γ2 β2

Y 1
q exp − i2 × exp − 02 ×
j=1 i=1 2πσγ2 2σγ 2a0
β12 β22 β32

× exp − 2 × exp − 2 × exp − 2 ×
2a1 2a 2a3
2
2
−(b+1) d 2
−(b α +1) dα
× σ exp − 2 × σα exp − 2 ×
σ σ
α
−(b +1) dτ −(b +1) dγ
× στ2 exp − 2 × σγ2
τ γ

exp − 2 ×
στ σγ
 
3 n
− 3n 1 XX 2 
× σ 2 2 exp − 2 ,
2σ j=1 i=1 ij
0
em que y = (y1 , . . . , yn ) , x denota o vetor das covariáveis e i é dado em (7.9).
As distribuições condicionais para as quantidades aleatórias são dadas a seguir:
 
3 X n
α2
2
1 X (α)
∝ exp − i2

(i) π αi | θ (αi ) exp − 2 αi − µij ,
2σα 2σ j=1 i=1
em que
(α)
µij = yij − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
Desenvolvendo essas expressões, encontramos o núcleo de uma distribuição

normal, isto é,
 3

2
P (α)
σ
 α µij
 j=1 σα2 σ 2 
αi | θ (αi ) ∼ N  2 ; .

 σ + 3σα2 σ 2 + 3σα2 
!  
3 X n
τj2 1 X (τ )
2
(ii) π τj | θ (τj ) ∝ exp − 2 exp − 2 τj − µij ,
2στ 2σ j=1 i=1
em que
(τ )
µij = yij − αi − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
190
Desenvolvendo essas expressões encontramos o núcleo de uma distribuição

normal, ou seja,
 P n 
(τ )
στ2 µij 2 2
 i=1 στ σ 
τj | θ (τj ) ∼ N 
 σ 2 + nσ 2 ; σ 2 + nσ 2  .

τ τ
!  
2 3 X n
γij 1 X (γ)
2
(iii) π γij | θ (γij ) ∝ exp − 2 exp − 2 γij − µij ,
2σγ 2σ j=1 i=1
em que
(γ)
µij = yij − αi − τj − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
Destas expressões, encontramos o núcleo de uma distribuição normal, isto é,

(γ)
" #
σγ2 µij σγ2 σ 2
γij | θ (γij ) ∼ N ; .
σ 2 + σγ2 σ 2 + σγ2
!  
3 X n
β2 1 X (β )
2
∝ exp − 02

(iv) π β0 | θ (β0 ) exp − 2 β0 − µij 0  ,
2σβ0 2σ j=1 i=1
em que
(β )
µij 0 = yij − αi − τj − γij − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n; j = 1, 2, 3
Destas expressões encontramos o núcleo de uma distribuição normal, isto é,

 3 P
n

2
P (β0 )
a
 0 µij
 j=1 i=1 a20 σ 2 
β0 | θ (β0 ) ∼ N  ; .

 σ 2 + 3na20 σ 2 + 3na20 
" n
#
β2
2
1 X (l)
∝ exp − l2

(v) π βl | θ (βl ) exp − 2 βl xlij − µij ,
2al 2σ i=1
em que
3
(l)
X
µij = yij − αi − τj − γij − βj xji , i = 1, . . . , n, j = 1, 2, 3.
j=1;j6=l
191
θ (βl ) denota o vetor de todos os parâmetros exceto βl . Assim,

 3 P n

2
P (l)
 la x µ
li i
j=1 i=1 a2l σ 2 
βl | θ (βl ) ∼ N  ; ,
 
3 P n 3 P n
2 2 2 2
 2 P 2
P 
σ + al xlij σ + al xlij
j=1 i=1 j=1 i=1
para l = 1, 2, 3.
" n
!#
2
2 −(b+ 2 +1)
3n 1 1X 2
(vi) π σ | θ (σ2 ) ∝ σ exp − 2 d+ ,
σ 2 i=1 i

" n
#
3n 1 X
σ 2 | θ (σ2 ) ∼ GI b + ;d + 2 ,
2 2 i=1 i
em que
i = yij − αi − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, 2, . . . , n, (n = 8) .
" n
!#
−(bα + n2 +1) 1 1X 2
σα2 σα2

(vii) π | θ (σα2 ) ∝ exp − 2 dα + α ,
σα 2 i=1 i

" n
#
2 n 1X 2
σα | θ (σα2 ) ∼ GI bα + ; dα + α .
2 2 i=1 i
  
3
2 −(bτ + 2 +1)
3 1  1X
(viii) π στ2 | θ (στ2 ) ∝ στ τj2  ,

exp − dτ +
στ2 2 j=1

" n
#
2 3 1X 2
στ | θ (στ2 ) ∼ GI bτ + ; dτ + τ .
2 2 i=1 j
  
3 n

2 −(bγ + 2 +1)
3n 1  1 XX
(ix) π σγ2 | θ (σ2 ) ∝ σγ

exp − dγ + γij  ,
γ σγ2 2 j=1 i=1

 
3 X n
3n 1 X
σγ2 | θ (σ2 ) ∼ GI bγ + ; dγ + γij  .
γ 2 2 j=1 i=1

Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez

Enviado por

Dados do documentoclique para ver informações do documento

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez

Enviado por

Direitos autorais:

Formatos disponíveis

Copyright © 2019 por Jorge Alberto Achcar, Emilio Augusto Coelho Barros,

Roberto Molina de Souza e Edson Zangiacomi Martinez

A Cia do eBook apoia os direitos autorais. Eles incentivam a criatividade, promovem

PRODUÇÃO EDITORIAL: Equipe Cia do eBook

EDITORA CIA DO EBOOK

Jorge Alberto Achcar

Emı́lio Augusto Coelho Barros

Roberto Molina de Souza

Edson Zangiacomi Martinez

1.10.4 Modelo de Wishart . . . . . . . . . . . . . . . . . . . . . . 25

4 Densidades preditivas e discriminação de modelos 71

4.6 Pseudo-fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 77

6 Aproximações Numéricas e Métodos de Monte Carlo 99

7 Métodos de Monte Carlo em Cadeias de Markov 113

8 Algumas aplicações 143

Referências Bibliográficas 167

Resolução de alguns exercı́cios 171

O uso de métodos bayesianos tem se tornado muito popular na análise de dados

Jorge A. Achcar, novembro de 2018.

1.1 Funções gama e beta

é chamada função gama. Observar que:

a) Γ (α + 1) = αΓ (α) para α > 0,

Provas para estas relações são encontradas em Rohatgi (1984).

A derivada do logaritmo de uma função gama, dada por

é chamada função digama.

Uma forma multivariada da função gama, de ordem k (k inteiro e positivo),

em que S é uma matriz quadrada positiva definida, tr(S) é o traço da matriz S

com α e β constantes, α > 0 e β > 0, é chamada função beta. São válidas as

a) B (α, β) = B (β, α),

1.2 Função de probabilidade e variável aleatória

a) P (A) ≥ 0 para todo A ∈ A,

b) P (Ω) = 1, sendo Ω o espaço amostral e

∈ A são eventos mutuamente exclusivos, então P (A1 ∪ A2 ∪

A tripla (Ω, A, P (·)) é chamada espaço de probabilidade. Uma variável

Por sua vez, a função de distribuição cumulativa de X é a função FX (·) com

b) lim FX (x) = 1 e lim FX (x) = 0,

c) FX (·) é contı́nua à direita e tem limite à esquerda, e

d) se a e b são valores tais que a < b, P (a < X ≤ b) = P (X ∈ (a, b]) =

Uma v.a. é discreta se sua função de distribuição cumulativa FXS

é chamada função de probabilidade (f p) de X.

Exemplo 1.1: Se lançamos um dado honesto de 6 faces e observamos a

cujo gráfico é exibido na Figura 1.1.

Figura 1.1: Gráfico da função de distribuição cumulativa de X.

Exemplo 1.2: Sejam X1 , X2 , ...., Xn variáveis aleatórias iid com f dp dada

Integrando por partes, temos u = x e dv = e−λx dx. Assim,

ou seja, a média de X não existe.

a) se g (x) = x, então E [g (X)] = E (X) é a média de X,

Se c, c1 e c2 são constantes, são propriedades da esperança, se E [g (X)] < ∞:

b) E [cg (X)] = cE [g (X)] e

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) e

Observar que se X e Y são variáveis aleatórias independentes, ou seja, a

1.7 Função geradora de momentos

e a variância de X pode ser obtida da relação

A f gm para uma variável aleatória X é única, tal que, se duas variáveis

Exemplo 1.6: Seja X uma variável aleatória com função densidade de

A derivada de mX (t) é dada por

e a segunda derivada de mX (t) é dada por