0% acharam este documento útil (0 voto)
255 visualizações201 páginas

Uma Introdução Aos Métodos Bayesianos Aplicados À Análise de Dados by Jorge Alberto Achcar, Emilio Augusto Coelho Barros, Roberto Molina de Souza, Edson Zangiacomi Martinez

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1/ 201

Copyright © 2019 por Jorge Alberto Achcar, Emilio Augusto Coelho Barros,

Roberto Molina de Souza e Edson Zangiacomi Martinez

A Cia do eBook apoia os direitos autorais. Eles incentivam a criatividade, promovem


a liberdade de expressão e criam uma cultura vibrante. Obrigado por comprar uma edição
autorizada desta obra e por cumprir a lei de direitos autorais não reproduzindo ou
distribuindo nenhuma parte dela sem autorização. Você está apoiando os autores e a Cia do
eBook para que continuem a publicar novas obras.

PRODUÇÃO EDITORIAL: Equipe Cia do eBook

ISBN: 978-85-5585-210-7

EDITORA CIA DO EBOOK


Rua Ataliba Souza Silva, 311
Timburi/SP
Website: https://www.ciadoebook.com.br/
Uma Introdução aos Métodos
Bayesianos Aplicados à Análise de
Dados

Jorge Alberto Achcar


Faculdade de Medicina de Ribeirão Preto
Universidade de São Paulo

Emı́lio Augusto Coelho Barros


Universidade Tecnológica Federal do Paraná
Campus Cornélio Procópio

Roberto Molina de Souza


Universidade Tecnológica Federal do Paraná
Campus Cornélio Procópio

Edson Zangiacomi Martinez


Faculdade de Medicina de Ribeirão Preto
Universidade de São Paulo

2019
ii
Conteúdo

Prefácio vii

1 Conceitos Básicos 1
1.1 Funções gama e beta . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Função de probabilidade e variável aleatória . . . . . . . . . . . . 2
1.3 Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Esperança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6 Covariância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.7 Função geradora de momentos . . . . . . . . . . . . . . . . . . . 7
1.8 Alguns modelos probabilı́sticos discretos . . . . . . . . . . . . . . 8
1.8.1 Modelo uniforme discreto . . . . . . . . . . . . . . . . . . 8
1.8.2 Modelo de Bernoulli . . . . . . . . . . . . . . . . . . . . . 9
1.8.3 Modelo binomial . . . . . . . . . . . . . . . . . . . . . . . 10
1.8.4 Modelo de Poisson . . . . . . . . . . . . . . . . . . . . . . 11
1.8.5 Modelo geométrico . . . . . . . . . . . . . . . . . . . . . . 13
1.8.6 Modelo hipergeométrico . . . . . . . . . . . . . . . . . . . 13
1.8.7 Modelo binomial negativo . . . . . . . . . . . . . . . . . . 14
1.9 Alguns modelos probabilı́sticos contı́nuos . . . . . . . . . . . . . . 15
1.9.1 Modelo uniforme . . . . . . . . . . . . . . . . . . . . . . . 15
1.9.2 Modelo normal . . . . . . . . . . . . . . . . . . . . . . . . 15
1.9.3 Modelo exponencial . . . . . . . . . . . . . . . . . . . . . 15
1.9.4 Modelo gama . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9.5 Modelo qui-quadrado . . . . . . . . . . . . . . . . . . . . 17
1.9.6 Modelo de Laplace . . . . . . . . . . . . . . . . . . . . . . 18
1.9.7 Modelo gama inverso . . . . . . . . . . . . . . . . . . . . . 19
1.9.8 Modelo beta . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.9.9 Modelo t de Student . . . . . . . . . . . . . . . . . . . . . 20
1.9.10 Modelo de Cauchy . . . . . . . . . . . . . . . . . . . . . . 21
1.9.11 Modelo F de Snedecor . . . . . . . . . . . . . . . . . . . . 23
1.10 Alguns modelos multivariados . . . . . . . . . . . . . . . . . . . . 23
1.10.1 Modelo multinomial . . . . . . . . . . . . . . . . . . . . . 23
1.10.2 Modelo de Dirichlet . . . . . . . . . . . . . . . . . . . . . 24
1.10.3 Modelo normal multivariado . . . . . . . . . . . . . . . . 25

iii
iv CONTEÚDO

1.10.4 Modelo de Wishart . . . . . . . . . . . . . . . . . . . . . . 25


1.11 Famı́lia exponencial . . . . . . . . . . . . . . . . . . . . . . . . . 25
1.12 Função caracterı́stica . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.13 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2 O método frequentista 31
2.1 Estatı́stica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2 Estimação paramétrica por ponto . . . . . . . . . . . . . . . . . . 31
2.3 Erro quadrático médio . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4 Consistência em erro quadrático médio . . . . . . . . . . . . . . . 32
2.5 Estimador não viciado para τ (θ) . . . . . . . . . . . . . . . . . . 32
2.6 Desigualdade de Cramér-Rao . . . . . . . . . . . . . . . . . . . . 32
2.7 Estimadores de máxima verossimilhança . . . . . . . . . . . . . . 35
2.8 Estatı́stica suficiente . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.8.1 Teorema da fatoração . . . . . . . . . . . . . . . . . . . . 38
2.9 Intervalos de confiança . . . . . . . . . . . . . . . . . . . . . . . . 39
2.9.1 Quantidade pivotal . . . . . . . . . . . . . . . . . . . . . . 41
2.9.2 Método da quantidade pivotal . . . . . . . . . . . . . . . 42
2.9.3 Obtenção de quantidades pivotais . . . . . . . . . . . . . 43
2.10 Método assintótico . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.11 Teste de hipóteses frequentista . . . . . . . . . . . . . . . . . . . 45
2.11.1 Hipóteses simples e compostas . . . . . . . . . . . . . . . 46
2.11.2 Poder do teste . . . . . . . . . . . . . . . . . . . . . . . . 46
2.11.3 Tamanho do teste . . . . . . . . . . . . . . . . . . . . . . 46
2.11.4 Lema de Neyman-Pearson . . . . . . . . . . . . . . . . . . 47
2.11.5 Teste da razão de verossimilhanças . . . . . . . . . . . . . 48
2.11.6 Nı́vel descritivo . . . . . . . . . . . . . . . . . . . . . . . . 49
2.12 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3 Métodos bayesianos 53
3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.2 Distribuições a priori conjugadas . . . . . . . . . . . . . . . . . . 57
3.3 Priori normal e verossimilhança normal . . . . . . . . . . . . . . 60
3.4 Inferência bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.4.1 Estimação por intervalo . . . . . . . . . . . . . . . . . . . 61
3.4.2 Teoria bayesiana assintótica . . . . . . . . . . . . . . . . . 62
3.4.3 Estimação por ponto . . . . . . . . . . . . . . . . . . . . . 63
3.5 Vetores paramétricos . . . . . . . . . . . . . . . . . . . . . . . . . 66
3.6 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

4 Densidades preditivas e discriminação de modelos 71


4.1 Fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2 O Fator de Bayes a posteriori . . . . . . . . . . . . . . . . . . . . 74
4.3 Distribuições preditivas alternativas . . . . . . . . . . . . . . . . 74
4.4 Uso da densidade preditiva na discriminação de modelos . . . . . 75
4.5 Resı́duos bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . 76
CONTEÚDO v

4.6 Pseudo-fator de Bayes . . . . . . . . . . . . . . . . . . . . . . . . 77


4.7 Outros critérios para discriminação de modelos . . . . . . . . . . 77
4.8 Teoria bayesiana de De Finetti . . . . . . . . . . . . . . . . . . . 78
4.8.1 Permutabilidade Finita . . . . . . . . . . . . . . . . . . . 79
4.8.2 Teorema da Representação de De Finetti para quanti-
dades aleatórias 0-1 . . . . . . . . . . . . . . . . . . . . . 79
4.9 Uma nota sobre testes de hipóteses . . . . . . . . . . . . . . . . . 80
4.9.1 Hipótese simples contra alternativa composta . . . . . . . 81
4.10 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

5 Distribuições a Priori 85
5.1 Método estrutural de elicitação . . . . . . . . . . . . . . . . . . . 85
5.2 Método preditivo de elicitação . . . . . . . . . . . . . . . . . . . . 86
5.3 Distribuições a priori não-informativas . . . . . . . . . . . . . . . 88
5.3.1 Método de Bayes-Laplace . . . . . . . . . . . . . . . . . . 88
5.3.2 Método de Jeffreys . . . . . . . . . . . . . . . . . . . . . . 89
5.3.3 Caso Multiparamétrico . . . . . . . . . . . . . . . . . . . . 93
5.3.4 Método da Entropia Máxima . . . . . . . . . . . . . . . . 95
5.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6 Aproximações Numéricas e Métodos de Monte Carlo 99


6.1 Aproximação de Laplace . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Método de Monte Carlo ordinário . . . . . . . . . . . . . . . . . . 104
6.3 Método de Monte Carlo por importância . . . . . . . . . . . . . . 104
6.4 Algoritmo SIR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
6.5 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

7 Métodos de Monte Carlo em Cadeias de Markov 113


7.1 O Amostrador de Gibbs . . . . . . . . . . . . . . . . . . . . . . . 114
7.1.1 Método de Gelman e Rubin para monitorar a convergência
do algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . 115
7.2 Algoritmo de Metropolis-Hastings . . . . . . . . . . . . . . . . . . 126
7.2.1 Casos especiais para q (y, x) . . . . . . . . . . . . . . . . . 129
7.2.2 Escolha da locação e da escala da distribuição ger-
adora . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.3 Conceitos adicionais . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.3.1 A integração de Monte Carlo . . . . . . . . . . . . . . . . 138
7.3.2 Lei forte dos grandes números (LFGN) . . . . . . . . . . . 138
7.3.3 Teorema ergódico . . . . . . . . . . . . . . . . . . . . . . . 139
7.4 Exercı́cios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

8 Algumas aplicações 143


8.1 Modelos bayesianos hierárquicos . . . . . . . . . . . . . . . . . . 143
8.2 Análise bayesiana empı́rica . . . . . . . . . . . . . . . . . . . . . 145
8.3 Dados binários correlacionados . . . . . . . . . . . . . . . . . . . 159
8.4 Aplicações em epidemiologia . . . . . . . . . . . . . . . . . . . . . 162
vi CONTEÚDO

Referências Bibliográficas 167

Resolução de alguns exercı́cios 171


Prefácio

O uso de métodos bayesianos tem se tornado muito popular na análise de dados


em várias áreas de aplicação como economia, medicina, engenharia, indústria,
ecologia, meio ambiente, finanças, educação, quı́mica, farmácia, biologia entre
várias outras. Esse grande avanço do uso dos métodos bayesianos nas aplicações
é devido ao avanço computacional verificado nas últimas décadas em termos de
software e hardware, pois os métodos bayesianos permitem modelagens com-
plexas para os dados usando métodos de simulaçã para as distribuições a pos-
teriori conjuntas de interesse. Entre essas técnicas de simulação, destacamos
as técnicas de Monte Carlo em Cadeias de Markov, com destaque especial
para o amostrador de Gibbs e o algoritmo de Metropolis-Hastings. Para a
simplificação na obtenção dos sumários a posteriori de interesse usados para
obtenção de inferências como estimadores pontuais ou inferências por intervalo
para parâmetros do modelo estatı́stico proposto a literatura apresenta softwares
de livre acesso como o software OpenBugs e o software R. Nesse texto, intro-
duzimos com um mı̀nimo de formalismo matemático, uma breve introdução aos
métodos bayesianos, que pode ser muito útil para análise estatı́stica de dados
obtidos de diversas áreas de aplicação. O texto mescla alguns conceitos básicos
e necessários dos métodos bayesianos com muitas aplicações em diversas áreas
com ênfase em dados médicos, inclusive apresentando a parte computacional
necessária na análise estatı́stica dos dados. Esse texto foi originado de uma
breve monografia elaborada no Departamento de Medicina Social da Univer-
sidade de São Paulo, campus de Ribeirão Preto, Estado de São Paulo, para
auxiliar bioestatı́sticos e outros profissionais na análise estatı́stica de dados.

Jorge A. Achcar, novembro de 2018.

vii
viii
Capı́tulo 1

Conceitos Básicos

1.1 Funções gama e beta


Considerando uma constante α > 0, a integral
Z ∞
Γ (α) = xα−1 e−x dx (1.1)
0

é chamada função gama. Observar que:

a) Γ (α + 1) = αΓ (α) para α > 0,


b) Γ (α + 1) = α! se α ≥ 0, α inteiro,

c) Γ (1/2) = π, e
. √
d) n! = Γ (n + 1) = nn e−n 2πn se n é suficientemente grande (aproximação
de Stirling).

Provas para estas relações são encontradas em Rohatgi (1984).

A derivada do logaritmo de uma função gama, dada por

d Γ0 (α)
ψ (α) = ln Γ (α) = ,
dα Γ (α)

é chamada função digama.

Uma forma multivariada da função gama, de ordem k (k inteiro e positivo),


é dada por Z
α−(p+1)/2
Γk (α) = exp [−tr(S)] |S| dS, (1.2)
S>0

em que S é uma matriz quadrada positiva definida, tr(S) é o traço da matriz S


e |S| é o determinante da matriz S. Notar que Γ1 (α) = Γ (α).

1
2

A integral
Z 1
β−1
B (α, β) = xα−1 (1 − x) dx, (1.3)
0

com α e β constantes, α > 0 e β > 0, é chamada função beta. São válidas as


relações:

a) B (α, β) = B (β, α),


R∞ −α−β
b) B (α, β) = 0
xα−1 (1 − x) dx, e

Γ (α) Γ (β)
c) B (α, β) = .
Γ (α + β)

1.2 Função de probabilidade e variável aleatória


Uma função de probabilidade P (·) é uma função com domı́nio A (uma álgebra
de eventos) e como contradomı́nio o intervalo [0; 1] satisfazendo aos axiomas
apresentados por Kolmogorov, por volta de 1930:

a) P (A) ≥ 0 para todo A ∈ A,

b) P (Ω) = 1, sendo Ω o espaço amostral e

∈ A são eventos mutuamente exclusivos, então P (A1 ∪ A2 ∪


c) se A1 , A2 , ... P

A3 ∪ ...) = i=1 P (Ai ).

A tripla (Ω, A, P (·)) é chamada espaço de probabilidade. Uma variável


aleatória (v.a.), denotada por X ou X(·), é uma função com domı́nio Ω e con-
tradomı́nio <. A função X(·) deve ser tal que o conjunto Ar , definido por
Ar = {w : X(w) ≤ r} pertence a A para todo r real.

Por sua vez, a função de distribuição cumulativa de X é a função FX (·) com


domı́nio < e contradomı́nio [0; 1] que satisfaz FX (x) = P (X ≤ x) = P [{w :
X(w) ≤ x}] para todo x real. São propriedades de FX (·):

a) FX (·) é não decrescente; se a e b são valores tais que a < b, então FX (a) ≤
FX (b),

b) lim FX (x) = 1 e lim FX (x) = 0,


x→+∞ x→−∞

c) FX (·) é contı́nua à direita e tem limite à esquerda, e

d) se a e b são valores tais que a < b, P (a < X ≤ b) = P (X ∈ (a, b]) =


FX (b) − FX (a).
1.2. FUNÇÃO DE PROBABILIDADE E VARIÁVEL ALEATÓRIA 3

Uma v.a. é discreta se sua função de distribuição cumulativa FXS


(·) tem
a forma de uma escada, isto é, existe um conjunto enumerávelPΩ = n {w :
X(w) = xn } P
tal que fX (x) = P (X = x) = 0 se x ∈ / Ω e FX (x) = xi <x fX (xi ).
Nota-se que n P (X = xn ) = 1. A função fX (·) definida por

P (X = xj ) se x = xj , j = 1, 2, 3, ...
fX (x) =
0 se x 6= xj

é chamada função de probabilidade (f p) de X.

Exemplo 1.1: Se lançamos um dado honesto de 6 faces e observamos a


variável X definida pelo número impresso na face voltada para cima, temos a
função de probabilidade de X definida por

1/6 se x ∈ {1, 2, 3, 4, 5, 6}
fX (x) = ,
0 caso contrário
ou
1
fX (x) = I{1,2,3,4,5,6} (x),
6
em que I{A} (x) é a função indicadora, tal que I{A} (x) = 1 se x ∈ A e I{A} (x) = 0
P6
se x ∈
/ A. Notar que j=1 fX (xj ) = 1. A função de distribuição cumulativa de
X é a função
5
X i
FX (x) = I[i,i+1) (x) + I[6,∞) (x),
i=1
6

cujo gráfico é exibido na Figura 1.1.

1 ●

5/6 ●

4/6 ●
F X (x)

1/2 ●

2/6 ●

1/6 ●

−1 0 1 2 3 4 5 6 7

Figura 1.1: Gráfico da função de distribuição cumulativa de X.


4

Por sua vez, uma v.a. X é contı́nua se existe uma função fX (·) não negativa
tal que
Z x
FX (x) = P (X ∈ (−∞, x]) = P (X ≤ x) = fX (w)dw
−∞

para todo x real. Neste caso, FX (·) é absolutamente contı́nua, não possui a
forma de escada que caracteriza a função de distribuição cumulativa de uma
v.a. discreta. A função fX (·) é chamada de função densidade de probabilidade
(f dp) de X, tal que
a) fX (x) ≥ 0, para qualquer x ∈ <,
R∞
b) −∞ fX (x)dx = 1, e

0 d hR x i
c) FX (x) = f X (w)dw = fX (x), para os valores x em que FX (x) é
dx −∞
diferenciável.
Se X1 , X2 , ...., Xn são variáveis aleatórias que seguem a mesma distribuição
de probabilidade, diz-se que estas variáveis são identicamente distribuı́das (id).
Em adição, se X1 , X2 , ...., Xn são independentes e identicamente distribuı́das
(iid), considera-se que as variáveis Xi , i = 1, ..., n, constituem uma amostra
aleatória de tamanho n, retiradas de uma população especı́fica. Assim, se
cada uma destas variáveis possui f dp (ou função de probabilidade, f p, se as
variáveis são discretas) dada por f (·), a f dp (ou f p) conjunta de X1 , X2 , ...., Xn
é chamada distribuição da amostra, dada por
n
Y
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn ) = f (xi ). (1.4)
i=1

Exemplo 1.2: Sejam X1 , X2 , ...., Xn variáveis aleatórias iid com f dp dada


por
fX (x) = θe−θx I(0,∞) (x), θ > 0.
A distribuição da amostra é, portanto, dada por
n
!
X
n
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn ) = θ exp −θ xi , tal que xi > 0, i = 1, ..., n.
i=1

1.3 Média
Se X é uma variável aleatória (v.a.), a média de X, denotada por µX ou E(X),
é definida por
X
E(X) = xj fX (xj ) se X é v.a. discreta, ou
j
Z ∞
E(X) = xfX (x)dx se X é v.a. contı́nua.
−∞
1.4. VARIÂNCIA 5

Exemplo 1.3: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = λe−λx I[0,∞) (x), λ > 0. A média de X é
Z ∞ Z ∞
E(X) = xλe−λx dx = λ xe−λx dx.
0 0

Integrando por partes, temos u = x e dv = e−λx dx. Assim,


Z ∞   Z ∞ 
E(X) = λ udv = λ uv − vdu
 0 0
x −xλ ∞ 1 ∞ −xλ
Z 
= λ − e + e dx =
λ 0 λ
 ∞  0
1 1 −xλ 1 1
= λ − e =λ 2 = .
λλ
0 λ λ

Exemplo 1.4: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = x−2 I[1,∞) (x). Temos que
Z ∞
1 ∞
E(X) = x dx = ln x|1 = ∞,
1 x2

ou seja, a média de X não existe.

1.4 Variância
2
Seja X uma v.a. A variância de X, denotada por σX ou V ar(X), é definida por
X 2
V ar(X) = (xj − µX ) fX (xj ) se X é v.a. discreta, ou
j
Z ∞
2
V ar(X) = (x − µX ) fX (x)dx se X é v.a. contı́nua.
−∞

1.5 Esperança
Seja X uma v.a. e g(·) uma função com domı́nio e contradomı́nio reais. A
esperança, ou valor esperado de g(X), denotada por E [g (X)] é definida por
X
E [g (X)] = g (xj ) fX (xj ) se X é v.a. discreta, ou
j
Z ∞
E [g (X)] = g (x) fX (x)dx se X é v.a. contı́nua.
−∞

Observar que:

a) se g (x) = x, então E [g (X)] = E (X) é a média de X,


6
h i
2 2
b) se g (x) = (x − µX ) , então E [g (X)] = E (X − µX ) = V ar(X),
R∞
c) E [g (X)] é definida como a integral de Stieljes −∞
g (x) dFX (x) (ver James,
1996) e
h i
2
d) a variância de X pode ser escrita na forma V ar(X) = E (X − E(X)) =
 
E X 2 − E 2 (X) se E X 2 existe.
 
2
Da observação (d), temos que, se a e b são constantes conhecidas e E |X|
< ∞, então são válidas as expressões:

a) V ar(aX) = a2 V ar(X)

b) V ar(X + b) = V ar(X)

c) V ar(aX + b) = a2 V ar(X)

Se c, c1 e c2 são constantes, são propriedades da esperança, se E [g (X)] < ∞:

a) E (c) = c,

b) E [cg (X)] = cE [g (X)] e

c) E [c1 g1 (X) + c2 g2 (X)] = c1 E [g1 (X)] + c2 E [g2 (X)], em que g1 (·) e g2 (·)
são funções com domı́nio e contradomı́nio reais.

Exemplo 1.5: Seja X uma v.a. contı́nua com função densidade de proba-
bilidade fX (x) = λe−λx I[0,∞) (x), λ > 0. Do exemplo 1.3, temos que E(X) = λ1 .
A esperança de X 2 é
Z ∞
2
2
E(X ) = x2 λe−λx dx = 2 ,
0 λ

e a variância de X é
2 1 1
V ar(X) = E(X 2 ) − E 2 (X) = 2
− 2 = 2.
λ λ λ

1.6 Covariância
Sejam X e Y variáveis aleatórias, com médias µX e µY , respectivamente. A
covariância entre X e Y é dada por

Cov(X, Y ) = E [(X − µX ) (Y − µY )]
= E (XY ) − E (X) E (Y )
= E (XY ) − µX µY .
1.7. FUNÇÃO GERADORA DE MOMENTOS 7

Como consequência,

V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) e


V ar(X − Y ) = V ar(X) + V ar(Y ) − 2Cov(X, Y ).

Observar que se X e Y são variáveis aleatórias independentes, ou seja, a


f dp conjunta de X e Y é dada por fX,Y (x, y) = fX (x)fY (y) onde fX (x) e
fY (y) são respectivamente as f dp marginais para X e Y , então V ar(X + Y ) =
V ar(X)+V ar(Y ) e V ar(X −Y ) = V ar(X)+V ar(Y ), dado que Cov(X, Y ) = 0.
No entanto, há situações em que Cov(X, Y ) = 0 mas X e Y não são variáveis
aleatórias independentes.

1.7 Função geradora de momentos


A função geradora de momentos (f gm) da variável X é dada por

mX (t) = E etX ,



desde que a esperança E etX seja finita para t real em algum intervalo −t0 <
t < t0 , com t0 > 0.

Observar que
2 3
(tX) (tX)
etX = 1 + tX + + + ...
2! 3!
Assim,
 
tX
 2E X2 3E X
3
mX (t) = E e = 1 + tE (X) + t +t + ...
2! 3!
A derivada de mX (t) em relação a t é dada por
 
0 ∂mX (t) E X2 2E X
3
mX (t) = = E (X) + 2t + 3t + ...
∂t 2! 3!
Notar que a esperança de X pode ser obtida por m0X (0). A segunda derivada
de mX (t) em relação a t é dada por
  
00 ∂ 2 mX (t) E X2 E X3 2E X
4
mX (t) = =2 + 6t + 12t + ...
∂t2 2! 3! 4!
Portanto,
m00X (0) = E X 2 ,


e a variância de X pode ser obtida da relação


2
V ar(X) = E X 2 − E 2 (X) = m00X (0) − [m0X (0)] .

8

A f gm para uma variável aleatória X é única, tal que, se duas variáveis


aleatórias possuem f gm que existem e são iguais, então elas possuem a mesma
função de distribuição.

Exemplo 1.6: Seja X uma variável aleatória com função densidade de


probabilidade
β α α−1 −βx
fX (x) = x e I(0,∞) (x),
Γ (α)
sendo que α > 0 e β > 0. A f gm de X é
Z ∞
1 tx α−1 −βx
mX (t) = E etX = β α

e x e dx
0 Γ (α)
Z ∞ α
βα (β − t) α−1 −(β−t)x
= α x e dx
(β − t) 0 Γ (α)
 α
β
= , t < β. (1.5)
β−t

A derivada de mX (t) é dada por


 α  α
∂ β α β
m0X (t) = = ,
∂t β − t β−t β−t

e a segunda derivada de mX (t) é dada por


α α
∂2
 
β α (α + 1) β
m00X (t) = 2 = 2 .
∂t β−t (β − t) β−t

Assim, a esperança e a variância de X são dadas, respectivamente, por


α
E(X) = m0X (0) = (1.6)
β
e
α2
= E X 2 − E 2 (X) = m00X (0) − 2

V ar(X)
β
2
α (α + 1) α α
= − 2 = 2. (1.7)
β2 β β

1.8 Alguns modelos probabilı́sticos discretos


1.8.1 Modelo uniforme discreto
Uma variável X segue o modelo uniforme discreto com valores x1 , x2 , ..., xk se
a sua função de probabilidade é dada por
1
fX (x) = P (X = x) = I{1,2,3,...,k} (x), (1.8)
k
1.8. ALGUNS MODELOS PROBABILÍSTICOS DISCRETOS 9

sendo k > 0 um número inteiro. A esperança de X é dada por


k k
X 1 1X 1 k (k + 1) k+1
E (X) = j = j= = ,
j=1
k k j=1 k 2 2

e a variância de X é V ar (X) = E X 2 − E 2 (X), em que E 2 (X) é dada por

k k
X 1 1X 2 1 k (2k + 1) (k + 1) (2k + 1) (k + 1)
E(X 2 ) = j2 = j = = .
j=1
k k j=1 k 6 6

Assim,
 2
(2k + 1) (k + 1) k+1
= E X 2 − E 2 (X) =

V ar (X) − =
6 2
2k 2 + 2k + k + 1 k 2 + 2k + 1
= −
6 4
4k + 6k + 2 − 3k 2 − 6k − 3
2
k2 − 1 (k + 1) (k − 1)
= = = .
12 12 12

1.8.2 Modelo de Bernoulli


Uma variável aleatória X segue o modelo de Bernoulli se assume apenas os
valores 0 e 1. Sendo θ um parâmetro tal que 0 ≤ θ ≤ 1, vamos considerar

P (X = 0) = 1 − θ,
P (X = 1) = θ

e P (X = x) = 0 se x não for igual a 0 ou 1. Notar que P (X = 0)+P (X = 1) =


1. A função de probabilidade é dada por
1−x
fX (x) = P (X = x) = θx (1 − θ) I{0,1} (x),

sendo a esperança de X dada por

E(X) = 0 × (1 − θ) + 1 × θ = θ

e a variância dada por

E X 2 − E 2 (X) = 02 × (1 − θ) + 12 × θ − θ2
  
V ar(X) =
= θ − θ2 = θ (1 − θ) .

Assim, um experimento em que são apenas possı́veis dois resultados diferen-


tes é chamado de ensaio de Bernoulli. Comumente, denominamos o evento X =
1 de “sucesso” e o evento X = 0 de “fracasso”. Por notação, X ∼ Bernoulli (θ),
sendo 0 ≤ θ ≤ 1. A f gm de X é mX (t) = 1 − θ (1 − et ).
10

Exemplo 1.7: Sob condições ideais, a probabilidade da semente de uma


planta especı́fica germinar é 0, 8. Portanto,

P (X = 0) = 1 − 0, 8 = 0, 2 e
P (X = 1) = 0, 8,

ou seja,
fX (x) = P (X = x) = 0, 8x 0, 21−x I{0,1} (x).

1.8.3 Modelo binomial


Exemplo 1.8: Considerando o exemplo anterior, seja uma situação em que
são plantadas simultaneamente três sementes, sob condições ideais. Sejam as
variáveis X1 , X2 e X3 , assim definidas:

1 se a semente j germina
Xj = , j = 1, 2, 3.
0 se a semente j não germina
Temos, portanto, P (Xj = 1) = 0, 8 e P (Xj = 0) = 0, 2, para j = 1, 2, 3. O
trio (X1 , X2 , X3 ) pode assumir os valores:

{(0, 0, 0) , (0, 0, 1) , (0, 1, 0) , (1, 0, 0) , (0, 1, 1) , (1, 0, 1) , (1, 1, 0) , (1, 1, 1)} .

Vamos considerar Xj e Xj ∗ independentes, j 6= j ∗ , ou seja, a probabilidade


de uma das sementes germinar independe da germinação ou não da outra. Seja Y
uma variável aleatória definida como o número de ”sucessos” observados quando
plantadas as três sementes. Assim, Y pode assumir valores 0 (nenhuma semente
germinou), 1 (apenas uma semente germinou), 2 (duas sementes germinaram) ou
3 (todas as 3 sementes germinaram). Deixando de lado algum rigor de notação,
observamos que:

P (Y = 0) = P (X1 = 0, X2 = 0, X3 = 0)
= P (X1 = 0) P (X2 = 0) P (X3 = 0)
0, 2 × 0, 2 × 0, 2 = 0, 23 = 0, 008,
=
 
(X1 = 0, X2 = 0, X3 = 1) ou (X1 = 0, X2 = 1, X3 = 0)
P (Y = 1) = P
ou (X1 = 1, X2 = 0, X3 = 0)
= 0, 2 × 0, 2 × 0, 8 + 0, 2 × 0, 8 × 0, 2 + 0, 8 × 0, 2 × 0, 2
3 × 0, 22 × 0, 8 = 0, 096,
=
 
(X1 = 0, X2 = 1, X3 = 1) ou (X1 = 1, X2 = 0, X3 = 1)
P (Y = 2) = P
ou (X1 = 1, X2 = 1, X3 = 0)
= 0, 2 × 0, 8 × 0, 8 + 0, 8 × 0, 2 × 0, 8 + 0, 8 × 0, 8 × 0, 2
= 3 × 0, 2 × 0, 82 = 0, 384, e
P (Y = 3) = P (X1 = 1, X2 = 1, X3 = 1)
= P (X1 = 1) P (X2 = 1) P (X3 = 1)
= 0, 8 × 0, 8 × 0, 8 = 0, 83 = 0, 512.
1.8. ALGUNS MODELOS PROBABILÍSTICOS DISCRETOS 11

Notar que P (Y = 0) + P (Y = 1) + P (Y = 2) + P (Y = 3) = 0, 008 + 0, 096 +


0, 384 + 0, 512 = 1. Enquanto há apenas uma combinação entre X1 , X2 e X3 em
que nenhuma semente germina, {(0, 0, 0)}, há três combinações onde uma única
semente germina, {(0, 0, 1) , (0, 1, 0) , (1, 0, 0)}, três combinações em que duas se-
mentes germinam, {(0, 1, 1) , (1, 0, 1) , (1, 1, 0)}, e uma única combinação em que
todas as sementes germinam, {(1, 1, 1)}. Portanto, o número de combinações
das três sementes onde y sementes germinam é dado por

 
3
, y = 0, 1, 2 ou 3,
y

e notamos que uma expressão que generaliza a probabilidade P (Y = y) é dada


por
 
3
P (Y = y) = 0, 8y 0, 33−y I{0,1,2,3} (y).
y

Neste exemplo, consideramos n = 3 ensaios de Bernoulli independentes,


sendo a probabilidade de sucesso em cada ensaio dada por θ = 0, 8. De modo
geral, dizemos que Y segue um modelo binomial se a sua função de probabilidade
é dada por

 
n y n−y
fY (y) = P (Y = y) = θ (1 − θ) I{0,1,2,...,n} (y). (1.9)
y

Por notação, Y ∼ Binomial (n, θ) considerando n ensaios independentes de


Bernoulli e sendo a probabilidade de sucesso igual a θ (0 ≤ θ ≤ 1) em todos os
ensaios. Notar que, quando n = 1, Y segue uma distribuição de Bernoulli. A
média, a variância e a f gm de Y são dadas, respectivamente, por

n
E(Y ) = nθ, V ar(Y ) = nθ(1 − θ) e mY (t) = 1 − θ + θet .

1.8.4 Modelo de Poisson

Seja X uma variável aleatória tal que X ∼ Binomial (n, θ). Assim,

 
n x n−x
P (X = x) = θ (1 − θ) I{0,1,2,...,n} (x).
x

Denotaremos por λ o produto nθ. Assim, θ = λ/n, e considerando x =


12

0, 1, 2, ..., n,
 x  n−x
n! λ λ
P (X = x) = 1−
(n − x)!x! n n
x
 n  −x
n! λ λ λ
= 1− 1−
(n − x)!nx x! n n
x
 n  −x
n (n − 1) (n − 2) ... (n − x)! λ λ λ
= 1 − 1 −
(n − x)!nx x! n n
x
 n  −x
n (n − 1) (n − 2) (n − x − 1) λ λ λ
= ... 1− 1−
n n n n x! n n
     x n  −x
1 2 x+1 λ λ λ
= 1− 1− ... 1 − 1− 1− .
n n n x! n n

Se a probabilidade de sucesso θ é pequena, tal que θ tende a 0, o número de


ensaios de Bernoulli independentes é bastante grande, tal que n tende a infinito,
e λ > 0 é constante, temos
 g
lim 1 − = 1 para g = 1, 2, ..., x + 1,
n→∞ n
 −x
λ
lim 1 − = 1
n→∞ n
e
 n
λ
lim 1− = e−λ .
n→∞ n

Portanto, o modelo de Poisson é dado por

e−λ λx
fX (x) = P (X = x) = I{0,1,2,...,n} (x). (1.10)
x!
Por notação, X ∼ P oisson (λ). A f gm de X é
n n x
 X e−λ λx X (λet )
= E etX = etx = e−λ = exp −λ + λet
 
mX (t)
x=0
x! x=0
x!
t
 
= exp λ e − 1 .

Da f gm de X, encontramos E(X) = λ e V ar(X) = λ.

A distribuição de Poisson é relacionada a contagens de um evento de interesse


em um intervalo (ou volume) com taxa média igual a λ.

A Figura 1.2 exibe gráficos da função de probabilidade da distribuição de


Poisson para diferentes valores de λ.
1.8. ALGUNS MODELOS PROBABILÍSTICOS DISCRETOS 13

(a) λ = 2 (b) λ = 4
0.30

0.20
● ●

● ●
0.25

0.15


0.20


P(X=x)

P(X=x)
0.15

0.10


0.10


● ●

0.05
0.05






0.00

0.00
● ● ●
● ● ● ● ● ● ● ● ● ●

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

x x
(c) λ = 8 (d) λ = 10
● ●
0.12

0.12
● ● ●

● ●



● ●
0.08

0.08
P(X=x)

P(X=x)
● ●





0.04

0.04


● ●

● ●
● ●
● ● ●
0.00

0.00
● ● ● ● ●
● ● ● ● ●

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

x x

Figura 1.2: Gráficos da função de probabilidade da distribuição de Poisson para


λ igual a (a) 2, (b) 4, (c) 8 e (d) 10.

1.8.5 Modelo geométrico


Uma variável aleatória X segue uma distribuição geométrica se sua função de
probabilidade é dada por
x
fX (x) = P (X = x) = θ (1 − θ) I{0,1,...} (x),
em que 0 < θ ≤ 1. Por notação, X ∼ Geom (θ). A média, a variância e a f gm
de X são dadas, respectivamente, por
1−θ 1−θ θ
E(X) = , V ar(X) = e mX (t) = .
θ θ2 1 − (1 − θ)et
A distribuição geométrica é relacionada à contagem de fracassos até a ocor-
rência do primeiro sucesso em um experimento de Bernoulli onde a probabilidade
de sucesso é dada por θ.

1.8.6 Modelo hipergeométrico


Uma variável aleatória X segue uma distribuição hipergeométrica se sua função
de probabilidade é dada por
  
m N −m
x n−x
fX (x) = P (X = x) =   I{0,1,...,min(m,n)} (x),
N
n
sendo que N > 0 é um número inteiro, m é um número inteiro tal que 0 ≤ m ≤
N e n é um número inteiro tal que 0 < n ≤ N . Interpreta-se P (X = x) como a
14

probabilidade de se obter x elementos de um determinado tipo em n retiradas


de uma população de tamanho N , na qual m elementos são deste determinado
tipo e N − m não são. A média e a variância de X são dadas, respectivamente,
por
nm nm (N − m) (N − n)
E(X) = , e V ar(X) = .
N N 2 (N − 1)
Exemplo 1.9: Um globo possui N = 60 esferas, numeradas sequencial-
mente de 1 a 60. Serão sorteadas n = 6 destas esferas. Se, previamente ao
sorteio, um apostador anotar m = 6 diferentes números (de 1 a 60) em um
cartão, a probabilidade dele acertar os 6 números sorteados será
  
6 60 − 6
6 6−6 1 1
P (X = 6) =   = = .
60 60 50.063.860
6 6
Se o apostador anotou no cartão m = 6 números, a probabilidade dele acertar
4 números dentre aqueles sorteados é
  
6 60 − 6
4 6−4 15 × 1431 1
P (X = 4) =   = ≈ .
60 50.063.860 2332
6
Se o apostador anotou no cartão m = 9 números, a probabilidade dele ter
anotado todos os 6 números sorteados é
    
9 60 − 9 9
6 6−6 6 84 1
P (X = 6) =   = = ≈ .
60 60 50.063.860 595.998
6 6

1.8.7 Modelo binomial negativo


Uma variável aleatória X segue uma distribuição binomial negativa se sua função
de probabilidade é dada por
 
x+r−1 r x
fX (x) = P (X = x) = θ (1 − θ) I{0,1,...} (x),
x

sendo que r > 0 é um número inteiro e 0 < θ ≤ 1. Por notação, X ∼ BN (r, θ).
A média, a variância e a f gm de X são dadas, respectivamente, por
 r
r (1 − θ) r (1 − θ) θ
E(X) = , V ar(X) = e mX (t) = ,
θ θ2 1 − (1 − θ)et

se t < − ln(1 − θ). Notar que o modelo geométrico é um caso particular do


modelo binomial negativo, quando r = 1.
1.9. ALGUNS MODELOS PROBABILÍSTICOS CONTÍNUOS 15

1.9 Alguns modelos probabilı́sticos contı́nuos


1.9.1 Modelo uniforme
Uma variável aleatória contı́nua X é uniformemente distribuı́da no intervalo
[a, b] se a sua função densidade de probabilidade é dada por
1
fX (x) = I[a,b] (x), (1.11)
b−a
em que −∞ < a < b < ∞. Por notação, X ∼ U nif orme [a, b]. A média, a
variância e a f gm de X são dadas, respectivamente, por
2
a+b (b − a) ebt − eat
E(X) = , V ar(X) = e mX (t) = .
2 12 (b − a)t

1.9.2 Modelo normal


Uma variável aleatória contı́nua X segue uma distribuição normal com média
µ e variância σ 2 se a sua função densidade de probabilidade é dada por
" #
2
1 (x − µ)
fX (x) = √ exp − I(−∞,∞) (x), (1.12)
2πσ 2σ 2

em que µ é um valor real e σ > 0. Por notação, X ∼ N (µ, σ 2 ). Se Z é uma


variável aleatória com distribuição normal, em que µ = 0 e σ 2 = 1, diz-se que Z
segue uma distribuição normal padrão, com função densidade de probabilidade
 2
1 z
fZ (z) = √ exp − I(−∞,∞) (z).
2π 2
Notar que, se X ∼ N (µ, σ 2 ), então
X −µ
∼ N (0; 1).
σ
A Figura 1.3 exibe gráficos da função densidade de probabilidade fX (x) e da
função acumulada FX (x) da distribuição normal, considerando alguns diferentes
valores de µ e σ.

1.9.3 Modelo exponencial


Uma variável aleatória contı́nua X segue uma distribuição exponencial com
parâmetro θ, θ > 0, se a sua função densidade de probabilidade é dada por
fX (x) = θe−θx I[0,∞) (x). (1.13)
Por notação, X ∼ Exp(θ). A média, a variância e a f gm de X são dadas,
respectivamente, por
1 1 θ
E(X) = , V ar(X) = 2 e mX (t) = para t < θ.
θ θ θ−t
16

(a) (b)

0.4

1.0
σ=1
σ=2

0.8
0.3
σ=3

0.6
F X (x)
f X (x)

0.2

0.4
σ=1
0.1

σ=2

0.2
σ=3
0.0

0.0
−10 −5 0 5 10 −10 −5 0 5 10

x x

(c) (d)
0.4

1.0
µ=0
µ=2

0.8
0.3

µ=4

0.6
F X (x)
f X (x)

0.2

0.4 µ=0
0.1

µ=2
0.2
µ=4
0.0

0.0

−5 0 5 10 −5 0 5 10

x x

Figura 1.3: (a) Gráficos da função densidade de probabilidade e da (b) função


distribuição acumulada FX (x) da distribuição normal para µ = 0 e σ igual a
1, 2 e 3. (c) Gráficos da função densidade de probabilidade e da (d) função
distribuição acumulada FX (x) da distribuição normal para σ = 1 e µ igual a 0,
2 e 4.

A função distribuição acumulada FX (x) é

Z x
FX (x) = P (X ≤ x) = θe−θx dx = 1 − e−θx (1.14)
0

se x ≥ 0 e FX (x) = 0 se x < 0. Uma propriedade conhecida de distribuição


exponencial é a sua “ausência de memória”, ou seja, para quaisquer valores
s ≥ 0 e t ≥ 0, é válida a relação

P ( X > s + t| X > s) = P (X > t).


1.9. ALGUNS MODELOS PROBABILÍSTICOS CONTÍNUOS 17

1.9.4 Modelo gama


Uma variável aleatória contı́nua X segue uma distribuição gama com parâmetros
α e β se a sua função densidade de probabilidade é dada por
β α α−1 −βx
fX (x) = x e I(0,∞) (x), (1.15)
Γ (α)

em que α > 0 , β > 0 e Γ (·) é a função gama dada pela expressão (1.1). Por
notação, X ∼ Gama(α, β). A média, a variância e a f gm de X são dadas,
respectivamente, por
 α
α α β
E(X) = , V ar(X) = 2 e mX (t) = para t < β,
β β β−t

conforme (1.6) , (1.7) e (1.5). Notar que o modelo exponencial é um caso par-
ticular do modelo gama, em que α = 1 e β = θ.

Em adição, se k é uma constante conhecida e X ∼ Gama(α, β), temos que


kX ∼ Gama(α, kβ).
2.0

α = 1, β = 2
α = 2, β = 2
α = 3, β = 2
α = 6, β = 6
1.5
f X (x)

1.0
0.5
0.0

0 1 2 3 4 5

Figura 1.4: Gráficos da função densidade de probabilidade da distribuição gama


para diferentes valores de α e β.

A Figura 1.4 mostra gráficos de fX (x) para diferentes valores de α e β.

1.9.5 Modelo qui-quadrado


Se X é uma variável aleatória com distribuição gama (1.15), com parâmetros
α = n/2 e β = 1/2, então X segue uma distribuição qui-quadrado com n graus
18

(a) (b)

0.20
2.0
1 g.l. 4 g.l.
2 g.l. 5 g.l.
3 g.l. 6 g.l.

0.15
1.5
f X (x)

f X (x)

0.10
1.0

0.05
0.5

0.00
0.0

0 2 4 6 8 0 5 10 15

x x

Figura 1.5: Função densidade de probabilidade da distribuição qui-quadrado


para alguns valores de n.

de liberdade, onde n é um número inteiro positivo. Assim,


  n2
1
2 n x
fX (x) =  n  x 2 −1 e− 2 I(0,∞) (x).
Γ
2
Por notação, X ∼ χ2(n) . A esperança, a variância e a f gm de X são, respec-
tivamente,
−n
E(X) = n, V ar(X) = 2n e mX (t) = (1 − 2t) 2
para t < 1/2.

Os painéis (a) e (b) da Figura 1.5 descrevem os gráficos da função densidade


de probabilidade da distribuição qui-quadrado para alguns valores de n.

1.9.6 Modelo de Laplace


A distribuição de Laplace é também chamada de exponencial dupla. Sua função
densidade de probabilidade é dada por
 
1 |x − µ|
fX (x) = exp − I(−∞,∞) (x),
2σ σ

sendo µ um parâmetro de locação e σ > 0 um parâmetro de escala. Por notação,


X ∼ Laplace(µ, σ). A média de X é E(X) = µ e a variância de X é V ar(X) =
2σ 2 . São algumas propriedades da distribuição de Laplace:

a) Se a e b são constantes conhecidas, e X ∼ Laplace(µ, σ), então aX + b ∼


Laplace(aµ + b, |a| σ).
1.9. ALGUNS MODELOS PROBABILÍSTICOS CONTÍNUOS 19

b) Se X ∼ Laplace(0, σ), então |X| ∼ Exp(σ −1 ).

c) Das propriedades anteriores, se X ∼ Laplace(µ, σ −1 ), então |X − π| ∼


Exp(σ).

1.9.7 Modelo gama inverso


Uma variável aleatória contı́nua X segue uma distribuição gama inversa com
parâmetros α e β se a sua função densidade de probabilidade é dada por

β α −(α+1)
 
β
fX (x) = x exp − I(0,∞) (x), (1.16)
Γ(α) x

em que α > 0 , β > 0 e Γ (·) é a função gama (1.1). Diz-se que α é um


parâmetro de forma e β é um parâmetro de escala. Por notação, X ∼ GI(α, β).
A esperança e a variância de X são, respectivamente,

β β2
E(X) = e V ar(X) = 2 .
α−1 (α − 1) (α − 2)

A moda de X é
α−1
M oda(X) = ,
α+β−2
se α > 1 e β > 1.

Notar que, se Y ∼ Gama(α, β), então X = 1/Y segue uma distribuição


gama inversa com parâmetros α e β.

1.9.8 Modelo beta


Uma variável aleatória contı́nua X segue uma distribuição beta com parâmetros
α e β se a sua função densidade de probabilidade é dada por

Γ(α + β) α−1 β−1


fX (x) = x (1 − x) I(0,1) (x)
Γ(α)Γ(β)
1 β−1
= xα−1 (1 − x) I(0,1) (x) (1.17)
B(α, β)

em que α > 0 , β > 0, Γ (·) é a função gama (1.1) e B(·) é a função beta
(1.3). Por notação, X ∼ Beta(α, β). A esperança e a variância de X são,
respectivamente,
α αβ
E(X) = e V ar(X) = 2 .
α+β (α + β) (α + β + 1)

A moda de X é
α−1
M oda(X) = ,
α+β−2
20

(a) (b)

4
α = 1, β = 1 α = 1, β = 2
α = 0.5, β = 0.5 α = 2, β = 4
α = 2, β = 2 α = 2, β = 8
3 α = 4, β = 1

3
f X (x)

f X (x)
2

2
1

1
0

0
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

x x

Figura 1.6: Função densidade de probabilidade da distribuição beta para alguns


valores de α e β.

se α > 1 e β > 1.

Notar que, se X ∼ Beta(α, β), então 1 − X ∼ Beta(β, α). E ainda, se


X ∼ Beta(1, 1), então X ∼ U nif orme(0; 1).

Os painéis (a) e (b) da Figura 1.6 mostram os gráficos da função densidade


de probabilidade da distribuição beta para alguns valores de α e β.

1.9.9 Modelo t de Student


Sejam Z e Y variáveis aleatórias independentes, com distribuições Z ∼ N (0; 1)
e Y ∼ χ2 (v). Então,
Z
X=r
Y
v
segue uma distribuição t de Student com v graus de liberdade. Por notação,
X ∼ t(v) . A função densidade de probabilidade de X é
 
v+1 v+1
Γ −
x2

2 2
fX (x) = √ v 1 + I(−∞,∞) (x),
vπΓ v
2
tal que v é o número de graus de liberdade e Γ é a função gama (1.1). Notar
que fX (x) pode ser reescrita na forma
v+1
−
x2

1 2
fX (x) =  1+ I(−∞,∞) (x),


1 v v
vB ,
2 2
1.9. ALGUNS MODELOS PROBABILÍSTICOS CONTÍNUOS 21

na qual B(·) é a função beta (1.3). A média de X é dada por E(X) = 0, se


v > 1, e indefinida, caso contrário, e a variância de X é dada por
( v
se v > 2
V ar(X) = v+2 ,
∞ se 1 < v ≤ 2

e indefinida, se v ≤ 1.

A Figura 1.7 exibe gráficos da função densidade de probabilidade da dis-


tribuição t de Student com 1, 2 e 200 graus de liberdade.
0.4

1 g.l.
2 g.l.
200 g.l.
0.3
f X (x)

0.2
0.1
0.0

−10 −5 0 5 10

Figura 1.7: Função densidade de probabilidade da distribuição t de Student com


1, 2 e 200 graus de liberdade.

1.9.10 Modelo de Cauchy


A função densidade de probabilidade da distribuição de Cauchy é dada por
1
fX (x) = "  2 # I(−∞,∞) (x),
x−µ
πσ 1 +
σ

sendo µ um parâmetro de locação e σ um parâmetro de escala. Por notação,


X ∼ Cauchy(µ, σ). A média de X não existe e sua variância é infinita.

Um caso especial ocorre quando µ = 0 e σ = 1, chamado de distribuição


padrão de Cauchy. Neste caso, fX (x) é equivalente à distribuição t de Student,
quando v = 1. Sua função densidade de probabilidade é
1
fX (x) = I(−∞,∞) (x). (1.18)
π (1 + x2 )
22

0.4
σ=1
σ=2
σ=3

0.3
f X (x)

0.2
0.1
0.0

−6 −4 −2 0 2 4 6

Figura 1.8: Função densidade de probabilidade da distribuição de Cauchy com


µ = 0 e diferentes valores de σ.

A Figura 1.8 descreve gráficos da função densidade de probabilidade da


distribuição de Cauchy com µ = 0 e diferentes valores de σ. Observa-se que as
curvas resultantes são simétricas em torno do parâmetro µ = 0.
A função distribuição acumulada FX (x) é
 
1 x−µ 1
FX (x) = P (X ≤ x) = arctan +
π σ 2

se x ≥ 0 e FX (x) = 0 se x < 0.

Algumas propriedades da distribuição de Cauchy são apresentadas a seguir:

a) Se a e b são constantes conhecidas, e X ∼ Cauchy(µ, σ), então aX + b ∼


Cauchy(aµ + b, |a| σ).

b) Se X ∼ Cauchy(µX , σX ) e Y ∼ Cauchy(µY , σY ) são distribuições indepen-


dentes, então X + Y ∼ Cauchy(µX + µY , σX + σY ).

c) Se X ∼ Cauchy(0, σ), então 1/X ∼ Cauchy(0, σ −1 ).

d) Se X ∼ N (0; 1) e Y ∼ N (0, 1), X e Y independentes, então X/Y ∼


Cauchy(0, 1).
1.10. ALGUNS MODELOS MULTIVARIADOS 23

1.9.11 Modelo F de Snedecor


Sejam W e Y variáveis aleatórias independentes, com distribuição W ∼ χ2 (n)
e Y ∼ χ2 (m). Então,
W
X= n
Y
m
segue uma distribuição F de Snedecor com n e m graus de liberdade. Por
notação, X ∼ Fn,m . A sua função densidade de probabilidade é dada por
 
m+n
Γ
2  n n/2 x(n−2)/2
fx (x) =  n   m  I (x).
Γ Γ m  nx (n+m)/2 (0,∞)
2 2 1 +
m
A média e a variância de X são dadas, respectivamente, por

m 2m2 (n + m − 2)
E(X) = se m > 2 e V ar(X) = se m > 4.
m−2 n(m − 2)2 (m − 4)

Algumas propriedades da distribuição F de Snedecor:


1
a) Se X ∼ Fn,m , então ∼ Fm,n .
X
b) Se X segue uma distribuição t de Student com m graus de liberdade, ou
seja, X ∼ t(m) , então X 2 ∼ F1,m .
1
c) Como consequência das propriedades anteriores, se X ∼ t(n) , então 2 ∼
X
Fn,1 .

1.10 Alguns modelos multivariados


1.10.1 Modelo multinomial
A distribuição multinomial é uma generalização da distribuição binomial con-
siderando n ensaios que resultam em uma dentre k possibilidades, tal que
k
n! Y xi
P (X1 = x1 , X2 = x2 , ..., Xk = xk ) = k
θi
Q
xi ! i=1
i=1

Pk
se xi ∈ {0, ..., n} e i=1 xi = n, e 0 caso contrário. Em cada um dos n ensaios,
a probabilidade de ocorrência da i-ésima possibilidade (i = 1, ..., k) é θi , tal que
Pk
i=1 θi = 1. Para um dado i , i = 1, ..., k, a média de Xi é E(Xi ) = nθi e a
variância de Xi é V ar(Xi ) = nθi (1 − θi ). Para um dado j, sendo j = 1, ..., k e
24

j 6= i, a covariância entre Xi e Xj é Cov(Xi , Xj ) = −nθi θj . Se k = 2, o modelo


multinomial reduz-se ao modelo binomial.

Exemplo 1.10: Em uma população, a distribuição dos indivı́duos conforme


seus grupos sanguı́neos (sistema ABO) se dá conforme o quadro a seguir.

Grupo O A B AB
Frequência 45% 42% 10% 3%

Assim, θ1 = 0, 45, θ2 = 0, 42, θ3 = 0, 10 e θ4 = 0, 03. Se escolhidos ao acaso


10 pessoas desta população, qual é a probabilidade de encontrarmos:

a) 4 pessoas com sangue tipo O, 4 pessoas com sangue tipo A, 2 pessoas com
sangue tipo B e nenhuma pessoa com sangue tipo AB?
10!
P (X1 = 4, X2 = 4, X3 = 2, X4 = 0) = 0, 454 0, 424 0, 102 0, 030
4!4!2!0!
' 0, 0402.

b) 5 pessoas com sangue tipo O, 4 pessoas com sangue tipo A, 1 pessoa com
sangue tipo B e nenhuma pessoa com sangue tipo AB?
10!
P (X1 = 5, X2 = 4, X3 = 1, X4 = 0) = 0, 455 0, 424 0, 101 0, 030
5!4!1!0!
' 0, 0724.

c) 2 pessoas com sangue tipo O, 2 pessoas com sangue tipo A, 2 pessoas com
sangue tipo B e 4 pessoas com sangue tipo AB?
10!
P (X1 = 2, X2 = 2, X3 = 2, X4 = 4) = 0, 452 0, 422 0, 102 0, 034
2!2!2!4!
' 0, 0000055.

1.10.2 Modelo de Dirichlet


A distribuição de Dirichlet de ordem k ≥ 2 possui f dp dada por
P 
k k
Γ i=1 αk Y α −1
fX (x1 , ..., xk−1 , α1 , ..., αk ) = Qk xi i , (1.19)
i=1 Γ (αk ) i=1
Pk−1
para xi > 0 e αi > 0, i = 1, ..., k, satisfazendo a condição i=1 xi < 1 sendo
Pk−1
xk = 1 − i=1 xi . Em (1.19), Γ (·) é a função gama, dada em (1.1). Sendo
α = (α1 , ..., αk ) o vetor de parâmetros e X = (X1 , ..., Xk ), por notação, X ∼
Dir(α). Para um dado i , i = 1, ..., k, a média e a variância de Xi são dadas
respectivamente por
αi αi (A − αi )
E(Xi ) = e V ar(Xi ) = 2 ,
A A (A + 1)
1.11. FAMÍLIA EXPONENCIAL 25

Pk
tal que A = i=1 αk . A covariância entre Xi e Xj para i 6= j é dada por
αi αj
Cov(Xi , Xj ) = − 2 .
A (A + 1)
Notar que a distribuição beta (1.17) é um caso particular da distribuição de
Dirichlet, quando k = 2.

1.10.3 Modelo normal multivariado


A distribuição normal multivariada de ordem k ≥ 2 com vetor de médias µ =
(µ1 , ..., µk )T e matriz de variâncias e covariâncias Σ simétrica e positiva-definida
possui f dp dada por
 
1 1 T −1
fX (x1 , ..., xk ) = k 1 exp − (x − µ) Σ (x − µ) , (1.20)
(2π) 2 |Σ| 2 2

para −∞ < xi < ∞, i = 1, ..., k, tal que |Σ| é o determinante da matriz Σ. Por
notação, X ∼ N Mk (µ, Σ).

1.10.4 Modelo de Wishart


O modelo introduzido por John Wishart em 1928 assume que Y é uma matriz
de dimensões n×k com n > k−1 tal que cada linha de Y segue uma distribuição
normal multivariada, ou seja,
Y(i) = (Xi1 , Xi2 , ..., Xik ) ∼ N Mk (µ, Σ),
i = 1, ..., n, sendo µ = (0, ..., 0)T um vetor de k médias iguais a zero e Σ a
matriz de variâncias e covariâncias. A matriz X de dimensões k × k dada por
X = YT Y segue uma distribuição de Wishart com n graus de liberdade. A f dp
de X é dada por
 
1 n−k−1 1 −1

fX (x1 , ..., xk ) = nk n  |X| 2
exp − tr Σ X ,
2 2 |Σ| 2 Γk n2 2

para −∞ < xi < ∞, sendo Γk (·) uma função gama multivariada dada por (1.2)
e tr(S) o traço da matriz S positiva definida. Por notação, X ∼ W ishartk (Σ, n).
Se σij é o elemento da linha i e coluna j da matriz Σ (sendo 1 ≤ i ≤ k, 1 ≤
j ≤ k), em que σi2 = σii para algum i, a média e a variância de Xij são dadas
por
2
+ σi2 σj2 .

E (Xij ) = nσij e V ar (Xij ) = n σij

1.11 Famı́lia exponencial


Diz-se que a distribuição fX (x |θ), θ ∈ Θ ⊂ R, de uma variável aleatória X
pertence à famı́lia exponencial unidimensional de distribuições se a sua função
de probabilidade ou função densidade de probabilidade pode ser escrita na forma
fX (x |θ) = a(θ)b(x) exp [c(θ)d(x)] , (1.21)
26

tal que a(·) e c(·) são funções reais de θ e b(·) e d(·) são funções reais de x.

Exemplo 1.11: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável


com distribuição de Poisson com média θ. Temos que
e−θ θx 1
fX (x |θ) = I{0,1,...} (x) = e−θ I{0,1,...} (x) exp(ln θ × x)
x! x!
pertence à famı́lia exponencial (1.21), sendo a(θ) = e−θ , b(x) = x! 1
I{0,1,...} (x),
c(θ) = ln θ e d(x) = x.
 
n x n−x
Exemplo 1.12: Seja fX (x |θ) = θ (1 − θ) I{0,1,2,...,n} (x). Dado
x
que
 x   
n−x n θ n θ
θx (1 − θ) = (1 − θ) = (1 − θ) exp x ln ,
1−θ 1−θ
n
 fX (x |θ) pertence à famı́lia
temos que exponencial, sendo a(θ) = (1 − θ) ,
n 
θ

b(x) = I{0,1,2,...,n} (x), c(θ) = ln 1−θ e d(x) = x.
x

Diz-se que a distribuição fX (x |θ), θ = (θ1 , ..., θk ) ∈ Θ ⊂ Rk , de uma


variável aleatória X pertence à famı́lia exponencial k-dimensional (k ≥ 2) de
distribuições se a sua função de probabilidade ou função densidade de probabi-
lidade pode ser escrita na forma
 
Xk
fX (x |θ) = a(θ)b(x) exp  cj (θ)dj (x) ,
j=1

tal que a(·), c1 (·), ..., ck (·) são funções reais de θ e b(·), d1 (·), ..., dk (·) são
funções reais de x.

Exemplo 1.13: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável


com distribuição normal com média µ e variância σ 2 . Assim, k = 2 e θ = (µ, σ 2 ).
Temos
" #
2
1 (x − µ)
fX (x |θ) = √ exp − I(−∞,∞) (x)
2πσ 2σ 2
x2 µ2
 
1 µx
= √ exp − 2 + 2 − 2 I(−∞,∞) (x)
2πσ 2σ σ 2σ
2
x2
   
1 µ 1 µx
= exp − 2 √ I(−∞,∞) (x) exp − 2 + 2 .
σ 2σ 2π 2σ σ
Notamos  que fX (x |θ) pertence à famı́lia exponencial, sendo a(θ) =
 assim,
1 µ2 √1 I(−∞,∞) (x), c1 (θ) = − 1 2 , d1 (x) = x2 , c2 (θ) = µ2 e
σ exp − 2σ 2 , b(x) = 2π 2σ σ
d2 (x) = x.
1.12. FUNÇÃO CARACTERÍSTICA 27

1.12 Função caracterı́stica


A função caracterı́stica φX (t) da variável aleatória X é definida por

φX (t) = E eitX = E (cos tX) + iE (sen tx) ,





tal que t é real e i = −1.

Notas:

a) φX (t) = mX (it),

b) φX (0) = 1 e

c) |φX (t)| ≤ 1.

A função caracterı́stica determina por completo a distribuição de proba-


bilidade de X, tal que, se duas variáveis aleatórias possuem a mesma função
caracterı́stica, elas possuem a mesma função de distribuição.

Exemplo 1.14: Sejam X1 , X2 , ..., Xn variáveis aleatórias independentes e


identicamente distribuı́das, com distribuição de Poisson com média λ. Qual é a
distribuição de
Xn
Y = Xi = X1 + X2 + ... + Xn ?
i=1

Se X ∼ P oisson(λ), a função caracterı́stica de X é


∞ ∞ x
itX
X λ e −λ x
−λ
X eit λ
eitx

φX (t) = E e = i =e
x=0
x! x=0
x!
e−λ exp eit λ = exp λ eit − 1 .
  
=

A função caracterı́stica de Y é
 
φY (t) = φX1 +X2 +...+Xn (t) = E eit(X1 +X2 +...+Xn )
n
Y
E eitXj = exp nλ eit − 1 .
  
=
j=1

Dado que φY (t) é a função caracterı́stica de uma variável aleatória com


distribuição de Poisson com parâmetro nλ, temos que Y ∼ P oisson(nλ).

Notar que, se a1 , a2 , ..., an são constantes conhecidas e X1 , X2 , ..., Xn são


variáveis aleatórias independentes, então a função caracterı́stica de

Y = a1 X1 + a2 X2 + ... + an Xn
28

é dada por
n
Y
φY (t) = φa1 X1 +a2 X2 +...+an Xn (t) = φXj (aj t) .
j=1

Em particular, temos que a função caracterı́stica da soma de duas variáveis


aleatórias X1 e X2 independentes é
h i
φX1 +X2 (t) = E eit(X1 +X2 ) = E eitX1 eitX2 = E eitX1 E eitX2
  

= φX1 (t)φX2 (t).

Exemplo 1.15: Sejam X1 e X2 variáveis aleatórias independentes, com


distribuição X1 ∼ Gama (α1 , β) e X2 ∼ Gama (α2 , β), com α1 > 0, α2 > 0 e
β > 0. De modo geral, se X ∼ Gama (α, β), a função caracterı́stica de X é
dada por
Z ∞ α
βα

β
φX (t) = E eitX = xα−1 e−(β−it)x dx =

.
Γ (α) 0 β − it

Portanto,
 α1  α2
β β
φX1 +X2 (t) = φX1 (t)φX2 (t) =
β − it β − it
 α1 +α2
β
= .
β − it

Temos, portanto, X1 + X2 ∼ Gama (α1 + α2 , β). Por extensão, se X1 , X2 ,


..., Xn são variáveis aleatórias independentes com distribuição Xj ∼ Gama (αj , β),
j = 1, ..., n, temos  
X n Xn
Xj ∼ Gama  αj , β  . (1.22)
j=1 j=1

1.13 Exercı́cios
1. Se X e Y são variáveis aleatórias independentes com variâncias finitas,
demonstre que:

(a) V ar (XY ) = V ar(X)V ar(Y ) + E 2 (X) V ar(Y ) + E 2 (Y ) V ar(X)


(b) V ar(Y ) = E [V ar (Y |X )] + V ar [E (Y |X )]

2. Mostre que:
1.13. EXERCÍCIOS 29

(a) Se a e b são constantes, e X e Y são variáveis aleatórias, Cov(aX, bY ) =


abCov(X, Y ).
(b) Se a1 , a2 , ..., an , b1 , b2 , ..., bm são constantes,
 
X n X m Xn X m
Cov  ai Xi , bj Yj  = ai bj Cov(Xi , Yj ).
i=1 j=1 i=1 j=1

3. Resolva as integrais:
R1 2
(a) 0 x3 (1 − x) dx
R∞
(b) 0 x3 e−2x dx
R∞
(c) 0 xe−x dx
" #
2
R∞ (x − 3)
(d) −∞ exp − dx
8

4. Seja X uma variável aleatória tal que X ∼ Binomial(n, θ).


   
n n−1
(a) Encontre E(X). Dica: x =n .
x x−1
(b) Encontre V ar(X).

5. Encontre E(X) e V ar(X) quando:

(a) fX (x) = axa−1 I(0;1) (x), a > 0


(b) fX (x) = n−1 I{1,2,...,n} (x), n inteiro, n > 0
(c) fX (x) = 23 (x − 1)2 I(0;2) (x),
(d) fX (x) = 12 e|x−θ| I(−∞;∞) (x), em que −∞ < θ < ∞.

6. Considerando X uma variável aleatória, mostre que


 2
2 x
fX (x) = √ exp − I(0;∞) (x)
2π 2
é função densidade de probabilidade.
7. Seja X1 , X2 , ..., Xn uma amostra aleatória com distribuição X ∼ N (µ, σ 2 ).
Mostre que p
n(n − 1)(X n − µ)
q
Pn 2 ∼ t(n−1) .
i=1 Xi − X n

8. Seja Y uma variável aleatória com função de probabilidade


ω + (1 − ω) e−λ se y = 0


P (Y = y) = e−λ λy
 (1 − ω) se y = 1, 2, ...
y!
30

P∞
(a) Mostre que y=0 P (Y = y) = 1
(b) Escreva como devem ser definidos λ e ω, os parâmetros desta dis-
tribuição
(c) Encontre E(Y ) e V ar(Y )
Capı́tulo 2

O método frequentista

Neste capı́tulo, exploraremos alguns conceitos fundamentais do método frequen-


tista, antes de introduzirmos o método bayesiano. Estes conceitos serão úteis,
inclusive, para fazermos algumas analogias entre as duas abordagens. Maiores
detalhes sobre o método frequentista podem ser encontrados em livros texto
como Mood et al. (1974), Casella e Berger (2001) e Millar (2011).

2.1 Estatı́stica
Uma estatı́stica é qualquer função dos elementos de uma amostra aleatória,
que não depende de nenhum parâmetro desconhecido.PSe X1 , X2 , ..., XQ
n é uma
n n
amostra aleatória, são exemplos de estatı́sticas: T1 = i=1 Xi e T2 = i=1 Xi .
Pn Qn θ
Por outro lado, T3 = i=1 (Xi − θ) e T4 = ln ( i=1 Xi ) não são estatı́sticas,
considerando θ desconhecido.

2.2 Estimação paramétrica por ponto


Seja X1 , X2 , ..., Xn uma amostra aleatória de uma função densidade de proba-
bilidade (ou função de probabilidade) f (x; θ). Um estimador para τ (θ), uma
função do parâmetro θ, é qualquer estatı́stica T = g(X1 , X2 , ..., Xn ) utilizada
para representar τ (θ). Se, desta forma, T é um estimador para τ (θ) = θ, deno-
tamos
θ = g(X1 , X2 , ..., Xn ).
b

Dizemos que b
θ é consistente para θ se, para algum ε > 0,
 
lim P bθ − θ > ε = 0.

n→∞

31
32

2.3 Erro quadrático médio


Seja T um estimador de τ (θ). O erro quadrático médio (EQM ) de T é dado
por h i
2
EQM (T ) = E (T − τ (θ)) .

Notar que
EQM (T ) = E T 2 − 2τ (θ)E (T ) + τ 2 (θ),


e, considerando E T 2 = V ar (T ) + E 2 (T ), temos

EQM (T ) = V ar (T ) + E 2 (T ) − 2τ (θ)E (T ) + τ 2 (θ)


2
= V ar (T ) + [E (T ) − τ (θ)]
= V ar (T ) + B 2 (T ) ,

em que B (T ) = E (T ) − τ (θ) é o vı́cio do estimador T .

2.4 Consistência em erro quadrático médio


Seja T1 , T2 , ..., Tn uma sequência de estimadores de τ (θ), sendo Tk = gk (X1 , ...,
Xk ) baseado em uma amostra tamanho k, para k = 1, ..., n. Esta sequência de
estimadores é definida como consistente em erro quadrático médio se e somente
se h i
2
lim E (Tn − τ (θ)) = 0.
n→∞

2.5 Estimador não viciado para τ (θ)


Um estimador T é considerado não viciado para τ (θ) se E (T ) = τ (θ), ou seja,
se
B (T ) = E (T ) − τ (θ) = 0,
para todo θ pertencente ao espaço paramétrico Θ. Neste caso,

EQM (T ) = V ar (T ) .

Por outro lado, um estimador T é considerado assintoticamente não viciado


para θ se
lim B (T ) = 0,
n→∞

para todo θ pertencente ao espaço paramétrico Θ.

2.6 Desigualdade de Cramér-Rao


Seja T = g(X1 , X2 , ..., Xn ) um estimador não viciado de τ (θ). Se satisfeitas as
condições de regularidade
2.6. DESIGUALDADE DE CRAMÉR-RAO 33


a) ln f (x; θ) existe para todo x e todo θ,
∂θ
∂ R R Q n R R ∂ Q n
b) ... f (xi ; θ) dx1 ...dxn = ... f (xi ; θ) dx1 ...dxn ,
∂θ i=1 ∂θ i=1
∂ R R n
Q
c) ... g(x1 , ..., xn ) f (xi ; θ) dx1 ...dxn
∂θ i=1

R R ∂ Q n
= ... g(x1 , ..., xn ) f (xi ; θ) dx1 ...dxn e
∂θ i=1
( 2 )

d) 0 < Eθ ln f (X; θ) < ∞ para todo θ ∈ Θ,
∂θ

então é válida a desigualdade de Cramér-Rao:


2
[τ 0 (θ)]
V arθ (T ) ≥ ( 2 ) ,

nEθ ln f (X; θ)
∂θ

∂τ (θ)
em que τ 0 (θ) = . As condições de regularidade apresentadas referem-se
∂θ
a uma variável aleatória contı́nua, mas podem ser adaptadas a uma variável
aleatória discreta. O lado direito desta desigualdade é chamado limite inferior
de Cramér-Rao.

Consequentemente, a estatı́stica T = g(X1 , X2 , ..., Xn ) é considerada um


estimador não viciado e uniformemente de variância mı́nima (EN V U V M ) para
τ (θ) se:

a) Eθ (T ) = τ (θ) para todo θ ∈ Θ e


b) se T ∗ é qualquer outro estimador não viciado para τ (θ), é sempre válida a
desigualdade V arθ (T ) ≤ V arθ (T ∗ ).

Notar que:
( 2 )  2 
∂ ∂
a) Eθ ln f (X; θ) = −Eθ ln f (X; θ) ,
∂θ ∂θ2


b) a quantidade ln f (X; θ) é chamada função escore, e
∂θ
( 2 )

c) a quantidade I(θ) = Eθ ln f (X; θ) é chamada informação de Fisher
∂θ
de θ.
34

Exemplo 2.1: Seja X1 , X2 , ..., Xn uma amostra aleatória de f (x; θ) =


θe−θx I(0,∞) (x), e seja τ (θ) = θ. Temos τ 0 (θ) = 1 e

∂ ∂ 1
ln f (X; θ) = [ln θ − θX] = − X.
∂θ ∂θ θ

Portanto, se T = t(X1 , X2 , ..., Xn ) é um estimador não viciado de θ,

1 1 θ2
V arθ (T ) ≥ ( 2 ) = nV ar (X) = n .
1 θ
nEθ −X
θ

Exemplo 2.2: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição com função densidade de probabilidade
" #
2
1 (x − θ)
fX (x; θ, σ) = √ exp −
2πσ 2σ 2

com −∞ < x < ∞, −∞ < θ < ∞ e σ > 0, e seja τ (θ) = θ. Temos τ 0 (θ) = 1 e
" #
∂ ∂ √  (X − θ)2 X −θ
ln f (X; θ) = − ln 2πσ − = .
∂θ ∂θ 2σ 2 σ2

Se T = t(X1 , X2 , ..., Xn ) é um estimador não viciado de θ,

1 1 σ2
V arθ (T ) ≥ " 2 # = h i = ,
X −θ Eθ (X − θ)
2 n
nEθ n
σ2 σ4
h i
2 Pn Xi
dado que Eθ (X − θ) = V arθ (X) = σ 2 . Seja a estatı́stica T1 = i=1 n .
Dado que
n
1X
E (T1 ) = E (Xi ) = θ,
n i=1

temos que T1 é não viciado para θ. E ainda,


n
1 X σ2
V ar (T1 ) = 2
V ar (Xi ) = .
n i=1 n

Portanto, T1 é estimador não viciado e uniformemente de variância mı́nima


(EN V U V M ) para θ, dado que a sua variância é igual ao limite inferior de
Cramér-Rao.
2.7. ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA 35

2.7 Estimadores de máxima verossimilhança


Dada uma amostra aleatória X1 , X2 , ..., Xn , tal que estas variáveis aleatórias
seguem a mesma distribuição de probabilidade fX (x, θ) com vetor de parâmetros
θ, a função de verossimilhança da amostra L(x, θ) é dada pela função de dis-
tribuição conjunta da amostra (1.4), ou seja,
n
Y
L(x, θ) = fX1 ,X2 ,....,Xn (x, θ) = f (xi , θ),
i=1

sendo x = (x1 , x2 , ..., xn ) o vetor de observações amostrais de X1 , X2 , ..., Xn .


O método da máxima verossimilhança objetiva encontrar estimadores para os
parâmetros em θ tais que estes estimadores maximizem a “probabilidade de
ocorrência” (ou melhor, verossimilhança) dos elementos da amostra aleatória.

Por simplicidade, se X1 , X2 , ..., Xn é uma amostra aleatória de uma f dp (ou


f p) fX (x, θ) com um único parâmetro θ e X = (X1 , X2 , ..., Xn ), o estimador de
máxima verossimilhança (EM V ) de θ é tal que

θ = maxL(X, θ).
b
θ

Observar que:

a) maximizar a função L(X, θ) é equivalente a maximizar ln L(X, θ);


b) se L(X, θ) é diferenciável em relação a θ, o valor de θ que maximiza L(X, θ)
é tal que
d
ln L(X, θ) = 0;

c) se f (x, θ) depende de mais de um parâmetro, ou seja, θ = (θ1 , ..., θk ), os es-
timadores de máxima verossimilhança são obtidos do sistema de equações

ln L(X, θ) = 0, j = 1, ..., k;
∂θj

d) se b
θ é o EM V de θ e τ (θ) é uma função de θ que possui uma única inversa,
a propriedade de invariância diz que o EM V de τ (θ) é τ (b
θ).

Exemplo 2.3: Seja X1 , X2 , ..., Xn uma amostra aleatória de distribuição


de Poisson, sendo
e−λ λx
fX (x, λ) = ,
x!
com x = 0, 1, 2, ... e λ > 0. A função de verossimilhança é dada por
n n
Y
−nλ
Pn
xi
Y 1
L(x, λ) = fX (xi , λ) = e λ i=1 ,
i=1
x
i=1 i
!
36

e seu logaritmo é dado por


Xn  Xn
ln L(x, λ) = −nλ + xi ln λ − ln xi !.
i=1 i=1

A derivada de ln L(X, λ) em relação a λ é dada por


∂ ln L(X, λ) Xn 1
= −n + Xi .
∂λ i=1 λ
Igualando essa expressão a zero, temos que o estimador de máxima verossim-
ilhança λ
b de λ é dado por
Pn
Xi
λ = i=1 .
b
n
Seja uma amostra aleatória de tamanho n = 20, sendo observados os valores:
9, 11, 4, 11, 4, 4, 9, 5, 7, 9, 5, 10, 7, 6, 10, 7, 12, 4, 5 e 6. A Figura 2.1 mostra um
gráfico de ln L(x, λ) em relação a valores de λ variando de 0 a 15. Observa-se
que o máximo de ln L(x, λ) em relação a λ encontra-se no ponto

b = 9 + 11 + 4 + 11 + ... + 6 = 7, 25.
λ
20

−200

−400
ln L (x|λ)

−600

−800

−1000

−1200
7.25
0 5 10 15

Figura 2.1: Gráfico de ln L(x, λ) em relação a valores de λ.

Exemplo 2.4: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição com densidade
" #
2
1 (x − θ1 )
fX (x, θ) = fX (x; θ1 , θ2 ) = √ exp − ,
2πθ2 2θ2

com −∞ < x < ∞, −∞ < θ1 < ∞ e θ2 > 0. A função de verossimilhança é


dada por
n   n2 " n
#
Y 1 1 X 2
L(x, θ) = fX (xi ; θ1 , θ2 ) = exp − (xi − θ1 ) ,
i=1
2πθ2 2θ2 i=1
2.7. ESTIMADORES DE MÁXIMA VEROSSIMILHANÇA 37

e seu logaritmo é dado por


n
n 1 X 2
ln L(x, θ) = − ln (2πθ2 ) − (xi − θ1 ) .
2 2θ2 i=1

Igualando a expressão
n
∂ ln L(X, θ) 1 X
= (Xi − θ1 )
∂θ1 θ2 i=1

a zero, temos que o estimador b


θ1 de máxima verossimilhança de θ1 é dado por
n
X Xi
θ1 =
b ,
i=1
n

e igualando a expressão
n
∂ ln L(X, θ) n 1 X 2
=− + 2 (Xi − θ1 )
∂θ2 2θ2 2θ2 i=1

a zero e substituindo θ1 por b


θ1 , temos que o estimador b
θ2 de máxima verossim-
ilhança de θ2 é dado por
 2
n
X Xi − b
θ1
θ2 =
b .
i=1
n

Seja, por exemplo, uma amostra de tamanho n = 20, sendo observados os


valores 40,0, 40,2, 35,0, 40,4, 44,2, 39,2, 34,5, 45,5, 40,3, 37,8, 32,0, 35,8, 42,6,
40,5, 36,9, 40,5, 38,6, 39,7, 46,3 e 39,9. As estimativas de máxima verossimi-
lhança de θ1 e θ2 podem ser facilmente obtidas usando o programa R:

x <- c(40.0, 40.2, 35.0, 40.4, 44.2, 39.2, 34.5, 45.5, 40.3, 37.8,
32.0, 35.8, 42.6, 40.5, 36.9, 40.5, 38.6, 39.7, 46.3, 39.9)
n <- length(x)
theta1.hat <- sum(x)/n
theta2.hat <- sum((x-theta1.hat)^2)/n

Obtemos então:

> theta1.hat
[1] 39.495
> theta2.hat
[1] 12.20348

Assim, as estimativas são b


θ1 = 39, 495 e b
θ2 = 12, 20348.
38

2.8 Estatı́stica suficiente


O objetivo de buscar uma estatı́stica suficiente consiste em sumarizar a in-
formação contida em uma amostra aleatória, necessária para estimar um parâme-
tro θ. Assim, uma estatı́stica suficiente para θ é uma função da amostra aleatória
que fornece tanta informação sobre θ quanto a própria amostra. Assim, seja
X1 , X2 , ..., Xn uma amostra aleatória de uma f dp (ou f p) fX (x, θ). Então a es-
tatı́stica T = g(X1 , X2 , ..., Xn ) é suficiente para θ se a distribuição condicional
fX1 ,X2 ,....,Xn (x1 , x2 , ..., xn |T = t ) não depende de θ, sendo t = g(x1 , x2 , ..., xn ).

Exemplo 2.5: Seja X1 , X2 , ..., Xn uma amostra aleatória de P uma dis-


n
tribuição binomial, tal que X ∼ Binomial(1; θ). Seja a estatı́stica T = i=1 Xi .
Temos que T ∼ Binomial(n; θ) e, para 0 ≤ θ ≤ 1 e t = 0, 1, 2, ..., n,

P (X1 = x1 , X2 = x2 , ..., Xn = xn )
fX1 ,....,Xn (x1 , ..., xn |T = t ) =
P (T = t)
Qn Qn
i=1 P (Xi = xi ) θxi (1 − θ)1−xi
= = i=1
P (T = t) n t
θ (1 − θ)n−t
t
Pn Pn
xi
(1 − θ)n− i=1 xi
θ i=1 1
  = =  ,
n t n
θ (1 − θ)n−t
t t
Pn
que não depende de θ. Portanto, T = i=1 Xi é suficiente para θ.

2.8.1 Teorema da fatoração


Seja X1 , X2 , ..., Xn uma amostra aleatória de tamanho n de uma f dp (ou f p)
fX (x, θ). A estatı́stica T = g(X1Q
, X2 , ..., Xn ) é suficiente para θ se e somente se
n
a densidade conjunta L(x, θ) = i=1 fX (xi , θ) pode ser escrita na forma

L(x, θ) = h1 [g(x), θ] × h2 (x),

em que h2 (x) é uma função não negativa que não depende de θ e a função
h1 [g(x), θ] é não negativa e depende de x somente através de g(x).
Notar que se fX (x, θ) pertence à famı́lia exponencial (1.21), temos que
n
Y n
Y
L(x, θ) = fX (xi , θ) = {a(θ)b(xi ) exp [c(θ)d(xi )]}
i=1 i=1
" n
# " n
#
n
Y X
= [a(θ)] b(xi ) exp c(θ) d(xi ) .
i=1 i=1
Pn
Sendo h1 [g(x), θ] = expP[c(θ) i=1 d(xi )] uma função
Pque depende de x so-
n n
mente através de g(x) = i=1 d(xi ), temos que T = i=1 d(Xi ) é suficiente
para θ.
2.9. INTERVALOS DE CONFIANÇA 39

Exemplo 2.6: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição de Bernoulli com probabilidade de sucesso θ. Assim, fX (x, θ) =
θx (1 − θ)1−x I{0;1} (x). Nota-se que

Pn Pn n
Y
xi
L(x, θ) = θ i=1 (1 − θ)n− i=1 xi
I{0;1} (x)
i=1
= h1 [g(x), θ] × h2 (x),
Pn Pn Qn
em que h1 [g(x), θ] = θ i=1 xi (1 − θ)n− i=1 xi e h2 (x) = P i=1 I{0;1} (x), sendo
n
h1 [g(x),
Pn θ] uma função que depende de x através de g(x) = i=1 xi . Portanto,
T = i=1 Xi é suficiente para θ.

Exemplo 2.7: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável


com função densidade de probabilidade fX (x, θ) = θ(1 + x)−(1+θ) I(0;∞) (x), em
que θ > 0. Notar que fX (x, θ) pertence à famı́lia exponencial (1.21), dado que

fX (x, θ) = θ exp [− (1 + θ) ln(1 + x)] I(0;∞) (x),


Pn
com d(x) = ln(1+x). Portanto, pelo teorema da fatoração, T = i=1 ln(1+Xi )
é suficiente para θ.

2.9 Intervalos de confiança


Seja X1 , X2 , ..., Xn uma amostra aleatória de uma função densidade de proba-
bilidade (ou função de probabilidade) f (·, θ). Sejam T1 = t1 (X1 , X2 , ..., Xn ) e
T2 = t2 (X1 , X2 , ..., Xn ) duas estatı́sticas satisfazendo T1 ≤ T2 e Pθ [T1 < τ (θ)
< T2 ] = γ, tal que τ (θ) é uma função de θ estritamente monótona e γ não
depende de θ. O intervalo aleatório (T1 , T2 ) é chamado intervalo de confiança
(IC) para τ (θ), tal que γ é chamado coeficiente de confiança, γ ∈ (0; 1), e T1 e
T2 são, respectivamente, os limites de confiança inferior e superior.

Exemplo 2.8: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma


Pn variável
aleatória X ∼ N (θ; σ 2 ), tal que σ 2 é conhecido. Seja X n = n−1 i=1 Xi , tal
que X n ∼ N (θ; n−1 σ 2 ). Assim,
√
Xn − θ n
∼ N (0; 1).
σ
Considerando P (−1, 96 < Z < 1, 96) = 0, 95 quando Z ∼ N (0; 1), temos
√ !
Xn − θ n
P −1, 96 < < 1, 96 = 0, 95, e
σ
 
σ σ
P X n − 1, 96 √ < θ < X n + 1, 96 √ = 0, 95.
n n
40

Portanto, um intervalo de confiança 95% para θ é


 
σ σ
X n − 1, 96 √ ; X n + 1, 96 √ .
n n
Vamos supor uma amostra de tamanho n = 20, sendo observados os valores
40,0, 40,2, 35,0, 40,4, 44,2, 39,2, 34,5, 45,5, 40,3, 37,8, 32,0, 35,8, 42,6, 40,5,
36,9, 40,5, 38,6, 39,7, 46,3 e 39,9. Suponha σ = 3 conhecido e xn = 39, 495 um
valor de X n obtido desta amostra. A função a seguir, escrita no programa R,
calcula um intervalo de confiança para θ:
x <- c(40.0, 40.2, 35.0, 40.4, 44.2, 39.2, 34.5, 45.5, 40.3, 37.8,
32.0, 35.8, 42.6, 40.5, 36.9, 40.5, 38.6, 39.7, 46.3, 39.9)

ICmedia <- function(x,sigma,coef=0.95) {


z <- qnorm(1-(1-coef)/2)
n <- length(x)
m <- mean(x)
r <- z*sigma/sqrt(n)
print(paste("IC",100*coef,"%: (",round(m-r,3)," ; ",
round(m+r,3),")"))
}
Assim,
ICmedia(x,sigma=3,coef=0.95)
[1] "IC 95 %: ( 38.18 ; 40.81 )"
Nota: No método frequentista, não é correto concluir que há uma proba-
bilidade de 95% do parâmetro θ estar inserido no intervalo (38, 18; 40, 81). O
parâmetro é sempre considerado um valor fixo, e não um evento. Portanto, não
é possı́vel atribuir a θ uma probabilidade. Considera-se que, se obtivermos um
número bastante grande de amostras de tamanho n de uma população, sem-
pre utilizando o mesmo método de amostragem, em aproximadamente 95% das
amostras encontrarı́amos um intervalo de confiança que contém θ. Nos próximos
capı́tulos, veremos que no método bayesiano estes conceitos serão tratados de
forma diferente.

Exemplo 2.9: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável


X ∼ N (0; θ). Sendo
(n − 1) S 2
∼ χ2(n−1) ,
θ
temos
(n − 1) S 2
 
P q1 < < q2 = γ,
θ
q2 > q1 , e, consequentemente, um intervalo de confiança γ × 100% para θ é
(n − 1) S 2 (n − 1) S 2
 
; ,
q2 q1
2.9. INTERVALOS DE CONFIANÇA 41

sendo que escolhemos q1 e q2 tais que a área sombreada sob a curva qui-quadrado
com n − 1 graus de liberdade mostrada na Figura 2.2 é igual a γ. Notar que
não há uma única possı́vel escolha para q1 e q2

0 q1 5 10 q2 15

Figura 2.2: Curva qui-quadrado com n−1 graus de liberdade. A área sombreada
sob a curva, de q1 a q2 , equivale a γ×100% de sua área total e define um intervalo
de confiança γ × 100% para θ.

Nota: Se (T1 , T2 ) é IC γ ×100% para θ, então (τ (T1 ) , τ (T2 )) é IC γ ×100%


para τ (θ) desde que τ (·) seja uma função estritamente monótona. Notar que
Pθ [τ (T1 ) < τ (θ) < τ (T2 )] = Pθ [T1 < θ < T2 ] = γ.

2.9.1 Quantidade pivotal


Seja X1 , X2 , ..., Xn uma amostra aleatória de uma função densidade de proba-
bilidade (ou função de probabilidade) f (·, θ). Seja Q = q(X1 , X2 , ..., Xn , θ).
Notar que Q não é uma estatı́stica, dado que é uma função de X1 , X2 , ..., Xn e
também de θ. Se Q segue uma distribuição que não depende de θ, então Q é
uma quantidade pivotal.
(n − 1) S 2
Exemplo 2.10: Seja Q = , tal que S 2 é a variância amostral,
θ
Pn  2
i=1 Xi − X n
dada por S 2 = . Assim, Q ∼ χ2(n−1) . Observamos que Q é
n−1
quantidade pivotal, dado que é função de X1 , X2 , ..., Xn e θ e a sua distribuição
não depende de θ.
√
Xn − θ n
Exemplo 2.11: Seja Q = , sendo σ conhecido e X n ∼
σ
σ2
 
N θ; . Assim, Q ∼ N (0; 1). Observamos que Q é quantidade pivotal,
n
dado que é função de X1 , X2 , ..., Xn e θ e sua distribuição não depende de θ.
42

2.9.2 Método da quantidade pivotal


Se Q = q(X1 , X2 , ..., Xn , θ) é quantidade pivotal e segue uma função densidade
de probabilidade (ou função de probabilidade), então, para um γ fixo, γ ∈ (0; 1),
existem q1 e q2 tais que P [q1 < Q < q2 ] = γ. Observamos que:

(i) para qualquer distribuição de Q, q1 e q2 são independentes de θ e

(ii) para um γ fixo, não há um único par q1 e q2 tal que P (q1 < Q < q2 ) = γ.
É desejável escolher q1 e q2 tais que a diferença q2 − q1 seja a menor
possı́vel, o que minimiza a amplitude do IC. Se Q segue uma distribuição
normal padrão ou outra distribuição simétrica em torno de 0, o mı́nimo
para q2 − q1 é tal que q2 = −q1 = q.

Assim, os passos para a obtenção de um IC γ × 100% para θ pelo método


da quantidade pivotal são:

(i) encontrar uma quantidade pivotal Q = q(X1 , X2 , ..., Xn , θ) e

(ii) “pivotar” Q, ou seja, encontrar q1 e q2 tais que P (q1 < Q < q2 ) = γ e


a partir daı́ encontrar T1 = g1 (X1 , X2 , ..., Xn ) e T2 = g2 (X1 , X2 , ..., Xn )
satisfazendo T1 ≤ T2 e Pθ [T1 < θ < T2 ] = γ.

Exemplo 2.12: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável


aleatória X ∼ Exp(θ), θ > 0. Desejamos encontrar umPIC γ × 100% para
n
θ. Se X ∼ Exp(θ), então X ∼ Gama(1; θ). Se Y = i=1 Xi , temos que
Y ∼ Gama(n; θ) (ver (1.22)). Notar que Y não é quantidade pivotal, pois sua
distribuição de probabilidade depende de θ. No entanto, Q = 2θY segue uma
distribuição qui-quadrado com 2n graus de liberdade (o que pode ser provado
pela f gm de Q). Como Q = 2θY é função de X1 , X2 , ..., Xn e θ e sua dis-
tribuição não depende de θ, Q é quantidade pivotal. Assim, a probabilidade
P (q1 < Q < q2 ) = γ, tal que Q = 2θY ∼ χ2(2n) , é utilizada para gerar o IC
γ × 100% para θ. De
 
n
!
X  q1 q2 
P (q1 < Q < q2 ) = P q1 < 2θ Xi < q2 =P
 P n <θ< Pn
 = γ,

i=1 2 Xi 2 Xi
i=1 i=1

temos que um IC γ × 100% para θ tem por limites inferior e superior, respec-
tivamente,
q1 q2
n
P e Pn .
2 Xi 2 Xi
i=1 i=1
2.9. INTERVALOS DE CONFIANÇA 43

2.9.3 Obtenção de quantidades pivotais


Se X1 , X2 , ..., Xn é uma a.a. de uma variável contı́nua com função densidade
de probabilidade f (·, θ), uma quantidade pivotal Q = q(X1 , X2 , ..., Xn , θ) pode
ser encontrada a partir destes três resultados:

Resultado 1: Se X1 , X2 , ..., Xn é uma a.a. de uma função densidade de


probabilidade com distribuição FX (·) contı́nua, então
Y = FX (X) ∼ U (0; 1).
Este resultado pode ser demonstrado a partir da relação:
 −1 −1

FY (y) = P (Y ≤ y) = P [FX (X) ≤ y] = P FX (FX (X)) ≤ FX (y)
−1
   −1 
= P X ≤ FX (y) = FX FX (y) = y (2.1)
se 0 ≤ y < 1, FY (y) = 0 se y < 0 e FY (y) = 1 se y > 1, o que caracteriza uma
distribuição uniforme no intervalo (0; 1).

Resultado 2: Se Y ∼ U (0; 1), então W = − ln Y segue uma distribuição


W ∼ Exp(1). Notar que
FW (w) = P (W ≤ w) = P (− ln Y ≤ w) = 1 − P (ln Y ≤ −w)
= 1 − P Y ≤ e−w = 1 − FY (e−w ).


De (2.1), temos FY (e−w ) = e−w para w > 0. Assim, FW (w) = 1 − e−w , o que
caracteriza uma distribuição exponencial (ver (1.14)) com parâmetro igual a 1.

W2 , ..., Wn é uma a.a. com distribuição W ∼ Exp(1),


Resultado 3: Se W1 ,P
n
então W ∼ Gama(1; 1) e i=1 Wi ∼ Gama(n; 1) (ver (1.22)).

Se X1 , X2 , ..., Xn são variáveis aleatórias contı́nuas independentes e identica-


mente distribuı́das (iid) com distribuição FX (·), a partir destes três resultados
temos as relações:
Yi = FX (Xi ) ∼ U (0; 1), i = 1, ..., n,
− ln Yi = − ln FX (Xi ) ∼ Exp(1), i = 1, ..., n, e
n
X Yn
[− ln FX (Xi )] = − ln FX (Xi ) ∼ Gama(n; 1).
i=1 i=1
n
P n
Q
Como Q = [− ln FX (Xi )] = − ln FX (Xi ) é função de X1 , X2 , ..., Xn
i=1 i=1
e de θ e sua distribuição não depende de θ, Q é quantidade pivotal.

Exemplo 2.13: Seja X1 , X2 , ..., Xn uma amostra aleatória de f (x; θ) =


θxθ−1 I(0,1) (x). Desde que FX (x) = xθ I(0,1) (x) + I[1,∞) (x),
n
Y n
Y n
Y
Q = − ln FX (Xi ) = − ln Xiθ = −θ ln Xi ∼ Gama(n; 1)
i=1 i=1 i=1
44

é quantidade pivotal.

Exemplo 2.14: Seja X1 , X2 , ..., Xn uma amostra aleatória com distribuição


X ∼ U (0, θ). Como f (x; θ) = θ−1 I(0,θ) (x), então
Z x
1 x
FX (x) = dy = I[0,θ) (x) + I[θ,∞) (x).
0 θ θ
Assim,
n n
Y Y Xi
Q = − ln FX (Xi ) = − ln ∼ Gama(n; 1)
i=1 i=1
θ
é quantidade pivotal.

2.10 Método assintótico


Seja X uma variável aleatória com função densidade de probabilidade (ou função
de probabilidade) f (x; θ) e seja b
θn = g(X1 , X2 , ..., Xn ) o estimador de máxima
verossimilhança (EM V ) de θ para uma amostra aleatória de tamanho n de
f (x; θ). Temos que b θn segue uma distribuição assintoticamente normal com
média θ e variância
1 1
σn2 (θ) = ( 2 ) =  2 .
∂ ∂
nEθ ln f (X; θ) −nEθ ln f (X; θ)
∂θ ∂θ2

Se Tn é uma sequência de estimadores de θ com distribuição assintoticamente


normal, podemos obter intervalos de confiança aproximados para θ tratando
T −θ Tn − θ
pn =
σn2 (θ) σn (θ)
como uma quantidade pivotal aproximada, com distribuição assintótica normal
padrão.

Exemplo 2.15: Seja X1 , X2 , ..., Xn uma amostra aleatória de


f (x; θ) = θe−θx I(0,∞) (x).
−1
θn = X n , com média θ e variância σn2 (θ). Dado que
O EM V de θ é b
∂ ∂ 1
ln f (X; θ) = [ln θ − θX] = − X,
∂θ ∂θ θ
a variância σn2 (θ) é dada por
1 1 θ2
σn2 (θ) = ( 2 ) = nV ar (X) = n .
1 θ
nEθ −X
θ
2.11. TESTE DE HIPÓTESES FREQUENTISTA 45

Assim, uma quantidade pivotal aproximada é dada por


 
1
−θ n
Xn
Q= ∼ N (0; 1).
θ

2.11 Teste de hipóteses frequentista


Uma hipótese estatı́stica é uma conjectura sobre um parâmetro desconhecido
θ de uma variável aleatória com distribuição Fθ . No método frequentista, são
assumidas duas hipóteses, a hipótese nula (H0 ) e a hipótese alternativa (HA ),
ou seja, para um espaço paramétrico denotado por Θ,

H0 : θ ∈ Θ0 é a hipótese nula, em que Θ0 ⊂ Θ, e


HA : θ ∈ ΘC C
0 é a hipótese alternativa, em que Θ0 = ΘA
é o complemento de Θ0 .

Um teste de hipóteses, denotado por Υ, é uma regra usada para decidir


quando rejeitar (ou não) uma hipótese nula (H0 ). Essa regra é baseada em
uma amostra aleatória X1 , X2 , ..., Xn de uma distribuição Fθ . A rejeição de H0
quando H0 é verdadeira é chamada de erro tipo I, e a não rejeição de H0 quando
H0 é falsa é chamada de erro tipo II. Assim, denotam-se as probabilidades
condicionais:

Tamanho de um erro tipo I = P (rejeitar H0 |H0 é verdadeira )


Tamanho de um erro tipo II = P (não rejeitar H0 |HA é verdadeira ).

Exemplo 2.16: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição de Bernoulli com probabilidade de sucesso θ. Sejam as hipóteses

H0 : θ 6= 1/2
HA : θ = 1/2.

Como regra de decisão, decidimos rejeitar H0 se 1/4 ≤ T (X) ≤ 3/4, em que


n
X Xi
T (X) =
i=1
n

é denominada estatı́stica do teste, ou seja, é a estatı́stica T (X) = g(X1 , X2 , ..., Xn )


utilizada para gerar a regra de decisão com base na amostra. Dado que rejeitare-
mos H0 se e somente se T (X) ∈ [1/4; 3/4], definimos a região crı́tica CΥ do teste
Υ como
CΥ = {(x1 , x2 , ..., xn ) : T (x1 , x2 , ..., xn ) ∈ [1/4; 3/4]}.
46

2.11.1 Hipóteses simples e compostas


Se uma hipótese estatı́stica especifica completamente a distribuição em questão,
ou seja, é constituı́da por apenas um particular valor do parâmetro, a denomi-
namos hipótese simples. Caso contrário, a denominamos hipótese composta. Por
exemplo, se θ é um parâmetro de uma variável com distribuição Fθ , H0 : θ = 2
é uma hipótese simples, enquanto HA : θ ≥ 2 é uma hipótese composta.

Em adição, considerando θ0 uma constante conhecida, um teste da forma

H0 : θ = θ0
HA : θ 6= θ0

é conhecido como teste bilateral, devido a forma da hipótese alternativa. Neste


caso, o espaço paramétrico Θ é tal que Θ = Θ0 ∪ ΘA , em que Θ0 = {θ0 } e
ΘA = ΘC 0 = (−∞, θ0 ) ∪ (θ0 , ∞). Por outro lado, um teste da forma

H0 : θ = θ0
HA : θ > θ0

é conhecido como teste unilateral. Agora o espaço paramétrico Θ é dado por


[θ0 , ∞), em que Θ0 = {θ0 } e ΘA = ΘC0 = (θ0 , ∞).

2.11.2 Poder do teste


A função poder do teste Υ, denotada por βΥ (θ), é a probabilidade de H0 ser
rejeitada quando a distribuição da qual a amostra foi retirada é parametrizada
em θ. Portanto, é desejado que βΥ (θ) assuma valores relativamente grandes se
H0 é falsa.

2.11.3 Tamanho do teste


O tamanho do teste Υ, denotado por αΥ , é dado por

αΥ = sup {βΥ (θ) : θ ∈ Θ0 } = sup {βΥ (θ)} = sup {T (X) ∈ CΥ |θ } ,


θ∈Θ0 θ∈Θ0

ou seja, a menor cota superior de βΥ (θ) em que a hipótese nula é verdadeira. O


tamanho αΥ do teste Υ é comumente chamado de nı́vel de significância.

Exemplo 2.17: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição normal com média θ e variância igual a 25. Sejam as hipóteses
H0 : θ ≤ 17 e HA : θ > 17, e a estatı́stica de teste Υ dada por
n
X Xi
T (X) = X n = .
i=1
n
2.11. TESTE DE HIPÓTESES FREQUENTISTA 47


Rejeitaremos H0 se T (X) > 17 + 5/ n, ou seja, a região crı́tica é dada por
 
5
CΥ = (x1 , x2 , ..., xn ) : xn > 17 + √ .
n

Considerando
 que, se X ∼ N (θ, 25), a distribuição amostral de X n é X n ∼
N θ, √25n , a função poder do teste Υ é dada por
 
5
βΥ (θ) = P X n > 17 + √ θ
n
√ √ √ !
Xn − θ n 17 n + 5 − θ n
= P > θ
5 5
 √ √ 
17 n + 5 − θ n
= P Z> ,
5

em que Z ∼ N (0, 1). O tamanho do teste Υ é dado por


 √ √ 
17 n + 5 − θ n
αΥ = sup {βΥ (θ) : θ ≤ 17} = sup P Z > .
θ≤17 5

2.11.4 Lema de Neyman-Pearson


Seja X1 , X2 , ..., Xn uma amostra aleatória de f (x; θ) e sejam as hipóteses H0 :
θ = θ0 e HA : θ = θ1 , θ0 e θ1 constantes, θ0 6= θ1 . O lema de Neyman-Pearson
diz que a região crı́tica CΥ de tamanho αΥ mais adequado para testar estas
hipóteses é aquela que satisfaz a

L (x1 , x2 , ..., xn ; θ0 )
a) ≤ k se (x1 , x2 , ..., xn ) ∈ CΥ ,
L (x1 , x2 , ..., xn ; θ1 )

L (x1 , x2 , ..., xn ; θ0 ) C
b) > k se (x1 , x2 , ..., xn ) ∈ CΥ ,e
L (x1 , x2 , ..., xn ; θ1 )

c) Pθ0 [(X1 , X2 , ..., Xn ) ∈ CΥ ] = αΥ ,


C
em que L(x1 , x2 , ..., xn ; θ) é a função de verossimilhança da amostra, CΥ é o
complemento de CΥ , αΥ é determinado tal que 0 < αΥ < 1 e k é uma constante
tal que k > 0 (ver demonstração em Mood et al., 1975, p.412, ou em Hogg e
Craig, 1978, p.245).

Exemplo 2.18: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição fX (x; θ) = θe−θx I(0,∞) (x), em que θ > 0. Desejamos testar as
hipóteses H0 : θ = 2 e HA : θ = 4. Sendo
 Xn 
L(x1 , x2 , ..., xn ; θ) = θn exp −θ xi ,
i=1
48

rejeitamos H0 quando
Pn Pn
L (x1 , x2 , ..., xn ; θ0 ) θ0n exp (−θ0 i=1 xi ) 2n exp (−2 i=1 xi )
= n Pn = n Pn ≤ k,
L (x1 , x2 , ..., xn ; θ1 ) θ1 exp (−θ1 i=1 xi ) 4 exp (−4 i=1 xi )

ou seja, quando em uma amostra tamanho n, encontramos


 Xn 
exp 2 xi ≤ 2n k, ou
i=1
Xn ln (2n k)
xi ≤ .
i=1 2
Pn
Assim, seja a estatı́stica de teste Y = T (X) = i=1 Xi . Dado que X ∼
Exp(θ) (ver (1.13)), temos que Y ∼ Gama(n, θ) (o que pode ser verificado
encontrando a função caracterı́stica de Y ). A constante k é então escolhida de
acordo com uma especificação do tamanho αΥ do teste, ou seja, k é tal que
ln (2n k)
 
P Y ≤ θ = 2 = αΥ .
2

2.11.5 Teste da razão de verossimilhanças


Seja X1 , X2 , ..., Xn uma amostra aleatória de fX (x; θ), θ ∈ Θ, e sejam as
hipóteses H0 : θ ∈ Θ0 e HA : θ ∈ Θ1 , em que Θ0 ⊂ Θ, Θ1 = ΘC 0 ⊂ Θ e
Θ0 e Θ1 são disjuntos. A razão de verossimilhanças é definida por
n
Q
sup L (x1 , x2 , ..., xn ; θ) sup fX (xi ; θ)
θ∈Θ0 θ∈Θ0 i=1
Λn = Λ(x1 , x2 , ..., xn ) = = n .
supL (x1 , x2 , ..., xn ; θ) Q
θ∈Θ sup fX (xi ; θ)
θ∈Θ i=1

Assim, Λ(X) é uma estatı́stica usada para testar as hipóteses H0 : θ ∈ Θ0 e


HA : θ ∈ Θ1 , sendo H0 rejeitada se e somente se Λ(X) ≤ k, em que a constante
k é determinada de acordo com a especificação do tamanho αΥ do teste, ou seja,
k é tal que
sup P (Λ(X) ≤ k) = αΥ .
θ∈Θ0

Exemplo 2.19: Seja X1 , X2 , ..., Xn uma amostra aleatória de uma dis-


tribuição normal com média θ e variância σ 2 conhecida. Desejamos testar as
hipóteses H0 : θ = θ0 e HA : θ 6= θ0 , sendo θ0 conhecido. Temos
" n
#
2 −n/2
 1 X 2
L(x; θ) = 2πσ exp − 2 (xi − θ) .
2σ i=1

A função L(x; θ) tem seu máximo em θ = X n . Portanto,


n
" n
#
Y
2 −n/2
 1 X 2
sup fX (xi ; θ) = 2πσ exp − 2 xi − X n ,
θ∈Θ i=1 2σ i=1
2.11. TESTE DE HIPÓTESES FREQUENTISTA 49

e
n
 n

2
exp − 2σ1 2
Q P
sup fX (Xi ; θ) (Xi − θ0 )
θ∈Θ0 i=1 i=1
Λ(X) = n =  n

Q 1
2
sup fX (Xi ; θ)
P
exp − 2σ2 Xi − X n
θ∈Θ i=1 i=1
( " n #)
1 X 2 2
= exp − 2 (Xi − θ0 ) − (n − 1)S ,
2σ i=1

Pn 2
em que S 2 = i=1 Xi − X n /(n − 1) é a variância amostral. Notar que
n n
X 2
X 2 2 2
(Xi − θ0 ) = Xi − X n + n X n − θ0 = (n − 1)S 2 + n X n − θ0 .
i=1 i=1

Portanto, " 2 #
n X n − θ0
Λ(X) = exp − ,
2σ 2

sendo H0 rejeitada se e somente se Λ(X) ≤ k, para um valor constante de k.


Notar que a desigualdade
" 2 #
n X n − θ0
exp − ≤k
2σ 2

é equivalente a
X n − θ 0 √n


−2 ln k,
>
σ

ou seja, rejeitamos H0 se Λ∗ (X) = X n − θ0 σ −1 n for maior que k ∗ =

−2 ln k. A constante k ∗ é determinada tal que, para um αΥ fixo,

X n − θ 0 √n
!

P >k = αΥ .
σ

Sob H0 , temos que Λ∗ (X) ∼ N (0; 1). Seja, por exemplo, αΥ = 0, 05. Re-
jeitamos H0 se, considerando
√ as observações de uma amostra tamanho n, a
quantidade |xn − θ0 | σ −1 n é maior que 1, 96.

2.11.6 Nı́vel descritivo


Para uma regra de decisão baseada em uma estatı́stica T = T (X), o nı́vel
descritivo do teste Υ (também chamado de valor p ou nı́vel de significância ob-
servado), é a menor possibilidade de escolha para αΥ que permite ao pesquisador
rejeitar H0 . Sejam as hipóteses H0 : θ ∈ Θ0 e HA : θ ∈ ΘC C
0 , tal que Θ0 ⊂ Θ e Θ0
é o complemento de Θ0 , e seja tn = T (x) o valor observado de T em uma amostra
50

aleatória tamanho n. Se decidirmos rejeitar H0 quando T ≤ k, em que k é um


número real, o nı́vel descritivo será dado por P ( T ≤ tn | θ ∈ Θ0 ). Se decidirmos
rejeitar H0 quando T ≥ k, o nı́vel descritivo será dado por P ( T ≥ tn | θ ∈ Θ0 ).
Desta forma, alguns autores definem o nı́vel descritivo como a probabilidade de
observar resultados tão extremos quanto os obtidos da amostra se a hipótese
nula for verdadeira.

Nas aplicações dos testes de hipóteses em diferentes áreas de pesquisa, é


comum a prática de adotar-se um teste de tamanho (nı́vel de significância)
αΥ , fixado previamente à obtenção dos dados amostrais, sendo a hipótese H0
rejeitada quando o nı́vel descritivo obtido da amostra é menor que o valor de
αΥ e não rejeitada caso contrário.

2.12 Exercı́cios
1. Verifique se as seguintes funções densidade de probabilidade pertencem à
famı́lia exponencial, e, se pertencem, encontre uma estatı́stica suficiente
para θ ∈ Θ.
1  x
(a) fX (x) = exp − I(0,∞) (x)
θ θ
(b) fX (x) = exp [− (x − θ)] I(0,∞) (x)
2 (θ − x)
(c) fX (x) = I[0,θ] (x)
θ2
2. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição com função
densidade de probabilidade
θ
(
se 0 < θ ≤ x < ∞
fX (x) = x2
0 caso contrário
Encontre um estimador de máxima verossimilhança para θ.
3. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição com função
densidade de probabilidade
1  x
fX (x) = exp − I(0,∞) (x).
θ θ
Encontre um estimador não viciado e uniformemente de variância mı́nima
(EN V U V M ) para τ (θ).
4. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma variável aleatória com
função de distribuição cumulativa
 θ2
θ1
FX (x) = 1 − I(θ1 ,∞) (x).
x
Encontre os estimadores de máxima verossimilhança de θ1 e θ2 .
2.12. EXERCÍCIOS 51

5. Seja X1 , X2 , ..., Xn uma amostra aleatória de uma distribuição


1
fX (x) = I[θ,2θ] (x), θ > 0.
θ
(a) Mostre que fX (x) é função densidade de probabilidade.
(b) Encontre E(X) e V ar(X).
(c) Encontre um EM V para θ.
52
Capı́tulo 3

Métodos bayesianos

3.1 Introdução
A inferência bayesiana é baseada na fórmula de Bayes dada a seguir:
Seja A1 , A2 , . . . , Ak uma sequência de eventos mutuamente exclusivos e ex-
Sk
austivos, formando uma partição do espaço amostral Ω, isto é, Aj = Ω e
j=1
Ai ∩ Aj = φ (conjunto vazio) para i 6= j tal que
 
[k Xk
P Aj  = P (Aj ) = 1.
j=1 j=1

Então, para qualquer outro evento B (B ⊂ Ω), temos

P (B | Ai ) P (Ai )
P (Ai | B) = k
(3.1)
P
P (B | Aj ) P (Aj )
j=1

para todo i variando de 1 até k. Podemos interpretar a fórmula de Bayes (3.1) da


seguinte forma: antes do conhecimento de qualquer informação sobre o evento
Ai , atribuı́mos uma probabilidade a priori para Ai , dada por P (Ai ). Essa pro-
babilidade é atualizada a partir da ocorrência do evento B. Essa probabilidade
atualizada, ou probabilidade condicional do evento Ai dado a ocorrência do
evento B, ou seja, P (Ai | B) é dada pela fórmula de Bayes (3.1).

Exemplo 3.1: Um novo teste diagnóstico para detectar o vı́rus HIV é


apresentado como tendo 95% de sensibilidade e 98% de especificidade. Em uma
população com um prevalência de 1/1000 para o vı́rus HIV, qual é a chance de
alguma pessoa com teste positivo ter realmente o vı́rus HIV? Seja A o evento que
representa o indivı́duo que realmente é portador do vı́rus HIV. Vamos denotar
por Ā o evento complementar, isto é, o indivı́duo realmente não é portador do

53
54

vı́rus HIV e seja B o evento que representa um resultado positivo para o teste.
Temos interesse em determinar P (A | B). Observe que uma sensibilidade igual
a 95% é dada por

P (B | A) = (teste positivo | indivı́duo é portador do vı́rus HIV) = 0, 95

e uma especificidade igual a 98% é dada por



P B | A = (teste negativo | indivı́duo não é portador do vı́rus HIV) = 0, 98,
 
isto é, P B | A = 1 − P B | A = 0, 02.

Pela fórmula de Bayes (3.1), temos

P (B | A) P (A)
P (A | B) =  ,
P (B | A) P (A) + P B | Ā P Ā

Observe que neste caso os eventos A e A particionam o espaço amostral Ω.


Assim,
0, 95 × 0, 001
P (A | B) = = 0, 045.
0, 95 × 0, 001 + 0, 02 × 0, 999
Observe que P (A) = 0, 001 é a probabilidade a priori de um indivı́duo ser
portador do vrus HIV (prevalência do virus HIV na população) e P (A | B) =
0, 045 é a probabilidade a posteriori atualizada com a informação de um teste
com resultado positivo para o indivı́duo. Desse resultado, observamos que mais
de 95% dos indivı́duos com resultados positivos para o teste não é portador o
vrus HIV.

Vamos assumir agora que temos um vetor de dados y = (y1 , . . . , yn ) 0 e


quantidades desconhecidas θ representando os parâmetros de uma distribuição
de probabilidade associada com a variável aleatória Yi com valores observados
yi , i = 1, . . . , n.

Considerando uma amostra aleatória y = (y1 , . . . , yn ) 0, isto é, os dados são


independentes e identicamente distribuı́dos com uma distribuição conjunta dada
pela densidade f (y | θ), também definida como função de verossimilhança para
θ quando os dados foram observados e uma distribuição a priori para θ, dada por
π (θ), assumindo os valores discretos θ1 , . . . , θk , temos de (3.1), a distribuição a
posteriori para θi dado y,

f (y | θi ) π (θi )
π (θi | y) = k
. (3.2)
P
f (y | θj ) π (θj )
j=1

Observar que o parâmetro θ também é considerado como uma quantidade


aleatória sob o enfoque bayesiano.
3.1. INTRODUÇÃO 55

Supondo agora que o parâmetro θ assume valores contı́nuos num dado in-
tervalo, podemos escrever (3.2) na forma

f (y | θ) π (θ)
π (θ | y) = R , (3.3)
f (y | θ) π (θ) dθ

em que a integral no denominador de (3.3) é definida no intervalo de variação


de θ.

Exemplo 3.2: Seja Y uma variável aleatória com distribuição binomial


(1.9) denotada por Binomial (n, θ), em que o parâmetro θ é assumido com uma
distribuição a priori beta (1.17), denotada por Beta (a, b), com hiperparâmetros
a e b conhecidos. Assim,
 
n y n−y
f (y | θ) = θ (1 − θ) ,
y
em que y = 0, 1, 2, . . . , n, e
1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)

sendo que B (a, b) denota uma função beta, dada por (1.3), e Γ (a) denota uma
função gama, dada por (1.1). A distribuição a posteriori para θ é dada, a partir
de (3.3), por
n+b−y−1
θy+a−1 (1 − θ)
π (θ | y) = R 1 n+b−y−1
.
0
θy+a−1 (1 − θ) dθ
Como
1
Γ (y + a) Γ (n + b − y)
Z
n+b−y−1
θy+a−1 (1 − θ) dθ = ,
0 Γ (n + a + b)
temos
1 n+b−y−1
π (θ | y) = θy+a−1 (1 − θ) (3.4)
B (y + a, n + b − y)
para 0 < θ < 1. Observar que a distribuição a posteriori para θ também é dada
por uma distribuição beta, agora com parâmetros y + a e n + b − y.

Exemplo 3.3: Seja Y uma variável aleatória com distribuição de Poisson


(1.10) com parâmetro θ. Vamos assumir que θ é uma quantidade aleatória com
distribuição gama (1.15), denotada por Gama (α, β), com hiperparâmetros α e
β conhecidos. Assim,
exp (−θ) θy
f (y | θ) = ,
y!
em que y = 0, 1, 2, . . . e
β α α−1
π (θ) = θ exp (−βθ) , (3.5)
Γ (α)
56

em que θ > 0. Considerando uma amostra aleatória y1 , . . . , yn de tamanho n


da distribuição de Poisson (1.10) com parâmetro θ, a função de verossimilhança
para θ é dada por
n
Y
L (θ) = f (y | θ) = f (yi | θ) =
i=1
n
Y exp (−θ) θyi exp (−nθ) θnȳ
= = n ,
yi ! Q
i=1 yi !
i=1

n
P
em que ny = yi .
i=1
De (3.3), a distribuição a posteriori para θ é dada por

π (θ) L (θ)
π (θ | y) = R∞
π (θ) L (θ) dθ
0
θα+nȳ−1 exp [− (n + β) θ]
= R∞ .
θα+nȳ−1 exp [− (n + β) θ] dθ
0

Como
Z∞
Γ (α + nȳ)
θα+nȳ−1 exp [− (n + β) θ] dθ = α+nȳ ,
(n + β)
0

encontramos
α+nȳ
(n + β) θα+nȳ−1 exp [− (n + β) θ]
π (θ | y) = . (3.6)
Γ (α + nȳ)

Observar que a distribuição a posteriori para θ também é uma distribuição


gama (1.15), agora com parâmetros α + nȳ e n + β.

Exemplo 3.4 (Ensaios de Bernoulli com priori discreta): Assumir


que uma droga pode ter taxa de resposta θ igual a 0, 2, 0, 4, 0, 6 ou 0, 8, cada
uma com mesma probabilidade a priori. Se observamos uma única resposta
positiva (y = 1), como nossa crença pode ser revisada? Neste caso, a função de
verossimilhança é dada por
1−y
f (y | θ) = θy (1 − θ) .

A Tabela 3.1 mostra valores para a distribuição a posteriori π (θi | y = 1),


encontrados a partir de (3.2). Sob o enfoque bayesiano, como Y e θ são quan-
tidades aleatórias, podemos determinar a predição de forma direta.
3.2. DISTRIBUIÇÕES A PRIORI CONJUGADAS 57

Tabela 3.1: Ensaios de Bernoulli com priori discreta.

θi priori verossimilhança × priori posteriori


π (θi ) f (y = 1 | θi ) π (θi ) π (θi | y = 1)
0, 2 0, 25 0, 05 0, 10
0, 4 0, 25 0, 10 0, 20
0, 6 0, 25 0, 15 0, 30
0,
P8 0, 25 0, 20 0, 40
1, 00 0, 50 1, 00
i

Vamos supor que desejamos prever o resultado de uma nova observação,


digamos Z, dado que foi observado o resultado y. Como θ é discreto, temos
X
f (z | y) = f (z, θj | y) .
j

Assumindo Z condicionalmente independente de y dado θ, temos


X
f (z | y) = f (z | θj ) wj , (3.7)
j

em que wj = π (θj | y) representa os pesos a posteriori. Dos resultados da


Tabela 3.1, encontrados de (3.7), a probabilidade preditiva de que o próximo
tratamento seja bem sucedido (sucesso, isto é, z = 1) dado que foi observado
um tratamento bem sucedido (y = 1) é dada por
X
f (z = 1 | y = 1) = θj wj
j
= 0, 2 × 0, 1 + 0, 4 × 0, 2 + 0, 6 × 0, 3 + 0, 8 × 0, 4
= 0, 60.

Observar que f (z | θj ) = θj para z = 1 e wj = π (θj | y) = π (θj | y = 1).

Nota: Uma distribuição a priori π (θ) não precisa ser uma densidade própria
para que π (θ | y) seja uma distribuição própria.

3.2 Distribuições a priori conjugadas


Uma famı́lia de distribuições é conjugada se as distribuições a posteriori per-
tencem a esta mesma famı́lia de distribuições. Como um caso especial, vamos
considerar observações independentes e identicamente distribuı́das (observações
iid) cuja distribuição pertence à famı́lia exponencial (1.21),

f (yi | θ) = exp [a (θ) b (yi ) + c (θ) + d (yi )] .


58

Com as observações yi , a função de verossimilhança para θ é dada por


" n
#
X
L (θ) ∝ exp a (θ) b (yi ) + nc (θ) . (3.8)
i=1

Uma distribuição a priori conjugada para θ com k1 e k2 conhecidos é dada


por
π ∗ (θ | k1 , k2 ) ∝ exp [k1 a (θ) + k2 c (θ)] . (3.9)
Combinando (3.8) e (3.9), a distribuição a posteriori para θ é dada por
( " n # )
X
π (θ | y) ∝ exp a (θ) b (yi ) + k1 + c (θ) [n + k2 ] ,
i=1

ou seja, " #
n
X
π (θ | y) = π ∗ θ | k1 + b (yi ) , n + k2 .
i=1

Exemplo 3.5: No Exemplo 3.2, observamos que as distribuições a posteriori


e a priori para θ seguem a mesma famı́lia de distribuição. Como ilustração,
vamos supor que um epidemiologista objetiva estimar a prevalência de uma
doença em uma determinada população. Ele considera que, nessa população, a
probabilidade de uma pessoa portar a doença é P (X = 1) = θ, e a probabilidade
de uma pessoa não portar a doença é P (X = 0) = 1 − θ. Se a variável aleatória
Y denota o número de portadores da doença em uma amostra de tamanho n,
temos  
n y n−y
f (y | θ) = θ (1 − θ) ,
y
em que y = 0, 1, 2, . . . , n, e a distribuição a priori para θ é dada por
1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)

com a e b conhecidos. O epidemiologista, de sua experiência, acredita que


a proporção de pessoas doentes na população é próxima a 13%. Assim, ele
considerou os valores a = 3 e b = 20, de modo que
19
π (θ) ∝ θ2 (1 − θ) I(0,1) (θ).

Notar que a média da distribuição a priori para θ é a/(a + b) = 3/23 ≈ 0, 13.


A Figura 3.1 mostra o gráfico de π (θ), representando o conhecimento a priori
para θ.

Da expressão (3.4), temos que a distribuição a posteriori para θ é dada por

1 n−y+19
π (θ | y) = θy+2 (1 − θ) ,
B (y + 3, n + 20 − y)
3.2. DISTRIBUIÇÕES A PRIORI CONJUGADAS 59

7
6
5
4
π(θ)

3
2
1
0

0.0 0.2 0.4 0.6 0.8 1.0

Figura 3.1: Gráfico da distribuição a priori π (θ).

com 0 < θ < 1. Vamos supor que, em uma amostra de tamanho n = 300, o
epidemiologista encontrou y = 31 pessoas portadoras da doença. Considerando
que π (θ | y) segue uma distribuição beta com parâmetros y + a = 31 + 3 = 34
e n + b − y = 300 + 20 − 31 = 289, uma estimativa bayesiana para a prevalência
da doença, dada pela média de π (θ | y), é
34
θB =
b ≈ 0, 105.
34 + 289
Maiores detalhes sobre a estimação pontual de parâmetros serão apresen-
tados na seção 3.4.4. A Figura 3.2 compara os gráficos de π (θ) e de π (θ | y).
Neste exemplo, a distribuição a priori para θ e a distribuição a posteriori π (θ | y)
seguem distribuições beta (ver equação 1.17).
30

Distribuição a priori π(θ)


Distribuição a posteriori π(θ|y)
25
20
15
10
5
0

0.0 0.1 0.2 0.3 0.4 0.5

Figura 3.2: Comparação entre a distribuição a priori π (θ) e a distribuição a


posteriori π (θ | y).

Nota: Uma distribuição a priori para um parâmetro θ pode ser elicitada


60

de várias formas: a partir da opinião de um ou vários especialistas, a partir de


procedimentos objetivos ou a partir de procedimentos subjetivos.

Um caso especial é dado por distribuições a priori uniformes, isto é, π (θ) ∝ 1,
em que 0 < θ < 1. A distribuição a posteriori para θ usualmente será uma dis-
tribuição própria (integral igual a 1 em toda variação de θ) independentemente
da distribuição a priori ser ou não própria.

3.3 Priori normal e verossimilhança normal


Supor uma amostra aleatória de tamanho n de uma variável aleatória Y com
distribuição normal N µ; σ 2 com média µ desconhecida e variância σ 2 conhe-
cida. Vamos assumir que µ tenha uma distribuição a priori normal N υ; τ 2
com υ e τ 2 conhecidos, sendo υ real e τ > 0, isto é,
 
1 1 2
π (µ) = √ exp − 2 (µ − υ) . (3.10)
2πτ 2 2τ
A função de verossimilhança para µ baseada numa amostra aleatória y =
0
(y1 , . . . , yn ) é dada por
" n
#
1 X 2
L (µ | y) ∝ exp − 2 (yi − µ) . (3.11)
2σ i=1

Combinando (3.10) com (3.11), encontramos a densidade a posteriori para


µ dada por:

π (µ | y) ∝ π (µ) L (µ | y) (3.12)
( " n
#)
2
1 (µ − υ) 1 X 2
∝ exp − + 2 (yi − µ) .
2 τ2 σ i=1

Após um breve desenvolvimento algébrico, podemos notar, a partir de (3.12),


que esta expressão define o núcleo de uma distribuição normal para µ. Assim,
!
υ nȳ
τ 2 + σ2 1
π (µ | y) ∼ N 1 n ; 1 n , (3.13)
τ 2 + σ2 τ 2 + σ2

isto é,
σ2
 
µ | y ∼ N ωυ + (1 − ω) y; (1 − ω) , (3.14)
n
em que
1
τ2
ω= 1 n .
τ2 + σ2
Assim, a média de (3.14) é a média ponderada da média da distribuição a
priori com a média amostral.
3.4. INFERÊNCIA BAYESIANA 61

Nota: Na combinação de uma distribuição a priori normal com uma verossim-


ilhança normal, podemos usar o seguinte resultado:

2 2 2 AB 2
A (z − a) + B (z − b) = (A + b) (z − c) + (a − b)
A+B
para
(Aa + Bb)
c=
(A + B)
(ver Box e Tiao, 1973).

3.4 Inferência bayesiana


3.4.1 Estimação por intervalo
Seja θ um parâmetro unidimensional e assumir que a distribuição a posteriori
para θ seja unimodal. Um estimador por intervalo bayesiano com probabilidade
(1 − α) é dado por (θ∗ , θ∗ ) para
Z θ∗
α
π (θ | y) dθ =
−∞ 2
e Z ∞
α
π (θ | y) dθ =
θ∗ 2
O intervalo (θ∗ , θ∗ ) é chamado um intervalo de credibilidade para θ com
probabilidade (1 − α).

Nota: No procedimento frequentista, se y1 , y2 , . . . , yn é uma a. a. de uma


população com densidade f (yi ; θ) e S = g (y1 , . . . , yn ) é uma estatı́stica com
uma distribuição amostral fS (s; θ), usamos fS (s; θ) para encontrarmos um in-
tervalo de confiança para θ. Com uma confiança 100 (1 − α) %, temos

P [s∗ (θ) ≤ S ≤ s∗ (θ)] = 1 − α

e assim encontramos h∗ (s) e h∗ (s) tal que

P [h∗ (s) ≤ θ ≤ h∗ (s)] = 1 − α.

O intervalo de confiança [h∗ (s) ; h∗ (s)] é interpretado da seguinte forma:


100 (1 − α) % dos intervalos construı́dos contém o verdadeiro valor de θ. Ob-
servar que os intervalos de credibilidade bayesianos baseados na distribuição a
posteriori têm uma interpretação mais simples do que os intervalos de confiança
frequentistas.

Exemplo 3.6: No Exemplo 3.5, um epidemiologista desejava estimar a


prevalência de uma doença em uma determinada população. Ele considerou
62

que, nessa população, a probabilidade de uma pessoa portar a doença é P (X =


1) = θ. Considerando uma distribuição a priori beta para θ, com parâmetros
a = 3 e b = 20, e uma amostra de tamanho n = 300 em que y = 31 pessoas
eram portadoras da doença, ele encontrou a densidade a posteriori π (θ | y), que
tambm segue uma distribuição beta, com parâmetros 34 e 289. Temos que
Z 0,074
π (θ | y) dθ ≈ 0, 025
−∞

e Z ∞
π (θ | y) dθ ≈ 0, 975.
0,141

Assim, um intervalo de credibilidade bayesiano para θ com probabilidade


95% é dado por (0, 074; 0, 141). A Figura 3.3 mostra o gráfico de π (θ | y), tal
que 95% da área total da curva está inserida nos limites de 0,074 a 0,141.
30
25
20
π(θ|y)

15
10
5
0

0.00 0.05 0.10 0.15 0.20

Figura 3.3: Gráfico da distribuição a posteriori π (θ | y). A área cinza corres-


ponde a 95% da área total da curva e descreve um intervalo de credibilidade
bayesiano para θ, dado por (0, 074; 0, 141).

3.4.2 Teoria bayesiana assintótica


Para tamanhos amostrais grandes, a distribuição a posteriori depende quase
que exclusivamente da função de verossimilhança. Considere y1 , y2 , . . . , yn uma
a. a. da distribuição f (y | θ) e assumir θ com uma distribuição a priori π (θ).
Assim temos
π (θ | y) ∝ exp [l (θ) + ln π (θ)] (3.15)
em que l (θ) = ln L (θ) (logaritmo natural da função de verossimilhança L (θ)).

Considerando o desenvolvimento de uma série de Taylor na vizinhança do


estimador de máxima verossimilhança (EMV) θ̂ (obtido derivando-se o logaritmo
3.4. INFERÊNCIA BAYESIANA 63

dl(θ)
de verossimilhança e igualando-se a zero, isto é, dθ = 0), temos,
  1 2 d2 l (θ)
l (θ) ' l θ̂ + θ − θ̂ | . (3.16)
2 dθ2 θ̂
Dessa forma, a distribuição
h a i
posteriori para θ pode ser aproximada por uma
−1
distribuição normal N θ̂; I θ̂ , em que
  d2 l (θ)
I θ̂ = − |
dθ2 θ̂
(informação de Fisher observada). Assim,
h  i
a
θ | y ∼ N θ̂; I −1 θ̂ . (3.17)

3.4.3 Estimação por ponto


Um estimador bayesiano para θ dado por θ̂ = d (y) é obtido minimizando-se o
erro esperado (função de risco) com respeito à distribuição a posteriori para θ.
Para isso, consideramos uma função de perda α (d; θ).

Uma função de perda muito usada na inferência bayesiana aplicada é dada


pela função de perda quadrática,
2
α (d, θ) = (d − θ) .
Assim, devemos encontrar d (y) que minimiza o risco bayesiano dado por,
R (d, θ) = Eθ|y [α (d, θ)]
Z
2
= [d (y) − θ] π (θ | y) dθ
θ

Sendo uma função diferenciável, o estimador de Bayes com respeito à função


de perda quadrática é dada por
Z
dR (d, θ)
= 2 (d − θ) π (θ | y) dθ = 0,
d (d)
isto é,
θ̂ = d (y) = E (θ | y) (3.18)
(média a posteriori de θ). Observar que
Z R
θπ (θ) L (θ) dθ
E (θ | y) = θπ (θ | y) dθ = R .
π (θ) L (θ) dθ
Exemplo 3.7: Seja y1 , . . . , yn uma a. a. de uma distribuição de Poisson
(1.10) com função de probabilidade
e−θ θyi
P (Yi = yi ) = f (yi | θ) = (3.19)
yi !
64

em que i = 1, 2, . . . , n. Vamos assumir uma distribuição a priori para θ dada


pela distribuição gama com hiperparâmetros conhecidos α e β (ver (3.5)). Isto
é, θ ∼ Gama (α, β). A distribuição a posteriori para θ (ver (3.6)) é dada por
uma distribuição gama com parâmetros α + nȳ e n + β, isto é,

θ | y ∼ Gama (α + nȳ; n + β) .

Considerando uma função de perda quadrática, um estimador pontual para


θ (ver (3.18)) é dado pela média a posteriori,

(α + nȳ)
θ̂ = E (θ | y) = .
(n + β)

Como uma ilustração numérica, seja Y uma variável aleatória representando


o número de consultas médicas feitas por 10 pessoas pelo perı́odo de 5 anos num
dado centro médico:

(y1 , . . . , y10 ) = (10, 12, 8, 7, 9, 15, 10, 12, 13, 8) .


10
P
yi 10
P
i=1
Assim, ȳ = 10 = 10, 4 e, desta forma, ny = yi = 104. Vamos as-
i=1
sumir que a distribuição a priori para θ seja uma distribuição gama, isto é, θ
∼ Gama (α; β), com E (θ) = α α
β e V ar (θ) = β 2 . A partir da opinião de um
especialista em saúde, vamos assumir E (θ) = 10 e V ar (θ) = 4. Dessa forma,
consideraremos α = 25 e β = 2, 5, que determinamos a partir das equações
E (θ) = α α
β = 10 e V ar (θ) = β 2 = 4. O estimador pontual para θ com respeito
à função de perda quadrática é dado por

(α + nȳ) 25 + 104
E (θ | y) = = = 10, 32.
(n + β) 10 + 2, 5

Exemplo
 3.8: Seja (y1 , . . . , yn ) uma a. a. de uma distribuição
 normal
N µ; σ 2 com σ 2 conhecido. Assumir uma priori normal N υ; τ 2 para µ, com
υ e τ 2 conhecidos. A distribuição a posteriori para µ (de (3.13)) é dada por
!
υ nȳ
τ 2 + σ2 1
µ|y∼N 1 n ; 1 n
τ 2 + σ2 τ 2 + σ2

em que y = (y1 , . . . , yn ) é o vetor dos dados. Um estimador por ponto para µ


é dado pela média a posteriori E (µ | y) dada por,
υ nȳ
τ2 + σ2
µ̂ = E (µ | y) = 1 n . (3.20)
τ2 + σ2

Como uma ilustração numérica, considere yi , i = 1, . . . , 100 como os pesos


das crianças com 10 meses de idade com média amostral ȳ = 11, 85. Assumir
que yi ∼ N (µ; 4). A partir da informação de um médico pediatra, considerar
3.4. INFERÊNCIA BAYESIANA 65

uma distribuição a priori N (13; 25) para µ. Neste caso, υ = 13; τ 2 = 25 e


100
σ 2 = 4. E ainda,
P
yi = 1185.
i=1
De (3.20), a média a posteriori para µ é dada por
υ nȳ 13 1185
τ2 + σ2 25 + 4
µ̂ = E (µ | y) = 1 n = 1 100 = 11, 825.
τ2 + σ2 25 + 4

Nota: Outras funções de perda também podem ser consideradas. Um caso


especial é dado pela função de perda α (d, θ) = |d − θ|, o estimador de Bayes
que minimiza o erro esperado é dado pela mediana a posteriori.

Exemplo 3.9: Vamos assumir o modelo estatı́stico

yi = θ + i (3.21)

para i = 1, 2, . . . , n em que i é um erro suposto com uma distribuição normal


N (0, 4), isto é, i ∼ N (0, 4). Vamos assumir também que a distribuição a priori
para θ seja dada por θ ∼ N (2; 1).

De (3.21), observar que a variável aleatória Yi tem uma distribuição normal


N (θ; 4). Assim, a função de verossimilhança para θ é dada por,
" n
#
1X 2
L (θ) ∝ exp − (yi − θ) (3.22)
8 i=1

e a priori para θ é dada por,


 
1 2
π (θ) ∝ exp − (θ − 2) (3.23)
2

Combinando-se a verossimilhança normal (3.22) com a priori normal (3.23),


obtemos (ver (3.13)), a distribuição a posteriori para θ dada por,
 
8 + nȳ 4
θ|y∼N ; (3.24)
4+n 4+n

Como uma ilustração numérica, assumir uma a. a. de tamanho 10, represen-


tando os tempos até a recuperação (em semanas) de 10 pacientes: 2,3,1,2,4,3,2,3,5
e 2. A média amostral é dada por ȳ = 2, 7.
Assim, um estimador por ponto para θ assumindo uma função de perda
quadrática é dada por
8 + nȳ 8 + 27
θ̂ = E (θ | y) = = = 2, 5
4+n 4 + 10
Notas:
66

(1) Observar que o EMV (estimador de máxima verossimilhança) para θ é


obtido maximizando-se a função de verossimilhança (3.22) ou o logaritmo da
função de verossimilhança l (θ), isto é,
n
dl (θ) 2X
= (yi − θ) = 0.
d (θ) 8 i=1
n
P
n yi
27
P i=1
Assim, yi = nθ ou θ̂ = n . Com os dados, θ̂ = 10 = 2, 7.
i=1
(2) Supondo uma distribuição a priori não-informativa para θ, os resultados
devem ser próximos (estimador de máxima verossimilhança para θ é a média a
posteriori E (θ | y)). 
Assim, se considerarmos uma priori normal N 2; 103 (variância muito grande),
a distribuição a posteriori para θ é dada por
 
0, 008 + nȳ 4
θ|y∼N ; .
0, 004 + n 0, 004 + n
Com os dados,
0, 008 + 27 27, 008
E (θ | y) = = = 2, 69972
0, 004 + 10 10, 004

ou seja E (θ | y) ≈ 2, 70 (um resultado bem próximo ao EMV, θ̂ = 2, 7).


(3) Assumindo a mesma distribuição a priori N (2; 1) para θ, mas con-
siderando uma amostra muito grande, os resultados frequentista e bayesiano
também devem ser muito próximos.
Pn
Assim, se considerarmos uma a. a. de tamanho n = 1000 com nȳ = yi =
i=1
2758, observamos que (ver (3.24)),
8 + nȳ 8 + 2758 2766
E (θ | y) = = = = 2, 755.
4+n 4 + 1000 1004

Também observar que o EMV para θ é dado por θ̂ = ȳ = 2, 758 (resultados


muito próximos).

3.5 Vetores paramétricos


Seja Y uma variável aleatória com distribuição de probabilidade dada pela den-
0
sidade f (y | θ) em que θ é um vetor de dimensão k, isto é, θ = (θ1 , θ2 , . . . , θk ) .
Seja π (θ) uma distribuição a priori conjunta para θ. A função de verossimil-
0
hança para θ dada uma a. a. y = (y1 , . . . , yn ) da variável aleatória Y é dada
por
Yn
L (θ) = f (yi | θ) .
i=1
3.5. VETORES PARAMÉTRICOS 67

A distribuição a posteriori conjunta para θ é dada por

π (θ | y) = c × L (θ) π (θ) ,

em que c é uma constante normalizadora, cuja integração deverá ser igual a 1


(assumir todos parâmetros contı́nuos), isto é,
Z Z Z
−1
c = ... L (θ) π (θ) dθ1 dθ2 . . . dθk (3.25)
θ1 θ2 θk

(uma integral múltipla). Para simplificação, vamos denotar (3.25) por


Z
c−1 = L (θ) π (θ) dθ (3.26)

0
A média a posteriori para uma função g (θ) de θ = (θ1 , θ2 , . . . , θk ) é dada
por Z Z Z
E [g (θ) | y] = ... g (θ) π (θ | y) dθ1 . . . dθk ,
θ1 θ2 θk

ou, simplesmente, Z
E [g (θ) | y] = g (θ) π (θ | y) dθ. (3.27)

Dessa forma, observar que precisamos resolver integrais múltiplas para en-
contrar c−1 dado em (3.26) e E [g (θ) | y] dado em (3.27).
Para encontrarmos a distribuição marginal para alguns componentes de θ
ou mesmo para um componente individual, também precisamos resolver uma
integral múltipla. Como caso especial, a distribuição a posteriori marginal para
θ1 é dada por
Z Z Z
π (θ1 | y) = ... π (θ1 , θ2 , . . . , θk | y) dθ2 . . . dθk .
θ2 θ3 θk

Exemplo
 3.10: Seja Y uma 0 variável aleatória com distribuição normal
N µ; σ 2 . Neste caso θ = µ, σ 2 é um vetor de dois parâmetros. Vamos supor
0 
uma a. a. y = (y1 , . . . , yn ) de tamanho n da distribuição N µ; σ 2 . A função
0
de verossimilhança para θ = µ, σ 2 é dada por
  n2 "n
#
2
 1 1 X 2
L µ; σ = exp − 2 (yi − µ) .
2πσ 2 2σ i=1

Vamos assumir as seguintes distribuições a priori para µ e σ 2 :

µ ∼ N 0; a2 ; a conhecido

(3.28)
2
σ ∼ GI (b; d) ; b e d conhecidos
68

em que GI (b; d) denota uma distribuição gama inversa (1.16). Vamos também
assumir independência a priori entre µ e σ 2 . A distribuição a posteriori conjunta
para µ e σ 2 é dada por
µ2
 
−(b+ n2 +1)
π µ, σ 2 | y ∝ σ 2

exp − 2 × (3.29)
2a
( " n
#)
1 1X 2
× exp − 2 d + (yi − µ) .
σ 2 i=1

A distribuição a posteriori marginal para µ é obtida integrando-se σ 2 em


(3.29), isto é, Z ∞
π µ, σ 2 | y dσ 2 ,

π (µ | y) = (3.30)
0
Assim,
µ2
 
π (µ | y) = k exp − 2 × (3.31)

Z ∞ ( " n
#)
−(b+ n2 +1) 1 1X 2
× σ2 exp − 2 d + (yi − µ) dσ 2 ,
0 σ 2 i=1

em que k é uma constante normalizadora. Observar que


Z ∞  a Γ (p)
x−(p+1) exp − dx = p . (3.32)
0 x a
Assim, usando (3.32) em (3.31), encontramos
 
µ2
k1 exp − 2σ 2
π (µ | y) =  b+ n2 (3.33)
n
1
P 2
d+ 2 (yi − µ)
i=1

para −∞ < µ < ∞ e k1 é uma constante normalizadora. Da mesma forma, a


distribuição a posteriori marginal para σ 2 é dada por
Z ∞
2
π µ, σ 2 | y dµ
 
π σ |y =
−∞
 
2 −(b+ 2 +1)
 n d
= k σ exp − 2 ×
σ
Z ∞ " n
#
µ2 1 X 2
× exp − 2 − 2 (yi − µ) dµ.
−∞ 2a 2σ i=1

3.6 Exercı́cios
1. Assuma que a distribuição a posteriori de um parâmetro θ dado o vetor
de dados y segue uma densidade Beta (1.17) com parâmetros α∗ e β ∗ , isto
3.6. EXERCÍCIOS 69

é,
Γ (α∗ + β ∗ ) α∗ −1 β ∗ −1
π (θ | y) = θ (1 − θ) ,
Γ (α∗ ) Γ (β ∗ )
2
em que 0 < θ < 1. Assuma uma função de perda L (d, θ) = θ−2 (d − θ) , d ≥
0 e encontre a decisão de Bayes que minimiza o erro esperado.

2. Considere a função de confiabilidade S (t) = P (T > t), em que T é uma


variável aleatória positiva representando o tempo de vida de um com-
ponente. Assuma que S (t) para t fixado, assume dois valores possı́veis:
S (t) = θ1 = 0, 50 ou S (t) = θ2 = 0, 90. Assuma duas decisões possı́veis:
d1 : o estimador de S (t) é θ1 ou
d2 : o estimador de S (t) é θ2 .
Considere a seguinte função de perda L (d; θ):

Tabela 3.2: Decisão.


d1 d2
S (t) = θ1 0 5
S (t) = θ2 3 0

Assuma também a seguinte distribuição a priori discreta: π (θ1 ) = 1/4 e


π (θ2 ) = 3/4.
(a) Encontre a solução bayesiana.
(b) Retire uma unidade e testá-la para o tempo t: falha ou sobrevivência.
Assuma Z = 1 (sobrevivência) e Z = 0 (falha) e assuma f (z = 1 | θ1 ) =
0, 50; f (z = 1 | θ2 ) = 0, 90; f (z = 0 | θ1 ) = 0, 50 e f (z = 0 | θ2 ) = 0, 10.
Encontre a solução de Bayes quando retiramos uma unidade.

3. Assuma que X representa o tempo de sobrevivência de uma unidade com


distribuição exponencial com densidade f (x | λ) = λ exp (−λx) , x > 0.
Assumir uma amostra aleatória de tamanho n, X = (x1 , . . . , xn ). Também
assuma uma distribuição a priori não-informativa para λ dada por π (λ) ∝
1/λ, λ > 0.
(a) Encontre a densidade a posteriori para λ dado X.
(b) Encontre o estimador bayesiano para λ considerando o erro quadrático
médio.
(c) Qual é a moda da distribuição a posteriori?
(d) Encontre a distribuição a posteriori para o tempo de sobrevivência
mediano.
70

4. Assumir X uma variável aleatória com densidade normal N (θ, 4), isto é,
 
1 1 2
f (x | θ) = √ exp − (x − θ)
2 2π 8

em que −∞ < x < ∞. Considere uma distribuição a priori normal


N 0, σ 2 , com σ 2 conhecido, para θ.
(a) Encontre a distribuição a posteriori para θ.
(b) Encontre o estimador de Bayes para θ com respeito à função de perda
quadrática.
(c) Em qual situação a solução obtida pelo estimador de máxima verossim-
ilhança coincide com a solução de Bayes com respeito à perda quadrática?

5. Assuma que você tenha uma distribuição subjetiva para a temperatura


média dos próximos dias, dada pela densidade,
β α α−1
π (θ) = θ exp (−βθ) , θ > 0
Γ (α)

em que α e β são conhecidos (E (θ) = α/β e V ar (θ) = α/β 2 ). Escolher


valores para E (θ) e V ar (θ) que representam sua opinião sobre a tempe-
ratura e calcular os valores correspondentes de α e β. Encontrar a decisão
de Bayes d∗ para θ quando a função de perda é dada por

2 d2 θ 2
L (d, θ) = (d − θ) +
1000
e comente porque esse estimador é maior do que E (θ).
6. Suponha que (x1 , . . . , xn ) é uma amostra aleatória de uma distribuição de
Poisson (1.10) com média θ e que θ segue uma distribuição a priori gama
com parâmetros conhecidos α e β.
(a) Encontre a distribuição a posteriori para θ e escrever a média a posteri-
ori como uma média ponderada da média a priori α/β e a média amostral
x̄.
(b) Mostre que a variância a posteriori é dada por
α + nx̄
V ar (θ | x) = 2.
(β + n)

(c) Mostre que a variância


 aposteriori é menor do que a variância a priori
n
se e somente se x̄ < 2 + β E (θ).
Capı́tulo 4

Densidades preditivas e
discriminação de modelos
0
Seja y1 = (y1 , . . . , yn ) o vetor dos dados observados em uma amostra aleatória
0
de tamanho n e seja y2 = (yn+1 , . . . , ym ) um vetor de observações futuras. A
densidade preditiva para y2 dado y1 é dada por
Z
f (y2 | y1 ) = f (y2 | θ) π (θ | y1 ) dθ, (4.1)

em que f (y2 | θ) é a distribuição conjunta de y2 dado o vetor de parâmetros θ


e π (θ | y1 ) é a distribuição a posteriori para θ dado y1 . Observe que y1 e y2
são independentes, dado θ. Assim,

f (y2 | y1 ) = Eθ|y1 [f (y2 | θ)]

Exemplo 4.1: Vamos supor que yi , i = 1, 2, . . . , n, são medidas de uma


carga viral em uma amostra de sangue supostos com distribuição normal N (θ; V )
com variância V conhecida. Assim,
n
Y
f (y1 | θ) = f (yi | θ) ,
i=1

em que  
1 1 2
f (yi | θ) = √ exp − (yi − θ) ,
2πV 2V
para i = 1, . . . , n.
Vamos assumir uma distribuição normal N (m; W ) para θ, com m e W
conhecidos. Dessa forma, a distribuição a posteriori para θ dado y1 é dada
distribuição normal N (m1 ; W1 ) com m1 = W1−1 W −1 m + nV −1 ȳ ,

por uma
Pn
yi
e W1 = W −1 + nV −1 .

ȳ = i=1
n

71
72

A densidade preditiva para uma observação futura yn+1 é dada por


Z ∞
f (yn+1 | y1 ) = f (yn+1 | θ) π (θ | y1 ) dθ
−∞
−1 1 −1
= (2π) V − 2 W1 2 ×
Z ∞  i
1h 2 2
exp − V −1 (θ − yn+1 ) + W1−1 (θ − m1 ) dθ.
−∞ 2

Após alguma álgebra, encontramos a densidade preditiva para yn+1 dado y1


dada por
yn+1 | y1 ∼ N (m1 ; V + W1 ) .

Exemplo 4.2: Vamos supor que Yi , i = 1, 2, . . . , n, são variáveis aleatórias


iid com densidade exponencial

f (yi | θ) = θ exp (−θyi ) , (4.2)

em que yi > 0. Assumindo uma distribuição Gama (α, β) para θ com α e β


conhecidos, a função de verossimilhança para θ é dada por
n
!
X
n
L (θ) = θ exp −θ yi . (4.3)
i=1

Combinando a distribuição a priori Gama (α, β) para θ com a função de


verossimilhança (4.3), encontramos a distribuição a posteriori para θ dada por
uma distribuição Gama (α1 , β1 ) com α1 = α + n e β1 = β + nȳ. A densidade
preditiva para uma observação futura yn+1 é dada por
Z ∞
f (yn+1 | y) = θ exp (−θyn+1 ) π (θ | y) dθ (4.4)
0
Z ∞
β1α1
= θ(α1 +1)−1 exp [−θ (β1 + yn+1 )] dθ,
Γ (α1 ) 0

isto é,
β1α1 Γ (α1 + 1)
f (yn+1 | y) = α1 +1 .
Γ (α1 ) (β1 + yn+1 )
Observando que Γ (α1 + 1) = α1 Γ (α1 ), temos

α1 β1α1
f (yn+1 | y) = α1 +1 ,
(β1 + yn+1 )

que é chamada densidade de Pareto.

Exemplo 4.3: Como ilustração numérica, considere o trabalho cirúrgico de


um médico que exige o uso de uma máquina de controle de batimentos cardı́acos
4.1. FATOR DE BAYES 73

por um perı́odo de 4 horas consecutivas de funcionamento. A taxa de falhas


por hora dessa máquina varia, dependendo de onde é usada, mas o fabricante
garante que a taxa média θ de falha da máquina é de 10 eventos a cada 100 horas
de uso. A variância de θ é dada por V = 0, 01. Com o objetivo de controle
de qualidade, supor uma a. a. com m = 5 funcionamentos consecutivos do
equipamento até falhar: 3, 2, 12, 7, 20, 6, 7, 9 e 10, 2 (tempos em horas). A
partir desses dados, encontramos a média amostral ȳ = 10, 92. Para encontrar
a probabilidade de que a próxima falha ocorrerá antes do término do trabalho
cirúrgico, vamos assumir:

(a) Os tempos de vida (funcionamento até falhar) yi , i = 1, 2, . . . , 5 são


variáveis aleatórias i.i.d. com distribuição exponencial com taxa de falhas igual
a θ;
(b) O parâmetro θ segue uma distribuição a priori Gama (α, β) com α e β
conhecidos;
(c) E (θ) = α α
β = 0, 10 e V ar (θ) = β 2 = 0, 01. Assim encontramos α = 1 e
β = 10, a partir da informação do fabricante do equipamento.

Dessa maneira, a distribuição a posteriori para θ é uma distribuição Gama


(α1 , β1 ) com α1 = α + n = 1 + 5 = 6 e β1 = β + nȳ = 10 + 54, 6 = 64, 6, e
6
α1 β1α1 6 (64, 6)
f (y6 | y) = α1 +1 = 7.
(β1 + y6 ) (64, 6 + y6 )
Assim,
P (y6 > 4) = 1 − P (y6 ≤ 4) ,
em que
Z 4 6
6 (64, 6)
P (y6 ≤ 4) = 7 dy6
0 (64, 6 + y6 )
6
(64, 6)
= 1− 6 = 0, 26.
(4 + 64, 6)
Portanto, P (y6 > 4) = 0, 74.

4.1 Fator de Bayes


O fator de Bayes faz uso da densidade preditiva para verificação da adequabi-
lidade de um modelo. Seja f (y | θ) a densidade conjunta para os dados e seja
π (θ) a densidade a priori para θ. Uma definição alternativa para a densidade
preditiva é dada por Z
f (y) = f (y | θ) π (θ) dθ. (4.5)

A densidade preditiva (4.5) também é definida como função de verossimi-


lhança marginal.
74

Vamos supor que M1 e M2 denotam dois modelos distintos. O fator de


Bayes, usado para comparar os modelos M1 e M2 , é definido por

f (y | M1 )
B12 = . (4.6)
f (y | M2 )

Observar que o fator de Bayes B12 requer a especificação da distribuição a


priori π (θ) sob ambos os modelos. Quando consideramos distribuições a priori
não informativas impróprias para θ, essas distribuições são definidas em termos
de constantes arbitrárias ci , i = 1, 2. Dessa forma, B12 é definida em termos da
razão c1 /c2 , que é arbitrária. Isso é um problema que pode limitar o uso do fator
de Bayes na discriminação de dois modelos quando consideramos distribuições
a priori não informativas impróprias para os parâmetros dos modelos. Para
contornar esse problema, algumas modificações são sugeridas na literatura para
o fator de Bayes (ver por exemplo, Spiegelhalter e Smith, 1982; Berger e Perichi,
1996; Aitkin, 1991). Quando consideramos distribuições a priori próprias para
θ, o fator de Bayes é reduzido a um problema de testes de hipóteses.

4.2 O Fator de Bayes a posteriori


Sob o modelo Mi , i = 1, 2, dada a função de verossimilhança f (y | θ i ) e a
distribuição a priori π (θ i ), a distribuição a posteriori é dada por,

f (y | θ i ) π (θ i )
π (θ i | y) = R
f (y | θ i ) π (θ i ) dθ i

para i = 1, 2. Aitkin (1991) define o fator de Bayes a posteriori do modelo M1


contra o modelo M2 por
A LA1
B12 = A ,
L2
em que Z
LA
i = f (y | θ i ) π (θi | y) dθi

para i = 1, 2 e θ i representa o vetor dos parâmetros sob o modelo Mi , i =


1, 2. Observar que LA i = Eθ i |y [f (y | θ i )] é a média a posteriori da função de
verossimilhança f (y | θ i ). Observar também que o fator de Bayes a posteriori
existe sob distribuições a priori não-informativas.

4.3 Distribuições preditivas alternativas


Para discriminação de modelos podemos definir uma versão “cross-validation”
da distribuição preditiva dada por
Z
 
f yr | y(r) = f (yr | θ) π θ | y(r) dθ,
4.4. USO DA DENSIDADE PREDITIVA NA DISCRIMINAÇÃO DE MODELOS75

para y(r) = (y1 , . . . , yr−1 , yr+1 , . . . , yn ) em que π θ | y(r) é a densidade a pos-
teriori para θ dado y(r) (ver por exemplo, Geisser, 1975; ou Gelfand e Dey,
1994).

Para a verificação da adequabilidade de um modelo, a densidade preditiva


f yr | y(r) é usada com yr , r = 1, . . . , n no sentido de que um modelo é ade-
quado se yr pode ser considerado como uma observação aleatória da densidade
f yr | y(r) .

Definimos a ordenada preditiva condicional (CP O, de conditional predictive


ordinate) por

dr = f yr | y(r)

(ver Geisser e Eddy, 1979, ou Geisser, 1990). Podemos discriminar dois ou mais
modelos, a partir de gráficos de dr versus r, r = 1, 2, . . . , n; maiores valores
de dr em média, indicam o melhor modelo. Como alternativa, podemos usar o
produto de CP O0 s dado por
n
Y
c (l) = dr (l)
r=1

em que l indexa modelos. Assim, o modelo M1 é mais adequado que o modelo


M2 , se c (1) > c (2).

4.4 Uso da densidade preditiva na discriminação


de modelos
Para comparar um modelo M1 com um modelo M2 , podemos usar o fator de
Bayes B12 , dado por (4.6). Com os dados observados y, o modelo M1 é mais
adequado que o modelo M2 se B12 > 1. Em geral, podemos considerar 2 log B12
(ver Raftery, 1996; ou Kass e Raftery, 1995) e sua intepretação é baseada no
critério proprosto por Jeffreys (1961) e apresentada na Tabela 4.1.

Tabela 4.1: Escala de evidência do modelo M1 .

B12 2 log B12 Evidência de M1


<1 <0 negativa
1, 2, 3 0, 1, . . . , 2 difı́cil decisão
3, . . . , 12 2, . . . , 5 positiva
12, . . . , 150 5, . . . , 10 forte
> 150 > 10 muito forte
76

4.5 Resı́duos bayesianos


0
Seja x = (x1 , . . . , xn ) uma amostra observada e π (θ | x) a distribuição a pos-
0
teriori para θ dado x. Seja y = (y1 , . . . , yn ) uma amostra de validação, isto
é, uma amostra independente de x usada para validar o modelo em estudo. A
densidade preditiva para y dado x (ver (4.1)) é dada por
Z
f (y | x) = f (y |θ) π (θ | x) dθ.

Usamos f (y | x) para avaliação do modelo. O valor médio e a variância


preditiva para cada componente de y são dados, respectivamente, por
Z
E (yi | x) = yi f (y | x) dy e
Z
2
V ar (yi | x) = [yi − E (yi | x)] f (y | x) dy

para i = 1, 2, . . . , n.

Os resı́duos bayesianos padronizados são dados por:


yi − E (yi | x)
d∗i = p
V ar (yi | x)
para i = 1, 2, . . . , n.

O uso dos resı́duos bayesianos é semelhante ao uso dos resı́duos na inferência


frequentista: construı́mos gráficos de resı́duos versus preditos (valores médios
preditos) e gráficos de resı́duos em ordem temporal. Na prática, podemos parti-
cionar uma amostra grande em duas amostras: uma parte (amostra observada)
é usada para construir a distribuição a posteriori e a outra parte (amostra de
validação) é usada para obter a distribuição preditiva.

Outra possibilidade na construção de resı́duos bayesianos é o uso de técnicas


0
“Jacknife” (leave one out). Assim, consideramos x(i) = (x1 , . . . , xi−1 , xi+1 , . . . , xn )
e encontramos a densidade preditiva de xi dado x(i) para i = 1, 2, . . . , n:
Z
 
f xi | x(i) = f (xi | θ) π θ | x(i) dθ

Os resı́duos bayesianos são então definidos por



∗0 xi − E xi | x(i)
di = q 
V ar xi | x(i)

para i = 1, 2, . . . , n.

Nota: Os valores observados de f xi | x(i) (ordenadas preditivas condi-
cionais ou CPO) podem ser usados em um diagnóstico informal. Valores baixos
de CPO devem corresponder a observações mal ajustadas.
4.6. PSEUDO-FATOR DE BAYES 77

4.6 Pseudo-fator de Bayes


Como alternativa ao fator de Bayes, podemos usar o produto das preditivas
n
Q 
para xi dado x(i) , definido por f xi | x(i) , na comparação de modelos.
i=1
Sejam M1 e M2 dois modelos propostos para analisar um conjunto de dados.
O pseudo-fator de Bayes é dado por
n
Q 
f xi | x(i) , M1
PF
B12 = i=1
n
Q .
f xi | x(i) , M2
i=1

Na presença de mais de dois modelos, encontramos para cada modelo o pro-


n
Q 
duto f xi | x(i) , ou equivalentemente, a soma dos logaritmos das ordenadas
i=1
preditivas condicionais e escolhemos o modelo que apresentar o maior valor.

Nota: A soma dos quadrados (ou dos valores absolutos) dos resı́duos pa-
dronizados também podem ser usados na seleção de modelos.

4.7 Outros critérios para discriminação de mo-


delos
Para discriminar modelos, também podemos considerar os critérios AIC (Akaike
information criterion), BIC (Bayesian information criterion) e DIC (Deviance
information criterion). Esses critérios “penalizam” a função de verossimilhança
(a complexidade do modelo, dada pelo número de parâmetros, é incorporada no
critério de seleção).

Critério AIC: Vamos assumir dois modelos, M1 e M2 . O critério AIC é


dado por
supM1 f (y | θ 1 , M1 )
 
AIC = −2 ln − 2 (p2 − p1 )
supM2 f (y | θ 2 , M2 )
em que pi , i = 1, 2, representa o número de parâmetros em cada modelo
(critério baseado na eficiência frequentista). A função de verossimilhança f (y |
θ i , Mi ) deve ser
 maximizada
 sob cada modelo. Também poderı́amos definir
AICi = 2 ln L θ̂i | Mi − 2pi , i = 1, 2 em que θ̂i é o estimador de máxima
verossimilhança para θi e assim maiores AICi indicam melhores modelos.

Critério BIC: Vamos assumir dois modelos, M1 e M2 . O critério BIC é


dado por

supM1 f (y | θ 1 , M1 )
 
BIC = −2 ln − 2 (p2 − p1 ) ln(n), (4.7)
supM2 f (y | θ 2 , M2 )
78

em que n é a dimensão da amostra e pi , i = 1, 2, é o número de parâmetros no


modelo Mi .
 
Da mesma forma, poderiamos definir BICi = 2 ln L θ̂i | Mi −pi ln (n) para
i = 1, 2, em que θ̂i é o estimador de máxima verossimilhança para θi .

Notas (1): Para amostras grandes, Schwarz (1978) mostra que BIC é uma
boa aproximação para −2 ln B12 , em que B12 (4.5) é o fator de Bayes.
Notas (2): Carlin e Louis (2000) introduziram uma modificação na ex-
pressão do BICi , da forma

[ i = 2E [ln L (θ i | y, Mi )] − pi ln(n).
BIC (4.8)

Assim, é escolhido o modelo Mi que apresenta maior valor de BIC


[ i . Essa
forma do BIC é muito usada quando métodos MCMC (Monte Carlo em cadeias
de Markov) são utilizados.

Critério DIC: O critério DIC é muito utilizado em inferência bayesiana


aplicada, especialmente quando são utilizados métodos de Monte Carlo em
cadeias de Markov. O desvio D (θ) (deviance) é definido por

D (θ) = −2 ln L (θ) + C, (4.9)

em que θ é um vetor de parâmetros desconhecidos do modelo, L (θ) é a função


de verossimilhança e C é uma constante não necessariamente conhecida na com-
paração de dois modelos. O critério DIC, definido por Spiegelhalter et al (2002),
é dado por  
DIC = D θ̂ + 2pD (4.10)
 
em que D θ̂ é o desvio calculdado na média a posteriori θ̂ = E (θ | y) e pD é
 
o número efetivo de parâmetros no modelo, dado por pD = D̄ − D θ̂ , em que
D̄ = E [D (θ) | y] é a média a posteriori do desvio, que mede a qualidade do
ajuste dos dados para cada modelo. Menores valores de DIC indicam melhores
modelos e esses valores podem ser negativos.

O critério DIC é implementado em softwares usados para obter inferências


bayesianas usando métodos MCMC (Monte Carlo em cadeias de Markov), que
serão descritos no Capı́tulo 7. Um software muito utilizado para esta finalidade
é o OpenBUGS (Spiegelhalter et al, 1999).

4.8 Teoria bayesiana de De Finetti


Um método mais formal foi introduzida por De Finetti (1930, 1937/1964) baseada
nas distribuições preditivas. Dessa forma, um modelo preditivo para uma sequência
4.8. TEORIA BAYESIANA DE DE FINETTI 79

de variáveis aleatórias X1 , X2 , . . . é uma medida de probabilidade P , que matem-


aticamente especifica a forma da distribuição conjunta para qualquer subcon-
junto de X1 , X2 , . . . que deve incorporar alguma forma de dependência entre as
quantidades aleatórias. Isso é baseado na especificação da permutabilidade e no
teorema da representação de De Finetti (ver por exemplo, Bernardo e Smith,
1995).

4.8.1 Permutabilidade Finita


As quantidades aleatórias X1 , . . . , Xn são permutáveis sob uma medida de pro-
babilidade P se

P (X1 , . . . , Xn ) = P Xπ(1) , . . . , Xπ(n) ,

para todas as permutações π definidas no conjunto {1, 2, . . . , n}. Em termos de


densidade ou função de probabilidade,

p (x1 , . . . , xn ) = p xπ(1) , . . . , xπ(n) .

Nota: Observar que a suposição de permutabilidade captura em essência a idéia

de “amostra aleatória”, aqui sem sentido pois implica a ideia de “independência


condicional” dado o valor do parâmetros do modelo.

4.8.2 Teorema da Representação de De Finetti para quan-


tidades aleatórias 0-1
Se X1 , X2 , . . ., é uma sequência infinita permutável de quantidades aleatórias
0 − 1 com medida de probabilidade P , existe uma função distribuição Q tal que
a função de probabilidade conjunta p (x1 , . . . , xn ) para X1 , . . . , Xn tem a forma,
Z n
1Y
1−xi
p (x1 , . . . , xn ) = θxi (1 − θ) dQ (θ)
0 i=1

n
yn yn
 P
em que Q (θ) = limn→∞ P n ≤ θ com yn = Xi e θ = limn→∞ n (ver
i=1
demonstração em Bernardo e Smith, 1995).

Uma interpretação subjetivista para esse resultado:


(a) as variáveis Xi são julgadas como variáveis aleatórias de Bernoulli inde-
pendentes condicional em uma quantidade aleatória θ;
(b) a quantidade aleatória θ tem uma distribuição de probabilidade Q;
(c) pela lei forte dos grandes números, θ = limn→∞ ynn , tal que Q pode ser


interpretada como a “crença sobre a frequência relativa limite dos resultados


yi = 1”.
80

(d) condicionada à quantidade aleatória θ, X1 , . . . , Xn é uma amostra aleatória


de uma distribuição de Bernoulli com parâmetro θ gerando uma distribuição
amostral conjunta
n
Y
p (x1 , . . . , xn | θ) = p (xi | θ)
i=1
Yn
1−xi
= θxi (1 − θ)
i=1

em que o parâmetro θ tem uma distribuição a priori Q (θ). Considerado como


uma função de θ, a distribuição amostral conjunta é a função de verossimilhança.

4.9 Uma nota sobre testes de hipóteses


Na prática, para comparar parâmetros de interesse, um estatı́stico bayesiano
não considera testes de hipóteses, mas determina densidades a posteriori para
razões ou diferenças entre estes parâmetros, tais como θθ21 ou θ1 − θ2 . Apesar
disso, podemos sugerir um teste de hipóteses sob o enfoque bayesiano.

Exemplo 4.4: Vamos assumir que Y é uma variável aleatória com densidade
f (y | θ) e vamos supor o teste de hipóteses H0 : θ = θ0 versus H1 : θ = θ1 , em
que θ0 e θ1 são valores especificados. Vamos supor que, baseado numa amostra
aleatória de tamanho n, dada por y = (y1 , . . . , yn ), temos a estatı́stica T =
T (y1 , . . . , yn ) apropriada ao teste com uma dada distribuição de probabilidade
amostral. Pela fórmula de Bayes (3.1), temos

P (T | H0 ) P (H0 )
P (H0 | T ) =
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )

em que P (H0 ) e P (H1 ) são probabilidades a priori para H0 e H1 . Analoga-


mente,
P (T | H1 ) P (H1 )
P (H1 | T ) = .
P (T | H0 ) P (H0 ) + P (T | H1 ) P (H1 )
Observar que P (H0 | T ) + P (H1 | T ) = 1. Portanto, podemos escrever a
relação   
P (H0 | T ) P (H0 ) P (T | H0 )
= . (4.11)
P (H1 | T ) P (H1 ) P (T | H1 )
De (4.11) , observar que a razão das probabilidades a posteriori a favor de H0
é igual ao produto entre a razão a priori e a razão de verossimilhanças. Assim,
escrevemos a regra de decisão:

(i) Se P (H0 | T ) > P (H1 | T ) aceitar H0 ;


(ii) Se P (H0 | T ) < P (H1 | T ) rejeitar H0 .
4.9. UMA NOTA SOBRE TESTES DE HIPÓTESES 81

Observar que enquanto os testes de hipóteses frequentistas (ver seção 2.11)


consideram apenas duas hipóteses, o teste bayesiano pode ser aplicados a mais
de duas hipóteses, e o procedimento consistirá em encontrar a hipótese com
maior probabilidade a posteriori.

Exemplo 4.5: Supor que Y seja uma variável aleatória com distribuição
normal N (θ; 1). Considerar as hipóteses H0 : θ = 0 e H1 : θ = 1. Assumir a
priori que P (H0 ) = P (H1 ) = 0, 5.

Observar que T = Y (estatı́stica suficiente para θ), sendo Y ∼ N θ; n1 , isto




é, √
n  n 
P (T | H0 ) = √ exp − y 2
2π 2
e √
n h n
2
i
P (T | H1 ) = √ exp − (y − 1) .
2π 2
Assim,

exp − n2 y 2

P (H0 | T )
= h i
P (H1 | T ) exp − n2 (y − 1)
2

n nh io
2
= exp − y 2 − (y − 1)
h n2 i
= exp − (2y − 1) .
2
Como ilustração numérica supor que foi observado em uma amostra tamanho
n = 10 uma média amostral y = 2. Portanto,

P (H0 | T ) h n i
= exp − (2y − 1) = 3, 1 × 10−7 .
P (H1 | T ) 2

Como esse valor é muito pequeno, concluı́mos que devemos rejeitar H0 em


favor de H1 : θ = 1.

4.9.1 Hipótese simples contra alternativa composta


Supor que H0 seja uma hipótese simples e que H1 seja uma hipótese composta.
Supor que θ seja o parâmetro de interesse e que T = T (y1 , . . . , yn ) seja a es-
tatı́stica do teste. A razão entre a distribuição a posteriori de H0 e a distribuição
a posteriori de H1 é dada por

P (H0 | T ) P (T | H0 ) P (H0 )
=
P (H1 | T ) P (T | H1 ) P (H1 )
P (H0 ) P (T | H0 , θ0 )
= R
P (H1 ) P (T | H1 , θ) π (θ) dθ
82

em que π (θ) é a densidade a priori para θ sob H1 . Observar que, quando há
mais de um parâmetro, devemos integrar os parâmetros adicionais.

Exemplo 4.6: Supor que a variável aleatória Y siga uma distribuição nor-
mal N (θ; 1) e assumir o teste de hipóteses H0 : θ = 0 versus H1 : θ 6= 0.
Também supor que selecionamos uma amostra aleatória de tamanho n = 10
cuja média amostral é y = 2. Observar que T = Y é uma estatı́stica suficiente
para θ. Assumir P (H0 ) = P (H1 ) = 0, 5. Observar que Y | θ ∼ N θ; n1 .


Portanto,
 n  21  n 
P (T | H0 , θ = 0) = exp − ȳ 2
2π 2
e
 n  21 h n i
2
P (T | H1 , θ) = exp − (ȳ − θ) .
2π 2

Assumir uma distribuição a priori normal N (1, 1) para θ sob H1 , isto é,
 
1 1 2
π (θ) = √ exp − (θ − 1)
2π 2

De (4.12) temos:

n
 12
exp − n2 ȳ 2

P (H0 | T ) 2π
=  21 h  12 i
P (H1 | T ) R∞ n 2
exp − n2 (ȳ − θ) −
1 1
(θ − 1)
2

−∞ 2π 2π 2
1
(2π) 2 exp − n2 ȳ 2

=   .
R∞ −[(θ−1)2 +n(θ−ȳ)2 ]
−∞
exp 2 dθ

Desenvolvendo o denominador desta expressão, temos:


 h i
Z ∞  − (θ − 1)2 + n (θ − ȳ)2 
exp dθ
−∞  2 
 Z ∞ "  2 #
1 (nȳ + 1) 1 nȳ + 1
= exp − (nȳ + 1) + exp − −1 θ− dθ
2 2 (n + 1) −∞ 2 (n + 1) n+1

Como
Z ∞
"  2 #   12
1 nȳ + 1 2π
exp − −1 θ− dθ = ,
−∞ 2 (n + 1) n+1 n+1
4.10. EXERCÍCIOS 83

temos
n
 12 1
exp − n2 ȳ 2 (2π) 2

P (H0 | T ) 2π
=
P (H1 | T ) n 2
 1  2π  12 h
1 (nȳ+1)2
i
2π n+1 exp − 2 nȳ + 1 + 2(n+1)
1
n 2

(n + 1) 2 exp − 2 ȳ
= h 2 2
i
exp − nȳ2 − 12 + 12 (nȳ+1)
(n+1)
( " #)
2
1 1 (nȳ + 1)
= (n + 1) 2 exp − −1 .
2 (n + 1)

Com n = 10 e ȳ = 2 temos:

P (H0 | T )
= 1, 1 × 10−8 .
P (H1 | T )

Assim, devemos rejeitar H0 : θ = 0 em favor de H1 : θ 6= 0.

4.10 Exercı́cios
0
1. Seja y = (y1 , . . . , yn ) uma amostra aleatória da distribuição exponencial
com densidade f (y | λ) = λ exp (−λy) , y > 0, λ > 0. Considere uma
distribuição a priori conjugada para λ. Encontre:

(a) A densidade a posteriori para λ.


(b) Um aproximação normal para a densidade a posteriori para λ.
(c) A densidade preditiva para uma observação futura yn+1 .
(d) Encontre a moda da distribuição preditiva para uma observação fu-
tura de yn+1 .

2. Seja y = (y1 , . . . , yn ) representando uma amostra aleatória da distribuição


uniforme com densidade f (y | θ) = 1/θ, 0 < y < θ e considere uma
densidade a priori para θ dada por π (θ) = αaα θ−(α+1) , θ > a, α > 0 e
a > 0 (a conhecido).

(a) Encontre a densidade a posteriori para θ.


(b) Encontre a densidade preditiva para uma observação futura yn+1 .

3. Considere uma distribuição Gaussiana inversa IG (µ, λ) com densidade,


 3 − 12 h i
2
f (y | µ, λ) = 2πy
λ exp − 2µλ2 y (y − µ) , y > 0; λ > 0 e µ > 0.
Observar que E (y) = µ e V ar (y) = µ3 /λ. Assuma uma amostra aleatória
84

y = (y1 , . . . , yn ) e uma priori não informativa conjunta para µ e λ dada


por
1
π (µ, λ) ∝ , µ > 0, λ > 0.
µλ
Encontre:

(a) A densidade a posteriori conjunta para µ e λ. Encontre também a


densidade a posteriori marginal para µ.
(b) Considere duas amostras independentes com distribuições Gaussianas
inversas IG (µ1 , λ1 ) e IG (µ2 , λ2 ) com λ1 e λ2 conhecidos. Encontre
a densidade a posteriori marginal para µ1 /µ2 (razão de médias).
(c) Encontre a densidade preditiva para uma observação futura yn+1 dado
y1 , . . . , y n .
Capı́tulo 5

Distribuições a Priori

Uma distribuição a priori para um parâmetro pode ser elicitada de várias formas:

(a) Podemos assumir distribuições a priori definidas no domı́nio de variação do


parâmetro de interesse. Como um caso particular, poderı́amos considerar
uma distribuição a priori Beta (ver (1.17)), que é definida no intervalo
(0, 1), para proporções que também são definidas no intervalo (0, 1), ou
considerar uma distribuição a priori normal para parâmetros definidos em
toda reta;
(b) Podemos assumir uma distribuição a priori baseada em informações de um
ou mais especialistas;
(c) Podemos considerar métodos estruturais de elicitação de distribuições a
priori (ver por exemplo, Paulino et al., 2003);
(d) Podemos considerar distribuições a priori não-informativas quando temos
total ignorância sobre parâmetros de interesse;
(e) Podemos usar métodos bayesianos empı́ricos baseados em dados ou exper-
imentos prévios para construir a priori de interesse.

Alguns casos especiais são dados a seguir.

5.1 Método estrutural de elicitação


Um método estrutural é qualquer método de elicitação da distribuição a pri-
ori para um parâmetro θ baseado em questões relacionadas diretamente com
o parâmetro (Kadane, 1980). Como um caso especial, vamos considerar que
θ pode assumir um valor entre os possı́veis valores θ1 , . . . , θk . A partir da in-
formação de um especialista podemos atribuir as probabilidades a priori para
cada valor possı́vel θ.

85
86

Método do Histograma: Vamos considerar uma partição do espaço para-


k
S
métrico θ em k intervalos, isto é, Θ = θi , e então consultarmos um especial-
i=1
ista para atribuir probabilidades para cada intervalo θi . Então, construimos um
histograma com essas probabilidades.

Exemplo 5.1: Seja θ um parâmetro representando a proporção de com-


ponentes defeituosos em um equipamento hospitalar. Vamos supor a moda da
distribuição como igual
 aM  = 0, 1. Assim,dividimos3M o intervalo [0, 1] em k = 6
subintervalos: Q1 = 0, M M 3M
= M, 3M4+1 ,

2 , Q2 = 2 , , Q 3 = , M , Q4
3M +1 M +1
 M +1
 4 4
Q5 = 4 , 6 e Q6 = 6 , 1 . Então, solicitamos a um especialista as
P6
probabilidades pi para cada intervalo, i = 1, . . . , 6, com i=1 pi = 1. Como um
exemplo, considerar os valores de pi exibidos na Tabela 5.1.

Tabela 5.1: Distribuição a priori para pi .

Qi pi
[0; 0, 05] 0, 096
(0, 05; 0, 075] 0, 108
(0, 075; 0, 1] 0, 1233
(0, 1; 0, 325] 0, 6308
(0, 325; 0, 55] 0, 0415
(0, 55; 1] 0, 0004

A partir dos resultados da Tabela 5.1, temos que a distribuição Beta(a, b)


(ver (1.17)) com valores a = 2, 4 e b = 13, 6 se ajusta satisfatoriamente a
um histograma construı́do a partir destas informações (Figura 5.1). Assim,
consideramos que a distribuição a priori para θ é θ ∼ Beta (2, 4; 13, 6).

5.2 Método preditivo de elicitação


Na prática, um especialista pode achar mais simples fornecer informação nas ob-
servações do que em parâmetros (ou sumários ou estatı́sticas dessas observações).
Assumindo que f (y | θ) é o modelo formulado pelo estatı́stico, é solicitada a
informação de um especialista sobre uma estatı́stica T com distribuição pT (t).
Seja fT (t | θ) a distribuição dessa estatı́stica baseada no modelo estatı́stico elab-
orado. Se h (θ) é a distribuição a priori desconhecida, então pT (t) e h (θ) estão
relacionadas a partir da expressão
Z
pT (t) = fT (t | θ) h (θ) dθ. (5.1)
θ

A partir daı́, escolhemos h (θ) tal que a integral em (5.1) leve a uma boa
aproximação para pT (t) (isto nem sempre é um problema simples).
5.2. MÉTODO PREDITIVO DE ELICITAÇÃO 87

5
4
3
2
1
0

0.000 0.100 0.325 0.550 1.000

Figura 5.1: Histograma para os resultados mostrados na Tabela 5.1. A curva


sobreposta ao histograma descreve uma densidade beta com parâmetros a = 2, 4
e b = 13, 6.

Uma simplificação possı́vel é escolher uma famı́lia de distribuição a priori


h (θ) e escolher então os valores dos hiperparâmetros que melhor se aproxime
de pT (t).

Exemplo 5.2: Supondo o parâmetro θ de uma distribuição binomial, vamos


assumir que a distribuição a priori seja uma distribuição Beta(a, b) (ver (1.17)).
A seguir, o estatı́stico solicita a um especialista a distribuição para o número de
sucessos T em uma amostra imaginária de dimensão m. A distribuição marginal
(preditiva) para T é dada por
Z 1 
m t m−t 1 b−1
pT (t) = θ (1 − θ) θa−1 (1 − θ) dθ
t B (a, b)
0 
m B (a + t, m − t + b)
= (5.2)
t B (a, b)
para t = 0, 1, 2, . . . , m. Nesta expressão, B (a, b) é a função Beta, dada por (1.3).
Então, com base em (5.2), encontramos os hiperparâmetros a e b. Winkler
(1980) sugere pedir ao especialista elicitação da probabilidade de se observar
um sucesso (T = 1) na seguintes situações:

(a) m = 1, e
(b) m = 2.

Supor que o especialista fornece valores p1 e p2 , respectivamente. De (5.2),


temos:
a
p1 = , se m = 1, e
a+b
2ab
p2 = , se m = 2.
(a + b) (a + b + 1)
88

Destas expressões, temos que

bp1 p2 (1 − p1 )
a= e b= .
1 − p1 2p1 (1 − p1 ) − p2

Observar que uma limitação do método é que ele necessariamente exige que
2p1 (1 − p1 ) > p2 .

Se, por exemplo, o especialista fornece os valores p1 = 0, 3 e p2 = 0, 4, temos


a = 5, 143 e b = 12.

5.3 Distribuições a priori não-informativas


O uso de distribuições a priori não-informativas tem vários objetivos:

(a) Deduzir crenças a posteriori para quem parte de um conhecimento escasso,


isto é, quando os dados fornecem grande parte da informação sobre o
parâmetro (a chamada “ignorância a priori”).

(b) Permitir a comparação com os resultados obtidos da inferência frequentista,


descrita no Capı́tulo 2, que só usa a informação amostral.

(c) Averiguar a influência de uma priori subjetiva quando comparada com os


resultados obtidos usando uma distribuição a priori não-informativa.

5.3.1 Método de Bayes-Laplace


Vamos assumir que o parâmetro θ é representado por uma distribuição discreta
de probabilidade, tomando k valores θ1 , . . . , θk . Uma distribuição a priori não-
informativa para θ é dada pela distribuição uniforme discreta (1.8),

1
π (θi ) = ,
k
em que i = 1, 2, . . . , k. Observar que na situação em que θ é representado por
uma variável contı́nua, o uso de distribuições a priori uniformes para θ pode
levar a distribuições a priori não-uniformes para transformações ψ = ψ (θ) de θ.
Neste caso, se π (θ) é uma distribuição a priori para θ, então,


π (ψ) = π [θ (ψ)] .

Observar que π (ψ) não é necessariamente uniforme.

Exemplo 5.3: Seja θ o parâmetro de uma distribuição de Bernoulli, 0 <


θ < 1. Pela regra de Bayes-Laplace, uma distribuição a priori não-informativa
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 89

para θ é dada pela distribuição uniforme contı́nua (1.11) no intervalo (0, 1), isto
é, π (θ) = 1, 0 < θ < 1.
 
θ
Considerando a reparametrização ψ = ln 1−θ , ψ segue uma distribuição
logı́stica padronizada (o parâmetro de locação é igual a zero e o parâmetro de
escala é igual a um), isto é,

exp (ψ)
π (ψ) = 2
[1 + exp (ψ)]

em que −∞ < ψ < ∞. Vamos agora supor uma distribuição a priori uniforme
para ψ (priori imprópria). Isso corresponde à uma distribuição a priori para θ
dada por
−1
π (θ) ∝ θ−1 (1 − θ)
para 0 < θ < 1, que é o núcleo de uma distribuição beta (a, b) com a = b = 0
(priori imprópria).

Dessa forma, precisamos ter muito cuidado em usar a priori não-informativa


de Bayes-Laplace em aplicações em geral, dado que diferentes escolhas de para-
metrizações leva a diferentes distribuições a priori.

5.3.2 Método de Jeffreys


Vamos considerar a medida de informação de Fisher para um parâmetro θ em
toda a reta dos valores reais, ou seja,
( 2 )
d ln f (y |θ)
I (θ) = E , (5.3)

em que o valor esperado é determinado sob a distribuição f (y|θ). Para qualquer


transformação ψ um a um de θ, temos
 2

I (ψ) = I [θ (ψ)] (5.4)

(ver Box e Tiao, 1973). Ao assumirmos essa nova parametrização ψ, notamos


que a função de verossimilhança só se modifica em amostras diferentes de mesmo
tamanho em locação e não em escala. Assim, terı́amos uma variância constante
na aproximação assintótica (ver equação 3.17) para a distribuição a posteriori
para ψ, ou seja I (ψ) = constante (informação de Fisher constante). Dessa
forma, terı́amos de (5.4) a relação
 2

= I −1 [θ (ψ)] ,

90

ou seja,
dθ 1
= I − 2 [θ (ψ)] . (5.5)

Como nessa parametrização ψ, a função de verossimilhança só muda em
locação para amostras diferentes de mesmo tamanho, uma distribuição a priori
não-informativa para ψ é dada por uma distribuição localmente uniforme, isto
é,
πψ (ψ) ∝ constante.
Isso implica que na parametrização θ, a priori não-informativa correspon-
dente é dada por


πθ (θ) = πψ [θ (ψ)]



∝ constante .

1
De (5.5), observar que dψdθ = I (θ), o que leva a uma distribuiçãopriori
2

não-informativa de Jeffreys para θ dada por


1
π (θ) ∝ I 2 (θ) .

É importante salientar que a priori de Jeffreys é invariante.

Exemplo 5.4: Seja Xi uma variável


Pn aleatória com distribuição de Bernoulli,
i = 1, . . . , n. Dessa forma, Y = i=1 Xi segue uma distribuição binomial
Binomial (n, θ) (ver (1.9)) em que a informação de Fisher é dada por I (θ) =
−1
nθ−1 (1 − θ) . Portanto, uma distribuição a priori não-informativa de Jeffreys
para θ é dada por
1 − 12
π (θ) ∝ θ− 2 (1 − θ) ,
1 1

isto é, θ ∼ Beta 2, 2 .

Exemplo 5.5: No Exemplo 3.5, um epidemiologista desejava estimar a


prevalência de uma doença em uma determinada população. Ele considerou
que, nessa população, a probabilidade de uma pessoa portar a doença é P (X =
1) = θ. Se a variável aleatória Y denota o número de portadores da doença em
uma amostra de tamanho n, temos
 
n y n−y
f (y | θ) = θ (1 − θ) ,
y

em que y = 0, 1, 2, . . . , n, e a distribuição a priori para θ é dada por

1 b−1
π (θ) = θa−1 (1 − θ) I(0,1) (θ),
B (a, b)
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 91

com a e b conhecidos. Considerando uma distribuição a priori não-informativa


de Jeffreys para θ, temos a = 1/2 e b = 1/2 (Exemplo 5.4). A distribuição a
posteriori para θ é dada por
1 n−y−1/2
π (θ | y) = θy−1/2 (1 − θ) ,
B (y + 1/2, n + 1/2 − y)
com 0 < θ < 1. Novamente, vamos supor que em uma amostra de tamanho
n = 300, o epidemiologista encontrou y = 31 pessoas portadoras da doença.
Considerando que π (θ | y) segue uma distribuição beta com parâmetros y + a =
31 + 1/2 = 31, 5 e n + b − y = 300 + 1/2 − 31 = 269, 5, uma estimativa bayesiana
para a prevalência da doença, dada pela média de π (θ | y), é
31, 5
θB =
b ≈ 0, 105.
31, 5 + 269, 5

Nota: Observar que a informação de Fisher (5.3) também pode ser dada na
forma  2 
d ln f (y | θ)
I (θ) = E − .
dθ2

Exemplo 5.6: Seja Yi uma variável aleatória com distribuição de Poisson


(1.10) com parâmetro θ, i = 1, . . . , n. Assumindo observações iid, a função de
verossimilhança para θ é dada por
n Pn
Y e−θ θyi exp (−nθ) θ i=1 yi
L (θ) = = n . (5.6)
yi ! Q
i=1 yi !
i=1

O logaritmo da função de verossimilhança é dado por


n
!
Y
l (θ) = −nθ + nȳ log (θ) − log yi ! ,
i=1
Pn
em que nȳ = i=1 yi . A primeira e segunda derivadas de l (θ) são dadas,
respectivamente, por
dl nȳ
= −n + e
dθ θ
d2 l nȳ
= −
dθ2 θ2

Observando que E (Y ) = θ, isto é, E Ȳ = θ, a informação de Fisher para
θ é dada por
d2 l
 
n
I (θ) = E − 2 = .
dθ θ
92

Dessa forma, a priori de Jeffreys para θ é dada por


1
π (θ) ∝ I 2 (θ) ,

isto é,
1
π (θ) ∝1 , θ > 0. (5.7)
θ2
Combinando-se (5.6) com (5.7) , encontramos a distribuição a posteriori para
θ dada por
π (θ | y) ∝ θ(nȳ+ 2 )−1 exp (−nθ) ,
1

ou seja,  
1
θ | y ∼ Gama nȳ + , n .
2
Um estimador de Bayes com respeito à função perda quadrática para θ é
dado por
nȳ + 21 1
θ̃ = E (θ | y) = = ȳ + .
n 2n
Observar que o EMV (estimador de máxima verossimilhança) para θ é dado
por θ̂ = Y .

Exemplo 5.7: Vamos assumir que Y é uma variável aleatória com densi-
dade exponencial f (y | λ) = λ exp (−λy) , y > 0. Assumiremos uma amostra
aleatória de tamanho n dada por y = (y1 , . . . , yn ). A função de verossimilhança
para λ é dada por
n n
!
Y X
n
L (λ) = λ exp (−λyi ) = λ exp −λ yi .
i=1 i=1

Observar que E (Y ) = λ1 . O logaritmo da função de verossimilhança para λ


é dado por
l (λ) = n log λ − λnȳ. (5.8)
A primeira e segunda derivada de l (λ) são dadas, respectivamente, por
dl n
= − nȳ e
dλ λ
d2 l n
= − 2.
dλ2 λ
A informação de Fisher é dada por
d2 l
 
n
I (λ) = E − 2 = 2 .
dλ λ
Portanto, a priori de Jeffreys para λ é dada por
1
π (λ) ∝ . (5.9)
λ
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 93

Combinando-se (5.8) com (5.9), encontramos a distribuição a posteriori para


λ dada por
π (λ | y) ∝ λn−1 exp (−λnȳ) ,
isto é,
λ | y ∼ Gama (n; nȳ) .
Observar que o estimador de Bayes para λ com respeito a função de perda
quadrática é dado por
n 1
λ̃ = E (λ | y) = = .
nȳ ȳ
Neste caso, o estimador de Bayes coincide com estimador de máxima verossim-
ilhança para λ.

5.3.3 Caso Multiparamétrico


De forma similar ao caso uniparamétrico (ver Box e Tiao, 1973), determinamos a
0
priori de Jeffreys para um vetor de parâmetros θ = (θ1 , . . . , θk ) . O logaritmo da
0
função de verossimilhança para um vetor θ = (θ1 , . . . , θk ) pode ser aproximado
por uma série de Taylor na vizinhança do EMV θ̂ na forma
  n 0  
˜ θ̂ −
l (θ) = log L (θ) =l θ − θ̂ Dθ θ − θ̂
2
em que
1 ∂2l
 
Dθ̂ = −
n ∂θi ∂θj θ̂
para i, j = 1, 2, . . . , k. Observar que Dθ̂ é uma matriz k × k.
   
˜ −n In θ̂ , em que In θ̂ é a matriz de informação de
Para n grande, Dθ̂ =n
Fisher, dada por
    ∂2l

In θ̂ = E − .
∂θi ∂θj
Vamos considerar uma transformação φ (θ) tal que In (φ) seja uma matriz
de constantes independentes de φ tal que a função de verossimilhança só se
modifica em locação. Assim,

I (φ) = AIn (φ) A0 ,

em que  
∂ (θ1 , . . . θk )
A= .
∂ (φ1 , . . . φk )
Portanto,
2
|In (φ)| = |A| |In (θ)| ,
94

em que o sı́mbolo |A| denota o determinante de uma matriz A. Então, consid-


eramos

∂ (θ1 , . . . θk ) 1
|A| = ∝ |In (θ)|− 2 ,
∂ (φ1 , . . . φk )

e conclui-se que a priori de Jeffreys é dada por


1
π (θ) ∝ |In (θ)| 2 . (5.10)

A matriz de informação de Fisher é dada por


  2   2   2 
E − ∂ ln∂θf 2(ypθ) E − ∂ ∂θ
ln f (ypθ)
. . E − ∂ ∂θ
. ln f (ypθ)
 1  2 1 ∂θ2   2 1 ∂θk 
∂ ln f (ypθ)
E − . . . E − ∂ ∂θ
ln f (ypθ) 


 ∂θ22 2 ∂θk


I (θ) = 
 . . 


 . . 


 .  2 . 

∂ ln f (ypθ)
E − ∂θ2
k

0
Exemplo 5.8: Sejam y = (y1 , . . . , yn ) observações de uma a. a. de
2
tamanho
 n da distribuição normal com média µ e variância σ . Assim, θ =
2 0
µ, σ . A função de verossimilhança para θ é dada por
" n
#
 n
2 −2 1 X 2
L (θ) = f (y | θ) ∝ σ exp − 2 (yi − µ) .
2σ i=1

O logaritmo l (θ) da função de verossimilhança L (θ) é dado por

n
n 1 X 2
ln σ 2 − 2

l (θ) = ln L (θ) ∝ − (yi − µ) ,
2 2σ i=1

e as segundas derivadas de l (θ) com respeito a µ e σ 2 são dadas por

∂ 2 l (θ) 1
= − n,
∂µ2 σ2
n
∂ 2 l (θ) n 2 X 2
2 = 2 − 3 (yi − µ) e
∂ (σ 2 ) 2 (σ 2 ) 2 (σ 2 ) i=1
n
∂ 2 l (θ) 1 X
= − 2 (yi − µ)
∂µ∂ (σ 2 ) (σ 2 ) i=1
5.3. DISTRIBUIÇÕES A PRIORI NÃO-INFORMATIVAS 95

2
Como E (Yi ) = µ e E (Yi − µ) = σ 2 , observamos que
 2 
∂ l (θ) n
E − 2
= ,
∂µ σ2
!
∂ 2 l (θ) n
E − 2 = 4
e
∂ (σ )2 2σ
∂ 2 l (θ)
 
E − = 0.
∂µ∂ (σ 2 )

Portanto, a informação de Fisher é dada por


n 
0
I µ, σ 2 = σ2

,
0 2σn4

e, consequentemente, a priori de Jeffreys (ver 5.10) é dada por

1
π µ, σ 2 ∝ 2

σ
para −∞ < µ < ∞ e σ 2 > 0. A distribuição a posteriori conjunta para µ e σ 2
é dada por
" n
#
2
  (n+3)
2 − 2 1 X 2
π µ, σ | y ∝ σ exp − 2 (yi − µ) .
2σ i=1

5.3.4 Método da Entropia Máxima


Supor inicialmente que θ seja um parâmetro discreto com função de probabi-
lidade h (θ). A entropia é definida como o valor esperado de − ln h (θ), dado
por X
E [h (θ)] = − ln [h (θi )] h (θi ) .
i

Esse conceito pode ser utilizado para encontrar uma distribuição a priori
não-informativa para θ.

Exemplo 5.9: Vamos supor que o parâmetro θ assume um número finito de


valores distintos θ1 , . . . , θk , com probabilidade P (θ = θi ) = pi > 0, i = 1, . . . , k.
Dessa forma, usamos o P método de entropia máxima para encontrarPk pi , i =
k
1, . . . , k com a restrição i=1 pi = 1 que maximize E [h (θ)] = − i=1 pi ln pi .
Introduzindo multiplicadores de Lagrange, devemos maximizar
k k
!
X X

E [h (θ)] = − pi ln pi + λ pi − 1 .
i=1 i=1
96

De
∂E ∗ [h (θ)]
= 0,
∂pi
i = 1, . . . , k temos o sistema de equações

− ln pi − 1 + λ = 0

para i = 1, . . . , k, isto é, ln pi = λ − 1 para todo i = 1, . . . , k, o que leva pi


a ser constante. Assim, pi = k −1 , i = 1, . . . , k, é uma distribuição a priori
não-informativa que maximiza a entropia.

Outra possibilidade é assumir uma ignorância parcial (e não total) onde


se conhece alguns momentos da distribuição. Como um caso especial, vamos
assumir novamente θ discreto, tal que conhecemos para m funções gj (θ) , j =
1, . . . , m os seus momentos E [gj (θ)] = µj .

Com a introdução de multiplicadores de Lagrange devemos maximizar E ∗ [h (θ)]


dado por
! m
" #
X X X X

E [h (θ)] = − pi ln pi + λ pi − 1 + λj gj (θi ) pi − µj .
i i j=1 i

No caso contı́nuo, a entropia de uma distribuição h (θ) é definida por,


Z
E [h (θ)] = − h (θ) ln h (θ) dθ

Nota: Outros métodos para obtenção de distribuições a priori não-informa-


tivas são introduzidos na literatura. Por exemplo, Bernardo (1979) introduziu
a priori de referência explorando a medida de divergência de Kullback-Leibler
(ver Bernardo e Smith, 1995).

5.4 Exercı́cios
1. Seja X = (X1 , . . . , Xn ) uma amostra aleatória de uma distribuição normal
N µ, σ 2 .
(a) Assumindo σ conhecido, encontre uma distribuição a priori não-informativa
de Jeffreys para µ.
(b) Assumindo µ conhecido, encontre uma distribuição a priori priori não-
informativa de Jeffreys para σ.
(c) Com µ e σ desconhecidos, encontre a distribuição a priori a priori de
Jeffreys para µ e σ.
5.4. EXERCÍCIOS 97

2. Seja T uma variável aleatória representando o tempo de vida de um com-


ponente, com distribuição exponencial com densidade

f (t | λi ) = λi exp (−λi t) , t > 0, λi ≥ 0,

em que λi = θi−1 , θi = E (T | λi ) e o modelo de potência inversa θi =


αVi−β , i = 1, . . . , k usado em testes acelerados industriais (Vi é fixo) .
Considere k = 2 e os dados de um teste acelerado com dois nı́veis para a
variável stress Vi :
i Vi ni tji ; i = 1, 2; j = 1, . . . , ni
1 10 5 6, 8, 10, 12, 14
2 20 8 4, 5, 5, 6, 8, 8, 9, 14
(a) Escreva a função de verossimilhança para α e β;
(b) Encontre uma distribuição a priori não-informativa para α e β usando
a regra de Jeffreys;
(c) Encontre a distribuição a posteriori conjunta para α e β;
(d) Encontre a distribuição a posteriori marginal para β.
3. Considere uma variável aleatória Y com densidade Gaussiana inversa com
parâmetros θ e λ e densidade,
 
− 1 1 2
f (y | θ, λ) = 2πλ−1 y 3 2 exp − λy −1 yθ−1 − 1
2
θ3
em que y > 0, θ > 0, λ > 0, E (y) = θ e V ar (y) = λ.
0
(a) Assumindo uma amostra aleatória de tamanho n, y = (y1 , . . . , yn ) ,
encontre uma densidade a priori não informativa conjunta para θ e λ
usando a regra de Jeffreys;
(b) Encontre a distribuição a posteriori conjunta para θ e λ usando a priori
obtido em (a) ;
(c) Encontre a densidade a posteriori marginal para θ;
(d) Assumindo λ conhecido, encontre uma priori não-informativa para θ
usando a regra de Jeffreys.
98
Capı́tulo 6

Aproximações Numéricas e
Métodos de Monte Carlo

Na obtenção de sumários a posteriori de interesse, geralmente precisamos re-


solver integrais que não apresentam solução analı́tica. Isto é comum em proble-
mas que envolvem um vetor θ de parâmetros. Várias alternativas são introduzi-
das na literatura para resolver essas integrais. Neste capı́tulo, apresentaremos
alguns casos especiais.

6.1 Aproximação de Laplace


Supor que estamos interessados em encontrar momentos a posteriori da forma
Z
E [g (θ) | y] = g (θ) π (θ | y) dθ, (6.1)

0
em que g (θ) é uma função de interesse, θ = (θ1 , . . . , θk ) é o vetor de parâmetros
0
e y = (y1 , . . . , yn ) é o vetor de dados. Como a distribuição a posteriori para θ
é dada por
f (y | θ) π (θ)
π (θ | y) = R ,
f (y | θ) π (θ) dθ
em que f (y | θ) é a função de verossimilhança para θ e π (θ) é uma distribuição
a priori para θ, podemos escrever (6.1) na forma
R
g (θ) f (y | θ) π (θ) dθ
E [g (θ) | y] = R . (6.2)
f (y | θ) π (θ) dθ

Vamos supor que g (θ) é uma função positiva. Podemos reescrever (6.2) na

forma
exp [−nh∗ (θ)] dθ
R
E [g (θ) | y] = R ,
exp [−nh (θ)] dθ

99
100

em que
−nh (θ) = ln π (θ) + ln f (y | θ)
e
−nh∗ (θ) = ln g (θ) + ln π (θ) + ln f (y | θ) .

Caso Uniparamétrico: Seja θ unidimensional (θ ∈ R) em que θ̂ maximiza



−h (θ) e θ̂ maximiza −h∗ (θ). Vamos definir
h  i− 21
σ̂ = h00 θ̂

e
h 00  ∗ i− 21
σ̂ ∗ = h∗ θ̂ ,

em que h00 (.) é a segunda derivada de h (.).

As aproximações de Laplace para as integrais no numerador e denominador


de (6.1) são dadas respectivamente por
Z √ 1
h  ∗ i
˜ 2πσ̂ ∗ n− 2 exp −nh∗ θ̂
exp [−nh∗ (θ)] dθ = (6.3)

e Z √ 1
h  i
˜ 2πσ̂n− 2 exp −nh θ̂
exp [−nh (θ)] dθ = (6.4)

Observe que as aproximações de Laplace são aproximações normais para os


integrandos. Assim, obtém-se a aproximação
 ∗
σ̂ n h  ∗  io
E [g\(θ) | y]=
˜ exp −n h∗ θ̂ − h θ̂ . (6.5)
σ̂

Tierney e Kadane (1986) mostraram que a aproximação (6.5) é bem precisa


e satisfaz à relação

˜ Ê [g (θ) | y] 1 + o n−2 ,
 
E [g (θ) | y] =

em que o n−2 é a ordem do erro de aproximação (observar que an = θ (bn )


 

se abnn → 0 quando n ↑ ∞).

0
Caso Multiparamétrico: Seja θ = (θ1 , . . . , θk ) , em que θ ∈ Rk . Neste
caso, a aproximação de Laplace é dada por,
Z
k
  − 12 h  i
˜ (2π) 2 n 52 h θ̂ exp −nh θ̂ ,
exp [−nh (θ)] dθ = (6.6)

6.1. APROXIMAÇÃO DE LAPLACE 101

em que θ̂ maximiza −h (θ) e


 2 

2
  ∂ h (θ)
5 h θ̂ = |θ=θ̂

ij ∂θi ∂θj

é a matriz hessiana de H calculada em θ̂. Escrevendo


  − 12
σ̂ = n 52 h θ̂

e  ∗  − 12
σ̂ ∗ = n 52 h∗ θ̂ ,


em que θ̂ maximiza −h (θ) e θ̂ maximiza −h (θ ∗ ), encontramos a aproximação
de Laplace,
 ∗
σ̂ n h  ∗  io
E [g\
(θ) | y]=
˜ exp −n h∗ θ̂ − h θ̂ .
σ̂

Podemos usar a aproximação de Laplace para calcular momentos a poste-


riori de interesse, densidades preditivas e densidades a posteriori marginais de
interesse (ver Tierney e Kadane, 1986).

Exemplo 6.1: Seja Y uma variável aleatória com distribuição Binomial(n,


θ) e vamos assumir uma distribuição a priori Beta 21 , 12 para o parâmetro θ. A


distribuição a posteriori para θ é dada pela distribuição Beta y + 12 , n − y + 12 .




Neste caso, observamos que a média a posteriori para θ é dada, em sua forma
exata, por
y + 12
E (θ | y) = .
n+1
Como ilustração numérica, vamos considerar a aproximação de Laplace para
a média a posteriori para θ. Observar que (ver 6.1)
R1 1 n−y− 12
0
θy+ 2 (1 − θ) dθ
E (θ | y) = R1 1 n−y− 21
. (6.7)
0
θy− 2 (1 − θ) dθ

Vamos considerar a aproximação de Laplace para a integral


Z 1 Z 1
a b
θ (1 − θ) dθ = exp [−nh (θ)] dθ, (6.8)
0 0

em que
−nh (θ) = a ln θ + b ln (1 − θ) .
0
De −h (θ) = 0, o máximo de −h (θ) é dado por
a
θ̂ = .
(a + b)
102

A segunda derivada de −nh (θ) calculada em θ̂ é dada por


3
(a + b)
−nh00 (θ) = − ,
ab
isto é,
 i− 21 √ 1
h
00 n (ab) 2
σ̂ = h θ̂ = 3 .
(a + b) 2
E ainda,
h  i aa bb
exp −nh θ̂ = a+b
.
(a + b)
Dessa forma, a aproximação de Laplace para (6.8) é dada (ver (6.3) e (6.4))
por √
1 1 1
2πaa+ 2 bb+ 2
Z
a b
θ (1 − θ) dθ=
˜ a+b+ 23
.
0 (a + b)
Com a = y + 12 , b = n − y − 21 (numerador de (6.7)) e a = y − 12 , b = n − y − 21
(denominador de (6.7)), encontramos
n+ 12 1 y+1

(n − 1) y+ 2
E (θ | y) =
˜ 3 1
 .
nn+ 2 y − 2

Nota: A aproximação de Laplace para integrais não é invariante à repara-


metrizações (ver Achcar e Smith, 1989).

Exemplo 6.2: Vamos considerar a razão das médias de duas distribuições


exponenciais com médias φ e λ, respectivamente. Seja y11 , . . . , y1n uma a.a. de
tamanho n de uma distribuição exponencial com média φ e seja y21 , . . . , y2n
uma a.a. de tamanho n de uma distribuição exponencial com média λ. Vamos
assumir independência entre as duas amostras. A função de verossimilhança
para φ e λ é dada por
−n
L (φ, λ) ∝ (φλ) exp −nȳ1 φ−1 − nȳ2 λ−1 ,


Pn Pn
em que nȳ1 = i=1 y1i e nȳ2 = i=1 y2i .

A distribuição a priori de Jeffreys para φ e λ é dada por


1
π (φ, λ) ∝ ,
φλ

em que φ > 0 e λ > 0. A razão das médias é dada por ψ = φλ e a média a


posteriori para ψ é dada por
 
nȳ1 nȳ2
R R −n −(n+2)

φ
 φ λ exp − φ − λ dφdλ
E |y = R R   . (6.9)
λ φ−(n+1) λ−(n+1) exp − nȳ1 − nȳ2 dφdλ φ λ
6.1. APROXIMAÇÃO DE LAPLACE 103

Vamos considerar a aproximação de Laplace para a integral


Z Z   Z Z
−a −b nȳ1 nȳ2
φ λ exp − − dφdλ = exp [−nh (φ, λ)] dφdλ, (6.10)
φ λ
em que
nȳ1 nȳ2
−nh (φ, λ) = −a ln φ − b ln λ − − .
φ λ
O máximo de −h (φ, λ) é dado por
nȳ1
φ̂ =
a
e
nȳ2
λ̂ = .
b
E ainda,
n∂ 2 h a3
− | = ,
∂φ2 (φ̂,λ̂) (nȳ1 )2
n∂ 2 h b3
− | =
∂λ2 ( ) (nȳ2 )2
φ̂,λ̂

e
n∂ 2 h
− | = 0.
∂λ∂φ (φ̂,λ̂)
Portanto, a matriz hessiana (ver (6.6)) é dada por
a3
!
 
(nȳ1 )2
0
n∇2 h φ̂, λ̂ = b3
,
0 (nȳ2 )2

isto é,
n h  io− 12 (nȳ1 ) (nȳ2 )
det n∇2 h φ̂, λ̂ = 3 3 .
a2 b2
Em adição, temos
h  i aa bb
exp −nh φ̂, λ̂ = a b
exp (−a − b) .
(nȳ1 ) (nȳ2 )
Assim, a aproximação de Laplace (ver (6.6)) para (6.10) é dada por
3 3
2πaa− 2 bb− 2 exp [− (a + b)]
Z Z  
nȳ1 nȳ2
φ−a λ−b exp − − dφdλ=
˜ . (6.11)
φ λ na+b−2 ȳ1a−1 ȳ2b−1
Dessa forma, usando a expressão (6.11) no numerador e denominador de
(6.9) encontramos
\
  n− 3 n+ 1  
φ n 2 (n + 2) 2 ȳ1
E |y =˜ 2n−1 .
λ (n + 1) ȳ2
Observar que o resultado exato para esse caso é dado por
   
φ n ȳ1
E |y = .
λ n − 1 ȳ2
104

6.2 Método de Monte Carlo ordinário


Vamos supor que estamos interessados em aproximar uma integral na forma
Z
E [g (θ) | y] = g (θ) π (θ | y) dθ, (6.12)

em que y e θ podem ser vetores. Pelo método de Monte Carlo ordinário, vamos
simular uma amostra θ1 , . . . , θn da distribuição a posteriori π (θ | y). Assim, a
expressão (6.12) é aproximada por
n
1X
Ê [g (θ) | y] = g (θi ) .
n i=1

Observar que, pela lei forte dos grandes números, Ê [g (θ) | y] converge quase
certamente para E [g (θ) | y]. A precisão dessa aproximação pode ser medida
pelo erro padrão de Monte Carlo, dado por

n
" n
#2  21
1  X 1 X 
p g (θi ) − g (θi ) .
n (n − 1)  i=1 n i=1 

Intervalos de credibilidade para θ podem ser obtidos usando o método de


Monte Carlo ordinário. Da ordenação da amostra simulada de π (θ | y) obtemos
θ(1) < θ(2) < . . . < θ(n) . Um intervalo de credibilidade 100α% para θ é dado
por
h i
Rc (α) = θ (1−α) ; θ (1+α) ,
2 2

(1−α) (1+α)
cujos extremos definem quantis de probabilidade a posteriori 2 e 2 de
θ. Assim,
h i 1−α
P θ ≤ θ (1−α) | y =
2 2
e
h i 1−α 1+α
P θ ≤ θ (1+α) | y = 1 − = .
2 2 2

6.3 Método de Monte Carlo por importância


Observar que em muitas aplicações, não podemos simular uma amostra direta-
mente da distribuição a posteriori π (θ | y), como considerado usando o método
de Monte Carlo ordinário. Uma alternativa é simular uma amostra de uma
distribuição semelhante à distribuição a posteriori π (θ | y), uma amostragem
via função de importância. Seja p (θ) uma densidade da qual seja fácil simu-
lar amostras e que aproxime a distribuição π (θ | y). Assim, podemos escrever
6.3. MÉTODO DE MONTE CARLO POR IMPORTÂNCIA 105

(6.12) na forma
R
g (θ) f (y | θ) π (θ) dθ
Z
g (θ) π (θ | y) dθ = R
f (y | θ) π (θ) dθ
g (θ) f (y|θ)π(θ)
R
p(θ) p (θ) dθ
= R f (y|θ)π(θ)
p(θ) p (θ) dθ
R
g (θ) w (θ) p (θ) dθ
= R ,
w (θ) p (θ) dθ
em que
f (y | θ) π (θ)
w (θ) = ,
p (θ)
f (y | θ) é a função de verossimilhança para θ e π (θ) é a distribuição a priori
para θ. Obtendo uma amostra θ1 , . . . , θn de p (θ), encontramos a aproximação
de Monte Carlo para E [g (θ) | y] dada por
n
1 X
E [g\
(θ) | y] = Pn wi g (θi ) , (6.13)
i=1 wi i=1

em que
f (y | θi ) π (θi )
wi = .
p (θi )
Nota: Observar que o método de amostragem via função de importância
atribui mais peso à regiões em que p (θ) < π (θ | y) e menos peso às regiões em
que p (θ) > π (θ | y). Geweke (1989) mostra que se o suporte de p (θ) inclui
suporte
R de π (θ | y), os θi , i = 1, . . . , n são os elementos de uma a. a. de p (θ) e
se g (θ) π (θ | y) dθ existe e é finito, então,
n Z
1 X
Pn wi g (θi ) → g (θ) π (θ | y) dθ.
i=1 wi i=1
q.c.

O erro-padrão dessa estimativa de Monte Carlo via função de importância é


dado por

n
" n
#2  12
1 X 1 X 
Pn g (θi ) − Pn wi g (θi ) wi2 .
j=1 wj  i=1 j=1 wj i=1 

Observar que a razão de convergência depende de como p (θ), a função de im-


portância, está próxima de π (θ | y). Uma boa escolha da função de importância
segue as propriedades:

1. Simplicidade na geração de amostras;


2. Ter caudas mais pesadas do que π (θ | y);
106

3. Ser uma boa aproximação para π (θ | y).

Para vetores paramétricos θ, podemos considerar como função de importância


distribuições normais multivariadas ou distribuições t de Student multivariadas.

Exemplo 6.3: De acordo com um modelo genético, animais de uma de-


terminada espécie estão distribuı́dos em quatro categorias, de acordo com as
probabilidades:
2+θ 1−θ 1−θ θ
p1 = , p2 = , p3 = e p4 = ,
4 4 4 4
0 < θ < 1. Assumir que o parâmetro de interesse θ tem uma distribuição a priori
Beta(a, b) com a e b conhecidos (ver (1.17)) e para uma amostra de Ptamanho n
n
se observa yi animais na i-ésima categoria, i = 1, 2, 3, 4. Notar que i=1 yi = n.
Assim a distribuição a posteriori para θ é dada por:
y1 y2 +y3 +b−1
π (θ | y) ∝ (2 + θ) (1 − θ) θy4 +a−1

para 0 < θ < 1. O logaritmo da distribuição posteriori é dado por

L (θ) = ln [π (θ | y)]
∝ y1 ln (2 + θ) + (y2 + y3 + b − 1) ln (1 − θ) + (y4 + a − 1) ln (θ) .

A primeira e segunda derivadas de L (θ) são dadas, respectivamente, por

y1 y4 + a − 1 (y2 + y3 + b − 1)
L0 (θ) = + −
2+θ θ 1−θ
e

y1 (y2 + y3 + b − 1)
y4 + a − 1
−L00 (θ) = 2 + 2 . +
(2 + θ) (1 − θ) θ2
  h  i−1
Seja θ̂ o valor total que L0 θ̂ = 0 e σ 2 = −L00 θ̂ . Vamos assumir
esses valores como aproximações para a média e para a variância da distribuição
importância. São possı́veis candidatas as distribuições normal (1.12) e beta
(1.17). Vamos então seguir o seguinte roteiro:

1. Simular θ1 , . . . , θm de p (θ) a função de importância escolhida;


2. Calcular
f (y | θi ) π (θi )
wi = , i = 1, . . . , m;
p (θi )
3. Calcular
m
1 X
Pm wi g (θi )
i=1 wi i=1

considerando:
6.3. MÉTODO DE MONTE CARLO POR IMPORTÂNCIA 107

• g (θ) = θ para o cálculo aproximado da média a posteriori; e


• g (θ) = θ2 para obter uma aproximação para a variância a posteriori.

Exemplo 6.4: Vamos considerar uma amostra aleatória de tamanho n =


5 com observações 11, 4, 7, 3, 9, 8, 13, 7 e 10, 6 de uma densidade f (y | θ) de
Cauchy padrão (ver (1.18)) dada por
1
f (y | θ) = h i I(−∞,∞) (y).
2
π 1 + (y − θ)

A média amostral é dada por ȳ = 10, 56. Assumindo uma distribuição a


priori não informativa localmente uniforme π (θ) ∝ constante, −∞ < y < ∞, a
densidade a posteriori para θ é dada por

π (θ | y) = cH (θ) (6.14)

em que
h i−1
2
H (θ) = 105 1 + (11, 4 − θ) ×
h i−1 h i−1
2 2
× 1 + (7, 3 − θ) 1 + (9, 8 − θ) ×
h i−1 h i−1
2 2
× 1 + (13, 7 − θ) 1 + (10, 6 − θ)

e Z ∞
−1
c = H (θ) dθ.
−∞

(ver Box e Tiao, 1973). Observar que a variação de θ na distribuição a posteriori


está entre 6 e 16 com média amostral ȳ = 10, 56. Portanto, devemos escolher
uma “função importância” p (θ) dada por uma densidade normal com média 11
e variância igual a 4. Então, geramos M = 1000 observações da distribuição
normal N (11; 4) e aproximamos a média a posteriori para θ por (6.13), isto é,
1000
X
E\
(θ | y) = wi θi ,
i=1

em que
H(θi )
p(θi )
wi = P1000
H(θm )
,
i=1
p(θm )

H (θi ) é dado por (6.15) e p (θm ) é dado por


 
1 1 2
p (θm ) = √ exp − (θm − 11) .
2 2π 2 (4)

Assim, encontramos E\
(θ | y)=10,
˜ 620.
108

6.4 Algoritmo SIR


Outra forma para simular amostras para uma distribuição a posteriori de inte-
resse é dada pelo algoritmo SIR (sampling-importance-resampling) ou algoritmo
de amostragem-reamostragem por importância. Assumir que a distribuição a
posteriori de interesse g ∗ (θ) = π (θ | y) é difı́cil para simular amostras direta-
mente. Dessa forma, considerar uma “função importância” p (θ) que aproxima
g ∗ (θ) e é simples para simulação de amostras. O algoritmo SIR apresenta duas
etapas:

1. Gerar m amostras θ 1 , θ 2 , . . . , θ m de p (θ). Calcular os pesos


g ∗ (θ i )
wi = w (θ i ) =
p (θ i )
para i = 1, 2, . . . , m.
2. Selecionar uma amostra θ ∗1 , . . . , θ ∗n com reposição de θ 1 , θ 2 , . . . , θ m com
probabilidades proporcionais a [w (θ 1 ) , . . . , w (θ m )].

Rubin (1987) mostra que a amostra (θ ∗i ) é aproximadamente distribuı́da da


densidade a posteriori de interesse g (θ ∗ ). Alguns autores denominam este pro-
cedimento como bootstrap ponderado pois selecionamos amostras com reposição
de (θ 1 , . . . , θ m ) usando pesos (probabilidades) diferentes w (θ i ). A precisão
aumenta quando m na amostra original aumenta. É importante salientar que:

1. Se as médias de p (θ) e g ∗ (θ) são muito diferentes, é importante que um


número suficiente de pontos amostrais de p (θ) seja selecionado na região
em que g ∗ (θ) está concentrado.
2. Em inferência bayesiana, g ∗ (θ) seria a posteriori π (θ | y) e p (θ) poderia
ser a distribuição a priori para θ se a priori for própria; dessa forma, os
pesos seriam proporcionais à função de verossimilhança, pois,
L (θ i ) π (θ i )
w (θ i ) = = L (θ i ) .
π (θ i )

Exemplo 6.5: Vamos considerar a razão de médias de duas distribuições


exponenciais com parâmetros φ e λ. Vamos assumir uma amostra de tamanho n,
com observações y11 , . . . , y1n de uma distribuição exponencial (1.13) com média
φ e uma amostra de tamanho n, y21 , . . . , y2n , de uma distribuição exponencial
com média λ. A função de verossimilhança para φ e λ, assumindo independência
entre as duas amostras é dada por
−n
L (φ, λ) ∝ (φλ) exp −nȳ1 φ−1 − nȳ2 λ−1 ,


em que
n
X n
X
nȳ1 = y1i e nȳ2 = y2i .
i=1 i=1
6.4. ALGORITMO SIR 109

Vamos considerar os seguintes problemas:


(a) Encontrar a distribuição a priori de Jeffreys para φ e λ.

(b) Encontrar a aproximação de Laplace para E (ψ | ȳ) quando ψ = g (φ, λ) =


φ
λ (razão de médias).

φ
(c) Considerando a reparametrização ψ = λ e φ = φ, encontrar a priori de
Jefreys para ψ e φ.

(d) Encontrar a aproximação de Laplace para E (ψ | ȳ) na parametrização


ψ = φλ e φ = φ.

(e) Considerar n = 10, y1 = 4 e y2 = 2. Calcular E (ψ | ȳ) em cada caso.

Soluções:

(a) A solução para este item é deixada como um exercı́cio.

(b) Seja
 
φ
E (ψ | ȳ) = E | ȳ =
λ
R ∞ R ∞ −n −(n+2)  
nȳ1 nȳ2
0 0
φ λ exp − φ − λ dφdλ
= R∞R∞   .
φ −(n+1) λ−(n+1) exp − nȳ1 − nȳ2 dφdλ
0 0 φ λ

Observe o seguinte resultado:

Z Z  
−a −b nȳ1 nȳ2
I1 = φ λ exp − − dφdλ
φ λ
Z Z
= exp [−nh (φ, λ)] dφdλ,

em que
nȳ1 nȳ2
−nh (φ, λ) = −a log (φ) − b log (λ) − − .
φ λ
Pelo método de Laplace, temos:
h  i− 12 h  i
I1 u (2π) det nD2 h φ̂, λ̂ exp −nh φ̂, λ̂ ,

sendo as derivadas parciais dadas por


n∂h (φ, λ) a nȳ1 nȳ1
− = − + 2 = 0 ⇒ φ̂ =
∂φ φ φ a
n∂h (φ, λ) b nȳ2 nȳ2
− = − + 2 = 0 ⇒ λ̂ =
∂λ λ λ b
110

n∂ 2 h (φ, λ) a 2nȳ1
− = − 3
∂φ2 φ 2 φ
2
n∂ h (φ, λ) b 2nȳ2
− = − 3
∂λ2 λ2 λ
2
n∂ h (φ, λ)
− = 0
∂φ∂λ

n∂ 2 h (φ, λ) a3

= 2 e
∂φ2
(λ̂,φ̂) n (nȳ1 )
n∂ 2 h (φ, λ) b3

= 2.
∂λ2
(λ̂,φ̂) n (nȳ2 )

Assim,
a3
!
2
 
n(nȳ1 )2
0
nD h φ̂, λ̂ = b3
,
0 n(nȳ2 )2

isto é,
n h  io− 12 (nȳ1 ) (nȳ2 )
det nD2 h φ̂, λ̂ = 3 3
a2 b2
e i  nȳ −a  nȳ −b  
h 
1 2 nȳ1 a nȳ2 b
exp −nh φ̂, λ̂ = exp − − .
a b nȳ1 nȳ2
Note que
h  i aa bb
exp −nh φ̂, λ̂ = a b
exp (−a − b) .
(nȳ1 ) (nȳ2 )
Concluı́mos, finalmente, que
3 3
2πaa− 2 bb− 2 exp [− (a + b)]
I1 u .
na+b−2 ȳ1a−1 ȳ2b−1
Observar que, com a = n, b = n + 2 no numerador de I1 , e com a = n + 1 e
b = n + 1 no denominador de I1 , temos
3 n+ 1 
nn− 2 (n + 2) 2 ȳ1
  
φ
E y u 2n−1 .
λ (n + 1) ȳ2

Notar que o resultado exato neste caso é dado por


    
φ n ȳ1
E y = .
λ n−1 ȳ2
(c) A distribuição a priori de Jefreys para ψ e φ é dada por

π (ψ, φ) ∝ ψ −1 φ−1 , ψ > 0, φ > 0,


6.5. EXERCÍCIOS 111

e a distribuição a posteriori conjunta para ψ e φ é

ψ n−1
exp −nφ−1 (ȳ1 + ȳ2 ψ) , ψ > 0, φ > 0.
 
π (ψ, φ | y) ∝
φ2n−1
(d) A média a posteriori para ψ é dada por
R ∞ R ∞ n −(2n+1)
exp −nφ−1 (ȳ1 + ȳ2 ψ) dψdφ
 
0 0
ψ φ
E (ψ | y) = R ∞ R ∞ n−1 −(2n+1) .
0 0
ψ φ exp [−nφ−1 (ȳ1 + ȳ2 ψ)] dψdφ

Para encontrar uma solução para a integral, seja a aproximação de Laplace:


5
∞ ∞ 1 b−a− 2
(2π) aa+ 2 (b − a)
Z Z
exp (−b)
ψ a φ−b exp −nφ−1 (ȳ1 + ȳ2 ψ) dψdφ u
 
3 .
0 0 nb− 2 ȳ1b−a−2 ȳ2a+1
Então,
1 n− 23
nn+ 2 (n + 1)
 
ȳ1
E\
(ψ | y) u n− 12 n− 21
.
(n − 1) (n + 2) ȳ2
Como uma ilustração numérica, seja n = 10, ȳ1 = 4 e ȳ2 = 2. Assim,

(i) Método exato:


 
φ n ȳ1
E y = = 2, 2222.
λ n − 1 ȳ2

(ii) Método de Laplace na parametrização φ e λ :


3 n+ 1
nn− 2 (n + 2) 2 ȳ1
\
 
φ
E y u 2n−1 = 2, 21805.
λ (n + 1) ȳ2
φ
(iii) Método de Laplace na parametrização ψ = λ e φ:
1 n− 23
nn+ 2 (n + 1) ȳ1
E\
(ψ | y) u n− 12 n− 21
= 2, 16442.
(n − 1) (n + 2) ȳ2

Como conclusão, observamos uma melhor aproximação na parametrização φ


e λ.

6.5 Exercı́cios
1. Seja y1 , . . . , yn uma amostra aleatória de tamanho n de uma distribuição
exponencial com média θ, ou seja, f (y | θ) ∝ θ−1 exp − yθ . Assuma


n = 30 e ȳ = 12, e considere uma priori de Jeffreys para θ.


(a) Encontre a aproximação de Laplace para E (θ | y) e V ar (θ | y);
(b) Encontre a aproximação de Laplace para a confiabilidade em y = 10;
112

(c) Determine os valores exatos de E (θ | y) e V ar (θ | y). Compare com


as aproximações obtidas em (a);
(d) Considere a parametrização φ = ln (θ). Qual é a priori de Jeffreys
para φ?
(e) Encontre as aproximações de Laplace para E (θ | y) e V ar (θ | y) na
parametrização φ = ln (θ) ou θ = exp (φ). Compare os resultados exatos
obtidos em (c);
(f ) Escreva algumas conclusões, com base nestes resultados.
2. Seja y1 , . . . , yn uma a. a. de tamanho n de uma distribuição de Poisson
(1.10) com parâmetro θ.
(a) Considere uma distribuição a priori de Jeffreys para θ. Calcule aprox-
imações de Laplace para E (θa | y), sendo n = 5 e ȳ = 10, para a =
1, 2, 3, 5 e 10;
1
(b) Considere a parametrização φ = θ 2 . Qual é a priori de Jeffreys para φ?
Na parametrização φ, encontre
 aproximações de Laplace para E (θa | y) ,
2
a = 1, 2, 3, 5 e 10 θ = φ . Quais conclusões você pode escrever?
3. Seja T uma variável aleatória representando o tempo de vida de um com-
ponente, com distribuição exponencial com densidade

f (t | λi ) = λi exp (−λi t) , t > 0; λi ≥ 0

em que λi = θi−1 , θi = E (T | λi ) e o modelo de potência inversa θi = α


Viβ
,
i = 1, . . . , k usado em testes acelerados industriais (Vi é fixo) .
Considere k = 2 e os dados de um teste acelerado com dois nı́veis para a
variável estresse Vi :
i Vi ni tji ; i = 1, 2, ; j = 1, . . . , ni
1 10 5 6, 8, 10, 12, 14
2 20 8 4, 5, 5, 6, 8, 8, 9, 14
Assuma uma distribuição a priori de Jeffreys para α e β.
(a) Encontre a aproximação de Laplace para E (α | D) e E (β | D);
(b) Encontre E (θ1 | α) (tempo de vida sob nı́vel usual de estresse) usando
método de Laplace;
(c) Encontre π (α | D) e π (β | D) (distribuições marginais).
Capı́tulo 7

Métodos de Monte Carlo


em Cadeias de Markov

Vamos supor que temos interesse em gerar uma amostra de uma distribuição
a posteriori π (θ | y), θ ∈ Rk , mas não podemos fazer isso diretamente. En-
tretanto, podemos construir uma cadeia de Markov com espaço de estados no
espaço paramétrico Θ (conjunto de todos valores possı́veis de θ), o que é simples
para simular, e cuja distribuição de equilı́brio é dada por π (θ | y). Se temos
muitas simulações dessa cadeia, os valores simulados podem ser usados como
uma base para sumarizar caracterı́sticas da distribuição a posteriori π (θ | y).
Lembrar que uma cadeia de Markov é um processo estocástico em que os estados
futuros são independentes dos estados passados, dado o estado presente.

Resultado: Se a distribuição conjunta a posteriori π (θ | y) for positiva


em Θ1 × Θ2 × · · · × Θk , com Θi sendo suporte para a distribuição de θi , i =
1, . . . , k, então a distribuição a posteriori π (θ | y) é unicamente
 determinada
pelas distribuições condicionais completas π θi | y, θ (i) para i = 1, . . . , k em
que θ = (θ1 , . . . , θk ) e θ (i) é o vetor de todos os componentes de θ exceto θi ,
isto é, θ (i) = (θ1 , . . . , θi−1 , θi+1 , . . . , θk ) (Besag, 1994). Sob algumas condições
de regularidade, é fácil observar que os resultados simulados da cadeia com dis-
tribuição de equilı́brio π (θ | y) podem ser supostos com uma amostra aleatória
de π (θ | y).

Se θ (1) , θ (2) , . . . , θ (t) , . . . é uma realização de uma cadeia, temos


D
θ (t) → θ ∼π (θ | y) ,
D
em que o sı́mbolo → significa convergência em distribuição.

Da mesma forma, para estimar o valor esperado de g (θ) com respeito a


π (θ | y), isto é, Z
E [g (θ | y)] = g (θ) π (θ | y) dθ,

113
114

observamos que
t
1 X  (i)  qc
g θ → E [g (θ | y)]
t i=1
qc
(nesta expressão, a notação → denota convergência quase certa). Na prática,
θ (i) pode estar correlacionado, mas poderı́amos considerar espaços adequados
entre os θ (i) gerados para garantir uma amostra aleatória de π (θ | y).

7.1 O Amostrador de Gibbs


Supor que estamos interessados em obter inferências da distribuição a posteriori
conjunta, π (θ | y), sendo θ = (θ1 , . . . , θk ). Para isso
 simulamos
 quantidades
aleatórias de distribuições condicionais completas π θi | y, θ (i) que produzem
uma cadeia de Markov.  
Observar que em geral π θi | y, θ (i) são facilmente identificadas como fun-
ções de probabilidade de θi , ou seja, por inspeção da forma de π (θ | y), a dis-
tribuição a posteriori para θ dado y, identificam-se as distribuições condicionais
a posteriori para cada θi , i = 1, ..., k (ver por exemplo, Gamerman, 1997). Su-
(0) (0) (0)
por que atribuı́mos um conjunto arbitrário de valores iniciais θ1 , θ2 , . . . , θk
para o vetor de parâmetros θ. Escrevemos assim o algoritmo:
 
(1) (0) (0)
(i) Gerar θ1 de π θ1 | y, θ2 , . . . , θk ;
 
(1) (1) (0) (0)
(ii) Gerar θ2 de π θ2 | y, θ1 , θ3 , . . . , θk ;
 
(1) (1) (1) (0) (0)
(iii) Gerar θ3 de π θ3 | y, θ1 , θ2 , θ4 , . . . , θk ;
.
.
.  
(1) (1) (1) (1)
(k) Gerar θk de π θk | y, θ1 , θ2 , . . . , θk−1 .

(1)
Então, substituı́mos os valores iniciais com uma nova realização θ (1) = (θ1 ,
(1) (1)
θ2 , . . . , θk )0 de θ e repetimos o processo acima. Para um t suficientemente
(t) (t) (t)
grande, observar que o valor θ1 , θ2 , . . . , θk converge para um valor da quan-
tidade aleatória com distribuição π (θ | y) (ver Geman e Geman, 1984). Além
(t)
disso, θj pode ser considerado como uma observação simulada da distribuição
a posteriori marginal π (θj | y), j = 1, 2, . . . , k.

(t) (t) (t)


Replicando o processo acima B vezes, obtemos B vetores θ1g , θ2g , . . . , θkg ,
sendo g = 1, 2, . . . , B. Da convergência do amostrador de Gibbs, qualquer
caracterı́stica da densidade a posteriori marginal π (θj | y) pode ser obtida.
7.1. O AMOSTRADOR DE GIBBS 115
 
Em particular, se π θj | θ (j) , y é dada em forma fechada, então

B
1 X  g

π\
(θj | y) = π θj | θ (j) , y ,
B g=1

em que j = 1, . . . , k.

Nota: Observar que


Z   
π (θj | y) = π θj | θ (j) , y π θ (j) | y dθ (j) .

(1) (g) (B) 


Assim, geramos θ (s) , . . . , θ (s) , . . . , θ (s) de π θ (s) | y .

Para verificar a convergência do algoritmo, podemos considerar várias técnicas.


Gelfand e Smith (1990) sugerem o uso de técnicas gráficas, em que várias
cadeias paralelas são geradas a partir de valores iniciais diferentes. Após um
grande número de interações em cada cadeia, comparamos os histogramas para
cada componente θj de θ. Histogramas similares indicam convergência da
cadeia. Geweke (1992) sugere métodos gráficos baseados em séries temporais
das amostras selecionadas. Uma técnica para monitorar a convergência do al-
goritmo é proposta por Gelman e Rubin (1992) baseada na análise de variância.

Nota: Na geração de amostras de Gibbs devemos considerar as l primeiras


iterações como perı́odo de aquecimento (“burn-in-samples”) que devem ser descar-
tadas para eliminar o efeito de valores iniciais.

7.1.1 Método de Gelman e Rubin para monitorar a con-


vergência do algoritmo
Vamos supor vários pontos iniciais dispersos. O método proposto por Gelman
e Rubin funciona da seguinte forma:

(a) Simular m ≥ 2 sequências. Cada sequência possui comprimento 2n, con-


siderando pontos ou valores iniciais diferentes. Mantemos somente as n
últimas iterações de cada sequência.
(b) Seja U a quantidade de interesse que se pretende estimar (U é uma função
de θ). Seja Uij o valor de U na j−ésima iteração (entre as n últimas das
2n amostras geradas) da i−ésima cadeia. Calcular
n
1X
ūi. = uij
n j=1
n
1 X 2
s2i = (uij − ūi. ) .
n − 1 j=1
116

Observar que ūi. e s2i são, respectivamente, a média e a variância amostral


de U para cada sequência i = 1, 2, . . . , m.
(c) Calcular as seguintes componentes de variância
m
1 X 2
W = s ,
m i=1 i

o que corresponde à média das m variâncias dentro das sequências, cada


uma baseada em n − 1 graus de liberdade, e
m
B 1 X 2
= (ūi. − ū.. ) ,
n m − 1 i=1

que é a variância entre as médias das m sequências ūi. , cada uma baseada
em n valores de uij .
(d) Estimar a média de U como uma média amostral de todos os nm valores
simulados de U , isto é,
m
1 X
µ̂ = ū.. = ūi.
m i=1

(e) Estimar a variância de U como uma média ponderada de W e B, isto é,


n−1 1
σ̂ 2 = W + B.
n n

Observar que σ̂ 2 superestima σ 2 se a distribuição inicial for superdispersa


e não é viciada sob estacionaridade.
(f ) Criar uma distribuição t de Student conservativa (com poucos graus de
liberdade) para U com média µ̂, dispersão
r
p B
V̂ = σ̂ 2 +
mn
e graus de liberdade
2V̂ 2
V =  ,
V ar V̂
em que
2 2
2B 2
 
  n−1 1 m+1
V ar s2i +

V ar V̂ = +
n m mn m−1
2 (m − 1) (n − 1) n 
Cov s2i , ū2i. − 2ū.. Cov s2i , ūi.
 
+ 2
mn m
As variâncias e covariâncias são estimadas a partir dos m valores amostrais
de s2i , ūi. e ū2i. .
7.1. O AMOSTRADOR DE GIBBS 117

(g) Estimar o fator de redução de escala por


s
p V̂ V
R̂ = (7.1)
W V −2

Observar que esta razão (dada na expressão 7.1) decresce para 1 quando
n → ∞. Valores R̂=1 ˜ sugerem que o perı́odo de aquecimento é suficiente e o
processo iterativo continua.

Exemplo 7.1: Considere os dados de confiabilidade de um novo software


usado em um equipamento de diagnóstico computadorizado para ser usado em
hospitais. Antes desse novo software ser colocado no mercado, os analistas
fazem um teste para detectar possı́veis erros que devem ser corrigidos antes do
software ser colocado em uso. Dessa forma, diferentes “inputs” são colocados
em teste por uma dado perı́odo de funcionamento contı́nuo do equipamento e
cada vez que um erro é detectado, o software é inspecionado e refeito para tentar
corrigir esse erro. Na Tabela 7.1 temos os dados representando as datas xi em
que ocorrem os erros (tempos desde o inicio da fase de teste até a ocorrência
do erro) e os tempos entre falhas ti = xi − xi−1 , i = 1, . . . , n. O teste termina
quando observamos um número previamente fixado de erros.

Tabela 7.1: Dados de confiabilidade de um software.

i ti xi i ti xi i ti xi
1 9 9 11 1 71 21 11 116
2 12 21 12 6 77 22 33 149
3 11 32 13 1 78 23 1 150
4 4 36 14 9 87 24 97 247
5 7 43 15 4 91 25 2 249
6 2 45 16 1 92 26 1 250
7 5 50 17 3 95
8 8 58 18 3 98
9 5 63 19 6 104
10 7 70 20 1 105

Seja N o número total (desconhecido) de erros no software. Assumir uma


distribuição exponencial para os tempos entre falhas ti , com densidade
f (ti | λi ) = λi exp (−λi ti ) ,
em que i = 1, 2, 3, . . . , ti > 0, e a taxa de falhas λi é dada por
λi = Λ (N − i + 1) .
118

Esse modelo é conhecido como modelo de confiabilidade de software de Jelin-


ski e Moranda (1972).

Assumimos que o teste termina quando encontramos n erros, isto é, temos
uma amostra aleatória de tamanho n para os tempos entre falhas ti , i = 1, . . . , n.

A aleatoriedade é dada a partir de “inputs” aleatórios na fase de teste. A


função de verossimilhança para Λ e N é dada por,

L (Λ, N ) = Λn A (N ) exp [−ΛB (N )]


n
Q Pn
em que A (N ) = (N − i + 1) e B (N ) = (N − i + 1) ti . Em termos
i=1
i=1 Pn
das estatı́sticas de ordem xi , podemos reescrever B (N ) por B (N ) = i=1 xi +
(N − n) xn .

Vamos considerar as seguintes distribuições a priori para Λ e N :

Λ ∼ Gama (a, b) (7.2)


N ∼ P oisson (θ)

em que a, b e θ são hiperparâmetros conhecidos; Gama (a, b) denota uma dis-


tribuição Gama com média ab e variância ba2 e P oisson (θ) denota uma dis-
tribuição de Poisson (1.10) com média e variância iguais a θ.

Assumindo independência a priori entre Λ e N , a distribuição a priori con-


junta para Λ e N é dada por,

exp (−θ) θN a−1


π (Λ, N ) ∝ Λ exp (−bΛ) (7.3)
N!
A distribuição a posteriori conjunta para Λ e N é dada por,

Λn+a−1 A (N ) θN
π (Λ, N | t) ∝ × (7.4)
(N !" n
# )
X
× exp − b + (N − n) xn + xi Λ
i=1

em que Λ > 0 e N = n, n + 1, n + 2, . . ..

Escrevendo N 0 = N − n, isto é, N = N 0 + n, encontramos as distribuições


condicionais necessárias para o amostrador de Gibbs dadas por:
n
!
X
0 0
(i) Λ | N , t ∼ Gama a + n, b + N xn + xi (7.5)
i=1
(ii) N 0 | Λ, t ∼ P oisson [θ exp (−xn Λ)]
7.1. O AMOSTRADOR DE GIBBS 119

Para os dados da Tabela 7.1 temos n = 26 e X26 = 250. Assumir a = 0, 2;


b = 20 e θ = 30 na priori (7.3) para Λ e N (a escolha dos hiperparâmetros da
distribuição a priori foi feita a partir de métodos bayesianos empı́ricos; neste
caso consideramos os estimadores de máxima verossimilhança para Λ e N ).

Dessa forma, as distribuições condicionais (7.5) são dadas por:


26
!
X
(i) Λ | N 0 , t ∼ Gama 26, 2; 20 + 250N 0 + xi (7.6)
i=1
(ii) N 0 | Λ, t ∼ P oisson [30 exp (−250Λ)]

Para obter amostras simuladas da distribuição a posteriori (7.4), geramos


amostras das distribuições condicionais (7.6).

Considerando um programa usando o software MINITAB geramos 5 cadeias


de Markov com 1000 amostras cada cadeia. Cada cadeia foi gerada a partir
dos seguintes valores iniciais diferentes: N 0(0) , Λ(0) = (3; 0, 01) , (2, 5; 0, 02) ,
(3; 0, 03) , (3, 5; 0, 01) e (3, 5; 0, 02). Em cada cadeia descartamos as 800 primeiras
amostras simuladas e ficamos com as 200 últimas, o que totaliza 1000 amostras.
O código do programa MINITAB usado é dado por:

SET C1 (Xi)
9 21 32 36 43 45 50 58 63 70 71 77 78 87
91 92 95 98 104 105 116 149 156 247 249 250
END
LET K1=3 (N’ inicial)
LET K2=0,01 (Lambda inicial)
SUM C1 K3
STORE ’a’
LET K4=1/(20+250*k1+k3)
RANDOM 3 C2;
GAMMA 26,2 K4.
LET K2=C2 (2)
LET K5=30*EXPONENTIAL(-250*K2)
RANDOM 3 C3;
POISSON K5.
LET K1=C3 (2)
STACK C10 K1 C10
STACK C11 K2 C11
END
EXEC ’a’ 1000

A partir de 1000 amostras finais, p


determinamos sumários a posteriori de
interesse. Assim E (N 0 | t) =5,
˜ 933 e V ar (N 0 | t) =3,
˜ 720. Temos também
120
p
E (Λ | t) =˜ 0, 00680 e V ar (Λ | t) = ˜ 0, 00205. Com N 0 = N − 26, temos
E (N | t) = 26 + 5, 933 = 31, 933. Intervalos de credibilidade 95% para N 0 e
Λ são dados, respectivamente, por (0; 13) e (0, 00352; 0, 01058). Uma grande
simplificação na obtenção dos sumários a posteriori de interesse é dado pelo
software OpenBUGS (Spiegelhalter et al, 1999) em que só precisamos especi-
ficar a distribuição conjunta para os dados e as distribuições a priori para os
parâmetros. O código do programa OpenBUGS é dado por:

model
{
for(i in 1:n)
{
t[i] ~ dexp(lambda[i])
lambda[i] <- lambda0 * (N-i+1)
}
lambda0 ~ dgamma(0.2,20)
N ~ dpois(30)
}

# Dados
list(t=c(9,12,11,4,7,2,5,8,5,7,1,6,1,9,4,1,3,3,6,1,11,33,7,91,
2,1), n=26)

# Valores iniciais
list(lambda0=0.01,N=29) # Cadeia 1
list(lambda0=0.02,N=28) # Cadeia 2
list(lambda0=0.03,N=29) # Cadeia 3
list(lambda0=0.01,N=28) # Cadeia 4
list(lambda0=0.02,N=30) # Cadeia 5

Os sumários a posteriori obtidos para os parâmetros Λ (denotado por lambda0


no programa OpenBUGS), N e λi considerando 5 cadeias iniciais são apresenta-
dos na Tabela 7.2. Um perı́odo “burn-in” de tamanho 1000 e saltos de tamanho
10 foram considerados para a geração das 100.000 amostras. Na Tabela 7.2,
os erros Monte Carlo, gerados pelo OpenBUGS, são similares aos erros padrão
da média, mas ajustados para amostras com autocorrelação. Quanto maior o
número de amostras simuladas, menores são os erros Monte Carlo. Assim, os
erros Monte Carlo podem ser úteis para se decidir quantas amostras serão simu-
ladas após o perı́odo “burn-in”, sendo que erros Monte Carlo pequenos indicam
um número adequado de amostras simuladas. Ainda na Tabela 7.2, observa-se
que o OpenBUGS mostra os valores P 2, 5% e P 97, 5%, que são respectivamente
os percentis 2, 5% e 97, 5% a posteriori. Estes percentis compõem intervalos de
credibilidade 95% para cada parâmetro.
7.1. O AMOSTRADOR DE GIBBS 121

Tabela 7.2: Sumários a posteriori, obtidos do programa OpenBUGS (dados de


confiabilidade de um software).

Parâmetro média DP Erro MC P 2, 5% mediana P 97, 5%


Λ 0,0068 0,00203 2, 574 × 10−5 0,00363 0,00652 0,01154
N 32,2 3,749 0,05924 26,51 31,66 40,74
λ1 0,2129 0,04837 5, 919 × 10−4 0,1325 0,2083 0,3205
λ2 0,2061 0,04645 5, 684 × 10−4 0,1286 0,2017 0,3095
λ3 0,1994 0,04454 5, 452 × 10−4 0,1251 0,1952 0,2982
λ4 0,1926 0,04264 5, 221 × 10−4 0,1212 0,1888 0,2871
λ5 0,1858 0,04075 4, 993 × 10−4 0,1173 0,1822 0,2761
λ6 0,1790 0,03887 4, 768 × 10−4 0,1135 0,1758 0,2645
λ7 0,1722 0,03701 4, 546 × 10−4 0,1099 0,1693 0,2539
λ8 0,1655 0,03517 4, 328 × 10−4 0,1061 0,1628 0,2431
λ9 0,1587 0,03336 4, 115 × 10−4 0,1024 0,1562 0,2325
λ10 0,1519 0,03157 3, 907 × 10−4 0,09835 0,1497 0,2213
λ11 0,1451 0,02981 3, 706 × 10−4 0,09393 0,143 0,2107
λ12 0,1384 0,02808 3, 511 × 10−4 0,08996 0,1365 0,2004
λ13 0,1316 0,0264 3, 325 × 10−4 0,08598 0,1299 0,1898
λ14 0,1248 0,02478 3, 15 × 10−4 0,08186 0,1234 0,1792
λ15 0,1180 0,02321 2, 986 × 10−4 0,07741 0,1166 0,1685
λ16 0,1112 0,02173 2, 836 × 10−4 0,07303 0,11 0,1584
λ17 0,1045 0,02034 2, 703 × 10−4 0,06836 0,1033 0,1479
λ18 0,0977 0,01906 2, 588 × 10−4 0,06378 0,09651 0,1387
λ19 0,0909 0,01793 2, 494 × 10−4 0,05872 0,08984 0,1294
λ20 0,0841 0,01696 2, 425 × 10−4 0,05355 0,08307 0,121
λ21 0,0773 0,01619 2, 381 × 10−4 0,0484 0,07625 0,1121
λ22 0,0706 0,01565 2, 364 × 10−4 0,04293 0,06942 0,1044
λ23 0,0638 0,01536 2, 376 × 10−4 0,03683 0,06258 0,0971
λ24 0,0570 0,01534 2, 415 × 10−4 0,02997 0,05589 0,08951
λ25 0,0502 0,01558 2, 48 × 10−4 0,02233 0,04916 0,08297
λ26 0,0434 0,01608 2, 57 × 10−4 0,01401 0,04266 0,07723
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%,
P 97, 5%: percentil 97, 5%.
122

Figura 7.1: Gráficos das séries temporais, autocorrelações, ı́ndices de Gelman


e Rubin e distribuições a posteriori, segundo as amostras de Gibbs simuladas
para lambda0 (Λ) e N , geradas pelo programa OpenBUGS.
7.1. O AMOSTRADOR DE GIBBS 123

A Figura 7.1 mostra os gráficos das séries temporais das amostras de Gibbs
simuladas para lambda0 (Λ) e N , gerados pelo programa OpenBUGS. Observa-
mos que o algoritmo converge para séries estacionárias. Também apresentamos,
na Figura 7.1, os gráficos das autocorrelações das amostras de Gibbs simuladas
para Λ e N ; os gráficos das distribuições a posteriori marginais aproximadas
para lambda0 (Λ) e N e os gráficos dos ı́ndices de Gelman e Rubin para as
amostras de Gibbs simuladas para lambda0 (Λ) e N ; observa-se convergência
das séries pois os fatores de redução de Gelman e Rubin se estabilizam em torno
do valor um.

Exemplo 7.2: Na Tabela 7.3 temos os dados de um estudo médico consid-


erado para avaliar a influência de três covariáveis: X1 (proporção de pacientes
que frequentaram a escola por pelo menos 8 anos), X2 (proporção de pacientes
do sexo feminino), X3 (salário mensal médio dos pacientes em unidades de
$1.000,00) na resposta y (ı́ndice médio de resposta para pacientes recebendo
uma nova terapia contra o vı́rus HIV) realizado por oito hospitais (um estudo de
metanálise). Para analisar esses dados foi considerado um modelo de regressão
linear dado por
yi = α + β1 X1i + β2 X2i + β3 X3i + i (7.7)
em que os termos de erros i são supostosindependentes e identicamente dis-
tribuı́dos com distribuição normal N 0; σ 2 , para i = 1, . . . , 8.

Tabela 7.3: Dados de n = 8 hospitais.

y X1 X2 X3
0,10 0,08 0,40 0,75
0,65 0,17 0,40 1,02
0,30 0,08 0,38 1,09
0,30 0,30 0,50 1,35
0,28 0,05 0,52 1,20
0,78 0,18 0,32 2,20
0,28 0,09 0,45 2,95
0,45 0,45 0,65 2,50

Assumindo independência a priori entre os parâmetros α, β1 , β2 , β3 e σ 2 ,


vamos assumir as seguintes distribuições a priori:

∼ N 0; a20

α
∼ N 0; a21

β1
∼ N 0; a22

β2
∼ N 0; a23

β3
σ2 ∼ GI (b, d) (7.8)
124

em que a0 , a1 , a2 , a3 , b e d são supostamente conhecidos e GI (b, d) denota uma


2
d
distribuição gama inversa com média (b−1) e variância (b−1)d2 (b−2) , b > 2.
[ ]
Observar que se σ 2 ∼ IG (b, d) então τ = σ12 ∼ Gama (b, d). A função de
verossimilhança para θ = α, β1 , β2 , β3 , σ 2 é dada por
n
2
 
Y 1
L (θ) = √ exp − i 2 , (7.9)
i=1 2πσ 2 2σ

em que i = yi − α − β1 X1i − β2 X2i − β3 X3i , i = 1, 2, . . . , n (n = 8).

A distribuição a posteriori conjunta para θ é dada por

α2
   
−(b+1) d
π (θ | x, y) ∝ σ 2 exp − 2 exp − 2 ×
σ 2a0
β12 β22 β2
     
× exp − 2 exp − 2 exp − 32 ×
2a1 2a2 2a3
n
!
− n 1 X 2
× σ 2 2 exp − 2  , (7.10)
2σ i=1 i

0
em que y = (y1 , . . . , yn ) , x denota o vetor das covariáveis e i é dado em (7.9).

As distribuições condicionais necessárias para o amostrador de Gibbs são


dadas por:

" n
!#
2
 2 −(b+ 2 +1)
 n 1 1X 2
(i) π σ | α, β1 , β2 , β3 , x, y ∝ σ exp − 2 d+ 
σ 2 i=1 i

que define o núcleo de uma distribuição gama inversa, isto é,


" n
#
2 n 1X 2
σ | α, β1 , β2 , β3 , x, y ∼ GI b + ; d + 
2 2 i=1 i

em que
i = yi − α − β1 x1i − β2 x2i − β3 x3i , i = 1, . . . , n

" n
#
α2
  2
1 X (0)
(ii) π α | β1 , β2 , β3 , σ 2 , X, y ∝ exp − 2

exp − 2 α − µi
2a0 2σ i=1

em que
(0)
µi = yi − β1 x1i − β2 x2i − β3 x3i , i = 1, . . . , n
7.1. O AMOSTRADOR DE GIBBS 125

Desenvolvendo-se essas expressões encontramos o núcleo de uma distribuição


normal; isto é,
 P n 
2 (0)
a µ
 0 i=1 i a20 σ 2 
α | β1 , β2 , β3 , σ 2 , x, y ∼ N  ;
 σ 2 + na2 σ 2 + na2 

0 0

" n
#
βl2
  2
 1 X (l)
(iii) π βl | θ (βl ) , x, y ∝ exp − 2 exp − 2 βl xli − µi
2al 2σ i=1

em que
3
(l)
X
µi = yi − α − βj xji , i = 1, . . . , n; l = 1, 2, 3
j=1;j6=l

θ (βl ) denota o vetor de todos os parâmetros exceto βl . Isto é,


 n 
(l)
a2l
P
xli µi
 i=1 a2l σ 2 
βl | θ (βl ) , x, y ∼ N 
 n ; n


σ 2 + a2l x2li σ 2 + a2l x2li
P P
i=1 i=1

para l = 1, 2, 3.

Para análise dos dados da Tabela (7.3), vamos assumir a20 = a21 = a22 = a23 =
6
10 , isto é, distribuições a priori não informativas para α, β1 , β2 e β3 . Também
assumir b = d = 1. Para iniciar o amostrador de Gibbs, assumir os valores
(0) (0) (0) 1
iniciais α(0) = 0, β1 = β2 = β3 = 0 e τ (0) = σ(0) 2 = 1. Então, geramos

amostras da posteriori (7.10) usando as distribuições condicionais (7.8).

Usando o programa OpenBUGS, escrevemos os seguinte programa:

model
{
for (i in 1:N)
{
y[i] ~ dnorm(mu[i],tau)
mu[i] <- alpha + beta[1]*x1[i] + beta[2]*x2[i] + beta[3] * x3[i]
}
# Distribuicoes a priori:
tau ~ dgamma(1,1)
sigma <- 1/sqrt(tau)
alpha ~ dnorm(0,1.0E-6)
beta[1] ~ dnorm(0,1.0E-6)
126

beta[2] ~ dnorm(0,1.0E-6)
beta[3] ~ dnorm(0,1.0E-6)
}

# Valores iniciais
list(tau=1,alpha=0,beta=c(0,0,0))

# Dados:
list(y=c(0.10,0.65,0.30,0.30,0.28,0.78,0.28,0.45),
x1=c(0.08,0.17,0.08,0.30,0.05,0.18,0.09,0.45),
x2=c(0.40,0.40,0.38,0.50,0.52,0.32,0.45,0.65),
x3=c(0.75,1.02,1.09,1.35,1.20,2.20,2.95,2.50), N=8)

É importante observar que a função dnorm(mu,tau) do programa Open-


BUGS denota uma distribuição normal com média mu e variância dada por
1/tau.

Os sumários a posteriori de interesse considerando um perı́odo “burn-in” de


5.000 amostras e tomando uma amostra final de tamanho 500.000 escolhidas de
50 em 50 são apresentadas na Tabela 7.4.

Tabela 7.4: Sumários a posteriori (dados da Tabela 7.3).

Parâmetro Média Intervalo de credibilidade 95%


α 0,8635 (-1.983 ; 3.665)
β1 1,2410 (-4.234 ; 6.852)
β2 -1,7690 (-8.806 ; 5.133)
β3 0,0669 (-0.6724 ; 0.8037)
σ 0,6626 (0.3898 ; 1.3200)
τ 2,7510 (0.5751 ; 6.5810)

A convergência do amostrador de Gibbs é verificada a partir de gráficos de


séries temporais das amostras geradas para cada parâmetro do modelo (7.7).
Dos sumários a posteriori dados na Tabela 7.4 observa-se que as três covariáveis
X1 , X2 e X3 não apresentam evidências de efeitos significativos na resposta
y, pois os intervalos de credibilidade com probabilidade 0, 95 para β1 , β2 e β3
incluem o valor zero.

7.2 Algoritmo de Metropolis-Hastings


O amostrador de Gibbs seleciona amostras de todas densidades a posteriori
condicionais de π (θ | y), a distribuição a posteriori conjunta para θ. Quando us-
amos uma priori conjugada, as distribuições condicionais em geral são de forma
7.2. ALGORITMO DE METROPOLIS-HASTINGS 127

Figura 7.2: Gráficos das séries temporais, autocorrelações, distribuições a pos-


teriori e resumos a posteriori, segundo as amostras de Gibbs simuladas para α,
β1 , β2 , β2 , σ e τ , geradas pelo programa OpenBUGS.
128

conhecida como, por exemplo, as distribuições normal, gama, Poisson (1.10),


beta (1.17), etc., e a simulação de amostras dessas distribuições são disponı́veis
em muitos programas estatı́sticos. Quando as distribuições condicionais não são
facilmente identificadas, devemos usar o algoritmo de Metropolis-Hastings ou
métodos de amostragem por importância.

Supor que  desejamos simular amostras  de uma densidade não-regular


π θi | θ (i) , y , ou simplesmente π θi | θ (i) , em que θ (i) = (θ1 , . . . , θi−1 , θi+1 ,
. . . , θk ). Definimos o núcleo de transição q (θ, β) da distribuição p (θ) que re-
presenta π θi | θ (i) e que transforma θ em β. Se θ é uma variável real com
amplitude em  toda reta R, podemos construir q tal que β ← θ + σz, com
Z ∼ N 0, σ 2 , em que σ 2 reflete a variância condicional de θ em p (θ).

Se θ é limitado com amplitude (a, b) usamos uma transformação que leva


(a, b) em (−∞, ∞) e daı́ usamos o núcleo de transição q e aplicamos o algo-
ritmo de Metropolis para a densidade da variável transformada. O algoritmo
de Metropolis é dado pelos passos:

(i) Iniciar com um valor θ(0) e indicador de estágio, j = 0;


(ii) Gerar um ponto β do núcleo de transição q θ(j) , β ;
(iii) Atualizar θ(j) por θ(j+1) = β com probabilidade
(   )
p (β) q θ(j) , β
p = min 1,  (j)    . (7.11)
p θ q β, θ(j)

Manter θ(j) com probabilidade 1 − p;


(iv) Repetir os estágios (ii) e (iii) até conseguir uma distribuição esta-
cionária.

Observar que:
(a) O algoritmo de Metropolis Hastings é especificado pela densidade can-
didata para geração q (x, y) ;
(b) Se um valor candidato é rejeitado, o valor atual é considerado na próxima
etapa;
(c) O cálculo de p em (7.11) não depende da constante normalizadora;
(d) Se a densidade candidata para geração das amostras é simétrica, isto é,
q (x, y) = q (y, x), a probabilidade de movimento se reduz a pp(β) . Assim, se
 (j)  [θ(j) ]
p (β) > p θ , a cadeia se move para β; em caso contrário, ela se move para β
com probabilidade pp(β) . Em outras palavras, um salto na direção “ascendente”
[θ(j) ]
é sempre aceito, enquanto um salto na direção “descendente” é aceito com uma
dada probabilidade.
7.2. ALGORITMO DE METROPOLIS-HASTINGS 129

7.2.1 Casos especiais para q (y, x)


Alguns casos especiais são dados para q (y, x), a densidade usada para gerar
amostras candidatas no processo de simulação.

(i) Seja q (y, x) = q1 (y − x), em que q1 (.) é uma densidade multivariada.


Então, o candidato y é selecionado de acordo com o processo y = x + z, em
que z é chamada variável aleatória incremento e segue a distribuição q1 . Assim,
candidato = valor atual + ruı́do, isto é, temos uma cadeia de passeio ao acaso.
Como escolhas possı́veis para q1 , podemos considerar a densidade normal
multivariada (1.20) ou a distribuição t de Student multivariada.
(ii) Seja q (x, y) = q2 (y), em que q2 é uma densidade normal multivariada
(1.20) ou t de Student multivariada. Neste caso é necessário especificar a locação
e a variabilidade da distribuição q (x, y). 
(iii) Explorar a forma conhecida da distribuição condicional π θi | θ (i) , y
para especificar uma densidade geradora de amostras candidatas (ver por exem-
plo, Chib e Greenberg, 1995). Por exemplo, se π (t) ∝ ψ (t) h (t) em que h (t) é
uma densidade conhecida que pode ser facilmente simulada e ψ (t) é uma função
uniformemente limitada, considerar q (x, y) = h (y) para gerar amostras candi-
datas. Neste caso, a probabilidade de movimento só exige o cálculo da função
ψ que é dada por (  )
ψ θ(j+1)
p = min 1,   .
ψ θ(j)

(iv) Outras possibilidades são cadeias autoregressivas e o método de aceitação-


rejeição (ver Tierney, 1994).

7.2.2 Escolha da locação e da escala da distribuição ger-


adora
O desempenho do algoritmo Metropolis-Hastings pode ser afetado pela escolha
da locação e da escala da distribuição geradora. Assim, podemos ter:

(i) A variabilidade da densidade geradora de amostras candidatas afeta o


comportamento da cadeia em pelo menos duas dimensões: uma é a “taxa de
aceitação” (percentual de vezes que uma mudança é feita para um novo ponto)
e a outra é a região do espaço amostral que é coberta pela cadeia.
(ii) Se a variabilidade é muito grande, alguns dos candidatos gerados estarão
muito distantes do valor atual e terão uma probabilidade pequena de aceitação,
pois a ordenada do candidato é pequena em relação a ordenada perto da moda
da distribuição.
(iii) A redução da variabilidade corrige esse problema, mas se a variabili-
dade for muito pequena, a cadeia levará muito tempo para cobrir o suporte da
densidade.
130

Exemplo 7.3: Vamos supor que um novo software é desenvolvido para um


equipamento de tomografia computadorizada usado por centros médicos. Numa
fase de testes e correções de possı́veis erros do software, o mesmo é testado por
um dado perı́odo de tempo fixado. Os dados de confiabilidade do software são
dados pelas contagens de erros (em que o software é tentativamente corrigido)
que ocorrem em intervalos fixos de tempo durante esse perı́odo de testes. Vamos
considerar os dados da Tabela 7.5, representando os números de falhas ou erros
do software testado por 25 horas, continuamente. Vamos assumir um processo
de Poisson homogêneo com função intensidade λi = λa k1i , em que 0 < k1 <
1, λa > 0 para i = 1, 2, 3, . . . com distribuição para o número de falhas mi no
i−ésimo perı́odo de tempo dada por

exp (−λi ) λm
i
i

P (Mi = mi ) = ,
mi !

em que mi = 0, 1, 2, . . ..

Tabela 7.5: Dados de confiabilidade de software de um equipamento médico.

hora n◦ falhas hora n◦ falhas hora n◦ falhas


1 27 11 4 21 2
2 16 12 7 22 1
3 11 13 2 23 2
4 10 14 5 24 1
5 11 15 5 25 1
6 7 16 6
7 2 17 0
8 5 18 5
9 3 19 1
10 1 20 1

Considerando m1 , m2 , . . . , mn os números de falhas observadas durante os


n = 25 perı́odos de tempo, a função de verossimilhança para λa e k1 é dada por

n
!
X
L (λa , k1 ) ∝ λda1 k1d2 exp −λa k1i ,
i=1

Pn Pn
em que d1 = i=1 mi e d2 = i=1 i × mi . Assumindo independência a priori
entre λa e k1 , vamos considerar as seguintes distribuições a priori:

λa ∼ Gama (b1 , b2 ) e
k1 ∼ Beta (e1 , e2 ) , (7.12)
7.2. ALGORITMO DE METROPOLIS-HASTINGS 131

em que b1 , b2 , e1 e e2 são hiperparâmetros conhecidos. A distribuição a posteriori


conjunta para λa e k1 é dada por
" n
! #
X
d1 +b1 −1 i
π (λa , k1 | m) ∝ λa exp − b2 + k1 λa ×
i=1
e2 −1
×k1d2 +e1 −1 (1 − k1 ) , (7.13)
0
em que m = (m1 , m2 , . . . , mn ) .

As distribuições condicionais para o amostrador de Gibbs são dadas por


n
!
X
i
(i) λa | k1 , m ∼ Gama d1 + b1 , b2 + k1 e
i=1
n
!
e2 −1
X
(ii) π (k1 | λa , m) ∝ k1d2 +e1 −1 (1 − k1 ) exp −λa k1i . (7.14)
i=1

Observar que a quantidade aleatória k1 deve ser simulada usando o algoritmo


de Metropolis-Hastings, pois a distribuição condicional π (k1 | λa , m) não apre-
senta uma forma conhecida. Neste caso, observar que a densidade condicional
para k1 dado λa e m pode ser reescrita na forma
e2 −1
π (k1 | λa , m) ∝ k1e1 −1 (1 − k1 ) ψ (λa , k1 ) ,

em que !
n
X
ψ (λa , k1 ) = exp d2 ln k1 − λa k1i .
i=1

Assim o valor de k1 é simulado da seguinte forma: na s-ésima iteração


(s) (s)
(dado o valor atual λa ), simulamos um candidato k1 de uma distribuição
Beta (e1 , e2 ) (ver (1.17)); mover para este ponto com probabilidade dada por
   
(s) (s)
 ψ λa , k1 
min 1,  
 ψ λ(s) , k (s−1) 
a 1

(s) (s−1)
em outro caso, fazer k1 = k1 . Após uma análise preliminar dos dados
(observar que os estimadores de máxima verossimilhança para λa e k1 são dados,
respectivamente, por λ̂a = 18, 8849 e k̂ = 0, 88285) considerar os valores dos
hiperparâmetros para as distribuições a priori (7.12) dadas por b1 = 16; b2 =
0, 8; e1 = 2, 5 e e2 = 0, 6. Observar que
b1 b1
E(λa ) = = 20, V ar(λa ) = = 25,
b2 b22
e1
E(k1 ) = = 0, 8,
e1 + e2
132

e
e1 e2
V ar (k1 ) = 2 = 0, 04.
(e1 + e2 ) (e1 + e2 + 1)
Vamos então usar as distribuições condicionais (7.14) para gerar amostras
da distribuição a posteriori (7.13). Alternativamente, podemos usar o software
OpenBUGS:

model
{ for(i in 1:N)
{ m[i] ~ dpois(lambda[i])
lambda[i] <- lambda0 * pow(k1,i) }
lambda.a ~ dgamma(16,0.8)
k1 ~ dbeta(2.5,0.6)
}
list(m=c(27,16,11,10,11,7,2,5,3,1,4,7,2,5,5,6,0,5,1,1,2,1,2,1,
1),N=25)

Observe que estamos denotando λa por lambda.a. Os sumários a posteriori


de interesse considerando um perı́odo “burn-in” de 1000 amostras e tomando
uma amostra final de tamanho 1000 escolhidas de 10 em 10 para se ter uma
amostra aproximadamente não-correlacionada é dada na Tabela 7.6.

Exemplo 7.4 (Regressão logı́stica): Uma droga muito usada para tratar
certos tipos de câncer (droga adriamicina) pode apresentar problemas de toxi-
dade. Alguns pacientes recebendo essa droga apresentam falha coronária con-
gestiva (CHF) e outros pacientes não apresentam. Com intuito de verificar se
alguns fatores especı́ficos podem aumentar o risco de desenvolver CHF, duas co-
variáveis foram consideradas no estudo: X1∗ representando a dose total da droga
e X2∗ representando o percentual de decréscimo da voltagem eletrocardiográfica
QRS. Na Tabela 7.7 temos os dados de um estudo considerando 53 pacientes
(dados em Lee 1980, pág. 359) em que yi é a resposta CHF (1 =sim; 0 =não)

e as duas covariáveis são dadas numa escala transformada: X1i = X1i − X̄1∗ e
∗ ∗
X2i = X2i − X̄2 , i = 1, . . . , 53.

Neste caso, temos uma variável aleatória y binária (CHF) com distribuição
de Bernoulli com função de probabilidade,
1−yi
P (Yi = yi ) = pyi i (1 − pi ) (7.15)

em que pi = P (yi = 1) é a probabilidade de sucesso (apresentar CHF) e 1−pi =


P (yi = 0) é a probabilidade de fracasso (não apresentar CHF).

Um modelo de regressão logı́stica considera


exp (α0 + α1 X1i + α2 X2i )
pi = (7.16)
1 + exp (α0 + α1 X1i + α2 X2i )
7.2. ALGORITMO DE METROPOLIS-HASTINGS 133

Tabela 7.6: Sumários a posteriori de interesse (dados da tabela 7.5).

Parâmetro média DP Erro MC P 2, 5% mediana P 97, 5%


k1 0,8823 0,01243 3,134E-4 0,8567 0,8822 0,9066
λ1 16,88 1,974 0,05333 13,16 16,81 20,98
λ2 14,88 1,59 0,04408 11,85 14,86 18,22
λ3 13,11 1,284 0,03664 10,71 13,12 15,84
λ4 11,56 1,044 0,03072 9,668 11,55 13,71
λ5 10,19 0,8604 0,02608 8,588 10,18 11,88
λ6 8,989 0,7245 0,0225 7,592 8,987 10,42
λ7 7,93 0,6274 0,01977 6,695 7,921 9,19
λ8 6,996 0,5603 0,01771 5,919 6,978 8,125
λ9 6,174 0,5148 0,01615 5,173 6,183 7,213
λ10 5,45 0,4836 0,01495 4,483 5,464 6,416
λ11 4,811 0,461 0,014 3,901 4,809 5,754
λ12 4,248 0,4428 0,01321 3,378 4,249 5,166
λ13 3,752 0,4266 0,01252 2,918 3,745 4,613
λ14 3,314 0,411 0,01189 2,521 3,301 4,118
λ15 2,928 0,395 0,0113 2,165 2,908 3,71
λ16 2,587 0,3785 0,01074 1,878 2,571 3,362
λ17 2,287 0,3615 0,01018 1,616 2,272 3,023
λ18 2,022 0,344 0,009641 1,387 2,008 2,746
λ19 1,787 0,3262 0,009111 1,187 1,778 2,488
λ20 1,581 0,3084 0,008591 1,026 1,569 2,253
λ21 1,398 0,2906 0,008085 0,884 1,387 2,029
λ22 1,237 0,273 0,007594 0,7569 1,224 1,838
λ23 1,095 0,2558 0,007119 0,647 1,079 1,656
λ24 0,9687 0,2392 0,006661 0,5531 0,954 1,494
λ25 0,8575 0,2231 0,006222 0,4728 0,8429 1,347
λ0 19,16 2,45 0,06471 14,71 19,02 24,36
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%,
P 97, 5%: percentil 97, 5%.
134

Tabela 7.7: Dados médicos para 53 pacientes com câncer.


paciente yi X1i X2i
1 1 -82,6792 14,9811
2 1 82,3208 44,9811
3 1 82,3208 24,9811
4 1 22,3208 13,9811
5 1 -7,6792 36,9811
6 1 222,3208 52,9811
7 1 307,3208 34,9811
8 1 17,3208 17,9811
9 1 -7,6792 26,9811
10 1 -34,6792 0,9811
11 1 -57,6792 26,9811
12 1 -57,6792 33,9811
13 1 32,3208 38,9811
14 1 22,3208 31,9811
15 1 -207,6792 14,9811
16 1 -17,6792 37,9811
17 1 -117,6792 17,9811
18 0 -77,6792 -17,0189
19 0 82,3208 15,9811
20 0 -7,6792 -7,0189
21 0 -107,6792 -2,0189
22 0 22,3208 -50,0189
23 0 57,3208 12,9811
24 0 46,3208 8,9811
25 0 -67,6792 -16,0189
26 0 52,3208 -20,0189
27 0 -37,6792 -20,0189
28 0 67,3208 -5,0189
29 0 -97,6792 -12,0189
30 0 -47,6792 -25,0189
31 0 22,3208 6,9811
32 0 67,3208 6,9811
33 0 82,3208 -22,0189
34 0 52,3208 -24,0189
35 0 52,3208 -21,0189
36 0 -7,6792 -14,0189
37 0 -47,6792 -27,0189
38 0 -112,6792 17,9811
39 0 57,3208 -12,0189
40 0 22,3208 -36,0189
41 0 -17,6792 -69,0189
42 0 -67,6792 -3,0189
43 0 2,3208 -27,0189
44 0 -22,6792 2,9811
45 0 67,3208 13,9811
46 0 -67,6792 3,9811
47 0 -67,6792 -3,0189
48 0 -17,6792 -14,0189
49 0 22,3208 -37,0189
50 0 -77,6792 -19,0189
51 0 -37,6792 -48,0189
52 0 32,3208 -6,0189
53 0 -17,6792 -7,0189
7.2. ALGORITMO DE METROPOLIS-HASTINGS 135

para i = 1, 2, . . . , n.

A função de verossimilhança para α0 , α1 e α2 é dada por


n
Y 1−yi
L (α0 , α1 , α2 ) = pyi i (1 − pi ) (7.17)
i=1

em que pi é dado por (7.16). Assim, temos


Pn Pn Pn
exp (α0 i=1 yi + α1 i=1 X1i yi + α2 i=1 X2i yi )
L (α0 , α1 , α2 ) = Qn . (7.18)
[1 + exp (α0 + α1 X1i + α2 X2i )]
i=1

Vamos assumir as seguintes distribuições a priori para os parâmetros:

αl ∼ N al , b2l ,

(7.19)

em que l = 0, 1, 2 e al e bl são hiperparâmetros conhecidos. Vamos assumir


independência a priori entre α0 , α1 e α2 . A distribuição a posteriori conjunta
para α0 , α1 e α2 é dada combinando-se (7.18) com (7.19), isto é,
2  
Y 1 2
π (α0 , α1 , α2 | x, y) = exp − 2 (αl − al ) × (7.20)
2bl
l=0
Pn Pn Pn
exp (α0 i=1 yi + α1 i=1 X1i yi + α2 i=1 X2i yi )
× n
Q
[1 + exp (α0 + α1 X1i + α2 X2i )] .
i=1

Amostras da distribuição a posteriori (7.20) podem ser geradas usando métodos


MCMC. Observar, de (7.20) , que as distribuições condicionais π (α0 | α1 , α2 , x, y),
π (α1 | α0 , α2 , x, y) e π (α2 | α0 , α1 , x, y) não apresentam formas conhecidas. As-
sim, usamos o algoritmo Metropolis-Hasting para gerar amostras de (7.20).

Como uma análise preliminar dos dados e também para obtermos informações
empı́ricas para os hiperparâmetros das distribuições a priori para αl , l = 0, 1, 2
dada em (7.19), considerar uma análise frequentista do modelo de regressão
logı́stica definido por (7.15) e (7.16) usando o software MINITAB.

Assim, o modelo ajustado por métodos de máxima verossimilhança é dado


por  
p̂i
ln = −3, 27361 − 0, 0090453X1 + 0, 230609X2 .
1 − p̂i
Dos resultados obtidos usando o software MINITAB observamos que X1 não
apresenta efeito significativo na incidência de CHF (p-value igual a 0, 186) mas
a covariável X2 apresenta um grande efeito na incidência de CHF (p-value igual
a 0, 002).
136

Para uma análise bayesiana dos dados da Tabela 7.7, vamos assumir os
seguintes valores para os hiperparâmetros das distribuições a priori (7.19) para
α0 , α1 e α2 : a0 = −3, b20 = 1, a1 = −0, 009, b21 = 0, 01, a2 = 0, 23 e b22 = 1
(lembrar que a variância da distribuição normal usando o software OpenBUGS
é invertida).

Usando o software OpenBUGS, escrevemos o seguinte programa para anali-


sar os dados:

model
{
for(i in 1:N)
{ y[i] ~ dbin(p[i],N)
logit(p[i]) <- alpha0 + alpha1*x1[i]+alpha2*x2[i] }
alpha0 ~ dnorm(-3,1)
alpha1 ~ dnorm(-0.009,100)
alpha2 ~ dnorm(0.23,1)
}

# Dados
list(y=c(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0),
x1=c(-82.6792,82.3208,82.3208,22.3208,-7.6792,222.3208,307.3208,
17.3208,-7.6792,-34.6792,-57.6792,-57.6792,32.3208,22.3208,
-207.6792,-17.6792,-117.6792,-77.6792,82.3208,-7.6792,-107.6792,
22.3208,57.3208,46.3208,-67.6792,52.3208,-37.6792,67.3208,
-97.6792,-47.6792,22.3208,67.3208,82.3208,52.3208,52.3208,
-7.6792,-47.6792,-112.6792,57.3208,22.3208,-17.6792,-67.6792,
2.3208,-22.6792,67.3208,-67.6792,-67.6792,-17.6792,22.3208,
-77.6792,-37.6792,32.3208,-17.6792),
x2=c(41,71,51,40,63,79,61,44,53,27,53,60,65,58,41,64,44,9,42,19,
24,-24,39,35,10,6,6,21,14,1,33,33,4,2,5,12,-1,44,14,-10,-43,23,
-1,29,40,30,23,12,-11,7,-22,20,19),N=53)

Os sumários a posteriori de interesse considerando um perı́odo “burn-in” de


1.000 amostras que são descartadas para eliminar o efeito dos valores iniciais e
tomando uma amostra final de tamanho 1000 escolhidas de 10 em 10 para se
ter uma amostra aproximadamente não-correlacionada é dada na Tabela 7.8.

Dos resultados da Tabela 7.8, observar que a covariável X1 não apresenta


efeito significativo na resposta CHF (zero incluı́do no intervalo de credibilidade
com probabilidade 0, 95 para α1 ) e a covariável X2 apresenta um efeito significa-
tivo na resposta CHF (o valor zero não é incluı́do no intervalo de credibilidade
com probabilidade 0, 95 para α2 ).
7.2. ALGORITMO DE METROPOLIS-HASTINGS 137

Tabela 7.8: Sumários a posteriori de interesse (dados da Tabela 7.7).


Parâmetro média DP Erro MC P 2, 5% mediana P 97, 5%
α0 -6,294 0,4814 0,0164 -7,294 -6,3 -5,383
−5
α1 -0,001871 0,002417 8, 9 × 10 -0,006526 -0,001759 0,002974
−4
α2 0,03598 0,01026 3, 388 × 10 0,01544 0,03634 0,0564
p1 0,009789 0,003031 9, 697 × 10−5 0,004774 0,009309 0,01675
p2 0,02121 0,007361 2, 688 × 10−4 0,009167 0,02023 0,03873
p3 0,01019 0,002756 1, 011 × 10−4 0,005473 0,009998 0,01628
p4 0,007605 0,001704 5, 904 × 10−5 0,004722 0,007481 0,01116
p5 0,01862 0,005723 1, 895 × 10−4 0,008713 0,01808 0,03097
−4
p6 0,02365 0,01289 5, 076 × 10 0,005529 0,0211 0,05689
p7 0,01167 0,008474 3, 202 × 10−4 0,002126 0,009761 0,03494
p8 0,008847 0,00195 6, 727 × 10−5 0,005575 0,008732 0,01285
p9 0,01286 0,003223 1, 07 × 10−4 0,00726 0,01271 0,01954
p10 0,005374 0,00147 4, 876 × 10−5 0,002995 0,005249 0,008619
−4
p11 0,01432 0,00441 1, 407 × 10 0,006956 0,01369 0,02366
p12 0,01858 0,006457 2, 061 × 10−4 0,008522 0,01764 0,03264
p13 0,01853 0,005569 1, 928 × 10−4 0,009126 0,01809 0,0305
p14 0,01457 0,003807 1, 306 × 10−4 0,008121 0,01433 0,02253
p15 0,01371 0,008173 2, 487 × 10−4 0,003525 0,01161 0,03357
p16 0,01974 0,006384 2, 096 × 10−4 0,009021 0,01906 0,03411
−4
p17 0,0119 0,004564 1, 432 × 10 0,00486 0,01109 0,02231
p18 0,003193 0,001323 4, 249 × 10−5 0,001355 0,002915 0,006227
p19 0,007406 0,002048 7, 394 × 10−5 0,004046 0,007262 0,01197
p20 0,003887 0,00123 4, 048 × 10−5 0,00193 0,003724 0,00673
−5
p21 0,005684 0,002089 6, 748 × 10 0,002629 0,005375 0,01069
−5
p22 0,000962 0,000729 2, 23 × 10 0,000168 0,000761 0,002944
p23 0,006924 0,001747 6, 189 × 10−5 0,003976 0,006804 0,01068
p24 0,006129 0,001559 5, 437 × 10−5 0,003532 0,005949 0,00956
p25 0,003232 0,001291 4, 158 × 10−5 0,001392 0,002959 0,006242
p26 0,002309 0,001078 3, 495 × 10−5 0,000813 0,00208 0,00483
p27 0,002671 0,001121 3, 581 × 10−5 0,001072 0,002416 0,005409
−5
p28 0,003689 0,001331 4, 493 × 10 0,001699 0,003468 0,006789
p29 0,003943 0,001578 5, 097 × 10−5 0,001678 0,003655 0,007646
p30 0,002316 0,001079 3, 409 × 10−5 0,000849 0,00205 0,005131
p31 0,00595 0,001455 4, 99 × 10−5 0,00354 0,005818 0,009196
−5
p32 0,005537 0,001591 5, 567 × 10 0,002983 0,005339 0,009073
p33 0,002086 0,001097 3, 579 × 10−5 0,000641 0,001826 0,004853
−5
p34 0,002034 0,001027 3, 302 × 10 0,000646 0,001813 0,004579
p35 0,002237 0,001065 3, 446 × 10−5 0,000768 0,002009 0,00474
p36 0,00308 0,001141 3, 696 × 10−5 0,001362 0,002885 0,005805
p37 0,002172 0,001052 3, 31 × 10−5 0,000770 0,001904 0,004918
p38 0,01175 0,004384 1, 379 × 10−4 0,004908 0,01099 0,02169
−5
p39 0,00297 0,001196 3, 951 × 10 0,001212 0,002751 0,005821
p40 0,001461 0,000873 2, 725 × 10−5 0,000359 0,001255 0,003868
p41 0,000593 0,000581 1, 714 × 10−5 0,000740 0,000404 0,002248
p42 0,005014 0,001598 5, 236 × 10−5 0,002559 0,004812 0,00871
p43 0,001991 0,000979 3, 093 × 10−5 0,000636 0,00176 0,004454
−5
p44 0,005625 0,001456 4, 86 × 10 0,003225 0,005523 0,008792
p45 0,007061 0,001845 6, 586 × 10−5 0,003974 0,006925 0,01102
p46 0,006394 0,001872 6, 132 × 10−5 0,003432 0,006179 0,01065
p47 0,005014 0,001598 5, 236 × 10−5 0,002559 0,004812 0,00871
p48 0,003135 0,001156 3, 742 × 10−5 0,0014 0,002947 0,005916
−5
p49 0,001417 0,000863 2, 687 × 10 0,000339 0,001212 0,003794
p50 0,002989 0,001283 4, 108 × 10−5 0,001229 0,002702 0,006052
p51 0,001117 0,000786 2, 376 × 10−5 0,000242 0,000880 0,003241
p52 0,003758 0,001237 4, 12 × 10−5 0,001827 0,003573 0,006608
p53 0,003959 0,00125 4, 109 × 10−5 0,002006 0,003789 0,006803
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%, P 97, 5%: percentil
97, 5%.
138

7.3 Conceitos adicionais


7.3.1 A integração de Monte Carlo
A integração de Monte Carlo é usada para encontrar resultados para integrais
sem resolvê-las analiticamente. Basicamente, é possı́vel determinar quantidades
de uma distribuição de probabilidade de interesse a partir uma grande quanti-
dade de valores gerados da distribuição de probabilidade. Suponha que temos
uma distribuição p(θ) (possivelmente uma distribuição a posteriori), que dese-
jamos tomar quantidades de interesse. Vamos supor a integral
Z
I = g(θ)p(θ)dθ,

em que g(θ) pode ser a média E(θ) ou a variância

V ar(θ) = E[θ − E(θ)]2 .

Podemos aproximar a integral via integração de Monte Carlo a partir de M


valores simulados de p(θ), dados por
M
1 X
Ib = g(θ(i) ).
M i=1

Exemplo 7.5: Podemos facilmente calcular o valor esperado da distribuição


Beta(3, 3) por integração de Monte Carlo usando o software R:

> M <- 10000


> beta.sims <- rbeta(M, 3, 3)
> sum(beta.sims)/M

[1] 0.5013

Nota: Essa aproximação determina um estimador consistente do verdadeiro


valor de I a partir da lei forte dos grandes números (LFGN).

7.3.2 Lei forte dos grandes números (LFGN)


Seja X1 , X2 , ... uma sequência de variáveis aleatórias independentes e identica-
mente distribuı́das com média finita µ = E(Xi ). Então, com probabilidade 1,
(X1 + X2 + · · · + XM )/M converge para µ quando M → ∞.

Exemplo 7.6: No exemplo anterior, cada valor simulado foi gerado inde-
pendentemente de uma mesma distribuição Beta(3,3).

Nota: Quando são gerados valores dependentes, podemos usar o teorema


ergódico.
7.4. EXERCÍCIOS 139

7.3.3 Teorema ergódico


Seja θ(1) , θ(2) , θ(3) , ..., θ(M ) uma sequência de M valores de uma cadeia de Markov
aperiódica, irredutivel, e recorrente positiva (cadeia ergódica), e seja E[g(θ)] <
1. Então, com probabilidade 1,

M Z
1 X
g(θ(i) ) → g(θ)p(θ)dθ
M i=1

quando M → ∞, sendo p(θ) uma distribuição estacionária. Assim, esta cadeia


de Markov é análoga à LFGN, permitindo ignorar a dependência entre os va-
lores simulados da cadeia de Markov quando determinamos quantidades de in-
teresse desses valores. Se temos uma cadeia de Markov aperiódica, irredutivel,
e recorrente positiva (isso ocorre quando usamos estatı́stica bayesiana), então
o teorema ergódico nos permite usar integração de Monte Carlo para calcular
quantidades de interesse dos valores gerados, ignorando a dependência entre os
valores simulados a partir das distribuições condicionais a posteriori para cada
parâmetro do modelo.

7.4 Exercı́cios
1. Sejam os dados de economia informal, considerando oito firmas. Sejam
as variáveis: y = ı́ndice de funcionários registrados, x1 = ı́ndice de fun-
cionários com segundo grau completo, x2 = ı́ndice de funcionários do sexo
feminino, e x3 = capital da firma (em $1000000,00). Os dados são apre-
sentados a seguir.

F irma 1 2 3 4 5 6 7 8
y 0, 10 0, 65 0, 30 0, 30 0, 28 0, 78 0, 28 0, 45
x1 0, 08 0, 17 0, 08 0, 30 0, 05 0, 18 0, 09 0, 45
x2 0, 40 0, 40 0, 38 0, 50 0, 52 0, 32 0, 45 0, 65
x3 0, 75 1, 02 1, 09 1, 35 1, 20 2, 20 2, 95 2, 50

(a) Considere um modelo linear para analizar estes dados:

yi = α + β1 x1i + β2 x2i + β3 x3i + εi

em que εi são variáveis aleatórias normais independentes com média zero


e variância σ 2 para i = 1, . . . , 8. Assuma diferentes distribuições a priori
para os parâmetros. Em cada caso, assuma cinco cadeias paralelas e ver-
ifique a convergência do algoritmo Gibbs sampling. Como sugestão, usar
o software OpenBUGS:
140

model
{
for(i in 1:N)
{
y[i] ~ dnorm(mu[i], tau)
mu[i] <- alpha + beta1*x1[i] + beta2*x2[i] + beta3*x3[i]
}
alpha ~ dnorm(0,1.0E-6)
beta1 ~ dnorm(0,1.0E-6)
beta2 ~ dnorm(0,1.0E-6)
beta3 ~ dnorm(0,1.0E-6)
tau ~ dgamma(1,1)
}

# Dados
list(y=c(0.10,0.65,0.30,0.30,0.28,0.78,0.28,0.45),
x1=c(0.08,0.17,0.08,0.30,0.05,0.18,0.09,0.45),
x2=c(0.40,0.40,0.38,0.50,0.52,0.32,0.45,0.65),
x3=c(0.75,1.02,1.09,1.35,1.20,2.20,2.95,2.50), N=8)

# Valores iniciais
list(alpha=1, beta1=0, beta2=0, beta3=0, tau=1)

(b) Escreva as distribuições condicionais necessárias para o amostrador de


Gibbs;

2. Seja I uma variável denotando o investimento de uma firma e seja K


o seu ativo imobilizado. Defina uma variável resposta y como o ı́ndice
I
y = K de investimento da firma. Sejam x1 , x2 e x3 covariáveis dadas
por x1 = fluxo de
K
caixa
; x2 = financiamento
K
da firma
; e x3 é o custo anual com
empregados. Dados para oito firmas acompanhadas durante os anos de
1990, 1991 e 1992, são apresentados a seguir.

Ano
1990 1991 1992
y x1 x2 x3 y x1 x2 x3 y x1 x2 x3
0, 06 0, 02 0, 36 0, 98 0, 12 0, 07 0, 42 0, 85 0, 10 0, 08 0, 40 0, 75
0, 65 0, 12 0, 45 1, 32 0, 72 0, 15 0, 38 1, 42 0, 65 0, 17 0, 40 1, 02
0, 25 0, 07 0, 38 1, 84 0, 32 0, 10 0, 42 1, 86 0, 30 0, 08 0, 38 1, 09
0, 32 0, 32 0, 49 1, 26 0, 26 0, 35 0, 53 1, 32 0, 30 0, 30 0, 50 1, 35
0, 28 0, 02 0, 51 0, 85 0, 25 0, 01 0, 55 0, 92 0, 28 0, 05 0, 52 1, 20
0, 67 0, 18 0, 28 2, 34 0, 83 0, 15 0, 30 2, 45 0, 78 0, 18 0, 32 2, 20
0, 25 0, 08 0, 36 3, 20 0, 32 0, 09 0, 30 2, 86 0, 28 0, 09 0, 45 2, 95
0, 37 0, 25 0, 38 1, 96 0, 42 0, 32 0, 32 2, 65 0, 45 0, 45 0, 65 2, 50

(a) Considere um modelo linear para analizar esses dados:

yij = αi + τj + γij + β0 + β1 x1ij + β2 x2ij + β3 x3ij + εij


7.4. EXERCÍCIOS 141

em que εij são variáveis aleatórias independentes com média zero e variância σ 2
para i = 1, . . . , 8; j = 1, 2, 3 (tempos), e assuma diferentes distribuições a priori
para os parâmetros. Em cada caso, assuma cinco cadeias paralelas e verifique
a convergência do algoritmo Gibbs sampling. Como sugestão, usar o software
OpenBUGS.

model {
for(i in 1:N) {
for(j in 1:T) {
y[i,j] ~ dnorm(mu[i,j], tau.c)
mu[i,j] <- alpha[i] + tau[j] + gamma[i,j] + beta0 +
beta1*x1[i,j] + beta2*x2[i,j] + beta3*x3[i,j] }}

for(i in 1:8) { alpha[i] ~ dnorm(0, tau.alpha) }


for(j in 1:3) { tau[j] ~ dnorm(0, tau.beta) }
for(i in 1:N) {
for(j in 1:T) { gamma[i,j] ~ dnorm(0, tau.gamma) }}

tau.gamma ~ dgamma(1,1)
tau.c ~ dgamma(1,1)
beta0 ~ dnorm(0,1.0E-6)
beta1 ~ dnorm(0,1.0E-6)
beta2 ~ dnorm(0,1.0E-6)
beta3 ~ dnorm(0,1.0E-6)
tau.alpha ~ dgamma(1,1)
tau.beta ~ dgamma(1,1)
}

# Dados
list(y=structure(.Data = c(0.06,0.12,0.1,0.65,0.72,0.65,0.25,
0.32,0.3,0.32,0.26,0.3,0.28,0.25,0.28,0.67,0.83,0.78,0.25,0.32,
0.28,0.37,0.42,0.45),.Dim=c(8,3)),
x1=structure(.Data = c(0.02,0.07,0.08,0.12,0.15,0.17,0.07,0.1,
0.08,0.32,0.35,0.3,0.02,0.01,0.05,0.18,0.15,0.18,0.08,0.09,0.09,
0.25,0.32,0.45),.Dim=c(8,3)),
x2=structure(.Data = c(0.36,0.42,0.4,0.45,0.38,0.4,0.38,0.42,0.38,
0.49,0.53,0.5,0.51,0.55,0.52,0.28,0.3,0.32,0.36,0.3,0.45,0.38,
0.32,0.65),.Dim=c(8,3)),
x3=structure(.Data = c(0.98,0.85,0.75,1.32,1.42,1.02,1.84,1.86,
1.09,1.26,1.32,1.35,0.85,0.92,1.2,2.34,2.45,2.2,3.2,2.86,2.95,
1.96,2.65,2.5),.Dim=c(8,3)),
N=8,T=3)

# Valores iniciais
list(tau.c=1, alpha=c(0,0,0,0,0,0,0,0), beta0=0, beta1=0,
142

beta2=0, beta3=0, tau.alpha=1, tau.gamma=1, tau.beta=1,


tau=c(0,0,0), gamma=structure(.Data=c(0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0),.Dim=c(8,3)))

(b) Escreva as distribuições condicionais necessárias para o amostrador de


Gibbs.
Capı́tulo 8

Algumas aplicações

8.1 Modelos bayesianos hierárquicos


Vamos considerar uma estrutura de vários nı́veis de relação a priori em um
modelo com verossimilhança f (y | θ) e priori π (θ) em que π (θ) é decomposto
pelas distribuições condicionais π1 (θ | α1 ) , π2 (α1 | α2 ) , . . . , πl−1 (αl−2 | αl−1 ) e
na distribuição marginal πl (αl−1 ) . Assim, temos:
Z
π (θ) = π1 (θ | α1 ) π2 (α1 | α2 ) . . . πl−1 (αl−2 | αl−1 ) πl (αl−1 ) dα1 dα2 . . . dαl−1

em que αi denota o hiperparâmetro no nı́vel i = 1, 2, . . . e a integral é consider-


ada para α1 , α2 , . . . , αl−1 .

Exemplo 8.1 (Modelo Poisson-exponencial hierárquico): Seja Yi , i =


1, . . . , n, uma variável aleatória denotando o número de acidentes de trabalho
durante um dado perı́odo fixado de tempo em n linhas de produção de uma
indústria. Vamos assumir uma distribuição de Poisson (1.10) para Yi ,
Yi | θi ∼ P oisson (θi ) ,
em que θ1 , θ2 , . . . , θn é suposto como uma amostra aleatória de uma distribuição
exponencial com hiperparâmetro δ desconhecido.

Vamos assumir uma distribuição a priori não-informativa para δ, dada por


π2 (δ) ∝ δ −1 , δ > 0. Dessa forma, temos um modelo bayesiano hierárquico
0
definido pela distribuição conjunta para y = (y1 , . . . , yn ) dado θ = (θ1 , θ2 , . . . ,
θn ),
n
Y exp (−θi ) θiyi
f (y | θ) = . (8.1)
i=1
yi !
Assim, uma distribuição a priori para θ no primeiro estágio é dada por
n
Y
π1 (θ | δ) = δ exp (−δθi ) (8.2)
i=1

143
144

e uma priori para δ no segundo estágio é dada por,


1
π2 (δ) ∝ (8.3)
δ
em que δ > 0. Combinando (8.1) , (8.2) e (8.3) temos a distribuição a posteriori
conjunta para θ e δ dada por

π (θ, δ | y) ∝ f (y | θ) π1 (θ | δ) π2 (δ) .

Assim, " #
n
X n
Y
π (θ, δ | y) ∝ δ n−1
exp − (δ + 1) θi θiyi .
i=1 i=1
As distribuições condicionais necessárias para o amostrador de Gibbs são
dadas por:
n
!
X
(i) δ | θ, y ∼ Gama n, θi
i=1
(ii) θi | δ, θ (i) , y ∼ Gama (yi + 1, δ + 1)

em que i = 1, 2, . . . , n e θ (i) = (θ1 , θ2 , . . . , θi−1 , θi+1 , . . . , θn ) .

Exemplo 8.2 (Modelo normal/normal hierárquico): Sejam y1 , . . . , yn


observações independentes de uma distribuição normal, isto é,

yi | θi ∼ N θi , σ12


para i = 1, . . . , n e com σ12 conhecido. Vamos assumir no primeiro nı́vel de um


modelo bayesiano hierárquico, a distribuição a priori para θi dada por
iid
θi | µ, σ22 ∼ N µ, σ22


para i = 1, . . . , n.

No segundo nı́vel de hierarquia, assumir independência a priori entre µ e σ22


e uma distribuição localmente uniforme para µ, isto é,

π µ, σ22 ∝ π2 σ22 ,
 


em que π2 σ22 é uma distribuição a priori para σ22 . Dessa forma, a distribuição
a posteriori para θ1 , . . . , θn , µ, σ22 é dada por:
( n  )
Y 1 1 2
π θ1 , . . . , θn , µ, σ22 | y ∝

p exp − 2 (yi − θi ) ×
i=1 2πσ12 2σ1
( n  )
Y 1 1 2
× p exp − 2 (θi − µ) ×
i=1 2πσ22 2σ2
×π2 σ22 ,

8.2. ANÁLISE BAYESIANA EMPÍRICA 145

em que −∞ < θi < ∞; −∞ < µ < ∞ e σ22 > 0.

Vamos assumir uma distribuição a priori gama inversa para σ22 , isto é,
σ22 ∼ GI (a, b)
em que a e b são conhecidos. Portanto,

−(a+ n2 +1) b
θ1 , . . . , θn , µ, σ22 σ22

π |y ∝ exp − 2 ×
σ2
" n n
#
1 X 2 1 X 2
× exp − 2 (yi − θi ) − 2 (θi − µ) .
2σ1 i=1 2σ2 i=1

As distribuições condicionais necessárias para o amostrador de Gibbs são


dadas por
" n
#
n 1 X 2
(a) σ22 | θ, µ, y ∼ GI a + ; b + (θi − µ) ,
2 2 i=1
σ22
 
2
(b) µ | θ, σ2 , y ∼ N θ̄; , e
n
yi σ22 + µσ12 σ12 σ22
 
2
(c) θi | θ (i) , µ, σ2 , y ∼ N , ,
σ12 + σ22 σ12 + σ22
Pn
em que θ = (θ1 , . . . , θn ); θ̄ = n1 i=1 θi ; i = 1, . . . , n.

8.2 Análise bayesiana empı́rica


Em muitas aplicações podemos usar os dados y para elicitar uma distribuição a
priori π (θ) para os parâmetros do modelo f (y | θ). A função de verossimilhança
marginal é dada por Z
f (y) = f (y | θ) π (θ) dθ.

Assim, usamos o método da máxima verossimilhança marginal para a escolha


da priori π (θ). Vamos supor n observações yi independentes com distribuições
f (yi | θi ), em que os parâmetros θi , i = 1, . . . , n, são considerados como gerados
independentemente da mesma distribuição a priori π (θ) desconhecida. Para
simplificação, vamos assumir que π (θ | α) é especificada, mas com α desco-
nhecido.

A função de verossimilhança marginal para α é dada por


Z Z
f (y | α) = . . . f (yi | θi ) π (θi | α) dθ1 . . . dθn ,

em que Z
f (yi | α) = f (yi | θi ) π (θi | α) dθi .
146

Usando o método de máxima verossimilhança ou o método dos momentos,


obtemos uma estimativa α̂ do hiperparâmetro α. Então consideramos esse valor
para o hiperparâmetros α da distribuição a priori π (θ | α).

Como um caso particular, consideramos o modelo Poisson/exponencial, com


função de probabilidade

exp (−θi ) θiyi


f (yi | θi ) =
yi !
para yi = 0, 1, 2, . . ., e a distribuição a priori

π (θi | δ) = δ exp (−δθi )

para θi > 0. Dessa forma, temos


Z ∞
f (yi | δ) = f (yi | θi ) π (θi | δ) dθi
0
Z ∞
(y +1)−1
∝ δ θi i exp [− (δ + 1) θi ] dθi
0
δΓ (yi + 1)
∝ yi +1 .
(δ + 1)

Portanto, a função de verossimilhança para δ, assumindo n observações in-


dependentes é dada por
n
δn
Q
Γ (yi + 1)
i=1
L (δ) ∝ n+ n
P .
i=1 yi
(δ + 1)

O logaritmo da função de verossimilhança L (δ) é dado por


n
!
X
l (δ) = ln L (δ) ∝ n ln (δ) − n + yi ln (δ + 1) .
i=1

De l0 (δ) = 0, encontramos δ̂ = ȳ −1 , em que


Pn
yi
ȳ = i=1 .
n
A distribuição a posteriori para θi é dada por
 
π (θi | y) ∝ δ̂ exp −δ̂θi θiyi exp (−θi ) ,

ou seja,    
(yi +1)−1 1
π (θi | y) ∝ θi exp − + 1 θi ,

8.2. ANÁLISE BAYESIANA EMPÍRICA 147

i = 1, . . . , n. Assim,
 
1
θi | yi ∼ Gama yi + 1; + 1 .

Exemplo 8.3 (Qualidade do atendimento em um hospital): Vamos


considerar uma amostra de n = 400 pacientes com infarto agudo do miocárdio
(IAM), que tiveram um ataque cardı́aco após 30 dias do diagnóstico de IAM,
durante o perı́odo janeiro de 2000 a dezembro de 2003 em um grande hospital.

A variável resposta Y é o status da mortalidade (1 = morte e 0 = sobre-


vivência). Vamos denotar essa variável aleatória por Y com uma distribuição
de Bernoulli com probabilidade de sucesso θ = P (Y = 1). Assumiremos uma
distribuição a priori Beta (α, β) para θ. Observar que essas 400 pessoas não
formam uma amostra aleatória de uma população. Apesar disso, vamos as-
sumir permutabilidade para as observações yi , i = 1, . . . , n. O teorema da re-
presentação de DeFinetti para variáveis 0 − 1 mostra que, dado θ, as variáveis
Yi são independentes.

Vamos supor que um especialista da área de cardiologia afirma que a taxa


de mortalidade para pacientes com 30 dias de IAM é, em média, 15%. Além
disso, o especialista fornece outra informação: a taxa de mortalidade a partir
de estudos prévios é um valor entre 5% e 30%. Com essas informações do
especialista, escolhemos os valores dos hiperparâmetros da distribuição beta
p α = 4, 5 e β = 25, 5, o que leva a uma média E (θ) ≈ 0, 15 e desvio-padrão
por
V ar (θ) ≈ 0, 064 para a distribuição Beta (α, β) (ver (1.17)).

A função de verossimilhança para θ é dada por


n−S
f (y | θ) = L (θ) = θS (1 − θ) ,
Pn
em que S = i=1 yi .

Combinando a função de verossimilhança (8.2) com a distribuição a priori


Beta (4, 5; 25, 5) para θ, a distribuição a posteriori para θ é uma distribuição
Beta (α + S; β + n − S). Com os dados, temos

θ | y, α, β ∼ Beta (76, 5; 353, 5) .

Um estimador de Bayes com respeito a função de perda quadrática é dado


pela média a posteriori para θ, isto é,

α+S
E (θ | y) = .
α+β+n

Assim, E (θ | y) = 0, 178.
148

Tabela 8.1: Resultados de um estudo conduzido em seis centros médicos.

Centro Aspirina Placebo


N◦ de Taxa de N◦ de Taxa de
Médico
pacientes mortalidade (%) pacientes mortalidade (%)
UK-1 615 7, 97 624 10, 74
CDPA 758 5, 80 771 8, 30
GAMS 317 8, 52 309 10, 36
UK-2 832 12, 26 850 14, 82
Paris 810 10, 49 406 12, 81
AMIS 2.267 10, 58 2.257 9, 70
Total 5.599 9, 88 5.217 10, 73

Exemplo 8.4 (Meta-análise para efeitos de aspirina em ataques


cardı́acos): Vamos supor um experimento realizado por seis centros médicos
para comparar o uso de aspirina e placebo em pacientes após um ataque cardı́aco
(ver Tabela 8.1).

Considerando inicialmente um estudo baseado no método frequentista, temos


na Tabela 8.2 os sumários obtidos para as diferenças entre as taxas de mortali-
dade para cada um dos centros médicos considerados.

Tabela 8.2: Sumários da inferência frequentista para os seis centros médicos.

yi Erro padrão da
Centro Médico zi pi
diferença em % diferença em%
UK-1 2, 77 1, 65 1, 68 0, 047
CDPA 2, 50 1, 31 1, 91 0, 028
GAMS 1, 84 2, 34 0, 79 0, 216
UK-2 2, 56 1, 67 1, 54 0, 062
Paris 2, 31 1, 96 1, 17 0, 129
AMIS −1, 15 0, 90 −1, 27 0, 898
Total 0, 86 0, 59 1, 47 0, 072

Observar que zi dado na Tabela 8.2 representa a razão das diferenças em


taxas de mortalidade em relação aos seus erros-padrão (EP). Da mesma forma,
pi denota o p-value (teste unicaudal) associado com zi , usando uma aproximação
normal.

A partir dos resultados da Tabela 8.2 observamos que os cinco primeiros


estudos levam a um declı́nio na taxa de mortalidade usando aspirina, apesar
de alguns estudos não mostrarem evidências de significância (p-values maiores
8.2. ANÁLISE BAYESIANA EMPÍRICA 149

que 0, 05). O último estudo (conduzido no centro médico AMIS) leva a uma
aumento na taxa de mortalidade para pacientes recebendo aspirina. Observar
que esse grupo tem o maior número de pacientes.

Vamos assumir um modelo bayesiano hierárquico com as taxas de mortal-


idade para os dois grupos (aspirina e placebo) com distribuições normais, isto
é,

y1i ∼ N θ1i , σ12




y2i ∼ N θ2i , σ22




para i = 1, . . . , 6, em que y1i é a taxa de mortalidade para pacientes recebendo


aspirina e y2i é a taxa de mortalidade para pacientes recebendo placebo.

Assumiremos em um primeiro estágio da análise bayesiana as seguintes dis-


tribuições a priori para os parâmetros do modelo:

θ1i ∼ N α1i , η12




θ2i ∼ N α2i , η22




σ12 ∼ Gama (a1 , b1 )


σ22 ∼ Gama (a2 , b2 ) (8.4)

para i = 1, . . . , 6, sendo a1 , a2 , b1 e b2 hiperparâmetros conhecidos. Vamos


assumir independência a priori entre os parâmetros.

Em um segundo estágio da análise bayesiana hierárquica, assumiremos as


distribuições a priori

α1i ∼ N c1i , d21i




α2i ∼ N c2i , d22i




η12 ∼ Gama (e1 , f1 )


η22 ∼ Gama (e2 , f2 ) (8.5)

para i = 1, . . . , 6, e com todos os hiperparâmetros em (8.5) assumidos conhe-


cidos. Com a informação obtida dos resultados da inferência frequentista (ver
Tabela 8.2), escolhemos os valores dos hiperparâmetros para as distribuições a
priori (8.4) e (8.5) (uso de métodos bayesianos empı́ricos).

Usando o software OpenBUGS, considere o programa:

model {
for (i in 1:N) {
y1[i] ~ dnorm(theta1[i], tau1)
y2[i] ~ dnorm(theta2[i], tau2)
150

theta1[i] ~ dnorm(alpha1[i], eta1)


theta2[i] ~ dnorm(alpha2[i], eta2)
d[i] <- theta2[i] - theta1[i] }
# Distribuicoes a priori:
alpha1[1] ~ dnorm(8,1)
alpha1[2] ~ dnorm(5.8,1)
alpha1[3] ~ dnorm(8.5,1)
alpha1[4] ~ dnorm(12.3,1)
alpha1[5] ~ dnorm(10.5,1)
alpha1[6] ~ dnorm(10.6,1)
alpha2[1] ~ dnorm(10.7,1)
alpha2[2] ~ dnorm(8.3,1)
alpha2[3] ~ dnorm(10.4,1)
alpha2[4] ~ dnorm(14.8,1)
alpha2[5] ~ dnorm(12.8,1)
alpha2[6] ~ dnorm(9.7,1)
tau1 ~ dgamma(0.1,0.1)
tau2 ~ dgamma(0.1,0.1)
eta1 ~ dgamma(0.1,0.1)
eta2 ~ dgamma(0.1,0.1)
}

# Dados:
list(y1=c(7.97, 5.8, 8.52, 12.26, 10.49, 10.58),
y2=c(10.74,8.3,10.36,14.82,12.81,9.7), N=6)

Na geração de amostras para a distribuição a posteriori usando o amostrador


de Gibbs, consideramos um perı́odo “burn-in” de tamanho 1000 e geramos uma
amostra final de tamanho 1000 escolhendo amostras de 10 em 10.

Na Tabela 8.3, temos os sumários a posteriori obtidos usando o programa


OpenBUGS. Os parâmetros τ1 e τ2 so o inverso das variâncias σ12 e σ22 , respec-
tivamente, dada a notação usada pelo programa.

A partir dos resultados da Tabela 8.3 observamos que os intervalos de cred-


ibilidade 95% para as diferenças di = θ2i − θ1i , i = 1, . . . , 6, para os cinco
primeiros tratamentos não incluem o valor zero, isto é, a aspirina apresenta
um ganho em relação ao placebo em termos de taxas de mortalidade menores.
Além disso todas as estimativas de Monte Carlo baseadas nas 1.000 amostras
geradas de Gibbs para as médias a posteriori de di , isto é, E (di | y) são positi-
vas. O intervalo de credibilidade 95% para o último estudo (i = 6, AMIS) inclui
o valor zero, isto é, indicando um efeito não significativo da aspirina na taxa de
mortalidade para os pacientes após um ataque cardı́aco.

Exemplo 8.5: Suponha os dados de um experimento conduzido com pes-


soas idosas na Dinamarca nos anos 1980, considerando 572 idosos vivendo em
8.2. ANÁLISE BAYESIANA EMPÍRICA 151

Tabela 8.3: Sumários a posteriori (análise bayesiana para os dados da Tabela


8.2).

Parâmetro média DP Erro MC P2,5% mediana P97,5%


α11 8,012 0,6213 0,02164 6,805 8,002 9,332
α12 5,811 0,6123 0,02328 4,573 5,812 7,014
α13 8,528 0,6122 0,01645 7,381 8,508 9,765
α14 12,30 0,5966 0,01637 11,17 12,29 13,46
α15 10,48 0,6407 0,02329 9,307 10,48 11,8
α16 10,57 0,6314 0,01924 9,310 10,58 11,78
α21 10,76 0,5948 0,01458 9,621 10,75 11,96
α22 8,31 0,6122 0,01985 6,991 8,316 9,541
α23 10,35 0,6145 0,01964 9,141 10,31 11,61
α24 14,82 0,6256 0,02158 13,56 14,82 16,09
α25 12,78 0,6041 0,01527 11,47 12,78 13,96
α26 9,682 0,6171 0,01849 8,405 9,691 10,94
θ11 7,997 0,5034 0,01628 7,006 7,997 9,065
θ12 5,791 0,4899 0,01648 4,727 5,812 6,792
θ13 8,507 0,4986 0,01677 7,54 8,51 9,577
θ14 12,29 0,5215 0,01575 11,22 12,28 13,44
θ15 10,49 0,4792 0,01726 9,513 10,49 11,46
θ16 10,59 0,5237 0,01746 9,423 10,57 11,65
θ21 10,75 0,485 0,01476 9,742 10,76 11,78
θ22 8,297 0,4868 0,01444 7,345 8,284 9,303
θ23 10,36 0,5144 0,01540 9,281 10,36 11,43
θ24 14,83 0,5133 0,01761 13,78 14,81 16,0
θ25 12,8 0,4805 0,01253 11,78 12,8 13,76
θ26 9,688 0,5225 0,01696 8,621 9,702 10,71
θ21 − θ11 2,754 0,7151 0,02227 1,247 2,777 4,149
θ22 − θ12 2,505 0,6918 0,02022 1,214 2,505 3,926
θ23 − θ13 1,852 0,6981 0,02203 0,3278 1,841 3,277
θ24 − θ14 2,535 0,7298 0,0262 1,032 2,539 4,053
θ25 − θ15 2,308 0,671 0,01984 0,934 2,331 3,642
θ26 − θ16 -0,8969 0,7191 0,02416 -2,364 -0,8849 0,5441
η1 6,674 7,068 0,2017 0,5855 4,191 27,23
η2 6,878 7,07 0,2111 0,4839 4,639 26,1
τ1 6,719 7,011 0,1986 0,5612 4,317 28,34
τ2 6,591 6,687 0,1972 0,6053 4,307 25,24
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%,
P 97, 5%: percentil 97, 5%.
152

diferentes cidades pequenas que foram aleatorizados para dois grupos: um grupo
com 287 pessoas (grupo experimental recebendo um novo tipo de medicina pre-
ventiva). O objetivo do estudo foi verificar se a nova terapia preventiva aplicada
aos idosos melhora a saúde.

A resposta associada a cada idoso foi relacionada ao número de hospital-


izações durante o perı́odo de 2 anos (tempo de duração do estudo). Os dados
desse estudo são apresentados na Tabela 8.4.

Tabela 8.4: Dados de pacientes idosos.

Número de hospitalizações n média DP


Grupo 0 1 2 3 4 5 6 7
(C) Controle 140 75 46 12 8 4 0 2 287 0, 944 1, 24
(E) Experimental 147 83 37 13 3 1 1 0 285 0, 768 1, 01
DP: desvio padrão.

Considerando inicialmente uma análise preliminar descritiva dos dados, ob-


servar que a redução do mı́nimo de hospitalizações é dado pela diferença 0, 944−
0, 768 = 0, 176, isto é, levando a uma redução no nı́vel de controle de
 
0, 944 − 0, 768
100 % = 19%.
0, 768
Uma análise frequentista (errônea) poderia ser feita assumindo distribuições
normais para Ci (controle) e Ej (experimental), isto é,

Ci | µc , σc2 ∼ N µc , σc2


Ej | µe , σe2 ∼ N µe , σe2


para i = 1, . . . , nc (nc é o número de pacientes do grupo controle, sendo nc =


287) e j = 1, . . . , ne (ne é o numero de pacientes idosos no grupo experimental,
sendo ne = 285).

Usando a estatı́stica Z (comparação de amostras independentes), temos


para o efeito de tratamento uma média amostral igual a −0, 176 (diferença das
médias), um desvio-padrão amostral igual a 0, 0944 e um intervalo de confiança
95% para a diferença de médias dado por (−0, 361; 0, 009).

Observar que os dados da Tabela 8.4 são dados de contagem (dados discre-
tos). Portanto assumir para uma análise bayesiana uma distribuição de Poisson
para as variáveis aleatórias Ci e Ej dados por:

Ci | λc ∼ P oisson (λc )
Ej | λe ∼ P oisson (λe )
8.2. ANÁLISE BAYESIANA EMPÍRICA 153

para i = 1, . . . , nc e j = 1, . . . , ne .

Vamos assumir as seguintes distribuições a priori (independentes) para λc e


λe :

λc ∼ Gama (0, 01; 0, 01) (8.6)


λe ∼ Gama (0, 01; 0, 01)

Observar que as distribuições a priori (8.6) são não-informativas para os


parâmetros. Também observar que temos interesse no efeito de tratamento
dado por ∆ = λe − λc .

Um programa usando o software OpenBUGS considerando as respostas para


cada indivı́duo nos grupos C e E é dado a seguir.

model {
lambda.c ~ dgamma(0.01,0.01)
lambda.e ~ dgamma(0.01,0.01)
for(i in 1:n.c) { C[i] ~ dpois(lambda.c) }
for(i in 1:n.e) { E[i] ~ dpois(lambda.e) }
# Delta
effect <- lambda.e - lambda.c
}

# Dados
list(
C=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,5,7,
7),n.c=287,
E=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
154

2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,5,6),
n.e=285)

# Valores iniciais
list(lambda.c=1.0, lambda.e=1.0)

Na Tabela 8.5, temos os sumários a posteriori de interesse assumindo um


perı́odo “burn-in” de tamanho 2.000 e gerando 1.000 amostras finais selecionadas
de 10 em 10.

Tabela 8.5: Sumários a posteriori (análise bayesiana para os dados da Tabela


6.5).

Parâmetro média DP Erro MC P2,5% mediana P97,5%


∆ -0,1711 0,07823 0,002539 -0,3272 -0,1691 -0,01809
λc 0,9375 0,05813 0,001708 0,8253 0,9372 1,056
λe 0,7664 0,05143 0,00174 0,67 0,766 0,8693
DP: desvio padrão, Erro MC: erro Monte Carlo, P 2, 5%: percentil 2, 5%,
P 97, 5%: percentil 97, 5%.

A partir dos resultados da Tabela 8.5, observar que uma estimativa de Monte
Carlo para a média a posteriori da diferença ∆ = λe − λc baseada nas 1.000
amostras de Gibbs é dada por ∆ ˆ = −0, 1711, um resultado similar ao obtido na
inferência frequentista assumindo a estatı́stica Z. Entretanto, observa-se um in-
tervalo de credibilidade 95% para essa diferença dado por (−0, 3272; −0, 01809)
que tem comprimento menor ao obtido pelo intervalo de confiança 95% usando
a estatı́stica Z. Também observamos que o valor zero não está incluı́do no in-
tervalo de credibilidade 95%, um indicativo de que a nova terapia diminui o
número de internações dos idosos. O critério DIC para esse valor foi estimado
por DIC
[ = 1497, 21.

Observar que sob os dois modelos considerados, frequentista e bayesiano,


estamos assumindo um efeito de tratamento aditivo, isto é,

E = C + Ef eito.

Outros modelos poderiam ser considerados para analisar os dados de con-


tagem (número de hospitalizações por idosos em um perı́odo de 2 anos). Dessa
forma, assumir um modelo multiplicativo dado por,

E = (1 + Ef eito) C.

Portanto, considerar um modelo de regressão da resposta y (contagem de


hospitalizações por indivı́duo) versus uma variável independente “dummy” Xi
8.2. ANÁLISE BAYESIANA EMPÍRICA 155

especificando os dois grupos: 1 para o grupo experimental e 0 para o grupo


controle. Assim, assumiremos o modelo,
ind
yi | λi ∼ P oisson (λi ) (8.7)

em que log (λi ) = γ0 +γ1 Xi , i = 1, 2, . . . , 572 (número total de idosos no estudo).

Sejam as seguintes distribuições a priori não-informativas para os parâmetros


γ0 e γ1 :

γ0 ∼ N 0, 104


γ1 ∼ N 0, 104 .


Observar do modelo (8.7) que o parâmetro λc da distribuição de Poisson


para as pessoas no grupo controle é dado por

λc = exp [γ0 + γ1 (0)]


= exp (γ0 )

e o parâmetro λe da distribuição de Poisson para as pessoas no grupo experi-


mental é dado por

λe = exp [γ0 + γ1 (1)]


exp (γ0 + γ1 )

Como exp (γ1 ) ≈ 1 + γ1 , observar que λe ≈ (1 + γ1 ) λc (modelo de efeito


multiplicativo). Um programa usando o software OpenBUGS para esse modelo
é dado a seguir.

model
{
for(i in 1:n)
{
log(lambda[i]) <- gamma.0 + gamma.1*x[i]
y[i] ~ dpois(lambda[i])
}
lambda.c <- exp(gamma.0)
lambda.e <- exp(gamma.0+gamma.1)
mult.effect <- exp(gamma.1)
gamma.0 ~ dnorm(0,0.0001)
gamma.1 ~ dnorm(0,0.0001)
}

# Dados
list(y=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
156

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,5,5,5,
5,7,7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,
2,2,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,5,6),
x=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,
1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1),
n=572)

# Valores iniciais
list(gamma.0=0, gamma.1=0)

Na Tabela 8.6 temos os sumários obtidos para os parâmetros de interesse con-


siderando um “burn-in” de tamanho 2000 e uma amostra de Gibbs de tamanho
1000 em que as amostras foram escolhidas de 10 em 10.
8.2. ANÁLISE BAYESIANA EMPÍRICA 157

Tabela 8.6: Sumários a posteriori considerando um modelo multiplicativo.

Parâmetro média DP P2,5% mediana P97,5%


γ0 −0, 07006 0, 06091 −0, 1851 −0, 0686 0, 04647
γ1 −0, 1952 0, 08916 −0, 3624 −0, 1939 −0, 01261
λc 0, 9341 0, 05685 0, 831 0, 9337 1, 048
λe 0, 7687 0, 05082 0, 674 0, 7663 0, 8755
exp(γ1 ) 0, 826 0, 07414 0, 696 0, 8238 0, 9875
DP: desvio padrão, P 2, 5%: percentil 2, 5%, P 97, 5%: percentil 97, 5%.

Observar que as estimativas de Monte Carlo para as médias a posteriori para


λc e λe (ver Tabela 8.6) usando um modelo multiplicativo são muito próximas
dos resultados obtidos usando um modelo aditivo (ver Tabela 8.5).

Para o modelo multiplicativo, encontramos uma valor para DIC dado por
DIC
[ = 1497, 10 que é um valor muito próximo ao obtido assumindo um modelo
aditivo e assim concluı́mos que os dois modelos (aditivo e multiplicativo) levam
à resultados similares.

Outra possibilidade é considerar um modelo com variabilidade extra-Poisson.


Dos dados para cada indivı́duo nos dois grupos, observamos que as médias
amostrais e as variâncias amostrais não são iguais (a média no grupo controle
é 0, 9373, e a respectiva variância é 1, 5416, enquanto no grupo experimental,
a média é 0, 7649 e a variância é 1, 044). Observar que para uma distribuição
de Poisson devemos ter média igual à variância e isso não ocorre para os dados
dos dois grupos. Assim, temos a presença de variabilidade extra-Poisson. Isso
pode ser interpretado da seguinte forma: cada indivı́duo tem sua taxa própria
de hospitalização que depende de sua saúde, idade, etc.

Portanto, assumir o modelo de regressão de Poisson com efeitos aleatórios,


ind
yi | λi ∼ P oisson (λi )
em que log (λi ) = γ0 + γ1 Xi + ei , em que ei é um efeito aleatório ou variável
latente com distribuição normal com media zero e variância σ 2 , isto é,
ind
ei ∼ N 0, σ 2


para i = 1, . . . , n.

Vamos assumir as seguintes distribuições a priori para os parâmetros do


modelo:
γ0 ∼ N (0, 10)
γ1 ∼ N (0, 10)
σ2 ∼ Gama (1, 1)
158

Também assumiremos independência a priori entre os parâmetros γ0 , γ1 e


σ 2 . O código em OpenBUGS para esse modelo é dado a seguir:

model
{
for(i in 1:n)
{ log(lambda[i]) <- gamma.0 + gamma.1*x[i] + e[i]
y[i] ~ dpois(lambda[i])
e[i] ~ dnorm(0,sigma)
}
gamma.0 ~ dnorm(0,0.1)
gamma.1 ~ dnorm(0,0.1)
sigma ~ dgamma(1,1)
lambda.c <- exp(gamma.0)
lambda.e <- exp(gamma.0+gamma.1)
mult.effect <- exp(gamma.1)
}

Na Tabela 8.7 temos os sumários a posteriori obtidos a partir de uma amostra


de Gibbs com 1000 amostras simuladas tomadas de 10 em 10 após “burn-in” de
1000 amostras descartadas para eliminar o efeito dos valores iniciais.

Tabela 8.7: Sumários a posteriori (modelo multiplicativo na presença de um


efeito aleatório).

Parâmetro média DP P2,5% mediana P97,5%


γ0 -0,3229 0,08896 -0,5035 -0,3228 -0,1564
γ1 -0,1828 0,1143 -0,39 -0,1839 0,04032
λc 0,7269 0,06445 0,6044 0,7241 0,8552
λe 0,6058 0,05749 0,5043 0,6053 0,7266
exp(γ1 ) 0,8384 0,09634 0,6771 0,832 1,041
σ2 2,059 0,416 1,383 2,005 3,061
DP: desvio padrão, P 2, 5%: percentil 2, 5%, P 97, 5%: percentil 97, 5%.

Considerando o modelo multiplicativo na presença de um efeito aleatório


encontramos o valor de DIC baseado nas 1000 amostras de Gibbs dado por
DIC
[ = 1414, 25. Concluı́mos que o modelo multiplicativo na presença do efeito
aleatório ei leva a melhor ajuste para os dados quando comparado com o modelo
aditivo DIC [ = 1497, 21 e com o modelo multiplicativo sem efeito aleatório
 
DIC
[ = 1497, 10 .
8.3. DADOS BINÁRIOS CORRELACIONADOS 159

8.3 Dados binários correlacionados


Exemplo 8.6: Em um ensaio clı́nico, após alguns critérios de inclusão e ex-
clusão, foram selecionadas n = 27 pacientes, distribuı́das aleatoriamente em
dois grupos. As pacientes alocadas no grupo A receberam tratamento com um
medicamento chamado acarbose e às pacientes alocadas no grupo B foi admin-
istrado um tratamento por placebo, em uma avaliação duplo cega, ou seja, nem
o pesquisador nem as pacientes sabiam o fármaco administrado ao longo de seis
meses de tratamento. Essas avaliações foram realizadas bimestralmente. A fim
de avaliar o efeito da acarbose no padrão menstrual dessas pacientes foi obser-
vado a ocorrência ou não de menstruação em três perı́odos bimestrais. A Tabela
8.8 apresenta os dados obtidos em cada tratamento.

Tabela 8.8: Dados de um ensaio clı́nico sobre o efeito da acarbose. A ocorrência


de menstruação é denotada por 1 e a não ocorrência é denotada por 0.

Placebo Acarbose
Paciente 0-2(a) 2-4(b) 4-6(c) Paciente 0-2(a) 2-4(b) 4-6(c)
1 1 1 0 15 0 0 1
2 1 1 1 16 1 0 0
3 0 1 1 17 0 0 0
4 1 1 1 18 1 0 1
5 0 0 0 19 0 1 1
6 1 1 0 20 0 0 1
7 1 1 1 21 1 1 1
8 0 0 1 22 0 0 1
9 1 1 1 23 1 1 1
10 0 1 1 24 1 1 1
11 0 0 0 25 1 1 1
12 1 0 0 26 0 1 1
13 0 0 0 27 0 0 1
14 0 0 0
(a) Após dois meses de tratamento. (b) Entre o segundo e o quarto mês de
tratamento. (c) Entre o quarto e o sexto mês de tratamento.

Para a modelagem dos dados da Tabela 8.8, assumimos um modelo de


regressão logı́stica com efeitos aleatórios dado por
y
P (Yji = yji ) = pjiji (1 − pji )1−yji ,

em que yji é uma variável binária dada por yji = 1 (ocorrência de menstruação)
e yji = 0 (não ocorrência de menstruação), sendo que j = 1, 2, 3 corresponde
aos três perı́odos de avaliação (0-2, 2-4 e 4 6), respectivamente, i = 1, 2, ..., 27
160

(pacientes envolvidas no estudo), e


exp(αi + β0j + β1j xi )
pji = ,
1 + exp(αi + β0j + β1j xi )
sendo xi uma variável indicadora associada ao tratamento com xi = 0 se a i-
ésima paciente recebeu tratamento com placebo e xi = 1 se a i-ésima paciente
recebeu o medicamento acarbose. Observe que αi denota um efeito aleatório da
i-ésima observação que captura a possı́vel correlação entre y1i , y2i e y3i (ver, por
exemplo, Chen e Dey, 1998, Prentice, 1988, Ochi e Prentice, 1984). Podemos
assumir diferentes distribuições para αi . Chen e Dey (1998) assumem que os
efeitos aleatórios αi são independentes e seguem uma distribuição normal com
média zero e variância σα2 . A função de verossimilhança para α e β é dada por
n Y 3
Y exp[(αi + β0j + β1j xi )yji ]
L(α, β) = ,
i=1 j=1
1 + exp(αi + β0j + β1j xi )

em que α = (α1 , α2 , ..., αn )0 e β = (β01 , β02 , β03 , β11 , β12 , β13 )0 . Sejam as
seguintes distribuições a priori para os parâmetros do modelo:
αi ∼ N (0, σα2 ), i = 1, ..., n,
σα2 ∼ GI(a, b), a e b conhecidos,
βkj ∼ N (ckj , d2kj ), ckj e d2kj conhecidos, k = 0, 1, j = 1, 2, 3.
Lembrar que GI(a, b) denota uma distribuição gama inversa com média
b(a − 1)−1 e variância b2 [(a − 1)2 (a − 2)]−1 . Assumindo independência en-
tre as distribuições a priori, as distribuições condicionais para o algoritmo de
amostradores de Gibbs são dadas por
π(αi |σα2 , β, x, y) ∼
N (0, σα2 ) ×
 
 X 3 X3 
× exp αi yji − ln [1 + exp(αi + β0j + β1j xi )] ,
 
j=1 j=1
n
!
n X αi2
π(σα2 |α, β, x, y) ∼ IG + a, b +
2 i=1
2
e
π(βkj |α, σα2 , x, y) ∼ N (ckj , d2kj ) ×
( n n
)
X X
× exp βkj xi yji − ln [1 + exp(αi + β0j + β1j xi )] ,
i=1 i=1

para i = 1, ..., n, k = 0, 1 e j = 1, 2, 3.

Para a análise dos dados, vamos considerar a = b = 0.001, ckj = 0 e d2kj =


106 . Um programa OpenBUGS para este modelo é apresentado a seguir.
8.3. DADOS BINÁRIOS CORRELACIONADOS 161

model
{
for (i in 1:N) {
for (j in 1:3) {
y[i,j] ~ dbern(p[i,j])
logit(p[i,j]) <- alpha[i] + beta0[j] + beta1[j]*x[i] }
alpha[i] ~ dnorm(0,tau.a) }
tau.a ~ dgamma(0.001,0.001)
sigma.a <- 1/tau.a
for (j in 1:3) {
beta0[j] ~ dnorm(0,1.0E-6)
beta1[j] ~ dnorm(0,1.0E-6)
}
dif[1,1] <- beta0[2] - beta0[1]
dif[1,2] <- beta0[3] - beta0[1]
dif[1,3] <- beta0[3] - beta0[2]
dif[2,1] <- beta1[2] - beta1[1]
dif[2,2] <- beta1[3] - beta1[1]
dif[2,3] <- beta1[3] - beta1[2]
}

# Valores iniciais
list(tau.a=1,alpha=c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,
0,0,0,0,0,0,0,0,0),beta0=c(0,0,0),beta1=c(0,0,0))

# Dados
list(N = 27, x = c(0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,1,
1,1,1,1,1,1,1,1), y = structure(.Data = c(1,1,0,1,1,1,0,
1,1,1,1,1,0,0,0,1,1,0,1,1,1,0,0,1,1,1,1,0,1,1,0,0,0,1,0,
0,0,0,0,0,0,0,0,0,1,1,0,0,0,0,0,1,0,1,0,1,1,0,0,1,1,1,1,
0,0,1,1,1,1,1,1,1,1,1,1,0,1,1,0,0,1), .Dim = c(27,3)))

A Tabela 8.9 mostra as médias a posteriori e os intervalo de credibilidade


95% para os parâmetros de interesse. Intervalo de credibilidade 95% que não
contêm o valor 0 são marcados com um asterisco.

Na Tabela 8.9, observar que os intervalo de credibilidade 95% para as diferenças


β13 − β11 e β13 − β12 não contêm o valor 0, evidenciando que no grupo tratado
por acarbose, as frequências relativas de ocorrência de menstruação diferem-se
quando comparadas entre o terceiro e o primeiro perı́odo, e entre o segundo e o
primeiro perı́ido.
162

Tabela 8.9: Resultados do modelo bayesiano.

Parâmetro Média Intervalo de credibilidade 95%

β01 -0,044 (-2,375 ; 2,239)


β02 0,555 (-1,697 ; 2,949)
β03 -0,043 (-2,352 ; 2,246)
β11 -0,177 (-3,436 ; 3,162)
β12 -0,776 (-4,123 ; 2,518)
β13 3,408 (-0,008 ; 7,690)

β02 − β01 0,599 (-1,515 ; 2,824)


β03 − β01 0,001 (-2,133 ; 2,138)
β03 − β02 -0,598 (-2,830 ; 1,527)
β12 − β11 -0,599 (-3,729 ; 2,470)
β13 − β11 3,585 (0,174 ; 7,595)*
β13 − β12 4,184 (0,718 ; 8,300)*

8.4 Aplicações em epidemiologia


Exemplo 8.7 (estimando a “prevalência real” de uma doença): Alguns
estudos epidemiológicos objetivam estimar a prevalência de uma doença em uma
população especı́fica, ou seja, a frequência de pessoas portadoras da doença na
população. Entretanto, nem sempre é disponı́vel um método laboratorial ou
instrumento que permita classificar cada indivı́duo amostrado como realmente
portador ou não da doença em estudo. Vamos supor que uma pesquisa utiliza
um método que fornece resultados positivos ou negativos para uma doença, mas
estes resultados são sujeitos a má classificações. Seja Y uma variável aleatória
que representa estes resultdos, sendo que Y = 1 representa um resultado pos-
itivo para o método e Y = 0 representa um resultado negativo. Assim, a
probabilidade
PA = P (Y = 1)
é chamada “prevalência aparente” da doença. Seja D uma variável aleatória que
representa o verdadeiro estado de saúde do indivı́duo, sendo que D = 1 denota
um indivı́duo realmente portador da doença e D = 0 denota um indivı́duo que
não é portador desta doença. A probabilidade

PR = P (D = 1)

é chamada “prevalência real” da doença. Notar que

PA = P (Y = 1|D = 1)P (D = 1) + P (Y = 1|D = 0)P (D = 0)


= P (Y = 1|D = 1)PR + P (Y = 1|D = 0)(1 − PR ),
8.4. APLICAÇÕES EM EPIDEMIOLOGIA 163

sendo que as probabilidades condicionais

S = P (Y = 1|D = 1)

e
E = P (Y = 0|D = 0)
são, respectivamente, a sensibilidade e a especificidade do método de classi-
ficação. Assim,
PA = S × PR + (1 − E)(1 − PR ), (8.8)
e, consequentemente,
PA + E − 1
PR = .
S+E−1
Esta expressão é comumente chamada de fórmula de Rogan-Gladen, e é
bastante utilizada em estudos epidemiológicos para “corrigir” as medidas de
prevalência baseadas em um método de classificação sujeito a erros, sendo as
probabilidades P (Y = 1|D = 1) e P (Y = 0|D = 0) conhecidas. Notar que a
fórmula de Rogan-Gladen exige que 1 − E seja menor que PA .

Para uma estimação bayesiana da prevalência real PR , vamos supor que X


é uma variável aleatória que denota o número de indivı́duos classificados como
positivos pelo método sujeito a erros em uma amostra de tamanho n. Assim,
 
n
f (x|PR ) = (PA )x (1 − PA )n−x ,
x

em que x = 0, 1, ..., n e PA é dado por (8.8). Se supormos S e E conheci-


dos, e uma distribuição a priori beta para PR , com hiperparâmetros a e b, a
distribuição a posteriori para PR é dada por
x
π(PR |x) ∝ [S × PR + (1 − E)(1 − PR )] ×
n−x
[1 − S × PR + (1 − E)(1 − PR )] (PR )a−1 (1 − PR )b−1 I(0,1) (PR ).

Um estudo conduzido em Ribeirão Preto (Martinez et al., 2018) entrevistou


n = 1.055 usuários de serviços de saúde, e x = 84 pessoas disseram que eram
portadoras de diabetes. Portanto, a prevalência aparente desta doença é
x 84
PA = = = 0, 0796.
n 1.055
Segundo um estudo prévio (Martin et al., 2000), a probabilidade de uma
pessoa realmente portadora de diabetes ter conhecimento desta condição é S =
0, 732, enquanto a probabilidade de uma pessoa que não é portadora de diabetes
saber que não porta a doença é E = 0, 993. Considerando uma distribuição a
priori beta para PR , com hiperparâmetros a = 0, 5 e b = 0, 5, um programa
OpenBUGS para estimar a prevalência real é dado a seguir.
164

model {
x ~ dbin(PA,n)
PA <- S*PR + (1-E)*(1-PR)
PR ~ dbeta(a,b)
S <- 0.732
E <- 0.993
}

# Valor inicial para PR


list(PR=0.5)

# Dados
list(x=84,n=1055,a=0.5,b=0.5)

Usando este programa, simulamos 400.000 amostras de Gibbs para a den-


sidade a posteriori de PR , com saltos de tamanho 10 e um perı́odo ”burn-in”
de tamanho 1.000. A Figura 8.1 mostra o gráfico de autocorrelações entre as
sucessivas amostras, o gráfico da densidade a posteriori de PR simulada, os su-
cessivos valores simulados e os sumários a posteri. A estimativa bayesiana para
PR é 0,1007, com um intervalo de credibilidade 95% dado por (0,0791 ; 0,1242).

Figura 8.1: Gráfico dos sucessivos valores simulados para PR , autocorrelações


entre as sucessivas amostras, o gráfico da densidade a posteriori de PR simulada,
e os sumários a posteri, obtidos do programa OpenBUGS.
8.4. APLICAÇÕES EM EPIDEMIOLOGIA 165

Tabela 8.10: Estimativas bayesianas para PR de acordo com diferentes especi-


ficações para a respectiva distribuição a priori.

Distribuição a priori, PR ∼ Beta(a, b) Distribuição a posteriori


Moda Média Variância a b Média IC 95%

Bimodal 0,5 0,125 0,5 0,5 0,1007 (0,0791 ; 0,1242)


0,1 0,3105 0,045 1,18 2,62 0,1012 (0,0796 ; 0,1250)
0,1 0,1401 0,006 2,794 17,146 0,1013 (0,0800 ; 0,1245)
0,2 0,3261 0,038 1,552 3,208 0,1016 (0,0801 ; 0,1254)
0,2 0,4372 0,070 1,106 1,424 0,1013 (0,0799 ; 0,1248)
0,6 0,5675 0,034 3,496 2,664 0,1043 (0,0826 ; 0,1280)

A Tabela 8.10 compara os resumos a posteriori para PR , de acordo com


várias escolhas para os hiperparâmetros a e b. Notar que as médias a posteriori
e os respectivos intervalos de credibilidade 95% são muito próximos, quando
comparados os diferentes cenários. Assim, notamos que neste exemplo a especi-
ficação da distribuição a priori tem um efeito bastante pequeno na estimação
bayesiana de PR .
166
Referências Bibliográficas

1. ACHCAR, J. A.; SMITH, A. F. M. Aspects of reparametrization in ap-


proximate Bayesian inference. Bayesian and Likelihood methods in Statis-
tics and Econometrics: Essays in Honor of George A. Bernard. S. Geisser,
J.S. Hodges, S.J. Press, A. Zellner, eds. Amsterdan: North Holland, p.
439–452, 1989.

2. AITKIN, M. Posterior Bayes factors. Journal of Royal Statistical Society,


B, v. 53, p. 111–142, 1991.

3. BERGER, J. O.; PERICCHI, L. R. The intrinsic Bayes factor for model


selection and prediction. [S.l.], 1993.

4. BERNARDO, J.; SMITH, A. (Ed.). Bayesian Theory. New York: Wiley


Series in Probability and Statistics, 2000.

5. BERNARDO, J. M. Reference posterior distribuions for Bayesian infer-


ence (with discussion). Journal of the Royal Statistical Society, B, v. 41,
p. 113–148, 1979.

6. BESAG, J.; GREEN P. J. Spatial statistics and Bayesian computation.


Journal of the Royal Statistical Society, B, v. 55, p. 25–37, 1993.

7. BOX, G.; TIAO, G. Bayesian Inference in Statistical Analysis. New York:


Addison-Wesley, 1973.

8. CARLIN, B. P.; T., L. Bayes and empirical Bayes methods for data anal-
ysis, Segunda Edição. London: Chapman Hall, 2000.

9. CASELLA, G; BERGER, R. L. Statistical Inference. 2nd Edition. Duxbury


Press, 2001.

10. CHEN, M. H.; DEY, D. K. Bayesian modeling of correlated binary re-


sponses via scale mixture of multivariate normal link functions. Sankhyā:
The Indian Journal of Statistics, Series A, v. 60, p. 322–343, 1998.

11. CHIB, S.; GREENBERG, E. Understanding the Metropolis-Hastings al-


gorithm. The American Statistician, v. 49, p. 327–335, 1995.

167
168

12. FINETTI, B. de. Funzione caratteristica di un fenomeno aleatorio. Memo-


rias Academicas Naz. Lincei, v. 4, p. 86–133, 1930.

13. FINETTI, B. de. La prevision: ser lois logiques, ses sources subjects..
Ann. Inst. H. Poincare, v. 7, p. 1–68, 1937/1964.

14. GAMERMAN, D. Markov Chain Monte Carlo: Stochastic simulation for


Bayesian inference. London: Chapman and Hall, 1997.

15. GEISSER, S. Predictive inference: an introduction. London: Chapman


and Hall, 1993.

16. GEISSER, S.; EDDY W.F.A predictive approach to model selection. Jour-
nal of the American Statistical Association, 74, 153-60, 1979.

17. GELFAND, A. E.; DEY, D. K. Bayesian model choice: asymptotics and


exact calculations. Journal of the Royal Statistical Society, B, v. 56, n.
56, p. 501–514, 1994.

18. GELFAND, A. E.; SMITH, A. F. M. Sampling-based approaches to cal-


culating marginal distributions. Journal of the American Statistical As-
sociation, v. 85, n. 410, p. 398–409, 1990.

19. GELMAN, A.; RUBIN, D. B. Inference from iterative simulation using


multiple sequences. Statistical Science, v. 7, p. 457–511, 1992.

20. GEMAN, S.; GEMAN, D. Stochatisc relaxation, Gibbs distribution and


the bayesian restoration of images. IEEE Tramsaction on Patterm Anal-
ysis and Machine Intelligence, v. 6, p. 721–741, 1984.

21. GEWEKE, J. Bayesian inference in econometric models using Monte Carlo


integration. Econometrica, v. 57, p. 1317–1339, 1989.

22. GEWEKE, J. Evaluating the accuracy of sampling-based approaches to


calculating posterior moments. In: Bayesian Statistics 4. [S.l.]: Oxford:
Clarendon Press, 1992.

23. JAMES, B.R. Probabilidade: um curso em nı́vel intermediário. Rio de


Janeiro: Instituto de Matemática Pura e Aplicada, 1996.

24. JELINSKI, Z.; MORANDA, P. B. Software realibility research. New York:


Academic Press: Freiberger, W (ed). Statistical Computer Performance
Evaluation, 1972. 465–497.

25. KADANE, J. B. Predictive and structural methods for eliciting prior dis-
tributions. North-Holland, Amsterdam: Bayesian Analysis and economet-
rics and statistics (A. Zellner, ed), 1980. 89–93.

26. KASS, R. E.; RAFTERY, A. E. Bayes factor. Journal of the American


Statistical Association, v. 90, p. 773–795, 1995.
169

27. LEE, T. E. Statistical Methods for Survival Data Analysis. New York:
John Wiley and Sons, 1992.
28. MARTIN, L. M.; LEFF, M.; CALONGE, N.; GARRETT, C.; NELSON,
D.E. Validation of self-reported chronic conditions and health services in
a managed care population. American Journal of Preventive Medicine,
v.18, p. 215–218, 2000.
29. MARTINEZ, E. Z.; TERADA, N. A. Y.; GIGLIO, F. M.; ZUCOLOTO,
M. L. Prevalence of self-reported diabetes and hypertension among users
of primary health care services. Acta Scientiarum. Health Sciences, 2018.
In press.
30. MILLAR, R. B. Maximum Likelihood Estimation and Inference: With
Examples in R, SAS and ADMB. Chichester: John Wiley & Sons, 2011.
31. MOOD, A. M.; GRAYBILL, F. A.; BOES, D. C. Introduction to Statis-
tical Theory. 3rd edition. McGraw-Hill, 1974.
32. OCHI, Y.; PRENTICE, R. L. Likelihood inference in a correlated probit
regression model. Biometrika, v.71, p. 531–543, 1984.
33. PAULINO, C.; TURKMAN, M.; MURTEIRA, B. Estatı́stica Bayesiana.
Lisboa: Fundação Calouste Gulbenkian, 2003.
34. PRENTICE , R. L. Correlated binary regression with covariate specific to
each binary observation. Biometrics, v.44, p. 1033–1048, 1988.
35. RAFTERY, A. E.; LEWIS, S. M. Implementing MCMC. In: Markov chain
Monte Carlo in practice. London: Chapman and Hall, 1996. p. 115–130.
36. RUBIN, H. A weak system of axioms for rational behaviour and the non-
separability of utility from the prior. Statistical and Decisions, v. 5, p.
47–58, 1987.
37. SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics,
v. 6, p. 461–466, 1978.
38. SPIEGELHALTER, D. J. et al. Bayesian measures of model complexity
and fit (with discussion). Journal of the Royal Statistical Society, B, v.
64, p. 583–639, 2002.
39. SPIEGELHALTER, D. J.; SMITH, A. F. M. Bayes factors for linear and
log-linear models with vague prior information. Journal of the Royal Sta-
tistical Society, B, v. 44, p. 377–387, 1982.
40. SPIEGELHALTER, D. J. et al. WinBUGS Version 1.4 User Manual.
[S.l.], 2003.
41. TIERNEY, L. Markov chains of exploring posterior distributions. Annals
of Statistics, v. 22, p. 1701–1762, 1994.
170

42. TIERNEY, L.; KADANE, J. B. Accurate approximations for posterior


moments and marginal densities. Journal of the American Statistical As-
sociation, v. 81, p. 82–86, 1996.
43. WINKLER, R. L. Prior information, predictive distribution and Bayesian
model building. North-Holland, Amsterdam: Bayesian Analysis and econo-
metrics and statistics (A. Zellner, ed), 1980. 95–109.
44. WISHART, J. The generalised product moment distribution in samples
from a normal multivariate population. Biometrika, v.20A, n.1-2, p.32–52,
1928.
Resolução de alguns
exercı́cios

Capı́tulo 3
Exercı́cio 1
Seja a distribuição a posteriori π (θ | y) beta com parâmetros α∗ e β ∗ (funções
dos dados). Vamos considerar a função de perda:
2
L (d∗ , θ) = θ−2 (d∗ − θ) , d∗ ≥ 0 e 0 ≤ θ ≤ 1

Assim:
Γ (α∗ + β ∗ )
 
∗ β ∗ −1
π (θ | y) = ∗ ∗
θα −1 (1 − θ) , 0≤θ≤1
Γ (α ) Γ (β )

Para encontrar a decisão de Bayes que minimiza o erro esperado, seja a


decisão de Bayes dada por:

Γ (α∗ + β ∗ )
Z  
1 ∗ 2 ∗ β ∗ −1
R= 2
(d − θ) ∗ ) Γ (β ∗ )
θα −1 (1 − θ) dθ
θ θ Γ (α

A decisão de Bayes que minimiza o erro esperado é dada por:

∂R (d∗ , θ) Γ (α∗ + β ∗ )
Z  
2 ∗ ∗ β ∗ −1

= 2
(d − θ) ∗ ∗
θα −1 (1 − θ) dθ = 0
∂d θ θ Γ (α ) Γ (β )

α∗ − 2
d∗ =
α∗ + β ∗ − 2

Exercı́cio 2
Vamos considerar a função de confiabilidade S (t) = P (T > t), em que S (t) =
θ1 = 0, 50 ou S (t) = θ2 = 0, 90. Assim, sendo as decisões d1 (estimador de S (t)
é θ1 ) e d2 (estimador de S (t) é θ2 ), temos a seguinte função de perda L (d, θ):

171
172

d1 d2
S (t) = θ1 0 5
S (t) = θ2 3 0

1
Sejam as distribuições a priori π (θ1 ) = 4 e π (θ2 ) = 43 .

(a) Qual é a solução bayesiana?

Tomando a decisão 1, temos:

1 3
E [L (d1 , θ)] = L (d1 , θ1 ) π (θ1 ) + L (d1 , θ2 ) π (θ2 ) = 0 × + 3 × = 2, 25.
4 4
Tomando a decisão 2, temos:

1 3
E [L (d2 , θ)] = L (d2 , θ1 ) π (θ1 ) + L (d2 , θ2 ) π (θ2 ) = 5 × + 0 × = 1, 25.
4 4
Assim, a decisão d2 minimiza o erro esperado.

(b) Vamos retirar uma unidade e testá-la para o tempo t : falha ou so-
brevivência. Seja Z = 1 para sobrevivência e Z = 0 para falha, e ainda,
f (z = 1 | θ1 ) = 0, 50, f (z = 1 | θ2 ) = 0, 90, f (z = 0 | θ1 ) = 0, 50 e f (z = 0 | θ2 )
= 0, 10. Qual é a solução bayesiana quando você retira uma unidade?

Para Z = 1 temos:
π (θ1 ) f (z = 1 | θ1 )
π (θ1 | z = 1) =
π (θ1 ) f (z = 1 | θ1 ) + π (θ2 ) f (z = 1 | θ2 ) .
1
4 × 0, 50
= 1 3 = 0, 15.
4 × 0, 50 + 4 0, 90
π (θ2 | z = 1) = 1 − π (θ1 | z = 1) = 0, 85.

Para Z = 0 temos:
π (θ1 ) f (z = 0 | θ1 )
π (θ1 | z = 0) =
π (θ1 ) f (z = 0 | θ1 ) + π (θ2 ) f (z = 0 | θ2 )
1
4 × 0, 50
= 1 3 = 0, 62.
4 × 0, 50 + 4 0, 10
π (θ2 | z = 0) = 1 − π (θ1 | z = 0) = 0, 38.

O risco de Bayes, com relação à distribuição a posteriori, se z = 1 e, tomando


a decisão 1, é dado por:

E [L (d1 , θ)] = L (d1 , θ1 ) π (θ1 | z = 1) + L (d1 , θ2 ) π (θ2 | z = 1)


= 0 × 0, 15 + 3 × 0, 85 = 2, 25.
173

O risco de Bayes, se z = 1 e, executando a decisão 2, é dado por:

E [L (d2 , θ)] = L (d2 , θ1 ) π (θ1 | z = 1) + L (d2 , θ2 ) π (θ2 | z = 1)


= 5 × 0, 15 + 0 × 0, 85 = 0, 75.

Logo, se z = 1, escolher a decisão d2 .

O risco de Bayes, com relação à distribuição a posteriori, se z = 0 e, tomando


a decisão 1, é dado por:

E [L (d1 , θ)] = L (d1 , θ1 ) π (θ1 | z = 0) + L (d1 , θ2 ) π (θ2 | z = 0)


= 0 × 0, 62 + 3 × 0, 38 = 1, 14.

O risco de Bayes, se z = 1 e, tomando a decisão 2, é dado por:

E [L (d2 , θ)] = L (d2 , θ1 ) π (θ1 | z = 0) + L (d2 , θ2 ) π (θ2 | z = 0)


= 5 × 0, 62 + 0 × 0, 38 = 3, 10.

Logo, se z = 0 escolher a decisão d1 .

Exercı́cio 3
Supor que o tempo de sobrevivência X de um componente eletrônico tenha uma
distribuição exponencial com densidade:

f (x | λ) = λ exp (−λx) , x > 0 e λ > 0

Vamos assumir uma amostra aleatória de n unidades (x1 , x2 , ..., xn ) e a dis-


tribuição a priori π (λ) = λ1 , λ > 0.

(a) Assumindo independência entre as informações (x1 , x2 , ..., xn ), a função


de verossimilhança é dada por
n
!
X
n
L (λ | x) = λ exp −λ xi .
i=1

A densidade a posteriori é dada por


n
!
X
n−1
π (λ | x) ∝ λ exp −λ xi ,
i=1

ou seja, !
n
X
λ | x ∼ Gama n, xi .
i=1

(b) Encontrar o estimador de Bayes para λ considerando a função de perda


quadrática:
2
L (d∗ , λ) = (d∗ − λ)
174

Z
2
R= (d∗ − λ) π (λ | x) dλ
λ

∂R (d∗ , λ)
Z
= 2 (d∗ − λ) π (λ | x) dλ = 0
∂d∗ λ

1
d∗ = E [π (λ | x)] = ,

Pn
xi
em que x̄ = i=1
n .

(c) A moda da densidade a posteriori é dada por

∂ log [π (λ | x)]
=0
∂λ
(n − 1)
λ= para n ≥ 1,
nx̄
Pn
em que nx̄ = i=1 xi .

(d) Qual é a densidade a posteriori para o tempo de sobrevivência mediano?

A mediana é dada por


n  
(nx̄) [log (2)] log (2) log (2)
f (tmed | x) = exp −nx̄
Γ (n) tmed tmed t2med
tmed | x ∼ GI (n, nx̄ log (2))

Dica: Usar transformação de variáveis.

Exercı́cio 4
Vamos assumir uma amostra de tamanho n de uma distribuição normal com
média θ e variância 4. Considerar uma priori normal para θ com média 0 e
variância conhecida σ 2 .

(a) Assumindo independência entre as informações (x1 , x2 , ..., xn ), a função


de verossimilhança é dada por
" n
#
1X 2
L (θ | x) ∝ exp − (xi − θ) .
8 i=1

A distribuição a priori para θ é dada por


 
1
π (θ) ∝ exp − 2 θ2 .

175

A densidade a posteriori é dada por


" n
#
1X 2 1 2
π (θ | x) ∝ exp − (xi − θ) − 2 θ .
8 i=1 2σ

Notar que:
nx̄σ 2 4σ 2
 
θ∼N ; .
4 + nσ 4 + nσ 2
2

(b) Temos:
Z
2
R= (d∗ − θ) π (θ | x) dθ,
θ

∂R (d∗ , θ)
Z Z
= d∗ π (θ | x) dθ − θπ (θ | x) dθ = 0
∂d∗ θ θ
e
nx̄σ 2
Z

d = θπ (θ | x) dθ = E (θ | x) = .
θ 4 + nσ 2

(c) Em qual situação a solução obtida pelo estimador de máxima verossimil-


hança (EM V ) coincide com a solução de Bayes com respeito a perda quadrática?
Ao igualarmos o EM V ao estimador bayesiano com respeito à perda quadrática,
temos
nx̄σ 2
= x̄,
4 + nσ 2
o que implica
σ2 n
= 1.
4 + nσ 2
Logo, os mesmos serão iguais se σ 2 → ∞ ou n → ∞.

Exercı́cio 5
Suponha que você tenha uma distribuição subjetiva para a temperatura média
θ dos próximos dias, dada por uma distribuição gama com parâmetros α e β
com média E (θ) = α α
β e variância V ar (θ) = β 2 , em que α e β são valores especi-
ficados. Escolhemos então valores para a média e a variância que representam
a sua opinião sobre a temperatura e calculamos os valores correspondentes de
α e β.

Encontramos a decisão de Bayes d∗ (ou estimador de Bayes) para θ quando


a função de perda é dada por

2 2 θ2
L (d∗ , θ) = (d∗ − θ) + (d∗ ) ,
1000
e comentamos porque esse estimador é menor que E (θ | y).
176

α
Seja E (θ) = 30 e V ar (θ) = 5. Logo, a partir de E (θ) = β = 30 e V ar(θ) =
α
β2 = 5, encontramos α = 180 e β = 6.

Da função de perda, tem-se que o risco bayesiano é dado por:


Z  2

2 2 θ
R= (d∗ − θ) + (d∗ ) π (θ | y) dθ.
θ 1000

Assim,
∂R (d∗ , θ) d∗ θ2
Z  

= d −θ+ π (θ | y) dθ = 0,
∂d∗ θ 1000
e
d∗
Z Z Z
∗ 2
d π (θ | y) dθ + θ π (θ | y) dθ − θπ (θ | y) dθ = 0.
θ 1000 θ θ
R
Dado que θ π (θ | y) dθ = 1, temos

d∗
d∗ + E θ2 | y dθ = E (θ | y) ,

1000
e então
E (θ | y)
d∗ =  .
E(θ 2 |y)
1+ 1000

1
 
Observar que 1 + 1000 E θ2 | y > 1, pois E θ2 | y > 0.

E(θ|y) 
Como conclusão, E (θ | y) > 
E (θ 2 |y)
.
1+ 1000

Para os dados deste problema, temos

1000αβ
d∗ = ,
1000β + α (1 + α)

sendo d∗ = 27, 99 < E (θ) = 30.

Exercı́cio 6
Suponha que (x1 , ..., xn ) denota uma amostra aleatória de uma distribuição de
Poisson com média θ, e θ segue uma distribuição a priori gama com parâmetros
conhecidos α e β.

(a) Vamos encontrar a distribuição a posteriori para β e escrever a média a


posteriori como uma média ponderada da média a priori α β e a média amostral
x̄. Observamos que:

π(θ | x) ∼ Gama (nx̄ + α, n + β) .


177

Potanto,
(α + nx̄)
E(θ | x) = .
(β + n)
(b) Como a distribuição a posteriori é uma função gama, sabemos que a
variância é dada por
(α + nx̄)
V ar(θ | x) = .
(β + n)2
(c) Vamos mostrar que a variância a posteriori é menor do que a variância
a priori se e somente se x < (2 + nβ )E(θ). Temos que

V ar(θ | X) < V ar(θ),

o que implica
(α + nx̄) α
2
< 2,
(n + β) β
α(n + β)2
nx̄ < − α,
β2
α (n2 + 2nβ + β 2 − β)
x̄ < ,
β nβ
α n
x̄ < (2 + ),
β β
e, finalmente,
n
x̄ < E(θ)(2 + ).
β

Capı́tulo 4
Exercı́cio 1
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatória da distribuição ex-
ponencial com densidade

f (y | λ) = λ exp (−λy) , y > 0 e λ > 0.

Vamos considerar uma distribuição a priori conjugada para λ, e então en-


contrar:

(a) A densidade a posteriori para λ.

Assumindo independência entre as observações, a função de verossimilhança


L é dada por !
X n
n
L (y | λ) = λ exp −λ yi
i=1
178

Assumindo como priori λ ∼ Gama (a, b) com a e b conhecidos, a distribuição


a posteriori é dada por
" n
!#
X
(n+a)−1
π (λ | y) ∝ λ exp −λ yi + b .
i=1

Logo, !
n
X
λ | y ∼ Gama n + a, yi + b .
i=1

(b) Uma aproximação normal para a densidade a posteriori para λ.

Seja h  i
a
λ | y ∼ λ̂, I −1 λ̂ .

O estimador de máxima verossimilhança para λ λ̂ = ȳ1 . Assim,


  n
I λ̂ = 2 ,
λ̂
e " 2#
a λ̂
λ | y ∼ λ̂, .
n
Veja a equação (3.17).

(c) Vamos encontrar a densidade preditiva para uma observação futura Yn+1 .

Z
f (yn+1 | y) = f (yn+1 | λ) π (λ | y) dλ
Zλ∞
v z z−1
= λ exp (−λyn+1 ) λ exp (−λv) dλ,
0 Γ (z)
em que v = nȳ + b e z = n + a. Assim,
Z ∞
vz
f (yn+1 | y) = exp (−λyn+1 + v) λz+1−1 dλ
Γ (z) 0
vz Γ (z + 1)
= .
Γ (z) (yn+1 + v)z+1

Como Γ (z + 1) = zΓ (z), temos


vz
f (yn+1 | y) = z z+1 para yn+1 ≥ v,
(yn+1 + v)
que corresponde à distribuição de Pareto.

(d) Para encontrar a moda da distribuição de Pareto podemos construir um


gráfico ou utilizar resultados conhecidos.
179

Exercı́cio 2
Seja y = (y1 , y2 , ..., yn ) representando uma amostra aleatória da distribuição uni-
forme com densidade
1
f (y | θ) = , 0 < y < θ,
θ
e vamos considerar uma densidade a priori para θ dada por
π (θ) = αaα θ−(α+1) , θ > a, α > 0 e a > 0 (a conhecido)
(a) Vamos encontrar a densidade a posteriori para θ dado y1 , y2 , ..., yn e
a densidade preditiva para uma observação futura yn+1 dado y1 , y2 , ..., yn . A
respectiva função de verossimilhança é dada por
n
Y
L (θ) = θ−n I(0,θ) (yi ) .
i=1

Observar que 0 < y1 < θ, 0 < y2 < θ, . . . , 0 < yn < θ, isto é,
y(n) = max (y1 , . . . , yn ) .
Assim,
L (θ) = θ−n I[y(n) ,∞] (θ) .
A distribuição a posteriori é dada por
π (θ | y) ∝ θ−(α+1) θ−n I[y(n) ,∞] (θ)
∝ θ−(α+n+1) I[y(n) ,∞] (θ) .

Como conclusão, temos que


k 
π (θ | y) = , θ > max a, y(n) ,
θα+n+1
em que Z ∞
k −1 = θ−(α+n+1) dθ.
max(a,y(n) )

A densidade preditiva para uma observação futura é dada por


Z
f (yn+1 | y) = f (yn+1 | θ) π (θ | y) dθ,
θ

em que θ > yn+1 e θ > max a, y(n) . Assim,
Z ∞ Z ∞
1 k
f (yn+1 | y) = α+n+1
dθ = k θ−(α+n+1) dθ.
max(y(n+1) ,A) θ θ max(y(n+1) ,A)

Portanto,
θ−(α+n+2)+1
f (yn+1 | y) = k |∞
− (α + n + 2) + 1 max((yn+1 ),k)
k
= (n+α+3)
.
(α + n + 2 − 1) [max ((yn+1 ) , k)]
180

Exercı́cio 3
Vamos considerar uma distribuição gaussiana inversa IG (µ, λ) com densidade
 − 21 "
2
!#
λ λ (y − µ)
f (y | µ, λ) = exp − , y > 0; λ > 0 e µ > 0.
2πy 3 2µ2 y

Observar que
µ3
E (Y ) = µ e V ar (Y ) = .
λ
Considerando uma amostra aleatória (y1 , y2 , ..., yn ) e uma distribuição a pri-
ori não informativa para µ e λ dada por
1
π (µ, λ) ∝ ,
µλ
vamos encontrar:

(a) A densidade a posteriori conjunta para µ e λ, e também a densidade a


posteriori marginal para µ. Assumindo independência entre as observações, a
função de verossimilhança (L) é dada por
 − n2 Y n  − 21 ( n
"
2
#)
λ 1 λ X (yi − µ)
L (y | µ, λ) = exp − 2 .
2π i=1
yi3 2µ i=1 yi

A densidade a posteriori conjunta para para µ e λ é dada por


 − n2 Y n 
( n
"
2
#)
1 λ 3
 λ X (yi − µ)
π (µ, λ | y) ∝ yi exp − 2
2
.
µλ 2π i=1
2µ i=1 yi

A densidade a posteriori marginal para µ é dada por:


 − n2 Y n 
( n
"
2
#)
λ X (yi − µ)
Z
1 λ 3

π (µ | λ, y) ∝ yi exp − 2
2

λ µλ 2π i=1
2µ i=1 yi
n
( n
" #)
2
µ−1 Y  32  −
Z
−n −1 λ X (y i µ)
∝ −n
yi (λ) 2 exp − 2 dλ.
(2π) 2 i=1 λ 2µ i=1 yi

Como Z ∞
Γ (a)
xa−1 exp (−bx) dx = ,
0 ba
temos
n
µ−1 Y  3
 Γ (a)
π (µ | λ, y) ∝ n yi2 × a ,
(2π) 2
i=1
b
em que
n
a= −n
2
181

e " #
n 2
1 X (yi − µ)
b= .
2µ2 i=1 yi

(c) Para encontrar a densidade preditiva para uma observação futura Yn+1
dado y1 , y2 , ..., yn , notar que

Z
f (yn+1 | y) = f (yn+1 | θ) π (θ | y) dθ
θ
Z Z   12 ( "
2
#)
λ λ (yn+1 − µ)
= 3 exp − ×
µ λ 2πyn+1 2µ2 yn+1
  n2 Y n   ( n
"
2
#)
1 λ 1 λ X (yi − µ)
exp − 2 dµdλ
µλ 2π i=1
yi3 2µ i=1 yi
n    
Y 1 n+1
= Γ ×
i=1
yi3 2
( n
" #)− n+1
2 2 2
1 (yn+1 − µ) (yi − µ)
Z
1 X
+ dµ.
µ µ 2µ2 yn+1 i=1
yi

Capı́tulo 5
Exercı́cio 1
p
(a) Considere I (µ) ∝ n (uma constante).
p p n 1
(b) Considere I (σ 2 ) ∝ σ2 ∝ σ.

(c) Veja o Exemplo 5.8.

Exercı́cio 2
(a) A função de verossimilhança para α e β é dada por

!n1   !n2  
n1 n2
V1β V β X
V2β V β X
L (α, β) = exp − 1 t1j  exp − 2 t2j  .
α α j=1 α α j=1

1
(b) Considere π (α, β) ∝ α.

(c) A distribuição a posteriori conjunta para α e β é dada por


182

!n1  
n1
V1β β X
 
1 V
f (α, β | y) ∝ exp − 1 t1j  ×
α α α j=1
!n2  
n2
V2β V β X
exp − 2 t2j  .
α α j=1

(d) A distribuição a posteriori marginal para β é dada por


Z
f (β | y) = f (α, β | y) dα
α
= V1n1 β V2n2 β ×
 
Z n1
X n2
X
α−(n1 +n2 +1) exp n1 + n2 , V1β t1j + V2β t2j  dα.
α j=1 j=1

Capı́tulo 6
Exercı́cio 1
Seja y1 , ..., yn uma amostra aleatória com distribuição exponencial
1  y
f (y | θ) = exp − , y > 0.
θ θ
Suponha n = 30 e ȳ = 12, e seja uma priori de Jeffreys para θ dada por
1
π (θ) ∝ , θ > 0.
θ
(a) Vamos encontrar uma aproximação de Laplace para E (θ | y) e V ar (θ | y).
A esperança de θ dado y é dada por
R∞
θπ (θ) L (θ) dθ
E (θ | y) = R0 ∞ ,
0
π (θ) L (θ) dθ
em que  nȳ 
L (θ) = θ−n exp − .
θ
Logo, R ∞ −n
θ exp − nȳ

0 θ dθ
E (θ | y) = ∞ −(n+1)  .
exp − nȳ
R
0
θ θ dθ
Assumindo I, como uma expressão auxiliar tem-se, por Laplace,
Z ∞  
b
I= θ−a exp − dθ = exp [−nh (θ)] .
0 θ
183

Assim, √
2π h  i
I ≡ √ σ exp −nh θ̂ ,
n
em que
− 21 .
σ = [h00 (θ)]
As quantidades necessárias para a resolução da integral por Laplace são:
b
−nh (θ) = −a log (θ) − ,
θ
a b
−nh0 (θ) = − + 2 = 0,
θ θ
b
θ̂ = ,
a
a 2b a3
−nh00 (θ) = 2 − 3 = − 2 ,
θ θ b

nb
σ= 3
a2
e h  i aa
exp −nh θ̂ = a exp (−a) .
b
Retomando então a expressão para I, temos
√ 3
2πaa− 2 exp (−a)
I= .
ba−1
De acordo com a notação desta expressão para I, para o numerador da
expressão dada E (θ | y), temos a = n e b = nȳ, e para o denominador, temos
a = n + 1 e b = nȳ. Assim,
1 n(n)
3 (nȳ)n exp (−n) n(n− 2 ) ȳe
1
n2
E (θ | y) = = .
(n+1)(n+1)
(n + 1)( 2 )
1 n− 1
3
(nȳ)(n+1)
exp [− (n + 1)]
(n+1) 2

A variância de θ dado y é dada por


2
V ar (θ | y) = E θ2 | y − [E (θ | y)] .


Logo, o objetivo é encontrar a esperança de θ2 dado y, dada por


R∞ 2 R ∞ −(n−1)
exp − nȳ

2
 0
θ π (θ) L (θ) dθ 0
θ θ  dθ
E θ |y = ∞ = ∞ −(n+1) .
exp − nȳ
R R
0
π (θ) L (θ) dθ 0
θ θ dθ

A expressão √
2π h  i
I ≡ √ σ exp −nh θ̂ ,
n
184

pode ser usada neste caso, tal que, para o numerador temos a = n − 1 e b = nȳ,
e para o denominador, temos a = n + 1 e b = nȳ. Assim,

1 (n−1)(n−1)
3
(nȳ)(n−1)
exp [− (n − 1)]
(n−1) 2
E θ2 | y

=
1 (n+1)(n+1)
3
(nȳ)(n+1)
exp [− (n + 1)]
(n+1) 2

(nȳ) (n − 1)( 2 ) e2 (n + 1)( 2 ) .


2 n− 5 1
−n
=

Logo,
" #2
n(n− 2 ) ȳe
1

(nȳ) (n − 1)( 2 ) e2 (n + 1)( 2 ) −


2 n− 5 1
−n
V ar (θ | y) =
(n + 1)( 2 )
n− 1
h i
n2 (n − 1)( 2 ) (n + 1)( 2 ) − n2(n− 2 ) (n + 1) ( 2 ) .
2 n− 5 1
−n 1 2 1 −n
= (ȳe)

(b) Vamos encontrar uma aproximação de Laplace para a confiabilidade em


y = 10. Seja a confiabilidade em y = 10 dada por
 
10
g (θ) = exp − .
θ

Logo,
R∞
θ θ exp − nȳ
 −1 −n
exp − 10

0 R∞ θ θ dθ
E [g (θ) | y] =
θ−1 θ−n exp − nȳ


0
R ∞ −(n+1) nȳ+10

0R
θ exp − θ dθ
= ∞ −(n+1) nȳ
 .
0
θ exp − θ dθ

A expressão para I também pode ser usada neste caso, tal que, para o
numerador temos a = n + 1 e b = nȳ + 10, e para o denominador, temos
a = n + 1 e b = nȳ. Logo,
1
(nȳ + 10) (nȳ+10)(n+1)
−n n
E [g (θ) | y] = = (nȳ + 10) (nȳ) .
(nȳ) (nȳ)1(n+1)

(c) A seguir são exibidos os valores exatos para E (θ | y), V ar (θ | y) e a


confiabilidade em y = 10.

Exato Laplace
E (θ | y) 12, 0 12, 4
V ar (θ | y) 4, 8 5, 5
S (10) 0, 43 0, 44

(d) Considere a reparametrização φ = log (θ). A distribuição a priori de


Jeffreys para a reparametrização apresentada é dada por π (φ) ∝ constante.
185

Exercı́cio 2
(a) Seja y1 , ..., yn uma amostra aleatória com distribuição de Poisson, dada por
θy exp (−θ)
f (y | θ) = , y > 0.
y!
Vamos assumir uma priori de Jeffreys para θ e encontrar aproximações de
Laplace para E (θc | y), sendo n = 5 e ȳ = 10 para c = 1, 2, 3, 5 e 10. A priori
de Jeffreys para θ é dada por
1
π (θ) ∝ √ , θ > 0,
θ
e a esperança de θc dado y é dada por
R ∞ c − 1 nȳ
c θ θ 2 θ exp (−nθ) dθ
E (θ | y) = R0 ∞ − 1
0
θ 2 θnȳ exp (−nθ) dθ
R ∞ c− 1 +nȳ
θ 2 exp (−nθ) dθ
= R0∞ − 1 +nȳ .
0
θ 2 exp (−nθ) dθ
Seja
Z ∞ Z
a
I1 = θ exp (−nθ) dθ = exp [−nh (θ)] − nh (θ) = a log (θ) − nθ.
0

Notar que
a
−nh0 (θ) =
− n = 0,
θ
a
θ̂ = ,
n
e
a
−nh00 (θ) = − 2 .
θ
Para encontrarmos uma aproximação pelo método de Laplace, sejam as quan-
tidades Z √ 1
h  i
exp [−nh (θ)] dθ ≈ 2πn− 2 σ exp −nh θ̂ ,
h  i− 21
σ = h00 θ̂ ,

  an2 n2
−nh00 θ̂ = − 2
=−
a a
  n
h00 θ̂ = ,
a
e
h  i a
   a a  na 
exp −nh θ̂ = θ̂ exp −nθ̂ = exp −
n n
aa
= exp (−a) .
nn
186

Assim,

√ − 12
 n − 12 aa 2πn−1 a+ 1
I1 u 2πn exp (−a) u a 2 exp (−a) ,
a nn nn
ou seja, √
2π a+ 1
I1 u
a 2 exp (−a) .
nn+1
Assim, considerando a = c − 12 + nȳ no numerador e a = − 12 + nȳ no
denominador de E (θc | y), temos:
√ c− 12 +nȳ+ 12
2π 1
exp − c − 12 + nȳ
 
1 c− 2 + nȳ
c nn+ 2
E (θ | y) u √ nȳ− 12 + 12

nȳ − 12 exp − nȳ − 12
 
1
nn+ 2
nȳ+c
nȳ + c − 12 exp (−c)
u
1 nȳ

nȳ − 2
1
(b) Vamos considerar a reparametrização φ = θ 2 . Assim,
1
π (φ) ∝ 1 , θ > 0.
θ2
A transformação baseada nas expressões
1
φ = θ2,
1 1 −1
dφ = θ 2 dθ
2
e
dθ 2
= − 1 , com θ = φ2 ,
dφ θ 2
resulta em
1 dθ 1 2
π (φ) ∝ ∝ = constante.
φ dφ φ φ−1
Assim,
φ2c π (φ) L (φ) dφ
R
c 2c

E (θ | y) = E φ |y =
R
π (φ) L (φ) dφ
R 2 c 2 nȳ R θ 2 nȳ+c 
exp −nφ2 dφ

φ φ exp −nφ2 dφ 0
φ
= R nȳ = R∞ nȳ .
(φ2 ) exp (−nφ2 ) dφ 0
(φ2 ) exp (−nφ2 ) dφ

Como resultado, temos


Z Z
a 2

I2 = φ exp −nφ dφ = exp [−nh (φ)] ,

em que
−nh (φ) = a log (φ) − nφ2 .
187

Notar que
a
−nh0 (φ) = − 2nφ = 0.
φ
Da expressão
a
= 2nφ,
φ
temos que
2 a
φ̂ = .
2n
Em adição, temos
a a 2na
−nh00 (φ) = − − 2n = − a  − 2n = − − 2n = −4n,
φ2 2n
a
e  
h00 φ̂ = 4.

Assim,
h  i a
 2
  2  a2  2

exp −nh φ̂ = φ̂ exp −nφ̂ = φ̂ exp −nφ̂
 a  a2  a 
= exp −n
2n 2n
a
a2  a
= a exp − ,
(2n) 2 2

e
1 a
√ n− 2 a 2  a
I2 ≈ 2π √ a exp −
4 (2n) 2 2
√ a
2πa 2  a
≈ a 1 a exp − .
n 2 + 2 2 2 +1 2

Por fim, substitumos a = 2 (nȳ + c) no numerador de E (θc | y) e a = 2nȳ no


denominador de E (θc | y), para encontrarmos a aproximação de Laplace para
1
E (θc | y) na parametrização φ = θ 2 .

Capı́tulo 7
Exercı́cio 2
(b) Seja Yij uma variável aleatória que indica o investimento de uma firma,
sendo i = 1, . . . , 8; (firmas) e j = 1, 2, 3 (tempos). Sejam X1 , X2 e X3 as demais
variáveis regressoras apresentadas neste exercı́cio. O modelo é dado por

yij = αi + τj + γij + β0 + β1 x1ij + β2 x2ij + β3 x3ij + εij ,


188

em que εij são variáveis aleatórias independentes com média zero e variância σ 2
para i = 1, . . . , 8 e j = 1, 2, 3 (tempos). Vamos utilizar uma análise bayesiana
hierárquica em dois estágios. No primeiro estágio assumiremos as seguintes
distribuições a priori:

∼ N 0, σα2 , i = 1, . . . , 8,

αi
∼ N 0, στ2 , j = 1, 2, 3,

τj
∼ N 0, σγ2 , i = 1, . . . , 8, j = 1, 2, 3,

γij
∼ N 0; a20 ,

β0
∼ N 0; a21 ,

β1
∼ N 0; a22 ,

β2
∼ N 0; a23 e

β3
σ2 ∼ GI (b, d) ,

em que a0 , a1 , a2 , a3 , b e d são conhecidos e GI (b, d) denota uma distribuição


2
d
gama inversa (1.16) com média (b−1) e variância (b−1)d2 (b−2) , b > 2.
[ ]

Em um segundo estágio, vamos assumir:

σα2 ∼ IG (bα , dα ) ,
στ2 ∼ IG (bτ , dτ ) , e
σγ2 ∼ IG (bγ , dγ ) .


A função de verossimilhança para θ = αi , τj , γij , β0 , β1 , β2 , β3 , σ 2 , σα2 , στ2 , σγ2
é dada por:

3 Y
n
2
 
Y 1
L (θ) = √ exp − i 2
j=1 i=1 2πσ 2 2σ

em que i = yij − αi − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, 2, . . . , n,


(n = 8).
189

A distribuição a posteriori conjunta para θ é dada por


n 3
!
αi2 τj2
  Y
Y 1 1
π (θ | x, y) ∝ p exp − 2 × p exp − 2 ×
i=1
2πσα2 2σα j=1
2πστ2 2στ
3 Y n
γ2 β2
   
Y 1
q exp − i2 × exp − 02 ×
j=1 i=1 2πσγ2 2σγ 2a0

β12 β22 β32


     
× exp − 2 × exp − 2 × exp − 2 ×
2a1 2a 2a3
  2  
2
 −(b+1) d 2
 −(b α +1) dα
× σ exp − 2 × σα exp − 2 ×
σ σ
   α 
−(b +1) dτ −(b +1) dγ
× στ2 exp − 2 × σγ2
τ γ
 
exp − 2 ×
στ σγ
 
3 n
− 3n 1 XX 2 
× σ 2 2 exp − 2  ,
2σ j=1 i=1 ij

0
em que y = (y1 , . . . , yn ) , x denota o vetor das covariáveis e i é dado em (7.9).
As distribuições condicionais para as quantidades aleatórias são dadas a seguir:

 
3 X n 
α2
  2
1 X (α)
∝ exp − i2

(i) π αi | θ (αi ) exp − 2 αi − µij ,
2σα 2σ j=1 i=1

em que
(α)
µij = yij − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.

Desenvolvendo essas expressões, encontramos o núcleo de uma distribuição


normal, isto é,
 3

2
P (α)
σ
 α µij
 j=1 σα2 σ 2 
αi | θ (αi ) ∼ N  2 ; .

 σ + 3σα2 σ 2 + 3σα2 

!  
3 X n 
 τj2 1 X (τ )
 2
(ii) π τj | θ (τj ) ∝ exp − 2 exp − 2 τj − µij ,
2στ 2σ j=1 i=1

em que
(τ )
µij = yij − αi − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.
190

Desenvolvendo essas expressões encontramos o núcleo de uma distribuição


normal, ou seja,
 P n 
(τ )
στ2 µij 2 2
 i=1 στ σ 
τj | θ (τj ) ∼ N 
 σ 2 + nσ 2 ; σ 2 + nσ 2  .

τ τ

!  
2 3 X n 
 γij 1 X (γ)
2
(iii) π γij | θ (γij ) ∝ exp − 2 exp − 2 γij − µij ,
2σγ 2σ j=1 i=1

em que
(γ)
µij = yij − αi − τj − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n, j = 1, 2, 3.

Destas expressões, encontramos o núcleo de uma distribuição normal, isto é,


(γ)
" #
σγ2 µij σγ2 σ 2
γij | θ (γij ) ∼ N ; .
σ 2 + σγ2 σ 2 + σγ2

!  
3 X n 
β2 1 X (β )
2
∝ exp − 02

(iv) π β0 | θ (β0 ) exp − 2 β0 − µij 0  ,
2σβ0 2σ j=1 i=1

em que
(β )
µij 0 = yij − αi − τj − γij − β1 X1i − β2 X2i − β3 X3i , i = 1, . . . , n; j = 1, 2, 3

Destas expressões encontramos o núcleo de uma distribuição normal, isto é,


 3 P
n

2
P (β0 )
a
 0 µij
 j=1 i=1 a20 σ 2 
β0 | θ (β0 ) ∼ N  ; .

 σ 2 + 3na20 σ 2 + 3na20 

" n
#
β2
  2
1 X (l)
∝ exp − l2

(v) π βl | θ (βl ) exp − 2 βl xlij − µij ,
2al 2σ i=1

em que
3
(l)
X
µij = yij − αi − τj − γij − βj xji , i = 1, . . . , n, j = 1, 2, 3.
j=1;j6=l
191

θ (βl ) denota o vetor de todos os parâmetros exceto βl . Assim,


 3 P n

2
P (l)
 la x µ
li i
j=1 i=1 a2l σ 2 
βl | θ (βl ) ∼ N  ; ,
 
3 P n 3 P n
2 2 2 2
 2 P 2
P 
σ + al xlij σ + al xlij
j=1 i=1 j=1 i=1

para l = 1, 2, 3.
" n
!#
2
 2 −(b+ 2 +1)
 3n 1 1X 2
(vi) π σ | θ (σ2 ) ∝ σ exp − 2 d+  ,
σ 2 i=1 i

que define o núcleo de uma distribuição gama inversa, isto é,


" n
#
3n 1 X
σ 2 | θ (σ2 ) ∼ GI b + ;d + 2 ,
2 2 i=1 i
em que
i = yij − αi − τj − γij − β0 − β1 X1i − β2 X2i − β3 X3i , i = 1, 2, . . . , n, (n = 8) .

" n
!#
−(bα + n2 +1) 1 1X 2
σα2 σα2

(vii) π | θ (σα2 ) ∝ exp − 2 dα + α ,
σα 2 i=1 i

que define o núcleo de uma distribuição gama inversa, isto é,


" n
#
2 n 1X 2
σα | θ (σα2 ) ∼ GI bα + ; dα + α .
2 2 i=1 i

  
3
2 −(bτ + 2 +1)
3 1  1X
(viii) π στ2 | θ (στ2 ) ∝ στ τj2  ,
 
exp − dτ +
στ2 2 j=1

que define o núcleo de uma distribuição gama inversa, isto é,


" n
#
2 3 1X 2
στ | θ (στ2 ) ∼ GI bτ + ; dτ + τ .
2 2 i=1 j

  
3 n
 
2 −(bγ + 2 +1)
3n 1  1 XX
(ix) π σγ2 | θ (σ2 ) ∝ σγ

exp − dγ + γij  ,
γ σγ2 2 j=1 i=1

que define o núcleo de uma distribuição gama inversa, isto é,


 
3 X n
3n 1 X
σγ2 | θ (σ2 ) ∼ GI bγ + ; dγ + γij  .
γ 2 2 j=1 i=1

Você também pode gostar