Inferencia Estatistica

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 16

Fundação Getúlio Vargas

Inferência Estatı́stica Abstract of statistical inference


Wellington Silva Last Update: August 01, 2022

Resumo de Inferência Estatı́stica

Content
Aula 0: Revisão de Probabilidade
Aula 1: O que é e para que serve Inferência Estatı́stica?
Aula 2: Distribuição a priori e a posteriori
Aula 3: Prioris conjugadas e função de perda
Aula 4: Estimadores de Bayes e EMV
Aula 5: EMV
Aula 6: Método dos momentos e suficiência
Aula 7: Suficiência conjunta e mı́nima, teorema de Rao-Blackwell
Aula 8: Admissibilidade e viés
Aula 9: Eficiência
Aula 10: Distribuição de uma estatı́stica amostral e qui-quadrado
Aula 11: Distribuição da média e variância amostrais
Aula 12: Distribuição t de Student e intervalos de confiança
Aula 13: Intervalos de confiança e Quantidades Pivotais
Aula 14: Testes de hipótese I
Aula 15: Testes de hipótese II
Aula 16: Testes de hipótese III
Aula 17: Testes e conjuntos de confiança
Aula 18: Teste t I
Aula 19: Teste t II
Aula 20: Teste f
Aula 21: Regressão Linear I
Aula 22: Regressão Linear II

1
Aula 0: Revisão de Probabilidade
Teorema 1 (Desigualdade de Marvok) Seja X uma variável aleatória não-negativa e t > 0. Então

E[X n ]
P (X ≥ t) ≤ . (1)
tn
Teorema 2 (Desigualdade de Chebychev) Seja uma variável aleatória com média E[Y ] := µ e variância
V ar(Y ) := σ 2 , ambas finitas. Mas uma vez, t > 0. Então

V ar(Y )
P (|Y − µ| ≥ t) ≤ . (2)
t2
Teorema 3 (Média e variância em uma amostra i.i.d.) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d.,
com média µ e variância σ 2 . Temos que

(i) E[X̄n ] = µ
σ2
(ii) V ar(X̄n ) = n

Definição 1 (Convergência em probabilidade) Dizemos que uma sequência de variáveis aleatórias con-
verge em probabilidade para b se, ∀ε > 0, temos

lim P (|Zn − b| < ε) = 1


n→∞
p
Neste caso, escrevemos Zn −
→ b.

Teorema 4 (Lei Fraca dos Grandes Números) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d., com
média µ e variância σ 2 . Então
p
X̄n −
→µ

Definição 2 (Convergência quase certa) Dizemos que uma sequência de variáveis aleatórias (Zn )n≤1
converge quase certamente para b se

P ( lim Zn = b) = 1
n→∞

Teorema 5 (Lei Forte dos Grandes Números) Sejam X1 , X2 , . . . , Xn variáveis aleatórias i.i.d., com
média µ. Então

P ( lim X̄n = µ) = 1
n→∞

Teorema 6 (Teorema Central do Limite (Lindenberg e Lévy)) Sejam X1 , X2 , . . . , Xn variáveis aleatórias


i.i.d., com média µ e variância σ 2 . Então, para cada x, temos
 
X̄n − µ
lim P √ ≤ x = Φ(x),
n→∞ σ/ n
onde,
Z x  2
1 t
Φ(x) := √ exp − dt
2π 0 2
é a função de distribuição (cumulativa) normal padrão.

2
Aula 1: O que é e para que serve Inferência Estatı́stica?
Definição 3 (Modelo estatı́stico: informal) Um modelo estatı́stico consiste na identificação de variáveis
aleatórias de interesse (observáveis e potencialmente observáveis), na especificação de uma distribuição con-
junta para as variáveis aleatórias observáveis e na identificação dos parâmetros (θ) desta distribuição con-
junta. Às vezes é conveniente assumir que os parâmetros são variáveis aleatórias também, mas para isso é
preciso especificar uma distribuição conjunta para θ.

Definição 4 (Modelo estatı́stico: formal) Seja X um espaço amostral qualquer, Θ um conjunto não-
vazio arbitrário e P(X ) o conjunto de todas as distribuições de probabilidade em X . Um modelo estatı́stico
paramétrico é uma função P : Θ → P(X ) que associa a cada θ ∈ Θ uma distribuição de probabilidade Pθ
em X .

Definição 5 (Afirmação probabilı́stica) Dizemos que uma afirmação é probabilı́stica quando ela uti-
liza conceitos da teoria de probabilidade para falar de um objeto.

Definição 6 (Inferência Estatı́stica) Uma inferência estatı́stica é uma afirmação probabilı́stica


sobre uma ou mais partes de um modelo estatı́stico.

Definição 7 (Estatı́stica) Suponha que temos uma coleção de variáveis aleatórias X1 , X2 , . . . , Xn ⊆ Rn


e uma função r : X → Rm . Dizemos que a variável aleatória T = r(X1 , X2 , . . . , Xn ) é uma estatı́stica.

Definição 8 (Permutabilidade) Uma coleção finita de variáveis aleatórias X1 , X2 , . . . , Xn com densidade


conjunta f é dita permutável se

f (x1 , x2 , . . . , xn ) = f (xπ(1) , xπ(2) , . . . , xπ(n) ) (3)


para qualquer permutação π = {π(1), π(2), . . . , π(n)} dos seus elementos. Uma coleção finita é permutável
se qualquer subconjunto finito é permutável.

Aula 2: Distribuição a priori e a posteriori


Definição 9 (Distribuição a priori) Se tratamos o parâmetro θ como uma variável aleatória, então a
distribuição a priori é a distribuição que damos a θ antes de observarmos as outras variáveis aleatórias
de interesse. Vamos denotar a função de densidade/massa de probabilidade da priori por ξ(θ).

Definição 10 (Distribuição a posteriori) Considere o problema estatı́stico com parâmetros θ e variáveis


aleatórias observáveis X1 , X2 , . . . , Xn . A distribuição condicional de θ dados os valores observados das
variáveis aleatórias, x := {x1 , x2 , . . . , xn } é a distribuição a posteriori de θ, denotamos por ξ(θ | x) a
f.d.p./f.m.p. condicional a X1 = x1 , X2 = x2 , . . . , Xn = xn .

Teorema 7 (Distribuição a posteriori: derivação) Considere a amostra aleatória X1 , X2 , . . . , Xn de


uma distribuição com f.d.p./f.m.p. f (x | θ). Se a distribuição a priori é ξ(θ), temos

ξ(θ)Πni=1 f (xi | θ)
ξ(θ | x) = , θ∈Ω (4)
gn (x)
Chamamos gn (x) de distribuição marginal de X1 , X2 , . . . , Xn .

Definição 11 (Função de verossimilhança) Quando encaramos a f.d.p./f.m.p. f (x1 , x2 , . . . , xn | θ)


como uma função do parâmetro θ, chamamos esta função de função de verossimilhança, e podemos
denotá-la como L(θ; x) ou, quando a notação não criar ambiguidade, simplesmente L(θ).

3
Aula 3: Prioris conjugadas e função de perda
Definição 12 (Hiper-parâmetros) Seja ξ(θ | φ) a distribuição a priori para o parâmetro θ, indexada por
φ ∈ Φ. Dizemos que φ é(são) o(s) hiper-parâmetro(s) da priori de θ.

Definição 13 (Priori conjugada) Suponha que X1 , X2 , . . . sejam condicionalmente independentes dado


θ, com f.d.p./f.m.p. f (x | θ). Defina
 Z 
Ψ = f : Ω → (0, ∞), f dx = 1 (5)

onde Ω é o espaço de parâmetros. Dizemos que Ψ é uma famı́lia de distribuições conjugadas para
f (x | θ) se ∀f ∈ Ψ e toda realização x de X = X1 , X2 , . . . , Xn

f (x | θ)f (θ)
R ∈Ψ (6)

f (x | θ)f (θ)dθ

Teorema 8 (Distribuição a posteriori da média de uma normal) Suponha que X1 , X2 , . . . , Xn for-


mam uma amostra aleatória com distribuição normal e com média desconhecida θ e variância σ 2 > 0,
conhecida e fixa. Suponha que θ ∼ N ormal(µ0 , v02 ) a priori. Então

(θ − µ1 )2
 
2 1
ξ(θ | x, σ ) = √ exp , (7)
2πσ 2 2v12
onde

σ 2 µ0 + nv02 xn σ2 v2
µ1 := 2 2 e v12 := 2 0 2 (8)
σ + nv0 σ + nv0
R
Definição 14 (Priori imprópria) Seja ξ : Λ → (0, ∞), Ω ⊆ Λ, uma função tal que Ω ξ(θ)dθ = ∞. Se
utilizamos ξ como uma p.d.f. 1 para θ, dizemos que ξ é uma priori imprópria para θ.

Definição 15 (Estimador) Sejam X1 , X2 , . . . , Xn variáveis aleatórias com distribuição conjunta indexada


por θ. Um estimador de θ é qualquer função real δ: X1 , X2 , . . . , Xn → Rd , d ≥ 1.

Definição 16 (Estimativa) Dizemos que o valor de δ avaliado nas realizações de X1 , X2 , . . . , Xn , x =


{x1 , x2 , . . . , xn }, δ(x)} é uma estimativa de θ.

Definição 17 (Função de perda) Uma função de perda é uma função real em duas variáveis

L : Ω × Rd → R, (9)

em que dizemos que o estatı́stico perde L(θ, a) se o parâmetro vale θ e a estimativa dada vale a.

Famı́lias Conjugadas
Se X1 , . . . , Xn são iid
Pne seguem a distribuição
Pn da coluna “Dados” na tabela 1.
Notações: x̄n = n1 i=1 xi ; y = i=1 xi
1 p.d.f. - “probability density function” ou função de densidade de probabilidade

4
Dados Priori Posteriori
Bernoulli(θ) Beta(α, β) Beta(α + y, β + n − y)
Poisson(θ) Gama(α, β) Gama(α
 2 + y,2 β + n)2 2 
σ µ0 +nv0 x̄n σ v0
Normal(µ, σ 2 ) Normal(µ0 , v02 ) Normal σ 2 +nv 2
, σ2 +nv 2
0 0
Exp(θ) Gama(α, β) Gama(α + n, β + y)

Table 1: Famı́lias Conjugadas

Aula 4: Estimadores de Bayes e EMV


Definição 18 (Estimador de Bayes) Considere a perda esperada a posteriori:
Z
Eθ|x [L(θ, a)] = E[L(θ, a) | x] = L(θ, a)ξ(θ | x)dθ (10)

Dizemos que δ ∗ é um estimador de Bayes se, para toda realização X = x,

E[L(θ, δ ∗ (x)) | x] = min E[L(θ, a) | x]. (11)


a∈A

Em outras palavras, um estimador de Bayes é uma função real dos dados que minimiza a perda esperada
com respeito à posteriori dos parâmetros.

Teorema 9 (δ ∗ sob perda quadrática) Seja θ um parâmetro tomando valores reais. Sob perda quadrática,
Z
δ ∗ (x) = E[θ | X = x] = θξ(θ | x)dθ (12)


Teorema 10 (δ sob perda absoluta) Suponha que a função de perda é dada por

L(θ, δ ∗ ) = |θ − δ ∗ |. (13)
Dizemos que a função de perda é absoluta. Seja θ um parâmetro tomando valores na reta. Sob perda
absoluta, δ ∗ (x) é a mediana a posteriori, isto é,
Z δ ∗ (x)
1
ξ(θ | x)dθ = (14)
∞ 2

Definição 19 (Estimador consistente) Seja δ1 , δ2 , . . . , δn uma sequência de estimadores de θ. Se quando


n → ∞ a sequência convergente para θ, dizemos que esta é uma sequência consistente de estimadores.

Definição 20 (Estimador de máxima verossimilhança) Para cada possı́vel vetor (de observações) x,
seja δ(x) ∈ Ω um valor de θ ∈ Ω de modo que a função de verossimilhança, L(θ) ∝ f (x | θ) 2 , atinge
o máximo. Dizemos que θ̂ = δ(X) é o estimador de máximo verossimilhança de θ (Fisher, 1922)3 .
Quando observamos X = x, dizemos que δ(x) é uma estimativa de θ. Dito de outra forma:

max f (X | θ) = f (X | θ̂). (15)


θ∈Ω
2∝ - é um operador matemático binário que indica que o valor esquerdo é proporcional ao valor direito.
3 Ronald Aylmer Fisher (1890-1962), biólogo e estatı́stico inglês.

5
Aula 5: EMV
Teorema 11 (Invariância do EMV) Considere uma função φ : Ω → R. Se θ̂ é um EMV para θ, então
φ(θ̂) é um EMV para ω = φ(θ).

Teorema 12 (Consistência do EMV) Defina l(θ) := log fn (x |R θ) e assuma que X1 , . . . , Xn ∼ f (θ0 ),


isto é, que θ0 é o valor verdadeiro do parâmetro. Denote Eθ0 [g] := X g(x, θ0 )f (x | θ0 ) dx. Suponha que

• f (xi | θ) tem o mesmo suporte;


• θ0 é o ponto inferior de Ω;
• I(θ) é diferenciável;

• θ̂EM V é única solução de I 0 (θ) = 0.

Então

θ̂EM V → θ

Aula 6: Método dos momentos e suficiência


Definição 21 (Método dos momentos) Suponha que X1 , . . . , Xn formam uma sequência aleatória com
distribuição conjunta fn (X1 , . . . , Xn | θ), θ ∈ Ω ⊆ Rk e que o k-ésimo momento existe. Defina µj (θ) =
E[X1j | θ] e suponha que µ : Ω → Rk é biunı́voca, de modo que sua inversa é

θ = M (µ1 (θ), . . . , µk (θ)).


1
Pn j
Dados os momentos amostrais mj := n i=1 Xi , j = 1, . . . , k o estimador de momentos (EMM) de θ é

θ̂EM M = M (m1 , . . . , mk ).

Teorema 13 (Consistência do EMM) Suponha que X1 , . . . , Xn formam uma amostra aleatória com dis-
tribuição conjunta fn (X1 , . . . , Xn | θ), θ ∈ Ω ⊆ Rk e que o k-ésimo momento existe. Suponha que a inversa
M existe e é continua. Então o EMM é consistente para θ.

Definição 22 (Estatı́stica suficiente) Seja X1 , . . . , Xn uma amostra aleatória de uma distribuição in-
dexada pelo parâmetro θ. Seja T = r(X1 , . . . , Xn ) uma estatı́stica. Dizemos que T é uma estatı́stica
suficiente para θ se e somente se

f (X1 , . . . , Xn | T = t, θ) = f (X1 , . . . , Xn | T = t, θ0 ), ∀θ, θ0 ∈ Ω, (16)


isto é, se a distribuição condicional da amostra dado o valor da estatı́stica não depende de θ.

Definição 23 (Aleatorização auxiliar) Suponha que T é suficiente para θ. O processo de simular X10 , . . . , Xn0
dado que T = r(X1 , . . . , Xn ) de modo que

f (X1 , . . . , Xn | θ) = f (X10 , . . . , Xn0 | θ), ∀θ ∈ Ω, (17)


é chamado de aleatorização auxiliar (em inglês, auxiliary randomisation).

Teorema 14 (Teorema de fatorização) Suponha que X1 , . . . , Xn perfazem uma amostra aleatória com
f.d.p./f.m.p. f (x | θ), θ ∈ Ω. Uma estatı́stica T = r(X1 , . . . , Xn ) é suficiente para θ se, e somente se, para
todo x ∈ X e θ ∈ Ω existem u e v não negativos tal que

fn (x | θ) = u(x)v[r(x), θ]. (18)

6
Definição 24 (Suficiência conjunta) Dizemos que um conjunto de estatı́sticas T = {T1 , . . . , Tn } é sufi-
ciente (conjuntamente) se que a distribuição condicional conjunta de X1 , . . . , Xn dado T1 = t1 , . . . , Tn = tn
não dependentes de θ.

Aula 7: Suficiência conjunta e mı́nima, teorema de Rao-Blackwell


Definição 25 (Estatı́sticas de ordem) Seja X = X1 , . . . , Xn uma amostra aleatória. Dizemos que Y1 , . . . , Yn
são estatı́sticas de ordem se Y1 é o menor valor de X, Y2 é o segundo menor valor e assim sucessivamente.
Teorema 15 (Estatı́sticas de ordem são suficientes conjuntas) Seja X1 , . . . , Xn uma amostra aleatória
com f.d.p./f.m.p. f (x | θ). As estatı́sticas de ordem Y1 , . . . , Yn são suficientes conjuntas para θ.
Definição 26 (Suficiência mı́nima) Uma estatı́stica T é dita mı́nima suficiente se T é suficiente e é
função de qualquer outra estatı́stica suficiente. Um vetor T = {T1 , . . . , Tn } é dito minimamente suficiente
conjunto se é função de qualquer outro valor de estatı́sticas suficientes conjuntas.
Teorema 16 (EMV e Bayes são suficientes) Se a função de verossimilhança admite fatorização pelo
Teorema 14, os estimadores de Bayes e de máxima verossimilhança são estatı́sticas minimamente suficientes.
Definição 27 (Notação conveniente) É conveniente definir que para g : X n → R, escrevemos
Z Z Z
Eθ [g] = ··· g(x)fn (x | θ)dx1 · · · dxn = g(x)fn (x | θ)dx (19)
X X X

Definição 28 (Erro quadrático médio)


R(θ, δ) := Eθ {δ(X) − θ}2 .
 
(20)
Definição 29 (Estimador condicionado)
δ0 (T) := Eθ [δ(X) | T] . (21)
Teorema 17 (Teorema de Rao-Blackwell) Seja δ(X) um estimador, T uma estatı́stica suficiente para
θ e seja δ0 (T) como na Definição 29. Então vale que

R(θ, δ0 ) ≤ R(θ, δ)
Além disso, se R(θ, δ) < ∞ e δ(X) não é função de T, vale a desigualdade estrita:

R(θ, δ0 ) < R(θ, δ)

Aula 8: Admissibilidade e viés


Definição 30 (Admissibilidade) Um estimador δ é dito inadmissı́vel se existe outro estimador δ0 tal
que R(θ, δ0 ) ≤ R(θ, δ), ∀θ ∈ Ω e existe θ0 ∈ Ω tal que R(θ0 , δ0 ) < R(θ0 , δ). Nesse caso, dizemos que δ0 domina
δ. O estimador δ0 é admissı́vel se (e somente se) não há nenhum estimador que o domine.
Definição 31 (Estimador não-viesado) Um estimador δ(X) de uma função g(θ) é dito não-viesado se
Eθ [δ(X)] = g(θ), ∀θ ∈ Ω. Um estimador que não atende a essa condição é dito viesado. E o vı́es de δ é
definido como Bδ (θ) := Eθ [δ(X)] − g(θ).
Teorema 18 (Estimador não-viesado da variância) Seja X = {X1 , . . . , Xn } uma amostra aleatória,
com E[X1 ] = m e V ar(X1 ) = v < ∞. Então
n
1 X
δ1 (X) = (Xi − X n )2
n − 1 i=1
é um estimador não-viesado de v.

7
Aula 9: Eficiência
Definição 32 (Informação de Fisher) Seja X uma variável aleatória com f.d.p./f.m.p. f (x | θ), θ ∈
Ω ⊆ R. Suponha que f (x | θ) é duas vezes diferenciável com respeito a θ. Defina λ(x | θ) = log f (x | θ) e

∂λ(x | θ) ∂ 2 λ(x | θ)
λ0 (x | θ) = e λ00 (x | θ) = (22)
∂θ ∂θ2
Definimos a informação de Fisher como
 (1)
I(θ) = Eθ {λ0 (x | θ)}2 = −Eθ [λ00 (x | θ)] = V arθ (λ0 (x | θ)) .

(23)

Teorema 19 (Informação de Fisher em uma amostra aleatória) Seja X = {X1 , . . . , Xn } uma amostra
aleatória e seja In = Eθ [−λ00n (X | θ)] a informação de Fisher da amostra. Então

In (θ) = nI(θ)

Teorema 20 (Teorema de Cramér-Rao) Seja X = {X1 , . . . , Xn } uma amostra aleatória, onde f.d.p./f.m.p.
tem as mesmas premissas da Definição 32. Supondo que T = r(X) é uma estatı́stica com variância finita.
Seja m(θ) = Eθ (T ) uma função diferenciável de θ. Então,

[m0 (θ)]2
V arθ (T ) ≥ , (24)
nI(θ)
com igualdade apenas se existem u e v tal que

T = u(θ)λ0n (X | θ) + v(θ).

Definição 33 (Estimador eficiente) Um estimador δ(X) é dito eficiente de (sua esperança) m(θ) se

[m0 (θ)]2
V arθ (δ) = .
nI(θ)

Aula 10: Distribuição de uma estatı́stica amostral e qui-quadrado


Definição 34 (Distribuição qui-quadrado) Dizemos que uma variável aleatória Y tem distribuição qui-
quadrado com m graus de liberdade quando
1
fY (y) = y m/2−1 e−y/2 , y > 0 (25)
2m/2 Γ(m/2)
Vemos que Y tem função geradora de momentos:
 m/2
1
ψ(t) = , t < 1/2.
1 − 2t

Teorema 21 (Soma de variáveis aleatórias qui-quadrado)


Pn Se X1 , . . . , Xn são variáveis aleatórias in-
dependentes com
Pngraus de liberdade mi , então W = X
i=1 i tem distribuição qui-quadrado com graus de
liberdade m = i=1 mi .

Teorema 22 (Distribuição do quadrado de uma variável aleatória Normal padrão) Se

X ∼ N ormal(0, 1), Y = X 2
então, tem distribuição qui-quadrado com m = 1.

8
Aula 11: Distribuição da média e variância amostrais
Teorema 23 (Independência da média e variância amostrais na Normal) Seja X1 , . . . , Xn uma amostra
2
aleatória de uma distribuição Normal com parâmetros µ e σ 2 , X n e a variância amostral S n , são indepen-
2
dentes. Ademais, X n ∼ N ormal µ, σ 2 e S n ∼ Gama n−1 n
 
2 , 2n2

Aula 12: Distribuição t de Student e intervalos de confiança


Definição 35 (A distribuição t de Student) Tome, Y ∼ Qui − quadrado(m) e Z ∼ Normal(0, 1) e de-
fina a variável aleatória
Z
X=q .
Y
m

Dizemos que X tem distribuição t de Student com m graus de liberdade. E sabemos que
− m+1
Γ( m+1 x2

2 )
2

fX =√ 1+ , x ∈ (−∞, +∞).
mπΓ( m2) m

Teorema 24 (Distribuição amostral do estimador não-viesado da variância) Considere o estimador


r
0 ∆2
σ̂ = ,
n−1
Pn
onde ∆2 = i=1 (Xi − X n )2 . Então, vale que

n(X n − µ)
∼ Student(n − 1)
σ̂ 0
Teorema 25 (Intervalo de confiança) Seja X = {X1 , . . . , Xn } uma amostra aleatória, onde cada uma
tem p.d.f. f (x | θ), e considere uma função real g(θ). Sejam A(X) e B(X) duas estatı́sticas de modo de
valha

P (A(X) < g(θ) < B(X)) ≥ γ. (26)


Dizemos que I(X) = (A(X, B(X)) é um intervalo de confiança de 100γ% para g(θ). Se a desigualdade
for uma igualdade para todo θ ∈ Ω, dizemos que o intervalo é exato.

Aula 13: Intervalos de confiança e Quantidades Pivotais


Definição 36 (Intervalo de confiança unilateral) Seja X = {X1 . . . . , Xn } uma amostra aleatória, onde
cada uma tem p.d.f. f (x | θ), e considere uma função real g(θ). Seja A(X) uma estatı́stica que

P (A(X) < g(θ)) ≥ γ, ∀θ ∈ Ω


dizemos que o intervalo aleatório (A(X), ∞) é chamado de intervalo de confiança unilateral de 100γ% para
g(θ) (ou ainda, de intervalo de confiança inferior de 100γ% para g(θ)). O intervalo (−∞, B(X)), com

P (g(θ) < B(X)) ≥ γ, ∀θ ∈ Ω


é definido de forma análoga, e é chamado de intervalo de confiança superior de 100γ% para g(θ). Se a
desigualdade é uma igualdade para todo θ ∈ Ω, os intervalos são chamados exatos.

9
Definição 37 (Quantidade pivotal) Seja X = {X1 , . . . , Xn } uma amostra aleatória com p.d.f. f (x | θ).
Seja V (X, θ) uma variável aleatória cuja distribuição é a mesma para todo θ ∈ Ω. Dizemos que V (X, θ) é
uma quantidade pivotal.

Teorema 26 (Intervalo de confiança unilateral) Seja X = {X1 , . . . , Xn } uma amostra aleatória com
p.d.f. f (x | θ). Suponha que existe uma quantidade pivotal V, com c.d.f. 4 continua G. Assuma que existe
r(v, x) estritamente crescente em v para todo x. Finalmente, tome 0 < γ < 1 e γ1 < γ2 de modo que
γ2 − γ1 = γ. Então as estatı́sticas

A(X) = r(G−1 (γ1 ), X),

B(X) = r(G−1 (γ2 ), X),


são os limites de um intervalo de confiança de 100γ% para g(θ).

Aula 14: Testes de hipótese I


Definição 38 (Hipótese nula e hipótese alternativa) Considere o espaço de parâmetros Ω e defina
Ω0 , Ω1 ⊂ Ω de modo que Ω0 ∪ Ω1 = Ω e Ω0 ∩ Ω1 = ∅. Definimos

H0 := θ ∈ Ω0 ,
H1 := θ ∈ Ω1 ,
E dizemos que H0 é a hipótese nula e H1 é a hipótese alternativa. Se θ ∈ Ω1 , então dizemos que
rejeitamos a hipótese nula. Por outro lado, se θ ∈ Ω0 , então dizemos que não rejeitamos ou falhamos em
rejeitar H0 .

Definição 39 (Hipótese simples e hipótese composta) Dizemos que uma hipótese Hi , é simples, se
Ωi = {θi }, isto é, se a partição correspondente é um único ponto. Uma hipótese é dita composta se não é
simples.

Definição 40 (Hipótese unilateral e hipótese bilateral) Uma hipótese da forma H0 : θ ≤ θ0 ou H0 :


θ ≥ θ0 é dita unilateral (“one-sided”), enquanto hipóteses da forma H0 : θ 6= θ0 são ditas bilaterais
(“two-sided”).

Aula 15: Testes de hipótese II


Definição 41 (Região crı́tica) O conjunto

S1 := {x : |X n − µ0 | ≥ c}
é chamado de região crı́tica do teste.

Definição 42 (Região de rejeição) Se R ⊆ R é tal que “rejeitamos H0 se T ∈ R”, então R é chamada


uma região de rejeição para a estatı́stica T e o teste associado.

Definição 43 (Função poder) Seja δ um procedimento de aceitação/rejeição como visto anteriormente.


A função poder é definida como

π(θ | δ) := P (X ∈ S1 | θ) = P (T ∈ R | θ), θ ∈ Ω (27)


4 c.d.f. - cumulative distribution function

10
Definição 44 (Tipos de erros) Tipos de erros que podem ser cometidos

Nome Erro cometido


Erro tipo I Rejeitar H0 quando ela é verdadeira.
Erro tipo II Falhar em rejeitar H0 quando ela é falsa.

Definição 45 (Tamanho/nı́vel de um teste) Dizemos que um teste, δ, tem tamanho ou nı́vel de sig-
nificância α(δ), com

α(δ) := supθ∈Ω0 π(θ | δ).

Aula 16: Testes de hipótese III


Definição 46 (O p-valor) Para cada t, seja δt o teste que rejeita H0 se T ≥ t. Então, quando T = t, o
p-valor vale

p(t) := sup π(θ | δt ) = sup P (T ≥ t | θ) (28)


θ∈Ω0 θ∈Ω0

ou seja, o p-valor é o tamanho do teste δt .

Aula 17: Testes e conjuntos de confiança


Definição 47 (Intervalos de confiança e testes são equivalentes) Suponha que dispomos de dados X =
{X1 , . . . , Xn } com f.d.p. comum f (x | θ), e estamos interessados em testar as hipóteses:

H0 : g(θ) = g0 ,
H1 : g(θ) 6= g0 ,
de modo que existe um teste δg0 com nı́vel α0 destas hipóteses. Para cada X = x, defina

w(x) = {g0 : δg0 não rejeita H0 dado que X = x} .


Fazendo o nı́vel de confiança do intervalo γ = 1 − α0 , temos

P (g(θ0 ) ∈ w(X) | θ = θ0 ) ≥ γ, ∀θ0 ∈ Ω.

Definição 48 (Conjunto de confiança) Se um conjunto aleatório w(X) satisfaz

P (g(θ0 ) ∈ w(X) | θ = θ0 ) ≥ γ,
para todo θ0 ∈ Ω, então chamamos w(X) de um conjunto de confiança para g(θ).

Teorema 27 (Testando hipóteses a partir de conjuntos de confiança) Suponha que dispomos de da-
dos X = {X1 , . . . .Xn } com f.d.p. comum f (x | θ) e que w(X) é um conjunto de confiança para uma função
de interesse g(θ). Então para todo valor g0 assumido por g(θ) existe um teste δg0 , de nı́vel α0 que rejeita
H0 : g(θ) = g0 se e somente se g(θ0 ) = g0 ∈/ w(X).

Teorema 28 (Teste de razão de verossimilhanças (para o Teo. de Wilks)) A estatı́stica


supθ∈Ω0 fn (x|θ)
∧(x) =
supθ∈Ωfn (x|θ)
é chamada um estatı́stica de razão de verossimilhanças. Um teste de razão de verossimilhanças,
δk , é um teste que rejeita H0 se ∧(x) ≤ k para uma constante k.

11
Teorema 29 (Teorema de Wilks) Suponha que temos um espaço de parâmetros com k coordenadas, θ =
(θ1 , . . . , θn ) e desejamos testar a hipótese (simples) da forma

H0 : θj = θ0j , j = 1, . . . , k,
H1 : θj 6= θ0j , j = 1, . . . , k.
Então, sob condições de regularidade, temos que, à medida que n → ∞,
d
−2 log ∧(x) → X 2 (k)

Aula 18: Teste t I


Definição 49 (Teste não viesado) Suponha que desejamos testar a hipótese

H0 : θ ∈ Ω 0 ,
H1 : θ ∈ Ω 1 ,
através do teste δ. Dizemos que δ é não-viesado se (e somente se) para θ ∈ Ω0 e θ0 ∈ Ω1 , vale

π(θ | δ) ≤ π(θ0 | δ),


ou seja, se a função poder é pelo menos tão grande no espaço onde H0 é falsa (Ω1 ) quando no espaço em
que H0 é verdadeira (Ω0 ).

Definição 50 (Teste t) Um teste δc que rejeita H0 se U ≥ c (equiv. U ≤ c), com c = T −1 (1 − α0 ; n − 1)


é chamado de um teste t (unicaudal) de tamanho α0 .

Teorema 30 (Propriedades do teste t) Suponha que δc rejeita H0 se U ≥ c. Então

• µ = µ0 =⇒ π(µ, σ 2 | δc ) = α0

• µ < µ0 =⇒ π(µ, σ 2 | δc ) < α0


• µ > µ0 =⇒ π(µ, σ 2 | δc ) > α0
• limµ→−∞ π(µ, σ 2 | δc ) = 0
• limµ→+∞ π(µ, σ 2 | δc ) = 1

• δc é não-viesado e tem tamanho α0 .

Teorema 31 (P-valor para um teste t unicaudal) Suponha que observarmos U = u e seja T (·.n − 1)
a f.d.a. de uma distribuição t de Student com n - 1 graus de liberdade. Para a hipótese

H0 : µ ≥ µ0 ,
H1 : µ < µ0 ,
o p-valor vale T (u; n − 1), enquanto para a hipótese

H0 : µ ≤ µ0 ,
H1 : µ > µ0 ,
o p-valor vale 1 − T (u; n − 1).

12
Aula 19: Teste t II
Teorema 32 (Teste pareado) Sejam amostras X e Y (antes e depois), tais que Xi ∼ Normal(µ1 , σ 2 ) e
Yi ∼ Normal(µ2 , σ 2 ), a hipótese

H0 : µ1 ≤ µ2
H1 : µ1 > µ2
Pode ser modelada com a variável Zi = Xi − Yi (Zi ∼ Normal(µZ = µ1 − µ2 , 2σ 2 )), então podemos testar
hipóteses sobre µZ a partir de Z

H0 : µZ ≤ 0
H1 : µZ > 0

Teorema 33 (Teste t para duas amostras) Considere X = {X1 , . . . , Xm } e Y = {Y1 , . . . , Yn }, quere-


mos estudar a diferença das médias. Modelando em distribuição normal Xi ∼ Normal(µ1 , σ12 ), i = 1, . . . , m
e Yj ∼ Normal(µ2 , σ22 ), j = 1, . . . , n. Sob a premissa de homogeneidade σ12 = σ22 = σ 2 , podemos testar a
hipótese

H0 : µ1 ≤ µ2
H1 : µ1 > µ2
computando a estatı́stica

m + n − 2(X m − Y n )
U= q
1
(m + n1 )(SX
2 + S2 )
Y

2 2
onde X m e X m são as médias e SX e SX são a soma das variâncias.

Teorema 34 (Relaxando a premissa de homogeneidade) Do teorema acima, podemos relaxar a pre-


missa de igualdade das variâncias assumindo que σ22 = kσ12 , então a estatı́stica teste vale

m + n − 2(X m − Y n )
U= q 2
1
(m 2 + SY )
+ nk )(SX n

Aula 20: Teste f


Definição 51 (A distribuição F) Sejam Y ∼ Qui − quadrado(m) e W ∼ Qui − quadrado(n). Então

Y /m
X= ,
W/n
tem distribuição F com m e n graus de liberdade, com f.d.p.

Γ( m+n
2 )m
m/2 n/2
n xm/2−1
fX (x) = n m · , x > 0,
Γ( 2 )Γ( 2 ) (mx + n)(m+n)/2

Teorema 35 (Propriedades da distribuição F) Propriedades para a distribuição F:


1
1. Se X ∼ F (m, n), então X ∼ F (m, n);
2. Se Y ∼ Student(n), então Y 2 ∼ F (1, n).

13
Teorema 36 (Igualdade de duas variâncias) Suponha Xi ∼ Normal(µ1 , σ12 ), i = 1, . . . , m e Yj ∼
Normal(µ2 , σ22 ), j = 1, . . . , n. Queremos testar

H0 : σ12 ≤ σ22
H1 : σ12 > σ22
Para isso, vamos computar a estatı́stica de teste
2
SX /(m − 1)
V = 2
SY /(n − 1)
2
Pm Pm
onde SX = i=1 (Xi − X m )2 e SY2 = j=1 (Yj − Y m )2

Definição 52 (O teste F) O teste F de homogeneidade (igualdade de variâncias) é o teste δc que rejeita


H0 de V ≥ c, para uma constante positiva c.
2
SX /(m−1)
Teorema 37 (A distribuição de V) Seja V = 2 /(n−1) ,
SY
então:

σ22
V ∼ F (m − 1, n − 1).
σ12
Além disso, se σ12 = σ22 , V ∼ F (m − 1, n − 1).

Aula 21: Regressão Linear I


Teorema 38 (A linha de mı́nimos quadrados) Sejam (x1 , y1 ), . . . , (xn , yn ) uma coleção de n pontos.
Suponha que estamos interessados na reta

yi = β0 + β1 xi . (29)
Os valores dos coeficientes que minimizam a soma de quadrados são

β̂0 = y − β̂1 x,
Pn
(y − y)(xi − x)
β̂1 = Pn i
i=1
2
.
i=1 (xi − x)

Definição 53 (Modelo linear) Podemos construir um modelo estatı́stico explı́cito para a relação entre as
variáveis X e Y:

E[Y | X = x1 , . . . , xP ] = β0 + β1 x1 + . . . + βP xP (30)
Podemos então idealizar o seguinte modelo
P
X
Yi = β0 βj xij + εi , ε ∼ Normal(0, σ 2 ).
j=1

14
Aula 22: Regressão Linear II
Teorema 39 (EMV para os coeficientes de uma regressão linear (simples)) Sob as premissas já lis-
tadas, os estimadores de máxima verossimilhança para θ = (β0 , β1 , σ 2 ) são

β̂0EM V = y − β̂1EM V x,
Pn
(y − y)(xi − x)
β̂1EM V Pn i
= i=1 2
,
i=1 (xi − x)
n 2
ˆ2
1 X
σ EM V = yi − (β̂0EM V + β̂1EM V xi ) ,
n i=1
ou seja, os estimadores de máxima verossimilhança dos coeficientes minimizam a soma de quadrados da reta
estimada.

Teorema 40 (Distribuição amostral dos estimadores dos coeficientes)

x2
  
1
β̂0EM V ∼ Normal β0 , σ 2 + 2 ,
n sX

σ2
 
β̂1EM V ∼ Normal β0 , 2 ,
sX
xσ 2
Cov(β̂0EM V , β̂1EM V ) = − ,
s2X
pPn
onde sx = i=1 (xi − x)2 .

Teorema 41 (Intervalos de confiança para os coeficientes de uma regressão linear) Podemos com-
putar intervalos de confiança para os coeficientes da regressão linear de maneira muito similar ao que já vimos
para o caso da média da Normal
s
1 x̄2 σ̂ 0
βˆ0 ± σ̂ 0 c + 2 e βˆ1 ± c ,
n sx sx
s
2
1 (xpred − x̄)
βˆ0 + βˆ1 xpred ± cσ̂ 0
+
n s2x
α0
onde c = T −1 (1 − 2 ;n − 2) e
v
uP  2
u n Y − ˆ
β − ˆ
β x
t i=1 i 0 1 i
σ̂ 0 := .
n−2

Definição 54 (Testes de hipóteses para o coeficiente angular) Em geral, estamos interessados em


testar a hipótese
H0 : β 1 = β ? ,
H1 : β1 6= β ? .
Para tanto, podemos computar a estatı́stica

βˆ1 − β ?
U1 = sx , (31)
σ̂ 0

15
e computar o p-valor como

P (U1 ≥ |u1 |) + P (U1 ≤ −|u1 |). (32)


Notando que U1 tem distribuição t de Student com n − 2 graus de liberdade sob H0 , podemos computar o
p-valor exatamente.
Resultados bem similares valem para testar hipóteses sobre β0 ou Ŷ .

Teorema 42 (Predição pontual) Suponha que queremos prever o valor de Y para um certo xpred que não
foi observado no experimento. Podemos compor nossa predição (pontual) como

Ŷ = β̂0 + β̂1 xpred . (33)


Onde a predição tem erro quadrático médio (EQM) igual a

(xpred − x)2
 
h i 1
E (Ŷ − Y )2 = σ 2 1 + + .
n s2X

Teorema 43 (Intervalos de predição para Ŷ ) A probabilidade de Ŷ = β̂0 + β̂1 xpred estar no intervalo
s
(xpred − x)2

−1 α0 0 1
Ŷ ± T (1 − ; n − 2)σ̂ 1+ + ,
2 n s2X
é 1 − α0 .

16

Você também pode gostar