Inferencia MAT194

Inferência Estatística
Profa. Andrea Prudente
UNIVERSIDADE FEDERAL DA BAHIA

INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA
2011.1
Sumário
Introdução
Distribuição Amostral
Estimação
Estimação por Intervalo
Teste de Hipóteses
Sumário
Introdução
Estimação
Teste de Hipóteses
É um conjunto de técnicas baseadas em probabilidade, que a

partir de dados amostrais nos permite tirar conclusões sobre a
população de interesse.
Objetivo
Fazer afirmações sobre características de uma população, com

base nos dados de uma amostra. Existem dois problemas bási-
cos nesse processo:
◮ Estimação;
◮ Teste de hipóteses.
A teoria da estimação visa identificar quais as estatísticas

indicadas para se fazer estimativas para alguns parâmetros
populacionais.
O teste de hipóteses visa decidir se determinada afirmação sobre

um parâmetro populacional é, ou não, apoiada pela evidência
obtida de dados amostrais.
Motivação
◮ Estimar o faturamento médio anual das empresas do setor

metal-mecânico situadas na Bahia no último ano.
◮ Estimar a proporção de empresas comerciais que

sonegaram o ICMS no último mês.
◮ Testar a hipótese da média do crescimento da renda

familiar em uma região ter sido diferente de zero.
◮ Testar a afirmação de um fabricante de lâmpadas que alega

que seus produtos duram, em média e no mínimo, 400
horas.
Alguns conceitos básicos
População é o conjunto de todos os indivíduos, objetos ou

informações que apresentam pelo menos uma
característica (observável) comum;
Amostra é qualquer subconjunto finito de elementos

extraídos da população;
Parâmetro é uma medida usada para descrever uma

característica da população;
Estatística é qualquer função da amostra que não depende de

parâmetros desconhecidos;
Alguns notações
Característica Parâmetro Estatística

(θ) (T)
Proporção p b
p
Média µ X̄ ou µ̂
Variância σ2 S2
Desvio padrão σ S
Mediana Md md
Número de elementos N n
As estatísticas, como funções de variáveis aleatórias, são tam-

bém variáveis aleatórias, e portanto, têm um modelo probabilís-
tico associado, ou seja, uma distribuição de probabilidade.
Sumário
Introdução
Estimação
Teste de Hipóteses
De uma mesma população pode-se extrair muitas amostras dife-

rentes do mesmo tamanho que originarão valores distintos para
a estatística considerada. Por este motivo, dizemos que as es-
tatísticas são variáveis aleatórias, já que seu valor não pode ser
predito com certeza antes da amostra ter sido extraída.
A distribuição de probabilidade de uma estatística quando con-

sideramos todas as amostras possíveis de tamanho n é denomi-
nada de distribuição amostral.
Distribuição Amostral da Média
Considere uma população em que a variável aleatória X assume

um dos valores do conjunto {1, 3, 5}. Vamos retirar todas as pos-
síveis amostras aleatórias simples de tamanho n dessa popula-
ção, e para cada uma calcular a média X̄.
Exemplo:
População: X = {1, 3, 5}
1+3+5
Parâmetros: µ= =3
3
3
1 X (1 − 3)2 + (3 − 3)2 + (5 − 3)2 8
σ2 = (Xi − µ)2 = = .
N 3 3
i=1

Retirando amostras de tamanho n = 2, com reposição, temos um
número total de amostras possíveis, k = 9.
k Amostra Médias amostrais (x̄)

1o elemento 2o elemento
1 1 1 1
2 1 3 2
3 1 5 3
4 3 1 2
5 3 3 3
6 3 5 4
7 5 1 3
8 5 3 4
9 5 5 5
X̄: população de médias amostrais para amostras de tamanho

n = 2 ⇒ X̄ = {1, 2, 3, 4, 5}
Distribuição Amostral de X̄
(x̄) 1 2 3 4 5
P(X̄ = x̄) 1/9 2/9 3/9 2/9 1/9
Calculando a média e a variância de todas as médias amostrais

geradas a partir de todas as amostras possíveis de tamanho 2,
temos
1 2 3 2 1 27
Média das médias: E(X̄) = 1 × +2× +3× +4× +5× = =3=µ
9 9 9 9 9 9
Variância das médias:
1 2 3 2 1 4
Var(X̄) = (1 − 3)2 × + (2 − 3)2 × + (3 − 3)2 × + (4 − 3)2 × + (5 − 3)2 × =
9 9 9 9 9 3
8/3 σ2
Var(X̄) = = .
2 n
Sendo assim, a distribuição amostral da estatística

n
1X
X̄ = Xi ,
n
i=1
a média da amostra, de uma amostra aleatória de tamanho n,

cuja população tem média µ e variância σ 2 , possui as seguintes
características:
σ2
E(X̄) = µ e Var(X̄) = .
n
σ
O desvio padrão σX̄ = √
n
é conhecido como erro padrão.
◮ O erro padrão da distribuição das médias amostrais diminui

quando aumenta o tamanho da amostra n.
◮ Isso significa que à medida que n aumenta e mais

informações são utilizadas, a média das médias amostrais
se aproxima da média populacional.
Se retirarmos uma amostra aleatória de tamanho n, originada de

uma população normal, cuja média é µ e a variância σ 2 , então a
distribuição amostral de X̄ também será normal com média µ e
σ2
variância , ou seja,
n
σ2
X̄ ∼ N µ, .
n
Caso a amostra extraída seja originada de uma população não-
normal, podemos, para um n suficientemente grande, obter uma
distribuição amostral aproximadamente normal com mesma mé-
dia e variância, fazendo-se para isso uso do Teorema Central do
Limite.
Teorema Central do Limite

Suponha uma amostra aleatória simples de tamanho n reti-
rada de uma população com média µ e variância σ 2 . Repre-
sentando tal amostra por n variáveis aleatórias independentes
(X1 , X2 , . . . , Xn ) e, denotando sua média por X̄, temos que
X̄ − µ
√ → Z,
σ/ n
com Z ∼ N(0, 1) e n suficientemente grande.
Histogramas correspondentes às distribuições amostrais de X̄

para amostras extraídas de algumas populações.
Fonte: BUSSAB & MORETTIN, Estatística Básica.

◮ Exemplo:
Uma variável aleatória tem distribuição normal, com média 100 e
desvio-padrão 20.
a. Se X̄ é a média de uma amostra de 16 elementos retirados
dessa população, calcule a P(90 < X̄ < 110).
b. Que tamanho deveria ter a amostra para que a
P(90 < X̄ < 110) = 0, 99?
Distribuição Amostral de uma Proporção
Considere uma população em que a proporção de elementos que

apresentam uma certa característica é p. Portanto, podemos de-
finir uma variável aleatória Xi da seguinte maneira:

1, se o i-ésimo indivíduo apresenta a característica;
Xi =
0, se o i-ésimo indivíduo não apresenta a característica.
em que cada Xi tem distribuição Bernoulli, com E(Xi ) = p e

Var(Xi ) = p(1 − p).
Considere, agora, que retiramos uma amostra aleatória simples

com reposição da população referida anteriormente, ou seja,
P
n
(X1 , X2 , X3 , . . . , Xn ), indicando por Yn = Xi o total de indivíduos
i=1
que apresenta a característica na amostra. Então teremos que
Yn ∼ Binomial(n, p),
em que p é a proporção de indivíduos na população que têm

a mesma característica. Definimos b
p como sendo a proporção
de elementos na amostra que possuem a característica, teremos
n
1X Y
que b
p= Xi = .
n n
i=1
E, através do Teorema Central do Limite podemos dizer que a

distribuição amostral de b
p será aproximadamente normal, com
p(1 − p)
média p e variância , ou seja,
n
p(1 − p)
p ∼ N p,
b ,
n
se o tamanho da amostra extraída for suficientemente grande.
◮ Exemplo:
A proporção de uma população é 0, 40. Uma amostra aleatória
simples de tamanho 200 será tomada e a proporção amostral p̂
será usada para estimar a proporção da população.
a. Qual é a probabilidade da proporção amostral estar entre
±0, 03 da proporção populacional?
b. Qual é a probabilidade da proporção amostral estar entre
±0, 05 da proporção populacional?
Sumário
Introdução
Estimação
Teste de Hipóteses
Estimação de Parâmetros
Um estimador do parâmetro θ é qualquer função das observa-

ções que constituem a amostra, ou seja, é qualquer estatística
destinada a estimar um parâmetro populacional.
Estimativa é o valor assumido pelo estimador em uma particular

amostra.
O problema da estimação consiste em determinar uma função

T = g(X1 , X2 , · · · , Xn ) que seja “próxima” do parâmetro θ, se-
gundo algum critério.
Exemplo - Rifles
Qual o melhor rifle?

Exemplo - Rifles
Critérios:
◮ “em média acertar o alvo” (não viesada)
Rifles A e C
◮ “não ser muito dispersivo” (variância pequena)

Rifles C e D
Exemplo - Rifles
Conceitos:
Precisão é a medida de proximidade de cada observação

para a sua própria média;
Acurácia é a medida de proximidade de cada observação ao
valor alvo que se procura atingir;
Viés é a disposição dos tiros em relação ao centro do
alvo.
Propriedades
Podemos propor vários estimadores para um determinado parâ-

metro. Por exemplo, para estimar a média populacional (µ) da
variável X, podemos usar
◮ a média amostral X̄,
◮ a mediana amostral,
◮ a primeira observação X1 (considera apenas a primeira
observação e despreza as informações das demais).
Qual estatística você utilizaria para estimar o parâmetro µ?
Propriedades
Não-tendenciosidade
O estimador T é dito um estimador não-viesado de θ se E(T) = θ,
para todo θ, ou seja, sua média é igual ao parâmetro.
Um estimador viciado, em média, tende a subestimar ou supe-

restimar o parâmetro.
Propriedades
Eficiência
Se T1 e T2 são dois estimadores não-viesados de um mesmo
parâmetro θ, e ainda se V(T1 ) < V(T2 ), então T1 é dito mais
eficiente do que T2 .
Propriedades
Consistência
Considerando um estimador qualquer T calculado a partir de
diversos tamanhos de amostra. Obtém-se, dessa forma, uma
sequência de estimadores {Tn , n = 1, 2, 3, . . .}.
{Tn } é uma sequência consistente de estimadores de θ se:

i limn→∞ E(Tn ) = θ,
ii limn→∞ V(Tn ) = 0
Propriedades
É desejável que o estimador de um parâmetro deva ser não-

viesado, eficiente e consistente. A média amostral e a proporção
amostral são estimadores que possuem estas propriedades. Por
outro lado, Pn
2 (Xi − X̄)2
σ̂ = i=1
n
é um estimador viesado da variância populacional (σ 2 ) e
Pn
2 (Xi − X̄)2
S = i=1
n−1
é não-viesado.
Estimação Pontual
A estimação pontual procura encontrar um valor numérico único
que esteja bastante próximo do verdadeiro valor do parâmetro.
Porém, não é possível julgar a magnitude do erro cometido.
Os parâmetros média (µ), variância (σ 2 ) e proporção (p) tem

como estimadores pontuais
n
1X
X̄ = Xi ,
n
i=1
Pn
(Xi − X̄)2
2
S = i=1 e
n−1
número de itens com a característica na amostra
p̂ = ,
n
respectivamente, todos com boas propriedades.
Estimação Pontual
Exemplo Considere o problema de estimar a proporção p de em-

presas comerciais que sonegaram o ICMS no último mês. Seja X
o número de empresas que no processo de fiscalização foi cons-
tatada a sonegação do imposto dentre n empresas comerciais
fiscalizadas.
Suponha que tenham sido fiscalizadas n = 500 empresas e que

X = 100 empresas sonegaram o ICMS no último mês. Então, a
estimativa pontual fica dada por
100
p=
b = 0, 2,
500
ou seja, a estimativa pontual da proporção de empresas comer-
ciais que sonegaram o ICMS no último mês foi de 20%.
Sumário
Introdução
Estimação
Teste de Hipóteses
Muitas vezes, entretanto, queremos considerar, conjuntamente, o

estimador e sua variabilidade, ou seja, indicar a precisão dessa
estimativa. Sendo assim, surge a ideia de construir um intervalo
de confiança baseado na distribuição amostral do estimador pon-
tual, isto é, um intervalo de valores que deve conter o verdadeiro
valor do parâmetro com uma probabilidade pré-determinada, re-
ferida por nível de confiança.
Na estimação por intervalo, acreditamos, com um certo nível de

confiança, que o intervalo contém o valor do parâmetro. Um
exemplo, seria dizer que a proporção de empresas comerciais
que sonegaram o ICMS no último mês está estimada entre 16, 5%
e 23, 5% com um nível de 95% de confiança.

Suponha que selecionássemos de uma população diferentes
amostras de tamanho n, e construíssemos um intervalo de
100(1 − α)% de confiança para cada amostra, iríamos obter di-
ferentes intervalos, porém, 100(1 − α)% desses intervalos irão
conter o verdadeiro valor do parâmetro populacional.
Para construirmos tais intervalos é preciso encontrar duas fun-

ções dos dados amostrais tais que, antes da extração da amostra
a seguinte probabilidade seja válida:
P(I < θ < S) = 1 − α,
em que I é o limite inferior, S o limite superior do intervalo de

confiança e α é um valor pequeno denominado nível de signifi-
cância. Logo, o valor (1−α) é próximo de 1 e é denominado nível
de confiança, representa a probabilidade de que seja obtido um
intervalo “correto”.
Intervalo de Confiança para a Média

O intervalo de confiança para a média µ é construído com base
na distribuição amostral de X̄. Para tal, vimos anteriormente que
2
para um n suficientemente grande, X̄ ∼ N(µ, σn ). Dessa forma,
X̄ − µ
teremos então que: Z = √ .
σ/ n
Portanto:
P(−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
σ σ
P(X̄ − z α2 √ ≤ µ ≤ X̄ + z α2 √ ) = 1 − α.
n n
O intervalo de confiança 100(1 − α)% para µ é dado por:

h σ σ i
X̄ − z α2 √ ; X̄ + z α2 √ ,
n n
em que z α2 √σn = E, erro amostral (margem de erro). Logo, temos

que o intervalo de confiança é composto pelo estimador pontual
e a margem de erro que é calculada a partir da distribuição de
probabilidade do estimador pontual,
h i
X̄ − E; X̄ + E .
População Normal com variância conhecida
Seja uma população Normal com µ desconhecida e σ 2 conhe-

cida. Retira-se uma amostra de tamanho n, o intervalo de con-
fiança 100(1 − α)% para µ será
h σ σ i
X̄ − z α2 √ ; X̄ + z α2 √ .
n n
Por “σ conhecido” queremos dizer que há dados históricos ou

outras informações disponíveis que nos permitem obter uma boa
estimativa do desvio padrão da população antes de tomarmos
a amostra que será usada para desenvolver uma estimativa da
média populacional. Não necessariamente σ seja, de fato, co-
nhecido com certeza.
Exemplo: O lucro mensal de certa empresa distribui-se de

acordo com uma curva normal sendo o desvio padrão de $200.
Uma amostra aleatória de 36 meses apresentou lucro médio de
$2.400. Estime, por intervalo, o lucro médio mensal da empresa
para uma confiança de 95%.
População Normal com variância desconhecida
Seja uma população Normal com µ e σ 2 desconhecidas. Retira-

se uma amostra de tamanho n, o intervalo de confiança 100(1 −
α)% para µ será
h s s i
X̄ − t(α/2;n−1) √ ; X̄ + t(α/2;n−1) √ ,
n n
pois como o desvio padrão populacional é desconhecido faz-se

necessário a utilização do seu estimador s (desvio padrão amos-
tral).
Distribuição t-Student
Para calcular o intervalo de confiança é necessário definir uma

nova variável aleatória T dada por
X̄ − µ
T= ,
√s
(n)
e dizemos que T tem distribuição t de Student com (n − 1) graus

de liberdade (gl).
◮ Student é o pseudônimo de W. S. Gosset que, em 1908,

propôs a distribuição t.
◮ Sua formulação matemática e sua aparência são parecidas
com a distribuição normal padronizada.
◮ A família de distribuições t é centrada no zero e pos-

sui formato em sino. A curva não é tão alta quanto a
curva da distribuição normal.
◮ O parâmetro que determina a altura e largura da dis-

tribuição t depende do tamanho da amostra n e é de-
nominado graus de liberdade. Portanto, para cada
valor diferente do tamanho da amostra n existe uma
distribuição específica.
A distribuição t é mais variável do que a Normal Padrão e esta
variabilidade adicional é o resultado da substituição do desvio
padrão σ por seu estimador s (o desvio padrão amostral).
A medida que aumenta o tamanho da amostra n, isto é, à medida

que aumenta o número de graus de liberdade (n − 1), a variabili-
dade introduzida pela utilização de s diminui e a distribuição t se
aproxima da distribuição normal padronizada.
Exemplo: Se uma variável aleatória T tem distribuição de Student

com 10 graus de liberdade, calcule as abscissas t0 da distribuição
considerando as seguintes probabilidades:
a. P(−t0 < T < t0 ) = 0, 9
b. P(T > t0 ) = 0, 975
c. P(T < t0 ) = 0, 995
Exemplo: Deseja-se estimar o lucro mensal de certa empresa.

Observou-se uma amostra aleatória de 25 meses, cujos resul-
tados foram: lucro médio de $2.300; e desvio padrão de $220.
Sabendo-se que o lucro mensal comporta-se segundo uma dis-
tribuição normal, encontre o intervalo de confiança para o lucro
médio para uma confiança de 90%.
População não Normal (grandes amostras)
Retira-se uma amostra de tamanho n (n > 30), o intervalo de

confiança 100(1 − α)% para µ será
h σ σ i
X̄ − z α2 √ ; X̄ + z α2 √ ,
n n
ou
h s s i
X̄ − z α2 √ ; X̄ + z α2 √ .
n n
Exemplo: Uma empresa de pesquisa mercadológica estava pro-

curando estimar o gasto médio de uma amostra de consumidores
de determinada bebida alcoólica no fim de semana. Após anali-
sar uma amostra aleatória de 100 clientes, encontrou uma média
de $250, 00 e desvio padrão de $32, 00. Determine a estimativa
pontual da média da população e construa um intervalo de 95%
de confiança para a média populacional.
Intervalo de Confiança para a Proporção
A construção de tal intervalo é análoga a do intervalo para mé-

dia, e para tal usaremos o estimador bp, que para um tamanho
de amostra suficientemente grande, tem distribuição aproxima-
damente normal.
Um intervalo de confiança 100(1 − α)% para a proporção popula-

cional p é dado por:
r r
h p(1 − b
b p) p) i
p(1 − b
b
bp − zα/2 ; b
p + zα/2 .
n n
Intervalo de Confiança para a Proporção
Exemplo: Entre 500 pessoas inquiridas a respeito de suas prefe-

rências eleitorais, 260 mostraram-se favoráveis ao candidato W.
Calcular um intervalo de confiança ao nível de 90% para a por-
centagem dos eleitores favoráveis a W.
Escolha do nível de confiança
O nível de confiança (1 − α) representa a probabilidade, antes da

extração da amostra, de obtenção de um intervalo correto. Após
a extração da amostra o intervalo de confiança poderá conter ou
não o verdadeiro valor do parâmetro e não poderemos ter certeza
de qual destas duas possibilidades é a verdadeira.
Se o nível de confiança for suficientemente grande, considera-se
que o intervalo está correto pois o procedimento que utilizamos
produz intervalos corretos em (1 − α)100% das vezes.
α Nível de Confiança (1 − α)100% za/2

0, 10 90% 1, 645
0, 05 95% 1, 96
0, 01 99% 2, 575
Escolha do nível de confiança
Então, porque não aumentar cada vez mais o nível de

confiança???
Para um tamanho fixo de amostra, aumentar o nível de confiança

acarreta um aumento do comprimento do intervalo, implicando
em perda de precisão da estimativa.
Cálculo do tamanho da amostra (para intervalos de

confiança)
Como saber quantos elementos devem ser escolhidos a fim de

obter o nível de confiança e a precisão desejados, supondo que
faremos uma amostragem aleatória simples com reposição de
uma grande população???
confiança)
Tamanho de amostra para uma estimação por intervalo de uma
média populacional
(zα/2 )2 σ 2
n=
E2
Caso o σ seja desconhecido, um dos procedimentos seguintes pode

ser escolhido.
◮ Use a estimativa do desvio padrão da população, calculada a
partir de dados de estudos anteriores, como o valor planejado
para σ.
◮ Use um estudo piloto para selecionar uma amostra preliminar.
O desvio padrão amostral da amostra preliminar pode ser usado
como o valor planejado para σ.

confiança)
Tamanho de amostra para uma estimação por intervalo de uma
proporção populacional
(zα/2 )2 p∗ (1 − p∗ )
n=
E2
Na prática, o valor planejado p∗ pode ser escolhido por meio de um dos

seguintes procedimentos.
◮ Use a proporção amostral de uma amostra anterior das mesmas
unidades ou de unidades similares.
◮ Use um estudo piloto para selecionar uma amostra preliminar. A
proporção amostral dessa amostra pode ser usada como o valor
planejado, p∗ .
◮ Use o valor planejado de p∗ = 0, 50, pois teremos o maior valor
de amostra possível.
Sumário
Introdução
Estimação
Teste de Hipóteses
Fazer afirmações sobre características de uma população, com

base nos dados de uma amostra. Existem dois problemas bási-
cos nesse processo:
◮ Estimação;
◮ Teste de hipóteses.
A teoria da estimação visa identificar quais as estatísticas

indicadas para se fazer estimativas para alguns parâmetros
populacionais.
O teste de hipóteses visa decidir se determinada afirmação sobre

um parâmetro populacional é, ou não, apoiada pela evidência
obtida de dados amostrais.
Noções de testes de hipóteses
Um dos problemas resolvidos pela Inferência Estatística é o de

testar se uma conjectura sobre determinada característica de
uma ou mais populações é, ou não, apoiada pela evidência ob-
tida através dos resultados da amostra.
Conjectura ⇒ hipótese estatística
Regra de decisão ⇒ teste de hipóteses
Alguns exemplos
◮ Testar a hipótese da média do crescimento da renda familiar
em uma região ter sido diferente de zero.

que seus produtos duram em média 400 horas.
◮ Novo método de fabricação de lâmpadas aumentará o

tempo de vida das lâmpadas.
◮ Testar se o faturamento médio de todas as empresas do se-

tor metal-mecânico localizadas na Bahia neste ano será su-
perior a R$200 milhões.
◮ Determinar qual de dois tratamentos é mais eficiente (pro-

blema de duas amostras).
Alguns exemplos
◮ Testar a hipótese da média do crescimento da renda familiar
em uma região ter sido diferente de zero.

que seus produtos duram em média 400 horas.
◮ Novo método de fabricação de lâmpadas aumentará o

tempo de vida das lâmpadas.
◮ Testar se o faturamento médio de todas as empresas do se-

tor metal-mecânico localizadas na Bahia neste ano será su-
perior a R$200 milhões.
◮ Determinar qual de dois tratamentos é mais eficiente (pro-

blema de duas amostras).
Noções de testes de hipóteses
Objetivo:
Testar o novo processo de fabricação.
Informação anterior:
Tempo de vida médio das lâmpadas fabricadas pelo processo
padrão é de 1.400 horas.
Pergunta:
O tempo de vida médio das lâmpadas fabricadas pelo novo
processo é maior que 1.400 horas?
Estabelecer as hipóteses:
- o novo processo não é melhor que o padrão;
- o novo processo é melhor que o padrão.
Tipos de Hipóteses
Em geral devemos decidir entre duas hipóteses complementares.
Denominaremos essas hipóteses de
H0 → Hipótese nula
H1 → Hipótese alternativa
No exemplo das lâmpadas se µ representa a média do tempo de

vida das lâmpadas fabricadas pelo novo processo, então,
H0 : µ = 1.400
H1 : µ > 1.400
A decisão de rejeitar H0 é equivalente à opinião “H0 é falsa”. A

decisão de aceitar H0 não é equivalente à opinião “H0 é verda-
deira”. Neste caso a opinião adequada é a de que os dados não
contêm evidência suficientemente forte contra H0 .
Tipos de Hipóteses
É preciso estabelecer um critério de decisão para que a

hipótese H0 seja julgada.
O critério de decisão, fundamentado pela Teoria Estatística, é

baseado na ESTATÍSTICA DE TESTE.
◮ De forma bem genérica e intuitiva, a estatística do teste

mede a discrepância entre o que foi observado na amostra
e o que seria esperado se a hipótese nula fosse verdadeira.
◮ Uma grande distância ou discrepância medida pela distri-

buição de probabilidade é indicação de que H0 não é verda-
deira, devendo, portanto ser rejeitada.
Tipos de Erros
Qualquer que seja a decisão a ser tomada em um teste de hipó-

teses, existe a possibilidade de se cometer erros, devido à pre-
sença da incerteza.
Conclusão Situação real (na população)

do teste H0 verdadeira H0 falsa
Não rejeitar H0 Correto Erro tipo II
Rejeitar H0 Erro tipo I Correto
As probabilidades dos tipos de erros serão designadas por:

◮ α = P(Erro tipo I)= P(Rejeitar H0 , sendo H0 verdadeira)
= P(Rejeitar H0 |H0 verdadeira)
◮ β = P(Erro tipo II)= P(Não rejeitar H0 , sendo H0 falsa)
= P(Não rejeitar H0 |H0 falsa)
Tipos de Erros
Exemplo : No caso das lâmpadas,
Erro tipo I → Aprovar o novo processo de fabricação quando na

realidade ele não é superior;
Erro tipo II → Rejeitar o novo processo de fabricação quando é,

de fato, o melhor.
O erro tipo I é mais grave, pois acarretaria em um Investimento

sem retorno para a indústria.
É fundamental que, em cada caso, se saiba qual são os erros

possíveis e que se decida a priori qual é o mais sério. Não é
possível controlar ambos os erros ao mesmo tempo. Quando
diminuímos muito a probabilidade de erro tipo I, aumentamos a
probabilidade do erro tipo II e vice-versa.
Nível de significância e Poder de Teste
α → Nível de significância do teste

Valores usuais → 10%, 5%, 1%
1 − β → Poder do teste (capacidade de detectar que a hipótese

nula é falsa)
O procedimento geral para testes de hipóteses é especificar o

valor da probabilidade do erro tipo I (α) e, então, planejar um
procedimento de teste de forma a obter uma pequena probabi-
lidade de erro do tipo II (β). O risco β é geralmente função do
tamanho da amostra e é controlado indiretamente. Quanto maior
o tamanho da amostra usada no teste menor o risco β.
Estatística de Teste, Região Crítica e Nível Descritivo

(valor de p)
Existem duas opções para expressar a conclusão final de um

teste de hipótese:
◮ Comparar o valor da estatística de teste com o valor obtido

a partir da distribuição teórica, específica para o teste e
fixando um nível de significância (Procedimento Clássico);
◮ Quantificar a probabilidade do resultado observado ou resul-

tados mais extremos, supondo a hipótese nula verdadeira
(Valor de p).
Estatística de Teste
É um valor baseado nos dados amostrais, sendo utilizado para
tomar uma decisão sobre a rejeição da hipótese nula.
No exemplo das lâmpadas suspeita-se que o tempo de vida mé-

dio das lâmpadas fabricadas pelo novo processo seja superior a
1.400 horas.
Ao selecionarmos uma amostra aleatória de 100 lâmpadas, por

exemplo, pode-se utilizar o valor do tempo de vida médio amos-
tral para “comprovar” ou “refutar” a hipótese nula através de uma
regra de decisão, por exemplo:
Rejeita-se H0 se X̄ > 1.400 horas.
Neste caso, estamos utilizando o valor de X̄ como estatística de

teste.
Região Crítica e Valor Crítico

Região crítica é o conjunto de todos os valores da estatística
de teste que levam à rejeição da hipótese nula. Enquanto que
o valor crítico ou valores críticos separam a região crítica dos
valores que não levam à rejeição da hipótese nula.
Obs: Os valores críticos dependem da natureza da hipótese nula,

da distribuição amostral principal, e do nível de significância α.
Passos para a construção de um Teste de Hipóteses -
Morettin & Bussab (2002)
1. Fixe qual a hipótese H0 a ser testada e qual a hipótese alter-
nativa H1 ;
2. Use a teoria estatística e as informações disponíveis para
decidir qual estatística (estimador) será usada para testar a
hipótese H0 . Obter as propriedades dessa estatística (distri-
buição, média, desvio padrão);
3. Fixe a probabilidade α de cometer o erro tipo I e use este
valor para construir a região crítica;
4. Use as observações da amostra para calcular o valor da es-
tatística do teste;
5. Se o valor da estatística calculado com os dados da amostra
não pertencer à região crítica, não rejeite H0 ; caso contrário,
rejeite H0 .
Tipos de Testes
O tipo de teste será determinado pela hipótese nula H0 . Como as
caudas em uma distribuição são as regiões extremas delimitadas
por valores críticos, a cauda corresponderá à região crítica.
◮ Teste Bilateral
H0 : θ = θ 0 versus H1 : θ 6= θ0
Tipos de Testes
◮ Teste Unilateral Direito
H0 : θ = θ0 (ou θ ≤ θ0 ) versus H1 : θ > θ0
Tipos de Testes
◮ Teste Unilateral Esquerdo
H0 : θ = θ0 (ou θ ≥ θ0 ) versus H1 : θ < θ0

Testes de hipóteses para a média
A média de uma população é uma de suas características mais

importantes e frequentemente tem-se que tomar decisões a seu
respeito.
Suponha que se deseja testar se a média de um processo é igual

a um valor padrão (alvo), digamos µ0 .
Estatística de teste: X̄.
Testes de hipóteses para a média com população

Normal e desvio padrão conhecido (σ = σ0 )
X̄−µ
Propriedades da estatística de teste: ZX̄ = √
σ0 / n
e ZX̄ ∼ N(0, 1)
a. Para o Teste bilateral
H0 : µ = µ0 versus H1 : µ 6= µ0
O teste é dado por:
Rejeita H0 ao nível de significância α se

x̄ − µ0
|z0 | = √ > zα .
σ0 / n 2
b. Para o Teste unilateral à esquerda
H0 : µ = µ0 (ou µ ≥ µ0 ) versus H1 : µ < µ0

x̄ − µ0
z0 = √ < −zα .
σ0 / n

c. Para o Teste unilateral à direita
H0 : µ = µ0 (ou µ ≤ µ0 ) versus H1 : µ > µ0

x̄ − µ0
z0 = √ > zα .
σ0 / n
Exemplo: Foi divulgado que a duração media de uma semana
de trabalho para a população de trabalhadores é de 39,2
horas (Investor’s Business Daily, 11 de setembro de 2000).
Suponha que quiséssemos extrair uma amostra atual de tra-
balhadores para verificar se a duração média de uma semana
de trabalho se modificou das 39,2 horas relatadas anteriormente.
a. Estabeleça as hipóteses que nos ajudem a determinar se

ocorreu uma alteração na duração média da semana de tra-
balho.
b. Suponha que um tamanho de amostra de 112 trabalhadores
tenha produzido uma média amostral de 38,5 horas. Use um
desvio padrão populacional σ = 4, 8 horas. Com α = 0, 05,
a hipótese nula pode ser rejeitada? Qual a sua conclusão?

Normal e desvio padrão desconhecido
Estatística de teste: X̄
X̄−µ
Propriedades da estatística de teste: TX̄ = √
s/ n
e TX̄ ∼ tn−1
a. Para o Teste bilateral
H0 : µ = µ0 versus H1 : µ 6= µ0

x̄ − µ0
|T| = √ > tα/2;(n−1) .
s/ n
b. Para o Teste unilateral à esquerda
H0 : µ = µ0 (ou µ ≥ µ0 ) versus H1 : µ < µ0

x̄ − µ0
T= √ < −tα;(n−1) .
s/ n

a. Para o Teste unilateral à direita
H0 : µ = µ0 (ou µ ≤ µ0 ) versus H1 : µ > µ0

x̄ − µ0
T= √ > tα;(n−1) .
s/ n
Exemplo: De acordo com a National Automobile Dealers As-
sociation, o preço médio dos carros usados é US$ 10.192. O
gerente de uma revendedora de carros usados de Kansas City
revisou uma amostra de 25 vendas recentes de carros usados
em sua revendedora, tentando determinar se o preço médio
populacional dos carros usados vendidos em sua revendedora
em particular diferia em media populacional.
a. Formule as hipóteses que podem ser usadas para determi-

nar se existe uma diferença na media de preço de carros
usados na revendedora.
b. Qual a conclusão do teste com base em um preço médio
amostral US$ 9.750 e um desvio padrão amostral de US$
1.400? Use α = 0, 05.
Testes de hipóteses para a média com população não

Normal e grandes amostras
Estatística de teste: X̄
Propriedades da estatística de teste:
X̄ − µ
ZX̄ = √ e ZX̄ ∼ N(0, 1)
s/ n
devido ao Teorema Central do Limite que garante que se a
amostra for suficientemente grande (n > 30),
X̄ ∼ N(µ, σ 2 /n).
Testes de hipóteses para a média com população não
Normal e grandes amostras
Exemplo: O custo de manutenção de um tear possui média de

200 unidades monetárias. Para verificar a hipótese de que o
custo de manutenção é superior, analisou-se uma amostra de
35 teares e encontrou-se um custo médio de 240 unidades mo-
netárias e desvio padrão de 80 unidades monetárias. Qual a sua
decisão, ao nível de significância de 5%?
Testes de hipóteses para uma proporção
Em muitas situações o objetivo pode ser avaliar a veracidade de

alguma hipótese sobre a proporção de elementos na população
que possuem alguma característica de interesse (p).
Se o tamanho da amostra (n) for suficientemente grande e se p

não for muito próximo de zero ou 1, é possível realizar um teste
de hipóteses para p baseado na distribuição Normal.
Estatística de teste: p̂
p̂−p
Propriedades da estatística de teste: Zp̂ = √ pq e Zp̂ ∼ N(0, 1)
n
a) Para o Teste unilateral à direita
H0 : p ≤ p0 versus H1 : p > p0
p̂ − p0
z0 = q > zα .
p0 .q0
n
b) Para o Teste unilateral à esquerda
H0 : p ≥ p0 versus H1 : p < p0
p̂ − p0
z0 = q < −zα .
p0 .q0
n
c) Para o Teste bilateral
H0 : p = p0 versus H1 : p 6= p0
p̂ − p0
|z0 | = q > z α2 .
p0 .q0
n
Exemplo: A fábrica A de automóveis afirma que 60% dos consu-

midores compram carros produzidos por ela. Uma fábrica con-
corrente deseja testar a veracidade desta afirmação. Para isso
decide realizar uma pesquisa por amostragem com 300 proprie-
tários de veículos. Suponha agora que os resultados da pesquisa
apontaram 198 proprietários de carros da fábrica A, isto equivale
a uma proporção amostral (p̂) de 66%. (α = 5%)
Comparação entre as médias de duas populações
Casos na comparação de duas amostras
Amostras Independentes X Amostras Dependentes
Duas amostras são independentes se a amostra extraída de uma

das populações não tem qualquer relação com a amostra ex-
traída da outra população. Caso contrário, as amostras dizem-se
dependentes.
Teste para comparação de duas médias populacionais
(com σ 2 conhecidas) - Amostras Independentes
Quando as variâncias populacionais são conhecidas usamos a

distribuição normal. A estatística de teste é dada por:
(X̄1 − X̄2 ) − (µ1 − µ2 )

Z0 = q 2 .
σ1 σ22
n1 + n2
Vejamos as regras de decisão para cada tipo de hipótese consi-

derada:
a. H0 : µ1 ≤ µ2 versus H1 : µ1 > µ2 ⇒ Rejeita H0 se z0 > zα
b. H0 : µ1 ≥ µ2 versus H1 : µ1 < µ2 ⇒ Rejeita H0 se z0 < −zα
c. H0 : µ1 = µ2 versus H1 : µ1 6= µ2 ⇒ Rejeita H0 se |z0 | > zα/2

(com σ 2 conhecidas) - Amostras Independentes
Exemplo: Durante uma temporada de 2003, a Major League Ba-
seball tomou medidas para aumentar a velocidade de jogo nos
jogos de beisebol a fim de manter o interesse da torcida (CNN
Headline News, 30 de setembro de 2003). Os resultados apre-
sentados a seguir são de uma amostra de 60 jogos disputados
durante o verão de 2002 e de uma amostra de 50 jogos disputa-
dos durante o verão de 2003. A média amostral exibe a duração
média dos jogos incluídos em cada amostra, que para a tempo-
rada de 2002 foi igual a 2 horas e 52 mim e para a temporada
de 2003 foi igual a 2 horas e 46 mim. Dados históricos indicam
um desvio padrão populacional de 12 mim para ambos os anos.
Teste a hipótese de que as medidas tomadas durante a tempo-
rada de 2003 reduziriam a duração média da população de jogos
de beisebol. Use 0,05 de significância.
(com σ 2 desconhecidas) - Amostras Independentes
Quando as variâncias populacionais são desconhecidas temos
que estimá-las. A estatística de teste é dada por:
(X̄1 − X̄2 ) − (µ1 − µ2 )

T0 = q ,
Sc n11 + n12
(n1 −1)S12 +(n2 −1)S22
em que Sc2 = n1 +n2 −2

derada:
a. H0 : µ1 ≤ µ2 versus H1 : µ1 > µ2 ⇒ Rejeita H0 se t0 > tα
b. H0 : µ1 ≥ µ2 versus H1 : µ1 < µ2 ⇒ Rejeita H0 se t0 < −tα
c. H0 : µ1 = µ2 versus H1 : µ1 6= µ2 ⇒ Rejeita H0 se |t0 | > tα/2

Exemplo: Desejamos testar se dois tipos de ensino profissional

são igualmente eficazes. Sabe-se que as duas populações têm
distribuição Normal. Para isso, sortearam-se duas amostras de
operários, a cada uma, deu-se um dos tipos de treinamento e,
no final, submeteram-se os dois grupos a um mesmo teste. Que
tipo de conclusão você poderia tirar, baseando-se nos resultados
abaixo. (α = 5%)
Amostra N Média Desvio padrão

Tipo I 12 75 5
Tipo II 10 74 10
Podemos utilizar a distribuição Normal para encontrar a região
critica do teste, nos casos em que não conhecemos a variância
populacional, mas o tamanho da amostra é suficientemente
grande. A estatística de teste é dada por:
(X̄1 − X̄2 ) − (µ1 − µ2 )

Z0 = q 2 .
s1 s22
n1 + n2

derada:
a. H0 : µ1 ≤ µ2 versus H1 : µ1 > µ2 ⇒ Rejeita H0 se z0 > zα
b. H0 : µ1 ≥ µ2 versus H1 : µ1 < µ2 ⇒ Rejeita H0 se z0 < −zα
c. H0 : µ1 = µ2 versus H1 : µ1 6= µ2 ⇒ Rejeita H0 se |z0 | > zα/2

Exemplo: Pesquisadores estão testando sistemas comerciais de

filtragem de ar fabricados pela Winston Industrial Suply Company
e pela Barrington Filter Company. Testam-se amostras aleatórias
de cada companhia, registrando-se a eficiência da filtragem em
uma escala padrão com os seguintes resultados:
Amostra N Média Desvio padrão

Winston 18 85,7 2,8
Barrington 24 80,6 9,7
(Escores mais altos correspodem a melhor filtragem). Com um

nível de significância de 5%, verifique se ambos os sistemas têm
a mesma filtragem média.
- Amostras Dependentes
Também conhecidas por amostras emparelhadas ou pareadas
porque obtemos dois valores para cada indivíduo. Neste caso
a amostra é formada pelos pares [(X1 , Y1 ); (X2 , Y2 ); · · · ; (Xn , Yn )],
dentro de cada par as medidas são dependentes e não nos in-
teressam as medidas individuais, mas sim as diferenças d =
(Xi − Yi ).
Hipóteses
H0 : µd = 0 versus H1 : µd 6= 0
Estatística de Teste
d̄ − µd
t0 = √ ,
sd / n
t-Student com n − 1 gl.

- Amostras Dependentes
Exemplo: Um médico deseja determinar se certa droga modi-

fica a temperatura do corpo. Sete pessoas são selecionadas
ao acaso e sua temperatura corporal é medida. A droga é mi-
nistrada e, depois de 20 minutos, a temperatura corpórea é no-
vamente medida. Os resultados estão listados a seguir. Sendo
α = 0, 05, há evidência suficiente para concluir que a droga muda
a temperatura corpórea? Suponha que as temperaturas corpo-
rais estejam normalmente distribuídas.
Pessoas 1 2 3 4 5 6 7
Temperatura inicial 101,8 98,5 98,1 99,4 98,9 100,2 97,9
Segunda Temperatura 99,2 98,4 98,2 99 98,6 99,7 97,8

Inferencia MAT194

Enviado por

Dados do documentoclique para ver informações do documento

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

Inferencia MAT194

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Inferencia MAT194

Enviado por

Direitos autorais:

Formatos disponíveis

Inferência Estatística

Profa. Andrea Prudente

UNIVERSIDADE FEDERAL DA BAHIA

Estimação por Intervalo

Estimação por Intervalo

É um conjunto de técnicas baseadas em probabilidade, que a

Fazer afirmações sobre características de uma população, com

A teoria da estimação visa identificar quais as estatísticas

O teste de hipóteses visa decidir se determinada afirmação sobre

◮ Estimar o faturamento médio anual das empresas do setor

◮ Estimar a proporção de empresas comerciais que

◮ Testar a hipótese da média do crescimento da renda

◮ Testar a afirmação de um fabricante de lâmpadas que alega

População é o conjunto de todos os indivíduos, objetos ou

Amostra é qualquer subconjunto finito de elementos

Parâmetro é uma medida usada para descrever uma

Estatística é qualquer função da amostra que não depende de

Característica Parâmetro Estatística

As estatísticas, como funções de variáveis aleatórias, são tam-

Estimação por Intervalo

De uma mesma população pode-se extrair muitas amostras dife-

A distribuição de probabilidade de uma estatística quando con-

Considere uma população em que a variável aleatória X assume

Distribuição Amostral da Média

k Amostra Médias amostrais (x̄)

X̄: população de médias amostrais para amostras de tamanho

Calculando a média e a variância de todas as médias amostrais

Distribuição Amostral da Média

Sendo assim, a distribuição amostral da estatística

a média da amostra, de uma amostra aleatória de tamanho n,

◮ O erro padrão da distribuição das médias amostrais diminui

◮ Isso significa que à medida que n aumenta e mais

Distribuição Amostral da Média

Se retirarmos uma amostra aleatória de tamanho n, originada de

Teorema Central do Limite

com Z ∼ N(0, 1) e n suficientemente grande.

Distribuição Amostral da Média

Histogramas correspondentes às distribuições amostrais de X̄

Fonte: BUSSAB & MORETTIN, Estatística Básica.

Distribuição Amostral de uma Proporção

Considere uma população em que a proporção de elementos que

em que cada Xi tem distribuição Bernoulli, com E(Xi ) = p e

Considere, agora, que retiramos uma amostra aleatória simples

em que p é a proporção de indivíduos na população que têm

Distribuição Amostral de uma Proporção

E, através do Teorema Central do Limite podemos dizer que a

Estimação por Intervalo

Um estimador do parâmetro θ é qualquer função das observa-

Estimativa é o valor assumido pelo estimador em uma particular

O problema da estimação consiste em determinar uma função

Qual o melhor rifle?

◮ “não ser muito dispersivo” (variância pequena)

Precisão é a medida de proximidade de cada observação

Podemos propor vários estimadores para um determinado parâ-

Qual estatística você utilizaria para estimar o parâmetro µ?

Um estimador viciado, em média, tende a subestimar ou supe-

{Tn } é uma sequência consistente de estimadores de θ se: