Inferencia MAT194

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 51

Inferência Estatística

Profa. Andrea Prudente

UNIVERSIDADE FEDERAL DA BAHIA


INSTITUTO DE MATEMÁTICA
DEPARTAMENTO DE ESTATÍSTICA

2011.1

Sumário

Introdução

Distribuição Amostral

Estimação

Estimação por Intervalo

Teste de Hipóteses
Sumário

Introdução

Distribuição Amostral

Estimação

Estimação por Intervalo

Teste de Hipóteses

Inferência Estatística

É um conjunto de técnicas baseadas em probabilidade, que a


partir de dados amostrais nos permite tirar conclusões sobre a
população de interesse.
Objetivo

Fazer afirmações sobre características de uma população, com


base nos dados de uma amostra. Existem dois problemas bási-
cos nesse processo:
◮ Estimação;
◮ Teste de hipóteses.

A teoria da estimação visa identificar quais as estatísticas


indicadas para se fazer estimativas para alguns parâmetros
populacionais.

O teste de hipóteses visa decidir se determinada afirmação sobre


um parâmetro populacional é, ou não, apoiada pela evidência
obtida de dados amostrais.

Motivação

◮ Estimar o faturamento médio anual das empresas do setor


metal-mecânico situadas na Bahia no último ano.

◮ Estimar a proporção de empresas comerciais que


sonegaram o ICMS no último mês.

◮ Testar a hipótese da média do crescimento da renda


familiar em uma região ter sido diferente de zero.

◮ Testar a afirmação de um fabricante de lâmpadas que alega


que seus produtos duram, em média e no mínimo, 400
horas.
Alguns conceitos básicos

População é o conjunto de todos os indivíduos, objetos ou


informações que apresentam pelo menos uma
característica (observável) comum;

Amostra é qualquer subconjunto finito de elementos


extraídos da população;

Parâmetro é uma medida usada para descrever uma


característica da população;

Estatística é qualquer função da amostra que não depende de


parâmetros desconhecidos;

Alguns notações

Característica Parâmetro Estatística


(θ) (T)
Proporção p b
p
Média µ X̄ ou µ̂
Variância σ2 S2
Desvio padrão σ S
Mediana Md md
Número de elementos N n

As estatísticas, como funções de variáveis aleatórias, são tam-


bém variáveis aleatórias, e portanto, têm um modelo probabilís-
tico associado, ou seja, uma distribuição de probabilidade.
Sumário

Introdução

Distribuição Amostral

Estimação

Estimação por Intervalo

Teste de Hipóteses

Distribuição Amostral

De uma mesma população pode-se extrair muitas amostras dife-


rentes do mesmo tamanho que originarão valores distintos para
a estatística considerada. Por este motivo, dizemos que as es-
tatísticas são variáveis aleatórias, já que seu valor não pode ser
predito com certeza antes da amostra ter sido extraída.

A distribuição de probabilidade de uma estatística quando con-


sideramos todas as amostras possíveis de tamanho n é denomi-
nada de distribuição amostral.
Distribuição Amostral da Média

Considere uma população em que a variável aleatória X assume


um dos valores do conjunto {1, 3, 5}. Vamos retirar todas as pos-
síveis amostras aleatórias simples de tamanho n dessa popula-
ção, e para cada uma calcular a média X̄.

Exemplo:

População: X = {1, 3, 5}

1+3+5
Parâmetros: µ= =3
3
3
1 X (1 − 3)2 + (3 − 3)2 + (5 − 3)2 8
σ2 = (Xi − µ)2 = = .
N 3 3
i=1

Distribuição Amostral da Média


Retirando amostras de tamanho n = 2, com reposição, temos um
número total de amostras possíveis, k = 9.

k Amostra Médias amostrais (x̄)


1o elemento 2o elemento
1 1 1 1
2 1 3 2
3 1 5 3
4 3 1 2
5 3 3 3
6 3 5 4
7 5 1 3
8 5 3 4
9 5 5 5

X̄: população de médias amostrais para amostras de tamanho


n = 2 ⇒ X̄ = {1, 2, 3, 4, 5}
Distribuição Amostral da Média
Distribuição Amostral de X̄
(x̄) 1 2 3 4 5
P(X̄ = x̄) 1/9 2/9 3/9 2/9 1/9

Calculando a média e a variância de todas as médias amostrais


geradas a partir de todas as amostras possíveis de tamanho 2,
temos

1 2 3 2 1 27
Média das médias: E(X̄) = 1 × +2× +3× +4× +5× = =3=µ
9 9 9 9 9 9
Variância das médias:

1 2 3 2 1 4
Var(X̄) = (1 − 3)2 × + (2 − 3)2 × + (3 − 3)2 × + (4 − 3)2 × + (5 − 3)2 × =
9 9 9 9 9 3
8/3 σ2
Var(X̄) = = .
2 n

Distribuição Amostral da Média

Sendo assim, a distribuição amostral da estatística


n
1X
X̄ = Xi ,
n
i=1

a média da amostra, de uma amostra aleatória de tamanho n,


cuja população tem média µ e variância σ 2 , possui as seguintes
características:
σ2
E(X̄) = µ e Var(X̄) = .
n
σ
O desvio padrão σX̄ = √
n
é conhecido como erro padrão.
Distribuição Amostral da Média

◮ O erro padrão da distribuição das médias amostrais diminui


quando aumenta o tamanho da amostra n.

◮ Isso significa que à medida que n aumenta e mais


informações são utilizadas, a média das médias amostrais
se aproxima da média populacional.

Distribuição Amostral da Média

Se retirarmos uma amostra aleatória de tamanho n, originada de


uma população normal, cuja média é µ e a variância σ 2 , então a
distribuição amostral de X̄ também será normal com média µ e
σ2
variância , ou seja,
n
 σ2 
X̄ ∼ N µ, .
n
Caso a amostra extraída seja originada de uma população não-
normal, podemos, para um n suficientemente grande, obter uma
distribuição amostral aproximadamente normal com mesma mé-
dia e variância, fazendo-se para isso uso do Teorema Central do
Limite.
Distribuição Amostral da Média

Teorema Central do Limite


Suponha uma amostra aleatória simples de tamanho n reti-
rada de uma população com média µ e variância σ 2 . Repre-
sentando tal amostra por n variáveis aleatórias independentes
(X1 , X2 , . . . , Xn ) e, denotando sua média por X̄, temos que

X̄ − µ
√ → Z,
σ/ n

com Z ∼ N(0, 1) e n suficientemente grande.

Distribuição Amostral da Média

Histogramas correspondentes às distribuições amostrais de X̄


para amostras extraídas de algumas populações.

Fonte: BUSSAB & MORETTIN, Estatística Básica.


Distribuição Amostral da Média

◮ Exemplo:
Uma variável aleatória tem distribuição normal, com média 100 e
desvio-padrão 20.
a. Se X̄ é a média de uma amostra de 16 elementos retirados
dessa população, calcule a P(90 < X̄ < 110).
b. Que tamanho deveria ter a amostra para que a
P(90 < X̄ < 110) = 0, 99?

Distribuição Amostral de uma Proporção

Considere uma população em que a proporção de elementos que


apresentam uma certa característica é p. Portanto, podemos de-
finir uma variável aleatória Xi da seguinte maneira:

1, se o i-ésimo indivíduo apresenta a característica;
Xi =
0, se o i-ésimo indivíduo não apresenta a característica.

em que cada Xi tem distribuição Bernoulli, com E(Xi ) = p e


Var(Xi ) = p(1 − p).
Distribuição Amostral de uma Proporção

Considere, agora, que retiramos uma amostra aleatória simples


com reposição da população referida anteriormente, ou seja,
P
n
(X1 , X2 , X3 , . . . , Xn ), indicando por Yn = Xi o total de indivíduos
i=1
que apresenta a característica na amostra. Então teremos que

Yn ∼ Binomial(n, p),

em que p é a proporção de indivíduos na população que têm


a mesma característica. Definimos b
p como sendo a proporção
de elementos na amostra que possuem a característica, teremos
n
1X Y
que b
p= Xi = .
n n
i=1

Distribuição Amostral de uma Proporção

E, através do Teorema Central do Limite podemos dizer que a


distribuição amostral de b
p será aproximadamente normal, com
p(1 − p)
média p e variância , ou seja,
n
 p(1 − p) 
p ∼ N p,
b ,
n
se o tamanho da amostra extraída for suficientemente grande.
Distribuição Amostral de uma Proporção

◮ Exemplo:
A proporção de uma população é 0, 40. Uma amostra aleatória
simples de tamanho 200 será tomada e a proporção amostral p̂
será usada para estimar a proporção da população.
a. Qual é a probabilidade da proporção amostral estar entre
±0, 03 da proporção populacional?
b. Qual é a probabilidade da proporção amostral estar entre
±0, 05 da proporção populacional?

Sumário

Introdução

Distribuição Amostral

Estimação

Estimação por Intervalo

Teste de Hipóteses
Estimação de Parâmetros

Um estimador do parâmetro θ é qualquer função das observa-


ções que constituem a amostra, ou seja, é qualquer estatística
destinada a estimar um parâmetro populacional.

Estimativa é o valor assumido pelo estimador em uma particular


amostra.

O problema da estimação consiste em determinar uma função


T = g(X1 , X2 , · · · , Xn ) que seja “próxima” do parâmetro θ, se-
gundo algum critério.

Exemplo - Rifles

Qual o melhor rifle?


Exemplo - Rifles

Critérios:
◮ “em média acertar o alvo” (não viesada)
Rifles A e C

◮ “não ser muito dispersivo” (variância pequena)


Rifles C e D

Exemplo - Rifles

Conceitos:

Precisão é a medida de proximidade de cada observação


para a sua própria média;
Acurácia é a medida de proximidade de cada observação ao
valor alvo que se procura atingir;
Viés é a disposição dos tiros em relação ao centro do
alvo.
Propriedades

Podemos propor vários estimadores para um determinado parâ-


metro. Por exemplo, para estimar a média populacional (µ) da
variável X, podemos usar
◮ a média amostral X̄,
◮ a mediana amostral,
◮ a primeira observação X1 (considera apenas a primeira
observação e despreza as informações das demais).

Qual estatística você utilizaria para estimar o parâmetro µ?

Propriedades

Não-tendenciosidade
O estimador T é dito um estimador não-viesado de θ se E(T) = θ,
para todo θ, ou seja, sua média é igual ao parâmetro.

Um estimador viciado, em média, tende a subestimar ou supe-


restimar o parâmetro.
Propriedades

Eficiência
Se T1 e T2 são dois estimadores não-viesados de um mesmo
parâmetro θ, e ainda se V(T1 ) < V(T2 ), então T1 é dito mais
eficiente do que T2 .

Propriedades

Consistência
Considerando um estimador qualquer T calculado a partir de
diversos tamanhos de amostra. Obtém-se, dessa forma, uma
sequência de estimadores {Tn , n = 1, 2, 3, . . .}.

{Tn } é uma sequência consistente de estimadores de θ se:


i limn→∞ E(Tn ) = θ,
ii limn→∞ V(Tn ) = 0
Propriedades

É desejável que o estimador de um parâmetro deva ser não-


viesado, eficiente e consistente. A média amostral e a proporção
amostral são estimadores que possuem estas propriedades. Por
outro lado, Pn
2 (Xi − X̄)2
σ̂ = i=1
n
é um estimador viesado da variância populacional (σ 2 ) e
Pn
2 (Xi − X̄)2
S = i=1
n−1
é não-viesado.

Estimação Pontual
A estimação pontual procura encontrar um valor numérico único
que esteja bastante próximo do verdadeiro valor do parâmetro.
Porém, não é possível julgar a magnitude do erro cometido.

Os parâmetros média (µ), variância (σ 2 ) e proporção (p) tem


como estimadores pontuais
n
1X
X̄ = Xi ,
n
i=1
Pn
(Xi − X̄)2
2
S = i=1 e
n−1
número de itens com a característica na amostra
p̂ = ,
n
respectivamente, todos com boas propriedades.
Estimação Pontual

Exemplo Considere o problema de estimar a proporção p de em-


presas comerciais que sonegaram o ICMS no último mês. Seja X
o número de empresas que no processo de fiscalização foi cons-
tatada a sonegação do imposto dentre n empresas comerciais
fiscalizadas.

Suponha que tenham sido fiscalizadas n = 500 empresas e que


X = 100 empresas sonegaram o ICMS no último mês. Então, a
estimativa pontual fica dada por
100
p=
b = 0, 2,
500
ou seja, a estimativa pontual da proporção de empresas comer-
ciais que sonegaram o ICMS no último mês foi de 20%.

Sumário

Introdução

Distribuição Amostral

Estimação

Estimação por Intervalo

Teste de Hipóteses
Estimação por Intervalo

Muitas vezes, entretanto, queremos considerar, conjuntamente, o


estimador e sua variabilidade, ou seja, indicar a precisão dessa
estimativa. Sendo assim, surge a ideia de construir um intervalo
de confiança baseado na distribuição amostral do estimador pon-
tual, isto é, um intervalo de valores que deve conter o verdadeiro
valor do parâmetro com uma probabilidade pré-determinada, re-
ferida por nível de confiança.

Na estimação por intervalo, acreditamos, com um certo nível de


confiança, que o intervalo contém o valor do parâmetro. Um
exemplo, seria dizer que a proporção de empresas comerciais
que sonegaram o ICMS no último mês está estimada entre 16, 5%
e 23, 5% com um nível de 95% de confiança.

Estimação por Intervalo


Suponha que selecionássemos de uma população diferentes
amostras de tamanho n, e construíssemos um intervalo de
100(1 − α)% de confiança para cada amostra, iríamos obter di-
ferentes intervalos, porém, 100(1 − α)% desses intervalos irão
conter o verdadeiro valor do parâmetro populacional.
Estimação por Intervalo

Para construirmos tais intervalos é preciso encontrar duas fun-


ções dos dados amostrais tais que, antes da extração da amostra
a seguinte probabilidade seja válida:

P(I < θ < S) = 1 − α,

em que I é o limite inferior, S o limite superior do intervalo de


confiança e α é um valor pequeno denominado nível de signifi-
cância. Logo, o valor (1−α) é próximo de 1 e é denominado nível
de confiança, representa a probabilidade de que seja obtido um
intervalo “correto”.

Intervalo de Confiança para a Média


O intervalo de confiança para a média µ é construído com base
na distribuição amostral de X̄. Para tal, vimos anteriormente que
2
para um n suficientemente grande, X̄ ∼ N(µ, σn ). Dessa forma,
X̄ − µ
teremos então que: Z = √ .
σ/ n
Portanto:

P(−zα/2 ≤ Z ≤ zα/2 ) = 1 − α
Intervalo de Confiança para a Média

σ σ
P(X̄ − z α2 √ ≤ µ ≤ X̄ + z α2 √ ) = 1 − α.
n n

O intervalo de confiança 100(1 − α)% para µ é dado por:


h σ σ i
X̄ − z α2 √ ; X̄ + z α2 √ ,
n n

em que z α2 √σn = E, erro amostral (margem de erro). Logo, temos


que o intervalo de confiança é composto pelo estimador pontual
e a margem de erro que é calculada a partir da distribuição de
probabilidade do estimador pontual,
h i
X̄ − E; X̄ + E .

Intervalo de Confiança para a Média

População Normal com variância conhecida

Seja uma população Normal com µ desconhecida e σ 2 conhe-


cida. Retira-se uma amostra de tamanho n, o intervalo de con-
fiança 100(1 − α)% para µ será
h σ σ i
X̄ − z α2 √ ; X̄ + z α2 √ .
n n

Por “σ conhecido” queremos dizer que há dados históricos ou


outras informações disponíveis que nos permitem obter uma boa
estimativa do desvio padrão da população antes de tomarmos
a amostra que será usada para desenvolver uma estimativa da
média populacional. Não necessariamente σ seja, de fato, co-
nhecido com certeza.
Intervalo de Confiança para a Média

Exemplo: O lucro mensal de certa empresa distribui-se de


acordo com uma curva normal sendo o desvio padrão de $200.
Uma amostra aleatória de 36 meses apresentou lucro médio de
$2.400. Estime, por intervalo, o lucro médio mensal da empresa
para uma confiança de 95%.

Intervalo de Confiança para a Média

População Normal com variância desconhecida

Seja uma população Normal com µ e σ 2 desconhecidas. Retira-


se uma amostra de tamanho n, o intervalo de confiança 100(1 −
α)% para µ será
h s s i
X̄ − t(α/2;n−1) √ ; X̄ + t(α/2;n−1) √ ,
n n

pois como o desvio padrão populacional é desconhecido faz-se


necessário a utilização do seu estimador s (desvio padrão amos-
tral).
Distribuição t-Student

Para calcular o intervalo de confiança é necessário definir uma


nova variável aleatória T dada por

X̄ − µ
T= ,
√s
(n)

e dizemos que T tem distribuição t de Student com (n − 1) graus


de liberdade (gl).

◮ Student é o pseudônimo de W. S. Gosset que, em 1908,


propôs a distribuição t.
◮ Sua formulação matemática e sua aparência são parecidas
com a distribuição normal padronizada.

Distribuição t-Student

◮ A família de distribuições t é centrada no zero e pos-


sui formato em sino. A curva não é tão alta quanto a
curva da distribuição normal.

◮ O parâmetro que determina a altura e largura da dis-


tribuição t depende do tamanho da amostra n e é de-
nominado graus de liberdade. Portanto, para cada
valor diferente do tamanho da amostra n existe uma
distribuição específica.
Distribuição t-Student
A distribuição t é mais variável do que a Normal Padrão e esta
variabilidade adicional é o resultado da substituição do desvio
padrão σ por seu estimador s (o desvio padrão amostral).

A medida que aumenta o tamanho da amostra n, isto é, à medida


que aumenta o número de graus de liberdade (n − 1), a variabili-
dade introduzida pela utilização de s diminui e a distribuição t se
aproxima da distribuição normal padronizada.

Exemplo: Se uma variável aleatória T tem distribuição de Student


com 10 graus de liberdade, calcule as abscissas t0 da distribuição
considerando as seguintes probabilidades:
a. P(−t0 < T < t0 ) = 0, 9
b. P(T > t0 ) = 0, 975
c. P(T < t0 ) = 0, 995

Distribuição t-Student
Intervalo de Confiança para a Média

Exemplo: Deseja-se estimar o lucro mensal de certa empresa.


Observou-se uma amostra aleatória de 25 meses, cujos resul-
tados foram: lucro médio de $2.300; e desvio padrão de $220.
Sabendo-se que o lucro mensal comporta-se segundo uma dis-
tribuição normal, encontre o intervalo de confiança para o lucro
médio para uma confiança de 90%.

Intervalo de Confiança para a Média

População não Normal (grandes amostras)

Retira-se uma amostra de tamanho n (n > 30), o intervalo de


confiança 100(1 − α)% para µ será
h σ σ i
X̄ − z α2 √ ; X̄ + z α2 √ ,
n n
ou
h s s i
X̄ − z α2 √ ; X̄ + z α2 √ .
n n
Intervalo de Confiança para a Média

Exemplo: Uma empresa de pesquisa mercadológica estava pro-


curando estimar o gasto médio de uma amostra de consumidores
de determinada bebida alcoólica no fim de semana. Após anali-
sar uma amostra aleatória de 100 clientes, encontrou uma média
de $250, 00 e desvio padrão de $32, 00. Determine a estimativa
pontual da média da população e construa um intervalo de 95%
de confiança para a média populacional.

Intervalo de Confiança para a Proporção

A construção de tal intervalo é análoga a do intervalo para mé-


dia, e para tal usaremos o estimador bp, que para um tamanho
de amostra suficientemente grande, tem distribuição aproxima-
damente normal.

Um intervalo de confiança 100(1 − α)% para a proporção popula-


cional p é dado por:

r r
h p(1 − b
b p) p) i
p(1 − b
b
bp − zα/2 ; b
p + zα/2 .
n n
Intervalo de Confiança para a Proporção

Exemplo: Entre 500 pessoas inquiridas a respeito de suas prefe-


rências eleitorais, 260 mostraram-se favoráveis ao candidato W.
Calcular um intervalo de confiança ao nível de 90% para a por-
centagem dos eleitores favoráveis a W.

Escolha do nível de confiança

O nível de confiança (1 − α) representa a probabilidade, antes da


extração da amostra, de obtenção de um intervalo correto. Após
a extração da amostra o intervalo de confiança poderá conter ou
não o verdadeiro valor do parâmetro e não poderemos ter certeza
de qual destas duas possibilidades é a verdadeira.
Se o nível de confiança for suficientemente grande, considera-se
que o intervalo está correto pois o procedimento que utilizamos
produz intervalos corretos em (1 − α)100% das vezes.

α Nível de Confiança (1 − α)100% za/2


0, 10 90% 1, 645
0, 05 95% 1, 96
0, 01 99% 2, 575
Escolha do nível de confiança

Então, porque não aumentar cada vez mais o nível de


confiança???

Para um tamanho fixo de amostra, aumentar o nível de confiança


acarreta um aumento do comprimento do intervalo, implicando
em perda de precisão da estimativa.

Cálculo do tamanho da amostra (para intervalos de


confiança)

Como saber quantos elementos devem ser escolhidos a fim de


obter o nível de confiança e a precisão desejados, supondo que
faremos uma amostragem aleatória simples com reposição de
uma grande população???
Cálculo do tamanho da amostra (para intervalos de
confiança)
Tamanho de amostra para uma estimação por intervalo de uma
média populacional

(zα/2 )2 σ 2
n=
E2

Caso o σ seja desconhecido, um dos procedimentos seguintes pode


ser escolhido.
◮ Use a estimativa do desvio padrão da população, calculada a
partir de dados de estudos anteriores, como o valor planejado
para σ.
◮ Use um estudo piloto para selecionar uma amostra preliminar.
O desvio padrão amostral da amostra preliminar pode ser usado
como o valor planejado para σ.

Cálculo do tamanho da amostra (para intervalos de


confiança)
Tamanho de amostra para uma estimação por intervalo de uma
proporção populacional

(zα/2 )2 p∗ (1 − p∗ )
n=
E2

Na prática, o valor planejado p∗ pode ser escolhido por meio de um dos


seguintes procedimentos.
◮ Use a proporção amostral de uma amostra anterior das mesmas
unidades ou de unidades similares.
◮ Use um estudo piloto para selecionar uma amostra preliminar. A
proporção amostral dessa amostra pode ser usada como o valor
planejado, p∗ .
◮ Use o valor planejado de p∗ = 0, 50, pois teremos o maior valor
de amostra possível.
Sumário

Introdução

Distribuição Amostral

Estimação

Estimação por Intervalo

Teste de Hipóteses

Inferência Estatística

Fazer afirmações sobre características de uma população, com


base nos dados de uma amostra. Existem dois problemas bási-
cos nesse processo:
◮ Estimação;
◮ Teste de hipóteses.

A teoria da estimação visa identificar quais as estatísticas


indicadas para se fazer estimativas para alguns parâmetros
populacionais.

O teste de hipóteses visa decidir se determinada afirmação sobre


um parâmetro populacional é, ou não, apoiada pela evidência
obtida de dados amostrais.
Noções de testes de hipóteses

Um dos problemas resolvidos pela Inferência Estatística é o de


testar se uma conjectura sobre determinada característica de
uma ou mais populações é, ou não, apoiada pela evidência ob-
tida através dos resultados da amostra.

Conjectura ⇒ hipótese estatística

Regra de decisão ⇒ teste de hipóteses

Alguns exemplos
◮ Testar a hipótese da média do crescimento da renda familiar
em uma região ter sido diferente de zero.

◮ Testar a afirmação de um fabricante de lâmpadas que alega


que seus produtos duram em média 400 horas.

◮ Novo método de fabricação de lâmpadas aumentará o


tempo de vida das lâmpadas.

◮ Testar se o faturamento médio de todas as empresas do se-


tor metal-mecânico localizadas na Bahia neste ano será su-
perior a R$200 milhões.

◮ Determinar qual de dois tratamentos é mais eficiente (pro-


blema de duas amostras).
Alguns exemplos
◮ Testar a hipótese da média do crescimento da renda familiar
em uma região ter sido diferente de zero.

◮ Testar a afirmação de um fabricante de lâmpadas que alega


que seus produtos duram em média 400 horas.

◮ Novo método de fabricação de lâmpadas aumentará o


tempo de vida das lâmpadas.

◮ Testar se o faturamento médio de todas as empresas do se-


tor metal-mecânico localizadas na Bahia neste ano será su-
perior a R$200 milhões.

◮ Determinar qual de dois tratamentos é mais eficiente (pro-


blema de duas amostras).

Noções de testes de hipóteses

Objetivo:
Testar o novo processo de fabricação.

Informação anterior:
Tempo de vida médio das lâmpadas fabricadas pelo processo
padrão é de 1.400 horas.

Pergunta:
O tempo de vida médio das lâmpadas fabricadas pelo novo
processo é maior que 1.400 horas?

Estabelecer as hipóteses:
- o novo processo não é melhor que o padrão;
- o novo processo é melhor que o padrão.
Tipos de Hipóteses
Em geral devemos decidir entre duas hipóteses complementares.
Denominaremos essas hipóteses de

H0 → Hipótese nula
H1 → Hipótese alternativa

No exemplo das lâmpadas se µ representa a média do tempo de


vida das lâmpadas fabricadas pelo novo processo, então,

H0 : µ = 1.400
H1 : µ > 1.400

A decisão de rejeitar H0 é equivalente à opinião “H0 é falsa”. A


decisão de aceitar H0 não é equivalente à opinião “H0 é verda-
deira”. Neste caso a opinião adequada é a de que os dados não
contêm evidência suficientemente forte contra H0 .

Tipos de Hipóteses

É preciso estabelecer um critério de decisão para que a


hipótese H0 seja julgada.

O critério de decisão, fundamentado pela Teoria Estatística, é


baseado na ESTATÍSTICA DE TESTE.

◮ De forma bem genérica e intuitiva, a estatística do teste


mede a discrepância entre o que foi observado na amostra
e o que seria esperado se a hipótese nula fosse verdadeira.

◮ Uma grande distância ou discrepância medida pela distri-


buição de probabilidade é indicação de que H0 não é verda-
deira, devendo, portanto ser rejeitada.
Tipos de Erros

Qualquer que seja a decisão a ser tomada em um teste de hipó-


teses, existe a possibilidade de se cometer erros, devido à pre-
sença da incerteza.

Conclusão Situação real (na população)


do teste H0 verdadeira H0 falsa
Não rejeitar H0 Correto Erro tipo II
Rejeitar H0 Erro tipo I Correto

As probabilidades dos tipos de erros serão designadas por:


◮ α = P(Erro tipo I)= P(Rejeitar H0 , sendo H0 verdadeira)
= P(Rejeitar H0 |H0 verdadeira)
◮ β = P(Erro tipo II)= P(Não rejeitar H0 , sendo H0 falsa)
= P(Não rejeitar H0 |H0 falsa)

Tipos de Erros
Exemplo : No caso das lâmpadas,

Erro tipo I → Aprovar o novo processo de fabricação quando na


realidade ele não é superior;

Erro tipo II → Rejeitar o novo processo de fabricação quando é,


de fato, o melhor.

O erro tipo I é mais grave, pois acarretaria em um Investimento


sem retorno para a indústria.

É fundamental que, em cada caso, se saiba qual são os erros


possíveis e que se decida a priori qual é o mais sério. Não é
possível controlar ambos os erros ao mesmo tempo. Quando
diminuímos muito a probabilidade de erro tipo I, aumentamos a
probabilidade do erro tipo II e vice-versa.
Nível de significância e Poder de Teste

α → Nível de significância do teste


Valores usuais → 10%, 5%, 1%

1 − β → Poder do teste (capacidade de detectar que a hipótese


nula é falsa)

O procedimento geral para testes de hipóteses é especificar o


valor da probabilidade do erro tipo I (α) e, então, planejar um
procedimento de teste de forma a obter uma pequena probabi-
lidade de erro do tipo II (β). O risco β é geralmente função do
tamanho da amostra e é controlado indiretamente. Quanto maior
o tamanho da amostra usada no teste menor o risco β.

Estatística de Teste, Região Crítica e Nível Descritivo


(valor de p)

Existem duas opções para expressar a conclusão final de um


teste de hipótese:

◮ Comparar o valor da estatística de teste com o valor obtido


a partir da distribuição teórica, específica para o teste e
fixando um nível de significância (Procedimento Clássico);

◮ Quantificar a probabilidade do resultado observado ou resul-


tados mais extremos, supondo a hipótese nula verdadeira
(Valor de p).
Estatística de Teste
É um valor baseado nos dados amostrais, sendo utilizado para
tomar uma decisão sobre a rejeição da hipótese nula.

No exemplo das lâmpadas suspeita-se que o tempo de vida mé-


dio das lâmpadas fabricadas pelo novo processo seja superior a
1.400 horas.

Ao selecionarmos uma amostra aleatória de 100 lâmpadas, por


exemplo, pode-se utilizar o valor do tempo de vida médio amos-
tral para “comprovar” ou “refutar” a hipótese nula através de uma
regra de decisão, por exemplo:

Rejeita-se H0 se X̄ > 1.400 horas.

Neste caso, estamos utilizando o valor de X̄ como estatística de


teste.

Região Crítica e Valor Crítico


Região crítica é o conjunto de todos os valores da estatística
de teste que levam à rejeição da hipótese nula. Enquanto que
o valor crítico ou valores críticos separam a região crítica dos
valores que não levam à rejeição da hipótese nula.

Obs: Os valores críticos dependem da natureza da hipótese nula,


da distribuição amostral principal, e do nível de significância α.
Passos para a construção de um Teste de Hipóteses -
Morettin & Bussab (2002)
1. Fixe qual a hipótese H0 a ser testada e qual a hipótese alter-
nativa H1 ;
2. Use a teoria estatística e as informações disponíveis para
decidir qual estatística (estimador) será usada para testar a
hipótese H0 . Obter as propriedades dessa estatística (distri-
buição, média, desvio padrão);
3. Fixe a probabilidade α de cometer o erro tipo I e use este
valor para construir a região crítica;
4. Use as observações da amostra para calcular o valor da es-
tatística do teste;
5. Se o valor da estatística calculado com os dados da amostra
não pertencer à região crítica, não rejeite H0 ; caso contrário,
rejeite H0 .

Tipos de Testes
O tipo de teste será determinado pela hipótese nula H0 . Como as
caudas em uma distribuição são as regiões extremas delimitadas
por valores críticos, a cauda corresponderá à região crítica.
◮ Teste Bilateral

H0 : θ = θ 0 versus H1 : θ 6= θ0
Tipos de Testes

◮ Teste Unilateral Direito

H0 : θ = θ0 (ou θ ≤ θ0 ) versus H1 : θ > θ0

Tipos de Testes

◮ Teste Unilateral Esquerdo

H0 : θ = θ0 (ou θ ≥ θ0 ) versus H1 : θ < θ0


Testes de hipóteses para a média

A média de uma população é uma de suas características mais


importantes e frequentemente tem-se que tomar decisões a seu
respeito.

Suponha que se deseja testar se a média de um processo é igual


a um valor padrão (alvo), digamos µ0 .

Estatística de teste: X̄.

Testes de hipóteses para a média com população


Normal e desvio padrão conhecido (σ = σ0 )

X̄−µ
Propriedades da estatística de teste: ZX̄ = √
σ0 / n
e ZX̄ ∼ N(0, 1)
a. Para o Teste bilateral

H0 : µ = µ0 versus H1 : µ 6= µ0

O teste é dado por:

Rejeita H0 ao nível de significância α se


x̄ − µ0
|z0 | = √ > zα .
σ0 / n 2
Testes de hipóteses para a média com população
Normal e desvio padrão conhecido (σ = σ0 )

b. Para o Teste unilateral à esquerda

H0 : µ = µ0 (ou µ ≥ µ0 ) versus H1 : µ < µ0

O teste é dado por:

Rejeita H0 ao nível de significância α se


x̄ − µ0
z0 = √ < −zα .
σ0 / n

Testes de hipóteses para a média com população


Normal e desvio padrão conhecido (σ = σ0 )

c. Para o Teste unilateral à direita

H0 : µ = µ0 (ou µ ≤ µ0 ) versus H1 : µ > µ0

O teste é dado por:

Rejeita H0 ao nível de significância α se


x̄ − µ0
z0 = √ > zα .
σ0 / n
Testes de hipóteses para a média com população
Normal e desvio padrão conhecido (σ = σ0 )
Exemplo: Foi divulgado que a duração media de uma semana
de trabalho para a população de trabalhadores é de 39,2
horas (Investor’s Business Daily, 11 de setembro de 2000).
Suponha que quiséssemos extrair uma amostra atual de tra-
balhadores para verificar se a duração média de uma semana
de trabalho se modificou das 39,2 horas relatadas anteriormente.

a. Estabeleça as hipóteses que nos ajudem a determinar se


ocorreu uma alteração na duração média da semana de tra-
balho.
b. Suponha que um tamanho de amostra de 112 trabalhadores
tenha produzido uma média amostral de 38,5 horas. Use um
desvio padrão populacional σ = 4, 8 horas. Com α = 0, 05,
a hipótese nula pode ser rejeitada? Qual a sua conclusão?

Testes de hipóteses para a média com população


Normal e desvio padrão desconhecido

Estatística de teste: X̄
X̄−µ
Propriedades da estatística de teste: TX̄ = √
s/ n
e TX̄ ∼ tn−1
a. Para o Teste bilateral

H0 : µ = µ0 versus H1 : µ 6= µ0

O teste é dado por:

Rejeita H0 ao nível de significância α se


x̄ − µ0
|T| = √ > tα/2;(n−1) .
s/ n
Testes de hipóteses para a média com população
Normal e desvio padrão desconhecido

b. Para o Teste unilateral à esquerda

H0 : µ = µ0 (ou µ ≥ µ0 ) versus H1 : µ < µ0

O teste é dado por:

Rejeita H0 ao nível de significância α se


x̄ − µ0
T= √ < −tα;(n−1) .
s/ n

Testes de hipóteses para a média com população


Normal e desvio padrão desconhecido

a. Para o Teste unilateral à direita

H0 : µ = µ0 (ou µ ≤ µ0 ) versus H1 : µ > µ0

O teste é dado por:

Rejeita H0 ao nível de significância α se


x̄ − µ0
T= √ > tα;(n−1) .
s/ n
Testes de hipóteses para a média com população
Normal e desvio padrão desconhecido
Exemplo: De acordo com a National Automobile Dealers As-
sociation, o preço médio dos carros usados é US$ 10.192. O
gerente de uma revendedora de carros usados de Kansas City
revisou uma amostra de 25 vendas recentes de carros usados
em sua revendedora, tentando determinar se o preço médio
populacional dos carros usados vendidos em sua revendedora
em particular diferia em media populacional.

a. Formule as hipóteses que podem ser usadas para determi-


nar se existe uma diferença na media de preço de carros
usados na revendedora.
b. Qual a conclusão do teste com base em um preço médio
amostral US$ 9.750 e um desvio padrão amostral de US$
1.400? Use α = 0, 05.

Testes de hipóteses para a média com população não


Normal e grandes amostras

Estatística de teste: X̄
Propriedades da estatística de teste:

X̄ − µ
ZX̄ = √ e ZX̄ ∼ N(0, 1)
s/ n
devido ao Teorema Central do Limite que garante que se a
amostra for suficientemente grande (n > 30),

X̄ ∼ N(µ, σ 2 /n).
Testes de hipóteses para a média com população não
Normal e grandes amostras

Exemplo: O custo de manutenção de um tear possui média de


200 unidades monetárias. Para verificar a hipótese de que o
custo de manutenção é superior, analisou-se uma amostra de
35 teares e encontrou-se um custo médio de 240 unidades mo-
netárias e desvio padrão de 80 unidades monetárias. Qual a sua
decisão, ao nível de significância de 5%?

Testes de hipóteses para uma proporção

Em muitas situações o objetivo pode ser avaliar a veracidade de


alguma hipótese sobre a proporção de elementos na população
que possuem alguma característica de interesse (p).

Se o tamanho da amostra (n) for suficientemente grande e se p


não for muito próximo de zero ou 1, é possível realizar um teste
de hipóteses para p baseado na distribuição Normal.

Estatística de teste: p̂
p̂−p
Propriedades da estatística de teste: Zp̂ = √ pq e Zp̂ ∼ N(0, 1)
n
Testes de hipóteses para uma proporção

a) Para o Teste unilateral à direita

H0 : p ≤ p0 versus H1 : p > p0

O teste é dado por:

Rejeita H0 ao nível de significância α se

p̂ − p0
z0 = q > zα .
p0 .q0
n

Testes de hipóteses para uma proporção

b) Para o Teste unilateral à esquerda

H0 : p ≥ p0 versus H1 : p < p0

O teste é dado por:

Rejeita H0 ao nível de significância α se

p̂ − p0
z0 = q < −zα .
p0 .q0
n
Testes de hipóteses para uma proporção

c) Para o Teste bilateral

H0 : p = p0 versus H1 : p 6= p0

O teste é dado por:

Rejeita H0 ao nível de significância α se

p̂ − p0
|z0 | = q > z α2 .
p0 .q0
n

Testes de hipóteses para uma proporção

Exemplo: A fábrica A de automóveis afirma que 60% dos consu-


midores compram carros produzidos por ela. Uma fábrica con-
corrente deseja testar a veracidade desta afirmação. Para isso
decide realizar uma pesquisa por amostragem com 300 proprie-
tários de veículos. Suponha agora que os resultados da pesquisa
apontaram 198 proprietários de carros da fábrica A, isto equivale
a uma proporção amostral (p̂) de 66%. (α = 5%)
Comparação entre as médias de duas populações

Casos na comparação de duas amostras

Amostras Independentes X Amostras Dependentes

Duas amostras são independentes se a amostra extraída de uma


das populações não tem qualquer relação com a amostra ex-
traída da outra população. Caso contrário, as amostras dizem-se
dependentes.
Teste para comparação de duas médias populacionais
(com σ 2 conhecidas) - Amostras Independentes

Quando as variâncias populacionais são conhecidas usamos a


distribuição normal. A estatística de teste é dada por:

(X̄1 − X̄2 ) − (µ1 − µ2 )


Z0 = q 2 .
σ1 σ22
n1 + n2

Vejamos as regras de decisão para cada tipo de hipótese consi-


derada:
a. H0 : µ1 ≤ µ2 versus H1 : µ1 > µ2 ⇒ Rejeita H0 se z0 > zα
b. H0 : µ1 ≥ µ2 versus H1 : µ1 < µ2 ⇒ Rejeita H0 se z0 < −zα
c. H0 : µ1 = µ2 versus H1 : µ1 6= µ2 ⇒ Rejeita H0 se |z0 | > zα/2

Teste para comparação de duas médias populacionais


(com σ 2 conhecidas) - Amostras Independentes
Exemplo: Durante uma temporada de 2003, a Major League Ba-
seball tomou medidas para aumentar a velocidade de jogo nos
jogos de beisebol a fim de manter o interesse da torcida (CNN
Headline News, 30 de setembro de 2003). Os resultados apre-
sentados a seguir são de uma amostra de 60 jogos disputados
durante o verão de 2002 e de uma amostra de 50 jogos disputa-
dos durante o verão de 2003. A média amostral exibe a duração
média dos jogos incluídos em cada amostra, que para a tempo-
rada de 2002 foi igual a 2 horas e 52 mim e para a temporada
de 2003 foi igual a 2 horas e 46 mim. Dados históricos indicam
um desvio padrão populacional de 12 mim para ambos os anos.
Teste a hipótese de que as medidas tomadas durante a tempo-
rada de 2003 reduziriam a duração média da população de jogos
de beisebol. Use 0,05 de significância.
Teste para comparação de duas médias populacionais
(com σ 2 desconhecidas) - Amostras Independentes
Quando as variâncias populacionais são desconhecidas temos
que estimá-las. A estatística de teste é dada por:

(X̄1 − X̄2 ) − (µ1 − µ2 )


T0 = q ,
Sc n11 + n12
(n1 −1)S12 +(n2 −1)S22
em que Sc2 = n1 +n2 −2

Vejamos as regras de decisão para cada tipo de hipótese consi-


derada:
a. H0 : µ1 ≤ µ2 versus H1 : µ1 > µ2 ⇒ Rejeita H0 se t0 > tα
b. H0 : µ1 ≥ µ2 versus H1 : µ1 < µ2 ⇒ Rejeita H0 se t0 < −tα
c. H0 : µ1 = µ2 versus H1 : µ1 6= µ2 ⇒ Rejeita H0 se |t0 | > tα/2

Teste para comparação de duas médias populacionais


(com σ 2 desconhecidas) - Amostras Independentes

Exemplo: Desejamos testar se dois tipos de ensino profissional


são igualmente eficazes. Sabe-se que as duas populações têm
distribuição Normal. Para isso, sortearam-se duas amostras de
operários, a cada uma, deu-se um dos tipos de treinamento e,
no final, submeteram-se os dois grupos a um mesmo teste. Que
tipo de conclusão você poderia tirar, baseando-se nos resultados
abaixo. (α = 5%)

Amostra N Média Desvio padrão


Tipo I 12 75 5
Tipo II 10 74 10
Teste para comparação de duas médias populacionais
(com σ 2 desconhecidas) - Amostras Independentes
Podemos utilizar a distribuição Normal para encontrar a região
critica do teste, nos casos em que não conhecemos a variância
populacional, mas o tamanho da amostra é suficientemente
grande. A estatística de teste é dada por:

(X̄1 − X̄2 ) − (µ1 − µ2 )


Z0 = q 2 .
s1 s22
n1 + n2

Vejamos as regras de decisão para cada tipo de hipótese consi-


derada:
a. H0 : µ1 ≤ µ2 versus H1 : µ1 > µ2 ⇒ Rejeita H0 se z0 > zα
b. H0 : µ1 ≥ µ2 versus H1 : µ1 < µ2 ⇒ Rejeita H0 se z0 < −zα
c. H0 : µ1 = µ2 versus H1 : µ1 6= µ2 ⇒ Rejeita H0 se |z0 | > zα/2

Teste para comparação de duas médias populacionais


(com σ 2 desconhecidas) - Amostras Independentes

Exemplo: Pesquisadores estão testando sistemas comerciais de


filtragem de ar fabricados pela Winston Industrial Suply Company
e pela Barrington Filter Company. Testam-se amostras aleatórias
de cada companhia, registrando-se a eficiência da filtragem em
uma escala padrão com os seguintes resultados:

Amostra N Média Desvio padrão


Winston 18 85,7 2,8
Barrington 24 80,6 9,7

(Escores mais altos correspodem a melhor filtragem). Com um


nível de significância de 5%, verifique se ambos os sistemas têm
a mesma filtragem média.
Teste para comparação de duas médias populacionais
- Amostras Dependentes
Também conhecidas por amostras emparelhadas ou pareadas
porque obtemos dois valores para cada indivíduo. Neste caso
a amostra é formada pelos pares [(X1 , Y1 ); (X2 , Y2 ); · · · ; (Xn , Yn )],
dentro de cada par as medidas são dependentes e não nos in-
teressam as medidas individuais, mas sim as diferenças d =
(Xi − Yi ).

Hipóteses
H0 : µd = 0 versus H1 : µd 6= 0
Estatística de Teste
d̄ − µd
t0 = √ ,
sd / n
t-Student com n − 1 gl.

Teste para comparação de duas médias populacionais


- Amostras Dependentes

Exemplo: Um médico deseja determinar se certa droga modi-


fica a temperatura do corpo. Sete pessoas são selecionadas
ao acaso e sua temperatura corporal é medida. A droga é mi-
nistrada e, depois de 20 minutos, a temperatura corpórea é no-
vamente medida. Os resultados estão listados a seguir. Sendo
α = 0, 05, há evidência suficiente para concluir que a droga muda
a temperatura corpórea? Suponha que as temperaturas corpo-
rais estejam normalmente distribuídas.

Pessoas 1 2 3 4 5 6 7
Temperatura inicial 101,8 98,5 98,1 99,4 98,9 100,2 97,9
Segunda Temperatura 99,2 98,4 98,2 99 98,6 99,7 97,8

Você também pode gostar