O Que É Estatística

FGV/EPGE - Mestrado em Finanças e Economia Empresarial
Disciplina: Estatística/2019 - Professor: Eduardo Lima Campos
• O Que é Estatística?
ESTATÍSTICA Estatística é a ciência que permite obter

informações sobre um fenômeno, a partir
do registro de observações deste fenômeno.
Professor: Eduardo Campos
ESTATÍSTICA:
DADOS → INFORMAÇÃO
Estatística Descritiva ou
A estatística divide-se Análise Exploratória de Dados
em duas áreas:
A estatística descritiva ocupa-se da

- Estatística Descritiva análise/descrição de um conjunto de
dados por intermédio de tabelas, gráficos
e/ou medidas-resumo, com o objetivo de
- Inferência Estatística
facilitar sua visualização e compreensão.
Inferência Estatística ou
Exemplo: Estatística Inferencial
Cálculo do coeficiente de rendimento

(c.r.) = média ponderada das notas em A inferência estatística consiste de um
cada disciplina → medida-resumo do conjunto de técnicas para, a partir de uma
desempenho acadêmico de um aluno. amostra selecionada de um universo,
formular conclusões para este universo.
1
• Tipos de Dados
Exemplo:
Dados = matéria prima da estatística.
Pesquisa eleitoral → estimação dos
percentuais de intenções de voto em todo A identificação da ferramenta estatística
o universo eleitoral, a partir de uma adequada para tratá-los depende da
amostra de, digamos, 2.000 pessoas. identificação correta do tipo dos dados.
A seguir são apresentadas as tipologias

mais importantes para classificar dados.
1 - Dados Primários x Secundários 2 - Dados em Corte x Séries Temporais
• Dados primários são aqueles obtidos • Dados em corte (transversal) são aqueles
de forma direta, mediante observação, referentes ao mesmo instante de tempo.
pesquisas ou experimentos controlados.
• Dados de séries temporais são aqueles
• Dados secundários são aqueles que não registrados ao longo de um período de
são obtidos diretamente, e sim mediante tempo, com determinada frequência.
publicações (como relatórios ou artigos).
Obs - Dados que possuem ambas as 3 - Dados Qualitativos x Quantitativos

dimensões (de corte e de tempo) são
denominados longitudinais ou em painel. • Dados qualitativos são aqueles que
representam um atributo ou qualidade.
• Dados em painel consistem no registro de Exemplos: profissão, gênero, raça, estado
informações ao longo do tempo para um civil, classe social, nível de educação, etc.
conjunto de unidades em corte transversal.
• Dados quantitativos são números que
resultam de uma contagem ou medida.
Também podem ser encarados como
um conjunto de n séries temporais. Exemplos: idade, peso, altura, renda, número
de filhos, número de banheiros em casa, etc.
2
Exemplo 1.1 - Faturamento bruto no mês

passado, em milhões de R$, das 30 filiais
de uma determinada empresa de varejo:
1. ESTATÍSTICA 11,8 3,6

8,9 9,1
16,6 13,5 4,8 8,3
7,7 2,3 12,1 6.1
10,2 8,0 11,4 6,8 9,6 19,5
DESCRITIVA 15,3 12,3 8,5 15,9 18,7 11,7
6,2 11,2 10,4 7,2 5,5 14,5
Que conclusões você pode tirar?
Esses dados estão na chamada forma Distribuição de Frequências

bruta, difícil de analisar diretamente.
Precisamos usar técnicas adequadas para A distribuição de frequências é
resumí-los ou facilitar sua visualização. uma tabela que agrupa os dados
em classes (intervalos), indicando o
número ou a proporção de observações
É disto que trata a que pertencem a cada uma das classes.
estatística descritiva!
As classes não precisam
ter amplitudes iguais.
• Distribuição de Frequências Absolutas • Distribuição de Frequências Relativas

Classe Frequência Representa a proporção ou o percentual
2 | 5 3 de observações que caem em cada classe.
5 | 8 7 Classe Frequência Relativa
8 | 11 7
2 | 5 3/30 = 0,1 = 10%
11 | 14 7 5 | 8 = 7/30 ou 23,33%
14 | 17 4 8 | 11 23,33%
17 | 20 2 11| 14 23,33%
Total: 30 14 | 17 13,33%
A notação | significa que o extremo inferior da classe 17 | 20 6,67%
não está incluído, e o extremo superior está incluído! Total: 1 = 100%
3
Histograma (Frequências Absolutas) - ex. 1.1:

Histograma
Frequências
10
O histograma é uma representação 8
gráfica da distribuição de frequências. 6
4
Como obter o histograma? 2

0 Classes
Colocar as classes no eixo horizontal, 2-|5 5-|8 8-|11 11-|14 14-|17 17-|20
as frequências no eixo vertical,
e traçar um diagrama de barras. O histograma de frequências relativas tem o
mesmo formato, com o eixo vertical modificado.
Exemplo 1.2
• Gráfico de Barras
Número de reclamações diárias x frequência
em certo mês, no SAC de uma empresa:
Representação gráfica apropriada para
variáveis que representam contagens.
Consiste de barras verticais centradas

nos valores assumidos pela variável,
e com espaços separando as barras.
Exemplo 1.3:
• Gráfico de Pizza ou de Setores
O gráfico de pizza, ou de setores, é um

diagrama estatístico bastante popular.
É apropriado quando o objetivo

é identificar partes de um todo.
4
• Medidas de Posição
Média
Uma medida de posição é um valor em
torno do qual os dados estão concentrados. É a soma das observações dividida
pelo número de observações:
n
Sinônimos: medida de localização ∑x i x 1 + x 2 + ... + x n
ou de tendência central. µ= i =1
= .
n n
Principais medidas de posição:
no de i-ésima
Média , Mediana e Moda. observações observação
Exemplo 1.4:
No exemplo 1.1, o faturamento médio
é µ = 307,7/30 = 10,3 milhões. Salários de economistas recém-formados
(em R$ 1.000): 2,8; 6,0; 2,6; 3,1; 3,0.
Note que o valor 10,3 não ocorre.
Salário médio (destes 5 economistas):
µ = 3,5 (R$ 3.500,00).
Nenhum problema!
A média de um conjunto de dados não
Este número é representativo
precisa ser um dos valores observados.
dos salários desses 5 economistas?
R: Não, pois está bem acima

Conclusão:
de 4 dos 5 valores.
A média é uma medida de posição

Claramente, o valor responsável muito sensível à presença de outliers!
por esta distorção foi o “6,0”.
O “6,0” é um valor atípico ou discrepante, Neste caso, é recomendável utilizar outra

tecnicamente denominado outlier. medida de posição, chamada mediana!
5
Exemplo 1.4 (cont.):

Mediana
Salários ordenados:
É o valor Md que divide os dados 2,6; 2,8; 3,0; 3,1; 6,0.
ordenados em duas partes iguais.
Se n for ímpar: Md = observação central. Md = 3,0.
Se n for par: Nota-se que 3,0 é mais representativo da

Md = média das duas observações centrais. posição ou tendência central dos salários.
Em algumas situações, nem a média nem

a mediana serão medidas apropriadas.
Obs - A mediana é uma medida de posição
robusta ou resistente. O sentido é que ela resiste Exemplo 1.5 - O gerente de uma loja de
(mantém seu valor) na presença de outliers. calçados está interessado em saber qual
tamanho de calçado ele deve priorizar na
hora de planejar seu estoque, a partir dos
tamanhos dos calçados vendidos no último
mês. Qual a medida de posição adequada?
Moda Um conjunto de dados que possua 2 modas

é chamado bimodal. Se possui mais de 2,
multimodal. Se não possui moda, amodal.
A moda é o valor que ocorre com
maior frequência em um conjunto
Embora as três medidas de posição
de observações (notação: Mo).
apresentadas até aqui sejam as medidas
de posição mais “populares”, existem
Exercício 1.1 - As notas de uma turma algumas outras que também são
foram: 9, 7, 8, 6, 3, 8, 7 e 8. Obtenha a importantes, apresentadas a seguir.
média, a mediana e a moda das notas.
6
Exemplo 1.6 - Em uma pequena empresa,

os salários dos 12 funcionários estão Média Ponderada
distribuídos da seguinte forma:
A média ponderada, µp, é definida como:
k
5 ganham R$ 2.500,00; ∑ ω jx j
2 ganham R$ 3.000,00; j=1 ω1x 1 + ω2 x 2 + ... + ωk x k
µp = = .
3 ganham R$ 4.000,00;
k
∑ ωj ω1 + ω2 + ... + ωk
2 ganham R$ 4.500,00. j=1
peso do j-ésimo valor distinto de x (no

Calcule o salário médio dos exemplo = frequência do j-ésimo salário)
funcionários desta empresa. Resposta do exemplo 1.6: R$ 3.291,67.
Exercício 1.2 - Obtenha o peso médio da

Obs - Média para Dados Agrupados população cuja distribuição de frequências é:
Classe Frequência
Quando os dados estão disponíveis agrupados  50 Kg
40 | 2
(na forma de uma distribuição de frequências),  60 Kg
50 | 5
só é possível obter a média por aproximação.  70 Kg
60 | 7
 80 Kg
70 | 8
 90 Kg
80 | 3
O que se faz é a média dos pontos médios
das classes, ponderados por suas frequências.
Solução: µ ≅ (2*45 + 5*55 +
7*65 + 8*75 + 3*85)/25 = 67 Kg.
Exemplo 1.7 - Seja um investimento com

Média Geométrica taxas de retorno anuais de 10 e 20% nos
anos 1 e 2, respectivamente.
A média geométrica µg é
definida da seguinte forma: A média simples (aritmética) dos retornos
é 15%. Isto poderia levar à impressão de
que alguém que invista neste ativo por 2
µ g = (x 1 x 2 ...x n )n .
1
anos obteria um retorno de 15% ao ano,
uma conclusão totalmente equivocada.
7
Para ilustrar, considere um capital de

R$ 1000,00 investido no início do ano 1.
O retorno médio efetivo ou equivalente
Qual o valor capitalizado ao final dos 2 anos? Req é o retorno por período que levaria
ao mesmo valor final caso os retornos
de todos os períodos fossem iguais.
1.000*(1+R1)*(1+R2) = 1.000*1,1*1,2 =
R$ 1.320,00.
fator de capitalização fator de capitalização

no ano 1 no ano 2
O fator de capitalização equivalente No exemplo 1.7:

referente a n períodos é obtido por meio
da média geométrica dos fatores de
capitalização referentes à cada período: (1 + R eq ) = (1 + R 1 )(1 + R 2 ) = 1,32 = 1,148913,
(1+Req)n = (1+R1)(1+R2)...(1+Rn) de tal forma que Req = 14,8913%.

⇓
(1+Req) = [(1+R1)(1+R2)...(1+Rn)]1/n
Interpretação: para obter o valor final de R$
1.320,00 com a mesma taxa de retorno em
E daí se obtém o Req. cada ano, esta taxa teria que ser 14,8913%.
• Medidas de Dispersão Exemplo 1.8 - Dois fornecedores, A e

B, apresentaram os seguintes prazos de
Frequentemente, uma medida de posição entrega, referentes aos últimos 5 clientes
não fornece todas as informações de que (em dias):
precisamos para tomar uma certa decisão. Fornecedor A – 18; 10; 17; 3; 2.
Fornecedor B – 9; 10; 10; 9; 12.
Por exemplo, uma pessoa com metade
do corpo em um forno, e a outra metade
em um freezer, “na média” estará bem! Com base nos prazos acima, qual dos
fornecedores você escolheria: A ou B?
8
Naturalmente, você escolheria o fornecedor B Seja (xi-µ) o desvio de xi em relação à média.

(menor risco inerente ao prazo de entrega). Possíveis medidas de dispersão seriam:
A medida de dispersão mais simples é a n
n ∑ ( x − µ)
i
amplitude total = máximo - mínimo. ∑ ( x − µ) ou i =1
.
i
i =1 n
Uma forma mais completa de definir Solução:
uma medida de dispersão é: valor que Problema: trabalhar com
os módulos
nos informa o quanto os dados variam n ou quadrados
em torno de uma medida de posição. ∑ (x − µ) = 0, sempre!
i =1
i
dos desvios!
σ2)
Variância (σ Forma alternativa para o cálculo de σ2:
É a média dos quadrados dos desvios:

n n
∑ x i2 − nµ 2 ∑ x i2
n
∑ (x i
− µ) 2
σ2 = i =1
. σ2 = i =1
= i =1
− µ2.
n n n
Exercício 1.2 - Seja um conjunto de 3 dados:

x1 = 2, x2 = 5 e x3 = 8. Ache a variância. R: 6.
A variância apresenta um sério problema: ela

σ)
Desvio Padrão (σ
é expressa no quadrado da unidade original,
em geral uma unidade que sequer faz sentido.
σ = σ2 .
Como consequência, a variância
não possui interpretação direta.
O desvio padrão preserva a unidade original
dos dados (no exemplo, é expresso em dias).
Por esta razão o desvio padrão, apresentado Adicionalmente, se os dados são gerados por
a seguir, é adotado com maior frequência. uma distribuição Normal de probabilidade,
ele possui interpretação direta (capítulo 5).
9
Exemplo 1.9: A curva mais clara (ação B) oscila em torno de

um patamar superior àquele em torno do qual
• Aplicação em Análise de Investimentos oscilam os retornos da ação A.
RETORNOS DIÁRIOS DE 2 AÇÕES
É usual analisar a média e o desvio padrão dos 12

10
retornos (variações de preço) de um ativo. 8
6
4 Ação A
2
0 Ação B
13
17
21
25
29
33
37
41
45
49
1
9
-2
Neste contexto, o desvio padrão é uma medida -4
-6
do risco do ativo, chamada volatilidade. -8
DIAS
Em compensação, a flutuação dos retornos da

ação B é bem maior → maior risco.
Exemplo 1.10 - Suponha que estejamos

Coeficiente de Variação (CV) interessados em estudar a variabilidade de
salários em diferentes ramos de atividade
Quando queremos comparar dados profissional. Como um caso extremo,
expressos em diferentes unidades ou considere a comparação entre salários
magnitudes, o uso do desvio padrão de gerentes e de auxiliares de escritório.
leva a conclusões equivocadas, sendo
necessário utilizar uma outra medida Sabe-se que o salário médio dos
chamada coeficiente de variação. gerentes é de R$ 5.000,00 e o dos
auxiliares de escritório é de R$ 500,00.
O desvio padrão dos salários dos gerentes Fórmula do Coeficiente de Variação:

foi igual ao dos salários dos auxiliares
de escritório, ambos iguais a 100. σ
Isto indica variabilidade alta ou baixa? CV = .
µ
No caso dos auxiliares de escritório, cujos
salários estão em torno de R$ 500,00, é alta. CV dos salários dos auxiliares de
escritório: 100/500 = 0,2 ou 20%.
Já para os gerentes, cujos salários estão em CV dos salários dos gerentes: 100/5.000 =
torno de R$ 5.000,00, é relativamente baixa. 0,02 ou 2% ⇒ dispersão relativa menor.
10
Propriedades do Coeficiente de Variação: • Outras Medidas Importantes
1 - É adimensional, isto é, não é expresso Medidas de posição e dispersão são

em nenhuma unidade de medida. importantes, mas não exaustivas para
representar um conjunto de dados.
2 - É uma medida de dispersão relativa.
3 - CV pequeno = dados homogêneos Estudaremos a seguir os conceitos

e CV grande = dados heterogêneos. de assimetria, curtose e percentis.
A figura a seguir ilustra as três possibilidades, e

Assimetria respectivas relações entre as medidas de posição:
A assimetria é uma medida do quanto a

distribuição dos dados está afastada de um
aspecto simétrico em relação ao eixo central.
Se a metade esquerda da curva é um “espelho” esta esta distribuição

esta distribuição
da metade direita, dizemos que os dados são distribuição apresenta assimetria apresenta assimetria
é simétrica negativa ou à esquerda
simétricos. Caso contrário, que são assimétricos. positiva ou à direita
Curtose
Percentis (ou Quantis)
A curtose é uma medida do
“achatamento” da distribuição dos dados. O p-ésimo percentil ou percentil p de
um conjunto de dados é o valor x tal que
referência
p% dos dados são menores ou iguais a x.
Os percentis 25, 50 e 75 são chamados quartis:

aspecto pontiagudo, com
250 Percentil = primeiro quartil (Q1)
aspecto achatado, com valores concentrados em 500 Percentil = segundo quartil (Q2) = mediana
valores distribuídos de um intervalo estreito e
modo uniforme caudas mais pesadas 750 Percentil = terceiro quartil (Q3).
11
Quartis • Amplitude Interquartílica
São medidas Q1, Q2 e Q3 que É uma medida de dispersão dada pela

dividem os dados em 4 partes iguais. diferença entre o terceiro e o primeiro quartis:
∆Q = Q3 – Q1.
Obs - não confundir com amplitude

total = valor máximo - valor mínimo.
Box-Plot Exemplo 1.11 - Seja o seguinte conjunto de

dados (ordenado): 5, 10, 12, ... , 37, 42, 45.
É um diagrama que representa:
Sabendo-se que os quartis são 20, 25
- a mediana,
(mediana) e 28, obtenha o box-plot.
- os quartis Q1 e Q3,
- uma linha que vai de Q3 até a maior
observação menor ou igual a LS = Q3+1,5∆Q,
- outra linha que vai de Q1 até a menor
observação maior ou igual a LI = Q1-1,5∆Q.
Como detectar e identificar o tipo de assimetria?

Aplicações do Box-Plot
A partir das distâncias da mediana aos quartis.
1. Comparar dispersões (via amplitudes Se a mediana está mais próxima de Q1,
interquartílicas) de dois conjuntos de dados. os dados apresentam assimetria positiva.
Se a mediana está mais próxima de Q3,
2. Identificar a presença de assimetria os dados apresentam assimetria negativa.
(e o tipo dela – se é positiva ou negativa).
Uma distância igual entre a mediana e cada um
dos quartis é condição necessária para simetria.
12
Exercício 1.3 - As idades das mulheres

Aplicações do Box-Plot (cont.)
com 40 anos ou mais, em uma localidade,
3. Detectar a presença de outliers: apresentam Q1 = 49, Md = 54 e Q3 = 63. A
mais velha tem 71 anos. Obtenha o box-plot.
Valores acima de LS são outliers (superiores)
Valores abaixo de LI são outliers (inferiores)
Solução:
Os outliers costumam ser assinalados com *.
• Análise Bidimensional
Diagrama de Dispersão
É a análise estatística que envolve 2 variáveis.
Por exemplo: Um diagrama de dispersão é um

gráfico de pontos {(xi,yi); i = 1,2,...,n}
1) gasto com alimentação e renda que indica se parece ou não existir
alguma relação entre 2 variáveis X e Y,
2) nota em uma prova e horas de estudo e identificar qual o tipo desta relação.
3) vendas e investimento em publicidade
cada ponto desses representa o valor
etc. de X e de Y para a i-ésima observação
Covariância A covariância evidencia o sentido da relação

entre as variáveis, mas o interesse maior
costuma ser medir a força desta associação.
A covariância é uma medida da
variabilidade conjunta de X e Y.
Fórmula: No caso de relações lineares (isto é, aquelas

n n que são bem representadas por uma reta), o
∑ (x i − µ X )( y i − µ Y ) ∑x y i i coeficiente de correlação resolve o problema.
σ XY = i =1
= i =1
− µ Xµ Y .
n n
13
Interpretação do
Coeficiente de Correlação Coeficiente de Correlação:
O coeficiente de correlação é um - Se a relação linear entre X e Y for

número entre -1 e 1, que mede a força positiva e perfeita, a correlação é igual a 1.
da associação linear entre X e Y.
- Se a relação linear entre X e Y for
negativa e perfeita, a correlação é igual a -1.
Fórmula:
σ XY
ρ XY = . - Se não houver relação linear: o valor
σXσY do coeficiente de correlação é zero.
Obs - Correlação x Independência! Se a relação linear entre X e Y for positiva,

mas não perfeita, a correlação está entre 0 e 1.
É importante frisar que a correlação mede
apenas a força de uma associação linear, Neste caso, quanto maior a intensidade da
não fornecendo informação acerca de associação, mais próximo ρXY está de 1.
relações de dependência não lineares.
Por exemplo, um coeficiente de correlação
Por exemplo, se Y = X2, ρXY = 0, igual a 0,95 indica uma relação linear
porém as variáveis são dependentes. positiva e forte entre X e Y.
Se a relação linear entre X e Y for negativa, Resumo das Propriedades do

mas não perfeita, a correlação está entre -1 e 0. Coeficiente de Correlação:
1 - varia entre -1 e 1
Neste caso, quanto maior a intensidade da
2 - é adimensional (não possui unidade)
associação, mais próximo ρXY está de -1.
3 - representa a força da relação
linear (apenas) entre 2 variáveis.
Por exemplo, um coeficiente de correlação
igual a -0,1 indica uma relação linear
negativa e fraca entre X e Y. Obs - correlação x causalidade.
14
Os 3 conceitos fundamentais da teoria

da probabilidade são os seguintes:
2.
1 - Experimento Aleatório
PROBABILIDADE 2 - Espaço Amostral
3 - Evento.
(CONCEITOS E
LEIS BÁSICAS) Cada um deles é apresentado
e exemplificado a seguir.
Notas de Aula - Professor Eduardo
Lima Campos.
Experimento Aleatório
Embora o resultado de um experimento
aleatório não possa ser pré-determinado,
Um experimento aleatório é uma ação
é possível descrever o conjunto dos
cujo resultado não pode ser previsto.
resultados que podem ocorrer.
Exemplos:
2.1 - Lançar um dado e observar a
Este conjunto é chamado
face que fica voltada para cima.
espaço amostral.
2.2 - Selecionar uma bolinha de uma urna com
bolinhas vermelhas e azuis e verificar sua cor. Notas de Aula - Professor Eduardo
Lima Campos.
Espaço Amostral Evento
O espaço amostral associado a um Um evento é um

experimento aleatório é o conjunto subconjunto do espaço amostral.
de todos os seus possíveis resultados.
No exemplo 2.1, alguns possíveis eventos são:
Notação: S. A = ´face par` = {2,4,6};
No exemplo 2.1 – S = {1,2,3,4,5,6}. B = ´face>3` = {4,5,6};
No exemplo 2.2 – S = {ázul`,´vermelha`}. C = ´face=2` = {2}.
Lima Campos.
15
Um evento ocorre quando o resultado do • União e Interseção de Eventos

experimento é um ponto que pertence a ele.
Exemplos com os eventos do slide anterior:

No exemplo 2.1, considere os eventos:
Se a face observada foi o 5,
dizemos que B ocorreu,
Se a face observada foi o 4, A: ´Face par` = {2,4,6}
dizemos que A e B ocorreram, B: ´Face > 3` = {4,5,6}
e assim por diante...

Lima Campos.
O evento Á ou B ocorre` é dado pela Probabilidade – Definição

união do evento A com o evento B.
A∪B = {2,4,5,6}.
Seja A um evento definido em um espaço
amostral S. A probabilidade de A, denotada
O evento Á e B ocorrem` é dado pela por P(A), é uma função que satisfaz a 3
interseção do evento A com o evento B. Axiomas, os quais são apresentados a seguir.
A∩B = {4,6}.
Lima Campos.
Propriedades da Probabilidade: • Eventos Especiais e suas Probabilidades

Axiomas da Probabilidade
O espaço amostral S é o evento
quanto mais perto de 1, maior a probabilidade de que A ocorra.
certo, cuja probabilidade é 1 (Axioma 2).
1) 0 ≤ P(A) ≤ 1, p/ todo A definido em S.
O conjunto ∅ (vazio) é o evento
este é um evento
especial, chamado
impossível, cuja probabilidade é 0.
2) P(S) = 1. evento certo.
O evento composto de todos os pontos
não favoráveis a A é chamado evento
3) P(A∪B) = P(A) + P(B), se A∩B = ∅.
complementar de A e denotado por Ac.
O Axioma 3 pode ser generalizado para mais de 2 eventos. Por exemplo,
P(A∪B∪C) = P(A)+P(B)+P(C), se os 3 pares possíveis têm interseções vazias.
Sua probabilidade é: P(Ac) = 1-P(A).
16
Exemplo 2.3 - Seja o experimento: lançar 3

• Atribuição de Probabilidades moedas e observar as faces voltadas para cima.
Se os elementos do espaço amostral são Seja: ĆA` = cara e ĆO` = coroa.

todos equiprováveis, a probabilidade de
O espaço amostral associado
um evento A é obtida da seguinte forma:
a este experimento aleatório é:
casos favoráveis
S = {(CA,CA,CA);(CA,CA,CO);
#A (CA,CO,CA);(CO,CA,CA);(CA,CO,CO);
P( A ) = ao evento A
(CO,CA,CO);(CO,CO,CA);(CO,CO,CO)},
#S casos possíveis
totalizando #S = 8 casos possíveis.
Seja o evento: A = ´2 caras`. Obs - A abordagem anterior para obter

Obtenha a probabilidade de A. probabilidades é chamada clássica.
Existem duas outras abordagens:
Solução:
Abordagem Frequentista: A probabilidade
A = {(CA,CA,CO);(CA,CO,CA);(CO,CA,CA)} de um evento A é a frequência relativa de
ocorrência de A, quando o experimento
#A = 3 casos favoráveis. aleatório é repetido muitas vezes (n→∞).
#A 3 Abordagem Subjetivista: baseada

P( A ) = = . na opinião de especialistas.
#S 8
Lima Campos.
Lei da Adição
(Probabilidade do ÓU`) Exemplo 2.4 - Um aluno estuda para um
exame por 2 livros. O primeiro aborda
Sejam A e B dois eventos, com interseção
30% do programa. O segundo, 28%. 24%
A∩B. Qual a probabilidade de A∪B?
do programa é abordado pelos dois livros.
(ou seja, de que A ou B ocorram)
A Lei da Adição fornece a solução deste Qual a probabilidade de que determinado
problema, por meio da seguinte fórmula: tópico do programa esteja em pelo menos
um dos dois livros utilizados pelo aluno?
∪B) = P(A) + P(B) - P(A∩
P(A∪ ∩B)
Notas de Aula - Professor Eduardo Notas de Aula - Professor Eduardo
Lima Campos. Lima Campos.
17
Solução: Seja A = ´tópico estar no • Leis de DeMorgan

primeiro livro` e B = ´tópico estar no
segundo livro`. Pede-se P(A∪B).
São dados no enunciado: Ac∩Bc = (A∪
∪B)c
P(A) = 0,30, P(B) = 0,28 Ac∪Bc = (A∩
∩B)c
e P(A∩B) = 0,24.
Aplicando a Lei da Adição: Exemplo 2.4 (cont.) - Calcule a

probabilidade de que o conteúdo não
P(A∪B) = 0,30 + 0,28 – 0,24 = 0,34. esteja em nenhum dos dois livros.
Lima Campos.
Exemplo 2.5 - Distribuição por sexo dos

Eventos Mutuamente Exclusivos funcionários promovidos em uma empresa:
2 eventos A e B são mutuamente

exclusivos (ou disjuntos) se a ocorrência Promovidos Não-Promovidos Total
de um impede a ocorrência do outro. Se B Masc. 46 184 230

ocorre, então A não ocorre, e vice-versa. Fem. 8 72 80
Total 54 256 310
Em outras palavras, são aqueles que não
possuem pontos em comum, ou seja:
∩B = ∅, o que implica P(A∩
A∩ ∩B) = 0. Responda as perguntas a seguir.
a) Qual a probabilidade de um funcionário ser b) Qual a probabilidade de um funcionário

do sexo masculino e ter sido promovido? do sexo masculino ter sido promovido?
Solução: sejam os eventos: A = ´ter sido

O que está sendo pedido é a
promovido` e B = ´ser do sexo masculino`.
probabilidade (condicional) de A
Diretamente da tabela, temos que 46 dado B, denotada por P(A|B).
indivíduos satisfazem ambas as condições.
Obs - Perceba a diferença entre P(A|B) e
Assim: P(A∩B) = 46/310 = 0,1483.
P(A∩B). Esta é uma confusão comum!
Lima Campos.
18
A idéia é que somente os casos favoráveis

ao evento condicionante (B = ´ser do sexo A probabilidade de A dado B
masculino`) passam a ser os casos possíveis. é, portanto, 46/230 = 0,2.
Promovidos Não-Promovidos Total

Se dividirmos numerador e denominador
Masc. 46 184 230 acima pelo total de funcionários (310),
Fem. 8 72 80 obtemos P(A|B) em função de P(A∩B)
Total 54 256 310 e P(B), conforme apresentado a seguir.
Probabilidade Condicional Exemplo 2.6 - Considere novamente

o exemplo 2.1, e sejam os eventos:
Sejam 2 eventos A e B, A: ´Face par` e B: ´Face > 3`.

tais que P(B)>0.
a) Calcule P(A|B).
A probabilidade de A dado B é:
∩B)/P(B).
P(A|B) = P(A∩ R: 2/3.

Lima Campos.
Eventos Independentes Exemplo 2.6 (cont.) - b) A: ´face par` e

B: ´face > 3` são eventos independentes?
2 eventos são independentes se a
ocorrência de um não interfere na
R: não, pois P(A|B) ≠ P(A).
probabilidade de ocorrência do outro.
Ou seja, se: Obs - Não confunda eventos

independentes com eventos
P(A|B) = P(A). mutuamente exclusivos!
19
Exemplo 2.7 - Em uma classe, os percentuais Solução:

de aprovados em álgebra e literatura são,
respectivamente, 75% e 84%. 63% são Sejam A = ´ter passado em álgebra`
aprovados em ambas as disciplinas. e B = ´ter passado em literatura`.
a) Qual a probabilidade de um aluno ter
passado em álgebra ou em literatura? a) P(A∪B) = P(A) + P(B) - P(A∩B)
= 0,75 + 0,84 – 0,63 = 0,96.
b) Se um aluno passou em literatura, qual a
probabilidade de ter passado em álgebra? b) P(A|B) = P(A∩B)/P(B) = 0,75.
c) Ter passado em álgebra e ter passado c) Sim, pois P(A|B) = P(A) = 0,75.
em literatura são eventos independentes?
Exemplo 2.8 - Seja uma urna com 8

Para revolver o problema, basta inverter a
bolinhas azuis e 4 vermelhas. 2 bolinhas
fórmula da probabilidade condicional para
são selecionadas ao acaso desta urna.
∩B) como função de P(A|B) e
obter P(A∩
a) Qual a probabilidade de que a primeira P(B).
bolinha retirada da urna seja vermelha
e que a segunda seja azul? ∩B)/P(B).
P(A|B) = P(A∩
Seja A = segunda bolinha azul e ⇓
B = primeira bolinha vermelha. ∩B) = P(A|B)P(B).
P(A∩
Queremos P(A∩B).
Lei da Multiplicação
(Probabilidade do É`) Solução do exemplo 2.8, item a:
Sejam A e B dois eventos, com P(B)>0. Qual A = segunda bolinha azul e B = primeira
a probabilidade de que A e B ocorram? bolinha vermelha. Do enunciado, temos
que: P(A|B) = 8/11 e P(B) = 4/12.
A Lei da Multiplicação fornece a solução
deste problema, por meio da fórmula a seguir:
Assim:
P(A∩B) = 8/33.
∩B) = P(A|B)P(B)
P(A∩
Lima Campos.
20
Diagrama de Árvore: ∩B no Diagrama de Árvore:

• Evento A∩
P(A|B) A P(A|B) A
P(B) B P(B) B
P(Ac|B) Ac P(Ac|B) Ac
P(A|Bc) A P(A|Bc) A
P(Bc) P(Bc)
Bc Bc
P(Ac|Bc) Ac P(Ac|Bc) Ac
• Forma-Produto para Independência Exercício 2.1 - Sejam 2 eventos A e B

tais que P(A) = 0,3 e P(A∪B) = 0,5.
Vimos que, pela Lei da Multiplicação:
P(A∩∩B) = P(A|B)P(B). Determine o valor de P(B) se:
Por outro lado, vimos que 2 eventos A e B

a) A e B são mutuamente exclusivos.
são independentes se: P(A|B) = P(A).
b) A e B são independentes.
Pode-se concluir que A e B são

independentes se: P(A∩∩B) = P(A)P(B). Respostas: a) 0,2. b) 2/7.
Lima Campos.
• Evento A no Diagrama de Árvore

Exemplo 2.8 (cont.)
P(A|B) A
b) Qual a probabilidade de que a segunda B
P(B)
bolinha selecionada seja azul?
P(Ac|B) Ac
Considere novamente:
P(A|Bc) A
A = segunda bolinha azul e P(Bc)
Bc
B = primeira bolinha vermelha.
P(Ac|Bc) Ac
21
Lei da Probabilidade Total Solução do exemplo 2.8, item b:
Sejam A e B dois eventos, em que A Do enunciado, temos que:

possa ocorrer condicionado a B ou a Bc.
P(A|B) = 8/11, P(B) = 4/12,
A probabilidade “total” do evento A pode P(A|Bc) = 7/11 e P(Bc) = 8/12.
ser calculada por meio da seguinte fórmula:
Assim:
P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)
P(A) = 2/3.
Exemplo 2.9 - A empresa X lança um Uma dica aqui é começar identificando

serviço inédito de envio de mensagens os possíveis eventos de interesse, e as
pelo celular. Ela calcula que este novo probabilidades fornecidas no enunciado:
serviço gera lucro no primeiro ano com
A: ´serviço é lucrativo p/ a empresa X`
probabilidade 0,6, caso o concorrente
B: ćoncorrente introduz serviço semelhante`.
não introduza um serviço semelhante.
Caso contrário, a probabilidade de lucro São fornecidas no enunciado
é 0,3. Suponha ainda que exista 50% de as seguintes probabilidades:
chances de que o concorrente introduza
um serviço semelhante naquele ano. P(A|B) = 0,3; P(A|Bc) = 0,6 e P(B) = 0,5.
Solução:
a) Qual a probabilidade de que o concorrente
a) Pela Lei da Multiplicação, temos que:
introduza o serviço e que, mesmo assim, ele
seja lucrativo para a empresa X? P(A∩B) = P(A|B)P(B) = 0,3*0,5 = 0,15.
b) Pela Lei da Probabilidade Total:

b) Qual a probabilidade de que o serviço
seja lucrativo para a empresa X? P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)
= 0,3*0,5 + 0,6*0,5 = 0,45.
c) Qual a probabilidade de que o serviço
seja lucrativo para a empresa X ou o c) Pela Lei da Adição:
concorrente introduza o serviço? P(A∪B) = P(A) + P(B) – P(A∩B)
= 0,45 + 0,5 – 0,15 = 0,8.
22
Exemplo 2.10 - 2 máquinas (M1 e M2) são

Um item é selecionado aleatoriamente.
usadas para fabricar o mesmo tipo de item.
Suponha que:
60% dos itens tenham sido fabricados por M1,
a) Qual a probabilidade de
40% dos itens tenham sido fabricados por M2, que ele seja defeituoso?
e que:
1% dos itens fabricados por M1 têm defeito,
2% dos itens fabricados por M2 têm defeito.
Os eventos de interesse são: Solução do item a:

Sejam A = ´ser defeituoso` e
B = ´ter sido produzido por M1`. Pede-se P(A)
São fornecidas no enunciado Aplicando a Lei da Probabilidade Total:

as seguintes probabilidades:
P(B) = 0,6, P(Bc) = 0,4, P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)
P(A|B) = 0,01 e P(A|Bc) = 0,02. = 0,01*0,6 + 0,02*0,4 = 0,014.

Solução do item b: pede-se P(B|A), que

pode ser obtida da seguinte forma:
b) Se (= dado que) o item selecionado ∩B)/P(A)

P(B|A) = P(A∩
é defeituoso, qual a probabilidade de
= P(A|B)P(B)/P(A)
que ele tenha sido produzido por M1?
= 0,01*0,6/0,014 = 0,429.
A fórmula acima, que permite obter P(B|A) a

partir de P(A|B) é chamada Teorema de Bayes.
23
Exemplo 2.11 - Um candidato que

Teorema de Bayes cursou o MFEE tem probabilidade 0,9
de ser selecionado para uma vaga em
Sejam A e B eventos definidos em S, sendo um cargo gerencial. Caso contrário,
A dependente de B, na sequência: B ⇒ A. esta probabilidade é de apenas 0,3.
O Teorema de Bayes (p/ 2 eventos) se ocupa 70% dos candidatos cursaram o MFEE.
da sequência reversa: A ⇒ B, fornecendo:
obtida a) Calcule a probabilidade de que um candidato
P(A | B)P(B)
P( B | A ) = . pela Lei da
Probabilidade
ao acaso seja selecionado para a vaga.
P(A) Total
Lima Campos.
Os eventos de interesse são: Solução do Item a:
A = ´ser selecionado`
B = ´ter cursado o MFEE`. Pede-se P(A).
São fornecidas no enunciado Aplicando a Lei da Probabilidade Total:

P(A|B) = 0,9, P(A|Bc) = 0,3 e P(B) = 0,7. P(A) = P(A|B)P(B) + P(A|Bc)P(Bc)

= 0,9*0,7 + 0,3*0,3 = 0,72.
Solução do Item b:
Exemplo 2.11 (cont.)
Pede-se P(B|A)
b) Se um candidato foi selecionado
para a vaga, qual a probabilidade P(B|A) = P(A|B)P(B)/P(A)
de que ele tenha cursado o MFEE?
= 0,9*0,7/0,72 = 0,875.
O Teorema de Bayes pode ser ampliado

para mais de 2 Eventos, fazendo, por
exemplo: B1, B2 e B3, ao invés de B e Bc.
Lima Campos.
24
• Teorema de Bayes para 3 Eventos

Um funcionário é selecionado aleatoriamente.
Exemplo 2.12 - Os funcionários de uma
empresa dividem-se em 3 grupos: economistas,
engenheiros e analistas de sistemas. Estes a) Qual a probabilidade de que ele
funcionários podem ocupar cargos técnicos ou seja um dos diretores da empresa?
gerenciais. Sabemos que 20% dos funcionários
são analistas de sistemas, 30% são engenheiros b) Dado que ele é um dos diretores, qual a
e 50% são economistas. 1% dos analistas probabilidade de que seja engenheiro?
de sistemas, 2% dos engenheiros e 3% dos
economistas fazem parte da direção da empresa.
Os eventos de interesse são: Solução do Item a - Ampliando a Lei

A = ser diretor da empresa da Probabilidade Total para 3 eventos:
B1 = ser analista
P(A) = P(A|B1)P(B1) + P(A|B2)P(B2) +
B2 = ser engenheiro
P(A| B3)P(B3) = 0,01*0,2 + 0,02*0,3 +
B3 = ser economista.
0,03*0,5 = 0,002 + 0,006 + 0,015 = 0,023.
São fornecidas no enunciado
Solução do Item b:
P(B1) = 0,2, P(B2) = 0,3, P(B3) = 0,5,
P(B2|A) = P(A|B2)P(B2)/P(A)
P(A|B1) = 0,01, P(A|B2) = 0,02, P(A|B3) = 0,03.
= 0,02*0,3/0,023 = 0,2609.
• Independência para 3 Eventos

• Lei da Adição para 3 Eventos
3 eventos A, B e C são
∪B∪
P(A∪ ∪C) = P(A) + P(B) + P(C) - P(A∩
∩B)
independentes se, e somente se:
∩C) - P(B∩
- P(A∩ ∩C) + P(A∩ ∩B∩∩C).
∩B∩
P(A∩ ∩C) = P(A)P(B)P(C),
∩B) = P(A)P(B),
P(A∩
• Lei da Multiplicação para 3 Eventos
∩C) = P(A)P(C),
P(A∩
∩B∩
P(A∩ ∩C) = P(A|B∩
∩C)P(B|C)P(C). e
∩C) = P(B)P(C).
P(B∩
25
Variável Aleatória (V.A.)
Uma variável aleatória (v.a.) é uma

3. VARIÁVEIS representação numérica dos resultados
possíveis de um experimento aleatório.
ALEATÓRIAS
Exemplo 3.1 - Seja o experimento
do exemplo 2.3 (lançar três moedas
e observar o número de caras). A v.a.
adequada é: X = número de caras observadas.
S (espaço amostral): Valores de X: • V.A.`s Discretas x Contínuas

(CO,CO,CO) 0
(CA,CO,CO) A v.a. do exemplo anterior
assume valores contáveis.
(CO,CA,CO) 1
(CO,CO,CA)
Este tipo de v.a. é chamada discreta.
(CA,CA,CO) 2
(CA,CO,CA)
Uma v.a. que assuma valores em um
(CO,CA,CA) 3
intervalo contínuo é chamada contínua.
(CA,CA,CA)
• Distribuição de Probabilidade Distribuição de

Probabilidade Discreta
Representa como as probabilidades
distribuem-se de acordo com os valores de X. É uma função P(X=x) que associa,
a cada valor possível x de uma v.a.
Notação: discreta X, a sua probabilidade.
Para a v.a. em si → X (maiúscula). Propriedades de uma distribuição discreta:

1) P( X = x ) ≥ 0, ∀x
Para os valores de X → x (minúscula).
2) ∑ P ( X = x ) = 1
x
26
Exemplo 3.2 - Na situação do exemplo 3.1, Distribuição de Probabilidade

qual a distribuição de probabilidade de X? Contínua (Função de Densidade)
Solução - a distribuição de probabilidade de X é: Uma distribuição contínua f(x) é
uma função que permite calcular
x P(X=x)
a probabilidade de que uma v.a.
0 1/8 contínua pertença a um intervalo.
1 3/8
2 3/8 P(a≤X≤b) é a área sob o gráfico de f(x)
3 1/8 que corresponde ao intervalo [a,b].
Exemplo 3.3 - Seja X = peso de um

Propriedades de uma função de densidade:
carregamento em Kg, com distribuição:
f(x) O cálculo desta área 1) f(x) ≥ 0, para todo x.

envolve uma
integral:
8.000
∫ f ( x )dx
6.000
2) A área total sob o gráfico é igual a 1.
3) P(X=x) = 0, para todo x.
x
A figura mostra: P(6.000≤X≤8.000).
Exemplo 3.4 - Seja X uma v.a.

contínua com a seguinte distribuição:
Valor Esperado de uma V.A.
f(x) = cx2, 0<x<2. O valor esperado de uma v.a. X, E(X),

é a média dos valores que X assumiria
a) Qual o valor da constante c? em infinitas repetições do experimento.
Você tem que igualar a integral a 1.
b) Calcule P(X>1). Fórmula para o caso discreto:

E (X ) = ∑ xP( X = x ).
R: a) 3/8 b) 7/8. x
27
Exemplo 3.5 - Considere a distribuição: Observações:

P(X=0) = 1/2
1 - E(X) é também chamado média de X.
P(X=1) = 1/3
P(X=2) = 1/6. 2 - E(X) não é um valor que se espera que
ocorra, podendo ser (e em geral é) um
Calcule o valor esperado de X. valor que não ocorre, como neste caso!
Solução: 3 - E(X) pode ser interpretado como o

E(X) = 0*1/2 + 1*1/3 + 2*1/6 = 2/3. ponto de equilíbrio da distribuição, em
que as probabilidades são os pesos.
Exemplo 3.6 - Um investimento de risco Solução:

oferece, em um ano, rentabilidade de 10%
com probabilidade 0,4 e rentabilidade de O retorno de (- 4)% ocorre com
-4% com probabilidade 0,6. probabilidade 0,6.
O retorno de 10% ocorre com
Qual a rentabilidade esperada ao final probabilidade 0,4.
do ano? O investimento compensa?
O retorno esperado é: (- 4)*0,6 + 10*0,4
= 1,6%, bem inferior, por exemplo,
Obs - trata-se de um investimento,
à rentabilidade anual da poupança.
de tal forma que é imprescindível
Portanto, o investimento não compensa.
considerar o custo de oportunidade.
Fórmula do valor esperado para o caso contínuo:

• Moda de uma V.A.
E (X) = ∫ x f ( x )dx. No caso discreto, é o valor que ocorre com
maior probabilidade. No caso contínuo, é
Exemplo 3.7 - Calcule E(X),
definida como x tal que f(x) seja máxima.
sendo X a v.a. definida no exemplo 3.4.
2
3 • Mediana de uma V.A.
E (X) = ∫ x x 2 dx = f(x)
0 8 É o valor que divide a distribuição em 2
2 4 2 intervalos com probabilidades iguais (0,5).
3 3 3x 3
∫ x dx = = . No caso contínuo, divide f(x) em 2 áreas iguais.
80 8 4 0
2
28
Exemplo 3.8 - Calcule a mediana Valor Esperado de uma Função g(X):

da v.a. definida no exemplo 3.4.
E[g( X)] = ∑ g ( x )P (X = x )
Solução: x
k3 2 3k 2 E[g(X )] = ∫ g ( x )f ( x )dx
∫ x dx = 0,5 ⇒ ∫ x dx = 0,5 ⇒
08 80
3
k
= 0,5 ⇒ k 3 = 4 ⇒ k = 3 4. O caso mais importante é do da função
8 g(X) = [X-E(X)]2, que define a variância.
Variância de uma V.A. Exemplo 3.9 - Calcule V(X),

A variância V(X) de uma v.a. X Solução:

é o valor esperado de [X-E(X)]2.
A variância costuma ser obtida mediante a

E(X2) = 02*1/2 + 12*1/3 + 22*1/6 = 1.
forma equivalente: V(X) = E(X2) - E2(X)
E( X 2 ) = ∑ x 2 P(X = x ), no caso discreto
x V(X) = E(X2) - E2(X) = 1-(2/3)2 = 1 - 4/9 = 5/9.
e E( X ) = ∫ x f(x) dx, no caso contínuo.
2 2
Exemplo 3.10 - Calcule V(X), • Desvio Padrão de uma V.A.

f(x) É a raiz quadrada de V(X):
2
3
E (X 2 ) = ∫ x 2 x 2 dx =
0 8 DP (X ) = V( X)
2
32 4 3 x5 12
∫ x dx = = . • Coeficiente de Variação de uma V.A.
80 8 5 0 5
2
12  3  3 CV( X) =
DP(X)
V(X) = E(X ) − E (X) = −   = .
2 2
.
5 2 20 E(X)
29
• Algumas Propriedades Importantes Exemplo 3.11 - Seja um produto importado

do Valor Esperado e da Variância cujo preço, em dólares, apresenta, ao longo
de um período, média 80 e desvio padrão 8.
(1) Se b é uma constante, e Y = b:
E(Y) = b e V(Y) = 0. a) Se a taxa de câmbio for 2 R$/Dólar,
calcule o valor esperado, a variância,
(2) Se a é uma constante, e Y = aX: o desvio padrão e o CV do preço em R$.
E(Y) = aE(X) e V(Y) = a2V(X).
b) Se o preço do produto aumenta 10 dólares,
(3) Se a e b são constantes, e Y = aX + b: calcule a média, a variância, o desvio padrão
E(Y) = aE(X) + b e V(Y) = a2V(X). e o CV do preço (em dólares), após o aumento.
Solução do item a: Solução do item b:
a) Seja X o preço do produto em dólares.

Então: E(X) = 80, DP(X) = 8 e V(X) = 64. b) Seja Z o preço em dólares após o
aumento. Então: Z = X + 10.
Seja Y o preço do produto em R$.
Logo, E(Z) = E(X) + 10 = 90 dólares,
Então: Y = 2X. Logo, E(Y) = 2E(X) =
V(Z) = V(X) = 64 dólares2, DP(Z) =
R$ 160, V(Y) = 22V(X) = 4*64 = 256 R$2,
8 dólares e CV(Z) = 8/90 = 8,88%.
DP(Y) = R$ 16 e CV(Y) = 16/160 = 0,1 = 10%.
• Padronizando uma V.A. Função de Distribuição

(Acumulada)
Seja X uma v.a. tal que E(X) = µ e
V(X) = σ2. Seja Z = (X-µ
µ)/σ
σ. Então:
Função F(x) que associa, a cada valor
∈ℜ,
∈ℜ a probabilidade de que X seja
x∈ℜ
E(Z) = 0 e V(Z) = 1. ≤x).
menor ou igual a x, isto é: P(X≤
Isto se chama padronizar a v.a. X (ou seja, Exemplo 3.12 - Ache F(x) para a v.a. do
transformá-la em uma nova v.a., chamada exemplo 3.5 (relembrando a distribuição:
de Z, que possui média zero e variância 1). P(X=0) = 1/2, P(X=1) = 1/3, P(X=2) = 1/6).
30
Exemplo 3.13 - Considere a distribuição de

Solução:
probabilidade: f(x) = 2x, 0<x<1. Ache F(x).
Para x < 0, F(x) = 0. Solução:
Para 0 ≤ x < 1, F(x) = 1/2. Para x < 0, F(x) = 0.
Para 1 ≤ x < 2, F(x) = 1/2 + 1/3 = 5/6. Para 0 ≤ x < 1:

x x
F( x ) = P( X ≤ x ) = ∫ f ( x )dx = ∫ 2 xdx = x 2 .
Para x ≥ 2, F(x) = 1/2 + 1/3 + 1/6 = 1. 0 0
Para x ≥ 1, F(x) = 1.
Propriedades de F(x): • Covariância e Correlação entre 2 V.A.`s

1. Lim F( x ) = 0 e Lim F( x ) = 1. A covariância entre duas variáveis
x → −∞ x →∞
aleatórias X e Y é definida como:
2. No caso discreto, F(x) é contínua à
direita. No caso contínuo, é contínua. Cov(X, Y) = E[(X − E(X))(Y − E(Y))],
3. No caso contínuo, é possível, a partir ou ainda : E(XY) − E(X)E(Y).
da f.d.a., obter a função de densidade f(x)
original, derivando F(x) com respeito a x: E o coeficiente de correlação é:
Cov( X, Y )
f (x) =
dF( x )
. Corr ( X, Y ) = ρ XY = .
dx V (X) V (Y )
Propriedades da Covariância Exercício 3.1 - Seja X uma v.a. com média 1 e

(a, b, c e d constantes) variância 4. Sejam ainda: Y = 2X e Z = 3X + 2.
Determine:
P.1) Cov(X,X) = V(X). a) Cov(X,Y) R:8.
P.2) Cov(aX,cY) = acCov(X,Y). b) Cov(X,Z) R: 12.
c) Cov(Y,Z) R: 24.
P.3) Cov(aX+b,cY+d) = acCov(X,Y). d) Corr(X,Z) R: 1.
e) Corr(Y,Z) R: 1.
31
• Distribuição Uniforme Discreta

É a distribuição discreta mais simples
possível. Considera que todos os valores
de X possuem a mesma probabilidade:
4. DISTRIBUIÇOES 1
P(X = x ) = , x = 1, 2, ..., k.
DISCRETAS k
Exemplo 4.1 - No lançamento de um dado,

a v.a. que representa a face voltada para
cima segue distribuição uniforme discreta.
• Distribuição de Bernoulli
Um dos resultados é chamado
Experimento de Bernoulli é um “sucesso”, e o outro, “fracasso”.
experimento aleatório que possui
apenas dois resultados possíveis.
A probabilidade de sucesso
é designada por p.
Exemplos:
4.2 - Lançar uma moeda e Como consequência, a
observar a face voltada para cima. probabilidade de fracasso é 1-p.
4.3 - Observar se um atirador acerta o alvo. .
Seja agora uma v.a. X que assume valor Fórmula da Distribuição de Bernoulli:
0, se ocorre um fracasso, e 1, se ocorre
um sucesso. A distribuição desta v.a. é:
x P(X=x) P(X=x) = px(1-p)1-x, x = 0,1; 0<p<1.

0 1-p
1 p
Notação usual: X ~ Bernoulli(p).
A distribuição acima é chamada o “~” significa
distribuição de Bernoulli. “segue distribuição”
32
• Distribuição Binomial Exemplo 4.4 - Ao lançar 3 moedas, qual

a probabilidade de obtermos 2 caras?
Sejam agora n realizações independentes
de experimentos de Bernoulli com a Façamos:
mesma probabilidade de sucesso p. {CA} = sucesso e {CO} = fracasso.
Considere que estejamos interessados

no número de sucessos observados. Neste problema, a v.a. X de interesse
representa o número de sucessos (caras).
Fórmula da Distribuição Binomial:

A distribuição da v.a. que representa o número
de sucessos em n realizações independentes de
n x
P(X = x) =   p (1 − p) , x = 0,1,..., n; 0 < p < 1.
n −x
experimentos de Bernoulli, todos com mesma
probabilidade de sucesso p, chama-se binomial. x
 
probabilidade de
n! obter x sucessos
n (número de realizações) e p (probabilidade = . em n realizações
x!( n − x )!
de sucesso) são os parâmetros da distribuição. independentes
Notação usual: X ~ Bin(n,p).
Solução do Exemplo 4.4:

Exemplo 4.5 - Qual a probabilidade de
que um atirador acerte o alvo 3 vezes em 5
A v.a. de interesse é: X = número de caras. tentativas, se a probabilidade dele acertar
um tiro em uma tentativa qualquer é 2/3?
X ~ Bin(3,1/2). Pede-se P(X=2).
2 1
 3  1   1  3
P(X = 2) =      = .
 2  2   2  8
33
Solução: Valor Esperado e Variância da Binomial:

A v.a. de interesse é:
X = número de acertos.
E(X) = np
Se considerarmos que as tentativas são
independentes, então: X ~ Bin(5,2/3). V(X) = np(1-p)
Daí:
3 2
 5  2  1 Exemplo 4.5 (cont.) - Calcule o valor
P(X = 3) =      = 0,3292.
 3  3   3 esperado do número de acertos do atirador.
Solução:
Exemplo 4.6 - Considere um exame com A v.a. de interesse é: X = número de acertos.
20 questões de múltipla escolha, cada uma
com 5 alternativas. Se um aluno que não Logo: X ~ Bin(20;0,2). Daí:
estudou nada resolve “chutar” todas as
 20 
respostas, qual é a probabilidade de que P(X = 6) =  (0,2) (0,8) = 0,1091.
6 14
acerte 30% da prova (isto é, 6 questões)? 6
Qual o valor esperado do número

de questões que o aluno acerta?
Exemplo 4.7 (importante aplicação em Solução:

finanças) - O preço de uma ação a cada
dia é uma v.a., com probabilidade 0,4 de A trajetória da ação pode ser representada
descer R$ 1,00 e probabilidade 0,6 de subir em uma árvore, chamada árvore binomial.
R$ 1,00. As variações de preço a cada dia
são independentes, e as probabilidades de A v.a. de interesse é:
aumento ou queda de preço se mantém X = número de vezes que a ação sobe.
fixas. Se no primeiro dia o preço da ação
é R$ 100,00, calcule o valor esperado Qual a distribuição de X?
do preço da ação no quinto dia.
34
x P(X=x)
Seja agora Y uma outra v.a.,
representando o preço final da ação.
0 0,0256
Note que, se a ação cair todos os dias
1 0,1536
(X=0), Y será igual a R$ 96,00.
2 0,3456
Por outro lado, se a ação subir todos os
3 0,3456 dias (X=4), Y será igual a R$ 104,00.
4 0,1296 E nos casos intermediários?
O valor esperado de Y pode ser

y P(Y=y)
calculado de 2 formas.
96 0,0256 Forma 1 - diretamente da distribuição de Y,
aplicando a definição de valor esperado:
98 0,1536
100 0,3456 E ( Y ) = ∑ yP( Y = y) = 96 * 0,0256 + 98 * 0,1536 +

y
102 0,3456 100 * 0,3456 + 102 * 0,3456 + 104 * 0,1296 = 100,8.
104 0,1296 R: o valor esperado do preço (preço esperado)

da ação no quinto dia é R$ 100,80.
Forma 2 - escrevendo Y como função de X: E(aX+b) = aE(X) + b.
Y = 2X+96, No caso, a = 2, b = 96 e E(X) = np = 2,4.
Assim:
e aplicando a fórmula do valor
esperado de aX+b (capítulo 3):
E(Y) = 2*2,4+96 = 100,8.
35
• Distribuição Hipergeométrica
Em princípio, poderíamos pensar na
extração de cada bolinha como um
Exemplo 4.8 - Considere 4 extrações sem experimento de Bernoulli, e a v.a. X de
reposição de bolinhas, de uma urna que interesse (número de bolinhas azuis na
contém 8 bolinhas azuis e 5 vermelhas. amostra) seguindo distribuição binomial.
Calcule a probabilidade de que 3 sejam azuis. Pergunta: o que nos impede de fazer isto?
De forma geral, considere uma população

Resposta: (no exemplo, urna) com N elementos
(no exemplo, bolinhas), dentre os quais
temos r sucessos (no exemplo, ser azul).
A amostragem é sem reposição, o que faz
com que sucessivas extrações sejam Seja então uma amostra de
dependentes e as probabilidades de tamanho n, obtida sem reposição.
sucesso mudem a cada extração.
Qual é a probabilidade de que tenhamos
exatamente x sucessos nesta amostra?
O número de casos possíveis é o número

total de amostras de tamanho n que
A distribuição da v.a. que representa o
podemos obter da população, ou seja:
número de sucessos na amostra chama-
se hipergeométrica, c/ parâmetros N, r e n.  N
 .
n
O número de casos favoráveis é o número de
Para obter a fórmula da distribuição formas de extrair x sucessos dentre os r possíveis
hipergeométrica é só fazer: P(A) = #A/#S e (n-x) fracassos dentre os N-r possíveis:
(casos favoráveis sobre casos possíveis).
 r  N − r 
  .
 x  n − x 
36
Fórmula da Distribuição Hipergeométrica: Solução do exemplo 4.8:
 r  N − r  Seja X o número de bolinhas azuis

  
 x  n − x  na amostra de tamanho 4. Então:
P(X = x) = .
 N
   8 13 − 8   8  5 
     
n  3  4 − 3   3  1 
P(X = 3) = = = 0,3916.
probabilidade de que ocorram x sucessos, em 13 13
uma amostra sem reposição de tamanho n    
4 4
Notação usual: X ~ Hiper(N,r,n).
Solução:
Exemplo 4.9
Seja X o número de peças defeituosas
na amostra de tamanho 5. Então:
Considere um lote de 10 peças, das quais
 4  6 
4 são defeituosas. Se extrairmos 5 peças,   
P(X = 2) =    = 0,4762.
sem reposição, qual a probabilidade de 2 3
que 2 sejam defeituosas? 10
 
5
Exemplo 4.10 - Para tentar passar pela

alfândega, um traficante esconde 5 pílulas
de narcóticos em um vidro que contém Solução: seja X = número de pílulas
10 pílulas de aspirina. O fiscal fica de narcóticos na amostra. Que valores X tem
desconfiado, e decide tomar uma amostra que assumir para que o traficante seja preso?
de 4 pílulas, para inspeção. Qual a
probabilidade do traficante ser preso?
37
O traficante é preso se X≥1. Mas P(X≥1) = Valor Esperado e Variância

1-P(X=0), sendo P(X=0) calculada a seguir: da Hipergeométrica:
 5 10 
   r
E( X ) = n
P(X = 0) =    = 0,1539.
0 4
N
15
   r  r  N − n 
4 V(X) = n  1 −  
 N  N  N − 1 
Logo: P(X≥1) = 1 – 0,1539 = 0,8461.
• Aproximação da Exemplo 4.11 - Em uma eleição, suponha

Hipergeométrica pela Binomial
que 300 dos 1000 habitantes de um
município são eleitores de um candidato
Se N é muito maior do que n (N ≥ 20n), A. Toma-se uma amostra de 10 eleitores.
a distribuição hipergeométrica pode ser
aproximada pela distribuição binomial
Qual a probabilidade de que exatamente 5
(cujas probabilidades são mais simples
deles pretendam votar no candidato A?
de calcular), com parâmetros n e p = r/N.
Solução: A probabilidade exata seria A probabilidade aproximada pode ser

calculada da seguinte forma: calculada utilizando a distribuição
binomial, com n = 10 e p = 300/1000 = 0,3.
 300 700
  
 5  5  10
P(X = 5) = . P(X = 5) ≅  (0,3)5 (0,7)5 = 0,1029.
1000 5
 
 10 
Compare com o resultado exato
Note que as combinações envolvidas
(calculado no Excel: 0,1026)
são bastante chatas de se calcular...
38
• Distribuição Geométrica Fórmula da Distribuição Geométrica:
Considere, como na definição da

Binomial, realizações independentes P( X = x ) = (1 − p) x −1 p, x = 1,2,...; 0 < p < 1.
de experimentos de Bernoulli, todos
com mesma probabilidade de sucesso p. probabilidade de que o primeiro sucesso
venha a ocorrer na x-ésima realização.
A distribuição da v.a. que representa
o número de realizações necessárias Parâmetro: p.
até que ocorra o primeiro sucesso
chama-se geométrica, com parâmetro p. Notação: X ~ Geom(p).
Exemplo 4.12 - A probabilidade de um Valor Esperado e Variância da Geométrica:

indivíduo acertar um alvo é 2/3. Se ele
deve atirar até que acerte o alvo pela
primeira vez, qual a probabilidade de
que sejam necessários exatamente 5 tiros? E(X) = 1/p
Solução: Seja X o número de tiros até o V(X) = (1-p)/p2

primeiro acerto. Então: X ~ Geom(2/3).
4
 2 2
P(X = 5) = 1 −    = 0,0082. No exemplo 4.12, qual o número de tiros
 3 3 esperado até que ocorra o primeiro acerto?
Solução:
Exercício (Resolvido) 4.1 - Um jogador
converte 10% dos pênaltis que cobra. a) Seja X o número de pênaltis
que o jogador acerta. Então:
a) Qual a probabilidade de que ele acerte
X ~ Bin(5;0,1).
apenas uma cobrança em 5 tentativas?
Pede-se P(X=1).
b) Qual a probabilidade de que ele precise
bater 5 pênaltis até acertar o primeiro?  5
P(X = 1) =  (0,1)1 (0,9) 4 = 0,32805.
 1
39
Exemplo motivador para a próxima

b) Seja X o número de cobranças até que distribuição a ser apresentada:
o jogador acerte a primeira. Então:
X ~ Geom(0,1).
Exemplo 4.13 - Na situação do exemplo
Pede-se: 4.12, calcule a probabilidade de que o
atirador precise de 4 tiros para acertar pela
P(X = 5) = (0,9) 4 (0,1) = 0,06561. segunda vez o alvo (ou seja, de que o
segundo acerto ocorra no quarto tiro).
• Distribuição Binomial Negativa Fórmula da Distribuição Binomial Negativa:

Considere novamente realizações
independentes de experimentos de  x − 1
P(X = x ) =  (1 − p) x − r p r , x = r, r + 1,...; 0 < p < 1.
Bernoulli com probabilidade de sucesso p.  r −1 
A distribuição da v.a. que representa o número
de realizações necessárias até que ocorra o probabilidade de que o r-ésimo sucesso
venha a ocorrer na x-ésima realização.
r-ésimo sucesso (r = 1, 2, 3, ...) chama-se
binomial negativa, com parâmetros r e p. Parâmetros: r e p.
Se r = 1, caímos na distribuição
Notação usual: X ~ BNeg(r,p).
geométrica (caso particular).
Solução do exemplo 4.13:

Valor Esperado e Variância
da Binomial Negativa:
Seja X o número de tiros até o segundo acerto.
X ~ BNeg(2,2/3).
E(X) = r/p
2 2
V(X) = r(1-p)/p2
 3  2   2 
P(X = 4) =  1 −    = 0,1481.
 1  3   3 
40
• Distribuição de Poisson Fórmula da Distribuição de Poisson:
Seja λ a taxa de ocorrência de um evento λx e − λ

por unidade de tempo ou de espaço. Por P(X = x ) = , x = 0,1,...; λ > 0.
x!
exemplo, acidentes/hora em uma estrada.
probabilidade de que ocorram x eventos, em um
A distribuição da v.a. que representa intervalo no qual ocorrem, em média, λ eventos
o número de ocorrências de um evento
com taxa λ, no intervalo correspondente, Parâmetro: λ.
chama-se Poisson, com parâmetro λ. Notação usual: X ~ Poi(λ).
Valor Esperado e Variância da Poisson: Exemplo 4.14 - Em determinada rodovia,

ocorrem, em média, 3 acidentes por hora.
E(X) = λ Supondo distribuição de Poisson,

calcule as seguintes probabilidades:
V(X) = λ
a) De que ocorram 2 acidentes em uma hora.
A Poisson é a única distribuição na qual b) De que ocorram pelo menos 2 acidentes

a média e a variância são sempre iguais! em 20 minutos (20 minutos = 1/3 de hora).
Solução:
• Aproximação da Binomial pela Poisson
3 2 e −3
a ) P ( X = 2) = = 4,5e −3 .
2!
Se n for grande e p for pequeno, o
b) Aqui deve - se converter o λ para o período de número de sucessos em n realizações
20 minutos (= 1/3 de hora) ⇒ se ocorrem, em média, independentes de experimentos de
3 acidentes em uma hora, então ocorre em média 1 a Bernoulli pode ser aproximado pela
cada 20 minutos. Assim, o λ para 20 minutos é 1, e :
distribuição de Poisson, com λ = np.
P(X ≥ 2) = 1 − [P(X = 0) + P(X = 1)] = 1 − 2e −1.
41
Exercício (Resolvido) 4.1 (cont.)

Exemplo 4.15 - Uma companhia de
seguros de automóveis descobriu que
somente cerca de 0,005% da população (combinando conteúdos dos capítulos 2 e 4)
está incluída em um certo tipo de sinistro
cada ano. Se seus 20.000 segurados são
escolhidos ao acaso na população, qual é c) Dado que são necessárias mais que
a probabilidade aproximada de que 3 3 tentativas até o primeiro acerto, qual
clientes venham a ser incluídos nesta é a probabilidade de que este acerto
categoria de sinistro no próximo ano? ocorra em, no máximo, 5 tentativas?
Solução:
P[(X ≤ 5) ∩ (X > 3)]
P(X ≤ 5 | X > 3) = =
P(X > 3)
Um olhar desatento poderia nos levar a
calcular P(X=4) + P(X=5), quando o que
é pedido é uma probabilidade condicional:
P(X = 4) + P(X = 5)
P(X ≤ 5 | X > 3), =
1 − [P(X = 1) + P(X = 2) + P(X = 3)]
sendo X ~ Geom(0,1).
0,1385
Esta probabilidade é = 0,19.
0,729
calculada da seguinte forma:
Observações: 2 - Esta probabilidade P(X > 3) pode ser

obtida de forma direta pela distribuição
1 - A probabilidade do denominador binomial com n = 3 e p = 0,1, já que, se
não exclui P(X = 0), porque uma v.a. Y ~ Bin(3;0,1), então: P(X > 3) = P(Y = 0).
geométrica não pode assumir valor 0!
Assim:
Note que a geométrica e a binomial P(X > 3) = P(Y = 0) =

negativa são as únicas distribuições 3
discretas que não assumem valor 0.  (0,1)0 (0,9)3 = 0,729.
 0
42
• Distribuição Uniforme Contínua
É a distribuição contínua
5. DISTRIBUIÇOES mais simples que existe.
CONTÍNUAS Pressupõe que as probabilidades estejam

distribuídas de maneira uniforme pelo
intervalo de variação de X (de α a β).
Fórmula da Uniforme: Cálculo de Probabilidades

Utilizando a Uniforme:
f(x) = 1/(β-α), α<x<β.
β-α
P(a≤X≤b) = (b-a)/(β α)
Parâmetros: α e β.
Notação: X ~ Unif(α,β).
Exemplo 5.1 - As notas de uma turma

Valor Esperado e Variância da Uniforme: apresentam média 5 e variância 3. A
nota mínima para aprovação é 7.
Supondo distribuição uniforme, calcule

α+β
E(X) = (α β)/2 a probabilidade de um aluno ser aprovado.
β-α
V(X) = (β α)2/12
R: 1/6.
43
• Distribuição Exponencial Parâmetro: λ.
Distribuição definida para valores de X Notação: X ~ Expo(λ).

estritamente positivos, usual para
representar tempo (duração, espera, etc.). Valor Esperado e Variância:
Fórmula da Exponencial:
λ
E(X) = 1/λ
f ( x ) = λe , x > 0; λ > 0.
− λx λ2
V(X) = 1/λ
Demonstração do Valor Esperado:

∞
  e − λx  ∞
e − λx 
∞ ∞ E (X ) = λ  − x − ∫ − dx 
E(X ) = ∫ xλe −λx dx = λ ∫ xe −λx dx.  λ  0 0 λ 
0 0
∞
= (− xe−λx ) 0 + ∫ e −λx dx
∞
0
Esta integral deve ser resolvida por partes, ∞
− λx
 e  1
= (− xe )
fazendo u = x e dv = e-λxdx. ∞
− λx
+ −  = .
Temos então que: du = dx e v = -e-λx/λ.  λ 0 λ
0
Assim:
Demonstração da Variância:
Função Distribuição
V(X) = E(X2)
– E2(X). Acumulada da Exponencial:
E(X2) é calculado da seguinte forma:
∞ ∞
E (X 2 ) = ∫ x 2 λe −λx dx = λ ∫ x 2 e −λx dx. ≤x) = 0, x≤

F(x) = P(X≤ ≤0
0 0
λ
= 1-e x, x>0.
-λ
Esta integral também deve ser resolvida
por partes, mas agora fazendo u = x2 e
dv = e-λxdx.
44
Exemplo 5.2 - O tempo de espera em

Demonstração da F.D.A.: uma fila segue distribuição exponencial.
Se um cliente espera, em média, 10 minutos
Para x≤0, F(x) = P(X≤x) = 0. para ser atendido, qual a probabilidade:
Para x>0: a) De que demore menos do que 12 minutos
para ele ser atendido? R: 1-e-1,2.
x
F( x ) = P(X ≤ x ) = ∫ λe −λx dx =
0
b) De que demore menos do que 7 minutos
para ele ser atendido? R: 1-e-0,7.
x
1 − e −λx
λ ∫ e −λx dx = λ = 1 − e − λx .
0 λ c) E entre 7 e 12 minutos? R: e-0,7-e-1,2.
d) De que ele espere mais do que 10 minutos Exemplo 5.3 - O tempo (em horas) de
(isto é, mais do que a média E(X))? duração das lâmpadas de uma marca segue
uma distribuição exponencial com λ = 0,01.
R: e-1 ≅ 0,368. Calcule a mediana do tempo

de duração das lâmpadas.
R: 69,31 horas.
O resultado do item d) indica que a média da
exponencial é sempre maior que a mediana! Interpretação: 50% das lâmpadas desta
marca duram mais do que 69,31 horas.
Interpretação: se uma lâmpada já durou x

• Falta de Memória horas, a probabilidade dela durar mais s
horas a partir dali é a mesma que ela teria
É uma importantíssima propriedade de durar s horas a partir da sua fabricação.
da distribuição exponencial. Ela diz que:
Em outras palavras, não há desgaste.
P(X>x+s|X>x) = P(X>s).
Isto é considerado uma crítica ao uso da
exponencial para este tipo de aplicação.
45
• Distribuição Normal
Demonstração da Falta de Memória:
( x −µ ) 2
1 −
P(X>x+s|X>x) = f (x) = e 2 σ2
; x ∈ ℜ; µ ∈ ℜ, σ2 > 0.
P[(X>x+s)∩(X>x)]/P(X>x) = σ 2π
P(X>x+s)/P(X>x) = Parâmetros: µ (=E(X)) e σ2 (=V(X)).

e-λ(x+s)/e-λx = e-λs Notação: X ~ N(µ,σ2).
= P(X>s), C.Q.D.
O gráfico da distribuição Normal apresenta
formato similar ao de um sino (bell shaped).
Distribuição Normal para diferentes valores de µ: • Cálculo de Probabilidades Normais
Exemplo 5.4 - Considere que as

alturas dos alunos desta turma sigam
distribuição Normal, com média igual
Distribuição Normal para diferentes valores de σ: a 170 cm e desvio padrão igual a 5 cm.
Seja o experimento que consiste na

seleção de um aluno qualquer e na
medição de sua altura.
Em princípio, você calcularia:

altura de um aluno selecionado ao acaso
A v.a. que representa o resultado
1 −( x−50170)
2
172, 3
deste experimento é X ~ N(170,25). P(170 ≤ X ≤ 172,3) = ∫ e dx

170 5 2π
Qual a probabilidade de que a altura Problema:

do aluno esteja entre 170 e 172,3 cm? −
( x −µ ) 2
1
A integral de f ( x ) = e 2σ2
σ 2π
não possui solução analítica!
46
Para calcular a probabilidade P(170 < X < 172,3) =

solicitada, usaremos a tabela Normal.
 170 − µ X − µ 172,3 − µ 
P < < =
A tabela Normal fornece probabilidades  σ σ σ 
associadas a uma v.a. padronizada, :  170 − 170 172,3 − 170 
P <Z< =
X−µ
 5 5 
Z= , = P(0 < Z < 0,46).
σ
que possui média 0 e variância 1 P(0 < Z < 0,46) é encontrada na tabela.
(como vimos no capítulo 3 do curso).
Usando a Tabela Normal: Resposta final do item a):
A probabilidade de que a altura de

um aluno selecionado ao acaso esteja
entre 170 e 172,3 cm é 0,1772.
b) Qual a probabilidade de que a altura

do aluno esteja entre 170 e 175 cm?
Neste caso: Ilustrando na Tabela Normal:

k
P(170 < X < 175) =
 170 − µ X − µ 175 − µ 
P < < =
 σ σ σ 
 170 − 170 175 − 170 
P <Z< =
 5 5 
= P(0 < Z < 1).
47
Resposta final do item b): 0,3413. Ilustração da Simetria da Normal:
c) Qual a probabilidade de que a altura do

aluno esteja entre 165 e 170 cm?
P(-1 < Z < 0) P(0 < Z < 1)
Solução:
P(-1 < Z < 1)
Pela simetria da Normal, temos:

P(-1 < Z < 0) = P(0 < Z < 1) = 0,3413.
Revisitando a figura do capítulo 1:

d) Qual a probabilidade de que a altura do
aluno esteja entre 165 e 175 cm? 99,72%
Considerando µ=
Solução: do slide anterior, E(X) e σ = DP(X).
P(-1 < Z < 1) = 0,6826.
Esta é a probabilidade de X estar a no máximo

1 desvio padrão de distância da sua média.
e) Qual a probabilidade de que a altura g) Qual a probabilidade de que a altura do

do aluno esteja entre 170 e 180 cm? aluno seja maior do que 170 cm?
Solução: P(X > 170) = P(Z > 0).
Solução: P(170 < X < 180) =
A área total sob a curva é igual a 1.
P(0 < Z < 2) = 0,4772.
Logo, a resposta é 0,5.
f) E entre 160 e 180 cm? h) E maior do que 175 cm? P(Z > 0)
Solução: P(160 < X < 180) = Solução: P(X > 175) = P(Z > 1) = 0,5 -
P(-2 < Z < 2) = 2*0,4772 = 0,9544. P(0 < Z < 1) = 0,5 - 0,3413 = 0,1587.
48
i) E menor do que 175 cm? Exemplo 5.5 - O VPL de um projeto, em

P(Z < 0)
R$ 1.000,00, segue distribuição N(80,16).
Solução: P(X < 175) = P(Z < 1) = 0,5 +
P(0 < Z < 1) = 0,5 + 0,3413 = 0,8413. Calcule a probabilidade do VPL ser:
j) E menor do que 165 cm? a) maior que 80 e menor que 83 mil.

b) maior que 79 e menor que 82 mil.
Solução: P(X < 165) =
P(Z < -1) = P(Z > 1) = 0,1587.
Solução: Ilustrando na Tabela Normal:

VPL do projeto
a) P(80 < X < 83) =
 80 − µ X − µ 83 − µ 
P < < =
 σ σ σ 
 80 − 80 83 − 80 
P <Z< =
 4 4 
= P(0 < Z < 0,75).
Resposta do item a) → 0,2734. Ilustrando na Tabela Normal:
b)
P(79 < X < 82) =
 79 − 80 X − µ 82 − 80 
P < < =
 4 σ 4 
P(− 0,25 < Z < 0,5) =
P( −0,25 < Z < 0) + P(0 < Z < 0,5) =
P(0 < Z < 0,25) + P(0 < Z < 0,5).
Resposta do item b):
Por causa da simetria!
0,0987+0,1915 = 0,2902.
49
Solução:
Exemplo 5.6 - A rentabilidade de uma Seja X1 = rentabilidade da estratégia.
estratégia financeira no mercado futuro,
referente a certo período, possui distribuição P ( X1 < 0) =
Normal, com média 5% e desvio padrão 3%.  X −µ 0−µ 
P 1 < =
 σ σ 
a) Qual a probabilidade da rentabilidade  0−5
ser negativa, no período considerado? P Z < =
 3 
P(Z < −1,67 ) =
0,0475.
Solução:
b) Compare a estratégia do item a) Seja X2 = rentabilidade da nova estratégia.

com outra cuja média é 6% e cujo desvio P(X 2 < 0) =
padrão é 4%. Considere como critério
 X −µ 0−µ
de comparação a probabilidade de P 2 < =
perda (rentabilidade negativa).  σ σ 
 0−6
Considerando este critério, por P Z < = Considerando a
qual das estratégias você optaria?  4  probabilidade de
P(Z < −1,5) =

perda, a primeira
estratégia é mais
vantajosa.
0,0668.
Temos que achar na tabela o valor de k

Exemplo 5.7 - As notas dos alunos de um correspondente à probabilidade 0,475:
vestibular distribuem-se normalmente, com k
média 8 e desvio padrão 1. Se a relação
candidato/vaga é de 40 para 1, calcule a nota
mínima para que o aluno seja aprovado.
Obs - será necessário achar *

tal que: P(X > *) = 0,025.
Buscaremos na tabela o valor k tal que: Assim: z0,025 = 1,96.

P(Z > k) = 0,025, denotado por z0,025.
Resposta do Exemplo 5.7: 9,96.
50
Fórmula:
• Distribuição Lognormal
1
1 − (ln y−µ )2
f ( y) = e 2 σ2
; y > 0, µ ∈ ℜ, σ > 0.
Seja uma v.a. Normal yσ 2π
X ~ N(µ,σ2) e seja Y = eX.
A distribuição lognormal
A distribuição de Y é chamada apresenta assimetria positiva.
lognormal, com parâmetros µ e σ2. σ2
µ+
Valor Esperado: E ( Y ) = e 2
Aplicação da lognormal Exemplo 5.8 - As alturas em uma

em economia e finanças: população (em cm) seguem distribuição
Pressuposto usual para a distribuição dos lognormal com parâmetros µ = 5,11 e σ2 =
preços de ativos no mercado financeiro. 1. Qual a porcentagem de indivíduos desta
população com altura inferior a 164 cm?
Cálculo de probabilidades lognormais:
Solução: P(Y<164) = P(lnY<ln164) =
É conduzido usando que, se Y segue = X ~ N(5,11;1).
distribuição lognormal com parâmetros µ
 X − 5,11 ln 164 − 5,11 
e σ2, então X = lnY segue distribuição P <  = P(Z < −0,01) = 0,496.
Normal com os mesmos parâmetros.  1 1 
≅ 5,1.
• Distribuição Qui-Quadrado Valor Esperado e Variância:
Fórmula:
E(X) = υ
1 υ
−1 −
x υ
V(X) = 2υ
f (x) = υ x 2 e 2 ; x > 0; υ > 0.
2 2
π
Relação entre a Qui-Quadrado e a Normal:
Parâmetro: υ (graus de liberdade) Se Z ~ N(0,1) :

Notação: X ~ χ 2υ . Y = Z 2 ~ χ12
51
• Soma de V.A.`s
Exemplo 6.1 - Um elevador suporta
um peso máximo de 500Kg. Podemos
estar interessados na probabilidade do
6. FUNÇÕES peso limite ser ultrapassado quando 7
pessoas entram neste elevador.
LINEARES DE V.A.`s Neste caso, a v.a. de interesse é:
7 peso da
S = ∑ Xi , i-ésima pessoa.
i =1
e a probabilidade de interesse é: P(S>500).
• Valor Esperado da Soma de n V.A.`s: • Soma de Normais Independentes

com Médias e Variâncias Iguais
n
E (S) = ∑ E (X i ). Considere a soma S de n v.a.`s Xi, i =
i =1 1,2,...,n, Normais e independentes,
c/ médias µ e variâncias σ2. Então:
• Variância da Soma de n
V.A.`s Descorrelacionadas:
S ~ N(nµ, nσ 2 ).
n
V(S) = ∑ V(Xi ). E agora estamos aptos a calcular a
i =1 probabilidade de interesse do exemplo 6.1.
Exemplo 6.1 (cont.) Exemplo 6.2 - Uma máquina de café é

7
calibrada para produzir pacotes com peso
S = ∑ X i , e queremos P(S>500). 500g. Entretanto, na prática, os pesos reais
i =1
peso da i-ésima pessoa dos pacotes produzidos serão v.a.`s.
Supondo que os pesos das pessoas deste Suponha que os pesos dos pacotes produzidos
universo tenham média µ = 70 e variância pela máquina sigam distribuição Normal
σ2 = 100, temos que S ~ N(490,700), e: com média 500 g e variância 16 g2.
500 − 490 a) Se selecionarmos 100 pacotes (considere
P(S > 500) = P( Z > )= os pesos dos pacotes independentes),
700
qual a probabilidade de que o peso
P( Z > 0,38) = 0,3520.
total seja maior do que 49,96 Kg?
52
Solução: • Média de V.A.`s

peso total = soma dos pesos
A média de n v.a.`s X1, X2, ..., Xn,
n
S = ∑ X i ~ N(nµ, nσ ). 2 é definida da seguinte forma:
i =1
n

P(S > 49.960) = P Z >
49.960 − 50.000 

∑ Xi
 40  X= i =1
.
n
= P(Z > −1) = P(−1 < Z < 0) + 0,5 =
P(0 < Z < 1) + 0,5 = 0,8413. Note que, assim como a soma, a média de n
v.a.`s é, também uma variável aleatória.
• Média de Normais Independentes

com Médias e Variâncias Iguais
Demonstração do Valor Esperado de x:
Considere a média X de n v.a.`s Xi,
i = 1,2,...,n, independentes e Normais, 1 n 1 n
E(X) = E( ∑ Xi ) = E(∑ Xi ) =
c/ médias µ e variâncias σ2. Então: n i=1 n i=1
1 n 1
σ2 ∑ E(Xi ) = nµ = µ.
X ~ N(µ, ). n i=1 n
n
Em particular, assim como a soma, a média de
Normais independentes também é Normal.
Exemplo 6.2 (cont.) - b) Qual a

Demonstração da Variância de x: probabilidade do peso médio dos 100
pacotes ser menor do que 500,7 g?
Solução: peso médio = X ~ N (µ, σ ).
2
1
2
1n n
V(X) = V( ∑Xi ) =   V(∑ Xi ) =
n i=1  n  i=1 média dos pesos. n
1 n
2
1 2 σ2  500 ,7 − 500 
 ∑ V(X ) = nσ = . P ( X < 500 ,7 ) = P  Z < =
 n  i=1
i
n2 n  0, 4 
P (Z < 1,75 ) =
v.a.`s descorrelacionadas 0,5 + P (0 < Z < 1,75 ) =
0,5 + 0, 4599 = 0,9599 .
53
Exercício 6.1 - Um fabricante de

baterias alega que seu artigo tem uma • Teorema Central do Limite (TCL)
vida esperada de 40 meses. Sabe-se que
os tempos de duração têm distribuição
A soma e a média de n v.a.`s independentes,
Normal com desvio padrão de 8 meses.
com médias e variâncias finitas (quaisquer
Qual a probabilidade de que o tempo que sejam suas distribuições), seguem
médio de duração de 64 baterias distribuição aproximadamente Normal
selecionadas ao acaso esteja entre 38 e se n é suficientemente grande (> 30).
42 meses, se o fabricante estiver correto?
R: 0,9544.
Exemplo 6.3 Exercício 6.2 - Uma prateleira suporta

200 Kg. 49 latas são colocadas sobre ela.
Sejam X1, X2, ..., X32 v.a.`s independentes, O peso das latas é uma v.a. com média
com distribuição de Poisson com λ = 8. 4 Kg e desvio padrão 1 Kg.
Calcule a probabilidade aproximada de que a
média destas 32 variáveis seja menor que 9. Calcule a probabilidade aproximada de
que a prateleira não suporte o peso.
R: 0,9772. R: 0,2843.
• Combinações Lineares de V.A.`s Valor esperado e variância para n = 2

(ou seja, para C = aX+bY):
Uma combinação linear de v.a.`s é uma
Valor Esperado:
nova v.a. C definida da seguinte forma:
E(C) = aE(X) + bE(Y).
n
C = ∑ a iXi .
i =1 Variância (supondo ρXY = 0):
pesos da combinação linear.

V (C) = a 2 V ( X ) + b 2 V (Y ).
54
Exemplo 6.4 - O lucro diário L de uma

Casos particulares importantes -
corretora (em milhões de R$) é L = 2L1+3L2,
se X e Y são v.a.`s descorrelacionadas:
em que L1, o lucro da área industrial, é
uma v.a. com média 5 e variância 16, e
L2, o lucro da área comercial, é outra v.a. E(X+Y) = E(X) + E(Y)
com média e variância iguais a 4. L1 e L2
são independentes. O valor esperado, a V(X+Y) = V(X) + V(Y)
variância e o desvio padrão de L são:
E(X-Y) = E(X) – E(Y) atenção!
E(L) = 2E(L1) + 3E(L2) = 22 milhões de R$.
V(L) = (2)2V(L1) + (3)2V(L2) = 4*16 + 9*4 = V(X-Y) = V(X) + V(Y)
64 + 36 = 100 ⇒ DP(L) = 10 milhões de R$.
Exemplo 6.5 - Sejam X, Y e Z variáveis

aleatórias tais que Z = 2Y-3X. Os desvios
E se X e Y forem correlacionadas?
padrão de X e Y são, respectivamente, 2 e 4.
Neste caso, a fórmula da variância de uma Determine a variância de Z, se Cov(X,Y) = 3.

combinação linear C = aX + bY torna-se:
Solução:
V(C) = a 2 V( X) + b 2 V( Y) + 2abCov( X, Y). V(Z) = (2)2V(Y) + (-3)2V(X)

+ 2*2*(-3)*Cov(X,Y) = 4*16 +
9*4 - 12*3 = 100 – 36 = 64.
Exemplo 6.6 - Seja X a v.a. que Considere uma carteira com 60% do capital
representa o retorno de uma ação 1, Y a alocado na ação 1 e 40% na ação 2.
v.a. que representa o retorno de uma ação
2, e C o retorno de uma carteira composta A ação 1 possui retorno esperado 3% e
pelas ações 1 e 2: C = aX+bY. volatilidade (desvio padrão) 7%. A ação 2
possui retorno esperado 6% e volatilidade
10%. Os retornos das ações possuem
coeficiente de correlação igual a -0,5.
pesos ⇒ proporções do
capital alocadas em cada ação.
Calcule o retorno esperado e a
volatilidade desta carteira.
55
O retorno esperado de C é: A variância da carteira é:

V(C) = a 2σ 2X + b 2σ 2Y + 2abCov(X, Y) =
E(C) = aE(X) + bE(Y) =
0,6*0,03 + 0,4*0,06 = 0,36*0,072+0,16*0,12 +
0,042 = 4,2%. 2*0,6*0,4*(-0,0035) = 0,0017.
E o desvio padrão (volatilidade):

A covariância entre X e Y é:
Cov(X,Y) = ρXYσXσY = σC = V(C) = 0,041 = 4,1%.
-0,5*0,07 *0,1 = -0,0035. bem menor do que de ambas as ações!
Do ponto de vista de mercado, a Sob o ponto de vista estatístico (fórmula),

explicação é simples: quando uma ação vemos que a redução proeminente deve-se ao
cai, espera-se que a outra se valorize, fato da correlação ser fortemente negativa!
evitando um prejuízo muito grande.
No entanto, um ponto a ser destacado é que

a diversificação é vantajosa mesmo se
No jargão do mercado, isto se a correlação for positiva, contanto que
chama “hedge” (= proteção). não perfeita, como é mostrado a seguir.
Começaremos mostrando que, se ρXY = 1, a Daí, é fácil ver que para qualquer ρXY < 1 :
volatilidade da carteira é igual à combinação
linear das volatilidades das ações:
σC < aσX + bσY.
σC = aσX + bσY.
Demonstração: note da fórmula de V(C), que, Ou seja, para qualquer valor da correlação (<
se ρXY = 1: V(C) = (aσX + bσY)2. Portanto, 1), a volatilidade da carteira será menor que a
o desvio padrão é σC = aσX + bσY, c.q.d. combinação linear das volatilidades das ações.
Em particular, se σX = σY = σ: σC = σ. Em particular, se σX = σY = σ: σC < σ.
56
Conclusão: • Carteira de Risco Mínimo

A diversificação leva a um risco menor do
que o da ação mais volátil e, se as carteiras Dadas as volatilidades das ações, σX e σY, e
apresentam a mesma volatilidade, conduz a Cov(X,Y) = ρXYσXσY, os pesos tais que a
uma redução desta volatilidade, qualquer que carteira tenha o menor risco possível são:
seja a correlação entre elas (contanto que < 1).
σ 2Y − Cov( X, Y)
a=
Se ρXY = -1, é possível formar uma σ 2X + σ 2Y − 2Cov( X, Y)
carteira com risco zero. Todavia, isto b = 1 − a.
tem pouca aplicação prática (por que?).
Exemplo 6.7 - Na situação do

Covariância Entre Combinações exemplo 6.5, calcule o coeficiente
Lineares (a, b, c e d constantes): de correlação entre X e Z = 2Y-3X.
Solução:
Cov(aX+bY,cZ+dW) = Cov(X,Z) = Cov(X,2Y-3X) =
Cov(aX,cZ) + Cov(aX,dW) Cov(X,2Y) + Cov(X,-3X) =
+ Cov(bY,cZ) + Cov(bY,dW). 2Cov(X,Y) - 3Cov(X,X) =
2Cov(X,Y) - 3V(X) = 2*3 – 3*4 = -6.
Por outro lado, V(X) = 4 e V(Z) = 64, assim:
Corr(X,Z) = -6/(2*8) = -6/16 = -3/8 = -0.375.
Exercício 6.3 - Sejam X, Y e Z variáveis

aleatórias tais que Z = 2Y-3X. Os desvios
padrão de X e Y são, respectivamente, 2 e 4.
Determine a variância de Z, se Cov(X,Z) = 4. 7. ESTIMADORES E

SUAS PROPRIEDADES
R: 4.
57
• Estimação Pontual Se o universo é amplo, temos um problema

de inferência estatística, em que, a partir de
um subconjunto do universo em estudo,
Exemplo 7.1 - Seja o interesse em obter queremos descobrir algo sobre este universo.
alguma informação sobre uma turma grande,
por exemplo, a altura média dos alunos.
Este “algo” é o parâmetro de interesse.
Alunos da turma = universo em estudo.
Altura = característica de interesse. Os slides seguintes formalizam as
definições de população e parâmetro.
População Parâmetro
Define-se população como a Um parâmetro é uma quantidade fixa

distribuição de probabilidade e desconhecida na população, sobre
considerada adequada para a qual queremos obter informação.
a característica de interesse.
No exemplo, o parâmetro de interesse é a
Uma suposição usual é que a característica de
altura média dos alunos, ou seja, a média da
interesse (no caso, a altura dos alunos) siga
distribuição das alturas, que denotamos por µ.
distribuição Normal ⇒ população Normal.
Para estimar parâmetros, é preciso

selecionar um subconjunto de n Amostra
unidades (alunos) e registrar suas alturas.
A seleção de cada aluno, e o registro da Amostra é um conjunto de v.a.`s: {X1,
sua altura, é um experimento aleatório. X2, ..., Xn} que representam os valores
da característica de interesse para as
Temos então n experimentos aleatórios, cujos
n unidades selecionadas do universo.
resultados podem ser representado por
variáveis aleatórias: Xi, i = 1, 2, ..., n.
O caso em que X1, X2, ..., Xn são independentes
O conjunto de v.a.`s: {X1, X2, ..., Xn} define um tipo importante de amostra, chamado
é o que se denomina amostra. amostra aleatória ou amostra aleatória simples.
58
• Estimador x Estimativa
Estimador
Quando substituímos no estimador os
valores observados de X1, X2, ..., Xn,
Estimador é uma estatística (função das
obtemos uma estimativa do parâmetro.
v.a.`s da amostra) usada para obter um
valor “plausível” para um parâmetro. Exemplo 7.1 (cont.) - Considere a amostra
O estimador “natural” para µ é: observada de tamanho 5: x1 = 174, x2 =
186, x3 = 186, x4 = 180 e x5 = 174 (cm).
n
∑X
o chapéu significa média da 5
que estamos i amostra ∑ xi
estimando µ µˆ = X = i =1
. ou média
amostral
A estimativa de µ é: x = i =1
= 180.
n 5
Questão importante: Resultado importante (visto no capítulo 6):
O que é um bom estimador?

Se a população é Normal, a
distribuição de x é Normal.
Em linhas gerais, é aquele que tem alta

probabilidade de gerar uma estimativa Tecnicamente, a distribuição de um
próxima ao parâmetro de interesse. estimador é chamada distribuição amostral.
Distribuição Amostral Estimador Não Viciado
A distribuição amostral de um estimador Um estimador não viciado (ou não

é a sua distribuição de probabilidade. tendencioso, não viesado) é aquele cujo
valor esperado é igual ao parâmetro.
Ela representa o comportamento dos valores
Ou seja, um estimador θ̂ é não
assumidos pelo estimador em amostras
viciado para um parâmetro θ se:
repetidas ⇒ isto significa: considerando
todas as amostras de tamanho n possíveis. E (θˆ ) = θ.
59
Um estimador sem vício é aquele que, em

Resultado importante (visto no capítulo 6):
algumas amostras “erra para baixo”, em outras
“erra para cima”, mas, “em média”, acerta θ.
E ( X ) = µ, e assim X
Um estimador viciado errará mais para baixo
é não viciado para µ.
(subestimando o parâmetro) ou mais para cima
(sobrestimando), a depender da direção do vício.
O vício (ou tendência, ou viés) de θ̂ é:
B(θˆ ) = E (θˆ ) − θ.
não viciado viciado p/ baixo viciado p/ cima Do inglês: bias = vício.
Qual dos estimadores propostos abaixo

é melhor para estimar o parâmetro µ?
Embora a ausência de vício seja uma
propriedade importante, ela não garante
que um estimador seja adequado.
distribuição de µˆ 1
A variância também é importante, pois distribuição de µˆ 2

mede a dispersão em torno do parâmetro.
µ-εε µ µ+εε
• Erro Padrão
Quanto menor a
variância, maior será: O desvio padrão de um estimador
é denominado erro padrão (EP).
P(µ − ε < µˆ < µ + ε),
Vimos no capítulo 6 que:
σ 2 e assim: σ
V (X ) = EP ( X ) = .
para um ε arbitrário, > 0. n n
60
• Estimação de σ2
Isto porque:
O candidato natural para estimar a

variância σ2 de uma população seria: ( n − 1) 2
E(σˆ *2 ) = σ , que é diferente de σ 2 .
n
n n
∑ (X − X ) i
2
∑ X − nX
2
i
2
σˆ * =
2 i =1
= i =1
. O vício do estimador é:
n n
σ2
Problema: B(σˆ *2 ) = E (σˆ *2 ) − σ 2 = − .
o estimador acima é viciado. n
• Estimador Não Viciado para σ2

• Comparação de Estimadores
n n
Se 2 estimadores são não viciados para
∑ (X i − X ) 2 ∑X 2
i − nX 2 um parâmetro, qual deles é o melhor?
S2 = i =1
= i =1
.
n −1 n −1
R: o que tiver menor variância.
Este estimador é chamado variância amostral.
Este estimador é dito mais eficiente.
S = S2 é chamado desvio padrão amostral.
• Eficiência Relativa Interpretação:
Sejam θˆ 1 e θˆ 2 dois estimadores Se Ef > 1, significa que o

não-viciados para um parâmetro θ. estimador 1 é mais eficiente
A eficiência relativa do estimador 1
em relação ao 2 é dada pela razão entre Se Ef < 1, significa que o
as variâncias dos estimadores 2 e 1, isto é: estimador 2 é mais eficiente
V(θˆ 2 )
Ef (θˆ 1 , θˆ 2 ) = . Se Ef = 1, os estimadores
V(θˆ 1 ) são igualmente eficientes.
61
Exemplo 7.2 - Seja uma AAS de tamanho 3

de uma população com média µ e variância A razão de variâncias só tem utilidade
σ2, e sejam os seguintes estimadores para µ: para comparar estimadores não viciados.
X1 + X 2 + X 3 E quando eles são viciados,

µˆ 1 = X = ou um deles é viciado?
3
X + X3
e µˆ 2 = 1 .
2 Neste caso, a medida adequada de
eficiência não é mais a variância.
Calcule a eficiência relativa do
estimador 1 em relação ao estimador 2.
Isto porque a variância mede a incerteza do • Estimador Eficiente

estimador em torno do seu valor esperado: (= Melhor Estimador Não Viciado)
V(θˆ ) = E[θˆ − E (θˆ )]2 ,

Um estimador é chamado eficiente se:
e o que queremos é a incerteza em
torno do valor real do parâmetro: 1. é não viciado
e
E (θˆ − θ) 2 . 2. sua variância é menor do que a de
Esta medida é chamada erro quadrático qualquer outro estimador não viciado.
médio, em geral abreviado por EQM.
• Estimador Consistente
• Estimador Linear
Um estimador é dito consistente se
Estimador linear é aquele que é uma satisfaz a uma das seguintes condições:
função linear de variáveis aleatórias. 1) É não viciado e:
Lim V(θˆ ) = 0.
n →∞
assintoticamente
Exemplo : X. não viciado.
ou 2) É viciado, mas:
Lim
n →∞
B(θˆ ) = 0 e Lim
n →∞
V(θˆ ) = 0.
62
• Estimação de uma Proporção

Exemplos de estimadores consistentes:
Aplicações:
1) X é consistente para µ.
1- Estimação da proporção p de eleitores que
(Lei dos Grandes Números) pretendem votar em certo candidato;
2 - Estimação da proporção p de itens
2) Ambos os estimadores de variância defeituosos, em controle de qualidade;
mencionados são consistentes para σ 2 . 3 - Estimação da proporção p de usuários de
celular que desenvolvem câncer cerebral.
Estimador para p: Propriedades de p̂ :
Seja C o conjunto de unidades, dentre i = 1, 1. É um estimador não viciado para p.

2, ..., n, que contém o atributo de interesse.
2. É um estimador consistente para p.
Seja: Xi = 0, se a unidade i∉C 3. Tem distribuição amostral
Seja: Xi = 1, se a unidade i∈C assintoticamente Normal (T.C.L.):
n
frequência
= ∑ Xi
relativa ou
p̂ = i =1 = X.  p(1 − p) 
proporção
n p̂ ≈ N p, .
amostral
aproximada para n grande.
 n 
Nada foi dito até agora sobre como obter

bons estimadores para um parâmetro. Isto diz
respeito aos chamados métodos de estimação.
8. MÉTODOS Estudaremos a seguir o método da máxima

verossimilhança e o método dos momentos.
DE ESTIMAÇÃO
Um terceiro método, chamado mínimos
quadrados, será estudado em econometria.
63
Exemplo 8.1 - Seja X1 uma AAS de

• Método da Máxima Verossimilhança
tamanho 1 de uma população Poisson, cujo
parâmetro é λ. A amostra observada foi x = 2.
Seja uma AAS observada {x1,x2,...,xn} de uma
população com parâmetro desconhecido θ. Ache o EMV de λ.
O estimador de máxima verossimilhança é Solução - se X ~ Poisson(λ):

aquele que conduz ao valor de θ que tornaria
λ xe−λ
máxima a probabilidade de obter essa amostra. P(X = x ) = ; x = 0,1,2,...; λ > 0.
x!
Se fosse um problema de probabilidade, A probabilidade de que a amostra

você calcularia P(X=2) para um dado valor fornecida no enunciado ocorra é:
de λ (usando a fórmula do slide anterior).
λ 2e − λ
P(X = 2) = .
Mas o problema aqui é inverso: 2!
temos x (amostra), no caso: x = 2, e

Perceba que esta probabilidade
queremos saber qual o valor de λ.
é uma função de λ, e não de x!
P(X = 2) como função de λ: • Função de Verossimilhança
0,3 P(X=x), encarada como função de λ, é

0,25 chamada função de verossimilhança.
0,2
0,15 O nome original em inglês é likelihood

0,1
function, daí a notação usual: L(λ).
0,05
0
A idéia do método a ser apresentado é
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
9,46
10,1
10,7
11,4
12
12,6
13,2
13,9
14,5
buscar o valor de λ que maximiza L(λ).
64
Resolvendo o problema graficamente:

E no caso de uma AAS de tamanho n>1?
0,3
máximo da função
0,25
0,2
0,15 A idéia é a mesma, só que agora a função de

0,1 ponto de máximo verossimilhança é a distribuição conjunta das
0,05 v.a.`s da amostra, encarada como função de λ.
0
0,01
0,64
1,27
1,9
2,53
3,16
3,79
4,42
5,05
5,68
6,31
6,94
7,57
8,2
8,83
9,46
10,1
10,7
11,4
12
12,6
13,2
13,9
14,5
• Função de Verossimilhança (caso discreto) Exemplo 8.1 (cont.) no caso de uma AAS
de tamanho n de uma população Poisson(λ):
n
O produto é pelo fato de ser uma ∑ x i − nλ
AAS (v.a.´s independentes!) λ i=1 e
n L (λ ) = .
P(X1 = x1 , X2 = x 2 ,...,Xn = x n ) = ∏ P(Xi = xi ),
n
i =1
∏x ! i
∀(x1,x2,...,xn). i =1
L(λ) Esta função deve ser

maximizada em relação a λ.
• Função de Log-Verossimilhança Exemplo 8.1 (cont.) - função de

log-verossimilhança para a Poisson:
l(λ) = ln[L(λ)] é chamada
função de log-verossimilhança.
 n xi 
 ∑ − nλ 
λ e  n 
i=1
O valor de λ que maximiza l(λ) l(λ) = ln n = ∑ x ln λ − nλ + c
   i =1 i 
 ∏ x i! 
é o mesmo que maximiza L(λ).
 i =1 
Nos casos práticos, é bem mais fácil derivar
(e, portanto, maximizar) l(λ) do que L(λ).
65
Maximizando a Função
de Log-Verossimilhança: Exemplo 8.1 (cont.) - A derivada da função
de log-verossimilhança encontrada é:
O ponto de máximo de l(λ)
é o valor de λ tal que: n
∑ xi
l`(λ) = 0 e l``(λ) < 0. l`(λ) = i =1
−n
λ
Um facilitador: em geral, l(λ) é
côncava, o que garante que: l``(λ) < 0,
∀ λ. Portanto, basta resolver: l`(λ) = 0.
n Logo, o estimador de máxima

Assim, temos que ∑ xi verossimilhança (EMV) é:
resolver a equação: l`(λ) = =1 − n = 0,
i
λ
n λˆ MV = X.
∑ xi
cuja solução é: λ = i =1
= x.
n
Método da Máxima Verossimilhança: Caso Contínuo:
1. Escrever a função de verossimilhança

E se a população de interesse for contínua
2. Escrever a função de log-verossimilhança
(p.ex., exponencial com parâmetro λ)?
3. Derivar a função de log-verossimilhança
4. Igualar a derivada do passo 3 a zero, e
resolver para o parâmetro de interesse A idéia é a mesma, só que agora a função de
5. Aplicar a função encontrada em (4) à verossimilhança passa a ser a distribuição
{X1,X2,...,Xn}, obtendo assim o EMV. conjunta de n variáveis aleatórias contínuas.
66
• Função de Verossimilhança (caso contínuo)

Exemplo 8.2 - Seja uma AAS
Por analogia com o caso discreto: de tamanho n de uma população
exponencial com parâmetro λ.
n
f (x1 , x 2 ,..., x n ) = ∏f (x i ),
i =1
∀(x1,x2,...,xn). Obtenha o EMV de λ.
L(λ), caso
contínuo
Solução: A função de log-verossimilhança é:

 −λ ∑ x i   −λ ∑ x i 
n n
A função de densidade é: f(x) = λe-λx, x>0.

  ( ) 
l(λ) = ln λn e i=1  = ln λn + ln e i=1  =

   
   
A função de verossimilhança é:
n ln(λ) − λ∑ xi .
n
n i =1
L(λ) = ∏ f (x i ) = Derivando e igualando a zero :
i=1
n
∑xi n n n 1
n −λ
l`( λ ) = − ∑ xi = 0 ⇔ λ = n = .
∏λe = λ e
−λx n i i=1
. λ i =1
i=1 ∑ xi x
i =1
Logo, o EMV é: Exercício 8.1 - Seja uma AAS de tamanho

n de uma população Bernoulli(p).
Obtenha o EMV de p.
1
λˆ MV = .
X R:
p̂ MV = X.
67
Solução Resumida do Exercício 8.1:

Exemplo 8.3 - Seja uma AAS de
n
n
∑ xi
n
∑ (1−xi )
tamanho n de uma população N(µ,σ2).
L(p) = ∏pxi (1 − p)1−xi = p i=1 i=1
(1- p) =
i=1
n n Obtenha os EMV`s de µ e σ2.
∑ xi n − ∑ xi
⇒ l(p) = ∑ x i ln(p) +  n − ∑ xi ln(1- p).
n n
i=1 i=1
p (1- p)
i=1  i=1 
n
 n
 n n
∑ xi  n − ∑ xi  ∑ xi − np ∑ xi
l`(p) = i=1 +  i=1  (−1) = i=1 = 0 ⇔ p = i=1 .
p (1 − p) p(1 − p) n
Solução:
A função de verossimilhança é:
n
A idéia aqui é derivar a função de log- L(µ, θ = σ2 ) = ∏ f (x i ) =
verossimilhança em relação a µ e θ = σ2 i=1
n
( x i −µ ) 2
( x i −µ )
∑
2
(que são os parâmetros a serem estimados). n −
1
− −
n −
∏ (2πθ) e =(2πθ) e
2θ 2θ
2 2 i=1
.
i =1
Derivando em relação à µ:
A função de log-verossimilhança é:
n
∂l(µ, θ) ∑ (x − µ) i
 n −∑ ( xi −µ) 
n 2
= i =1
.
 − θ  ∂µ θ
l(µ, θ) = ln (2πθ) 2 e i=1  =
2

 
n Igualando a zero:
n ∑(xi − µ)2
− ln(2πθ) − i =1 n
2 2θ
.
∑ (x
i =1
i − µ) = 0 ⇔ µ = x ⇒ µˆ MV = X.
68
Derivando em relação à θ:
Assim, os EMV`s de µ e σ2 da Normal são:
n
(xi − µ)2
∂l(µ, θ) n i∑
=− + =1
µˆ MV = X.
∂θ 2θ 2θ2 n
Igualando a zero e substituindo µ por x :

∑ (X i − X) 2
σˆ 2
MV = i =1
.
n n
∑ (x − x)
i
2
θ= i =1
. Obs - note que o EMV de σ2 é viciado.
n
• Propriedades Estatísticas dos EMV EMV para os casos mais importantes:
Bernoulli : p̂ MV = X.
1) Não são necessariamente não viciados, mas
Poisson : λˆ = X.
são assintoticamente não viciados e consistentes. MV
1
exp onencial : λˆ MV = .
2) São assintoticamente eficientes. X
1
geométrica : p̂ MV = .
3) Seguem distribuição aproximadamente X
n
Normal, para grandes amostras ∑ (X i −X )
2
(isto é, são assintoticamente Normais). Normal : µˆ MV = X e σˆ 2

MV = i =1
.
n
• Princípio da Invariância do EMV Exemplo 8.5 - Considere que queiramos

estimar a probabilidade de uma mulher
Se θ̂ é o EMV de θ, então o EMV de não ter filhos, em uma população Poisson.
uma função g(θ) é simplesmente g (θˆ ).
Ache o EMV desta probabilidade,
Exemplo 8.4 - O EMV de q = (1-p) da baseado em uma AAS de tamanho n.
distribuição de Bernoulli, usando o P.I., é:
R : P̂MV ( X = 0) = e −λ MV = e −X .
ˆ
q̂ MV = 1 − p̂ MV = 1 − X.
69
Exercício 8.2 - Considere uma AAS de Solução Resumida do Exercício 8.2:

tamanho n de uma população referenciada
pela distribuição: f(x) = αxα-1, 0<x<1, α>0. n n
L(α) = ∏αx iα−1 = αn ∏ x αi −1.
i=1 i=1
Obtenha o EMV de α. n
l(α) = nln(α) + (α −1)∑ln(x i ).
i=1
n
R : αˆ MV = −
n
n n
n
. l`(α) = + ∑ln(x i ) = 0 ⇔ α = − .
∑ ln(X i ) α i=1 n
i =1 ∑ln(xi )
i=1
O que são “momentos” ?

• Método dos Momentos
Momentos populacionais:
E(X), E(X2), ..., E(Xk).
Vantagem: bem mais simples do que
o método da máxima verossimilhança Momentos amostrais:
e, na maior parte dos casos práticos n n n
de interesse, leva ao mesmo resultado. ∑ X i ∑ X i2 ∑ X ik
i =1 i =1 i =1
, ,..., .
n n n
Método dos Momentos para Estimadores de momentos para os casos

Distribuições com 1 Parâmetro mais importantes envolvendo 1 parâmetro:
No caso de distribuições com apenas Bernoulli : p̂ MM = X.

1 parâmetro (ex., Poisson, exponencial,
Bernoulli, geométrica), o estimador de Poisson : λˆ = X. MM
momentos é obtido igualando o primeiro 1
momento populacional ao primeiro exponencial : λˆ MM = .
momento amostral - ou seja: X
1
geométrica : p̂ MM = .
E(X) = X. X
70
Método dos Momentos para Exercício 8.3 - Seja uma AAS de

Distribuições com 2 Parâmetros tamanho n de uma população N(µ,σ2).
Obtenha os estimadores de
No caso de populações com 2 parâmetros momentos de µ e σ2.
(ex.: Normal), o estimador de momentos é
obtido igualando os 2 primeiros momentos n
populacionais - E(X) e E(X2) - aos ∑ (X i − X ) 2

respectivos momentos amostrais. R : µˆ MM = X e σˆ 2MM = i =1
.
n
Dica para a solução do exercício 8.3: Exercício 8.4 - Seja uma AAS de tamanho
n de uma população referenciada pela
Para obter o estimador da variância, você distribuição: f(x) = αxα-1, 0<x<1, α>0.
precisará usar que E(X2) = V(X) + E2(X), e:
Obtenha o estimador de momentos de α.
n n
∑X 2
i ∑X 2
i
R : αˆ MM =
X
.
σ +X =
2 2 i =1
⇒ σˆ 2
MM = i =1
− X2 1− X
n n
n n
∑X 2
− nX 2 ∑ (X − X)2 Obs − passo intermediário :
i i
= i =1
= i =1
. α
n n verificar que E(X) = .
α +1
Para introduzir a definição de IC,

9. INTERVALOS formula-se a seguinte questão:
DE CONFIANÇA O que a estimativa pontual de µ permite

concluir acerca do real valor deste parâmetro?
(PARTE 1 - CONCEITOS BÁSICOS,
IC´S P/ MÉDIA E PROPORÇÃO, Por exemplo, pode-se afirmar
TAMANHO DE UMA AMOSTRA) que µ é igual à sua estimativa?
71
R: Não. Podemos então afirmar que a estimativa

esteja, ao menos, próxima do valor de µ?
Porque pode (e deve) haver
o chamado erro de estimação:
Sim, se estivermos adotando um estimador
x − µ. com boas propriedades e a amostra não for
muito pequena, esta suposição é razoável.
Este erro não é calculável, uma vez que

não conhecemos o valor do parâmetro µ. Porém, o quão próxima?
Como não conhecemos µ, também não

é possível responder a esta questão. Intervalo de Confiança (IC)
No entanto, é possível obter um intervalo
numérico em torno da estimativa, dentro do Um intervalo de confiança (IC) é um
qual se pode confiar que o parâmetro esteja. intervalo numérico, construído a partir
(o sentido preciso do termo “confiar” da estimativa pontual, no qual podemos
será estabelecido mais adiante) confiar que o parâmetro esteja contido.
Esta importante ferramenta

Por ora, entenda o termo “confiar” em seu
estatística é denominada estimativa
sentido corriqueiro (isto é, o de crença).
intervalar ou intervalo de confiança.
• Grau de Confiança De forma genérica, representaremos o grau

de confiança como 100(1-α)%, sendo que:
É o quanto se confia que o IC contenha µ.
Usualmente fixado em 90%, 95% ou 99%. α = 0,1 corresponde ao grau de confiança 90%.
α = 0,05 corresponde ao grau 95%.
Algumas vezes chamado coeficiente
de confiança ou nível de confiança. α = 0,01 corresponde ao grau 99%.
Este α possui uma interpretação específica,

Como veremos mais adiante, o grau de que está relacionada com testes de hipóteses,
confiança não é uma probabilidade! assunto que será estudado mais adiante.
72
• Construção de um IC para a
 X −µ 
Média de uma População Normal P − z α ≤ ≤ z α  = (1 − α)
 2 σ/ n 2 
Parte-se do seguinte resultado (conhecido):
z α é o valor da v.a. Z ~ N(0,1)
2
σ2
X −µ α
X ~ N (µ , )⇒Z= ~ N(0,1). tal que : P(Z ≥ z α ) = .
n σ 2 2
n
O passo seguinte é manipular esta probabilidade
a partir do qual, pode-se escrever: de tal forma que µ situe-se no centro do evento.
X −µ
P( − z α ≤ ≤ z α ) = (1 − α) O que esta última probabilidade nos informa?
2 σ/ n 2
σ σ Informa que, se considerarmos todas as

P (− z α ≤ X − µ ≤ zα ) = (1 − α)
n n amostras de tamanho n possíveis e para
2 2
cada uma delas calcularmos o intervalo:
σ σ
P (− z α − X ≤ −µ ≤ z α − X ) = (1 − α) estimativa
n n
σ σ
2 2
P( X + z α
σ
≥ µ ≥ X − zα
σ
) = (1 − α)
[x − z α ; x + zα ],
n n 2 n 2 n
2 2
σ σ
P( X − z α ≤ µ ≤ X + zα ) = (1 − α) µ estará contido em 100(1-α)% destes intervalos.
2 n 2 n
Suponha agora que, com base em uma única Resposta: não! Embora tenhamos visto que:
amostra observada (a qual, note, é só o que
temos na prática) seja calculado o intervalo: P( X − ε ≤ µ ≤ X + ε) = (1 − α), (I)
σ σ
[x − z α ;x + zα ]. é completamente errado afirmar que:
2 n 2 n
P( x − ε ≤ µ ≤ x + ε) = (1 − α ). (II)
Pergunta: está correto afirmar que:
σ σ Justificativa: não há nenhuma v.a. em (II),
P( x − z α ≤ µ ≤ x + zα ) = (1 − α) ? somente números, e assim não podemos
2 n 2 n falar em probabilidade, como em (I).
73
• IC p/ a Média µ de uma População Normal

O intervalo numérico calculado
(considerando σ conhecido)
a partir da amostra observada:
σ σ
[x − z α ;x + zα ].
n n  σ σ
2 2 IC100(1−α )% (µ) =  x − z α ; x + zα .
é o que se chama intervalo de  2 n 2 n 
confiança (de 100(1-α)%) para µ. grau de confiança do IC
(90, 95 ou 99 %).
100(1-α)% é o grau de confiança deste IC.

A semi-amplitude do IC é chamada
margem de erro, usualmente denotada por ε.
• Significado de “Confiança”
1 - Sabemos que, se calculássemos o IC 3 - Esta amostra pode ser uma das

σ σ 100(1-α)% cujo IC contém o valor de µ.
[x − z α ; x + zα ]
2 n 2 n
para todas as amostras de tamanho 4 - Esta amostra também pode ser uma das
n possíveis, o parâmetro µ estaria 100α% cujo IC não contém o valor de µ.
em 100(1-α)% dos intervalos calculados.
2 - Na prática, temos apenas uma amostra No que você confiaria mais: “3” ou “4”?
(aquela que selecionamos pra observar).
• Grau de Confiança x Probabilidade

5 - Nada mais razoável do que
confiarmos que nossa amostra seja
uma daquelas 95% cujo IC contém µ. Não é correto dizer que a probabilidade
de que o parâmetro (digamos µ) pertença
ao IC é 0,95, mas sim que: temos um grau
de confiança de 95% - ou 95% de
O grau com que confiamos é o confiança - de que µ pertença ao IC.
“grau de confiança”, no caso 95%.
74
• Como Escolher o Grau de Confiança? Desta forma:
Já foi dito que os graus de confiança Um IC de 99% é bastante confiável,

usuais são: 90%, 95% e 99%. Porém, mas em compensação, pode ser amplo
como escolher entre estas opções? demais, comprometendo sua precisão.
Um IC de 90% é mais estreito (= preciso),
Diretriz: há uma relação direta entre o
. mas em compensação estamos expostos a
grau de confiança e a amplitude do IC:
um percentual de erro elevado (1 em 10).
quanto maior o grau de confiança
escolhido, mais amplo será o IC. O grau de 95% é um bom “trade-off” entre
as duas situações acima sendo, por esta
(e um IC amplo é, obviamente, péssimo) razão, adotado com bastante frequência.
Valores Importantes da Normal para IC`s: Achando z0,025 = valor de k tal que P(Z>k) = 0,025:
k 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Para o IC de 95% (α = 0,05) ⇒ z0,025 = 1,96.
Para o IC de 90% (α = 0,1) ⇒ z0,05 = 1,645.
Para o IC de 99% (α = 0,01) ⇒ z0,005 = 2,575.
O procedimento para achar esses valores é Assim: z0,025 = 1,96.

ilustrado a seguir (o primeiro exemplo
replica o procedimento do exemplo 5.8).
Achando z0,05 = valor de k tal que P(Z>k) = 0,05: Achando z0,005 = valor de k tal que P(Z>k) = 0,005:
k 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 k 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
Interpolando: z0,05 = 1,645.

?
Interpolando: z0,005 = 2,575.
75
Exemplo 9.1 - Na situação do exemplo Substituindo na fórmula do IC, temos:

6.1, considere que o desvio padrão das
alturas de toda a turma (populacional)
seja σ = 6. A altura média na amostra  6 6 
IC95% (µ) = 180 − 1,96 ;180 + 1,96 
de tamanho 5 fornecida naquele exemplo  5 5
resultou 180 cm. Determine o IC95%(µ).
= [174,74;185,26].
Solução:
Para um grau de confiança de 95%, o valor

da Normal a ser usado é z α = z 0, 025 = 1,96. Qual a interpretação deste IC?
2
• Interpretação Errada • Interpretação Correta
A probabilidade de que µ, a altura média Temos 95% de confiança de que µ

de todos os alunos da turma, esteja entre esteja no intervalo [174,74;185,26].
174,74 e 185,26 é igual a 0,95.
µ não é v.a., e sim uma constante, cujo

valor não conhecemos. Ou µ está ou não Esta interpretação é fundamentada pelo
está no intervalo calculado (não faz que ocorreria em amostras repetidas.
sentido atribuir probabilidade a isto!).
• IC`s em Amostras Repetidas

Erros conceituais comuns:
Se selecionássemos todas as amostras de
tamanho 5 possíveis da população, e para 1 - Temos 95% de confiança de que
cada uma delas calculássemos o IC: a estimativa esteja no intervalo.
 σ σ
IC95% (µ) = x − 1,96 ; x + 1,96 , 2. A probabilidade de que o parâmetro
 5 5 pertença ao intervalo é 0,95.
µ estaria em 95% dos intervalos.
76
Solução: substituir σ por seu estimador S.
Problema: quando σ é desconhecido

Problema: σ na prática não é conhecido, e utilizamos S no lugar de σ em:
portanto não há como calcular este intervalo.
X−µ
,
σ/ n
a distribuição não é mais

N(0,1), e sim t de Student.
• Distribuição t de Student Gráfico da Distribuição t de Student:
- Distribuição contínua proposta por William

Gosset, funcionário da cervejaria Guiness,
sob o pseudônimo de Student (estudante).
- Assim como a distribuição Normal,

a distribuição t possui média zero,
é simétrica e possui forma de sino.
Parâmetro: υ = número de graus de liberdade.
A distribuição da média amostral, considerando • IC p/ a Média µ de uma População Normal

a população Normal com o desvio padrão σ (considerando σ desconhecido e estimado)
desconhecido, é, após a devida padronização:
 s s 
X −µ IC100(1−α )% (µ) =  x − t α ;x + t α .
~ t n −1.  n −1;
2 n n −1;
2 n 
S/ n grau de confiança do
IC (90, 95 ou 99 %). T é uma v.a. com distribuição
distribuição t de Student t de Student com n-1 g.l..
com n-1 graus de liberdade
t α é o valor k tal que: P(T>k) = α/2.
n−1;
2
77
• Tabela t Valores da Tabela t x Tabela Normal
A distribuição também t é tabelada, mas

a tabela t é diferente da tabela Normal.
Todavia, no que diz respeito a intervalos de

confiança (e também a testes de hipóteses,
como veremos adiante), a tabela t é mais
fácil de utilizar do que a tabela Normal. valor da Normal que
valor da t que deixa
deixa (α/2) pra cima
(α/2) para cima
Exemplo 9.2 - No exemplo 9.1, considere Consultando a Tabela t:

agora que σ é desconhecido, estimado a
partir da amostra: x1 = 174, x2 = 186, x3 =
t 4;0, 025 = 2,776.
186, x4 = 180 e x5 = 174 cm. Ache o IC95%(µ).
Solução - obtendo a estimativa de
σ a partir da amostra observada:
n
∑ (x i − x) 2
s =
2 i =1
=
n −1
(174 − 180) 2 + (186 − 180) 2 + (186 − 180) 2 + (180 − 180) 2 + (174 − 180) 2
4
Porque a diferença é tão grande neste caso? (2,776 >> 1,96)
= 36 ⇒ s = 36 = 6.
Substituindo na fórmula do IC, temos: Exemplo 9.3 - Foi tomada uma amostra
de 25 trabalhadores de uma fábrica.
 6 6  Esta amostra forneceu salário médio de
IC95% (µ) = 180 − 2,776 ;180 + 2,776  R$ 400,00 e desvio padrão R$ 450,00.
 5 5
Considerando a população Normal,
= [172,55;187,45]. obtenha o IC de 90% p/ o salário médio
dos trabalhadores da fábrica. Interprete.
Interpretação: temos 95% de confiança Obs - como seria este enunciado para o
de que µ esteja no intervalo acima. caso em que o desvio padrão é conhecido?
78
Solução:
• Consultando a Tabela t: x = 400; s = 450.
O valor na tabela t é t 24;0,05 = 1,711.
O IC solicitado é :
 450 450 
IC 90% (µ) = 400 − 1,711 ;400 + 1,711 =
 25 25 
[ 246,01;553,99].
Interpretação: com 90% de confiança, o salário médio µ de
todos os trabalhadores da fábrica encontra-se neste intervalo.
Exemplo 9.4 - Suponha que a vida

útil de uma marca de tv`s de LED seja • Consultando a Tabela t:
normalmente distribuída. A partir de
uma amostra de 16 tv`s, estimou-se
uma vida útil média de 8.900 horas, e
um desvio padrão igual a 500 horas.
Construa IC`s de 95% e 99% para o

tempo médio de vida útil das tv desta
marca. Interprete estes intervalos.
Solução (95%): Solução (99%):

x = 8.900; s = 500. O que muda é só o valor na tabela t,
O valor na tabela é t 15;0,025 = 2,131. que agora é : t 15;0,005 = 2,947.
O IC de 95% é : O IC de 99% é :
 500   500 500 
IC95% (µ) = 8.900 − 2,131
500
;8.900 + 2,131 = IC99% (µ) = 8.900 − 2,947 ;8.900 + 2,947 =
 16 16   16 16 
[8.633,6;9.166,4].
[8.531,6;9.268,4].
Interpretação: com 95% de confiança, a vida útil média desta
marca de tubos de imagem encontra-se neste intervalo. O intervalo aumentou, como tinha que ser!
79
Exemplo 9.5 - Os índices de endividamento • Consultando a Tabela t para 99%:

de empresas de um certo setor da economia
seguem distribuição Normal. t 8; 0 , 005 = 3,355.
A média de uma amostra de tamanho 9 foi
45 e o desvio padrão foi 30. Calcule os
ICs de 90, 95 e 99% para o índice µ de
endividamento médio das empresas do setor.
Obs - como seria este enunciado para o

caso em que o desvio padrão é conhecido?
Solução (99%):
• Consultando a Tabela t para 95%:
x = 45, s = 30.
O valor na tabela é t 8;0,005 = 3,355. t 8; 0 , 025 = 2,306.
O IC de 99% é :
 30 30 
IC99% (µ) = 45 − 3,355 ;45 + 3,355 =
 9 9 
[11,5;78,5].
Interpretação: com 99% de confiança, o índice médio de
endividamento das empresas deste setor está entre 11,5 e 78,5.
Solução (95%):
• Consultando a Tabela t para 90%:
O valor na tabela é t 8;0,025 = 2,306.
t 8; 0 , 05 = 1,86.
O IC de 95% é :
 30 30 
IC95% (µ) = 45 − 2,306 ;45 + 2,306 =
 9 9 
[21,9;68,1].

80
Solução (90%):
• Relação entre a Distribuição t e a Normal
O valor na tabela é t 8;0,05 = 1,86.
O IC de 90% é : À medida que o número de graus de

liberdade υ aumenta, o comportamento da
 30 30 
IC90% (µ) = 45 − 1,86 ;45 + 1,86 = distribuição t aproxima-se do da Normal
 9 9 
[26,4;63,6].

Por isso a tabela t que vocês receberam No caso do IC para a média com σ
vai só até 30 e depois começa a “pular”. desconhecido, vimos a distribuição a ser
Para 30 ou mais graus de liberdade, utilizada é a t com υ = n-1 graus de liberdade.
costuma-se usar a Normal como aproximação.
Note, em particular, que a última linha da tabela Desta forma, quando o tamanho da amostra
t (graus de liberdade = ∞) corresponde aos n for grande (>30), um IC aproximado pode
valores usados nos IC para σ conhecido! ser obtido utilizando a distribuição Normal
(e o ponto é: mesmo com σ desconhecido!).
(isto permite evitar aquele procedimento chato
para extrair esses valores da tabela Normal)
• IC Aproximado (n > 30) para a Média de Uso das Tabelas - Resumo:

uma População Normal com Desvio Se o desvio padrão da população (σ)
Padrão Desconhecido e Estimado
é conhecido, usa-se a tabela
Normal para qualquer valor de n.
 s s  Se, por outro lado, σ é desconhecido

IC100(1−α )% (µ) ≅  x − z α ; x + zα .
 2 n 2 n (como ocorre na prática):
Usa-se a tabela t, para n ≤ 30.

Pode-se usar a tabela Normal, para n > 30.
81
Exemplo 9.6 - A estimativa de µ com base c) Se considerássemos todas as amostras

em uma amostra foi 5, com IC de 95% dado (de mesmo tamanho n) possíveis, em 95%
por [2;8]. Atribua verdadeiro (V) ou falso delas o intervalo [2;8] conteria µ ( )
(F) à cada afirmativa abaixo, justificando: d) Se considerássemos todas as amostras
(de mesmo tamanho n) possíveis, 95%
a) A probabilidade de que µ delas levariam a ICs que conteriam µ ( )
esteja entre 2 e 8 é 0,95 ( )
e) O erro cometido na estimação de
µ é de, no máximo, 3 unidades ( )
b) Temos 95% de confiança de que
o intervalo [2;8] contém µ ( ) f) O erro de estimação é de, no máximo, 3
unidades, com grau de confiança 95% ( )
• Construção de um IC para • Intervalo de Confiança para

uma Proporção Populacional uma Proporção (Grandes Amostras)
 p̂(1 − p̂) p̂(1 − p̂) 
Parte-se do seguinte resultado (conhecido): IC100(1−α )% (p) = p̂ − z α ; p̂ + z α .
 2 n 2 n 
 p(1 − p) 
p̂ ≈ N p, . Exemplo 9.7 - 70 peças são selecionadas ao
 n  acaso de um lote, e observa-se que 49 são
defeituosas. Um IC de 95% para a
aproximada para n grande, pelo TCL. proporção de peças defeituosas no lote é:
A partir daí, o procedimento é idêntico àquele  0,7 * 0,3 
IC95% (p) = 0,7 m 1,96  = [0,5927;0,8073].
adotado na obtenção do IC para a média µ.  70 
• Margem de Erro Pode-se calcular trivialmente o valor de ε:
É o valor máximo ε que o erro de estimação

pode assumir, com determinada probabilidade. σ
ε = zα .
Assim, na estimação da média µ de uma 2 n
população Normal e considerando uma
probabilidade (1-α), ε é o valor que satisfaz:
Esta é a margem de erro para estimar
P( −ε ≤ X − µ ≤ ε) = (1 − α). a média de uma população Normal.
82
• Determinando o Tamanho
Já no caso da estimação de p, a
de uma Amostra
condição para determinar ε é:
Um aspecto importante da estatística é a
P(−ε ≤ p̂ − p ≤ ε) = (1 − α).
determinação do número de unidades a
serem selecionadas = tamanho da amostra.
Assim, a margem de erro para
estimar uma proporção é: A partir da especificação da margem de erro ε
(erro máximo considerado tolerável, com uma
p(1 − p) probabilidade 1-α), chega-se ao tamanho de
ε = zα . amostra necessário, invertendo-se a fórmula da
n
margem de erro para obter n em função de ε.
2
• Tamanho de Amostra para Estimar µ Note que não faz sentido usar a estimativa
de σ nesta fórmula, uma vez que ainda não
No caso da média de uma população Normal: temos a amostra (a fórmula é para definir
o tamanho da amostra que será coletada!).
σ z 2α σ 2 Há 2 soluções “paliativas”:
ε = zα ⇒ n= 2 .
n ε2
2
1 - Utilizar a estimativa do σ em uma
pesquisa anterior com característica similar.
Problema: σ na prática não é conhecido,
2 - Utilizar estimativa do σ
portanto não há como obter o valor de n.
em uma amostra “piloto”.
• Tamanho de Amostra para Estimar p

Porém, neste caso (estimação de p), há um
Neste caso, temos: procedimento simples e bastante elegante
para contornar e resolver este problema.
p(1 − p) z 2α p(1 − p)
ε = zα ⇒
n n= 2
.
2
ε2
O ponto é que, embora p seja
desconhecido, a função p(1-p)
Problema: o valor de p é desconhecido! assume valor máximo em p = 1/2.
83
Gráfico da função p(1-p): Fazendo p(1-p) = 1/4 na fórmula de n:
p(1-p) z 2α cota superior para n,

1/4 denominado tamanho
n= 2
4ε 2
de amostra conservador.
Se p for diferente de 1/2, a fórmula acima

P
p = 0,5 fornece um n maior do que o necessário.
0
0,06
0,12
0,18
0,24
0,36
0,42
0,48
0,54
0,66
0,72
0,78
0,84
0,96
0,3
0,6
0,9
0
Portanto, esta fórmula garante uma margem

p
de erro igual ou menor que a especificada.
Exemplo 9.8 - Qual o tamanho de amostra E se reduzirmos esta margem para 5%?
necessário para estimar uma proporção 1
com uma margem de erro de 10% (a 95% Solução: n ≅ = 400.
ε2
de confiança), com base em uma AAS? Conclusão: para reduzir a margem
de erro pela metade, é necessário
quadruplicar o tamanho da amostra!
Solução (considerando zα/2 ≅ 2):
Questão: Pesquisas eleitorais, cuja margem
22 1 1 de erro usual é 2%, costumam trabalhar
n≅ 2 = 2 = = 100.
4ε ε (0,1) 2 com amostras em torno de 2.500 pessoas.
Este tamanho de amostra é adequado?
A seguir, apresenta-se o IC para a variância

σ2 de uma população Normal. O ponto de
partida é o resultado apresentado a seguir:
10. INTERVALOS
S2
Q = (n − 1) ~ χ 2n −1 .
DE CONFIANÇA σ2
(PARTE 2 - IC`S PARA VARIÂNCIA E O procedimento para obter o IC para σ2 é

PARÂMETROS DE 2 POPULAÇÕES) bastante similar ao do capítulo 9, exceto por
um complicador: a distribuição qui-quadrado
(ao contrário da Normal e da t) é assimétrica.
84
Passo 1 - escrever a expressão da Passo 2 - “isolar” σ2 no meio do evento:

probabilidade de um intervalo
contendo Q ser igual a 1-α:
 S2 
P  χ 2  α  ≤ (n − 1) 2 ≤ χ 2 α  = (1 - α)
 n −1, 1−  σ n −1, 
 S2    2 2 
P χ 2  α  ≤ (n − 1) 2 ≤ χ 2 α  = (1 - α)
 n −1, 1− 2  σ n −1,
2 
 
valor k1 na tabela valor k 2 na tabela  1 σ2 1 
qui - quadrado tal que : qui - quadrado tal que : P 2 ≥ ≥ 2  = (1 - α)
 χ  α  (n − 1)S
2
χ α 
α α n −1, 1−  n −1,
P(X < k1 ) = P(X > k 2 ) =   2 2 
2 2
 
 1 σ2 1 
P 2 ≤ ≤  = (1 - α)
 χ α (n − 1)S
2
χ2  α  Passo 2 - Substituindo agora S2
n −1, n −1,  1−  
 2  2 
pela estimativa correspondente
s2, obtém-se o IC a seguir.
 
 (n − 1)S 2 (n − 1)S 2 
P 2 ≤ σ2 ≤ 2  = (1 - α)
 χ α χ  α 
n −1, n −1, 1− 
 2  2 
• IC para a Variância de
uma População Normal Exemplo 10.1 - Uma amostra de 30 alunos
de uma universidade apresenta variância
  amostral das notas dada por: s2 = 132,7.
 s2 s2 
IC 100(1−α)% (σ ) = (n − 1) 2 ; (n − 1) 2
2
.
 χ α χ  α 
 n −1,
2
n −1,
 2 
 1−  
Supondo que a população é Normal,
valor k 2 na tabela valor k1 na tabela obtenha o IC de 95% para σ2.
qui - quadrado tal que : qui - quadrado tal que :
α α
P(X > k 2 ) = . P(X < k1 ) = .
2 2
85
Consultando a Tabela Qui-Quadrado: Solução - os valores da qui-quadrado são:
χ 229;0,975 = 16 e χ 229;0,025 = 45,7.

Onde:
.
Substituindo na fórmula do IC:
 132,7 132,7 
IC 95% (σ 2 ) =  29 ;2 9 = [84,21;240 ,52].
χ 2
= 16 e χ 2
= 45,7.  45, 7 16 
29;0,975 29;0,025
Estimador não viciado para µ1-µ2:

A seguir, deduziremos o IC para a diferença
das médias de 2 Populações Normais. X1 − X 2
.
Sejam 2 populações Normais com médias (diferença das médias amostrais).
µ1 e µ2 e desvios padrão σ1 e σ2. Sejam 2
Onde:
AAS`s independentes de tamanhos n1 e n2.

. Variância do Estimador de µ1-µ2:
V(X1 − X 2 ) = V(X1 ) + V(X 2 )

Considere o problema de estimar a diferença
entre as médias destas 2 populações: µ1-µ2. σ12 σ 22
= + . amostras são
n1 n 2 independentes!
Esta estatística Z pode ser usada para obter o IC,

Adicionalmente, a distribuição é Normal.
Assim: se σ12 e σ22 forem conhecidas. Porém, na prática,
σ2 σ2 σ12 e σ22 são desconhecidas e devem ser estimadas.
(X1 − X2 ) ~ N(µ1 − µ2 , 1 + 2 ).
n1 n2
Neste caso, a solução usual é assumir que
Padronizando: σ = σ22 = σ2 , e substituir σ2 por seu estimador
2
1
(X1 − X2 ) − (µ: 1 − µ2 ) não viciado S2p , cuja fórmula é apresentada a seguir :

Z= ~ N(0,1).
σ12 σ22
+ (n 1 − 1)S12 + (n 2 − 1)S22
n1 n 2 S2p = .
“pooled” n1 + n 2 − 2
86
• IC para a Diferença das Médias

A estatística resultante é:
de Duas Populações Normais
T=
(X 1 )
− X 2 − (µ1 − µ 2 )
,
1 1 IC100(1−α)% (µ1 − µ2 ) =
Sp +
n1 n 2  1 1 1 1
(x1 − x2 ) − t n +n −2;αsp + ; (x1 − x2 ) + t
+ −
α sp + ,
 1 2
2 n1 n2 n n 12 ;2
2 n1 n2 
com Sp = S . Esta estatística segue distribuição t
2
p
de Student com n1 + n 2 - 2 graus de libertade, e é a (n1 −1)s12 + (n 2 −1)s22

sp = .
partir dela que se obtém o IC a seguir para µ1 - µ 2 . n1 + n 2 − 2
Exemplo 10.2 - Para uma AAS de 8

Pressupostos para o IC para µ1-µ2: lâmpadas de uma marca A, a vida
média estimada foi de 4.600 horas,
1 - As populações são Normais. com s1 = 250 horas. Para uma AAS de
10 lâmpadas de uma marca B, a vida
Onde:
média estimada foi de 4.000 horas, com
2 - As amostras são independentes, de
.
s2 = 200 horas. Supondo que a duração
tamanhos n1 e n2 (não necessariamente iguais).
das lâmpadas de ambas as marcas siga
distribuição Normal, obtenha um IC de
3 - As variâncias das populações 99% para a diferença entre a vida média
são iguais: σ12 = σ 22 = σ 2 . das lâmpadas das 2 marcas.
Interprete este intervalo.
Solução:
• Consultando a Tabela t:
(n1 − 1)s12 + (n 2 − 1)s 22 7 * (250) 2 + 9 * (200) 2

sp = =
n1 + n 2 − 2 16
= 49.843,75 = 223,26.
[
IC 99% (µ1 − µ 2 ) = ( x1 − x 2 ) m t 16;0 , 005s p 1
n1 ]
+ n12 =
[
= ( 4.600 − 4.000) m t 16;0 , 005s p 1
8 + 101 ]
= [(600) m 2,921 * 223,26 * 0,4743]
= [(600 ) m 309,33] = [290,67;909,33].
87
Interpretação: temos 99% de confiança

Exercício 10.1 - 2 amostras independentes de
de que a diferença entre os tempos
médios de duração das duas marcas duas turmas apresentam as seguintes notas:
esteja entre 290,67 e 909,33.
Turma 1 - 5.0, 6.0, 3.5, 9.0, 8.5.
Obs - analogia com testes de hipóteses:
Turma 2 - 4.0, 10.0, 7.0, 5.0.
O IC fornece bastante evidência de que as
médias das duas populações sejam diferentes.
Ache o IC de 95% para µ1- µ2.
O teste de hipóteses como esta
(µ1 = µ2) será estudado mais à frente.
Solução: A seguir, será construído um IC

para a diferença de proporções.
4 * 5,425 + 3 * 7
sp = = 2,4698.
7 Sejam 2 populações com proporções p1 e p2,
e 2 AAS`s independentes de tamanhos n1 e n2,
[
IC95% (µ1 − µ 2 ) = (6,4 − 6,5) m t 7 ;0, 025s p 1
5
+ 14 ] selecionadas de forma independente destas
populações. O estimador não viciado de p1-p2 é:
= [− 0,1 m ( 2,365 * 2,4698 * 0,6708) ]
p̂1 − p̂ 2 .
= [− 0,1 m 3,9182] = [− 4,0182;3,8182].
(diferença das proporções amostrais)
Interpretação?
É válido o seguinte resultado: • Intervalo de Confiança p/ a Diferença

de Proporções (Grandes Amostras)
 p (1 − p1 ) p2 (1 − p2 ) 
p̂1 − p̂2 ≈ N p1 − p2 , 1 + .
 n 1 n 2 
 p̂ (1− p̂1 ) p̂2 (1− p̂2 ) 
aproximada para n1 e n2 grandes, portanto IC100(1−α)%(p1 − p2 ) = (p̂1 − p̂2 ) m zα 1 + .
o IC só será válido sob esta condição.  2 n1 n2 
Os passos para obter o IC não apresentam

Obs - deve ser ressaltado que este IC demanda
nenhuma novidade em relação ao que já foi
que as duas amostras sejam grandes.
visto, e resultam no IC a seguir para p1-p2.
88
Exemplo 10.3 - Duas financeiras aplicam Solução:

diferentes critérios para concessão de
crédito. No banco de dados da financeira 1,  140 220 
IC90% (p1 − p 2 ) =  − m
foram selecionados ao acaso 180 clientes,  180 300 
dos quais 140 eram inadimplentes. No
banco de dados da financeira 2, foram 140  140  220  220  
1 −  1 − 
selecionados ao acaso 300 clientes, dos 180  180  300  300  
1,645 +
quais 220 eram inadimplentes. Com base 180 300 
nestes dados, obtenha o IC de 90% para a 
diferença entre as proporções de clientes 
inadimplentes nas duas corretoras. R: [-0.0216;0.1105].
Exercício 10.2 - Suponha que queiramos • Distribuição F

comparar a proporção de aposentados no
Sudeste com a proporção de aposentados O próximo IC a ser estudado baseia-se
no Nordeste. 2 amostras de tamanho 36 de em uma distribuição contínua chamada
cada uma das regiões forneceram as F, que tem como parâmetros υ1 e υ2.
seguintes proporções de aposentados:
p̂ SE = 0,18 e p̂ NE = 0,168. A notação é:
Ache o IC de 99% para a diferença entre as graus de

liberdade do
proporções de aposentados nas 2 regiões. F ~ Fυ1 ,υ2 . numerador
graus de liberdade
do denominador
R: [-0,218;0,242].
O IC para a razão das variâncias de • IC p/ a Razão de Variâncias

2 populações Normais é obtido de Duas Populações Normais
a partir do seguinte resultado:
σ 22 s2 s 22 
S12 σ 22 IC100(1−α)% ( 2 ) =  2 f 2 n −1,n −1; 
2
~ Fn1 −1,n 2 −1 ,  α
; f α .
σ1 n −1,n −1; 1− 
S22 σ12  s1 1 2  2  s1 1 2 2 
α
valor k 2 tal que : P(F > k 2 ) = .
em que S12 e S22 são as variâncias das amostras e n1 e valor k1 tal que : 2
n 2 são os tamanhos destas amostras, respectivamente. α
P(F < k1 ) = .
2 α/2
O procedimento para obter o IC é o mesmo que foi
adotado para os outros casos, e por isto será omitido. k2
89
Solução - para obter o valor da cauda

Problema:
inferior da distribuição F, usa-se a fórmula:
A distribuição F só é tabelada para a cauda
superior. Entretanto, como a distribuição F não
é simétrica, o valor da cauda inferior não é o 1
negativo do valor da cauda superior, como f  α
= .
ocorre com a Normal e com a t de Student.
υ1 , υ 2 ; 1− 
 2 f α
υ 2 , υ1 ;
2
Como obter o valor da cauda inferior?
Exemplo 10.4 - (continuação do exercício Achando o valor da cauda superior da F:

10.1) 2 amostras independentes de duas
turmas apresentam as seguintes notas:
Turma 1 - 5.0, 6.0, 3.5, 9.0, 8.5.

Turma 2 - 4.0, 10.0, 7.0, 5.0.
f4,3;0,025 =
σ 22 15,10.
Ache o IC de 95% para 2 .
σ1
Achando o valor da cauda inferior da F:

E o intervalo solicitado é:
 σ 22 
IC95%  2  = [0,1293;19,4839].
 σ1 
f3,4;0,025 = Você identifica alguma evidência contra o

Invertendo: f4,3;0,975 =
9,98. pressuposto necessário ao cálculo do IC para
1/9,98 = 0,1002.
µ1- µ2 construído no exercício 10.1?
90
Exemplo 10.5 - 2 amostras independentes

Erros mais Comuns no Cálculo
de tamanho 6, de 2 populações Normais,
do IC para Razão de Variâncias:
forneceram médias 8 e 12 e variâncias
iguais a, respectivamente, 40 e 37.
1 - Consultar a tabela errado, trocando
o numerador com o denominador. Ache o IC de 90% para a razão entre a
variância da população 2 e a da população 1.
2 - Obter o valor da cauda inferior da F
dividindo 1 pelo valor da cauda superior,
O slide seguinte ilustra a consulta à
sem inverter os graus de liberdade.
tabela F, agora para cauda superior = 5%.
Achando o valor da cauda superior da F:

O valor da cauda inferior da F é:
f 5 , 5; 0 , 95 = 1 / 5,05 = 0,198.
E o intervalo solicitado é:
 σ2 
f5,5;0,05 =
IC90%  22  = [0,1831;4,6713].
5,05.
 σ1 
• Testes de Hipóteses
Uma hipótese estatística é uma conjectura

11. TESTES a respeito de uma população. Supondo um
modelo pré-estabelecido, esta conjectura
DE HIPÓTESES diz respeito a parâmetros populacionais.
(PARTE 1 - CONCEITOS BÁSICOS E Exemplo 11.1 - No exemplo das alturas dos

TESTES PARA MÉDIA E PROPORÇÃO) alunos (7.1), podemos formular a seguinte
hipótese: “µ (que é a altura média dos
alunos da turma inteira) é igual a 175 cm”.
91
Se a amostra fornecer evidência contra

H0 (por exemplo, uma média amostral
Esta hipótese de igualdade é chamada muito grande ou pequena) então deve-se
hipótese nula, e representada por H0. tomar a decisão de rejeitar esta hipótese.
Neste caso, aceitamos uma hipótese que é

chamada de alternativa, denotada por H1.
Ela será investigada a partir da amostra.
H1 contradiz o que se afirma em H0.
No exemplo, H1 poderia ser µ ≠ 175.
Caso contrário, isto é, se a amostra não Em resumo, diante das hipóteses:

fornecer evidência contra H0, deve-se
H0: µ = 175 (hipótese nula)
tomar a decisão de não rejeitar H0.
e
H1: µ ≠ 175 (hipótese alternativa),
Obs - embora não seja rigorosamente correto,
algumas vezes “aceitar H0” é empregado.
tomamos uma das seguintes decisões:
Veremos que a formulação usual de um teste
não rejeitar H0
de hipóteses não permite obter evidência para
concluir - isto é, aceitar - que H0 é verdadeira. ou
rejeitar H0 (e, neste caso, aceitar H1).
Importante: embora o ponto de partida seja • Analogia com um Julgamento

a hipótese nula, é a hipótese alternativa
que um teste permite (ou não) evidenciar.
Em nosso sistema judiciário, um júri
É ela, portanto, que queremos tentar só decide condenar um réu caso haja
“comprovar”, ao conduzirmos um teste. evidência de que ele seja culpado.
Esta é uma primeira diretriz para formular Isto porque o sistema considera mais
hipóteses: H1 representa aquilo que se quer grave condenar um eventual inocente
tentar evidenciar e H0 é a premissa que se quer do que absolver um eventual culpado.
contestar, colocar em xeque, ou ainda, julgar.
92
Isto nada mais é do que • Erros em Testes de Hipóteses

um teste de hipóteses.
Um teste de hipóteses não leva
necessariamente à decisão correta.
Então, qual a hipótese nula e
qual a hipótese alternativa? Qualquer que seja nossa decisão,
sempre existe a possibilidade de erro.
R: H0: réu inocente Existem 2 tipos de erro que podemos

H1: réu culpado. cometer ao testar hipóteses: tipo I e tipo II.
Uma questão que pode surgir é: por que

O Erro Tipo I é o erro que consiste em
não trabalhar com um valor de α muito
rejeitar H0, quando ela é verdadeira.
pequeno, ainda bem menor do que 0,01?
A probabilidade de cometer este erro é Pense no que seria um julgamento com

denotada por α, e tem um nome específico: esta característica: provas e mais provas
contundentes e nada de condenar o réu...
nível de significância ou tamanho do teste.
Um α muito pequeno aumenta muito a
exposição ao erro oposto, o de não rejeitar
α é pré-especificado por quem vai fazer o
H0 quando ela é falsa, e assim pode acabar
teste. Os valores usuais são: 0,01, 0,05 e 0,1.
conduzindo a cometer este outro tipo de erro.
Obs - α e β não têm uma relação exata. Por

O Erro Tipo II é o erro que consiste
exemplo, não se pode afirmar que α+β = 1.
em não rejeitar H0, quando ela é falsa.
A única coisa que se garante é que

A probabilidade do Erro quando um diminui, o outro aumenta.
Tipo II é denotada por β (ela
não tem um nome específico).
Na verdade, há uma única forma de
Como já vimos, quanto reduzir α e β simultaneamente:
menor for o valor de α, aumentando o tamanho da amostra.
maior será o valor de β.
93
Resumo - Erros em um Teste de Hipóteses: • Diretrizes para Formular Hipóteses

Agora, com um entendimento melhor
H0 Verdadeira H0 Falsa sobre as hipóteses de um teste e os tipos
possíveis de erro, devemos estar aptos a
Rejeitar H0 Erro Tipo I entender que a formulação das hipóteses
deve levar em consideração o seguinte:
Não Rejeitar Erro Tipo II 1) H0 deve ser definida de tal forma
H0 que o erro de rejeitá-la quando ela for
verdadeira (isto é, o Tipo I) seja mais
a probabilidade α de cometer este
erro é o nível de significância.
grave do que o erro contrário (Tipo II).
• Hipóteses Simples x Compostas

Isto porque o Erro Tipo I tem uma
probabilidade pré-especificada como
Embora não seja a formulação usual, um
um valor pequeno (isto é, controlada).
teste pode ser feito com duas hipóteses de
igualdade (na formulação usual, apenas a
2) H1, por outro lado, é a hipótese nula pode ser formulada como igualdade).
da qual um teste é capaz de fornecer
evidência estatística (= conclusão de Este tipo de hipótese é chamada simples.
que a hipótese é verdadeira, sujeita a Uma hipótese que contempla mais de um
uma probabilidade de erro controlada). parâmetro, como H1: µ ≠ 175, é composta.
Exercício 11.1 - Uma amostra de tamanho a) Uma pessoa resolve utilizar a média
16 é selecionada de um lote de lâmpadas, e da amostra para conduzir este teste,
deseja-se saber se as lâmpadas são da marca estipulando a seguinte regra de decisão:
A (cuja duração média é 3.000 horas) ou da
marca B (cuja duração média é 5.000 horas). Se a média amostral for menor que 4,
O parâmetro de interesse é µ e as hipóteses considera-se que as lâmpadas são da marca A.
de interesse são: H0: µ = 3 x H1: µ = 5.
Se a média amostral for maior ou igual a 4,
Suponha que a população (dos tempos de considera-se que as lâmpadas são da marca B.
duração) seja Normal com variância 4.
94
Determine:
R: α = β = 0,0228.
a1) o nível de significância do teste.
a2) a probabilidade do erro tipo II do teste. Comente o resultado. Como você faria
para reduzir o valor de α em relação a β?
Obs - a partir das definições, note que:
α = PH0 (X ≥ 4) e β = PH1 (X < 4) . Por exemplo, recalcule α se o ponto de corte
é 4,5, ao invés de 4. O que explica a redução?
considerando considerando
H0 verdadeira H1 verdadeira
b) Suponha que queiramos fixar o nível

Vimos que a formulação usual de um de significância do teste em 0,05.
teste de hipóteses estipula o erro tipo
Determine:
I como sendo o mais grave, e assim fixa
a probabilidade deste erro em um valor b1) a nova regra de decisão.
baixo, usualmente: 0,01, 0,05 ou 0,1. b2) a nova probabilidade do erro tipo II.
R: b1) X ≥ 3,8225.
Em seguida é que a regra de rejeição
b2) β = 0,0094.
é especificada, de tal forma que a
probabilidade de erro tipo I seja α. Esta configuração parece fazer sentido?
De que forma parece natural proceder?
• Métodos para Testar Hipóteses

c) Recalcule o valor de β, para α = 0,01.
Espera-se uma redução ou aumento de β? Há três métodos para testar hipóteses:
R: β = 0,078. 1. Método do Intervalo de Confiança
2. Método da Região Crítica

Esta parece ser a configuração mais razoável
3. Método do P-Valor
para o teste, com α < β e ambos moderados.
95
• Testando uma Hipótese a partir

• IC`s e Testes de Hipóteses (Bilaterais)
de um Intervalo de Confiança
O teste de H0: µ = k contra H1: µ ≠ k,
O IC com grau permite testar ao
ao nível de significância α, pode ser
de confiança:: nível de significância:
feito usando o IC de 100(1-α α)% (daí
a notação 100(1-α)% que adotamos!). 90% 0,1
A regra de decisão é a seguinte:
95% 0,05
• Se k não pertence ao IC, rejeitamos H0
• Caso contrário, ou seja, se k 99% 0,01
pertence ao IC, não rejeitamos H0
Exemplo 11.1 (cont.) Solução: As hipóteses de interesse são:

H0: µ = 175 (hipótese nula);
Vamos usar o método do IC
para conduzir o seguinte teste: H1: µ ≠ 175 (hipótese alternativa).
O IC95%(µ) (calculado no exemplo

H0: µ = 175
9.1) foi: [174,74;185,26].
x
H1: µ ≠ 175, Basta verificar se este intervalo contém
o 175. De imediato, vemos que sim.
ao nível de significância α = 0,05.
Conclusão:
(considere σ conhecido, igual a 6) não rejeitamos H0, ao nível α = 0,05.
Erro conceitual comum: Resposta: a estimativa está sempre

dentro do intervalo, por construção.
Não rejeitar H0 ao nível α porque a

estimativa de µ pertence ao IC de 100(1-α)%.
O correto seria: não rejeitar H0 ao nível
α se k (isto é, o valor de µ contemplado
Por que isto está errado? em H0) pertencer ao IC de 100(1-α)%.
96
Erro conceitual comum:

Exemplo 11.2 - (exemplo 9.3) Uma AAS
“Rejeitar (ou não) H0 com de 25 trabalhadores de uma fábrica foi
grau de confiança 90%” selecionada, fornecendo salário médio
de R$ 400,00 e desvio padrão R$ 450,00.
Por que isto está errado: embora se esteja
usando um IC para testar uma hipótese, esta Considerando a população Normal, teste
hipótese é testada ao nível correspondente. a hipótese de que o salário médio dos
empregados da fábrica seja R$ 600,00,
Grau de confiança e nível de significância são
ao nível de significância α = 0,1.
conceitos distintos (para não restar dúvida,
lembre-se que um é probabilidade e outro não).
Solução: As hipóteses de interesse são: Exemplo 11.3 - (exemplo 9.4) Suponha que a
H0: µ = 600 (hipótese nula); vida útil de uma marca de tv`s de LED seja
H1: µ ≠ 600 (hipótese alternativa). normalmente distribuída. A partir de uma
amostra de 16 tv`s, estimou-se uma vida
O IC90%(µ) foi (exemplo 9.3): útil média de 8.900 horas, e um
[246,01;553,99]. desvio padrão igual a 500 horas.
Basta verificar se este intervalo contém
o 600. De imediato, vemos que não. Teste se o tempo médio das tv`s desta marca
é igual a 9.000, ao nível de significância 0,05.
Assim, rejeitamos H0, ao nível α = 0,1.
Solução: As hipóteses de interesse são: • O Método da Região Crítica

H0: µ = 9.000 (hipótese nula);
H1: µ ≠ 9.000 (hipótese alternativa). Embora o método do IC seja bem
simples, o método da região crítica é o
O IC95%(µ) foi (exemplo 9.4): procedimento formal para testar hipóteses.
[8.633,6;9166,4].
Para a explicação deste método, é
Basta verificar se este intervalo contém necessário definir 2 quantidades:
o 9.000. De imediato, vemos que sim. - Estatística de teste
Assim, não rejeitamos H0, ao nível α = 0,05. - Região crítica
97
A estatística de teste baseia-se no Obtendo a Região Crítica

resultado utilizado para obter o IC para o
parâmetro correspondente, substituindo o Quando H0 é verdadeira
parâmetro pelo valor k definido em H0. (µ = k), sabemos que:
estatística = qualquer função de variáveis aleatórias
X−k
Seja µ a média de uma população Z= ~ N (0,1).
Normal com σ conhecido. A estatística σ/ n
do teste de H0: µ = k contra H1: µ ≠ k é:
Portanto, se houver evidência de que o
valor testado X−k resultado acima não seja válido, então
Z= . erro padrão é porque H0 não deve ser verdadeira.
σ/ n
O valor observado de Z é:
Quais valores de z0 são pouco prováveis
se H0 é verdadeira, isto é, se Z ~ N(0,1)?
x−k
z0 = .
σ/ n
Ora, os valores que correspondem
Se z0 é um valor que teria baixa probabilidade às “caudas” da distribuição N(0,1),
caso Z seguisse uma N(0,1), isto representa aos quais chamamos região crítica.
evidência contra Z ~ N(0,1) e, assim, contra H0.
A região crítica RC (ou região de rejeição)

Resumo do Método da Região Crítica:
é o conjunto dos valores de z0 que
conduzem à decisão de rejeitar H0.
Se o valor observado da estatística de
Para o teste de H0: µ = k contra teste pertencer à RC, a amostra fornece
H1: µ ≠ k (σ conhecido): evidência estatística para rejeitar H0.
RC = (-∞,-zα/2]∪[zα/2,∞).
Isto garante probabilidade de erro tipo I - que

Nesta situação, tomamos a
é a probabilidade de Z∈RC sob H0 - igual a α. decisão de rejeitar H0.
zα/2 é denominado valor crítico.
98
Se o valor observado da estatística de “Intuição” para o fato da RC ser nos extremos

teste não pertencer à RC, a amostra não
Quanto maior for a distância entre a média da
fornece evidência para rejeitar H0.
amostra e o valor testado, maior será a
evidência contra H0 (e a favor de H1).
Nesta situação, tomamos a Porém, o desvio padrão populacional e o
decisão de não rejeitar H0. tamanho da amostra também influenciam.
Uma certa diferença entre x e k pode não

O método é equivalente ao método do IC, significar nada, se a amostra for pequena e/ou
conduzindo, portanto, às mesmas conclusões a população tiver um desvio padrão grande.
Exemplo 11.1 (cont.) - Vamos agora aplicar o Como α = 0,05, usamos z0,025 = 1,96,
método da RC para conduzir o teste H0: µ = 175 e assim: RC = (-∞,-1,96]∪[1,96,∞).
x H1: µ ≠ 175, ao nível de significância α = 0,05.
Considere σ = 6. A amostra observada é a Cálculo de z0:
do exemplo 9.2 (n = 5 e média = 180 cm.). x − 175 180 − 175
z0 = = = 1,8634.
Solução - os valores críticos possíveis são os 6/ 5 6/ 5
mesmos dos respectivos IC`s de 100(1-α)%:
Para α = 0,01 ⇒ z0,005 = 2,575. Este valor não pertence à RC.
Para α = 0,05 ⇒ z0,025 = 1,96.
Para α = 0,1 ⇒ z0,05 = 1,645. Conclusão: não rejeitamos H0, ao nível 0,05.
Se σ é desconhecido, deve ser

Neste caso, a região crítica baseia-se na
substituído por seu estimador S,
distribuição t com n-1 graus de liberdade:
e a estatística do teste torna-se:
X−k RC = (-∞,-tn-1;α/2]∪[tn-1;α/2,∞).
T= .
S/ n
cujo valor observado é: valor crítico
x−k estimativa
t0 = . do erro Assim como no caso do IC, se a amostra é grande
s/ n padrão (>30), pode-se usar a Normal como aproximação.
99
No exemplo 11.1, vamos agora considerar σ Assim: RC = (-∞,-2,776]∪[2,776,∞),

desconhecido e testar as mesmas hipóteses: x − 175 180 − 175
e t0 = = = 1,8634.
H0: µ = 175 s/ 5 6/ 5
x A conclusão é a mesma do caso com
H1: µ ≠ 175, σ conhecido. Todavia, a RC obtida aqui
é bem mais conservadora, ou seja, torna
mais rigoroso o critério para rejeitar H0.
A estimativa de σ foi obtida no exemplo
9.2: s = 6. O valor da tabela é o mesmo Isto é razoável, dado que estamos
usado naquele exemplo: t4;0,025 = 2,776. introduzindo incerteza (por meio da
estimação de σ) e a amostra é pequena.
Resposta: o valor calculado da estatística

Erro conceitual comum: de teste não tem nada a ver com IC.
Estariam sendo misturados 2 métodos.
Não rejeitar H0 porque t0 (ou z0)
pertence ao IC de 100(1-α)%.
O correto seria:
Por que isto está errado? não rejeitar H0 porque k pertence ao IC

ou
rejeitar H0 porque t0 ou (z0) pertence à RC.
Solução:
Exemplo 11.2 (cont.) - Aplique o método
da RC para testar a hipótese de que o 1 - As hipóteses de interesse são:
salário médio dos empregados da fábrica H0: µ = 600 (hipótese nula);
seja igual a R$ 600,00, ao nível α = 0,1. H1: µ ≠ 600 (hipótese alternativa).
O nível de significância pedido é α = 0,1.
2 - A região crítica do teste é:
RC = (-∞,-t24;0,05]∪[t24;0,05,∞).
No exemplo 9.3, vimos que t24;0,05 = 1,711.
100
3 - Cálculo de t0:
Em algumas situações específicas, não
x − 600 400 − 600 200 estaremos preocupados em evidenciar
t0 = = =− = −2,2222. se o parâmetro de interesse (µ, nos
s / 25 450 / 5 90
exemplos até aqui) é diferente de k, e
sim se ele é maior ou menor do que k.
4 - Verifica-se que t0 pertence à RC.
5 - Conclusão: rejeitamos H0, ao nível 0,1. Isto conduz ao estudo de testes unilaterais.
• Testes Unilaterais/Unicaudais Assim, as hipóteses apropriadas são:

H0: µ ≤ 30 x H1: µ > 30.
Exemplo 11.4 - Um fabricante afirma
que seus cigarros contém, em média, no (é equivalente fazer H0: µ = 30 x H1: µ > 30)
máximo 30mg de nicotina. Queremos
verificar a partir de uma amostra se A região crítica é definida com base na
existe evidência contra esta afirmação. hipótese alternativa, e será, neste caso:
RC = [zα;∞), se σ for conhecido ou
Neste caso, H1, a hipótese que se quer RC = [tn-1;α;∞), se σ for desconhecido.
evidenciar não é µ ≠ 30, e sim µ > 30.
não dividimos α por 2!
Valores Críticos da Normal Achando z0,01 = valor de k tal que P(Z > k) = 0,01.
(achar na tabela o valor correspondente a 0,49).
para Testes Unilaterais: k
Para α = 0,01 ⇒ z0,01 = 2,33.
Para α = 0,05 ⇒ z0,05 = 1,645.
Para α = 0,1 ⇒ z0,1 = 1,28.
Obs - para H1: µ < k, a RC é: (-∞;-zα], para σ Assim: z0,01 = 2,33.

conhecido, e (-∞;-tn-1,α], para σ desconhecido.
101
Achando z0,1 = valor de k tal que P(Z > k) = 0,1.

(achar na tabela o valor correspondente a 0,4). Exemplo 11.4 (cont.) - Foi coletada uma
k amostra de 25 cigarros, fornecendo média
31,5 mg. O desvio padrão populacional é
conhecido, e igual a 3 mg. Ao nível α = 0,05,
Assim: z0,1 = 1,28. os dados refutam a afirmação do fabricante?
Solução: RC = [1,645;∞) e z0 = 2,5, que

pertence à RC. Desta forma, rejeita-se H0,
ao nível de significância α = 0,05. Os dados
refutam a afirmação do fabricante, a este nível.
Exercício 11.2 - Um economista afirma que

Considere agora o desvio padrão σ o índice de endividamento médio das
desconhecido e estimado, com s = 3 mg. empresas de certo setor é superior a 30.
Da tabela t, t24;0,05 = 1,711, Você decide verificar esta hipótese, a partir
e assim: RC = [1,711;∞). de uma AAS de 9 empresas. Se os índices de
endividamento seguem distribuição Normal
t0 = 2,5, que pertence à RC acima, com desvio padrão 30 e a média da amostra
portanto a conclusão permanece. foi 45. Há evidência estatística nesta amostra
que corrobore a afirmação do economista?
Obs - O método do IC não pode Resposta: z0 = 1,5. Rejeita-se H0 apenas ao
ser aplicado para testes unilaterais! nível 0,1 – corroborando assim a afirmação do
economista a este nível - mas não aos demais.
Exercício 11.3 - Especula-se que, próximo às • Teste para uma Proporção

eleições, a rentabilidade média dos fundos de (Grandes Amostras)
investimento mais alavancados do mercado
seja negativa. Uma amostra aleatória de 16 As hipóteses de interesse são:
fundos deste tipo forneceu rentabilidade
média de -1% e desvio padrão de 2%. H0: p = k
H1: p ≠ k,
Existe evidência de que proceda a
especulação acima, a algum nível usual?
sendo p uma proporção populacional
Resposta: t0 = -2 ⇒ há evidência de que µ < 0 (por exemplo, de eleitores que
aos níveis 0,05 e 0,1, porém não ao nível 0,01. pretendem votar em um certo candidato).
102
A estatística baseia-se no seguinte resultado

(apresentado no capítulo 7): A estatística do teste é obtida substituindo
em Z o valor considerado em H0 (p = k):
proporção amostral.
p̂ − p
Z= ≈ N(0,1). p̂ − k
p(1 − p) Z= .
n k (1 − k )
n
O teste, portanto, é assintótico.
O teste consiste em calcular o valor da Exemplo 11.5 - Uma corretora afirma

estatística Z para a amostra observada: que 30% dos seus clientes são avessos
ao risco. Uma AAS de 64 clientes
revela que 20 são avessos ao risco.
p̂ − k
z0 = ,
k (1 − k )
n Teste a afirmação da corretora, ao
nível de significância α = 0,1.
e verificar se z0 pertence à RC, que
é baseada na distribuição Normal.
Solução: α = 0,1 ⇒ z0,05 = 1,645, e assim:
As hipóteses de interesse são:

RC = (-∞,-1,645]∪[1,645,∞).
H0: p = 0,3 0,3125 − 0,3

z0 = = 0,2182.
H1: p ≠ 0,3, 0,3(1 − 0,3)
64
sendo p a proporção do total de clientes
da corretora que são avessos ao risco. Como z0 não pertence à RC, não
rejeitamos H0 ao nível α = 0,1.
103
Exercício 11.4 - Uma corretora faz

Erro mais comum no teste para proporções: contato com uma AAS de 100 clientes
e verifica que 40% dos clientes desta
Colocar dentro da raiz do denominador amostra se dizem avessos ao risco. Se
o valor de “p-chapéu”, ao invés de k. p é a proporção de clientes que se
consideram avessos ao risco, use o método
do intervalo de confiança para testar as
Esta confusão ocorre porque, no IC para p, é de
hipóteses H0: p = 0,5 x H1: p ≠ 0,5,
fato a proporção amostral que fica dentro da raiz.
ao nível de significância 0,1.
Exemplo 11.6 - Uma emissora de TV

Resposta do exercício 11.4: afirma que o índice de audiência de seu
programa “carro chefe”, em determinada
localidade e horário, é de 60%. Um
IC90%(p) = [0,3194;0,4806].
instituto de pesquisa entrevista 400
pessoas naquela localidade. Se 220
0,5 não pertence ao IC. entrevistados assistem ao programa no
horário em questão, existe evidência
Rejeita-se H0 ao nível 0,1. estatística contra a afirmativa feita pela
emissora, ao nível de significância 0,05?
Solução: Para α = 0,05:

RC = (-∞,-1,645].
As hipóteses de interesse são:
0,55 − 0,6
H0: p = 0,6 z0 = = −2,04.
0,6(1 − 0,6)
H1: p < 0,6,
400
sendo p a proporção de audiência do Portanto, z0 pertence à RC, e assim

programa na população em estudo. rejeitamos H0 ao nível α = 0,05.
104
Conclusão: • Decisão x Nível de Significância
No exemplo 11.6, rejeitamos H0 aos

A amostra fornece evidência contra a níveis 0,05 e 0,1, mas não ao nível 0,01.
afirmativa da emissora, ao nível 0,05.
Isto conduz à seguinte conclusão:

E aos outros níveis usuais? a decisão em um teste depende do
nível de significância estabelecido!
Note que:
Se uma hipótese é rejeitada a um certo Podemos definir um “ponto de corte”, isto é,
nível de significância, também o será a um valor de α abaixo do qual não rejeitamos
níveis superiores (pois a RC aumentará). H0, e a partir do qual passamos a rejeitar H0.
Por outro lado:

Se uma hipótese não é rejeitada a um Este ponto é chamado p-valor do teste.
certo nível de significância, também não
o será a níveis inferiores (a RC diminuirá).
P-Valor Testando Hipóteses Usando o P-Valor
O p-valor permite testar hipóteses de

O p-valor de um teste é o menor forma direta (sem precisar usar tabelas).
valor de α que nos leva a rejeitar H0.
A regra de decisão é a seguinte:
O p-valor também é chamado de nível se p-valor ≤ α ⇒ rejeitamos H0

descritivo ou probabilidade de significância. se p-valor > α ⇒ não rejeitamos H0
105
Exemplo 11.7 - O p-valor obtido para um

• Cálculo do P-Valor
teste foi 0,07. Qual a conclusão do teste
para os 3 níveis de significância usuais?
O p-valor de um teste é dado pela
Solução: probabilidade, calculada sob H0,
de que a estatística de teste assuma
Para α = 0,01 ou 0,05, não rejeitamos H0 um valor igual ou “mais extremo”
(pois o p-valor é maior do que ambos); do que o valor calculado na amostra.
Para α = 0,1, rejeitamos H0 Mais extremo = mais “dentro” da RC.

(pois o p-valor é menor do que 0,1).
Exemplo 11.8 - Calcule o p-valor do Para entender a lógica do cálculo, vamos

teste do exemplo 11.4, e utilize-o para utilizar o teste de H0: µ = k contra H1: µ > k.
formular sua conclusão aos níveis usuais.
Seja z0 o valor observado da estatística de
Solução: teste e zα o valor crítico do teste, a nível α.
conclusão? Considere, inicialmente, que z0 > zα.
p - valor = PH0 (Z ≥ 2,5) = 0,5 − 0,49379 = 0,00621.
A figura a seguir ilustra
como fica o p-valor.
indica que a probabilidade é calculada sob H0
α = P(Z ≥ zα)
Considere, agora, z0 < zα (situação
p-valor = P(Z ≥ zo)
em que o método da RC nos
conduz a não rejeitar H0).
Conclusão: se z0 é maior que zα (situação em A figura a seguir ilustra

que o método da região crítica nos conduz a como fica o p-valor.
rejeitar H0), o p-valor é, de fato, menor que α.
(Obs - se z0 = zα, p-valor = α, e H0 é rejeitada)
106
α = P(Z ≥ zα)
Exercício 11.5 (p-valor para teste de
proporção) - No exemplo 11.6, calcule o
p-valor = P(Z ≥ zo)
p-valor do teste, e use-o para formular a
conclusão do teste aos três níveis usuais.
R: 0,0207.
Conclusão: se z0 < zα (situação em que o
método da região crítica nos conduz a não
rejeitar H0) o p-valor é, de fato, maior que α.
Em um teste bilateral, o p-valor P-Valor para o Teste t

é obtido aplicando-se a fórmula:
Quando a variância é desconhecida, e
P-valor bilateral = 2*P(Z≥|z0|). usamos o teste t, a tabela t não permite
determinar o p-valor com exatidão.
No exemplo 11.8, se H1: µ ≠ 30:
p-valor = 2*0,00621 = 0,01242. O cálculo pode ser feito via
função DIST.T do excel.
Para entender o porquê do módulo de z0,
tente calcular o p-valor do teste bilateral O comando é DIST.T.CD(t0;g.l.), se o teste é
que corresponde ao exemplo 11.6. unilateral e DIST.T.BC(t0;g.l.) se é bilateral.
• Teste para a Variância de uma Normal
Considere uma população Normal com

12. TESTES DE média µ (desconhecida) e variância σ2.
HIPÓTESES As hipóteses de interesse são:

H0: σ2 = k contra H1: σ2 ≠ k.
(PARTE 2 - TESTES PARA VARIÂNCIA
O teste baseia-se no mesmo resultado usado no
E PARA COMPARAR 2 POPULAÇÕES,
IC para σ2, já apresentado no capítulo 10:
E O CONCEITO DE PODER DO TESTE)
S2
Q = (n − 1) 2 ~ χ 2n −1 .
σ
107
N é muito grande, é comum fazer: n = n0.

O teste consiste em calcular o valor da
A estatística do teste é obtida estatística do teste na amostra observada:
S2
fazendo σ2 = k: Q = (n − 1) . s2
k q0 = (n −1) ,
k
Sob H0, Q segue distribuição
qui-quadrado com n-1 g.l.. e verificar se q0 pertence ou não
à RC, definida no slide a seguir.
Região Critica: Exemplo 12.1 - Seja uma AAS de

tamanho n = 30 de uma população
RC = (0, χ 2  α
] ∪ [χ 2 α
, ∞ ). Normal. Média e desvio padrão amostrais
n −1,  1−  n −1,
 2 2 foram, respectivamente: 32 e 3,63.
valor k1 tal que :
α Conduza o teste:
P(X < k1 ) = valor k 2 tal que :
2
ou : α H0: σ2 = 16 contra H1: σ2 ≠ 16,
P(X > k 2 ) =
 α 2
P(X > k1 ) = 1 −  ao nível α = 0,05.
 2
Solução:
• Teste de Diferença de Médias
s2 (3,63) 2
q 0 = (n − 1) = 29 = 23,88. Considere 2 populações Normais com
k 16 médias µ1 e µ2 e desvios padrão σ1 e σ2.
RC = (0,16] ∪ [45,7, ∞).
O objetivo aqui é testar:
Conclusão? H0: µ1 = µ2 contra H1: µ1 ≠ µ2.
Estas hipóteses podem ser reescritas como:
Exercício 12.1 - Teste H0: σ2 = 16 contra
H1: σ2 < 16, ao nível 0,05 (RC = (0, χ 2n −1,1−α ]). H0: µ1-µ2 = 0 contra H1: µ1-µ2 ≠ 0.
108
Assim como no caso do IC para

Caso 1 - σ1 e σ2 são conhecidos.
µ1-µ2, serão consideradas 2 AAS`s
independentes das duas populações.
O teste baseia-se no seguinte resultado: Estatística do Teste
σ12 σ22
(X1 − X2 ) ~ N(µ1 − µ2 , + ). É obtida substituindo em Z o valor do
n1 n2 parâmetro (que no caso é µ1-µ2) sob H0
(ou seja, zero, pois H0 diz que µ1-µ2 = 0):
Padronizando:
(X1 − X2 ) − (µ1 − µ2 ) (X1 − X2 )

Z= ~ N(0,1). Z= .
σ12 σ22 σ12 σ22
+ +
n1 n 2 n1 n 2
O teste consiste em calcular o valor

da estatística Z na amostra observada:
Caso 2 - σ1 e σ2 são
(x1 − x 2 ) desconhecidos e estimados.
z0 =
σ12 σ22
+
n1 n 2
e verificar se z0 pertence ou não

à RC, baseada na distribuição Normal.
109
Estatística do Teste: O teste consiste em calcular o valor

da estatística T na amostra observada:
X1 − X 2
T= . x1 − x 2
1 1 t0 = ,
Sp + 1 1
n1 n 2 sp +
n1 n 2
(n1 − 1)s12 + (n 2 − 1)s 22
Região Crítica (teste bilateral): sp =
n1 + n 2 − 2
RC = (-∞,-tn1+n2-2,α/2]∪[tn1+n2-2,α/2,∞).
e verificar se t0 pertence ou não à RC.
Solução: primeiramente, achemos a região

Exemplo 12.2 - Seja a situação do exemplo
crítica RC do teste. Consultando a tabela t:
10.2: “Para uma AAS de 8 lâmpadas de
uma marca A, a vida média estimada foi de
4.600 horas, com s1 = 250 horas. Para uma
AAS de 10 lâmpadas de uma marca B, a
vida média estimada foi de 4.000 horas,
com s2 = 200 horas. Suponha que a
duração das lâmpadas de ambas as marcas
siga distribuição Normal”. Teste, ao nível
0,01, a hipótese de que o tempo médio de
duração das marcas A e B seja o mesmo.
Portanto: RC = (-∞,-2,921]∪[2,921,∞).
(n1 − 1)s12 + (n 2 − 1)s 22 7 * (250) 2 + 9 * (200) 2

Exercício 12.2 - 2 amostras independentes
sp = = de 2 turmas apresentam as seguintes notas:
n1 + n 2 − 2 16
= 49.843,75 = 223,26.
x1 − x 2 4.600 − 4.000 Turma 1 - 5.0, 6.0, 3.5, 9.0, 8.5.

t0 = = = 5,67.
1 1 1 1 Turma 2 - 4.0, 10.0, 7.0, 5.0.
sp + 223,26 +
n1 n 2 8 10
Portanto: t0 ∈ RC, e assim

Conduza o teste de diferença
rejeitamos H0 ao nível 0,01.
de médias, ao nível 0,05.
110
Solução Parcial:
Implementação no Excel
RC = (-∞,-2,365]∪[2,365,∞). Função TESTE.T(caudas = 2;tipo = 2).
t 0 = 0,0604. O resultado obtido é o p-valor do teste.
No caso do exercício 12.2 ⇒ 0,9536.

Conclusão?
• Teste para Diferença de Proporções O teste baseia-se no seguinte resultado:
 p (1 − p1 ) p2 (1 − p2 ) 
p̂1 − p̂2 ≈ N p1 − p2 , 1 + .
n2 
Considere 2 populações com proporções
p1 e p2 a serem comparadas.  n1
aproximada para n1 e n2 grandes
As hipóteses do teste são
Padronizando:
H0: p1 = p2 contra H1: p1 ≠ p2,
Z=
(p̂ − p̂ 2 ) − (p1 − p 2 )
1
≈ N(0,1).
o que pode ser reescrito da forma:
p1 (1 − p1 ) p 2 (1 − p 2 )
H0: p1-p2 = 0 contra H1: p1-p2 ≠ 0. +
n1 n2
Substituindo p1 e p2 no denominador O teste consiste em calcular o valor

por suas respectivas estimativas, a da estatística Z na amostra observada:
aproximação permanece válida. Assim:
p̂1 − p̂ 2
(p̂1 − p̂ 2 ) − (p1 − p 2 ) z0 = ,
Z= ≈ N (0,1) p̂1 (1 − p̂1 ) p̂ 2 (1 − p̂ 2 )
p̂1 (1 − p̂1 ) p̂ 2 (1 − p̂ 2 ) +
+ n1 n2
n1 n2
Finalmente, fazendo p1-p2 = 0, e verificar se z0 pertence ou não à RC,

obtemos a estatística do teste. que é baseada na distribuição Normal.
111
Exemplo 12.3 - Duas financeiras aplicam Solução:

diferentes critérios para concessão de A região crítica, para o nível α = 0,1,
crédito. No banco de dados da financeira 1, é: RC = (-∞,-1,645]∪[1,645,∞).
foram selecionados ao acaso 180 clientes,
dos quais 140 eram inadimplentes. No banco (14 / 18) − (22 / 30)
de dados da financeira 2, foram selecionados z0 = = 1,1064.
(14 / 18)(4 / 18) (22 / 30)(8 / 30)
ao acaso 300 clientes, dos quais 220 eram +
inadimplentes. Teste, ao nível 0,1, se existe 180 300
evidência de diferença entre as proporções
de inadimplência nas duas financeiras. Como z0 não pertence à RC, não
rejeitamos H0 ao nível α = 0,1.
Exemplo 12.3 (cont.) - Teste, ao nível 0,1,

O valor de z0 permanece o mesmo,
se a proporção de inadimplentes na primeira
mas a região crítica passa a ser:
financeira é maior do que na segunda.
Solução: RC = [z0,1,∞) = [1,28,∞).
Neste caso, as hipóteses são:

H0: p1 = p2 contra H1: p1 > p2, Como z0 não pertence à RC, não
que podem ser reescritas como: rejeitamos H0 ao nível α = 0,1.
H0: p1-p2 = 0 contra H1: p1-p2 > 0.
Ou seja, neste caso a decisão não mudou.
As hipóteses de interesse do teste F

• Teste de Razão de Variâncias
(bilateral) são:
Um dos pressupostos para realizar H 0 : σ12 = σ 22

o teste de diferença de médias de H1 : σ12 ≠ σ 22
2 populações Normais é que as
variâncias das populações sejam iguais. que podem ser reescritas como:
σ12
H0 : 2 = 1
σ2
Esse pressuposto pode ser testado, por
meio de um teste chamado teste F. σ12
H1 : ≠1
σ 22
112
O teste baseia-se no seguinte resultado, Estatística do teste:

apresentado no capítulo 10:
S12 σ 22 S12
~ Fn1−1,n 2 −1. F= .
S22 σ12 S22
Substituindo acima o valor da razão Sob H0, a estatística acima segue

de variâncias contemplado em H0 distribuição F com n1-1 e n2-1 graus.
(isto é, 1), obtemos a estatística do teste.
Região Crítica (teste bilateral):

O teste consiste em calcular o valor da
estatística F para a amostra observada: RC = (0; f  α
] ∪ [f α ; ∞).
n1 −1, n 2 −1; 1−  n1 −1, n 2 −1;
 2 2
s12 valor k 2 na tabela F tal que :

f0 = .
s 22 α
P(F > k 2 ) = .
2
1
f  α
= . α/2
e verificar se f0 pertence ou não à RC. υ1 , υ 2 ; 1− 
 2 f α
υ 2 , υ1 ;
2
k2
Exemplo 12.4 - Na situação do Achando o valor da cauda superior da F:

exercício 12.2, conduza o teste de
razão de variâncias, ao nível 0,05.
Solução:
Valor da estatística F: f0 = 0,775.
O processo para obter os valores da tabela F é f4,3;0,025 =

o mesmo do exemplo 10.4, repetido a seguir. 15,10.
113
Achando o valor da cauda inferior da F:

Região Crítica:
RC = (0; f 4,3; 0,975 ] ∪ [f 4,3; 0,025 ; ∞ )

= (0;0,10] ∪ [15,10; ∞).
f3,4;0,025 = Conclusão?
Invertendo: f4,3;0,975 =
9,98.
1/9,98 = 0,1002.
Exemplo 12.5 - 2 AAS`s independentes

Implementação no Excel de tamanho 6, de 2 populações Normais,
forneceram médias 8 e 12 e variâncias 40 e
O teste F pode ser implementado no 37, respectivamente. Teste, ao nível α = 0,1,
Excel por intermédio da função a hipótese de variâncias iguais.
TESTE.F. É só entrar com dados em
colunas, e a função retorna o p-valor. Solução:
Valor da estatística F: f0 = 40/37 = 1,08.
No caso do exemplo 12.4, O processo para obter os valores da tabela F é
o p-valor é 0,7844 (interprete!). o mesmo do exemplo 10.5, repetido a seguir.
Achando os valores da Tabela F:

RC = (0; f 5,5;0,95 ] ∪ [f 5,5;0, 05 ; ∞).
5,05. 0,198.
f5,5;0,05 = Conclusão: f0 não pertence à RC e,

5,05. assim, não rejeitamos, ao nível 0,1,
a hipótese de variâncias iguais.
f 5 ,5;0 , 95 = 1 / 5,05 = 0,198.
114
Exemplo 12.6 - Na situação do exemplo

12.5, teste, ao nível α = 0,05, se a variância f0 = 40/37 = 1,08 (igual ao exemplo 12.5).
da população 1 é maior do que a variância da
população 2.
RC = [f 5,5;0,05 ; ∞) = [5,05; ∞).

Solução: as hipóteses agora passam a ser:
σ12 σ12 Conclusão?

H0 : ≤ 1 x H : >1
σ 22 σ 22
1
Erros conceituais comuns:

1 - Não rejeitar H0 porque 1 não pertence à RC; Poder de um Teste
2 - Não rejeitar H0 porque f0
pertence ao IC de 100(1-α)%.
O poder π de um teste de
3 - Inverter as variâncias amostrais hipóteses é a probabilidade de
no cálculo de f0 (confusão com IC). rejeitar H0 quando ela é falsa.
4 - Consultar a tabela errado, trocando
o numerador com o denominador.
5 - Obter o valor da cauda inferior da F O poder também pode ser
dividindo 1 pelo valor da cauda superior, chamado potência do teste.
sem inverter os graus de liberdade.
• Correlação x Regressão
13. MODELOS Quando estudamos a correlação entre duas

variáveis, não pensamos na eventual relação
DE REGRESSÃO de causalidade (causa → efeito) entre elas.
LINEAR Na análise de regressão, isto é importante.

Pressupõe-se que o comportamento de uma
(INTRODUÇÃO) das variáveis (X) possa explicar - ao menos de
forma parcial - o comportamento da outra (Y).
115
A relação de associação entre X e Y Na prática, entretanto, a relação

pode ser representada pela função: linear entre X e Y não será perfeita.
Y = β0 + β1X,
Isto é, se X for a renda de uma família,
o gasto com alimentação Y desta família
sendo β0 o intercepto e β1 a inclinação.
não será necessariamente Y = β0 + β1X.
Se a relação acima fosse perfeita, É para isto que serve o termo de erro,
poderíamos, a partir do valor de X, que aqui será designado pela letra ε.
determinar o valor exato de Y.
Modelo de Regressão Linear O termo de erro ε é uma variável aleatória

que representa todos os demais fatores que
(Simples) poderiam influenciar o comportamento de Y,
(além da variável explicativa X considerada).
Y = β 0 + β 1X + ε
Pressupostos básicos do modelo:
Y é a variável dependente E(ε) = 0 (média zero)
X é a variável explicativa σ2
V(ε) = = constante (homocedasticidade)
β0 e β1 são os parâmetros do modelo Corr(εi,εj) = 0, ∀i ≠ j (ausência de correlação)
ε é o termo de erro (ou erro aleatório) ε segue distribuição de probabilidade Normal
(isto implica que Y|X também seja Normal).
• Reta de Regressão (Teórica) • Interpretação do Intercepto β0
Representa o valor esperado Se fizermos X = 0 na reta de regressão:

de Y, como função de X:
E(Y|X=0) = β0
E(Y|X) = β0 + β1X
β0 representa o valor esperado de

Os parâmetros β0 e β1 precisam ser Y, quando X assume o valor zero.
estimados (veremos um método para isto).
116
• Interpretação da Inclinação β1
Seja Y1 o valor de Y em resposta a X:
Y1 = β0 + β1X + ε1,
Considere que a variável explicativa
X aumente uma unidade (X → X+1).
e seja Y2 o valor de Y em resposta a (X+1):

Vamos analisar qual o efeito
correspondente sobre Y. Y2 = β0 + β1(X+1) + ε2.
Agora lembre-se que E(ε1) = E(ε2) = 0;

Fazendo ∆Y = Y2-Y1
(variação em Y), temos:
e assim:
∆Y =
. = β1.
E(∆Y)
[β0 + β1(X+1) + ε2] - (β0 + β1X + ε1) =
β0 + β1X + β1+ ε2 - β0 - β1X - ε1 =
β1 é a variação esperada em Y
β1 + ε2 - ε1. quando X varia uma unidade.
• Reta de Regressão Estimada/Ajustada • Resíduos
As estimativas de β0 e β1 serão utilizadas Os resíduos da regressão são

para obter a reta estimada ou ajustada: definidos da seguinte forma:
{εˆ i = Yi − Ŷi , i = 1, 2, ..., n}

Ŷ = βˆ 0 + βˆ 1 X
i-ésima Ŷi = βˆ 0 + βˆ 1X i
estimativa de E(Y|X) = previsão de Y. observação de Y
117
• Estimação dos Coeficientes por MQO

Quanto menores os resíduos,
melhor o ajuste do modelo! O método dos Mínimos Quadrados
Ordinários (MQO) consiste em obter os
estimadores de β0 e β1 que minimizam
a soma dos quadrados dos resíduos:
Esta é a idéia do método dos mínimos
quadrados ordinários (MQO), usado n
para estimar os coeficientes β0 e β1. SQR = ∑ εˆ i2
i =1
A minimização da função anterior em relação • Estimadores de MQO de β0 e β1:

a β0 e β1 resulta nas seguintes equações:
n n
( I) ⇒ ∑ εˆ i = 0 ∑ (Xi − X)(Yi − Y) SXY ˆ
i =1 βˆ 1 = i =1
n
= , β0 = Y − βˆ 1X.
S2X
∑ ( Xi − X) 2
n
( II) ⇒ ∑ εˆ i X i = 0
i =1
i =1
Substituindo a fórmula do resíduo e a estimativa de β1 não é igual à correlação

resolvendo, obtemos os estimadores a seguir: amostral (rXY), mas tem o mesmo sinal dela
Exemplo 13.1 - O seguinte modelo (excel)

Propriedades Importantes da Reta de MQO: relaciona Y = gasto com alimentação e X =
renda semanal de uma amostra de 40 famílias:
1 - A reta de MQO passa pelo ponto Estatística de regressão
R múltiplo 0,937608458
das médias amostrais de X e Y. R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295
Erro padrão 4,81040437
Observações 40
2 - A soma dos resíduos é igual a zero.
ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
3 - A normalidade do erro não foi necessária Resíduo 38 879,319628 23,13999
Total 39 7273,69402
para obter os estimadores de MQO.
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores
Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
118
b) Se a renda familiar aumenta R$ 1,00, o

a) O que a reta de regressão ajustada permite
que ocorre com o gasto com alimentação?
concluir para famílias que ganham R$ 100,00?
R: Espera-se que o gasto com alimentação

R: O gasto médio com alimentação de famílias
aumente R$ 0,5157, ou: o gasto esperado
com esta renda, ou o gasto esperado com
com alimentação aumenta R$ 0,5157.
alimentação para famílias com esta renda é:
Obs - se a renda aumenta R$ 100,00, o gasto

Ŷ = −13,3248 + 0,5157 *100 = 38,24. esperado com alimentação aumenta R$ 51,57.
• R2 ou Coeficiente de Determinação Variação Total em Y = Soma dos Quadrados

n
Total : SQT = ∑ (Yi − Y ) 2
Uma das quantidades mais importantes na i =1
análise de um modelo de regressão é o R2. Variação Explicada = Soma dos Quadrados

n
Ele informa qual a proporção da variação da Regressão : SQE = ∑ (Ŷi − Y ) 2

i =1
total de Y que o modelo consegue explicar. Variação Não Explicada =
Soma dos Quadrados
Neste ponto, é importante definir os tipos de
n n
variação envolvidos em uma análise de regressão. dos Resíduos : SQR = ∑ (Yi − Ŷi ) 2 = ∑ εˆ i2
i =1 i =1
Pode-se demonstrar que: Identificando o R2 no exemplo 13.1:

SQT = SQE + SQR
Estatística de regressão
Daí: R múltiplo
R-Quadrado
0,937608458
0,879109621
R2
n R-quadrado ajustado 0,875928295 O modelo consegue
∑ (Ŷ − Y)
i
2
SQE SQR
Erro padrão 4,81040437 explicar 87,91% da
R = = = 1−
Observações 40
2 i =1 variação de Y (bastante).
n .
∑ (Y − Y)
ANOVA
2 SQT SQT gl SQ MQ F F de significação
i Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
i =1
Resíduo 38 879,319628 23,13999
Total
O R 2 é igual ao quadrado da correlação
39 7273,69402
O R2está entre 0 e 1, e mede a proporção da Coeficientes Erro padrão Stat t valor-P

2 95% inferiores 95% superiores
amostral,
Interseção denotada
-13,3248381 por0,004827374
4,45111079 -2,993598 rXY , daí-22,33564114
o nome -4,314035109
R .
variação de Y que é explicada pelo modelo. Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
119
• Estimador Não Viciado de σ2 • Propriedades dos Estimadores de MQO
1 - são não viciados
SQR 2 - são consistentes

σˆ 2 =
n−2 3 - são os de menor variância dentre todos os
estimadores lineares e não viciados (BLUE).
n-2 porque estamos estimando 2 parâmetros!
Esta última propriedade é o Teorema de
Gauss-Markov, um dos mais importantes
da teoria de modelos de regressão linear!
• Distribuições Amostrais A construção dos IC`s segue a mesma

forma do IC para a média da Normal:
Se o erro segue distribuição Normal,
as distribuições de β̂ 0 e β̂1 são:
 s s 
IC100(1−α )% (µ) =  x − t α ;x + t α ,
n −1; n −1;
βˆ 0 − β0 βˆ − β  2 n 2 n
~ t n −2 e 1 1 ~ t n −2 .
EP(βˆ 0 ) EP(βˆ 1 )
substituindo, é claro, as estimativas de µ,
estimadores dos erros padrão do erro padrão e os graus de liberdade da t
pelas quantidades correspondentes no
Estas distribuições são utilizadas para fazer
contexto do modelo de regressão linear.
inferências estatísticas a respeito de β0 e β1.
• Intervalos de Confiança para β0 e β1 • Teste de Significância Estatística
O teste da significância
 
IC100(1−α)%(β0 ) = βˆ 0 − t α EP(βˆ 0 );βˆ 0 + t α EP(βˆ 0 ) da estimativa de β1 é:
n−2; n −2;
 2 2  H0: β1 = 0 x H1: β1 ≠ 0.
  Este teste é também chamado de teste de

IC100(1−α)%(β1) = βˆ1 − t α EP(βˆ1);βˆ1 + t α EP(βˆ1) significância da regressão, pois se β1 = 0:
n−2; n−2;
 2 2 
Y = β0 + ε ⇒ não há relação linear entre Y e X.
120
A definição da estatística do teste é a Teste usando o Método da Região Crítica:

mesma do teste de µ = k contra µ ≠ k:
O teste consiste em calcular
X−k o valor de T (note que k = 0):
T= .
S/ n
βˆ1
substituindo as quantidades correspondentes t0 = ,
EP(βˆ )
1
no contexto do modelo de regressão linear:
βˆ1 − k e verificar se t0 pertence à região crítica:

T= .
EP(βˆ1) RC = (-∞,-tn-2;α/2]∪[tn-2;α/2,∞).
Teste usando o P-Valor: • Estimadores de Máxima Verossimilhança
p-valor do teste de H0: β1 = 0 x Os estimadores dos coeficientes do modelo,

e também de σ2, podem ser obtidos pelo
Estatística de regressão
R múltiplo 0,937608458 H1: β1 ≠ 0. Como o p-valor
é menor do que α = 0,01,
R-Quadrado 0,879109621
R-quadrado ajustado 0,875928295 método da máxima verossimilhança.
Erro padrão 4,81040437
Observações 40 rejeitamos H0 aos níveis usuais.
Os estimadores de máxima verossimilhança
dos coeficientes β0 e β1 do modelo são
ANOVA
gl SQ MQ F F de significação
Regressão 1 6394,37439 6394,374 276,3343605 5,02495E-19
Resíduo 38 879,319628 23,13999 iguais aos estimadores de MQO, porém,
para σ2, este método produz um estimador
Total 39 7273,69402
Coeficientes Erro padrão Stat t valor-P 95% inferiores 95% superiores

Interseção -13,3248381 4,45111079 -2,993598 0,004827374 -22,33564114 -4,314035109 viciado, SQR/n (compare com o estimador
Variável X 1 0,515720938 0,03102397 16,62331 5,02495E-19 0,452916199 0,578525676
não viciado, cujo denominador é igual a n-2).
• O Problema da Endogeneidade Variáveis omitidas ocasionam problemas para

Em uma regressão linear simples, todos os os estimadores dos coeficientes do modelo,
fatores que possam influenciar Y além de X caso apresentarem correlação com X.
são considerados parte do termo de erro ε.
No exemplo 13.2, a aptidão do aluno tem
Exemplo 13.2 - Imagine que você queira alguma relação com o número de faltas?
explicar a nota de um aluno a partir de sua Sim, e neste caso, temos: Cov(X,u) ≠ 0.
frequência às aulas, utilizando um modelo
de regressão linear simples com Y = nota
Se a variável X apresenta correlação com o
e X = número de faltas. Quais efeitos não
erro ε, temos o problema da endogeneidade.
estariam sendo considerados neste modelo?
121
Se Cov(X,u) ≠ 0, X é chamada endógena. Isto porque, se X varia, os fatores omitidos

Se Cov(X,u) = 0, X é chamada exógena. correlacionados com ela também variarão.
Um argumento intuitivo para entender porque O argumento formal é que o

a endogeneidade causa problemas é que ela estimador se torna inconsistente.
torna impossível isolar - e portanto estimar
corretamente - o impacto de X sobre Y. Se a variável omitida é observável, a solução
usual é incorporá-la ao modelo, o que
Formalmente, prova-se que os estimadores conduz ao modelo de regressão múltipla.
de MQO tornam-se inconsistentes.
• Regressão Linear Múltipla • Teste F
É o modelo de regressão
com k variáveis explicativas. O teste F para a significância conjunta
das estimativas de β1, β2, ... e βk,
consiste nas seguintes hipóteses:
Y = β0 + β1X1 + β2X2 +...+ βkXk + ε.
H0: β1 = β2 = ... = βk = 0
βj, j = 1, 2, ..., k, é a variação esperada x
em Y quando Xj varia uma unidade, se as
H1: ao menos um βj é diferente de zero.
demais variáveis permanecem constantes.
122

O Que É Estatística

Enviado por

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

O Que É Estatística

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

O Que É Estatística

Enviado por

Direitos autorais:

Formatos disponíveis

FGV/EPGE - Mestrado em Finanças e Economia Empresarial

Disciplina: Estatística/2019 - Professor: Eduardo Lima Campos

ESTATÍSTICA Estatística é a ciência que permite obter

A estatística descritiva ocupa-se da

Cálculo do coeficiente de rendimento

A seguir são apresentadas as tipologias

1 - Dados Primários x Secundários 2 - Dados em Corte x Séries Temporais

Obs - Dados que possuem ambas as 3 - Dados Qualitativos x Quantitativos

Exemplo 1.1 - Faturamento bruto no mês

1. ESTATÍSTICA 11,8 3,6

Que conclusões você pode tirar?

Esses dados estão na chamada forma Distribuição de Frequências

• Distribuição de Frequências Absolutas • Distribuição de Frequências Relativas

Histograma (Frequências Absolutas) - ex. 1.1:

Como obter o histograma? 2

Consiste de barras verticais centradas

O gráfico de pizza, ou de setores, é um

É apropriado quando o objetivo

R: Não, pois está bem acima

A média é uma medida de posição

O “6,0” é um valor atípico ou discrepante, Neste caso, é recomendável utilizar outra

Exemplo 1.4 (cont.):

Se n for ímpar: Md = observação central. Md = 3,0.

Se n for par: Nota-se que 3,0 é mais representativo da

Em algumas situações, nem a média nem

Moda Um conjunto de dados que possua 2 modas

Exemplo 1.6 - Em uma pequena empresa,

peso do j-ésimo valor distinto de x (no

Exercício 1.2 - Obtenha o peso médio da

Exemplo 1.7 - Seja um investimento com

Para ilustrar, considere um capital de

fator de capitalização fator de capitalização

O fator de capitalização equivalente No exemplo 1.7:

(1+Req)n = (1+R1)(1+R2)...(1+Rn) de tal forma que Req = 14,8913%.

• Medidas de Dispersão Exemplo 1.8 - Dois fornecedores, A e

Naturalmente, você escolheria o fornecedor B Seja (xi-µ) o desvio de xi em relação à média.

A medida de dispersão mais simples é a n

É a média dos quadrados dos desvios:

Exercício 1.2 - Seja um conjunto de 3 dados:

A variância apresenta um sério problema: ela

Exemplo 1.9: A curva mais clara (ação B) oscila em torno de

RETORNOS DIÁRIOS DE 2 AÇÕES

É usual analisar a média e o desvio padrão dos 12

Em compensação, a flutuação dos retornos da

Exemplo 1.10 - Suponha que estejamos

O desvio padrão dos salários dos gerentes Fórmula do Coeficiente de Variação:

Propriedades do Coeficiente de Variação: • Outras Medidas Importantes

1 - É adimensional, isto é, não é expresso Medidas de posição e dispersão são

3 - CV pequeno = dados homogêneos Estudaremos a seguir os conceitos

A figura a seguir ilustra as três possibilidades, e

A assimetria é uma medida do quanto a

Se a metade esquerda da curva é um “espelho” esta esta distribuição

Os percentis 25, 50 e 75 são chamados quartis:

Quartis • Amplitude Interquartílica

São medidas Q1, Q2 e Q3 que É uma medida de dispersão dada pela

Obs - não confundir com amplitude

Box-Plot Exemplo 1.11 - Seja o seguinte conjunto de