Probabilidade & Estatística

1
Manual do Curso de Licenciatura em Ensino de Física
Probabilidade & Estatística - F0112
3o Ano
2
Elarborado por:
Paulino Bartolomeu Sandramo
Licenciado em Ensino de Física na Universidade Pedagógica
Docente:
Faculdade de Ciências Agrárias da Universidade Zambeze e,
Centro de Ensino à Distância da Universidade Católica de Moçambique.
3
Probabilidade & Estatística
Índice de Conteúdos
Unidade I: ESTATÍSTICA
 Coniderações Gerais; Unidade VI: PROBABILIDADE. CONTAGEM
 Definição da estatística;  Problema da contagem no estudo da
 Visão sistémica da estatística; probabilidade;
 Análises da estatística  Multiplicação;
 Dedução e Indução;  Exemplos;
 Dados e variáveis;  Regra fatorial;
 Natureza das variáveis;  Exemplos;
 Exemplos  Arranjos ou permutações, combinações;
 Exemplos;
Unidades II: MEDIDAS DE TENDÊNCIA CENTRAL  Exercícios.
 Generalidades;
 Estatística descritiva; Unidade VII: PROBABILIDADE. DEFINIÇÕES,
 Medidas de tendência central; NOTAÇÃO, REGRA DE ADIÇÃO
 Separatrizes;  Definições básicas de probabilidade;
 Outras medidas descritivas;  Exemplos;
 Exemplos  Diagrama de Venn;
 Propriedades de probabilidade;
Unidade III: MEDIDAS DE VARIAÇÃO OU DISPERSÃO  Evento complementar;
 Resumo da estatística descritiva;  Regra da adição;
 Medidas de variação;  Exemplos;
 Teorema de Tchebichev;  Eventos mutuamente exclusivos;
 Medidas de dispersão;
 Medidads de posição e dispersão; Unidade VIII: PROBABILIDADE. MULTIPLICAÇÃO E
 Exemplos TEOREMA DE BAYES
 Regra da multiplicação;
Unidade IV: DISTRIBUIÇÃO DE FREQUÊNCIA  Exemplos;
 Representação de dados;  Eventos independentes;
 Organização de dados;  Probabilidade condicional;
 Distribuição de frequência;  Partição de um espaço amostral;
 Tabelas e gráficos;  Teorema de Bayes;
 Histogramas;  Exemplo;
 Média ponderada, Moda, Moda bruta,  Exercícios.
Mediana, ;
 Medidas de dispersão; Unidade IX: PROBABILIDADE. VARIÁVEIS
 Assimetria e simetria; ALETÓRIAS. DISTRIBUIÇÃO DE PROBABILIDADE
 Exercícios.  Variáveis aleatórias;
 Gráfico da probabilidade
Unidade V: PROBABILIDADE. DEFINIÇÕES E  Distribuição de probabilidade;
CONCEITOS  Exemplos;
 Definições;  Média, variância e desvio padrão;
 Exemplos;  Valor esperado;
 Limitação do conceito clássico de  Exemplos;
probabilidade;  Exercícios.
 Definição Frequencial de Probabilidade;
 Exemplos;
 Lei dos grandes números;
 Exercícios.
2
Unidade X: PROBABILIDADE. DISTRIBUIÇÃO Unidade XV: PROBABILIDADE. DISTRIBUIÇÃO

CONJUNTA DE DUAS VARIÁVEIS ALEATÓRIAS NORMAL
 Distribuição conjunta de duas variáveis  Distribuição Normal
aleatórias;  Função densidade da distribuição normal;
 Função de probabilidade conjunta;  Média e desvio padrão;
 Distribuições marginais de probabilidades;  Distribuição normal padronizada;
 Distribuições condicionais;  Exemplos;
 Variáveis aleatórias independentes;  Distribuição normal não padronizada;
 Funções de variáveis aleatórias;  Exemplos;
 Aplicação;  Distribuição Binomial
 Exercícios.
Unidade XVI: PROBABILIDADE E ESTATÍSTICA
Unidade XI: PROBABILIDADE. DISTRIBUIÇÃO  Teorema do limite central e intervalo de
BINOMIAL confinça;
 Distribuição Binomial;  Teorema do limite central;
 Exemplos.
 Estimativa de média populacional;
 Parâmetros da distribuição de Binomial;
 Exemplos;  Exemplo;
 Tabela de distribuição Binomial;  Intervalo de confiança;
 Exemplos;  Nível de confiança;
 Exercícios.  Valor crítico;
 Exercício.
Unidade XII: PROBABILIDADE. DISTRIBUIÇÃO DE
POISSON Unidade XVII: PROBABILIDADE E ESTATÍSTICA
 Distribuição de Poisson;  Margem de erro. Determinação do tamanho
 Exemplos;
da amostra;
 Curva da distribuição de Poisson;
 Exemplos;  Exemplo;
 Exercícios.  Determinação do tamanho da amostra;
 Exemplo.
Unidade XIII: PROBABILIDADE. DISTRIBUIÇÃO Unidade XVIII: PROBABILIDADE E ESTATÍSTICA
EXPONENCIAL  Distribuição t de Student. Pequenas
 Aplicação; amostras;
 Relação entre distribuição de Poisson e  Estimativa da média para pequenas
Exponencial;
amostras;
 A curva de densidade de probabilidade;
 Curva da distribuição exponencial;  Distribuição t de Student;
 Definição;  Propriedades da distribuição t de Student;
 Média e desvio padrão;  Exemplo;
 Exemplos;  Síntese da estimativa de média
 Exercícios. populacional
Unidade XIX: PROBABILIDADE E ESTATÍSTICA
Unidade XIV: PROBABILIDADE. DISTRIBUIÇÕES  Estimativa de uma proporção populacional;
UNIFORME, GEOMÉTRICA, HIPERGEOMÉTRICA, E
 Exemplo;
MULTINOMIAL.
 Distribuição uniforme;  Determinação do tamanho da amostra;
 Exemplos;  Exemplo.
 Distribuição geométrica;
 Exemplos; Unidade XX: PROBABILIDADE E ESTATÍSTICA
 Distribuição Hipergeométrica;  Teste de hipóteses
 Exemplos  Estimação;
 Distribuição Multinomial;  Raciocínio estatístico;
 Exemplos;  Estudo do caso;
 Exercícios.  Tipos de erro;
 Exemplo;
3
Unidade XXI: PROBABILIDADE E ESTATÍSTICA Unidade XXIII: ANÁLISE DE SÉRIES TEMPORAIS

 Correlação e regressão;  Noções Básicas;
 Correlação entre duas variáveis;  Tipos de séries temporais;
 Exemplo;  Objectivos de uma análise de séries
 Diagramas de dispersão; temporais;
 Coeficiente de correlação linear;  Fundamentos probabilísticos;
 Propriedades do coeficiente de correlação  Processos estacionários;
de Pearson ou linear;  Modelagem, aprendizado e previsão;
 Reta de regressão linear;  Critério de previsão;
 Variáveis e sua definição;  Modelos de séries temporais;
 Exemplo.  Exemplos.
Unidade XXII: BINÓMIO DE NEWTON E TRIÂNGULO DE Unidade XXIV: MODELOS DE REGRESSÃO

PASCAL  Introdução;
 Triângulo de Pascal;  Exemplos;
 Coeficientes binomiais;  Revisão de modelos lineares;
 Binómio de Newton;  Propriedades;
 Herança quantitativa;  Correlação serial entre os erros;
 Exemplo;  Modelos sazonais;
 Exercícios.  Exemplos.
2
Objectivos Gerais
 Estabelecer uma ligação uniforme entre o estudante e o docente de acordo com as linhas
pedagógicas definidas pelo centro de ensino a distancia;
 Desenvolver o espírito de autodidatismo no estudante mediante a prática de exercícios individuais;
 Criar bases científicas assentes em matérias de Probabilidades e Estatística na gestão de

actividades dentro da sociedade.
Unidade I: ESTATISTICA
Objectivos Específicos
Até ao fim desta unidade, o estudante deve ser capaz de:
 Definir o conceito de estatistica e rever a sua importância na sociedade;

 Conhecer as definições básicas iniciais da estatistica;
 Diferenciar dados e variáveis;
 Compreender a natureza das variáveis;
 Resolver exercícios propostos no fim da unidade.
Considerações gerais
Importância da Estatística
 Administração Escolar, Engenharia, Medicina, Economia, Turismo...
Definição
A Estatística é uma coleção de métodos para planear experiências, obter dados e organizá-los, resumi-los,
analisá-los, interpretá-los e deles extrair conclusões (TRIOLA, 1998).
Visão Sistêmica da Estatística

A partir de valores obtidos em uma amostra de uma certa população de interesse, descrevemos esta
amostra e caracterizamos a população como um todo, generalizando as observações na amostra.
Tirar conclusões sobre uma população com base em uma amostra de observações.
Análises Estatísticas
Estatística descritiva: parte da estatística que descreve os aspectos importantes de um conjunto de

características observadas.
Probabilidade: número que indica a chance de uma determinada situação ocorrer.

3
Inferência estatística: parte da estatística que usa uma amostra para fazer generalizações a respeito de
aspectos importantes de uma população.
Dedução e Indução
Quando a população é conhecida e a amostra é desconhecida, parte-se da dedução para definir a
probabilidade.
Numa situação em que a população é desconhecida, mas conhece-se a amostra parte-se da indução para
proceder a inferência estatistica.
Definições básicas iniciais

População: Coleção completa de todos os elementos a serem estudados (Ex.: todos os alunos da sala de
aula).
Censo: Coleção de dados relativos a todos os elementos de uma população (Ex.: idade de todos os alunos
da sala de aula);
Amostra: Coleção de dados extraídos de uma parcela da população (Ex.: idade de 10% dos alunos da sala
de aula);
Parâmetro: Medida numérica que descreve uma característica de uma população (Ex.: idade média de
toda a turma é um parâmetro);
Estatística: Medida numérica que descreve uma característica de uma amostra (Ex.: idade média da turma
baseada numa amostra de 10% dos alunos é uma estatística);
Estimativa: Valor resultante do cálculo de uma estatística, quando usado para se ter uma idéia do
parâmetro de interesse;
Dados e Variáveis
Dado:
 Informação;
 Aquilo que caracteriza determinada coisa;
 Resultado de uma observação ou experiências.
Ex.: dados de altura de indivíduos de um grupo. 1,75m; 1,82m; 1,65m; ...
4
Variável:
 A característica em si.
Ex.: altura de indivíduos de um grupo
Natureza das variáveis
Exercício 1: Contínuo ou Discreto?
1. Uma marca de cigarro possui 16,13mg de alcatrão

2. O altímetro de um avião indica uma altitude de 21.359 pés
3. Uma pesquisa efetuada com 1015 pessoas indica que 40 não possuem acesso à internet
4. O radar indica uma velocidade de 81 km/h
5. De 1000 consumidores pesquisados, 930 reconheceram uma marca de sopa
6. Fazendo um regime, uma executiva perdeu 13,45kg
Resposta: Contínuo (1, 2, 4, 6) e Discreto (3, 5).
Reflexão
Para comprovar que muitos conceitos em Probabilidade e Estatística são intuitivos, acabamos de falar em
“população”e “amostra” e quase todos compreenderam naturalmente do que se trata!
5
Unidade II: MEDIDAS DE TENDÊNCIA CENTRAL
 Diferenciar estatistica descritiva e inferência estatistica;

 Interpretar as medidas de tendência central;
 Identificar e explicar as separatrizes;
 Elaborar tabelas e explicar os procedimentos do preenchimento.
 Resolver exercícios propostos ao longo da unidade.
Generalidades
Estatística Descritiva: Resumo ou descrição das características importantes de um conjunto conhecido de

dados populacionais;
Inferência Estatística: Generalizações sobre uma população tomadas a partir da utilização de dados
amostrais.
Estatística descritiva
Através da ESTATÍSTICA DESCRITIVA entendemos melhor um conjunto de dados através de suas

características.
As três principais características são:

Um valor representativo do conjunto de dados. Ex.: uma média
Uma medida de dispersão ou variação.
A natureza ou forma da distribuição dos dados: sino, uniforme, assimétrica,...
Medidas de Tendência Central
Análise estatística da turma de

Probabilidade e Estatística
Eventos Altura Sexo
Aluno 1 1,72 M
Aluno 2 1,60 F
Aluno 3 1,74 M
Aluno 4 1,88 M
Aluno 5 1,82 M
6
Determina valores típicos ou representativos de um conjunto de Aluno 6 1,75 M

dados: Média, Mediana, Moda, Ponto médio. Aluno 7 1,82 M
Aluno 8 1,75 M
Média aritmética ou Média Aluno 9 1,73 M
 Centro do conjunto de dados –ponto de equilíbrio Aluno 10 1,75 M
 A mais importante medida de tendência central Aluno 11 1,80 M
Aluno 12 1,75 M
 Média = Σ(x)/n
Aluno 13 1,73 M
Aluno 14 1,84 M
Aluno 15 1,76 M
Notação
Aluno 16 1,78 M
Aluno 17 1,75 M
Σ: somatório de um conjunto de valores;
Aluno 18 1,69 F
x: valores individuais dos dados; Média 1,759 ------------
n: número de valores da amostra;
N: número de valores de uma população;

__
x = Σ(x)/n: média de um conjunto de valores amostrais;
μ= Σ(x)/N: média de todos os valores de uma população
Mediana (x)
Valor do meio do conjunto de dados, quando os valores estão dispostos em ordem crescente ou
decrescente; divide um conjunto de dados em duas partes iguais.
Para calcular:
 Disponha os valores em ordem (crescente ou decrescente)
 Se o número de valores é ímpar, a mediana é o número localizado no meio da lista
 Se o número é par, a mediana é a média dos dois valores do meio
Do nosso conjunto de dados...

Análise estatística da
turma de Probabilidade
e Estatística
Altura Sexo
1,60 F
1,69 F
1,72 M
1,73 M
1,73 M
1,74 M
1,75 M
1,75 M
1,75 M
7
Encontre a mediana: 1,75 M

1,75 M
 Liste em ordem crescente os valores; 1,76 M
1,78 M
 Encontre a posição da mediana: (n+1)/2; 1,80 M
1,82 M
 Se n é ímpar, mediana é o número da posição; 1,82 M
1,84 M
 Se n é par, mediana é a média entre os dois números em torno da 1,88 M
posição. 1,759 ------------
No exemplo:
n=18 (par); Posição: (n+1)/2 = 9,5;
Mediana --média entre o 9o e o 10o valor = (1,75+1,75)/2=1,75.
Moda (M)
É o valor que ocorre com maior freqüência. Quando dois valores ocorrem com a mesma freqüência, cada
um deles é chamado de uma moda, e o conjunto se diz BIMODAL.
Se mais de dois valores ocorrem com a mesma freqüência máxima, cada um deles é uma moda e o
conjunto é MULTIMODAL. Quando nenhum valor é repetido o conjunto não tem moda.
Moda: 1,75
Análise estatística da turma de Probabilidade e Estatística
Altura N. Ocorrências Altura N. Ocorrências
1,60 1 1,76 1
1,69 1 1,78 1
1,72 1 1,80 1
1,73 2 1,82 2
1,74 1 1,84 1
1,75 5 1,88 1
Ponto Médio
Valor que está a meio caminho entre o maior e o menor valor
1,88  1,60
Ponto médio=  1,74
2
Medidas de Posição
Seja o seguinte conjunto de valores: 5 7 8 10 12 15 20
Média: 11 Mediana: 10 Ponto médio: 12,5

8
Se alterarmos significativamente o último valor: 5 7 8 10 12 15 200
Média: 36,7 Madiana: 10 Ponto médio: 102,5
Devemos ter cuidado ao escolhermos uma medida de posição para representar um conjunto de dados,
pois: “Média” e “Ponto Médio” são muito afetados por valores extremo.
Em geral, a melhor política é utilizar os dois parâmetros: “média” e “mediana”. Valores de “Média” e
“Mediana” muito próximos é uma indicação que o conjunto de valores é razoavelmente simétrico em
relação à posição central (média / mediana).
Média Ponderada
Cálculo da média, atribuindo pesos diferentes para cada valor.
__
x1.w1  x2 .w2  ...  xn .wn
x xn -- Valores individuais wn -- Pesos individuais
w
Separatrizes
 Percentis
 Decis Dados ordenados
 Quartis
 Escore padronizado ou escore z
Percentis
 Um percentil indica que há x% de dados inferiores;

 Ou seja, os percentis dividem o conjunto de dados em 100 partes iguais;
 Há, portanto, 99 percentis;
 Ex.: o P92 (92o percentil) indica que há 92% de dados inferiores;
 Dado o conjunto de valores, calcule o 25o percentil (valores devem estar ordenados);
72 74 75 77 78 79 82 85 86 90 93 94
 Calcule: L= (k/100).n
L: posição do percentil desejado no conjunto de dados ordenados
k: percentil desejado, n: número de valores
 L é um número inteiro?
 SIM: o k-ézimo percentil está a meio caminho do L-ézimo valor e o próximo valor do conjunto de
dados.
n=12=> L=3(L3+ L4)/2 = (75+77)/2 =76
9
 NÃO: Modificar L, arredondando seus valor para o inteiro maior mais próximo.
Ex.: se n=11 => L=2,75
A posição do k-ézimo percentil será 3. Retirando o valor 77 do conjunto de dados...
P25=75
Calcular Percentil
Para calcular a qual percentil pertence um dado valor procede-se assim:
Processo Alternativo
Seja o seguinte conjunto de “n” valores: 10, 7, 15, 12, 20, 8, 5, 25
ORDENA-SE o conjunto de “n” valores: 5, 7, 8, 10, 12, 15, 20, 25
LP= (n-1) x p/100+ 1
L25= (8-1) X 0,25 + 1 = 2,75; L75= (8-1) X 0,75 + 1 = 6,25
P1= 7 + (8-7) x 0,75 = 7,75; P3= 15 + (20-15)x0,25 = 16,25
Decis
 Divide o conjunto de dados em 10 partes iguais, de 10%.

 Portanto há 9 decis numa distribuição, que a divide em 10 grupos de 10% de dados.
 Os Decis são os percentis: P10, P20, P30, P40,P50, P60, P70, P80, P90.
D1=P10 D2=P20 D3=P30
D4=P40 D5=P50 D6=P60
D7=P70 D8=P80 D9=P90
Quartis
 Os quartis dividem a distribuição em quatro partes iguais de 25%

 Temos assim 3 quartis numa distribuição:
O 1o quartil Q1, separa os 25% de dados inferiores;
O 2º quartil Q2, separa os 50% de dados inferiores;
O 3º quartil Q3, separa os 75% de dados inferiores.
 Os Quartis são os percentis: P25, P50, P75
 Observa-se que Q2= MEDIANA.
Outras medidas descritivas
 Baseado nos conceitos de Percentis, Decis e Quartis, podemos definir outras descrições estatísticas:
Intervalo interquartil: Q3–Q4
Intervalo semi-interquartil: (Q3–Q1)/2
10
Quartil médio: (Q3+ Q1)/2

Amplitude de percentis
Ex. 10-90 => P90-P10
Exercícios
1. A tabela de freqüência a seguir resume o tempo gasto em estudo extra-classe por caloiros da
Universidade Católica de Moçambique- Centro de Ensino a Distância. Faça uma estimativa do tempo
médio de estudo deste grupo.
Horas de estudo Frequência (alunos)

0 5
1-5 96
6-10 57
11-15 25
16-20 11
+ de 20 6
2. Dados os conjuntos de dados abaixo, calcule a MÉDIA, a MEDIANA, a(s) MODA(S) e

o PONTO MÉDIO.
a) 15; 26; 28; 10; 29;
b) 500; 1000; 50000; 800; 500; 600;
c) Altura dos alunos da sala;
d) Limite de Resistência de um vergalhão kgf/mm2 (55; 52; 55; 53; 56; 59; 58; 55; 56; 53; 52; 51; 54;
54; 55; 58; 57; 57; 56; 49; 54; 56)
11
Unidade III: MEDIDAS DE VARIAÇÃO OU DISPERSÃO
 Conhecer e interpretar as características de um conjunto de dados e as características de variação

desse conjunto de dados;
 Conhecer o teorema de Tchebichev e aplica-lo em exercícios;
 Entender o conceito Outliers;
 Interpretar as medidas de dispersão e exemplificar casos concretos;
 Acompanhar exercícios resolvidos para aumentar o entendimento de conteúdos propostos.
Estatística descritiva
As três principais características de um conjunto de dados são:

 Um valor representativo do conjunto de dados: uma média (Medidas de Tendência Central)
 Uma medida de dispersão ou variação.
 A natureza ou forma da distribuição dos dados: seno, uniforme, assimétrica,... (Tabelas de frequência
e histogramas)
Medidas de Variação
Determinam a característica de variação de um conjunto de dados:

 Amplitude;
 Desvio;
 Desvio médio ou desvio absoluto;
 Desvio padrão e,
 Variância.
Amplitude
Análise estatística da turma de

Probabilidade e Estatística
Eventos Altura (x)
Aluno 1 1,72
Aluno 2 1,60
Aluno 3 1,74
Aluno 4 1,88
Aluno 5 1,82
Aluno 6 1,75
12
A Amplitude é a diferença entre o maior e o menor valor. Aluno 7 1,82

Aluno 8 1,75
 Subtraia por exemplo na tabela ao lado, entre o menor e o maior Aluno 9 1,73
valor; Aluno 10 1,75
Aluno 11 1,80
 Amplitude: 1,88-1,60=0,28m Aluno 12 1,75
Aluno 13 1,73
Aluno 14 1,84
Aluno 15 1,76
Aluno 16 1,78
Aluno 17 1,75
Aluno 18 1,69
Soma 31,66
Média 1,759
Amplitude 0,28
Desvio e desvio absoluto Análise estatística da turma de Probabilidade e

Estatística
Desvio __ __
__ Eventos Altura (x) x- x l x- x l
 Diferença entre cada valor e a média, x - x
Aluno 1 1,72 -0,04 0,04
Desvio médio ou absoluto Aluno 2 1,60 -0,16 0,16
Aluno 3 1,74 -0,02 0,02
 Média dos desvios em termos absolutos,
Aluno 4 1,88 0,12 0,12
__ Aluno 5 1,82 0,06 0,06
 x x Aluno 6 1,75 -0,01 0,01
n Aluno 7 1,82 0,06 0,06
Aluno 8 1,75 -0,01 0,01
Aluno 9 1,73 -0,03 0,03
Aluno 10 1,75 -0,01 0,01
Aluno 11 1,80 0,04 0,04
Aluno 12 1,75 -0,01 0,01
Aluno 13 1,73 -0,03 0,03
Aluno 14 1,84 0,08 0,08
Aluno 15 1,76 0,00 0,00
Aluno 16 1,78 0,02 0,02
Aluno 17 1,75 -0,01 0,01
Aluno 18 1,69 -0,07 0,07
Soma de Desvio
Media
Desvios Médio
1,759≈1,760 0,000 0,043
13
Desvio Padrão
Medida da variação dos valores em relação à média. Por exemplo, calcular o desvio padrão do conjunto
de dados acima.
 Primeiro acha-se a média, que no caso é 1,759;
__
 Depois, calcular o desvio de cada medida sobre a média (Desvio: x - x );
 Eleve ao quadrado cada uma das diferenças;
__
 Some todos os quadrados obtidos:  ( x  x )2 ;
 Divida o total por (n-1), onde n é o no de dados colectados (amostra);
 Extraia a raiz quadrada do resultado anterior;
__
 Assim obtém-se o Desvio Padrão:  ( x  x )2

n 1
 Confira a tabela a seguir:
Análise estatística da turma de Probabilidade e

Estatística
__ __
Eventos Altura (x) x- x ( x  x )2
Aluno 1 1,72 -0,04 0,0015
Aluno 2 1,60 -0,16 0,0252
Aluno 3 1,74 -0,02 0,0004
Aluno 4 1,88 0,12 0,0147
Aluno 5 1,82 0,06 0,0037
Aluno 6 1,75 -0,01 0,0001
Aluno 7 1,82 0,06 0,0037
Aluno 8 1,75 -0,01 0,0001
Aluno 9 1,73 -0,03 0,0008
Aluno 10 1,75 -0,01 0,0001
Aluno 11 1,80 0,04 0,0017
Aluno 12 1,75 -0,01 0,0001
Aluno 13 1,73 -0,03 0,0008
Aluno 14 1,84 0,08 0,0066
Aluno 15 1,76 0,00 0,0000
Aluno 16 1,78 0,02 0,0004
Aluno 17 1,75 -0,01 0,0001
Aluno 18 1,69 -0,07 0,0047
Soma 31,66 0,00 0,0650
Média 1,759
14
Em geral, o desvio padrão apresenta expressões __
relativamente diferentes para o caso em que o  ( x  x )2 =0,062

estudo baseia-se em amostra ou em toda a n 1
população.
Para o efeito, no caso de uma amostra tem-se:
__
2
S
 (x  x )
n 1
Para uma população,

__
2
 (x  x)
N
A unidade do desvio padrão é a mesma unidade dos valores originais, ou conjunto de dados.
O desvio padrão, apresenta uma fórmula simplificada:
n(  x 2 )  (  x ) 2
S
n( n  1)
Vantagem e Desvantagem do Desvio Padrão
 Mais conveniente para uso com números extensos e com grandes conjuntos de valores;
 Maior facilidade de uso com calculadoras e computadores (apenas três registos: n, Σx e Σx2);
 Elimina erros de arredondamento;
 Não evidencia o conceito de desvio médio da fórmula tradicional.
Variância
É o desvio padrão ao quadrado.
 S2---- variância amostral; σ2---- variância populacional.
__ __
S2 
 ( x  x )2 variância amostral. 2   ( x  x )2 variância populacional.
n 1 N
A unidade da variância é a mesma unidade do conjunto de dados, elevada ao quadrado.
Considerações finais
15
 Tomar uma casa decimal a mais em relação às que constam dos dados originais;
 Arredondar apenas o resultado final e não os resultados intermediários;
 Se necessitarmos arredondar os resultados intermediários, acrescente duas casas decimal a mais em
relação às que constam dos dados originais.
Desvio Padrão, para que serve?
Indica a dispersão dos dados; quanto mais dispersos, maior o desvio padrão.
Regra prática
 Desvio padrão ≅ amplitude/4* (só usar em casos muito extremos)
 Portanto:
Valor mínimo ≅ média –2.(s)
Valor máximo ≅ média + 2.(s)
Teorema de Tchebichev
 A proporção de qualquer conjunto de dados a menos de K desvios-padrão a contar da média é
sempre ao menos 1-1/k2, onde k é um número positivo maior do que 1. Para k=2 e k=3, temos:
Ao menos ¾(75%) de todos os valores estão no intervalo de ±2 desvios-padrão em torno da média.
Ao menos 8/9 (89%) de todos os valores estão no intervalo de ±3 desvios-padrão em torno da média.
Teorema de Tchebichev
A fracção (percentagem) de QUALQUER conjunto de dados, a menos de K desvios a contar da média, é

SEMPRE ao menos:
 1-1/k2, onde k >1
Por exemplo, para k=2, k=3 pode significar que:
 __ __

  x  2 S , x  2S   75% de dados.

Ou seja, ao menos ¾ de todos os valores estão neste intervalo.
 __ __

  x  3S , x  3S   89% de dados.

Exemplo
 Barbeadores elétricos sem fio da marca XYZ têm vida média de 8,0 anos, com desvio padrão de
3,0 anos.
 Faça uma estimativa:
da vida mais breve =>
16
da vida mais longa =>

 Tchebichev também é útil para identificar valores “estranhos” em um conjunto de dados: aqueles
que ficam de fora do intervalo.
Outliers
 Outliers” são valores “estranhos”que se localizam muito distantes da média;
 Por isso, as estatísticas descritivas são, usualmente, muito influenciadas (“contaminadas”) por
eles;
 Podem se originar em erros de coleta OU em desvios de processo;
 Esses outliers devem ser muito bem analisados antes de um possível descarte!
 Tchebichev pode nos ajudar na identificação de outliers;
 Valores fora do intervalo de +/-2s devem ser analisados para um possível descarte;
 __ __

  x  2 S , x  2 S  fora deste intervalo é estranho.

Mais medidas de dispersão
O Coeficiente de Variação (CV) indica a magnitude relativa do desvio-padrão quando comparado com a
média do conjunto de valores.
S 
CV  __ (amostra) CV  (população)
x 
O Coeficiente de Variação é útil para compararmos a variabilidade (dispersão) de dois conjuntos de dados
de ordem de grandezas diferentes.
Exemplo:
Seja o seguinte conjunto de preços de geleiras em 7 lojas distintas na Cidade da Beira (Moçambique):
7.500,00 8.000,00 7.900,00 8.100,00 8.200,00 7.600,00 7.800,00
__
x  7.871,43 S  256,35
Seja o seguinte conjunto de preços de liquidificadores nas mesmas lojas acima:

50,00 45,00 55,00 43,00 52,00 45,00 54,00
__
x  49,14 S  4,81
Qual dos produtos tem uma maior variabilidade de preços?

Uma vez que, em geral, uma geleira custa bem mais que um liquidificador, a tendência é que o desvio-
padrão da geleira seja também maior!
O coeficiente de variação é uma medida adimensional que normaliza o desvio padrão em relação à média.
17
256,35 4,81
CVgeleira   3,3% CVliquidificador   9,8%
7871,43 49,14
Com o CV podemos concluir que os preços da geleira têm uma menor variabilidade que os do
liquidificador.
Medida de Dispersão: Intervalo interquartil (amplitude interquartílica)
Uma medida de dispersão alternativa que pode ser empregada é o chamado intervalo interquartil ou
amplitude interquartílica.
É a diferença entre o terceiro e o primeiro quartis.
Só aproveita 50% dos dados: Pouco influenciada pelos valores extremos, DJ=Q3 – Q1= P0,75 – P0,25
Medidas de posição e dispersão

Para o conjunto de valores abaixo:
05; 07; 08; 10; 12; 15; 18; 20; 28; 35; 40; 44
Q1= 10 Q2= Md= 16,5 Q3 = 28 Q4= 44 Dj= 28 -10 = 18
Se alterarmos significativamente o último valor: 05; 07; 08; 10; 12; 15; 18; 20; 28; 35; 40; 200
Dj= 28 -10 = 18 !!!
Escore Padronizado __
x
Número de desvios-padrão pelo qual um valor dista da média x x Z
Z 
(para mais ou para menos) S
Exercício
As alturas da população de homens adultos têm média μ=1,752m, desvio padrão σ=0,071m e distribuição
gráfica em forma de sino (normal). O jogador de basquete Michael Jordan, que mede 1,98m, pode ser
considerado excepcionalmente alto? Determine o escore padrão z para ele.
Resolução
x 1,980  1,752
 alcula-se o escore Z, conforme segue: Z Z   3,211
 0,071
 Este resultado indica que a altura de Michael Jordan está a 3,21 desvios-padrão acima da média
da população. Considerando incomuns valores acima ou abaixo de 2 desvios da média, conclui-se
que Michael Jordan é de fato excepcionalmente alto comparando com a população geral.
Unidade IV: DISTRIBUIÇÃO DA FREQUÊNCIA

18
 Representar o conjunto de dados;

 Organizar os dados e representá-los em um conjunto de dados;
 Determinar a quantidade de classes, mediante as regras estabelecidas;
 Construir e interpretar a tabela de frequências e acompanhar a resolução de exercícios;
 Interpretar os histogramas.
Representação do conjunto de dados

19
Os dados podem ser representados por:
1. Distribuições de Frequência:
 Frequencia relativa;
 Frequencia acumulada.
2. Representação Gráfica:
 Histogramas.
Organização dos dados

Os métodos utilizados para organizar dados compreendem o arranjo desses dados em subconjuntos que
apresentem características similares.
 mesma idade (ou “faixa etária”), mesma finalidade, mesma escola, mesmo bairro, etc
Os dados agrupados podem ser resumidos em tabelas ou gráficos e, a partir desses, podemos obter as
estatísticas descritivas já definidas: média, mediana, desvio, etc.
Dados organizados em grupos ou categorias/classes são usualmente designados “distribuição de

freqüência”.
Distribuição de frequência
Uma distribuição de freqüência é um método de se agrupar dados em classes de modo a fornecer a

quantidade (e/ou a percentagem) de dados em cada classe.
Com isso, podemos resumir e visualizar um conjunto de dados sem precisar levar em conta os valores
individuais.
Uma distribuição de freqüência (absoluta ou relativa) pode ser apresentada em tabelas ou gráficos.
Uma distribuição de freqüência agrupa os dados por classes de ocorrência, resumindo a análise de
conjunto de dados grandes.
Construção de uma distribuição de frequências

Adotemos o conjunto de dados que represente a população (dados já vistos em unidades anteriores).
Ordene em ordem crescente ou decrescente:
Determine a quantidade de classes (k)
Eventos Altura
20
 Regra de Sturges (Regra do Logaritmo); k = 1 + 3,3log(n) Aluno 1 1,60

 Regra da Potência de 2; k = menor valor interior tal que 2k≥n. Aluno 2 1,69
Aluno 3 1,72
 Regra da Raiz Quadrada; k  n
Aluno 4 1,73
 Bom senso; Decida a quantidade de classes que GARANTA Aluno 5 1,73
observar como os valores se distribuem. Aluno 6 1,74
Regra de Sturges Regra da Potência de 2 Bom Senso Aluno 7 1,75
(Logaritmo) Aluno 8 1,75
Quantidade Quantidade Quantidade Quantidade de Quantidade Quantidade Quantidade
de dados (n) de classes (k) de dados (n) classes (k) de dados (n) mínima de máxima de
Aluno 9 1,75
classes (k) classes (k) Aluno 10 1,75
1 1 1a2 1 Até 50 5 10 Aluno 11 1,75
2 2 3a4 2 51 a 100 8 16 Aluno 12 1,76
3a5 3 5a8 3 101 a 200 10 20 Aluno 13 1,78
6 a 11 4 9 a 16 4 201 a 300 12 24 Aluno 14 1,80
12 a 23 5 17 a 32 5 301 a 500 15 30 Aluno 15 1,82
24 a 46 6 33 a 64 6 Mais de 500 20 40 Aluno 16 1,82
47 a 93 7 65 a 128 7 Aluno 17 1,84
94 a 187 8 129 a 256 8 Aluno 18 1,88
188 a 376 9 257 a 512 9
377 a 756 10 513 a 1024 10
Calcule a amplitude das classes (h)

Calcule a amplitude do conjunto de dados Calcule os Limites das Classes
 L = xmáx–xmín  1a classe: xmín até xmín+ h
Calcule a amplitude (largura) da classe  2a classe: xmín+ h até xmín+ 2 . h
 h=L/k  ........................
 Arredonde convenientemente  ka classe: xmín+ (k-1) . h até xmín+ k . h
Limite das classes

 Utilize a notação:
 [x,y) –intervalo de entre x (fechado) até y (aberto)
 Freqüentemente temos que “arredondar” a amplitude das classes e, conseqüentemente,
arredondar também os limites das classes.
 Como sugestão, podemos tentar, se possível, um ajuste simétrico nos limites das classes das
pontas (i.e., primeira e última) nas quais, usualmente, a quantidade de dados é menor.
Ponto médio das classes

 xk= Linferior+ ( Lsuperior–Linferior) / 2
Determinação da freqüência das classes
 Consiste em agrupar os dados em cada classe e contar os totais.
Traçar o gráfico
2
 Dividir o eixo horizontal em tantas partes quanto for o número de classes. Sugestão: deixe espaço
entre o eixo vertical e a primeira classe;
 Identifique a maior freqüência da classe na tabela e marque esse número (ou outro um pouco
maior) na extremidade do eixo vertical; divida esse eixo em algumas partes e marque os valores
correspondentes;
 Desenhe um retângulo, para cada classe, com largura igual à largura da classe e com altura igual
à freqüência da classe.
Exemplo
Altura Altura
Do presente exemplo, segue-se o seguinte raciocínio: 1,60 1,75
1,69 1,75
 Ordenar os dados (já estão ordenados); 1,72 1,76
 Por Sturges; 1,73 1,78
 n=18; k=5 (número de classes); 1,73 1,80
 Amplitude de classes; 1,74 1,82
1,75 1,82
 Amplitude do conjunto de dados: 1,88-1,60=0,28m;
1,75 1,84
 Amplitude de classes: 0,28/5=0,056; 1,75 1,88
 Arredondando: h=0,06m.
 Construção da tabela de frequências Amplitude=0,06

Limite Inferior Limite Superior
 Calcule os limites de classe;
1,60 1,66
 Arredonde os limites de classe nos extremos; 1,66 1,72
 1,90-1,88=0,02; 1,72 1,78
 Distribua o excesso: 1,60-0,01; 1,88-0,01; 1,78 1,84
1,84 1,90 (sobra 0,02m)
 Ajuste todas as classes.
Freqüências absolutas
 Distribua os eventos ou ocorrência por suas respectivas
classes;
Freqüências acumuladas
 Some as ocorrências de dados cumulativamente às classes;
Observação importante:
 É muito útil representar as frequências em termos
percentuais ao total de amostras.
3
Representação gráfica
Histograma
 Nas abcissas distribua as classes;
 Na ordenada da esquerda, as frequências absolutas;
 Construa um gráfico de barras para as frequências;
 Construa um gráfico de linha para a frequência acumulada (usemos a escala a seguir).
Distribuição de Freqüência:
Histogramas e Polígonos de Freqüência
Uma distribuição de freqüência representada por um gráfico de barras é denominada histograma. Outro
gráfico de interesse é o chamado polígono de freqüência.
O polígono de freqüência é obtido unindo-se os pontos médios da parte superior de cada retângulo do
histograma com segmentos de reta.
É importante notar que tanto o histograma quanto o polígono de freqüência indicam a freqüência absoluta
de cada classe. Digamos que temos histogramas para as alturas dos estudantes de duas turmas
diferentes, traçados de acordo com as regras descritas até agora.
Poderíamos sobrepor os desenhos para fazer uma análise comparativa das turmas? Que cuidados
devemos tomar?
O “problema” com esta regra de construção é que o histograma construído é específico para o conjunto
em análise. Para fazermos análises comparativas de conjuntos de dados diferentes, as classes devem ser
as mesmas!
Devemos, então, utilizar algum conhecimento prévio da área em estudo para definir o intervalo aceitável
de variação dos dados e, a partir daí, definir as classes. Essas “classes genéricas” servirão para o estudo
de quaisquer conjunto de dados e permitirão análises comparativas.
Em um histograma, as classes devem SEMPRE ter a mesma largura?

4
Não necessariamente! Existem casos em que é mais adequado agrupar os dados em classes com
larguras desiguais. O exemplo típico é a classificação de pessoas por faixas etárias (infantil, juvenil, adulto,
sênior, etc). Essas faixas não têm a mesma largura.
Histogramas com Classes de Larguras Desiguais

A representação gráfica dos dados em um histograma com classes de larguras desiguais requer a
transformação dos valores de freqüência absoluta em densidade de freqüência. Isso é fundamental pois
devemos manter a área dos retângulos proporcionais à freqüência da classe.
A densidade de freqüência é dada por:
Isso significa que a altura das barras (i.e., os valores na escala do eixo vertical) NÃO representa a
freqüência da classe, mas sim a densidade de freqüência. Para calcularmos a freqüência da classe
devemos multiplicar a densidade (indicada no eixo vertical) pela largura respectiva.
Outros Gráficos
Classe Frequência Frequência Relativa (%) Frequência Acumulada Frequência Acumulada (%)
1,71-1,77 10 55% 10 55%
1,77-1,83 4 22% 14 77%
1,83-1,89 2 11% 16 88%
1,65-1,71 1 6% 17 94%
1,59-1,65 1 6% 18 100%
5
Veja ainda a seguir uma tabela de dados que apresenta também uma distribuição de frequências que
igualmente serão representadas em certos gráficos.
Classe de altura (m) Frequência Frequência Acumulada
1,55 [... 1,63 2 2
1,63 [... 1,71 12 14
1,71 [... 1,79 22 36
1,79 [... 1,87 13 49
1,87 [... 1,96 2 51
60
50
40
30
Frequencia
20 Freq Acumu lad a
10
0
1,55 [... 1, 63 [... 1,71 [... 1,7 9 [... 1,87 [...
1,63 1 ,71 1,79 1,8 7 1,96
Média Ponderada: Média de uma tabela de freqüência
Quando os dados estão resumidos em uma tabela de freqüências, podemos calcular aproximadamente a
média aritmética ponderando sobre:
 Pontos médios de cada intervalo –supõe-se que todos os elementos das classes ocorrem no
ponto médio das respectivas classes;
 Exemplo: temos 7 ocorrências na faixa entre 1,75 e 1,79. Consideramos que as sete ocorrências
equivalem a (1,79+1,75)/2=1,77 ; que é o ponto médio da classe.
__
x
 ( f .x )
f
Onde:
x—Ponto médio da classe;
f--- Frequência;
f n
Média Ponderada
A média ponderada é considerada “ponderada” quando os valores dos conjuntos tiverem pesos /
freqüências diferentes
6
Numa distribuição utilizando os valores discretos, calcula-se:

Erros por página No de página
0 25
__
x
 ( f .x) __
x 
(x. f ) x 
__
(0.25)(1.20)(2.3)(3.1)(4.1)

2520311
1
2
20
3
 f n
__
3 1 33
4 1  x  50 0,66
Quando tivermos uma distribuição com dados agrupados por classes de valores, calculamos considerando
o valor de cada classe como o ponto médio respectivo da classe.
Altura das Ponto
Frequência (fi) Xi.fi
pessoas
1,59-1,65
médio (xi)
1,62 1 1,62
__
x 
( f .x) __
 x 

(x. f )

1,65-1,71 1,68 1 1,62  f n
1,71-1,77 1,74 10 17,4 __ __
31,62
1,77-1,83 1,80 4 7,2 x  18 x 1,76
1,83-1,89 1,86 2 3,72
Total 18 31,62
Cálculo da Moda para dados Agrupados
Caso 1: dados agrupados por valores discretos →moda é o valor com maior freqüência.
Caso 2: dados agrupados por classes

 Moda Bruta
 Método de King
 Método de Czuber
 Método de Pearson
Moda Bruta
 Tome a classe que apresenta a maior freqüência →classe modal
 A moda seráo ponto médio da classe modal: (liminf+ limsup)/2
Método de king
f post
Mo  liminf  h
fant  f post
Onde
Liminf: limite inferior da classe modal;
fant: freqüência da classe anterior à modal;
fpost: freqüência da classe posterior à modal;
h: amplitude da classe modal.
7
Método de Czuber
f Mo  f ant
M o  lim inf  h
f Mo  ( f ant  f post )
Onde
Liminf: limite inferior da classe modal;
fMo: freqüência da classe modal;
fant: freqüência da classe anterior àmodal;
fpost: freqüência da classe posterior àmodal;
h: amplitude da classe modal.
Método de Pearson
__ ___
M o  3M d  2 X Md--- Mediana; X --- Média
Cálculo da mediana para dados agrupados
Dados agrupados por classes.

 Mediana é o valor localizado a Lx=n/2;
__
h( Lx  Fant )
 Após cálculo de Lx, determina-se o valor da mediana por: X  Liminf 
fi
Onde:
 Lx→Localização (posição) da Mediana;
 Fant→freqüência acumulada até a classe anterior à classe da mediana;
 fi→freqüência absoluta da classe da mediana;
 h→amplitude de classe;
 Liminf→Limite inferior da classe da mediana.
Cálculo dos percentis para dados agrupados por classes
O percentil é o valor localizado a LPx=(K/100)*n

 Onde K é o percentil desejado (ex.: P45→K=45)
h( LPx  Fant )
Após cálculo de LPx, determina-se o valor do percentil por: Px  Liminf 
fi
Onde:
 LPx→Localização (posição) do Percentil;
 Fant→freqüência acumulada até a classe anterior à classe do percentil;
 fi→freqüência absoluta da classe do percentil;
 h →amplitude de classe;
 Liminf→Limite inferior da classe do percentil.
8
Medidas de Posição Dados Agrupados: Mediana / Separatrizes(alternativo)
Para definirmos um procedimento alternativo de cálculo da mediana e quaisquer outras separatrizes,

utilizaremos o exemplo a seguir:
Encontra-se a classe onde está a mediana. Faz-se, então, a proporcionalidade entre a área e a base do
retângulo hachurado e o que define a classe onde está a mediana,
12,00  8,00 M d  8,00
  M d  10,67
33% 22%
Encontra-se a classe onde está Q3. Faz-se, então, a proporcionalidade entre a área e a base do retângulo
hachurado e o que define a classe de Q3,
9
18,00  12,00 Q3  12,00

  Q3  15,82
22% 14%
Medidas de Dispersão (Dados Agrupados)

O desvio-padrão, nesse caso, faz uma ponderação da distância dos pontos médios de cada classe para a
média, e a respectiva freqüência de valores:
k __ 2 2
 k 
 f j(x j  x )  f j(x j  )
S  j 1 (amostra)   j 1 (população)
n 1 N
Desvio padrão de dados agrupados
S 
n  ( f . x )   ( f . x ) 
2 2
n ( n  1)
Desvio padrão para uma tabela de freqüências
x = ponto médio da classe
f = frequência da classe
n = tamanho da amostra (ou Σf= soma das frequências)
Assimetria
Comparando a média, a moda e a mediana, podemos concluir pela assimetria da distribuição:
 Assimetria: não simetria –distribuição tende mais para um lado.
Dados negativamente assimétricos (assimetria para a esquerda)

 Média e mediana à esquerda da moda;
 Em geral, média à esquerda da mediana.
Dados positivamente assimétricos (assimetria para a direita)

 Média e mediana àdireita da moda
 Em geral, média àdireita da mediana
10
Interpretação de Histogramas
Histograma é uma ferramenta estatística que permite resumir informações de um conjunto de dados,
visualizando a forma da distribuição desses dados, a localizaçãodo valor central e a dispersão dos dados
em torno do valor central.
Ou seja, em análises de processos produtivos, freqüentemente obtemos informações úteis sobre a

população/amostra de dados coletados pela análise da forma do histograma.
Simétrico ou em Forma de Seno

 O valor médio está localizado no centro do histograma;
 A freqüência é mais alta no meio e diminui gradualmente
na direção dos extremos;
 Ocorre quando não existem restrições aos valores que a
variável de controle pode assumir;
 Processo: geralmente sob controle, somente causas
comuns estão presentes;
 Processo: usualmente está estável.
Assimétrico
 O valor médio está localizado fora do centro do histograma;
 A freqüência diminui gradativamente em um dos lados e de
modo um tanto abrupto do outro lado;
 Ocorre quando não é possível que a variável de controle
assuma valores mais altos (ou mais baixos);
 Processo em que o limite inferior (superior) é controlado
(apenas um limite de especificação);
 Por exemplo, teoricamente é impossível valores inferiores à
0% para a variável impureza.
Despinhadeiro
 O valor médio está localizado fora do centro do histograma;
 A freqüência diminui abruptamente de um dos lados e
suavemente em direção ao outro;
 Processo: não atende às especificações e uma inspeção
100% é realizada para eliminar produtos defeituosos.
Ilhas Isoladas ou Pico Isolado

 Parte do gráfico é relativamente simétrica com o acréscimo de
algumas classes mais afastadas de menores freqüências;
 Ocorre quando dados de outra distribuição, diferente da
distribuição da maior parte das medidas, são incluídos;
11
 Processo: com anormalidades, ou erro de medição e/ou registro de dados, ou inclusão de dados
de um processo diferente.
Bimodal ou com Dois Picos

 A freqüência é mais baixa no centro do histograma e existe
um “pico”em cada lado;
 Ocorre quando dados de duas distribuições, com médias
muito diferentes, são misturados;
 Os valores da variável de controle devem estar associados a
duas máquinas ou dois turnos distintos, por exemplo
Achatado ou Plotô
 Todas as classes possuem mais ou menos a mesma
freqüência, excepto aquelas das extremidades;
 Ocorre quando dados de duas distribuições, com médias
não muito diferentes, são misturados;
 Os valores da variável de controle devem estar associados a
níveis distintos de algum (ou alguns) dos fatores que
constituem o processo em análise.
Histogramas e Limites de Especificação de Processos

 Atende, com folga, os limites de especificação;
 Média no centro da faixa de especificação;
 Variabilidade aceitável;
 Manter a situação atual.
 Especificação atendida sem nenhuma margem extra;

 Variabilidade um pouco elevada;
 Adotar medidas para reduzir um pouco a variabilidade.
 Não atende os limites de especificação;

 Média deslocada para a esquerda;
 Variabilidade aceitável;
 Adotar medidas para deslocar a média para o centro (valor
nominal).

 Variabilidade elevada;
 Adotar medidas para reduzir a variabilidade.
12

 Média deslocada para a esquerda;
 Variabilidade elevada;
 Adotar medidas para deslocar a média para o centro e
reduzir a variabilidade.
Coeficiente de Assimetria
Coeficiente de Assimetria de Pearson (As)
Permite comparar duas ou mais distribuições diferentes e avaliar qual é mais assimétrica. Quanto maior o
Coeficiente de Assimetria de Pearson, mais assimétrica é a curva.
 Assimétrica moderada: 0,15<|As|<1
 Assimétrica forte: |As|>1
Curtose (C)
Grau de achatamento (ou afilamento) de uma distribuição em relação com a distribuição normal1.
(Q3  Q1 )
C
2.( P90  P10 )
1
A Distribuição Normal, será analisada mais tarde.
13
Unidade V: PROBABILIDADE
Definições e Conceitos
 Definir o conceito de probabilidade e dar exemplos concretos;

 Explicar e acompanhar os exercícios resolvidos ao longo da unidade;
 Interpretar a definição frequencial da probabilidade;
 Interpretar a lei dos grandes números;
 Conhecer e exemplicar o caso em que se dispõem amostras aleatórias.
14
Definições e Conceitos
Definições
Probabilidade
 Medida das incertezas relacionadas a um evento;
 Chances de ocorrência de um evento;
 Aplicação em:
 Avaliação de Desempenho de Sistemas;
 Engenharia de Confiabilidade;
 Teoria dos Jogos, etc.
Exemplos:
 Probabilidade de jogar um dado e cair o número 2;
 Chance de ser assaltado ao sair de casa;
 Probabilidade de ganhar no poker.
Conceito clássico de probabilidade

Se há “n” possibilidades igualmente prováveis, das quais uma deve ocorrer e, destas, “s” são
consideradas como um sucesso, então a probabilidade do resultado ser um sucesso é de s/n.
Observações sobre esta definição

 Supõe-se que todos os eventos tenham a mesma chance de ocorrer (equiprováveis);
 ‘’S’’ eventos de interesse que podem ocorrer;
 ‘’n’’ eventos possíveis que podem ocorrer.
Exemplo (1)
Qual a probabilidade de se extrair um ás de um baralho bem misturado de 52 cartas?
 Bem misturado significa “qualquer carta tem a mesma chance de ser extraída”;
 Como temos 4 ases em 52 cartas, vem: 4/52 = 1/13;
 s- sucesso. Total de eventos de interesse: 4 ases;
 n- total de possíveis retiradas: 52 cartas.
Observações:
 problema clássico de probabilidade, uma vez que todas as cartas tem a mesma chance de
ocorrer.
Exemplo (2)
Qual a probabilidade de obter um 3 ou um 4 em uma jogada de um dado equilibrado?
 Probabilidade = 2/6 = 1/3
Observações:
 problema clássico de probabilidade, uma vez que o dado está “equilibrado”.
 s = resultado de interesse = 2 (3 ou 4)
 n = resultados possíveis = 6 (1,2,3,4,5,6)
15
Exemplo (3)
Se H representa “cara” (head) e T representa “coroa” (tail), os quatro resultados possíveis de duas jogadas
de uma moeda são: HH, HT, TH, TT.
Admitindo resultados igualmente prováveis, qual a probabilidade de obtermos:

 zero caras:
 uma cara:
 duas caras:
Resolução,
 zero caras: s=1; n=4 => s/n=1/4
 uma cara: s=2; n=4 => s/n=2/4=1/2
 duas caras: s=1; n=4 => s/n=1/4
Exemplo (4)
Qual a probabilidade de obtermos 7, jogando duas vezes um dado?
Resolução,
s: resultados de interesse = 6 (6-1, 1-6, 2-5, 5-2, 3-4, 4-3)
n: resultados possíveis = 36 Probabilidade: s/n= 6/36= 1/6
1-1 1-2 1-3 1-4 1-5 1-6

2-1 2-2 2-3 2-4 2-5 2-6
3-1 3-2 3-3 3-4 3-5 3-6
4-1 4-2 4-3 4-4 4-5 4-6
5-1 5-2 5-3 5-4 5-5 5-6
6-1 6-2 6-3 6-4 6-5 6-6
Exemplo (5)
Numa gaveta, há dez pares distintos de meias. Em um dos pares, ambos os pés estão furados. Se tiramos
um pé de meia por vez, ao acaso, qual a probabilidade de tirarmos dois pés de meia, do mesmo par, NÃO
furados, em duas retiradas ?
Resolução,
 Evento de interesse, R: "retirar 2 pés de meias, do mesmo par, não furados, em duas retiradas“.
 Características do problema: Ambos os pés de um mesmo par furados. Existem 18 pés bons e 2
pés furados.
16
 Número de resultados possíveis: N = Maneiras de tirarmos 2 pés de meia em duas retiradas = 20

pés da primeira vez x 19 pés da segunda vez (um jáfoi retirado) = 380.
 Número de resultados favoráveis: n(R) = O primeiro pé não furado pode ser escolhido de 18
maneiras. Na segunda retirada, só há um pé de meia que combina com o já retirado. Então, n(R)
= 18 x 1 = 18.
 Cálculo da probabilidade do evento de interesse:
P(R) = n(R) / N = 18 / 380 = 0,0474 = 4,74%
Limitação do conceito clássico

 A aplicabilidade é limitada;
 Não há tantas situações em que várias possibilidades, ou eventos, podem ser considerados como
igualmente prováveis;
 Exemplo: Probabilidade de chover amanhã.
 Eventos possíveis: n = 2
 Eventos de interesse: s = 1
 Probabilidade = ½???? NÃO SE PODE AFIRMAR
 Os eventos não possuem a mesma chance de ocorrer.
 Outros Exemplos:
 Dado viciado no número 6: a probabilidade de jogar este dado e cair o número 6 será
evidentemente maior que 1/6.
 Moeda com peso maior do lado de cara: a probabilidade de cair “cara”será evidentemente
maior que ½.
 Em ambos os casos, não podemos simplesmente calcular a probabilidade pela relação
s/n.
 Nestes casos e em diversos outros, a interpretação frequencial deve ser utilizada para
determinar a possibilidade de ocorrência de um evento –a PROBABILIDADE.
Definições
Definição Freqüencial de Probabilidade:
A freqüência relativa de ocorrência de eventos em experiências grandes determina a probabilidade de

ocorrência futura deste mesmo evento.
17
Exemplo (6)
Há uma probabilidade de 0,78 de um jato da linha Maputo-Tete chegar no horário, em vista do fato de que
tais vôos chegam no horário em 78% das vezes.
Exemplo (7)
Se o serviço meteorológico indica que há 40% de chance de chover, é porque, sob as condições de tempo
previstas para o referido dia, há uma freqüência de chuva em 40% das vezes.
Em ambos os casos, não podemos garantir matematicamente as ocorrências; contudo, podemos

concluir com base em dados (experiências) passados.
Exemplo (8)
Os registos de aviação da companhia AlQaedaAir mostram que, durante um certo tempo, 468 dentre 600
de seus jatos da linha Bagdá-Nova Iorque chegaram no horário. Qual é a probabilidade de que um avião
daquela linha chegue no horário?
Resolução: 468/600 = Probabilidade de 0,78.
Exemplo (9)
Os registos indicam que 504 dentre 813 lavadoras automáticas de pratos vendidas por grandes lojas de
varejo exigiram reparos dentro da garantia de um ano. Qual a probabilidade de que uma dessas lavadoras
não venham a exigir reparo dentro da garantia?
Resolução: 813-504 = 309; 309/813 = Probabilidade de 0,38.
Comentários
Observa-se que a conclusão de probabilidade de eventos futuros está toda baseada em experimentos
passados. Portanto, cabe a pergunta:
 Que garantia temos sobre a estimativa feita?
 Mais adiante no curso será apresentado um método que estima a precisão do resultado.
 Por enquanto nos bastamos com a LEI DOS GRANDES NÚMEROS
Lei dos grandes números
Quando maior for a repetição do experimento, maior a aproximação da probabilidade efetiva de

acontecimento de um determinado evento através da freqüência relativa.
Comentários
Quando usar uma ou outra regra?

 A definição clássica exige que os resultados tenham todos a mesma chance de ocorrer.
18
 Alguns experimentos, mesmo que tenham os resultados todos com a mesma chance de ocorrer,
são muito complexos de serem resolvidos através da abordagem clássica. Utiliza-se então a regra
da aproximação de freqüências relativas. Ex.: Probabilidade de ganhar no jogo de paciência
 No caso acima há métodos de simulação para gerar experimentos a partir de poucos resultados.
Amostras aleatórias
 Para gerar experimentos, os eventos devem ser escolhidos de tal maneira que toda possível
amostra de “n” elementos da população tenha a mesma chance de ser escolhida, sendo um
conjunto de dados representativo, imparcial e não tendencioso.
19
Unidade VI: PROBABILIDADE
Contagem
 Identificar e explicar com exemplos concretos, o problema de contagem no estudo de probabilidade;

 Interpretar a regra geral de multiplicação e factorial no contexto da contagem, no estudo da
probabilidade;
 Exemplificar e explicar as condições da aplicação de Arranjos ou permutações e combinações;
 Acompanhar e resolver os exercícios ja resolvidos ao longo da unidade;
 Resolver os exercícios propostos no fim da unidade.
Contagem
Problema da Contagem no Estudo da Probabilidade
Conforme a definição clássica, podemos determinar uma probabilidade calculando a relação entre o total
de eventos de sucesso e o total de eventos possíveis. Entretanto, observe:
 Encontrar quantos conjuntos de Grupo Sanguíneo e Rh existem, OU quantos caminhos diferentes
podemos fazer entre 3 cidades é FÁCIL...
 Mas, o que dizer do número de caminhos possíveis entre 7 cidades?
Em muitos casos, PRECISA-SE DE UM MEIO PRÁTICO DE CALCULAR TANTO O NÚMERO TOTAL DE

POSSIBILIDADES, QUANTO DE SUCESSOS.
Multiplicação
Dados dois eventos, o primeiro dos quais pode ocorrer de m maneiras distintas e o segundo pode ocorrer
de n maneiras distintas:
 Então, os dois eventos conjuntamente podem ocorrer de (mxn) maneiras distintas.
Uma maneira de visualizar esta regra é utilizar diagramas em árvores para representar as seqüências de
opções.
Exemplo (1)
20
Uma pessoa pode ir da Barra até ao Aeroclube por dois caminhos: orla ou Iguatemi. Do aeroclube, ela
pode ir à Av. Vasco da Gama por 3 caminhos: orla, Bonocôou Av. ACM. Quantas alternativas tem esta
pessoa de sair da Barra, ir ao aeroclube e então seguir para a Vasco da Gama?
Resolução
 1o trecho: 2 maneiras
 2o trecho: 3 maneiras
 Total: 2 x 3 = 6 maneiras
Vamos resolver a questão utilizando

o Diagrama de Árvore (ao lado).
Exemplo (2)
Se uma agência de viagens oferece pacotes especiais de fim de semana para 12 cidades diferentes, por
avião, Comboio ou Machimbombo, de quantas maneiras diferentes pode-se programar uma viagem?
Resolução
 12 cidades
 03 maneiras de viagem diferentes
 Programações: 12 x 03 = 36 programações diferentes
Exemplo (3)
Se uma sorveteria oferece mini-sundaes com escolha de 20 sabores diferentes, associados a oito
coberturas diferentes, de quantas maneiras um cliente pode pedir um mini-sundae?
Resolução
 20 sabores
 08 coberturas
 Tipos de mini-sundaes: 20 x 8 = 160 tipos
Multiplicação- Regra Geral
Se uma escolha consiste de k Passos, o primeiro dos quais pode ser realizado de n1 maneiras, o
segundo de n2 maneiras,..., ou seja, para cada um destes, o n-ézimo passo pode ser realizado
de nk maneiras, então a escolha global pode ser feita de:
n1* n2*...* nk maneiras
Exemplo (4)
21
Um teste consiste de 15 questões do tipo múltipla escolha, cada uma apresentando quatro respostas
possíveis. De quantas maneiras possíveis pode um estudante marcar as respostas do teste?
Resolução
 n1= n2 = n3= n4=....= n15= 4
 415= 1.073.741.824
Exemplo (5)
Com base no exemplo 4, quantas alternativas existem para alguém errar todas as questões?
Resolução
 Em cada questão há três alternativas de erro. Assim:
 315= 14.348.907 alternativas com todas as respostas erradas
Regra do Factorial
Um vendedor de computadores deseja visitar 3 cidades distintas (A, B, C). Quantos caminhos são
possíveis?
Há 3 escolhas para a primeira cidade. Após, há 2 escolhas para a segunda cidade. Então, há somente 1
escolha para a terceira cidade: 3 * 2 * 1 = 6
Uma coleção de n objetos diferentes pode ser ordenada de n! maneiras distintas.

 o primeiro objecto pode ser escolhido de n maneiras diferentes, o segundo de (n-1) maneiras
distintas, e assim por diante.
 O símbolo fatorial ! denota o produto dos números em ordem decrescente. Ex.: (4! = 4 x3 x2 x1 = 24)
 Neste caso, a ORDEM de todos os elementos IMPORTA.
Exemplo (6)
Ao planear pesquisas, os entrevistadores procuram minimizar o efeito causado pela ordem em que as
questões são apresentadas. Isso porque algumas questões influenciam as respostas das questões
seguintes.
Se o Gallup planea fazer uma pesquisa junto a consumidores e formula 5 questões aos entrevistados,
quantas versões distintas da pesquisa são necessárias de modo a incluir todas as ordenações?
Resolução: 5 x 4 x 3 x 2 x 1 = 120 = 5 !
Exemplo (7)
Desejamos organizar quatro pessoas em uma fila. De quantas alternativas poderão ser feitas as filas?
Resolução
22
4 ! = 4 x 3 x 2 x 1 = 24 filas diferentes
ABCD BACD CABD DABC
ABDC BADC CADB DACB
ACBD BCAD CBAD DBAC
ACDB BCDA CBDA DBCA
ADBC BDAC CDAB DCAB
ADCB BDCA CDBA DCBA
Problema do caixeiro viajante

Uma rede local de computadores tem 50 nós de rede. De quantas maneiras podem estes nós serem
interconectados? Resolução: 50! = 3*1064
Arranjos ou Permutações
 E quando apenas a ordem de uma parte dos elementos importa?
 Ex.: Quantos caminhos diferentes há entre 4 cidades dentre 50 cidades diferentes?
 O número de permutações de r objetos extraídos de um conjunto de n objetos distintos é:
n!
Prn 
(n - r)!
Exemplo (8)
Duas pessoas serão escolhidas, dentre quatro, para ocuparem dois cargos em uma certa empresa:
presidente e director. Quantas nomeações poderão ser feitas ?
Resolução:
AB BA CA DA
AC BC CB DB
AD BD CD DC
Para o primeiro cargo: 4
Para o segundo cargo: 3
Logo, 4x 3= 12 nomeações ou
Prn = 4!/(4-2)! = 4 x 3=12
Comentários
Note que poderíamos ter selecionado as nomeações escolhendo os dois primeiros lugares das filas: o
primeiro para presidente e o segundo para director.
ABCD BACD CABD DABC

ABDC BADC CADB DACB
----------------------------------------------------------------------------------------------------------------------------------------------
ACBD BCAD CBAD DBAC
23
ACDB BCDA CBDA DBCA

----------------------------------------------------------------------------------------------------------------------------------------------
ADBC BDAC CDAB DCAB
ADCB BDCA CDBA DCBA
As filas de mesma célula produzem nomeações iguais!!!
Combinações
E quando a ORDEM não interessa?
O número de combinações de r elementos extraídos de um conjunto de n objetos diferentes é:
n n!
Crn    
 r  r!(n - r)!
Exemplo (9)
Digamos, agora, que duas pessoas serão escolhidas, dentre quatro, para ocuparem dois cargos em um
certo conselho ou em certa comissão de trabalho. Quantas nomeações poderão ser feitas ?
Resolução:
AB BA CA DA
AC BC CB DB
AD BD CD DC
Como a ordem de escolha NÃO IMPORTA.
Logo, 3 x 2 x 1 = 6 comissões
4!
Ou C rn  =6
2!(4 - 2)!
Comentários
Em comissões, as posições ocupadas NÃO são ordenadas. Ou seja, combinações de elementos (AB ou
BA) não são diferenciadas.
Exemplo (10)
Qual a probabilidade de se ganhar o primeiro prêmio da Mega-Sena?
Devem ser extraídos 6 números diferentes, em qualquer ordem, de um total de 60 possibilidades.
60! 1
Crn  C660  50.063.860; ; ; P( ganhar) 
6!(60 - 6)! 50.063.860
24
Desafio
1. Qual a probabilidade de se ganhar o primeiro prêmio da Mega-Sena, jogando um cartão com 7

dezenas? Destas 7 dezenas, somente 6 são válidas.
Exercícios Propostos
Nos exercícios que se seguem, é necessário primeiro definir correctamente os eventos e, em segundo
aplicar a noção de contagem e finalmente usar a definição da probabilidade. Em caso de dificuldade
melhor ler as unidades adiantadas.
1. Em um congresso científico existem 15 Matemáticos e 12 estatísticos. Qual a probabilidade

de se formar uma comissão com 5 membros, na qual figurem 3 Matemáticos e 2 estatísticos?
 15   12 
Resp.   
P ( A )   3 27 2 
 
 
 5 
2. Qual a probabilidade de, num baralho de 52 cartas, ao se retirarem 4 cartas, ao acaso, sem
reposição, se obter uma quadra?
Resp. 13
P ( A) 
 52 
 
 4 
3. Calcular a probabilidade de se obter exactamente 3 caras e 2 coroas em 5 lances de uma
moeda.
Resp. P( A)  10 5
32  16
4. Uma urna contém as letras A, A, A, R, R, S. Retira-se letra por letra e, qual a probabilidade de
sair a palavra ARARAS?
Resp. Seja: A-saida da palavra ARARAS
25
n  ( PR )63, 2,1  3!62!!1!  60 ; k  1 ; Então tem-se que, P( A)  601

Em geral, neste problema aplicou-se o seguinte conhecimento:
n!
( PR) nn1 ,n2 ,...,nn  Com n1 + n2 +... + nn=n
n1!, n2!,..., nn !
Unidade VII: PROBABILIDADE
Definições, Notações, Regra da Adição
 Conhecer as definições básicas de probabilidade;

 Acompanhar e explicar os exemplos propostos na unidade;
 Interpretar o diagrama de venn, as propriedades das operaçoes e as propriedades de
probabilidade;
 Explicar a regra de adição, eventos mutuamente exclusivos e eventos equiprováveis;
 Acompanhar e explicar os exercícios resolvidos e resolver os exercícios propostos no fim da
unidade.
26
Definições, Notações, Regra da Adição
Definições básicas de probabilidade
Experiência
 Qualquer processo de observação ou medida que permita ao pesquisador fazer coleta de
informações;
Evento
 Coleção de resultados de um experimento;
Evento simples
 Resultado, ou um evento, que não comporta qualquer decomposição;
Espaço amostral (n)

 Conjunto de todos os resultados possíveis;
Exemplo de Experiências
 arremesso de um dado; teste de funcionamento de uma lâmpada; aplicação de uma prova.
Um evento é uma coleção de resultados de uma experiência

 teste de funcionamento de uma lâmpada: Evento- lâmpada funcionando
 lançamento de um dado: Evento- face igual a 3
 aplicação de uma prova: Evento- nota 8,4
27
O espaço amostral de uma experiência consiste em todos os resultados (eventos simples) possíveis
 teste de funcionamento de uma lâmpada: lâmpada funcionando / lâmpada queimada;
 lançamento de um dado: 1 / 2 / 3 / 4 / 5 / 6;
 aplicação de uma prova: 0,0 / 0,1 / ... / 5,5 / 5,3 / ... / 9,9 / 10,0
Exemplos
Exemplo (1)
Experiência: extrair uma carta
Evento: resultado de uma determinada carta (4 de copas)
Evento simples: o evento acima já é simples –não pode ser decomposto
Espaço amostral: os 52 tipos de cartas que proporcionam 52 tipos de eventos possíveis.
Exemplo (2)
Experiência: jogada de um dado equilibrado
Evento: resultado de uma determinada jogada (Ex.: 3)
Evento simples: o evento acima jáésimples –não pode ser decomposto
Espaço amostral: os 6 números possíveis de um dado.
Exemplo (3)
Experiência: jogada de uma moeda
Evento: resultado de uma determinada jogada (Ex.: cara)
Evento simples: o evento acima já é simples –não pode ser decomposto
Espaço amostral: os 2 resultados possíveis de uma moeda (cara ou coroa).
Exemplo (4)
Experiência: jogada de um mesmo dado, duas vezes
Evento: resultado da soma de duas jogadas de um mesmo dado (Ex.: 7)
Evento simples: resultado de uma das jogadas do dado (Ex.: 3 e 4)
Espaço amostral: a combinação dos eventos simples -os 36 resultados possíveis.
Diagrama de Venn
As relações entre espaços amostrais e eventos costumam ser ilustradas por Diagramas de Venn.
Notação
28
P: denota probabilidade
A, B, C: denotam eventos específicos
P(A): denota a probabilidade de ocorrência do evento A
 A = “evento” lâmpada funcionando
 P(A) = 0,999 →probabilidade da lâmpada estar funcionando.
Propriedades das operações

1. Idempotentes: A  A  A; A  A  A
2. Comutativas: A  B  B  A; A  B  B  A
3. Associativas: A  ( B  C )  ( A  B )  C ; A  ( B  C )  ( A  B )  C
4. Distribuitivas: A  ( B  C )  ( A  B )  ( A  C ); A  ( B  C )  ( A  B )  ( A  C )
5. Absorções: A  ( A  B )  A; A  ( A  B)  A
6. Identidades: A    A; A    ; A     ; A    A
__
__ __ __ __ __
7. Complementares:    ;   ; A  A   ; A  A ; ( A)  A
________ __ __ ________ __ __
8. Leis das dualidades ou Leis de Morgan: A  B  A B; A  B  A B
Propriedades da probabilidade
Probabilidade de um evento impossível = 0

 Ex.: Probabilidade de dar 7, 8 ou 9 em uma jogada de um dado.
 P(A) = s/n = 0/6 = 0
A probabilidade de um evento cuja ocorrência é certa é igual a 1.

 Ex.: Probabilidade de dar 1, 2, 3, 4, 5 ou 6 em uma jogada de um dado.
 P(A) = s/n = 6/6 =1
A probabilidade de qualquer evento A é um número entre 0 e 1

 0 ≤P(A) ≤1
•P(A) = 0 →evento impossível
•P(A) = 1 →evento certo
Evento Complementar
___
O complemento do evento A ( A ou A´) consiste em todos os
resultados possíveis que não satisfazem A.
29
 P(A' ) = 1 -P(A)
Onde A' = complemento de A
 Ex.: Probabilidade de dar 2 ou 3 numa jogada de um dado;
 Evento de Interesse: A = 2; 3
 Espaço amostral: n = 1; 2; 3; 4; 5; 6
 P(n) = 1
 P(A´) = P(n) –P(A)
 P(A´) = 1 –P(A) = 0,67
Exemplo 1
 Num grupo de 50 pessoas, 30 são mulheres e 20 são homens:
Exemplo 2
 P(chuva) = 0,4; determine P(não chuva)
 P(não chuva) = 1-P(chuva) = 0,6
Regra da Adição
Um evento composto é qualquer evento que combina dois ou mais eventos simples. A palavra-chave aqui
é a conjunção OU
 É o OU inclusive, que significa um, ou outro, ou ambos!
 Ex.: sair face ímpar no arremesso de um dado, P (1 ou 3 ou 5) = P(1) + P(3) + P(5)
 sair face ímpar OU superior a 5 no arremesso de um dado
--P ( [1 ou 3 ou 5] ou [6] ) = P(1) + P(3) + P(5) + P(6)
P (A ou B) = P (ocorrência de A, ou de B, ou de ambos)
Qual é a probabilidade de se escolher um estudante desta turma que tenha cabelos claros OU olhos
claros?
 P (cabelos claros OU olhos claros ) = ???
 Que tipo de cuidado devemos tomar ao aplicarmos a definição clássica para fazer este cálculo?
P (cabelos claros OU olhos claros)= ?
INTUITIVA
 Somamos o número de ocorrências possíveis de A e o número de ocorrências possíveis de B, de
tal modo que cada resultado seja contado apenas uma vez.
 P(A ou B) é igual a esta soma, dividida pelo número total de resultados possíveis
FORMAL
 P (A ou B) = P (A) + P (B) -P (A e B) Ou, recordando a notação de conjuntos:
 P (A ∪B) = P (A) + P (B) - P (A ∩B)
Ao determinar a probabilidade de ocorrência do evento A ou do evento B, devemos:

 Achar o total de maneiras como A pode ocorrer
30
 achar o total de maneiras de como B pode ocorrer

 Não contar os resultados repetidos (que ocorrem mais de uma vez)
A adição das áreas dos dois círculos acarreta uma contagem dupla dos elementos comuns (área do meio
–interseção).
Exemplos
Se escolhermos aleatoriamente um dos dez algarismos (0,1,2,3,4,5,6,7,8,9), qual a probabilidade de
escolhermos 0 ou 1?
 P(0 ou 1) = 2/10 = 0,2
Considerando o mesmo conjunto de números, qual a probabilidade de obtermos um número ímpar ou um

número superior a 6?
 Dos 10 resultados possíveis, 5 são ímpares (1,3,5,7,9) e 3 são superiores a 6 (7,8,9)
 deve-se tomar cuidado para não contar um resultado duas vezes
 P(impar ou superior a 6) = (1,3,5,7,8,9) = 6/10 = 0,6
Eventos Mutuamente Exclusivos
Os eventos A e B são ditos mutuamente exclusivos se não podem ocorrer simultaneamente. Se A e B

são mutuamente exclusivos:
 P (A ∪B)= P(A) + P(B)

 Ou seja: P(A ∩ B) = 0
Observação importante:
 Erros cometidos na aplicação da regra da adição freqüentemente envolvem contagem dupla, isto
é, eventos que não são mutuamente exclusivos são tratados como se fossem.
 Uma evidência deste erro éuma probabilidade resultante superior a 1.
31
Eventos Equiprováveis
Os eventos são ditos equiprováveis quando todos eles tem a mesma probabilidade de ocorrer.
n
1
i 1
p 1  np  1  p 
n
Logo, se os n pontos amostrais (eventos) são equiprováveis, a probabilidade de cada um dos pontos
1
amostrais é .
n
k
Considere que o evento A   e suponhamos que A tenha k pontos amostrais, neste caso P ( A)  .
n
Exemplo:
Retira-se uma carta de um baralho completo de 52 cartas. Qual a probabilidade de sair um rei ou uma
carta de espadas?
Solução
Seja: A- saida de um rei, ( A  Ro , Re , Rc , R p   P ( A)  4
52 );
B-saida de uma carta de espadas, ( B  Ae ,2e ,..., Re   P( B)  13
52 ).
Observamos que, P( A  B)  521 , Logo P( A  B)  P( A)  P( B)  P( A  B)  524  13 1 16

52  52  52
Exercícios
1. Lançam-se três moedas. Enumerar o espaço amostral e os eventos:
a) Faces iguais;
b) Cara na 1ª moeda;
c) Coroa na 2ª e 3ª moedas
2. Considere a experiência que consiste em pesquisar famílias com três crianças, em relação ao
sexo das mesmas, segundo a ordem de nascimento. Enumerar os eventos:
a) Ocorrência de dois filhos do sexo masculino;
b) Ocorrência de pelo menos um filho do sexo masculino;
c) Ocorrência de no máximo duas crianças do sexo feminino.
3. Sejam A, B, e C três eventos de um espaço amostral. Exprimir os eventos abaixo, usando as

operações reunião, intersecção e complementação:
a) Somente A ocorre;
b) A e C ocorrem, mas B não;
c) A, B e C ocorrem;
d) Pelo menos um ocorre;
e) Exactamente um ocorre;
f) Nenhum ocorre;
g) Exactamente dois ocorrem;
h) Pelo menos dois ocorrem;
i) No máximo dois ocorrem.
32
4. Lançam-se duas moedas. Seja A-saida de faces iguais e, B- saida de cara na primeira moeda.
__ __ ________ ________ __ __ __ __ __ __
Determine os eventos: A  B ; A  B ; A; B ; A  B ; A  B ; A  B ; A  B ; B  A ; A  B ; A  B ; B  A
__ __ __ __ __ __
5. Sendo P(A)=x; P(B)=y; P(A∩B)=z. Calcular: P ( A  B ); P ( A  B ); P ( A  B ); P ( A  B )
6. Demonstre que: P( A B C)  P( A)  P(B)  P(C)  P( A B)  P( AC)  P(B C)  P( A B C)
7. Seja A, B e C eventos tais que P( A)  P( B)  P(C )  15 ; A  B   ; A  C   ; P( B  C)  17

Calcule a probabilidade de que pelos um dos eventos ocorra. (Resp: P( A  B  C)  16
35 )
8. O seguinte grupo de pessoas está numa sala: 5 rapazes com mais de 21 anos, 4 rapazes com
menos de 21 anos, 6 raparigas com mais de 21anos, 3 raparigas com menos de 21 anos. Uma
das pessoas é escolhida ao acaso, dos 18 existentes na sala. Os seguintes eventos são definidos:
A. A pessoa tem mais de 21 anos;
B. A pessoa tem menos de 21 anos;
C. A pessoa é um rapaz;
__ __
D. A pessoa é uma rapariga. Calcular: P( A  D); P( A C ).
Solução
1.   (ccc), (ccr ), (crc), ( crr ), ( rcc ), ( rcr ), ( rrc ), ( rrr )
a) A  ( ccc), ( rrr )
b) B  ( ccc), ( ccr ), ( crc), (crr )
c) C  (crr ), ( rrr )
2.   ( hhh ), ( hhm ), ( hmh ), ( hmm ), ( mhh ), ( mhm ), ( mmh ), ( mmm )
a) A  ( hhm), (hmh ), ( mhh )
b) B    (mmm )
c) C    (mmm )
3. Resp
___ ___
a) A  B  C
___
b) AC  B
c) A B C
d) A B C
__ __ __ __ __ __
e) ( A  B C )  ( A B  C )  ( A B C
Continue a oferecer as respostas até i).
4. Continue sozinho ou em grupo.
5. Resp.
__ __ ________
a) P ( A  B )  P ( A  B )  1  P ( A  B )  1  z
33
__ __ ________
b) P( A B)  P( A  B)  1  P( A  B)  1  P( A)  P( B)  P( A  B)  1  x  y  z
__
c) P( A B)  P( B  A)  P( B)  P( A  B)  y  z
__ __ __
d) P( A B)  P( A)  P( B)  P( A B )  (1  x )  y  ( y  z )  1  x  z
6. Resolva sozinho ou em grupo.
7. Resolva sozinho ou em grupo.
8. Resp.
  5 R,4 r ,6 M ,3m ; p  181 (Evento equiprovável)
11 7 9 9
A  5 R ,6 M  P ( A )  18 ; B  4 r ,3m  P ( B )  18 ; C  5 R ,4 r  P (C )  18 ; D  6 M ,3 m  P ( D )  18
a) P( B  D)  P( B)  P( D)  P( B  D)  13
18
___ __ _______
b) P ( A  C )  P ( A  C )  1  P ( A  C )  1  P ( A)  P (C )  P ( A  C )   1
6
1. Uma urna contém 5 bolas brancas, 4 vermelhas e 3 azuis. Extraem-se simultaneamente 3 bolas.
Achar a probabilidade de que:
a) Nenhuma seja vermelha (14/55);
b) Exactamente uma seja vermelha (28/55);
c) Todas sejam da mesma cor (3/44).
2
2. As probabilidades de 3 jogadores A, B, C marcarem golo quando cobram um penalty são 3 , 45 e
7
10 respectivamente. Se cada um cobrar uma única vez, qual a probabilidade de que pelo menos
um marque um golo (49/50).
3. Em uma indústria há 10 pessoas que ganham mais de 20 salários mínimos (s.m), 20 que ganham
entre 10 e 20 s.m e 70 que ganham menos de 10 s.m. Três pessoas desta indústria são
selecionadas. Determine a probabilidade de que pelo menos uma ganhe menos de 10 s.m..
(0,973).
4. A e B jogam 120 partidas de xadrez, das quais A ganha 60, B ganha 40 e 20 terminam
empatadas. A e B concordam em jogar 3 partidas. Determinar a probabilidade de:
a) A ganhar todas as três (1/8);
b) Duas partidas terminarem empatadas (5/72);
c) A e B ganharem alternadamente (5/36).
34
5. São retiradas uma a uma, aleatoriamente, bolas de uma urna até obter-se a primeira bola branca.
Mas a cada tentativa dobra-se a quantidade de bolas azuis colocadas na urna. Sabendo que
inicialmente a urna contém 4 bolas azuis e 6 brancas, calcular a probabilidade de obter-se a
primeira bola branca no máximo na 3ª tentativa (0,8338).
6. Um lote de 120 peças é entregue ao controle de qualidade de uma firma. O responsável pelo
sector seleciona 5 peças. O lote será aceite se forem observadas 0 ou 1 defeituosas. Há 20
defeituosas no lote.
a) Qual a probabilidade de o lote ser aceite (0,8038)?
b) Admita que o lote seja aceite, qual a probabilidade de ter sido observado só um defeito (0,5).
35
Unidade VIII: PROBABILIDADE
Multiplicação e Teorema de Bayes
 Entender e explicar a regra de multiplicação;

 Interpretar os eventos independentes;
 Compreender e explicar a probabilidade condicional;
 Interpretar o teorema de Bayes;
 Resolver exercícios propostos no final da unidade.
Regra da Multiplicação
Num teste, são aplicadas 2 questões de múltipla escolha. Na primeira questão, as respostas possíveis são
V ou F. Na segunda, a, b, c, d ou e. Se um aluno decidir “chutar” a resposta, quantas alternativas terá?
 1o passo: 2 alternativas => m
 2o passo: 5 alternativas => n
 Alternativas possíveis: m xn= 2 x 5 = 10 alternativas de respostas diferentes.
Considerando a probabilidade de acertar ambas questões:

 Somente uma alternativa, dentre as 10 possibilidades de respostas diferentes para a prova,
equivale a acertar 100% da prova.
 P(acerto) = 1/10 = 0,1
Considerando as respostas individualmente:

 P(acerto na 1o questão) = ½
 P(acerto na 2o questão) = 1/5
 Como ½x 1/5 = 1/10...
 Verificamos que:
 P(acerto 1º e acerto 2º) = P (acerto 1º) x P(acerto 2º).
Contudo, nem sempre as relações entre as experiências A e B acontecem de forma independente.
O interesse agora é estimar a probabilidade de dois eventos ocorrerem em passos distintos.

A palavra-chave aqui é a conjunção “E”
 P (A e B) = P (ocorrência de A e de B)
36
Exemplo: sair duas faces ímpares no arremesso de dois dados (J e K)
P (J ímpar e K ímpar) = P (J ímpar) x P (K ímpar)
Um fabricante produz um lote de 50 peças, das quais 6 são defeituosas. Se escolhermos duas peças
aleatoriamente, qual a probabilidade de ambas serem boas?
P (1°peça boa E 2°peça boa)= ???

P(1o peça boa) = 44/50 = 0,88
P(2o peça boa) = 43/49 = 0,8775
Regra da Multiplicação: 2 passos →0,88*0,8775 = 0,7722
Um fabricante produz um lote de 50 transistores, dos quais 6 são defeituosos. Se realizarmos duas
retiradas de peças aleatoriamente e em seqüência, com reposição–considerar que o transistor da
primeira retirada é reposto ao lote antes da segunda retirada –qual a probabilidade de ambas serem boas?
P(1o transistor bom) = 44/50 = 0,88
P(2o transistor bom) = 44/50 = 0,88
Regra Multiplicação: 2 passos →0,88*0,88 = 0,7744
Conclusões
Que tipo de cuidado devemos tomar ao aplicarmos esta regra para fazer o cálculo?
 Identificar se o experimento seguinte “B” é DEPENDENTE da ocorrência do evento “A”.
Pela Notação:
 se P (B | A) ≠P(B)
 Lê-se: P (B | A) →Probabilidade de B tal que A tenha ocorrido (ou dado que A tenha ocorrido)
Portanto, a Regra da Multiplicação é:
 P (A e B) = P (A) x P (B | A)
Exemplo (3)
Retirando duas cartas de um baralho (52 cartas), determine a probabilidade de que na primeira carta seja
um Ás e a segunda um Rei, considerando:
 Com reposição;
 Sem reposição.
Com reposição Sem reposição

P(ás) = 4/52 P(ás) = 4/52
P(Rei) = 4/52 P(Rei) = 4/51
4/52*4/52 = 0,0059 4/52*4/51 = 0,0060
Eventos Independentes
37
Nos exemplos anteriores, ilustra-se o princípio de que a probabilidade do evento B é DEPENDENTE do

fato do evento A já ter ocorrido. Com base nesta relação, podemos diferenciar EVENTOS DEPENDENTES
e INDEPENDENTES.
Dois eventos A e B são independentes se a ocorrência de um deles NÃO afeta a probabilidade de

ocorrência do outro.
REGRA INTUITIVA
Multiplicamos a probabilidade de ocorrência de A pela probabilidade de ocorrência de B, que deve ser
calculada considerando a ocorrência prévia de A.
REGRA FORMAL
P (A∩B) = P(A) x P(B) →Somente se A e B são independentes
P (A∩B) = P(A) x P(B/A) →Regra da Multiplicação
Comentários
As mesmas regras podem ser aplicadas em mais de dois eventos (3 ou mais)
 Probabilidade de obtermos 3 ases em 3 extrações de cartas de baralho, sem reposição
 P(3 ases) = 4/52 x 3/51 x 2/50 = 0,000181
Em casos onde são extraídas amostras de grandes populações, os resultados de eventos dependentes e
independentes se aproximam e assim podem ser considerados independentes.
 Ex.: pesquisa eleitoral
Probabilidade Condicional
A probabilidade condicional de B dado A é a probabilidade de ocorrência do evento B, sabendo

que o evento A já ocorreu.
Em eventos dependentes: P(A∩B) = P(A) * P(B/A)
 P(B/A)→probabilidade de ocorrer B condicionado à ocorrência anterior de A. Assim, a
probabilidade de P(B/A) pode ser definida como:
P(A  B) P(B  A)
P ( A/B)  , se P ( B )  0 ; P ( B/A)  , se P ( A)  0
P( B) P ( A)
Na realidade, através da probabilidade condicional, delimitamos o espaço amostral de ocorrência de um
evento que depende de outro.
Exemplo: qual a probabilidade de, na jogada de um dado, sair um número par, dado que o resultado é
maior que 2?
38
P(A) = resultado par = 3/6 = ½ P(B) = resultado maior que dois = 2/3
P(A/B)=P(A∩B)/P(B) = (1/2)*(2/3)/(2/3)=1/2
Exemplo
Qual a probabilidade de um hotel apresentar uma taxa de ocupação num determinado mês entre 40 e
50%?
 Esta pergunta abre respostas diversas, já
que não delimitamos o tipo de hotel –luxo,
médio, pousada, rural, praia,...
Contudo, se perguntássemos: Qual a probabilidade

de um hotel padrão luxo apresentar uma taxa de
ocupação num determinado mês entre 40 e 50%?
 O espaço amostral está delimitado à análise de hotéis de luxo.

B→Frequência de Hotéis com taxa de ocupação entre 40 a 50%
Teste de Independência
Se P(B/A) = P(B)
 Ocorrência do evento A não influi na probabilidade do evento B
Se P(B/A) ≠P(B)
 Então A e B são eventos dependentes
Ou seja:
 P(A∩B) = P(A) . P(B) →independentes
 P(A∩B) ≠P(A) . P(B) →dependentes
Para verificar se 3 eventos A, B, C são independentes, devemos observar o seguinte:

 P(A∩B∩C)=P(A).P(B).P(C)
 P(A∩B)=P(A).P(B)
 P(A∩C)=P(A).P(C)
 P(B∩C)=P(B).P(C)
Se apenas uma não for satisfeita, os eventos não são independentes.
Partição de um Espaço Amostral

39
B  S  B  ( A1  A2  ...  An )  B  ( A1  B)  ( A2  B)  ...  ( An  B)
Consequentemente, P( B)  P( A1  B)  P( A2  B)  ...  P( An  B)
Assim, pela Regra da Multiplicação, podemos escrever: P(B)  P( A1 )P(B / A1 )  P( A2 )P(B / A2 )  ...  P( An )P(B / An )
Esta afirmação somente é válida quando A e B são eventos mutuamente excludentes.
Teorema de Bayes
P(B/Ai) ≠P(Ai/B)
Probabilidade de um hotel ter 40 a 50% de ocupação dado ser de luxo.
 Analisa a probabilidade de um hotel de luxo ter 40 a 50% de ocupação
Probabilidade de um hotel ser de luxo entre hotéis que tenham 40 a 50% de ocupação
 Analisa a probabilidade de um hotel ser de luxo entre todos os hotéis que apresentaram 40 a 50%
de ocupação.
P(Ai|B)≠P(B|Ai)
P(A  B) P(A  B)
P ( Ai / B )  e P ( B / Ai ) 
P(B) P ( Ai )
P ( A  B )  P ( B ). P ( A i / B ) P ( A  B )  P ( A i ). P ( B / A i )
Portanto: P ( A i ). P ( B / A i )
P ( B ). P ( A i / B )  P ( A i ). P ( B / A i )  P ( A i / B ) 
P(B)
40
Mas como muitas vezes não dispomos de P (B ) , podemos usar:

P ( B )  P ( A1 ). P ( B / A1 )  P ( A 2 ). P ( B / A 2 )  ...  P ( A n ). P ( B / A n )  P ( B )   P ( Ai ). P ( B / Ai )
P( Ai ).P( B / Ai )
P( Ai / B)  ... Este é o Teorema de Bayes
 P( Ai ).P( B / Ai )
Exemplo
Um fabricante produz HDsem três fábricas (A, B e C), que respondem, respectivamente, por 40%, 35% e
25% de sua produção total. Registros históricos indicam que 2% da produção de A édefeituosa, assim
como 1% da de B, e 3% da fábrica C. Escolhemos 1 HD aleatoriamente, e ele é defeituoso.
Qual a probabilidade dele ter sido produzido na fábrica B ?

 Chamando Bo evento “fabricado em B” e do evento
“HD defeituoso”, podemos escrever:
 Uma peça defeituosa pode provir de qualquer uma
das 3 fábricas (e só de uma!). Logo, eventos
mutuamente excludentes.
 Portanto:
Portanto:
P ( d )  P ( A ). P ( d / A )  P ( B ). P ( d / B )  P ( C ). P ( d / C )
P ( B  d ) P ( B ). P ( d / B )
P(B / d )  
P (d ) P (d )
Assim, de acordo com os valores fornecidos temos que: P ( d )  ( 0 , 40 x 0 , 02 )  ( 0 ,35 x 0 , 01 )  ( 0 , 25 x 0 , 03 )  0 , 019
Portanto: P ( B / d )  ( 0 ,35 x 0 ,01 )

 0 ,184  18 , 4 %
( 0 , 40 x 0 ,02 )  ( 0 ,35 x 0 ,01 )  ( 0 , 25 x 0 ,03 )
Método Alternativo
Construa uma tabela de Probabilidades

A B C Totais
Bom 0,392 0,3465 0,2425 0,981
Defeito 0,008 0,0035 0,0075 0,019
Totais 0,4 0,35 0,25 1
P ( B / defeito )  0,0035 / 0,019  0,184
P(A)=0,40; P(d/A)=0,008/0,4=0,02; P(B)=0,35; P(d/B)=0,0035/0,35=0,01;

P(C)=0,25; P(d/C)=0,0075/0,25=0,03; (d= defeito); P(defeito)=0,019
41
Exemplo
1. Considere 250 alunos que cursam o 2º ciclo de uma faculdade. Destes alunos 100 são homens
(H) e 150 são mulheres (M), 110 cursam Física e 140 cursam Química. A distribuição dos alunos é
a seguinte:
Sexo Curso F Q Total
H 40 60 100
M 70 80 150
Total 110 140 250
Um aluno é soteado ao acaso. Qual a probabilidade de que esteja no curso de Química, dado que é
mulher?
80
P(Q  M) 250
Da tabela se constata que: P (Q/M)   150  158
P( M ) 250
2. Sendo P( A)  13 ; P( B)  34 e P( A  B)  12
11
Calcular P(A/B).
1º Calcular P( A  B)  P( A)  P( B)  P( A  B)  P( A  B)  16
1
P(A  B) 6
Finalmente, P ( A/B)   3
 2
9
P( B) 4
3. Duas bolas são retiradas de uma urna que contém 2 bolas brancas, 3 pretas e 4 verdes. Qual a
probabilidade de que ambas
a) Sejam verdes;
b) Sejam da mesma cor.
Solução: a)—1/6 b)--- 5/18
4. Sejam A e B eventos tais que P(A)=0,2; P(B)=P; P(AUB)=0,6. Calcular P considerando A e B:
a) Mutuamente exclusivos;
b) Independentes.
Resp.
a) P(AUB)=P(A)+P(B)→0,6=0.2+P→P=0,4.
b) P(A∩B)=P(A).P(B)=0,2.P ; P(AUB)=P(A)+P(B)- P(A∩B)→ 0,6=0,2+P-0,2.P→0,4=0,8P→P=0,5.
5. A probabilidade de que um homem esteja vivo daqui a 30 anos é de 25 a de sua mulher é de
2
3 Determine a probabilidade de que daqui a 30 anos: (Evento independente)
a) Ambos estejam vivos (4/15);
b) Somente o homem esteja vivo (2/15);
c) Somente a mulher esteja viva (2/5);
d) Nenhum esteja vivo (1/5);
e) Pelo menos um esteja vivo (4/5).
6. Uma urna contém 3 bolas brancas e 2 amarelas. Uma segunda urna contém 4 bolas brancas e 2
amarelas. Escolhe-se ao acaso, uma urna e dela retira-se, também ao acaso uma bola. Qual a
probabilidade de que seja branca?
42
1
P( I )  2 P( B / I )  12 ; P( II )  1
2 P( B / II )  2
3
Logo a bola branca pode ocorrer em:

P( B)  P( B  I )  P( B  II )  P( B)  P( I ).P( B / I )  P( II ).) P( B / II )  12 . 35  12 . 23  19
30
O problema também pode ser resolvido usando-se o diagrama em árvore:
7. A urna A contém 3 fichas vermelhas e 2 azuis, e a urna B contém 2 vermelhas e 8 azuis. Joga-se
uma moeda honesta. Se a moeda dar cara, extrai-se uma ficha da urna A e se der coroa extrai-se
uma ficha da urna B. Uma ficha vermelha é extraida. Qual a probabilidade de ter saido cara no
lançamento?
Resolução:
P (C / V )  ?
1 3 1
P(C )  2 P(V / C )  5 P( r )  2 P(V / r )  102
P(V )  P(C  V )  P( r  V )  P(V )  P(C ).P(V / C )  P(r ).P(V / r )  12 . 35  12 . 102  104

Como,
3
P (V  C ) 10
Finalmente: P (C / V )   4
 3
4
P (V ) 10
O problema também pode ser resolvido pelo diagrama em árvore, como segue:
43
1. A caixa A tem 9 cartas numeradas de 1 a 9 e a caixa B tem 5 cartas numeradas de 1 a 5. Uma

caixa é escolhida ao acaso e uma carta é retirada. Se o número é par, qual a probabilidade de que
a carta sorteada tenha vindo de A (10/19)?
2. Num certo colégio, 4% dos homens e 1% das mulheres tem mais de 1,75m de altura. 60% dos
estudantes são mulheres e, um estudante é escolhido ao acaso e tem mais de 1,75m. Qual a
probabilidade de que seja homem (8/11)?
3. Uma caixa tem 3 moedas: uma não viciada, outra com duas caras e uma terceira viciada, de modo
que a probabilidade de ocorrer cara nesta moeda é de 15 . Uma moeda é selecionada ao acaso na
caixa e, saiu cara. Qual a probabilidade de que a 3ª moeda tenha sido selecionada (2/17)?
3 1
4. A probabilidade de um indivíduo da classe A comprar um carro é de 4 , da B é de 5 e da C é de
1
20 As probabilidades de os indivíduos comprarem um carro da marca x, são 1
10 , 35 e 103 , dado que
sejam de A, B, C respectivamente. Certa loja vendeu um carro da marca x. Qual a probabilidade
de que o indivíduo que o comprou seja da classe B (4/7)?
5. A urna X contém 2 bolas azuis, 2 brancas e 1 cinzenta e a urna Y contém 2 bolas azuis, 1 branca
e 1 cinzenta. Retira-se uma bola de cada urna. Calcule a probabilidade de sairem 2 bolas brancas
sabendo que são bolas da mesma cor (2/7).
6. Num período de um mês, 100 pacientes sofrendo de determinada doença foram internados em
hospital. Informações sobre o método de tratamento aplicado em cada paciente e o resultado final
obtido estão no quadro abaixo.
Resultado Tratamento A B Soma
Cura Total 24 16 40
Cura Parcial 24 16 40
Morte 12 8 20
Soma 60 40 100
a) Sorteado aleatoriamente um desses pacientes, determinar a probabilidade de o paciente
escolhido:
44
 Ter sido submetido ao tratamento A (0,6);

 Ter sido totalmente curado (0,4);
 Ter sido submetido ao tratamento A e ter sido parcialmente curado (0,24);
 Ter sido submetido ao tratamento A ou ter sido parcialmente curado (0,76).
b) Os eventos morte e tratamento A são independentes? Justifique a sua resposta.
c) Sorteando dois pacientes, qual a probabilidade de que:
 Tenham recebido tratamentos diferentes (0,48)?
 Pelo menos um deles tenha sido curado totalmente (0,64)?
7. Um dado A tem 3 faces brancas e 3 pretas; um dado B possui 2 faces brancas, 2 pretas e 2
vermelhas; um dado C possui 2 faces brancas e 4 pretas e um dado D tem 3 brancas e 3 pretas.
Lançam-se os quatro dados. Qual a probabilidade de que:
a) Pelo menos uma face seja branca (8/9)? b) Três sejam pretas (1/4)?
8. A urna I tem 3 bolas brancas e 2 pretas, a urna II tem 4 bolas brancas e 5 pretas, a urna III tem 3
bolas brancas e 4 pretas. Passa-se uma bola, escolhida aleatoriamente, de I para II. Feito isto,
retira-se uma bola de II e retiram-se 2 bolas de III. Qual a probabilidade de saírem 3 bolas da
mesma cor (11/50)?
9. Uma urna x tem 8 bolas pretas e 2 verdes, a urna y tem 4 bolas pretas e 5 verdes e a urna z tem 7
pretas e 2 verdes. Passa-se uma bola de x para y e, feito isto passa-se uma bola de y para z. A
seguir, retiram-se 2 bolas de z, com reposição. Qual a probabilidade de que ocorram duas bolas
verdes (0,066)?
10. Um aluno responde a um teste de múltipla escolha com 4 alternativas com uma só correcta. A
probabilidade de que ele saiba a resposta certa de uma questão é de 30%. Se ele não sabe a
resposta existe a chance de acertar no chutar. Não existe a possibilidade de ele obter a resposta
certa por cola. Se ele acertou a questão, qual a probabilidade de ele realmente saber a resposta
(0,6316)?
Unidade IX: PROBABILIDADE
Variáveis Aleatórias. Distribuição de Probabilidades
 Definir o conceito de variável aleatória;

 Conhecer e explicar o conceito de distribuição de probabilidades;
 Conhecer as condições necessárias para que seja tomada a distribuição de probabilidades;
 Interpretar as propriedades de esperança matemática e da variância;
 Resolver exercícios propostos.
45
Variáveis Aleatórias. Distribuição de Probabilidade
Variáveis Aleatórias
Variável Aleatória (v.a)

 Indica o valor correspondente ao resultado de uma experiência;
 A palavra aleatória indica que, em geral, só conhecemos aquele valor depois da experiência ter
acontecido.
Notação
 A v.a é geralmente representada por um “X”ou qualquer letra maiúscula;
 Possui valor único para cada experiência
46
 Valor determinado aleatoriamente;

 O valor que a v.a pode assumir geralmente é representado por um “x”ou outra letra minúscula.
Exemplos:
 Número de alunos que comparecem às aulas de estatística;
 Quantidade de clientes que chega a uma agência bancária por minuto;
 Altura de um adulto, homem, selecionado aleatoriamente;
 Uma experiência consiste em selecionar aleatoriamente 7 homens de uma turma e contar quantos
tem mais que 80kg:
 variável aleatória X: número de homens com mais de 80 kg dentre os 7 escolhidos.
 Resultados possíveis: X = 0,1,2,3,4,5,6,7
Variável aleatória DISCRETA

 Numa amplitude determinada, admite um número finito de valores, ou
 Tem uma quantidade enumerável de valores.
Variável aleatória CONTÍNUA

 Pode tomar um número infinito de valores;
 Pode ser associada a uma mensuração em uma escala contínua.
Gráfico VA x Probabilidade
x P(X=x)
 Uma empresa aérea A possui 20% de todas as linhas domésticas de 0 0,21
um determinado país; 1 0,367
 Suponha que todos os vôos, de qualquer companhia, tenham a 2 0,275
mesma chance de sofrer um acidente; 3 0,115
 Escolhendo 7 acidentes aleatoriamente, as probabilidades de 4 0,029
números de acidentes com esta empresa A (neste grupo de 7) são*: 5 0,004
6 0+
0 acidente: 0,21;; 1 acidente: 0,367;; 2 acidentes: 0,275;;
7 0+
3 acidentes: 0,115;; 4 acidentes: 0,029;; 5 acidentes: 0,004;;
6 acidentes: 0,00... ou 0+;; 7 acidentes: 0+
Distribuição de Probabilidade
 Quando conhecemos todas os possíveis valores de uma variável aleatória com suas respectivas
probabilidades de ocorrência, temos uma Distribuição de Probabilidade;
 Assim, uma distribuição de probabilidade fornece a probabilidade de ocorrência de cada valor que
uma variável aleatória pode assumir;
 Observe que a distribuição de probabilidade é uma correspondência que associa probabilidades

aos valores de uma variável aleatória;
 Ou seja, é uma FUNÇÃO P(X=x) = f(x) = função que relaciona a probabilidade de ocorrência de
um valor da variável aleatória;
47
 Para quatro jogadas de uma moeda equilibrada, há 16 resultados igualmente prováveis (H -cara;
T- coroa);
 Define-se a VA X: “número de caras”;
 Contando o número de caras em cada caso, obtemos a tabela a seguir:

HHHH HHHT HHTH HTHH
THHH HHTT HTHT HTTH
THHT THTH TTHH HTTT
THTT TTHT TTTH TTTT
Elaborada a tabela tem-se:

Nr de Caras Observa-se um comportamento do centro para os
X P(X=x) extremos;
0 1/16 A função matemática que traduz o comportamento é
1 4/16 4!
2 6/16 x! (4 - x)!
f ( x) 
3 4/16 16
4 1/16 Substitua os valores de x e comprove. Use a tabela.
Exemplo
Com base nesta distribuição, determine:
 Probabilidade de termos ao menos 3 caras.
 Probabilidade de termos até 1 cara.
 Probabilidade de termos de 1 até 3 caras.
Solução
Com base nesta distribuição, determine a:
Probabilidade de termos ao menos 3 caras: •R: P(x>2)=5/16
Probabilidade de termos até 1 cara: •R: P(x<2)=5/16
Probabilidade de termos de 1 até3 caras: •R: (1<=x<=3)=14/16
Distribuição de Probabilidade
Condições Necessárias
Como os valores das distribuições de probabilidade são probabilidades (cada possível valor
da variável aleatória tem uma probabilidade associada), as seguintes condições se aplicam
a qualquer distribuição de probabilidade:
•ΣP(x) = 1
•0 ≤P(x) ≤1 para todo x.
Exercício
Verifique se a função abaixo pode ser a distribuição de probabilidade de alguma variável aleatória
48
 f(x) = (x+3)/15 para x=1, 2 e 3.

Solução:
 f(1) = 4/15; f(2) = 5/15; f(3)=6/15
 Todos os valores de f(x) são menores que 1
 4/15+5/15+6/15 = 15/15 = 1.
A função dada pode ser uma distribuição de probabilidade de uma variável aleatória.
Média, Variância e Desvio Padrão

Para uma distribuição de probabilidade qualquer: Média:    X .P ( X )
Variância:  2   ( X   ) 2 .P ( X )    2   X 2 .P ( X )    2 Desvio Padrão: 

Exemplo
Tomando a distribuição de probabilidade dos acidentes com a empresa aérea em 7 x P(X=x)
acidentes pesquisados aleatoriamente: 0 0,21
Calcule: 1 0,367
 O número médio de acidentes com a empresa 2 0,275
 A variância e O desvio padrão 3 0,115
Resolução 4 0,029
5 0,004
x P(x) x. P(x) x2 x2. P(x)
6 0+
0 0,21 0,000 0 0 7 0+
1 0,367 0,367 1 0,367
2 0,275 0,550 4 1,100
3 0,115 0,345 9 1,035
4 0,029 0,116 16 0,464
5 0,004 0,020 25 0,100
6 0+ 0,000 36 0,000
7 0+ 0,000 49 0,000
Total  P(x)  1  x.P( x)  1,398 --------  x2.P( x)  3,066
   X .P ( X )    1,398
Média: =1,398 Acidentes
Variância =
 2
  ( X 
  ) 2 .P ( X )   2
  X 2

.P ( X )   2
2
  3 ,066  (1,398 ) 2  1,1116
Desvio Padrão:  =1,05 acidentes
Valor Esperado ou Esperança
O valor esperado de uma variável aleatória x representa o valor médio do resultado e é dado por:
49
 E(x)= Σx.P(x)
Exemplo:
 Jogando 5 vezes uma moeda, o número médio de caras esperado é 2,5. Assim, ao jogarmos uma
moeda 5 vezes, o valor esperado ou esperança é 2,5.
 Num determinado jogo, o jogador deve escolher três algarismos entre 0 e 9. Os números serão
então sorteados. A aposta éde Mts.1,00 para um prêmio de Mts. 500.
 Portanto, se o jogador acertar o número sorteado, o ganho é de Mts. 499,00 para cada Mts. 1,00
apostado.
 Suponha que você aposte Mts. 1,00. Qual o valor esperado de seu ganho ou perda?
 Há 1000 possibilidades de respostas (de 000 a 999)
 Resultados possíveis → ganho ou perda
 P(x=ganho) = 1/1000 = 0,001
 P(x=perda) = 999/1000 = 0,999
Esboçando a tabela, ela toma o seguinte aspecto.
Evento x P(x) x. P(x)

Ganha Mts. 499 0,001 Mts. 0,499
Perde Mts. -1 0,999 Mts. -0, 999
Total ---------------------- ------------------------- Mts. -0,50
Assim, para uma aposta de Mts. 1,00, o valor esperado é menos Mts. 0,50, ou seja, a longo prazo
devemos esperar perder 0,50 para cada real apostado.
Obviamente o valor esperado representa uma perda média de Mts. 0,50 para uma longa seqüência de
apostas feitas.
Propriedades
 Esperança Matemática
1. E ( k )  k Onde k é um valor constante.
2. E ( k . X )  k .E ( X )
3. E ( X  Y )  E ( X )  E (Y )
n  n
4. E  X i    E ( X i )
 i 1  i 1
5. E ( aX  b )  aE ( X )  b a e b são constantes
6. E ( X   x )  0
50
 Variância
1. VAR ( k )  0 Onde k é um valor constante (Lembre-se que  2  VAR( X )  Variância)
2. VAR(k .X )  k 2 .VAR( X )

3. VAR ( X  Y )  VAR ( X )  VAR (Y )  2Cov ( X , Y )  E  X  Y   E  X  Y 2 
Cov ( X , Y )  E  X  E ( X ) 
. Y  E (Y ) Cov- Covariância, e ela mede o grau de dependência
entre as duas variáveis X e Y.
n n n
4. VAR (  X i )   VAR ( X i )  2 Cov ( X i , X j )
i 1 i 1 i j
2
5. VAR(ak  b)  a VAR( X ) Onde a e b são constantes.
Existe uma fórmula mais fácil operacionalmente de ser aplicada, relativa ao cálculo da variância:
n
VAR ( X )  E ( X 2 )  E ( X ) 
2
Onde E ( X 2 )   xi2 . p ( xi )
i 1
Neste contexto, o conhecimento usado na determinação da variável aleatória X deve ser usado para
calcular a variável aleatória Y. Por exemplo:
Y P(Y) Y.P(Y) Y2.P(Y) VAR(Y)=E(Y2)-[E(Y)]2=39/5-12=34/5→
-2 1/5 -2/5 4/5 →VAR(Y)=6,8
-1 1/5 -1/5 1/5
0 1/5 0 0
3 1/5 3/5 9/5
5 1/5 1 5
1 E(X)=1 E(X2)=39/5
Assim conclui-se que: Quanto menor a variância, menor o grau de dispersão de probabilidades em torno
da média e vice-versa.
A variância é um quadrado, e muitas vezes o resultado torna-se artificial. Por exemplo: a altura média de
um grupo de pessoas é 1,70m e variância 25cm2. É realmente um pouco inconfortável assumir altura em
cm2. É com base nesta dificuldade que foi definido o desvio padrão.
Desvio Padrão da variável aleatória X é a raiz quadrada da variância de X,  x  VAR (X )
No exemplo expresso acima,  x  25cm2  5cm
Mais tarde, na análise da distribuição normal iremos estudar o grau de dispersão com base na tabela que
fornece quase todos resultados percentuais.
Resumo
51
Uma variável aleatória associa um valor numérico a cada resultado de uma experiência aleatória,
enquanto uma distribuição de probabilidades associa uma probabilidade a cada valor de uma variável
aleatória.
1. Uma urna contém 4 bolas brancas e 6 pretas. 3 bolas são retiradas com reposição. Seja X- o
número de bolas brancas. Calcular E(X). (Resp. E(X)=1,2)
2. Na produção de uma peça são empregadas duas máquinas. A primeira é utilizada para
efectivamente produzir as peças, e o custo de produção é de 500,00 Mts por unidade. Das peças
produzidas nessa máquina, 90% são perfeitas. As peças defeituosas, produzidas na 1ª máquina,
são colocadas na segunda máquina para a tentativa de recupração. Nessa segunda máquina, o
custo de produção por peça é de 250,00Mts mas, apenas 60% das peças são recuperadas.
Sabendo que cada peça perfeita é vendida por 900,00 Mts e que cada peça defeituosa é vendida
por 200,00Mts. Calcule o lucro por peça esperado pelo fabricante (340,70 Mts).
3. Um supermercado faz a seguinte promoção: o cliente ao passar pelo caixa, lança um dado. Se
sair face 6 tem um desconto de 30% sobre o total de sua conta. Se sair 5 o desconto é de 20%.
Se ocorrer face 4 é de 10% e se ocorressem faces 1, 2, ou 3 o desconto é de 5%.
a) Calcular a probabilidade de que num grupo de 5 clientes, pelo menos um consiga um
desconto maior que 10% (0,8683);
b) Calcular a probabilidade de que o 4º cliente seja o primeiro a conseguir 30% (0,0965).
c) Calcular o desconto médio concedido (12,5%).
4. Um banco pretende aumentar a eficiência de seus caixas. Oferecer um prémio de 150,00Mts para
cada cliente atendido além de 42 clientes por dia. O banco tem um ganho operacional de
100,00Mts para cada cliente atendido além de 41. As probabilidades de atendimento são:
Número de Clientes Até 41 42 43 44 45 46
Probabilidades 0,88 0,06 0,04 0,01 0,006 0,004
Qual a esperança de ganho do banco se este novo sistema for implantado? ((Resp.E(X)=7,30))
5. Sabe-se que uma moeda mostra a face cara quatro vezes mais do que a face coroa, quando
lançada. Esta moeda é lançada 4 vezes. Seja X- o número da caras que aparece, determine:
a) E(X)
b) VAR(X)
c) P(X≥2)
d) P(1≤X<3)
Resp. a) 3,20 b) 0,64 c) 0,9728 d) 0,1792
6. Um jogador A aposta com B 100,00Mts e lança 2 dados, nos quais as probabilidades de sair cada
face são proporcionais aos valores da face. Se sair soma 7, ganha 50,00Mts de B. Se sair soma
52
11, ganha 100,00Mts de B e se sair soma 2, ganha 200,00Mts de B. Nos demais casos A perde a
aposta. Qual a esperança de lucro ou ganho E(X) do jogador A em uma única aposta?
Resp. E(X)=-79,59
53
Unidade X: PROBABILIDADE
Distribuição Conjunta De Duas Variáveis Aleatórias
 Compreender e explicar o estudo de variáveis aleatórias bidimensionais;

 Interpretar as distribuições marginais de probabilidades e estabelecer a função conjunta de
probabilidade;
 Identificar e explicar as distribuições condicionais de probabilidades;
 Conhecer as variáveis aleatórias independentes e estabelecer as respectivas funções;
 Acompanhar os exercícios resolvidos e resolver exercícios propostos.
Distribuição Conjunta De Duas Variáveis Aleatórias
Muitas vezes estaremos interessados em estudar mais de um resultado de uma experiência aleatória.
Faremos apenas o estudo das variáveis aleatórias bidimensionais.
O esclarecimento deste conteúdo será feito com base em um exemplo:

O quadro a seguir, refere ao salário e tempo de serviço de dez operários. Determine a distribuição
conjunta de probabilidade da variável X-salário em Mts e da variável Y-tempo de serviço em anos.
Operário A B C D E F G H I J
X 500 600 600 800 800 800 700 700 700 600
Y 6 5 6 4 6 6 5 6 6 5
Em seguida elabora-se uma tabela com dupla entrada, onde consta a probabilidade conjunta das variáveis
X e Y.
Note que, P ( X  500, Y  4)  0 pois não há nenhum operário que ganhe 500 e tenha 4 anos de
serviço.
Observe o resto de probabilidades na tabela a seguir:
X Y 4 5 6 Total de Linhas
500 0 0 1/10 1/10
600 0 2/10 1/10 3/10
700 0 1/10 2/10 3/10
800 1/10 0 2/10 3/10
Total de Colunas 1/10 3/10 6/10 1
54
Função de Probabilidade Conjunta

Seja X uma variável aleatória que assume os valores x1, x2, ..., xm e Y uma variável aleatória que assume
os valores y1, y2, ..., yn.
A função de probabilidade conjunta associa a cada par (xi, yj), i=1, 2, ..., m e j=1, 2, ..., n, a probabilidade
P(X=xi, Y=yj)=p(xi, yj). Assim a distribuição conjunta de probabilidades da variável bidimensional (X,Y) é o
conjunto: {(xi, yj).p(xi, yj), i=1, 2, ..., m e j=1, 2, ..., n }
m n
E observamos que:   P( X  x , Y  y
i 1 j 1
i j ) 1
Distribuições Marginais de Probabilidades

Distribuição Marginal de X
Para entendermos correctamente a distribuição marginal, analisemos novamente os dados constantes na
tabela acima:
X P(X) Por exemplo, a probabilidade marginal de X=600 é:
500 1/10 P(X=600, Y=4)+P(X=600, Y=5)+P(X=600, Y=6)= 0+2/10+1/10= 3/10
600 3/10 Logo podemos definir a probabilidade marginal de X=xi, i=fixo:
700 3/10 n m m n
800 3/10 P ( X  xi )   P( X  xi , Y  y j ) Onde: i=1, 2, ..., m e,  P ( X  xi )   p ( xi ,y j )  1
j 1 i 1 i 1 j 1
1
Distribuição Marginal de Y
Do mesmo modo, é estraida a tabela:

Y P(Y)
4 1/10 Por exemplo, a probabilidade marginal de Y=6 é:
5 3/10 P(X=500,Y=6)+P(X=600,Y=6)+P(X=700,Y=6)+ P(X=800,Y=6)= 1/10+1/10+2/10+2/10=6/10
6 6/10
1 Logo podemos definir a probabilidade marginal de Y=yj, j=fixo:
m n n m
P(Y  yi )   P( X  xi , Y  y j ) Onde: j=1, 2, ..., n e,  P(Y  yi )    p( xi , y j )  1
i 1 j 1 j 1 i 1
Dada a distribuição conjunta de probabilidade mostrada na tabela, podemos calcular, E(X) e E(Y). Veja:
X P(X) X.P(X) Y P(Y) Y.P(Y)
500 1/10 500/10 4 1/10 4/10
600 3/10 1800/10 5 3/10 15/10
700 3/10 2100/10 6 6/10 36/10
800 3/10 2400/10 ------------------- -------------------- -------------------
-------------------- 1 680 ------------------- 1 5,5
E(X)=680 E(Y)= 5,5
O Salário médio dos operários é de 680,00Mts O tempo médio de serviço dos operários é de 5 anos e meio
Distribuições Condicionais
Estaremos interessados em calcular por exemplo, o salário médio dos operários com 5 anos de serviço.
Para o efeito aplica-se a distribuição condicional:
55
E(X/Y=5) ?
Definição
P ( X  xi , Y  y j )
P ( X  xi / Y  y j )  j=fixo; i=1, 2, ..., m e P (Y  y j )  0
P (Y  y j )
P ( X  xi , Y  y j )
P(Y  y j / X  xi )  i=fixo; j=1, 2, ..., n e P( X  xi )  0
P ( X  xi )
m m p ( xi , y j )
E ( X / Y  y j )   xi . p ( xi / y j )   xi . j=1, 2, ..., n e j=fixo
i 1 i 1 p( y j )
n n p( xi , y j )
E (Y / X  xi )   y j . p ( y j / xi )  y j . i=1, 2, ..., m e i=fixo
j 1 j 1 p ( xi )
Assim a pergunta colocada, tem a seguinte resolução:
P( X  500, Y  5) 0 P( X  600, Y  5) 2 / 10 2
P( X  500 / Y  5)    0 ; P( X  600 / Y  5)   
P(Y  5) 3 / 10 P(Y  5) 3 / 10 3
P( X  700, Y  5) 1/ 10 1 P( X  800, Y  5) 0
P( X  700 / Y  5)    P( X  800 / Y  5)   0
P(Y  5) 3 / 10 3 ; P(Y  5) 3 / 10
E(X/Y=5) ?
X P(X/Y=5) X. P(X/Y=5) E(X/Y=5)=1900/3=633,33
500 0 0
600 2/3 1200/3 O salário médio dos operários com 5 anos de
700 1/3 700/3 serviço é de 633,33 Mts.
800 0 0
1 1900/3
Da mesma forma podemos obter as definições:
m
VAR( X / Y  y j )   ( xi  ) 2 . p( xi / y j ) Ou  
VAR( X / Y  y j )  E ( X 2 / Y  y j )  E ( X / Y  y j )
2
i 1
m
E( X 2 / Y  y j )   xi2 . p( xi / y j )
Onde, i1 j=1, 2, ..., n e j=fixo
n
VAR(Y / X  xi )   ( yi   ) 2 . p( y j / xi ) Ou  
VAR(Y / X  xi )  E (Y 2 / X  xi )  E (Y / X  xi )
2
j 1
n
E (Y 2 / X  xi )   y 2j . p( y j / xi )
Onde, j 1 =1, 2, ..., m e i=fixo
Como aplicação destas definições podemos calcular o tempo médio de serviço e o desvio padrão dos
operários com salários de 700,00 Mts. E(Y/X=700)? e VAR(Y/X=700)?
Y P(Y/X=700) Y. P(Y/X=700) Y2. P(Y/X=700)
4 0 0 0
56
5 1/3 5/3 25/3 E(Y/X=700)=17/3=5,67

6 2/3 12/3 72/3 VAR(Y/X=700)=97/3-(17/3)2=2/9
1 17/3 97/3 σ(Y/X=700)=(2/9)1/2=0,47
Variáveis Aleatórias Independentes
Sejam
X: x1, x2, ..., xm e P(X=xi)=p(xi), i=1, 2, ..., m; Y: y1, y2, ..., yn e P(Y=yj)=p(yj), j=1, 2, ..., n
Definição: As variáveis aleatórias X e Y são independentes se e somente se P(X=xi,Y=yj)=P(X=xi).P(Y=yj),

para todo o par (xi, yj), i=1, 2, ..., m e j=1, 2, ..., n
As variáveis X e Y do exemplo analisado atrás não são independentes pois, por exemplo:
P(X=500, Y=4)=0 e P(X=500).P(Y=4)=1/10.1/10=1/100;; P(X=500, Y=4) # P(X=500).P(Y=4)
Funções de Variáveis Aleatórias
Conhecidas X e Y e P(X.Y), poderemos estar interessados em calcular F(X.Y), isto é, funções de X e Y

como X+Y, X-Y, X.Y, 2X+3Y, 3X-2Y, etc..
Os resultados importantes são os que seguem:
1. E ( X  Y )  E ( X )  E (Y )
2. Cov ( X .Y )  E ( X .Y )  E ( X ).E (Y )
3. Se X e Y são independentes, então E ( X .Y )  E ( X ).E (Y )
4. Se X e Y são independentes, então Cov ( X , Y )  0 A recíproca não é verdadeira.
5. Se X e Y são independentes, então VAR ( X  Y )  VAR ( X )  VAR (Y )
 m  m
6. Se X1, X2, ..., Xm são independentes, então VAR  X i    VAR( X i )
 i1  i1
Aplicação
1. A distribuição conjunta de probabilidades da variável (X, Y) está representada na tabela a seguir:

X Y 0 1 2 3
0 1/8 2/8 1/8 0
1 0 1/8 2/8 1/8
Calcular: a) E(2X-3Y), b) Cov(X,Y), c) VAR(2X-3Y), d) E(Y/X=1)
Resolução
X Y 0 1 2 3 P(X) X.P(X) X2.P(X)
0 1/8 2/8 1/8 0 4/8 0 0
1 0 1/8 2/8 1/8 4/8 4/8 4/8
57
P(Y) 1/8 3/8 3/8 1/8 1 E(X)=0,5 E(X2)=0,5

Y.P(Y) 0 3/8 6/8 3/8 E(Y)=1,5
Y2.P(Y) 0 3/8 12/8 9/8 E(Y2)=3
Nota-se que: P( X  0, Y  0)  18 ; P( X  0)  48 eP(Y  0)  18

P ( X  0, Y  0)  P ( X  0).P (Y  0) Logo, X e Y não são independentes
E(X)=0,5 e VAR(X)=0,5-(0,5)2=0,25; σx=0,5 ;;; E(Y)=1,5 e VAR(Y)=3-(1,5)2=0,75; σy=0,87
Calculemos agora a Cov(X,Y). Definiremos a variável Z=X.Y e faremos a distribuição de Z da seguinte

forma:
Z P(Z) Z.P(Z) E(Z)=E(X.Y)=1
0 4/8 0 Como Cov(X,Y)=E(X.Y)-E(X).E(Y) teremos que Cov(X,Y)=1-0,5.1,5=0,25
1 1/8 1/8 a) E(2X-3Y)=2E(X)-3E(Y)=2.0,5-3.1,5=-3,5
2 2/8 4/8 b) Cov(X,Y)=0,25
3 1/8 3/8 c) VAR(2X-3Y)=VAR(2X)+VAR(3Y)-2Cov(2X,3Y)=4VAR(X)+9VAR(Y)-12Cov(X,Y)
1 E(Z)=1 4.0,25+9.0,75-12.0,25→VAR(2X-3Y)=4,75.
Obs: Cov(2X,3Y)=E[2X-E(2X)].E[3Y-E(3Y)]= E[2X-2E(X)].E[3Y-3E(Y)]= 6E[X-E(X)].[Y-E(Y)]=6Cov(X,Y)

d) E(Y/X=1)
Y P(Y/X=1) Y.P(Y/X=1)
0 0 0
1 ¼ ¼
2 2/4 4/4 Logo, do resultado desta tabela conclui-se que E(Y/X=1)=2
3 ¼ ¾
1 2
2. Dada a distribuição conjunta bidimensional (X,Y) representada pela tabela de dupla entrada.
Determine: X Y 0 1 2
a) ρ 0 0 0 ¼
b) a representação espacial de P(X,Y) 1 0 2/4 0
c) se possível a reta de regressão de Y em função de X. 2 ¼ 0 0
Resolução
X Y 0 1 2 P(X) X.P(X) X2.P(X)
0 0 0 ¼ ¼ 0 0 Verificar, se X e Y são independentes
1 0 2/4 0 2/4 2/4 2/4 P( X  0,Y  0)  18 ; P( X  0)  14 eP(Y  0)  14
2 ¼ 0 0 ¼ 2/4 4/4 P( X  0).P(Y  0)  14 . 14  161
P(Y) ¼ 2/4 ¼ 1 E(X)=1 E(X)=1,5 P ( X  0, Y  0)  P ( X  0).P (Y  0)
Y.P(Y) 0 2/4 2/4 E(Y)=1
Y2.P(Y) 0 2/4 4/4 E(Y2)=1,5 Logo, X e Y não são independentes
Seja Z=X.Y, Calculemos E(X.Y)

58
E(Z)=E(X.Y)=0,5
Z P(Z) Z.P(Z)
Cov (X,Y)=0,5-1,1=-0,5
0 2/4 0
1 2/4 2/4 VAR(X)=1,5-12=0,5  x  0,5 ;;; VAR(Y)=1,5-12=0,5  y  0,5
2 0 0  xy  0,5
   1
4 0 0  x . y 0,5. 0,5
1 E(Z)=0,5
Como   1 , existirá uma recta de regressão de Y em função de X, Y=aX+b.
Neste exemplo específico é fácil determinarmos esta equação, sem o uso do processo dos mínimos
quadrados, graficamente:
1. Dadas as distribuições das variáveis X e Y, independentes. Construir a distribuição conjunta de

(X,Y). Sendo Z=3X+Y, Calcular: E(Z) e VAR(Z), usando a distribuição de Z. (Resp. E(Z)=8,4; VAR(Z)=6,32)
X P(X) Y P(Y) X Y 0 1 2 P(X) Z=3X + Y
1 0,2 0 0,2 1 0,04 0,08 0,08 0,2 Z 0 1 2
2 0,2 1 0,4 2 0,04 0,08 0,08 0,2 3 3 4 5
3 0,6 2 0,4 3 0,12 0,24 0,24 0,6 6 6 7 8
1 1 P(Y) 0,2 0,4 0,4 1 9 9 10 11
2. Sejam X- renda familiar em 1000,00Mts

Y- número de aparelhos de TV em cores.
Considere o quadro:
X 1 2 3 1 3 2 3 1 2 3
Y 2 1 3 1 3 3 2 1 2 3
a) Verificar, usando o coeficiente de correlação ρ, se há dependência entre as duas variáveis.
b) Determinar a renda familiar média de quem possui 2 aparelhos de TV (usando a distribuição
de probabilidades E(X/Y=2)). (Resp. 2)
X Y 1 2 3 P(X) X.P(X) X2.P(X)
1 0,2 0,1 0 0,3 0,3 0,3
2 0,1 0,1 0,1 0,3 0,6 1,2
3 0 0,1 0,3 0,4 1,2 3,6
59
P(Y) 0,3 0,3 0,4 1 E(X)=2,1 E(X)=5,1

Y.P(Y) 0,3 0,6 1,2 E(Y)=2,1
Y2.P(Y) 0,3 1,2 3,6 E(Y2)=5,8
3. Dada a distribuição conjunta das variáveis X e Y, independentes, seja Z=2X – 4Y. Calcular E(Z) e
VAR (Z) usando a distribuição de Z. (Resp. E(Z)=1,0 e VAR (Z)=7,72)
X Y 0 1 2 P(X)
1 0,06 0,2
2 0,15 0,05
3
P(Y) 0,3 1
4. Considere a distribuição conjunta das variáveis X e Y. Defina Z=ІX-YІ e W=X+Y. Construa a
distribuição conjunta de probabilidades de Z e W e calcule a Cov(Z,W). (Resp. Cov (Z,W)= - 0,2)
X Y 1 2 3 P(X)
1 0 0,1 0,2 0,3
2 0,2 0,1 0,1 0,4 X e Y não são independentes.
3 0,2 0 0,1 0,3
P(Y) 0,4 0,2 0,4 1
5. Um sinal consiste de uma série de vibrações de magnitude X. Um ruido consiste de uma série de
vibrações de magnitude Y, tendo os valores 2, 0, e -2 com probabilidades 16 , 23 , 16 respectivamente.
Se ruidos e sinais são combinados de vibrações sincronizadas, a soma consiste de vibrações de
magnitude Z=X+Y.
Construir a função de probabilidades de Z e, calcular E(Z) e VAR(Z), admitindo independência
entre ruido e sinal. X assume os valores 1, 0, e -1, cada um com probabildade de 13 .
6. Seja: X- renda familiar em 1000,00Mts e Y- número de carros da família. Considere o quadro

X 2 3 4 2 3 3 4 2 2 3
Y 1 2 2 2 1 3 3 1 2 2
Calcular:
a) E(2X-3Y)
b) Cov(X,Y)
c) VAR(5X-3Y)
d) ρ
7. Dada a distribuição conjunta de probabilidades da variável (X,Y), determinar ρ e tente escrever Y

em função de X.
60
X Y 0 2 4
0 0,5 0 0
1 0 0,2 0,05
2 0 0 0,25
8. Dada a tabela da distribuição conjunta. Calcular a) E(2X-3Y), b) VAR(3X+2Y), c) ρ d) E(X/Y=2)

X 1Y 2 3 4
0 1/24 1/12 1/12 1/24
1 1/12 1/6 1/6 1/12
2 1/24 1/12 1/12 1/24
9. Dada a distribuição conjunta de (X,Y), determinar a média e variância de: a) X + Y b) X.Y
X Y 1 2 3
1 5/27 1/27 3/27
2 4/27 3/27 4/27
3 2/27 3/27 2/27
10. As variáveis aleatórias X e Y são independentes.

a) Completar o quadro, determinando os valores de a, b, c.
b) Seja: Z= І3X-4YІ, calcular E(Z) usando a distribuição de probabilidade de Z.
c) Calcular VAR (3X-2Y)
X Y 1 2 3 P(X)
1 0,04 0,08 a
3 b
5 c
P(Y) a b c 1
Unidade XI: PROBABILIDADE
Distribuição Binomial (Experiências de Bernoulli)
 Interpretar as experiências que devem se realizar sob as mesmas condições;

 Definir, a patir destas experiências, a distribuição de Bernoulli;
 Conhecer os parâmetros da distribuição de Bernoulli;
 Identificar e conhecer as notações para a distribuição de Bernoulli;
 Acompanhar e explicar os exercícios resolvidos.
61
Distribuição Binomial (Experiências de Bernoulli)
Considere as seguintes experiências/situações práticas:
 Conformidade de itens saindo da linha de produção.

 Tiros na mosca numa sequência de disparos contra um alvo.
 Respostas de pessoas à pergunta sobre se vai ou não viajar nas próximas férias.
O que estas experiências têm em comum?
Em todas estas situações temos um conjunto de provas que satisfazem as seguintes condições:
 as provas se realizam sob as mesmas condições;
 cada prova comporta apenas dois resultados possíveis (mutuamente exclusivos), designados por
S (sucesso) e F (falha);
 a probabilidade de sucesso P(S) é a mesma em cada prova;
•(a variável aleatória de interesse, X, representa o número de sucessos em cada prova)
 as provas são independentes entre si.
Suponha que 4 componentes são testados por um período de tempo, e que só dois resultados são
possíveis: sucesso ou falha.
 De quantos modos podemos ter 4 sucessos em cada prova?
X=4 (X: variável aleatória de interesse)
Maneiras de se obter X=4 sucessos
•S1 S2 S3 S4 → uma única maneira
 De quantos modos podemos ter 3 sucessos em cada prova ?

X=3 (X: variável aleatória de interesse)
4 Maneiras de se obter X=3 sucessos
S1 S2 S3 S4
S1 S2 S3 S4
S1 S2 S3 S4
S1 S2 S3 S4
 De quantos modos podemos ter X sucessos em cada prova?

X=4 X=3 X=2 X=1 X=0
S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4
S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4
S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4
S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4
S1 S2 S3 S4
S1 S2 S3 S4
Se a probabilidade de sucesso é p, qual a probabilidade de se ter “X = 0” e “X = 1” sucessos em uma
prova? (Note que q = 1-p é a probabilidade de falha).
62
Sucessos Modos Nr de Modos Probabilidade

X=0 S1 S2 S3 S4 1 1 p0 (1-p)4
S1 S2 S3 S4
S1 S2 S3 S4
4 4 p1 (1-p)3
S1 S2 S3 S4
S1 S2 S3 S4
Se a probabilidade de sucesso é p, qual a probabilidade de se ter “X = 2” sucessos em uma prova?

(Note que q=1-p é a probabilidade de falha).
Sucessos Modos Nr de Modos Probabilidade

S1 S2 S3 S4
S1 S2 S3 S4
S1 S2 S3 S4
X=0 S1 S2 S3 S4
6 6 p2 (1-p)2
S1 S2 S3 S4
S1 S2 S3 S4
Se a probabilidade de sucesso é p, qual a probabilidade de se ter X sucessos em uma prova?

(Note que q=1-p é a probabilidade de falha).
Sucessos Nr de Modos Probabilidade

X=0 1 1 p0 (1-p)4
X=1 4 4 p1 (1-p)3
X=2 6 6 p2 (1-p)2
X=3 4 4 p3 (1-p)1
X=4 1 1 p4 (1-p)0
Definição da Distribuição Binomial
Se a probabilidade de sucesso é p, qual a probabilidade de se ter X sucessos em uma prova?

Note que:
 q=1-p: é a probabilidade de falha
 n: número de repetições da experiência
 X (maiúsculo): variável aleatória
 x (minúsculo): valor que a variável aleatória assume
 n  x n x n x
P( X  x)    p q Ou ainda
P(X  x)    p (1 p)nx
 x x
63
Finalmente tem-se a expressão geral da probabilidade para a distribuição Binomial:
n!
P(X  x)  px (1 p)nx
(n- x)!x!
Exercício
Um sistema de segurança consiste em 4 alarmes (idênticos) de pressão alta, com probabilidade de

sucesso p = 0,8 (cada um).
 Qual a probabilidade de se ter exatamente 3 alarmes soando quando a pressão atingir o valor
limite ?
Solução:
n=4, x=3, p=0,8
P(X=3)=4.(0,8)3.(1-0,8)1=0,4096
Parâmetros da distribuição Binomial
A distribuição binomial tem como parâmetros, a média e o desvio padrão.
Média:   n. p Desvio Padrão:   n. p.q
Exemplo:
1. Um sistema de segurança de uma casa possui 03 alarmes, todos com probabilidade de funcionar
no momento certo de 0,8.
 Qual o número médio de alarmes que deverão soar no caso de uma invasão detectada?
Solução
  n. p    3.0,8  2, 4 Alarmes
  n. p.q    3.0,8.0,2  0,7 Alarmes
2. E se, agora, o sistema de segurança tivesse 4 alarmes e tivesse que atuar com pelo menos 3 dos
4 alarmes (idênticos).
 Qual a probabilidade de se ter pelo menos 3 em 4 alarmes soando quando houver uma invasão?
64
Solução
P(3) + P(4) = {4 x (0,8)3x (1 -0,8)1} + {1 x (0,8)4x (1 -0,8)0} = 0,8192
Resumindo
Podemos calcular as probabilidades de ocorrências em experimentos binomiais utilizando a distribuição

binomial.
Para tal, o experimento deve ser binomial, seguindo os 4 seguintes critérios:

 Deve comportar um número fixo de provas (n)
 As provas devem ser independentes: eventos independentes
 Cada prova pode ter apenas dois resultados possíveis (sucesso ´pé insucesso ´q´)
 As probabilidades permanecem constantes para cada prova.
Notação para Distribuição Binomial

 S e F (Sucesso ou falha): os dois resultados possíveis
 p e q: probabilidades de S e F, respectivamente: P(S) = p; P(F) = q
 n: número fixo de provas
 x: número específico de sucessos em n provas, podendo ser qualquer inteiro entre 0 e n
 P(x): probabilidade de se obter exatamente ´x´ sucessos em cada prova.
Experiências Binomiais
Exemplo de Experiências Binomiais

 Teste de produtos com reposição
 Testes de produto sem reposição onde o tamanho da amostra émuito pequena em relação ao
tamanho da população (até 5%);
 Pesquisas de satisfação
Exemplo
Dado que 10% das pessoas são canhotas, qual a probabilidade de obtermos exatamente 3 estudantes
canhotos numa turma com 15 estudantes.
 Verifique se é um experimento binomial e identifique n, x, p e q.
•Número fixo de provas
•Independência: Sim. O fato de uma pessoa ser canhota ou destra não afeta a probabilidade do
outro ser canhoto ou destro.
•Duas categorias de resultados: canhota ou destro
•Probabilidades constantes: a probabilidade de 0,1 canhoto permanece constante para cada um
dos 15 estudantes
 n=15 provas; x=3; p=0,1 e q=0,9
As vezes o cálculo pode ser dispensado, usando para o efeito a Tabela de Distribuição Binomial.
65
Exemplo
Aplicando a fórmula para calcular a probabilidade:
Obs.: arredonde apenas o resultado final: P ( X  3 )  15!

0 ,1 3 ( 0 , 9 ) 15  3  0 ,129
(15 - 3)!3!
Aplicando as tabelas de probabilidades binomiais, calcule a probabilidade de ao menos 3 serem canhotos.
 P(ao menos 3) = P(3)+P(4)+P(5)+...+P(15) = 1-P(0)-P(1)-P(2)

 P(ao menos 3) = 1- 0,206 -0,343 –0,267 = 0,184
Exercícios
1. Uma empresa aérea possui 20% de todas as linhas domésticas. Supondo que todos os vôos
domésticos deste país tenham a mesma chance de um acidente, escolhendo 7 acidentes
aleatoriamente, qual o número médio de acidentes com esta empresa e o desvio padrão.
66
Solução
n=7; p=0,20; q=0,8
μ=n.p = 7.0,2 = 1,4 acidentes em média serão com esta empresa de 7 escolhidos aleatoriamente.
  n. p.q    0,12  1,1 Desvio padrão de número de acidentes com esta empresa em 7
escolhidos aleatoriamente.
2. O método Ericsson de seleção tem uma taxa admitida de 75% de sucesso. Suponha que 100
casais utilizem este método, com o resultado de que, dentre 100 recém-nascidos, há 75 meninas.
a) Se o método não produz efeito, e então meninos e meninas são igualmente prováveis, determine
a média e o desvio padrão do número de meninas em um grupo de 100 crianças.
b) Considere o método como eficaz e recalcule.
c) Podemos considerar o método como eficaz? Por quê?
Solução
a)   n. p    100.0,5    50 meninas em média;

  n. p.q    100.0,5.0,5  5 desvio padrão de meninas
b)   n. p    100 .0,75    75 meninas em média.

  n. p.q    100.0,75.0,25  4,33 desvio padrão de meninas.
c) Tente responder...
3. 20% dos refrigeradores produzidos por uma empresa são defeituosos. Os aparelhos são vendidos
em lotes de 50 unidades. Um comprador adoptou o seguinte procedimento: de cada lote, testa 20
aparelhos e se houver pelo menos 2 defeituosos o lote é rejeitado. Admitindo-se que o comprador
tenha aceitado o lote, qual a probabilidade de ter observado exactamente um aparelho
defeituoso? (Resp. 0,68965)
4. Um determinado artigo é vendido em caixa a preço de 2000Mts. É característica de produção que

20% destes artigos sejam defeituosos. Um comprador fez a seguinte proposta: de cada caixa
escolhe 25 artigos, ao acaso, e paga por caixa:
2500Mts se nenhum artigo for defeituoso dos selecionados;
1700Mts se um ou dois artigos forem defeituosos;
1000mts se três ou mais forem defeituosos.
O que é melhor para o fabricante: manter o seu preço de 2000Mts por caixa ou aceitar a proposta
do consumidor?
67
Unidade XII: PROBABILIDADE
Distribuição de Poisson
 Interpretar a distribuição de Poisson, tendo em conta as experiências recomendads para o efeito;

 Definir a equação geral da distribuição de Poisson;
 Interpretar o gráfico da distribuição de Poisson;
 Conhecer e identificar os parâmetros da distribuição de Poisson;
 Acompanhar e resolver os exercícios resolvidos.
É uma Distribuição discreta de probabilidade aplicável a ocorrências de um evento em um intervalo

especificado.
Exemplos
 Usuários de computador ligados à Internet

 Clientes chegando ao caixa de um supermercado
 Acidentes com automóveis em uma determinada estrada
 Número de carros que chegam a um posto de gasolina
 Número de aviões seqüestrados em um dia
 Número de falhas em componentes por unidade de tempo
 Número de requisições para um servidor em um intervalo de tempo t
 Número de peças defeituosas substituídas num veículo durante o primeiro ano de vida
Em todas estas situações, temos um conjunto de ocorrências que satisfazem as seguintes condições:
 o número de ocorrências de um evento em um intervalo de tempo (espaço) é independente do
número de ocorrências do evento em qualquer outro intervalo disjunto –ocorrências
independentes umas das outras;
 a probabilidade de duas ou mais ocorrências simultâneas é praticamente zero;
 o número médio de ocorrências por unidade de tempo (espaço) é constante ao longo do tempo
(espaço) –ocorrências distribuídas uniformemente sobre o intervalo considerado;
68
 o número de ocorrências durante qualquer intervalo depende somente da duração ou tamanho do

intervalo; quanto maior o intervalo, maior o número de ocorrências.
Portanto:
 A variável aleatória X é o número de ocorrências do evento no intervalo;
 O intervalo pode ser o tempo, a distância, a área, o volume ou outra unidade análoga.
Esta distribuição representa a probabilidade de que um evento ocorra num número especificado de vezes
em um intervalo de tempo (espaço), quando a taxa de ocorrência é fixa.
 x .e 
P( x ) 
x!
x = valor da v. a. Número de ocorrências do evento em um intervalo;
λ= taxa de ocorrência do evento x (número esperado de eventos);
e ≈2,71828 (constante natural)
Exemplo
Uma central telefônica tipo PABX recebe uma média de 5 chamadas por minuto. Qual a probabilidade
deste PABX não receber nenhuma chamada durante um intervalo de 1 minuto?
 x .e   5 0 .e  5
P(x)   P ( X  0)   e  5  0 ,0067
x! 0!
X = variável aleatória (v. a.) ou seja Número de chamadas em um intervalo de tempo

λ= taxa de ocorrência de chamadas (número esperado de chamadas).
A distribuição de Poisson exige que:

 a variável aleatória X seja o número de ocorrências de um evento em um intervalo
 as ocorrências sejam aleatórias
 as ocorrências sejam independentes umas das outras
69
 as ocorrências tenham a mesma probabilidade sobre o intervalo considerado.
Os parâmetros da Distribuição de Poisson são: Média:  Desvio Padrão:   
A distribuição de Poisson DIFERE da Distribuição Binomial em dois aspectos:

 a binomial é afetada pelo tamanho da amostra n e pela probabilidade p, enquanto a Poisson é
afetada apenas pela taxa de ocorrência (média) λ
 em uma binomial, os valores possíveis da variável aleatória X são 0, 1, 2, ..., n (limite máximo),
enquanto que em uma Poisson os valores possíveis de X são 0,1,2,3 ... (sem limite superior).
Podemos utilizar a Distribuição de Poisson como uma aproximação da Distribuição Binomial quando:
 “n” é grande e “p”, muito pequeno
 n ≥100 e n.p ≤10 (regra empírica)
Ao utilizarmos Poisson como aproximação da Binomial, podemos achar o valor de λ pela fórmula:
 λ= n . p
Exercícios
1. Um técnico visita os clientes que compraram assinatura de um canal de TV para verificar o
decodificador. Sabe-se, por experiência, que 99% desses aparelhos não apresentam defeitos.
a) Determinar a probabilidade de que em 20 aparelhos pelo menos 17 não apresentam defeitos.
b) Se a probabilidade de defeito for de 0,0035, qual a probabilidade de que em 2000 visitas
ocorra no máximo 1 defeito?
Resolução
a) X: número de decodificadores sem defeito.
X: B (20;0,90). Aplicando Binomial
 20   20 
P ( X  17 )    ( 0 ,90 )17 ( 0 ,10 ) 3  ...    ( 0 ,90 ) 20 ( 0 ,10 ) 0  0 ,19012  0 , 28518  0 , 27017  0 ,12158 
17
   20 
 P ( X  17 )  0 ,86705
b) X: número de decodificadores defeituosos

Y: B (2000; 0,0035) Aplicando aproximação de Poisson
λ=2000x0,0035=7
e 7 .7 0 e 7 .71
P (Y  1)    0,000912  0,006383  0,007295
0! 1!
2. Seja X: B (200; 0,04) usando a aproximação, calcular

a) P(X=6)
b) P(X+2σ>μ) ....Lembre que μ=E(X)....
c) Sendo Z=4X-5, calcular E(Z) e VAR(X).
Resp. a) 0,122138; b) 0,986245 c) E(Z)=27 ; VAR(Z)=122,88.
3. Seja X: B (400; 0,02) Calcular, usando a aproximação pela Poisson:

70
a) P(X=7)
b) P(2≤X<6)
c) P(X≥3)
Resp. a) 0,139587; b) 0,188216; c) 0,986245
Unidade XIII: PROBABILIDADE
Distribuição Exponencial
 Saber e explicar que a distribuição exponencial acarreta a presença da distribuição de Poissson e

estabelecer a sua relação;
 Representar e interpretar as curvas da distribuição de Poisson;
 Definir a equação principal da distribuição exponencial;
 Estabelecer os limites de uso da distribuição exponencial;
 Interpretar os exercícios resolvidos.
Distribuição Exponencial
Aplicação
Aplicada nos casos onde queremos analisar o espaço ou intervalo de acontecimento de um evento;
 Na distribuição de Poisson–estimativa da quantidade de eventos num intervalo –distribuição de
dados discreta.
71
•Ex.: um fio de cobre apresenta uma taxa de 2 falhas por metro. Qual a probabilidade de apresentar, em
um metro, 4 falhas?
 A distribuição exponencial está ligada à de Poisson; ela analisa inversamente o experimento:

um intervalo ou espaço para ocorrência de um evento.
•No exemplo do fio, qual a probabilidade de ocorrer uma falha em em 0,5 metros, se ele possui uma taxa
de 2 falhas por metro?
Aplicação
Relação entre Distribuições de Poisson e Exponencial
A Curva Densidade de Probabilidade
A distribuição exponencial depende somente da suposição de que o evento ocorra seguindo o processo de
Poisson.
No exemplo: a probabilidade relacionada ao comprimento do fio depende apenas da suposição das falhas
no fio seguirem o processo de Poisson.
72
Curva da Distribuição Exponencial
Definição
A variável X, que é igual à distância entre contagens sucessivas de um processo de Poisson, com média λ
> 0, tem uma distribuição exponencial com parâmetro λ. A função densidade de probabilidade de X é:
f ( x )   .e   . x Para 0 ≤ x ≤ ∞
O ponto inicial para medir X não importa, porque a probabilidade do número de falhas em um intervalo de
um processo de Poisson depende somente do comprimento do intervalo e não da localização.
O parâmetro λ é a taxa de ocorrência por intervalo

 Mesmo λ de Poisson
Pode-se usar um parâmetro ‘a’, que é o “tamanho do intervalo entre ocorrências”
 Ex.: λ= falhas por metro de fio →a = metros de fio entre falhas
 Ou: λ= ligações por minuto →a = minutos entre ligações
Assim, tipicamente, a=1/ λ.
1
Neste caso X fica assim determinado: f ( x )  .e  x / a Para 0 ≤ x ≤ ∞
a
Média e Desvio padrão

73
Se a variável aleatória X tiver uma distribuição exponencial, com parâmetro λ (ocorrência por intervalo),
então:
1 1
E ( x)  
 
Ou seja, se λ= 2 falhas/m, então o valor esperado de distância por falha é ½= 0,5m/falha
Se a variável aleatória X tiver uma distribuição exponencial, com parâmetro a (intervalo entre ocorrências),
então:
E ( x)  a  a
Exemplo
1. Em uma grande rede corporativa de computadores, as conexões dos usuários ao sistema podem
ser modeladas como um processo de Poisson, com média de 25 conexões por hora.
a) Qual a probabilidade de não haver conexões em um intervalo de 6 minutos?
f (x)  .e.x
inf
 25 x  25 . inf  25 . 0 , 1  25 . 0 , 1
P ( X > 0,1 )   25 . e . dx   e  ( e )  e  0 , 082
0 ,1
b) Qual a probabilidade de que o tempo até a próxima conexão esteja entre 2 e 3 minutos?
0,05
 25 x  25 . 0 , 05  25 . 0 , 033
P ( 0 , 033 < X < 0,05 )   25 . e . dx   e  ( e )  0 ,152
0 , 033
c) Determine o intervalo de tempo tal que a probabilidade de nenhuma conexão ocorrer neste
intervalo seja 0,90. É o mesmo que dizer “um intervalo em que a probabilidade de ocorrer 1
conexão seja de 0,10”
P ( X  x)  0,10 ;
P ( X > x )  1  P ( X  x )  0 ,90  P ( X > x )  1  e   x  1  e  25 x  1  0 ,90  0 ,10
x  0 ,00421 hora  x  0 , 25 min
Valor esperado até a próxima conexão: E(x)=1/25 = 0,04 horas = 25 min
74
O desvio padrão do tempo atéa próxima conexão: σ= 1/25 = 0,04 hora = 25 min
2. Uma variável aleatória contínua X tem fdp dada por:
 k e  x se x  0
f ( x)   2
 0 se x  0
a) Calcular o valor de k;
b) Determinar F(x);
c) Determinar a mediana da distribuição.
Resolução


a)  k
2 e  x  1  k2 (e  x )  1  k  2 Ou directamente:   1 e  k2  k  2
0
0
 1  e  x se x  0
b) f ( x)  
 0 se x  0
c) m é mediana da distribuição se P(X>m)=P(X<m)


P( X  m)   e  x dx (e  x )  e m
m
m
Comentários
A probabilidade de não haver conexão no intervalo de 6 minutos é 0,082 independente do tempo inicial do
intervalo, pois o processo de Poisson supõe que os eventos ocorrem uniformemente através do intervalo
de observação, não ocorrendo agrupamentos de eventos.
Assim, a probabilidade de ocorrência da primeira ligação após 12:00 ser depois de 12:06 é a mesma
probabilidade de conexão depois das 15:00 ocorrer após 15:06.
Propriedade de Falta de Memória
Seja X o tempo entre detecções de uma partícula rara em um contador geigere considere que X tenha
uma distribuição exponencial com a=1,4 minutos. A probabilidade de detectarmos uma partícula dentro de
30 segundos a partir do começo da contagem é:
 Obs: a=1,4 minutos λ=1/1,4 partículas/minuto para o processo de Poisson
P ( X < 0,5 min)  1 - e -0,5/1,4  0,30

Agora, supondo que ligamos o contador geigere esperamos 3 minutos sem detectar partícula. Qual a
probabilidade de uma partícula ser detectada nos próximo 30 segundos?
75
P ( X < 3,5/X > 3min)  P(3 < X < 3,5)/P(X > 3)

P(3 < X < 3,5)  F(3,5) - F(3)  1 - e - 3,5/1,4
  1  e  3 / 1, 4
  0 , 0035
P(X > 3)  e - 3/1,4  0 ,117
P(3 < X < 3,5)/P(X > 3)  0,035/0,11 7  0,3
Comentários
Depois de esperar por 3 minutos sem uma detecção, a probabilidade de uma detecção nos próximos 30
segundos éa mesma probabilidade de uma detecção nos 30 segundos imediatamente após começar a
contagem.
Uso
A distribuição exponencial é freqüentemente usada em estudos de confiabilidade como sendo o modelo

para o tempo até a falha de um equipamento –muito utilizado para componentes eletrônicos.
Exemplo:
O tempo de vida até a falha de um semicondutor pode ser modelado por uma variável aleatória
exponencial com média de 40.000h.
A propriedade de falta de memória da distribuição exponencial implica que o equipamento não se

desgasta, ou seja: independente de quanto tempo o equipamento tenha operado, a probabilidade de uma
falha nas próximas 1.000h é a mesma que a probabilidade de uma falha nas primeiras 1.000 horas de vida
do equipamento.
Portanto, equipamentos que sofrem desgaste com o tempo (a taxa de falha varia com o tempo de uso),
como peças mecânicas (mancais, rolamentos,...) são melhor modelados por uma distribuição tal que
P(L<t+Δt/L>t) (sendo L o tempo de vida do equipamento) aumente com o tempo –distribuições de Weibull.
76
Unidade XIV: PROBABILIDADE
Distribuição Uniforme, Geométrica, Hipergeométrica e Multinomial
 Identificar as situações da aplicabilidade da distribuição Uniforme e conhecer a sua equação

fundamental;
 Conhecer a esperança e a variância na distribuição uniforme e aplica-las em exercícios;
 Conhecer e interpretar a expressão da distribuição Geométrica e aplicá-la em exemplos
apresentados;
 Conhecer e interpretar a expressão da distribuição Hipergeométrica e aplicá-la em exemplos
concretos;
 Conhecer e interpretar a expressão da distribuição Multinomial e aplicá-la em exemplos concretos e
resolver exercícios propostos mediante o uso destas distribuições;
77
Distribuição Uniforme, Geométrica, Hipergeométrica e Multinomial
Distribuição Uniforme
Usada comumente nas situações em que não há razão para atribuir probabilidades diferentes a um
conjunto possíveis de valores da variável aleatória em um determinado intervalo
 tempo de chegada de um vôo
 distância de posição de cargas em uma ponte, em relação a um pilar terminal
Usualmente associamos uma distribuição uniforme a uma determinada variável aleatória, simplesmente
por falta de informação mais precisa, além do conhecimento do seu intervalo de valores
1
f ( x)  a≤x≤b
ba
A esperança E(X) e a variância VAR(X) da distribuição uniforme

ba
E ( x) 
2
(b  a ) 2
VAR ( x ) 
12
EXEMPLO
Devido a situações imprevisíveis de tráfego, o tempo que um estudante leva para ir de sua casa à aula
matutina segue uma distribuição uniforme entre 22 e 30 minutos.
Se ele sai de casa precisamente às 7:35 da manhã, qual a probabilidade dele não se atrasar para a aula
das 8:00 horas?
Solução
Seja X o tempo (minutos) de chegada do estudante à aula depois de 8:00 horas. Qual a fórmula que
representa a variável aleatória X ?
1
f ( x)  -3 ≤ x ≤ 5
8
Em termos dos valores de X, qual probabilidade estamos
realmente interessados em calcular?
 P ( -3 ≤X ≤0 )
Do gráfico ao lado, temos que: P ( -3 ≤X ≤0 ) = 3. (1/8) = 3/8

78
Distribuição Geométrica
Aplicada em experimentos que satisfazem a todas as condições de experimentos binomiais, exceto por:
 Não ter um número finito de provas. x 1
P( x)  p.(1  p )
Exemplo
Suponha que a probabilidade de um componente de computador ser defeituoso é de 0,2. Numa mesa de
testes, uma batelada é posta à prova, um a um. Determine a probabilidade do primeiro defeito encontrado
ocorrer no sétimo componente testado.
P ( x )  p.(1  p ) x 1  P ( 7 )  0, 2 .(1  0,2 ) 7 1  0,0524
Distribuição Hipergeométrica
No caso de amostragem sem reposição de uma população finita, não podemos utilizar a Distribuição
Binomial, pois não satisfaz ao critério de probabilidade constante (p) em cada experimento.
Nestes casos, utilizamos a Distribuição Hipergeométrica.
Aplica-se em situações onde:

 Há N objetos (indivíduos) na população
 A população divide-se em dois tipos: M objetos do tipo A e N –M objetos do tipo B
 Escolhe-se uma amostra de tamanho n da população
 Seja X uma variável aleatória igual ao número de objetos do tipo A na amostra. X tem distribuição
hipergeométrica com parâmetros N, M e n
Ex.: Suponha-se que haja N transistores, dos quais M são MOSFET e N-Msão BJT. Extrai-se uma amostra
aleatória de n transistores, sem reposição. Qual a probabilidade de exatamente ktransistores serem do tipo
MOSFET?
Neste contexto e, baseando-se em experiências repetidas várias vezes conclui-se que a expressão que
melhor define a distribuição hipergeométrica é dada por:
 M
 N M  A! B!
   .
P(X  x)   x   n  x   P ( x )  ( A  x )! x ! ( B  n  x )! ( n  x )!
 N  ( A  B )!
 
 n  ( A  B  n )! n !
Onde:
A— objectos de um tipo;
B--- objectos restantes de outro tipo;
n--- objectos extraidos sem reposição;
x--- objectos do tipo A.
79
Exemplo
1. Numa Lotaria, um apostador escolhe 6 números de 1 a 54. Qual a probabilidade dele acertar 5
números?
 M=6; N-M=48; n=6; x=5
Solução
 M
 N M  6! 48 !
   .
P ( X  x)   x   n  x   P ( x )  ( 6  5 )! 5 ! ( 48  6  5 )! ( 6  5 )!
N ( 6  48 )!
 
n ( 6  48  6 )! 6 !
288 5
P (x)   1 ,1151 . 10
25827165
2. Na Mega-Sena, um apostador escolhe 7 dezenas dentre 60. Qual a probabilidade dele acertar as
6 dezenas corretas? Compare com a probabilidade dele acertar as 6 dezenas jogando apenas 6
dezenas.
 M=6; N-M=60-6=54; n=7; x=6
 M  N  M  A! B!
   .
( A  x )! x! ( B  n  x )! ( n  x )!
P ( X  x )   x  N n  x   P ( x ) 
  ( A  B )!
 
n ( A  B  n )! n!
 6  60 6 
  
54
P ( X  x )   6 6076   P ( x )   1,3982 .10 7
  386206920
 
7
Comparando com a probabilidade de acertar 6 dezenas, jogando apenas 6: M=6; N-M=60-6=54; n=6; x=6
 6
  60  6 
  
1
P ( X  6)   6  66   P ( x )   1 , 9974 . 10 8
 60  50063860
 
 6 
80
Preços das Jogadas na Mega-Sena

Dezenas Aposta Valor
6 1 1,50
7 7 10,50
8 28 42,00
9 84 126,00
10 210 315,00
11 462 693,00
12 924 1.386,00
13 1716 2.574,00
14 3003 4.504,50
15 5005 7.507,50
Fonte: www.caixa.gov.br acessado em 04.04.2006
Dividindo a probabilidade de acertar 6 jogando 7, com a probabilidade de acertar 6 jogando 6, tem-se:
7
1 , 3982 . 10
8
 7
1 , 9974 . 10
Isto significa que, jogando 7 dezenas, tem-se uma chance 7 vezes maior de acertar as 6 dezenas corretas.
Com efeito, o preço pago por um cartão de 7 dezenas é7 vezes maior que o preço de um cartão com 6
dezenas!
Distribuição Multinomial
A Distribuição Binomial se aplica apenas nos casos que envolvem mais que 2 tipos de resultados. A
Multinomial envolve mais que duas categorias.
Por exemplo, para três resultados:
n!
P ( x)  . p 1x1 . p 2x 2 . p 3x 3
( x 1 ! ).( x 2 ! ).( x 3 ! )
Exemplo
Um experimento de genética envolve 6 genótipos mutuamente excludentes identificados por A, B, C, D, E

e F, todos igualmente prováveis. Testados 20 indivíduos, determine a probabilidade de obter exatamente:
 5 A; 4 B; 3 C; 2 D; 3 E; 3 F.
Solução
20!
P( x)  .(1 / 6 ) 5 .(1 / 6 ) 4 .(1 / 6 ) 3 .(1 / 6 ) 2 .(1 / 6 ) 3 .(1 / 6 ) 3  P ( x )  0 , 000535
5!. 4!. 3!. 2!. 3!. 3!
81
Exercícios
1. Numa urna há 40 bolas brancas e 60 pretas e, retiram-se 20 bolas. Qual a aprobabilidade de que
ocorram no mínimo 2 bolas brancas, considerando as extracções:
a) Sem reposição;
b) Com reposição
Resolução
X: número de bolas brancas
a) Hipergeométrica
  40  60   40  60  
P ( X  2)  1  P ( X  2)  1  P ( X  0)  P ( X  1)  1     100
0  20  1  19 

   100  

  20  
 20

  
 P ( X  2)  1  0,000008  0,000153  1  0,000161  0.999839
40
b) X: B (20;0,4); P  100  0,4
P( X  2)  1  P( X  2)  1  (0,00003  0,00049)  1  0,00052  0,99948
2. Uma fábrica de máquinas de lavar roupas separa de sua linha de produção diária de 350 peças,
uma amostra de 30 itens para inspecção. O número de peças defeituosas é de 14 por dia. Qual a
probabilidade de que a amostra contenha pelo menos 3 máquinas defeituosos?
(Hipergeométrica; Resp: 0,108453).
3. Uma urna tem 10 bolas brancas e 40 pretas.

a) Qual a probabilidade de que a 6ª bola retirada com reposição seja a 1ª branca? (Geométrica)
b) Qual a probabilidade de que de 16 bolas retiradas sem reposição ocorram 3 brancas? (Hiperg)
c) Qual a probabilidade de que a 15ª bola extraida com reposição seja a 6ª branca? (Pascal)
d) Qual a probabilidade de que em 30 bolas retiradas com reposição ocorram no máximo 2
brancas? (Binomial).
e) Se o número de bolas na urna fosse 50 brancas e 950 pretas, qual seria a probabilidade de
que retirando-se 200 bolas, com reposição, ocorressem pelo menos 3 brancas? (Poisson)
Resp. a) 0,065536, b) 0,293273 c) 0,008599 d) 0,04419 e) 0,997231
4. Um ponto é escolhido ao acaso no intervalo (0;2). Qual a probabilidade de que esteja entre 1 e
1,5?
Resolução (Distribuição Uniforme)
1,5
 12 ;0  x  2 1,5
f ( x)   ; P (1  X  1,5)   12dx  12 x  14
0; x  0oux  2 1
1
5. A dureza H de uma peça de aço pode ser pensada como sendo uma variável aleatória com
distribuição uniforme no intervalo (50;70) da escala de Rockwel. Calcular a probabilidade de que
uma peça tenha dureza entre 55 e 60.
82
Unidade XV: PROBABILIDADE
Distribuição Normal
 Entender que na distribuição normal entra em jogo uma variável aleatória contínua;
 Definir e escrever a função densidade da distribuição normal;
 Interpretar os conceitos e as figuras relacionadas a distribuição normal padrão;
 Acompanhar e explicar os exercícios resolvidos;
 Resolver os exercícios resolvidos.
Distribuição Normal
Uma variável aleatória contínua tem uma distribuição normal se sua distribuição é:
 simétrica
 apresenta (num gráfico) forma de um sino.
Função Densidade da Distribuição Normal

1 x   2
 ( )
2 
e
f (x) 
 2
Se quisermos calcular a probabilidade de dois pontos a
e b, podemos fazer:
1 x  2
a  ( )
e 2 
P ( a  X )   dx
b  2
Na distribuiçao normal, existem conceitos que entretanto são tomados em consideração, nomeadamente:
 Quando uma distribuição é contínua, o gráfico de distribuição é uma linha contínua

83
 Não se visualiza as barras de um histograma, mas freqüências de ocorrências de cada valor de x

em intervalos infinitesimais
 Forma uma Curva de Densidade de Probabilidade (função pdf–ProbabilityDensityFunction).
A função densidade da distribuição normal (e de qualquer outra variável aleatória contínua) pode ser
compreendida como uma extensão natural de um histograma.
Neste caso, a probabilidade é a área sob a curva de densidade. Portanto, para qualquer P(x): P(x)≥0
+Inf
 P(x)dx 1 0  P(x)  1 Função de distribuição normal.

- Inf
Note que a distribuição normal é especificada por dois parâmetros:

 μ representa a média populacional, e
 σ representa o desvio-padrão populacional.
1 x  2
( )
2 
e
f (x)  Em função dos gráficos, é usada a expressão.
 2
Média e Desvio Padrão
Na distribuição normal, o desvio padrão e a média variam de acordo com cada disposição de gráficos e
dos dados.
84
Distribuição Normal Padronizada
Cada par de parâmetros (μ, σ) define uma distribuição normal distinta!
A figura mostra as curvas de densidade para alturas de mulheres e homens adultos em Moçambique.
A distribuição normal padronizada tem média e desvio padrão iguais a: μ=0, σ=1
A distribuição normal padronizada facilita os cálculos de probabilidade, evitando o x

Z 
uso da fórmula e projetando qualquer análise mediante utilização de ESCORES (Z): 
Se x é uma observação de uma distribuição que tem média μ e desvio-padrão σ, o Z  x  
valor padronizado de x é: 
Note que o valor padronizado representa o número de desvios-padrão pelo qual um valor x dista da média
(para mais ou para menos). Ou seja, como a distribuição normal padronizada é aquela que tem média 0 e
desvio-padrão 1, ou seja N(0, 1).
Se uma variável aleatória x tem distribuição normal qualquer x~N(μ, σ), então a variável padronizada tem
distribuição normal (Z).
85
Exemplo
1. Um professor de cálculo aplica dois testes diferentes a duas turmas do seu curso. Os resultados
foram:
Turma 1: média = 75; desvio = 14
Turma 2: média = 40; desvio = 8
 Que nota é relativamente melhor: 82 na turma 1, ou 46 na turma 2?

 A estimativa de probabilidades associadas a variáveis aleatórias contínuas envolve o cálculo de
áreas sob a curva da densidade.
 O uso da distribuição normal padronizada nos permite calcular áreas sob a curva de uma
distribuição normal qualquer, pois as áreas associadas com a normal padronizadas são tabeladas.
 A Tabela será usada para os cálculos de probabilidade envolvendo distribuições normais.
2. Uma empresa fabrica termômetros que devem acusar a leitura de 0 °C no ponto de congelamento
da água. Testes feitos em uma grande amostra desses termômetros revelaram que alguns
acusavam valores inferiores a 0 °C e alguns acusavam valores superiores. Supondo que a leitura
média seja 0°C e que o desvio-padrão das leituras seja 1,00 °C, qual a probabilidade de que, no
ponto de congelamento, um termômetro escolhido aleatoriamente marque entre 0 e 1,58 °C?
Admita que a freqüência de erros se assemelhe a uma distribuição normal.
3. A distribuição de probabilidade das leituras é uma normal padronizada porque as leituras têm μ= 0
e σ= 1. A área da região sombreada, delimitada pela média 0 e pelo número positivo z, pode ser
lida na Tabela.
86
Portanto, a probabilidade de se escolher aleatoriamente um termômetro com erro entre 0 e 1,58 °C é

44,29 %. Outra maneira de interpretar este resultado é concluir que 44,29% dos termômetros terão erros
entre 0 e 1,58 °C.
Com os termômetros do exemplo anterior, determine a probabilidade de se selecionar aleatoriamente um

termômetro que acuse (no ponto de congelamento da água), uma leitura entre -2,43 °C e 0 °C?
Na figura seguinte, estamos interessados na região sombreada da Figura (a), mas a Tabela se aplica
apenas a regiões à direita da média (0), como a da Figura (b). Podemos ver que ambas as áreas são
idênticas porque a curva de densidade é simétrica !
Exemplo
1. A probabilidade de se escolher aleatoriamente um termômetro com erro entre -2,43°C e 0°C é
49,25 %. Em outras palavras, 49,25% dos termômetros terão erros entre -2,43 °C e 0 °C
2. Mais uma vez, faremos uma escolha aleatória da mesma amostra de termômetros. Qual a
probabilidade de que o termômetro escolhido acuse (no ponto de congelamento da água), uma
leitura superior a +1,27 °C?
A probabilidade de escolher um termômetro que acuse leitura superior a 1,27 °C corresponde à área
sombreada da figura. Se a área total sob a curva da densidade é igual a 1, a área à direita de zero vale
metade, isto é, 0,5. Assim, podemos calcular facilmente a área sombreada!
87
Podemos concluir que há uma probabilidade de 10,20% de escolher aleatoriamente um termômetro com
leitura superior a +1,27°C. Podemos dizer, ainda, que, em um grande lote de termômetros escolhidos
aleatoriamente e testados, 10,20% deles acusarão leitura superior a +1,27 °C.
De novo, faremos uma escolha aleatória da mesma amostra de termômetros.
Qual a probabilidade de que o termômetro escolhido acuse (no ponto de congelamento da água), uma
leitura entre 1,20 e 2,30 °C?
A probabilidade de escolher um termômetro que acuse leitura entre 1,20 e 2,30 °Ccorresponde à área
sombreada da figura
É fácil perceber que podemos calcular esta área, subtraindo-se a área de 0 até o maior valor (2,30), da
área de 0 até o menor valor (1,20), que são lidas na Tabela!
Dos exemplos anteriores, podemos expressar as probabilidades calculadas com a notação seguinte:
P (a < z < b) denota a probabilidade de o valor de z estar entre a e b

P (z > a) denota a probabilidade de o valor de z ser maior do que a
P (z < a) denota a probabilidade de o valor de z ser menor do que a
As figuras que se seguem ajudam a interpretação das expressões mais comuns no cálculo de
probabilidades:
88
Distribuição Normal Não Padronizada
Os exemplos feitos com o termômetro não são muito realistas porque a maioria das populações
distribuídas normalmente têm média diferente de 0, desvio diferente de 1, ou ambos.
Como proceder, então, para calcular probabilidades de distribuições normais não-padronizadas?
A idéia é utilizar a fórmula dos valores padronizados e TRANSFORMAR qualquer distribuição normal dada
na normal padronizada, como mostrado abaixo.
89
Exemplo
As alturas das mulheres americanas segue uma distribuição normal com média de 63,6”e desvio-padrão
de 2,5”. Selecionada uma mulher americana ao acaso, qual a probabilidade da sua altura estar entre 63,6
e 68,6 polegadas?
Devemos proceder da maneira descrita a seguir:
 Trace uma curva normal, assinale a média e outros valores de interesse, e sombreie a região que
representa a probabilidade desejada;
 Para cada valor x da fronteira da região sombreada, aplique a fórmula para achar o valor
padronizado z
 Utilize a Tabela para achar a área da região sombreada
Exemplo
Há, portanto, uma probabilidade de 0,4772 de escolher uma mulher com altura entre 63,6 pol. e 68,6 pol.
Usando a notação, teríamos: P (63,6 < x < 68,6) = P (0 < z < 2,00) = 47,72%. Outra forma de interpretar
este resultado consiste em concluir que 47,72% das mulheres americanas têm altura entre 63,6 pol. e 68,6
pol.
Regra 68-95-99,7 Numa distribuição normal N(μ, σ) ou N(x, s)

90
A distribuição Normal Padronizada envolve o uso de Tabelas, assim sendo em ANEXO encontrará
todas as tabelas que necessitar para os exercícios que assim exigirem.
Acompanhe atentamente a resolução dos exercícios seguintes, que inclui todos os passos
inclusive o uso de tabelas.
1. O 1º teste da disciplina de Probabilidade e Estatística, em uma certa turma teve a média 10 e

desvio padrão 8. Tome x a variável aleatória contínua que representa as notas obtidas no teste e,
assim diz-se que x tem distribuição normal padrão com média 10 e desvio padrão 8 ou ainda
x~N(10;8).
a) Qual é a probabilidade de as notas se situarem entre 6 a 12 valores?
b) Qual é a probabilidade de as notas se situarem até ao máximo 8 valores ou acima de 14
valores?
c) Determine o valor de k que pelo menos um estudante pode obter, sabendo que a sua
probabilidade de ocorrência é de 0,05.
d) Determine o valor de k que no máximo um estudante pode obter, sabendo que a
probabilidade desta nota ocorrer é de 0,025.
91
1. Resolução
a) P (6  X  12)  ?
Em seguida temos que converter os valores de x para
z, de acordo com a expressão ora estabelecida:
X 
Z

 X  X   6  10 12  10 
P Z   P Z   P(0,5  Z  0,25)  P(Z  0,25)  P(Z  0,5)
     8 8 
Na tabela (Z≤z; ou Z<z), procurando na coluna 0,2 intersectado com a linha 0,05 encontramos 0,5987. E
na coluna -0,5 intersectado com a linha 0,0 encontramos 0,3085. Assim sendo escrevemos:
 P( Z  0,25)  P( Z  0,5)  0,5987  0,3085  P( Z  0,25)  P( Z  0,5)  0,2902
b) P ( X  8  X  14)  ? Convertendo x para z,

assim como fizemos em a) teremos:
 8  10   14  10 
 P Z    P Z  
 8   8 
 P(Z  0,25)  P( Z  0,5)  P(Z  0,25)  P( Z  0,5)
 P(Z  0,25)  P( Z  0,5)  0,4013  0,3085  0,7098
c. k tal que P ( X  k )  0,05
A área de toda a figura corresponde a probabilidade de 1. Se o

valor de k tem probabilidade de 0,05 então a área não abrangida
corresponde 1-0,05=0,95.
Pela tabela, a área de 0,95 resulta em Z=1,64. Baseando-se na

X  k  10
expressão: Z   1,64   k  23,12 .
 8
d) k tal que P ( X  k )  0,025
Se a variável x menor que k tem probabilidade de 0,025 então a

área não abrangida corresponde 1-0,025=0,975.
Pela tabela, a área de 0,975 resulta em Z=1,96. Como Z é

negativo a expressão fica:
X  k  10
Z   1,96   k  5,68 .
 8
92
2. O tempo gasto no exame vestibular de uma universidade tem distribuição normal, com média 120
min e desvio padrão 15 min.
a) Sorteando um aluno ao acaso, qual é a probabilidade que ele termine o exame antes de 100
minutos?
b) Qual deve ser o tempo de prova de modo a permitir que 95% dos estudantes terminem no prazo
estipulado?
c) Qual é o intervalo central de tempo, tal que 80% dos estudantes gastam para completar o exame?
Resolução
a) X: tempo gasto no exame vestibular, X ~ N(120; 152)
 X   100  120 
P ( X  100)  P Z    P Z  
    15 
 P ( Z  1,33)  1  P ( Z  1,33)  1  0,9082  0,0918
b) X: tempo gasto no exame vestibular, X ~ N(120; 152)

P ( X  x)  0,95
Vamos procurar na tabela o valor de Z correspondente a área de
0,95. Feito isto obtém se que Z=1,64.
Assim sendo apliquemos a expressão:
X  120
 1,64  X  144,6 min
15
c) X: tempo gasto no exame vestibular, X ~ N(120; 152)

De acordo com a natureza do exercício teremos praticamente
duas incógnitas, podemos supor x1 e x2.
Vamos encontrar o valor de Z correspondente a área de 80%

portanto 0,8.
Na tabela consta que Z=0,84.
 x1  120
 15  0,84  x1  107,4 min

 x2  120  0,84  x  132,6 min
 15 1
3. Neste exercício, em todos os pedidos o Z está

padronizado. Calcule os pedidos colocados.
P ( Z  0,32)  ?
a)
P ( Z  0,32)  Area(0,32)  0,6255
93
b) P (0  Z  0,71)  ?
P (0  Z  0,71)  P ( Z  1,71)  P( Z  0) 
 A(1,71)  A(0)  0,9564  0,5 
Obs : P ( Z P0(0)  PZ( Z
 0,71
0))00,5, 4564
P (1,32  Z  1,79)  ?
P (1,32  Z  1,79)  P (Z  1,79)  P ( Z  1,32) 
c)
 A(1,79)  A(1,32)  P (1,32  Z  1,79) 
 P (1,32  Z  1,79)  0,9633  0,9066  0,0567
P ( Z  1,5)  ?
d) P ( Z  1,5)  1  P ( Z  1,5)  1  A(1,5)
 1  0,9332  0,0668
P ( Z  1,3)  ?
e) P ( Z  1,3)  P ( Z  1,3)  1  P ( Z  1,3)
 1  0,9032  0,0968
Obs : P ( Z  1,3)  P ( Z  1,3)
P (1,5  Z  1,5)  ?
P (1,5  Z  1,5)  P ( Z  1,5)  P ( Z  1,5)
 P (Z  1,5)  P ( Z  1,5) 
f)
 P ( Z  1,5)  1  P ( Z  1,5)  2.P (Z  1,5)  1 
 P (1,5  Z  1,5)  2. A(1,5)  1  2.0,9332  1
 P (1,5  Z  1,5)  0,8664
P (1,32  Z  0)  ?
P (1,32  Z  0)  P (0  Z  1,32) 
g)
 P (Z  1,32)  P (Z  0) 
 A(1,32)  0,5  0,9066  0,5  0,4066
94
P ( 2,3  Z  1,49)  ?
h) P ( 2,3  Z  1,49)  P (1,49  Z  2,3) 
 A(2,3)  A(1,49)  0,9893  0,9319  0,0574
P (1  Z  2)  ?
P (1  Z  2)  P ( Z  2)  P ( Z  1) 
 A(2)  P ( Z  1)  A(2)  1  P ( Z  1) 
i)
 A(2)  1  A(1)  P (1  Z  2) 
 0,9773  1  0,8413  0,9773  0,1587 
 P (1  Z  2)  0,8186
1. Seja X~N (20;2). Achar os valores reduzidos correspondentes a X=14, 16, 18, 20, 22, 24 e, 26. Esboce
os gráficos de distribuição normal, para a variável aleatória X e Z.
2. Suponha um Engenheiro a pesquisar as horas que a semente de milho ‘’Pan 67’’ leva para germinar.
Um grupo de estudantes envolvidos no processo de pesquisa, fixam em 192horas e desvio padrão 4
hrs para que a respectiva semente germine.
a) Esboce esta informação no gráfico, mostrando o triplo de desvio em ambos os lados do eixo
(para a variável padronizada Z e a variável contínua X);
b) Qual é a probabilidade de a semente levar 192 a 200 hrs para germinar? Interprete o
resultado da probabilidade.
c) Ache a probabilidade de a semente germinar em pelo menos 168 hrs;
d) Ache a probabilidade de a semente germinar no intervalo entre 180 a 196 hrs;
3. Suponha que uma pesquisa, fixa em 190 horas e desvio padrão 4 hrs para que uma determinada
cultura demonstre uma certa característica. Escreva e calcule a probabilidade nos intervalos descritos.
Acompanhe com gráficos a sua resolução.
a) Entre 190 a 200 hrs; b) Em pelo menos 181 hrs; c)Entre 180 a 196 hrs.
4. Considere que X~N (100, 5). Calcule:
a) P(100≤X≤106)
b) P(89≤X≤107)
c) P(112≤X≤116)
d) P(X≥108)
5. Sendo X~N (50, 4), determinar Xα tal que:

a) P(X ≥ Xα)=0,05 b) P(X ≤ Xα)=0,99
95
6. Um fabricante de baterias sabe, por experiência passada, que as bacterias de sua fabricação tem vida
média de 600 dias e desvio padrão 100 dias. Sendo que a duração tem aproximadamente distribuição
normal, oferece uma garantia de 312 dias, isto é, troca as baterias que apresentarem falhas nesse
período. Ele fabrica 10.000 baterias mensalmente. Quantas deverá trocar pelo uso da garantia,
mensalmente? (Solução: 19,88≈20).
7. O volume de correspondência recebido por uma firma quinzenalmente tem distribuição normal com
média 4.000 cartas e desvio padrão 200 cartas. Qual a percentagem de quinzenas em que a firma
recebe:
a) Entre 3.600 e 4.250 cartas?
b) Menos de 3.400 cartas?
c) Mais de 4.636 cartas?
8. Numa fábrica foram instaladas 1000 lâmpadas novas. Sabe-se que a duração média das lâmpadas é
de 800 hrs e desvio padrão de 100 hrs, com distribuição normal. Determinar a quantidade de
lâmpadas que durarão:
a) Menos 500 hrs b) Mais de 700 hrs c) Entre 516 e 684 hrs.
Aplicação directa da Função de Distribuição Normal
9. O diâmetro X de um cabo eléctrico é uma variável aleatória contínua com f.d.p dada por:
k (2 x  x 2 ) 0  x  1
f ( x)  
 0 x  0 ou x  0
a) Determinar K b) Calcular E(X) e VAR(X) c) Calcular P(0≤X≤0,5)
Resolução
1 1
2 2 x3
a)  k (2 x  x )dx  1  k ( x  ) 3 1 k  3
2
0 0
1 1 1
2 2 3 3 x4 1 3 3 x4
b) E ( X )   k .x (2 x  x )dx   (2 x  x )dx  ( x  )  x 
3
2
3
2
2
3 4 0 8  E ( X )  1  38  58
0 0 0
1
1
E ( X 2 )   32 (2 x 3  x 4 )dx  32 ( 24 x 4  15 x 5 ) 0
 34  103 E ( X 2 )  9
20
0
VAR( X )  E ( X 2 )  E ( X )    58  
2 9 2 9 25 125
20 20  64  144320 19
 320
0, 5
0 ,5
c) P (0  X  0,5   k (2 x  x 2 ) dx  32 ( x 2  x3 )
3
0
 3
2  14  241   165
0
10. A variável aleatória X tem fdp dada pelo gráfico abaixo.
Determinar:
a) P(X>2)
b) m tal que P(X>m)=1/8
c) E(X)
d) VAR(X)
e) F(x) e seu gráfico.
96
11. A fdp da variável aleatória contínua X é dada pelo gráfico. Determinar m tal que P(X<m)=3/4.P(X>m).
2  2 x 0 x3
f ( x)   3 9 para
 0 x  0 ou x  3
12. Uma fábrica de tubos de TV determinou que a vida média dos tubos de sua fabricação é de 800 horas
de uso contínuo e segue uma distribuição exponencial. Qual a probabilidade de que a fábrica tenha de
substituir um tubo gratuitamente, se oferece uma garantia de 300 hrs de uso?
Use esses dados: Seja X- vida útil dos tubos de TV. E(X)=800; Como E( X )  1  1  800   800
1
1
 1 e 800 x x0
f ( x)   800 se
 0 x0
13. A variável aleatória contínua X tem fdp dada por:
6( x  x 2 ) 0  x 1
f ( x)   para
 0 x  0 ou x  1 Calcular: P(μ-2σ<x< μ+2σ
14. Uma variável aleatória contínua x tem sua fdp dada pelo gráfico.
a) Determinar k
b) Calcula P(0≤X≤2)
c) Calcular E(X)
15. O diâmetro X de um cabo para TV é uma variável aleatória contínua com fdp dada por:
 3 (2 x  x 2 ) 0  x 1
f ( x)   2 para
 0 x  0 ou x  1
A probabilidade de um cabo sair com diâmetro defeituoso é dada por p 1=0,5125-P(X≤0,5). Se 25

cabos são produzidos, qual a probabilidade de que:
a) Pelo menos 2 sejam defeituosos?

b) Exactamente 6 sejam defeituosos?
97
Unidade XVI: PROBABILIDADE E ESTATÍSTICA
Teorema do Limite Central e Intervalo de Confiança
 Conhecer e interpretar o teorema do limite central e intervalos de confiança;

 Definir e aplicar a estimativa de média populacional na análise de exercícios relacionados;
 Construir os intervalos de confiança e avaliar os respectivos níveis de confiança;
 Calcular e explicar os valores críticos;
 Resolver os exercícios resolvidos para consolidar o conhecimentio adquirido.
Teorema do Limite Central e Intervalo de Confiança

98
Teorema de Limite Central
Um variável aleatória pode ter uma distribuição qualquer (normal, uniforme,...), possuindo uma média μ e
um desvio-padrão σ.
Se, ao invés de tirarmos uma única amostra (digamos, 100 coletas), tirarmos várias amostras de tamanho
ń´(digamos, 20 amostras compostas por cinco coletas: 20x5=100 coletas) e analisarmos a distribuição
das médias de cada amostra de tamanho ń´, observaremos que:
À medida que o tamanho ń´ da amostra aumenta, a distribuição das médias amostrais tende a uma
distribuição normal.
__ __
A média das médias amostrais tenderá à média populacional:  __

__
   x 
 x
x m

O desvio padrão das médias amostrais será o Erro-padrão da média, dado por:  __ 
x n
o que há de extraordinário no teorema do limite central? ele nos diz que qualquer que seja a forma da
distribuição original, suas médias resultam numa distribuição normal. para encontrarmos a distribuição da
média, basta conhecermos a média da população e o desvio padrão.
todas as três densidades acima têm a mesma média e desvio padrão. apesar de suas formas diferentes,
quando n=10, as distribuições das médias das amostras são praticamente idênticas.
Teorema do Limite Central
Observações importantes:
–Quando maior o tamanho das amostras, a distribuição das médias será mais próxima de uma distribuição
normal.
99
–Regra prática: para n>30, a distribuição das médias amostrais pode ser aproximada satisfatoriamente por
uma distribuição normal.
–Se a distribuição da variável ‘x’ for originalmente uma distribuição normal, então a distribuição das médias
amostrais terá distribuição normal para qualquer tamanho amostral ‘n’.
Estimativa de Média Populacional
Supondo que coletemos 20 amostras de alturas de alunos e considerando que esta representa
efetivamente a população de alunos da universidade. Como estimativa da média da população (μ) de
alunos, poderíamos utilizar:
–A média
–A moda
–A mediana
–Ponto médio
Em geral, entretanto, a média amostral do conjunto de dados é a melhor estimativa de uma média
populacional.
Importa neste ponto tecer algumas observações, nomeadamente:
–Uma estimativa é um valor específico, ou um intervalo de valores usados para aproximar um parâmetro
populacional.
–Um estimador é uma característica da amostra, utilizado para obtermos uma aproximação do parâmetro
populacional.
Razões para utilizarmos a média amostral como um estimador de uma média populacional μ:
–A distribuição das médias amostrais tende a apresentar menor variação do que distribuições de outras
características amostrais (mediana ou moda);
–É um estimador não tendencioso da média populacional μ: tende a centrar-se em torno de μ; tende a um

valor central que é o próprio valor de μ.
Como a média amostral é um valor pontual, chamamos a este de estimador pontual.
Portanto, a média amostral é a melhor estimativa pontual da média populacional μ.
No nosso exemplo, a suposição da média amostral das 20 amostras é a melhor estimativa pontual da
população de alunos da universidade.
Entretanto,.... O que nos garante que as 20 amostras compõem uma boa estimativa da população?
100
Associamos, assim, uma estimativa pontual a uma outra estimativa: Intervalo de Confiança ou
Estimativa Intervalar.
Exemplo
considere uma arqueira (atirador de zagaia) atirando em um alvo. suponha que ela acerta no centro com
raio de 10 cm 95% das vezes. ou seja, erra apenas uma vez a cada 20 tentativas.
sentado atrás do alvo encontra-seum bravo detetive, que não vê onde está o centro. a arqueira atira a
primeira flecha..
conhecendo o nível da habilidade da arqueira,o detetive desenha um círculo com 10 cm de raio ao redor
da flecha. ele tem 95% de confiança deque o seu círculo inclui o centro do alvo!
ele raciocinou que se desenhasse círculos com 10 cm de raio ao redor de muitas flechas,os seus círculos
incluiriam o centro do alvo em 95% dos casos.
Significado do Intervalo de Confiança
Total (Sim) ≥100 (1-n); Total (Não) ≤100n
Como melhorar a confiança?
aumentando o tamanho do círculoo ou, melhorandoa mira da arqueira!

101
o primeiro método é equivalente a alargar o intervalo de confiança. quanto maior for a margem de erro,
mais certo você está de que o valor desejado encontra-se no intervalo:
Intervalo de Confiança
É uma amplitude (ou um intervalo) de valores que tem a probabilidade de conter o valor verdadeiro da
população.
Observa-se que, na definição de intervalo de confiança, está associado uma probabilidade.
A esta probabilidade chamamos de: Nível de Confiança, Grau de Confiança, ou ainda Coeficiente de
Confiança.
Probabilidade (c1 ≤ μ ≤ c2) = 1 – α
O intervalo (c1, c2) é chamado de intervalo de confiançada média da população. Onde:

 α é o nível de significância.
 100(1-α) é o nível de confiança em %.
 1-α é o coeficiente de confiança.
Construção do Intervalo de Confiança
 Probabilidade [xinf ≤ μ ≤ xsup] = 1-α

 Determinar o Nível de Confiança desejado (90%, 95%, 99%)
 A partir do NC →área da normal padronizada
 A partir da área →valores críticos Zα/2
–Os valores críticos são os limites inferior e superior
 A partir dos valores críticos Zα/2 →converter para os valores da distribuição normal original (x)
–Cálculo dos limites inferior e superior do Intervalo de Confiança.
__
__
x  x
Z /2 
 / n
Nível de Confiança (NC)
É a probabilidade 1-α (comumente expressa percentualmente) do intervalo de confiança conter o valor

verdadeiro, o parâmetro populacional.
Graças ao Teorema do Limite Central, pode-se usar a Distribuição Normal Padronizada (z) para construir
os Intervalos de Confiança (calcular os limites do Intervalo)
102
Comumente utiliza-se NC de:

•90% →α= 0,1
•95% →α= 0,05
•99% →α= 0,01
Observações:
–O Intervalo de Confiança consiste em um intervalo na

escala z e está associado a um NC.
Conclusão:
–Se coletarmos várias amostras de 20 alunos e construirmos um intervalo de 95% de confiança para cada
uma, a longo prazo, 95% destes intervalos conteriam efetivamente a média da população μ.
Valor Crítico:
Zα/2 – Corresponde ao valor de fronteira da área de α/2 na

cauda direita da distribuição normal padronizada.
–Éo número na fronteira que separa os valores estatísticos

amostrais prováveis de ocorrerem, dos valores que tem pouca
chance de ocorrer.
–É um escore z com a propriedade de separar uma área de

α/2 na cauda direita da distribuição normal padronizada.
Observação Importante
Pelo Teorema do Limite Central, sabemos que as médias amostrais tendem a distribuir-se por uma
normal. Assim, a área sombreada apresenta chance relativamente pequena de conter uma média
amostral.
Denotando de α/2 a área sombreada de cada extremo, há uma probabilidade de α da média amostral
estar em um dos extremos. Pela regra do complemento, há uma probabilidade de (1 –α) da média
amostral estar na região não sombreada.
103
Por que se usa a Distribuição Normal Padronizada?
–Pelo Teorema do Limite Central, as médias amostrais distribuem-se normalmente em torno da média das
médias. Então, pode-se usar a Normal Padronizada para cálculo das áreas (probabilidades).
Exercícios (Valores de Zα/2)
Calcule o valor crítico Zα/2 que corresponde ao NC de 90%.
NC = 0,90 => α=0,10 => α/2=0,05
Na tabela de Distribuição Normal:
•α/2 = 0,05 •Área entre Z=0 e Z=α/2 é 0,45 •Zα/2 = 1,645
Calcule o valor crítico Zα/2 que corresponde ao NC de 95%.
NC = 0,95 => α=0,05 => α/2=0,025
Na tabela de Distribuição Normal:

•α/2 = 0,025 •Área entre Z=0 e Z=α/2 é 0,475 •Zα/2 = 1,96
Calcule o valor crítico Zα/2 que corresponde ao NC de 99%: NC = 0,99 => α=0,01 => α/2=0,005
Na tabela de Distribuição Normal: •α/2 = 0,005 •Área entre Z=0 e Z=α/2 é 0,495 •Zα/2 = 2,575
Exercícios
1. O processo de produção das unidades de caixa de controle de um tipo de motor foi modificado
recentemente. Antes da modificação, os dados históricos indicavam que os diâmetros do orifício
dos mancais nas caixas eram distribuídos normalmente com σ=0,100mm. Acredita-se que a
modificação no processo não tenha alterado a distribuição ou o desvio padrão, mas o valor do
diâmetro médio pode ter mudado.
 Seleciona-se uma amostra de 40 caixas e mede-se o diâmetro do orifício para cada uma,
resultando num diâmetro médio de 5,426mm. Calcule um IC para o diâmetro médio real
(populacional) do orifício usando um NC de 90%.
Resolução
De acordo com os dados apresentados no enunciado do exercício, podemos aplicar a fórmula respectiva e
resolver de forma simples:
104
 __ x S  5, 426
  1, 645
__  0,026  x S  5, 426  x S  5, 452
x x  0 ,100 / 40
Z / 2  
/ n   1,645  x S  5, 426   0, 026  x  5, 426  x  5, 400
i i
 0,100 / 40
O que isto significa?
–μ=5,426±0,026 ou 5,400<μ<5,452
–Existe 90% de probabilidade do intervalo de 5,400mm a 5,452mm conter a média populacional de
diâmetro do orifício do mancal.
2. Na engenharia de produtos, é importante considerar os pesos das pessoas, de modo a evitar

sobrecargas (aviões, elevadores) ou falhas (cadeiras que se quebram).
 Dado que a população de homens dos EUA (ano?) tem pesos distribuídos normalmente com
média 78,47Kg e desvio-padrão 13,61Kg, determinar a probabilidade de:
–(a) um homem escolhido aleatoriamente pesar mais de 81,65Kg.
–(b) em 36 homens escolhidos aleatoriamente, o peso médio ser superior a 81,65Kg.
Resolução
(a) um homem escolhido aleatoriamente pesa mais de 81,65Kg.

Como trata-se de um valor individual proveniente de uma população com distribuição normal, calcular o
valor de z diretamente:
x   81 , 65  78 , 47
Z   Z   0 , 2337
 13 , 61
Da Tabela A-2, a área correspondente a z=0,2337 é 0,0910. A probabilidade desejada é, pois:
P(z>0,2337) = 0,5 –0,0910 = 0,4090
(b) em 36 homens escolhidos aleatoriamente, o peso médio ser superior a 81,65Kg.

Como estamos lidando com a média para um grupo de 36 valores, usamos o Teorema do Limite Central
(cada valor individual seria uma amostra?)
 x    78 , 47
 13 ,61
x    2 , 2683
n 36
O escore z de interesse é agora calculado:
__
x  __
81 , 65  78 , 47
x
Z   Z   1 , 4019  P ( z > 1,4019)  0,5 - 0,4192  0,0808
 __ 13 , 61 / 36
x
105
Comentários
Há uma probabilidade de 0,4090 de um homem pesar mais que 81,65Kg, mas a probabilidade de 36
homens terem peso médio superior a 81,65Kg éde apenas 0,0808! É muito mais fácil um único indivíduo
afastar-se da média, do que um grupo de 36 indivíduos.
Unidade XVII: PROBABILIDADE E ESTATÍSTICA
Margem de Erro. Determinação do Tamanho da Amostra
 Interpretar a margem de erro ao usar dados amostrais para estimar a média populacional;
 Identificar e definir a expressão da margem de erro;
 Conceptualizar um problema tendente a avaliar a margem de erro;
 Determinar e explicar o tamanho da amostra;
 Exemplificar e apresentar a resolução de um determinado problema relativo a análise do tamanho
de uma amostra e determinar a margem de erro.
106
Margem de Erro. Determinação do Tamanho da Amostra
Margem de Erro
Quando utilizamos dados amostrais para estimar uma média populacional μ, a margem de erro (E) é a
diferença máxima provável (com probabilidade 1-α) entre a média amostral observada e a verdadeira
média da população (μ).

E  Z / 2 .
n
Ou seja:
–Há uma probabilidade de 1-α de uma média amostral conter um erro não superior a E, e uma
probabilidade de α de uma média amostral conter um erro superior a E.

E  Z  / 2 .
n
Problema
Como geralmente não conhecemos o real

valor de σ, podemos aplicar as seguintes considerações:
–n>30 →pode-se adotar para σ o desvio-padrão amostral ‘s’;
–n≤30 →a população deve ter distribuição normal e devemos ter σ para aplicar a fórmula:

E  Z / 2. Com o conhecimento de E, podemos determinar o intervalo de confiança como:
n
__ __ __ __ __
x  E    x  E ou   x  E ou ainda x  E; x  E
__
x 
Entretanto, Z  como se trata de distribuição das médias amostrais, x  x e  
 n
__
Portanto, Z  x   Assim, de acordo as experiências alcançadas em função das várias resoluções

 / n
feitas entende-se que:
__
 __ __
  Z  x     Z . / n  x      x  Z . / n
  / n
 __
 x  __ __
Z   Z . / n  x      x  Z . / n
  / n
107
Exemplo
__
Numa pesquisa, foram coletadas 106 amostras de temperatura, obtendo-se uma média ( x ) de 98,20oF e
desvio padrão s=0,62oF. Para um nível de confiança de 95%, determine:
–(a) A margem de erro da estimativa
–(b) O Intervalo de confiança para μ.
Resolução
NC=95%; α=0,05; Zα/2=1,96
a) E  Z  0 , 62
 / 2 .  E  1 , 96 .  E  0 ,12
n 106
__
b) Como x =98,20 e E=0,12;
__ __
x  E    x  E  98,2  0,12    98,2  0,12  98,08    98,32 Ou ainda
__
  x  E    98,2  0,12 Tem-se neste caso o mesmo resultado, situado entre 98,08 a
98,32

Se colhermos muitas amostras de tamanho 106 e construirmos um intervalo de confiança com NC=95%
para cada um, 95% deles conteriam o valor da média populacional μ. A temperatura média do ser humano
é 98,6oF.
Determinação do Tamanho da Amostra
Uma das perguntas mais importantes numa análise estatística é determinar qual o melhor tamanho de
amostras que devemos ter.
–Amostras muito grandes são dispendiosas e demandam mais tempo de manipulação e estudo;
–Amostras pequenas são menos precisas e pouco confiáveis.
2
 Z / 2 . 
Pode-se estimar o melhor tamanho da amostra pela fórmula: n   
 E 
Neste contexto, o resultado aproxima sempre para cima.
Observa-se que o tamanho da amostra depende do grau de confiança desejado, da margem de erro
pretendida e do σ.
Lembre-se que ainda estamos a procura de σ, que no entanto ainda é desconhecido.
A fórmula exige que se substitua por algum valor o desvio-padrão populacional σ, mas se este for
desconhecido, devemos poder utilizar um valor preliminar obtido por processos como:
108
–σ≈amplitude/4
–Realizar um estudo piloto iniciando o processo de amostragem. Com base na primeira coleção de pelo
menos 31 valores amostrais selecionados aleatoriamente, calcular o desvio padrão amostral ‘s’e utilizá-lo
em lugar de σ. Este valor pode e deve ser refinado com a obtenção de mais dados amostrais.
Exemplo
Queremos estimar a renda média no primeiro ano de um profissional. Quantas coletas devemos realizar se
queremos 95% de confiança em que a média esteja a menos que R$1.000,00 da renda média verdadeira
da população. Suponha σconhecido e igual a R$3.000,00.
Solução
2 2
Z .   1,96 . 3000 
n    /2      34 ,54  n  35 Amostras
 E   1000 
2 2
Aceitemos agora que um E=2000, teremos no entanto que: n   Z / 2 .    1,96.3000   8,64  n  9
 E   2000 
São 9 amostras para o pensamento em análise. Ou seja, dobrando o erro admissível, podemos reduzir em
aproximadamente ¼ o número de amostras.
109
Unidade XVIII: PROBABILIDADE E ESTATÍSTICA
Distribuição t de Student. Pequenas Amostras
 Definir a distribuição t de Student e identificar a sua expressão;

 Saber usar a tabela mediante as normas exigidas para essa distribuição;
 Conhecer e explicar a distribuição t de Student;
 Acompanhar a resolução dos exemplos apresentados;
 Sintetizar a estimativa de média populacional.
110
Distribuição t de Student. Pequenas Amostras
Pequenas amostras x Grandes amostras
Nos exemplos tratados até agora:

–amostras grandes (n>30)
–qualquer tipo de distribuição original da variável aleatória possui distribuição das médias “adequadamente
aproximadas”a uma distribuição normal.
Teorema Central do Limite
Tempo e custo impõem limites ao tamanho da amostra e a Utilização da distribuição normal inadequada
para amostras pequenas.
Estimativa da média para pequenas amostras
Para casos onde n ≤30 e: 

–População original tem distribuição normal; e E  Z  /2 .
n
–O valor de σ é conhecido, podemos calcular E com:
Nos casos onde n ≤30 e:

__
–População original tem distribuição normal; e x 
–O valor de σ é desconhecido, devemos calcular E com a Distribuição ‘t’ de Student. t 
s / n
Distribuição t de Student
Criada por William Gosset (1876-1937) para interpretar Análises com pequenas amostras; Empregado
da Cervejaria Guinness onde a respectiva Cervejaria não permitia publicação de pesquisas:
-Pseudônimo de Student.
A Distribuição ‘t’ de Student é essencialmente uma distribuição normal (com forma aproximada de um
sino) para todas as amostras de tamanho ‘n’.
__
Através dela, determinamos os valores críticos tα/2 do intervalo de confiança onde x  

t 
s / n
111
Utilização da Tabela
Obtemos o valor de tα/2 na Tabela localizando o número de graus de liberdade na coluna à esquerda e
percorrendo a linha correspondente até atingir o número diretamente abaixo do valor aplicável (bilateral)
de α.
Grau de liberdade: para um conjunto de dados correspondente ao número de valores que podem variar
após terem sido impostas certas restrições a todos os valores.
–Ex: 10 estudantes obtêm em um teste média 8,0

–A soma das 10 notas deve ser 80. Portanto, se temos um grau de liberdade de 10-1=9, as nove primeiras
notas podem ser escolhidas aleatoriamente, contudo a 10adeve ser igual a [80-(soma das 9 primeiras)].
Aplicaremos, em nosso curso, (n-1)graus de liberdade
Propriedades da Distribuição t de Student
 É diferente conforme o tamanho da amostra (n)

 Tem forma geral simétrica, mas reflete a maior variabilidade esperada em pequenas amostras
 Tem média t=0
 O desvio padrão varia com o tamanho da amostra, mas é superior a 1
 Quanto maior ‘n’, maior a aproximação em relação àdistribuição normal. Para n>30 podemos
utilizar distribuição normal com valores críticos ‘z’.
 Condições de utilização:
–Tamanho da amostra pequeno (n≤30)
–σ desconhecido
–População original tem distribuição essencialmente normal.
Assim, para amostras com as condições anteriores:
s
E  t / 2 . Onde, tα/2 tem n-1 graus de liberdade.
n
O Intervalo de Confiança, fica assim definido:

__ __ __ __ __
x  E    x  E ou   x  E ou ainda x  E; x  E
Observações finais
Para aplicarmos t de Student, a distribuição da população original deve ser essencialmente normal.
112
Contudo, pode-se obter bons resultados se:
–For basicamente simétrica;
–Possuir uma única moda.
Aplicamos t de Student no lugar da distribuição normal, pois quando não se conhece σ, a utilização de ‘s’
de uma pequena amostra incorpora outra fonte de erro.
Para mantermos o grau de confiança desejado, compensamos a variabilidade adicional ampliando o

intervalo de confiança por um processo que substitui o valor crítico z α/2 por outro tα/2 obtido na tabela da
Distribuição t de Student.
Exemplo
Considere um teste de colisão de carros. A análise de 12 carros danificados resulta num custo de conserto
que parece ter distribuição em forma de sino, com média e desvio-padrão a seguir (R$).
__
x =26.227; s=15.873
Determine:
–a melhor estimativa pontual de μ(custo do conserto)

–O intervalo de confiança para NC=95%
__
a) x =26.227
b) Amostra pequena (n≤30); desvio padrão desconhecido; distribuição é similar à distribuição normal.
Na tabela: para a coluna 0,05 bilateral e grau de liberdade n-1=11→tα/2=2,201.

s 15873
E  t / 2 .  2 , 201 .  E  10 . 085 , 29
n 12
__ __
x E    x E
26 . 227  10 . 085 , 29    26 . 227  10 . 085 , 29
16 . 141 , 71    36 . 312 , 29
  26 . 227  10 . 085 , 29
Existe uma probabilidade de 95% do intervalo de confiança conter efetivamente a média da população:
custos de reparo.
113
Síntese da Estimativa de Média Populacional

114
Unidade XIX: PROBABILIDADE E ESTATÍSTICA
Estimativa de uma Proporção Populacional
 Interpretar a estimativa de uma proporção populacional;

 Determinar o tamanho de uma amostra;
 Acompanhar a resolução de alguns exemplos;
 Interpretar os resultados obtidos da análise de exemplos;
 Procurar mais exemplos relacionados e resolvê-los.
Estimativa de uma Proporção Populacional
Aplicando os mesmos conceitos de estimativa pontual, intervalo de confiança e determinação do tamanho

da amostra a uma proporção populacional ou percentagem:
 P= proporção populacional;
^ x
 p  proporção amostral de sucessos em um evento de tamanho n;
n
^ ^
 q  1  p proporção amostral de insucessos;
^
 Estimativa pontual: p é a melhor estimativa pontual da proporção populacional p.
^ ^
p .q
Margem de erro: E  Z  / 2 .
n
^ ^
Intervalo de Confiança: p  E    p  E
Exemplo
Em uma pesquisa com 1068 hóspedes, 673 informaram ter preferência em ver filmes na TV a cabo.
Determine:
–Estimativa pontual da proporção populacional de toda a população de hóspedes.

115
–A estimativa intervalar de todos os hóspedes do hotel (NC 95%)
Resolução
a)
^ x 673
p   0 , 63
n 1068
^ ^
b) q  1  p  1  0,63  0,37
^ ^
p .q 0 , 63 . 0 , 37
E  Z  / 2 .  1 , 96  0 , 029
n 1068
^ ^ ^ ^
p  E    p  E  0 , 63  0 , 029  p  0 , 63  0 , 029  0 , 601  p  0 , 659
A percentagem de hóspedes que preferem assistir filme é de (63 ±2,9)% com estimativa de 95% de
probabilidade de acerto.
Determinação do Tamanho da Amostra

Objetivo: determinar o tamanho necessário da amostra a fim de achar o valor aproximado de uma
proporção populacional. Utilizando Margem de Erro E, resolver para n.
^ ^
p .q
^ ^ ^
(Z  /2 )2 . p . q
E  Z . Quando se conhece a Estimativa p : n 
 / 2
n E2
^ ^
Quando não se conhece a estimativa, considera-se: p = q  0,5 Neste caso a expressão acima toma o
( Z  / 2 ) 2 . 0 , 25
seguinte aspecto: n 
E2
Exemplo
Um instituto de pesquisas quer estimar, com margem de erro de três pontos percentuais, a percentagem
de eleitores que pretendem votar “sim”em determinado referendo. Com NC=95%, quantos eleitores devem
ser pesquisados?
–(a) Supor que se tenha uma estimativa de estudo anterior, mostrando que 18% dos eleitores vão votar
“sim”;
–(b) Supor não haver qualquer estimativa.
Resolução
^ ^
a) p =0,18; q  0,82
NC= 95%; α=0,05→ Z / 2 =1,96 E=0,03 (três pontos percentuais)
^ ^
(Z  / 2 )2. p .q ( 1 , 96 ) 2 ( 0 , 18 )( 0 , 82 )
n    n  630 , 0224  631
E 2 ( 0 , 03 ) 2
116
Resp. Pesquisar aos menos 631 eleitores.
^ ^
b) p =? ; q  ?
NC= 95%; α=0,05→ Z / 2 =1,96 E=0,03 (três pontos percentuais)
(Z  / 2) 2 . 0 , 25 ( 1 , 96 ) 2 ( 0 , 25 )
n    n  1067 , 1111  1068
E 2 ( 0 , 03 ) 2
Resp. Pesquisar ao menos 1068 eleitores.
Interpretação
Para se ter 95% de confiança de que percentagem amostral está a menos de 3 pontos percentuais da
percentagem verdadeira, deve-se selecionar aleatoriamente e pesquisar ao menos 1.068 eleitores (contra
631 se a proporção fosse conhecida). Sem conhecimento prévio da população, é necessário uma amostra
maior para obter os mesmos resultados.
Note que o tamanho da população é irrelevante!
Unidade XX: PROBABILIDADE E ESTATÍSTICA
Teste de Hipóteses ou Teste de Significância
 Decidir com base em experiências se um determinado parâmetro é ou não apoiado pela evidência
obtida de dados amostrais;
 Estudar exercícios por forma a identificar a hipótese nula e alternativa;
 Identificar tipos de erros e dar exemplos para cada erro;
 Interpretar os níveis de significância;
 Resolver os exercícios propostos.
117
Teste de Hipóteses ou Teste de Significância
Estimação e Teste de Hipóteses
Estimação e teste de hipóteses (ou significância) são os aspectos principais da Inferência Estatística
ESTIMAÇÃO
Estimar um parâmetro qualquer da população
TESTE DE HIPÓTESES
Decidir se determinada afirmação sobre um parâmetro populacional é, ou não, apoiada pela evidência
obtida de dados amostrais.
Em estatística, uma hipótese é uma alegação, ou afirmação, sobre uma característica de uma população
Pesquisadores médicos afirmam que a temperatura média do corpo humano não é igual a 37oC
Um novo fertilizante utilizado no cultivo de hortaliças aumenta a produtividade.
A dificuldade nestes casos (e daí a necessidade de métodos estatísticos) é que a característica de

interesse varia em cada amostra
A temperatura média do corpo humano varia de pessoa para pessoa, e o mesmo pode-se supor que a
produtividade varia de planta para planta.
Raciocínio Estatístico
DIRETRIZ GERAL
“Analisar uma amostra para distinguir entre resultados que podem ocorrer facilmente e os que
dificilmente ocorrem”
Exemplo Prático
A empresa ProCare lançou o produto Escolha-o-Sexo. De acordo com a propaganda, o produto

permitiria que os casais aumentassem em 87% a chance de terem um filho, e em 80% a chance
de terem uma filha. Suponha que se faz uma experiência com 100 casais que querem ter menina,
e que todos eles sigam as instruções da embalagem do respectivo produto. Utilizando apenas o
bom senso, o que se poderia concluir sobre a eficácia do Escolha-o-Sexo se das 100 crianças:
a) 52 são meninas ?
118
b) 96 são meninas ?
PONTO CRUCIAL
A diferença entre o valor alegado de um parâmetro populacional e o valor de uma estatística amostral
pode ser razoavelmente atribuído à variabilidade amostral, OU a discrepância é demasiado grande para
ser encarada assim.
Estudo de Caso
(temperatura do corpo humano)
Estudos prévios indicam que a temperatura do corpo humano é 98,60oF. Pesquisadores médicos de
__
Maryland coletaram dados amostrais com x = 98,20oF e distribuição aproximadamente normal.
Estes dados amostrais constituem evidência suficiente para rejeitar a crença comum de que μ= 98,6oF ?
O primeiro passo consiste em formular duas hipóteses sobre a afirmação.
As hipóteses são explicações potenciais que procuram levar em conta factos observados em situações
onde existem algumas incógnitas.
A incógnita em nosso caso é a verdadeira temperatura do corpo humano.
Hipótese Nula e Alternativa
A hipótese nula H0 é uma afirmação que diz que o parâmetro populacional é tal como
especificado (isto é, a afirmação é correta).
H0 : μ= 98,6
A hipótese alternativa H1 é uma afirmação que oferece uma alternativa à alegação (isto é, o parâmetro é
maior/menor/diferente que o valor alegado).
H1 : μ≠98,6
A hipótese nula H0 representa o status, ou seja, a circunstância que está sendo testada, e o objetivo do
teste de hipóteses é sempre tentar rejeitar a hipótese nula.
A hipótese alternativa H1 representa o que se deseja provar ou estabelecer, sendo formulada para
contradizer a hipótese nula.
Teste Bilateral:
H0 : μ= valor numérico
H1 : μ≠valor numérico
119
Teste Unilateral Superior: Teste Unilateral Inferior:

H0 : μ= valor numérico H0 : μ= valor numérico
H1 : μ>valor numérico H1 : μ<valor numérico
Tipos de Erro
Repare que, ao testarmos uma hipótese nula, chegamos a uma conclusão: rejeitá-la, ou não rejeitá-la.
Entretanto, devemos lembrar que tais conclusões podem ser corretas, ou ainda incorretas (mesmo quando
fazemos tudo corretamente!).
Este é o preço a ser pago por estarmos trabalhando em uma situação onde a variabilidade é inerente !
A hipótese nula é verdadeira. A hipótese nula é falsa

Decidimos rejeitar a Erro Tipo I
hipótese nula. Rejeição de uma hipótese Decisão correcta
nula verdadeira.
Decisão
Não rejeitamos a hipótese Erro Tipo II
nula. Decisão correcta Não rejeição de uma
hipótese nula falsa.
Exemplo
A eficácia de certa vacina após um ano é de 25% (isto é, o efeito imunológico se prolonga por mais de
um ano em apenas 25% das pessoas que a tomam).
Desenvolve-se uma nova vacina, mais cara, e deseja-se saber se esta é, de fato, melhor.
Sendo “p”a proporção de imunizados por mais de uma ano com a nova vacina...
 Quais hipóteses devem ser formuladas?

 Que erros poderemos cometer?
Hipótese nula: H0 : p = 0,25
Hipótese alternativa:H1 : p > 0,25
Erro tipo I: aprovar a vacina quando, na realidade, ela não tem nenhum efeito superior ao da vacina
em uso.
Erro tipo II: rejeitar a nova vacina quando ela é, de fato, melhor que a vacina em uso.
Nível de Significância
 A probabilidade de se cometer um erro tipo I depende dos valores dos parâmetros da população e
é designada por α (nível de significância);
120
 Dizemos, então, que o nível de significância α de um teste é a probabilidade máxima com que
desejamos correr o risco de um erro do tipo I;
 O valor de α é tipicamente predeterminado; são comuns as escolhas α= 0,05 e α= 0,01;
 A probabilidade de se cometer um erro do tipo II é designada por β.
Exemplo Ilustrativo
 Nosso interesse em detectar desvios não aleatórios (significativos) de determinado parâmetro

pode envolver desvios em ambas as direções ou apenas numa direção;
 Assim, em sucessivas jogadas de uma moeda, esta pode ser considerada não-equilibrada se
aparece um número muito grande, ou muito pequeno, de caras.
 A hipótese nula estabelece a situação “normal”, isto é, a moeda é equilibrada.
H0 : p = 0,50
 A hipótese alternativa seria simplesmente “a moeda não é equilibrada”, e investigaríamos então
desvios em ambas as direções.
H1: p ≠0,50
 Entretanto, se estivéssemos apostando, digamos, em caras, então nossa preocupação seria
somente com um número pequeno de caras. A hipótese alternativa seria “aparecem muito poucas
caras”.
H1: p < 0,50
 Essencialmente, a hipótese alternativa é usada para indicar qual o aspecto da variação não-
aleatória que nos interessa.
H0 : p = 0,50
H1: p ≠0,50 (ambas as direções: muito OU muito pouco)
H1: p < 0,50 (desvio abaixo: muito pouco)
H1: p > 0,50 (desvio acima: muito)
RESUMO
O processo geral consiste nos seguintes passos:
1. Formular as hipóteses nula e alternativa;

2. Escolher a distribuição amostral adequada;
3. Escolher um nível de significância α com base na gravidade do erro tipo 1;
121
4. Calcular a estatística de teste, os valores críticos e a região crítica (esboçar um gráfico é

SEMPRE uma boa opção);
5. Comparar a estatística de teste com os valores críticos:
 Rejeitar a hipótese nula se a estatística de testa excede o(s) valor(es) crítico(s), ou seja,
está na região crítica;
 Não rejeitar a hipótese nula, caso contrário.
Exemplo
1. Uma máquina automática enche pacotes de café segundo uma distribuição normal com média μ=500g
e desvio-padrão 20g. De meia em meia hora tiramos uma amostra de 16 pacotes para verificar se o
empacotamento está sob controle, isto é, se μ= 500g. Se uma dessas amostras apresentasse x=492g,
você pararia ou não o empacotamento para verificar se o ajuste da máquina está correto?
Resolução
Passo 1:
Indicamos por X o peso de cada pacote, então X é uma normal com média μ=500g e σ= 20g. As hipóteses
que nos interessam são:
Hipótese nula:H0 : μ= 500 g

Hipótese alternativa:H1 : μ≠500 g
Pois a máquina pode desregular para mais ou para menos e estamos na presença de um processo
BILATERAL.
Passo 2:
Escolher a distribuição amostral.

Se o desvio padrão populacional é conhecido:
 Distribuição NORMAL (Caso deste exemplo típico)
Se o desvio é desconhecido E a amostra é pequena (n<30):

 Distribuição t de STUDENT
Passo 3:
Escolher o nível de significância. Pela situação descrita no problema, podemos fazer α= 0,01
Passo 4:
Calcular a estatística de teste, valores e região crítica
122
__ __
x 0 x  0
Z teste  Ou t teste 
/ n s/ n
Z 
p p Onde: n- número de provas; p- proporção populacional (hipótese nula); q=1-p
teste
pq
n
__
^ x
Lembre-se que: p  (proporção amostral)
n
__
x  0 492  500 8
Z teste   Z teste    Z teste   1,6
 / n 20 / 16 5
Como se pode observar do cálculo acima, a estatística do teste é o valor calculado a partir da amostra que
será usado na tomada de decisão.
Também é possível calcular a probabilidade da média da amostra ser diferente do valor proposto na
hipótese nula.
Em seguida vamos encontrar o valor da estatística do teste (Z), a partir do nível de significância (α)
proposto no enunciado do exercício. Neste caso é usada a Tabela de Z<z.
O exercício trata de um caso bilateral, dividindo o valor de α teremos 0,005. A área da figura abaixo,
confere a probabilidade total de 1, vamos fazer 1-0,005=0,995.
Assim temos dois valores importantes: 0,005 e 0,995. Procurando no corpo da tabela Z<z, teremos
igualmente dois valores para a estatística do teste (Z0,005=-2,575 e Z0,995=2,575). Veja na figura a seguir:
123
Passo 5:
A informação da amostra é que x = 492 g (o que fornece z = -1,6). Como x ∉ Região Crítica, nossa
conclusão será não rejeitar H0. Observações atentas demonstram que Z=-1,6 está entre -2,575 a 2,575.
Logo, H0 é aceite.
A discrepância da média da amostra para a média proposta por H0 pode ser considerada como
devido apenas ao sorteio aleatório dos pacotes.
Em Resumo, apresentam-se os gráficos a seguir:
2. Suponhamos que uma indústria compre de certo fabricante parafusos cuja a carga média de ruptura
por tração é especificada em 50 Kg, o desvio-padrão das cargas de ruptura é suposto ser igual a 4 Kg.
O comprador deseja verificar se um grande lote de parafusos recebidos deve ser considerado
satisfatório, no entanto existe alguma razão para se temer que a carga média de ruptura seja
eventualmente inferior à 50 Kg. Se for superior não preocupa o comprador pois neste caso os
parafusos seriam de melhor qualidade que a especificada.
Neste exemplo, a hipótese do comprador é que a carga média da ruptura é inferior a 50 Kg. O
comprador pode ter o seguinte critério para decidir se compra ou não o lote: Resolve tomar uma
amostra aleatória simples de 25 parafusos e submetê-los ao ensaio de ruptura. Se a carga média de
ruptura observada nesta amostra for maior que 48 Kg ele comprará o lote, caso contrário se recusará
a comprar. Tome um nível de significância de 5%.
Resolução
H0: μ = 50 kg
H1: μ < 50 kg (Unilateral a Esquerda)
Outros dados: n=25 amostras; x=48 kg; σ=4kg
Estatística do teste: Z cal  x   484 50  Z cal  2,5 ; P( Z cal  2,5)  0,0062
n 25
Deve estar claro que a estatística do teste é o valor calculado a partir da amostra que será usado na
tomada de decisão.
Em seguida vamos trabalhar com os dados do fabricante, patentes no rótulo do produto comprado.
A partir do nível de significância α=0,05, achemos o Ztab. No corpo da tabela, encontremos 0,05 e terá
Ztab=-1,65. Perceba também que neste caso P(Z<-1,65)=0,05.
124
Com esta informação, vamos esboçar a figura que segue:
Da figura, nota-se que Zcal=-2,5 está abaixo do valor Ztab=-1,65

assim sendo a hipótese nula (H0) é rejeitada.
Veja também que 0,0062<0,05 (Logo a hipótese nula é rejeitada).
1. No âmbito da aquisição de uma linha de animais de gado bovino, o fornecedor diz que os mesmos
crescem até a uma altura de 1,47m. O engenheiro desconfia que tal altura seja diferente após um
tempo probatório de pesquisa. Para o efeito uma amostra de 16 animais foi adquirida e após um
intervalo considerável de tempo, observa-se uma média de altura na ordem de 1,45m. Tome 4cm
desvio padrão e segure um nível de significância de 5%.
a) Teste a hipótese e interprete a decisão, achando a probabilidade de sua ocorrência.
b) Calcule a probabilidade de a média da amostra ser inferior a 1,42m. Explique o resultado.
2. Uma amostra de 25 elementos resultou média 13,5 com desvio padrão de 4,4.
a) Efectuar o teste ao nível de 1% para a hipótese cujo a média seja inferior a 16.
b) Reforce a decisão mediante o cálculo de probabilidade de sua ocorrência.
3. O peso médio de litros de leite de embalagens enchidas em uma linha de produção está sendo
estudado. O padrão prevê um conteúdo médio de 1000 ml por embalagem. Sabe-se que o desvio
padrão é de 10 ml e que a variável tem distribuição normal.
Calcule a probabilidade de erro tipo II, quando testamos a média ser diferente de 1000 ml ao nível de
5% de significância com 4 unidades amostrais, e sendo o real conteúdo médio da embalagem de
1012 ml.
4. Uma amostra de 25 elementos resultou média 13,5 com desvio padrão de 4,4. Efetuar o teste ao
nível de 1% para a hipótese que a média seja inferior a 16.
5. As estaturas de 20 recém nascidos foram tomadas no Departamento de Pediatria da FMRP, cujos

resultados são em cm:
41 50 52 49 49 54 50 47 52 49
50 52 50 47 49 51 46 50 49 50
a) suponha inicialmente que a população das estaturas é normalmente distribuída com variância 2
cm2; Teste a hipótese de que a média seja diferente de 50cm (µ=0,05).
b) Faça o mesmo teste para a média, mas agora desconhecendo a variância (µ=0,05).
6. Um processo deveria produzir mesas com 0,85m de altura. O engenheiro desconfia que as mesas
que estão sendo produzidas são menores que o especificado. Uma amostra de 8 mesas foi coletada
e indicou média 0,847m. Sabendo que o desvio padrão é s=0,010m, teste a hipótese do engenheiro
usando um nível de significância de 3%.
125
7. As condições de mortalidade de uma região são tais que a proporção de nascidos que sobrevivem
até 60 anos é de 0,6. Testar essa hipótese ao nível de 5% se em 1000 nascimentos amostrados
aleatoriamente, verificou-se 530 sobreviventes até 60 anos.
8. A experiência tem comprovado que mais de 40% dos estudantes são reprovados em uma prova de
estatística. Se 45 de 90 estudantes amostrados fossem reprovados, o que se pode concluir a respeito
desta afirmação. Teste esta hipótese ao nível de significância de 4%.
Unidade XXI: PROBABILIDADE E ESTATÍSTICA
Correlação e Regressão Linear
 Estabelecer a correlação entre duas variáveis e construir o diagrama de dispersão;

 Acompanhar e explicar os exemplos apresentados;
 Interpretar os padrões de dispersão e proceder a análise gráfica;
 Conhecer e identificar as propriedades do coeficiente de correlação de Person ou Linear;
 Interpretar as rectas de regressão linear
Correlação e Regressão Linear
Variáveis
Variável: características ou itens de interesse de cada elemento de uma população ou amostra. Também
chamada parâmetro, posicionamento, condição...
Duas variáveis estão relacionadas se a mudança de uma provoca a mudança na outra.
Exemplo: velocidade x consumo combustível.

126
Correlação. Correlação entre duas variáveis
Quando uma delas está, de alguma forma, relacionada com a outra, isto é, quando a alteração no valor de
uma varíavel (dita independente) provoca alterações no valor da outra variável (dita dependente).
Diagrama de Dispersão
Um diagrama de dispersão mostra a relação entre duas variáveis quantitativas, medidas sobre os mesmos
indivíduos.
Os valores de uma variável aparecem no eixo horizontal, e os da outra, no eixo vertical.

 Comumente, coloca-se no eixo x um parâmetro
Cada indivíduo aparece como o ponto do gráfico definido pelos valores de ambas as variáveis para aquele
indivíduo.
Exemplo
Fabricação
Número de peças produzidas e número de peças defeituosas.
Construção
Número de falhas em uma obra e a satisfação média dos construtores;
Dias de atraso de entrega x número de dias chuvosos.
Financeiro
Média de tempo de atraso de pagamento e número de erros de fatura
Vendas
% de imóveis vendidos na data de entrega da obra x satisfação média dos clientes nos últimos 10
empreendimentos.
Exemplo: Peso x Altura
Peso (kg) Altura (m)

80 1,80
85 1,83
50 1,65
70 1,90
55 1,60
77 1,80
85 1,78
93 1,86
65 1,70
127
60 1,65
Estratificando
Altura Altura
Peso (kg) Homens Mulheres
(m) (m)
80 1,80 ---
85 1,83 ---
50 --- 1,65
70 --- 1,90
55 --- 1,60
77 1,80 ---
85 1,78 1,78
93 1,86 ---
65 1,70 ---
60 1,65 1,65
Comentários
Eixo ´x´
Variável que é alterada por uma modificação no processo (variável independente);
Geralmente uma possível causa de um problema.
Eixo ý´
Variável que pode mudar de acordo com a mudança da variável em ´x´ (variável dependente);
Geralmente um indicador de qualidade ou efeito gerado por uma causa.
Diagramas de Dispersão
Os aspectos que seguem são relevantes na análise dos Diagramas:
 DIREÇÃO (crescente, decrescente)
 FORMA (linear, não-linear, aglomerados)
 PONTOS DISCREPANTES
Interpretação
Padrões de Dispersão
128
Quanto maior a correlação, mais próxima de uma reta a 45o ou 135o será a distribuição.
Grau de Relacionamento
Análise Gráfica
A análise gráfica da relação entre variáveis é importante, mas os olhos nem sempre são um bom juiz da
intensidade de uma relação linear.
Os diagramas a seguir ilustram precisamente os mesmos dados, mas o gráfico inferior é menor em um
campo mais amplo (escala diferente).
Nossos olhos podem ser enganados por uma mudança de escalas, ou pela quantidade de espaço em
branco em torno do aglomerado dos pontos.
Deve-se, então, utilizar uma medida numérica para suplementar o gráfico: Coeficiente de Correlação
Linear (r).
Coeficiente de Correlação Linear

129
r→mede o grau de relacionamento linear entre valores emparelhados x e y em uma amostra.
Mede a intensidade e a direção da relação linear entre duas variáveis quantitativas.
Chamado também de Coeficiente de Correlação de Pearson (Karl Pearson, 1857-1936).
n __
2 2 2
S xx   i1
( x i  x )  S xx  n ( x i )  ( xi)
n __
2 2 2
S yy   i1
( y i  y )  S yy  n ( y i )  ( yi)
n __ __
S xy   i1
( x i  x )( y i  y )  S xy  n  xi y i  ( xi)( yi)
S
r 
xy
-1 ≤ r ≤ 1
S xx .S yy
r 
S xy

n  ( x i . y i )  (  x i )(  yi) -1 ≤ r ≤ 1
2 2 2 2
S xx .S yy n  x i  ( xi ) . n  y i  ( yi )
Em outras literaturas o Coeficiente de Correlação linear entre X e Y, tem sido expresso por:
Cov ( X , Y ) 
    x,y
 x . y  x . y
Interpretação do Coeficiente de Correlação Linear (r)
‘r’ sempre será um valor entre -1 ≤r ≤1

 Quanto mais próximo de –1: maior correlação negativa
 Quanto mais próximo de 1: maior correlação positiva
 Quanto mais próximo de 0: menor a correlação linear
Propriedades do Coeficiente de Correlação de Pearson ou Linear
 -1 ≤r ≤+1
 O valor de r não varia se todos os valores de qualquer uma das variáveis são convertidos para
uma escala diferente.
 O valor de rnão éafetado pela escolha de xou y. Permutando x e y, rpermanece inalterado.
130
 r: só mede a intensidade ou grau de relacionamentos lineares. Não serve para medir intensidade
de relacionamentos não-lineares.
Tomemos um exemplo de alturas e pesos de Ursos na Sibéria
Observe a tabela a seguir:

Comprimento Peso
x.y X2 Y2
X (cm) Y (kg)
53,0 80 4.240 2.809,00 6.400
67,5 344 23.220 4.556,25 118.336
72,0 416 29.952 5.184,00 173.056
72,0 348 25.056 5.184,00 121.104
73,5 262 19.257 5.402,25 68.644
68,5 360 24.660 4.692,25 129.600
73,0 332 24.236 5.329,00 110.224
37,0 34 1.258 1.369,00 1.156
Total: 517 2.176 151.879 34.525,75 728.520
Calculemos o coeficiente de correlação linear com base nos dados da tabela:
S xy n  ( x i . y i )  (  x i )(  y i )
r  
S xx .S yy n  x i2  (  x i ) 2 . n  y i2  (  y i ) 2
8 (151 . 879 )  ( 516 ,5 )( 2 . 176 ) 91 . 128
 r   r 
2 2
8 ( 34 . 525 , 75 )  ( 516 , 5 ) . 8 ( 728 . 520 )  ( 2 . 176 ) 9433 , 75  1 . 093 . 184
 r  0 ,897
Reta de Regressão Linear

Diferentes retas podem ser traçadas, a olho nu, e um diagrama de dispersão.
 Cada pessoa terá uma tendência diferente
Nenhuma reta passará exatamente por todos os pontos (se a correlação não for máxima);
131
Precisamos encontrar uma reta que esteja tão próxima dos pontos quanto possível;
Os erros de predição para a reta são erros em y (direção vertical). Se um diagrama de dispersão sugere
uma relação linear, é de interesse representar este padrão através de uma reta
Usa-se o método dos mínimos quadrados para ajustar uma reta de regressão ao conjunto de pontos do
diagrama A reta de regressão descreve como uma variável resposta (dependente) y varia em relação a
uma variável explanatória (independente) x
Variáveis
Variável resposta (y) (dependente): Mede um resultado em um estudo.
Variável explanatória (x) (independente): Procura explicar os resultados observados.
Variável Independente (x) Variável Dependente (y)

Temperatura do forno (oC) Resistência mecânica da cerâmica (MPa)
Quantidade de aditivo (%) Octanagem da gasolina
Renda (Mts) Consumo (Mts)
Memória RAM (GB) Tempo de resposta do sistema (segundos)
Definição
Dada uma coleção de dados amostrais emparelhados, a seguinte equação de regressão descreve a
relação entre as duas variáveis.
^
y    x
α: Ponto onde a reta intersecta o eixo y. β: Coeficiente angular.
O gráfico da equação é chamado reta de regressão (ou reta de melhor ajuste, ou reta de mínimos
quadrados).
^
y     x
 
n (  x i . y i )  (  x i )(  y i
n ( x 2 )  ( xi)2
(  y i )(  x i2 )  (  x i )(  xi.y i )  y i    x i
    
n (  x i2 )  (  x i ) 2 n
Exemplo
Considere um experimento em que se analisa a octanagem da gasolina (Y) em função da adição de um
aditivo (X). Para isto, foram realizados ensaios com os percentuais de 1, 2, 3, 4, 5 e 6% de aditivo. Os
resultados seguem.
x y
1 80,5
132
2 81,6
3 82,1
4 83,7
5 83,9
6 85,0
Calculemos agora a equação de

regressão, para o exemplo dado. Mas
antes é elaborada uma tabela como a que é ilustrada.
xi yi x i2 y i2
1 80,5 1 80,5
2 81,6 4 163,2
3 82,1 9 246,3
4 83,7 16 334,8
5 83,9 25 419,5
6 85,0 36 510,0
Total 21 496,8 91 1.754,3
Baseando-se na expressão que calcula, β, podemos no entanto chegar a seguinte equação:
6 (1754 , 3 )  21 ( 496 , 8 ) 93 496 , 8  ( 0 ,886 )( 21 ) ^

  2
 0 , 886 ;    79 , 7 ; y  79 , 7  0 , 886 x
6 ( 91 )  ( 21 ) 105 6
133
Unidade XXII: BINÓMIO DE NEWTON E TRIÂNGULO DE PASCAL
Triângulo de Pascal
 Interpretar a elaboração do triângulo de Pascal;

 Conhecer os coeficientes binomiais;
 Compreender e explicar o Bonómio de Newton;
 Explicar o conceito de herança quantitativa;
 Resolver exercícios propostos.
Triângulo de Pascal
Blaise Pascal (Clermont-Ferrand, Puy-de-Dôme, 19 de Junho de 1623 - Paris, 19 de Agosto de 1662) foi
um prodígio matemático.
Em torno de 1650 escreveu o "Traité du Triangle Arithmétique" publicado em 1665 e, juntamente com
Pierre Fermat, estabeleceu os fundamentos da teoria da probabilidade.
Embora não tenha sido o primeiro a trabalhar com o triângulo, este tornou-se conhecido como "triângulo
de Pascal" devido ao desenvolvimento e aplicações que Pascal fez de muitas de suas propriedades.
Construído do modo como se vê a seguir, e denominando-se as linhas de n = 1, 2, ... e as colunas de r =

0, 1, 2, ...
Cada entrada C(n,r) é a soma do número acima com o da sua esquerda (também acima) de cada número.
Exemplo:
O número 2, na posição C(2, 1) é obtido pela soma de 1 (número acima dele) + 1 (número à esquerda,
também acima). O número 10, na posição C(5, 2) é obtido pela soma de 6 (número acima dele) + 4
(número à esquerda, também acima).
134
n, r r=0 r=1 r=2 r=3 r=4 r=5 r=6

n=0 1
n=1 1 1
n=2 1 2 1
n=3 1 3 3 1
n=4 1 4 6 4 1
n=5 1 5 10 10 5 1
n=6 1 6 15 20 15 6 1
E prossegue-se até atingir os valores de n e r desejados.
Exercício
Complete: O número 20, na posição C( __, __ ), é obtido pela soma de __ + __.
Coeficientes binomiais
Uma das aplicações que Pascal fazia do seu triângulo era a determinação dos coeficientes binomiais
quando se faz a expansão do binômio de Newton, sendo que eles correspondem aos números C(n,r).
Por exemplo, a fórmula: (p +q)2 = 1p2 + 2pq + 1q2 tem os coeficientes 1, 2 e 1, que estão, precisamente,
na linha n = 2 no triângulo.
Já, se alguém desejar a expansão de (p +q)3 deverá tomar a linha n = 3 no triângulo:

(p +q)3 = 1p3q0 + 3p2q1 + 3p1q2 + 1p0q3
É importante lembrar que os coeficientes também podem ser obtidos diretamente pela fórmula:
C(n, r) = n! / r!.(n - r)!
Resumindo:
Número de genes Coeficientes Número de combinações
0 1 1
1 1 1 2
2 1 2 1 4
3 1 3 3 1 8
4 1 4 6 4 1 16
5 1 5 10 10 5 1 32
6 1 6 15 20 15 6 1 64
7 1 7 21 35 35 21 7 1 128
8 1 8 28 56 70 56 28 8 1 256 e continua ...
135
Binômio de Newton
Isaac Newton, físico e matemático inglês (1642 - 1727) deu enorme contribuição à Matemática, em 1687
quando escreveu "Principia Mathematica".
Aqui é importante lembrar que denomina-se Binômio de Newton, a todo binômio da forma (a + b)n, sendo n
um número natural, que é chamado de ordem do binômio.
Assim, para determinar quais são as combinações possíveis quando uma distribuição possui os
parâmetros p e q, faz-se a expansão do Binômio de Newton: (p + q)n.
Para expandir uma equação, pode-se seguir os passos:
1. Todos os membros terão o termo p e, também, o q. (Ou seja, deve existir o termo p.q em todos os
termos).
2. No primeiro membro atribui-se ao expoente de p o valor n e ao expoente de q o valor 0. A seguir
diminui-se de 1 o valor do expoente de p e aumenta-se de 1 o valor do expoente de q. Continua-se até
o último membro que deve ter o valor 0 no expoente de p o valor n no expoente de q.
3. A soma dos expoentes de cada membro deve ser igual ao expoente do binômio. Portanto, a expansão
de (p + q)2 é: (p + q)2 = __ p2q0 + __ p1q1 + __ p0q2
Lembrando que qualquer número elevado a zero é igual a 1 e que não é necessário colocar o expoente
quando for igual a 1, temos: (p + q)2 = __ p2 + __ pq + __ q2
4. Toma-se a sequência numérica obtida no triângulo referente ao número de combinações usado e

distribui-se, ordenadamente:
Número de combinações Binómio Equação expandida

4 (p+q)2 1p2q0 + 2p1q1 + 1p0q2
8 (p+q)3 1p3q0 + 3p2q1 + 3p1q2 + 1p0q3
16 (p+q)4 1p4q0 + 4p3q1 + 6p2q2 + 4p1q3 + 1p0q4
E continua ...
Assim, a expansão de (p + q)2 gera: p2 + 2pq + q2
Para descobrir quais são os coeficientes das equações com expoentes maiores que 4 é conveniente usar
o Triângulo de Pascal, como descrito acima.
Herança quantitativa (ou poligênica)

Na herança quantitativa dois ou mais pares de alelos determinam o fenótipo. Por isso é também
denominada herança poligênica.
136
Os alelos podem ser: aditivo ou indiferente (ou não-aditivo). Cada alelo aditivo determina o aumento da
intensidade da expressão do fenótipo, não importando de qual par é esse alelo aditivo. Os alelos não-
aditivos não acrescentam nada na expressão do fenótipo.
Herança quantitativa - Identificação

Como identificar e diferenciar a herança quantitativa das demais heranças genéticas?
Na geração F2 há vários fenótipos para uma certa característica, com variação contínua.
Quando estão envolvidos 2 pares de genes haverá 5 fenótipos possíveis. Se forem 3 pares serão 7
fenótipos. Se forem 4 pares serão 9 fenótipos e assim por diante.
 Em F2 o fenótipo apresenta variação contínua ou gradual. Exemplo: No caso da cor da pele na

espécie humana, entre os extremos (branco e negro) há diversos fenótipos intermediários, os
vários tipos de mulatos.
 A frequência dos fenótipos se distribui em uma curva normal.
Os fenótipos dos tipos extremos (mínimos e máximos) são os observados em frequências menores,
enquanto os fenótipos intermediários são encontrados em quantidades maiores. A distribuição quantitativa
desses fenótipos estabelece uma curva normal e mostra a expressividade do caráter.
Expressividade do carácter
a= mínima; b=média; c=máxima
Algumas fórmulas podem ajudar a resolver problemas:

1. O número de fenótipos que podem ser encontrados depende do número de pares de alelos
envolvidos, que chamamos: n = número de fenótipos = 2n + 1
2. Pode-se calcular a frequência dos fenótipos extremos: Frequência de 1 fenótipo extremo = (1/4)n
3. Pode-se calcular quanto cada gene aditivo acrescenta ao fenótipo. ( Lembrar que número de genes =
2n). Valor do gene aditivo = (fenótipo máximo - fenótipo míimo ) / 2n
Exemplo: Cor da pele humana

No caso da cor da pele humana, considerando apenas 5 fenótipos, envolvendo dois pares de genes N e B,
que teriam a mesma função, ou seja, acrescentar uma certa quantidade de melanina à pele, se efetivos (N
ou B) ou não acrescentar nada, se não efetivos (n ou b).
Fenótipo Número de genes

Negro 4 genes efectivos e 0 não efectivos
137
Mulatos escuros 3 genes efectivos e 1 não efectivos

Mulatos médios 2 genes efectivos e 2 não efectivos
Mulatos claros 1 gene efectivos e 3 não efectivos
Brancos 0 genes efectivos e 4 não efectivos
Se acontecer um cruzamento entre dihíbridos, quais serão as proporções fenotípicas da descendência?
Resolução 1:
Com conhecimentos de Genética: (quais são os gametas e os tipos possíveis de filhos gerados?)
NnBb x NnBb
Gametas produzidos por ambos: NB, Nb, nB e nb
gámetas NB Nb nB nb
NB NNBB NNBb NnBB NnBb
Nb NNbB NNbb NnbB Nnbb
nB nNBB nNBb nnBB nnBb
nb nNbB nNbb nnbB nnbb
Observa-se que há 16 combinações genotípicas diferentes, sendo :

1 negro 4 genes efectivos e NNBB Menor frequência Maior
0 não efectivos =1/16 expressividade
4 mulatos escuros 3 genes efectivos e NNBb ou nNBb
1 não efectivos
6 mulatos médios 2 genes efectivos e NNbb, nnBB ou NnBb Maior frequência Média
4 mulatos claros 1 gene efectivo e Nnbb ou nnBb
3 não efectivos
1 branco 0 genes efectivos e nnbb Menor frequência Mínima
Ou seja, na descendência chega-se à seguinte proporção fenotípica: 1 negro : 4 mulatos escuros : 6
mulatos médios : 4 mulatos claros : 1 branco
Resolução 2:
Usando o Triângulo de Pascal:
Chama-se de p = genes efetivos = 2 (N ou B) e de q = genes não efetivos = 2 (n ou b). Procura-se no
triângulo a linha em que o número de genes é igual a 4.
Número de genes Coeficientes
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
138
Seguindo, tem-se ainda:
1 negro 4 genes efectivos e 0 não efectivos 1p4q0

4 mulatos escuros 3 genes efectivos e 1 não efectivos 4p3q1
6 mulatos médios 2 genes efectivos e 2 não efectivos 6p2q2
4 mulatos claros 1 gene efectivo e 3 não efectivos 4p1q3
1 branco 0 genes efectivos e 4 não efectivos 1p0q4
Portanto, na descendência chega-se à seguinte proporção fenotípica: 1 negro : 4 mulatos escuros : 6

mulatos médios : 4 mulatos claros : 1 branco. E a equação será:
(p + q)4 = 1 p4q0 + 4 p3q1 + 6 p2q2 + 4 p1q3 + 1 p0q4 ou seja: (p + q)4 = p4 + 4 p3q + 6 p2q2 + 4 pq3 + q4
Exercício Proposto
Qual é a equação que representa a expansão dos seguintes binômios:
a. (p + q)6
b. (p + q)8
Unidade XXIII: ANÁLISE DE SÉRIES TEMPORAIS
Noções Básicas
 Explicar e exemplificar o conceito de série temporal;

 Identificar e explicar tipos de séries temporais;
 Conhecer os objectivos de séries temporais;
 Estabelecer a modelagem, aprendizagem e previsão de séries temporais;
 Indicar exemplos concretos de séries temporais.
139
Noções Básicas
Série temporal: conjunto de observações ordenadas (no tempo). Tempo pode ser: espaço, profundidade...
Observações vizinhas são dependentes.
Estudos de séries temporais: modelagens, análise dessa dependência, técnicas específicas a séries
temporais.
Exemplos de aplicações:
Economia: preços diários de ações; taxa de desemprego.
Medicina: níveis de eletrocardiograma ou eletroencefalograma.
Epidemiologia: casos semanais de sarampo; casos mensais de AIDS.
Meteorologia: temperatura diária; registo de marés, . . .
Classificação:
Série temporal é o conjunto de observações {Y (t), t  T}, Y : variável de interesse, T: conjunto de índices
Tipos de séries temporais

1. Discreta: T = {t1, t2, . . . , tn}
Ex: Exportações mensais de 1970 a 1980 {01/1970, 02/1970, . . . , 11/1980, 12/1980} . Notação: Yt
2. Contínua: T = {t : t1 < t < t2}

Ex: Registo da maré no Rio durante 1 ano T = [0, 24] se unidade de tempo é a hora. Notação: Y (t)
3. Multivariada: Observações são Y1(t), . . . , Yk(t), t  T.

Ex: Vendas semanais Y1(t) e gastos com propaganda Y2(t).
Y pode também ser discreto ou contínuo. Muitas vezes, Y é discreto mas pode ser tratado como contínuo.
Ex: Número de casos notificados de AIDS. Nesse curso, séries são univariadas, discretas e observada em
tempos equiespaçados.
Podemos identificar T com {1, 2, . . . , n}
Objetivos de uma análise de séries temporais

Os principais objetivos são:
i) Compreender o mecanismo gerador da série;
ii) Predizer o comportamento futuro da série.
Compreender o mecanismo da série possibilita:

 Descrever efetivamente o comportamento da série;
 Encontrar periodicidades na série;
 Tentar obter razões para o comportamento da série (possivelmente através de variáveis
auxiliares);
140
 Controlar a trajetória da série.
Predizer o futuro possibilita:

 Fazer planos a longo, médio e curto prazo;
 Tomar decisões apropriadas.
Objetivos (i) e (ii) estão ligados. É possível ocorrer bem rotineiramente se o modelo é adequado, a não ser
nos raros casos de modelos determinísticos.
Futuro envolve incerteza →previsões não são perfeitas.
Objetivo é reduzir ao máximo os erros de previsão.
Fundamentos Probabilísticos
Definição: Seja T um conjunto arbitrário.
Um processo estocástico é uma família {Y (t), t  T} tal que,  t  T, Y (t) é uma variável aleatória.
Série temporal é um processo estocástico e, o conjunto de valores {Y (t), t  T} é chamado de espaço de

estados e os valores Y(t) são chamados de estados.
Para cada t, Y (t) tem uma distribuição de probabilidade. Pode ser a mesma ou não.
Um possível valor de um processo estocástico é uma trajetória em t.
Uma forma alternativa de definição de processo estatístico é uma família de v.a. {Y (t), t  T} é um
processo estocástico se as v.a. Y (t1), Y (t2), ..., Y (tn) tem f.d. finito-dimensionais.
F(y1, ..., yn; t1, ..., tn) = Pr(Y (t1)  y1, ..., Y (tn)  yn) conhecidas para todo n  1 satisfazendo as
condições de:
 Simetria: Para qualquer permutação j1, . . . , jn dos índices 1, 2, . . . , n temos:
141
F(yj1, . . . , yjn; tj1, . . . , tjn = F(y1, . . . , yn; t1, . . . , tn)
Ex: (n = 3) F(y2, y1, y3; t2, t1, t3) = F(y1, y2, y3; t1, t2, t3)
 Consistência:
limF(y1, . . . , yn; t1, . . . , tn) = F(y1, . . . , yn−1; t1, . . . , tn−1)
Essa definição não é muito útil na prática pois é muito difícil a especificação de todas as distribuições
finito-dimensionais Normalmente, o que se faz é concentrar nos primeiros momentos. Estes são:
i) Função média: μ(t) = E{Y(t)}
ii) Função auto-covariância (facv):

 (t1, t2) = E[Y(t1) − μ(t1)][Y (t2) − μ(t2)]= E{Y (t1)Y (t2)} − μ(t1)μ(t2)
Em particular se t1 = t2 = t:  (t, t) = V {Y (t)} é a variância de Y(t) denotada por V (t) ou  2 (t).
A (facv) fornece a forma de dependência temporal do processo Y (t). Ela não traduz a força dessa
dependência pois depende da unidade de medição de Y .
Para denotar esse problema, a (facv) é comumente substituida pela:
iii) Função de auto-correlação:  (t1, t2) =  (t1, t2)/  (t1)  (t2)
A importância da função média e da facv deve-se ao fato de que se as distribuições finito-dimensionais de

Y (t) são normais então basta conhecer μ e para conhecer todo o processo.
Processos Estacionários
Como a quantidade de parâmetros é usualmente maior que o número de observações, são necessárias
hipóteses simplificadoras.
A mais comum em séries temporais é a de estacionariedade. Basicamente isso significa que o

comportamento da série não se altera com o passar do tempo, ou seja, média e facv não mudam se
caminharmos no tempo.
142
Tecnicamente, existem duas formas de estacionariedade:

 estrita (ou forte);
 fraca (ou ampla ou de 2a ordem).
Um processo estocástico Y(t) é estritamente estacionário se suas distribuições finito-dimensionais são

invariantes por translações no tempo, isto é,
F(y1, . . . , yn; t1 +  , . . . , tn +  ) = F(y1, . . . , yn; t1, . . . , tn),  t1, . . . , tn, 
O processo deslocado por  unidades no tempo permanence com as mesmas características. Em

particular com n=1 e t2=t1 +  temos que:
F(y1;t2)= F(y2;t1)
Portanto,  =  (t) e  2=  2(t) são constantes
Além disso, F(y1, y2; t1 +  , t2 +  )=F(y1, y2; t1, t2) logo,  ( t1, t2)=  ( t1 +  , t2 +  )
Fazendo  =- t2 e t= t1- t2 temos que:  ( t1, t2)=  ( t1- t2 , 0)=  (t, 0)=  (t)
A facv depende apenas da distância entre os pontos considerados. Um processo estocástico Y(t) é
fracamente estacionário se:
1. E Y (t )   (t )  
2. V Y (t )   2 (t )   2
3. Corr Y (t1 ), Y (t 2 )   (t1  t 2 )
Se os momentos existem, então: Estacionaridade forte→Estacionaridade fraca
A volta só vale se a Distribuição finito-dimensionais de Y(t) são normais (Processo Gaussiano).
Observe que a função de auto-correlação de processos estacionários é:
 (t 1 , t 2 )  ( t 2  t 1 )  (t )
 (t 1 , t 2 )      (t )
 ( t 1 ) ( t 2 )  2 (t 1 )  (0 )
De agora em diante, consideraremos apenas processos estacionários ou passíveis de
“estacionarização”por transformações. Conceito não tão importante em modelos dinâmicos.
nk __ __
Após observar a série temporal discreta Y1, ..., Yn,  k será estimado por: 1
ck 
n
 (Y
t 1
i  Y )( Y i  k  Y )
__
Onde: Y 1

n
 Yi
k  0 ,1 ,..., n  1 `
ck é a facv amostral  k pode então ser estimado por rk=ck/co, função de autocorrelação amostral.
143
Como normalmente as séries não apresentam esse comportamento estável, recorre-se a transformações
nos dados. As transformações mais comuns são:
x
 Transformação Box-Cox: Considere a função da forma: g ( y )  ( y  1

Se
 = 1, g é a identidade,
 = −1, g é a transformação inversa,
 = 1/2, g transforma y em y e lim  0 g(y) = log(y)
Essas transformações são usadas principalmente para estudar a variância.
 Operação Diferença (∆): Define-se o operador diferença através de: y t  y t  y t 1
Aplicando-se o operaodor novamente obtém-se a 2ª diferença:
2 y t  (y t )  ( y t  y t 1 )  ( y t  y t 1 )  ( y t 1  y t  2 )  y t  2 y t 1  y t  2
A n-ésima diferença de yt é obtida recursivamente por: n y t  (n 1 y t ) Normalmente, uma ou duas

diferenças são suficientes para tornar a série estacionária.
Modelagem, aprendizado e previsão
Central à análise de série temporais está a construção de um modelo.
Modelo - esquema de descrição (e explicação) que organiza informação (e experiência) de forma a

propiciar aprendizagem e previsão.
Bom modelo permite aprendizado levando a previsões adequadas.

 Devido à incerteza presente, modelo é probabilístico;
 Deve também ser econômico (parsimônia);
 Descrição deve ser relativamente simples e flexível para poder se adaptar ao futuro (incerto) e
facilitar aprendizado;
 Aprendizado é processamento de informação através do modelo;
 Previsão é hipótese, conjectiva ou especulação sobre o futuro.
Esquema de sistema de previsão de tempo

144
Critérios de Previsão
O melhor critério para escolher um modelo de previsão é a sua capacidade preditiva, ou seja, quão perto
estão as previsões dos valores posteriormente observados.
Suponha que observamos uma série até o instante t e queremos prever o valor da série no instante t + h.
 
Denotaremos por Y t (h) a previsão de Yt+h no instante t. Ex: Y t−1(1) é a previsão de Yt no instante t − 1
Onde:
t é a origem da previsão
h é o horizonte da previsão

Observe que Y t (h) é uma v.a. conhecida apenas dada a história observada do processo até o tempo t.
 
Associado a Y t (h) temos o erro de previsão Yt+h − Y t (h).
Se erros de previsão positivos e negativos são igualmente importantes faz sentido procurar previsões que
 
minimizem o erro absoluto médio E[Yt+h − Y t (h)] e o erro quadrático médio E[Yt+h − Y t (h)]2
Podemos identificar dois procedimentos distintos de construção de modelos de previsão:

i) baseia-se em teorias e inclui muitas variáveis - econométrico;
ii) baseia-se no comportamento observado da série - séries temporais.
Privilegiaremos o segundo.
Modelos de séries temporais
Modelos podem ser divididos em 2 classes:

(i) paramétricos - No finito de parâmetros. Análise é feita no domínio do tempo.
(ii) não-paramétricos - No infinito de parâmetros. Análise é feita no domínio da frequência.
O curso será basicamente sobre modelos paramétricos. Os modelos dessa classe podem ser
genericamente escritos como: Yt = St +  t ou seja Observação = Sinal + Ruído.
Assim temos:
a) Modelos de regressão
 Ruídos são não-correlacionados;
 St=xt 
Exemplos:
1. Modelo de tendência linear: S t    t
145
2. Modelo de curva de crescimento: Yt  e t  t Ou seja log Yt  log   t   t
b) Modelos de alisamento exponencial

 O sinal novamente descreve uma função como em (a);
 Relação do sinal vale apenas “localmente”;
 Parâmetros sujeitos a pequenas variações temporais.
a) Localmente constante b) Localmente linear
c) Modelos Autoregressivos (AR)
Como em a) com S t  1 y t 1   2 y t  2  ...   p y t  p
Nível ou sinal actual depende dos níveis passados.
d) Modelos lineares estacionários
inf inf
2
S t   1 t 1   2  t  2  ...  i  t i   i  t i Esse processo é estacionário se  ∞
i 1 i 1
Inclui os modelos ARMA (que serão estudados mais tarde) que inclui os modelos AR em (c).
Os modelos ARIMA são uma generalização dos modelos ARMA que visam basicamente tornar o processo
estacionário através de operações diferença.
e) Modelos de espaço de estados ou dinâmicos
S t  X t  t generalizando os modelos de regressão  t  Gt 1   t  Wt
Esses modelos incluem os modelos ARIMA. Podem ser usados tanto do ponto de vista clássico quanto
Bayesiano.
Exemplo: X t  1,  t   t , G t  1 , e Wt  Wt Logo, Yt   t   t e  t   t 1  Wt
Equivale ao modelo de alisamento exponencial para séries Localmente constantes.
f) Modelos de equações simultâneas ou econométricos
Yt T   X t B   t Onde: Yt – Variáveis endógenas; Xt – Variáveis exógenas

146
Se  tem posto máximo então após observar amostra de tamanho n, Yt  X t T  E
Onde: Y T  Y1Y2 ...Yn , X T  X 1 X 2 ...X n , T  B 1 , E T   1 2 ... n
Boa parte das séries tem características típicas, as principais são:
i) Tendência: é o efeito de longo prazo na média. Especificação de longo prazo é difícil.
A série acima apresenta tendência de crescimento linear.
ii) Sazonalidade: efeitos ligados à variações periódicas (semanal, mensal, anual, etc.).
Ex: Medidas de Temperatura (aumenta no verão e diminui no inverno).
iii) Ciclos: variações que apesar de periódicas não são associadas automaticamente a nenhuma
medida temporal.
Ex: Ciclos Econômicos (5 e 7 anos) e Ciclos de epidemias.
Uma das tarefas mais importantes em ST é identificar estas componentes visando a decomposição da
série estudada.
147
Unidade XXIV: MODELOS DE REGRESSÃO
 Identificar e definir os modelos de regressão;

 Interpretar as propriedades de modelos de regressão;
 Conhecer e explicar os modelos sazonais;
 Analiasar a evolução de séries temporais baseando-se em modelos de regrerssão;
 Resolver os exercícios resolvidos para permitir a consolidação do conhecimento aprendido.
Introdução
Série Temporal é entendida como uma coleção de observações determinadas por um sinal dependendo
de uma forma determinística do tempo às quais são superpostos erros não correlacionados.
Procura-se neste caso usar modelos de regressão para caracterizar o sinal que controla a série.
EXEMPLOS:
1- Modelo de Tendência Linear: St = a + bt;
2- Modelo de Crescimento Exponencial: Yt  Ye bt t ;
3- Modelo de Regressão Linear Simples: St = a + bxt;
4- Modelo de Regressão Não Linear: St = 1/(a + bxt);
Os modelos 2 e 4 não são lineares nos parâmetros, embora Z possa ser parametrizado através da
transformação logarítmica:
log(a)  bt   t
Os modelos aqui considerados serão lineares. Importante é a linearidade nos parâmetros.

Ex: Um modelo que pode ser usado para ST descrevendo uma curva S.
log(St) = a + b/t
que embora não seja linear em t, é linear em a e b, após transformação logarítmica.
Revisão de Modelos Lineares
Variável dependente: Y Variáveis explicativas: X1, ..., Xp

148
p
Relacionados através de: Yt   0    i x it   t Onde: t=1, ..., n
i 1
Podemos escrever: S t  xtT  ; x tT  (1, x1t ,..., x pt ) ;  tT  (  0 ,  1 ,...,  p
Os erros  t são não-correlacionados com: E(  t )=0 e V(  t )=  2 . Comumentemente se assume também

que os  t são normais.
Usando notação matricial pode se escrever: Y  X  
Y T  ( y1 ,..., y n ) X T  ( x1 ,..., x n )  T  ( 1 ,...,  n )
Onde: E ( )  0 e V ( )   2 I n
n
O critério para estimação de  é a minimização de: S (  )   ( y t  x tT  ) 2
t 1
^
Para  minimizar S(  ) é preciso que X T X   X T Y . Se X tem posto máximo (variáveis explicativas
^
são linearmente independentes), então X T X pode ser invertido fornecendo   ( X T X ) 1 X T Y .
Propriedades
^ ^
i) E     e V      2 ( X T X ) 1
   
^
ii) Se os erros tem distribuição normal então    também tem.
 
^
^ ^
iii) Os valores ajustados de Y são Y   X  e os resíduos  são dados por   Y  Y .
 
iv) Definindo:
n __
 Soma total dos quadrados por STQ   (Yt  Y ) 2
t 1
n ^
 Soma do erro dos quadrados por SEQ   (Yt  Yt ) 2
t 1
n ^ __
 Soma dos quadrados da regressão SQR   (Yt  Y ) 2
t 1
Temos que STQ  SEQ  SQR

149
SEQ
Normalmente mede-se o ajuste da regressão através de R 2  1 
STQ
SEQ SEQ
v) Se  2 é desconhecido, ele é estimado por S 2  onde 2
~ X n2 p 1 e
n  p 1 
^
 
portanto E S 2   2 e a variância de  é estimada por V^  ^ 
   S 2(X T
X ) 1 .
 
^
vi) Usando o fato t i   i   i ~ t n  p  1 ( 0 ,1 ) onde c ii é o i-ésimo elemento da diagonal de

S c ii
^  ^ 
  t  t  , n  p 1` S c ii    t  t  , n  p 1` S c ii 
(X T
X )  1 pode-se obter:  2  ;  2 
Onde: t  é o percentil 100(1-α/2) da t com n-p-1 g.l

, n  p 1`
2
^
i
Teste de nível de α para testar H:  i  0 que rejeita H se  t
S c ii ,n  p 1
2
vii) O teste simultâneo da regressão testa a hipótese

H 0 :  1   2  ...   p H 1 : a lg um i  0 Ele rejeita H0 se,
SQR
p
 F ( p, n  p  1)
SEQ
n  p 1
Onde: Fα(p,n-p-1) é o percentil 100(1-α)% da distribuição F com p e n-p-1 graus de liberdade.
Previsão
^
Suponha que se deseja prever YS baseado nos valores xls, ..., xps. Denotando o preditor por Y S e o erro de
^
previsão é dado por e S  Y S  Y S se utilizarmos como critério a minimização do EQM dado por:
2
^ ^
   
2
E e  E YS  YS 
S Obtemos Y S  E Y S   x ST B onde x TS  ( xls ,..., x ps )
 
^
Como B é desconhecido, podemos substitui-lo por seu estimador fornecendo a previsão: Y S  x TS B
Propriedades
150
^  ^ 
i) E YS   x TS B e V YS    2 x ST ( X T X ) 1 x S
   
^ ^
 
ii) E YS  Y S   0 e V (Y S  Y S )   2 1  x TS ( X T X ) 1 x S  Como  2 é desconhecido, estima-
 
^ ^ ^

se V (YS  YS ) por V (Y S  Y S ) dado por S 2 1  x ST ( X T X ) 1 x S 
^
YS  Y S
iii) Se os erros são normais então t n  p 1 (0,1)
^ ^
V (YS  YS )
iv) O intervalo de confiança 100(1-α)% para YS é dado por:
^ ^ ^ ^ ^ ^ 
Y S  t  , n  p 1 V (Y S  YS ) ; Y S  t V (YS  YS ) 
, n  p 1
 2 2 
Correlação serial entre os erros
Normalmente em regressão, assume-se que os erros  t não são correlacionados.
Em dados de séries temporais é razoável esperar que isso não aconteça, isto é, o erro no tempo t,
 t esteja relacionado aos erros contíguos,  t 1 e  t 1 .
O não reconhecimento das correlações pode levar a ajustes incorrectos. Importante estudar as
autocorrelações da série,  k .
nk __ __
 (Y
t 1
t  Y )(Yt  k  Y )
Ja vimos que  k dada por: n __
 (Yt  Y ) 2
t 1
Pode ser mostrado que se  k  0 e n é grande, vale aproximadamente que rk ~ N (0, n 1 ) e portanto o
teste de nível α=0,05 rejeita a hipótese  k  0 se n rk  1,96
Observe que temos de fazer vários testes simultâneos e o nível para um teste global é outro.
Modelos Sazonais
Séries sazonais ocorrem com frequência em várias áreas:
- consumo mensal de eletricidade em uma dada região;
- produção mensal de leite;
151
- número de casamentos em cada mês;

- etc.
A sazonalidade muitas vezes tem padrão bem estabelecido e estável (consumo de eletricidade é maior no
verão).
Muito da sazonalidade é devido à rotação da Terra em torno do Sol e as decorrências climáticas.
É importante modelar para melhor compreender e estimar.

Normalmente, além de sazonalidade, a série está sujeita à tendências e ciclos. Isso vai ser visto na
próxima seção.
Além disso, o espaço de tempo para completar um ciclo sazonal (período) pode assumir vários valores. Se
a sazonalidade é anual (mais comum) e os dados são trimestrais (período = 4), se os dados são mensais
(período= 12) e se os dados são semanais (período = 52).
Vamos assumir aqui que série é modelada apenas pela sazonalidade e o período sazonal (denotado por s)
será tomado como 12.
Vamos nos concentrar no caso mais comum: dados mensais e sazonalidade anual. A sazonalidade pode
ser modelada por indicadores sazonais ou por funções trigonométricas.
S
1
Modelagem com indicadores sazonais: S t    i x ti Onde x ti 
i 1 0
S
Ou mais comumente, S t   0    i x ti
i 1
 0 representa o nível médio da série;  1 representa o efeito do período i na série, i=1,2, ..., s
O modelo acima tem s+1 parâmentros mas a matriz não tem posto máximo: a primeira coluna á a soma
das outras.
É necessário impor alguma restrição sobre os parâmetros: As mais comuns são:
i) Omitir o nível médio  0

ii) Fazer com que um dos  ' s seja zero. Nesse caso,  0 passa a ser o nível da série para esse
período e  i é o efeito do período i comparado com o nível do período escolhido;
S
iii) Restringuir  i 1
i 0 Nesse caso, a soma dos efeitos é nula, ou equivalentemente
S
S t    i x ti
i 1
152
Adoptando a opção (iii) temos que:
S 1 S 1 S 1 S 1 S 1
S t   0    i x ti   S x ts   0    i x ti    i x ts   0    i ( x ti x ts )   0    i x ti*
i 1 i 1 i 1 i 1 i 1
E a teoria de regressão pode ser utilizada.
Exercícios Resolvidos Relativos às Unidades 23 e 24.
Análise da evolução de Séries Temporais

1. No quadro temos uma série temporal relativa ao período entre 0 a 4 para a variável X.
a) Comecemos por calcular as taxas de crescimento simples para cada período para em seguida
calcular a respectiva média aritmética.
tct
Xt X0 100
tc1  X0
 120100  0,2
X 2  X1 120
tc 2  X1
 132120  0,1
X3 X 2 264132
tc3  X2
 132
1
X4 X3 277, 2  264
tc 4  X3
 264
 0,05
A média aritmética das taxas de crescimento é dada pela soma de todas as taxas dividido pelo número
total de taxas:
tc1  tc 2  tc 3  tc 4 0,2  0,1  1  0,05

Média aritmética tc=   0,3375
4 4
Em média, a nossa variável cresceu à taxa de 33,75% ao ano.

153
b) A média geométrica das taxas de crescimento somadas à unidade, tc g, é dada pela raiz do
produto de todas as taxas somadas à unidade sendo o radical igual ao número total de taxas:
1  tc g  4 (1  tc1 ).(1  tc 2 ).(1  tc3 ).(1  tc 4 )  4 (1  0,2).(1  0,1).(1  1).(1  0,05)  1,29
Vamos deixar a interpretação deste valor para a alínea seguinte.
c) Calculemos as taxas de crescimento médio e não médias, aritméticas ou geométricas, das
taxas de crescimento, como fizemos nas alíneas anteriores.
Para calcular a taxa média de crescimento temos que atender à definição da mesma: é a taxa de
crescimento, igual para todos os períodos, que aplicada ao valor inicial da variável e assim
sucessivamente período após período permite obter o valor final da mesma.
Vamos calculá-la pelos dois processos que conhecemos embora só necessitássemos de utilizar um deles.
Pela forma como os dados são fornecidos o processo mais fácil é aquele que se baseia nos valores inicial
e final da variável.
i) Para o período entre 0 a 3, a taxa de crescimento médio é dada por:
X3 264
Processso 1: tcm0  3  3 X0
1  3 100
 1  1,382  1  0,382
Processo 2:
tcm0  3  3 (1  tc1 ).(1  tc 2 ).(1  tc3 )  1  3 (1  0,2).(1  0,1).(1  1).(1  0,05)  1  0,382
Entre o período 0 e o período 3 a variável cresceu à taxa média de 38,2% por período, ou seja, se
aplicarmos esta taxa ao valor inicial (X0=100) da variável e assim sucessivamente até ao período 3 vamos
obter o valor final, X3=264.
ii) Para o período entre 0 a 4, a taxa de crescimento médio é dada por:
X4 277 , 2
Processso 1: tcm0  4  4 X0
1  4 100
 1  1,2903  1  0,29
Processo 2:
tcm0  3  4 (1  tc1 ).(1  tc2 ).(1  tc3 ).(1  tc4 ) 1  4 (1  0,2).(1  0,1).(1  1).(1  0,05) 1  0,29
Entre o período 0 e o período 4 a variável cresceu à taxa média de 29% por período, ou seja, se
aplicarmos esta taxa ao valor inicial (X0=100) da variável e assim sucessivamente até ao período 4 vamos
obter o valor final, X4=277,2 (o mesmo raciocínio pode ser feito entre 0 e 3).
Se compararmos este resultado com o da alínea a) verificamos que a taxa média de crescimento não é
uma média aritmética das taxas de crescimento simples.
154
Com efeito, se aplicarmos a média aritmética das taxas ao valor inicial da variável e assim sucessivamente
período após período não obtemos o valor final da mesma.
Por outro lado, se compararmos o resultado com a alínea b) verificamos que a taxa média de crescimento
é igual à média geométrica das taxas de crescimento simples somadas à unidade.
Podemos ainda constatar que a taxa média de crescimento para o período entre 0 e 3 é superior à taxa
média de crescimento para o período entre 0 e 4.
Isto acontece porque a taxa de crescimento simples do período 4 é inferior às dos restantes períodos o
que vai puxar a média geométrica das taxas de crescimento simples somadas à unidade ou taxa média de
crescimento para baixo, entre o período 0 e o período 4.
2. Consideremos o gráfico seguinte que contém uma série temporal relativa à produção, com
observações trimestrais para 6 anos, de 2010 a 2015.
Cada ponto do gráfico refere-se à observação da produção relativa a um trimestre de um determinado ano.
Através da análise do gráfico podemos efectuar diferentes análises da evolução da produção:
a) Podemos querer saber a tendência da evolução da produção ao longo do conjunto dos 6 anos em
análise.
A tendência de evolução de uma série pode ser interpretada como a característica dominante da evolução
anual, crescente ou decrescente.
Apesar da informação ser trimestral, se verificarmos que em todos os trimestres entre dois anos
consecutivos a produção cresceu, então entre os dois anos também terá crescido (um ano é soma dos
quatro trimestres).
155
Os valores do primeiro trimestre crescem em todos os anos excepto em 2013 em que estagnam. Os
valores do segundo trimestre crescem em todos os anos excepto em 2014. Os valores do terceiro crescem
em todos os anos. Os valores do quarto trimestre crescem excepto em 2014.
2010 a 2011 2011 a 2012 2012 a 2013 2013 a 2014 2014 a 2016
1º Trimestre Cresce Cresce Estagna Cresce Cresce
2º Trimestre Cresce Cresce Cresce Decresce Cresce
3º Trimestre Cresce Cresce Cresce Cresce Cresce
4º Trimestre Cresce Cresce Cresce Decresce Cresce
Ano- Soma dos CRESCE CRESCE CRESCE ESTAGNA/ CRESCE
trimestres DECRESCE
Olhando para o quadro e lendo coluna a coluna constatamos que houve: crescimento em todos os
trimestres em 2011 (relativamente a 2010); crescimento em todos os trimestres em 2012 (relativamente a
2011) e crescimento em todos os trimestres em 2013 (relativamente a 2012), logo neste três primeiros
anos a produção industrial cresceu em todos os anos. Em 2014 (relativamente a 2013), nos primeiro e
terceiro trimestres a produção industrial cresce, mas nos segundo e quarto trimestre decresce, pelo que
em termos anuais terá havido uma estagnação caso as variações de sinal contrário se compensem
exactamente, ou um decrescimento caso a diminuições registadas seja mais fortes do que o aumentos.
Em 2015 (relativamente a 2014), a produção volta a crescer em todos os trimestres e logo em termos
anuais.
Temos para o período de 2010 a 2015, quatro anos de crescimento e apenas um de decrescimento pelo
que podemos concluir que a tendência de evolução da série foi crescente.
b) I- Podemos também querer saber como se comporta a produção em cada ano, ou seja, de
trimestre para trimestre.
Verificamos que a produção cresce no segundo trimestre, decresce no terceiro e torna a crescer no quarto
em todos os anos.
2010 2011 2012 2013 2014 2016
1º T-2º T Cresce Cresce Cresce Cresce Cresce Cresce
2º T-3º T Decresce Decresce Decresce Decresce Decresce Decresce
3º T-4º T Cresce Cresce Cresce Cresce Cresce Cresce
Se observarmos os seis anos verificamos que a evolução trimestral se repete em todos eles.
Este fenómeno é conhecido por sazonalidade: variações que ocorrem entre os subperíodos do ano e que
se repetem ano após ano, podendo resultar, por exemplo, de factores climatéricos ou culturais (Verão,
Natal,etc.).
Por exemplo, em Setembro, período em que se inicia um novo ano lectivo,verifica-se um aumento da
procura de livros relativamente aos restantes meses do ano. Temos aqui um factor cultural a determinar
uma variação da procura de livros que se repete todos os anos. Nos meses de Verão aumenta a produção
de frutas relativamente aos restantes meses do ano o que deriva de um factor climatérico.
156
b-ii) Além das flutuações em cada ano podemos analisar as flutuações ao longo do período total com base
na nossa análise anual inicial.
Olhando para o primeiro quadro constatamos que:

- entre 2010 e 2013 todos os trimestres crescem excepto o primeiro em 2013 pelo que podemos dizer que
foi um período de crescimento;
- em 2014, o primeiro e terceiro trimestre crescem mas o segundo e o quarto decrescem: se as duas
evoluções opostas se compensam temos estagnação se o decrescimento é mais forte temos
decrescimento;
- em 2015 todos os trimestres voltam a crescer. Temos então crescimento de 2010 a 2013, decrescimento
em 2014 e novamente crescimento em 2015.
c) Já sabemos que a tendência de evolução da produção entre 2010 e 2015 foi de crescimento (alínea a).
Mas também sabemos que determinados anos se comportaram de forma diferente (alínea b-ii).
No período total podemos então identificar sub-períodos de evolução, isto é, identificar os anos em que a
produção cresceu, aqueles em que estagnou e aqueles em que decresceu. Atendendo à análise da alínea
anterior, os sub-períodos de crescimento são dois: 2010 a 2013 e 2015; e temos também um sub-período
de decrescimento (ou estagnação), 2014.
d) Para concluir, face às diversas análises que realizámos podemos dizer que, se o nosso objectivo é
efectuar uma análise da evolução anual da produção mas as observações referem-se a subperíodos do
ano, a trimestres, então temos que comparar os mesmos trimestres dos diferentes anos.
Se utilizássemos trimestres diferentes de anos consecutivos estaríamos a enviesar a nossa análise devido
ao fenómeno da sazonalidade: diferentes trimestres estão sujeitos a influências diferentes, para além
daquelas que afectam anualmente todos os trimestres e que variam de ano para ano.
3. Consideremos o quadro com os valores trimestrais de X para dois anos, 1998 e 1999. Como os
valores são trimestrais e queremos uma análise da evolução anual temos que calcular as respectivas
taxas de crescimento homólogas anuais:
Trimestre/Ano X Trimestre/Ano X t.c.h.s(t)
I/1998 100 I/1999 135 X I (1999 ) 135
t.c.h. I (1999 )  1   1  0,35
X I (1998 ) 100
II/1998 110 II/1999 150 X II (1999 ) 150
t.c.h. II (1999 )  1   1  0,36
X II (1998 ) 110
III/1998 125 III/1999 170 X III (1999 ) 170
t.c.h. III (1999 )  1   1  0,30
X III (1998 ) 125
IV/1998 130 IV/1999 175 X IV (1999 ) 175
t.c.h. IV (1999 )  1   1  0,35
X IV (1998 ) 130
157
Como podemos verificar as taxas homólogas anuais são semelhantes dado que tivémos em conta o
fenómeno da sazonalidade. Já se tivéssemos comparado o valor do quarto trimestre do ano 1999 com o
do primeiro trimestre do ano 1998 tínhamos obtido uma taxa de 0,75 enviesada para cima uma vez que X
cresce trimestre a trimestre em cada ano.
4. Com o exercício 4 pretendemos comparar a evolução da produção de cimento no país A e no país B

que, como podemos constatar, têm valores com ordem de grandezas muito diferentes (A na casa das
centenas e B na casa das centenas de milhares).
Podemos efectuar esta análise através de um gráfico. A questão é saber se esta análise comparada é
mais fácil utilizando um gráfico com valores absolutos ou com valores relativos (índices).
Comecemos por desenhar o gráfico com valores absolutos. Como se trata da representação gráfica de
séries temporais, no eixo horizontal ou eixo das abcissas inscrevemos os períodos aos quais se referem
as observações, neste caso o ano, e no eixo vertical ou eixo das ordenadas inscrevemos as toneladas de
cimento.
Como podemos constatar, a diferença na ordem de grandeza dos valores da produção de cimento nos
dois países não permite a comparação da evolução da mesma utilizando um único gráfico. Para
representarmos ambas as evoluções no mesmo gráfico, a escala utilizada faz com que a produção no país
A pareça igual a zero em qualquer dos anos e sem variação.
Vamos então calcular as séries de números indices e desenhar o respectivo gráfico:

It/85
Pais A Pais B
I85/85=100 I85/85=100
111 437989
I 86 / 85  x100  109,9 I 86 / 85  x100  110
101 398172
158
139 547486
I 87 / 85  x100  137,6 I 87 / 85  x100  137,5
101 398172
142 558436
I 88 / 85  x100  140,6 I 88 / 85  x100  140,2
101 398172
153 603111
I 89 / 85  x100  151,5 I 89 / 85  x100  151,5
101 398172
176 693578
I 90 / 85  x100  174,3 I 90 / 85  x100  174,2
101 398172
Utilizando números índices é então fácil de verificar que a evolução da produção de cimento nos dois
países é praticamente a mesma: relativamente ao ano base, 1985, em qualquer dos países a produção de
cimento aumentou na mesma proporção em todos os anos.
Apesar dos valores absolutos da produção de cimento serem muito diferentes nos dois países a sua
evolução neste período foi idêntica. Passando agora à representação gráfica das séries em índices
verificamos que não existe já qualquer dificuldade em representar as duas séries no mesmo gráfico sendo
imediata a percepção de idêntica evolução das duas séries.
Produção de cimento nos países A e B (índices)
Note-se que quando dispomos apenas de séries em números índices apenas podemos efectuar uma
comparação da evolução das séries. Nada podemos dizer acerca dos respectivos valores absolutos.
5. O valor da produção de um país designa-se por Produto Interno Bruto (PIB). Como num país se
produzem inúmeros bens e serviços, avaliados em termos físicos em unidades diferentes, se
queremos conhecer o valor da respectiva produção temos que reduzir a produção dos diferentes bens
a uma unidade comum, a unidade monetária, no caso português o euro (€). O valor da produção de
um país é então função das quantidades produzidas e dos preços utilizados na avaliação das
quantidades produzidas. Consoante o ano a que se referem os preços utilizados na avaliação das
159
quantidades produzidas podemos ter três conceitos diferentes de PIB: o PIB a preços correntes que
utiliza, como o nome indica, os preços do ano corrente; o PIB a preços constantes que utiliza sempre
os mesmos preços de um ano escolhido como referência; e o PIB a preços do ano anterior que utiliza,
como o nome indica, os preços do ano anterior.
Para respondermos à questão 8 vamos dividi-la em três alíneas correspondentes a cada uma das três
colunas que nos pedem para preencher.
Comecemos por interpretar os valores de cada coluna. Na primeira coluna temos o PIB a preços
correntes, ou seja, as quantidades produzidas num determinado ano
avaliadas a preços desse mesmo ano. Por exemplo, o PIB a preços correntes de 1995 corresponde às
quantidades produzidas em 1995 avaliadas a preços de 1995, o PIB a preços correntes de 1996
corresponde às quantidades produzidas em 1996 avaliadas a preços de 1996, o PIB a preços correntes de
1997 corresponde às quantidades produzidas em 1997 avaliadas a preços de 1997, e assim
sucessivamente.
Na segunda coluna temos o PIB a preços do ano anterior, ou seja, as quantidades produzidas num
determinado ano avaliadas a preços do ano anterior. Por exemplo, o PIB a preços do ano anterior de 1996
corresponde às quantidades produzidas em 1996 avaliadas a preços de 1995, o PIB a preços do ano
anterior de 1997 corresponde às quantidades produzidas em 1997 avaliadas a preços de 1996, o PIB a
preços do ano anterior de 1998 corresponde às quantidades produzidas em 1998 avaliadas a preços de
1997, e assim sucessivamente.
Na terceira coluna temos a taxa de crescimento do PIB a preços constantes de 1995. O PIB a preços
constantes de 1995 é um valor monetário que resulta de avaliar as quantidades produzidas nos diferentes
anos sempre aos mesmos preços, os preços do ano de 1995 no nosso exercício.
Assim, por exemplo, o PIB a preços constantes para o ano de 1999 corresponde a avaliar as quantidades
produzidas em 1999 a preços de 1995; o PIB a preços constantes para o ano de 2000 corresponde a
avaliar as quantidades produzidas em 2000 a preços de 1995.
Os valores da terceira coluna correspondem então à taxa de crescimento anual desta variável, em
percentagem. Em, 1996 o PIB a preços constantes aumentou 3,54%, em 1997 aumentou 3,96%, e assim
sucessivamente.
5.1. Como calcular o valor do PIB a preços constantes de 1995? Uma vez que conhecemos a respectiva
taxa de crescimento basta-nos conhecer um dos valores do PIB a preços constantes para podermos
calcular todos os outros.
Nenhum valor do PIB a preços constantes é dado directamente mas, atendendo à definição de PIB a
preços correntes e de PIB a preços constantes, sabemos que no ano ao qual se referem os preços base,
1995 neste caso, o PIB a preços constantes coincide com o PIB a preço correntes.
160
O PIB a preços correntes para o ano de 1995 corresponde às quantidades produzidas em 1995 avaliadas
a preços de 1995, o ano corrente.
O PIB a preços constantes para o ano de 1995, tomando como referência os preços do ano de 1995,
corresponde às quantidades produzidas em 1995 avaliadas aos preços do ano base que é também 1995.
Assim, e apenas no ano base para o cálculo do PIB a preços
constantes podemos escrever:
PIB a preços correntes em 1995=PIB a preços constantes em 1995=80827 Estamos já em condições de

preencher a quinta coluna da tabela:
Anos Taxa de crescimento PIB a preços constantes de 1995
PIB a preços constantes de 1995 (%)
1995 80827
1996 3,54 80827x(1+0,0354)=83688
1997 3,96 83688x(1+0,0396)=87002
1998 4,58 87002x(1+0,0458)=90987
1999 3,80 90987x(1+0,0380)=94445
2000P 3,69 94445x(1+0,0369)=97930
2001P 1,64 97930x(1+0,0164)=99536
5.2 Para calcular a taxa de crescimento do PIB a preços correntes temos apenas que aplicar a fórmula da
taxa de crescimento simples.
Anos PIB preços correntes Taxa de crescimento PIB a preços correntes
1995 80827
1996 86230 (86230/80827)-1=0,0668 ou 6,68%
1997 93014 (93014/86230)-1=0,0787 ou 7,87%
1998 100962 (100962/93014)-1=0,0854 ou 8,54%
1999 108030 (108030/100962)-1=0,0700 ou 7%
2000 115546 (115546/108030)-1=0,0696 ou 6,96%
2001 122978 (122978/115546)-1=0,0643 ou 6,43%
Como calcular a taxa de crescimento dos preços, t.c.p.t? Temos dois processos de resolução desta
questão.
Se, para cada ano, compararmos o valor do PIB a preços correntes com o valor do PIB a preços do ano
anterior temos a taxa de crescimento dos preços uma vez que entre os dois valores apenas se alteram os
preços, mantendo-se as quantidades produzidas:
PIB a pre cos correntes do ano t  PIB a pre cos do ano anterior do ano t
tcp t 
PIB a pre cos do ano anterior do ano t
Anos PIB preços correntes PIB preços ano anterior Taxa de crescimento de preços
1995 80827
161
1996 86230 83692 86230  83692

 0,0304 ou 3,04%
83692
1997 93014 89645 93014  89645
 0,0376 ou 3,76%
89645
1998 100962 97274 100962  97274
 0,0379 ou 3,79%
97274
1999 108030 104800 108030  104800
 0,0308 ou 3,08%
104800
2000 115546
2001 122978
Uma vez que nos é dada a taxa de crescimento do PIB a preços constantes ou taxa de crescimento do
PIB real e calculámos já a taxa de crescimento do PIB a preços correntes ou PIB nominal, podemos
também resolver a questão atendendo à relação entre as taxas de crescimento do PIB nominal, do PIB
real e dos preços: (1+t.c.n.t)=(1+t.c.r.t)x(1+t.c.p.t)
1  tcn t
Resolvendo em ordem à taxa de crescimento dos preços: tcp t  1
1  tcrt
Anos Taxa de crescimento Taxa de crescimento Taxa de crescimento
PIB a preços correntes PIB a preços constantes Preços
1995
1996 0,0668 0,0354 1  0,0668

 1  0,0304
1  0,0354
1997 0,0787 0,0396 1  0,0787
 1  0,0376
1  0,0396
1998 0,0854 0,0458 1  0,0854
 1  0,0379
1  0,0458
1999 0,0700 0,0380 1  0,0700
 1  0,0308
1  0,0380
2000 0,0696 0,0369 1  0,0696
 1  0,0315
1  0,0369
2001 0,0643 0,0164 1  0,0643
 1  0,0471
1  0,0164
Obtemos exactamente os mesmos resultados pelos dois processos de cálculo.

162
Bibliografia
1. Yolanda Lima e Francelino Gomes. XEQ MAT. Matemática 12º. Editorial o Livro. Lisboa.
2. Luiz G. Estatística Básica. Volume1, 7ª edição. Makron Books. São Paulo. Ou pelo Site:
www.makron.com.br
3. Outras informações foram extraidas em www.google.com.br

Probabilidade & Estatística

Enviado por

Direitos autorais:

Formatos disponíveis

Probabilidade & Estatística

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Probabilidade & Estatística

Enviado por

Direitos autorais:

Formatos disponíveis

1

Manual do Curso de Licenciatura em Ensino de Física

Probabilidade & Estatística - F0112

Probabilidade & Estatística

Unidade X: PROBABILIDADE. DISTRIBUIÇÃO Unidade XV: PROBABILIDADE. DISTRIBUIÇÃO

Unidade XXI: PROBABILIDADE E ESTATÍSTICA Unidade XXIII: ANÁLISE DE SÉRIES TEMPORAIS

Unidade XXII: BINÓMIO DE NEWTON E TRIÂNGULO DE Unidade XXIV: MODELOS DE REGRESSÃO

 Desenvolver o espírito de autodidatismo no estudante mediante a prática de exercícios individuais;

 Criar bases científicas assentes em matérias de Probabilidades e Estatística na gestão de

Até ao fim desta unidade, o estudante deve ser capaz de:

 Definir o conceito de estatistica e rever a sua importância na sociedade;

Visão Sistêmica da Estatística

Estatística descritiva: parte da estatística que descreve os aspectos importantes de um conjunto de

Probabilidade: número que indica a chance de uma determinada situação ocorrer.

Definições básicas iniciais

Natureza das variáveis

Exercício 1: Contínuo ou Discreto?

1. Uma marca de cigarro possui 16,13mg de alcatrão

Unidade II: MEDIDAS DE TENDÊNCIA CENTRAL

Até ao fim desta unidade, o estudante deve ser capaz de:

 Diferenciar estatistica descritiva e inferência estatistica;

Estatística Descritiva: Resumo ou descrição das características importantes de um conjunto conhecido de

Através da ESTATÍSTICA DESCRITIVA entendemos melhor um conjunto de dados através de suas

As três principais características são:

Medidas de Tendência Central

Análise estatística da turma de

Determina valores típicos ou representativos de um conjunto de Aluno 6 1,75 M

n: número de valores da amostra;

N: número de valores de uma população;

μ= Σ(x)/N: média de todos os valores de uma população

Do nosso conjunto de dados...

Encontre a mediana: 1,75 M

n=18 (par); Posição: (n+1)/2 = 9,5;

Mediana --média entre o 9o e o 10o valor = (1,75+1,75)/2=1,75.

Valor que está a meio caminho entre o maior e o menor valor

Seja o seguinte conjunto de valores: 5 7 8 10 12 15 20

Média: 11 Mediana: 10 Ponto médio: 12,5

Se alterarmos significativamente o último valor: 5 7 8 10 12 15 200

Média: 36,7 Madiana: 10 Ponto médio: 102,5

Cálculo da média, atribuindo pesos diferentes para cada valor.

 Escore padronizado ou escore z

 Um percentil indica que há x% de dados inferiores;

ORDENA-SE o conjunto de “n” valores: 5, 7, 8, 10, 12, 15, 20, 25

LP= (n-1) x p/100+ 1

L25= (8-1) X 0,25 + 1 = 2,75; L75= (8-1) X 0,75 + 1 = 6,25

P1= 7 + (8-7) x 0,75 = 7,75; P3= 15 + (20-15)x0,25 = 16,25

 Divide o conjunto de dados em 10 partes iguais, de 10%.

 Os quartis dividem a distribuição em quatro partes iguais de 25%

Outras medidas descritivas

Quartil médio: (Q3+ Q1)/2

Horas de estudo Frequência (alunos)

2. Dados os conjuntos de dados abaixo, calcule a MÉDIA, a MEDIANA, a(s) MODA(S) e

Unidade III: MEDIDAS DE VARIAÇÃO OU DISPERSÃO

Até ao fim desta unidade, o estudante deve ser capaz de:

 Conhecer e interpretar as características de um conjunto de dados e as características de variação

As três principais características de um conjunto de dados são:

Determinam a característica de variação de um conjunto de dados:

Análise estatística da turma de

A Amplitude é a diferença entre o maior e o menor valor. Aluno 7 1,82

Desvio e desvio absoluto Análise estatística da turma de Probabilidade e