4 - Propriedades Da Distribuição Normal

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 13

Propriedades da distribuição normal

Para uma mesma média µ e diferentes desvios padrão σ, a distribuição


que tem maior desvio padrão se apresenta mais achatada, acusando maior
dispersão em torno da média. A que tem menor desvio padrão apresenta “pico”
mais acentuado e maior concentração em torno da média. A figura abaixo
compara três curvas normais, com a mesma média, porém, com desvios
padrão diferentes. A curva A se apresenta mais dispersa que a curva B, que
σ σ
por sua vez se apresenta mais dispersa que a curva C. Nesse caso, A > B >
σ
C.

Distribuições normais com o mesmo desvio padrão e médias diferentes


possuem a mesma dispersão, mas diferem quanto à localização. Quanto maior
a média, mais à direita está a curva. A figura ilustra o fato, onde a curva A
possui média maior que a curva B (µA > µB).
C

B
A

Figura - Distribuições normais com mesma média e desvios padrão


diferentes

B A

µB µA

Figura - Distribuições normais com mesmo desvio padrão e médias


diferentes
Como descrito anteriormente, a probabilidade de uma variável assumir
valores entre a e b é igual à área sob a curva entre esses dois pontos. A
determinação dessas probabilidades é realizada matematicamente através da
integração da função de densidade de probabilidade entre os pontos a e b de
interesse. No caso da normal, a integral não pode ser calculada exatamente e
a probabilidade entre dois pontos só pode ser obtida de forma aproximada, por
métodos numéricos. Essa tarefa é facilitada através do uso da distribuição
normal padrão definida a seguir.
No caso da distribuição normal, algumas dessas áreas - com os pontos
a e b, função da média µ e do desvio padrão σ − são bastante difundidas e estão
representadas na figura:

Figura - Probabilidades da distribuição normal

Portanto, 68,26% dos valores populacionais caem entre os limites


definidos como média mais ou menos um desvio padrão (µ ± 1σ); 95,46% dos
valores caem entre média mais ou menos dois desvios padrão (µ ± 2σ); e
99,73% dos valores caem entre média mais ou menos três desvios padrão (µ ±
3σ).

A distribuição normal padrão

A distribuição normal particular com média 0 e desvio padrão 1 é


chamada de distribuição normal padrão e costuma ser denotada por Z.
Se X ∼ N(µ ,σ2), então, a variável aleatória definida por

Terá uma distribuição N(0,1). Essa transformação é ilustrada pela figura:

X
µ-3σ µ -σ µ µ+σ µ+3σ
µ-2σ µ+2σ
X-µ
σ
Z

-3 -2 -1 0 1 2 3

Figura - Transformação de uma N(µ ,σ2) para uma N(0,1)

A área à esquerda de um valor especificado da N(0,1) encontra-se


tabelada.
Utilizando-se a transformação acima, podemos obter as probabilidades
para qualquer N(µ ,σ2). O procedimento é ilustrado através do exemplo abaixo.
Exemplo:
Extrudados tubulares possuem tensão de escoamento (tensão a partir
da qual o material se deforma plasticamente), que segue uma distribuição
normal com média de 210 MPa com desvio padrão de 5 MPa. Em notação
estatística, X ∼ N(210 ,52). É desejado que tais extrudados tenham tensão de
escoamento de pelo menos 200 MPa. Portanto, a probabilidade do extrudado
não atingir a especificação desejada é:
Solução:
A figura mostra a transformação realizada e a área desejada.

P(X<200)

X
180 190 200 210 220 230 240

P(Z<-2)

Z
-6 -4 -2 0 2 4 6

Figura - Probabilidade do extrudado não atingir a especificação desejada

Para cálculo dessa probabilidade, utilizamos a tabela de distribuição


normal padronizada ( que esta no apêndice do livro indicado na bibliografia
básica). Observe que a tabela traz apenas a P(Z<z) para z não negativo (z ≥ 0).
As propriedades que se seguem podem ser deduzidas a partir da simetria da
densidade em relação à média 0, e são úteis na obtenção de outras áreas não
tabuladas.

• P(Z>z) = 1 - P(Z<z)

• P(Z<-z) = P(Z>z)

• P(Z>-z) = P(Z<z)
P(Z < -z) 1 - P(Z < z)

-z z

Figura - Áreas correspondentes na distribuição normal


Utilizando as relações apresentadas acima, a probabilidade do
extrudado não atender à especificação é

P(X < 200) = P(Z < -2) = P(Z > 2) = 1 - P(Z < 2)

Que, através da tabela da N(0,1) é igual a

P (X < 200) = 1 - 0,97725 = 0,02275.


= 2,275%

Inferência Estatística

Trata-se do processo de obter informações sobre uma população a partir


de resultados observados na amostra.
De modo geral, tem-se uma população com grande número de
elementos e deseja-se, a partir de uma amostra dessa população, conhecer “o
mais próximo possível” algumas características da população.
Toda conclusão tirada por uma amostragem, quando generalizada para
a população, virá acompanhada de um grau de incerteza ou risco.
Ao conjunto de técnicas e procedimentos que permitem dar ao
pesquisador um grau de confiabilidade, de confiança nas afirmações que faz
para a população, baseadas nos resultados das amostras, damos o nome de
Inferência Estatística.
O problema fundamental da Inferência Estatística, portanto, é medir o
grau de incerteza ou risco dessas generalizações. Os instrumentos da
Inferência Estatística permitem a viabilidade das conclusões por meio de
afirmações estatísticas.

População e amostra; Estatísticas e parâmetros;

Distribuições amostrais

Se um conjunto de dados consiste de todas as observações possíveis


(concebíveis ou hipotéticas), é chamado uma população; se um conjunto de
dados se consiste apenas de uma parte dessas observações, é chamado uma
amostra.
Um dos principais objetivos da maioria dos estudos, análises ou
pesquisas estatísticas é fazer generalizações seguras - com base em amostras
– em relação às populações das quais se extraíram as amostras.
Definições

Parâmetro: é a medida usada para escrever uma característica numérica


populacional. Genericamente é representado por θ. A média (µ), a variância
(σ2) e o coeficiente de correlação (ρ) são alguns exemplos de parâmetros
populacionais.
Estimador: também denominado estatística de um parâmetro
populacional. É uma característica numérica determinada na amostra, uma
função de seus elementos. Genericamente, é representado por θ’. A média
amostral (x) e a variância amostral (s2) são alguns dos exemplos de
estimadores.

POPULAÇÃO PARÂMETROS: θ

AMOSTRAS ESTIMADORES: θ’
Distribuição Amostral

Considere todas as possíveis amostras de tamanho n que podem ser


extraídas de determinada população. Se para cada uma delas se calcular um
valor do estimador, tem-se uma distribuição amostral desse estimador. Como o
estimador é uma variável aleatória, pode-se determinar suas características,
isto é, encontrar sua média, variância, desvio-padrão.
As distribuições amostrais são fundamentais para o processo de
inferência estatística.

Distribuição amostral da Média

Sabe-se que (média aritmética) é um estimador da média


populacional µ.
O estimador x’ é uma variável aleatória; portanto, busca-se conhecer sua
distribuição de probabilidade.
Teorema 1 – A média da distribuição amostral das médias, denotada por
µ(x’), é igual à média populacional µ.

E (x’) = µ(x’) = µ

Assim, é provado que a média das médias amostrais é igual à média


populacional.
Teorema 2 – Se a população é infinita, ou se a amostragem é com
reposição, então a variância da distribuição amostral das médias, denotada por
σ2(x’), é dada por:

Teorema 3 – Se a população é finita, ou se a amostragem é sem


preposição, então a variância da distribuição amostral das médias é dada por:
Teorema 4 - Se a população tem ou não distribuição normal com média
µ e variância σ2, então a distribuição das médias amostrais será normalmente
𝜎2
distribuída com σ2 média µ e variância .
𝑛
Esses quatro teoremas provam que a média amostral (x’) tem
distribuição normal σ2 com média igual à média da população (µ) e variância
𝜎2 𝑁−𝑛
dada por para populações infinitas, assim como ( ) para populações
𝑛 𝑁−1

finitas. Ou, ainda:

com distribuições padronizadas dadas por:

Exemplo:
Temos uma população de 5000 alunos de uma faculdade. Sabemos que
a altura média dos alunos é de 175 cm e o desvio padrão, de 5 cm. Retiramos
uma amostra sem reposição, de tamanho n = 100. Qual o valor do desvio
padrão amostral?
Solução:
Estimação

Há dois tipos fundamentais de estimação: por ponto e por intervalo.

Estimação pontual

O problema da estimação pontual surge quando estamos interessados


em alguma característica numérica de uma distribuição desconhecida (ex:
média, variância) e desejamos calcular, a partir de observações, um número
que inferimos que seja uma aproximação da característica numérica em
questão.
Para ilustrar alguns dos problemas com os quais nos deparamos quando
estimamos a média de uma população com base em dados amostrais, vamos
recorrer a um estudo em que planejadores industriais procuraram determinar o
tempo médio que um adulto leva para montar um robô “fácil de montar”. Com
uma amostra aleatória, obtém-se os seguintes dados (em minutos) para 36
pessoas que montaram o robô:

17 13 18 19 17 21 29 22 16
28
21 15 26 23 24 20 8 17 17
21
32 18 25 22 16 10 20 22 19
14
30 22 12 24 28 11
A média desta amostra é x’ = 19,9 minutos. Na ausência de qualquer
outra informação, podemos tomar esta cifra como uma estimativa de µ, o
“verdadeiro” tempo médio que um adulto leva para montar o robô.
Esse tipo de estimativa é chamada estimativa pontual, pois consiste de
um único número, ou um único ponto na escala dos números reais. Embora se
trate da forma mais comum de expressar estimativas, ela deixa margem para
não poucas questões. Por exemplo, não nos diz em quantas informações a
estimativa se baseia, nem tampouco nos informa sobre o tamanho possível do
erro.
Estimação por intervalo
A estimação por pontos de um parâmetro não possui uma medida do
possível erro cometido na estimação, daí surge a ideia de construir os
intervalos de confiança, que são baseados na distribuição amostral do
estimador pontual.
Uma maneira de expressar a precisão da estimação é estabelecer
limites que, com certa probabilidade, incluam o verdadeiro valor do parâmetro
da população. Esses limites são chamados “limites de confiança”: determinam
um intervalo de confiança, no qual deverá estar o verdadeiro valor do
parâmetro. Logo, a estimação por intervalo consiste na fixação de dois valores
tais que (1 - α) seja a probabilidade de que o intervalo, por eles determinado,
contenha o verdadeiro valor do parâmetro.

α : nível de incerteza ou grau de desconfiança


1 - α : coeficiente de confiança ou nível de confiabilidade.

Portanto, α nos dá a medida da incerteza desta inferência (nível de


significância).
Logo, a partir das informações de amostra, devemos calcular os limites
de um intervalo, valores críticos que em (1 - α)% dos casos inclua o valor do
parâmetro a estimar e em α% dos casos não inclua o valor do parâmetro.

Intervalo de confiança (IC) para a média populacional (µ) quando a


Variância (σ2) é conhecida.
Como se sabe, o estimador de µ é x’. Também é conhecida a
distribuição de probabilidade de x’:

para as populações infinitas,

para as populações finitas.


Assim, para o caso de populações infinitas, a variável padronizada de x’
será:

Fixando-se um nível de confiança 1 - α, tem-se:

Ou seja:

Substituindo-se o valor de Z, tem-se:


Resolvendo-se as duas inequações para µ, tem-se o intervalo de
confiança para a média populacional (µ) quando a variância (σ2) é conhecida:

Como poderá ser verificado, a aplicação da fórmula é extremamente


simples. Fixa-se o valor de 1 - α ou (1 - α)100= %, e observa-se na tabela de
distribuição normal padrão o valor das abscissas que deixam α/2 em cada uma
das caudas. Com os valores de x’ (média amostral), σ=desvio padrão da
população, que neste caso é conhecido, e n (tamanho da amostra), constrói-se
o intervalo.
Para o caso de populações finitas, usa-se a seguinte fórmula:

Exemplo:
A duração da vida de uma peça de equipamento é tal que σ=5 horas.
Foram amostradas 100 dessas peças, obtendo-se a média de 500 horas.
Deseja-se construir um intervalo de confiança para a verdadeira duração média
da peça com um nível de 95%.
Solução:
σ = 5 ; n = 100 x’=500 (1 - α)100=95%

O gráfico da distribuição normal padrão será:


Lembre-se que para descobrir a abscissa 1,96, entrou-se na tabela de
distribuição normal padronizada com o valor 0,475 = 47,5 , já que a tabela é de
faixa central.
Substituindo na formula:

Efetuando os cálculos temos:


P(499,02 ≤ µ ≤ 500,98) = 95%

Testes de Hipóteses

Trata-se de uma técnica para se fazer inferência estatística. Ou seja, a


partir de um teste de hipóteses realizado com os dados amostrais, pode-se
fazer inferências sobre a população.

Você também pode gostar