2.3 - Descritiva - Medidas Descritivas
2.3 - Descritiva - Medidas Descritivas
2.3 - Descritiva - Medidas Descritivas
Medidas separatrizes
Medidas de formato
2
Introdução e Conceitos
3
Uma outra maneira de se resumir os dados de uma
variável numérica, além de tabelas e gráficos, é apresentá-
los na forma de valores numéricos, denominados medidas
descritivas, as quais devem fornecer toda a informação
relevante a respeito dos dados e desse modo auxiliar na
análise do comportamento dos mesmos.
4
Os processos de análise procuram responder a algumas
questões, tais como:
5
Medidas de Localização ou Tendência Central
6
Medidas Separatrizes
São valores que indicam limites para proporções de
observações em um conjunto de dados ordenados;
São medidas intuitivas, de fácil compreensão e frequentemente
resistentes;
Fazem parte dessas medidas os quartis, percentis e também
a mediana.
7
Medidas de Variação
Maior variação
8
Medidas de Formato
9
MEDIDAS DE MEDIDAS DE
POSIÇÃO VARIAÇÃO
Quartis
Média Desvio
aritmética padrão
Variância
Coeficiente
Amplitude
de curtose
total Mediana
Moda
Coeficiente
de assimetria Coeficiente
de variação
Percentis
MEDIDAS MEDIDAS DE
SEPARATRIZES FORMATO
10
Existe uma grande variedade de medidas descritivas
Como escolher a mais adequada?
É fácil de interpretar?
11
Valores Atípicos ou Discrepantes
Estatura (m)
Jogadores de Jóqueis
basquete
2,08 1,58
1,98 1,62
1,95 1,65
2,03 1,55
2,10 1,57
1,93 1,60
atípico 1,58 1,98 atípico
12
Medidas de Localização ou Tendência Central
Média aritmética
É a mais utilizada;
Apresenta facilidade de cálculo e de compreensão;
propriedades matemáticas e estatísticas.
13
Os coeficientes são pesos (pi )
14
Média aritmética simples
x
x i soma de todos os valores
n total de valores somados
15
Exemplo
Os valores que seguem são os tempos de uso
(horas/semana) de um modelo profissional de motosserras.
Calcule o tempo médio de uso semanal.
12 9 11 7 9 14 10
12 9 11 7 9 14 10 10,3 h/semana
X 11,14
7
Em média, as motosserras são
usadas 10,3 horas por semana.
16
Média aritmética ponderada
Algumas vezes associa-se a cada observação xi um peso pi,
onde esse peso representa a importância atribuída a cada
observação. Nesse caso a média ponderada é calculada como:
n
p1x 1 .... p n x n pi x i
Xp i1
p1 .... p n n
p i=1
i
xp
x p
i i soma de produtos de valores e pesos
p i soma dos pesos
17
Exemplo
(170.(1)
70 ) +(175.(1)
75 ) +2(90.(2)
90 )
X 81,25
4
18
Propriedades da média aritmética
Verificação numérica:
xi 4, 4, 4, 4, 4
x4
19
2a propriedade: Ao somar uma constante c por todos os
valores de um conjunto de dados, sua média também é
somada por esta constante.
Verificação numérica:
xi = 9, 7, 5, 10, 4 x7
Somar c=2
x x 2
(x i 2)
11 9 7 12 6 45
9
x x 2 7 2
n 5 5 x x c x c
20
3a propriedade: Ao multiplicar uma constante c por todos os
valores de um conjunto de dados, sua média também é
multiplicada por esta constante.
Verificação numérica:
xi = 9, 7, 5, 10, 4 x7
x 2x 2 7
x 2x
2xi
18 14 10 20 8 70
14
n 5 5 x cx cx
21
4a propriedade: A soma de todos os desvios em relação à
média de um conjunto de valores é nula.
(x i x) 0
desvio
i xi (xi x)
Verificação numérica:
1 9 2
xi = 9, 7, 5, 10, 4 2 7 0
3 5 -2
x 7 3
4 10
5 4 -3
35 0
22
5a propriedade: A soma dos quadrados dos desvios em
relação a uma constante c é mínima quando c = x .
i
(x c) 2
é mínima quando c = x
Verificação numérica:
c x 7 c 5 c 10
24
Desvantagem:
É uma medida altamente influenciada por valores
atípicos ou discrepantes (não resistente).
4 5 7 9 10 Md 7
x7
4 5 7 8 9 15 Md 7
x8
Md 7
4 5 7 9 10 25
x 10
25
Mediana (Md)
Exemplos
xi = 12, 8, 7, 5, 7, 4, 8, 8, 9 Mo = 8
xi = 5, 7, 3, 7, 9, 5, 9, 3 não existe Mo (conjunto amodal)
xi = 9, 5, 4, 5, 7, 1, 2, 2 Mo = 2 e 5 (conjunto bimodal)
29
2. Interpretação para variáveis contínuas:
Y= percentuais de retenção de enxofre em 42 vertentes do nordeste dos EUA.
30
características
Desvantagem:
É uma medida que não se presta a cálculos matemáticos.
Deixa sem representação todos os valores do conjunto de
dados que não forem iguais a ela.
Pode não existir. 31
Exercício
Uma amostra de 20 operários de uma companhia apresentou os seguintes
salários recebidos durante certa semana, já dispostos em ordem crescente:
140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 155 ; 155;
165 ; 165 ; 180 ; 180 ; 190 ; 200 ; 205 ; 225 ; 230 ; 240
Determinar:
(a) a média (b) a mediana (c) a moda.
(d) Indicar qual medida utilizaria para apresentar os dados, e explicar em
que sentido cada valor poderia ser considerado, supondo que você
estivesse em cada uma das seguintes posições:
(I) Vice-Presidente da companhia encarregado da negociação coletiva.
(II) Presidente do grupo negociador dos empregados.
(e) Se for dado um aumento de 20% para todos os funcionários, qual será o
novo salário médio?
(f) Se for dado um aumento de R$25,00 a todos os funcionários, como fica a
média dos salários? 32
Respostas
a) x =R$ 170,50 b) Md= R$ 160,00 c) Mo = R$ 140,00
f) x = 170,50 + 25 = R$ 195,50
33
Medidas Separatrizes
50% 25%
Q1 Q2 Q3
Primeiro quartil (Q1): 25% dos valores abaixo e 75% acima dele
Segundo quartil (Q2): 50% dos valores abaixo e 50% acima dele
Terceiro quartil (Q3): 75% dos valores abaixo e 25% acima dele
35
Para obter os quartis:
1. Ordenar os dados
Dois casos:
n ímpar n par
n 1 n2
Posição do Q1 p1 Posição do Q1 p1
4 4
2(n 1) 2n 2
Posição do Q2 p2 Posição do Q2 p2
4 4
3(n 1) 3n 2
Posição do Q3 p3 Posição do Q3 p3
4 4
36
Q i x(pi )
7
Exemplo: pi 7,5
8
37
Exercício
69 58 70 80 46 61 65 74 75 55 67
56 70 72 61 66 58 68 70 68 58
i xi yi zi
1 2,0 1,7 1,9
2 1,8 1,9 2,0
3 2,1 2,2 2,1
4 1,9 2,0 2,1
5 2,2 2,2 1,9
10 10 10
Média 2 2 2
39
Objetivo indicar quanto os valores diferem entre si ou
quanto eles se afastam da média
Amplitude total
Amplitude interquartílica
Variância
Desvio padrão
Coeficiente de variação
40
Amplitude total (at)
Fornece uma ideia inicial de variação;
É obtida pela diferença entre o maior valor e o menor
valor de um conjunto de dados
at
EI=x(1) ES=x(n)
at ES EI
ES: extremo superior do conjunto de dados ordenado
EI: extremo inferior do conjunto de dados ordenado
at x(n) x(1)
41
Os valores abaixo se referem ao
Exemplo peso (Kg) colocado sobre a
extremidade de um cabo de aço.
xi = 3, 3, 4, 6, 7, 9, 9, 11, 12
at ES EI 12 3 9 kg
Significado: todos os valores do conjunto de dados diferem, no
máximo, em 9 kg.
at variabilidade
Desvantagens
pouco precisa
extremamente influenciada por valores discrepantes
42
Amplitude interquartílica (aq)
aq
EI Q1 Q3 ES
Q1 : primeiro quartil
aq Q 3 Q 1
Q3 : terceiro quartil
43
n 1 9 1
p1 2,5
Exemplo 4 4
3n 1 39 1
p3 7,5
4 4
Os valores abaixo se referem ao peso (Kg)
colocado sobre a extremidade de um cabo de aço.
xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 Q1 = 3,5 kg e Q3 = 10 kg
aq Q 3 Q 1 10 3,5 6,5 kg
Significado: pelo menos 50% das observações diferem, no
máximo, em 6,5 kg
aq variabilidade
Vantagem
medida resistente (não é afetada por valores discrepantes)
44
Medidas de dispersão baseadas na média
O elemento básico dessa dispersão é o desvio:
mede quanto cada valor varia em
Desvio: (xi x)
relação à média
45
Exemplo:
xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2 x 2,0L
2,0 2,0 0
1,8 2,0 -0,2
(xi x) variação do xi em
2,1 2,0 0,1
relação à média
1,9 2,0 -0,1
2,2 2,0 0,2
(x xx)
i
2
i
(x x) 2
47
Variância (s2)
s
2 i
(x x) 2
n -1
48
Por que utilizar n-1 como denominador?
• Porque este denominador confere à variância melhores
propriedades estatísticas (importante na inferência estatística).
sn2
i
(x x) 2
s2
i
(x x) 2
n -1
49
Os valores abaixo se referem ao
Exemplo peso (Kg) colocado sobre a
extremidade de um cabo de aço.
xi = 9, 7, 5, 10, 4 x 7 kg
s2
i
(x x) 2
n 1
(9 7)2 (7 7)2 (5 7)2 (10 7)2 (4 7)2
5 1
4 0 4 9 9 26
6,5
4 4
s 6,5 kg
2 2 unidade de medida fica
elevada ao quadrado
50
Propriedades da variância
Verificação numérica:
xi = 7, 7, 7, 7, 7 x7
(7 7)2
(7 7)2
(7 7)2
(7 7)2
(7 7)2
s2 0
5 1
51
2ª propriedade: Ao somar uma constante c a todos os
valores de um conjunto de dados, a variância destes dados
não se altera.
Verificação numérica:
x7
xi = 9, 7, 5, 10, 4
s2 6,5
Somar c=2
x x 2 9 x x c x c
xi+2 = 11, 9, 7, 12, 6
s 2
x 2 6,5 s 2
x c s 2
Verificação numérica:
x7
xi = 9, 7, 5, 10, 4
s2 6,5
Multiplicar por c=2
x 2x 14 x cx cx
2xi= 18, 14, 10, 20, 8
s22x 26 s2xc c 2s2
(18 14)2
(14 14)2
(10 14)2
(20 14)2
(8 14)2
s22x
5 1
16 0 16 36 36 104
26 kg2 22 6,5
4 4 53
Desvantagens da variância:
54
Desvio padrão (S)
s s2
Exemplo:
x 2L
xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2
s 2 0,025 L2
s s 2
s 0,025L2 s 0,16L
55
Apresentação do desvio padrão:
xs
Volume médio de 2L com
2 0,16 uma variação média de 0,16L
acima e abaixo da média.
56
Exemplo
i xi yi zi
1 2,0 1,7 1,9
2 1,8 1,9 2,0
3 2,1 2,2 2,1
4 1,9 2,0 2,1
5 2,2 2,2 1,9
10 10 10
Média 2L 2L 2L
Variância 0,025 L2 ? ?
Desvio
0,16L ? ?
padrão
57
Exemplo
(x x)
i
2
= 0,09 – 0,01 – 0,04 – 0,00 – 0,04
s
2 i
(x x) 2
0,18 = 0,045 L2
n -1 4
s s 2
s 0,045L2 s 0,21L
58
Exemplo
(x x)
i
2
= 0,01 – 0,00 – 0,01 – 0,01 – 0,01
s
2 (x i x) 2
0,04 0,01 L2
n -1 4
s s 2
s 0,01L2 s 0,1L
59
Solução
i xi yi zi
1 2,0 1,7 1,9
2 1,8 1,9 2,0
Garrafas PET entrando em enchedora
http://superenvase.blogspot.com.br 3 2,1 2,2 2,1
4 1,9 2,0 2,1
5 2,2 2,2 1,9
10 10 10
Média 2L 2L 2L
Variância 0,02 L2 0,045 L2 0,01 L2
Desvio
0,14L 0,21L 0,10L
padrão
60
Os valores abaixo se referem ao
Exemplo peso (Kg) colocado sobre a
extremidade de um cabo de aço.
x 7 kg
xi = 9, 7, 5, 10, 4
s2 6,5 kg2
s s 2
s 6,5 kg2 s 2,55 kg
61
Coeficiente de Variação (CV)
O coeficiente de variação é definido como a proporção
(ou percentual) da média representada pelo desvio padrão.
s
CV 100%
x
Exemplo
64
Qual grupo varia mais em relação à espessura das peças?
x1 51mm x 2 72mm
máquina A (X1) s1 = 12mm s2 = 16mm máquina B (X2)
65
Exemplo 2
Consideremos, agora, que xi e yi são conjuntos de valores
referentes a estaturas (em cm) e pesos (em kg) de um grupo de
estudantes, para os quais foram obtidas as seguintes medidas:
Medidas Medidas
de assimetria de curtose
68
A simetria em torno de um eixo indica que o formato da
distribuição à esquerda e à direita desse eixo é o mesmo.
cauda cauda
centro
69
Medidas de assimetria
Informam se a maioria dos valores se localiza à esquerda,
ou à direita, ou se estão distribuídos uniformemente em
torno da média aritmética.
Uma das medidas de assimetria mais precisas é o
coeficiente de assimetria (a3), calculado a partir do segundo
e do terceiro momentos centrados na média:
m3
i
(x x)3
m3 n
a3
m2 m2
m2
i
(x x) 2
x Md Mo
71
Se a3>0, a distribuição é classificada como assimétrica
positiva, indicando que a maioria dos valores são
menores ou se localizam à esquerda da média (cauda
para direita).
Mo Md x
72
Se a3<0, a distribuição é classificada como assimétrica
negativa, indicando que a maioria dos valores são
maiores ou se localizam à direita da média (cauda para
esquerda).
x Md Mo
73
Interpretação teórica populações
A classificação é feita
m4
(x i x)4 tendo por base a
m4 n
a4 2 curtose que ocorre na
m2
m2
(x i x)2 distribuição normal
(mesocúrtica).
n
76
Classificação quanto à curtose
77
Se a4<3 platicúrtica baixa concentração de valores
no centro, tornando a distribuição mais achatada que a
distribuição normal.
78
Se a4>3 leptocúrtica alta concentração de valores no
centro e nas caudas, o que provoca um pico maior que o
da distribuição normal.
79
APRESENTAÇÃO DOS DADOS
Coeficiente
Variância Desvio padrão de variação
Fj c j x p s s
s
2
s
2
2 CV 100%
n 1 x
m3
j j 4 j j
m
m3 n n
a3 m4
a4 2
m2 m2
F c xp Fj c j x p
2 2
m2 m2
m2
j j
n n 81
um supermercado registrou o valor
Exemplo gasto pelos primeiros 50 clientes que
passaram em determinado caixa.
j Classes cj Fj Pressuposição
1 3,11 | 16,00 9,555 8
2 16,00 | 28,89 22,445 20
50 Distribuição simétrica
dentro dos intervalos
x
x i não estão disponíveis
n 83
Média
j Classes cj Fj c j Fj
xp
cF j j
1728, 08
34,56 reais gasto no supermercado
n 50
84
Mediana e Moda
j Classes cj Fj Fj c j Fj
1 3,11 | 16,00 9,555 8 8 76,44
Classe mediana
2 16,00 | 28,89 22,445 20 28 448,90
Classe modal 3 28,89 | 41,78 35,335 6 34 212,01
4 41,78 | 54,67 48,225 8 42 385,80
5 54,67 | 67,56 61,115 3 45 183,35
6 67,56 | 80,45 74,005 1 46 74,01
7 80,45 || 93,34 86,895 4 50 347,58
50 1.728,08
n 1 25
Posição da Mediana p 25,5
2 26
Classe mediana: é a primeira classe da frequência absoluta
acumulada que compreende a posição da mediana..
Classe modal: classe com a maior frequência absoluta. 85
Variância e momentos x p 34,56 reais
j Classes Fj (c j x) Fj (c j x) Fj (c j x)
2 3 4
cj Fj
F c xp F c xp
2 4
24062,15 37757374,66
481,243 755147,49
j j j j
m2 m4
n 50 n 50
Fj c j x p Fj c j x
3
2
550700,46 s2
m3 11014,0092
n 50 n 1
86
Fj c j x
2
24062,15
variância s2 491,06 reais2
n 1 49
xs
Desvio padrão s s2 491,06 22,16 reais
34,56 22,16 reais
m3 11014,0092 11014,0092
Coeficiente de assimetria a3 1,043
m 2 m 2 481,243 481,243 10557,15
a4>3 = leptocúrtica
87
Dados não agrupados Dados agrupados em classe
2 2 2 2
s = 471,32 reais s = 491,06 reais
CV = 62,42% CV = 64,12%
88
Próxima aula
- 2.4. Análise exploratória de dados
Resumo de cinco números
Gráfico de caixas
Diagrama de ramo e folhas
89