2.3 - Descritiva - Medidas Descritivas

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 89

Universidade Federal de Pelotas

Centro das Engenharias

2.3. MEDIDAS DESCRITIVAS

Luana de Melo Pereira

Disciplina: Estatística Básica


MEDIDAS DESCRITIVAS

 Medidas de localização, posição ou


tendência central

 Medidas separatrizes

 Medidas de variação ou dispersão

 Medidas de formato

2
Introdução e Conceitos

3
Uma outra maneira de se resumir os dados de uma
variável numérica, além de tabelas e gráficos, é apresentá-
los na forma de valores numéricos, denominados medidas
descritivas, as quais devem fornecer toda a informação
relevante a respeito dos dados e desse modo auxiliar na
análise do comportamento dos mesmos.

4
Os processos de análise procuram responder a algumas
questões, tais como:

 Serão os dados quase todos iguais?

 Serão muito diferentes uns dos outros?

 De que modo são diferentes?

 Existem alguns dados muito diferentes da maior parte?

5
Medidas de Localização ou Tendência Central

 Descrevem valores que caracterizam o centro da


distribuição;
 Fazem parte dessas medidas a média, mediana e a
moda.

6
Medidas Separatrizes
 São valores que indicam limites para proporções de
observações em um conjunto de dados ordenados;
 São medidas intuitivas, de fácil compreensão e frequentemente
resistentes;
 Fazem parte dessas medidas os quartis, percentis e também
a mediana.

7
Medidas de Variação

 São valores que informam sobre a variabilidade dos dados;


 São, juntamente com as medidas de posição, indispensáveis
para descrever um conjunto de dados;
 Fazem parte dessas medidas a amplitude total, a variância, o
desvio padrão e o coeficiente de variação.

Maior variação

8
Medidas de Formato

 São quantidades que informam sobre o modo como os


valores se distribuem;
 Fazem parte dessas medidas os coeficientes de assimetria e
curtose.

9
MEDIDAS DE MEDIDAS DE
POSIÇÃO VARIAÇÃO
Quartis
Média Desvio
aritmética padrão
Variância
Coeficiente
Amplitude
de curtose
total Mediana
Moda
Coeficiente
de assimetria Coeficiente
de variação
Percentis
MEDIDAS MEDIDAS DE
SEPARATRIZES FORMATO
10
Existe uma grande variedade de medidas descritivas
Como escolher a mais adequada?

 Com que objetivo a medida está sendo obtida?

 É fácil de interpretar?

 Existem valores atípicos que podem afetá-la


exageradamente?

 O propósito da análise é meramente descritivo ou


planeja-se fazer inferências?

11
Valores Atípicos ou Discrepantes

Estatura (m)
Jogadores de Jóqueis
basquete
2,08 1,58
1,98 1,62
1,95 1,65
2,03 1,55
2,10 1,57
1,93 1,60
atípico 1,58 1,98 atípico

12
Medidas de Localização ou Tendência Central

Média aritmética
 É a mais utilizada;
 Apresenta facilidade de cálculo e de compreensão;
 propriedades matemáticas e estatísticas.

Definição: é uma combinação linear de todas as observações.

Conjunto de observações: x1, x2 ,..., xn


Conjunto de coeficientes: c1, c2 ,..., cn

combinação linear: c1 x1 + c2 x2 +... + cn xn = c i xi

13
 Os coeficientes são pesos (pi )

Todos os valores participam do


Simples
cálculo com o mesmo peso.
p1 = p2 = ... = pn = p

Média aritmética px1 + px2 +... + pxn =  px i

Ponderada Pelo menos um dos valores


participa com peso diferente.

p1x1 + p2x2 +...+ pnxn = p i xi

14
Média aritmética simples

A média de um conjunto de n valores x1, x2 ,..., xn é


definida como:
x 1 ...x n 1 n
X   xi
n n i 1

x
 x i soma de todos os valores
n total de valores somados

15
Exemplo
Os valores que seguem são os tempos de uso
(horas/semana) de um modelo profissional de motosserras.
Calcule o tempo médio de uso semanal.

12 9 11 7 9 14 10

12  9  11  7  9  14  10 10,3 h/semana
X   11,14
7
Em média, as motosserras são
usadas 10,3 horas por semana.

16
Média aritmética ponderada
Algumas vezes associa-se a cada observação xi um peso pi,
onde esse peso representa a importância atribuída a cada
observação. Nesse caso a média ponderada é calculada como:
n

p1x 1 .... p n x n  pi x i
Xp   i1
p1 .... p n n

p i=1
i

xp 
 x p
i i soma de produtos de valores e pesos
p i soma dos pesos
17
Exemplo

Um exame de seleção é composto de três provas


onde as duas primeiras tem peso 1 e a terceira tem peso
2. Um candidato com notas 70 75 e 90 terá média
final:

(170.(1)
70 ) +(175.(1)
75 ) +2(90.(2)
90 )
X   81,25
4

18
Propriedades da média aritmética

1a propriedade: A média de um conjunto de dados que


não varia, ou seja, cujos valores são uma constante, é a
própria constante.

Verificação numérica:

xi  4, 4, 4, 4, 4
x4

19
2a propriedade: Ao somar uma constante c por todos os
valores de um conjunto de dados, sua média também é
somada por esta constante.

Verificação numérica:

xi = 9, 7, 5, 10, 4 x7

Somar c=2

xi+2 = 11, 9, 7, 12, 6

x x 2 
(x i  2)

11 9  7  12  6 45
 9
x x 2  7  2
n 5 5 x x c  x  c
20
3a propriedade: Ao multiplicar uma constante c por todos os
valores de um conjunto de dados, sua média também é
multiplicada por esta constante.

Verificação numérica:

xi = 9, 7, 5, 10, 4 x7

Multiplicar por c=2

2xi = 18, 14, 10, 20, 8

x 2x  2  7
x 2x 
 2xi 
18  14  10  20  8 70
  14
n 5 5 x cx  cx
21
4a propriedade: A soma de todos os desvios em relação à
média de um conjunto de valores é nula.

(x i  x)  0

desvio

diferença entre a observação e a média aritmética

i xi (xi  x)
Verificação numérica:
1 9 2
xi = 9, 7, 5, 10, 4 2 7 0
3 5 -2
x 7 3
4 10
5 4 -3
 35 0
22
5a propriedade: A soma dos quadrados dos desvios em
relação a uma constante c é mínima quando c = x .

 i
(x  c) 2
é mínima quando c = x

Verificação numérica:
c x 7 c 5 c  10

i xi (xi  x) (xi  x)2 (xi  5)2 (xi  10)2


1 9 2 4 16 1
2 7 0 0 4 9
3 5 -2 4 0 25
4 10 3 9 25 0
5 4 -3 9 1 36
 35 0 26 46 71
23
características

 No cálculo da média participam todos os valores


observados.
 É uma medida de fácil interpretação e presta-se muito bem
a tratamentos estatísticos adicionais.
 É uma medida que sempre existe e é única.
 É o ponto de equilíbrio de uma distribuição, sendo tão
mais eficiente quanto mais simétrica for a distribuição dos
valores ao seu redor.

24
Desvantagem:
 É uma medida altamente influenciada por valores
atípicos ou discrepantes (não resistente).

4 5 7 9 10 Md  7
x7

4 5 7 8 9 15 Md  7
x8

Md  7
4 5 7 9 10 25
x  10
25
Mediana (Md)

É a medida que divide um conjunto de dados


ordenado em duas partes aproximadamente iguais: 50%
dos valores ficam abaixo e 50% ficam acima da mediana.
Md

x(1) 50% 50%


x(n)

Para obter a mediana:

1. Ordenar os dados em ordem crescente


2. Determinar a posição (p) da mediana
26
Os valores abaixo se referem ao
peso (Kg) colocado sobre a
Exemplo
extremidade de um cabo de aço.
xi = 5, 9, 7, 4, 12, 10

1. Ordenar os dados 2. Determinar a posição (p) da mediana


x(i) = 4, 5, 7, 9, 10, 12 n = 6 (par)

x (3)  x (4) 79


p1=3 Md   8
n 1 6 1 2 2
p   3,5
2 2 Md  8 kg
p2=4

50% dos pesos colocados sobre a


extremidade do cabo de aço é inferior a 8kg.
27
características
 Define exatamente o centro de uma distribuição, mesmo
quando os valores se distribuem assimetricamente em torno
da média;
 É determinada mesmo sem utilizar todos os valores do
conjunto de dados;
 É uma medida que sempre existe e é única;
 É uma medida resistente, ou seja, não sofre influência de
valores discrepantes.
Desvantagem:
É uma medida que não se presta a cálculos
matemáticos.
28
Moda (Mo)
 É o valor de maior ocorrência num conjunto de dados.
 É a única medida que pode não existir e, existindo, pode não ser única.

Exemplos

1. Interpretação para variáveis discretas:


X=número de unidades defeituosas em um lote de produção.

xi = 12, 8, 7, 5, 7, 4, 8, 8, 9 Mo = 8
xi = 5, 7, 3, 7, 9, 5, 9, 3 não existe Mo (conjunto amodal)
xi = 9, 5, 4, 5, 7, 1, 2, 2 Mo = 2 e 5 (conjunto bimodal)
29
2. Interpretação para variáveis contínuas:
Y= percentuais de retenção de enxofre em 42 vertentes do nordeste dos EUA.

Y=percentuais de retenção de enxofre em


42 vertentes do nordeste dos EUA.

 Valores de variáveis contínuas,


em geral, não se repetem.

 A moda tem importância apenas


conceitual, estando relacionada
com o pico da distribuição:
classe modal: maior frequência

 Moda é o ponto da distribuição


onde temos a maior frequência.

30
características

 É uma medida que têm existência real dentro do conjunto


de dados e em grande número de vezes;
 Não exige cálculo, apenas uma contagem;
 Pode ser determinada também para variáveis categóricas.

Desvantagem:
É uma medida que não se presta a cálculos matemáticos.
 Deixa sem representação todos os valores do conjunto de
dados que não forem iguais a ela.
Pode não existir. 31
 Exercício
Uma amostra de 20 operários de uma companhia apresentou os seguintes
salários recebidos durante certa semana, já dispostos em ordem crescente:
140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 140 ; 155 ; 155;
165 ; 165 ; 180 ; 180 ; 190 ; 200 ; 205 ; 225 ; 230 ; 240
Determinar:
(a) a média (b) a mediana (c) a moda.
(d) Indicar qual medida utilizaria para apresentar os dados, e explicar em
que sentido cada valor poderia ser considerado, supondo que você
estivesse em cada uma das seguintes posições:
(I) Vice-Presidente da companhia encarregado da negociação coletiva.
(II) Presidente do grupo negociador dos empregados.
(e) Se for dado um aumento de 20% para todos os funcionários, qual será o
novo salário médio?
(f) Se for dado um aumento de R$25,00 a todos os funcionários, como fica a
média dos salários? 32
Respostas
a) x =R$ 170,50 b) Md= R$ 160,00 c) Mo = R$ 140,00

e) Como vice-presidente trabalharia com o valor médio dos


salários, pois foi o mais alto em relação as demais medidas,
já como presidente negociador dos empregados utilizaria a
moda como medida de maior ocorrência para lutar por
melhores salários.

e) x = 170,50 x 0,2 = R$ 204,60

f) x = 170,50 + 25 = R$ 195,50

33
Medidas Separatrizes

 Buscam dividir os valores ordenados de uma variável


em proporções aproximadamente iguais.
q=nº de divisões, logo q=2: duas divisões, q=4: quatro divisões,..., q

50% 25%

p=1/q é a proporção aproximada de valores contidos dentro de cada divisão

Mediana  divide o conjunto ordenado em duas partes


Quartis  dividem o conjunto ordenado em quatro partes
Decis  dividem o conjunto ordenado em dez partes

Percentis  dividem o conjunto ordenado em cem partes


34
Quartis (Qi)
 São três medidas que dividem um conjunto de dados
ordenado em quatro partes aproximadamente iguais.

Q1 Q2 Q3

x(1) 25% 25% Md 25% 25% x(n)

Primeiro quartil (Q1): 25% dos valores abaixo e 75% acima dele

Segundo quartil (Q2): 50% dos valores abaixo e 50% acima dele

Terceiro quartil (Q3): 75% dos valores abaixo e 25% acima dele
35
 Para obter os quartis:

1. Ordenar os dados

2. Determinar a posição (p) de cada quartil

Dois casos:

n ímpar n par
n 1 n2
Posição do Q1  p1  Posição do Q1  p1 
4 4
2(n  1) 2n  2
Posição do Q2  p2  Posição do Q2  p2 
4 4
3(n  1) 3n  2
Posição do Q3  p3  Posição do Q3  p3 
4 4
36
Q i  x(pi )

Se p não for inteiro, tomamos os dois inteiros mais próximos.

7
Exemplo: pi  7,5
8

x (7)  x (8) O quartil será a média


Qi  aritmética dos dois valores que
2 ocupam essas duas posições.

37
Exercício

Foram registrados os tempos de uso (horas/mês) de um


modelo profissional de motosserras. Os valores obtidos
foram:

69 58 70 80 46 61 65 74 75 55 67
56 70 72 61 66 58 68 70 68 58

Para o conjunto de valores, calcule os quartis e interprete


esses valores.
Q1 = 58
Q2 = 67
Q3 = 70
38
Medidas de Variação

Garrafas PET entrando em enchedora


http://superenvase.blogspot.com.br

i xi yi zi
1 2,0 1,7 1,9
2 1,8 1,9 2,0
3 2,1 2,2 2,1
4 1,9 2,0 2,1
5 2,2 2,2 1,9
 10 10 10
Média 2 2 2
39
Objetivo  indicar quanto os valores diferem entre si ou
quanto eles se afastam da média

 Complementam as medidas de tendência central

Medidas de variação mais utilizadas:

 Amplitude total
 Amplitude interquartílica
 Variância
 Desvio padrão
 Coeficiente de variação
40
Amplitude total (at)
 Fornece uma ideia inicial de variação;
 É obtida pela diferença entre o maior valor e o menor
valor de um conjunto de dados
at

EI=x(1) ES=x(n)
at  ES  EI
ES: extremo superior do conjunto de dados ordenado
EI: extremo inferior do conjunto de dados ordenado

at  x(n)  x(1)
41
Os valores abaixo se referem ao
Exemplo peso (Kg) colocado sobre a
extremidade de um cabo de aço.
xi = 3, 3, 4, 6, 7, 9, 9, 11, 12

at  ES  EI  12  3  9 kg
Significado: todos os valores do conjunto de dados diferem, no
máximo, em 9 kg.

at variabilidade
Desvantagens
 pouco precisa
 extremamente influenciada por valores discrepantes
42
Amplitude interquartílica (aq)

 É obtida pela diferença entre o terceiro e o


primeiro quartis

aq

EI Q1 Q3 ES

Q1 : primeiro quartil
aq  Q 3  Q 1
Q3 : terceiro quartil

43
n 1 9 1
p1    2,5
Exemplo 4 4
3n  1 39  1
p3    7,5
4 4
Os valores abaixo se referem ao peso (Kg)
colocado sobre a extremidade de um cabo de aço.
xi = 3, 3, 4, 6, 7, 9, 9, 11, 12 Q1 = 3,5 kg e Q3 = 10 kg

aq  Q 3  Q 1  10  3,5  6,5 kg
Significado: pelo menos 50% das observações diferem, no
máximo, em 6,5 kg
aq variabilidade
Vantagem
 medida resistente (não é afetada por valores discrepantes)
44
 Medidas de dispersão baseadas na média
O elemento básico dessa dispersão é o desvio:
mede quanto cada valor varia em
Desvio: (xi  x)
relação à média

45
Exemplo:
xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2 x  2,0L

2,0  2,0  0
1,8  2,0  -0,2
(xi  x) variação do xi em
2,1  2,0  0,1
relação à média
1,9  2,0  -0,1
2,2  2,0  0,2

Média dos desvios  variação média do conjunto de valores

soma de todos os desvios  (x  x)


i 0
46
Solução: elevar os desvios ao quadrado  desvios negativos
ficam positivos e podem ser somados

 (x  xx)
i
2
 i
(x  x) 2

2,0  2,0  0,0 0,00


1,8  2,0  -0,2 0,04
(xi  x) 2,1  2,0  0,1 0,01 quadrados
dos desvios
1,9  2,0  -0,1 0,01
2,2  2,0  0,2 0,04

soma dos quadrados dos desvios  (x  x)


i
2
 0,1

47
Variância (s2)

 Medida de variação mais utilizada:


 facilidade de compreensão
 propriedades estatísticas importantes para a
inferência
 Considera o desvio da média como unidade básica
da variação:
 Definida como a média dos quadrados dos desvios

s 
2  i
(x  x) 2

n -1
48
Por que utilizar n-1 como denominador?
• Porque este denominador confere à variância melhores
propriedades estatísticas (importante na inferência estatística).

 Quando o objetivo for apenas descrever a variação de


um conjunto de valores, podemos usar o denominador n.

sn2 
 i
(x  x) 2

 Quando o objetivo for estimar a variação de uma


população por meio da variação de um conjunto de
valores (amostra), devemos usar o denominador n-1.

s2 
 i
(x  x) 2

n -1
49
Os valores abaixo se referem ao
Exemplo peso (Kg) colocado sobre a
extremidade de um cabo de aço.
xi = 9, 7, 5, 10, 4 x  7 kg

s2 
 i
(x  x) 2

n 1
(9  7)2  (7  7)2  (5  7)2  (10  7)2  (4  7)2

5 1
4  0  4  9  9 26
   6,5
4 4
s  6,5 kg
2 2 unidade de medida fica
elevada ao quadrado
50
 Propriedades da variância

1a propriedade: A variância de um conjunto de dados que


não varia, ou seja, cujos valores são uma constante, é zero.

Verificação numérica:

xi = 7, 7, 7, 7, 7 x7

(7  7)2
 (7  7)2
 (7  7)2
 (7  7)2
 (7  7)2
s2  0
5 1

51
2ª propriedade: Ao somar uma constante c a todos os
valores de um conjunto de dados, a variância destes dados
não se altera.
Verificação numérica:
x7
xi = 9, 7, 5, 10, 4
s2  6,5
Somar c=2
x x  2  9  x x c  x  c
xi+2 = 11, 9, 7, 12, 6
s 2
x 2  6,5  s 2
x c  s 2

(11 9)2  (9  9)2  (7  9)2  (12  9)2  (6  9)2


s2x 2 
5 1
4  0  4  9  9 26
   6,5 kg2
4 4 52
3ª propriedade: Ao multiplicar todos os valores de um
conjunto de dados por uma constante c, a variância destes
dados fica multiplicada pelo quadrado desta constante.

Verificação numérica:
x7
xi = 9, 7, 5, 10, 4
s2  6,5
Multiplicar por c=2
x 2x  14  x cx  cx
2xi= 18, 14, 10, 20, 8
s22x  26  s2xc  c 2s2

(18  14)2
 (14  14)2
 (10  14)2
 (20  14)2
 (8  14)2
s22x 
5 1
16  0  16  36  36 104
   26 kg2  22  6,5
4 4 53
 Desvantagens da variância:

1. Como a variância é calculada a partir da


média, é uma medida pouco resistente, ou seja,
muito influenciada por valores atípicos.

2. Como a unidade de medida fica elevada ao


quadrado, a interpretação da variância se torna
mais difícil.

• Para solucionar o problema de interpretação da


variância surge outra medida: o desvio padrão.

54
Desvio padrão (S)

 É definido como a raiz quadrada positiva da variância

s  s2

Exemplo:
x 2L
xi = 2,0 – 1,8 – 2,1 – 1,9 – 2,2
s 2  0,025 L2

s s 2
s  0,025L2 s  0,16L

55
Apresentação do desvio padrão:

xs
Volume médio de 2L com
2  0,16 uma variação média de 0,16L
acima e abaixo da média.

Significado: variação média em torno da média


aritmética.

56
Exemplo

i xi yi zi
1 2,0 1,7 1,9
2 1,8 1,9 2,0
3 2,1 2,2 2,1
4 1,9 2,0 2,1
5 2,2 2,2 1,9
 10 10 10
Média 2L 2L 2L
Variância 0,025 L2 ? ?

Desvio
0,16L ? ?
padrão

57
Exemplo

xi = 1,7 – 1,9 – 2,2 – 2,0 – 2,2 x 2L

 (x  x)
i
2
= 0,09 – 0,01 – 0,04 – 0,00 – 0,04

s 
2  i
(x  x) 2
 0,18 = 0,045 L2
n -1 4

s s 2
s  0,045L2 s  0,21L
58
Exemplo

xi = 1,9 – 2,0 – 2,1 – 2,1 – 1,9 x 2L

 (x  x)
i
2
= 0,01 – 0,00 – 0,01 – 0,01 – 0,01

s 
2  (x i  x) 2
 0,04  0,01 L2

n -1 4

s s 2
s  0,01L2 s  0,1L
59
Solução

i xi yi zi
1 2,0 1,7 1,9
2 1,8 1,9 2,0
Garrafas PET entrando em enchedora
http://superenvase.blogspot.com.br 3 2,1 2,2 2,1
4 1,9 2,0 2,1
5 2,2 2,2 1,9
 10 10 10
Média 2L 2L 2L
Variância 0,02 L2 0,045 L2 0,01 L2

Desvio
0,14L 0,21L 0,10L
padrão

60
Os valores abaixo se referem ao
Exemplo peso (Kg) colocado sobre a
extremidade de um cabo de aço.

x  7 kg
xi = 9, 7, 5, 10, 4
s2  6,5 kg2

s s 2
s  6,5 kg2 s  2,55 kg

61
Coeficiente de Variação (CV)
 O coeficiente de variação é definido como a proporção
(ou percentual) da média representada pelo desvio padrão.

s
CV  100%
x
Exemplo

Os valores ao lado se referem ao peso x  7 kg


(Kg) colocado sobre a extremidade de xi = 9, 7, 5, 10, 4
um cabo de aço. s  2,55 kg
s 2,55 kg
CV  100% 100%  36,4%
x 7 kg
62
Vantagens:

 O CV é não tem unidade de medida (expresso em %);


 O CV é uma medida relativa, pois relaciona o desvio
padrão com a sua respectiva média aritmética;
 O CV é a medida mais utilizada para comparar
variabilidades de diferentes conjuntos de dados;

 Esta comparação não deve ser feita através de


qualquer medida de variação em duas situações:
 quando as médias dos conjuntos comparados são
muito desiguais
 quando as unidades de medida são diferentes
Nessas situações devemos usar o CV.
63
Exemplo 1

Um engenheiro está analisando as espessuras de peças fabricadas


em duas máquinas de corte. Consideremos que x1i e x2i são
conjuntos de valores referentes as medidas de espessura (mm)
das peças produzidas pela máquina A e pela máquina B, para as
quais foram obtidas as seguintes medidas:

máquina A (X1): x1  51mm máquina B (X2): x 2  72mm


s1 = 12mm s2 = 16mm

64
Qual grupo varia mais em relação à espessura das peças?

x1  51mm x 2  72mm
máquina A (X1) s1 = 12mm s2 = 16mm máquina B (X2)

CV1 = 23,53% CV2 = 22,22%

O maior desvio padrão, quando comparado à


sua média, representou menor variação.

Quando as médias são diferentes, devemos usar o CV.

65
Exemplo 2
Consideremos, agora, que xi e yi são conjuntos de valores
referentes a estaturas (em cm) e pesos (em kg) de um grupo de
estudantes, para os quais foram obtidas as seguintes medidas:

Estatura (X): x  178 cm sX = 28 cm CVX = 15,73%

Peso (Y): y  62 kg sY = 10 kg CVY = 16,13%

Peso e altura não são grandezas comparáveis.

Quando as unidades de medida são diferentes,


devemos usar o CV.
66
Exercício
Contou-se o número de defeitos de solda em determinado lote
de carrocerias durante os sete dias de uma semana, com os
seguintes resultados:
14 20 20 20 15 16 18
a) Determine a média, a mediana e a moda.
b) Calcule a variância, o desvio padrão e o coeficiente de
variação.
x=17,6
Md=18
Mo=20
s2 =6,62
s=2,57
CV=14,64%
67
Medidas de Formato

Medidas Medidas
de assimetria de curtose

 O formato é um aspecto importante de uma


distribuição. Está relacionado com as ideias de
simetria e curtose.

68
 A simetria em torno de um eixo indica que o formato da
distribuição à esquerda e à direita desse eixo é o mesmo.

 A curtose está relacionada com o grau de concentração


das observações no centro e nas caudas da distribuição.

cauda cauda

centro

69
Medidas de assimetria
 Informam se a maioria dos valores se localiza à esquerda,
ou à direita, ou se estão distribuídos uniformemente em
torno da média aritmética.
 Uma das medidas de assimetria mais precisas é o
coeficiente de assimetria (a3), calculado a partir do segundo
e do terceiro momentos centrados na média:

m3 
 i
(x  x)3

m3 n
a3 
m2 m2
m2 
 i
(x  x) 2

 Indica o grau e o sentido do afastamento da simetria.


70
 Classificação quanto à simetria
Se a3=0, a distribuição é classificada como simétrica,
indicando que os valores estão uniformemente
distribuídos em torno da média.

x  Md  Mo
71
Se a3>0, a distribuição é classificada como assimétrica
positiva, indicando que a maioria dos valores são
menores ou se localizam à esquerda da média (cauda
para direita).

Mo  Md x
72
Se a3<0, a distribuição é classificada como assimétrica
negativa, indicando que a maioria dos valores são
maiores ou se localizam à direita da média (cauda para
esquerda).

x  Md Mo

73
Interpretação teórica populações

 Se a3<0 assimétrica negativa


 Se a3=0 simétrica
 Se a3>0 assimétrica positiva

Interpretação prática amostras

 Se a3< -0,5 assimétrica negativa


 Se -0,5< a3 >0,5 simétrica
 Se a3> 0,5 assimétrica positiva
74
Uma distribuição simétrica possui muitas vantagens:

 Não há ambigüidade na indicação do centro. Numa


distribuição unimodal a simetria implica que a média,
mediana e moda coincidam ou, em termos amostrais,
estejam muito próximas.
 Em geral, a interpretação e as aplicações são mais
simples.
 Muitos procedimentos usuais pressupõem uma
distribuição normal, que é uma distribuição simétrica.
 Em muitas situações onde o modelo não é normal, os
procedimentos são robustos e é suficiente que a
distribuição seja simétrica, podendo-se utilizar
procedimentos matemáticos capazes de converter os
dados para a simetria.
75
Medidas de curtose
 Indicam o grau de achatamento de uma distribuição;
 A curtose não tem interpretação tão intuitiva quanto a
simetria, por isso, em geral, é discutida apenas para
distribuições simétricas;
 O coeficiente de curtose é calculado a partir do segundo
e do quarto momentos centrados na média.

A classificação é feita
m4 
 (x i  x)4 tendo por base a
m4 n
a4  2 curtose que ocorre na
m2
m2 
 (x i  x)2 distribuição normal
(mesocúrtica).
n

76
 Classificação quanto à curtose

Se a4=3  mesocúrtica  concentração das observações


ocorre de forma semelhante à da distribuição normal.

Distribuição normal mesocúrtica

77
Se a4<3  platicúrtica  baixa concentração de valores
no centro, tornando a distribuição mais achatada que a
distribuição normal.

78
Se a4>3  leptocúrtica  alta concentração de valores no
centro e nas caudas, o que provoca um pico maior que o
da distribuição normal.

79
APRESENTAÇÃO DOS DADOS

Dados não Dados agrupados


agrupados em classe

São os dados São os dados


apresentados em rol apresentados em tabela de
distribuição de frequências

Dados não agrupados – todas as medidas vistas.


Medidas
Descritivas Dados agrupados em classe – média, classe mediana,
classe modal, variância, desvio padrão, CV, coeficientes
de assimetria e curtose. 80
MEDIDAS PARA DADOS AGRUPADOS

Média Mediana e Moda


Classe mediana: é a primeira classe da F’j que
xp 
c F j j compreende a posição da mediana.
n Classe modal: classe com a maior Fj.

Coeficiente
Variância Desvio padrão de variação

 Fj c j  x p  s s
s
2

s 
2
2 CV  100%
n 1 x

Coeficiente de assimetria Coeficiente de curtose


 F c  xp   F c  xp 
3 4

m3  
j j 4 j j
m
m3 n n
a3  m4
a4  2
m2 m2
 F c  xp   Fj c j  x p 
2 2
m2 m2 
m2 
j j

n n 81
um supermercado registrou o valor
Exemplo gasto pelos primeiros 50 clientes que
passaram em determinado caixa.

3,11 8,88 9,26 10,81 12,69 j Classes Fj


13,78 15,23 15,62 17,00 17,39
1 3,11 | 16,00 8
18,36 18,43 19,27 19,50 19,54
2 16,00 | 28,89 20
20,16 20,59 22,22 23,04 24,47
24,58 25,13 26,24 26,26 27,65 3 28,89 | 41,78 6
28,06 28,08 28,38 32,03 36,37 4 41,78 | 54,67 8
38,98 38,64 39,16 41,02 42,97 5 54,67 | 67,56 3
44,08 44,67 45,40 46,69 48,65
6 67,56 | 80,45 1
50,39 52,75 54,80 59,07 61,22
7 80,45 || 93,34 4
70,32 82,70 85,76 86,37 93,34
 50

Dados não agrupados Dados agrupados em classe


82
Medidas para dados agrupados em classe

j Classes cj Fj Pressuposição
1 3,11 | 16,00 9,555 8
2 16,00 | 28,89 22,445 20

3 28,89 | 41,78 35,335 6


4 41,78 | 54,67 48,225 8

5 54,67 | 67,56 61,115 3

6 67,56 | 80,45 74,005 1


7 80,45 || 93,34 86,895 4

  50 Distribuição simétrica
dentro dos intervalos

x
 x i  não estão disponíveis
n 83
Média
j Classes cj Fj c j Fj

1 3,11 | 16,00 9,555 8 9,555 x 8 = 76,44


2 16,00 | 28,89 22,445 20 22,445 x 20 = 448,90
3 28,89 | 41,78 35,335 6 35,335 x 6 = 212,01
4 41,78 | 54,67 48,225 8 48,225 x 8 = 385,80
5 54,67 | 67,56 61,115 3 61,115 x 3 = 183,345
6 67,56 | 80,45 74,005 1 74,005 x 1 = 74,005
7 80,45 || 93,34 86,895 4 86,895 x 4 = 347,58
  50 c F j j = 1.728,08

xp 
 cF j j

1728, 08
 34,56 reais gasto no supermercado
n 50
84
Mediana e Moda
j Classes cj Fj Fj c j Fj
1 3,11 | 16,00 9,555 8 8 76,44
Classe mediana
2 16,00 | 28,89 22,445 20 28 448,90
Classe modal 3 28,89 | 41,78 35,335 6 34 212,01
4 41,78 | 54,67 48,225 8 42 385,80
5 54,67 | 67,56 61,115 3 45 183,35
6 67,56 | 80,45 74,005 1 46 74,01
7 80,45 || 93,34 86,895 4 50 347,58

  50  1.728,08

n 1 25
Posição da Mediana  p  25,5
2 26
Classe mediana: é a primeira classe da frequência absoluta
acumulada que compreende a posição da mediana..
Classe modal: classe com a maior frequência absoluta. 85
Variância e momentos x p  34,56 reais

j Classes Fj (c j  x) Fj (c j  x) Fj (c j  x)
2 3 4
cj Fj

1 3,11 | 16,00 9,555 8 8 (9,555- 34,56)2 = 5.002,00 -125075,01 3127500,75


2 16,00 | 28,89 22,445 20 20 (22,445- 34,56)2 = 2.935,46 -35563,15 430847,59

3 28,89 | 41,78 35,335 6 6 (35,335- 34,56)2 = 3,60 2,79 2,16

4 41,78 | 54,67 48,225 8 ... 20413,57 278951,39


5 54,67 | 67,56 61,115 3 ... 56177,21 1491785,83
...
6 67,56 | 80,45 74,005 1 61372,79 2420849,78
...
7 80,45 || 93,34 86,895 4 573372,26 30007437,16
  50 24062,15 550700,46 37757374,66

 F c  xp   F c  xp 
2 4
24062,15 37757374,66
   481,243    755147,49
j j j j
m2 m4
n 50 n 50

 Fj c j  x p   Fj c j  x 
3
2
550700,46 s2 
m3    11014,0092
n 50 n 1
86
Fj c j  x 
2
24062,15
variância s2    491,06 reais2
n 1 49

xs
Desvio padrão s  s2  491,06  22,16 reais
34,56  22,16 reais

Coeficiente de variação CV  s 100%  22,16 100% 64,12%


x 34,56

m3 11014,0092 11014,0092
Coeficiente de assimetria a3     1,043
m 2 m 2 481,243  481,243 10557,15

a3>0 = assimétrica positiva

Coeficiente de curtose a 4  m 42  755147,49


2

755147,49
 3,26
m2 481,243 231594,825

a4>3 = leptocúrtica
87
Dados não agrupados Dados agrupados em classe

x = 34,78 reais x = 34,56 reais

Md = 27,31 reais Classe mediana: [16,00 ; 28,89)

Mo não existe Classe modal: [16,00 ; 28,89)

2 2 2 2
s = 471,32 reais s = 491,06 reais

s = 21,71 reais s = 22,16 reais

CV = 62,42% CV = 64,12%

88
Próxima aula
- 2.4. Análise exploratória de dados
Resumo de cinco números
Gráfico de caixas
Diagrama de ramo e folhas

89

Você também pode gostar