Apontamentos Inferencia 2018
Apontamentos Inferencia 2018
Apontamentos Inferencia 2018
Hogg, R. V., Tanis, E. A. (2001). Probability and Statistical Inference, 6th Edition,
Prentice Hall
Newbold, P. (1995). Statistics for business and economics. 4th Edition, New
Jersey: Prentice Hall International
INFERÊNCIA
POPULAÇÃO
Valor médio:
Parâmetros Estatísticas
Estimação pontual
Estimação intervalar
Definições
População: Conjunto de elementos com determinados atributos que se
pretende estudar. Para um só atributo em estudo, a população
representa-se por uma v.a. X
Definições
Parâmetro: característica numérica da população
Estimador: função real das v.a. que constituem a amostra que é usada
com o objectivo de estimar um parâmetro desconhecido. Portanto, é
uma v.a..
Notação
Parâmetro da população:
Introdução
Estatísticas amostrais
Distribuição da média amostral
Distribuição da diferença de médias amostrais
Distribuição da variância amostral
Distribuição do quociente de variâncias amostrais
Distribuição da proporção amostral
Distribuição da diferença de proporções amostrais
Distribuições amostrais
Introdução
Média amostral
Mediana amostral
Variância amostral
Desvio padrão amostral
...
Introdução
Senso comum nº 1
Uma amostra aleatória deve representar bem a população, por forma
a que as estatísticas da amostra forneçam estimativas aceitáveis dos
parâmetros da população
Senso comum nº 2
Todas as estatísticas amostrais possuem algum erro na estimação
dos parâmetros da população
Senso comum nº 3
Diferentes amostras produzem diferentes estatísticas amostrais.
O valor de uma estatística, como a média ou a variância, depende
da amostra que foi obtida
Exemplo
X3 X2
Estatísticas amostrais
Seja X1, X2, …, Xn uma amostra aleatória de dimensão n
X
Média amostral:
1
X i
n i 1
1 n 1 n 2
Variância amostral: S
2
n 1 i 1
(X i X )
2
X i nX
n 1 i 1
2
Desvio-padrão amostral: S S 2
Estatísticas amostrais
Propriedades de Xi~B(p)
X
1
P̂ i
n i 1
Estatísticas amostrais
A distribuição amostral é a distribuição de probabilidade da
estatística amostral
Exemplo
População: {3, 5, 6, 9, 11}
… … …
ˆ ( k ) g( x1 , x 2 ,..., x n )
(k) (k ) (k)
k x1(k), x2(k), …, xn(k),
… … …
Exemplo
Distribuição amostral possível da estatística ̂
A distribuição da estatística ̂
Depende da distribuição da população e da dimensão da amostra
CASO I
Amostra de
dimensão n
População
Normal
Valor médio
conhecido
X ~ N ,
n
2
V(X )
n
A distribuição da média amostral é tanto mais concentrada em torno de
quanto maior for a dimensão da amostra estimativas mais precisas
10
X 450 , X 3.16
n 10
Conclusão:
25.1% das amostras de n=10 lâmpadas terão uma duração média entre 449
e 451 horas;
47.13% das amostras de n=10 lâmpadas terão uma duração média entre 448
e 452 horas;
65.79% das amostras de n=10 lâmpadas terão uma duração média entre 447
e 453 horas
10
X 450 , X 1
n 100
Concluímos:
68.27% das amostras de n=100 lâmpadas terão uma duração média entre
449 e 451 horas;
95.45% das amostras de n=100 lâmpadas terão uma duração média entre
448 e 452 horas;
99.73% das amostras de n=100 lâmpadas terão uma duração média entre
447 e 453 horas
X100 ~ N450, 1
Conclusão...
CASO II
Amostra grande
População
qualquer
Valor médio
conhecido
X a
Z ~ N(0, 1)
n
a
Nota: implicitamente, tem-se: X ~ N ,
n
a 8
X ~ N 30 ,
50
28 30 X 30 32 30
P X 30 2 P28 X 32 P
8
8
8
50 50 50
P(1.77 Z 1.77 )
0.9616 0.0384 0.9232
4000
Sabemos que X 36000 , X 1000
n 16
CASO III
Amostra de
dimensão n
População
Normal
Valor médio
desconhecido
X
~ t n 1
S
n
X
P X S / 2 0.9 P
S n
n / 2 0.9
~tn-1
X
P n / 2 0.95
( simetria)
S n
CASO I
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 e 2 conhecidos
1
2
2
2
X1 X 2 ~ N 1 2 ,
n1 n2
1 1
X1 X 2 ~ N 1 2 ,
n1 n 2
CASO II
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 = 2
desconhecido
X1 X 2 1 2
T ~ t n1 n2 2
1 1
S'
n1 n2
CASO III
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 2
desconhecidos
X1 X 2 1 2 a
~ tr
2 2
S1 S2
n1 n 2
2
S12S
2
2
n n2
Sendo r a parte inteira de r* 1
2 2
(i.e. arredondar por defeito o valor obtido) S12 2
1 1 S2
n1 1 n1 n2 1 n2
CASO IV
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 e 2
conhecidos
2
2
X1 X 2 ~ N 1 2 , 1 2
a
n1 n2
Calcule:
a) PX1 X2 1
b) PX1 X2 2
Exemplos
Quando ao mesmo indivíduo se aplicam tratamentos distintos
D
D conhecido: D ~ N D ,
n
D D
D desconhecido: ~ t n 1
SD
n
Ana Cristina Costa 57
Distribuições amostrais
a D
D ~ N D ,
n
0.05
D ~ N 0,
6
P X A X B 0.02 P D 0.02 P 0.02 D 0.02
0.02 0 0.02 0
P
0.05
Z
0.05 P 0.98 Z 0.98 0.673
6 6
Teoremas
Se X é uma população com distribuição Normal de valor médio e
variância 2, e X1, X2,…,Xn são v.a. iid dessa população, verifica-se
2
X
n n
i 1
2
Zi i
i 1
~ n
2
(n 1)S2
~ 2
( n 1)
2
Como (n 1)S2
~ 2
( n 1)
2
Conclui-se
(5 1)S2 (5 1)0.4123
P(S 0.4123 ) P
2
P(Q 1.6492 ) 0.2
1 1
4
( Xi 76 .4)2
U
i1 383
4
( X i X )2
V
i1 383
Calcule
P(0.711 U 7.779)
P(0.352 V 6.251)
Note-se que
4
( n 1)S2
V
i 1 383
i 1
~ n
2
2
n
Xi X
i 1
~ (2n 1)
Teoremas
Se X1, X2,…,Xn são v.a. independentes e X i ~ (2n ) então
i
X
n
i ~ (2m ) , onde m n i
i 1 i 1
2
S1
1 S1 2
2 2 2
F ~ F( n1 1, n 2 1)
S2 1
2 2 2
S2
2
2
SA 2
P 2 6.96
S
B
Resolução:
2
SA
2
~ F(5, 9)
2SB
SA 2 SA 2
P
6.96 P 6.96 / 2 P(F 3.48 ) 0.95
S 2 2S 2
B B
X
1
P̂ i
n i 1
1 0
Função de probabilidade: X i
p 1 p
E P̂ p,
V P̂ p(1 p) / n
a p(1 p)
P̂ ~ N p,
n
a 0.1(1 0.1) a
P̂ ~ N 0.1, P̂ ~ N 0.1, 0.03
100
b) P P̂ 0.085 P Z
0.085 0.1
P( Z 0.5) 0.691
0.03
X1 X 2
P̂1 P̂2
n1 n 2
a p1 (1 p1 ) p 2 (1 p 2 )
P̂1 P̂2 ~ N p1 p 2 ,
n1 n2
b) Se n1 = n2 = 100
a
b) P̂2 P̂1 ~ N 0.02, 0.001956
P P̂2 P̂1 0 P Z
0 0.02
P( Z 0.452 ) 0.674
0.001956
Notação e conceitos
Método de estimação da máxima
verosimilhança
Propriedades dos estimadores
Estimação pontual
Notação e conceitos
Parâmetro da população
Notação e conceitos
Notação e conceitos
Não enviesamento em termos médios, o estimador atinge o valor
real do parâmetro
Notação e conceitos
Ilustração dos conceitos de enviesamento e eficiência, sendo o
verdadeiro valor do parâmetro o centro da menor circunferência
Não enviesado
ou, centrado
Enviesado
Notação e conceitos
Método dos momentos os estimadores obtêm-se por substituição
dos momentos da amostra nas expressões que representam os
momentos da população
Função log-verosimilhança
n
ln L() ln f (x
i 1
i | )
L() ln L()
0 ou 0
2 L() 2 ln L()
0 ou 0
2
2
Seja X1, X2,…,Xn uma amostra aleatória de uma população com fdp
dada por f ( x ) x 1 , 0 x 1, 0
Determine o estimador de pelo método da máxima verosimilhança
1. Função de verosimilhança
n
L( | x1 , x 2 ,..., x n )
i 1
x i
1
, 0 x i 1, 0
2. Função log-verosimilhança
,
n
1
ln L( | x1 , x 2 ,..., x n ) ln x i 0 x i 1, 0
i 1
n
n ln( ) ( 1) ln x ,
i 1
i 0 x i 1, 0
ln L() n n
ln x i 0
n
n
i 1
ln x
i 1
i
n
ˆ n
Estimador: ln X
i 1
i
verosimilhança de ()
Seja X1, X2,…,Xn uma amostra aleatória de uma população com fdp
dada por f ( x ) x 1 , 0 x 1, 0
Determine o estimador de 2 pelo método da máxima verosimilhança
ln x
i 1
i
2. Função log-verosimilhança
n n
ln L(p | x1 , x 2 ,..., x n ) x i ln( p) n
i 1
i 1
x i ln( 1 p)
ln L(p) n 1 n
1 n n
p
x i n
i 1 p
i 1
x i
1 p
0 (1 p) x i p n
i 1
i 1
x i 0
n n
x
1
x i pn 0 p i
i 1 n i 1
2 ln L(p) n 1 n
1
p 2
x
i 1 p
i 2 n
i 1
x i
(1 p ) 2
0
X
1
Estimador: p̂ i X
n i 1
2
p̂ 0.6667
3
ˆ
̂ é um estimador não enviesado, ou centrado, se E()
ˆ)
̂ é um estimador assimptoticamente centrado de se Lim E(
n
X X ( X ) ( X ) X
n n n
2 2 2
n X
2
i i i
i1 i 1 i1
Obtém-se:
ES 21 n
n 1 i 1
E X i
2
nE X
2
1
n 1
nV ( X ) nV ( X )
1 2 2
n n
2
n 1 n
(X
1
Mostre que ˆ 2 M 2 i X ) 2 é um estimador assimptoticamente
n i 1
não enviesado de 2 e determine o seu enviesamento
Como
n 1 2
n
1
M2 (X i X ) 2 S
n i 1 n
Então n 1 n 1 2
E(M 2 ) E (S2 ) n
2
n n
Tem-se ainda, 2
bias (M 2 )
n
Ana Cristina Costa 94
Estimação pontual
EQM (
ˆ ) E
ˆ 2
ˆ ) V (
Teorema: EQM (
ˆ ) bias (
ˆ)
2
ˆ
relativamente a ̂ 2 é dada por ef ˆ 1, ˆ 2 EQM( 1)
EQM( ˆ 2 )
Exemplo: se ef ˆ 1 , ˆ 2 1.6 , quer dizer que a variabilidade associada a ̂ 2
é 1,6 vezes maior que a variabilidade associada a ̂1
Na prática, *2 pode ser melhor estimador (mais eficiente) do que *1
V(S )
2 4
2
n 1
n 1
, V ˆ 2 V(M 2 ) 2 2 4
n
Resolução:
2
V( M 2 ) n 1
ef (S2 , M 2 ) 1
V(S ) n
2
Desigualdade de Fréchet-Cramér-Rao
Se X1, X2,…,Xn é uma amostra aleatória de uma população com um
parâmetro , com f.p. ou f.d.p. f(x|), que satisfaz certas condições de
ˆ g(X , X ,..., X ) é um estimador centrado de , então
regularidade, e
1 2 n
V
ˆ 1
n I()
, onde
2 ln f ( x | ) ln f ( x | ) 2 Quantidade de
I() E E
2
informação de Fisher
2
1 x
1 2
a) f(x) e , x IR, IR, 0 b) Pelo teorema F-C-R:
2
ln f ( x | )
( x ) 2
2 2
ln 2 Vˆ
1
n I() n
2
V( X )
2 ln f ( x | ) 1 1 1
I ( ) E 2 2
2 2
Lim P
n
n
ˆ 1
P
Ou seja, se ̂ n converge em probabilidade para : ˆ
n
n
Lim V
n
ˆn 0
Lim EQM
n
ˆn 0
ˆ
ˆ ' é um estimador consistente de +’
n n
ˆ
ˆ é um estimador consistente de ’
n 'n
ˆ /
ˆ ' é um estimador consistente de /’, com ’0
n n
é um estimador
ˆ
Se g() é uma função real contínua em , então g n
consistente de g()
EX
VX
n
O estimador é consistente porque Lim V X Lim 0
n n n
O IC deverá
Conter o parâmetro com elevada probabilidade
Ter uma amplitude reduzida
Estatística Amostral
Intervalo de (estimativa pontual)
Confiança
Definição
ˆ
P L
ˆ 1
U
sendo 1– o grau de confiança, e ]0, 1[ o nível de significância
ˆ ,
ˆ
Na prática, não se sabe se um intervalo xxxxxxxxx,
L U
obtido de uma amostra
particular, contém ou não o parâmetro (de valor desconhecido)
Exemplo
Definição
X
Z ~ N(0,1)
n
Z é uma variável fulcral porque a sua distribuição não depende de
CASO I
Amostra de Amostra
T
dimensão n L grande
C
População População
Normal qualquer
Valor médio
conhecido
X z , X z
n
1 2 1 2
n
Neste caso, z1 2
n
40 40
IC: 360 z1 2 , 360 z1 2
81 81
90% Amostras
95% Amostras
99% Amostras
CASO II
Amostra de
dimensão n
População
Normal
Valor médio
desconhecido
S
X t (n1);1 2
n
20 20
IC: 300 t (15 );1 2 , 300 t (15 );1 2
16 16
CASO III
Amostra grande
População
qualquer
Valor médio
desconhecido
S
X z1 2
n
9 9
IC 95%: 16 1.96 , 16 1.96 ou seja , [15.02, 16.98]
36 36
CASO I
Amostras de Amostra
T
dimensões n1 e n2 L grande
C
Populações População
Normal qualquer
Valores médios
1 e 2
1 e 2 conhecidos
1
2 2
( X1 X 2 ) z1 2 2
n1 n2
CASO II
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 = 2
desconhecido
1 1
( X1 X 2 ) t ( n1 n 2 2);1 2S'
n1 n 2
CASO III
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 = 2
desconhecido
1 1
( X1 X 2 ) z1 2S'
n1 n2
Ana Cristina Costa Este intervalo é aproximado e só deve ser usado se as dimensões 129
das amostras forem suficientemente grandes (tipicamente, n1, n230)
Estimação por intervalos
CASO IV
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 2
desconhecidos
S12 S2 2
( X1 X 2 ) t (r );1 2
n1 n 2
2
S12 S 2 2
t(r);1-/2 é o percentil de ordem 1–/2 da n n2
r* 1
2 2
distribuição t(r) sendo r a parte inteira de 1 S1
2
1 S 2
2
n1 1 n1 n2 1 n2
CASO V
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 2
desconhecidos
2 2
S1 S
( X1 X 2 ) z1 2 2
n1 n2
2 2
110 110
Caso I: 17 z1 / 2
120 150
Este resultado não garante, com 95% de confiança, que tenha havido
uma evolução positiva do consumo, visto que admite valores negativos
para a diferença 2– 1. Assim, antes de se realizarem novos
investimentos, é aconselhável proceder a um estudo com amostras
maiores, de modo a reduzir o erro de amostragem.
2 2
5100 5900
Caso V: 1700 z1 / 2
28 32
D
D conhecido D z1 2
n
SD
D desconhecido D t (n1);1 2
n
SD
D z1 2
n
Antes (A)
4 4 3 5 5 5 2 3 4 3 3 5 5 4 4
Depois (B)
4 5 3 5 5 4 4 5 5 3 4 4 4 4 4
Diferença (A-B)
0 1 0 0 0 1 2 2 1 0 1 1 1 0 0
t(14);0.975 = 2.145
0.9238
IC 95%: 0.267 2.145
15
Uma vez que este intervalo contém valores negativos, positivos e o valor
zero, pode dizer-se que não há evidência de diferenças entre os valores
médios das pontuações antes e após o visionamento do programa, pelo que
este não alterou significativamente a pontuação do candidato
0.9238
Precisão absoluta: 2.145 0.532
15
0.532
Precisão relativa: 100 199%
| 0.267 |
(n 1)S2 (n 1)S
2
,
( n 1);1 / 2 ( n 1); / 2
2 2
1 S2 2 S2 2
2
, f (n1 1;n 2 1);1 / 2
2
f (n 2 1;n1 1);1 / 2 S1 S1
1
Ana Cristina Costa NOTA : f ( 1 , 2 ); / 2 144
f ( 2 ,1 );1 / 2
Estimação por intervalos
Amostra 1 Amostra 2
n1 = 21 n2 = 41
1 0.438 0.438
IC 95%: 2.29 0.714 , 2.07 [0.268 , 1.270 ]
0.714
P̂(1 P̂)
P̂ z1 2
n
Conceitos e metodologia
Testes de hipóteses para o valor médio
Testes para a diferença de valores médios
Testes para a variância
Testes para o quociente de variâncias
Testes para a proporção
Testes para a diferença de proporções
Coeficiente de correlação
Testes de hipóteses
Introdução
Nesta unidade de aprendizagem, um teste de hipóteses ou teste
estatístico é um processo usado para decidir entre duas hipóteses
complementares que se baseia em
Definição
H0: Hipótese nula é a hipótese considerada verdadeira ao longo da
realização do teste até ao momento em que haja evidência estatística
clara apontando em sentido contrário
Contém sempre uma igualdade
Exemplo 1: decisão
Se os resultados amostrais indicarem que H0 não pode ser rejeitada, os
investigadores não podem concluir que o novo sistema de injecção de
gasolina é melhor
Exemplo 2: decisão
Se os resultados amostrais indicarem que H0 não pode ser rejeitada,
não há razões para duvidar que o carregamento satisfaz a especificação
Exemplo 3: decisão
Se os resultados amostrais indicarem que H0 não pode ser rejeitada,
não se pode contestar a reivindicação do fabricante
Decisão
Idealmente, o procedimento de teste de hipóteses deveria permitir
aceitar H0 quando H0 é verdadeira e rejeitar H0 quando H0 é falsa
Condição da População
H0 Verdadeira H0 Falsa
Rejeitar
Erro Tipo I Decisão correcta
H0
Decisão
Não
Decisão correcta Erro Tipo II
rejeitar H0
Exemplo: decisão
Imagine um tribunal e considere as diferenças entre
Se não houver uma forte evidência, ele será sempre considerado inocente.
Só será preso se houver fortes evidências de crime.
Se não houver uma forte evidência, ele será sempre considerado culpado.
Em caso de dúvida, é preso.
Observação
Condição da População
H0 Verdadeira H0 Falsa
Estatística de teste
Para se tomar uma decisão sobre as hipóteses estatísticas H0 e H1 é
necessário quantificar a informação contida na amostra
Exemplo
Exemplo
a) Esperamos que o novo processo seja melhor que o tradicional
H0: p = 0.5
H1: p < 0.5
b) A estatística do teste é
X = número de parafusos defeituosos encontrados na amostra
Também poderia ser a proporção de parafusos defeituosos encontrados
na amostra: P̂ X n
p-value
O p-value é o menor nível de significância que nos conduz à rejeição de
H0 com a amostra observada
p-value
1. Teste bilateral
p-value
2. Teste unilateral à direita
CASO I
Amostra de Amostra
T
dimensão n L grande
C
População População
Normal qualquer
Valor médio
conhecido
Estatística de teste
X 0 a
~ N(0,1)
n
Rejeita-se H0 se
x 0 x 0
z1 / 2 ou z1 / 2
n n
Rejeita-se H0 se Rejeita-se H0 se
x 0 x 0
z1 z1
n n
Regiões críticas
X 0
P z1 2 z1 2 1 P 0 z1 2 X 0 z1 2 1
n n
n
c1 c2
X 0
P z1 1 P X 0 z1 1
n n
c
X 0
z1 1
X 0 z1 1
n n
c
CASO II
Amostra de
dimensão n
População
Normal
Valor médio
desconhecido
H0: = 0 X 0
~ t (n1)
H1: 0 s
n
Rejeita-se H0 se
x 0 x 0
t ( n 1);1 / 2 ou t (n 1);1 / 2
s s
n n
Rejeita-se H0 se Rejeita-se H0 se
x 0 x 0
t (n 1);1 t ( n 1);1
s s
n n
CASO III
Amostra grande
População
qualquer
Valor médio
desconhecido
CASO I
Amostras de Amostra
T
dimensões n1 e n2 L grande
C
Populações População
Normal qualquer
Valores médios
1 e 2
1 e 2 conhecidos
CASO II
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 = 2
desconhecido
CASO III
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 = 2
desconhecido
CASO IV
Amostras de
dimensões n1 e n2
Populações
Normal
Valores médios
1 e 2
1 2
desconhecidos
H0: 1 – 2 D0
n1 1 n1 n2 1 n2
H1: 1 – 2 < D0
CASO V
Amostras
grandes
Populações
quaisquer
Valores médios
1 e 2
1 2
desconhecidos
Estatística do teste
1 1 n1 n2 2
S'
n1 n 2
z0.95 = 1.645
6.3 5.2 0
3.41 1.645
1 1
1.2959
35 30
Seja D=X1X2 uma população com distribuição Normal de valor médio D=12
e desvio-padrão D, da qual se retira uma amostra aleatória emparelhada de
valores Di=X1iX2i, i=1,2,…,n, com média D e variância SD2.
D D0
3. Teste unilateral à esquerda ~ t ( n 1)
H0: 1 – 2 D0 SD n
H1: 1 – 2 < D0
Será que este valor sugere, com um nível de significância de 5%, que a
administração da SAD tem razão?
2 2 2
n 30, s (1.70) 2.89, ( 29)0.05 17.708
Coeficiente de correlação
H1: 0
R n2
2. Teste unilateral à direita ~ t ( n 2)
2
H0: 0 1 R
H1: > 0
H1: 0
1 1 R 1 1 0
ln ln
2. Teste unilateral à direita 2 1 R 2 1 0 a
~ N(0,1)
H0: 0 0 1
H1: > 0 n 3
3. Teste unilateral à esquerda
H0: 0 0
H1: < 0
1 ln 1 0.8398 1 ln 1 0.5
2 1 0.8398 2 1 0.5
1.7758 1.645
1
10 3
Existe evidência suficiente na amostra de que > 0.5
Exemplo
Suponha que o diretor de marketing de uma empresa pretende relançar um
produto no mercado. Estudou então três campanhas de marketing diferentes,
cada uma delas combinando de modo diferente fatores como o preço do produto,
a apresentação do produto, promoções associadas, etc. Qualquer uma destas
campanhas é levada a cabo no ponto de venda, não havendo qualquer
publicidade nos meios de comunicação.
Para cada tipo de campanha, o valor total das vendas é registado, durante um
período de duração limitada, num conjunto de lojas selecionadas aleatoriamente.
Obtêm-se assim três amostras independentes umas das outras.
Exemplo
Suponha agora que, para além do tipo de campanha, se acredita que a
localização das lojas também pode influenciar a performance das vendas e
interagir com a eficiência das campanhas. As lojas podem dividir-se em duas
localizações: dentro e fora do centro da cidade.
Deve-se então usar a ANOVA com dois fatores (Two-way ANOVA) para
investigar se existem diferenças na performance das vendas causadas por cada
um dos fatores ou a sua interação
Definições
Unidades experimentais: objetos/indivíduos sobre os quais são
efetuadas observações
Exemplo anterior
Suponha que se pretende investigar se as diferenças na performance
das vendas são causadas pela localização das lojas e/ou o tipo de
campanha de marketing
Observações
Num delineamento completamente aleatorizado, obtêm-se amostras
aleatórias independentes das populações correspondentes aos
grupos/tratamentos
Modelo matemático
As variáveis aleatórias Xij são Para verificar se há diferenças
independentes e verificam (para significativas entre os grupos /
cada unidade experimental j=1,…,ni de tratamentos, é formulada a
cada grupo i=1,…,k) seguinte hipótese nula:
H0: 1= 2 =…= k
Xij = µi + ij Xij = µ + i + ij
Ou seja, não há diferenças entre os
valores médios das k populações
µi = µ + i valor médio
populacional do nível i do fator Ou, os efeitos da aplicação de k
tratamentos não são
µ valor médio da população estatisticamente significativos
i efeito do fator
A hipótese alternativa é então: os
efeitos dos tratamentos são
ij ~N(0, 2) resíduo aleatório
significativos
Notação
k Número de níveis do factor (nº de populações)
ni
Xi
j1
Xij
Total amostral correspondente ao nível
(população) i
ni
1 Xi Média amostral correspondente ao nível
Xi Xij
ni j1 ni (população) i
k ni k k
n X
1 1 1
X Xij Xi i i Média amostral global
n i1 j1 n i1 n i1
Notação
1
X
ni ni
1 k k
1
X
ni ni
1
Xij ni Xi
2
Si Variância amostral do nível
ij X i
2 2 2
ni 1 j1 ni 1 j1
(população) i
X
k ni Soma dos quadrados dos desvios
2
SQT ij X (n 1)S 2
totais em torno da média global
i1 j1 (variação total das respostas)
Soma dos quadrados dos desvios
n X
k k 2
2 Xi entre os níveis do factor (variação
SQTr i i X nX2
i1 i1 ni devida aos tratamentos; variação
que se verifica entre os grupos)
Soma dos quadrados dos desvios
X (n 1)S
k ni k
2 dentro dos níveis do factor (variação
SQE Xi
2
ij i i
i1 j1 i1
devida ao erro; variação que se
verifica dentro dos grupos)
Notação
Tabela ANOVA
Tratamentos
k1 SQTr MQTr
(between; entre SQTr MQTr Fobs
os grupos) k 1 MQE
Erro
SQE
(within; dentro nk SQE MQE
dos grupos) nk
Hipóteses a testar
H0 : 1 2 ... k
H0 : i, j (i j) : i j
Estatística do teste
MQTr
Fobs ~ F(k 1;nk )
MQE
p-value
p value P(F Fobs )
Pressupostos de aplicação
A violação da condição de independência das observações tem
consequências, em geral, sérias sobre a validade da ANOVA
Populações normais
Este pressuposto já se verificava no teste t para comparação de duas médias
Pressupostos de aplicação
Populações com a mesma variância
Este pressuposto já se verificava no teste t para comparação de duas médias
Exemplo
Um departamento governamental está preocupado com os aumentos dos custos
verificados no âmbito de projectos de I&D que são encomendados aos institutos
A, B, C e D. Decidiu-se então analisar os custos associados a diferentes
projectos, calculando para cada um deles a razão entre o custo final incorrido e o
custo inicialmente previsto na adjudicação. Para cada projecto, os dois custos
foram expressos numa base constante (cf. tabela). Será que os quatro institutos
têm um comportamento global distinto em relação ao agravamento dos custos?
A B C D
1.0 1.7 1.0 3.8
0.8 2.5 1.3 2.8
1.9 3.0 3.2 1.9
1.1 2.2 1.4 3.0
2.7 3.7 1.3 2.5
1.9 2.0
Exemplo
Sejam X1~N(1,2), X2~N(2,2), X3~N(3,2) e X4~N(4,2) as v.a. que
reportam a razão entre o custo final e o custo inicial previsto na adjudicação
para os institutos A, B, C e D, respectivamente
A B C D
ni n1 5 n2 6 n3 6 n4 5
2 2 2 2 2
si s1 0.625 s 2 0.556 s3 0.648 s 4 0.485
Exemplo
Origem da Médias
g.l Soma de quadrados F
variação quadráticas
Tratamentos k1 = 3 SQTr = SQT SQE = 6.1586 MQTr = 2.0529 Fobs = 3.5327
SQE =
Erro nk = 18 40.625+50.556+50.648+40.485 MQE = 0.5811
= 10.46
Rejeita-se H0 ao nível de significância de 5% porque Fobs > F(3, 18; 0.95) = 3.1599
S
Xi t (nk );1 2
n
1 1
( Xi X j ) t (nk );1 2S
ni n j
Xi X j 2
Estatística do teste: ~ t ( n k ) S MQE
1 1
S
ni n j
Estatística do teste
Xi X j 2
W ~ q(k;nk ) S MQE
2
S
b
q(k; nk) distribuição Studentized Range com (k; nk) graus de liberdade
Regra de decisão
Teste de Tukey-Kramer
Extensão do teste HSD de Tuckey para delineamentos não equilibrados
Estatística do teste
Xi X j 2
W ~ q(k;nk ) S MQE
S
2 1 1
2 ni n j
q(k; nk) distribuição Studentized Range com (k; nk) graus de liberdade
Regra de decisão
Hipóteses
H0: 12 = 22 = … = k2 = 2
H1: i,j (ij) i2 j2
Teste de Levene (não faz parte do programa): menos sensível a desvios à condição
de normalidade
Teste de Bartlett
Estatística do teste
k
(n k ) ln S ni 1ln Si
2 2
Q i1 2 2
~ (k 1) S MQE
1 k 1 1
1
3(k 1) i1 ni 1 n k
Regra de decisão
(22 4) ln (0.5811) 4 ln( 0.625 ) 5 ln( 0.556 ) 5 ln( 0.648 ) 4 ln( 0.485 )
Qobs
1 1 1 1 1 1
1
3( 4 1) 4 5 5 4 22 4
Decisão