Testinho I 09-05-19

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 17

UNIVERSIDADE FEDERAL DOS VALES DO JEQUITINHONHA E MUCURI

INSTITUTO DE CIÊNCIA E TECNOLOGIA


DISCIPLINA CTD 222 – ESTATÍSTICA
EXPERIMENTAL

Discentes: Álvaro Vitor Coelho Almeida;


Testinho I - 09-05-19

Observações e correções do professor:


Questão 1 (20%): a) correta, mas não apresentou CV, moda, erro padrão (4%);
b) correta (5%); c) correta (5%); d) fez alguns comentários, mas necessita de
melhorias na análise geral (4%). Nota: 18.

Questão 2 (20%): verificou a normalidade corretamente (8%); realizou o teste


t de forma incorreta na montagem da hipótese (2%). Nota: 10.

Questão 3 (20%): verificou a normalidade corretamente (6%); verificou a


homogeneidade de variâncias corretamente (6%); realizou o teste t de forma
correta (8%). Nota: 20.

Questão 4 (20%): a)Tratamentos: incorreta (0%); Fator em estudo: incorreta


(0%); Número de repetições: incorreta (0%); Parcela experimental: correta
(2%); Variáveis respostas: correta (2%); Material experimental: correta
(2%); Objetivo: correta (2%); b) correta (3%); c) correta (3%). Nota: 14.

Questão 5 (20%): análise exploratória: correta (5%); análise gráfica dos


pressupostos: correta (5%); testes dos pressupostos: correta (5%); ANÁLISE:
CORRETA (5%). Nota: 20.

##=============================================================
# Script - Prova 09/05/19
##=============================================================

# Instalar e carregar os possíveis pacotes utilizados durante a prova

pkg <- c("fBasics", "fdth", "lmtest", "BSDA", "e1071")


install.packages(pkg, dependencies=TRUE, duros="http://cran-r.c3sl.ufpr.br")

require(fBasics)
require(fdth)
require(lmtest)
require(BSDA)
require(e1071)

1) Um artigo em Technometrics (vol. 19, 1977, p. 425) apresentou os seguintes


dados sobre taxas de octanagem de combustível para motor, de várias
misturas de gasolina:

88,5 98,8 89,6 92,2 92,7 88,4 87,5 90,9 94,7 88,3
90,4 83,4 87,9 92,6 87,8 89,9 84,3 90,4 91,6 91,0
93,0 93,7 88,3 91,8 90,1 91,2 90,7 88,2 94,4 96,5
89,2 89,7 89,0 90,6 88,6 88,5 90,4 84,3 82,3 92,2

> #============================================================
> # QUESTAO 01
> #============================================================
> x<-c(88.5, 98.8, 89.6, 92.2, 92.7, 88.4, 87.5, 90.9, 94.7, 88.3,
+ 90.4, 83.4, 87.9, 92.6, 87.8, 89.9, 84.3, 90.4, 91.6, 91.0,
+ 93.0, 93.7, 88.3, 91.8, 90.1, 91.2, 90.7, 88.2, 94.4, 96.5,
+ 89.2, 89.7, 89.0, 90.6, 88.6, 88.5, 90.4, 84.3, 82.3, 92.2)
> x
[1] 88.5 98.8 89.6 92.2 92.7 88.4 87.5 90.9 94.7 88.3 90.4 83.4 87.9
92.6 87.8 89.9 84.3 90.4 91.6 91.0 93.0 93.7 88.3
[24] 91.8 90.1 91.2 90.7 88.2 94.4 96.5 89.2 89.7 89.0 90.6 88.6 88.5
90.4 84.3 82.3 92.2

Pede-se:
a) As estatísticas descritivas.
> #============================================================
> # QUESTAO 01 A
> #============================================================
> # Sumário das principais estatísticas descritivas
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
82.30 88.38 90.25 90.09 91.90 98.80

> # Estatísticas descritivas, outra forma


> basicStats(x, ci = 0.95)
x
nobs 40.000000
NAs 0.000000
Minimum 82.300000
Maximum 98.800000
1. Quartile 88.375000
3. Quartile 91.900000
Mean 90.090000
Median 90.250000
Sum 3603.600000
SE Mean 0.519428
LCL Mean 89.039358
UCL Mean 91.140642
Variance 10.792205
Stdev 3.285149
Skewness 0.000689
Kurtosis 0.587653
b) Verificar se taxas de octanagem da amostra é normalmente distribuída.

> #============================================================
> # QUESTAO 01 B
> #============================================================
>
> # Teste de Normalidade
> # testar se os dados(q1)seguem uma ~N
> # H0: dados de (q1) seguem uma ~N
> # H1: dados de (q1) não seguem uma ~N
>
> shapiro.test(q1)

Shapiro-Wilk normality test


data: q1
W = 0.9679, p-value = 0.3082
>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, os dados de q1 seguem uma ~N, a 5% de significância
>
> # verificando a normalidade graficamente
>
> qqnorm(x)
> qqline(x)

> # Pontos estão bem alinhados a reta com pouco desvio indicando
normalidade.
c) Representar graficamente os dados (com no mínimo três tipos diferentes).
> #============================================================
> # QUESTAO 01 C
> #============================================================
>
>
> # boxplot
> boxPlot(q1)
> # gráfico dos resíduos
> plot(q1)

> # histograma
> histPlot(as.timeSeries(q1))
d) Fazer uma discussão sobre a variabilidade do conjunto de dados.

O box-plot, apresenta uma disposição dos dados praticamente normal com a


maioria dos dados se concentrando próximo da média e dois possíveis outliers um
acima e outro a baixo.

O Gráfico dos resíduos mostra dados bem distribuídos o que indica independência
dos erros.

Podemos observar que a densidade de Kernel tem uma assimetria levemente


positiva, ou seja, a maioria dos dados estão a esquerda da moda, Ainda podemos
dizer que a curva é mesocurtica.

2) O fabricante de um produto afirma que a quantidade de calorias do mesmo


é 30 cal. Um concorrente questiona e diz que é mais que 30. Toma-se uma
amostra de tamanho 25 e os valores observados foram:

36,25 30,69 32,68 30,43 31,24 32,73 30,06 32,71 30,44


31,48 28,56 29,29 31,28 33,30 32,32 30,63 31,13 32,72
30,63 31,37 35,46 25,15 30,55 36,57 29,87

> #============================================================
> # QUESTAO 02
> #============================================================
>
> q2<-c(36.25, 30.69, 32.68, 30.43, 31.24, 32.73, 30.06, 32.71, 30.44,
+ 31.48, 28.56, 29.29, 31.28, 33.30, 32.32, 30.63, 31.13, 32.72,
+ 30.63, 31.37, 35.46, 25.15, 30.55, 36.57, 29.87 )
> q2
[1] 36.25 30.69 32.68 30.43 31.24 32.73 30.06 32.71 30.44 31.48 28.56
29.29 31.28 33.30 32.32 30.63 31.13 32.72 30.63
[20] 31.37 35.46 25.15 30.55 36.57 29.87

Fazer um teste de hipóteses para testar se o fabricante ou o concorrente


tinha razão.

> # testar se os dados de q2 seguem uma ~N


> # H0: dados de q2 seguem uma ~N
> # H1: dados de q2 não seguem uma ~N
>
> shapiro.test(q2)

Shapiro-Wilk normality test

data: q2
W = 0.92931, p-value = 0.08378

>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, os dados de q2 seguem uma ~N, a 5% de significância
>
> # verificando a normalidade graficamente
>
> qqnorm(q2)
> qqline(q2)
> # testar se a média de q2 é menor que 30
> # H0: mu igual a 30
> # H1: mu é menor que 30
>
> t.test(q2, mu=30, alternative="less")

One Sample t-test

data: q2
t = 3.1321, df = 24, p-value = 0.9977
alternative hypothesis: true mean is less than 30
95 percent confidence interval:
-Inf 32.32185
sample estimates:
mean of x
31.5016

>
> # Como p-valor foi maior que 0.05, não há razão para se rejeita H0
> # Ou seja, a média de q2 é maior que 30, a 5%.
> # Media de 31.5016.

> # Com isso concluímos que o concorrente tinha razão.


3) Um fornecedor alimenta a linha de produção de uma determinada indústria
com peças em que a sua espessura é medida em milímetros e produzidas
pelas máquinas MA e MB. Verifique se existe diferença significativa na
espessura média desses itens ao nível de 5%. Os resultados são
apresentados a seguir:
MA 3,2 4,1 3,5 3,0 3,1
MB 3,0 2,9 3,7 3,5 4,2

>
> #============================================================
> # QUESTAO 03
> #============================================================
>
> q3ma<-c(3.2, 4.1, 3.5, 3.0, 3.1 )
> q3ma
[1] 3.2 4.1 3.5 3.0 3.1
>
> q3mb<-c(3.0, 2.9, 3.7, 3.5, 4.2 )
> q3mb
[1] 3.0 2.9 3.7 3.5 4.2
>
> # verificando a normalidade das variáveis
> # H0: dados de q3ma seguem uma ~N
> # H1: dados de q3ma não seguem uma ~N
>
> shapiro.test(q3ma)

Shapiro-Wilk normality test

data: q3ma
W = 0.86929, p-value = 0.2636

>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, os dados de q3ma seguem uma ~N, a 5% de significância
>
> # H0: dados de q3mb seguem uma ~N
> # H1: dados de q3mb não seguem uma ~N
>
> shapiro.test(q3mb)

Shapiro-Wilk normality test

data: q3mb
W = 0.94263, p-value = 0.6846

>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, os dados de q3mb seguem uma ~N, a 5% de significância
>
> # Dados seguem uma distribuição Normal
>
> # verificando a homogeneidade das variâncias
> # H0: variâncias iguais
> # H1: variâncias diferentes
>
> var.test(q3ma,q3mb)

F test to compare two variances

data: q3ma and q3mb


F = 0.69611, num df = 4, denom df = 4, p-value = 0.7341
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.07247758 6.68583882
sample estimates:
ratio of variances
0.6961131

>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, variâncias são iguais, homogêneas, a 5% de significância
>
> # verificando se a igualdade das médias
> # H0: médias de q3ma e q3mb são iguais
> # H1: médias de q3ma e q3mb são diferentes
>
> t.test(q3ma, q3mb, mu=0, var.equal = TRUE)

Two Sample t-test


data: q3ma and q3mb
t = -0.2582, df = 8, p-value = 0.8028
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.7944892 0.6344892
sample estimates:
mean of x mean of y
3.38 3.46

>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, não existe diferença significativa na espessura média das
peças produzidas pela máquina A (MA) e pela máquina B (MB), ao nível
de 5% de significância.
4) Um experimento foi instalado para avaliar a qualidade de uvas submetidas
a diferentes concentrações de cálcio para conservação dos frutos após
colheita. As concentrações foram: 0%, 1%, 2%, 3% e 4% de cálcio na
solução. Os cachos de frutos após colheita eram lavados e limpos e
posteriormente imersos nas soluções de cálcio por 20 minutos. Os cachos
foram colhidos no mesmo dia, de um mesmo cultivar e possuíam
aproximadamente o mesmo tamanho. Cada unidade experimental foi
constituída por três cachos, que eram imersos juntos na solução. Cada
concentração foi repetida cinco vezes. Foram medidas as variáveis: peso
por cacho, teor de açúcares, teor de cálcio e perda de peso.

A) Identificar os tratamentos, o fator em estudo, o número de repetições, a


parcela experimental, as variáveis respostas, o material experimental, o
objetivo.

• Tratamentos: Tratamento de efeitos aleatórios, pois não se pode repetir o


experimento com os mesmos materiais. Como se utilizou uvas e as mesmas
eram colhidas e logo após imersas em soluções de cálcio as frutas não
podem ser utilizadas em um novo experimento, deve se colher novas uvas e
repetir o processo e outra indicativa de que foi este tratamento é que as
mesmas foram escolhidas de maneira aleatória na população de
tratamentos.
• O fator em estudo: Qualidade das uvas;
• O número de repetições: 5 concentrações X 5 repetições em cada
concentração = 25 Repetições nototal;
• A parcela experimental: 3 Cachos de Uva
• As variáveis respostas: Peso por cacho, teor de açúcares, teor de cálcio e
perda de peso;
• O material experimental: Uvas;
• O objetivo: Avaliar a qualidade de uvas submetidas a diferentes
concentrações de cálcio para conservação dos frutos após a colheita.

B) Quantos cachos foram necessários para realização desse experimento?

5 concentrações X 5 repetições em cada concentração X 3 cachos em cada


unidade experimental = 75 cahos de uva no total foram utilizados no
experimento.

C) Quantos cachos ocorreram em cada tratamento?

5 repetições em cada concentração X 3 cachos em cada unidade


experimental = 15 cahos de uva em cada tratamento (Concentração
diferente).
5) Realizou-se um estudo para se comparar a quantidade de sal em batatas
fritas. Obtiveram-se amostras aleatórias de quatro variedades e registrou-
se a quantidade de sal em cada porção de 1 onça (em mg de sódio). Os
dados são apresentados na Tabela 1.

Tabela 1. Quantidade de sal (mg de sódio).


Repetições
Variedades 1 2 3 4 5 6
A 338 155 239 184 185 261
B 235 238 251 229 233 232
C 164 197 135 214 148 230
D 290 343 294 373 306 357

Realize um teste de análise de variância para determinar se há alguma


evidência de que a quantidade populacional média de sal por porção seja
diferente para, pelo menos, duas variedades.

> #============================================================
> # QUESTAO 05
> #============================================================
>
> qs <- c(338, 155, 239, 184, 185, 261,
+ 235, 238, 251, 229, 233, 232,
+ 164, 197, 135, 214, 148, 230,
+ 290, 343, 294, 373, 306, 357)
>
> (dados=data.frame(trat=factor(rep(c('A','B','C','D'),each=6)), qs))
trat qs
1 A 338
2 A 155
3 A 239
4 A 184
5 A 185
6 A 261
7 B 235
8 B 238
9 B 251
10 B 229
11 B 233
12 B 232
13 C 164
14 C 197
15 C 135
16 C 214
17 C 148
18 C 230
19 D 290
20 D 343
21 D 294
22 D 373
23 D 306
24 D 357
> attach(dados)
>
> #Para realizar uma analise de variância primeiramente iremos
realizar uma analise exploratória e conferir as pressuposições:
> ## análise exploratória
> # calculando as médias, variâncias e erros padrão para cada
tratamento
> # calcula as médias de cada tratamento
> tapply(qs, trat, mean)
A B C D
227.0000 236.3333 181.3333 327.1667
>
> # calcula as variâncias de cada tratamento
> tapply(qs, trat, var)
A B C D
4483.60000 60.66667 1447.86667 1234.16667
>
> #Sumario para restringir a escala dos gráficos exploratórios
> summary(qs)
Min. 1st Qu. Median Mean 3rd Qu. Max.
135 194 234 243 291 373
>
> # gráficos exploratórios
> par(mfrow = c(1,2))
> plot.design(dados,xlab="fatores",
+ ylab="medias de rest",ylim=c(135,373)) #restringir
escala ylim=c(60,85)
> plot.design(dados, fun = median,xlab="fatores",
+ ylab="medianas de rest",ylim=c(135,373))
>

> #A média e a mediana são aproximadamente iguais, com isso podemos


pressupor que os dados são simétricos.
> par(mfrow = c(1,1))
> plot(qs~trat,data=dados)

> # Através do Box-plot podemos observar indícios que a variedade D é


diferente das demais variedades principalmente da variedade B e da
variedade C.

> # verificando as pressuposições


> # modelo
> modelo.av <- aov(qs ~ trat, data = dados)
>
>
> # 1- Independência dos erros
> par(mfrow=c(2,2))
> plot(modelo.av)
> # Pela análise gráfica, podemos perceber uma possível independência
> # do conjunto de dados pelo gráfico (1,1) pelo mesmo apresentar uma
> # linha aproximadamente constante e pontos relativamente bem
distribuídos
> # Pelo gráfico (2,1) não se mostrar constante percebemos indícios de
que não há homogeneidade de variância.
> # O gráfico (2,2) não é muito relevante para analises no caso DIC,
porém também se encontra constante.

> residuos <- (modelo.av$residuals)


> preditos <- (modelo.av$fitted.values)
> plot(residuos,preditos)
> title("Resíduos vs Preditos")
> respad <- (residuos/sqrt(anova(modelo.av)$"Mean Sq"[2]))
> boxplot(respad)
> title("Resíduos Padronizados")
> hist(respad, main=NULL)
> title("Histograma dos resíduos padronizados")
> qqnorm(residuos,ylab="Residuos", main=NULL)
> qqline(residuos,ylab="Residuos", main=NULL)
> title("Gráfico Normal de Probabilidade dos Resíduos")
> par(mfrow = c(1,1))
> # Pela análise gráfica, pode-se pressupor uma independência de
erros, já que há uma dispersão entre os pontos do gráfico (1,1), no
gráfico (1,2) podemos observar que os dados seguem uma simetria com um
possível outlier.
> # No grafico (2,1) histograma observamos uma tendência a normalidade
e no gráfico QQ (2,2) observamos uma distribuição normal dos pontos.

> # Ou pelo Teste de Durbin-Watson (independência dos erros.)


> # H0: autocorrelação igual a zero (independência)
> # H1: autocorrelação diferente de zero (dependência)
>
> dwtest(qs ~ trat, alternative=c("two.sided"), data=dados)

Durbin-Watson test
data: qs ~ trat
DW = 2.7568, p-value = 0.1791
alternative hypothesis: true autocorrelation is not 0

>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, a correlação é igual a zero, os erros são independentes
>

> # 2- Normalidade
> # H0: dados seguem ~N
> # H1: dados não seguem ~N
> shapiro.test(residuos)

Shapiro-Wilk normality test


data: residuos
W = 0.95962, p-value = 0.4308
>
> # Como p-valor foi maior que 0.05, não há evidências para rejeitar
H0
> # Ou seja, os erros são normalmente distribuídos
>

> # 3- Homogeneidade de variâncias

> # H0: variâncias homogêneas


> # H1: variâncias heterogêneas
> bartlett.test(qs ~ trat)

Bartlett test of homogeneity of variances

data: qs by trat
Bartlett's K-squared = 14.249, df = 3, p-value = 0.002586

>
> # Como p-valor foi menor que 0.05, há evidências para rejeitar H0
> # Ou seja, as variâncias não são homogêneas
>

> # 4- Aditividade
> # Não há necessidade de verificar para o DIC
>

> # Nem todas as pressuposições foram atendidas (variâncias não são


homogêneas)

> # A análise de variância NÃO é válida.

Você também pode gostar