Análise Estatística e Seu Uso Na Pesquisa Educacional
Análise Estatística e Seu Uso Na Pesquisa Educacional
Análise Estatística e Seu Uso Na Pesquisa Educacional
Belém-PA
2021
4
https://doi.org/10.46898/rfb.9786558891093
Catalogação na publicação
Elaborada por Bibliotecária Janaina Ramos – CRB-8/9166
M152
Livro em PDF
88 p., il.
ISBN: 978-65-5889-109-3
DOI: 10.46898/rfb.9786558891093
CDD 370.21
I. Estatística educacional
Nossa missão é a difusão do conhecimento gerado no âmbito acadêmico por meio da organização e da
publicação de livros digitais de fácil acesso, de baixo custo financeiro e de alta qualidade!
Nossa inspiração é acreditar que a ampla divulgação do conhecimento científico pode mudar para me-
lhor o mundo em que vivemos!
Conselho Editorial:
Prof. Dr. Ednilson Sergio Ramalho de Prof.ª Me. Neuma Teixeira dos Santos -
Souza - UFOPA (Editor-Chefe). UFRA.
Prof.ª Drª. Roberta Modesto Braga - Prof.ª Me. Antônia Edna Silva dos Santos
UFPA. - UEPA.
Prof. Me. Laecio Nobre de Macedo - Prof. Dr. Carlos Erick Brito de Sousa -
UFMA. UFMA.
Prof. Dr. Rodolfo Maduro Almeida - Prof. Dr. Orlando José de Almeida Filho
UFOPA. - UFSJ.
Prof.ª Drª. Ana Angelica Mathias Macedo Prof.ª Drª. Isabella Macário Ferro Caval-
- IFMA. canti - UFPE.
Prof. Me. Francisco Robson Alves da Sil- Prof. Dr. Saulo Cerqueira de Aguiar Soa-
va - IFPA. res - UFPI.
Prof.ª Drª. Elizabeth Gomes Souza - Prof.ª Drª. Welma Emidio da Silva - FIS.
UFPA.
Diagramação: Bibliotecária
Laiane Borges. Janaina Karina Alves Trigo Ramos
Arte da capa: Assistente editorial
Pryscila Rosy Borges de Souza. Manoel Souza.
Imagens da capa:
https://www.canva.com/
Revisão de texto:
Os autores.
SUMÁRIO
APRESENTAÇÃO...................................................................................................................9
1 CONCEITOS INICIAIS.....................................................................................................11
3 CORRELAÇÃO E REGRESSÃO.....................................................................................41
REFERÊNCIAS.......................................................................................................................83
SOBRE OS AUTORES..........................................................................................................86
8
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
9
APRESENTAÇÃO
Apresentação
Este material foi desenvolvido com a finalidade de ser o guia didático do curso Análise Estatı́stica
e seu uso na Pesquisa Educacional, ministrado nos dias 17 e 18 de junho de 2019 no Laboratório de
Pesquisa do Instituto de Pesquisa em Educação e Educação Fı́sica (PROTEORIA) da Universidade
Federal do Espı́rito Santo.
O objetivo principal deste curso é oferecer um embasamento teórico para a aplicação das técnicas
estatı́sticas em pesquisas que envolvem as áreas de Educação e Educação Fı́sica, ressaltando a
importância de cada análise para efetivação da interpretação dos resultados obtidos ao longo dessas
pesquisas.
O livro está estruturado em quatro capı́tulos. O capı́tulo 1 apresenta conceitos básicos de
amostragem, estatı́stica descritiva e suas representações em gráficos e tabelas. O capı́tulo 2 traz
alguns dos testes de hipótese mais utilizados em pesquisas das áreas de ciências humanas e sociais
aplicadas, como testes de comparação de médias e de associação entre variáveis. O capı́tulo 3 é
destinado ao estudo de correlação e regressão e o capı́tulo 4 apresenta uma introdução à análise
de avaliações, pautada na teoria clássica dos testes.
Em todos os capı́tulos são apresentados exemplos práticos para serem executados no software
estatı́stico R, adotado como instrumento facilitador na aprendizagem, ilustrando aspectos básicos
com ênfase na compreensão da estrutura do software e na forma de operar seus comandos.
O software R pode ser obtido gratuitamente em http://www.R-project.org, em que são apre-
sentadas versões para os principais sistemas operacionais: Linux, MacOS X e Windows. Durante o
processo de instalação são criados atalhos na área de trabalho que podem ser acessados para rodar
o programa. Caso o leitor precise cita-lo em suas publicações, basta digitar na janela aberta pelo
software, conhecida como R Console, o comando citation().
Gostarı́amos de agradecer ao Instituto de Pesquisa em Educação e Educação Fı́sica (PROTE-
ORIA) e ao Núcleo de Estudos e Pesquisas em Polı́ticas Educacionais(NEPE) da Universidade
Federal do Espı́rito Santo (UFES) pela oportunidade de ofertar este curso.
10
CAPÍTULO 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
12
1 Conceitos Iniciais
A Estatı́stica é uma ciência que estuda, de forma sistemática, técnicas para coletar, organizar,
descrever, analisar e interpretar dados oriundos de estudos ou experimentos realizados em qualquer
área do conhecimento. Trata-se de uma ferramenta capaz de extrair informações acerca de uma
população, pautada em conceitos inferenciais probabilı́sticos.
Em seu estudo, é fundamental compreender conceitos como o de amostragem, tipos de variáveis,
medidas-resumo e suas representações.
1.1 Amostragem
Podemos definir uma população como sendo um conjunto de elementos que detém alguma
caracterı́stica comum, factı́vel de ser estudada. Qualquer subconjunto dessa população, consti-
tuem uma amostra. Entretanto, para garantir que uma amostra seja representativa para uma
população, mantendo suas caracterı́sticas essenciais, é preciso muito cuidado no processo seleção
dos seus elementos, conhecido como processo de amostragem. A Figura 1 ilustra este processo.
Existem algumas fórmulas para o cálculo do tamanho de uma amostra. A que traremos aqui é
uma que acreditamos ser de fácil compreensão por não envolver cálculos complexos e nem necessitar
de valores tabelados de apoio. Primeiramente, precisamos adotar um valor para o erro amostral
tolerável (E0 ), para calcularmos uma primeira aproximação para o tamanho da amostra (n0 ). Este
valor pode ser considerado quando não se conhece o tamanho da população.
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
13
1
n0 = (1)
E02
N × n0
n= (2)
N + n0
Como exemplo, suponha que deseja-se selecionar uma amostra de uma população de tamanho
200 mil, considerando que os erros amostrais não ultrapassem 2%. Assim, das Equações 1 e 2,
tem-se:
1 200000 × 2500
n0 = = 2500 =⇒ n= ≈ 2469, 136.
0, 022 200000 + 2500
Portanto, devem ser amostradas 2470 pessoas para se obter uma amostra 98% confiável.
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
14
1.1.3 Exemplo no R
Para gerar números aleatórios no R, podemos usar o comando sample(). Por exemplo, para
gerar 5 números aleatórios no intervalo de 1 a 100, fazemos:
> sample(1:100, 5)
[1] 62 52 17 1 39
Cada vez que se executa o comando, o R retornará novos valores. É possı́vel definir uma semente
aleatória, através do comando set.seed(), para garantir que seja utilizado o mesmo número aleatório
gerado, sempre que for necessário repeti-lo. A mesma simulação acima é realizada, considerando
a semente número 125:
> set.seed(125)
> sample(1:100, 5)
[1] 30 63 72 24 51
Para termos uma boa amostragem dos dados, precisamos nos preocupar com as variáveis que
interferem nos resultados. Por exemplo, um candidato A pode ser o preferido para os eleitores
de baixa renda, enquanto que um candidato B é o mais querido para os eleitores de melhor
condição financeira. Dessa forma, a renda da população é uma variável que precisa ser levada em
consideração em uma pesquisa eleitoral. Outras variáveis que devem ser analisadas neste caso são
o sexo, a idade, o grau de escolaridade, entre muitas outras.
Quando uma variável expressa uma qualidade ou preferência de um entrevistado ela é chamada
de qualitativa. Se a variável expressa valores numéricos, ela é chamada de quantitativa. Assim,
sexo e grau de escolaridade são variáveis qualitativas enquanto que a renda familiar e a idade do
entrevistado são variáveis quantitativas.
As variáveis qualitativas podem ser classificadas em ordinais, quando podem ser ordenadas,
ou nominais, caso contrário. Assim, o grau de escolaridade é uma variável qualitativa ordinal e a
variável sexo é uma variável qualitativa nominal.
As variáveis quantitativas podem ser classificadas em discreta, quando é expressa por um
número inteiro, ou contı́nua, quando expressa por um número real não-inteiro. Assim, o número
10
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
15
de acesso a uma plataforma online pode ser considerada como uma variável quantitativa discreta e
a altura de um grupo de adolescentes como uma variável quantitativa contı́nua. A Figura 2 resume
estas classificações.
11
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
16
Tabela 1: Informações sobre sexo, estado civil, idade, escolaridade, tempo de serviço e renda de 30 professores de
Educação Fı́sica da rede pública de ensino da cidade de Serra-ES.
As variáveis qualitativas nominais presentes na Tabela 1 são o sexo e o estado civil. Estas
variáveis podem ser dicotomizadas, auxiliando em alguns processos de análises estatı́sticas. Observe
que é possı́vel ordenar a variável escolaridade, logo trata-se de uma variável qualitativa do tipo
ordinal. As variáveis idade e tempo de serviço (em anos) são variáveis quantitativas discretas e a
variável renda é uma variável quantitativa contı́nua.
12
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
17
cia e gráficos, como mostra a Tabela 2 que apresenta a distribuição de frequências da variável
escolaridade da Tabela 1.
Para representar variáveis quantitativas contı́nuas é comum a dispor os dados em classes com
a mesma amplitude, que deve ser determinada de acordo com a familiaridade do pesquisador com
os dados. Entretanto, é importante ressaltar que um número pequeno de classes causa perda de
informações. Bussab e Morettin (2010) sugerem o uso de 5 a 15 classes para representar uma
variável. Na Tabela 3 há informações acerca da variável salário.
Observe que foi utilizada a notação matemática [x, y) para designar os intervalos que contém
o extremo x mas que não contém o extremo y. A representação em gráficos ocorre de maneiras
distintas para variáveis qualitativas e quantitativas. Para o primeiro grupo, destacam-se a re-
presentação em gráficos de barras e setores. Já para o segundo, destacam-se a representação em
gráficos de dispersão, histogramas, boxplot e ramo-e-folhas.
1.2.2 Exemplos no R
Para uma melhor leitura dos dados no software R, dispomos as respostas dos 30 professores
entrevistados em uma planilha do Excel, conforme ilustra a Figura 3.
13
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
18
Para a leitura dos dados provenientes da planilha Excel no R, o arquivo foi previamente salvo
como Texto (separado por tabulações)(*.txt) e, em seguida, utilizou-se o comando read.table():
Para facilitar, pode-se clicar com o botão direito do mouse no arquivo salvo, clicar em proprie-
dades e copiar o local em que o trabalho foi salvo. Entretanto, deve-se lembrar de inverter o sentido
das barras que separam as respectivas pastas. Em tempo, a função head=T ou head=TRUE indica
que há um cabeçalho no arquivo analisado. O comando head() nos fornece um resumo da planilha
analisada.
> head(dados)
É possı́vel também selecionar apenas uma das variáveis do conjunto de dados. Para isto, acres-
centamos o sı́mbolo $ junto ao nome da variável que queremos selecionar. Por exemplo, para
selecionar apenas a variável estado civil, fazemos:
> dados$EstadoCivil
14
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
19
Como visto na seção anterior, é comum trabalharmos com amostras para representar uma
população. Suponhamos que seja de interesse selecionar uma amostra de 5 elementos pertencentes
ao conjunto de dados representados na Tabela 1. Para isto, podemos utilizar o comando sample e
a semente 14302.
> set.seed(14302)
> dados[sample(nrow(dados),5),]
Para a construção de qualquer tipo de gráfico no R, há algumas opções comuns que usaremos
no decorrer deste tópico. São elas:
Vejamos alguns exemplos. Na Figura 4, temos o gráfico de dispersão para as variáveis Idade
e Tempo de Serviço. Observe que estas variáveis parecem estar altamente correlacionadas, o que
veremos nos próximos capı́tulos.
15
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
20
Na Figura 5 temos a representação em gráfico de barras vertical da variável Estado Civil. Para
construir o gráfico de barras horizontal, representado na Figura 6, basta inverter os eixos coorde-
nados e acrescentar o comando horiz=TRUE no script abaixo.
Figura 5: Dados referentes à variável Estado Civil Figura 6: Dados referentes à variável Estado Civil
16
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
21
colocamos o comando para definir as cores, no script, o software retornará com as cores definidas
como padrão.
> pie(table(dados$Escolaridade),
+ main="Dados referentes à Escolaridade")
Na Figura 8 temos um histograma que representa a variável Renda. A definição das classes
também ocorreu de forma padrão no software.
17
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
22
18
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
23
Um tipo de gráfico bastante útil para resumir um conjunto de dados, quando se tem interesse
na forma de sua distribuição (simétrica ou assimétrica) é o gráfico ramo-e-folhas. Nele, também
é possı́vel analisar a frequência de observações e a presença de outliers. Em sua construção, as
19
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
24
observações devem ser divididas em duas partes: o ramo, colocado à direita de uma linha vertical,
e as folhas, colocadas à esquerda. O comando para gerá-lo no R é o stem().
> stem(dados$Idade)
2 | 3
2 | 555666788
3 | 000000024
3 | 55568
4 | 4
4 | 5
5 | 12
5 | 5
6 | 0
Neste exemplo, o ramo representa a casa das dezenas das idades e a folha representa a casa das
unidades. Observe que os dados estão distribuı́dos assimetricamente à esquerda.
1.3 Medidas-Resumo
Como vimos, a representação dos dados por meio de gráficos e tabelas resume e fornece in-
formações globais sobre o comportamento das variáveis. Entretanto, as vezes precisamos resumir
ainda mais estes dados, apresentando um ou outro valor que represente o conjunto de dados como
um todo. Esses valores são denominados “Medidas de Posição, Medidas de Tendência Central ou
de Centralidade”.
Podemos também estar interessados na variabilidade de um conjunto de dados, ou seja, no
quanto seus elementos são dispersos entre eles. Estas informações são omitidas pelas medidas de
posição, mas contém informações importantes que devem ser levadas em consideração na análise
de um conjunto de dados.
Para ilustração, observe a Tabela 4 que apresenta as notas de dois candidatos que disputam um
cargo em uma empresa de telecomunicações.
Na Tabela 4, embora as médias e medianas sejam iguais, o candidato 1 apresentou notas mais
20
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
25
regulares do que o candidato 2. Em outras palavras, há menor variabilidade nas notas obtidas pelo
candidato 1. Dessa forma, se a empresa tiver interessada em um candidato cujos conhecimentos são
mais homogêneos, seria interessante contratá-lo. Observe que as medidas de posição não trazem
essa informação.
x 1 + . . . + xn
x= (3)
n
A moda (Mo) é o valor mais frequente do conjunto de dados e a mediana (Md) é o valor obser-
vado que divide o este conjunto (depois de ordenado) em duas partes com a mesma quantidade.
Matematicamente,
X( n2 ) + X( n+1 )
2
M d = X( n+1 ) , se n é impar ou M d = , se n é par. (4)
2 2
em que X(n) representa o elemento de ordem n.
Os quartis são os valores que dividem uma amostra de dados em quatro partes iguais. Abaixo
do 1o e acima do 3o quartil encontram-se 25% dos dados, o 2o quartil coincide com a mediana, ou
seja, representa o elemento central dos dados ordenados. A Figura 11 ilustra a situação descrita.
Semelhante ao que acontece com os quartis, os percentis são medidas que dividem a amostra
(por ordem crescente dos dados) em 100 partes. Dessa forma, o 1o percentil determina os 1%
menores dos dados e o 65o percentil determina os 65% menores dos dados.
21
Capítulo 1
CONCEITOS INICIAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
26
desvios dos dados (encontrados ao subtrairmos o valor observado pela média aritmética) pelo total
de dados observados. Matematicamente:
n
(xi − X̄)2
i=1
V ar(X) = (5)
n
em que X representa o conjunto formado pelos n dados xi e x̄ representa a média aritmética desses
dados. Há uma correção para o cálculo da variância de uma amostra que consiste na divisão por
n − 1 ao invés de n na Equação 5.
O desvio-padrão de uma amostra é obtido extraindo a raiz quadrada da variância e o coeficiente
de variação é obtido pela razão entre o desvio-padrão e a média aritmética de uma amostra. O
coeficiente de variação (CV) é utilizado quando precisamos comparar variáveis que apresentam
médias diferentes, sendo o mais homogêneo aquele que apresentar menor CV.
Calculemos o CV das notas dos candidatos 1 e 2 da Tabela 4 para exemplificar estes conceitos.
Para o candidato 1, temos:
7, 3 + 7, 5 + 7, 7 + 7, 5
X̄ = = 7, 5 e
4
0, 141
DP (X) = 0, 02 ≈ 0, 141 =⇒ CV (X) = = 0, 0188.
7, 5
6 + 8, 5 + 9 + 6, 5
Ȳ = = 7, 5;
4
1, 275
DP (Y ) = 1, 625 ≈ 1, 275 =⇒ CV (X) = = 0, 17.
7, 5
Portanto, como anteriormente observado, as notas obtidas pelo candidato 2 são mais regulares.
1.3.3 Exemplos no R
22
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
27
Um resumo para as medidas de posição pode ser obtido através da função summary(). Como
exemplo, consideremos a variável Idade da Tabela 1.
> summary(dados$Idade)
Observe que as idades variam entre 23 e 60 anos e possuem média de 34, 03 e mediana 30. O
primeiro e o terceiro quartis foram 27, 25 e 35, 75, respectivamente.
23
Capítulo 1
CONCEITOS INICIAIS
28
CAPÍTULO 2
Em análises realizadas em três revistas de engenharia do Brasil entre 1999 e 2004, Mello; Alencar
e Peternelli (2004) encontraram a presença de análises estatı́sticas em cerca de 63% dos mais de
360 artigos publicados. Em educação Fı́sica, Teixeira et al. (2015) analisaram todos os artigos
publicados no triênio 2009-2011, em periódicos com estratificação B2 ou superior no QUALIS
CAPES, e perceberam a presença de análises estatı́sticas em pelo menos 56,7% deles.
Entretanto, segundo Inácio; Encinas e Santana (2012), as análises e testes estatı́sticos são poucos
utilizados nos artigos e trabalhos cientı́ficos na área das ciências humanas, principalmente na área
de educação. Neste capı́tulo, discutiremos alguns dos principais testes de hipóteses que podem ser
utilizados nas mais diversas áreas do conhecimento.
Um teste de hipóteses é um procedimento estatı́stico que permite aceitar ou rejeitar uma hipótese
(hipótese de nulidade), utilizando os dados amostrados. A hipótese de nulidade é simplificada como
H0 e caso o pesquisador a rejeite, a decisão é pela hipótese alternativa H1 (ou Ha ). Passos para a
realização de um teste de hipóteses:
2. Especificar o nı́vel de significância (α) a ser adotado no teste, que é, em termos práticos, a
probabilidade de se rejeitar incorretamente a hipótese nula quando ela é verdadeira, ou seja,
de se cometer um erro estatı́stico conhecido como erro do tipo I;
6. Concluir pela rejeição ou não de H0 , caso o valor calculado pertença ou não à região crı́tica
do teste, respectivamente.
valor-p ≤ α ⇒ Rejeita-se H0
24
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
31
Existem alguns testes para verificarmos a hipótese de que os dados são normalmente distribuı́dos,
sendo que os mais utilizados são os de Kolmogorov-Smirnov (K-S) e Shapiro-Wilk, mais adequado
para amostras pequenas. Na Tabela 6, temos alguns testes estatı́sticos para normalidade dos dados
e seu respectivo comando para análise no software R. Estes testes pertencem ao pacote nortest
(Gross; Ligges e Ligges (2015)).
Teste Comando no R
ks.test(dados, “pnorm”,
Kolmogorov-Smirnov
mean(dados), sd(dados))
Lilliefors lillie.test(dados)
Cramér-von Mises cvm.test(dados)
Shapiro-Wilk shapiro.test(dados)
Shapiro-Francia sf.test(dados)
Anderson-Darling ad.test(dados)
Também podemos construir o gráfico de dispersão dos quantis amostrais versus os quantis
teóricos (da distribuição normal), para verificar se os dados seguem uma distribuição normal de
probabilidades, o que será verdade quando os pontos plotados se dispuserem em torno de uma
reta, conforme ilustra a Figura 12. No R, usamos a função qqnorm(), para a construção deste tipo
de gráfico.
25
Capítulo 2
ALGUNS TESTES ESTATÍSTICOS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
32
Para verificar se as variâncias são homogêneas, podemos utilizar os testes expostos na Tabela
7. Neles, a hipótese nula é a de que as variâncias dos grupos testados são iguais (homocedasti-
cidade). Entretanto, a análise gráfica de Boxplots, embora mais subjetiva, também pode indicar
esta caracterı́stica.
Teste Comando no R
F de Fisher var.test(x, y)
Bartlett bartlett.test(x,y)
Levene leveneTest(x,y)
Muitos problemas aparecem quando se deseja testar hipóteses sobre médias de populações di-
ferentes. Por exemplo, podemos querer comparar a médias das notas de duas turmas de uma
determinada disciplina, uma com e outra sem aulas de monitoria, a fim de verificar a significância
da mesma.
No caso paramétrico, para a comparação de médias de duas amostras independentes, sugere-se
o uso do teste t. Entretanto, para seu uso, é preciso verificar, inicialmente, se as pressuposições
de normalidade e homocedasticidade para as populações foram satisfeitas. O comando no R para
este teste é t.test(x,y) e a hipótese de nulidade é a de que as médias populacionais são iguais para
ambos os grupos (x e y).
Em algumas situações, não há independência entre os grupos. Por exemplo, pode-se comparar o
26
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
33
desempenho da mesma turma em dois momentos distintos: antes e depois da aplicação do método
inovador. Nestes casos, dizemos que os grupos a serem comparados são pareados e acrescentamos
o termo paired=t no comando do R, que passa a ser t.test(x,y,paired=t).
No caso não-paramétrico, para amostras independentes, sugere-se o uso do teste de Wilcoxon-
Mann-Whitney, cujo comando no R é wilcox.test(x,y) e para amostras dependentes, sugere-se o
uso do teste de Wilcoxon, cujo comando no R é wilcox.test(x,y,paired=T)).
2.3.1 Exemplo no R
Para verificar se a adição de aulas de monitoria é significativa para a melhoria das notas de uma
turma de fisiologia, foram amostradas as notas de 25 estudantes de duas turmas distintas: uma
com (x) e outra sem (y) essas aulas. Os dados estão disponı́veis na tabela 8.
Notas sem 20, 25, 75, 50, 63, 60, 65, 11, 75, 23, 28, 37,
a monitoria 86, 54, 22, 62, 44, 35, 44, 46, 50, 60, 52, 26, 73.
Notas com 55, 60, 30, 55, 75, 85, 76, 62, 25, 54, 86, 77,
a monitoria 74, 28, 49, 57, 63, 66, 84, 58, 60, 60, 75, 45, 40
> x=c(20, 25, 75, 50, 63, 60, 65, 11, 75, 23, 28, 37,
+ 86, 54, 22, 62, 44, 35, 44, 46, 50, 60, 52, 26, 73)
> y=c(55, 60, 30, 55, 75, 85, 76, 62, 25, 54, 86, 77,
+ 74, 28, 49, 57, 63, 66, 84, 58, 60, 60, 75, 45, 40)
> shapiro.test(x)
data: x
W = 0.97061, p-value = 0.6607
> shapiro.test(y)
data: y
W = 0.9493, p-value = 0.2418
Observe que ambos possuem uma distribuição normal. Para verificar a homocedasticidade,
utilizaremos o teste F.
27
Capítulo 2
ALGUNS TESTES ESTATÍSTICOS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
34
> var.test(x,y)
data: x and y
F = 1.374, num df = 24, denom df = 24, p-value = 0.4422
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6054606 3.1178915
sample estimates:
ratio of variances
1.373958
Observe que as variâncias das populações são homogêneas. Assim, como os pressupostos foram
satisfeitos, iremos comparar os grupos x e y através do teste t.
> t.test(x,y)
data: x and y
t = -2.3604, df = 46.838, p-value = 0.02247
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-23.191775 -1.848225
sample estimates:
mean of x mean of y
47.44 59.96
Como o valor-p calculado foi menor do que o nı́vel de significância adotado (5%), concluı́mos
pela rejeição da hipótese H0 que indicava que as médias das notas eram as mesmas para ambos os
grupos. Assim, como a média de y é maior do que a média de x, em termos absolutos, concluı́mos
que a adição de aulas de monitoria é significativa para uma melhoria das notas dos estudantes.
Agora imagine o caso em que temos mais do que duas categorias para a avaliar. No caso em
que todas as categorias analisadas são independentes, temos a ANOVA de Welch, cuja função
no R é anova(), no caso paramétrico, e o teste de Kruskal-Wallis, função kruskal.test(), no caso
não-paramétrico.
Se as categorias analisados forem dependentes, usamos a ANOVA para medidas repetidas, cuja
função no R é aov(), no caso paramétrico, e o teste de Friedman, função friedman.test(), no caso
não-paramétrico.
28
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
35
A Hipótese de nulidade para estes testes é a de que todas as médias das categorias analisadas
são iguais. Caso a rejeitamos, concluı́mos que pelo menos uma dessas médias é estatisticamente
diferente das demais, mas não sabemos qual (is). Para identificá-la (s), precisamos realizar um
teste de comparações múltiplas. No caso paramétrico, o mais utilizado é o teste de Tukey, cuja
função no R é TukeyHSD(). No caso não-paramétrico, destaca-se o teste de Nemenyi, função
posthoc.kruskal.nemenyi.test().
2.4.1 Exemplo no R
Imagine agora que o professor da disciplina Fisiologia queira comparar o rendimento de três
grupos de estudantes de sua turma: Nutrição, Educação Fı́sica e Fisioterapia. Para isto, o professor
selecionou uma amostra de 25 estudantes de cada curso, representada pela Tabela 9 e considerou-se
que todos os pressupostos para a realização dos testes paramétricos foram satisfeitos.
20, 25, 65, 50, 63, 60, 65, 11, 65, 23, 28, 37,
Nutrição
86, 54, 22, 62, 44, 35, 44, 46, 50, 60, 52, 26, 73.
55, 60, 30, 55, 75, 85, 76, 62, 25, 54, 86, 77,
Educação Fı́sica
74, 28, 49, 57, 63, 66, 84, 58, 60, 60, 75, 45, 40
10, 13, 25, 42, 65, 44, 30, 62, 25, 54, 24, 77,
Fisioterapia
76, 28, 49, 37, 63, 44, 40, 15, 22, 75, 60, 45, 40.
Vamos construir uma ANOVA para verificarmos se há algum grupo diferente dos demais. Para
isto, usaremos a função aov. Observe que, para criar o conjunto de dados e organizá-los em vetor,
usamos os comandos data.frame() e stack.
> nut=c(20, 25, 65, 50, 63, 60, 65, 11, 65, 23, 28, 37,
+ 86, 54, 22, 62, 44, 35, 44, 46, 50, 60, 52, 26, 73)
> edfis=c(55, 60, 30, 55, 75, 85, 76, 62, 25, 54, 86, 77,
+ 74, 28, 49, 57, 63, 66, 84, 58, 60, 60, 75, 45, 40)
> fisio=c(10, 13, 25, 42, 65, 44, 30, 62, 25, 54, 24, 77,
+ 76, 28, 49, 37, 63, 44, 40, 15, 22, 75, 60, 45, 40)
> dados2<-data.frame(nut,edfis,fisio)
> dat<-stack(dados2)
> anova=aov(dat$values~dat$ind)
> summary(anova)
29
Capítulo 2
ALGUNS TESTES ESTATÍSTICOS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
36
Como rejeitamos a hipótese de que todos os grupos apresentam a mesma média (p-valor < 5%),
precisamos agora identificar qual(is) grupo (s) apresenta (m) média (s) diferente (s) dos demais.
Para isto, vamos utilizar o teste de Tukey, considerando a análise paramétrica.
> TukeyHSD(anova)
$`dat$ind`
diff lwr upr p adj
edfis-nut 13.32 0.5574904 26.08251 0.0388156
fisio-nut -4.04 -16.8025096 8.72251 0.7300593
fisio-edfis -17.36 -30.1225096 -4.59749 0.0048622
Observe que não há diferenças entre as médias dos grupos nutrição e fisioterapia. Entretanto,
o grupo educação fı́sica apresenta média diferente dos demais. Uma análise através do gráfico
Boxplot, conforme Figura 13, também auxilia nas interpretações.
> boxplot(dat$values~dat$ind,
+ xlab="Curso", ylab="Notas", col=c("yellow","orange", "pink"))
Dessa forma, a análise descritiva, a análise pela ANOVA e a análise pelo teste de Tukey, nos
30
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
37
permitem concluir que os estudantes do curso de Educação Fı́sica possuem, em média, notas
estatisticamente maiores na disciplina de Fisiologia.
A Figura 14 apresenta um resumo dos principais testes de comparação de médias.
Em muitas pesquisas relacionadas às ciências sociais aplicadas é comum querer verificar se há
dependência ou não entre duas variáveis qualitativas. Para verificar, por exemplo, a significância
estatı́stica da aparente associação entre sexo e alguma modalidade de esporte, escolhida para
participação em aulas de educação fı́sica, podemos construir uma tabela de contingência, conforme
Tabela 10. Observe que a maioria das meninas optam por fazer aulas de Vôlei. Já os meninos tem
preferência para as aulas de futebol.
Esporte
Futebol Vôlei Handbol Total
Sexo Feminino 20 45 35 100
Masculino 60 25 15 100
Total 80 70 50 200
Dos testes para associação, os mais utilizados são o teste Qui-Quadrado e o teste exato de
31
Capítulo 2
ALGUNS TESTES ESTATÍSTICOS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
38
Fisher. A hipótese nula em ambos é de que não existe associação entre as variáveis.
A estatı́stica do teste Qui-Quadrado é definida por:
n
(Oi − Ei )2
χ2 = (6)
i=1
Ei
Esporte
Futebol Vôlei Handbol Total
80×100 70×100 50×100
Sexo Feminino 200 = 40 200 = 35 200 = 25 100
80×100 70×100 50×100
Masculino 200 = 40 200 = 35 200 = 25 100
Total 80 70 50 200
(20 − 40)2 (45 − 35)2 (35 − 25)2 (60 − 40)2 (25 − 35)2 (15 − 25)2
χ2 = + + + + + = 33, 7143
40 35 25 40 35 25
Quando os valores esperados são menores do que 5 ou quando as amostras são pequenas, o teste
2
χ não apresenta resultados confiáveis. Nos casos em que conseguimos dispor os dados em uma
tabela 2x2, conforme Tabela 12, é preferı́vel usar o teste exato de Fisher.
32
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
39
O teste exato de Fisher consiste na determinação das probabilidades de tabelas com as mesmas
margens e com menores valores na entrada cujo valor, conforme ilustra a Figura 15.
2.5.1 Exemplos no R
Vamos refazer o exemplo que verifica a relação de dependência entre as variáveis sexo e mo-
dalidade de esporte escolhida para participação em aulas de educação fı́sica, no R. Para isto,
utilizaremos a função chisq.test().
> M<-as.table(rbind(c(20,45,35),c(60,25,15)))
> chisq.test(M)
data: M
X-squared = 33.714, df = 2, p-value = 4.776e-08
Como a hipótese de independência foi rejeitada, verificamos que as variáveis analisadas estão
associadas.
Imagine agora que os dados da Tabela 8 fossem reduzidos e que só considerássemos como
modalidade de esporte o futebol e o vôlei. A Tabela 13 retrata esta nova situação.
Esporte
Futebol Vôlei Total
Sexo Feminino 2 5 7
Masculino 8 5 13
Total 10 10 20
Neste caso, como há valores esperados menores do que 5 e a amostra é pequena, não seria
prudente analisar pelo teste χ2 . Procederemos à analise pelo teste exato de Fisher, cuja função no
R é fisher.test().
33
Capítulo 2
ALGUNS TESTES ESTATÍSTICOS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
40
> M<-as.table(rbind(c(2,5),c(8,5)))
> fisher.test(M)
data: M
p-value = 0.3498
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.01858382 2.47022220
sample estimates:
odds ratio
0.2689102
Observe que, para a nova amostra, não há indı́cios para rejeitar a hipótese de independência
entre as variáveis.
34
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
CAPÍTULO 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
42
3 Correlação e Regressão
Existem situações nas quais há interesse em estudar a relação entre duas ou mais variáveis.
Tanto a correlação, quanto a regressão são técnicas que visam estimar esta possı́vel relação, sendo
que a primeira preocupa-se em quantificá-la e a segunda em matematizá-la.
O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio do
gráfico de dispersão, como o da Figura 4, em que é possı́vel verificar uma relação linear entre as
variáveis idade e tempo de serviço. Na Figura 16 traçamos uma reta para melhor visualização
desta relação.
O gráfico mostra que quanto maior a idade dos entrevistados maior o tempo de serviço. Em
suma, quanto mais próximos de uma reta, maior a relação linear entre as variáveis.
O coeficiente de correlação para variáveis quantitativas mais utilizado é o de Pearson, que pode
ser calculado através da fórmula:
35
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
43
n
(xi − x̄)(yi − ȳ)
i=1
ρ= n
n
(7)
2 2
(xi − x̄) (yi − ȳ)
i=1 i=1
Para avaliar o grau de intensidade da correlação entre duas variáveis, Mello et al. (2011) apre-
sentam a classificação apresentada na Tabela 14.
36
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
44
Para testar a significância do coeficiente podemos realizar o teste χ2 , como visto no capı́tulo
anterior.
3.1.3 Exemplos no R
37
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
45
> biserial(variável1,variável2)
> phi(matriz)
> tetrachoric(matriz)
Já a correlação Ponto-Bisserial pode ser obtida pelo pacote ltm (Rizopoulos (2006)), cujo co-
mando é:
> biserial.cor(variável1,variável2)
> cor.test(dados$Idade,dados$Renda,method="pearson")
Este resultado aponta para uma correlação moderada e significativa (a 5%) entre as variáveis.
Na Figura 16 traçamos uma reta para visualizar o comportamento linear entre as variáveis
Idade e Tempo de Serviço, da Tabela 1. Podemos encontrar a equação dessa reta e, através dela,
fazer previsões acerca do comportamento dessas variáveis. Este processo é chamado de regressão
linear. Para o exemplo dado, a variável Tempo de Serviço é dependente da variável independente
Idade.
38
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
46
Uma regressão é dita linear quando a curva ajustada é uma reta. Caso contrário, a regressão
é dita não-linear. Caso haja a presença de apenas uma variável independente, a regressão linear
é dita simples. Entretanto, na maioria dos problemas, para explicar uma variável dependente é
necessário mais do que uma variável independente. Nestes casos, a regressão linear é dita múltipla.
O modelo de regressão linear simples é:
Yi = β0 + β1 xi + εi , para i = 1, . . . , n (9)
Com esse modelo podemos prever, por exemplo, o tempo médio de serviço de um (a) professor
(a) com 35 anos de idade, que será indicado por y(35):
A vantagem de matematizar esta relação está na possibilidade de fazer estimativas para dados
não observáveis.
Para os modelos de regressão linear múltipla, temos a inclusão de variáveis independentes
x2i , x3i , · · · xki . Dessa forma, temos o modelo:
em que β2 , β3 · · · βk são os coeficientes das variáveis independentes x2i , x3i , · · · xki , respectivamente,
e os demais termos são igualmente definidos na Equação 9.
Americo e Lacruz (2017) descrevem a relação entre o “contexto” e o “desempenho” escolar
das escolas estaduais do Espı́rito Santo, considerando as notas obtidas na Prova Brasil em 2013,
por meio de regressão linear múltipla. Neste trabalho, os autores concluem que a permanência
do docente em uma mesma escola tem impacto positivo nas notas, e que um aumento na taxa
de abandono produziria um efeito negativo. Frente a estas conclusões, os autores discutem a
construção de polı́ticas públicas educacionais para solucionar os problemas evidenciados.
A Figura 18 mostra os coeficientes do modelo obtidos no processo de regressão que considerou a
nota na Prova Brasil (NPB) como variável dependente e o Índice de Regularidade Docente (IRD),
Indicador de Esforço Docente (IED) e Taxa de Abandono (TA) como variáveis independentes no
39
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
47
modelo estimado.
Figura 18: Relação entre“contexto” e “desempenho” escolar em escolas estaduais do Espı́rito Santo.
Fonte: Americo & Lacruz (2017, p. 868)
3.2.3 Exemplos no R
40
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
48
> install.packages("ctv")
> library(ctv)
> install.views("Econometrics")
Vamos verificar se existe uma relação linear, considerando o Tempo de Serviço como variável
dependente (y) e a Idade (x1 ) e o Salário (x2 ) como variáveis independentes, na Tabela 1. Para
isto, usaremos a função lm() do software R, cujo formato é (y ∼ x1 + x2 ). A Figura ?? representa
o retorno do R.
> lm(dados$TempodeServico~dados$Idade+dados$Renda)
Call:
lm(formula = dados$TempodeServico ~ dados$Idade + dados$Renda)
Coefficients:
(Intercept) dados$Idade dados$Renda
-22.7653 0.9694 -0.1829
O R estima o valor dos coeficientes β0 (intercepto), β1 (da variável Idade) e β2 ) da variável
Renda, através do Método de Mı́nimos Quadrados, método estatı́stico que consiste na minimização
dos erros do modelo estimado. Para o exemplo em questão, a equação da reta ajustada é dada por
y = −22, 7653 + 0, 9694 x1 − 0, 1829 x2 . Para encontrar medidas descritivas para analisar o ajuste
dos dados, podemos utilizar a função summary:
> summary(lm(dados$TempodeServico~dados$Idade+dados$Renda))
Call:
lm(formula = dados$TempodeServico ~ dados$Idade + dados$Renda)
Residuals:
Min 1Q Median 3Q Max
-2.82876 -0.60677 0.02154 0.92114 2.21696
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -22.76526 0.93955 -24.230 <2e-16 ***
dados$Idade 0.96938 0.02553 37.972 <2e-16 ***
dados$Renda -0.18289 0.25901 -0.706 0.486
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
41
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
49
> lm(dados$TempodeServico~dados$Idade)
Call:
lm(formula = dados$TempodeServico ~ dados$Idade)
Coefficients:
(Intercept) dados$Idade
-23.1103 0.9611
Conforme expressa pela Figura ??, a equação da reta ajustada é dada por y = −23, 1103 +
0, 9611 x. Verifiquemos, agora, a significância do modelo e de seus coeficientes:
> summary(lm(dados$TempodeServico~dados$Idade))
Call:
lm(formula = dados$TempodeServico ~ dados$Idade)
Residuals:
Min 1Q Median 3Q Max
-2.8012 -0.7235 0.1016 0.9223 2.1988
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -23.11028 0.79528 -29.06 <2e-16 ***
dados$Idade 0.96112 0.02249 42.74 <2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
A Figura ?? confirma esta significância e exibe, assim como a Figura ??, os erros-padrão das
42
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
50
estimativas dos coeficientes de regressão e o coeficiente de determinação (R2 ), que para este caso
foi de 0, 9844, o que indica um bom ajustamento dos dados ao modelo.
Vamos, agora, verificar se as pressuposições do modelo de regressão foram atendidas. Para
avaliar a homocedasticidade (variância constante) dos resı́duos, podemos construir os gráficos para
os valores ajustados da variável dependente e variável independente em função dos resı́duos. Para
isto, usaremos os comandos fitted() e residuals(), conforme ilustram as linhas de comando abaixo
e as Figuras 19 e 20, geradas pelo software.
> dadosajustados=lm(dados$TempodeServico~dados$Idade)
> plot(fitted(dadosajustados),residuals(dadosajustados))
> abline(h=0)
> plot(dados$Idade,residuals(dadosajustados))
> abline(h=0)
Figura 19: Resı́duos versus valores ajustados. Figura 20: Resı́duos versus variável independente.
Note que, para melhor visualização dos comandos, nomeamos o modelo como “dadosajustados” e
plotamos a reta y = 0. Os gráficos plotados pelo software, não apresentam nenhum comportamento
ou tendência. Assim, temos indı́cios de que o pressuposto da homogeneidade da variância dos
resı́duos foi atendido (Gráfico 19), assim como da independência (Gráfico 20).
Para verificar o pressuposto da normalidade dos resı́duos, podemos construir o gráfico de pro-
babilidade normal dos resı́duos, cujo comando no R é qqnorm():
> qqnorm(residuals(dadosajustados),
+ ylab="Resı́duos",xlab="Quantis teóricos normais")
> qqline(residuals(dadosajustados))
43
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
51
Observe que os pontos do se dispõem em torno de uma linha, o que nos permite considerar que
possuem uma distribuição normal. Uma outra forma de verificar o pressuposto da normalidade
dos resı́duos é através do teste de Shapiro-Wilk, cujo comando no R é shapiro.test(). A Figura ??
mostra o retorno do software para este comando:
> shapiro.test(residuals(dadosajustados))
data: residuals(dadosajustados)
W = 0.97966, p-value = 0.8165
Neste caso, como o valor-p retornado é maior que o nı́vel de significância adotado (5%), logo,
aceita-se a hipótese de normalidade dos resı́duos.
Assim como na regressão linear, os modelos de regressão logı́stica tratam de técnicas que permi-
tem explicar a relação entre uma variável dependente, e um conjunto de variáveis independentes.
O que difere uma da outra é que, no caso da regressão logı́stica, a variável dependente é biná-
ria (dicotômica), comumente classificada como sucesso (y = 1) ou fracasso (y = 0) e segue uma
distribuição binomial de probabilidade.
Nos modelos de regressão logı́stica binária, as variáveis independentes podem ser métricas ou
categóricas. Neles, é possı́vel verificar a probabilidade de ocorrência de um evento e o quanto cada
variável do modelo influencia no resultado da análise.
44
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
52
Em suma, utiliza-se este modelo para encontrar a probabilidade de estar em uma categoria,
baseado na combinação de variáveis independentes. Na Figura 22, temos a representação gráfica
da regressão logı́stica, cujo formato é de uma curva sigmoide.
Figura 22: Curva sigmoide para representar um exemplo de regressão logı́stica binária.
45
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
53
Para verificar a significância do modelo estimado, podemos realizar o teste de razão de verossi-
milhanças cuja hipótese de nulidade é a que todos os coeficientes do modelo são nulos. Para isto,
este teste compara a diferença entre o logaritmo da função de verossimilhança do modelo com-
pleto, com o logaritmo da verossimilhança do modelo sem a variável analisada, conhecido como
estatı́stica G:
verossimilhança do modelo sem a variável
G = − ln (13)
verossimilhança do modelo com a variável
βi
W = (14)
(βi )
EP
em que βi é o coeficiente testado e EP é o seu respectivo erro-padrão.
Para verificar se o modelo está bem ajustado, podemos utilizar o Teste de Hosmer & Lemeshow,
cuja hipótese de nulidade é a de que o modelo se ajusta bem aos dados. Caso rejeitada essa hipótese,
o modelo não é capaz de produzir estimativas e classificações confiáveis.
Uma outra medida para qualidade de ajuste é através do pseudo-R2 , que é similar ao coeficiente
de determinação obtido nos modelos de regressão linear e cujos valores também estão entre 0 e 1,
sendo que quanto mais perto de 1 melhor o ajuste do modelo.
3.3.3 Exemplo no R
Como exemplo, iremos refazer as análises presentes no artigo “Um modelo estatı́stico para gestão
de programas de pós-graduação”, de autoria de Mesquita e Nogueira (2015), cujo objetivo foi o
de estimar a probabilidade de obtenção de melhores conceitos CAPES em programas de pós-
graduação, bem como indicar as variáveis mais relevantes para esta melhoria, baseados em um
modelo de regressão logı́stica binária.
Para isto, foram amostrados o desempenho de 540 programas de pós-graduação na avaliação
trienal de 2013, cujos conceitos conceitos Muito Bom (MB), Bom (B), Regular (R), Fraco (F) ou
Deficiente (D) são atribuı́dos aos itens e respectivos quesitos da ficha de avaliação organizados na
Tabela 16, utilizada para atribuir uma nota de 3 a 7 para o programa.
46
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
54
I- Proposta do Programa
Coerência, consistência, abrangência e atualização das áreas de concentração, linhas de
x1
pesquisa, projetos e proposta curricular.
Planejamento do programa com vistas a seu desenvolvimento futuro, contemplando
x2
os desafios internacionais da área na produção do conhecimento.
x3 Infraestrutura para ensino, pesquisa e, se for o caso, extensão.
II - Corpo docente
Perfil do corpo docente, consideradas titulação, diversificação na origem da formação,
x4
aprimoramento e experiência, e sua compatibilidade e adequação à proposta do programa.
Adequação e dedicação dos docentes permanentes em relação às atividades de pesquisa e de
x5
formação do programa.
x6 Distribuição das atividades de pesquisa e de formação entre os docentes do programa.
Contribuição dos docentes para atividades de ensino e/ou de pesquisa na graduação, com
x7 atenção tanto à repercussão que este item pode ter na formação de futuros ingressantes na
pós-graduação, quanto na formação de profissionais mais capacitados no plano da graduação.
III - Corpo discente, teses e dissertações
Quantidade de teses e dissertações defendidas no perı́odo de avaliação, em relação
x8
ao corpo docente permanente e à dimensão do corpo docente.
Distribuição das orientações das teses e dissertações defendidas no perı́odo de avaliação
x9
em relação aos docentes do programa.
Qualidade das teses e dissertações e da produção de discentes autores da pós-graduação
x10 e da graduação na produção cientı́fica do programa, aferida por publicações e
outros indicadores pertinentes à área.
Eficiência do programa na formação de mestres e doutores bolsistas: Tempo de
x11
formação de mestres e doutores e percentual de bolsistas titulados.
IV - Produção intelectual
x12 Publicações qualificadas do programa por docente permanente.
x13 Distribuição de publicações qualificadas em relação ao corpo docente permanente do programa.
x14 Produção técnica, patentes e outras publicações consideradas relevantes.
V - Inserção social
x15 Inserção e impacto regional e (ou) nacional do programa.
Integração e cooperação com outros programas e centros de pesquisa e
x16 desenvolvimento profissional, relacionados à área de conhecimento
do programa, com vistas ao desenvolvimento da pesquisa e da pós graduação.
x17 Visibilidade ou transparência dada pelo programa à sua atuação.
47
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
55
Para construção do modelo proposto, os dados exibidos na Figura 23, foram codificados con-
forme a Tabela 17.
Antes Depois
Nota da avaliação 2013 (yi ) ≥4 1
≤4 0
Muito Bom “MB” 5
Bom “B” 4
Item avaliado (xi ) Regular “R” 3
Fraco “F” 2
Deficiente “D” 1
Fonte: Mesquita e Nogueira (2015)
> dados2=read.table("C:/Users/Usuario/Desktop/UFES/dados2.txt",head=T)
O comando head() exibe o cabeçalho dos dados codificados lidos pelo software.
> head(dados2)
Para compor o modelo, considerando todas as variáveis, usaremos a função glm. Para resumir
os dados e fazer uma análise inicial, usaremos a função summary(), conforme ilustra a Figura ??.
48
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
56
> modelo1=glm(Nota~x1+x2+x3+x4+x5+x6+x7+x8+x9+x10+x11+
+ x12+x13+x14+x15+x16+x17,family=binomial(link="logit"))
> summary(modelo1)
Call:
glm(formula = Nota ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 +
x9 + x10 + x11 + x12 + x13 + x14 + x15 + x16 + x17, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-3.6175 0.0249 0.0476 0.1964 2.3325
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -25.81148 3.39473 -7.603 2.88e-14 ***
x1 0.31849 0.35114 0.907 0.36440
x2 0.14835 0.39617 0.374 0.70806
x3 0.15694 0.37051 0.424 0.67186
x4 0.72507 0.31793 2.281 0.02257 *
x5 -0.13541 0.31480 -0.430 0.66709
x6 -0.37612 0.27345 -1.375 0.16899
x7 0.02768 0.25109 0.110 0.91223
x8 1.11846 0.26734 4.184 2.87e-05 ***
x9 0.25011 0.26280 0.952 0.34124
x10 1.42358 0.24890 5.719 1.07e-08 ***
x11 -0.13289 0.35237 -0.377 0.70609
x12 1.58393 0.30176 5.249 1.53e-07 ***
x13 0.73632 0.23153 3.180 0.00147 **
x14 0.21002 0.21999 0.955 0.33974
x15 0.63219 0.38371 1.648 0.09943 .
x16 0.05273 0.33953 0.155 0.87658
x17 0.02089 0.28279 0.074 0.94111
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
49
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
57
Start: AIC=216.91
Nota ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10 + x11 +
x12 + x13 + x14 + x15 + x16 + x17
Df Deviance AIC
- x17 1 180.91 214.91
- x7 1 180.92 214.92
- x16 1 180.93 214.93
- x2 1 181.05 215.05
- x11 1 181.05 215.05
- x3 1 181.09 215.09
- x5 1 181.09 215.09
- x1 1 181.74 215.74
- x14 1 181.81 215.81
- x9 1 181.83 215.83
- x6 1 182.81 216.81
<none> 180.91 216.91
- x15 1 183.70 217.70
- x4 1 186.30 220.30
- x13 1 191.68 225.68
- x8 1 201.05 235.05
- x12 1 216.51 250.51
- x10 1 222.93 256.93
Step: AIC=214.92
Nota ~ x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + x9 + x10 + x11 +
x12 + x13 + x14 + x15 + x16
Df Deviance AIC
- x7 1 180.93 212.93
- x16 1 180.94 212.94
- x2 1 181.05 213.05
- x11 1 181.06 213.06
50
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
58
- x3 1 181.09 213.09
- x5 1 181.10 213.10
- x1 1 181.81 213.81
- x14 1 181.82 213.82
- x9 1 181.83 213.83
- x6 1 182.82 214.82
<none> 180.91 214.91
- x15 1 183.81 215.81
- x4 1 186.30 218.30
- x13 1 191.70 223.70
- x8 1 201.24 233.24
- x12 1 216.55 248.55
- x10 1 222.93 254.93
Step: AIC=212.93
Nota ~ x1 + x2 + x3 + x4 + x5 + x6 + x8 + x9 + x10 + x11 + x12 +
x13 + x14 + x15 + x16
Df Deviance AIC
- x16 1 180.96 210.96
- x11 1 181.06 211.06
- x2 1 181.07 211.07
- x5 1 181.10 211.10
- x3 1 181.12 211.12
- x9 1 181.84 211.84
- x1 1 181.87 211.87
- x14 1 181.87 211.87
- x6 1 182.88 212.88
<none> 180.93 212.93
- x15 1 183.83 213.83
- x4 1 186.37 216.37
- x13 1 191.77 221.77
- x8 1 201.27 231.27
- x12 1 216.89 246.89
- x10 1 223.38 253.38
Step: AIC=210.96
Nota ~ x1 + x2 + x3 + x4 + x5 + x6 + x8 + x9 + x10 + x11 + x12 +
x13 + x14 + x15
Df Deviance AIC
51
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
59
Step: AIC=209.09
Nota ~ x1 + x2 + x3 + x4 + x5 + x6 + x8 + x9 + x10 + x12 + x13 +
x14 + x15
Df Deviance AIC
- x2 1 181.21 207.21
- x5 1 181.25 207.25
- x3 1 181.29 207.29
- x1 1 182.03 208.03
- x9 1 182.06 208.06
- x14 1 182.06 208.06
- x6 1 183.03 209.03
<none> 181.09 209.09
- x15 1 185.17 211.17
- x4 1 186.56 212.56
- x13 1 191.88 217.88
- x8 1 202.40 228.40
- x12 1 217.38 243.38
- x10 1 224.70 250.70
Step: AIC=207.21
Nota ~ x1 + x3 + x4 + x5 + x6 + x8 + x9 + x10 + x12 + x13 + x14 +
x15
Df Deviance AIC
52
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
60
- x5 1 181.38 205.38
- x3 1 181.52 205.52
- x9 1 182.22 206.22
- x14 1 182.25 206.25
- x1 1 182.67 206.67
- x6 1 183.08 207.08
<none> 181.21 207.21
- x15 1 185.74 209.74
- x4 1 186.77 210.77
- x13 1 192.34 216.34
- x8 1 203.45 227.45
- x12 1 217.42 241.42
- x10 1 225.34 249.34
Step: AIC=205.38
Nota ~ x1 + x3 + x4 + x6 + x8 + x9 + x10 + x12 + x13 + x14 +
x15
Df Deviance AIC
- x3 1 181.65 203.65
- x9 1 182.28 204.28
- x14 1 182.45 204.45
- x1 1 182.77 204.77
- x6 1 183.22 205.22
<none> 181.38 205.38
- x15 1 185.75 207.75
- x4 1 186.81 208.81
- x13 1 192.35 214.35
- x8 1 204.87 226.87
- x12 1 217.81 239.81
- x10 1 225.36 247.36
Step: AIC=203.65
Nota ~ x1 + x4 + x6 + x8 + x9 + x10 + x12 + x13 + x14 + x15
Df Deviance AIC
- x9 1 182.41 202.41
- x14 1 182.90 202.90
- x6 1 183.33 203.33
- x1 1 183.50 203.50
<none> 181.65 203.65
53
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
61
Step: AIC=202.4
Nota ~ x1 + x4 + x6 + x8 + x10 + x12 + x13 + x14 + x15
Df Deviance AIC
- x6 1 183.56 201.56
- x14 1 183.91 201.91
<none> 182.41 202.41
- x1 1 184.63 202.63
- x15 1 187.83 205.83
- x4 1 188.61 206.61
- x13 1 194.23 212.23
- x8 1 211.77 229.77
- x12 1 218.73 236.73
- x10 1 226.91 244.91
Step: AIC=201.56
Nota ~ x1 + x4 + x8 + x10 + x12 + x13 + x14 + x15
Df Deviance AIC
- x14 1 184.97 200.97
- x1 1 185.39 201.39
<none> 183.56 201.56
- x15 1 188.56 204.56
- x4 1 189.25 205.25
- x13 1 194.53 210.53
- x8 1 212.11 228.11
- x12 1 218.75 234.75
- x10 1 227.20 243.20
Step: AIC=200.97
Nota ~ x1 + x4 + x8 + x10 + x12 + x13 + x15
Df Deviance AIC
<none> 184.97 200.97
54
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
62
- x1 1 187.20 201.20
- x4 1 190.50 204.50
- x15 1 191.81 205.81
- x13 1 197.37 211.37
- x8 1 213.49 227.49
- x12 1 220.03 234.03
- x10 1 227.69 241.69
Call: glm(formula = Nota ~ x1 + x4 + x8 + x10 + x12 + x13 + x15, family = binomial(link = "logit"))
Coefficients:
(Intercept) x1 x4 x8 x10 x12
-24.9949 0.4284 0.6740 1.1130 1.3689 1.4476
x13 x15
0.7602 0.7557
Observe que o função selecionou as variáveis x1 , x4 , x8 , x10 , x12 , x13 e x15 para compor o modelo
logı́stico. Vamos agora realizar a mesma análise inicialmente realizada, através da função summary,
para verificar a significância dos coeficientes dessas variáveis. A Figura ?? retrata o retorno do R.
> modelo2=glm(Nota~x1+x4+x8+x10+x12+x13+x15,family=binomial(link="logit"))
> summary(modelo2)
Call:
glm(formula = Nota ~ x1 + x4 + x8 + x10 + x12 + x13 + x15, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-3.5491 0.0294 0.0532 0.1908 2.3588
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -24.9949 3.0010 -8.329 < 2e-16 ***
x1 0.4284 0.2909 1.472 0.140898
x4 0.6740 0.2950 2.285 0.022340 *
x8 1.1130 0.2334 4.768 1.86e-06 ***
x10 1.3689 0.2368 5.781 7.42e-09 ***
x12 1.4476 0.2731 5.300 1.16e-07 ***
55
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
63
Observe que, quando analisada junta com as demais variáveis selecionadas, a variável x1 não
foi significativa para o modelo, considerando o teste de Wald, cuja estatı́stica é representada por
zvalue, na Figura ??. Retirando-a e procedendo a mesma análise, temos o resultado exposto na
Figura ??.
> modelo3=glm(Nota~x4+x8+x10+x12+x13+x15,family=binomial(link="logit"))
> summary(modelo3)
Call:
glm(formula = Nota ~ x4 + x8 + x10 + x12 + x13 + x15, family = binomial(link = "logit"))
Deviance Residuals:
Min 1Q Median 3Q Max
-3.5082 0.0330 0.0583 0.1923 2.2792
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -23.6859 2.7427 -8.636 < 2e-16 ***
x4 0.7612 0.2856 2.665 0.007693 **
x8 1.1370 0.2326 4.889 1.01e-06 ***
x10 1.3509 0.2326 5.808 6.34e-09 ***
x12 1.3628 0.2609 5.223 1.76e-07 ***
x13 0.8071 0.2225 3.628 0.000286 ***
x15 0.8210 0.2862 2.869 0.004121 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
56
Capítulo 3
CORRELAÇÃO E REGRESSÃO
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
64
1
P (Y = 1) = P (N ota ≥ 4) =
1+ e23,6859−0,7612x4 −1,1370x8 −1,3509x10 −1,3628x12 −0,8071x13 −0,8210x15
1
P (Y = 1) = P (N ota ≥ 4) = ≈ 78, 14%.
1 + e23,6859−0,7612×4−1,1370×4−1,3509×4−1,3628×4−0,8071×4−0,8210×4
> library(ResourceSelection)
> hoslem.test(Nota,fitted(modelo3))
Como o valor-p calculado para o teste foi maior do que o nı́vel de significância adotado (5%),
não rejeitamos a hipótese de nulidade e concluı́mos que o modelo se ajusta bem aos dados.
Vamos calcular agora, a razão de chances (OR), para as variáveis do modelo. Para isto, proga-
mamos o software para calcular a exponencial dos coeficientes do modelo. O comando round() foi
utilizado para arredondamento, considerando 3 casas decimais.
> OR=exp(modelo3$coefficients)
> round((cbind(OR)),3)
OR
(Intercept) 0.000
x4 2.141
x8 3.118
x10 3.861
57
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
65
x12 3.907
x13 2.242
x15 2.273
Observe, através da Figura ??, que para cada mudança de 1 unidade no conceito da variável
x4 - Perfil do corpo docente, consideradas titulação, diversificação na origem da formação, apri-
moramento e experiência, e sua compatibilidade e adequação à proposta do programa - são 2,141
maiores as chances de se obter uma nota maior ou igual a 4, já para a variável x8 - Quantidade de
teses e dissertações defendidas no perı́odo de avaliação, em relação ao corpo docente permanente
e à dimensão do corpo docente - essas chances são 3,118 maiores e, assim, sucessivamente.
Como discussão, observe também que das seis variáveis do modelo estimado, as três com maior
efeito no conceito CAPES são relacionadas com a produção cientı́fica do corpo docente. Assim,
conclui-se, em conformidade com Mesquita e Nogueira (2015), que os programas de pós-graduação
devem investir na quantidade e qualidade das publicações de seus docentes e discentes.
58
Capítulo 3
CORRELAÇÃO E REGRESSÃO
66
CAPÍTULO 4
A necessidade cada vez maior de se produzir avaliações consistentes, com itens capazes de
estimar com precisão o grau de conhecimento em determinada área e selecionar talentos, fez surgir,
no campo da Psicometria, uma teoria de análise de testes, conhecida como Teoria Clássica dos
Testes (TCT).
A TCT faz uso de algoritmos estatı́sticos com o intuito de avaliar diversos aspectos dos itens
que compõe o teste. Existem várias informações que podem ser usadas para determinar se um
item é útil como instrumento do que se propõe a medir e sobre o como ele funciona em relação aos
outros itens de um teste. Neste capı́tulo definiremos algumas delas.
O softwate R apresenta um agrupamento dos principais pacotes relacionados a Psicometria,
chamado Psychometrics, devido ao extenso número de pacotes que realizam análises psicométricas.
Para instalar todos estes pacotes de uma vez basta digitar no R Console:
> install.packages("ctv")
> library(ctv)
> install.views("Psychometrics")
Os principais pacotes utilizados neste texto são ltm (Rizopoulos (2006)), mirt (Chalmers (2012))
e psych (Revelle (2014)). Entretanto, outros pacotes como irtoys (Partchev (2009)) e CTT (Willse
e Shu (2014)), também podem ser utilizados na análise de itens.
59
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
69
> dados3=read.table("C:/Users/Usuario/Desktop/UFES/dados3.txt")
É possı́vel também selecionar apenas uma linha, ou coluna, da planilha. Para isto para acres-
centar ao lado do nome dado à planilha o número da linha ou coluna (nesta ordem) desejado. Por
exemplo, se quisermos apenas o gabarito, que encontra-se na segunda linha da planilha, fazemos:
> gabarito=as.character(as.matrix(dados3[2,]))
> gabarito=as.character(as.matrix(dados3[2,-1]))
Observe que o comando acima excluirá a primeira coluna do gabarito, restando apenas as opções
corretas. No modelo analisado, pode obter apenas as opções marcadas pelos respondentes através
do seguinte comando:
> respostas=as.matrix(dados3[-2:-1,-1])
Existe uma função no R para dicotomizar os dados, de acordo com o gabarito, transformando-os
em 0 para respostas incoerentes e 1 para respostas coerentes. Trata-se da função mult.choice(),
Além disso, o comando dim() fornece a dimensão dos dados analisados.
> prova.dicotomizada=mult.choice(respostas,gabarito)
> dim(prova.dicotomizada)
[1] 477 50
Dessa forma, pode-se somar as linhas da planilha para obter o número de acertos de cada
respondente e assim, proceder a análises clássicas, a serem vistas na seção 4
> notas=rowSums(prova.dicotomizada)
É comum começar uma análise de um conjunto de dados pelas estatı́sticas descritivas, como
as medidas de posição e de dispersão. O mesmo ocorre com os itens de um teste. Geralmente,
quanto maior a variabilidade do item e quanto mais a média do item estiver no ponto central da
distribuição, melhor será o item (KLINE, 2005).
Um resumo das estatı́sticas clássicas pode ser obtido através da função summary():
> summary(notas)
60
Capítulo 4
ANÁLISE CLÁSSICA DE AVALIACÕES NO SOFTWARE R
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
70
O ı́ndice de dificuldade dos itens do teste analisado pode ser obtido pelo comando reliability do
pacote CTT :
> library(CTT)
> reliability(prova.dicotomizada)$itemMean
V1 V2 V3 V4 V5 V6 V7
0.85953878 0.80712788 0.53039832 0.29559748 0.65408805 0.91823899 0.54507338
V8 V9 V10 V11 V12 V13 V14
0.53878407 0.90356394 0.09224319 0.53878407 0.87211740 0.74842767 0.87211740
V15 V16 V17 V18 V19 V20 V21
0.76100629 0.42767296 0.54297694 0.77358491 0.22222222 0.32494759 0.37526205
V22 V23 V24 V25 V26 V27 V28
0.31656184 0.71069182 0.70020964 0.65199161 0.51991614 0.40461216 0.77987421
V29 V30 V31 V32 V33 V34 V35
0.45073375 0.35639413 0.57442348 0.50314465 0.75681342 0.65618449 0.41509434
V36 V37 V38 V39 V40 V41 V42
0.98322851 0.27882600 0.58700210 0.37945493 0.73794549 0.24947589 0.59958071
V43 V44 V45 V46 V47 V48 V49
0.22431866 0.60167715 0.38155136 0.41090147 0.28721174 0.37735849 0.24318658
V50
0.58071279
61
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
71
Pasquali (2003) sugere uma estatı́stica para análise do poder discriminativo de um item baseado
na criação de grupos-critérios: superior (formado pelos indivı́duos com maior rendimento no teste)
e inferior (formado pelos indivı́duos com menor rendimento no teste). Para isto, baseado na
distribuição sugerida por Kelley (1939), em que a porcentagem referente a cada grupo deve ser de
27% do total de indivı́duos, define-se o ı́ndice de discriminação como o valor absoluto da diferença
entre o ı́ndice de dificuldade calculado para cada um desses grupos. Para ilustrar esta situação,
observe a Figura 25.
Como não foi encontrado nenhum comando no R que retornava esta estatı́stica foi preciso
construı́-la manualmente. Uma das grandes vantagens de trabalhar com este software é a fácil
manipulação e compreensão de seus comandos.
Primeiramente, encontremos as notas que correspondem aos limites inferior e superior:
27% 73%
21 33
Encontrados os valores de 21 e 33, respectivamente, temos que 27% dos estudantes encontram-se
com nota menor ou igual a 21 e, analogamente, temos o mesmo percentual para estudantes com
média maior ou igual a 33. Assim, podemos determinar os grupos-critérios, através da criação de
subconjuntos do conjunto de dados:
> dadosx=cbind(prova.dicotomizada,notas)
> grupoinferior=subset(dadosx, notas<=21)
> gruposuperior=subset(dadosx, notas>=33)
62
Capítulo 4
ANÁLISE CLÁSSICA DE AVALIACÕES NO SOFTWARE R
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
72
> ID=reliability(gruposuperior)$itemMean-reliability(grupoinferior)$itemMean
V1 V2 V3 V4 V5 V6
0.16305165 0.27815956 0.58455922 0.45817674 0.60909481 0.08525717
V7 V8 V9 V10 V11 V12
0.02067003 0.56297648 0.12815419 0.12847632 0.59894771 0.21448513
V13 V14 V15 V16 V17 V18
0.48759798 0.29469559 0.40846129 0.63889187 0.69354666 0.42338666
V19 V20 V21 V22 V23 V24
0.17727907 0.29109846 0.47659186 0.39369698 0.63975089 0.47186728
V25 V26 V27 V28 V29 V30
0.73354451 0.63626114 0.45420380 0.42311822 0.38414045 0.38118759
V31 V32 V33 V34 V35 V36
0.69435198 0.51820037 0.29174273 0.51637496 0.46993450 0.04316547
V37 V38 V39 V40 V41 V42
0.37023516 0.45984108 0.44754644 0.28347471 0.31880168 0.64506604
V43 V44 V45 V46 V47 V48
0.39181789 0.65145496 0.33002255 0.47100827 0.56292280 0.63916031
V49 V50 notas
0.31133899 0.54885644 21.20664662
Segundo Arias; Lloreda e Lloreda (2006), uma boa referência para a classificação da qualidade
discriminativa de um item é a descrita na Tabela 19.
63
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
73
a discriminação, por apresentar diferentes proporções de acerto para respondentes com diferentes
escores.
> plot(descript(prova.dicotomizada),items=c(10,11,36),type="b")
Figura 26: Escore total versus proporção de acerto para três itens do teste.
Segundo Pasquali (2003), se desejamos estudar a correlação entre uma variável contı́nua e uma
variação dicotômica, devemos usar os coeficientes de correlação bisserial, (ρb ) ou ponto-bisserial
(ρpb ). Ambas tratam de uma estimativa derivada do coeficiente de correlação de Pearson.
Em nossa análise, a variável analisada é naturalmente dicotômica, ou seja, sua classificação já é
determinada de forma natural: acerto versus erro. Neste caso, utiliza-se o coeficiente de correlação
ponto bisserial. Entretanto, existirão casos em que uma variável numérica é artificialmente dicoto-
mizada. Por exemplo, caso queiramos codificar a idade de um grupo de pessoas, podemos fazê-la
comparando com um valor especı́fico: se maior que este valor, recebe 1, caso contrário 0. Nestes
casos, segundo Pasquali (2003), utiliza-se o coeficiente de correlação bisserial. Como pressuposto,
para o cálculo do ρb é necessário que a variável contı́nua a ser dicotomizada siga uma distribuição
normal. Para obter estas estimativas, pode-se utilizar, respectivamente, comandos abaixo. Aqui,
os coeficientes foram calculados excluindo os respectivos itens.
64
Capítulo 4
ANÁLISE CLÁSSICA DE AVALIACÕES NO SOFTWARE R
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
74
> reliability(prova.dicotomizada)$pBis
> reliability(prova.dicotomizada)$bis
De acordo com Tôrres (2015), de maneira geral, espera-se que o coeficiente de correlação ponto-
bisserial assuma valores positivos e superiores a 0, 30 para que sejam considerados de boa discri-
minação.
Em suma, espera-se de uma resposta a um item discriminativo que os estudantes que saem-se
bem na prova como um todo, acertem-no, e por sua vez, aqueles que não vão bem, errem-no.
Quanto maior forem os coeficientes de correlação bisserial e ponto-bisserial, maior a capacidade do
item de discriminar grupos de indivı́duos que construı́ram determinada competência e habilidade,
daqueles que não as construı́ram. Além disso, os itens com coeficiente de correlação baixo não
diferenciam o indivı́duo que construiu determinada competência e habilidade, daquele que não a
construiu (SANTOS, 2008).
A precisão de um teste está associada ao erro de medida, ou seja, a diferença entre os escores
observado e verdadeiro em um teste. A precisão de um teste pode ser usada para estimar o erro
padrão dos escores e para estabelecer intervalos de confiança em torno dos valores observados.
Uma estimativa usual da precisão é dada pelo estimador alpha de Cronbach.
65
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
75
> reliability(prova.dicotomizada)$alpha
[1] 0.8832461
> library(ltm)
> cronbach.alpha(prova.dicotomizada)
Items: 50
Sample units: 477
alpha: 0.883
Para determinar o coeficiente alpha de Cronbach estimado para cada item, excluindo-o, pode-se
fazer:
> reliability(prova.dicotomizada)$alphaIfDeleted
Esse coeficiente varia de zero a um, sendo o teste mais consistente a medida que se aproxima de
um. De acordo com Hair Júnior et. al (2010), valores acima de 0, 7 são considerados satisfatórios.
A função descript() apresenta um resumo das principais análises descritivas a serem realizadas,
como a frequência com que cada escore é obtido, o percentual de erros e acertos de cada item,
o logit da proporção para as respostas, o coeficiente alpha de Cronbach para todos os itens e
também para os itens individuais, excluindo-os, o coeficiente de correlação bisserial de cada item
66
Capítulo 4
ANÁLISE CLÁSSICA DE AVALIACÕES NO SOFTWARE R
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
76
com a pontuação total incluindo e excluindo no cálculo da pontuação total e uma análise do grau de
associação entre pares de itens através de um teste Qui-quadrado, realizado através da construção
de tabelas de contingência para todos os possı́veis pares de itens.
> descript(prova.dicotomizada)
Sample:
50 items and 477 sample units; 0 missing values
67
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
77
68
Capítulo 4
ANÁLISE CLÁSSICA DE AVALIACÕES NO SOFTWARE R
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
78
69
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
79
Cronbach's alpha:
value
All Items 0.8832
Excluding V1 0.8832
Excluding V2 0.8825
Excluding V3 0.8797
Excluding V4 0.8807
Excluding V5 0.8790
Excluding V6 0.8838
Excluding V7 0.8870
Excluding V8 0.8797
Excluding V9 0.8832
Excluding V10 0.8827
Excluding V11 0.8791
Excluding V12 0.8825
Excluding V13 0.8803
Excluding V14 0.8813
Excluding V15 0.8813
Excluding V16 0.8794
Excluding V17 0.8785
Excluding V18 0.8810
Excluding V19 0.8842
Excluding V20 0.8835
Excluding V21 0.8810
Excluding V22 0.8817
Excluding V23 0.8786
Excluding V24 0.8808
Excluding V25 0.8780
Excluding V26 0.8799
Excluding V27 0.8812
Excluding V28 0.8808
Excluding V29 0.8820
Excluding V30 0.8821
Excluding V31 0.8785
Excluding V32 0.8804
Excluding V33 0.8823
Excluding V34 0.8806
Excluding V35 0.8812
Excluding V36 0.8834
70
Capítulo 4
ANÁLISE CLÁSSICA DE AVALIACÕES NO SOFTWARE R
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
80
Pairwise Associations:
Item i Item j p.value
1 2 36 1.000
2 6 40 1.000
3 7 10 1.000
4 7 26 1.000
5 7 42 1.000
6 12 36 1.000
7 20 36 1.000
8 26 36 1.000
9 28 36 1.000
10 36 37 1.000
71
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
CONSIDERAÇÕES FINAIS
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
82
5 Considerações finais
Apesar de introdutório, espera-se que este curso sirva para a difusão dos procedimentos de
análises estatı́sticas em trabalhos acadêmicos, especialmente nas áreas de ciências humanas e sociais
aplicadas. Para isto, sugere-se o uso do software R, por se tratar de um software livre, de código
aberto de fácil manipulação e com uma extensão de funções imensuráveis.
72
Denilson Junio Marques Soares, Talita Emidio Andrade Soares, Wagner dos Santos
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
83
REFERÊNCIAS
REFERÊNCIAS
AMERICO, B. L.; LACRUZ, A. J. Contexto e desempenho escolar: análise das notas na Prova
Brasil das escolas capixabas por meio de regressão linear múltipla, Rev. Adm. Pública [online].
2017, vol.51, n.5, pp.854-878.
BORGATTO, A. F.; ANDRADE, D. F. Análise clássica de teste com diferentes graus de dificul-
dade. Estudos em Avaliação Educacional, v. 23, n. 52, p. 146-156, 2012.
BUSSAB, W. O.; MORETTIN, P. A. Estatı́stica básica. 6 ed. São Paulo: Saraiva, 2010. 540 p.
CHALMERS, R. P. mirt: A multidimensional item response theory package for the R environ-
ment. Journal of Statistical Software, v. 48, n. 6, p. 1-29, 2012.
FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. L. Análise de dados: modelagem
multivariada para tomada de decisões. Rio de Janeiro: Campus/Elsevier, 2009. 646 p.
GROSS, J.; LIGGES, U.; LIGGES, M. U., I. Nortest: Tests for Normality. Five omni-
bus tests for testing the composite hypothesis of normality. R package version 1.0-3. Publi-
cado em 26/02/2015 Disponı́vel em: http://CRAN.R-project.org/package=nortest. Acesso em
23/05/2018.
GUJARATI, D. N.; PORTER, D. C. Econometria Básica. 5 ed. Porto Alegre: McGraw Hill,
2011, 924 p.
HAIR JÚNIOR, J.; BLACK, W. C.; BABIN, B. J.; ANDERSON, R. E. Multivariate data
analysis. 7th ed. Upper Saddle River: Prentice Hall, 2010. 785 p.
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
84
KELLEY, T. L. The selection of upper and lower groups for the validation of test items. Journal
of educational psychology, Warwick & york, v. 30, n. 1, p. 17-24, 1939.
PARTCHEV, I. irtoys: Simple Interface to the Estimation and Plotting of IRT Models.
R package version 0.1.3, v. 2, 2009. Disponı́vel em: http://CRAN.R-project.org/package=irtoys.
Acesso em 04/12/2017.
RASCH, G. Probabilistic models for some intelligence and achievement tests. Copenha-
gen: Danish Institute for Education Research, 1960. 18 4p.
RIZOPOULOS, D. ltm: An R package for latent variable modeling and item response theory
analyses. Journal of statistical software, v. 17, n. 5, p. 1-25, 2006.
TEIXEIRA, I. P. et al. Uso da estatı́stica na Educação Fı́sica: análise das publicações nacionais
entre os anos de 2009 e 2011. Revista Brasileira de Educação Fı́sica e Esporte, v. 29, n. 1,
p. 139-147, 2015.
WILLSE, J. T.; SHU, Z. CTT: Classical test theory functions. R package version, v. 2, 2014.
Disponı́vel em: http://CRAN.R-project.org/package=CTT. Acesso em: 04/12/2017.
ANÁLISE ESTATÍSTICA E SEU USO NA PESQUISA
EDUCACIONAL: COM PRÁTICAS NO SOFTWARE R
86
SOBRE OS AUTORES