Saltar para o conteúdo

Valor atípico

Origem: Wikipédia, a enciclopédia livre.
(Redirecionado de Outlier)

Em estatística, outlier,[1] valor aberrante ou valor atípico, é uma observação que apresenta um grande afastamento das demais da série [2] (que está "fora" dela), ou que é inconsistente. A existência de outliers implica, tipicamente, em prejuízos à interpretação dos resultados dos testes estatísticos aplicados às amostras.

“Um outlier é uma observação que se diferencia tanto das demais observações que levanta suspeitas de que aquela observação foi gerada por um mecanismo distinto” (Hawkins, 1980), em outras palavras os outliers são dados que se distanciam radicalmente de todos os outros São pontos fora da curva normal, valores que fogem da normalidade e que podem causar desequilíbrio nos resultados obtidos. Um conjunto de dados pode apresentar um ou vários outliers. O efeito de um outlier é quase um efeito borboleta, um pequeno erro se propaga e quando não tratado corretamente pode ocasionar problemas e anomalias. Em análises estatísticas o efeito do outlier pode ser facilmente observado.

É essencial entender os outliers no âmbito da análise de dados, pois estes podem comprometer de forma negativa os resultados de uma análise, do mesmo modo podem ser exatamente o que se desejar encontrar. O termo outliers é também conhecido por como dados discrepantes; pontos fora da curva; observações fora do comum; anomalias e valores atípicos.

Os outliers podem ser divididos em dois grupos os univariados e os multivariados. O primeiro caso é verificado ao se analisar a distribuição de uma variável simples: analisando apenas a distribuição de idades pode-se verificar a presença do outlier. O outlier multivariado pode ser detectado em espaço “n-dimensional”. É necessário recorrer a distribuições multidimensionais para poder observa-lo.

Os outliers ou valores atípicos podem ser causados por vários fatores, podem ser naturais ou artificiais, no caso de outliers naturais pode-se pensar em alguém que declarou sua renda, e se saiu muito melhor, ou pior do que o restante de pessoas de seu perfil econômico. Os valores atípicos artificiais podem ser devido a uma leitura ou erro de anotações e transcrição incorreta de dados, bem como mudanças não controláveis nas condições experimentais. Os dados discrepantes podem ser detectados através de uma verificação lógica dos dados, inclusive fazer o uso de gráficos e testes apropriados. O gráfico mais usado é o box plot.

Após a detecção de um outlier deve-se excluí-lo ou conserva-lo, dependendo do real motivo para o aparecimento dessa variável. Caso haja motivos concretos como um erro na observação ou na execução do experimento o certo é eliminá-lo, mas se não houver explicação para o aparecimento deste dado então ele pode refletir uma característica do que está sendo estudado, neste caso a observação feita deve ser incluída na análise e deve ser tratada especialmente, realizar uma análise separada somente com esses dados. separá-los em dois grupos e criar modelos específicos para analisá-los.

Calculando um outlier

Considerando um conjunto de dados que representa a temperatura de oito objetos, e a temperatura normal desses objetos é entre 15 e 25 º C, mas um dos objetos obteve a temperatura de 45 º C, analisando rapidamente esse valor pode-se afirmar que se trata de um outlier. Para calcular primeiro é preciso ordenar esses valores em ordem crescente. Com essa classificação já é possível perceber dois dados o número mínimo (15) e máximo (45) O próximo passo é definir a mediana do conjunto de dados. Para isso é preciso somar os dois números do meio e dividi-lo por dois (21+21/2 = 21), já que a quantidade de valores é par, caso fosse ímpar era só encontrar o valor central, em seguida deve-se encontrar os quartis. O quartil 1 é o número médio do intervalo à esquerda da mediana (15, 15, 20, 21), como se trata de um conjunto de dados pares então deve-se fatorar os valores novamente (15+20/2 = Q1= 17,5). O quartil 3 é o número médio do intervalo à direita da mediana (21, 22, 25, 45 = 22+25/2 = Q 3 = 23,5) o próximo passo é encontrar as “barreiras internas” do conjunto de dados. O primeiro multiplicar a diferença entre Q1 e Q3 (chamada amplitude interquartílica) por 1,5 (23,5 -17,5 =6 * 1,5 = 9) em seguida adiciona esse número ao Q3 (23,5+ 9= 32,5) e subtraia do Q1 para construir as barreiras(17,5 – 9= 8,5), as barreiras internas superior e inferior seriam 32,5 e 8,5. Todos os dados analisados que estiverem fora dessa amplitude são considerados outliers moderados e por último deve-se encontrar as “barreiras externas” do conjunto de dados, a única coisa que difere esse passo do anterior é que a amplitude interquartílica é multiplicada por 3, em vez de 1,5. Ao multiplicar a amplitude interquartílica acima por 3, temos (6 * 3), ou 18. Deste modo, as barreiras externas superior e inferior são 41,5 e 0,5. Qualquer valor observacional que se encontrar fora das barreiras externas é considerado um outlier extremo.[3]

É possível observar um dado discrepante na idade da terceira mulher, provavelmente um erro de anotação .
Cód. Compra Nome idade Valor da compra
01 Adrielle Rocha 20 R$ 2.400,00
02 Regicleide Feitosa 30 R$ 6.035,00
03 Sebastiana Mendes 330 R$ 1.000,00
A forma mais simples de encontrar outliers é analisando detalhadamente o conjunto de dados.
Objeto Temperatura ° C
Objeto 1 20
Objeto 2 15
Objeto 3 15
Objeto 4 21
Objeto 5 25
Objeto 6 45
Objeto 7 22
Objeto 8 21

Um dos métodos é o do escore z, ou do desvio padrão. Neste método, será considerado outlier o valor se encontrar a uma determinada quantidade de desvios padrões da média. A quantidade destes desvios pode variar conforme o tamanho da amostra.[4]

Referências

O Commons possui uma categoria com imagens e outros ficheiros sobre Valor atípico
Ícone de esboço Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.