0% acharam este documento útil (0 voto)
13 visualizações18 páginas

Aula11-Data Understanding Preparation Novo Exemplo

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1/ 18

João Cordeiro, DCGS, 2023

10
Exemplos de Preparação de dados
usado a plataforma Orange
Conteúdos adaptados dos materiais de
Ana Maria Almeida, Fernando Batista e Anabela Costa
Tratamento de dados
Data understanding + Data Prepatation
Tratamento de dados

Objetivo 1: Visualizar estatísticas, normalizar dados e filtrar dados


dataset: Yelp_reviews_2015_2017
Tratamento de dados

Dataset: Yelp_reviews_2015_2017
• Os dados são originários de um dataset disponibilizado pelo site Yelp e dizem
respeito a uma amostra, composta por 21159 observações, relativas a
comentários/ reviews e ratings de estabelecimentos classificados no site Yelp
(por exemplo, restaurantes, bares, centros de cabeleireiro e estética, lojas de
decoração/ mobílias, empresas distribuidoras de combustível, imobiliárias

Exemplo de uma review


Descrição do Dataset

• user_id: identificação do utilizador do site Yelp que fez o comentário (no


exemplo, a identificação é bgl3j8yJcRO-00NkUYsXGQ)
• review_id: identificação do comentário (no exemplo, a identificação é
Uf1Ki1yyH_JDKhLvn2e4FQ)
• Text: texto do comentário (no exemplo, o texto é What a great place… )
• business_id: identificação do estabelecimento que foi comentado (no exemplo, a
identificação é 2LfIuF3_sX6uwe-IR-P0jQ)
• Stars: rating atribuído ao estabelecimento (no exemplo, o rating é 5 )
• 1−Mau; …; 5 −excelente
• Date: data do comentário (no exemplo, a data é 28/04/2013)
Descrição do Dataset

• user_id: identificação do utilizador do site Yelp que fez o comentário (no


exemplo, a identificação é bgl3j8yJcRO-00NkUYsXGQ)
• review_id: identificação do comentário (no exemplo, a identificação é
Uf1Ki1yyH_JDKhLvn2e4FQ)
Dados Estruturados
• Text: texto do comentário (no exemplo, o texto é What a great place… )
• business_id: identificação do estabelecimento que foi comentado (no exemplo, a
identificação é 2LfIuF3_sX6uwe-IR-P0jQ)
Dados
• Stars: rating atribuído ao estabelecimento (no exemplo, Não
o rating é 5Estruturados
)
• 1−Mau; …; 5 −excelente
• Date: data do comentário (no exemplo, a data é 28/04/2013)
Tratamento de dados - Estatísticas

• Média: 3,66;
• O coeficiente de dispersão: 𝐶𝑉=0,39;
• Rating com maior frequência (moda) é
5 e o rating com menor frequência é 2
(ver gráfico de barras).
Tratamento de dados - Normalização

Os valores das stars foram


normalizados para o intervalo [0, 1]
Tratamento de dados - Filtrar

Os registos foram filtrados de


acordo com o valor da stars
Tratamento de dados - Outliers
Como outlier vamos considerar:
• se o valor estiver mais de 1,5×𝐴𝑄 acima do terceiro quartil
(𝑄3) ou abaixo do primeiro quartil (𝑄1), em que 𝐴𝑄 é a
amplitude interquartis (𝐴𝑄=𝑄3−𝑄1)
• Outliers inferiores são os valores abaixo de 𝑄1−1,5×𝐴𝑄;
• Outliers superiores são os valores acima de 𝑄3+1,5×𝐴𝑄.

Atendendo ao gráfico de extremos e quartis:


• 𝑄1=3;
• 𝑄3=5;
• 𝑄2=4 (mediana);
• 𝑥̅=3,7 (média amostral);
• 𝑠=1,43 (desvio padrão amostral)
• AQ = 5-3 = 2
• Métrica Outlier1,5 x 2 = 3

Conclusão: não existem outliers.


Tratamento de dados

Objetivo 2: data imputation onde existem valores omissos


dataset: Yelp_reviews_2015_2017_versao 1
Tratamento de dados – Data Imputation

Neste caso optou-se por remover os registos


em que existiam valores em falta

Isso foi possível porque existem muitos


Antes Depois registos e são poucos com dados em falta
Tratamento de dados

Objetivo 3: Valores omissos e outliers


dataset: Yelp_reviews_2015_2017_versao 2
Tratamento de dados – Remover outliers

Seguindo a regra definida anteriormente temos:


• 𝑄1−1,5×𝐴𝑄=0 e 𝑄3+1,5×𝐴𝑄=8
• Outliers: valores abaixo de 0 e superiores a 8 (inclusive)
Vamos então filtrar os dados para remover os outiers
Tratamento de dados

Objetivo 1: Visualizar estatísticas


dataset: hotels
Tratamento de dados - Estatísticas

A feature prices tem uma dispersão da valores considerável


Tratamento de dados – Impute e scale
Tratamento de dados – Impute e scale

Conclusão:

O log de prices têm menos outliers do que prices (9 Vs 24)


Logo devemos considerar a nova variável, em vez de prices, no desenvolvimento de modelos
de previsão

Você também pode gostar