Aula11-Data Understanding Preparation Novo Exemplo

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 18

João Cordeiro, DCGS, 2023

10
Exemplos de Preparação de dados
usado a plataforma Orange
Conteúdos adaptados dos materiais de
Ana Maria Almeida, Fernando Batista e Anabela Costa
Tratamento de dados
Data understanding + Data Prepatation
Tratamento de dados

Objetivo 1: Visualizar estatísticas, normalizar dados e filtrar dados


dataset: Yelp_reviews_2015_2017
Tratamento de dados

Dataset: Yelp_reviews_2015_2017
• Os dados são originários de um dataset disponibilizado pelo site Yelp e dizem
respeito a uma amostra, composta por 21159 observações, relativas a
comentários/ reviews e ratings de estabelecimentos classificados no site Yelp
(por exemplo, restaurantes, bares, centros de cabeleireiro e estética, lojas de
decoração/ mobílias, empresas distribuidoras de combustível, imobiliárias

Exemplo de uma review


Descrição do Dataset

• user_id: identificação do utilizador do site Yelp que fez o comentário (no


exemplo, a identificação é bgl3j8yJcRO-00NkUYsXGQ)
• review_id: identificação do comentário (no exemplo, a identificação é
Uf1Ki1yyH_JDKhLvn2e4FQ)
• Text: texto do comentário (no exemplo, o texto é What a great place… )
• business_id: identificação do estabelecimento que foi comentado (no exemplo, a
identificação é 2LfIuF3_sX6uwe-IR-P0jQ)
• Stars: rating atribuído ao estabelecimento (no exemplo, o rating é 5 )
• 1−Mau; …; 5 −excelente
• Date: data do comentário (no exemplo, a data é 28/04/2013)
Descrição do Dataset

• user_id: identificação do utilizador do site Yelp que fez o comentário (no


exemplo, a identificação é bgl3j8yJcRO-00NkUYsXGQ)
• review_id: identificação do comentário (no exemplo, a identificação é
Uf1Ki1yyH_JDKhLvn2e4FQ)
Dados Estruturados
• Text: texto do comentário (no exemplo, o texto é What a great place… )
• business_id: identificação do estabelecimento que foi comentado (no exemplo, a
identificação é 2LfIuF3_sX6uwe-IR-P0jQ)
Dados
• Stars: rating atribuído ao estabelecimento (no exemplo, Não
o rating é 5Estruturados
)
• 1−Mau; …; 5 −excelente
• Date: data do comentário (no exemplo, a data é 28/04/2013)
Tratamento de dados - Estatísticas

• Média: 3,66;
• O coeficiente de dispersão: 𝐶𝑉=0,39;
• Rating com maior frequência (moda) é
5 e o rating com menor frequência é 2
(ver gráfico de barras).
Tratamento de dados - Normalização

Os valores das stars foram


normalizados para o intervalo [0, 1]
Tratamento de dados - Filtrar

Os registos foram filtrados de


acordo com o valor da stars
Tratamento de dados - Outliers
Como outlier vamos considerar:
• se o valor estiver mais de 1,5×𝐴𝑄 acima do terceiro quartil
(𝑄3) ou abaixo do primeiro quartil (𝑄1), em que 𝐴𝑄 é a
amplitude interquartis (𝐴𝑄=𝑄3−𝑄1)
• Outliers inferiores são os valores abaixo de 𝑄1−1,5×𝐴𝑄;
• Outliers superiores são os valores acima de 𝑄3+1,5×𝐴𝑄.

Atendendo ao gráfico de extremos e quartis:


• 𝑄1=3;
• 𝑄3=5;
• 𝑄2=4 (mediana);
• 𝑥̅=3,7 (média amostral);
• 𝑠=1,43 (desvio padrão amostral)
• AQ = 5-3 = 2
• Métrica Outlier1,5 x 2 = 3

Conclusão: não existem outliers.


Tratamento de dados

Objetivo 2: data imputation onde existem valores omissos


dataset: Yelp_reviews_2015_2017_versao 1
Tratamento de dados – Data Imputation

Neste caso optou-se por remover os registos


em que existiam valores em falta

Isso foi possível porque existem muitos


Antes Depois registos e são poucos com dados em falta
Tratamento de dados

Objetivo 3: Valores omissos e outliers


dataset: Yelp_reviews_2015_2017_versao 2
Tratamento de dados – Remover outliers

Seguindo a regra definida anteriormente temos:


• 𝑄1−1,5×𝐴𝑄=0 e 𝑄3+1,5×𝐴𝑄=8
• Outliers: valores abaixo de 0 e superiores a 8 (inclusive)
Vamos então filtrar os dados para remover os outiers
Tratamento de dados

Objetivo 1: Visualizar estatísticas


dataset: hotels
Tratamento de dados - Estatísticas

A feature prices tem uma dispersão da valores considerável


Tratamento de dados – Impute e scale
Tratamento de dados – Impute e scale

Conclusão:

O log de prices têm menos outliers do que prices (9 Vs 24)


Logo devemos considerar a nova variável, em vez de prices, no desenvolvimento de modelos
de previsão

Você também pode gostar