Aula11-Data Understanding Preparation Novo Exemplo

João Cordeiro, DCGS, 2023
10
Exemplos de Preparação de dados
usado a plataforma Orange
Conteúdos adaptados dos materiais de
Ana Maria Almeida, Fernando Batista e Anabela Costa
Tratamento de dados
Data understanding + Data Prepatation
Tratamento de dados
Objetivo 1: Visualizar estatísticas, normalizar dados e filtrar dados

dataset: Yelp_reviews_2015_2017
Tratamento de dados
Dataset: Yelp_reviews_2015_2017
• Os dados são originários de um dataset disponibilizado pelo site Yelp e dizem
respeito a uma amostra, composta por 21159 observações, relativas a
comentários/ reviews e ratings de estabelecimentos classificados no site Yelp
(por exemplo, restaurantes, bares, centros de cabeleireiro e estética, lojas de
decoração/ mobílias, empresas distribuidoras de combustível, imobiliárias
Exemplo de uma review

Descrição do Dataset
• user_id: identificação do utilizador do site Yelp que fez o comentário (no

exemplo, a identificação é bgl3j8yJcRO-00NkUYsXGQ)
• review_id: identificação do comentário (no exemplo, a identificação é
Uf1Ki1yyH_JDKhLvn2e4FQ)
• Text: texto do comentário (no exemplo, o texto é What a great place… )
• business_id: identificação do estabelecimento que foi comentado (no exemplo, a
identificação é 2LfIuF3_sX6uwe-IR-P0jQ)
• Stars: rating atribuído ao estabelecimento (no exemplo, o rating é 5 )
• 1−Mau; …; 5 −excelente
• Date: data do comentário (no exemplo, a data é 28/04/2013)
Descrição do Dataset
• user_id: identificação do utilizador do site Yelp que fez o comentário (no

exemplo, a identificação é bgl3j8yJcRO-00NkUYsXGQ)
• review_id: identificação do comentário (no exemplo, a identificação é
Uf1Ki1yyH_JDKhLvn2e4FQ)
Dados Estruturados
• Text: texto do comentário (no exemplo, o texto é What a great place… )
• business_id: identificação do estabelecimento que foi comentado (no exemplo, a
identificação é 2LfIuF3_sX6uwe-IR-P0jQ)
Dados
• Stars: rating atribuído ao estabelecimento (no exemplo, Não
o rating é 5Estruturados
)
• 1−Mau; …; 5 −excelente
• Date: data do comentário (no exemplo, a data é 28/04/2013)
Tratamento de dados - Estatísticas
• Média: 3,66;
• O coeficiente de dispersão: 𝐶𝑉=0,39;
• Rating com maior frequência (moda) é
5 e o rating com menor frequência é 2
(ver gráfico de barras).
Tratamento de dados - Normalização
Os valores das stars foram

normalizados para o intervalo [0, 1]
Tratamento de dados - Filtrar
Os registos foram filtrados de

acordo com o valor da stars
Tratamento de dados - Outliers
Como outlier vamos considerar:
• se o valor estiver mais de 1,5×𝐴𝑄 acima do terceiro quartil
(𝑄3) ou abaixo do primeiro quartil (𝑄1), em que 𝐴𝑄 é a
amplitude interquartis (𝐴𝑄=𝑄3−𝑄1)
• Outliers inferiores são os valores abaixo de 𝑄1−1,5×𝐴𝑄;
• Outliers superiores são os valores acima de 𝑄3+1,5×𝐴𝑄.
Atendendo ao gráfico de extremos e quartis:

• 𝑄1=3;
• 𝑄3=5;
• 𝑄2=4 (mediana);
• 𝑥̅=3,7 (média amostral);
• 𝑠=1,43 (desvio padrão amostral)
• AQ = 5-3 = 2
• Métrica Outlier1,5 x 2 = 3
Conclusão: não existem outliers.

Tratamento de dados
Objetivo 2: data imputation onde existem valores omissos

dataset: Yelp_reviews_2015_2017_versao 1
Tratamento de dados – Data Imputation
Neste caso optou-se por remover os registos

em que existiam valores em falta
Isso foi possível porque existem muitos

Antes Depois registos e são poucos com dados em falta
Tratamento de dados
Objetivo 3: Valores omissos e outliers

dataset: Yelp_reviews_2015_2017_versao 2
Tratamento de dados – Remover outliers
Seguindo a regra definida anteriormente temos:

• 𝑄1−1,5×𝐴𝑄=0 e 𝑄3+1,5×𝐴𝑄=8
• Outliers: valores abaixo de 0 e superiores a 8 (inclusive)
Vamos então filtrar os dados para remover os outiers
Tratamento de dados
Objetivo 1: Visualizar estatísticas

dataset: hotels
Tratamento de dados - Estatísticas
A feature prices tem uma dispersão da valores considerável

Tratamento de dados – Impute e scale
Tratamento de dados – Impute e scale
Conclusão:
O log de prices têm menos outliers do que prices (9 Vs 24)

Logo devemos considerar a nova variável, em vez de prices, no desenvolvimento de modelos
de previsão

Aula11-Data Understanding Preparation Novo Exemplo

Enviado por

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

Aula11-Data Understanding Preparation Novo Exemplo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula11-Data Understanding Preparation Novo Exemplo

Enviado por

Direitos autorais:

Formatos disponíveis

João Cordeiro, DCGS, 2023

Objetivo 1: Visualizar estatísticas, normalizar dados e filtrar dados

Exemplo de uma review

• user_id: identificação do utilizador do site Yelp que fez o comentário (no

• user_id: identificação do utilizador do site Yelp que fez o comentário (no

Os valores das stars foram

Os registos foram filtrados de

Atendendo ao gráfico de extremos e quartis:

Conclusão: não existem outliers.

Objetivo 2: data imputation onde existem valores omissos

Neste caso optou-se por remover os registos

Isso foi possível porque existem muitos

Objetivo 3: Valores omissos e outliers

Seguindo a regra definida anteriormente temos:

Objetivo 1: Visualizar estatísticas

A feature prices tem uma dispersão da valores considerável

O log de prices têm menos outliers do que prices (9 Vs 24)

Você também pode gostar

Aula11-Data Understanding Preparation Novo Exemplo

Enviado por

Dados do documentoclique para ver informações do documentoISCTE

Dados do documentoclique para ver informações do documento

Direitos autorais:

Formatos disponíveis

Aula11-Data Understanding Preparation Novo Exemplo

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula11-Data Understanding Preparation Novo Exemplo

Enviado por

Direitos autorais:

Formatos disponíveis

João Cordeiro, DCGS, 2023

Objetivo 1: Visualizar estatísticas, normalizar dados e filtrar dados

Exemplo de uma review

• user_id: identificação do utilizador do site Yelp que fez o comentário (no

• user_id: identificação do utilizador do site Yelp que fez o comentário (no

Os valores das stars foram

Os registos foram filtrados de

Atendendo ao gráfico de extremos e quartis:

Conclusão: não existem outliers.

Objetivo 2: data imputation onde existem valores omissos

Neste caso optou-se por remover os registos

Isso foi possível porque existem muitos

Objetivo 3: Valores omissos e outliers

Seguindo a regra definida anteriormente temos:

Objetivo 1: Visualizar estatísticas

A feature prices tem uma dispersão da valores considerável

O log de prices têm menos outliers do que prices (9 Vs 24)

Você também pode gostar