PUCRS - Online - Mineração de Dados

APRESENTAÇÃO
DE APOIO
Data Mining (Mineração de Dados)

DA DISCIPLINA
DA DISCIPLINA
1º ENCONTRO 2º ENCONTRO 3º ENCONTRO
Duncan Dubugras
Fabiano Castello Fabiano Castello
Alcoba Ruiz
CONVIDADO PUCRS
FABIANO CASTELLO DUNCAN DUBUGRAS ALCOBA RUIZ

data wisdom
actionable
signals
intelligence
Visão geral sobre sistemas de suporte à
decisão e inteligência de negócio.
Entendimento sobre o processo de KDD e,
em especial sobre preparação de dados.
Estudo sobre as principais tarefas de

mineração de dados. A Mineração de
Dados e suas utilizações em estudos de
casos reais.
nós poderíamos passar 2 aulas
apenas discutindo os nomes...
Olson (2018) Han et al (2011) Hair et al (2009)
Brown (2014)
intro
BI, KDD & DM
“A Business Intelligence System” (IBM 1958)
H. P. Luhn, "A Business Intelligence System," in IBM Journal of Research and Development,
vol. 2, no. 4, pp. 314-319, Oct. 1958. doi: 10.1147/rd.24.0314
business intelligence and analytics (BI&A)
“BI&A systems provide support
for collecting and transforming
data and put particular
emphasis on data analysis with
the purpose of improving
decision making”
Chen et al., 2012; Davenport, 2006; Shanks et al., 2010
apud Kowalczyk, Martin. (2017). The Support of Decision Processes with Business Intelligence and
Analytics: Insights on the Roles of Ambidexterity, Information Processing and Advice.
DOI: 10.1007/978-3-658-19230-3.
KDD & DM
• são a mesma coisa?
• similares?
• como de relacionam?
DM é uma fase do processo de KDD
mas, na prática, muitas vezes são

usados de forma intercambiável
definições variam mas, de uma forma geral,
KDD the overall process of discovering

useful knowledge from data
DM a particular step in the KDD process.

data mining is the application of
specific algorithms for extracting
patterns from data.
source: Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge
Discovery in Databases. AI Magazine, 17(3), 37. https://doi.org/10.1609/aimag.v17i3.1230
contexto parece confuso... mas não é!
BI&A artificial intelligence

KDD machine learning
DM deep learning
source: Fabiano Castello, adaptado de Brendan Tiernan (2012)

hierarquia
DIKW
where is the Life we have lost in living?
where is the wisdom we have lost in knowledge?
where is the knowledge we have lost in the information?
T.S. Elliot, 1934
“lançada para eternidade” da forma como a conhecemos

hoje por Russell Ackoff em 1989
source: Harvard Business Review, David Weinberger , 2010

hierarquia
DIKW
de para
data wisdom
actionable
signals
intelligence
como chegar lá é nosso próximo assunto...
o segredo é fazer de forma estruturada!
(técnicas, processos ou metodologias)
_ KDD
_ SEMMA
_ CRISP-DM
CRISP-DM
(cross industry standard process for data mining)
• uma das técnicas mais
utilizados em data mining, e
também considerada uma das
mais completas
• principais vantagens são poder
ser aplicada a qualquer tipo de
negócio e não ter dependência
de ferramenta específica para
ser executada.
CRISP-DM
business understand
• identificação do problema a ser
resolvido
• três artefatos
• background: explica contexto e o problema, e como o
projeto vai ser direcionado para solucioná-lo
• objetivo do projeto
• critério de sucesso: qual será a métrica para
determinar se o projeto atingiu o sucesso ou não.
CRISP-DM
data understanding
•coletar
•descrever
•explorar
•verificar a qualidade
CRISP-DM
data preparation
•fase crítica: criação do
“dataset”
•atividades:
• data selection
• data cleaning
• construct data
• integrating data
CRISP-DM
modeling
•selecting modeling
techniques
•designing tests
•building models
•assessing models
CRISP-DM
evaluation
•evaluating results
•reviewing the
process
•determining the
next steps
CRISP-DM
deployment
•planning deployment
•planning monitoring and
maintenance
•reporting final results
•reviewing final results
KDD
“there is an urgent need for a new
generation of computational theories
and tools to assist humans in extracting
useful information (knowledge) from the
rapidly growing volumes of digital data.”
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996)
KDD
(knowledge discovery in databases)
• talvez o mais famoso, ou mais conhecido do
“grande público”
• um dos métodos mais antigos existentes
• compreende uma fase chamada data mining
• não foca em questões de negócio ou geração de
modelos, mas sim na
descoberta de conhecimentos
a partir dos dados (padrões
ou “patterns”)
KDD
source: traduzido a partir de

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine
SEMMA
(Sample, Explore, Modify, Model e Assess)
• criada pelo SAS Institute
• semelhante ao CRISP-DM em muitos aspectos, mas, foca
principalmente nas tarefas de criação do modelo, sem o
protagonismo dos problemas de negócio
• principais steps: explorar informações
básicas dos dados, modificar e
transformar variáveis, gerar o modelo
e validá-lo
• SEMMA é útil para projetos de porte
menor
• contra: não considera a necessidade
do negócio
SEMMA
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014.
problema de negócio
entender, limpar
e transformar dados 1
“modelar”: descobrir
padrões, fazer previsões
2
resultados para o negócio
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014.
independente da metodologia escolhida:
data exploration
data preprocessing
data transformation
mining
data exploration
foundation, data sources
“big data”
dados não-estruturados
maior necessidade de recursos

qualquer tipo de dado: posts, imagens, áudio, vídeo, livros
maior complexidade,
dados semiestruturados
exemplos: XML e JSON
dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e
colunas; bancos de dados relacionais
foundation, data sources
dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e
colunas; bancos de dados relacionais
nossos exemplos vão focar em

dados estruturados
explorar os dados é fundamental
conhecer • tamanho dos dados
• tipos de variáveis
os dados • como os valores estão
distribuídos
validar • totalizações
os dados • missing values
• outliers
atributos, variáveis,
casos, “tuple”, características, features
observações
registros,
tabela
foundation, data formats
• numerical (continuous values: 0,5; 1,2; -1,55; idade)
• integer (integer values: 0, 1, -2; número de filhos)
• binary (dois estados: true/false; 1/0 ; aposentado)
• category (a finite set of possible values: estados BR)
• date (08/11/2019 19:45)
• string/text (texto comum: brasil, João Silva)
source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
visualização de dados
(data visualization ou dataviz)
é uma excelente forma
de explorar dados
Hans Hosling 200 países, 200 anos, 4 minutos (LegBR)
https://youtu.be/xw9etmhojlQ
ia.fabianocastello.com
referências em dataviz
great book!
Storytelling com Dados:

um Guia Sobre
Visualização de Dados
Para Profissionais de
Negócios
em Português
barato! Amazon ~R$50
a importância da visualização de dados:
4 conjuntos de dados diferentes, mesmos números
• mesma média e variância de X

• mesma média de Y (até p2)
• mesma variância de y (até p3)
• mesma correlação (até p3)
• mesma regressão
y = 3,00 + 0,500x
(até p2 e p3)
source: Wikipedia, “Quarteto de Anscombe”

histogram,
gráfico de barras
• criado por william
Playfair há 200+ anos
• muito popular, usado
para comparar categorias.
fácil de interpretar e bastante
preciso
• podem ser usados também
para representar tendências
(mas mais entre períodos do
que para continuidade)
scatter plot,
gráfico de dispersão
• correlaciona duas variáveis
• pode ser usado para até quatro variáveis (tamanho e cor do ponto)
tree maps
• apesar de nosso cérebro ser péssimo para comparar áreas,
tree maps são excelentes para dar contexto.
• use como um gráfico auxiliar
uma forma sintética de
boxplot analisar estatística descritiva
de uma variável numérica
diagrama de caixa
“mediana” mediana é diferente de média! “mediana”

entre a mediana é o valor central do dataset entre a
mediana e
mediana e o o maior
menor número número
outliers: valores atípicos
mais informação sobre estatística descritiva? Veja wikipedia. completo e em português.

facets
• olhar análises combinadas pode dar
uma visão abrangente sobre o dataset
• é uma forma de mesclar categorias e
números
• matriz de
correlações de
variáveis
numéricas.
• importantíssimo
quando formos ver
técnicas de análise
multivariada
• diretamente
relacionado com
um importante
conceito:
multicolinearidade
antes de finalizar, uma dica sobre dataviz:
nunca mais faça um gráfico 3D!
usar 3D é exemplo de amadorismo em análise de dados!
3D
aparentemente charmosos, na verdade podem esconder partes
importantes de informação e prejudicar o entendimento por
conta de cores, sombras e inclinações de eixos.
algumas ferramentas (não exaustivo)
ótima opção mas

precisa ter skills de
programação
alteryx automatiza
todo o processo
prévio do mining
FCA2 FC auto analyser
ferramenta gratuita para análise de dados
• ferramenta gratuita de produtividade para analisar dados em

formato XLS e CSV • morfologia: registros, campos,
• roda em Python tipos dos campos
• campos texto: registros,
• mantida pela comunidade duplicações, missing,
frequência das top "n"
categorias
• registros, registros zerados,
missing, soma, média, desvio,
tabelas de entrada resultados máximos e mínimos, amplitude,
FCA2
XLS ou CSV automáticos quartis (dois conjuntos, o
segundo desconsiderando
zeros).
• gráficos para cada variável
numérica: boxplot e histograma
FCA2 FC auto analyser
o que está no pipeline
• colocar todas as informações juntas em um único PDF.
• inserir data labels nos histogramas.
• montar correlação entre variáveis numéricas (facets).
• criar uma versão compilada para ampliar o uso por
pessoas que não usam python (Windows EXE), e uma
interface gráfica
quer ajudar a desenvolver a ferramenta?

https://github.com/fabianocastello/fca2
data preprocessing:
cleaning, integration,
reduction, quality
missing values
valores ausentes em datasets são comuns: é importante entender a
quantidade e a gravidade (ex.: missing keys) para definir a estratégia.
cuidado: nem sempre um missing é um erro (ex.: CNH em análise de crédito)

missing values: estratégias
1. ignorar os registros (eliminar do dataset)
2. completar manualmente (“time consuming”,
não assegura padrão)
3. usar uma constante global para todos os
casos • essas estratégias trazem
4. usar as medidas de tendência central viés
“global” do atributo • 3 a 6: ordem de
complexidade
5. usar as medidas de tendência central do
• 6 é a mais popular, mas
atributo com base em classes presentes em precisa ser algo que
outro atributo realmente importa na
6. usar o valor mais provável (ex.: regressão ou análise
inferência)
outliers: usar mesmas estratégias de missing
duplicados: o desafio é saber porque
estão lá, e se são erros ou não.
importante: computador, por definição, é uma
máquina burra!
joão
≠
joao
noise: erros aleatórios
o maior desafio de data mining é separar noise e signal
Silver, N. (2012) The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguim Books
noise: estratégias
1. binning: tornar valores contínuos
em valores discretos; “amaciar”
usando valores de tendência
central do bin
2. regression: achar os valores mais
prováveis de uma variável em
função de outra (veremos com
detalhes em mining)
3. outliers: filtrar outliers e utilizar
estratégias de missing values
data integration
• datasets que montamos para minerar em geral são

uma base única, mas raramente parte-se de uma única
base
• para integrar bases de dados dois conceitos são
importantes
• entendimento das variáveis segundo unique rules,
consecutive rules, and null rules (também é técnica de
validação)
• como as bases de relacionam (chaves, modelo E/R)
data integration
• unique rules: os valores de um determinado atributo
devem ser únicos, não podem se repetir (ex.: códigos de
identificação em geral)
• consecutive rules: não pode haver missing values entre
o valor mínimo e o valor máximo, bem como também
precisam ser únicos (ex.: numero de NF)
• null rules: especifica condições específicas em que
valores ausentes são admissíveis
left outer right outer
full outer
inner
left inner right inner
data reduction - estratégias
reduzir dimensões
reduzir registros
redução dimensional
• técnica mais utilizada:
análise fatorial - PCA – principal component analisys
• ótima referência para entender com profundidade e
utilizar: HAIR et al (2009). Análise multivariada de
dados. 6.ed. Porto Alegre, Bookman. revisão técnica do
livro em português: Prof. Dra. Maria Aparecida Gouvêa,
FEA/USP
• não podemos perder de vista: reduzir dados
minimizando a perda nos resultados principais
PCA
•técnica de análise multivariada que identifica
um número menor de fatores que podem
representar relações entre variáveis que estão
interrelacionadas
•lógica: variáveis que apresentam correlação
expressiva compartilham algum fator em comum
que pode substituí-las, preservando um bom
percentual da variabilidade dos dado originais.
PCA aplica-se apenas para variáveis numéricas
uma vez que estamos capturando a variância total
de um conjunto de variáveis, as mesmas precisam
estar numa escala similar.
idade altura escalas diferentes

40 1,90 precisam ser
padronizadas
34 1,75
27 1,70
22 1,68
15 1,50
veremos com mais detalhes em data transformation
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
PCA: observações importantes
• PCA não é regressão: é uma técnica de
interdependência
• existem condicionais para o uso da técnica,
principalmente em relação ao tamanho da amostra
• multicolinearidade: em PCA é até mesmo desejável!
• a técnica utiliza estatísticas para verificar a qualidade
de sua utilização: carga fatorial, MSA, KMO, Barlett,
eigenvalues. não basta rodar: tem que ver se ficou
bom!
redução numérica
redução numérica –
estratégia histograma ou binning
• definir “bins” ou “buckets” ou faixas.
• há perda de informação: perde-se granularidade
• regras:
• equal-width: limites de faixa fixos
• equal-frequency: quantidade de itens por faixa
constante
1, 1, 5, 5, 5,
5, 5, 8, 8, 10,
10, 10, 10,
12, 14, 14,
14, 15, 15,
15, 15, 15,
15, 18, 18,
18, 18, 18,
18, 18, 18,
20, 20, 20,
20, 20, 20,
20, 21, 21,
21, 21, 25,
25, 25, 25,
25, 28, 28,
30, 30, 30
singleton buckets
• esta estratégia é interessante para
transformar variáveis contínuas em
discretas. fazemos muito isto
transformando idade (contínua)
em faixas de idade (discreta)
(discretization – veremos mais a frente)
• cube-aggregation é
semelhante, com mais
dimensões
estratégia agrupamento ou clustering
• cluster é uma técnica de
interdependência
• cada registro ou “tuple” é
considerado um objeto, e os
objetos são agrupados de
acordo com similaridade.
• cluster é uma técnica espacial
que utiliza a distância entre
objetos
• a lógica é maximizar
similaridades de objetos em
cada cluster e maximizar a
dissimilaridade entre os
clusters
•dentro da lógica de redução, utilizam-
se os clusters ao invés dos objetos
originais
•métodos
•hierárquico (mais tradicional)
•k-means (mais utilizado e bem mais fácil)
redução numérica – sampling ou amostragem
• técnica muito usada em estatística de uma forma
geral: tentar, a partir de uma parte, inferir sobre
o todo
• no nosso contexto, muitas
vezes não conseguimos
processar toda a informação que temos, então
uma das técnicas de redução que podemos usar
é o sampling ou amostragem
source: Anderson et al (2011) Essentials of Statistics for Business & Economics, South-Western Cengage
Learning; Seema Singh S (2018) Sampling Techniques. towardsdatascience.com.
probability non- probability
sampling Sampling
•simple random •convenience

•stratified •purposive
•cluster •quota
•systematic •referral/ snowball
pouco interesse no nosso contexto
•multi-stage
simple random sampling
cada elemento da população tem a mesma
chance de ser selecionado
numa população de
15 alunos cada um
tem uma chance de
1/15 de ser escolhido
stratified sampling
como a randômica mas feita a partir de uma
pré-divisão da população.
estratificação traz grupos

homogêneos entre si mas
heterogêneos quando
comparados a outros grupos. a
seleção é aleatória dentro de
cada grupo
cluster sampling é muito semelhante.
veja a documentação
systematic sampling
elementos são selecionados em intervalos
regulares da população (exceto o primeiro elemento).
multi-stage sampling
combinação
dos métodos
anteriores
data quality
qualidade dos dados está diretamente relacionada

com o resultado final do processo de mining!
data quality
•o maior problema: não há receita pronta nem
software específico. há necessidade de
conhecimento do negócio e.g. adolescentes com
alta renda, gravidez para sexo masculino
•checar consistências e redundâncias
• com fontes externas e.g. total NF emitidas x receita DRE
• cross- reference e.g. totalização da valorização dos itens
NF x total do cabeçalho da NF
the six primary dimensions
for DQ assessment the proportion of stored data
against the potential of
"100% complete"
The absence of no thing will be

difference, when recorded more than
comparing two or more once based upon
representations of a how that thing is
thing against a identified
definition.
the degree to which

The degree to which data represent
data correctly describes reality from the
the "real world" object or required point in
event being described. time
data are valid if it conforms to the syntax

(format, type, range) of its definition
data transformation
data transformation
transformar ou consolidar dados
visando tornar o processo de mining
mais eficiente e os padrões
(patterns) mais fáceis de serem
identificados e entendidos.
data transformation – estratégias
1. smoothing overlap com
2. attribute (feature) técnicas de
construction cleaning
3. aggregation
4. discretization
5.normalization
6. hierarchy generation for nominal data
normalization serve para comparar:
dar peso igual para coisas diferentes
• normalização e padronização são sinônimos?
• não: normalização, em estatística, tem conotações específicas.
• sim: na prática (mercado) o termo é usado de forma intercambiável
idade altura • quais os tipos principais de

1,90
normalização?
40
• min-max normalization
34 1,75
27 1,70 • z-score normalization
22 1,68
15 1,50
normalização por máximo e mínimo
• X: observação
(X – min) • min: valor mínimo amostra
x (maxN – minN) + minN •
•
max: valor máximo amostra
minN: novo valor mínimo
(max – min) • maxN: novo valor máximo
1; 1; 5; 5; 5; 5; 5; 8; 8; 0,00; 0,00; 0,14; 0,14; 0,14; 0,14; 0,14;

10; 10; 10; 10; 12; 14; 0,24; 0,24; 0,31; 0,31; 0,31; 0,31; 0,38;
14; 14; 15; 15; 15; 15; 0,45; 0,45; 0,45; 0,48; 0,48; 0,48; 0,48;
15; 15; 18; 18; 18; 18; normalização 0,48; 0,48; 0,59; 0,59; 0,59; 0,59; 0,59;
18; 18; 18; 18; 20; 20; min máx 0,59; 0,59; 0,59; 0,66; 0,66; 0,66; 0,66;
20; 20; 20; 20; 20; 21; 0,66; 0,66; 0,66; 0,69; 0,69; 0,69; 0,69;
21; 21; 21; 25; 25; 25; (0,1) 0,83; 0,83; 0,83; 0,83; 0,83; 0,93; 0,93;
25; 25; 28; 28; 30; 30; 1,00; 1,00; 1,00;
30
normalização
por z-score
• X: observação
X – média • média: média da amostra
• desvio: desvio padrão da
desvio amostra
1; 1; 5; 5; 5; 5; 5; 8; 8; 10; -2,09; -2,09; -1,56; -1,56; -1,56; -1,56; -1,56; -

10; 10; 10; 12; 14; 14; 14; 1,15; -1,15; -0,89; -0,89; -0,89; -0,89; -0,62; -
15; 15; 15; 15; 15; 15; 18; 0,35; -0,35; -0,35; -0,22; -0,22; -0,22; -0,22; -
18; 18; 18; 18; 18; 18; 18;
20; 20; 20; 20; 20; 20; 20;
normalização 0,22; -0,22; 0,18; 0,18; 0,18; 0,18; 0,18; 0,18;
0,18; 0,18; 0,45; 0,45; 0,45; 0,45; 0,45; 0,45;
21; 21; 21; 21; 25; 25; 25;
25; 25; 28; 28; 30; 30; 30
z-score 0,45; 0,58; 0,58; 0,58; 0,58; 1,11; 1,11; 1,11;
1,11; 1,11; 1,51; 1,51; 1,78; 1,78; 1,78
média 16,7 média 0

desvio 7,5 desvio 1
hierarquização
país ano
estado mês
cidade dia
bairro hora
rua minuto
número segundo
outras transformações
•não há regra, é caso a caso
•um bom exemplo: raramente um dataset tem
o campo idade
(data base) - (data nascimento)

= idade decimal
365
data mining
data mining techniques (não exaustivo)
Inteligência
Estatística
Artificial
• cluster detection • machine

• linear regression learning
• neural networks
• logistic regression
• decision trees
• rule induction
source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
nosso foco em mining
machine regressão linear
learning e logística
visão geral de como como funciona na

IA se aplica em prática, com
mining, e um exemplos
exemplo real reproduzíveis pelos
alunos
inteligência
artificial
...pode ajudar nas
respostas mas está
muito longe de saber
fazer as perguntas!
simplificando...
inteligência artificial
machine learning
(aprendizado de máquina)
predictive analysis
(análise preditiva)
“prever” está mais rápido,
mais barato e mais assertivo.
e possibilita novas aplicações.
predictive analysis
(análise preditiva) O termos mais correto é “predição”
mas para simplificação estamos
usando “previsão”
autonomia veicular nunca foi
pensado como um problema
de previsão!
autonomia não é novo mas
tradicionalmente é utilizada em
ambientes controlados, como por
exemplos armazéns.
os CONDICIONAIS são simples:
SE • alguém está na Então • pare

frente • vá para próxima
• prateleira está prateleira
vazia
autonomia numa cidade
é impossível com o
método tradicional!
muitos condicionais
• está escuro • farol está apagado
SE • está chovendo
• uma criança corre para
• placa é ilegível
• há blitz da lei-seca
frente do carro
• outro veículo freia a frente etc, etc, etc
o mundo real é
imperfeito ☺
o mundo real é
imperfeito ☺
similaridade é
óbvio para o
ser humano,
mas não é
para um
computador
autonomia veicular SÓ o que um “bom
pode ser resolvido com
humano” faria?
previsão!
“programa” que
“bom humano”
faz previsões
dirige aprende
câmeras, radares e
olhos e ouvidos
sensores
“bom humano”
dirige
câmeras, radares e
dados
sensores
“programa” define
atualiza uma ação
erra ou
aprende
acerta
121
“bom humano”
vê um pedestre
câmera capta
dados
a imagem
“programa”
atualiza decide frear
APRENDE
acerta
122
no início o “programa” comete erros…
…mas aprende com estes erros e atualiza o
“programa” sempre que prevê de forma
errada o que um “bom humano” faria.
as previsões melhoram até o momento em
que o “programa” fica melhor que um
“bom humano”; neste ponto, o “programa”
pode atuar sozinho.
outro exemplo,
mais próximo do
dia a dia
+ Desligado
“dataset”
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000
Operacional -0,7491820 0,0065000
Horas extras -0,0174758 0,0083000
Tempo empresa 0,5350320 0,0001000
Bairro residência -0,0095723 0,0192000
Tipo cargo 0,1963290 0,0528000
Turno -0,3351620 0,1575000
Faixa salarial 0,1384160 0,2216000
Estado emissor RG 0,0603732 0,2688000
Tempo sem promoção 0,0133276 0,3939000
Absenteísmo -0,0017207 0,4510000
Estado civil -0,0781035 0,5865000
Promoções 0,0883532 0,7951000
Escolaridade -0,0068517 0,9443000
RESULTADO Possibilidades ilimitadas de
Lista individualizada de colaboradores ativos e suas análise
respectivas probabilidades de deixar a organização
• Concentração em algum gestor?
Matrícula Nome P(Desligado) Unidade? Processo?
• Homogêneo entre sexo? Idade?
1 José 20%
Cargo?
2 Maria 23% • Baixo turnover está correlacionado
3 Ana 40% com promoções?
• O turnover está correlacionado
4 Joaquim 12%
com tempo de casa? Menores?
5 Mário 60% Maiores? Ou não se relaciona?
6 Cristina 30% Ações de• Quais os principais “drivers” do
retenção ALTO turnover? E do BAIXO
7 Valéria 20% Individuais turnover?
... • Levamos em conta os drivers de
999 Daniel 90% baixo turnover no processo de
recrutamento?
aviso aos navegantes:
mantenha a mente aberta!
• esta é uma aula técnica: fala sobre conceito e sobre aplicação.
• regressão é a forma mais simples de análise preditiva. é uma
ferramenta poderosa, que pode ser utilizada imediatamente para
ajudar a resolver muitos problemas do dia a dia, com base em fatos e
dados (cada vez mais necessário para suportar decisões de negócio).
• a matemática envolvida é simples. tenha em mente que, na prática,
você não vai precisar fazer nenhum cálculo, apenas entender o sentido.
• mesmo que vc não seja da área de exatas, esta é uma ótima
oportunidade de aprender uma ferramenta que pode ser uma
vantagem competitiva no seu negócio e na sua carreira
•
•
•
•
•
HTTP://GRETL.SOURCEFORGE.NET/PT.HTML
o plano “cartesiano”
René Descartes
1596 - 1650
131
gráficos são parte do nosso dia a dia!
132
correlação
133
correlação
134
qual software devo utilizar?
135
Regressão LINEAR
Simples
DEMONSTRAÇÃO
Demonstração Regressão Linear
ARQUIVO SALARYDATA.CSV
NO EXCEL
ARQUIVO SALARYDATA.CSV
NO GRETL
VIEW
SUMMARY STATISTICS.
BOTÃO DIREITO DO MOUSE
DISPLAY VALUES .
CRIAR UM MODELO DE
REGRESSÃO LINEAR
SIMPLES.
SALARY É O QUE QUEREMOS PREVER

CONST É A CONSTANTE
YEARSEXPERIENCE É UM “REGRESSOR”
I.E. SERÁ USAR COMO BASE PARA
PREVER O SALÁRIO
VOILÁ! ESTE É O MODELO!

REGRESSÃO LINEAR É DEFINIR A

MELHOR CURVA (NO CASO,
RETA) DE FORMA QUE A
DISTÂNCIA ENTRE OS PONTOS E A
CURVA AJUSTADA SEJA A MENOR
POSSÍVEL
A CURVA É DEFINIDA POR UMA EQUAÇÃO
𝑦 = 𝛼 + 𝛽. x
VARIÁVEL CONSTANTE COEFICIENTE VARIÁVEL
EXPLICADA OU EXPLICATIVA OU
𝛽 DETERMINA A
DEPENDENTE INDEPENDENTE
INCLINAÇÃO DA
Y É O QUE CURVA. PODE SER X É UM DOS
QUEREMOS POSITIVA OU COMPONENTES DA
PREVER NEGATIVA PREDIÇÃO
QUEREMOS PREVER SALÁRIO EM FUNÇÃO DOS ANOS DE EXPERIÊNCIA, ENTÃO:
SALÁRIO
=𝛼+𝛽 ANOS DE
EXPERIÊNCIA
“CRIAR UM MODELO” É USAR UM SOFTWARE QUE

DETERMINA ESTES COEFICIENTES
ANOS DE
SALÁRIO = 25792.2 + 9449.96 X
EXPERIÊNCIA
ESTA EQUAÇÃO É O SEU MODELO PREDITIVO!

VOCÊ PODE USÁ-LA, POR EXEMPLO, NO EXCEL
(MAS ANTES TEMOS QUE VER ALGUNS OUTROS PONTOS IMPORTANTES DO “OUTPUT” DO GRETL)
DEMONSTRAÇÃO REGRESSÃO LINEAR
p-value é uma medida

importante. O significado é que
quanto menor for o valor mais
significativa é a variável para
prever a variável dependente.
Neste caso o p-value é muito

pequeno (note que o resultado é
mostrado em potencia de 10.
Exemplo: 5.51x10-12, ou
0,000000000551)
R2 e R2AJ são medidas para saber quanto o modelo pode

explicar os dados analisados. Variam de 0 a 1, e quanto
mais próximo de 1 mais a equação explica os dados.
O “nosso” R²AJ é 0,955419. Isto significa que 95,54% da variável dependente
(salário) consegue ser explicada pelos regressores presentes no modelo
(constante e anos de experiência).
NOSSO MODELO NO EXCEL

Anos Exp. Salário Anos Exp. Salário
0 25,792.20 11 129,741.76
PREVISÃO DO NOSSO MODELO DE 0 A 21
1 35,242.16 12 139,191.72
2 44,692.12 13 148,641.68
ANOS DE EXPERIÊNCIA
3 54,142.08 14 158,091.64
4 63,592.04 15 167,541.60
5 73,042.00 16 176,991.56
6 82,491.96 17 186,441.52
7 91,941.92 18 195,891.48
8 101,391.88 19 205,341.44
9 110,841.84 20 214,791.40
10 120,291.80 21 224,241.36
PREDIZ 92K
DE SALÁRIO.
7 ANOS DE
EXPERIÊNCIA...
Regressão
LINEAR Múltipla
DEMONSTRAÇÃO
Demonstração Regressão Múltipla
FONTE DE DADOS:
50-STARTUPS.CSV
Baseada numa amostra de 50 startups,

criar um modelo preditivo de lucro.
Os atributos disponíveis são:

• Gastos em pesquisa e desenvolvimento (“R&D”)
• Gastos em Administração (“administration”)
• Gastos em Marketing
• Estado onde está baseada a startup
A variável dependente é o lucro (“profit”)

VARÍAVEL VARÍAVEIS VARÍAVEIS
DEPENDENTE INDEPENDENTE “DUMMY”
INCLUIR CALIFORNIA CRIA UM PROBLEMA DE COLINEARIDADE

A VIDA É FÁCIL COM SOMENTE

UMA VARIÁVEL INDEPENDENTE...
POR QUÊ ELIMINAR VARIÁVEIS ? ? ?

1º 2º
MAS COMO ESCOLHER QUAIS VARIÁVEIS SAEM DA EQUAÇÃO?

1.ALL-IN
2.BACKWARD ELIMINATION Stepwise
3.FORWARD ELIMINATION Regression
4.BIDIRECTIONAL ELIMINATION
5.SCORE COMPARISION
ABRIR O ARQUIVO
50-STARTUPS.CSV
CRIAÇÃO DAS VARIÁVEIS “DUMMY”
CRIAÇÃO DO MODELO (OLS)
“Administration” cai fora...
E rodamos o modelo novamente!
Modelo 1 Modelo 2
Modelo 2 Modelo 3
Modelo 3 Modelo 4
OOPS! MAS SE O MODELO “3” É MELHOR QUE O “4”...
“3” IS THE GUY! WE HAVE A WINNER!

Modelo 3
PROFIT = 46975,9 + 0,796584 RDSPEND + 0,0299079 MARKETINGSPEND
PRONTO PARA EXCEL!! I.E. QUANDO VC QUISER PREVER O

LUCRO DE UMA STARTUP BASTA VOCÊ SABER QUANTO ELA
GASTA DE PESQUISA E DESENVOLVIMENTO E DE MARKETING.
Regressão
Logística
DEMONSTRAÇÃO
Demonstração Regressão Logística
Escolher pela opção

Usamos regressão depende da
Nos modelos de regressão logística como um probabilidade de ocorrer
linear simples e múltipla algorítmo de o evento. Modelos de
estávamos tentando classificação, ou seja, regressão logística dão
prever um valor numérico. estamos buscando uma como resultado uma
opção. probabilidade.
FONTE DE DADOS:
EMAILOFFER.CSV
VAMOS VIZUALIZAR OS DADOS NUM GRÁFICO DE DISPERSÃO

CLARAMENTE UMA EXISTE UMA

TENDÊNCIA PARA
REGRESSÃO LINEAR PESSOAS MAIS VELHAS
NÃO É A MELHOR RESPONDEREM A

OFERTA
EXISTE UMA
OPÇÃO PARA TENDÊNCIA PARA
PESSOAS MAIS
FAZER UMA JOVENS NÃO
PREDIÇÃO...
RESPONDEREM A
OFERTA
PROBABILIDADES SÃO VALORES ENTRE 0 E 1

O MODELO CALCULA AS PROBABILIDADES. A LINHA QUE SEPARA O QUE É

“SUCESSO” OU “FRACASSO” É ARBITRÁRIA E.G. DESCISÃO DE NEGÓCIO
VAMOS VER COMO FAZER ISTO NO GRETL

MAS ANTES VAMOS CRIAR AS VARIÁVEIS “DUMMY”

VOILÁ!
VAMOS VER O
RESULTADO DO
MODELO
O MODELO PREDIZ
PROBABILIDADES, CONFORME AO
LADO. VAMOS SALVAR OS
VALORES PREDITOS COMO UMA
NOVA VARIÁVEL
VAMOS ANALISAR O RESULTADO DO MODELO COM AS VARIÁVEIS

REGRESSORAS E AS PREDIÇÕES
PARA USAR NO EXCEL TEMOS

QUE TER A EQUAÇÃO DA
PROBABILIDADE
NO EXCEL É ASSIM QUE VAMOS USAR

NO EXCEL É ASSIM QUE VAMOS USAR

A PARTIR DO MOMENTO
QUE DEFINIMOS UM
THRESHOLD (OU LIMITE),
PODEMOS TRANSFORMAR
PROBABILIDADES EM
PREDIÇÕES, COM UM
SIMPLES “=IF(“ NO EXCEL.
Uma última questão!
REGRESSÃO LOGÍSTICA É UM
ALGORITMO DE REGRESSÃO
OU DE CLASSIFICAÇÃO?
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000
Operacional -0,7491820 0,0065000
Horas extras -0,0174758 0,0083000
Tempo empresa 0,5350320 0,0001000
Bairro residência -0,0095723 0,0192000
Tipo cargo 0,1963290 0,0528000
Turno -0,3351620 0,1575000
Faixa salarial 0,1384160 0,2216000
Estado emissor RG 0,0603732 0,2688000
Tempo sem promoção 0,0133276 0,3939000
Absenteísmo -0,0017207 0,4510000
Estado civil -0,0781035 0,5865000
Promoções 0,0883532 0,7951000
Escolaridade -0,0068517 Lembram do case do Turnover?
0,9443000
Regressão logística na veia!

Visão geral sobre sistemas de suporte à
decisão e inteligência de negócio.
Entendimento sobre o processo de KDD e,
em especial sobre preparação de dados.
Estudo sobre as principais tarefas de

mineração de dados. A Mineração de
Dados e suas utilizações em estudos de
casos reais.
Este material foi originalmente criado por
Fabiano Castello [email protected]

http://fabianocastello.com | https://orcid.org/0000-0003-0162-0458 | http://bit.ly/fcastello
Este material é de uso exclusivo dos alunos do programa MBA em

Tecnologia para Negócios: AI, Data Science e Big Data, disponibilizado
pela PUC/RS, e está registrado no DOI (“document object identifier”)
https://doi.org/10.6084/m9.figshare.10279748
Exceto no caso de Você não pode copiar ou compartilhar o material em qualquer suporte ou
fotos de pessoas,
e material de formato.
copyright
específico, você Você não pode adaptar, remixar, transformar e criar a partir do material.
tem os deveres ao
lado. Se você utilizar alguma referência deste material em mídia diferente de
uma apresentação, você deverá citá-lo como “Castello, Fabiano (2019):
Apresentação de apoio da aula de Data Mining do programa MBA PUC/RS
em Tecnologia para Negócios: AI, Data Science e Big Data. figshare.
Respeite
Respeite o
o direito
direitoautoral
autoral Presentation. https://doi.org/10.6084/m9.figshare.10279748”
bit.ly/plagioV1
bit.ly/plagioV1

PUCRS - Online - Mineração de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

PUCRS - Online - Mineração de Dados

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

PUCRS - Online - Mineração de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

APRESENTAÇÃO

Data Mining (Mineração de Dados)

1º ENCONTRO 2º ENCONTRO 3º ENCONTRO

FABIANO CASTELLO DUNCAN DUBUGRAS ALCOBA RUIZ

Estudo sobre as principais tarefas de

mas, na prática, muitas vezes são

KDD the overall process of discovering

DM a particular step in the KDD process.

BI&A artificial intelligence

source: Fabiano Castello, adaptado de Brendan Tiernan (2012)

T.S. Elliot, 1934

“lançada para eternidade” da forma como a conhecemos

source: Harvard Business Review, David Weinberger , 2010

source: traduzido a partir de

maior necessidade de recursos

nossos exemplos vão focar em

Storytelling com Dados:

• mesma média e variância de X

source: Wikipedia, “Quarteto de Anscombe”

“mediana” mediana é diferente de média! “mediana”

outliers: valores atípicos

mais informação sobre estatística descritiva? Veja wikipedia. completo e em português.

ótima opção mas

• ferramenta gratuita de produtividade para analisar dados em

quer ajudar a desenvolver a ferramenta?

cuidado: nem sempre um missing é um erro (ex.: CNH em análise de crédito)

• datasets que montamos para minerar em geral são

idade altura escalas diferentes

•simple random •convenience

estratificação traz grupos

qualidade dos dados está diretamente relacionada

The absence of no thing will be

the degree to which

data are valid if it conforms to the syntax

idade altura • quais os tipos principais de

1; 1; 5; 5; 5; 5; 5; 8; 8; 0,00; 0,00; 0,14; 0,14; 0,14; 0,14; 0,14;

1; 1; 5; 5; 5; 5; 5; 8; 8; 10; -2,09; -2,09; -1,56; -1,56; -1,56; -1,56; -1,56; -

média 16,7 média 0

(data base) - (data nascimento)

• cluster detection • machine

visão geral de como como funciona na

SE • alguém está na Então • pare

BOTÃO DIREITO DO MOUSE

SALARY É O QUE QUEREMOS PREVER

VOILÁ! ESTE É O MODELO!

REGRESSÃO LINEAR É DEFINIR A

QUEREMOS PREVER SALÁRIO EM FUNÇÃO DOS ANOS DE EXPERIÊNCIA, ENTÃO:

“CRIAR UM MODELO” É USAR UM SOFTWARE QUE

ESTA EQUAÇÃO É O SEU MODELO PREDITIVO!

p-value é uma medida

Neste caso o p-value é muito

R2 e R2AJ são medidas para saber quanto o modelo pode

NOSSO MODELO NO EXCEL

Baseada numa amostra de 50 startups,

Os atributos disponíveis são:

A variável dependente é o lucro (“profit”)

INCLUIR CALIFORNIA CRIA UM PROBLEMA DE COLINEARIDADE

A VIDA É FÁCIL COM SOMENTE

POR QUÊ ELIMINAR VARIÁVEIS ? ? ?

MAS COMO ESCOLHER QUAIS VARIÁVEIS SAEM DA EQUAÇÃO?