PUCRS - Online - Mineração de Dados
PUCRS - Online - Mineração de Dados
PUCRS - Online - Mineração de Dados
DE APOIO
Duncan Dubugras
Fabiano Castello Fabiano Castello
Alcoba Ruiz
CONVIDADO PUCRS
actionable
signals
intelligence
Visão geral sobre sistemas de suporte à
decisão e inteligência de negócio.
Entendimento sobre o processo de KDD e,
em especial sobre preparação de dados.
Brown (2014)
intro
BI, KDD & DM
“A Business Intelligence System” (IBM 1958)
H. P. Luhn, "A Business Intelligence System," in IBM Journal of Research and Development,
vol. 2, no. 4, pp. 314-319, Oct. 1958. doi: 10.1147/rd.24.0314
business intelligence and analytics (BI&A)
“BI&A systems provide support
for collecting and transforming
data and put particular
emphasis on data analysis with
the purpose of improving
decision making”
Chen et al., 2012; Davenport, 2006; Shanks et al., 2010
apud Kowalczyk, Martin. (2017). The Support of Decision Processes with Business Intelligence and
Analytics: Insights on the Roles of Ambidexterity, Information Processing and Advice.
DOI: 10.1007/978-3-658-19230-3.
KDD & DM
• são a mesma coisa?
• similares?
• como de relacionam?
DM é uma fase do processo de KDD
_ KDD
_ SEMMA
_ CRISP-DM
CRISP-DM
(cross industry standard process for data mining)
• uma das técnicas mais
utilizados em data mining, e
também considerada uma das
mais completas
• principais vantagens são poder
ser aplicada a qualquer tipo de
negócio e não ter dependência
de ferramenta específica para
ser executada.
CRISP-DM
business understand
• identificação do problema a ser
resolvido
• três artefatos
• background: explica contexto e o problema, e como o
projeto vai ser direcionado para solucioná-lo
• objetivo do projeto
• critério de sucesso: qual será a métrica para
determinar se o projeto atingiu o sucesso ou não.
CRISP-DM
data understanding
•coletar
•descrever
•explorar
•verificar a qualidade
CRISP-DM
data preparation
•fase crítica: criação do
“dataset”
•atividades:
• data selection
• data cleaning
• construct data
• integrating data
CRISP-DM
modeling
•selecting modeling
techniques
•designing tests
•building models
•assessing models
CRISP-DM
evaluation
•evaluating results
•reviewing the
process
•determining the
next steps
CRISP-DM
deployment
•planning deployment
•planning monitoring and
maintenance
•reporting final results
•reviewing final results
KDD
“there is an urgent need for a new
generation of computational theories
and tools to assist humans in extracting
useful information (knowledge) from the
rapidly growing volumes of digital data.”
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996)
KDD
(knowledge discovery in databases)
• talvez o mais famoso, ou mais conhecido do
“grande público”
• um dos métodos mais antigos existentes
• compreende uma fase chamada data mining
• não foca em questões de negócio ou geração de
modelos, mas sim na
descoberta de conhecimentos
a partir dos dados (padrões
ou “patterns”)
KDD
entender, limpar
e transformar dados 1
“modelar”: descobrir
padrões, fazer previsões
2
resultados para o negócio
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014.
independente da metodologia escolhida:
data exploration
data preprocessing
data transformation
mining
data exploration
foundation, data sources
“big data”
dados não-estruturados
maior complexidade,
dados semiestruturados
exemplos: XML e JSON
dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e
colunas; bancos de dados relacionais
foundation, data sources
dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e
colunas; bancos de dados relacionais
validar • totalizações
os dados • missing values
• outliers
atributos, variáveis,
casos, “tuple”, características, features
observações
registros,
tabela
foundation, data formats
• numerical (continuous values: 0,5; 1,2; -1,55; idade)
• integer (integer values: 0, 1, -2; número de filhos)
• binary (dois estados: true/false; 1/0 ; aposentado)
• category (a finite set of possible values: estados BR)
• date (08/11/2019 19:45)
• string/text (texto comum: brasil, João Silva)
source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
visualização de dados
(data visualization ou dataviz)
é uma excelente forma
de explorar dados
Hans Hosling 200 países, 200 anos, 4 minutos (LegBR)
https://youtu.be/xw9etmhojlQ
ia.fabianocastello.com
referências em dataviz
great book!
alteryx automatiza
todo o processo
prévio do mining
FCA2 FC auto analyser
ferramenta gratuita para análise de dados
joão
≠
joao
noise: erros aleatórios
o maior desafio de data mining é separar noise e signal
Silver, N. (2012) The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguim Books
noise: estratégias
1. binning: tornar valores contínuos
em valores discretos; “amaciar”
usando valores de tendência
central do bin
2. regression: achar os valores mais
prováveis de uma variável em
função de outra (veremos com
detalhes em mining)
3. outliers: filtrar outliers e utilizar
estratégias de missing values
data integration
inner
left inner right inner
data reduction - estratégias
reduzir dimensões
reduzir registros
redução dimensional
• técnica mais utilizada:
análise fatorial - PCA – principal component analisys
• ótima referência para entender com profundidade e
utilizar: HAIR et al (2009). Análise multivariada de
dados. 6.ed. Porto Alegre, Bookman. revisão técnica do
livro em português: Prof. Dra. Maria Aparecida Gouvêa,
FEA/USP
• não podemos perder de vista: reduzir dados
minimizando a perda nos resultados principais
PCA
•técnica de análise multivariada que identifica
um número menor de fatores que podem
representar relações entre variáveis que estão
interrelacionadas
•lógica: variáveis que apresentam correlação
expressiva compartilham algum fator em comum
que pode substituí-las, preservando um bom
percentual da variabilidade dos dado originais.
PCA aplica-se apenas para variáveis numéricas
uma vez que estamos capturando a variância total
de um conjunto de variáveis, as mesmas precisam
estar numa escala similar.
15 1,50
veremos com mais detalhes em data transformation
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
PCA: observações importantes
• PCA não é regressão: é uma técnica de
interdependência
• existem condicionais para o uso da técnica,
principalmente em relação ao tamanho da amostra
• multicolinearidade: em PCA é até mesmo desejável!
• a técnica utiliza estatísticas para verificar a qualidade
de sua utilização: carga fatorial, MSA, KMO, Barlett,
eigenvalues. não basta rodar: tem que ver se ficou
bom!
redução numérica
redução numérica –
estratégia histograma ou binning
• definir “bins” ou “buckets” ou faixas.
• há perda de informação: perde-se granularidade
• regras:
• equal-width: limites de faixa fixos
• equal-frequency: quantidade de itens por faixa
constante
redução numérica –
estratégia histograma ou binning
1, 1, 5, 5, 5,
5, 5, 8, 8, 10,
10, 10, 10,
12, 14, 14,
14, 15, 15,
15, 15, 15,
15, 18, 18,
18, 18, 18,
18, 18, 18,
20, 20, 20,
20, 20, 20,
20, 21, 21,
21, 21, 25,
25, 25, 25,
25, 28, 28,
30, 30, 30
singleton buckets
redução numérica –
estratégia histograma ou binning
• esta estratégia é interessante para
transformar variáveis contínuas em
discretas. fazemos muito isto
transformando idade (contínua)
em faixas de idade (discreta)
(discretization – veremos mais a frente)
• cube-aggregation é
semelhante, com mais
dimensões
redução numérica –
estratégia agrupamento ou clustering
• cluster é uma técnica de
interdependência
• cada registro ou “tuple” é
considerado um objeto, e os
objetos são agrupados de
acordo com similaridade.
redução numérica –
estratégia agrupamento ou clustering
• cluster é uma técnica espacial
que utiliza a distância entre
objetos
• a lógica é maximizar
similaridades de objetos em
cada cluster e maximizar a
dissimilaridade entre os
clusters
redução numérica –
estratégia agrupamento ou clustering
•dentro da lógica de redução, utilizam-
se os clusters ao invés dos objetos
originais
•métodos
•hierárquico (mais tradicional)
•k-means (mais utilizado e bem mais fácil)
redução numérica – sampling ou amostragem
• técnica muito usada em estatística de uma forma
geral: tentar, a partir de uma parte, inferir sobre
o todo
• no nosso contexto, muitas
vezes não conseguimos
processar toda a informação que temos, então
uma das técnicas de redução que podemos usar
é o sampling ou amostragem
source: Anderson et al (2011) Essentials of Statistics for Business & Economics, South-Western Cengage
Learning; Seema Singh S (2018) Sampling Techniques. towardsdatascience.com.
probability non- probability
sampling Sampling
numa população de
15 alunos cada um
tem uma chance de
1/15 de ser escolhido
stratified sampling
como a randômica mas feita a partir de uma
pré-divisão da população.
• min-max normalization
34 1,75
27 1,70 • z-score normalization
22 1,68
15 1,50
normalização por máximo e mínimo
• X: observação
(X – min) • min: valor mínimo amostra
x (maxN – minN) + minN •
•
max: valor máximo amostra
minN: novo valor mínimo
(max – min) • maxN: novo valor máximo
predictive analysis
(análise preditiva)
“prever” está mais rápido,
mais barato e mais assertivo.
e possibilita novas aplicações.
predictive analysis
(análise preditiva) O termos mais correto é “predição”
mas para simplificação estamos
usando “previsão”
autonomia veicular nunca foi
pensado como um problema
de previsão!
autonomia não é novo mas
tradicionalmente é utilizada em
ambientes controlados, como por
exemplos armazéns.
os CONDICIONAIS são simples:
erra ou
aprende
acerta
121
“bom humano”
vê um pedestre
câmera capta
dados
a imagem
“programa”
atualiza decide frear
APRENDE
acerta
122
no início o “programa” comete erros…
…mas aprende com estes erros e atualiza o
“programa” sempre que prevê de forma
errada o que um “bom humano” faria.
as previsões melhoram até o momento em
que o “programa” fica melhor que um
“bom humano”; neste ponto, o “programa”
pode atuar sozinho.
outro exemplo,
mais próximo do
dia a dia
+ Desligado
“dataset”
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000
Operacional -0,7491820 0,0065000
Horas extras -0,0174758 0,0083000
Tempo empresa 0,5350320 0,0001000
Bairro residência -0,0095723 0,0192000
Tipo cargo 0,1963290 0,0528000
Turno -0,3351620 0,1575000
Faixa salarial 0,1384160 0,2216000
Estado emissor RG 0,0603732 0,2688000
Tempo sem promoção 0,0133276 0,3939000
Absenteísmo -0,0017207 0,4510000
Estado civil -0,0781035 0,5865000
Promoções 0,0883532 0,7951000
Escolaridade -0,0068517 0,9443000
RESULTADO Possibilidades ilimitadas de
Lista individualizada de colaboradores ativos e suas análise
respectivas probabilidades de deixar a organização
• Concentração em algum gestor?
Matrícula Nome P(Desligado) Unidade? Processo?
• Homogêneo entre sexo? Idade?
1 José 20%
Cargo?
2 Maria 23% • Baixo turnover está correlacionado
3 Ana 40% com promoções?
• O turnover está correlacionado
4 Joaquim 12%
com tempo de casa? Menores?
5 Mário 60% Maiores? Ou não se relaciona?
6 Cristina 30% Ações de• Quais os principais “drivers” do
retenção ALTO turnover? E do BAIXO
7 Valéria 20% Individuais turnover?
... • Levamos em conta os drivers de
999 Daniel 90% baixo turnover no processo de
recrutamento?
aviso aos navegantes:
mantenha a mente aberta!
• esta é uma aula técnica: fala sobre conceito e sobre aplicação.
• regressão é a forma mais simples de análise preditiva. é uma
ferramenta poderosa, que pode ser utilizada imediatamente para
ajudar a resolver muitos problemas do dia a dia, com base em fatos e
dados (cada vez mais necessário para suportar decisões de negócio).
• a matemática envolvida é simples. tenha em mente que, na prática,
você não vai precisar fazer nenhum cálculo, apenas entender o sentido.
• mesmo que vc não seja da área de exatas, esta é uma ótima
oportunidade de aprender uma ferramenta que pode ser uma
vantagem competitiva no seu negócio e na sua carreira
•
•
•
•
•
HTTP://GRETL.SOURCEFORGE.NET/PT.HTML
o plano “cartesiano”
René Descartes
1596 - 1650
131
gráficos são parte do nosso dia a dia!
132
correlação
133
correlação
134
qual software devo utilizar?
135
Regressão LINEAR
Simples
DEMONSTRAÇÃO
Demonstração Regressão Linear
ARQUIVO SALARYDATA.CSV
NO EXCEL
Demonstração Regressão Linear
ARQUIVO SALARYDATA.CSV
NO GRETL
Demonstração Regressão Linear
VIEW
SUMMARY STATISTICS.
Demonstração Regressão Linear
DISPLAY VALUES .
Demonstração Regressão Linear
CRIAR UM MODELO DE
REGRESSÃO LINEAR
SIMPLES.
Demonstração Regressão Linear
𝑦 = 𝛼 + 𝛽. x
VARIÁVEL CONSTANTE COEFICIENTE VARIÁVEL
EXPLICADA OU EXPLICATIVA OU
𝛽 DETERMINA A
DEPENDENTE INDEPENDENTE
INCLINAÇÃO DA
Y É O QUE CURVA. PODE SER X É UM DOS
QUEREMOS POSITIVA OU COMPONENTES DA
PREVER NEGATIVA PREDIÇÃO
Demonstração Regressão Linear
SALÁRIO
=𝛼+𝛽 ANOS DE
EXPERIÊNCIA
ANOS DE
SALÁRIO = 25792.2 + 9449.96 X
EXPERIÊNCIA
1 35,242.16 12 139,191.72
2 44,692.12 13 148,641.68
ANOS DE EXPERIÊNCIA
3 54,142.08 14 158,091.64
4 63,592.04 15 167,541.60
5 73,042.00 16 176,991.56
6 82,491.96 17 186,441.52
7 91,941.92 18 195,891.48
8 101,391.88 19 205,341.44
9 110,841.84 20 214,791.40
10 120,291.80 21 224,241.36
PREDIZ 92K
DE SALÁRIO.
7 ANOS DE
EXPERIÊNCIA...
Regressão
LINEAR Múltipla
DEMONSTRAÇÃO
Demonstração Regressão Múltipla
FONTE DE DADOS:
50-STARTUPS.CSV
Demonstração Regressão Múltipla
1º 2º
1.ALL-IN
2.BACKWARD ELIMINATION Stepwise
3.FORWARD ELIMINATION Regression
4.BIDIRECTIONAL ELIMINATION
5.SCORE COMPARISION
Demonstração Regressão Múltipla
ABRIR O ARQUIVO
50-STARTUPS.CSV
CRIAÇÃO DAS VARIÁVEIS “DUMMY”
CRIAÇÃO DO MODELO (OLS)
“Administration” cai fora...
E rodamos o modelo novamente!
Modelo 1 Modelo 2
Modelo 2 Modelo 3
Modelo 3 Modelo 4
FONTE DE DADOS:
EMAILOFFER.CSV
Demonstração Regressão Logística
Demonstração Regressão Logística
PREDIÇÃO...
RESPONDEREM A
OFERTA
Demonstração Regressão Logística
VOILÁ!
Demonstração Regressão Logística
VAMOS VER O
RESULTADO DO
MODELO
Demonstração Regressão Logística
O MODELO PREDIZ
PROBABILIDADES, CONFORME AO
LADO. VAMOS SALVAR OS
VALORES PREDITOS COMO UMA
NOVA VARIÁVEL
Demonstração Regressão Logística
A PARTIR DO MOMENTO
QUE DEFINIMOS UM
THRESHOLD (OU LIMITE),
PODEMOS TRANSFORMAR
PROBABILIDADES EM
PREDIÇÕES, COM UM
SIMPLES “=IF(“ NO EXCEL.
Uma última questão!
REGRESSÃO LOGÍSTICA É UM
ALGORITMO DE REGRESSÃO
OU DE CLASSIFICAÇÃO?
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000
Operacional -0,7491820 0,0065000
Horas extras -0,0174758 0,0083000
Tempo empresa 0,5350320 0,0001000
Bairro residência -0,0095723 0,0192000
Tipo cargo 0,1963290 0,0528000
Turno -0,3351620 0,1575000
Faixa salarial 0,1384160 0,2216000
Estado emissor RG 0,0603732 0,2688000
Tempo sem promoção 0,0133276 0,3939000
Absenteísmo -0,0017207 0,4510000
Estado civil -0,0781035 0,5865000
Promoções 0,0883532 0,7951000
Escolaridade -0,0068517 Lembram do case do Turnover?
0,9443000