PUCRS - Online - Mineração de Dados

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 202

APRESENTAÇÃO

DE APOIO

Data Mining (Mineração de Dados)


DA DISCIPLINA
DA DISCIPLINA

1º ENCONTRO 2º ENCONTRO 3º ENCONTRO

Duncan Dubugras
Fabiano Castello Fabiano Castello
Alcoba Ruiz
CONVIDADO PUCRS

FABIANO CASTELLO DUNCAN DUBUGRAS ALCOBA RUIZ


data wisdom

actionable
signals
intelligence
Visão geral sobre sistemas de suporte à
decisão e inteligência de negócio.
Entendimento sobre o processo de KDD e,
em especial sobre preparação de dados.

Estudo sobre as principais tarefas de


mineração de dados. A Mineração de
Dados e suas utilizações em estudos de
casos reais.
nós poderíamos passar 2 aulas
apenas discutindo os nomes...
Olson (2018) Han et al (2011) Hair et al (2009)

Brown (2014)
intro
BI, KDD & DM
“A Business Intelligence System” (IBM 1958)

H. P. Luhn, "A Business Intelligence System," in IBM Journal of Research and Development,
vol. 2, no. 4, pp. 314-319, Oct. 1958. doi: 10.1147/rd.24.0314
business intelligence and analytics (BI&A)
“BI&A systems provide support
for collecting and transforming
data and put particular
emphasis on data analysis with
the purpose of improving
decision making”
Chen et al., 2012; Davenport, 2006; Shanks et al., 2010
apud Kowalczyk, Martin. (2017). The Support of Decision Processes with Business Intelligence and
Analytics: Insights on the Roles of Ambidexterity, Information Processing and Advice.
DOI: 10.1007/978-3-658-19230-3.
KDD & DM
• são a mesma coisa?
• similares?
• como de relacionam?
DM é uma fase do processo de KDD

mas, na prática, muitas vezes são


usados de forma intercambiável
definições variam mas, de uma forma geral,

KDD the overall process of discovering


useful knowledge from data

DM a particular step in the KDD process.


data mining is the application of
specific algorithms for extracting
patterns from data.
source: Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge
Discovery in Databases. AI Magazine, 17(3), 37. https://doi.org/10.1609/aimag.v17i3.1230
contexto parece confuso... mas não é!

BI&A artificial intelligence


KDD machine learning
DM deep learning

source: Fabiano Castello, adaptado de Brendan Tiernan (2012)


hierarquia
DIKW
where is the Life we have lost in living?
where is the wisdom we have lost in knowledge?
where is the knowledge we have lost in the information?

T.S. Elliot, 1934

“lançada para eternidade” da forma como a conhecemos


hoje por Russell Ackoff em 1989

source: Harvard Business Review, David Weinberger , 2010


hierarquia
DIKW
de para
data wisdom
actionable
signals
intelligence
como chegar lá é nosso próximo assunto...
o segredo é fazer de forma estruturada!
(técnicas, processos ou metodologias)

_ KDD
_ SEMMA
_ CRISP-DM
CRISP-DM
(cross industry standard process for data mining)
• uma das técnicas mais
utilizados em data mining, e
também considerada uma das
mais completas
• principais vantagens são poder
ser aplicada a qualquer tipo de
negócio e não ter dependência
de ferramenta específica para
ser executada.
CRISP-DM
business understand
• identificação do problema a ser
resolvido
• três artefatos
• background: explica contexto e o problema, e como o
projeto vai ser direcionado para solucioná-lo
• objetivo do projeto
• critério de sucesso: qual será a métrica para
determinar se o projeto atingiu o sucesso ou não.
CRISP-DM
data understanding
•coletar
•descrever
•explorar
•verificar a qualidade
CRISP-DM
data preparation
•fase crítica: criação do
“dataset”
•atividades:
• data selection
• data cleaning
• construct data
• integrating data
CRISP-DM
modeling
•selecting modeling
techniques
•designing tests
•building models
•assessing models
CRISP-DM
evaluation
•evaluating results
•reviewing the
process
•determining the
next steps
CRISP-DM
deployment
•planning deployment
•planning monitoring and
maintenance
•reporting final results
•reviewing final results
KDD
“there is an urgent need for a new
generation of computational theories
and tools to assist humans in extracting
useful information (knowledge) from the
rapidly growing volumes of digital data.”
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996)
KDD
(knowledge discovery in databases)
• talvez o mais famoso, ou mais conhecido do
“grande público”
• um dos métodos mais antigos existentes
• compreende uma fase chamada data mining
• não foca em questões de negócio ou geração de
modelos, mas sim na
descoberta de conhecimentos
a partir dos dados (padrões
ou “patterns”)
KDD

source: traduzido a partir de


Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From Data Mining to Knowledge Discovery in Databases. AI Magazine
SEMMA
(Sample, Explore, Modify, Model e Assess)
• criada pelo SAS Institute
• semelhante ao CRISP-DM em muitos aspectos, mas, foca
principalmente nas tarefas de criação do modelo, sem o
protagonismo dos problemas de negócio
• principais steps: explorar informações
básicas dos dados, modificar e
transformar variáveis, gerar o modelo
e validá-lo
• SEMMA é útil para projetos de porte
menor
• contra: não considera a necessidade
do negócio
SEMMA
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014.
problema de negócio

entender, limpar
e transformar dados 1
“modelar”: descobrir
padrões, fazer previsões
2
resultados para o negócio
source: Shafique, Umair & Qaiser, Haseeb. (2014). A Comparative Study of Data Mining Process Models (KDD, CRISP-DM and SEMMA)
International Journal of Innovation and Scientific Research. 12. 2351-8014.
independente da metodologia escolhida:
data exploration

data preprocessing

data transformation

mining
data exploration
foundation, data sources
“big data”
dados não-estruturados

maior necessidade de recursos


qualquer tipo de dado: posts, imagens, áudio, vídeo, livros

maior complexidade,
dados semiestruturados
exemplos: XML e JSON

dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e
colunas; bancos de dados relacionais
foundation, data sources

dados estruturados
tabelas; nosso dia a dia empresarial; em geral linhas e
colunas; bancos de dados relacionais

nossos exemplos vão focar em


dados estruturados
explorar os dados é fundamental
conhecer • tamanho dos dados
• tipos de variáveis
os dados • como os valores estão
distribuídos

validar • totalizações
os dados • missing values
• outliers
atributos, variáveis,
casos, “tuple”, características, features
observações
registros,

tabela
foundation, data formats
• numerical (continuous values: 0,5; 1,2; -1,55; idade)
• integer (integer values: 0, 1, -2; número de filhos)
• binary (dois estados: true/false; 1/0 ; aposentado)
• category (a finite set of possible values: estados BR)
• date (08/11/2019 19:45)
• string/text (texto comum: brasil, João Silva)

source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
visualização de dados
(data visualization ou dataviz)
é uma excelente forma
de explorar dados
Hans Hosling 200 países, 200 anos, 4 minutos (LegBR)

https://youtu.be/xw9etmhojlQ
ia.fabianocastello.com

referências em dataviz
great book!

Storytelling com Dados:


um Guia Sobre
Visualização de Dados
Para Profissionais de
Negócios
em Português
barato! Amazon ~R$50
a importância da visualização de dados:
4 conjuntos de dados diferentes, mesmos números

• mesma média e variância de X


• mesma média de Y (até p2)
• mesma variância de y (até p3)
• mesma correlação (até p3)
• mesma regressão
y = 3,00 + 0,500x
(até p2 e p3)

source: Wikipedia, “Quarteto de Anscombe”


histogram,
gráfico de barras
• criado por william
Playfair há 200+ anos
• muito popular, usado
para comparar categorias.
fácil de interpretar e bastante
preciso
• podem ser usados também
para representar tendências
(mas mais entre períodos do
que para continuidade)
scatter plot,
gráfico de dispersão
• correlaciona duas variáveis
• pode ser usado para até quatro variáveis (tamanho e cor do ponto)
tree maps
• apesar de nosso cérebro ser péssimo para comparar áreas,
tree maps são excelentes para dar contexto.
• use como um gráfico auxiliar
uma forma sintética de
boxplot analisar estatística descritiva
de uma variável numérica
diagrama de caixa

“mediana” mediana é diferente de média! “mediana”


entre a mediana é o valor central do dataset entre a
mediana e
mediana e o o maior
menor número número

outliers: valores atípicos

mais informação sobre estatística descritiva? Veja wikipedia. completo e em português.


facets
• olhar análises combinadas pode dar
uma visão abrangente sobre o dataset
• é uma forma de mesclar categorias e
números
• matriz de
correlações de
variáveis
numéricas.
• importantíssimo
quando formos ver
técnicas de análise
multivariada
• diretamente
relacionado com
um importante
conceito:
multicolinearidade
antes de finalizar, uma dica sobre dataviz:
nunca mais faça um gráfico 3D!
usar 3D é exemplo de amadorismo em análise de dados!
3D
aparentemente charmosos, na verdade podem esconder partes
importantes de informação e prejudicar o entendimento por
conta de cores, sombras e inclinações de eixos.
algumas ferramentas (não exaustivo)

ótima opção mas


precisa ter skills de
programação

alteryx automatiza
todo o processo
prévio do mining
FCA2 FC auto analyser
ferramenta gratuita para análise de dados

• ferramenta gratuita de produtividade para analisar dados em


formato XLS e CSV • morfologia: registros, campos,
• roda em Python tipos dos campos
• campos texto: registros,
• mantida pela comunidade duplicações, missing,
frequência das top "n"
categorias
• registros, registros zerados,
missing, soma, média, desvio,
tabelas de entrada resultados máximos e mínimos, amplitude,
FCA2
XLS ou CSV automáticos quartis (dois conjuntos, o
segundo desconsiderando
zeros).
• gráficos para cada variável
numérica: boxplot e histograma
FCA2 FC auto analyser
o que está no pipeline
• colocar todas as informações juntas em um único PDF.
• inserir data labels nos histogramas.
• montar correlação entre variáveis numéricas (facets).
• criar uma versão compilada para ampliar o uso por
pessoas que não usam python (Windows EXE), e uma
interface gráfica

quer ajudar a desenvolver a ferramenta?


https://github.com/fabianocastello/fca2
data preprocessing:
cleaning, integration,
reduction, quality
missing values
valores ausentes em datasets são comuns: é importante entender a
quantidade e a gravidade (ex.: missing keys) para definir a estratégia.

cuidado: nem sempre um missing é um erro (ex.: CNH em análise de crédito)


missing values: estratégias
1. ignorar os registros (eliminar do dataset)
2. completar manualmente (“time consuming”,
não assegura padrão)
3. usar uma constante global para todos os
casos • essas estratégias trazem
4. usar as medidas de tendência central viés
“global” do atributo • 3 a 6: ordem de
complexidade
5. usar as medidas de tendência central do
• 6 é a mais popular, mas
atributo com base em classes presentes em precisa ser algo que
outro atributo realmente importa na
6. usar o valor mais provável (ex.: regressão ou análise
inferência)
outliers: usar mesmas estratégias de missing
duplicados: o desafio é saber porque
estão lá, e se são erros ou não.
importante: computador, por definição, é uma
máquina burra!

joão

joao
noise: erros aleatórios
o maior desafio de data mining é separar noise e signal

Silver, N. (2012) The Signal and the Noise: Why So Many Predictions Fail-but Some Don’t. Penguim Books
noise: estratégias
1. binning: tornar valores contínuos
em valores discretos; “amaciar”
usando valores de tendência
central do bin
2. regression: achar os valores mais
prováveis de uma variável em
função de outra (veremos com
detalhes em mining)
3. outliers: filtrar outliers e utilizar
estratégias de missing values
data integration

• datasets que montamos para minerar em geral são


uma base única, mas raramente parte-se de uma única
base
• para integrar bases de dados dois conceitos são
importantes
• entendimento das variáveis segundo unique rules,
consecutive rules, and null rules (também é técnica de
validação)
• como as bases de relacionam (chaves, modelo E/R)
data integration
• unique rules: os valores de um determinado atributo
devem ser únicos, não podem se repetir (ex.: códigos de
identificação em geral)
• consecutive rules: não pode haver missing values entre
o valor mínimo e o valor máximo, bem como também
precisam ser únicos (ex.: numero de NF)
• null rules: especifica condições específicas em que
valores ausentes são admissíveis
left outer right outer
full outer

inner
left inner right inner
data reduction - estratégias

reduzir dimensões

reduzir registros
redução dimensional
• técnica mais utilizada:
análise fatorial - PCA – principal component analisys
• ótima referência para entender com profundidade e
utilizar: HAIR et al (2009). Análise multivariada de
dados. 6.ed. Porto Alegre, Bookman. revisão técnica do
livro em português: Prof. Dra. Maria Aparecida Gouvêa,
FEA/USP
• não podemos perder de vista: reduzir dados
minimizando a perda nos resultados principais
PCA
•técnica de análise multivariada que identifica
um número menor de fatores que podem
representar relações entre variáveis que estão
interrelacionadas
•lógica: variáveis que apresentam correlação
expressiva compartilham algum fator em comum
que pode substituí-las, preservando um bom
percentual da variabilidade dos dado originais.
PCA aplica-se apenas para variáveis numéricas
uma vez que estamos capturando a variância total
de um conjunto de variáveis, as mesmas precisam
estar numa escala similar.

idade altura escalas diferentes


40 1,90 precisam ser
padronizadas
34 1,75
27 1,70
22 1,68

15 1,50
veremos com mais detalhes em data transformation
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
source: HAIR et al. Análise multivariada de dados. 6.ed. Porto Alegre, Bookman, 2009
PCA: observações importantes
• PCA não é regressão: é uma técnica de
interdependência
• existem condicionais para o uso da técnica,
principalmente em relação ao tamanho da amostra
• multicolinearidade: em PCA é até mesmo desejável!
• a técnica utiliza estatísticas para verificar a qualidade
de sua utilização: carga fatorial, MSA, KMO, Barlett,
eigenvalues. não basta rodar: tem que ver se ficou
bom!
redução numérica
redução numérica –
estratégia histograma ou binning
• definir “bins” ou “buckets” ou faixas.
• há perda de informação: perde-se granularidade
• regras:
• equal-width: limites de faixa fixos
• equal-frequency: quantidade de itens por faixa
constante
redução numérica –
estratégia histograma ou binning
1, 1, 5, 5, 5,
5, 5, 8, 8, 10,
10, 10, 10,
12, 14, 14,
14, 15, 15,
15, 15, 15,
15, 18, 18,
18, 18, 18,
18, 18, 18,
20, 20, 20,
20, 20, 20,
20, 21, 21,
21, 21, 25,
25, 25, 25,
25, 28, 28,
30, 30, 30

singleton buckets
redução numérica –
estratégia histograma ou binning
• esta estratégia é interessante para
transformar variáveis contínuas em
discretas. fazemos muito isto
transformando idade (contínua)
em faixas de idade (discreta)
(discretization – veremos mais a frente)

• cube-aggregation é
semelhante, com mais
dimensões
redução numérica –
estratégia agrupamento ou clustering
• cluster é uma técnica de
interdependência
• cada registro ou “tuple” é
considerado um objeto, e os
objetos são agrupados de
acordo com similaridade.
redução numérica –
estratégia agrupamento ou clustering
• cluster é uma técnica espacial
que utiliza a distância entre
objetos
• a lógica é maximizar
similaridades de objetos em
cada cluster e maximizar a
dissimilaridade entre os
clusters
redução numérica –
estratégia agrupamento ou clustering
•dentro da lógica de redução, utilizam-
se os clusters ao invés dos objetos
originais
•métodos
•hierárquico (mais tradicional)
•k-means (mais utilizado e bem mais fácil)
redução numérica – sampling ou amostragem
• técnica muito usada em estatística de uma forma
geral: tentar, a partir de uma parte, inferir sobre
o todo
• no nosso contexto, muitas
vezes não conseguimos
processar toda a informação que temos, então
uma das técnicas de redução que podemos usar
é o sampling ou amostragem
source: Anderson et al (2011) Essentials of Statistics for Business & Economics, South-Western Cengage
Learning; Seema Singh S (2018) Sampling Techniques. towardsdatascience.com.
probability non- probability
sampling Sampling

•simple random •convenience


•stratified •purposive
•cluster •quota
•systematic •referral/ snowball
pouco interesse no nosso contexto
•multi-stage
simple random sampling
cada elemento da população tem a mesma
chance de ser selecionado

numa população de
15 alunos cada um
tem uma chance de
1/15 de ser escolhido
stratified sampling
como a randômica mas feita a partir de uma
pré-divisão da população.

estratificação traz grupos


homogêneos entre si mas
heterogêneos quando
comparados a outros grupos. a
seleção é aleatória dentro de
cada grupo
cluster sampling é muito semelhante.
veja a documentação
systematic sampling
elementos são selecionados em intervalos
regulares da população (exceto o primeiro elemento).
multi-stage sampling
combinação
dos métodos
anteriores
data quality

qualidade dos dados está diretamente relacionada


com o resultado final do processo de mining!
data quality
•o maior problema: não há receita pronta nem
software específico. há necessidade de
conhecimento do negócio e.g. adolescentes com
alta renda, gravidez para sexo masculino
•checar consistências e redundâncias
• com fontes externas e.g. total NF emitidas x receita DRE
• cross- reference e.g. totalização da valorização dos itens
NF x total do cabeçalho da NF
the six primary dimensions
for DQ assessment the proportion of stored data
against the potential of
"100% complete"

The absence of no thing will be


difference, when recorded more than
comparing two or more once based upon
representations of a how that thing is
thing against a identified
definition.

the degree to which


The degree to which data represent
data correctly describes reality from the
the "real world" object or required point in
event being described. time

data are valid if it conforms to the syntax


(format, type, range) of its definition
data transformation
data transformation
transformar ou consolidar dados
visando tornar o processo de mining
mais eficiente e os padrões
(patterns) mais fáceis de serem
identificados e entendidos.
data transformation – estratégias
1. smoothing overlap com
2. attribute (feature) técnicas de
construction cleaning
3. aggregation
4. discretization
5.normalization
6. hierarchy generation for nominal data
normalization serve para comparar:
dar peso igual para coisas diferentes
• normalização e padronização são sinônimos?
• não: normalização, em estatística, tem conotações específicas.
• sim: na prática (mercado) o termo é usado de forma intercambiável

idade altura • quais os tipos principais de


1,90
normalização?
40

• min-max normalization
34 1,75
27 1,70 • z-score normalization
22 1,68

15 1,50
normalização por máximo e mínimo
• X: observação
(X – min) • min: valor mínimo amostra
x (maxN – minN) + minN •

max: valor máximo amostra
minN: novo valor mínimo
(max – min) • maxN: novo valor máximo

1; 1; 5; 5; 5; 5; 5; 8; 8; 0,00; 0,00; 0,14; 0,14; 0,14; 0,14; 0,14;


10; 10; 10; 10; 12; 14; 0,24; 0,24; 0,31; 0,31; 0,31; 0,31; 0,38;
14; 14; 15; 15; 15; 15; 0,45; 0,45; 0,45; 0,48; 0,48; 0,48; 0,48;
15; 15; 18; 18; 18; 18; normalização 0,48; 0,48; 0,59; 0,59; 0,59; 0,59; 0,59;
18; 18; 18; 18; 20; 20; min máx 0,59; 0,59; 0,59; 0,66; 0,66; 0,66; 0,66;
20; 20; 20; 20; 20; 21; 0,66; 0,66; 0,66; 0,69; 0,69; 0,69; 0,69;
21; 21; 21; 25; 25; 25; (0,1) 0,83; 0,83; 0,83; 0,83; 0,83; 0,93; 0,93;
25; 25; 28; 28; 30; 30; 1,00; 1,00; 1,00;
30
normalização
por z-score
• X: observação
X – média • média: média da amostra
• desvio: desvio padrão da
desvio amostra

1; 1; 5; 5; 5; 5; 5; 8; 8; 10; -2,09; -2,09; -1,56; -1,56; -1,56; -1,56; -1,56; -


10; 10; 10; 12; 14; 14; 14; 1,15; -1,15; -0,89; -0,89; -0,89; -0,89; -0,62; -
15; 15; 15; 15; 15; 15; 18; 0,35; -0,35; -0,35; -0,22; -0,22; -0,22; -0,22; -
18; 18; 18; 18; 18; 18; 18;
20; 20; 20; 20; 20; 20; 20;
normalização 0,22; -0,22; 0,18; 0,18; 0,18; 0,18; 0,18; 0,18;
0,18; 0,18; 0,45; 0,45; 0,45; 0,45; 0,45; 0,45;
21; 21; 21; 21; 25; 25; 25;
25; 25; 28; 28; 30; 30; 30
z-score 0,45; 0,58; 0,58; 0,58; 0,58; 1,11; 1,11; 1,11;
1,11; 1,11; 1,51; 1,51; 1,78; 1,78; 1,78

média 16,7 média 0


desvio 7,5 desvio 1
hierarquização
país ano
estado mês
cidade dia
bairro hora
rua minuto
número segundo
outras transformações
•não há regra, é caso a caso
•um bom exemplo: raramente um dataset tem
o campo idade

(data base) - (data nascimento)


= idade decimal
365
data mining
data mining techniques (não exaustivo)
Inteligência
Estatística
Artificial

• cluster detection • machine


• linear regression learning
• neural networks
• logistic regression
• decision trees
• rule induction
source: adaptado de Olson, D. (2018) Data Mining Models, Second Edition, Business Expert Press
nosso foco em mining
machine regressão linear
learning e logística

visão geral de como como funciona na


IA se aplica em prática, com
mining, e um exemplos
exemplo real reproduzíveis pelos
alunos
inteligência
artificial
...pode ajudar nas
respostas mas está
muito longe de saber
fazer as perguntas!
simplificando...
inteligência artificial
machine learning
(aprendizado de máquina)

predictive analysis
(análise preditiva)
“prever” está mais rápido,
mais barato e mais assertivo.
e possibilita novas aplicações.

predictive analysis
(análise preditiva) O termos mais correto é “predição”
mas para simplificação estamos
usando “previsão”
autonomia veicular nunca foi
pensado como um problema
de previsão!
autonomia não é novo mas
tradicionalmente é utilizada em
ambientes controlados, como por
exemplos armazéns.
os CONDICIONAIS são simples:

SE • alguém está na Então • pare


frente • vá para próxima
• prateleira está prateleira
vazia
autonomia numa cidade
é impossível com o
método tradicional!
muitos condicionais
• está escuro • farol está apagado
SE • está chovendo
• uma criança corre para
• placa é ilegível
• há blitz da lei-seca
frente do carro
• outro veículo freia a frente etc, etc, etc
o mundo real é
imperfeito ☺
o mundo real é
imperfeito ☺
similaridade é
óbvio para o
ser humano,
mas não é
para um
computador
autonomia veicular SÓ o que um “bom
pode ser resolvido com
humano” faria?
previsão!
“programa” que
“bom humano”
faz previsões
dirige aprende
câmeras, radares e
olhos e ouvidos
sensores
“bom humano”
dirige
câmeras, radares e
dados
sensores
“programa” define
atualiza uma ação

erra ou
aprende
acerta
121
“bom humano”
vê um pedestre
câmera capta
dados
a imagem
“programa”
atualiza decide frear

APRENDE
acerta
122
no início o “programa” comete erros…
…mas aprende com estes erros e atualiza o
“programa” sempre que prevê de forma
errada o que um “bom humano” faria.
as previsões melhoram até o momento em
que o “programa” fica melhor que um
“bom humano”; neste ponto, o “programa”
pode atuar sozinho.
outro exemplo,
mais próximo do
dia a dia
+ Desligado

“dataset”
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000
Operacional -0,7491820 0,0065000
Horas extras -0,0174758 0,0083000
Tempo empresa 0,5350320 0,0001000
Bairro residência -0,0095723 0,0192000
Tipo cargo 0,1963290 0,0528000
Turno -0,3351620 0,1575000
Faixa salarial 0,1384160 0,2216000
Estado emissor RG 0,0603732 0,2688000
Tempo sem promoção 0,0133276 0,3939000
Absenteísmo -0,0017207 0,4510000
Estado civil -0,0781035 0,5865000
Promoções 0,0883532 0,7951000
Escolaridade -0,0068517 0,9443000
RESULTADO Possibilidades ilimitadas de
Lista individualizada de colaboradores ativos e suas análise
respectivas probabilidades de deixar a organização
• Concentração em algum gestor?
Matrícula Nome P(Desligado) Unidade? Processo?
• Homogêneo entre sexo? Idade?
1 José 20%
Cargo?
2 Maria 23% • Baixo turnover está correlacionado
3 Ana 40% com promoções?
• O turnover está correlacionado
4 Joaquim 12%
com tempo de casa? Menores?
5 Mário 60% Maiores? Ou não se relaciona?
6 Cristina 30% Ações de• Quais os principais “drivers” do
retenção ALTO turnover? E do BAIXO
7 Valéria 20% Individuais turnover?
... • Levamos em conta os drivers de
999 Daniel 90% baixo turnover no processo de
recrutamento?
aviso aos navegantes:
mantenha a mente aberta!
• esta é uma aula técnica: fala sobre conceito e sobre aplicação.
• regressão é a forma mais simples de análise preditiva. é uma
ferramenta poderosa, que pode ser utilizada imediatamente para
ajudar a resolver muitos problemas do dia a dia, com base em fatos e
dados (cada vez mais necessário para suportar decisões de negócio).
• a matemática envolvida é simples. tenha em mente que, na prática,
você não vai precisar fazer nenhum cálculo, apenas entender o sentido.
• mesmo que vc não seja da área de exatas, esta é uma ótima
oportunidade de aprender uma ferramenta que pode ser uma
vantagem competitiva no seu negócio e na sua carreira




HTTP://GRETL.SOURCEFORGE.NET/PT.HTML
o plano “cartesiano”

René Descartes
1596 - 1650

131
gráficos são parte do nosso dia a dia!

132
correlação

133
correlação

134
qual software devo utilizar?

135
Regressão LINEAR
Simples
DEMONSTRAÇÃO
Demonstração Regressão Linear

ARQUIVO SALARYDATA.CSV
NO EXCEL
Demonstração Regressão Linear

ARQUIVO SALARYDATA.CSV
NO GRETL
Demonstração Regressão Linear

VIEW
SUMMARY STATISTICS.
Demonstração Regressão Linear

BOTÃO DIREITO DO MOUSE

DISPLAY VALUES .
Demonstração Regressão Linear

CRIAR UM MODELO DE
REGRESSÃO LINEAR
SIMPLES.
Demonstração Regressão Linear

SALARY É O QUE QUEREMOS PREVER


CONST É A CONSTANTE
YEARSEXPERIENCE É UM “REGRESSOR”
I.E. SERÁ USAR COMO BASE PARA
PREVER O SALÁRIO
Demonstração Regressão Linear

VOILÁ! ESTE É O MODELO!


Demonstração Regressão Linear

REGRESSÃO LINEAR É DEFINIR A


MELHOR CURVA (NO CASO,
RETA) DE FORMA QUE A
DISTÂNCIA ENTRE OS PONTOS E A
CURVA AJUSTADA SEJA A MENOR
POSSÍVEL
Demonstração Regressão Linear
A CURVA É DEFINIDA POR UMA EQUAÇÃO

𝑦 = 𝛼 + 𝛽. x
VARIÁVEL CONSTANTE COEFICIENTE VARIÁVEL
EXPLICADA OU EXPLICATIVA OU
𝛽 DETERMINA A
DEPENDENTE INDEPENDENTE
INCLINAÇÃO DA
Y É O QUE CURVA. PODE SER X É UM DOS
QUEREMOS POSITIVA OU COMPONENTES DA
PREVER NEGATIVA PREDIÇÃO
Demonstração Regressão Linear

QUEREMOS PREVER SALÁRIO EM FUNÇÃO DOS ANOS DE EXPERIÊNCIA, ENTÃO:

SALÁRIO
=𝛼+𝛽 ANOS DE
EXPERIÊNCIA

“CRIAR UM MODELO” É USAR UM SOFTWARE QUE


DETERMINA ESTES COEFICIENTES
Demonstração Regressão Linear
Demonstração Regressão Linear

ANOS DE
SALÁRIO = 25792.2 + 9449.96 X
EXPERIÊNCIA

ESTA EQUAÇÃO É O SEU MODELO PREDITIVO!


VOCÊ PODE USÁ-LA, POR EXEMPLO, NO EXCEL
(MAS ANTES TEMOS QUE VER ALGUNS OUTROS PONTOS IMPORTANTES DO “OUTPUT” DO GRETL)
DEMONSTRAÇÃO REGRESSÃO LINEAR

p-value é uma medida


importante. O significado é que
quanto menor for o valor mais
significativa é a variável para
prever a variável dependente.

Neste caso o p-value é muito


pequeno (note que o resultado é
mostrado em potencia de 10.
Exemplo: 5.51x10-12, ou
0,000000000551)
Demonstração Regressão Linear

R2 e R2AJ são medidas para saber quanto o modelo pode


explicar os dados analisados. Variam de 0 a 1, e quanto
mais próximo de 1 mais a equação explica os dados.
O “nosso” R²AJ é 0,955419. Isto significa que 95,54% da variável dependente
(salário) consegue ser explicada pelos regressores presentes no modelo
(constante e anos de experiência).
Demonstração Regressão Linear

NOSSO MODELO NO EXCEL


Anos Exp. Salário Anos Exp. Salário
0 25,792.20 11 129,741.76
PREVISÃO DO NOSSO MODELO DE 0 A 21

1 35,242.16 12 139,191.72
2 44,692.12 13 148,641.68
ANOS DE EXPERIÊNCIA

3 54,142.08 14 158,091.64
4 63,592.04 15 167,541.60
5 73,042.00 16 176,991.56
6 82,491.96 17 186,441.52
7 91,941.92 18 195,891.48
8 101,391.88 19 205,341.44
9 110,841.84 20 214,791.40
10 120,291.80 21 224,241.36
PREDIZ 92K
DE SALÁRIO.

7 ANOS DE
EXPERIÊNCIA...
Regressão
LINEAR Múltipla
DEMONSTRAÇÃO
Demonstração Regressão Múltipla

FONTE DE DADOS:
50-STARTUPS.CSV
Demonstração Regressão Múltipla

Baseada numa amostra de 50 startups,


criar um modelo preditivo de lucro.

Os atributos disponíveis são:


• Gastos em pesquisa e desenvolvimento (“R&D”)
• Gastos em Administração (“administration”)
• Gastos em Marketing
• Estado onde está baseada a startup

A variável dependente é o lucro (“profit”)


Demonstração Regressão Múltipla
VARÍAVEL VARÍAVEIS VARÍAVEIS
DEPENDENTE INDEPENDENTE “DUMMY”

INCLUIR CALIFORNIA CRIA UM PROBLEMA DE COLINEARIDADE


Demonstração Regressão Múltipla

A VIDA É FÁCIL COM SOMENTE


UMA VARIÁVEL INDEPENDENTE...

POR QUÊ ELIMINAR VARIÁVEIS ? ? ?


Demonstração Regressão Múltipla

1º 2º

MAS COMO ESCOLHER QUAIS VARIÁVEIS SAEM DA EQUAÇÃO?


Demonstração Regressão Múltipla

1.ALL-IN
2.BACKWARD ELIMINATION Stepwise
3.FORWARD ELIMINATION Regression

4.BIDIRECTIONAL ELIMINATION
5.SCORE COMPARISION
Demonstração Regressão Múltipla

ABRIR O ARQUIVO
50-STARTUPS.CSV
CRIAÇÃO DAS VARIÁVEIS “DUMMY”
CRIAÇÃO DO MODELO (OLS)
“Administration” cai fora...
E rodamos o modelo novamente!
Modelo 1 Modelo 2
Modelo 2 Modelo 3
Modelo 3 Modelo 4

OOPS! MAS SE O MODELO “3” É MELHOR QUE O “4”...

“3” IS THE GUY! WE HAVE A WINNER!


Modelo 3
Demonstração Regressão Múltipla

PROFIT = 46975,9 + 0,796584 RDSPEND + 0,0299079 MARKETINGSPEND

PRONTO PARA EXCEL!! I.E. QUANDO VC QUISER PREVER O


LUCRO DE UMA STARTUP BASTA VOCÊ SABER QUANTO ELA
GASTA DE PESQUISA E DESENVOLVIMENTO E DE MARKETING.
Regressão
Logística
DEMONSTRAÇÃO
Demonstração Regressão Logística

Escolher pela opção


Usamos regressão depende da
Nos modelos de regressão logística como um probabilidade de ocorrer
linear simples e múltipla algorítmo de o evento. Modelos de
estávamos tentando classificação, ou seja, regressão logística dão
prever um valor numérico. estamos buscando uma como resultado uma
opção. probabilidade.
Demonstração Regressão Logística

FONTE DE DADOS:
EMAILOFFER.CSV
Demonstração Regressão Logística
Demonstração Regressão Logística

VAMOS VIZUALIZAR OS DADOS NUM GRÁFICO DE DISPERSÃO


Demonstração Regressão Logística

CLARAMENTE UMA EXISTE UMA


TENDÊNCIA PARA
REGRESSÃO LINEAR PESSOAS MAIS VELHAS

NÃO É A MELHOR RESPONDEREM A


OFERTA
EXISTE UMA
OPÇÃO PARA TENDÊNCIA PARA
PESSOAS MAIS
FAZER UMA JOVENS NÃO

PREDIÇÃO...
RESPONDEREM A
OFERTA
Demonstração Regressão Logística

PROBABILIDADES SÃO VALORES ENTRE 0 E 1


Demonstração Regressão Logística
Demonstração Regressão Logística
Demonstração Regressão Logística
Demonstração Regressão Logística

O MODELO CALCULA AS PROBABILIDADES. A LINHA QUE SEPARA O QUE É


“SUCESSO” OU “FRACASSO” É ARBITRÁRIA E.G. DESCISÃO DE NEGÓCIO
Demonstração Regressão Logística

VAMOS VER COMO FAZER ISTO NO GRETL


Demonstração Regressão Logística

MAS ANTES VAMOS CRIAR AS VARIÁVEIS “DUMMY”


Demonstração Regressão Logística
Demonstração Regressão Logística

VOILÁ!
Demonstração Regressão Logística

VAMOS VER O
RESULTADO DO
MODELO
Demonstração Regressão Logística

O MODELO PREDIZ
PROBABILIDADES, CONFORME AO
LADO. VAMOS SALVAR OS
VALORES PREDITOS COMO UMA
NOVA VARIÁVEL
Demonstração Regressão Logística

VAMOS ANALISAR O RESULTADO DO MODELO COM AS VARIÁVEIS


REGRESSORAS E AS PREDIÇÕES
Demonstração Regressão Logística
Demonstração Regressão Logística

PARA USAR NO EXCEL TEMOS


QUE TER A EQUAÇÃO DA
PROBABILIDADE

NO EXCEL É ASSIM QUE VAMOS USAR


Demonstração Regressão Logística

NO EXCEL É ASSIM QUE VAMOS USAR


Demonstração Regressão Logística
Demonstração Regressão Logística

A PARTIR DO MOMENTO
QUE DEFINIMOS UM
THRESHOLD (OU LIMITE),
PODEMOS TRANSFORMAR
PROBABILIDADES EM
PREDIÇÕES, COM UM
SIMPLES “=IF(“ NO EXCEL.
Uma última questão!

REGRESSÃO LOGÍSTICA É UM
ALGORITMO DE REGRESSÃO
OU DE CLASSIFICAÇÃO?
Característica Coeficiente P-Valor
Idade -0,2626090 0,0018000
Operacional -0,7491820 0,0065000
Horas extras -0,0174758 0,0083000
Tempo empresa 0,5350320 0,0001000
Bairro residência -0,0095723 0,0192000
Tipo cargo 0,1963290 0,0528000
Turno -0,3351620 0,1575000
Faixa salarial 0,1384160 0,2216000
Estado emissor RG 0,0603732 0,2688000
Tempo sem promoção 0,0133276 0,3939000
Absenteísmo -0,0017207 0,4510000
Estado civil -0,0781035 0,5865000
Promoções 0,0883532 0,7951000
Escolaridade -0,0068517 Lembram do case do Turnover?
0,9443000

Regressão logística na veia!


Visão geral sobre sistemas de suporte à
decisão e inteligência de negócio.
Entendimento sobre o processo de KDD e,
em especial sobre preparação de dados.

Estudo sobre as principais tarefas de


mineração de dados. A Mineração de
Dados e suas utilizações em estudos de
casos reais.
Este material foi originalmente criado por

Fabiano Castello [email protected]


http://fabianocastello.com | https://orcid.org/0000-0003-0162-0458 | http://bit.ly/fcastello

Este material é de uso exclusivo dos alunos do programa MBA em


Tecnologia para Negócios: AI, Data Science e Big Data, disponibilizado
pela PUC/RS, e está registrado no DOI (“document object identifier”)
https://doi.org/10.6084/m9.figshare.10279748
Exceto no caso de Você não pode copiar ou compartilhar o material em qualquer suporte ou
fotos de pessoas,
e material de formato.
copyright
específico, você Você não pode adaptar, remixar, transformar e criar a partir do material.
tem os deveres ao
lado. Se você utilizar alguma referência deste material em mídia diferente de
uma apresentação, você deverá citá-lo como “Castello, Fabiano (2019):
Apresentação de apoio da aula de Data Mining do programa MBA PUC/RS
em Tecnologia para Negócios: AI, Data Science e Big Data. figshare.
Respeite
Respeite o
o direito
direitoautoral
autoral Presentation. https://doi.org/10.6084/m9.figshare.10279748”
bit.ly/plagioV1
bit.ly/plagioV1

Você também pode gostar