A1 - Ciencia de Dados

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 18

Análise Preditiva

e Classificação
Introdução à Análise Preditiva

Responsável pelo Conteúdo:


Prof. Me. Orlando da Silva Junior

Revisão Textual:
Prof.ª Dr.ª Luciene Oliveira da Costa Granadeiro
Introdução à Análise Preditiva

• Introdução à Análise Preditiva e à Classificação;


• Aprendizagem de Máquina e Análise Preditiva;
• Aplicações.

OBJETIVOS DE APRENDIZADO
• Descrever o processo de modelagem preditiva;
• Revisar tópicos de aprendizagem de máquina para análise preditiva;
• Compreender o processo de classificação de dados;
• Estudar aplicações preditivas.
UNIDADE Introdução à Análise Preditiva

Introdução à Análise Preditiva e à Classificação


A Análise Preditiva (ou Analytics) é uma disciplina focada em entender os porquês
de um determinado fenômeno estar acontecendo e o que vai acontecer com esse
fenômeno no futuro. Em geral, o objetivo das suas aplicações é descobrir, interpretar
e comunicar padrões significativos observados nos dados.

Enquanto isso, a classificação é um processo especial e resultante da análise e


modelagem preditiva. Podemos dizer que a classificação de dados é um tipo de apli-
cação originada da análise preditiva e construída a partir dela.

Para compreender melhor como podemos entender, esquematizar e construir


essas aplicações, vamos estudar:
• Qual é o papel do dado e a interpretação que ele carrega;
• As habilidades necessárias para a construção de aplicações analítica; e
• As tecnologias envolvidas na análise preditiva e na classificação de dados.

Inicialmente, vamos admitir que os dados são fatos conhecidos e registrados, ten-
do eles um significado implícito. Por exemplo, se João tem 40 anos, o valor numéri-
co 40 indica o dado, e “40 anos” informa o significado desse dado, o qual conhece-
mos como informação. A partir desse conjunto de informações, um conhecimento
pode ser extraído. A Figura 1 ilustra esse exemplo e apresenta a relação entre dado,
informação e conhecimento. A diferença entre esses conceitos é importante para
que você possa compreender mais à frente como as aplicações de Analytics desen-
volvem o conhecimento a partir da granularidade dos dados.

Assim, um banco de dados (ou base de dados) é uma coleção de dados que pos-
suem alguma relação entre si (ELMASRI; NAVATHE, 2019). Retomando o exemplo
anterior, vamos admtir que João, com 40 anos, trabalha na empresa XPTO, que está
localizada na cidade de Santo André, em São Paulo. A relação entre duas entidades
distintas – o profissional e a empresa – nos mostra que pode existir uma coleção de
dados em que João faz parte. Essa coleção poderia constituir um banco de dados.

Dado Informação Conhecimento


João Nome: João Com 40 anos, João pode
40 Idade: 40 anos solicitar o bônus especial
a funcionários que atingem
essa idade na empresa.

Figura 1 – A relação entre dado, informação e conhecimento

Além dos bancos de dados, as aplicações de Analytics utilizam extensivamente


habilidades em computação, estatística, matemática e aquelas próprias de cada do-
mínio de negócio.

8
Quando falamos de habilidades de negócio, queremos dizer que as habilidades ne-
cessárias para atuar no mercado financeiro são diferentes daquelas exigidas no setor
da saúde, por exemplo. Isso acontece com todo segmento de negócio, fazendo com
que o especialista em Analytics também seja conhecedor do seu segmento de atuação.

Mas será que você precisará conhecer todos os segmentos de negócio para pra-
ticar Analytics? Será que você precisará conhecer um segmento de negócio a fundo
para trabalhar na área?

A resposta para ambas as perguntas é NÃO. Sabe por quê?

Porque, apesar de essa habilidade em negócio ser necessária, o estudo de


Analytics que você vai encontrar aqui abordará um conjunto de soluções que pode-
rão ser compartilhadas entre várias áreas. A partir de agora, você deixará de lado as
habilidades específicas de negócio e se concentrará nas habilidades comuns que todo
especialista em Analytics possui, que são as habilidades em computação, estatística
e matemática.

Vamos entender melhor como essas habilidades são utilizadas?

Nas organizações, a computação é empregada de maneira exaustiva durante o


desenvolvimento de aplicações analíticas. Na maior parte das vezes, essa demanda
por um processamento intensivo é requerida em razão do grande volume de dados
usado para a construção das aplicações.

No caso da matemática e da estatística, são duas as principais atividades que elas


têm suportado no contexto de Analytics:
• Em tarefas de análise de dados, que visam resumir, formatar e interpretar as
características principais dos dados; e
• No desenvolvimento de modelos estatísticos que expliquem os comportamentos
particulares do domínio de negócio. Embora muitos modelos não façam parte da
estatística, incluímos aqui aqueles gerados pelos algoritmos de Machine Learning.

Outro ponto de atenção importante quando falamos de Análise Preditiva, espe-


cialmente nos tempos atuais, é a tecnologia empregada no desenvolvimento e na
implantação do que foi desenvolvido. Essa questão é importante não apenas para
quem desenvolve, mas sobretudo para quem utiliza o que foi construído.

Sistemas e tecnologias de Big Data têm sido desenvolvidos com apoio daquelas
disciplinas para permitir que os tomadores de decisão se concentrem na extração
de insights de negócio. Do ponto de vista desses tomadores de decisão, Analytics
é uma ferramenta que deve ser empregada para melhorar a capacidade de trabalho
das organizações.

Big Data: indica, no mundo corporativo, os sistemas que geram dados em três dimensões:
volume, velocidade e variedade.

9
9
UNIDADE Introdução à Análise Preditiva

A formulação dos insights é o foco primário da Ciência de Dados, que utiliza


um processo conhecido como Extração de Conhecimento em Bases de ­Dados
(do inglês­, KDD – Knowlegde Discovery in Database), formalizado em Fayyad,
Piatetsky-Shapiro e Smyth (1996). Em geral, esse processo é representado como a
ilustração da Figura 2.

Existe em Analytics uma proximidade maior entre o uso de dados e a tomada


de decisão realizada por um ser humano do que a existente pela Inteligência Arti-
ficial (IA). Apesar de ambas as áreas estarem altamente correlacionadas, podemos
compreender que as aplicações de Analytics estão centradas no papel e na atuação
do tomador de decisão, um profissional capacitado a construir insights a partir dos
dados e torna-los úteis ao negócio, enquanto que o foco da IA é na automação de
processos executados pelo ser humano.

Interpretação/
Avaliação
Mineração de
Dados

Transformação Conhecimento

Pré-processamento
Padrões

Seleção
Dados
transformados
Dados
pré-processados

Conjunto de
dados Dados-alvo

Figura 2 – Processo KDD

Do ponto de vista desses tomadores de decisão, Analytics é uma ferramenta que


deve ser empregada para melhorar a capacidade de trabalho das organizações.

Vale lembrar que o tomador de decisão também é um usuário de Analytics e que


a finalidade do usuário de Analytics é descrever, predizer e melhorar o desempenho
do negócio. Por isso, ele utiliza ferramentas da matemática e da estatística para
investigar, explorar, modelar e apresentar soluções utilizando dados e os recursos
computacionais disponíveis.

Em comparação à Inteligência Artificial, o usuário da IA é o consumidor final, ou


seja, eu e você. Nós dois desejamos usar as aplicações de IA para facilitar o nosso
dia a dia e otimizar as nossas tarefas de trabalho. Como usuários de Analytics, os
quais também podemos ser, queremos tomar decisões a respeito do trabalho que
executamos. A tomada de decisão não é automatizada porque nós, seres humanos,
não somos processos robóticos.

10
Você Sabia?
Em 1950, o cientista da computação Alan Turing publicou o artigo Computing ­Machinery
and Intelligence. Nesse artigo, o cientista articulou uma visão completa sobre IA, apre-
sentando o conhecido teste de Turing e uma ideia para aprendizagem de máquina,
aprendizagem por reforço e algoritmos genéticos. Todas essas ideias foram sendo es-
tudadas ao longo das últimas décadas por diversos pesquisadores ao redor do mundo
e consolidaram-se como áreas de estudo independentes da IA, ainda que relacionadas
a ela. O artigo de Turing tornou-se a base fundamental para o esforço inicial de vários
cientistas em encontrar caminhos que permitam a compreensão da inteligência das
­máquinas e também humana.

Aprendizagem de Máquina e Análise Preditiva


Você acabou de conhecer o que é Analytics e qual é o seu papel no mundo cor-
porativo. Você também entendeu qual é a relação existente entre as diversas áreas de
estudo – como estatística e Inteligência Artificial – e a Análise Preditiva.

Na Figura 1, você observou o processo de extração de conhecimento em bases de


dados e notou a existência de um componente chamado Mineração de Dados, que
está colocado entre o meio o fim do processo KDD.

A Mineração de Dados é também uma área que estuda o uso e a aplicação de


dados. Mais especificamente, a mineração de dados é o elemento central responsá-
vel pela parte analítica do Big Data. No processo do KDD, ela corresponde à etapa
de descoberta, respondendo pela aplicação dos algoritmos capazes de extrair conhe-
cimento a partir dos dados pré-processados (DE CASTRO; FERRARI; 2016).

Mais à frente, você vai conhecer as aplicações que podem ser trabalhadas com
mineração de dados e análise preditiva. No momento, é importante saber que a mi-
neração de dados trabalha de maneira interdisciplinar com outras áreas, como banco
de dados e estatística.

Também é importante saber que uma das etapas do processo de mineração de


grandes bases de dados é a modelagem. Na prática, essa etapa utiliza algoritmos de
Machine Learning para estudar o comportamento dos indivíduos de uma popula-
ção. Segundo Mitchell (1997), Machine Learning (ou aprendizagem de máquina) é
a capacidade de um programa de computador em desempenhar melhor uma classe
de tarefas a partir da experiência. Os algoritmos dessa área constroem sistemas inte-
ligentes capazes de se adaptar às mudanças e mudar seu comportamento com base
em exemplos e observações passadas.

O foco da aprendizagem de máquina é extrair informação dos dados de maneira


automática. No contexto da mineração de dados, a aprendizagem (ou treinamento) tem
a finalidade de criar um modelo que represente os dados presentes em uma base de
dados. Existem diversos métodos, abordagens e algoritmos para Machine Learning.

11
11
UNIDADE Introdução à Análise Preditiva

Uma das formas de entender Machine Learning é compreendendo os paradigmas


de aprendizagem:
• Aprendizagem supervisionada: tem como meta aprender uma função a partir
de dados de entrada (ou dados de treinamento) com saídas conhecidas;
• Aprendizagem não supervisionada: deseja aprender uma função que descre-
va os dados de entrada sem conhecer a saída.

Como exemplo, observe os dados apresentados na Tabela 1, que apresenta um


conjunto de dados de uma determina empresa. Nesse conjunto, estão dados de al-
guns funcionários, onde cada coluna representa uma característica do funcionário e
as linhas fornecem o registro do funcionário.

Tabela 1 – Conjunto de dados corporativo


Nome Sexo Idade Cargo Cidade Salário
João M 35 Diretor São Paulo 14.368,36
Maria F 36 Gerente São Paulo 11.559,89
Renata F 42 Analista Salvador 6.968,12
Carlos M 37 Diretor Salvador 13.968,52
Pedro M 29 Analista Florianópolis 6.869,55

Muitos problemas podem ser respondidos a partir da observação do conjunto de


dados. Para ilustrar, vamos considerar duas questões:
• Como os funcionários da empresa podem ser organizados?
• Qual seria (ou deveria ser) o salário do próximo gerente que for contratado?

Para responder à primeira pergunta, você pode observar a diversidade de orga-


nizações existentes a partir dos dados. Os funcionários podem ser agrupados pelo
sexo (três M e dois F), pela idade (3 com até 36 anos e 2 com mais idade), pelo cargo
(dois diretores, dois analistas e um gerente), pela cidade (dois de São Paulo, dois de
Salvador e um de Florianópolis) ou ainda pela faixa salarial. Nesse caso, como não
temos uma saída esperada em relação à organização dos dados, nosso problema
trabalhará com um método de aprendizado não supervisionado.

Em relação à segunda pergunta, como já temos uma saída esperada (o salário),


deveremos utilizar um método de aprendizagem supervisionada para construir, a
partir dos dados da tabela, um modelo que estime o valor salarial do próximo gerente
que for cadastrado no conjunto de dados.

A Análise Preditiva possui uma ligação próxima com Machine Learning e, nos
tempos atuais, é altamente dependente dessa área. Ainda que a análise e a modelagem
dependam da interpretação e do conhecimento do especialista – no caso, você –, é im-
portante estudar os métodos principais de aprendizagem de máquina para saber como
o problema deverá ser resolvido conforme as abordagens e paradigmas existentes.

12
Aplicações
Ao estudar Analytics, você irá encontrar um conjunto de disciplinas relacionadas
que também precisarão da sua atenção. A primeira delas corresponde ao uso, mo-
delagem e manipulação de bancos de dados.

Os bancos de dados são muito importantes para Analytics, pois é a partir deles
que você irá desenvolver soluções para os problemas de negócio da sua empresa.
Os dados são importantes também para a IA, que depende de informações muito
bem organizadas. Sem os bancos de dados, Analytics e IA tornam-se mais fracas,
pois enfraquecem o poder do tomador de decisão ou o processo de construção de
sistemas inteligentes.

Para Analytics, os dados são insumos fornecidos para o entendimento dos fenô-
menos que estão acontecendo, considerando a ótica de uma determinada organiza-
ção. O propósito das tarefas analíticas é compreender a situação atual do negócio,
permitindo que o tomador de decisão construa conhecimento a respeito das infor-
mações que se tornam disponíveis a ele.

Para bem utilizar uma técnica ou aplicação analítica, você também trabalhará
com ferramentas da computação, da matemática e da estatística. Ainda que essa sé-
rie de disciplinas distintas coloque medo nos profissionais em início de carreira, não
existem motivos para preocupações sérias. Com o avanço recente de Analytics e IA,
você não terá dificuldades em encontrar suporte para as ferramentas mais utilizadas
pelos profissionais de mercado.

A única preocupação que você, como profissional de Analytics, deve ter a partir
de agora é em conhecer os detalhes das principais soluções analíticas e suas aplica-
ções. Apesar de os problemas de negócio serem diversos, existem poucas tarefas que
resolvem problemas analíticos. Na maior parte das situações, você poderá utilizar
uma dessas tarefas para solucionar um problema de negócio usando Analytics.

Para colaborar na sua jornada acadêmica e profissional, trazemos a listagem das


nove tarefas de Analytics presentes em (PROVOST; FAWCETT, 2016, p. 20-23) e
que você vai encontrar na sua trajetória profissional:
• Classificação: tem como meta predizer (ou prever), para cada indivíduo de uma
população, a que conjunto de classes este indivíduo pertence;
• Regressão: deseja estimar ou predizer um valor numérico para cada indivíduo
da população;
• Combinação por similaridade: o propósito é identificar indivíduos semelhan-
tes com base nos dados conhecidos sobre eles;
• Agrupamento: reunir indivíduos de uma população por meio de similaridade,
sem, no entanto, estar motivado por algum propósito;
• Mineração de itens frequentes: busca por associações entre entidades com
base em transações que as envolvem;

13
13
UNIDADE Introdução à Análise Preditiva

• Perfilamento (data profiling): o objetivo é caracterizar o comportamento típi-


co de um indivíduo, grupo ou população;
• Previsão de vínculo: tenta prever ligações entre itens de dados, geralmente
sugerindo que um vínculo deveria existir e, possivelmente, também estimando
a força do vínculo;
• Redução de dados: procura substituir um grande conjunto de dados por outro
conjunto com menos informações, mantendo a mesma qualidade de informa-
ções relevantes;
• Modelagem causal: o propósito é auxiliar na análise dos dados e resultados,
ajudando a compreender quais acontecimentos ou ações realmente influenciam
outras pessoas.

Ao identificar ou escolher qual categoria de tarefa você deve trabalhar em um


determinado problema, considere encaixar o seu problema em mais de uma tarefa.
Muitas vezes, um mesmo problema pode ser trabalhado com abordagens diferentes
ou até mesmo mais simples do que aquelas que você pensou inicialmente.

Por exemplo, considere o problema de rotatividade de clientes (turnover) em uma


empresa de telecomunicações. Esse problema pode ser formulado de acordo com a
ótica de distintas tarefas.

Figura 3
Fonte: Getty Images

Como uma tarefa de classificação, o objetivo desse problema será o de observar


em uma base histórica de clientes e discriminar entre aqueles que abandonaram a
companhia e os clientes que se mantiveram.

No olhar de uma tarefa de agrupamento, um especialista em Analytics desejará


formular o problema de modo a organizar em grupos as características dos clientes
que sejam mais ou menos prováveis de abandonar o serviço ofertado pela companhia.

Finalmente, como uma tarefa de regressão, o especialista pode desejar obter um


índice que indique a probabilidade de um cliente abandonar a companhia.

14
Independentemente da tarefa que você selecionar, tenha em mente que uma boa
compreensão do domínio do negócio é essencial para a formulação do problema.
Lembre-se também de que ter as informações em mãos é importante para que o
problema de negócio seja solucionado por uma tarefa analítica.

Esse conjunto de tarefas analíticas é capaz de trabalhar o mesmo problema em


diferentes visões. Considere, por exemplo, o problema de identificação de clientes
propensos a comprar um novo produto em uma loja. Sem mais detalhes do problema,
você percebe que pode optar tanto pela tarefa de agrupamento quanto pela de mine-
ração de itens frequentes.

No primeiro caso, você utilizará a base de dados de clientes que já compraram


na sua loja para construir um modelo estatístico que reúna esses clientes em grupos
similares. Você poderá utilizar esse modelo no futuro para identificar os clientes que
ainda não compraram por meio das características presentes no grupo daqueles que
já compraram.

No caso da tarefa de mineração de itens frequentes, você percebe que pode ex-
plorar a base de dados das transações financeiras dos clientes. Com ela, você irá
verificar as associações entre os produtos comprados, podendo, assim, identificar o
perfil do cliente que comprará o novo produto.

Trocando Ideias...
Imagine a seguinte situação: você faz parte de uma equipe de profissionais de Analytics
e foi convidado para atuar em um projeto junto ao departamento de marketing. Os ana-
listas de marketing desse departamento desejam adotar novas formas de atrair clientes
e optaram em utilizar as mídias sociais como canal principal para essa missão. Sabendo
que eles desconhecem os conceitos de Analytics, como você abordaria o problema de
negócio e explicaria à equipe de marketing o funcionamento das tarefas analíticas?

15
15
UNIDADE Introdução à Análise Preditiva

Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:

 Livros
Planejamento e inteligência de marketing
FARIA, P. S.; BORGES, L. G. N. L. Planejamento e inteligência de marketing.
Londrina: Editora e Distribuidora Educacional S.A., 2016. Unidade 3, p. 97-154.
Fundamentos de banco de dados
SILVA, N. dos S.; SANTANA, G. A. Conceitos e terminologias de um banco de
dados. In: SILVA, N. dos S.; SANTANA, G. A. Fundamentos de banco de dados.
Londrina: Editora e Distribuidora Educacional S.A., 2018. Unidade 1, Seção 1, p. 11-20.

 Vídeos
Etapas da Mineracao de Dados
https://youtu.be/j1yjamuaOKY

 Leitura
Mineração de Dados – O que é e qual sua importância?
https://bit.ly/35q1ag4

16
Referências
DE CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: concei-
tos básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016.

ELMASRI, R.; NAVATHE, S. B. Sistemas de Banco de Dados. 7. ed. São Paulo:


Pearson, 2019.

FACELI, K. et al. Inteligência Artificial: Uma abordagem de aprendizado de máquina­.


Rio de Janeiro: LTC, 2011.

FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge


discovery in databases. AI magazine, v. 17, n. 3, p. 37-37, 1996.

MITCHELL, T. M. Machine learning. New York: McGraw-Hill, 1997.

PROVOST, F.; FAWCETT, T. Data Science para negócios. Tradução de Marina


Boscatto. Rio de Janeiro: Alta Books, 2016.

17
17

Você também pode gostar