1a Atividade Avaliativa - Isaque Teixeira Portes

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 11

Universidade Federal do Espírito Santo

Engenharia de Produção
DTI12995 – Sistemas de Apoio a Decisão
Professor: Wilian Hiroshi Hisatugu
Primeira Atividade Avaliativa

Exercícios do livro Business Intelligence e Análise de Dados para Gestão


do Negócio

Nome: Isaque Teixeira Portes


Matrícula: 2016204625

Capítulo 1

Exercício 5: Entre em http://analytics-magazine.org/issues/digital-editions


e encontre a edição de janeiro/fevereiro de 2012 intitulada “Special Issue:
The Future of Healthcare”. Leia o artigo “Predictive Analytics—Saving
Lives and Lowering Medical Bills”. Responda as seguintes questões:

a. Qual problema está sendo enfrentado pela aplicação da análise de


dados preditiva?

O problema em questão se refere à não adesão às prescrições de


medicamentos nos Estados Unidos, que, para combater a epidemia, adota
estratégias insuficientemente boas e eficazes.
Nesta situação, alguns pontos de dificuldade, pela aplicação de análise
de dados preditiva, podem ser encontrados. Um deles é a falta de franqueza
que comumente existe por parte dos pacientes ao falar de seu
comportamento perante seus cuidadores, outro problema é com relação aos
regulamentos da HIPAA, os quais impõem limites ao acesso a informações
médicas pessoais.

b. Qual é o Escore de Adesão a Medicamentos da FICO?

O escore de adesão a medicamentos da FICO é representado por uma


faixa - de 1 a 500 - que significa a probabilidade de um paciente aderir a uma
prescrição para o primeiro ano de terapia.
c. Como um modelo preditivo é treinado para prever o Escore de Adesão
a Medicamentos da FICO HoH? O modelo preditivo classificou o Escore
de Adesão a Medicamentos da FICO?

A partir de dados disponíveis publicamente. Criou-se a pontuação a


partir do uso de dados não identificados de um grande gerente de benefícios
farmacêuticos. O gerente de benefícios cedeu uma amostra aleatória de
dados de mais de um milhão de pacientes com diagnóstico de asma,
depressão, diabetes, colesterol alto ou hipertensão. Fatores como idade,
sexo, estado civil e tempo de residência atual do paciente demonstram ser
bastante preditivos de adesão à medicação. Junto a esses fatores há
também os dados sobre a região geográfica do paciente e a doença, o que
permitiu que os cientistas analíticos construíssem o modelo de pontuação.

O escore ficou classificado em dez decis. Os pacientes cujas


pontuações de adesão à medicação caíram no decil superior na escala de 1
a 500 mantiveram suas prescrições por uma média de 129 dias a mais (em
um período de um ano) em relação aos pacientes cujas pontuações caíram
no decil inferior.

d. Dê um zoom na Figura 4 e explique qual tipo de técnica é aplicado nos


resultados gerados.

A análise dos pacientes gera seus respectivos escores, os quais são


distribuídos em decis, que podem ser usados para descriminar os indivíduos
em grupos de alto e baixo risco, de acordo com seu escore. Cada decil
representa uma categoria que apresenta um número médio de dias de
adesão às prescrições médicas. As pontuações então são usadas para
encontrar o número apropriado e o nível de intervenções nas diferentes
categorias de risco, com estratégias mais intensivas usadas em grupos de
maior risco (decis 1, 2 e 3).

e. Liste algumas das decisões com consequências práticas que se


basearam nos resultados preditivos.

Os resultados preditivos podem servir de base para algumas decisões


de grande benefício aos pacientes. Por exemplo, é possível que um
farmacêutico não tenha tempo ou incentivo para conversar com todos os
pacientes sobre a adesão. Mas caso for identificado (de forma preditiva) que
um paciente corre um risco particularmente alto de não adesão, o
farmacêutico pode ser orientado a fornecer instruções mais detalhadas ou
iniciar um programa especial de adesão, como um lembrete diário para
lembrar o paciente de tomar seu medicamento.
Uma situação prática que pode ser ressaltada é o caso de uma
empresa envolvida em um programa piloto de gerenciamento de doenças de
vários anos e que implementou um programa de teste e aprendizado para
pacientes com diabetes. A empresa testou o potencial de mensagens para
os enfermeiros usarem ao discutir os programas de gerenciamento de
doenças com os pacientes para determinar a forma mais impactante de
engajamento. A mensagem foi previamente testada em grupos de foco para
avaliar a compreensão e a capacidade de resposta do público, e foi testada
novamente em uma pesquisa de atitude nacional. Com base em uma análise
das respostas dos pacientes a mensagens específicas, a empresa
conseguiu segmentar os pacientes em seis grupos e desenvolver estratégias
de engajamento sob medida para cada segmento. O resultado desse
programa de teste e aprendizado foi que a adesão à medicação entre os
sujeitos do teste foi 36% maior do que seria esperado com base em uma
amostra puramente aleatória de pacientes que não foram expostos a
nenhum esforço especial para aumentar a adesão.

Exercício 6: Entre em http://analytics-magazine.org/issues/digital-editions,


e encontre a edição de janeiro/fevereiro de 2013 intitulada “Work Social”.
Leia o artigo “Big Data, Analytics and Elections” e responda as questões a
seguir:

a. Quais tipos de Big Data foram analisados no artigo? Comente a


respeito de algumas das fontes de Big Data.

Segundo o artigo, foram levados em consideração Big Data dos tipos


estruturados e não estruturados. A publicação diz que a maioria dos modelos
envolvidos nas eleições de 2012 foram baseados na junção de pesquisas
que utilizaram dados econômicos, políticos do estado e até dos sentimentos
do eleitor.
Um grupo de assessores de campanha de Obama revelou um enorme
esforço de dados para apoiar a arrecadação de fundos, anúncios de TV de
micro direcionamento e modelagem de eleitores de estados indecisos. Esses
dados primeiro passaram por um processo de integração de dados para
consolidar muitos bancos de dados díspares e criar um sistema único e
massivo que mesclava informações coletadas de pesquisadores,
levantadores de fundos, trabalhadores de campo e bancos de dados de
consumidores – dados presentes em banco de dados são considerados
dados estruturados, isto é, aqueles que são organizados em linhas e
colunas, constituindo tabelas normalmente presentes no que se conhece
como “banco de dados relacionais”, sendo eficientes para consultas e
recuperação de informações –, bem como mídias sociais – dados
provenientes de mídias sociais da web são dados não estruturados e podem
ser caracterizados por vídeos, áudios, e-mails, documentos de textos em
geral (posts, blogs) e mensagens – e contatos móveis com os arquivos dos
eleitores democratas de estados oscilantes.

b. Explique o termo sistema integrado. Qual é o outro termo técnico que


se adequa a um sistema integrado?

O sistema integrado se dá pela integração de dados para consolidar


muitos bancos de dados díspares e criar um sistema único e massivo que
mesclava informações coletadas de diversas fontes, trazendo a vantagem
de que a análise pode ser realizada de forma eficaz em vários conjuntos de
dados de vários canais (capacidade de conectar os pontos digitais). Além
disso, as informações podem ser compartilhadas por toda a organização de
forma integrada, sem várias versões dos mesmos dados ou possíveis
problemas de qualidade de dados. Um outro termo técnico adequado a um
sistema integrado é “Enterprise Resource Planning (ERP)”.

c. Quais tipos de técnicas de análise de dados são empregados no


projeto? Comente a respeito de algumas iniciativas resultantes da
análise de dados.

O artigo relata que Obama tinha uma vantagem de dados e, junto a sua
equipe, passou a ter uma operação digital de campanha com profundidade
e amplitude, realizando mineração de dados políticos e demográficos, de
sentimento do eleitor e até mesmo fazendo análise comportamental, indo
além de tudo que a política já havia visto.
A campanha contava com um sistema integrado que, além de oferecer
suporte a operações que simplesmente puxam pontos de dados, permitiu
que cientistas de dados e analistas de números construíssem modelos
analíticos prevendo a segmentação do eleitor oscilante com alta
"persuadibilidade" com base em dados demográficos e socioeconômicos e
registro de votação, incorporando os resultados de micro modelos de
segmentação que analisam centenas de pontos de dados para gerar
“pontuações de apoio” - uma probabilidade percentual de que um indivíduo
apoiaria o candidato democrata. Os consultores da equipe realizaram
campanhas experimentais e os analistas fatoraram os resultados nos
modelos para refiná-los e melhorá-los, de modo que a campanha raramente
fazia suposições sem números para apoiá-los.
O artigo menciona que durante os seis meses que antecederam a
eleição, a equipe de Obama lançou uma campanha em grande escala e em
todas as frentes, aproveitando a web, celular, TV, chamadas, mídia social e
análises para atingir diretamente potenciais eleitores e doadores com
mensagens personalizadas.
Analistas de números, por meio de descobertas de mineração de
dados, escolheram arrecadadores de fundos, como George Clooney e Sarah
Jessica Parker, para combinar seus apelos a certos doadores e maximizar
os poderes das estrelas. Também se usou de e-mails e mensagens de texto
para arrecadação de fundos direcionados a determinados dados
demográficos, testados primeiro entre apoiadores com diferentes linhas de
assunto e conteúdos em pequena escala e, posteriormente, alcançaram
melhores resultados entre os eleitores potenciais em uma escala maior.
Além disso, big data e analytics também ajudaram a conduzir as decisões
de compra de anúncios da campanha, o que resultou na compra de anúncios
durante a programação e horários não convencionais. Outra decisão
fundamentada em dados que se provou muito bem-sucedida em levar as
mensagens aos telespectadores visados e impulsionar o comparecimento
em estados indecisos.

d. Quais são os diferentes problemas preditivos respondidos pelos


modelos?

Os diversos modelos preditivos aplicados se destinavam à realização


de previsões precisas quanto ao número de votos eleitorais a serem
recebidos pelos candidatos democrata e republicano, apontando inclusive
em quais estados cada um iria prevalecer.

e. Liste algumas das decisões com consequências práticas que se


basearam nos resultados preditivos.

A gestão da campanha de Obama contratou uma equipe


multidisciplinar de estatísticos, modeladores preditivos, especialistas em
mineração de dados, matemáticos, programadores de software e analistas
quantitativos.
Conforme mencionado anteriormente, a equipe de Obama lançou uma
campanha em grande escala e em todas as frentes, aproveitando a web,
celular, TV, chamadas, mídia social e análises para atingir diretamente
potenciais eleitores e doadores com mensagens personalizadas. Os
esforços propiciaram que os dados apoiassem a arrecadação de fundos,
anúncios de TV de micro direcionamento e modelagem de eleitores de
estados indecisos. Também em concordância ao que foi supracitado em
itens anteriores, arrecadadores de fundos foram escolhidos por analistas de
números por meio de descobertas de mineração de dados para combinar
seus apelos a certos doadores e maximizar os poderes das estrelas. E-mails
e mensagens puderam ser testados em pequena escala e posteriormente
direcionado a eleitores potenciais em uma escala maior. As análises também
ajudaram a conduzir as decisões de compra de anúncios da campanha, o
que resultou na compra de anúncios durante a programação e horários não
convencionais, o que é algo não trivial, mas bem fundamentado e que deu
resultado.
No final das contas, essa abordagem visando a campanha eleitoral e
baseada em dados provou ser muito bem-sucedida em levar as mensagens
aos telespectadores visados e impulsionar o comparecimento em estados
indecisos.

f. Identifique duas aplicações de análise de Big Data que não foram


listadas no artigo.

Um belo exemplo de aplicação de análise de Big Data pode ser


encontrado no setor de RH de uma organização. A análise de Big Data pode
reduzir más contratações e, consequentemente, potenciais prejuízos ligados
a essa contratação como o dispêndio de capital nas entrevistas,
treinamentos, etc. Também pode prever performance de novos
colaboradores, identificando seu perfil e suas ações em certas atividades
perante os demais funcionários. Além disso, as análises podem aumentar a
taxa de retenção através da identificação do nível de satisfação dos
colaboradores, quais seriam os eventuais problemas e então buscar
solucioná-los.
Uma outra aplicação possível pode ser no setor de comércios
varejistas, auxiliando nas previsões de comportamentos e preferências do
público-alvo. As análises de Big Data nesse caso ajudariam no
conhecimento da clientela, na tomada de decisões estratégicas apontando
produtos mais ou menos populares e também gerando recomendações
quanto a novas tendências e modas do mercado.

Capítulo 2

Questão para Discussão 6: Podemos usar a mesma representação de


dados para todos os modelos de análise de dados (em outras palavras,
diferentes modelos de análise de dados exigem diferentes esquemas de
representação de dados)? Por quê?

Não podemos usar a mesma representação de dados para todos os


modelos de análise de dados. De acordo com nosso livro base, nem todos os
dados são úteis para todas as tarefas. Ou seja, os dados precisam corresponder
(cumprir com as especificações adequadas) às tarefas para a qual visa ser
usado. Mesmo para uma tarefa específica, os dados relevantes à disposição
precisam obedecer a exigências de qualidade e quantidade. Em essência, os
dados precisam estar prontos para o uso em análise de dados.
Ainda segundo nosso texto base, às vezes, a representação dos dados
pode depender do tipo de análise de dados sendo empregada. Como os
algoritmos preditivos geralmente requerem um arquivo plano com uma variável-
alvo, deixar um conjunto de dados pronto para análise de dados preditiva
significa que eles devem ser transformados em formato de arquivo plano e
preparados para o processamento por parte de tais algoritmos. Também é
imperativo adequar os dados às necessidades e exigências de um algoritmo
preditivo específico e/ou de uma ferramenta de software – por exemplo,
algoritmos de rede neural exigem que todas as variáveis de entrada sejam
representadas numericamente (até mesmo as variáveis nominais precisam ser
convertidas em variáveis numéricas pseudobinárias); já algoritmos de árvore de
decisão não exigem tal transformação numérica, lidando de forma fácil e nativa
com uma mistura de variáveis nominais e numéricas.
Corroborando com a justificativa acima, o texto ainda afirma que projetos
de análise de dados que ignoram tarefas de adequação de dados (algumas das
etapas mais cruciais) muitas vezes acabam gerando respostas erradas para o
problema certo, e essas respostas aparentemente boas, criadas sem querer,
podem levar a decisões imprecisas e inoportunas.

Questão para Discussão 7: Por que os dados originais/brutos não estão


prontos para serem usados em tarefas de análise de dados?

De acordo com nosso texto base da disciplina, em sua forma original, isto
é, no mundo real, os dados costumam não estar prontos para serem usados em
tarefas de análise de dados. Eles costumam se apresentar sujos, mal alinhados,
excessivamente complexos e imprecisos. Um processo longo e demorado
(denominado pré-processamento de dados) é necessário para converter os
dados brutos do mundo real em uma forma bem-definida para algoritmos de
análise de dados.

Questão para Discussão 8: Quais são as principais etapas do pré-


processamento de dados? Liste e explique sua importância em análise de
dados.

Nosso livro base da disciplina apresenta as principais etapas do pré-


processamento de dados em fases:
A primeira fase do pré-processamento de dados é denominada
“Consolidação de dados”. Nesta etapa os dados relevantes são coletados a partir
das fontes identificadas, os registros e variáveis necessários são selecionados e
os registros provenientes de múltiplas fontes de dados são integrados/fundidos.
A segunda fase do pré-processamento é conhecida como “Limpeza de
dados”. Nesta etapa os dados passam por uma limpeza, necessária devido ao
fato de, geralmente, dados em sua forma original/bruta no mundo real se
apresentarem sujos.
A terceira fase do pré-processamento é intitulada “Transformação de
dados” e, como o próprio nome sugere, nesta fase os dados são transformados
para facilitar seu processamento. Em muitos casos, por exemplo, os dados são
normalizados entre um certo mínimo e máximo para todas as variáveis, a fim de
mitigar a distorção potencial de que uma variável com altos valores numéricos
acabe dominando outras variáveis cujos valores são mais baixos. Outra
transformação comum de ocorrer é a discretização e/ou agregação. Em alguns
casos, as variáveis numéricas são convertidas em valores categóricos (tais como
baixo, médio e alto); em outros, a faixa de valores únicos de uma variável
nominal é reduzida para um conjunto menor usando-se hierarquias conceituais,
a fim de deixar o conjunto de dados mais apto a ser processado no computador.
Ainda assim, em outros casos pode-se optar por criar novas variáveis baseadas
naquelas já existentes a fim de ampliar as informações encontradas numa
coleção de variáveis de um conjunto de dados. Algumas transformações tem
capacidade de simplificação e ainda podem aumentar o conteúdo informativo à
medida que reduzem a complexidade das relações nos dados.
A fase final (quarta fase) do pré-processamento de dados é a “Redução de
dados”. Muito embora cientistas de dados (isto é, profissionais de análise de
dados) gostem de contar com grandes conjuntos de dados, um excesso deles
também pode ser um problema. No sentido mais simples, pode-se visualizar os
dados comumente usados em projetos de análise de dados preditiva como um
arquivo plano de duas dimensões: variáveis (a quantidade de colunas) e
casos/registros (a quantidade de linhas). Em alguns casos, a quantidade de
variáveis pode ser bastante grande, e o analista deve reduzir tal quantidade para
um valor mais controlável.
Com relação à outra dimensão (isto é, o número de casos), alguns
conjuntos de dados chegam a incluir milhões ou bilhões de registros. Ainda que
o poder computacional esteja aumentando de forma exponencial, o
processamento de tamanha quantidade de registros pode não ser praticável ou
viável. Em tais casos, a solução por vezes pode ser a coleta de um subconjunto
dos dados como amostra para análise. A ideia por trás da coleta de uma amostra
é a de que os dados conterão todos os padrões relevantes do conjunto completo
de dados.
A importância do pré-processamento em análise de dados é altíssima, pois
é praticamente inestimável a proposição de valor que suas etapas trazem para
os dados e a análise. Segundo nosso texto base da disciplina, trata-se de uma
daquelas tarefas bastante demoradas em que o investimento de tempo e de
esforço compensa sem um limite perceptível para queda nos retornos. Ou seja,
quanto mais recursos são investidos, mas você tem a ganhar no final.

Questão para Discussão 9: O que significa limpar os dados? Quais


atividades são desempenhadas nessa fase?

Limpar dados significa pré-processar os dados brutos/originais obtidos do


mundo real de modo a “retirar a sujeira” apresentada por eles. A limpeza de
dados é uma das fazes da tarefa de pré-processamento de dados onde os
valores no conjunto de dados são identificados e tratados. Em certos casos,
valores ausentes são uma anomalia no conjunto de dados, e nesse caso
precisam ser preenchidos (pelo valor mais provável) ou ignorados; em outros
casos, os valores ausentes são uma parte natural do conjunto de dados. Nessa
etapa o analista também deve identificar ruídos nos valores dos dados (isto é,
valores discrepantes) e suavizá-los. Além disso, inconsistências nos dados
(valores atípicos em uma variável) devem ser tratadas usando-se conhecimento
na área e/ou a opinião de especialistas.

As atividades desempenhadas nessa fase são:


- Corrigir valores ausentes nos dados: pode envolver o preenchimento de valores
ausentes (imputações) com os valores mais apropriados (média, mediana,
min/máx, moda, etc.); a recodificação dos valores ausentes com uma constante;
a remoção do registro do valor ausente; ou ainda pode-se deixar a(s) ausência(s)
como estão (se julgada como melhor opção).
- Identificar e reduzir ruídos nos dados: consiste em identificar os valores
discrepantes nos dados com técnicas estatísticas simples (como médias e
desvios padrão) ou com análise de agrupamento; depois de identificados, ou
remover os valores discrepantes ou suavizá-los por segmentação, regressão ou
médias simples.
- Encontrar e eliminar dados errôneos: consiste em identificar os valores
errôneos nos dados (além das discrepâncias), tais como valores estranhos,
designações de classe inconsistentes, distribuições esquisitas; depois de
identificados, aplicar especialização na área para corrigir os valores ou remover
os registros envolvidos nos valores errôneos.

Exercício 3: Entre em teradatauniversitynetwork.com. Procure por um


artigo que detalhe a natureza dos dados, o gerenciamento de dados e/ou a
governança de dados no âmbito da BI e da análise de dados, e então
analise criticamente o conteúdo do artigo.

O artigo escolhido foi: “Análise avançada e gerenciamento integrado de


dados são a resposta ao FinCrime”.

A princípio, o artigo relata a dificuldade que as organizações têm em


capturar o custo total real devido à característica evasiva de alguns aspectos
indiretos, como danos à marca, posição no mercado e outros. Além disso,
comenta sobre os desafios das empresas financeiras ao tentarem combater os
crimes financeiros (FinCrimes). Ao tratar desses desafios, podemos perceber
algo interessante: o artigo cita a necessidade de as organizações reunirem todos
os seus dados para realizarem análises avançadas que possam identificar e
interditar o FinCrime antecipadamente, mas se atentando ao cuidado de não se
sobrecarregarem com falsos positivos. Isso é um detalhe importante, pois, hoje,
os dados são como a luz na escuridão, nos dão visibilidade do que aconteceu,
do que pode acontecer e de como é possível agir, mas tudo isso depende do
saber usar a matéria-prima (os dados), transformando-a em informações
fidedignas. Ter ciência de como a ferramenta escolhida pode te ajudar e do que
o método a ser aplicado necessita é importante para que a análise seja bem feita
e gere resultados satisfatórios. Uma porção de falsos positivos não identificados
pode parece algo ínfimo, mas que pode comprometer toda a análise de dados.
O artigo ressalta outra coisa muito interessante em se pensar no mundo da
análise de dados: a importância da estratégia aliada aos modelos de análise. O
artigo diz que “muitas vezes, as estratégias são mais eficazes do que os
sistemas e algoritmos”, uma noção importante de termos ao lidar com dados,
pois ainda que se implantem diversos modelos como pontos de controle, as
organizações criminosas têm se sofisticado e podem conseguir formas de
concretizar seus crimes. Isso fica bem caracterizado na parte em que os autores
afirmam que “o problema pode piorar à medida que a digitalização aumenta”.
Desta forma, o artigo fornece um exemplo que mostra como a estratégia aliada
aos modelos pode dificultar a vida dos criminosos e trazer mais eficácia à
proteção das organizações financeiras. Isso produz insights e nos faz perceber
que, realmente, para os mais diversos desafios da vida real, as estratégias têm
poder de potencializar as análises no âmbito da BI e da análise de negócios.
O texto traz números interessantes relacionados a custos que as
organizações financeiras têm com seus desafios e mostra que quando os
usuários de negócios não têm acesso a dados corporativos integrados e têm
vários sistemas de loop fechado funcionando de forma independente, o resultado
são aumentos de custos e perdas crescentes.
O artigo é tão completo — no que diz respeito ao benefícios da análise de
dados no combate aos FinCrimes — que comenta e traz exemplos de como o
uso de aprendizado de máquina (supervisionado e não supervisionado) e de
inteligência artificial (IA) para distinguir entre atividades benignas e ilícitas, pode
fornecer novas respostas e insights. Também comenta dos benefícios da
abordagem de dados integrada e da importância de não se analisar dados
“sujos” na identificação de novos alertas de comportamentos suspeitos. Tudo
isso trazendo benefícios operacionais significativos como: redução do uso de
recursos e tempo dispendidos pelas equipes, redução de custos e melhorias na
experiência do cliente.
Em suma, o artigo trabalha bem o tema e contextualiza práticas para que
as empresas mitiguem com sucesso o FinCrime, sendo um conteúdo
interessantes para os profissionais da área financeira e também para clientes
desta. Uma mensagem final importante deixada pelos autores é que a solução
não é uma questão de investir mais dinheiro em análises, e sim no design de
gerenciamento de dados correto e na análise preditiva que supere a
complexidade para fornecer respostas que resolvam o problema. Eficiência e
eficácia podem andar juntas na superação de desafios e os dados têm permitido
isso, desde que sejam empregados com inteligência nos negócios.

Exercício 4: Vá até o repositório de dados UCI (archive.


ics.uci.edu/ml/datasets.html) e identifique um grande conjunto de dados
que contenha tanto valores numéricos quanto nominais. Usando o
Microsoft Excel, ou qualquer outro software estatístico:

a. Calcule e interprete medidas de tendência central para toda e cada


variável.

Para o repositório de dados foram calculadas as medidas de tendência


central para toda e cada variável:

Média aritmética
Mediana
Moda

b. Calcule e interprete medidas de dispersão/espalhamento para toda e


cada variável.

Para o repositório de dados foram calculadas as medidas de dispersão


para toda e cada variável:

Amplitude
Variância
Desvio padrão
Desvio absoluto médio
Intervalo Interquartis (Q3-Q1)

Você também pode gostar