Aula 01
Aula 01
Aula 01
1
AULA 01 – CIÊNCIA DE DADOS
Prof. Roberson Alves
AGENDA
✓Ciência de Dados
✓Big Data
✓NoSQL
✓Gestão de Dados
2
FERRAMENTAS QUE UTILIZAREMOS
3
CIÊNCIA DOS DADOS
• Em busca por uma definição formal sobre Ciência dos Dados,
encontramos diversos trabalhos na literatura
– Embora muito se discuta sobre a composição das atividades de Ciência dos Dados, o seu
conceito ainda não é algo fundamentalmente estabelecido
Ciência dos
Dados
Integração de áreas: Resolução de problemas
Estatística, Ciência da por meio da extração de
Informação e Tecnologia conhecimento a partir
da Informação dos dados
4
CIÊNCIA DOS DADOS
• Embora não haja consenso sobre a definição, encontramos
como elemento comum em todas as propostas um processo de
manipulação, processamento e análise de dados, que visa a
descoberta de novos conhecimentos.
5
CIÊNCIA DOS DADOS - PROCESSO
6
Cortesia: Alex Dehktyar
O CONCEITO DE DADO X INFORMAÇÃO X CONHECIMENTO
1. Dados: Fluxos de fatos coletados (brutos) que representam eventos
do domínio. Qualquer evento que possa ser armazenado em
formato digital, incluindo texto, números, imagens, vídeo ou filmes,
áudio, software, algoritmos, equações, animações, modelos,
simulações, etc.
2. Informação: Conjuntos de dados significativos e úteis a seres
humanos em processos como o de tomada de decisões;
7
O CONCEITO DE DADO X INFORMAÇÃO X
CONHECIMENTO
8
QUAIS SÃO OS DADOS?
Coleções de registros ou medições que fornecem
um registro de evidências do evento observado
“... qualquer informação que possa ser
armazenada em formato digital, incluindo texto,
números, imagens, vídeo ou filmes, áudio,
software, algoritmos, equações, animações,
modelos, simulações, etc. “
Pergunta:
10
BIG WORLD
BIG PROBLEMS
BIG DATA
Image: NASA C98-2815 11
8
12
13
BIG DATA: V’S
▪O Big Data deve ser expresso, a partir da
definição dos seus V’s:
▪Volume
▪Velocidade
▪Variedade
▪Valor
▪Veracidade 14
O QUE É BIG DATA?
✓ É uma aplicação computacional de Ciência dos Dados que tem por
objetivo analisar e extrair sistematicamente informações de grandes
volumes de conjuntos de dados, para os quais técnicas
computacionais tradicionais não são adequadas. Os desafios para
gestão dos dados são classificados em 5V’s (Chen et al., 2012, Kwon et
al., 2014).
✓ Big data é um grande volume de
dados, alta velocidade e alta
variedade de ativos de informação
que demandam formas inovadoras e
econômicas de processamento de
informações para melhor insight e
tomada de decisões.” (“Gartner IT
Glossary, n.d.”)
15
BIG DATA: TAMANHO DA WEB
16
BIG DATA: DESAFIOS
▪ Usar dados para tomar decisões (objetivo principal)
▪ Dados -> Informações -> Conhecimento -> Decisões
▪ “Self-service” dos dados para atingir esse objetivo
▪ Usuário define qual dado é relevante
▪ Dados “frescos” são tão importantes quanto o volume.
▪ Dados em tempo real
▪ 90% dos dados são antigos e com pouco valor
▪ Dados personalizados
▪ Dados genéricos -> facilmente copiados
▪ Sistemas de recomendação
17
CAUSAS QUE TORNAM OS DADOS COMPLEXOS
● Linguagem
de consulta
● Tamanho ● Dispersão
● Estrutura ● Taxa de
crescimento
18
ETAPAS PARA CRIAÇÃO DE BIG DATA
Questões tratadas:
Dispersão Estrutura Tamanho e taxa Linguagem de
de crescimento consulta e
detalhes
Análise
Fontes Extrai Consulta/
Transforma
externas Relatório
carrega Consultas
atualiza
bds
operacionais
Etapas:
19
BIG DATA: FONTES DE DADOS
▪ Formatos:
▪ Estruturadas (BD relacionais)
▪ Semi-estruturados (JSON, XML,…)
▪ Não-estruturados (e-mails, mensagens, PDFs. …)
▪ Dados ambíguos
▪ Tipos, nomes, precisão, sistema métrico, ...
▪ Camadas de hierarquia
▪ Falta de metadados
20
BIG DATA
22
NOSQL: O QUE SIGNIFICA?
▪ NoSQL é um termo genérico que define bancos de dados
não-relacionais.
23
NOSQL: BANCO NÃO-RELACIONAIS
Características em Características em singulares:
comum: ➢ certos sistemas promovem
✓ tais como serem livres ➢o particionamento e a
de esquema; replicação dos dados
✓ promoverem alta ➢sistemas baseados em
disponibilidade; e armazenamento chave-valor
➢sistemas orientados a
✓maior escalabilidade
documentos
➢sistemas orientados a coluna
➢sistemas baseados em grafos
24
POR QUE NOSQL?
▪ Hoje as empresas estão adotando NoSQL para um
número crescente de aplicações/casos de uso.
▪ A escolha que é impulsionada por quatro
megatendências inter-relacionadas:
▪ Big Users
▪ Big Data
▪ Internet das coisas
▪ Cloud Computing
▪ Ciência de Dados
25
CLASSIFICAÇÃO NOSQL
Key - Value Column
Key Value
123435 Joao da Silva
Graph Document
26
DBRANKING
http://db-engines.com/en/ranking
27
GESTÃO DE DADOS
Planejar
Analisar Coletar
Integrar Assegurar
Descobrir Descrever
Preservar
28
PORQUE A GESTÃO DE DADOS?
1. Para capturar, armazenar, proteger e garantir a integridade
dos ativos de dados;
2. Garantir a utilização adequada dos dados e informações;
3. Maximizar o uso eficaz dos dados e agregar valor aos
ativos da informação.
Fonte: DAMA International, The DAMA Guide to the Data Managemen Body of
Knowledge
29
GESTÃO DE DADOS
“Gestão de Dados é a disciplina responsável por definir,
planejar, implantar e executar: estratégias, procedimentos
e práticas necessárias para gerenciar de forma efetiva os
recursos de dados e informações das organizações
incluindo planos para sua definição, padronização,
organização, proteção e utilização.”
Fonte: DAMA-DMBOK
30
DESAFIOS: “THE LONG TAIL” DA GESTÃO DOS DADOS
31
DESAFIOS: DADOS ÓRFÃOS
• INFORMAÇÃO QUE SE TORNOU IRRECUPERÁVEL POR ESTAR LOCALIZADA EM
DISPOSITIVOS NÃO MAIS ACESSÍVEIS, COMO NOTEBOOKS, E QUE NUNCA FORAM
TRANSFERIDAS PARA SERVIDORES COMPUTACIONAIS;
• INFORMAÇÕES PERDIDAS APÓS O DESLIGAMENTO DE PESQUISADORES/FUNCIONÁRIOS DA
INSTITUIÇÃO;
• DADOS DE PESQUISADORES NÃO ASSOCIADOS A NENHUMA REDE DE DADOS.
?
? ?
32
GESTÃO DE DADOS: PROCESSO
Planejar
Analisar Coletar
Integrar Assegurar
Descobrir Descrever
Preservar
33
GESTÃO DE DADOS: PROCESSO
• Planejar: adotar ferramentas para planejar a gestão de
dados;
• Assegurar: empregar controle de qualidade aos
dados(QA e QC);
• Descrever: porque, quem, o quê, quando, onde e como;
• Preservar: plano para preservar os dados a curto e longo
prazo;
• Descobrir: estratégias para a localização e aquisição de
dados potencialmente úteis;
• Integrar/publicar: disponibilizar os dados em diferentes
repositórios para novas análises e investigações;
• Análise: utilizar os dados para análises que atendam os
34
objetivos do projeto.
PLANEJAR A GESTÃO DOS DADOS
• Ferramentas para planejar a gestão dos dados
https://dmptool.org/ https://dmponline.dcc.ac.uk/
35
PLANEJAR A GESTÃO DOS DADOS
https://www.kaggle.com/
36
1) EXERCÍCIO - DESAFIO
1) Gere um dataset envolvendo dados de seu interesse.
Cadastre o dataset no Kaggle configurando os dados
básicos do dataset. Preencha também os metadados do
dataset no Kaggle.
37