Big Data Analytics
Big Data Analytics
html#
Descrição
Propósito
Preparação
1 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Objetivos
Módulo 1
Módulo 2
Módulo 3
2 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Introdução
Atualmente, vivemos em um mundo imerso em dados, no qual os
termos ciência de dados, business analytics, inteligência artificial e
modelos de aprendizado de máquina são comuns e, muitas vezes,
confundidos como sinônimos. Mas sabemos que não é bem assim!
3 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
4 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Ao �nal deste módulo, você será capaz de reconhecer o processo de KDD no contexto da
inteligência arti�cial.
Motivação
Atualmente, a área de ciência de dados tem ganhado muita
popularidade em virtude dos resultados de análise de dados que são
entregues de forma rápida, eficiente e com custo reduzido. Mas, para
entendermos melhor isso, precisamos voltar um pouco no tempo.
Vamos juntos? Tudo começou com a internet...
5 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
6 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Foi então que, por volta do ano de 2007, ocorreu uma mudança na
7 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Foi então que, por volta do ano de 2007, ocorreu uma mudança na
forma de acesso à internet, tão radical quanto a revolução da WWW nos
anos 1990. A tecnologia de hardware, que vinha crescendo com
recursos computacionais cada vez mais potentes, deu um salto com a
evolução dos aparelhos telefônicos móveis para os smartphones. Isso
propiciou a geração e o consumo de um grande volume de dados, com
variedade de formatos, propagando-se em alta velocidade. A esse
grande fenômeno de produção e disseminação de dados atribuímos o
nome de Big Data, com os seus três Vs: Volume, Variedade e
Velocidade.
Saiba mais
8 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Inteligência artificial.
IA simbólica
9 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
IA subsimbólica ou conexionista
10 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Aprendizado de máquina
O aprendizado de máquina é a forma como implementamos os
processos cognitivos que a inteligência artificial tenta simular, pois
assim como nós temos diferentes processos cognitivos para
determinadas tarefas do dia a dia, a IA também tem para a resolução de
classes de problemas similares.
Aprendizado supervisionado
Aprendizado semissupervisionado
11 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Aprendizado semissupervisionado
Classi�cação
Técnica do aprendizado de máquina supervisionado que faz com que o
modelo consiga entender como categorizar observações do conjunto de
dados com base em registros históricos, bem como suas
características.
Regressão
Contraparte numérica da classificação categórica. Também é uma
técnica de aprendizado supervisionado, em que o modelo aprende o
mapeamento de entrada e saída para inferir um valor numérico ao invés
de uma classe categórica.
12 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Agrupamento
Técnica de aprendizado não supervisionado, em que o modelo, de forma
autodidata, aprende a separar as observações seguindo critérios de
similaridades predefinidos, com o intuito de formar grupos de
observações similares.
13 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Florescimento da IA.
Dica
14 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Descoberta de Conhecimento em
Bases de Dados
Você sabe o que significa mineração de dados e como
se encaixa na IA?
Dado
Informação
15 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
16 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
KDD nada mais é do que um processo que tem uma definição similar à
de sistema, ou seja, um conjunto de eventos ou partes, na maioria das
vezes subsequentes, que recebem um insumo e devolvem um resultado
processado dele.
17 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
2ª etapa – Seleção
18 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
3ª etapa – Pré-processamento
loading
Projetados os dados, chegamos à etapa de pré-
processamento. Normalmente, é a fase mais longa
desse processo, em que se espera que um cientista
de dados passe 70% do seu tempo de trabalho.
Nessa etapa, ocorrem limpeza nos dados, remoção
de dados faltantes e corrompidos, incorporação de
dados de outras bases etc.
4ª etapa – Transformação
19 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
20 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Processo de KDD.
• Entendimento do Negócio
• Entendimento dos Dados
• Preparação de Dados
• Modelagem
21 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
• Avaliação
• Implantação
Processo CRISP-DM.
CRISP-DM KDD
Avaliação e Apresentação de
Avaliação
Resultados
22 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Dica
O processo CRISP-DM e o KDD
23 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
24 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Questão 1
A Dados; Seleção.
B Conhecimento; Seleção.
C Informação; Transformação.
25 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
E Conhecimento; Pré-Processamento.
Questão 2
A Web da Informação
B Web Semântica
C Web 1.0
D Web 2.0
E Web 3.0
26 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Motivação
Neste módulo, faremos demonstrações práticas de técnicas de
27 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Dica
Python
28 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
Python
29 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
Python
Python
30 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
31 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
32 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
Python
33 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
A biblioteca Scikit-Learn no Python
Acompanhe agora uma apresentação genérica da biblioteca Scikit-
Learn, destacando as aplicações de aprendizado de máquina para as
quais ela é empregada. Vamos lá!
34 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Questão 1
A Coeficiente de Silhueta
B Altura
C Comprimento
35 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
C Comprimento
D Acurácia
Questão 2
A GaussianNaiveBayes
B SVM
C plot_tree
36 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
D DecisionTreeRegressor
E DecisionTreeClassifier
37 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Saiba mais
38 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Exemplo
39 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Frank Rosenblatt
Psicólogo americano, conhecido no campo da inteligência artificial como
criador do perceptron. Por vezes, é chamado de pai do aprendizado
profundo, juntamente com outros pesquisadores de renome.
40 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Neurônio.
41 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Hochreiter e Schmidhuber
Josef Hochreiter é um cientista de computação alemão reconhecido na
área de Machine Learning. Com seu professor e renomado pesquisador
alemão, Jürgen Schmidhuber, tem contribuído com numerosas publicações
na área de aprendizado profundo, com destaque para a rede neural
recorrente denominada long short-term memory (LSTM).
Saiba mais
42 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
43 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Terminal
Dica
Terminal
44 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Terminal
Saiba mais
45 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
46 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Dataset do MNIST.
Python
47 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
Python
48 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Python
49 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Antes disso, entenda que para as épocas da nossa rede, vamos escolher
100 épocas, ou seja, a rede tem 100 iterações para convergir e
apreender, e vamos apresentar lotes de 128 imagens cada por iteração.
O código a seguir será para isso.
Python
50 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Isso porque agora chegou o momento de ver como nossa rede se saiu.
Para tal, vamos utilizar a classification_report, uma função do sklearn
que compara os valores preditos com os reais, passados como
argumentos.
Python
51 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Acurácia geral
52 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
micro
A microacurácia é uma métrica de acertos para problemas multiclasses,
que agrega as contribuições de cada possível classe.
Saiba que com o código, a seguir, podemos ver como a rede evoluiu até
chegar a essas métricas, ou seja, como a função de custo foi sendo
otimizada e a acurácia foi subindo.
Python
53 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Função custo
Na maioria das bibliotecas e na literatura da área, é conhecida como função
loss, que mede a distância entre a realidade e a predição.
Dica
54 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
A biblioteca TensorFlow no Python
Veja agora uma apresentação genérica da biblioteca TensorFlow,
destacando as aplicações de aprendizado de máquina para as quais ela
é empregada. Vamos lá!
55 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
56 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Questão 1
C embaralhar os dados.
D organizar os dados.
E pré-processar os dados.
57 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Questão 2
A Operações
B Relações
C Números
D Abstrações
E Categorias
58 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Considerações �nais
A IA é a área que tenta simular os comportamentos humanos de
raciocínio automático e representação do conhecimento, para que os
algoritmos possam se adaptar a problemas novos, nunca vistos pelo
agente inteligente, mas que sejam similares aos que ele já tratou.
59 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Podcast
Para encerrar, apresentaremos conceitos e processos em Big Data
Analytics, respondendo a algumas perguntas. Vamos ouvir!
Explore +
• Uma excelente introdução (em inglês) sobre Data Mining e Machine
Learning pode ser lida no livro on-line Data Mining and Machine
Learning: fundamental concepts and algorithms, publicado pelos
professores Mohammed Zaki e Wagner Meira Jr.
Referências
60 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Referências
AMARAL, F. Aprenda mineração de dados: teoria e prática. Rio de
Janeiro: Alta Books, 2016. v. 1.
RUSSEL, S.; NORVIG, P. Inteligência artificial. 3. ed. São Paulo: GEN LTC,
2013.
61 of 62 23/01/2024, 21:15
Big Data Analytics https://stecine.azureedge.net/repositorio/00212ti/02318/index.html#
Download material
Relatar problema
62 of 62 23/01/2024, 21:15