2022 07 26-ErickMuzart-CienciadeDados

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 99

Curso regular Ciência de dados –

Machine Learning

Prof. Erick
Muzart
Regressão

Prof. Erick
Muzart
Categorias de aprendizado
classificação

supervisionado regressão

agrupamento
Aprendizado
não redução de dimensionlidade
supervisionado
regras de associação

sistemas de recomendação

Classificação
Prof. Erick Muzart
Machine Learning
Classificação Regressão
Máquina de previsão:
• Classificação

• Regressão
Avaliando Regressão
❑ Avaliar desempenho de um modelo, comparando o erro entre os valores
previstos e os valores observados (ou reais/verdadeiros)
❑ Principais métricas: RMSE, R-quadrado (R2)
❑ RMSE: Root Mean Squared Error: erro quadrático médio:
raiz_quadrada ( média ( (previsto – observado)^2))
❑ R-quadrado: representa a proporção da variabilidade dos dados
explicada pelo modelo. 0 < R2 < 1

Regressão
Prof. Erick Muzart
Classificação <-> Regressão
❑ Apesar das diferenças apontadas entre Classificação e Regressão é
frequentemente possível converter uma tarefa de um tipo para outro,
modificando a representação da variável target:
❑ Classificação -> Regressão: com múltiplas classes ordenadas, associar
um valor númerico para cada
❑ Regressão -> Classificação: dividir o conjunto de possíveis valores
numéricos em intervalos; cada intervalo se torna uma classe

❑ A maior parte dos modelos que estudaremos possuem versões levemente


diferentes para classificação e para regressão
Regressão
Prof. Erick Muzart
[fim] Regressão

Prof. Erick
Muzart
MODELOS PREDITIVOS

Prof. Erick
Muzart
Modelos
❑ Modelo preditivo?
❑ Modelos lineares: regressão linear e regressão logística
❑ K-NN: k-vizinhos mais próximos
❑ Árvore de decisão
❑ Rede neural feed-forward
❑ Naive Bayes
❑ Outros modelos importantes (derivados dos modelos básicos anteriores)

Modelos
Prof. Erick Muzart
Modelo preditivo
❑ Modelo preditivo abstrato: define como relacionar as variáveis de entrada
(independentes) com o resultado esperado (variável dependente ou target)
❑ Diferentes modelos geram formas matematicamente muito diferentes de
construir a relação entre as variáveis de entrada e de saída, tornando-os
assim capazes de captar padrões estatísticos também diferentes
❑ Em regra, é preciso realizar experimentos computacionais, avaliando o
desempenho de modelos de tipos diferentes para descobrir qual o mais
adequado à uma tarefa e dados específicos.
❑ Cada tipo de modelo tem suas características, lógica de funcionamento,
pontos fortes e fracos. Não é preciso ser capaz de reimplementar um
algoritmo do zero para entender suas propriedades fundamentais.
Modelos
Prof. Erick Muzart
Tarefa, Técnica, Algoritmo e Modelo...
❑ Tarefa: definição genérica daquilo que se deseja produzir como resultado
do modelo preditivo. Ex: classificar um documento em três possíveis categorias
ou prever o valor de determinada medida.
❑ Técnicas de ML: conjunto de procedimentos que permite melhorar resultados
preditivos. Ex: ‘regularização’: técnica para prevenir overfit; ‘separação
treino/teste’: técnica para medir desempenho em generalização de um modelo.
❑ Algoritmo de ML: "fórmula" no sentido mais lato, que permite relacionar as
variáveis independentes para prever a variável dependente. Ex: regressão linear
❑ Modelo (treinado): objeto computacional que efetivamente transforma uma
observação (variáveis independentes) em uma previsão utilizando um algoritmo
específico, instanciado e treinado, tendo-se assim determinado os parâmetros
ótimos do modelo, por meio do treinamento.
Modelos
Prof. Erick Muzart
Desafio preditivo
❑ Estimar um valor provável de venda de apartamento, utilizando um
histórico de preços [Awab 2017]

Como utilizar esses


dados para realizar
uma predição de
valor?

Jardim America,
120m2, 2 vagas, 20
anos, conservação b
Modelos
Prof. Erick Muzart
[FIM]MODELOS PREDITIVOS

Prof. Erick
Muzart
MODELOS LINEARES – REGRESSÃO
LINEAR

Prof. Erick
Muzart
Regressão Linear
❑ Estimativa de preço como soma ponderada de suas características (área,
bairro, vagas, conservação, etc.)
❑ O valor de cada característica do imóvel é multiplicado por um peso
específico para aquela característica:
Preço Estimado = PesoÁrea * área + PesoBairro * bairro + PesoVagas * vagas +
PesoConservação * Conservação
Otimização dos parâmetros da reta por
mínimos quadrados.

Desempenho do modelo medido por R2:


percentual da variabilidade explicada
Modelos Lineares
Prof. Erick Muzart
Fundatec/PrefPortoAlegre-Estat/2021
Considerando o relacionamento entre a variável independente X e a variável dependente Y,
mostrado na figura abaixo, assinale a alternativa correta.
Regression Plot
Y = 4,58602 - 0,606447 X
S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5%

A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.


B - O relacionamento entre X e Y é fraco e não deve ser considerado.
C - Não existe relação linear entre as variáveis analisadas.
D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.
Modelos Lineares
Prof. Erick Muzart
Fundatec/PrefPortoAlegre-Estat/2021
Considerando o relacionamento entre a variável independente X e a variável dependente Y,
mostrado na figura abaixo, assinale a alternativa correta.
Regression Plot
Y = 4,58602 - 0,606447 X
S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5%

A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.


B - O relacionamento entre X e Y é fraco e não deve ser considerado.
C - Não existe relação linear entre as variáveis analisadas.
D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.
Modelos Lineares
Prof. Erick Muzart
Fundatec/PrefPortoAlegre-Estat/2021
Considerando o relacionamento entre a variável independente X e a variável dependente Y,
mostrado na figura abaixo, assinale a alternativa correta.
Regression Plot
Y = 4,58602 - 0,606447 X
S = 0,0072931 R-Sq = 73,2% R-Sq(adj) = 71,5%

A - O relacionamento entre X e Y é positivo, e o coeficiente de correlação é igual a 73,2%.


B - O relacionamento entre X e Y é fraco e não deve ser considerado.
C - Não existe relação linear entre as variáveis analisadas.
D - O relacionamento entre X e Y é negativo, e a variável X explica 73,2% da variação da variável Y.
E - O relacionamento entre X e Y é positivo, e a variável X explica 73,2% da variação da variável Y.
Modelos Lineares
Prof. Erick Muzart
[FIM]MODELOS LINEARES –
REGRESSÃO LINEAR

Prof. Erick
Muzart
MODELOS LINEARES – REGRESSÃO
LOGÍSTICA

Prof. Erick
Muzart
Regressão logística
❑ Algoritmo de classificação, resulta de uma regressão linear seguida de
transformação logística, realizada pela função sigmóide
❑ A função sigmóide transforma o resultado sem limite da regressão linear,
para valor no intervalo [0, 1] que pode ser interpretado como a probabilidade
da classe positiva

Modelos
Prof. Erick Muzart
Cespe/Sefaz-AL/2021
A regressão logística é um modelo de regressão no qual a relação entre as variáveis
independentes e a variável dependente é representada por uma função degrau, a qual, por
sua vez, pode ser representada por uma spline.

(C) Certo
(E) Errado

Supervisionado ou não
Prof. Erick Muzart
Cespe/Sefaz-AL/2021
A regressão logística é um modelo de regressão no qual a relação entre as variáveis
independentes e a variável dependente é representada por uma função degrau, a qual, por
sua vez, pode ser representada por uma spline.

(C) Certo
(E) Errado

Supervisionado ou não
Prof. Erick Muzart
FGV/Fiocruz/2010
Assinale a alternativa que indique o problema mais apropriado para aplicação da
regressão logística.
A - Para obter o risco relativo de se desenvolver a diabetes tipo 2, em um período de 10
anos, associado com o peso do indivíduo e outros fatores de risco.
B - Para descrever o tamanho esperado de crianças com menos de um ano, de acordo
com sua idade em meses.
C - Para predizer o tempo de sobrevivência de pacientes de câncer de pulmão, de acordo
com características clínicas do paciente.
D - Para descrever a distribuição de pesos de indivíduos do sexo feminino em uma certa
comunidade
E - Para predizer o número de casos de uma doença em diferentes municípios de acordo
com algumas variáveis populacionais e epidemiológicas.
Supervisionado ou não
Prof. Erick Muzart
FGV/Fiocruz/2010
Assinale a alternativa que indique o problema mais apropriado para aplicação da
regressão logística.
A - Para obter o risco relativo de se desenvolver a diabetes tipo 2, em um período de 10
anos, associado com o peso do indivíduo e outros fatores de risco.
B - Para descrever o tamanho esperado de crianças com menos de um ano, de acordo
com sua idade em meses.
C - Para predizer o tempo de sobrevivência de pacientes de câncer de pulmão, de acordo
com características clínicas do paciente.
D - Para descrever a distribuição de pesos de indivíduos do sexo feminino em uma certa
comunidade
E - Para predizer o número de casos de uma doença em diferentes municípios de acordo
com algumas variáveis populacionais e epidemiológicas.
Supervisionado ou não
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido].

58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o
modelo de regressão logística, uma vez que a variável dependente se apresenta de forma
quantitativa.

Certo ou Errado?

Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido].

58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o
modelo de regressão logística, uma vez que a variável dependente se apresenta de forma
quantitativa.

Certo ou Errado?

Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Enunciado com descrição de uma tarefa [omitido] e tabela com valores numéricos [omitido].

58 Uma forma de melhorar o modelo de regressão linear para a situação em questão é utilizar o
modelo de regressão logística, uma vez que a variável dependente se apresenta de forma
quantitativa.

Certo ou Errado?

Classificação
Prof. Erick Muzart
[FIM]MODELOS LINEARES –
REGRESSÃO LOGÍSTICA

Prof. Erick
Muzart
K-VIZINHOS MAIS PRÓXIMOS (KNN)

Prof. Erick
Muzart
knn
❑ Previsão baseada nos valores conhecidos “mais similares” ou mais
próximos em termos de distância entre características.
❑ k-vizinhos mais próximos ou em inglês k-nearest neighbors (knn):
memoriza dados de treinamento e para cada nova previsão identifica as k
observações conhecidas mais próximas de onde se deseja uma previsão,
retornando a média desses vizinhos.

knn
Prof. Erick Muzart
Classificação Regressão
Machine Learning
Máquina de previsão:
• Classificação

• Regressão
FGV/TCU/2021
Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra
pertence na tabela a seguir.
Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos
mais próximos com k=3 e usando a distância euclidiana usual. Suas classes previstas são,
respectivamente:
(A) A, B, A;
(B) B, A, A;
(C) A, B, B;
(D) A, A, B;
(E) A, A, A.

knn
Prof. Erick Muzart
FGV/TCU/2021
Um analista do TCU recebe o conjunto de dados com covariáveis e a classe a que cada amostra
pertence na tabela a seguir.
Esse analista gostaria de prever a classe dos pontos (1,1), (0,0) e (-1,2) usando o algoritmo de k-vizinhos
mais próximos com k=3 e usando a distância euclidiana usual. Suas classes previstas são,
respectivamente:
Classificar um ponto requer calcular quais os 3
(A) A, B, A;
pontos mais próximos e escolher a classe da maioria
(B) B, A, A; desses 3 vizinhos mais próximos:
(C) A, B, B; Pontos:
(1,1): (0,1)A, (1,0)A, (1,2)A -> maioria A
(D) A, A, B;
(0,0): (0,1)A, (1,0) A, [(1,-1)B ou (-1,1)B] -> maioria
(E) A, A, A. A
(-1,2): (-1,1)B, (0,2)B, (0,1)A -> maioria B
knn
Prof. Erick Muzart
[FIM]K-VIZINHOS MAIS PRÓXIMOS (KNN)

Prof. Erick
Muzart
Regras de Associação: Apriori

Prof. Erick
Muzart
Regras de Associação

❑ Exemplo de aprendizado não supervisionado


❑ Descoberta de relações interessantes entre variáveis: regras
❑ Análise de cesta de compras (market basket analysis): produtos são
comprados numa mesma transação; a partir de múltiplas transações
procura-se prever quais co-ocorrências de produtos são mais relevantes

Apriori
Prof. Erick Muzart
Regras de Associação
❑ Regras: Se compra A e B então compra C
{A, B -> C}
Ex regra: {Cerveja, Gelo -> Carvão}
❑ Regras mais interessantes?
• Suporte: frequência de itens da regra
3 ocorrências de 10: 0,3
• Confiança: percentual de ocorrências dos
itens que respeitam a regra
3 ocorrências respeitadas sobre 3: 100%
Apriori
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
Considere o seguinte histórico de dez compras em uma loja de conveniência
onde, para cada compra, aparecem assinalados os produtos adquiridos. Na
aplicação do algoritmo Apriori para essa amostra, a medida de confiança
(confidence) para a associação {cerveja → gelo} é:

(A) 1,0
(B) 0,6
(C) 0,5
(D) 0,3
(E) 0,1

Apriori
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
Considere o seguinte histórico de dez compras em uma loja de conveniência
onde, para cada compra, aparecem assinalados os produtos adquiridos. Na
aplicação do algoritmo Apriori para essa amostra, a medida de confiança
(confidence) para a associação {cerveja → gelo} é:

(A) 1,0 Confiança: percentual de ocorrências dos


(B) 0,6 itens que respeitam a regra
(C) 0,5
(D) 0,3 Ocorrências {cerveja, gelo}: 3
(E) 0,1 Ocorrências {cerveja} : 6

Confiança = n{cerveja, gelo} /


n{cerveja}
Apriori
Prof. Erick Muzart = 3/6 = 0,5
Apriori
❑ Constrói o conjunto de regras das mais simples (único item) às mais
complexas (múltiplos itens)
❑ Para cada nível de regra, calcula o número de ocorrências nos dados
(suporte) e elimina as regras com suporte inferior a um patamar mínimo
❑ As regras que subsistirem são expandidas para mais um produto...

Apriori
Prof. Erick Muzart
Apriori
❑ Aplicação, com suporte >= 5

{Cerveja -> Gelo} : suporte 3

{ Gelo - > Carvão} : suporte 5, confiança


100%

Pode-se ordenar as regras pelo maior produto


suporte x confiança
Apriori
Prof. Erick Muzart
[fim]Regras de Associação: Apriori

Prof. Erick
Muzart
ÁRVORE DE DECISÃO

Prof. Erick
Muzart
Intuição árvore de decisão
❑ Imaginem que vocês queiram prever se um dado passageiro do Titanic
sobreviveu ou não ao desastre: que sequência de perguntas sobre as
características do passageiro melhor ajudariam a prever se sobreviveu?
❑ Intuitivamente algumas características dos passageiros seriam mais
importantes: sexo, idade, classe... Como descobrir quais as mais importantes
e em que sequência deveriam ser avaliadas para estimar a probabilidade de
sobrevivência?

Modelos
Prof. Erick Muzart
Árvore de decisão: Titanic

Modelos
Prof. Erick Muzart
Árvore de decisão no sklearn

Modelos
Prof. Erick Muzart
Árvore de decisão no sklearn

Modelos
Prof. Erick Muzart
Árvore de decisão
❑ Descobre sequências de regras do tipo “Se variável X maior do que p então”
que permitem separar observações em grupos de uma classe majoritária
❑ A variável e o “ponto de corte” escolhidos para separar uma amostra de dados
são o que permite gerar subconjuntos mais homogêneos: ganho de informação
ou redução de entropia
❑ Modelo altamente interpretável: regras simples e de fácil visualização
❑ Árvore de decisão pode ser utilizada tanto para classificação como para
regressão
❑ Otimiza-se a árvore, realizando sua “poda” por diversos critérios: profundidade,
tamanho mínimo das folhas, ganho mínimo de informação, etc.
Modelos
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Uma árvore de decisão representa um determinado número de caminhos
possíveis de decisão e os resultados de cada um deles, apresentando muitos
pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm
processo de previsão completamente transparente e lidam facilmente com
diversos atributos numéricos, assim como atributos categóricos, podendo até
mesmo classificar dados sem atributos definidos.

61 A entropia de uma árvore de decisão aborda o aspecto da quantidade de


informações que está associada às respostas que podem ser obtidas às
perguntas formuladas, representando o grau de incerteza associado aos dados.

Certo ou Errado?
Classificação
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Uma árvore de decisão representa um determinado número de caminhos
possíveis de decisão e os resultados de cada um deles, apresentando muitos
pontos positivos, ou seja, são fáceis de entender e interpretar. Elas têm
processo de previsão completamente transparente e lidam facilmente com
diversos atributos numéricos, assim como atributos categóricos, podendo até
mesmo classificar dados sem atributos definidos.

61 A entropia de uma árvore de decisão aborda o aspecto da quantidade de


informações que está associada às respostas que podem ser obtidas às
perguntas formuladas, representando o grau de incerteza associado aos dados.

Certo ou Errado?
Classificação
Prof. Erick Muzart
FGV/TCU/2021
Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1, x2), para
cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada
nessa amostra foi “Sim”, “Não”, “Sim”,“Não”, respectivamente.
A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma
árvore de decisão é:
(A) x1 > 2 (“Sim”) e x1 ≤ 2 (“Não”);
(B) x1 > 5 (“Sim”) e x1 ≤ 5 (“Não”);
(C) x2 > 3 (“Sim”) e x2 ≤ 3 (“Não”);
(D) x2 > 6 (“Sim”) e x2 ≤ 6 (“Não”);
(E) x1 > 1 (“Sim”) e x1 ≤ 1 (“Não”).

knn
Prof. Erick Muzart
FGV/TCU/2021
Em um problema de classificação é entregue ao cientista de dados um par de covariáveis, (x1, x2), para
cada uma das quatro observações a seguir: (6,4), (2,8), (10,6) e (5,2). A variável resposta observada
nessa amostra foi “Sim”, “Não”, “Sim”,“Não”, respectivamente.
A partição que apresenta o menor erro de classificação quando feita na raiz (primeiro nível) de uma
árvore de decisão é:
Numa árvore de decisão cada nó é construído
(A) x1 > 2 (“Sim”) e x1 ≤ 2 (“Não”); X1 X2 resp com a variável e o ponto de corte que gera a
partição mais “pura” possível!
(B) x1 > 5 (“Sim”) e x1 ≤ 5 (“Não”); 6 4 S
Testamos cada variável e cada possível ponto de
(C) x2 > 3 (“Sim”) e x2 ≤ 3 (“Não”); corte:
2 8 N
(D) x2 > 6 (“Sim”) e x2 ≤ 6 (“Não”); X2: todas as partições misturadas
10 6 S X1: partições puras se o corte for em < 6 ou > 5:
(E) x1 > 1 (“Sim”) e x1 ≤ 1 (“Não”).
Regra: se x1 > 5 então S; se x1 <= 5 então N
5 2 N Alternativa B
knn
Prof. Erick Muzart
[FIM]ÁRVORE DE DECISÃO

Prof. Erick
Muzart
Exercício síntese 1

Prof. Erick
Muzart
FGV/CGU/2021
Considere uma matriz de confusão de um modelo de classificação binária de relatórios
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas
como:
(A) Precision = 0.71. Recall = 0.83;

(B) Precision = 0.83. Recall = 0.71;

(C) Precision = 0.83. Recall = 0.90;

(D) Precision = 0.90. Recall = 0.71;

(E) Precision = 0.90. Recall = 0.83.

Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
Considere uma matriz de confusão de um modelo de classificação binária de relatórios
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas
como:
(A) Precision = 0.71. Recall = 0.83; valor previsto
(B) Precision = 0.83. Recall = 0.71;
negativo positivo

(C) Precision = 0.83. Recall = 0.90; Verdadeiro Falso Positivo


negativo
(D) Precision = 0.90. Recall = 0.71; Negativo (Erro tipo I)
valor real
(E) Precision = 0.90. Recall = 0.83.
Falso Negativo Verdadeiro
positivo
(Erro tipo II) Positivo
Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
Considere uma matriz de confusão de um modelo de classificação binária de relatórios
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas
como:
(A) Precision = 0.71. Recall = 0.83; valor previsto
(B) Precision = 0.83. Recall = 0.71;
negativo positivo

(C) Precision = 0.83. Recall = 0.90;


100 40
negativo Verdadeiro Falso Positivo
(D) Precision = 0.90. Recall = 0.71;
valor real Negativo (Erro tipo I)
(E) Precision = 0.90. Recall = 0.83.
20 200
positivo Falso Negativo Verdadeiro
(Erro tipo II) Positivo
Supervisionado ou não
Prof. Erick Muzart
FGV/CGU/2021
Considere uma matriz de confusão de um modelo de classificação binária de relatórios
financeiros. O modelo classifica os relatórios em fraudulentos ou não fraudulentos.
Se essa matriz apresenta 200 verdadeiros positivos, 100 verdadeiros negativos, 40 erros do
“tipo 1” e 20 erros do “tipo 2”, podem-se calcular as métricas de desempenho aproximadas
como: valor previsto
negativo positivo
40 Sensibilidade (recall) = VP / (VP + FN) “proporção de positivos
100
negati Falso corretos” = 200/(200+20) = 200/220 ~ 91%
Verdadeiro
valor vo Negativo
Positivo
real (Erro tipo I)
20
200 Precisão = VP / (VP + FP) “proporção de previsões positivas
positiv Falso
o Negativo
Verdadeiro corretas” = 200 / (200+40) = 200/240 ~ 83%
Positivo
(Erro tipo II)

(C) Precision = 0.83. Recall = 0.90;

Supervisionado ou não
Prof. Erick Muzart
FGV/Sefaz-ES/2021
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação.
A - Algoritmos de associação.
B - Algoritmos de clusterização.
C - Árvores de decisão.
D - Modelagem de dados.
E - Regressão linear.

Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação.
A - Algoritmos de associação.
B - Algoritmos de clusterização.
C - Árvores de decisão.
D - Modelagem de dados.
E - Regressão linear.

Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação.
A - Algoritmos de associação.
B - Algoritmos de clusterização.
C - Árvores de decisão.
D - Modelagem de dados.
E - Regressão linear.

Extras
Prof. Erick Muzart
FGV/Sefaz-ES/2021
Maria está preparando um relatório sobre as empresas de serviços de um município, de modo
a identificar e estudar o porte dessas empresas com vistas ao estabelecimento de políticas
públicas e previsões de arrecadação. Maria pretende criar nove grupos de empresas, de
acordo com os valores de faturamento, e recorreu às técnicas usualmente empregadas em
procedimentos de data mining para estabelecer as faixas de valores de cada grupo. Assinale
a opção que apresenta a técnica diretamente aplicável a esse tipo de classificação.
A - Algoritmos de associação.
B - Algoritmos de clusterização. O que precisaria ser modificado no
C - Árvores de decisão. enunciado para que a alternativa correta
fosse cada uma das demais alternativas
D - Modelagem de dados.
disponíveis?
E - Regressão linear.

Extras
Prof. Erick Muzart
REDES NEURAIS

Prof. Erick
Muzart
Redes Neurais
❑ Perceptron
❑ Múltiplas camadas (MLP)
❑ Redes Neurais Artificiais feed-forward
❑ Deep Learning

Redes Neurais
Prof. Erick Muzart
Perceptron

Redes Neurais
Prof. Erick Muzart
Múltiplas Camadas
❑ Perceptrons conectados em múltiplas camadas (MLP)
❑ Unidades totalmente conectadas, entre camadas
❑ Feed-forward:
• sinal sempre se propaga para frente
• sem ciclos
❑ Deep Learning: múltiplas camadas escondidas
• diversidade de arquiteturas de conexão
❑ Treinamento:
• ajuste dos pesos por retro-propagação (back propagation)
Redes Neurais
Prof. Erick Muzart
Múltiplas Camadas
❑ Deep Learning: muitas unidades em
múltiplas camadas escondidas
• diversidade de arquiteturas de conexão:
convolutivas (CNN), recorrentes (RNN),
LSTM (Long Short-Term Memory), etc.
• em geral, o desempenho de um modelo
aumenta com seu tamanho e quantidade
de dados de treinamento
❑ Treinamento por ajuste dos pesos por
retro-propagação: back propagation
Redes Neurais
Prof. Erick Muzart
Função de ativação
❑ Tangente hiperbólica

❑ Sigmóide
Função de ativação

❑ ReLU : Rectified Linear Unit


f(x) = max(0, x)

Redes Neurais
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
No contexto das redes neurais, é
comum o uso da função sigmoid no
papel de função de ativação.
Assinale a definição correta dessa
função na referida aplicação.

Redes Neurais
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
No contexto das redes neurais, é
comum o uso da função sigmoid no
papel de função de ativação.
Assinale a definição correta dessa
função na referida aplicação.

Redes Neurais
Prof. Erick Muzart
FGV/Niterói-Seplag/2018
Analise a rede neural exibida a seguir. Sobre essa rede, analise as afirmativas a seguir.
I. Não possui camadas intermediárias (hidden layers).
II. Admite três sinais de entrada (input units) além do intercept term.
III. É apropriada para aplicações de deep learning. Está correto o que se afirma em
(A) I, apenas.
(B) II, apenas.
(C) III, apenas.
(D) I e II, apenas.
(E) I, II e III.

Redes Neurais
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
(C) ou (E): Cada unidade de uma rede neural artificial possui um valor e um peso, no seu nível mais
básico, para indicar sua importância relativa.

(C) ou (E): Redes neurais do tipo LSTM (long short-term memory) mantêm o nível de precisão
independentemente do tamanho do modelo utilizado.

Redes Neurais
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
(C) ou (E): Cada unidade de uma rede neural artificial possui um valor e um peso, no seu nível mais
básico, para indicar sua importância relativa.

(C) ou (E): Redes neurais do tipo LSTM (long short-term memory) mantêm o nível de precisão
independentemente do tamanho do modelo utilizado.

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

70 Uma RNA é formada por unidades que fazem operações a partir das
entradas (sinais) recebidas pelas suas conexões; cada sinal é multiplicado por
um peso e, após a soma ponderada dos sinais, caso o nível de atividade atinja o
threshold, a unidade produz uma determinada resposta de saída.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

70 Uma RNA é formada por unidades que fazem operações a partir das
entradas (sinais) recebidas pelas suas conexões; cada sinal é multiplicado por
um peso e, após a soma ponderada dos sinais, caso o nível de atividade atinja o
threshold, a unidade produz uma determinada resposta de saída.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

71 Em RNA formada unicamente de perceptron, uma pequena alteração nos


pesos de um único perceptron na rede pode ocasionar grandes mudanças na
saída desse perceptron; mesmo com a inserção das funções de ativação, não é
possível controlar o nível da mudança, por isso, essas redes são voltadas para a
resolução de problemas específicos, tais como regressão e previsão de séries
temporais.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

71 Em RNA formada unicamente de perceptron, uma pequena alteração nos


pesos de um único perceptron na rede pode ocasionar grandes mudanças na
saída desse perceptron; mesmo com a inserção das funções de ativação, não é
possível controlar o nível da mudança, por isso, essas redes são voltadas para a
resolução de problemas específicos, tais como regressão e previsão de séries
temporais.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

72 As funções de ativação são elementos importantes nas redes neurais


artificiais; essas funções introduzem componente não linear nas redes neurais,
fazendo que elas possam aprender mais do que relações lineares entre as
variáveis dependentes e independentes, tornando-as capazes de modelar
também relações não lineares.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

72 As funções de ativação são elementos importantes nas redes neurais


artificiais; essas funções introduzem componente não linear nas redes neurais,
fazendo que elas possam aprender mais do que relações lineares entre as
variáveis dependentes e independentes, tornando-as capazes de modelar
também relações não lineares.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

73 O algoritmo de backpropagation consiste das fases de propagação e de


retro propagação: na primeira, as entradas são passadas através da rede e as
previsões de saída são obtidas; na segunda, se calcula o termo de correção dos
pesos e, por conseguinte, a atualização dos pesos.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
Cesbraspe/Petrobras/2021
Julgue os próximos itens, relativos a redes neurais artificiais (RNA).

73 O algoritmo de backpropagation consiste das fases de propagação e de


retro propagação: na primeira, as entradas são passadas através da rede e as
previsões de saída são obtidas; na segunda, se calcula o termo de correção dos
pesos e, por conseguinte, a atualização dos pesos.

Certo ou Errado?

Redes Neurais
Prof. Erick Muzart
FGV/TCU/2021
Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1, x2).
Essa rede aplica pesos w1 em x1, w2 em x2 e adiciona um viés w0. A função de ativação é dada pela
função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e
será utilizada para classificar observações em y=+1 ou y=-1.
Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos:

(A) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como -1 os pontos acima da reta;
(B) (x1 = 1/2, x2 = 0) e (x1 = 0, x2 = 1/3) e classifica como +1 os pontos acima da reta;
(C) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como +1 os pontos acima da reta;
(D) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = 1/3) e classifica como +1 os pontos acima da reta;
(E) (x1 = 1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como -1 os pontos acima da reta.

Redes Neurais
Prof. Erick Muzart
FGV/TCU/2021
Seja uma rede neural com camada de entrada com dimensão dois que recebe dados (x1, x2).
Essa rede aplica pesos w1 em x1, w2 em x2 e adiciona um viés w0. A função de ativação é dada pela
função sinal s(z) = +1, se z ≥ 0, e s(z) = -1, se z < 0. Essa rede não tem nenhuma camada oculta e
será utilizada para classificar observações em y=+1 ou y=-1.
Para pesos w1 = 2, w2 = 3 e viés w0 = 1, a região de classificação é uma reta que passa nos pontos:

Descrição dos parâmetros da rede neural


(perceptron: única unidade)
A saída z do perceptron é a combinação linear das
entradas xi multiplicadas pelos pesos wi:
z = 2x1 + 3x2 + 1

Redes Neurais
Prof. Erick Muzart
FGV/TCU/2021
Para determinar as condições para que z seja positivo ou negativo,
identificamos quando é igual a zero: 2x1 +3x2 + 1 = 0
A equação define uma reta entre x1 e x2.
Verifica-se que os seguintes pontos encontram-se na reta: (-1/2, 0)
e (0, -1/3).

Quaisquer pontos (x1, x2) “acima” da reta resultarão em z > 0 ou


y=+1

(C) (x1 = -1/2, x2 = 0) e (x1 = 0, x2 = -1/3) e classifica como +1


os pontos acima da reta;

Redes Neurais
Prof. Erick Muzart
NAIVE BAYES

Prof. Erick
Muzart
Naive Bayes
❑ Imagine que você queira adivinhar se determinada pessoa é um homem ou
uma mulher, por meio de perguntas sobre essa pessoa
❑ Inicialmente, sem nenhuma informação disponível pode considerar que a
probabilidade de ser uma mulher é de 50% (ou algum outro ponto de partida
em função do seu conhecimento da composição do grupo)
❑ Em seguida, imagine perguntas sobre características que sejam mais
informativas: altura, peso, comprimento de cabelo, idade, escolaridade, força,
etc.
❑ Cada informação obtida pode afetar a probabilidade estimada até então. Mas
como e quanto? Depende da frequência relativa dessa característica entre os
grupos de homens e de mulheres...
Naive Bayes
Prof. Erick Muzart
Naive Bayes
❑ Classificador probabilístico baseado no teorema de Bayes, com hipótese forte
(ingênua) de independência entre seus atributos (variáveis)
❑ Teorema de Bayes: P(A|B) = P(B|A) * P(A) / P(B)
P(A|B) : a probabilidade condicional de A dado B
Posterior = prévia * verossimilhança / evidência
❑ Cada nova informação sobre um objeto altera a probabilidade de que ele seja
de alguma classe; essas alterações de probabilidade refletem frequências de
ocorrências dos atributos nos dados de treinamento e hipótese sobre a sua
distribuição de valores (normal, multinomial, Bernoulli)
❑ Rápido e escalável, funciona bem tanto com poucos ou com muitos dados.
Muito utilizado em filtro de spam e PLN
Naive Bayes
Prof. Erick Muzart
AOCP/MJSP/2020
Um cientista de dados deve utilizar uma técnica de mineração de dados que não usa
regras ou árvore de decisão ou qualquer outra representação explícita do classificador,
mas que usa o ramo da matemática conhecido como teoria das probabilidades para
encontrar a mais provável das possíveis classificações. Sabendo disso, assinale a
alternativa que apresenta corretamente o nome da técnica a ser utilizada pelo cientista de
dados.
A - Regras de decisão.
B - Árvore binária.
C - Entropia.
D - Classificação Naive Bayes.
E - Agrupamento.

Naive Bayes
Prof. Erick Muzart
AOCP/MJSP/2020
Um cientista de dados deve utilizar uma técnica de mineração de dados que não usa
regras ou árvore de decisão ou qualquer outra representação explícita do classificador,
mas que usa o ramo da matemática conhecido como teoria das probabilidades para
encontrar a mais provável das possíveis classificações. Sabendo disso, assinale a
alternativa que apresenta corretamente o nome da técnica a ser utilizada pelo cientista de
dados.
A - Regras de decisão.
B - Árvore binária.
C - Entropia.
D - Classificação Naive Bayes.
E - Agrupamento.

Naive Bayes
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
(C) ou (E): A classificação Naive Bayes parte da suposição de que as variáveis envolvidas em
machine learning são independentes entre si.

Naive Bayes
Prof. Erick Muzart
Cespe/Sefaz-CE/2021
(C) ou (E): A classificação Naive Bayes parte da suposição de que as variáveis envolvidas em
machine learning são independentes entre si.

Naive Bayes
Prof. Erick Muzart
FGV/CGU/2021
A = “Eu gostei do livro, apesar do livro ser longo” – positiva;
B = “Esse livro é muito legal” – positiva;
C = “Eu não gostei do livro, não gosto muito desse autor” – negativa.
Para calcular as probabilidades de uma sentença ser positiva e de uma determinada palavra aparecer
na sentença, dado que a sentença é positiva, em Aprendizado de Máquinas, pode-se usar o Naive
Bayes. Com a utilização dessa técnica, e com base nos dados das três sentenças acima, os valores das
estimativas de máxima verossimilhança de P(positiva) e P(livro|positiva) são, respectivamente:
(A) 1/3 e 1/2;
(B) 1/3 e 3/14;
(C) 2/3 e 3/14;
(D) 2/3 e 1/2;
(E) 2/3 e 2/3.

Naive Bayes
Prof. Erick Muzart
FGV/CGU/2021
A = “Eu gostei do livro, apesar do livro ser longo” – positiva;
B = “Esse livro é muito legal” – positiva;
C = “Eu não gostei do livro, não gosto muito desse autor” – negativa.
Para calcular as probabilidades de uma sentença ser positiva e de uma determinada palavra aparecer
na sentença, dado que a sentença é positiva, em Aprendizado de Máquinas, pode-se usar o Naive
Bayes. Com a utilização dessa técnica, e com base nos dados das três sentenças acima, os valores das
estimativas de máxima verossimilhança de P(positiva) e P(livro|positiva) são, respectivamente:
(A) 1/3 e 1/2;
P(positiva) = Número sentenças positivas / Número total sentenças
(B) 1/3 e 3/14;
=2/3
(C) 2/3 e 3/14;
(D) 2/3 e 1/2;
P(livro | positiva) = Número ocorrências “livro” nas sentenças positivas /
(E) 2/3 e 2/3. Número de palavras nas sentenças positivas
= 3 / 14
Naive Bayes
Prof. Erick Muzart
OBRIGADO
Prof. Erick
Muzart

Você também pode gostar