COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02

APRENDIZADO DE MÁQUINAS
Aprendizado para Classificação

Árvores de Decisão
TÓPICOS
1. Métodos Simbólicos
2. Árvores de Decisão
3. Regras de Decisão
4. Regras de Divisão para Classificação
5. Regras de Divisão para Regressão
6. Valores Desconhecidos
7. Estratégias de Poda
8. Vantagens x Desvantagens
9. Regras de Decisão
MÉTODOS SIMBÓLICOS
Neste paradigma, um conceito é representado em uma estrutura simbólica e o
aprendizado é realizado através da apresentação de exemplos e contraexemplos
deste conceito.
Essas estruturas possibilitam uma interpretação mais direta por seres humanos.
A vantagem principal desse tipo de método é uma maior compreensibilidade do
processo decisório.
Fonte: Medium.com
ÁRVORES DE DECISÃO E REGRESSÃO
Uma árvore de decisão
usa a estratégia dividir
para conquistar, de
modo a resolver um
problema de decisão.
Formalmente, uma
árvore de decisão é
um grafo direcionado
acíclico em que cada
nó ou é um nó de
divisão, com dois ou
mais sucessores, ou é
um nó folha.
Fonte: Data Sciense Foundation
INDUÇÃO DE ÁRVORES DE DECISÃO E REGRESSÃO
• A entrada para a função GeraÁrvore é um conjunto de dados D

• No passo 3, o algoritmo avalia o critério de parada
• Se mais divisões são necessárias é escolhido o atributo que maximiza o
critério de Divisão (passo 5)
• No passo 7, a função é recursivamente aplicada a cada partição do
conjunto de dados D
REGRAS DE DIVISÃO POR CLASSIFICAÇÃO
Deve-se considerar o uso de árvores de decisão em

situações onde:
 As instâncias são descritas por pares atributo-valor;
 A função objeto (alvo) é de valor discreto;
 Os exemplos de treino poderão ter erro (noise);
 Faltam valores nos atributos;
Exemplos:
• Diagnósticos médicos;
• Análises de risco de crédito;
• Classificação de objetos para um manipulador
de robot (Tan1993).
Algoritmo ID3
O algoritmo ID3 (inductive decision tree) é dos mais utilizados para a construção
de árvores de decisão. Este algoritmo segue os seguintes passos:
• Começar com todos os exemplos de treino;
• Escolher o teste (atributo) que melhor divide os exemplos, ou seja, agrupar
exemplos da mesma classe ou exemplos semelhantes;
• Para o atributo escolhido, criar um nó filho para cada valor possível
do atributo;
• Transportar os exemplos para cada filho tendo em conta o valor do
filho;
• Repetir o procedimento para cada filho não "puro". Um filho é puro
quando cada atributo X tem o mesmo valor em todos os exemplos.
Coloca-se então, uma pergunta muito importante:
Como saber qual o melhor atributo a escolher?
Para lidar com esta escolha são introduzidos dois novos conceitos,
a Entropia e o Ganho.
Entropia
A entropia de um conjunto pode ser definida como sendo o grau de pureza
desse conjunto. Este conceito, emprestado pela Teoria da Informação define
a medida de "falta de informação", mais precisamente o número de bits
necessários, em média, para representar a informação em falta usando
codificação ótima.
Dada uma coleção S contendo exemplos positivos (+) e

negativos(-) de algum conceito alvo, a entropia de S relativa
a essa classificação boolena é:
Onde:
P+ é a proporção de exemplos positivos em S
P- é a proporção de exemplos negativos em S
Exemplo:
Entropia:
Ganho de Informação: redução esperada no valor da Entropia, devido
à ordenação no conjunto de treino segundo os valores do atributo A.
Exemplo:
Para responder a pergunta: Qual o melhor atributo para iniciar a árvore ?

Resposta: utiliza-se o ganho.
No exemplo dado:
Ganho(S, Perspectiva) = 0,246

Ganho(S, Umidade) = 0,151
Ganho(S, Vento) = 0,048
Ganho(S, Temperatura) = 0,029
Quando em todos os nós a entropia for nula, o algoritmo para e
obtém-se a seguinte árvore de decisão:
REGRAS DE DIVISÃO POR REGRESSÃO
As árvores de regressão são usadas quando a variável dependente é contínua,
diferentemente das árvores de classificação que são usadas quando a variável
dependente é categórica.
No caso da árvore de regressão, o valor obtido pelos nós de término nos dados de
treinamento é o valor médio das suas observações. Assim, a uma nova observação
de dados atribui-se o valor médio correspondente.
Ambas as árvores dividem o espaço preditor (variáveis independentes)

em regiões distintas e não sobrepostas.
Para a realização das partições em uma árvore de regressão utiliza-se

a métrica de redução da variância, definida pelas fórmulas abaixo:
VALORES DESCONHECIDOS
Se o valor do atributo testado não é conhecido podemos utilizar as
seguintes estratégias:
• Trocar o valor desconhecido pelo valor mais comum para

o atributo encontrado no conjunto de treinamento
• Considerar o valor desconhecido como outro valor

possível
• Associa-se uma probabilidade a cada um dos possíveis

valores do atributo (Algoritmo C4.5)
• Estratégia da Divisão Substituta (Algoritmo CART)

ESTRATÉGIAS DE PODA
Overfitting: Um cenário de overfitting ocorre quando, nos dados de treino, o modelo
tem um desempenho excelente, porém, quando utilizamos os dados de teste o
resultado é ruim.
Underfitting: No cenário de underfitting o desempenho do modelo já é ruim no próprio

treinamento. O modelo não consegue encontrar relações entre as variáveis e o teste
nem precisa acontecer. Este modelo já pode ser descartado, pois não terá utilidade.
ESTRATÉGIAS DE PODA
Para melhorar o modelo, utilizam-se métodos de poda (pruning) na árvore, cujo
objetivo é melhorar a taxa de acerto do modelo para novas amostras que não
foram utilizadas no treinamento.
Pré-poda: realizada durante a construção da árvore.

Em um certo momento, se o ganho de informação
for menor que um valor preestabelecido, então,
esse nó vira folha.
Pós-poda: realizada após a construção da

ESTRATÉGIAS árvore. Para cada nó interno da árvore, é
calculada a taxa de erro caso esse nó vire folha
(e tudo abaixo dele seja eliminado). Em seguida,
é calculada a taxa de erro caso não haja a poda.
Se a diferença entre essas duas taxas de erro for
menor que um valor preestabelecido, a árvore é
podada; caso contrário, não ocorre a poda.
ASPECTOS POSITIVOS X NEGATIVOS
Vantagens:
1. Flexibilidade
2. Robustez
3. Seleção de atributos
4. Interpretabilidade
5. Eficiência
Desvantagens:
1. Replicação
2. Valores ausentes
3. Atributos contínuos
4. Instabilidade
REGRAS DE DECISÃO
REGRAS DE DECISÃO
Vantagens de converter uma árvore de decisão em regras antes da poda:
• Permite distinguir entre os diferentes contextos onde os nós de

decisão são utilizados
• Remove a distinção entre atributos de testes que

ocorrem próximos da raiz da árvore e aqueles que
ocorrem próximos das folhas
• Melhora a leitura humana
• Regras são geralmente mais fáceis para pessoas

entenderem
RESUMO
Aprendizagem de árvores de decisão fornece um método prático para a
aprendizagem de conceito e para a aprendizagem de outras funções de
valor discreto.
A família de algoritmos ID3 infere árvores de decisão expandindo-as a

partir da raiz e descendo, selecionando o próximo melhor atributo para
cada novo ramo de decisão adicionado à árvore.
Simplicidade para compreensão e interpretação.
Os dados não necessitam de pré-processamento.
Lidam tanto com dados numéricos quanto categóricos.

RESUMO
Emprega um modelo “caixa branca”.
Possibilidade de validar um modelo através de estatísticas.
Robustez.
Bom desempenho em grandes conjuntos de dados em um

tempo curto.
ALGORITMOS DE ÁRVORE DE DECISÃO
Onde encontrar ?
http://aima.cs.berkeley.edu/
https://github.com/
https://scikit-learn.org/stable/modules/tree.html

COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02

Enviado por

Direitos autorais:

Formatos disponíveis

COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02

Enviado por

Direitos autorais:

Formatos disponíveis

APRENDIZADO DE MÁQUINAS

Aprendizado para Classificação

• A entrada para a função GeraÁrvore é um conjunto de dados D

Deve-se considerar o uso de árvores de decisão em

Dada uma coleção S contendo exemplos positivos (+) e

Para responder a pergunta: Qual o melhor atributo para iniciar a árvore ?

Ganho(S, Perspectiva) = 0,246

Ambas as árvores dividem o espaço preditor (variáveis independentes)

Para a realização das partições em uma árvore de regressão utiliza-se

• Trocar o valor desconhecido pelo valor mais comum para

• Considerar o valor desconhecido como outro valor

• Associa-se uma probabilidade a cada um dos possíveis

• Estratégia da Divisão Substituta (Algoritmo CART)

Underfitting: No cenário de underfitting o desempenho do modelo já é ruim no próprio

Pré-poda: realizada durante a construção da árvore.

Pós-poda: realizada após a construção da

Vantagens de converter uma árvore de decisão em regras antes da poda:

• Permite distinguir entre os diferentes contextos onde os nós de

• Remove a distinção entre atributos de testes que

• Melhora a leitura humana

• Regras são geralmente mais fáceis para pessoas

A família de algoritmos ID3 infere árvores de decisão expandindo-as a

Simplicidade para compreensão e interpretação.

Os dados não necessitam de pré-processamento.

Lidam tanto com dados numéricos quanto categóricos.

Emprega um modelo “caixa branca”.

Possibilidade de validar um modelo através de estatísticas.

Bom desempenho em grandes conjuntos de dados em um

Você também pode gostar