COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02
COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02
COM410 - APRENDIZADO DE MÁQUINAS - Videoaula 02
1. Métodos Simbólicos
2. Árvores de Decisão
3. Regras de Decisão
4. Regras de Divisão para Classificação
5. Regras de Divisão para Regressão
6. Valores Desconhecidos
7. Estratégias de Poda
8. Vantagens x Desvantagens
9. Regras de Decisão
MÉTODOS SIMBÓLICOS
Neste paradigma, um conceito é representado em uma estrutura simbólica e o
aprendizado é realizado através da apresentação de exemplos e contraexemplos
deste conceito.
Essas estruturas possibilitam uma interpretação mais direta por seres humanos.
A vantagem principal desse tipo de método é uma maior compreensibilidade do
processo decisório.
Fonte: Medium.com
ÁRVORES DE DECISÃO E REGRESSÃO
Uma árvore de decisão
usa a estratégia dividir
para conquistar, de
modo a resolver um
problema de decisão.
Formalmente, uma
árvore de decisão é
um grafo direcionado
acíclico em que cada
nó ou é um nó de
divisão, com dois ou
mais sucessores, ou é
um nó folha.
Fonte: Data Sciense Foundation
INDUÇÃO DE ÁRVORES DE DECISÃO E REGRESSÃO
Exemplos:
• Diagnósticos médicos;
• Análises de risco de crédito;
• Classificação de objetos para um manipulador
de robot (Tan1993).
REGRAS DE DIVISÃO POR CLASSIFICAÇÃO
Algoritmo ID3
O algoritmo ID3 (inductive decision tree) é dos mais utilizados para a construção
de árvores de decisão. Este algoritmo segue os seguintes passos:
• Começar com todos os exemplos de treino;
• Escolher o teste (atributo) que melhor divide os exemplos, ou seja, agrupar
exemplos da mesma classe ou exemplos semelhantes;
• Para o atributo escolhido, criar um nó filho para cada valor possível
do atributo;
• Transportar os exemplos para cada filho tendo em conta o valor do
filho;
• Repetir o procedimento para cada filho não "puro". Um filho é puro
quando cada atributo X tem o mesmo valor em todos os exemplos.
Coloca-se então, uma pergunta muito importante:
Como saber qual o melhor atributo a escolher?
Para lidar com esta escolha são introduzidos dois novos conceitos,
a Entropia e o Ganho.
REGRAS DE DIVISÃO POR CLASSIFICAÇÃO
Entropia
A entropia de um conjunto pode ser definida como sendo o grau de pureza
desse conjunto. Este conceito, emprestado pela Teoria da Informação define
a medida de "falta de informação", mais precisamente o número de bits
necessários, em média, para representar a informação em falta usando
codificação ótima.
Onde:
P+ é a proporção de exemplos positivos em S
P- é a proporção de exemplos negativos em S
REGRAS DE DIVISÃO POR CLASSIFICAÇÃO
Exemplo:
Entropia:
REGRAS DE DIVISÃO POR CLASSIFICAÇÃO
Ganho de Informação: redução esperada no valor da Entropia, devido
à ordenação no conjunto de treino segundo os valores do atributo A.
Exemplo:
No exemplo dado:
No caso da árvore de regressão, o valor obtido pelos nós de término nos dados de
treinamento é o valor médio das suas observações. Assim, a uma nova observação
de dados atribui-se o valor médio correspondente.
1. Flexibilidade
2. Robustez
3. Seleção de atributos
4. Interpretabilidade
5. Eficiência
Desvantagens:
1. Replicação
2. Valores ausentes
3. Atributos contínuos
4. Instabilidade
REGRAS DE DECISÃO
REGRAS DE DECISÃO
Robustez.
Onde encontrar ?
http://aima.cs.berkeley.edu/
https://github.com/
https://scikit-learn.org/stable/modules/tree.html