Slide SCAD
Slide SCAD
Slide SCAD
OTIMIZAÇÃO DE ALGORITMOS
DE ÁRVORES DE DECISÃO PARA
GRANDES CONJUNTOS DE DADOS.
1
INTEGRANTES:
TARIANA FERREIRA Nº-42565
BROLIN SEBASTIÃO Nº -27445
ELIAS ZIMBETI Nº 27592
JOAQUIM MAZEMBA Nº-42595
MIRIAMA MUZINGU Nº-43262
ANDREA PEDRO Nº-40460
ADÃO CARLOS Nº-41612
2
A otimização de algoritmos de árvores de decisão para grandes conjuntos de
dados refere-se ao processo de aplicar técnicas e estratégias com o objetivo de
melhorar a eficiência e o desempenho desses algoritmos ao lidar com conjuntos
de dados volumosos.
As árvores de decisão são modelos de aprendizado de máquina amplamente
utilizados para problemas de classificação e regressão. No entanto, quando
aplicados a grandes conjuntos de dados, podem enfrentar desafios relacionados à
escalabilidade e tempo de processamento.
A otimização desses algoritmos envolve o uso de abordagens como redução da
INTRODUÇÃO dimensionalidade, amostragem do conjunto de dados, poda da árvore, utilização
de algoritmos otimizados para grandes conjuntos de dados, paralelização do
treinamento, implementação eficiente e balanceamento de classes. Essas
estratégias visam melhorar a eficiência computacional, reduzir o tempo de
treinamento e manter ou melhorar o desempenho preditivo do modelo.
Ao otimizar algoritmos de árvores de decisão para grandes conjuntos de dados, é
possível lidar de forma mais eficaz com problemas complexos e aproveitar ao
máximo o potencial desses modelos em cenários de dados volumosos.
3
* uma árvore de decisão é um modelo de aprendizado de máquina que toma decisões com base
em testes realizados em atributos específicos de um conjunto de dados.
4
Recursividade:
O processo é repetido recursivamente para cada subconjunto criad
1. ID3 (Iterative Dichotomiser 3): é um dos primeiros algoritmos
Algoritmos de árvores
de decisão mais comuns:
5
Random Forests: Random Forests são baseadas em árvores de
Decisão e constroem várias árvores e combinam seus resultados
para melhorar a precisão e evitar overfitting.
7
Algumas estratégias específicas para
otimizar árvores de decisão em grandes
conjuntos de dados:
8
ALGORITMO
• from sklearn.ensemble import RandomForestClassifier
• from sklearn.model_selection import train_test_split
• from sklearn.metrics import accuracy_score
• dados_clima = {
• 'Temperatura': [25, 28, 22, 18, 30, 24, 26, 20, 29],
• 'Chuva': [0, 5, 10, 2, 0, 3, 0, 15, 1],
• 'Passeio': ['Sim', 'Sim', 'Não', 'Não', 'Sim', 'Sim', 'Sim', 'Não', 'Sim']
• }
• import pandas as pd
• df = pd.DataFrame(dados_clima)
• X = df[['Temperatura', 'Chuva']]
• y = df['Passeio']
• X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
• rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
• rf_model.fit(X_train, y_train)
• predictions_rf = rf_model.predict(X_test)
• accuracy_rf = accuracy_score(y_test, predictions_rf)
• print(f'Decisão de Passeio usando Random Forest: {accuracy_rf}')
9
Conclusão
10
OBRIGADO