0% encontró este documento útil (0 votos)

104 vistas4 páginas

Machine Learning - Arboles - Python

Este documento describe un modelo de regresión lineal utilizando árboles de decisión para predecir el precio de las viviendas en Boston. Se cargan los datos de Boston, se dividen en conjuntos de entrenamiento y prueba, y se crea un modelo de árbol de decisión. Luego, se aplica poda de complejidad constante mediante validación cruzada para mejorar el modelo. Finalmente, se comparan los errores de prueba del modelo inicial y final.

Cargado por

DARWIN PATIÑO PÉREZ

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

104 vistas4 páginas

Machine Learning - Arboles - Python

Cargado por

DARWIN PATIÑO PÉREZ

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 4

# -- coding: utf-8 --

"""treeBOSTONregreLM.ipynb

Automatically generated by Colaboratory.

Original file is located at

https://colab.research.google.com/drive/1hgMWXrJFhZdZWQBBr5v5ba0YS0ZN2FVK

#Predicción del precio de vivienda en Boston

Modelo: Regresión Lineal usando Arboles de Decisión

Darwin Patiño Pérez, febrero 2021

"""

# Tratamiento de datos
# ------------------------------------------------------------------------------
import numpy as np
import pandas as pd

# Gráficos
# ------------------------------------------------------------------------------
import matplotlib.pyplot as plt

# Preprocesado y modelado
# ------------------------------------------------------------------------------
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.tree import plot_tree
from sklearn.tree import export_graphviz
from sklearn.tree import export_text
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error

# Configuración warnings
# ------------------------------------------------------------------------------
import warnings
warnings.filterwarnings('once')

# Cargando los datos desde sklearn (FORMA-1)

# Se unen todos los datos (predictores y variable respuesta en un único dataframe)
boston = load_boston(return_X_y=False)
datos = np.column_stack((boston.data, boston.target))
datos = pd.DataFrame(datos,columns = np.append(boston.feature_names, "MEDV"))
datos.head(3)

datos.info()
# Cargando los datos desde el computador(FORMA-2)
datos = pd.read_csv("housingBOSTON-2.csv")
datos.head(3)
dataset = datos.values
# split into input (X) and output (Y) variables
X = dataset[:,0:13]
y = dataset[:,13]

# División de los datos en train y test (DESDE LA FORMA-1)

# ------------------------------------------------------------------------------
X_train, X_test, y_train, y_test = train_test_split(
datos.drop(columns = "MEDV"),
datos['MEDV'],
random_state = 123
)
# Creación del modelo
# ------------------------------------------------------------------------------
modelo = DecisionTreeRegressor(
max_depth = 3,
random_state = 123
)

# Entrenamiento del modelo

# ------------------------------------------------------------------------------
modelo.fit(X_train, y_train)

# Estructura del árbol creado

# ------------------------------------------------------------------------------
fig, ax = plt.subplots(figsize=(12, 5))

print(f"Profundidad del árbol: {modelo.get_depth()}")

print(f"Número de nodos terminales: {modelo.get_n_leaves()}")

plot = plot_tree(
decision_tree = modelo,
feature_names = datos.drop(columns = "MEDV").columns,
class_names = 'MEDV',
filled = True,
impurity = False,
fontsize = 10,
precision = 2,
ax = ax
)

texto_modelo = export_text(
decision_tree = modelo,
feature_names = list(datos.drop(columns = "MEDV").columns)
)
print(texto_modelo)

importancia_predictores = pd.DataFrame(
{'predictor': datos.drop(columns = "MEDV").columns,
'importancia': modelo.feature_importances_}
)
print("Importancia de los predictores en el modelo")
print("-------------------------------------------")
importancia_predictores.sort_values('importancia', ascending=False)

# Pruning (const complexity pruning) por validación cruzada

# ------------------------------------------------------------------------------
# Valores de ccp_alpha evaluados
param_grid = {'ccp_alpha':np.linspace(0, 80, 20)}

# Búsqueda por validación cruzada

grid = GridSearchCV(
# El árbol se crece al máximo posible para luego aplicar el pruning
estimator = DecisionTreeRegressor(
max_depth = 3, #None,
min_samples_split = 2,
min_samples_leaf = 1,
random_state = 123
),
param_grid = param_grid,
cv = 10,
refit = True,
return_train_score = True
)

grid.fit(X_train, y_train)

fig, ax = plt.subplots(figsize=(6, 3.84))

scores = pd.DataFrame(grid.cv_results_)
scores.plot(x='param_ccp_alpha', y='mean_train_score', yerr='std_train_score', ax=ax)
scores.plot(x='param_ccp_alpha', y='mean_test_score', yerr='std_test_score', ax=ax)
ax.set_title("Error de validacion cruzada vs hiperparámetro ccp_alpha");

# Mejor valor ccp_alpha encontrado

# ------------------------------------------------------------------------------
grid.best_params_

# Estructura del árbol final

# ------------------------------------------------------------------------------
modelo_final = grid.best_estimator_
print(f"Profundidad del árbol: {modelo_final.get_depth()}")
print(f"Número de nodos terminales: {modelo_final.get_n_leaves()}")
fig, ax = plt.subplots(figsize=(7, 5))
plot = plot_tree(
decision_tree = modelo_final,
feature_names = datos.drop(columns = "MEDV").columns,
class_names = 'MEDV',
filled = True,
impurity = False,
ax = ax
)

# Error de test del modelo inicial

#-------------------------------------------------------------------------------
predicciones = modelo.predict(X = X_test)

rmse = mean_squared_error(
y_true = y_test,
y_pred = predicciones,
squared = False
)
print(f"El error (rmse) de test es: {rmse}")

print("valor real --- valor de predicción")

for i in range(7):
print("{:.2f} {:.2f}".format(y_test.iloc[i],predicciones[i]))

# Error de test del modelo final (tras aplicar pruning)

#-------------------------------------------------------------------------------
predicciones = modelo_final.predict(X = X_test)

rmse = mean_squared_error(
y_true = y_test,
y_pred = predicciones,
squared = False
)
print(f"El error (rmse) de test es: {rmse}")

print("valor real --- valor de predicción")

for i in range(5):
print("{:.2f} {:.2f}".format(y_test.iloc[i],predicciones[i]))

También podría gustarte

VALLEJO ALMEIDA ROBETO PATRICIO Actividad 1
Aún no hay calificaciones
VALLEJO ALMEIDA ROBETO PATRICIO Actividad 1
4 páginas
PLC GM4
100% (5)
PLC GM4
288 páginas
Red-Cerrada-Ejemp-Excel CC
100% (1)
Red-Cerrada-Ejemp-Excel CC
21 páginas
Arboles de Decisión
Aún no hay calificaciones
Arboles de Decisión
6 páginas
Informe Final Trabajo de Grado - Seminario
Aún no hay calificaciones
Informe Final Trabajo de Grado - Seminario
20 páginas
Trabajo Final Python
Aún no hay calificaciones
Trabajo Final Python
3 páginas
Deber 5 Arboles
Aún no hay calificaciones
Deber 5 Arboles
8 páginas
Practica de Laboratorio # 2 Big Data Proyecto de Aprendizaje Automático en Python
Aún no hay calificaciones
Practica de Laboratorio # 2 Big Data Proyecto de Aprendizaje Automático en Python
13 páginas
Diabetes Tree Trabajo Final
Aún no hay calificaciones
Diabetes Tree Trabajo Final
40 páginas
Proshecto
Aún no hay calificaciones
Proshecto
20 páginas
Documentacion Entrega Final Diabetes
Aún no hay calificaciones
Documentacion Entrega Final Diabetes
5 páginas
Semana1b - Modelo de Aprendizaje Automático Simple Que Realiza Una Tarea de Clasificación
Aún no hay calificaciones
Semana1b - Modelo de Aprendizaje Automático Simple Que Realiza Una Tarea de Clasificación
8 páginas
Desarrollo Modelo Random Forest Preparamos El Entorno de Spark
Aún no hay calificaciones
Desarrollo Modelo Random Forest Preparamos El Entorno de Spark
3 páginas
Random Forest
Aún no hay calificaciones
Random Forest
7 páginas
L-CDM 23 001068 01
Aún no hay calificaciones
L-CDM 23 001068 01
10 páginas
Práctica Guiada-Arboles
Aún no hay calificaciones
Práctica Guiada-Arboles
4 páginas
Laboratorio 17
Aún no hay calificaciones
Laboratorio 17
6 páginas
Paper - Modelos de Regresión Con ML
Aún no hay calificaciones
Paper - Modelos de Regresión Con ML
25 páginas
Test
Aún no hay calificaciones
Test
9 páginas
Taller 1 Ia
Aún no hay calificaciones
Taller 1 Ia
10 páginas
ISRAEL2
Aún no hay calificaciones
ISRAEL2
3 páginas
C4.5 Algorithm
Aún no hay calificaciones
C4.5 Algorithm
8 páginas
CART - Análisis Multivariado (2023-II)
Aún no hay calificaciones
CART - Análisis Multivariado (2023-II)
11 páginas
Modulo V Workshop Modelos de Regresion
Aún no hay calificaciones
Modulo V Workshop Modelos de Regresion
3 páginas
Taller
Aún no hay calificaciones
Taller
13 páginas
Telco SL
Aún no hay calificaciones
Telco SL
9 páginas
Modelos Predictivos
Aún no hay calificaciones
Modelos Predictivos
20 páginas
Lectura - Árboles de Decisión
Aún no hay calificaciones
Lectura - Árboles de Decisión
31 páginas
AnalisisAvanzado W4
Aún no hay calificaciones
AnalisisAvanzado W4
21 páginas
Clase 3 House Prices
Aún no hay calificaciones
Clase 3 House Prices
46 páginas
Ajuste de Hiper Parametros
Aún no hay calificaciones
Ajuste de Hiper Parametros
6 páginas
Intro Machine Learning
Aún no hay calificaciones
Intro Machine Learning
14 páginas
Modelos
Aún no hay calificaciones
Modelos
15 páginas
Gutierrez S1 1.3
Aún no hay calificaciones
Gutierrez S1 1.3
10 páginas
Sensores
Aún no hay calificaciones
Sensores
4 páginas
TP IA Marketin
Aún no hay calificaciones
TP IA Marketin
17 páginas
Articulo 4
Aún no hay calificaciones
Articulo 4
4 páginas
MUIAEI AA 2024 11 17 Tema 3
Aún no hay calificaciones
MUIAEI AA 2024 11 17 Tema 3
30 páginas
Clase 2
Aún no hay calificaciones
Clase 2
37 páginas
Trabajo Final
Aún no hay calificaciones
Trabajo Final
9 páginas
Taller 4-Arboles y Random Forest
Aún no hay calificaciones
Taller 4-Arboles y Random Forest
4 páginas
Propuesta de Proyecto
Aún no hay calificaciones
Propuesta de Proyecto
12 páginas
Practicas Clasificacion
Aún no hay calificaciones
Practicas Clasificacion
7 páginas
Material Apoyo - N°2 - Modelo de Datos - U3 - Business Analytics
Aún no hay calificaciones
Material Apoyo - N°2 - Modelo de Datos - U3 - Business Analytics
17 páginas
6RN Con Sklearn 3
Aún no hay calificaciones
6RN Con Sklearn 3
38 páginas
Tarea Virtual # 5 U3 S5
Aún no hay calificaciones
Tarea Virtual # 5 U3 S5
14 páginas
5 Ejercicio - Experimentación Con Los Modelos de Regresión Más Eficaces - Training - Microsoft Learn
Aún no hay calificaciones
5 Ejercicio - Experimentación Con Los Modelos de Regresión Más Eficaces - Training - Microsoft Learn
9 páginas
01 - Presentación Clase en Vivo.v1
Aún no hay calificaciones
01 - Presentación Clase en Vivo.v1
25 páginas
02 CalderonBermudo Maquinas Con Vectores de SoporteEjercicio Propuesto - Jupyter Notebook
Aún no hay calificaciones
02 CalderonBermudo Maquinas Con Vectores de SoporteEjercicio Propuesto - Jupyter Notebook
10 páginas
Random Forest Python
Aún no hay calificaciones
Random Forest Python
72 páginas
Sklearn Guion
Aún no hay calificaciones
Sklearn Guion
9 páginas
Aprendizaje Supervisado
Aún no hay calificaciones
Aprendizaje Supervisado
6 páginas
Free Hyperparameter Selection
Aún no hay calificaciones
Free Hyperparameter Selection
6 páginas
Laboratorio Sesión 12
Aún no hay calificaciones
Laboratorio Sesión 12
4 páginas
Ensembles
Aún no hay calificaciones
Ensembles
11 páginas
CLASIFICACION
Aún no hay calificaciones
CLASIFICACION
58 páginas
Random Forest
Aún no hay calificaciones
Random Forest
6 páginas
P3 Jkdashtas
Aún no hay calificaciones
P3 Jkdashtas
10 páginas
Informe de Arbol de Decision Leysequia Rojas Lizbeth Fiorella...
Aún no hay calificaciones
Informe de Arbol de Decision Leysequia Rojas Lizbeth Fiorella...
9 páginas
Decision Tree Regression
Aún no hay calificaciones
Decision Tree Regression
2 páginas
Implementacion Algoritmos KNN
Aún no hay calificaciones
Implementacion Algoritmos KNN
6 páginas
PD 09
Aún no hay calificaciones
PD 09
4 páginas
PRIMER PARCIAL para Entregar 2020
Aún no hay calificaciones
PRIMER PARCIAL para Entregar 2020
3 páginas
C2-Dispositivos Electronicos de Dos Terminales-M
Aún no hay calificaciones
C2-Dispositivos Electronicos de Dos Terminales-M
20 páginas
Prez Otero M. y G-Carpintero M. 2000 Filosofa Del Lenguaje
Aún no hay calificaciones
Prez Otero M. y G-Carpintero M. 2000 Filosofa Del Lenguaje
88 páginas
Guia de Autoaprendizaje 3° Medio
Aún no hay calificaciones
Guia de Autoaprendizaje 3° Medio
5 páginas
Glosario Matematico
Aún no hay calificaciones
Glosario Matematico
3 páginas
Crackear Juegos Bigfish
0% (1)
Crackear Juegos Bigfish
1 página
Hempel Carl G. - La Explicacion Cientifica PDF
Aún no hay calificaciones
Hempel Carl G. - La Explicacion Cientifica PDF
485 páginas
Laboratorio 1 Electricidad Del Vehiculo 12-05-2022
Aún no hay calificaciones
Laboratorio 1 Electricidad Del Vehiculo 12-05-2022
22 páginas
Jenkins y Sonarqube
Aún no hay calificaciones
Jenkins y Sonarqube
14 páginas
4 PTS Aforo de Tanques
Aún no hay calificaciones
4 PTS Aforo de Tanques
12 páginas
3560900257497UTFSM
Aún no hay calificaciones
3560900257497UTFSM
96 páginas
1.1 Numeros Imaginarios
Aún no hay calificaciones
1.1 Numeros Imaginarios
5 páginas
Trabajo 1 - Calibre y Cinta Metrica
Aún no hay calificaciones
Trabajo 1 - Calibre y Cinta Metrica
10 páginas
Modelo Matematico Ing. de Control
Aún no hay calificaciones
Modelo Matematico Ing. de Control
6 páginas
Conjunto Unitario
Aún no hay calificaciones
Conjunto Unitario
5 páginas
Jornalización - Informática II
Aún no hay calificaciones
Jornalización - Informática II
3 páginas
Principios de La Lógica Jurídica
100% (1)
Principios de La Lógica Jurídica
3 páginas
PROBLEMA 1. Carlos
100% (2)
PROBLEMA 1. Carlos
3 páginas
Ejercicios de Multiplicacion y Division
Aún no hay calificaciones
Ejercicios de Multiplicacion y Division
58 páginas
PLANIFICACION UNIDAD CERO mATEMÁTICAS 7° bÁSICO 2020
Aún no hay calificaciones
PLANIFICACION UNIDAD CERO mATEMÁTICAS 7° bÁSICO 2020
8 páginas
SCB 01 5.12
Aún no hay calificaciones
SCB 01 5.12
39 páginas
Evaluación, Tratamiento y Valoración Conductual Paradigmática: Una Respuesta A La Crisis de La Evaluación Conductual
100% (1)
Evaluación, Tratamiento y Valoración Conductual Paradigmática: Una Respuesta A La Crisis de La Evaluación Conductual
24 páginas
Aprendizajes Esperados 6
Aún no hay calificaciones
Aprendizajes Esperados 6
1 página
Guía de Laboratorio Proteina Bruta Método Kjeldahl
100% (1)
Guía de Laboratorio Proteina Bruta Método Kjeldahl
2 páginas
Monografia CBR
Aún no hay calificaciones
Monografia CBR
24 páginas
Prueba de Hipotesis
Aún no hay calificaciones
Prueba de Hipotesis
17 páginas
Laboratorio N°2 Segunda Condicion de Equilibrio C10
Aún no hay calificaciones
Laboratorio N°2 Segunda Condicion de Equilibrio C10
11 páginas