0% encontró este documento útil (0 votos)

104 vistas3 páginas

Desarrollo Modelo Random Forest Preparamos El Entorno de Spark

The document describes developing a random forest model in Spark to classify diabetes data. It includes: 1) Preparing the Spark environment and importing diabetes data with patient characteristics and labels. 2) Separating the data into features and labels for training and testing. 3) Implementing the random forest algorithm both with and without normalizing the features. 4) Evaluating the models using metrics like accuracy, error rate, sensitivity and specificity calculated from the confusion matrix.

Cargado por

Facundo Varas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

104 vistas3 páginas

Desarrollo Modelo Random Forest Preparamos El Entorno de Spark

Cargado por

Facundo Varas

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 3

DESARROLLO MODELO RANDOM FOREST

Preparamos el entorno de Spark

In [1]: #Utilizamos findspark para localizar nuestra instalación de Spark
import findspark
findspark.init()
#Creamos la sesión de aplicación de Spark
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

configuracion = SparkConf().setAppName('Clasificacion usando Random Forest').setMaster('local')

sc = SparkContext(conf=configuracion)
spark = SparkSession(sc)

Preparamos el algoritmo e importamos la data original

In [2]: # Imports
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
# Import data
dataset = spark.read.csv(path="diabetes2.csv",header="true",inferSchema="true")
dataset.printSchema()

Separamos la data en caracteristicas y etiquetas

In [3]: # Inicialización de vectorizador

assembler = VectorAssembler(
inputCols=['Pregnancies','PlasmaGlucose','DiastolicBloodPressure','TricepsThickness','SerumInsulin', 'BMI','DiabetesPedigree','Age'],
outputCol="features")

output=assembler.transform(dataset)

datain=output.select("features", "Diabetic")
datain=datain.withColumnRenamed('Diabetic', 'label')

#creamos una columna de caracteristicas normalizadas withStd=True, withMean=False

from pyspark.ml.feature import StandardScaler

dbscaler = StandardScaler(inputCol="features", outputCol="featuresNTF", withStd=True, withMean=False)

db_scalerModel = dbscaler.fit(datain)
db_scaledData = db_scalerModel.transform(datain)

# División de la data en 20% test y 80% entrenamiento

db_scaledData=db_scaledData.cache()
splits = db_scaledData.randomSplit([0.8, 0.2], 1771)
df_training = splits[0].cache()
df_test = splits[1].cache()

display(df_training)

DataFrame[features: vector, label: int, featuresNTF: vector]

Implementamos el algoritmo Random Forest

In [5]: def trainModel(feature):
# Inicialización de RandomForestClassifier
rf = RandomForestClassifier(labelCol="label", featuresCol=feature, numTrees=15)

model = rf.fit(df_training)

predictions=model.transform(df_test)

result = predictions.select('label',feature, 'rawPrediction', 'probability', 'prediction')

return result

Implementación Sin normalizar

In [6]: resultadoSinNormalizar=trainModel('features')
resultadoSinNormalizar.show()

+-----+--------------------+--------------------+--------------------+----------+
|label| features| rawPrediction| probability|prediction|
+-----+--------------------+--------------------+--------------------+----------+
| 0|[0.0,44.0,44.0,26...|[14.7792521964130...|[0.98528347976086...| 0.0|
| 0|[0.0,44.0,100.0,4...|[14.8296103225928...|[0.98864068817285...| 0.0|
| 0|[0.0,46.0,61.0,46...|[10.7553964035555...|[0.71702642690370...| 0.0|
| 0|[0.0,49.0,60.0,15...|[14.8269154172880...|[0.98846102781920...| 0.0|
| 0|[0.0,51.0,60.0,40...|[14.8561258999000...|[0.99040839332667...| 0.0|
| 0|[0.0,51.0,88.0,41...|[14.4552300851177...|[0.96368200567451...| 0.0|
| 0|[0.0,52.0,86.0,35...|[14.4242122322541...|[0.96161414881694...| 0.0|
| 0|[0.0,53.0,47.0,11...|[13.6735199251111...|[0.91156799500741...| 0.0|
| 0|[0.0,53.0,97.0,27...|[14.4552300851177...|[0.96368200567451...| 0.0|
| 0|[0.0,54.0,78.0,10...|[14.7177971976147...|[0.98118647984098...| 0.0|
| 0|[0.0,55.0,54.0,17...|[14.6109883991019...|[0.97406589327346...| 0.0|
| 0|[0.0,55.0,57.0,46...|[14.4898788421022...|[0.96599192280681...| 0.0|
| 0|[0.0,55.0,62.0,11...|[14.4817456624249...|[0.96544971082833...| 0.0|
| 1|[0.0,55.0,80.0,15...|[10.6967129010831...|[0.71311419340554...| 0.0|
| 0|[0.0,55.0,86.0,10...|[14.6775913913405...|[0.97850609275603...| 0.0|
| 0|[0.0,57.0,89.0,32...|[14.4715966216522...|[0.96477310811014...| 0.0|
| 0|[0.0,57.0,97.0,56...|[13.4572219932048...|[0.89714813288032...| 0.0|
| 0|[0.0,58.0,45.0,21...|[14.5291300518230...|[0.96860867012153...| 0.0|
| 0|[0.0,58.0,50.0,7....|[14.7792521964130...|[0.98528347976086...| 0.0|
| 0|[0.0,58.0,67.0,25...|[14.4715966216522...|[0.96477310811014...| 0.0|
+-----+--------------------+--------------------+--------------------+----------+
only showing top 20 rows

Implementación Normalizada
In [7]: resultadoNormalizado=trainModel('featuresNTF')
resultadoNormalizado.show()

+-----+--------------------+--------------------+--------------------+----------+
|label| featuresNTF| rawPrediction| probability|prediction|
+-----+--------------------+--------------------+--------------------+----------+
| 0|[0.0,1.3704197436...|[14.7792521964130...|[0.98528347976086...| 0.0|
| 0|[0.0,1.3704197436...|[14.8296103225928...|[0.98864068817285...| 0.0|
| 0|[0.0,1.4327115501...|[10.7553964035555...|[0.71702642690370...| 0.0|
| 0|[0.0,1.5261492599...|[14.8269154172880...|[0.98846102781920...| 0.0|
| 0|[0.0,1.5884410664...|[14.8561258999000...|[0.99040839332667...| 0.0|
| 0|[0.0,1.5884410664...|[14.4552300851177...|[0.96368200567451...| 0.0|
| 0|[0.0,1.6195869697...|[14.4242122322541...|[0.96161414881694...| 0.0|
| 0|[0.0,1.6507328730...|[13.6735199251111...|[0.91156799500741...| 0.0|
| 0|[0.0,1.6507328730...|[14.4552300851177...|[0.96368200567451...| 0.0|
| 0|[0.0,1.6818787762...|[14.7177971976147...|[0.98118647984098...| 0.0|
| 0|[0.0,1.7130246795...|[14.6109883991019...|[0.97406589327346...| 0.0|
| 0|[0.0,1.7130246795...|[14.4898788421022...|[0.96599192280681...| 0.0|
| 0|[0.0,1.7130246795...|[14.4817456624249...|[0.96544971082833...| 0.0|
| 1|[0.0,1.7130246795...|[10.6967129010831...|[0.71311419340554...| 0.0|
| 0|[0.0,1.7130246795...|[14.6775913913405...|[0.97850609275603...| 0.0|
| 0|[0.0,1.7753164860...|[14.4715966216522...|[0.96477310811014...| 0.0|
| 0|[0.0,1.7753164860...|[13.4572219932048...|[0.89714813288032...| 0.0|
| 0|[0.0,1.8064623893...|[14.5291300518230...|[0.96860867012153...| 0.0|
| 0|[0.0,1.8064623893...|[14.7792521964130...|[0.98528347976086...| 0.0|
| 0|[0.0,1.8064623893...|[14.4715966216522...|[0.96477310811014...| 0.0|
+-----+--------------------+--------------------+--------------------+----------+
only showing top 20 rows

Evaluamos los modelos

In [8]: #Funcion para evaluar los modelos usando la matriz de confusion

def evaluateModel(resultado):
positive = resultado[(resultado['label'] == 1) & (resultado['prediction'] == 1.0)]
negative = resultado[(resultado['label'] == 0) & (resultado['prediction'] == 0.0)]
false_positive = resultado[(resultado['label'] == 0) & (resultado['prediction'] == 1.0)]
false_negative = resultado[(resultado['label'] == 1) & (resultado['prediction'] == 0.0)]

tot = resultado.count()
vp = positive.count()
vn = negative.count()
fp = false_positive.count()
fn = false_negative.count()

print(f'Cantidad Total {tot}')

print(f'Cantidad de Valores Positivos (VP) {vp}')
print(f'Cantidad de Valores Negativos (VN) {vn}')
print(f'Cantidad de Falsos Positivos (FP) {fp}')
print(f'Cantidad de Falsos Negativos (FN) {fn}')
exactitud = (vp + vn)/tot
tasa_error = (fp + fn)/tot
sensibilidad = vp/(vp+fp)
especificidad = (vn/(vn+fn))

print(f'El porcentaje de exactitud es de {exactitud}')

print(f'La tasa de error es de {tasa_error}')
print(f'El porcentaje de sensibilidad es de {sensibilidad}')
print(f'El porcentaje de especificidad es de {especificidad}')

Evaluamos el modelo
In [9]: evaluateModel(resultadoSinNormalizar)

Cantidad Total 1025

Cantidad de Valores Positivos (VP) 296
Cantidad de Valores Negativos (VN) 640
Cantidad de Falsos Positivos (FP) 48
Cantidad de Falsos Negativos (FN) 41
El porcentaje de exactitud es de 0.9131707317073171
La tasa de error es de 0.08682926829268292
El porcentaje de sensibilidad es de 0.8604651162790697
El porcentaje de especificidad es de 0.9397944199706314
In [10]: evaluateModel(resultadoNormalizado)

Cantidad Total 1025

In [ ]:

También podría gustarte

ExamenSustitutorio CC421
Aún no hay calificaciones
ExamenSustitutorio CC421
11 páginas
Machine Learning Con R
Aún no hay calificaciones
Machine Learning Con R
51 páginas
Competencia Iml 2024 Analisis
Aún no hay calificaciones
Competencia Iml 2024 Analisis
34 páginas
Alzheimer RNA
Aún no hay calificaciones
Alzheimer RNA
20 páginas
AI - ML - USA - Regresion - Ipynb - Colab
Aún no hay calificaciones
AI - ML - USA - Regresion - Ipynb - Colab
22 páginas
Instalación de Librerías Necesarias Si No Están Ya Instaladas
Aún no hay calificaciones
Instalación de Librerías Necesarias Si No Están Ya Instaladas
15 páginas
Analsis Modelos de Riesgo
Aún no hay calificaciones
Analsis Modelos de Riesgo
10 páginas
Bombas 3
Aún no hay calificaciones
Bombas 3
91 páginas
Finityinfinity
Aún no hay calificaciones
Finityinfinity
9 páginas
# Estandarizacion, Regresion Con Features Escalados y Predicciones
Aún no hay calificaciones
# Estandarizacion, Regresion Con Features Escalados y Predicciones
6 páginas
Programación Función Lineal
Aún no hay calificaciones
Programación Función Lineal
8 páginas
Txtkon
Aún no hay calificaciones
Txtkon
10 páginas
Clase 3 - Regresión Logística - Métricas
Aún no hay calificaciones
Clase 3 - Regresión Logística - Métricas
38 páginas
Explicación Del Breast - Cancer - Ignacio - Elías - Ladino - Rojas
Aún no hay calificaciones
Explicación Del Breast - Cancer - Ignacio - Elías - Ladino - Rojas
7 páginas
Modelo de Regresión Multiple
Aún no hay calificaciones
Modelo de Regresión Multiple
5 páginas
Guía Paso A Paso Taller Ensamble
Aún no hay calificaciones
Guía Paso A Paso Taller Ensamble
5 páginas
2.3.2 Predicción Inicial
Aún no hay calificaciones
2.3.2 Predicción Inicial
7 páginas
Taller 03
Aún no hay calificaciones
Taller 03
26 páginas
Parcial Practico Ml2025a Master
Aún no hay calificaciones
Parcial Practico Ml2025a Master
5 páginas
AnderAlmazan LAB IAIC
Aún no hay calificaciones
AnderAlmazan LAB IAIC
64 páginas
Salida-Red-Neuronal Resuelto 2
Aún no hay calificaciones
Salida-Red-Neuronal Resuelto 2
18 páginas
Sisrh - Taller 6 - Mathematica - Punto 5
Aún no hay calificaciones
Sisrh - Taller 6 - Mathematica - Punto 5
11 páginas
Trabajo Final
Aún no hay calificaciones
Trabajo Final
9 páginas
Tarea3-Grupo - 202016908 - 40
Aún no hay calificaciones
Tarea3-Grupo - 202016908 - 40
20 páginas
Anexo 425-201 Tarea
Aún no hay calificaciones
Anexo 425-201 Tarea
9 páginas
Documentacion Entrega Final Diabetes
Aún no hay calificaciones
Documentacion Entrega Final Diabetes
5 páginas
Semana1b - Modelo de Aprendizaje Automático Simple Que Realiza Una Tarea de Clasificación
Aún no hay calificaciones
Semana1b - Modelo de Aprendizaje Automático Simple Que Realiza Una Tarea de Clasificación
8 páginas
Apuntes 5° Clase - Ciencia de Datos en Python
Aún no hay calificaciones
Apuntes 5° Clase - Ciencia de Datos en Python
17 páginas
Telco SL
Aún no hay calificaciones
Telco SL
9 páginas
Deber 2
Aún no hay calificaciones
Deber 2
8 páginas
Reporte Covid e Imputacion
Aún no hay calificaciones
Reporte Covid e Imputacion
19 páginas
Machine Learning - Arboles - Python
Aún no hay calificaciones
Machine Learning - Arboles - Python
4 páginas
Sensores
Aún no hay calificaciones
Sensores
4 páginas
Taller - 4 - Entregable - Grupo9
Aún no hay calificaciones
Taller - 4 - Entregable - Grupo9
28 páginas
Taller - Random - Forest - Cristian - Arrieta - 30 - 04 - 20205.ipynb - Colab
Aún no hay calificaciones
Taller - Random - Forest - Cristian - Arrieta - 30 - 04 - 20205.ipynb - Colab
2 páginas
Train
Aún no hay calificaciones
Train
10 páginas
Sobre NN Tanagra
Aún no hay calificaciones
Sobre NN Tanagra
10 páginas
Informe Taller 2
Aún no hay calificaciones
Informe Taller 2
7 páginas
Descripcion Del Programa Caja y Bigotes
Aún no hay calificaciones
Descripcion Del Programa Caja y Bigotes
5 páginas
Laboratorio Sesión 12
Aún no hay calificaciones
Laboratorio Sesión 12
4 páginas
Practicas Clasificacion
Aún no hay calificaciones
Practicas Clasificacion
7 páginas
Aprendizaje
Aún no hay calificaciones
Aprendizaje
22 páginas
Implementacion Algoritmos KNN
Aún no hay calificaciones
Implementacion Algoritmos KNN
6 páginas
Locally Weighted Regression
Aún no hay calificaciones
Locally Weighted Regression
1 página
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Algoritmos de Aprendizaje. Emel Pedrozo
21 páginas
Elección de Funciones Con Sklearn - Feature - Selection
Aún no hay calificaciones
Elección de Funciones Con Sklearn - Feature - Selection
14 páginas
Tarea 3 Emel Pedrozo
Aún no hay calificaciones
Tarea 3 Emel Pedrozo
20 páginas
4 Factores Estad III
Aún no hay calificaciones
4 Factores Estad III
7 páginas
Fscnca
Aún no hay calificaciones
Fscnca
4 páginas
Casos-ML-Unsupervised - Eysen Perez
Aún no hay calificaciones
Casos-ML-Unsupervised - Eysen Perez
1 página
Analitica Metodos
Aún no hay calificaciones
Analitica Metodos
13 páginas
Ajbaba
Aún no hay calificaciones
Ajbaba
2 páginas
Test
Aún no hay calificaciones
Test
9 páginas
Informe Final Trabajo de Grado - Seminario
Aún no hay calificaciones
Informe Final Trabajo de Grado - Seminario
20 páginas
Tarea04 Maribel Hernandez
Aún no hay calificaciones
Tarea04 Maribel Hernandez
18 páginas
Intro Machine Learning
Aún no hay calificaciones
Intro Machine Learning
14 páginas
ATDF105. Trabajo Grupal - Grupo 2
Aún no hay calificaciones
ATDF105. Trabajo Grupal - Grupo 2
10 páginas
Clasificador Iris
Aún no hay calificaciones
Clasificador Iris
3 páginas
Acta de Deslacrado, Apertura, Visualizacion de Video Usb y Lacrado
Aún no hay calificaciones
Acta de Deslacrado, Apertura, Visualizacion de Video Usb y Lacrado
13 páginas
Sismicidad y Registros Sísmicos en Cusco
Aún no hay calificaciones
Sismicidad y Registros Sísmicos en Cusco
66 páginas
1 - Unibody DCC+
Aún no hay calificaciones
1 - Unibody DCC+
106 páginas
Transmisores Industriales
67% (6)
Transmisores Industriales
50 páginas
Tarea Semana 7
100% (1)
Tarea Semana 7
8 páginas
APS03 Clases
Aún no hay calificaciones
APS03 Clases
82 páginas
Las Habilidades Sociales en Niños y Adolescentes. Su Importancia en La Prevención de Trastornos Psic PDF
Aún no hay calificaciones
Las Habilidades Sociales en Niños y Adolescentes. Su Importancia en La Prevención de Trastornos Psic PDF
25 páginas
Plataforma Rockwell STUDIO 5000: Avanzado
Aún no hay calificaciones
Plataforma Rockwell STUDIO 5000: Avanzado
5 páginas
DIP-FACT-Recibo Ciclico 2022020023 S7AA-0016877144
Aún no hay calificaciones
DIP-FACT-Recibo Ciclico 2022020023 S7AA-0016877144
5 páginas
Cartilla Informatica I
Aún no hay calificaciones
Cartilla Informatica I
18 páginas
Cuestionario IT Essentials
Aún no hay calificaciones
Cuestionario IT Essentials
9 páginas
U5 T20 Ensayo
Aún no hay calificaciones
U5 T20 Ensayo
9 páginas
Copia de Folleto CMC 2024 - 2025 Diciembre
Aún no hay calificaciones
Copia de Folleto CMC 2024 - 2025 Diciembre
2 páginas
Inf 426 11 Sandino Perdomo Unidad 5
Aún no hay calificaciones
Inf 426 11 Sandino Perdomo Unidad 5
33 páginas
2.1.2 Plantilla de Especificación de Los Casos de Uso
Aún no hay calificaciones
2.1.2 Plantilla de Especificación de Los Casos de Uso
79 páginas
Memoria Ram y Su Funcion
Aún no hay calificaciones
Memoria Ram y Su Funcion
5 páginas
1.2 Acta de Análisis Del Caso
Aún no hay calificaciones
1.2 Acta de Análisis Del Caso
5 páginas
Presupuesto Sistema CCTV - Pedro Campos Le-Bert
Aún no hay calificaciones
Presupuesto Sistema CCTV - Pedro Campos Le-Bert
4 páginas
Historia y Evolución de La Impresora
Aún no hay calificaciones
Historia y Evolución de La Impresora
19 páginas
1.1 Acta de Reunión Kick Off
Aún no hay calificaciones
1.1 Acta de Reunión Kick Off
6 páginas
Tarea Bases de Datos II
100% (1)
Tarea Bases de Datos II
4 páginas
Estimación Estadistica
Aún no hay calificaciones
Estimación Estadistica
3 páginas
Acuerdo 1580 NORMATIVA ADMINISTRACION DE PROCESOS
Aún no hay calificaciones
Acuerdo 1580 NORMATIVA ADMINISTRACION DE PROCESOS
35 páginas
Primer Avance Proyecto Integrador
Aún no hay calificaciones
Primer Avance Proyecto Integrador
20 páginas
Fub 1290 Spa
Aún no hay calificaciones
Fub 1290 Spa
2 páginas
Instrumentación ADC para Condicionemiento de Señal
Aún no hay calificaciones
Instrumentación ADC para Condicionemiento de Señal
22 páginas
Proyecto Plant Pals - Proyecto-Carta
Aún no hay calificaciones
Proyecto Plant Pals - Proyecto-Carta
3 páginas
Caso 5 Pty4613 2019 PDF
Aún no hay calificaciones
Caso 5 Pty4613 2019 PDF
8 páginas
Curriculum Marielys Marquez
Aún no hay calificaciones
Curriculum Marielys Marquez
2 páginas
Pauta Trabajo Pract Profesional
Aún no hay calificaciones
Pauta Trabajo Pract Profesional
14 páginas
Shelly1l Manual ES
Aún no hay calificaciones
Shelly1l Manual ES
2 páginas
Evaluación Jefe de Práctica Profesional
Aún no hay calificaciones
Evaluación Jefe de Práctica Profesional
2 páginas
Encuesta Intelligent Light
Aún no hay calificaciones
Encuesta Intelligent Light
6 páginas
G1 LAB04 OC C22A Sanchez Ochoa Isla Cadenas
Aún no hay calificaciones
G1 LAB04 OC C22A Sanchez Ochoa Isla Cadenas
7 páginas
1.4 Acta de Constitución Del Proyecto
Aún no hay calificaciones
1.4 Acta de Constitución Del Proyecto
8 páginas
2.1.1 Acta de Administración de Proyecto
Aún no hay calificaciones
2.1.1 Acta de Administración de Proyecto
6 páginas
Triggers Postgres
Aún no hay calificaciones
Triggers Postgres
26 páginas
Temario Taller Backend y Frontend PDF
Aún no hay calificaciones
Temario Taller Backend y Frontend PDF
2 páginas
Que Debiese Ir en Informe de Práctica
Aún no hay calificaciones
Que Debiese Ir en Informe de Práctica
1 página
Iphone XR - Especificaciones - Apple (CO) PDF
Aún no hay calificaciones
Iphone XR - Especificaciones - Apple (CO) PDF
1 página
Angular Portfolio App Development: Create your personal brand
De Everand
Angular Portfolio App Development: Create your personal brand
Abdelfattah Ragab
Aún no hay calificaciones
ChatGPT for Business: Strategies for Success
De Everand
ChatGPT for Business: Strategies for Success
Matthew C. Smith
Aún no hay calificaciones