0% found this document useful (0 votes)

19 views3 pages

Data pipeline in ML

Uploaded by

golgothgolgoth039

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views3 pages

Data pipeline in ML

Uploaded by

golgothgolgoth039

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Creating Machine Learning Pipeline

# import packages

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

import warnings
warnings.filterwarnings('ignore')

# load dataset

df = pd.read_csv('/content/pima-indians-diabetes.csv', header=None)
df.head()

0 1 2 3 4 5 6 7 8

0 6 148 72 35 0 33.6 0.627 50 1

1 1 85 66 29 0 26.6 0.351 31 0

2 8 183 64 0 0 23.3 0.672 32 1

3 1 89 66 23 94 28.1 0.167 21 0

4 0 137 40 35 168 43.1 2.288 33 1

# assiging Columns name

df.columns = ['Pregnancies','Glucose','BloodPressure','SkinThicness','Insulin','BMI','DiabetesPedigreeFunction','Age','Class']
df.head()

Pregnancies Glucose BloodPressure SkinThicness Insulin BMI DiabetesPedigreeFunction Age Class

0 1 85 66 29 0 26.6 0.351 31 0

1 8 183 64 0 0 23.3 0.672 32 1

2 1 89 66 23 94 28.1 0.167 21 0

3 0 137 40 35 168 43.1 2.288 33 1

4 5 116 74 0 0 25.6 0.201 30 0

# Dividing Data Into train test

X = df.iloc[:, [0,1,2,3,4,5,6,7]] # all the rows and columns = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThicness',
# 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age']
y = df.iloc[:, [8]] # all the rows and columns = ['Class]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

Creating Pipeline
Creating pipeline for LogisticRegression , DecisionTree and RandomForest models
The pipeline steps will be include
1. Data Preprocessing using MinMaxScaler
2. Reducing Dimentionality using PCA
3. Training the models

# Logistic Regression Pipeline

LogisticRegressionPipeline = Pipeline([('myscaler',MinMaxScaler()),
('mypca',PCA(n_components=3)),
('logist_regression',LogisticRegression())])

# Decision Tree Pipeline

DecisionTreePipeline = Pipeline([('myscaler',MinMaxScaler()),
('mypca',PCA(n_components=3)),
('logist_regression',DecisionTreeClassifier())])

# Random Forest Pipeline

RandomForestPipeline = Pipeline([('myscaler',MinMaxScaler()),
('mypca',PCA(n_components=3)),
('logist_regression',RandomForestClassifier())])

Model training and validation

# Defining the pipelines in a list

mypipeline = [LogisticRegressionPipeline, DecisionTreePipeline, RandomForestPipeline]

# Defining variables for choosing the best model

accuracy = 0
# classifier = 0
pipeline = ''

# creating dictionaries of pipelines and training models

PipelineDict = {0:'Logistic Regreesion', 1:'Decision Tree', 2:'Random Forest'}

# Fit the pipelines

for mypipe in mypipeline:
mypipe.fit(X_train, y_train)

# Getting test accuracy for all the pipeline

for i, model in enumerate(mypipeline):

print('{} Test Accuracy: {}'.format(PipelineDict[i], model.score(X_test, y_test)))

Logistic Regreesion Test Accuracy: 0.7077922077922078

Decision Tree Test Accuracy: 0.7077922077922078
Random Forest Test Accuracy: 0.7532467532467533

# Choosing the best model for the given data

for i, model in enumerate(mypipeline):

if model.score(X_test, y_test) > accuracy:
accuracy = model.score(X_test, y_test)
pipeline = model
# classifier = i
# print('Classifier with the best Accuracy: {}: {}'.format(PipelineDict[classifier], accuracy))
print('Classifier with the best Accuracy: {}: {}'.format(PipelineDict[i], accuracy))

Classifier with the best Accuracy: Random Forest: 0.7532467532467533

Colab paid products - Cancel contracts here
check 0s completed at 11:13 AM

internship-report-k
No ratings yet
internship-report-k
28 pages
Molefe Mohale Emmanuel 2021
No ratings yet
Molefe Mohale Emmanuel 2021
122 pages
diabets project document3
No ratings yet
diabets project document3
60 pages
Diabetes Prediction
No ratings yet
Diabetes Prediction
15 pages
Lec Introduction CEP
No ratings yet
Lec Introduction CEP
99 pages
diabetes_test report
No ratings yet
diabetes_test report
62 pages
DEEP LEARNING
No ratings yet
DEEP LEARNING
41 pages
ai-900 (1)
No ratings yet
ai-900 (1)
64 pages
DLT Unit-1 Answers
No ratings yet
DLT Unit-1 Answers
36 pages
CLC_assignment_03_AI_START
No ratings yet
CLC_assignment_03_AI_START
23 pages
Khushiii Project - Payal (Autosaved) 3
No ratings yet
Khushiii Project - Payal (Autosaved) 3
92 pages
assignment_03_AI_START
No ratings yet
assignment_03_AI_START
23 pages
Machine Learning
100% (1)
Machine Learning
21 pages
lab_8__(6)عفان عبدالله احمد_التكليف_
No ratings yet
lab_8__(6)عفان عبدالله احمد_التكليف_
18 pages
MlProject Cse 30 37
No ratings yet
MlProject Cse 30 37
27 pages
Jupyter Notebook On Obesity Prediction
No ratings yet
Jupyter Notebook On Obesity Prediction
15 pages
A review on longitudinal data analysis with random forest
No ratings yet
A review on longitudinal data analysis with random forest
11 pages
Minor Project FINAL Review in Signal Processing Domain: Supervisor
No ratings yet
Minor Project FINAL Review in Signal Processing Domain: Supervisor
32 pages
mlPPT_11_45
No ratings yet
mlPPT_11_45
31 pages
Diabetes Classification Report
No ratings yet
Diabetes Classification Report
17 pages
full text BMS-CTMC-2024-HT242-5771-8
No ratings yet
full text BMS-CTMC-2024-HT242-5771-8
22 pages
Slides
No ratings yet
Slides
13 pages
Bilal Khan Resume
No ratings yet
Bilal Khan Resume
1 page
Machine Learning and Deep Learning Techniques
No ratings yet
Machine Learning and Deep Learning Techniques
13 pages
Estimating diabetic risk accurately(ppt)
No ratings yet
Estimating diabetic risk accurately(ppt)
26 pages
Gender and Age Detection
No ratings yet
Gender and Age Detection
16 pages
Prediction of Diabetes Using Machine Learning Techniques
No ratings yet
Prediction of Diabetes Using Machine Learning Techniques
10 pages
Programming with Python and GUI Development...2024
No ratings yet
Programming with Python and GUI Development...2024
145 pages
1 Lecture 2: Supervised Machine Learning
No ratings yet
1 Lecture 2: Supervised Machine Learning
20 pages
INT354 Lecture 0
No ratings yet
INT354 Lecture 0
33 pages
5 2-4 Spatial Environmental Data Gaussian Processes
No ratings yet
5 2-4 Spatial Environmental Data Gaussian Processes
3 pages
2409.19390v1
No ratings yet
2409.19390v1
7 pages
Springer Lecture Notes in Computer Science (1)
No ratings yet
Springer Lecture Notes in Computer Science (1)
11 pages
End to End Project Multiple Disease Detection Using ML - Nomidl
No ratings yet
End to End Project Multiple Disease Detection Using ML - Nomidl
24 pages
Diabetes Prediction Using Logistic Regression - Untitled - Ipynb at Main Prajwal10031999 - Diabetes Prediction Using Logistic Regression GitHub
No ratings yet
Diabetes Prediction Using Logistic Regression - Untitled - Ipynb at Main Prajwal10031999 - Diabetes Prediction Using Logistic Regression GitHub
8 pages
DIABETES
No ratings yet
DIABETES
17 pages
Chopra - Recurrent Neural Networks with Non-Sequential Data to Predict Hospital Readmission of Diabetic Patients
No ratings yet
Chopra - Recurrent Neural Networks with Non-Sequential Data to Predict Hospital Readmission of Diabetic Patients
6 pages
MLS+1+-+Regression
No ratings yet
MLS+1+-+Regression
20 pages
23UCC554
No ratings yet
23UCC554
9 pages
Bio-Inspired PSO For Improving Neural Based Diabetes Prediction System
No ratings yet
Bio-Inspired PSO For Improving Neural Based Diabetes Prediction System
21 pages
Springer Software Engineering For Games
No ratings yet
Springer Software Engineering For Games
307 pages
Diabetes
No ratings yet
Diabetes
7 pages
p7
No ratings yet
p7
5 pages
Notebook - Geospatial
No ratings yet
Notebook - Geospatial
11 pages
Notebook - Music Recommendation System Reference
No ratings yet
Notebook - Music Recommendation System Reference
22 pages
Notebook - Deep Neural Networks
No ratings yet
Notebook - Deep Neural Networks
28 pages
17acb03418 Fyp
No ratings yet
17acb03418 Fyp
80 pages
Internshippppp Fimnalllll
No ratings yet
Internshippppp Fimnalllll
16 pages
Generative AI Binary Classification
No ratings yet
Generative AI Binary Classification
7 pages
ML+LVC+3+Post-Session+Summary
No ratings yet
ML+LVC+3+Post-Session+Summary
16 pages
Naive Bayes
No ratings yet
Naive Bayes
5 pages
The+CNN+Architecture
No ratings yet
The+CNN+Architecture
15 pages
MLDA1
No ratings yet
MLDA1
8 pages
Binod ML Project-052
No ratings yet
Binod ML Project-052
14 pages
1_3_Multiple_Hypothesis_Testing
No ratings yet
1_3_Multiple_Hypothesis_Testing
14 pages
Machine NB + Lda Second Try
No ratings yet
Machine NB + Lda Second Try
5 pages
Project 10 Movie Recommendation - Ipynb - Colaboratory
No ratings yet
Project 10 Movie Recommendation - Ipynb - Colaboratory
6 pages
Data Mining: Model Overfitting Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar
No ratings yet
Data Mining: Model Overfitting Introduction To Data Mining, 2 Edition by Tan, Steinbach, Karpatne, Kumar
15 pages
20MIS7095 (LAB 7) .Ipynb Colaboratory
No ratings yet
20MIS7095 (LAB 7) .Ipynb Colaboratory
4 pages
A2 LandslidePrediction S17007
No ratings yet
A2 LandslidePrediction S17007
2 pages
ML+LVC+2+Post-Session+Summary
No ratings yet
ML+LVC+2+Post-Session+Summary
12 pages
Information Technology: Academic Regulations Course Structure AND Detailed Syllabus
No ratings yet
Information Technology: Academic Regulations Course Structure AND Detailed Syllabus
33 pages
Unit5 - Logistic Regression
No ratings yet
Unit5 - Logistic Regression
4 pages
Classification Demo
No ratings yet
Classification Demo
4 pages
Proposal
No ratings yet
Proposal
12 pages
122_ashishpatel_cseb_2
No ratings yet
122_ashishpatel_cseb_2
3 pages
ML LAb Task
No ratings yet
ML LAb Task
4 pages
Data Mining Journal 4 Kashan
No ratings yet
Data Mining Journal 4 Kashan
8 pages
MLS+1+-+Presentation
No ratings yet
MLS+1+-+Presentation
11 pages
Pneumonia Detection Using Convolutional Neural Networks (CNNS)
No ratings yet
Pneumonia Detection Using Convolutional Neural Networks (CNNS)
14 pages
Introduction To Convolutional Neural Network (CNN) Using Tensorflow - by Govinda Dumane - Towards Data Science
No ratings yet
Introduction To Convolutional Neural Network (CNN) Using Tensorflow - by Govinda Dumane - Towards Data Science
17 pages
Literature survey paper on Comparative Analysis of Diabetics Prediction Systems using Machine Learning Algorithms
No ratings yet
Literature survey paper on Comparative Analysis of Diabetics Prediction Systems using Machine Learning Algorithms
4 pages
Boston Dataset
No ratings yet
Boston Dataset
6 pages
New system to harness 40% of the sun's heat to produce clean hydrogen fuel
No ratings yet
New system to harness 40% of the sun's heat to produce clean hydrogen fuel
6 pages
23ucc554aiml
No ratings yet
23ucc554aiml
5 pages
Predicting Diabetes Onset Using Machine Learning
No ratings yet
Predicting Diabetes Onset Using Machine Learning
4 pages
BTVN6_code
No ratings yet
BTVN6_code
2 pages
dia pgm
No ratings yet
dia pgm
2 pages
Building a Tanh Activation Function
No ratings yet
Building a Tanh Activation Function
9 pages
Individual Assignments: Unit 2: Values, Data Types and Data Structures in R, Assignment 1
No ratings yet
Individual Assignments: Unit 2: Values, Data Types and Data Structures in R, Assignment 1
5 pages
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
No ratings yet
Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import From Import Import As
8 pages
Ai Datascience Project Grade 10
No ratings yet
Ai Datascience Project Grade 10
14 pages
Decision Trees
No ratings yet
Decision Trees
28 pages
Assignment 2
No ratings yet
Assignment 2
4 pages
Notebook - Agave Plant Maturation Model Inference and Testing
No ratings yet
Notebook - Agave Plant Maturation Model Inference and Testing
7 pages
Diabetic Prediction Using LogicalRegression
No ratings yet
Diabetic Prediction Using LogicalRegression
9 pages
Stock Market Dashboard in Python
No ratings yet
Stock Market Dashboard in Python
4 pages
Glossary+of+Notations+-+Recommender+Systems+Part++3
No ratings yet
Glossary+of+Notations+-+Recommender+Systems+Part++3
4 pages
e75b287b-33aa-42e4-9987-f3d882495fb3
No ratings yet
e75b287b-33aa-42e4-9987-f3d882495fb3
17 pages
Time_series_analysis__1718649022
No ratings yet
Time_series_analysis__1718649022
5 pages
RNA2
No ratings yet
RNA2
1 page
Project Report
No ratings yet
Project Report
10 pages
Untitled5.Ipynb - Colab
No ratings yet
Untitled5.Ipynb - Colab
1 page
DA Pr6 Output
No ratings yet
DA Pr6 Output
1 page
Notebook - Main Code
No ratings yet
Notebook - Main Code
4 pages
notebook - text classification
No ratings yet
notebook - text classification
7 pages
RAGE Against the Machine - Retrieval-Augmented LLM Explanations
No ratings yet
RAGE Against the Machine - Retrieval-Augmented LLM Explanations
4 pages
Prediction and Analysis of Customer Complaints Usi
No ratings yet
Prediction and Analysis of Customer Complaints Usi
25 pages
Untitled15.ipynb - Colaboratory
No ratings yet
Untitled15.ipynb - Colaboratory
1 page
DS Unit-Iv
No ratings yet
DS Unit-Iv
34 pages
5_2-6_Spatial_Environmental_Data_Gaussian_Processes
No ratings yet
5_2-6_Spatial_Environmental_Data_Gaussian_Processes
4 pages
PR 6
No ratings yet
PR 6
2 pages
Experiment 6: Aim: Write A Program To Apply Decision Tree Classifier On Pima Indian Diabetes Dataset
No ratings yet
Experiment 6: Aim: Write A Program To Apply Decision Tree Classifier On Pima Indian Diabetes Dataset
2 pages
5_3-2_Spatial_Environmental_Data_Model_Selection_Long-range_Dependencies
No ratings yet
5_3-2_Spatial_Environmental_Data_Model_Selection_Long-range_Dependencies
3 pages
An Incremental Clustering Algorithm Based On Mahalanobis Distance
No ratings yet
An Incremental Clustering Algorithm Based On Mahalanobis Distance
1 page
ML+LVC+3+Glossary
No ratings yet
ML+LVC+3+Glossary
1 page
NOC Computer Science and Engineering PDF
No ratings yet
NOC Computer Science and Engineering PDF
6 pages
Personalized Healthcare Recommendations
No ratings yet
Personalized Healthcare Recommendations
6 pages
Diabetes Prediction Using Data Mining
No ratings yet
Diabetes Prediction Using Data Mining
17 pages
IEEE Paper Format Template
No ratings yet
IEEE Paper Format Template
4 pages
Random Forest
No ratings yet
Random Forest
8 pages
Blazor and API Example: Classroom Quiz Application
From Everand
Blazor and API Example: Classroom Quiz Application
Taurius Litvinavicius
No ratings yet
Data Mining Models: Techniques and Applications
From Everand
Data Mining Models: Techniques and Applications
Ravi Deshpande
No ratings yet
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet