0% found this document useful (0 votes)

2 views

vertopal.com_model_training

vertopal tutoirial pdf help to check handout

Uploaded by

drsaheb422

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

vertopal.com_model_training

vertopal tutoirial pdf help to check handout

Uploaded by

drsaheb422

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

import pandas as pd

import numpy as np

df = pd.read_csv(r"..\\notebooks\\data\\gemstone.csv")

df.drop(labels=['id'], axis=1, inplace=True)

df.head()

carat cut color clarity depth table x y z

price
0 1.52 Premium F VS2 62.2 58.0 7.27 7.33 4.55
13619
1 2.03 Very Good J SI2 62.0 58.0 8.06 8.12 5.05
13387
2 0.70 Ideal G VS1 61.2 57.0 5.69 5.73 3.50
2772
3 0.32 Ideal G VS1 61.6 56.0 4.38 4.41 2.71
666
4 1.70 Premium G VS2 62.6 59.0 7.65 7.61 4.77
14453

X = df.drop(labels=['price'], axis=1)
y = df[['price']]

X.head()

carat cut color clarity depth table x y z

0 1.52 Premium F VS2 62.2 58.0 7.27 7.33 4.55
1 2.03 Very Good J SI2 62.0 58.0 8.06 8.12 5.05
2 0.70 Ideal G VS1 61.2 57.0 5.69 5.73 3.50
3 0.32 Ideal G VS1 61.6 56.0 4.38 4.41 2.71
4 1.70 Premium G VS2 62.6 59.0 7.65 7.61 4.77

price
0 13619
1 13387
2 2772
3 666
4 14453
... ...
193568 1130
193569 2874
193570 3036
193571 681
193572 2258

[193573 rows x 1 columns]

# Categorical features
cat_features = X.select_dtypes(include="object").columns
print(cat_features)

Index(['cut', 'color', 'clarity'], dtype='object')

# Numerical features
num_features = X.select_dtypes(exclude="object").columns
print(num_features)

Index(['carat', 'depth', 'table', 'x', 'y', 'z'], dtype='object')

# Define the custom ranking for each ordinal variable

cut_categories = ['Fair', 'Good', 'Very Good','Premium','Ideal']
color_categories = ['D', 'E', 'F', 'G', 'H', 'I', 'J']
clarity_categories = ['I1','SI2','SI1','VS2','VS1','VVS2','VVS1','IF']

from sklearn.impute import SimpleImputer # handling missing values

from sklearn.preprocessing import StandardScaler # handling feature
scaling
from sklearn.preprocessing import OrdinalEncoder # ordinal encoding

## Pipelines
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# Numrecial Pipeline
num_pipeline=Pipeline(

steps=[

('imputer',SimpleImputer()), # handling missing values

('scaler', StandardScaler()) # handling scaling of values
]

# Categorical Pipeline
cat_pipeline=Pipeline(

steps=[
('imputer',SimpleImputer(strategy='most_frequent')), #
handling missing values

('ordinalencoder',OrdinalEncoder(categories=[cut_categories,color_cate
gories,clarity_categories])) # handling categorical to numerical
conversion
]
)

preprocessor=ColumnTransformer(
[

('num_pipeline',num_pipeline,num_features),
('cat_pipeline',cat_pipeline,cat_features)
]
)

## Train test split

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.30,rand
om_state=30)

preprocessor.fit_transform(X_train)

array([[-0.97543926, -0.84960654, -0.12153081, ..., 4. ,

5. , 5. ],
[ 0.2351953 , 1.83363716, -0.12153081, ..., 1. ,
1. , 2. ],
[ 0.49461699, 0.81585507, 0.39980029, ..., 3. ,
3. , 4. ],
...,
[ 0.45138004, 1.55606023, -0.6428619 , ..., 1. ,
3. , 2. ],
[ 0.66756478, -1.77486298, 1.44246248, ..., 4. ,
3. , 4. ],
[ 0.25681377, 0.81585507, -0.12153081, ..., 4. ,
3. , 2. ]])

preprocessor.transform(X_train)

array([[-0.97543926, -0.84960654, -0.12153081, ..., 4. ,

array(['num_pipeline__carat', 'num_pipeline__depth',
'num_pipeline__table', 'num_pipeline__x', 'num_pipeline__y',
'num_pipeline__z', 'cat_pipeline__cut', 'cat_pipeline__color',
'cat_pipeline__clarity'], dtype=object)

X_train=pd.DataFrame(preprocessor.fit_transform(X_train),columns=prepr
ocessor.get_feature_names_out())
X_test=pd.DataFrame(preprocessor.transform(X_test),columns=preprocesso
r.get_feature_names_out())

X_train

num_pipeline__carat num_pipeline__depth num_pipeline__table

\
0 -0.975439 -0.849607 -0.121531

1 0.235195 1.833637 -0.121531

2 0.494617 0.815855 0.399800

3 -1.018676 0.260701 0.921131

4 -0.953821 -0.664555 -0.642862

... ... ... ...

135496 -1.040295 -0.016876 -0.642862

135497 0.991842 0.168176 -0.642862

135498 0.451380 1.556060 -0.642862

135499 0.667565 -1.774863 1.442462

135500 0.256814 0.815855 -0.121531

num_pipeline__x num_pipeline__y num_pipeline__z

cat_pipeline__cut \
0 -1.042757 -1.080970 -1.123150
4.0
1 0.318447 0.279859 0.485354
1.0
2 0.570855 0.606458 0.673737
3.0
3 -1.214034 -1.244270 -1.195605
3.0
4 -1.069801 -1.044681 -1.094168
4.0
... ... ... ...
...
135496 -1.268122 -1.244270 -1.239078
4.0
135497 1.048629 1.114501 1.079486
4.0
135498 0.516768 0.588314 0.702719
1.0
135499 0.868337 0.951202 0.688228
4.0
135500 0.381549 0.415942 0.470863
4.0

cat_pipeline__color cat_pipeline__clarity
0 5.0 5.0
1 1.0 2.0
2 3.0 4.0
3 3.0 3.0
4 6.0 5.0
... ... ...
135496 1.0 2.0
135497 3.0 1.0
135498 3.0 2.0
135499 3.0 4.0
135500 3.0 2.0

[135501 rows x 9 columns]

X_test

num_pipeline__carat num_pipeline__depth
num_pipeline__table \
0 -0.564688 -0.942132 -0.642862

1 -0.175556 1.000906 -0.121531

2 -1.061913 0.260701 -0.121531

3 0.970223 -0.201927 1.963794

4 -0.932202 -1.312235 0.399800

... ... ... ...

58067 1.013460 1.185958 -0.642862

58068 -0.997058 0.260701 -1.164193

58069 -0.197174 -3.347799 1.442462

58070 -0.824110 -0.201927 -0.121531

58071 2.613227 -0.757081 1.442462

num_pipeline__x num_pipeline__y num_pipeline__z

cat_pipeline__cut \
0 -0.429765 -0.464061 -0.500036
3.0
1 -0.042137 -0.028595 0.036132
2.0
2 -1.304180 -1.298703 -1.268060
4.0
3 1.048629 0.996563 0.978049
3.0
4 -1.006699 -0.990248 -1.065186
3.0
... ... ... ...
...
58067 1.003556 1.041924 1.151941
2.0
58068 -1.141917 -1.126331 -1.108659
4.0
58069 0.102096 0.071199 -0.224706
3.0
58070 -0.853450 -0.881382 -0.876803
4.0
58071 2.139394 2.039865 2.006912
3.0

cat_pipeline__color cat_pipeline__clarity
0 1.0 3.0
1 4.0 2.0
2 4.0 7.0
3 3.0 3.0
4 1.0 4.0
... ... ...
58067 4.0 3.0
58068 2.0 6.0
58069 6.0 3.0
58070 3.0 2.0
58071 6.0 3.0

[58072 rows x 9 columns]

SO far we have only learned Linear Regression and Logistic Regression.. and using it we are
trying to create a End To End project

But, after that, will you be taking the remaining ML Algorithms and End to End project using it?

Minutely
No ratings yet
Minutely
1 page
Pattern Recognition Lab
No ratings yet
Pattern Recognition Lab
24 pages
PCA
No ratings yet
PCA
23 pages
DATA SCIENCE IDC 302 End Sem Project
No ratings yet
DATA SCIENCE IDC 302 End Sem Project
1 page
Image Classifications
No ratings yet
Image Classifications
4 pages
1 - Standard Linear Regression: Numpy NP Pandas
No ratings yet
1 - Standard Linear Regression: Numpy NP Pandas
4 pages
Import As
100% (1)
Import As
27 pages
Tarea 8
No ratings yet
Tarea 8
7 pages
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
No ratings yet
Python - How To Make A 4d Plot With Matplotlib Using Arbitrary Data - Stack Overflow
13 pages
ADADELTA
No ratings yet
ADADELTA
2 pages
Presentation 1
No ratings yet
Presentation 1
2 pages
BHMC17 P5.ipynb - Colaboratory
No ratings yet
BHMC17 P5.ipynb - Colaboratory
4 pages
Copy of Project 4 _ House Price Prediction.ipynb - Colab
No ratings yet
Copy of Project 4 _ House Price Prediction.ipynb - Colab
5 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
ML Shristi File
No ratings yet
ML Shristi File
49 pages
7 output
No ratings yet
7 output
4 pages
Garishav Basra 102103129 2CO5
No ratings yet
Garishav Basra 102103129 2CO5
8 pages
Shiva Teja
No ratings yet
Shiva Teja
19 pages
Bank Nifty PDF
No ratings yet
Bank Nifty PDF
16 pages
Code
No ratings yet
Code
5 pages
Python Course Cheat Sheet
No ratings yet
Python Course Cheat Sheet
30 pages
Lab 8
No ratings yet
Lab 8
8 pages
Log File
No ratings yet
Log File
1,698 pages
Roll NO 2020
No ratings yet
Roll NO 2020
8 pages
Fds Mannual
No ratings yet
Fds Mannual
39 pages
ML LAB 12 - Jupyter Notebook
No ratings yet
ML LAB 12 - Jupyter Notebook
11 pages
Keeraiit 2
No ratings yet
Keeraiit 2
19 pages
1 Abril PDF
No ratings yet
1 Abril PDF
10 pages
Quality Prediction Checkpoint
No ratings yet
Quality Prediction Checkpoint
14 pages
CVDL(Practical No. 3)
No ratings yet
CVDL(Practical No. 3)
1 page
Pca 2382487
No ratings yet
Pca 2382487
8 pages
ml labs
No ratings yet
ml labs
14 pages
Ilovepdf Merged
No ratings yet
Ilovepdf Merged
47 pages
4.4. Data Standardization - Ipynb - Colaboratory
No ratings yet
4.4. Data Standardization - Ipynb - Colaboratory
1 page
Pre-Processing techniques.ipynb - Colab
No ratings yet
Pre-Processing techniques.ipynb - Colab
3 pages
Data - Preprocessing - Tools - Ipynb - Colaboratory
No ratings yet
Data - Preprocessing - Tools - Ipynb - Colaboratory
4 pages
Vertopal.com Lab4 KNN
No ratings yet
Vertopal.com Lab4 KNN
9 pages
Final ML File
No ratings yet
Final ML File
34 pages
1 An Introduction To Machine Learning With Scikit Learn
No ratings yet
1 An Introduction To Machine Learning With Scikit Learn
2 pages
PRAC9_23BME053
No ratings yet
PRAC9_23BME053
4 pages
210430_PracticalWeek03a
No ratings yet
210430_PracticalWeek03a
1 page
DL Lab 3
No ratings yet
DL Lab 3
5 pages
Data Science Libraries
No ratings yet
Data Science Libraries
4 pages
Numpy Cheatsheet
No ratings yet
Numpy Cheatsheet
11 pages
k-fold
No ratings yet
k-fold
2 pages
Prasun Kumar - Assignment1
100% (1)
Prasun Kumar - Assignment1
9 pages
Import As Import As From Import: "Mean Squared Errors: "
No ratings yet
Import As Import As From Import: "Mean Squared Errors: "
1 page
DL Lab2
No ratings yet
DL Lab2
38 pages
DAVL PR1.2 Mit
No ratings yet
DAVL PR1.2 Mit
10 pages
EXAM PREPERATION - Ipynb - Colaboratory-1
No ratings yet
EXAM PREPERATION - Ipynb - Colaboratory-1
8 pages
Weather Forecasting
No ratings yet
Weather Forecasting
5 pages
EXP 07 (ML) - Ashu
No ratings yet
EXP 07 (ML) - Ashu
4 pages
Introduction to Neural Networks
No ratings yet
Introduction to Neural Networks
4 pages
DP v8
No ratings yet
DP v8
19 pages
Unsupervised ML
No ratings yet
Unsupervised ML
17 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
Correction TP gauss_250403_210359
No ratings yet
Correction TP gauss_250403_210359
5 pages
Ada Grand
No ratings yet
Ada Grand
2 pages
A List of Factorial Math Constants
From Everand
A List of Factorial Math Constants
StreetLib
No ratings yet
The Fibonacci Number Series
From Everand
The Fibonacci Number Series
Michael Husted
5/5 (1)
6 Practice Solution
No ratings yet
6 Practice Solution
4 pages
Region Growing
No ratings yet
Region Growing
4 pages
1
No ratings yet
1
9 pages
Steel Opensees Other Opensees Other
No ratings yet
Steel Opensees Other Opensees Other
12 pages
Week 4 - Impulse Response in LTIC Systems (Textbook: Ch. 3.2 - 3.4)
No ratings yet
Week 4 - Impulse Response in LTIC Systems (Textbook: Ch. 3.2 - 3.4)
21 pages
Nsopde Book
No ratings yet
Nsopde Book
40 pages
Convolution Neural Network
No ratings yet
Convolution Neural Network
6 pages
Design & Analysis of Algorithm (CSC-321) : Mona Leeza, Computer Sciences Department Bahria University (Karachi Campus)
No ratings yet
Design & Analysis of Algorithm (CSC-321) : Mona Leeza, Computer Sciences Department Bahria University (Karachi Campus)
19 pages
Sapthagiri College of Engineering Department of Computer Science and Engineering Internal Assessment Test - II
No ratings yet
Sapthagiri College of Engineering Department of Computer Science and Engineering Internal Assessment Test - II
3 pages
Hw3- Trần Thị Thanh Ngân-ielsiu18223
100% (1)
Hw3- Trần Thị Thanh Ngân-ielsiu18223
11 pages
Steepest Descent
No ratings yet
Steepest Descent
7 pages
Matlab 8
No ratings yet
Matlab 8
6 pages
Bài tập thuật toán tìm kiếm
No ratings yet
Bài tập thuật toán tìm kiếm
3 pages
Rubik's Cube Solver by Ben Botto
No ratings yet
Rubik's Cube Solver by Ben Botto
17 pages
SoE_IA_annotated (2)
No ratings yet
SoE_IA_annotated (2)
5 pages
Module 1 - PPT For Reference
No ratings yet
Module 1 - PPT For Reference
51 pages
Determinant Exercises
No ratings yet
Determinant Exercises
6 pages
Top-Down Parsing-Prerequisites For Predictive Parsing
No ratings yet
Top-Down Parsing-Prerequisites For Predictive Parsing
8 pages
Assignment 1 Algo.
No ratings yet
Assignment 1 Algo.
3 pages
Chapter 4 Assignment Model
No ratings yet
Chapter 4 Assignment Model
35 pages
Application of Machine Learning in A Mineral LeachingProcessTaking Pyrolusite Leaching As An Example
No ratings yet
Application of Machine Learning in A Mineral LeachingProcessTaking Pyrolusite Leaching As An Example
9 pages
R-CNN (Object Detection) - A Beginners Guide To One of The Most - by Sharif Elfouly - Medium
No ratings yet
R-CNN (Object Detection) - A Beginners Guide To One of The Most - by Sharif Elfouly - Medium
6 pages
Chapter2 Nonlinear Eqs Version2021
No ratings yet
Chapter2 Nonlinear Eqs Version2021
19 pages
Note 7 - Numerical Optimization
No ratings yet
Note 7 - Numerical Optimization
6 pages
Laboratory 3: Z - Transform
No ratings yet
Laboratory 3: Z - Transform
11 pages
MA5251: Spectral Methods & Applications: Weizhu Bao
No ratings yet
MA5251: Spectral Methods & Applications: Weizhu Bao
24 pages
Activity 2 Algorithms IPO Flowchart C
100% (1)
Activity 2 Algorithms IPO Flowchart C
3 pages
Advanced Digital Signal Processing Spring 2012: Signal Representation and Time Domain Analysis
No ratings yet
Advanced Digital Signal Processing Spring 2012: Signal Representation and Time Domain Analysis
46 pages
Stationarity TS PDF
No ratings yet
Stationarity TS PDF
24 pages
A Multi-Size Compartment Vehicle Routing Problem For Multi-Product Distribution: Models and Solution Procedures
No ratings yet
A Multi-Size Compartment Vehicle Routing Problem For Multi-Product Distribution: Models and Solution Procedures
21 pages