0% found this document useful (0 votes)

69 views6 pages

Pre-Processing Example - 1

The document provides 4 examples of pre-processing steps for machine learning models. The examples show how to import data, handle missing values, encode categorical variables, split data into training and test sets, and scale features. Common pre-processing steps demonstrated include removing unnecessary columns, imputing missing data, label encoding, one-hot encoding, train-test split, and feature scaling.

Uploaded by

Ishani Mehta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

69 views6 pages

Pre-Processing Example - 1

Uploaded by

Ishani Mehta

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Pre-Processing

Example – 1:
import pandas as pd
data = pd.read_csv("J:\Machine
Learning\Class\Practical\Practical_1\age_salary.csv")
print(data.columns)
X = data.iloc[:,:-1].values #Takes all rows of all columns except
the last column
Y = data.iloc[:,-1].values # Takes all rows of the last column
X
Y
Example – 2:
import pandas as pd
dataset = pd.read_csv('J:\\Machine
Learning\\Class\Practical\\Preprocessing\\Data1.csv')
print(dataset.columns)
dataset

dataset.info()
dataset.head()

#Row and column count

dataset.shape
#Removing insufficient column
dataset_new = dataset.drop(['Age',], axis = 1)
dataset_new

#To measure the central tendency of variables

dataset_new.describe()

#To change column name

dataset.rename(index =str, columns={'Country' : 'Countries',
'Age' : 'age',
'Salary' : 'Sal',
'Purchased' : 'Purchased'}, inplace =
True)

dataset
#Count missing values
dataset.isnull().sum().sort_values(ascending=False)

#Print the missing value column

dataset[dataset.isnull().any(axis=1)].head()
#Remove missing value rows
ds_new = dataset.dropna()
ds_new
ds_new.isnull().sum().sort_values(ascending=False)

#To check datatype

ds_new.dtypes

#To convert as integer

ds_new['age'] = ds_new['age'].astype('int64')

ds_new.dtypes

Example – 3
import pandas as pd
data = pd.read_csv('J:\\Machine
Learning\\Class\Practical\\Preprocessing\\Book1.csv')

# Slice the result for first 5 rows

print (data[0:5]['Salary'])

# Use the multi-axes indexing method called .loc

print (data.loc[:,['Salary','Name']])

# Use the multi-axes indexing funtion

print (data.loc[[1,3,5],['Salary','Name']])

# Use the multi-axes indexing funtion

print (data.loc[2:6,['Salary','Name']])

print (data.loc[:,['Salary','Name']])

Example – 4

import pandas as pd
dataset = pd.read_csv('J:\\Machine
Learning\\Class\Practical\\Preprocessing\\Data1.csv')
print(dataset.columns)
dataset
dataset.info()

#Creating Independent variable

X = dataset.iloc[:, :-1].values #Takes all rows of all columns
except the last column
#Creating Dependent variable
Y = dataset.iloc[:, -1].values # Takes all rows of the last column
X
Y

#Dealing with missing values with mean imputer

from sklearn.preprocessing import Imputer
imputer=Imputer(missing_values='NaN',strategy='mean',axis=0)
imputer.fit(X[:,1:3])
X[:,1:3]=imputer.transform(X[:,1:3])
X

#Encoding categorical data

from sklearn.preprocessing import
LabelEncoder,OneHotEncoder
labelencoder_X=LabelEncoder()
X[:,0] = labelencoder_X.fit_transform(X[:,0]) #Encoding the
values of column Country
onehotencoder=OneHotEncoder(categorical_features=[0])
X=onehotencoder.fit_transform(X).toarray()
X

labelencoder_y=LabelEncoder()
Y= labelencoder_y.fit_transform(Y)
Y

#Splitting the data into training and test data

from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,Y,test_size=0.2,
random_state=0)

from sklearn.preprocessing import StandardScaler

sc_X=StandardScaler()
X_train=sc_X.fit_transform(X_train)
X_test=sc_X.fit_transform(X_test)

X_train
X_test

Unit - II MLT
No ratings yet
Unit - II MLT
75 pages
Machine Learning Lab Assignment 2
No ratings yet
Machine Learning Lab Assignment 2
23 pages
DOC-20231017-WA0001.
No ratings yet
DOC-20231017-WA0001.
123 pages
Data Mining Using Python Manual
No ratings yet
Data Mining Using Python Manual
69 pages
DAP_3_module
No ratings yet
DAP_3_module
62 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
python interviews
No ratings yet
python interviews
154 pages
i7525BN Data Sheet - VerA - 2017
No ratings yet
i7525BN Data Sheet - VerA - 2017
65 pages
Practical File Computer Science Class 11 - A Comprehensive Guide
No ratings yet
Practical File Computer Science Class 11 - A Comprehensive Guide
24 pages
Data Pre-processing Steps
No ratings yet
Data Pre-processing Steps
32 pages
Machine_Learning_Lab_File (1)
No ratings yet
Machine_Learning_Lab_File (1)
45 pages
ML LAB manual-1
No ratings yet
ML LAB manual-1
33 pages
RT3613EEGQW
No ratings yet
RT3613EEGQW
48 pages
Applied Multivariate Statistical Analysis 6th Edition Johnson Solutions Manualpdf download
100% (5)
Applied Multivariate Statistical Analysis 6th Edition Johnson Solutions Manualpdf download
50 pages
data science practicals
No ratings yet
data science practicals
47 pages
Data Pre Process i
No ratings yet
Data Pre Process i
6 pages
Turok Editor Guide
No ratings yet
Turok Editor Guide
62 pages
Bis 13 1294 Uk Cyber Security Standards Research Report
No ratings yet
Bis 13 1294 Uk Cyber Security Standards Research Report
105 pages
DA lab
No ratings yet
DA lab
27 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
43 pages
a5
No ratings yet
a5
28 pages
Data Analysis Tools
No ratings yet
Data Analysis Tools
26 pages
Enhanced Routing Technique For Military Dog Robot
No ratings yet
Enhanced Routing Technique For Military Dog Robot
12 pages
justenoughpython_pandas_220915_175329
No ratings yet
justenoughpython_pandas_220915_175329
64 pages
Weak AI Generative AI Strong AI:-Machine Learning Tutorial 1.supervised Leaning 2.un Supervised Learning 3.reinforcement Learning
No ratings yet
Weak AI Generative AI Strong AI:-Machine Learning Tutorial 1.supervised Leaning 2.un Supervised Learning 3.reinforcement Learning
53 pages
curriculum_DS
No ratings yet
curriculum_DS
2 pages
MACHINE LEARNING manual
No ratings yet
MACHINE LEARNING manual
36 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
Lab File
No ratings yet
Lab File
96 pages
Dataframe_Syntax
No ratings yet
Dataframe_Syntax
3 pages
RAID 1 and RAID 5 Configuration in Windows Server
No ratings yet
RAID 1 and RAID 5 Configuration in Windows Server
14 pages
FDS RECORD-1-4
No ratings yet
FDS RECORD-1-4
18 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
pandas_notes
No ratings yet
pandas_notes
8 pages
Intro Pandas
No ratings yet
Intro Pandas
18 pages
Exp_1_Introduction to Data Analytics and Python fundamentals_sdk_ok
No ratings yet
Exp_1_Introduction to Data Analytics and Python fundamentals_sdk_ok
9 pages
Pandas Notes
No ratings yet
Pandas Notes
54 pages
72b85f60-8523-423f-9efc-ff56aa21f3f3
No ratings yet
72b85f60-8523-423f-9efc-ff56aa21f3f3
29 pages
Bahasa Indonesia - Tata Tulis Karya Ilmiah (Bahasa Indonesia - Scientific Writing)
No ratings yet
Bahasa Indonesia - Tata Tulis Karya Ilmiah (Bahasa Indonesia - Scientific Writing)
72 pages
EXP-3
No ratings yet
EXP-3
10 pages
Truck Owner Operator Business Plan Example
No ratings yet
Truck Owner Operator Business Plan Example
52 pages
Experiment 1 solution
No ratings yet
Experiment 1 solution
5 pages
Data Preprocesing JavaPoint
No ratings yet
Data Preprocesing JavaPoint
19 pages
Download PDF for Eaton Specification Sheet - KD3400F
No ratings yet
Download PDF for Eaton Specification Sheet - KD3400F
3 pages
Dwdm-Lab Manual
No ratings yet
Dwdm-Lab Manual
39 pages
Research Proposal 2
No ratings yet
Research Proposal 2
3 pages
How To Write An Argumentative
No ratings yet
How To Write An Argumentative
18 pages
Data Preprocessing in Machine Learning[1]
No ratings yet
Data Preprocessing in Machine Learning[1]
24 pages
The Simple Constant Speed Unit
No ratings yet
The Simple Constant Speed Unit
2 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Class 1 - 2024 Business Analytics
No ratings yet
Class 1 - 2024 Business Analytics
8 pages
Lab Chapter 3 Quest
No ratings yet
Lab Chapter 3 Quest
16 pages
ProductionMGmt XII IP ProjectReprotFinal
No ratings yet
ProductionMGmt XII IP ProjectReprotFinal
16 pages
Pandas,Numpy,Matplotlib
No ratings yet
Pandas,Numpy,Matplotlib
11 pages
lab 1 ML lab
No ratings yet
lab 1 ML lab
15 pages
ML Lab Manual Final
No ratings yet
ML Lab Manual Final
36 pages
Sarkar Et Al 2022 Photonic Cured Metal Oxides For Low Cost High Performance Low Voltage Flexible and Transparent Thin
No ratings yet
Sarkar Et Al 2022 Photonic Cured Metal Oxides For Low Cost High Performance Low Voltage Flexible and Transparent Thin
13 pages
Data Mining Lab 03
No ratings yet
Data Mining Lab 03
10 pages
Introduction To Pandas
No ratings yet
Introduction To Pandas
27 pages
INFORMATIC Complete Project
No ratings yet
INFORMATIC Complete Project
27 pages
Data Preprocessing in Python
No ratings yet
Data Preprocessing in Python
3 pages
Havells - Flood Light
No ratings yet
Havells - Flood Light
1 page
UPS Battery TR 1& 2 - FBATT12 - PEM - 0003 - 01
No ratings yet
UPS Battery TR 1& 2 - FBATT12 - PEM - 0003 - 01
7 pages
1 Import and Handling Data - Jupyter Notebook
No ratings yet
1 Import and Handling Data - Jupyter Notebook
9 pages
EDA - Session-1 - Basic Dataframe Opertaions-1
No ratings yet
EDA - Session-1 - Basic Dataframe Opertaions-1
7 pages
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
No ratings yet
3rd Semester DDM AI DAA DEV Print Pages For Spiral Record 25-1-24 - Removed
28 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
ML (Prac1)
No ratings yet
ML (Prac1)
12 pages
ANL252 SU4 Jul2022
No ratings yet
ANL252 SU4 Jul2022
55 pages
D Key
No ratings yet
D Key
6 pages
Kinetic Facades
No ratings yet
Kinetic Facades
68 pages
pandas_merged
No ratings yet
pandas_merged
2 pages
Handling Missing Values in A Real-Time Dataset During
No ratings yet
Handling Missing Values in A Real-Time Dataset During
5 pages
PW2 DataCleaning
No ratings yet
PW2 DataCleaning
6 pages
Electrical Fixture & Conduit Layout Plan For Ground To 5th Floor 12
No ratings yet
Electrical Fixture & Conduit Layout Plan For Ground To 5th Floor 12
1 page
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
Bipolar Stepper Controller Using The Couple L297 - L6203 (Upto 5A)
No ratings yet
Bipolar Stepper Controller Using The Couple L297 - L6203 (Upto 5A)
4 pages
Application Form For Non-Teaching Posts
No ratings yet
Application Form For Non-Teaching Posts
3 pages
019-Compression Load Cell
No ratings yet
019-Compression Load Cell
3 pages
Data Preprocessing in Machine Learning
No ratings yet
Data Preprocessing in Machine Learning
27 pages
Pandas
No ratings yet
Pandas
5 pages
Hyundai Air Circuit Breaker
83% (6)
Hyundai Air Circuit Breaker
60 pages
All Global Domain Registrars List With Pricing
No ratings yet
All Global Domain Registrars List With Pricing
41 pages
Python Data Science 101
100% (1)
Python Data Science 101
41 pages
12 Useful Pandas Techniques in Python For Data Manipulation
100% (2)
12 Useful Pandas Techniques in Python For Data Manipulation
19 pages
Portable Mobile Charger
0% (1)
Portable Mobile Charger
7 pages
Caterpillar EMCP4 Installation Guide: Data / Power Cable
No ratings yet
Caterpillar EMCP4 Installation Guide: Data / Power Cable
3 pages
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Pre-Processing Example - 1

Uploaded by

Pre-Processing Example - 1

Uploaded by

Pre-Processing

#Row and column count

#To measure the central tendency of variables

#To change column name

#Print the missing value column

#To check datatype

#To convert as integer

# Slice the result for first 5 rows

# Use the multi-axes indexing method called .loc

# Use the multi-axes indexing funtion

# Use the multi-axes indexing funtion

#Creating Independent variable

#Dealing with missing values with mean imputer

#Encoding categorical data

#Splitting the data into training and test data

from sklearn.preprocessing import StandardScaler

You might also like