Machine Learning Lab - Preprocessing

Uploaded by

gurudevpasupuleti09

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

37 views13 pages

Machine Learning Lab - Preprocessing

Uploaded by

gurudevpasupuleti09

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

21AI604/ 21CS644

Machine learning lab2

WORKING WITH DATA AND FILES
S.PADMAVATHI, CSE
DATA PREPROCESSING
import numpy as np
from sklearn import preprocessing
# Create feature
feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])
# Create scaler
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))
# Scale feature
scaled_feature = minmax_scale.fit_transform(feature)
# Show feature
scaled_feature

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Preprocessing scaling
import numpy as np # Print mean and standard deviation
from sklearn import preprocessing
print("Mean:", round(standardized.mean()))
# Create feature
print("Standard deviation:",
x = np.array([[-1000.1], [- standardized.std())
200.2],[500.5],[600.6],[9000.9]])
# Create scaler
scaler = preprocessing.StandardScaler()
# Transform the feature
standardized = scaler.fit_transform(x)
# Show feature
standardized

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Preprocessing -Normalize
import numpy as np # Create scaler
from sklearn.preprocessing import Normalizer robust_scaler = preprocessing.RobustScaler()
# Create feature matrix # Transform feature
features = np.array([[0.5, 0.5], robust_scaler.fit_transform(x)
[1.1, 3.4],
[1.5, 20.2],
[1.63, 34.4],
[10.9, 3.3]])
# Create normalizer
normalizer = Normalizer(norm="l2")
# Transform feature matrix
normalizer.transform(features)

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Saving data in a file
my_df = pd.DataFrame( for filename in ("my_df.csv", "my_df.html",
"my_df.json"):
[["Biking", 68.5, 1985, np.nan], ["Dancing",
83.1, 1984, 3]], print("#", filename)
with open(filename, "rt") as f:
columns=["hobby","weight","birthyear","childre
n"], print(f.read())
index=["alice", "bob"] print()
)
my_df
my_df.to_csv("my_df.csv")
my_df.to_html("my_df.html")
my_df.to_json("my_df.json")

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Detecting Outliers
#draw ellipse, any observation outside the ellipse # Replace the first observation's values with
as an outlier (labeled as -1) extreme values
# Load libraries features[0,0] = 10000
import numpy as np features[0,1] = 10000
from sklearn.covariance import EllipticEnvelope # Create detector
from sklearn.datasets import make_blobs outlier_detector =
EllipticEnvelope(contamination=.1)
# Create simulated data
# Fit detector
features, _ = make_blobs(n_samples = 10,
outlier_detector.fit(features)
n_features = 2,
# Predict outliers
centers = 1,
outlier_detector.predict(features)
random_state = 1)

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

identify extreme values in features using
interquartile range (IQR)
#IQR is the difference between the first and third # Run function
quartile of a set of data
indicies_of_outliers(feature)
# Create one feature
feature = features[:,0]
# Create a function to return index of outliers
def indicies_of_outliers(x):
q1, q3 = np.percentile(x, [25, 75])
iqr = q3 - q1
lower_bound = q1 - (iqr * 1.5)
upper_bound = q3 + (iqr * 1.5)
return np.where((x > upper_bound) | (x <
lower_bound))

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Deleting Observations with Missing
Values
## Load library
import numpy as np
# Create feature matrix
features = np.array([[1.1, 11.1],
[2.2, 22.2],
[3.3, 33.3],
[4.4, 44.4],
[np.nan, 55]])
# Keep only observations that are not (denoted by ~) missing
features[~np.isnan(features).any(axis=1)]

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

drop missing observations using pandas
# Load library
import pandas as pd
# Load data
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
# Remove observations with missing values
dataframe.dropna()

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

#drop the outliers:
# Load library
import pandas as pd
# Create DataFrame
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]
# Filter observations
houses[houses['Bathrooms'] < 20]

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

#mark fearure as outliers and include it as a #transform the feature to dampen the effect
feature: of the outlier:
# Load library # Log feature
import numpy as np houses["Log_Of_Square_Feet"] = [np.log(x) for
x in houses["Square_Feet"]]
# Create feature based on boolean condition
# Show data
houses["Outlier"] =
np.where(houses["Bathrooms"] < 20, 0, 1) houses
# Show data
houses

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

CONVERT numerical feature into discrete
bins
# # binarize the feature according to some # Create binarizer
threshold:
binarizer = Binarizer(18)
# Load libraries
# Transform feature
import numpy as np
binarizer.fit_transform(age)
from sklearn.preprocessing import Binarizer
# Create feature
#ANOTHER METHOD
age = np.array([[6],
np.digitize(age, bins=[18])
[12],
[20],
[36],
[65]])

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

break up numerical features according to
multiple thresholds
# Bin feature
#bins parameter denote the left edge of each bin
np.digitize(age, bins=[20,30,64])
#bins parameter denote the RIGHT edge of each bin
np.digitize(age, bins=[20,30,64], right=True)

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Assignment No 8
No ratings yet
Assignment No 8
17 pages
Exp 2
No ratings yet
Exp 2
6 pages
ML Lab Manual 2025-2
No ratings yet
ML Lab Manual 2025-2
35 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Unit 6 Pyspark - MLlib
No ratings yet
Unit 6 Pyspark - MLlib
6 pages
MDS372 Lab4 2448001
No ratings yet
MDS372 Lab4 2448001
17 pages
Excel Data Analysis and Preprocessing Guide
No ratings yet
Excel Data Analysis and Preprocessing Guide
42 pages
DataAnalytics Lab Manual
No ratings yet
DataAnalytics Lab Manual
35 pages
Data Assigment 1
100% (2)
Data Assigment 1
32 pages
ML 8 Program
No ratings yet
ML 8 Program
5 pages
Résumé-Analyse Des Données Resumee Resumee
No ratings yet
Résumé-Analyse Des Données Resumee Resumee
4 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
42 pages
Step-by-Step Explanation of Python Data Preprocessing Script
No ratings yet
Step-by-Step Explanation of Python Data Preprocessing Script
9 pages
AIML
No ratings yet
AIML
13 pages
DMA Flask
No ratings yet
DMA Flask
14 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Numpy Cheatsheet
No ratings yet
Numpy Cheatsheet
11 pages
Ass 1 ML
No ratings yet
Ass 1 ML
21 pages
(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
DMC Lab Ex - 1 To 15 (31.03.2024)
No ratings yet
DMC Lab Ex - 1 To 15 (31.03.2024)
52 pages
ML Lab Manual
No ratings yet
ML Lab Manual
60 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
SOLUTION ONLY CODE DWDM - Lab - All
No ratings yet
SOLUTION ONLY CODE DWDM - Lab - All
8 pages
Feature Engineering: Scaling Techniques
No ratings yet
Feature Engineering: Scaling Techniques
13 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
M PDF
No ratings yet
M PDF
13 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Advance Python
No ratings yet
Advance Python
5 pages
ML Self Unit 2
No ratings yet
ML Self Unit 2
20 pages
Parth ML
No ratings yet
Parth ML
24 pages
Data Analytics Lab Manual
No ratings yet
Data Analytics Lab Manual
26 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Unit 6aics
No ratings yet
Unit 6aics
25 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
ML Notes
No ratings yet
ML Notes
44 pages
Project Intern - Jupyter Notebook
No ratings yet
Project Intern - Jupyter Notebook
16 pages
Avinash DA 6
No ratings yet
Avinash DA 6
3 pages
Practical File IP
No ratings yet
Practical File IP
27 pages
Pyspark MLlib
No ratings yet
Pyspark MLlib
4 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
Data Visualization & Preprocessing Guide
No ratings yet
Data Visualization & Preprocessing Guide
18 pages
A926534728 - 28953 - 8 - 2025 - Spark Mllib
No ratings yet
A926534728 - 28953 - 8 - 2025 - Spark Mllib
8 pages
Class 12 Practical File Informatics Practices
No ratings yet
Class 12 Practical File Informatics Practices
28 pages
Devesh
No ratings yet
Devesh
11 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Saurabh
No ratings yet
Saurabh
22 pages
Eda Code Snippets
No ratings yet
Eda Code Snippets
17 pages
Machine Learning Laboratory
No ratings yet
Machine Learning Laboratory
23 pages
House Price Prediction for Analysts
No ratings yet
House Price Prediction for Analysts
91 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Exp 01-B Feature Selection and Extraction
No ratings yet
Exp 01-B Feature Selection and Extraction
12 pages
ML Short Code - Under Updating
No ratings yet
ML Short Code - Under Updating
4 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
Arunsanthosh CV
No ratings yet
Arunsanthosh CV
1 page
Flying Ash: Yi Hui's Nightmare
No ratings yet
Flying Ash: Yi Hui's Nightmare
642 pages
IMS Cloud by Eng. Alali Khalaf
No ratings yet
IMS Cloud by Eng. Alali Khalaf
23 pages
DS4 Elevator Manual
No ratings yet
DS4 Elevator Manual
49 pages
Firewall Configuration DDOS CGN
No ratings yet
Firewall Configuration DDOS CGN
369 pages
DPRD's Role in Drafting Ranperda
No ratings yet
DPRD's Role in Drafting Ranperda
8 pages
SEO Audit Report For
No ratings yet
SEO Audit Report For
13 pages
CHAPTER 6
No ratings yet
CHAPTER 6
100 pages
ToSC2025 1 09
No ratings yet
ToSC2025 1 09
19 pages
Transport Layer Protocols Overview
100% (1)
Transport Layer Protocols Overview
11 pages
Evad 008
No ratings yet
Evad 008
20 pages
Beserra, Nussbaum, & Oteo (2019) On-Task and Off-Task Behavior - . - Mathematics Learning With Educational Video Games
No ratings yet
Beserra, Nussbaum, & Oteo (2019) On-Task and Off-Task Behavior - . - Mathematics Learning With Educational Video Games
23 pages
JPI FireCr Plus Medical Brochure
No ratings yet
JPI FireCr Plus Medical Brochure
2 pages
PicoBlaze Interrupts & Assembly
No ratings yet
PicoBlaze Interrupts & Assembly
25 pages
AD9371 and ADRV9009 Setup With ZCU102 or ZC706 April2019
No ratings yet
AD9371 and ADRV9009 Setup With ZCU102 or ZC706 April2019
31 pages
Feasib
No ratings yet
Feasib
2 pages
Chapter 1 - Julia Case Bradley Programming in Visual Basic 6.0
100% (1)
Chapter 1 - Julia Case Bradley Programming in Visual Basic 6.0
5 pages
TRANSYT Brochure July 2021
No ratings yet
TRANSYT Brochure July 2021
5 pages
Commands of PD
No ratings yet
Commands of PD
18 pages
Condition Assessment of Transformer by Park's Vector and Symmetrical Components To Detect Inter Turn Fault
No ratings yet
Condition Assessment of Transformer by Park's Vector and Symmetrical Components To Detect Inter Turn Fault
6 pages
CB 960 Offline Online RMA
No ratings yet
CB 960 Offline Online RMA
5 pages
p310-NPTEL-Power-System-Protection S.A Soman PDF
100% (2)
p310-NPTEL-Power-System-Protection S.A Soman PDF
324 pages
CUESTIONARIO#5
No ratings yet
CUESTIONARIO#5
59 pages
Cyber Solutions
No ratings yet
Cyber Solutions
12 pages
CSC Project
No ratings yet
CSC Project
14 pages
Technology and Domestic Violence
No ratings yet
Technology and Domestic Violence
21 pages
Twin Loop Treasure Seeker: Robert and David Crone
100% (1)
Twin Loop Treasure Seeker: Robert and David Crone
5 pages
Review Paper 01 - Siddesh Alavekar HFSC 823
No ratings yet
Review Paper 01 - Siddesh Alavekar HFSC 823
9 pages
Logical Inference
No ratings yet
Logical Inference
56 pages
Management Information Systems of PTCL Pakistan
60% (10)
Management Information Systems of PTCL Pakistan
17 pages