Machine Learning Lab - Preprocessing

Uploaded by

gurudevpasupuleti09

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views

Machine Learning Lab - Preprocessing

Uploaded by

gurudevpasupuleti09

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 13

21AI604/ 21CS644

Machine learning lab2

WORKING WITH DATA AND FILES
S.PADMAVATHI, CSE
DATA PREPROCESSING
import numpy as np
from sklearn import preprocessing
# Create feature
feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])
# Create scaler
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))
# Scale feature
scaled_feature = minmax_scale.fit_transform(feature)
# Show feature
scaled_feature

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Preprocessing scaling
import numpy as np # Print mean and standard deviation
from sklearn import preprocessing
print("Mean:", round(standardized.mean()))
# Create feature
print("Standard deviation:",
x = np.array([[-1000.1], [- standardized.std())
200.2],[500.5],[600.6],[9000.9]])
# Create scaler
scaler = preprocessing.StandardScaler()
# Transform the feature
standardized = scaler.fit_transform(x)
# Show feature
standardized

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Preprocessing -Normalize
import numpy as np # Create scaler
from sklearn.preprocessing import Normalizer robust_scaler = preprocessing.RobustScaler()
# Create feature matrix # Transform feature
features = np.array([[0.5, 0.5], robust_scaler.fit_transform(x)
[1.1, 3.4],
[1.5, 20.2],
[1.63, 34.4],
[10.9, 3.3]])
# Create normalizer
normalizer = Normalizer(norm="l2")
# Transform feature matrix
normalizer.transform(features)

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Saving data in a file
my_df = pd.DataFrame( for filename in ("my_df.csv", "my_df.html",
"my_df.json"):
[["Biking", 68.5, 1985, np.nan], ["Dancing",
83.1, 1984, 3]], print("#", filename)
with open(filename, "rt") as f:
columns=["hobby","weight","birthyear","childre
n"], print(f.read())
index=["alice", "bob"] print()
)
my_df
my_df.to_csv("my_df.csv")
my_df.to_html("my_df.html")
my_df.to_json("my_df.json")

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Detecting Outliers
#draw ellipse, any observation outside the ellipse # Replace the first observation's values with
as an outlier (labeled as -1) extreme values
# Load libraries features[0,0] = 10000
import numpy as np features[0,1] = 10000
from sklearn.covariance import EllipticEnvelope # Create detector
from sklearn.datasets import make_blobs outlier_detector =
EllipticEnvelope(contamination=.1)
# Create simulated data
# Fit detector
features, _ = make_blobs(n_samples = 10,
outlier_detector.fit(features)
n_features = 2,
# Predict outliers
centers = 1,
outlier_detector.predict(features)
random_state = 1)

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

identify extreme values in features using
interquartile range (IQR)
#IQR is the difference between the first and third # Run function
quartile of a set of data
indicies_of_outliers(feature)
# Create one feature
feature = features[:,0]
# Create a function to return index of outliers
def indicies_of_outliers(x):
q1, q3 = np.percentile(x, [25, 75])
iqr = q3 - q1
lower_bound = q1 - (iqr * 1.5)
upper_bound = q3 + (iqr * 1.5)
return np.where((x > upper_bound) | (x <
lower_bound))

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Deleting Observations with Missing
Values
## Load library
import numpy as np
# Create feature matrix
features = np.array([[1.1, 11.1],
[2.2, 22.2],
[3.3, 33.3],
[4.4, 44.4],
[np.nan, 55]])
# Keep only observations that are not (denoted by ~) missing
features[~np.isnan(features).any(axis=1)]

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

drop missing observations using pandas
# Load library
import pandas as pd
# Load data
dataframe = pd.DataFrame(features, columns=["feature_1", "feature_2"])
# Remove observations with missing values
dataframe.dropna()

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

#drop the outliers:
# Load library
import pandas as pd
# Create DataFrame
houses = pd.DataFrame()
houses['Price'] = [534433, 392333, 293222, 4322032]
houses['Bathrooms'] = [2, 3.5, 2, 116]
houses['Square_Feet'] = [1500, 2500, 1500, 48000]
# Filter observations
houses[houses['Bathrooms'] < 20]

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

#mark fearure as outliers and include it as a #transform the feature to dampen the effect
feature: of the outlier:
# Load library # Log feature
import numpy as np houses["Log_Of_Square_Feet"] = [np.log(x) for
x in houses["Square_Feet"]]
# Create feature based on boolean condition
# Show data
houses["Outlier"] =
np.where(houses["Bathrooms"] < 20, 0, 1) houses
# Show data
houses

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

CONVERT numerical feature into discrete
bins
# # binarize the feature according to some # Create binarizer
threshold:
binarizer = Binarizer(18)
# Load libraries
# Transform feature
import numpy as np
binarizer.fit_transform(age)
from sklearn.preprocessing import Binarizer
# Create feature
#ANOTHER METHOD
age = np.array([[6],
np.digitize(age, bins=[18])
[12],
[20],
[36],
[65]])

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

break up numerical features according to
multiple thresholds
# Bin feature
#bins parameter denote the left edge of each bin
np.digitize(age, bins=[20,30,64])
#bins parameter denote the RIGHT edge of each bin
np.digitize(age, bins=[20,30,64], right=True)

21AI604 / 21CS644 _ML_ DR.S.PADMAVATHI

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
(Feature Engineering) (Extended-Cheatsheet)
No ratings yet
(Feature Engineering) (Extended-Cheatsheet)
9 pages
RAMS Comparacion Normas
100% (1)
RAMS Comparacion Normas
7 pages
Machine Learning Algorithms PDF
100% (1)
Machine Learning Algorithms PDF
148 pages
Assignment No 8
No ratings yet
Assignment No 8
17 pages
EXP-2
No ratings yet
EXP-2
6 pages
EXP-2 ML
No ratings yet
EXP-2 ML
6 pages
MDS372_LAB4_2448001
No ratings yet
MDS372_LAB4_2448001
17 pages
Practicals
No ratings yet
Practicals
42 pages
Data Assigment 1
100% (2)
Data Assigment 1
32 pages
Machine Learning Lab Manual (1)
No ratings yet
Machine Learning Lab Manual (1)
42 pages
DP
No ratings yet
DP
9 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Numpy Cheatsheet
No ratings yet
Numpy Cheatsheet
11 pages
DMC Lab Ex - 1 To 15 (31.03.2024)
No ratings yet
DMC Lab Ex - 1 To 15 (31.03.2024)
52 pages
Unit1 ML Programs
No ratings yet
Unit1 ML Programs
5 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
ML Lab Records
No ratings yet
ML Lab Records
101 pages
Advance Python
No ratings yet
Advance Python
5 pages
ML SELF UNIT 2
No ratings yet
ML SELF UNIT 2
20 pages
Data Analytics Lab Manual_250402_095326
No ratings yet
Data Analytics Lab Manual_250402_095326
58 pages
Unit 6aics
No ratings yet
Unit 6aics
25 pages
1737527078055
No ratings yet
1737527078055
111 pages
Project Intern - Jupyter Notebook
No ratings yet
Project Intern - Jupyter Notebook
16 pages
Avinash DA 6
No ratings yet
Avinash DA 6
3 pages
Practical File IP
No ratings yet
Practical File IP
27 pages
MLLabManual
No ratings yet
MLLabManual
24 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Class 12 Practical File Informatics Practices
No ratings yet
Class 12 Practical File Informatics Practices
28 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
saurabh
No ratings yet
saurabh
22 pages
EDA_CODE_SNIPPETS
No ratings yet
EDA_CODE_SNIPPETS
17 pages
Machine Learning Laboratory
No ratings yet
Machine Learning Laboratory
23 pages
Analysis and Prediction of House Prices by Linear Regression Model
No ratings yet
Analysis and Prediction of House Prices by Linear Regression Model
91 pages
ASSi2 DSBDA
No ratings yet
ASSi2 DSBDA
4 pages
Preprocessing
No ratings yet
Preprocessing
9 pages
Northbay Summarizes Data Pre-Processing Algorithms
No ratings yet
Northbay Summarizes Data Pre-Processing Algorithms
10 pages
Exp 01-B Feature Selection and Extraction
No ratings yet
Exp 01-B Feature Selection and Extraction
12 pages
DA_Programs
No ratings yet
DA_Programs
44 pages
Unit 3-2
No ratings yet
Unit 3-2
15 pages
L_AND_T_project_Naveen 24cs002895
No ratings yet
L_AND_T_project_Naveen 24cs002895
7 pages
External
No ratings yet
External
11 pages
The Data Science Process
100% (1)
The Data Science Process
53 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
Machine Learning - Lec4 - 5
No ratings yet
Machine Learning - Lec4 - 5
41 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
ml lab exam document
No ratings yet
ml lab exam document
14 pages
1_Data Preprocessing and Cleaning_55
No ratings yet
1_Data Preprocessing and Cleaning_55
8 pages
Abhiml ML File
No ratings yet
Abhiml ML File
74 pages
Lab File
No ratings yet
Lab File
96 pages
FDS RECORD-1-4
No ratings yet
FDS RECORD-1-4
18 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
data science practicals
No ratings yet
data science practicals
47 pages
Dejene Chala Stat606 Screening Quiz Programming Part
No ratings yet
Dejene Chala Stat606 Screening Quiz Programming Part
12 pages
ML_EX2
No ratings yet
ML_EX2
7 pages
Practical 5
No ratings yet
Practical 5
6 pages
Linear Regression Analysis - Polynomial Regression
No ratings yet
Linear Regression Analysis - Polynomial Regression
25 pages
Unit 4 Basics of Feature Engineering
100% (1)
Unit 4 Basics of Feature Engineering
33 pages
ML Book Notes
No ratings yet
ML Book Notes
9 pages
ML JOURNAL
No ratings yet
ML JOURNAL
53 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
NEW SOP 4.10 Working Under Adverse Weather Condition R6 Final
No ratings yet
NEW SOP 4.10 Working Under Adverse Weather Condition R6 Final
6 pages
Schemes of Msme-Di, Gangtok
No ratings yet
Schemes of Msme-Di, Gangtok
6 pages
Catalog Wellland Surgical Positioning
No ratings yet
Catalog Wellland Surgical Positioning
1 page
Sikament r-4 QV Cdstar
No ratings yet
Sikament r-4 QV Cdstar
3 pages
Chapter 3-Plotting With PyPlot
No ratings yet
Chapter 3-Plotting With PyPlot
76 pages
06 Galman v. Sandiganbayan (De Mesa, A.)
No ratings yet
06 Galman v. Sandiganbayan (De Mesa, A.)
3 pages
Enron Accounting Scandal
No ratings yet
Enron Accounting Scandal
10 pages
Molding The Impossible: The NYPRO/Vistakon Disposable Contact Lens Project
No ratings yet
Molding The Impossible: The NYPRO/Vistakon Disposable Contact Lens Project
6 pages
Student Finance Account - Letter
No ratings yet
Student Finance Account - Letter
2 pages
Artigo v2 - Five-Level T-Type NPC PFC Rectifier Based On Multistate Switching Cell
No ratings yet
Artigo v2 - Five-Level T-Type NPC PFC Rectifier Based On Multistate Switching Cell
6 pages
Advanced Aspects of Capital Budgeting
No ratings yet
Advanced Aspects of Capital Budgeting
16 pages
Solving N Queens Problem Using Backtracking
No ratings yet
Solving N Queens Problem Using Backtracking
5 pages
Meiko-Balgos Resumé
No ratings yet
Meiko-Balgos Resumé
2 pages
WP 2021 07286
No ratings yet
WP 2021 07286
1 page
Pencil Resistors - Science Project
No ratings yet
Pencil Resistors - Science Project
1 page
Kumpulan Contoh Soal SBMPTN Bahasa Inggris Dan Pembahasannya 2016
No ratings yet
Kumpulan Contoh Soal SBMPTN Bahasa Inggris Dan Pembahasannya 2016
9 pages
Improve Student Achievement: There Is Only One Way To
No ratings yet
Improve Student Achievement: There Is Only One Way To
2 pages
Legislative Process Flowchart
No ratings yet
Legislative Process Flowchart
1 page
HTML - Padding Inside Table Cell Despite TD (Padding - 0) - Stack Overflow
No ratings yet
HTML - Padding Inside Table Cell Despite TD (Padding - 0) - Stack Overflow
5 pages
Theories of Contract and The Concept of Autonomy: Thomas Gutmann
No ratings yet
Theories of Contract and The Concept of Autonomy: Thomas Gutmann
22 pages
Tina Teresa Rozario: 105, East Tejturibazar, Tejgaon, Dhaka-1215 Mobile: +88-0195-5590666
No ratings yet
Tina Teresa Rozario: 105, East Tejturibazar, Tejgaon, Dhaka-1215 Mobile: +88-0195-5590666
4 pages
Delta Es24 300 Uqa01
No ratings yet
Delta Es24 300 Uqa01
2 pages
ISO 9001:2015, ISO 14001:2015 & ISO 45001:2018: JSW Steel Limited
No ratings yet
ISO 9001:2015, ISO 14001:2015 & ISO 45001:2018: JSW Steel Limited
2 pages
Questions
No ratings yet
Questions
35 pages
Marketing Communication UAE
No ratings yet
Marketing Communication UAE
49 pages
MBA- HRM DATA SHEET
No ratings yet
MBA- HRM DATA SHEET
1 page
Econ Assignment 3
No ratings yet
Econ Assignment 3
3 pages
Anti-Aircraft Journal - Aug 1952
No ratings yet
Anti-Aircraft Journal - Aug 1952
52 pages
Clamps For Clamp Hub Connections Rev.11012022
No ratings yet
Clamps For Clamp Hub Connections Rev.11012022
19 pages