0% found this document useful (0 votes)

4 views

Data Cleaning in Machine Learning With Numerical Example

Data cleaning is essential in machine learning to enhance model performance by addressing issues like missing values, duplicates, and inconsistencies. The document outlines a step-by-step data cleaning process using a numerical example, demonstrating how to handle missing values, remove duplicates, fix inconsistencies, and detect outliers using Python and pandas. Proper data cleaning leads to improved model accuracy and reduces bias in predictions.

Uploaded by

mytreyan197

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views

Data Cleaning in Machine Learning With Numerical Example

Uploaded by

mytreyan197

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

Data Cleaning in Machine Learning with Numerical Example

Data cleaning is a crucial step in machine learning that involves handling

missing values, removing duplicates, correcting errors, and ensuring data
consistency. Poor data quality can lead to poor model performance, so
cleaning data properly is essential.

Steps in Data Cleaning

1. Handling Missing Values
2. Removing Duplicates
3. Fixing Inconsistent Data
4. Handling Outliers
5. Converting Data Types
6. Feature Scaling (if necessary)

Numerical Example: Data Cleaning Process

Step 1: Raw Dataset (Before Cleaning)
Suppose we have a dataset with customer purchase information:

Customer_ Ag Salary Purchase (Yes=1,

ID e ($) No=0)

101 25 50000 1

Na
102 60000 0
N

103 40 NaN 1

104 35 70000 1

105 50 80000 0

106 25 50000 1

107 -5 45000 1

108 29 90000 0

🛑 Issues in the dataset:

 Missing Values (Age for Customer 102, Salary for Customer 103)
 Duplicate Record (Customer 106 is the same as Customer 101)
 Inconsistent Data (Customer 107 has an invalid Age = -5)
 Outlier Detection (Salary differences)
Step 2: Data Cleaning in Python
Let's clean this dataset step by step using Python and pandas.
import pandas as pd
import numpy as np

# Creating the dataset

data = {
"Customer_ID": [101, 102, 103, 104, 105, 106, 107, 108],
"Age": [25, np.nan, 40, 35, 50, 25, -5, 29],
"Salary": [50000, 60000, np.nan, 70000, 80000, 50000, 45000, 90000],
"Purchase": [1, 0, 1, 1, 0, 1, 1, 0]
}

df = pd.DataFrame(data)
print("Original Dataset:\n", df)

# 1. Handling Missing Values

df['Age'].fillna(df['Age'].mean(), inplace=True) # Fill missing Age with mean
df['Salary'].fillna(df['Salary'].median(), inplace=True) # Fill missing Salary with
median
++++++++++++++++++++++++++++++++++++++++++++++++
++

# 2. Removing Duplicates

df.drop_duplicates(inplace=True)

# 3. Fixing Inconsistent Data

df['Age'] = df['Age'].apply(lambda x: abs(x)) # Convert negative Age to positive

# 4. Checking Outliers (Optional)

Q1 = df['Salary'].quantile(0.25)
Q3 = df['Salary'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
df = df[(df['Salary'] >= lower_bound) & (df['Salary'] <= upper_bound)] #
Removing outliers

# 5. Convert Data Types if Needed

df['Age'] = df['Age'].astype(int)

# Final Cleaned Dataset

print("\nCleaned Dataset:\n", df)

Step 3: Cleaned Dataset (After Cleaning)

Customer_ Ag Salary Purchase (Yes=1,
ID e ($) No=0)
101 25 50000 1
102 35 60000 0
Customer_ Ag Salary Purchase (Yes=1,
ID e ($) No=0)

103 40 60000 1
104 35 70000 1
105 50 80000 0
108 29 90000 0
Improvements:
✅ Missing values handled using mean (Age) and median (Salary).
✅ Duplicate record removed (Customer 106 was a duplicate of 101).
✅ Negative value corrected (Customer 107’s Age changed from -5 to 5).
✅ Outliers removed in Salary column using IQR method.

Why Data Cleaning Matters?

✔️Improves model accuracy
✔️Removes bias from dirty data
✔️Prevents errors in prediction

Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Ass 3 - Best (2)
No ratings yet
Ass 3 - Best (2)
10 pages
6.Data Cleaning
No ratings yet
6.Data Cleaning
20 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
DAP writeups_merged
No ratings yet
DAP writeups_merged
33 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
1-Introduction to data cleaning
No ratings yet
1-Introduction to data cleaning
22 pages
DataCleaninginML
No ratings yet
DataCleaninginML
15 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
B Tech-AIML-question bank-2 Answer Key
No ratings yet
B Tech-AIML-question bank-2 Answer Key
9 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
PDS_Exp_7_to_9
No ratings yet
PDS_Exp_7_to_9
10 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Document (2)
No ratings yet
Document (2)
29 pages
Data cleaning Using R
No ratings yet
Data cleaning Using R
5 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Data Exploration Preparation
No ratings yet
Data Exploration Preparation
12 pages
7 Cleaning data w3s.............................................
No ratings yet
7 Cleaning data w3s.............................................
2 pages
task 1
No ratings yet
task 1
2 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
haha1
No ratings yet
haha1
2 pages
III-Unit
No ratings yet
III-Unit
4 pages
Pandas-1
No ratings yet
Pandas-1
13 pages
Data Cleaning With Python Cheat Sheet Anello
No ratings yet
Data Cleaning With Python Cheat Sheet Anello
4 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
IIT FDS Assignment 1 Likhita
No ratings yet
IIT FDS Assignment 1 Likhita
7 pages
DS_UNIT_2
No ratings yet
DS_UNIT_2
23 pages
UNIT-2 PREPROCESSING
No ratings yet
UNIT-2 PREPROCESSING
18 pages
Data Cleaning and Preprocessing Techniques
No ratings yet
Data Cleaning and Preprocessing Techniques
13 pages
DWM Module 2
No ratings yet
DWM Module 2
9 pages
Week 6 - Data Cleaning
No ratings yet
Week 6 - Data Cleaning
8 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Data Cleaning (Examples)
No ratings yet
Data Cleaning (Examples)
9 pages
DEC_Unit II Data Pre-processing
No ratings yet
DEC_Unit II Data Pre-processing
96 pages
ML Lab 3
No ratings yet
ML Lab 3
8 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
DP
No ratings yet
DP
9 pages
Blended Data Cleaning
No ratings yet
Blended Data Cleaning
9 pages
Outliners
No ratings yet
Outliners
15 pages
? Data Cleaning 101❗_
No ratings yet
? Data Cleaning 101❗_
17 pages
Data Clearning
No ratings yet
Data Clearning
7 pages
Ds Exp1 Manju
No ratings yet
Ds Exp1 Manju
5 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
L 4 and 5-Data Cleaning DS-Sa
No ratings yet
L 4 and 5-Data Cleaning DS-Sa
44 pages
dw lab file
No ratings yet
dw lab file
18 pages
EDA - Zep
No ratings yet
EDA - Zep
33 pages
Arnav MLlab01
No ratings yet
Arnav MLlab01
7 pages
Be A 65 Ads Exp 3
No ratings yet
Be A 65 Ads Exp 3
6 pages
ADS 2
No ratings yet
ADS 2
9 pages
chapter3 DS
No ratings yet
chapter3 DS
17 pages
Data Preprocessing - 1: Course Leader
No ratings yet
Data Preprocessing - 1: Course Leader
22 pages
DataCleaning
No ratings yet
DataCleaning
28 pages
100 Puzzles to Learn Data Warehousing
From Everand
100 Puzzles to Learn Data Warehousing
Cristian Scutaru
No ratings yet
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Programmable Peripheral Interface - 8255
No ratings yet
Programmable Peripheral Interface - 8255
30 pages
CAD Drafting Standards - October 2020
No ratings yet
CAD Drafting Standards - October 2020
29 pages
CS 229 Autumn 2016 Problem Set #3 Solutions: Theory & Unsuper-Vised Learning
No ratings yet
CS 229 Autumn 2016 Problem Set #3 Solutions: Theory & Unsuper-Vised Learning
16 pages
Ktor and GraphQL - Getting Started
No ratings yet
Ktor and GraphQL - Getting Started
1 page
(Solved) Converting 8 Bit, 24 Bit Bitmap To 32 Bit in MFC - CodeProject
No ratings yet
(Solved) Converting 8 Bit, 24 Bit Bitmap To 32 Bit in MFC - CodeProject
8 pages
Datasheet Legend 710 Pcie Gen3 x4 m2 2280 SSD 20230215
No ratings yet
Datasheet Legend 710 Pcie Gen3 x4 m2 2280 SSD 20230215
2 pages
High Accuracy Electronics Christopher I Daykin
No ratings yet
High Accuracy Electronics Christopher I Daykin
457 pages
Catalogo S Dero Damien To SN SK
No ratings yet
Catalogo S Dero Damien To SN SK
16 pages
DOL Starter
No ratings yet
DOL Starter
4 pages
SBST1303 Pengenalan Statistik
No ratings yet
SBST1303 Pengenalan Statistik
4 pages
Sa 10
No ratings yet
Sa 10
2 pages
Paper 2 - May 2018 Mark Scheme
No ratings yet
Paper 2 - May 2018 Mark Scheme
14 pages
Wika Type 111.11
No ratings yet
Wika Type 111.11
2 pages
Tablas Propiedades Físicas de Los Fluidos (Potter)
No ratings yet
Tablas Propiedades Físicas de Los Fluidos (Potter)
9 pages
Cation Excluder
No ratings yet
Cation Excluder
3 pages
02 - Introduction To NC - CNC and DNC
100% (1)
02 - Introduction To NC - CNC and DNC
19 pages
Bangalore International Public School
No ratings yet
Bangalore International Public School
5 pages
Precise in Situ Characterization and Cross Validation 2020 Artificial Intell
No ratings yet
Precise in Situ Characterization and Cross Validation 2020 Artificial Intell
7 pages
Large-Time Asymptotics For Solutions of A Generalized Burgers Equation With Variable Viscosity
No ratings yet
Large-Time Asymptotics For Solutions of A Generalized Burgers Equation With Variable Viscosity
23 pages
CS6503-Theory of Computation
No ratings yet
CS6503-Theory of Computation
9 pages
Grade 8 Ch5 Workbook PDF
No ratings yet
Grade 8 Ch5 Workbook PDF
57 pages
X Y Korelasi Regresi: 0.58 35 Regression Statistics
No ratings yet
X Y Korelasi Regresi: 0.58 35 Regression Statistics
3 pages
PPA Important Questions Unit 1 to 6
No ratings yet
PPA Important Questions Unit 1 to 6
5 pages
Hoses & Fittings - BMG
0% (1)
Hoses & Fittings - BMG
112 pages
For Fcfs
No ratings yet
For Fcfs
2 pages
System Practices
No ratings yet
System Practices
27 pages
PN Junction I-V Characteristics
No ratings yet
PN Junction I-V Characteristics
28 pages
Chemical Bonding and Molecular Structure
No ratings yet
Chemical Bonding and Molecular Structure
274 pages
Differential Form of Gauss' Law (Calc 3 Connection)
No ratings yet
Differential Form of Gauss' Law (Calc 3 Connection)
4 pages
Research Is An Art of Scientific Investigation. It Is Regarded As A Systematic Efforts To
No ratings yet
Research Is An Art of Scientific Investigation. It Is Regarded As A Systematic Efforts To
5 pages

Data Cleaning in Machine Learning With Numerical Example

Uploaded by

Data Cleaning in Machine Learning With Numerical Example

Uploaded by

Data Cleaning in Machine Learning with Numerical Example

Data cleaning is a crucial step in machine learning that involves handling

Steps in Data Cleaning

Numerical Example: Data Cleaning Process

Customer_ Ag Salary Purchase (Yes=1,

🛑 Issues in the dataset:

# Creating the dataset

# **1. Handling Missing Values**

# **2. Removing Duplicates**

# **3. Fixing Inconsistent Data**

# **4. Checking Outliers (Optional)**

# **5. Convert Data Types if Needed**

# Final Cleaned Dataset

Step 3: Cleaned Dataset (After Cleaning)

Why Data Cleaning Matters?

You might also like

# 1. Handling Missing Values

# 2. Removing Duplicates

# 3. Fixing Inconsistent Data

# 4. Checking Outliers (Optional)

# 5. Convert Data Types if Needed