0% found this document useful (0 votes)

23 views20 pages

6.data Cleaning

The document discusses the importance of data cleaning in data handling and visualization, outlining the need to address missing, duplicate, and invalid data to ensure data quality. It details key steps in the data cleaning process, including techniques for handling missing values, duplicates, and standardizing formats. The document emphasizes that effective data cleaning enhances data reliability, improves model performance, and facilitates better decision-making.

Uploaded by

lakshmideepthi16

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

23 views20 pages

6.data Cleaning

Uploaded by

lakshmideepthi16

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 20

Course Title – Data Handling and Visualization

Topic Title – Data Cleaning: Need for cleaning the Data, treating of missing values,
treating duplicate values, treating the bad data

1
Data Handling and Visualization
Dr.Akella S Narasimha Raju
Assistant Professor,
Institute of Aeronautical Engineering,
Dundigal,
Hyderabad

27/05/2025 Computer System Architecture- Dr.A.S.Narasimha Raju 2

MODULE III: Data Cleaning and Pre-
Processing
Data Cleaning: Need for cleaning the Data, treating of missing
values, treating duplicate values, treating the bad data
1. What is Data Cleaning?
•Definition: Data cleaning is the process of detecting, correcting, or
removing corrupt, inaccurate, or incomplete data from a dataset to ensure its
quality.
•Objective:
•To improve the reliability of data analysis and decision-making.
•To prepare the data for further processing and modeling.
•Examples:
•Removing rows with missing customer details.
•Correcting invalid entries like negative ages in a dataset.
2. Why is Data Cleaning Needed?

• Challenges with Raw Data:

1.Incomplete Data:
1. Missing values in rows/columns.
2. Example: Missing addresses in a delivery database.
2.Inconsistent Data:
1. Conflicting formats or representations.
2. Example: Dates written as “01/01/2023” and “2023-01-01.”
2. Why is Data Cleaning Needed?
•Incorrect or Invalid Data:
•Values outside an acceptable range.
•Example: Age values like -10 or 200.
•Duplicate Data:
•Repeated records leading to redundancy.
•Example: Multiple rows for the same product in a sales dataset.
Importance of Data Cleaning:

1.Improves Data Quality:

1. Ensures consistency and accuracy of analysis.
2.Enhances Model Performance:
1. Garbage in, garbage out: Poor data leads to unreliable models.
3.Saves Time in Long-Term Analysis:
1. Clean data simplifies and speeds up analysis.
3. Key Steps in Data Cleaning
A. Handling Missing Values
1.What are Missing Values?
•Missing values occur when no data is provided for certain attributes in a
dataset.
•Represented as NaN (Not a Number) in Pandas.
2.Causes:
•Data entry errors (e.g., skipped fields).
•Faulty data collection systems.
•Merging datasets with non-overlapping information.
3.Techniques to Handle Missing Values:
•Removal:
•Remove rows or columns with excessive missing values.
•Example:
python
df.dropna(inplace=True) # Remove rows with missing values
3. Key Steps in Data Cleaning
•Imputation:
•Replace missing values with appropriate substitutes:
1.Mean/Median: Suitable for numerical data.
2.Mode: Suitable for categorical data.
3.Forward/Backward Fill: Propagate adjacent values.
•Example:
python
df['Age'].fillna(df['Age'].mean(), inplace=True)
3. Key Steps in Data Cleaning

Custom Values:
•Replace with default or placeholder values.
•Example:
python
df['City'].fillna('Unknown', inplace=True)
3. Key Steps in Data Cleaning

B. Handling Duplicate Values

1.What are Duplicate Values?
•Records or rows that repeat in the dataset, leading to redundancy.
2.Causes:
•Data collection or merging errors.
•Repetitive entries by users.
3.Techniques to Handle Duplicates:
•Identify Duplicates:
python
print(df.duplicated())
3. Key Steps in Data Cleaning

•Remove Duplicates:
•Drop duplicate rows using:
python
df.drop_duplicates(inplace=True)

•Retain Specific Records:

•Keep the first or last occurrence:
python
df.drop_duplicates(keep='last', inplace=True)
3. Key Steps in Data Cleaning
C. Treating Invalid Data
1.What is Invalid Data?
•Data that violates logical or domain-specific constraints.
•Example:
•Age: -5 (invalid for any real-world application).
•Salary: "abc" (string instead of numeric value).
2.Causes:
•Human errors during data entry.
•Faulty systems generating unrealistic values.
3.Techniques to Handle Invalid Data:
•Identify Invalid Data:
•Use logical conditions to flag errors.
python
invalid_ages = df[df['Age'] < 0] print(invalid_ages)
3. Key Steps in Data Cleaning
•Correct Data:
•Replace invalid values with meaningful defaults.
python
df['Age'] = df['Age'].apply(lambda x: 0 if x < 0 else x)

•Remove Data:
•Drop rows with invalid entries.
python
df = df[df['Age'] >= 0]
3. Key Steps in Data Cleaning
• D. Standardizing Formats
1.What is Format Standardization?
1. Ensures consistency in how data is stored and represented.
2.Common Scenarios:
1. Date Formats:
1."2023-01-01" vs. "01/01/2023".
2. Text Case:
1."New York" vs. "new york".
3. Numeric Precision:
1.3.14159 vs. 3.14.
3. Key Steps in Data Cleaning

1.Techniques:
•Standardize Dates:
python
df['Date'] = pd.to_datetime(df['Date'])
•Normalize Text Case:
python
df['City'] = df['City'].str.title()
•Round Numeric Values:
python
df['Price'] = df['Price'].round(2)
Detailed Example
• import pandas as pd • # 1. Handle Missing Values
• import numpy as np • df['Age'].fillna(df['Age'].mean(), inplace=True)
• df['City'].fillna("Unknown", inplace=True)

• # Sample DataFrame • # 2. Remove Duplicate Rows

• data = { • df.drop_duplicates(inplace=True)
• "Name": ["Alice", "Bob", "Charlie",
"Alice", None], • # 3. Treat Invalid Data
• "Age": [25, np.nan, 35, 25, -5], • df = df[df['Age'] >= 0] # Remove invalid ages
• "City": ["New York", "Los Angeles",
None, "New York", "Chicago"], • # 4. Standardize Formats
• df['Date'] = pd.to_datetime(df['Date'])
• "Date": ["2023-01-01", "2023/01/02",
• df['City'] = df['City'].str.title()
None, "2023-01-01", "2023-01-05"]
• } • print("\nCleaned DataFrame:\n", df)
• df = pd.DataFrame(data)

•
5. Real-Life Applications

• Healthcare:
• Handle missing patient data for accurate diagnosis.
• Remove duplicate patient records to prevent billing errors.
• E-Commerce:
• Clean transaction data by removing duplicates.
• Treat invalid values in product pricing to avoid incorrect revenue
calculations.
• Education:
• Fill missing exam scores with averages.
• Normalize text data for student names (e.g., capitalizing first letters).
6. Benefits of Data Cleaning

1.Enhanced Data Reliability:

1. Accurate insights from cleaned data.
2.Efficient Processing:
1. Clean data reduces processing time in downstream tasks.
3.Improved Decision-Making:
1. Better predictions and conclusions.
Conclusion

Data cleaning is an essential step in any data science workflow. By

addressing missing, duplicate, and invalid data, and ensuring consistent
formats, we create a reliable foundation for analysis and modeling. Let me
know if you need further clarifications or a presentation version!

The Doxing Bible: Religion of Web Forensics
No ratings yet
The Doxing Bible: Religion of Web Forensics
30 pages
How To Guide MFS With APC TCP v1.2
No ratings yet
How To Guide MFS With APC TCP v1.2
10 pages
Trellix Network Detection and Response Solution Brief
No ratings yet
Trellix Network Detection and Response Solution Brief
7 pages
Hotel Management
100% (3)
Hotel Management
90 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Data Cleaning
No ratings yet
Data Cleaning
20 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Document
No ratings yet
Document
29 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
Data Segmentation
No ratings yet
Data Segmentation
11 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
Data Cleaning
No ratings yet
Data Cleaning
42 pages
What Is The Concept of Data Cleaning
No ratings yet
What Is The Concept of Data Cleaning
20 pages
Data Cleaning - Importance and Techniques
No ratings yet
Data Cleaning - Importance and Techniques
1 page
Pandas Data Cleaning Presentation
No ratings yet
Pandas Data Cleaning Presentation
11 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
Data Cleanups
No ratings yet
Data Cleanups
16 pages
PDS Exp 7 To 9
No ratings yet
PDS Exp 7 To 9
10 pages
M-II FDS U-II Questions
No ratings yet
M-II FDS U-II Questions
43 pages
ch4 Slides PDF
No ratings yet
ch4 Slides PDF
44 pages
Data Cleaning in Python
No ratings yet
Data Cleaning in Python
14 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
Task 1
No ratings yet
Task 1
2 pages
Python (Unit - 2)
No ratings yet
Python (Unit - 2)
22 pages
Data Cleaning (Examples)
No ratings yet
Data Cleaning (Examples)
9 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
3 DSEngineering
No ratings yet
3 DSEngineering
64 pages
Day-4 Preprocessing
No ratings yet
Day-4 Preprocessing
11 pages
Datapreparation
No ratings yet
Datapreparation
59 pages
Importance of Data Cleaning 1
No ratings yet
Importance of Data Cleaning 1
47 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
The Ultimate Guide To Data Cleaning
No ratings yet
The Ultimate Guide To Data Cleaning
18 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
Data Cleaning 1728415892
No ratings yet
Data Cleaning 1728415892
10 pages
Data Preprocessing Part 1
No ratings yet
Data Preprocessing Part 1
14 pages
Ads Exp2 C35
No ratings yet
Ads Exp2 C35
9 pages
Data Cleaning Using R
No ratings yet
Data Cleaning Using R
5 pages
Cleaning Data in Python: Pu!ing It All Together
No ratings yet
Cleaning Data in Python: Pu!ing It All Together
14 pages
E-Book Data Cleaning Techniques in Python
100% (2)
E-Book Data Cleaning Techniques in Python
50 pages
Module II - Data Processing
No ratings yet
Module II - Data Processing
54 pages
7 Cleaning Data w3s.............................................
No ratings yet
7 Cleaning Data w3s.............................................
2 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
03 Data Preprocessing
No ratings yet
03 Data Preprocessing
15 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
Integrating Data From Different Sources
No ratings yet
Integrating Data From Different Sources
11 pages
Data Cleaning R
No ratings yet
Data Cleaning R
2 pages
DWM Module 2
No ratings yet
DWM Module 2
9 pages
Mastering Data Mining Techniques
From Everand
Mastering Data Mining Techniques
Dhaanyalakshmi Ahuja
No ratings yet
IT Specialist: Data Analytics Certification Prep - 500 Exam Questions and Explanations
From Everand
IT Specialist: Data Analytics Certification Prep - 500 Exam Questions and Explanations
Steve Brown
No ratings yet
Chapter 1 Basics of DBMS Intranet
No ratings yet
Chapter 1 Basics of DBMS Intranet
6 pages
Digital Marketing Opportunities & Challenges
No ratings yet
Digital Marketing Opportunities & Challenges
9 pages
Sabita 5+ Yrs Testing Resume
100% (2)
Sabita 5+ Yrs Testing Resume
5 pages
Failure Recovery in Distributed Systems
No ratings yet
Failure Recovery in Distributed Systems
24 pages
Dice Resume CV Shilpa Kasthala
No ratings yet
Dice Resume CV Shilpa Kasthala
5 pages
Lecture 07 - Key-Value Databases
No ratings yet
Lecture 07 - Key-Value Databases
75 pages
Python & Excel Automation Cheat Sheet
No ratings yet
Python & Excel Automation Cheat Sheet
5 pages
Bods Interview
100% (3)
Bods Interview
61 pages
Lesson 1 Overview of Big Data Analytics
No ratings yet
Lesson 1 Overview of Big Data Analytics
6 pages
Elisabet Yuvitasari - ERP Mind Map PDF
No ratings yet
Elisabet Yuvitasari - ERP Mind Map PDF
1 page
SYmantec Endpoint Detection and Response
No ratings yet
SYmantec Endpoint Detection and Response
4 pages
Records Management - Written Report
No ratings yet
Records Management - Written Report
5 pages
How To Interface DHT11 With NodeMcu ESP8266 and Sending It
No ratings yet
How To Interface DHT11 With NodeMcu ESP8266 and Sending It
17 pages
Grade 11 CAT Year Planner 2025
No ratings yet
Grade 11 CAT Year Planner 2025
9 pages
Hibernate
No ratings yet
Hibernate
111 pages
CounterACT Console User Manual 7.0.0 PDF
No ratings yet
CounterACT Console User Manual 7.0.0 PDF
763 pages
? Google Tag Manager & GA4 - Concept Workbook
No ratings yet
? Google Tag Manager & GA4 - Concept Workbook
5 pages
MayuriKothawade Resume
No ratings yet
MayuriKothawade Resume
5 pages
Statusstopstart Workflow Notification Mailer
No ratings yet
Statusstopstart Workflow Notification Mailer
3 pages
SEOUC - How To Solve The Wrong Problem
No ratings yet
SEOUC - How To Solve The Wrong Problem
42 pages
Full-Stack Developer RoadMap by Chidanand Tripathi
No ratings yet
Full-Stack Developer RoadMap by Chidanand Tripathi
5 pages
Ce Training Skillsoft0920
No ratings yet
Ce Training Skillsoft0920
31 pages
ITSM Scenarios Use Cases 1706233225
No ratings yet
ITSM Scenarios Use Cases 1706233225
12 pages
Corrective Action Plan (CAP) Template
100% (1)
Corrective Action Plan (CAP) Template
3 pages
XL145 162 en LR
No ratings yet
XL145 162 en LR
20 pages
MAD MP
No ratings yet
MAD MP
22 pages

6.data Cleaning

Uploaded by

6.data Cleaning

Uploaded by

Course Title – Data Handling and Visualization

27/05/2025 Computer System Architecture- Dr.A.S.Narasimha Raju 2

• Challenges with Raw Data:

1.Improves Data Quality:

B. Handling Duplicate Values

•Retain Specific Records:

• # Sample DataFrame • # 2. Remove Duplicate Rows

1.Enhanced Data Reliability:

Data cleaning is an essential step in any data science workflow. By

You might also like