0% found this document useful (0 votes)

11 views4 pages

Data Cleansing

DADM Unit1 Level 2

Uploaded by

tasya lopa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views4 pages

Data Cleansing

DADM Unit1 Level 2

Uploaded by

tasya lopa

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

Data Cleansing, also known as data cleaning or data scrubbing, is a

critical step in the data preparation process. It involves identifying and

rectifying errors, inconsistencies, missing values, and outliers in a dataset
to ensure that the data is accurate, reliable, and suitable for analysis or
modeling. Here's a detailed explanation of the data cleansing process:

1. Data Collection and Inspection:

The data cleansing process typically begins after data has been collected
from various sources, such as surveys, databases, sensors, or web
scraping. Before any cleaning takes place, the data is thoroughly
inspected. This inspection involves:

 Identifying missing values: Checking for cells or fields that are

empty or contain "null" or "NaN" values.
 Spotting errors and inconsistencies: Identifying data entries that do
not conform to the expected format or rules. These could be
typographical errors, conflicting information, or outliers.
 Handling duplicates: Identifying and removing duplicate records or
entries that may skew the analysis.
 Assessing data quality: Evaluating the overall quality of the dataset
and its adherence to data standards and guidelines.

2. Handling Missing Values:

Missing data can significantly impact the quality of an analysis. Data

cleansing involves addressing missing values through various methods:

 Imputation: Replacing missing values with estimated or interpolated

values based on statistical techniques or domain knowledge.
 Removal: If missing values are too numerous or cannot be
accurately imputed, removing rows or columns with missing data
may be necessary.

3. Correcting Errors and Inconsistencies:

Errors and inconsistencies can arise from various sources, such as human
input errors, measurement inaccuracies, or system glitches. Data
cleansing involves:

 Standardizing data: Ensuring that data follows a consistent format,

such as date formats, units of measurement, and naming
conventions.
 Correcting errors: Rectifying typographical errors, invalid entries, or
inaccurate data points using validation rules or cross-referencing
with authoritative sources.
 Dealing with outliers: Identifying and handling outliers that are
genuine data points (e.g., anomalies) differently from errors (e.g.,
typos).

4. Removing Duplicates:

Duplicate records can distort analysis results and lead to incorrect

conclusions. Data cleansing typically involves identifying and removing
duplicates based on specific criteria, such as matching certain fields or
attributes.

5. Data Transformation:

In some cases, data cleansing may also include data transformation,

where data is converted from one format or representation to another. For
example, converting categorical variables into numerical values or
normalizing data to a common scale.

6. Documentation and Auditing:

Throughout the data cleansing process, it's essential to maintain

documentation of all changes made to the dataset. This documentation
helps in understanding the data's lineage and in replicating the cleaning
process in the future. Additionally, the cleaned dataset should be audited
to ensure that it meets the desired quality standards.

7. Quality Assurance:

After cleansing the data, quality assurance checks are performed to verify
that the dataset now adheres to the defined data quality criteria. This
ensures that the data is ready for analysis, modeling, or other data-driven
tasks.

In summary, data cleansing is a crucial step in data preparation that

focuses on identifying and rectifying errors, inconsistencies, missing
values, and outliers in a dataset. It helps ensure data accuracy, reliability,
and consistency, enabling meaningful and trustworthy analysis or
modeling. Properly cleansed data forms the foundation for reliable and
valuable insights in various domains, including business analytics,
research, and decision-making.

Data cleansing is a crucial data preparation process that focuses on

ensuring the accuracy and reliability of data used for analysis. Here's a
detailed explanation of how data cleansing achieves this objective:

1. Identification of Errors and Inconsistencies:

Data cleansing begins with the identification of errors,
inconsistencies, missing values, and outliers in the dataset. These
issues can arise from various sources, including human input errors,
data entry mistakes, system glitches, or incomplete data collection.
2. Handling Missing Data:
Missing data can significantly affect the reliability of analysis results.
Data cleansing addresses this by handling missing values using
techniques such as imputation or removal. Imputation involves
replacing missing values with estimated or interpolated values
based on statistical methods or domain knowledge. Removing
records or attributes with excessive missing data may also be
necessary.
3. Correction of Errors:
Errors in the data can take various forms, including typographical
errors, incorrect data types, or values that do not conform to
expected formats. Data cleansing corrects these errors by:
 Standardizing data: Ensuring that data follows a consistent
format and adheres to predefined rules or standards. For
example, dates may be reformatted to a uniform format, and
units of measurement may be standardized.
 Error correction: Identifying and rectifying typographical
errors, invalid entries, or inaccurate data points. This can
involve validating data against predefined rules or cross-
referencing with authoritative sources to verify accuracy.
 Handling outliers: Distinguishing between genuine data points
(e.g., anomalies) and errors (e.g., typos) and treating them
differently. Outliers may be addressed through techniques like
winsorization or transformation.
4. Duplicate Data Removal:
Duplicate records can distort analysis results and lead to incorrect
conclusions. Data cleansing identifies and removes duplicates based
on specific criteria, such as matching fields or attributes. Removing
duplicates ensures that each data point is unique and contributes
only once to the analysis.
5. Data Transformation:
Data cleansing may also include data transformation, where data is
converted from one format or representation to another. For
example, categorical variables may be converted into numerical
values, or data may be normalized to a common scale to facilitate
comparisons.
6. Documentation and Auditing:
Throughout the data cleansing process, detailed documentation is
maintained to track all changes made to the dataset. This
documentation serves as a record of the cleaning process and helps
in understanding the data's lineage. Additionally, the cleaned
dataset undergoes auditing to ensure that it meets the defined data
quality criteria.
7. Quality Assurance:
After data cleansing, quality assurance checks are performed to
verify that the dataset now adheres to the desired data quality
standards. This step ensures that the data is ready for analysis,
modeling, or other data-driven tasks.

In summary, data cleansing is a critical step in data preparation that plays

a fundamental role in ensuring the accuracy and reliability of data used
for analysis. Errors, inconsistencies, and missing data can lead to incorrect
conclusions and decisions, making data cleansing essential for trustworthy
insights and decision-making. By addressing these issues, data cleansing
helps create a reliable foundation for meaningful analysis across various
domains, including business, research, and scientific investigations.

Data Cleaning
No ratings yet
Data Cleaning
8 pages
6.data Cleaning
No ratings yet
6.data Cleaning
20 pages
Importance of Data Cleaning 1
No ratings yet
Importance of Data Cleaning 1
47 pages
Data Cleaning 1728415892
No ratings yet
Data Cleaning 1728415892
10 pages
Data Cleaning and Data Transformation
No ratings yet
Data Cleaning and Data Transformation
13 pages
Cleansing Strategy
No ratings yet
Cleansing Strategy
1 page
DM Week 3 Des
No ratings yet
DM Week 3 Des
2 pages
Data Cleaning
No ratings yet
Data Cleaning
4 pages
BA-Unit 2
No ratings yet
BA-Unit 2
31 pages
8 Steps For Data Cleaning
No ratings yet
8 Steps For Data Cleaning
10 pages
Data Cleaning
No ratings yet
Data Cleaning
28 pages
Data Cleaning and Preprocessing
No ratings yet
Data Cleaning and Preprocessing
4 pages
Data Cleaning
No ratings yet
Data Cleaning
6 pages
1 Data Cleaning A Foundation For Data Analysis
No ratings yet
1 Data Cleaning A Foundation For Data Analysis
9 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Data Cleaning Guide
No ratings yet
Data Cleaning Guide
4 pages
20PMHS012 RH
No ratings yet
20PMHS012 RH
32 pages
Data Cleaning
No ratings yet
Data Cleaning
1 page
1-Introduction To Data Cleaning
No ratings yet
1-Introduction To Data Cleaning
22 pages
The Ultimate Guide To Data Cleaning With SQL 1738769035
No ratings yet
The Ultimate Guide To Data Cleaning With SQL 1738769035
36 pages
L 4 and 5-Data Cleaning DS-Sa
No ratings yet
L 4 and 5-Data Cleaning DS-Sa
44 pages
Group 1 CIN-Act QN (A)
No ratings yet
Group 1 CIN-Act QN (A)
3 pages
Data Analyst Question-Answers
No ratings yet
Data Analyst Question-Answers
17 pages
Data Cleansing Steps
No ratings yet
Data Cleansing Steps
8 pages
What Is Data Cleaning
No ratings yet
What Is Data Cleaning
8 pages
Data Cleaningin ML
No ratings yet
Data Cleaningin ML
15 pages
FDSMSE Imp
No ratings yet
FDSMSE Imp
6 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
No ratings yet
Introduction To Data Science: Data Science Methodology & Data Preparation DR Shuhaida Mohamed Shuhidan Jan 2025
34 pages
12 - Data Cleaning
No ratings yet
12 - Data Cleaning
8 pages
Powerbi Material
100% (1)
Powerbi Material
30 pages
Data Mining
No ratings yet
Data Mining
22 pages
? Data Cleaning 101
No ratings yet
? Data Cleaning 101
17 pages
Data Segmentation
No ratings yet
Data Segmentation
11 pages
SMA Expt 3
No ratings yet
SMA Expt 3
9 pages
BI Unit 4 Final
No ratings yet
BI Unit 4 Final
2 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Lec 9
No ratings yet
Lec 9
1 page
Data Cleaning - Importance and Techniques
No ratings yet
Data Cleaning - Importance and Techniques
1 page
Cleaning and Preparing Data
No ratings yet
Cleaning and Preparing Data
12 pages
Data Cleaning and Preparation
No ratings yet
Data Cleaning and Preparation
20 pages
Data Cleaning Using Pandas
No ratings yet
Data Cleaning Using Pandas
9 pages
DWM Module 2
No ratings yet
DWM Module 2
9 pages
Data Analysis and Information Management
No ratings yet
Data Analysis and Information Management
13 pages
Updated Notes of APR - 084732
No ratings yet
Updated Notes of APR - 084732
6 pages
C-42 Exp 3 Sma
No ratings yet
C-42 Exp 3 Sma
8 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Document
No ratings yet
Document
29 pages
Data Cleaning: Definition
No ratings yet
Data Cleaning: Definition
2 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
Data As Clean of Excel
No ratings yet
Data As Clean of Excel
66 pages
Data Mining Group Assignment4
No ratings yet
Data Mining Group Assignment4
10 pages
Lesson 7 Data Description and Diagnostics
No ratings yet
Lesson 7 Data Description and Diagnostics
14 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
m4t5 - PDF - Eng Data Cleaning & Etl
No ratings yet
m4t5 - PDF - Eng Data Cleaning & Etl
6 pages
BDS Final Report For Print - June 19 PDF
No ratings yet
BDS Final Report For Print - June 19 PDF
154 pages
Data Cleaning and Formatting in Power BI (Slides)
No ratings yet
Data Cleaning and Formatting in Power BI (Slides)
12 pages
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
No ratings yet
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
12 pages
Data Manipulation Using R
No ratings yet
Data Manipulation Using R
98 pages
BiblioMagika SAMPLE
No ratings yet
BiblioMagika SAMPLE
40 pages
Unit 2
No ratings yet
Unit 2
11 pages
CS822 DataMining Week3
No ratings yet
CS822 DataMining Week3
91 pages
UNIT - 2 .DataScience 04.09.18
No ratings yet
UNIT - 2 .DataScience 04.09.18
53 pages
Managing Data Integrity As Part of Master Data Management: Katri Vihavainen
No ratings yet
Managing Data Integrity As Part of Master Data Management: Katri Vihavainen
60 pages
Sanskrit Kriya
100% (1)
Sanskrit Kriya
4 pages
Ayushi Sharma MBA Dual 23GSOB2010369 SIP REPORT-2
No ratings yet
Ayushi Sharma MBA Dual 23GSOB2010369 SIP REPORT-2
57 pages
Data Quality Services
No ratings yet
Data Quality Services
196 pages
Unsia - Data Mining Pertemuan 9
No ratings yet
Unsia - Data Mining Pertemuan 9
39 pages
Webinar On MEAL in Project Data Quality Assurance (DQA)
No ratings yet
Webinar On MEAL in Project Data Quality Assurance (DQA)
76 pages
Syai Sem3 - Ds Unit2
No ratings yet
Syai Sem3 - Ds Unit2
37 pages
Data Science Question Bank With Answer
No ratings yet
Data Science Question Bank With Answer
39 pages
DATA VERIFICATION DOC FINAL DRAFT 7 - 09 - Verification Guidelines - DG Pic - Signature
No ratings yet
DATA VERIFICATION DOC FINAL DRAFT 7 - 09 - Verification Guidelines - DG Pic - Signature
42 pages
31
No ratings yet
31
25 pages
PSYCHOLOGY
No ratings yet
PSYCHOLOGY
2 pages
Mental Maths
No ratings yet
Mental Maths
9 pages
Nrsimha God Names
No ratings yet
Nrsimha God Names
11 pages
LLB 5 Ydc
No ratings yet
LLB 5 Ydc
2 pages
Chapter Three
No ratings yet
Chapter Three
13 pages
Aspects of Data Quality (Excellent!)
No ratings yet
Aspects of Data Quality (Excellent!)
2 pages
Glossary of SAP S - 4HANA Central Finance
No ratings yet
Glossary of SAP S - 4HANA Central Finance
11 pages
Data Migration Strategy Customer First
No ratings yet
Data Migration Strategy Customer First
19 pages
Slide 1
No ratings yet
Slide 1
4 pages
N Maleeq CV
No ratings yet
N Maleeq CV
5 pages
Dhatu Vs Pratipadik
No ratings yet
Dhatu Vs Pratipadik
2 pages
Slide 1
No ratings yet
Slide 1
3 pages
Kids English - 17
No ratings yet
Kids English - 17
4 pages
Unit-2 DS
No ratings yet
Unit-2 DS
10 pages
Religion Vs Nation in Democracy 3
No ratings yet
Religion Vs Nation in Democracy 3
3 pages
Slide 1
No ratings yet
Slide 1
3 pages
Slide 1
No ratings yet
Slide 1
3 pages
Autism Spectrum 3
No ratings yet
Autism Spectrum 3
3 pages
Managing A Data Cleansing Process For Material or Service Master Data 20130529
No ratings yet
Managing A Data Cleansing Process For Material or Service Master Data 20130529
34 pages
Slide 1
No ratings yet
Slide 1
2 pages
The Science Behind Sleep 4
No ratings yet
The Science Behind Sleep 4
2 pages
Variables
No ratings yet
Variables
2 pages
Religion Vs Nation in Democracy 2
No ratings yet
Religion Vs Nation in Democracy 2
2 pages
Religion Vs Nation in Democracy 1
No ratings yet
Religion Vs Nation in Democracy 1
2 pages
Indecision 1
No ratings yet
Indecision 1
1 page
11
No ratings yet
11
1 page
Asap Implementation Methodology: Sample Document
100% (2)
Asap Implementation Methodology: Sample Document
7 pages
Data Analytics Process
No ratings yet
Data Analytics Process
10 pages
Malware Detection Using Machine Learning and Deep Learning
No ratings yet
Malware Detection Using Machine Learning and Deep Learning
6 pages
Directories:::Evaluate The Reliability of Your Target Data Based On The Validation
No ratings yet
Directories:::Evaluate The Reliability of Your Target Data Based On The Validation
2 pages
Quality Stage
No ratings yet
Quality Stage
3 pages
Data Mining Assignment
No ratings yet
Data Mining Assignment
11 pages
Data Conversion and Cleansing Methodology
No ratings yet
Data Conversion and Cleansing Methodology
21 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
From Everand
DATA ANALYSIS AND DATA SCIENCE: Unlock Insights and Drive Innovation with Advanced Analytical Techniques (2024 Guide)
WINTON CLEM
No ratings yet
Data Analytics and Data Processing Essentials
From Everand
Data Analytics and Data Processing Essentials
gareth thomas
No ratings yet

Data Cleansing

Uploaded by

Data Cleansing

Uploaded by

Data Cleansing, also known as data cleaning or data scrubbing, is a

critical step in the data preparation process. It involves identifying and

1. Data Collection and Inspection:

 Identifying missing values: Checking for cells or fields that are

2. Handling Missing Values:

Missing data can significantly impact the quality of an analysis. Data

 Imputation: Replacing missing values with estimated or interpolated

3. Correcting Errors and Inconsistencies:

 Standardizing data: Ensuring that data follows a consistent format,

Duplicate records can distort analysis results and lead to incorrect

In some cases, data cleansing may also include data transformation,

6. Documentation and Auditing:

Throughout the data cleansing process, it's essential to maintain

In summary, data cleansing is a crucial step in data preparation that

Data cleansing is a crucial data preparation process that focuses on

1. Identification of Errors and Inconsistencies:

In summary, data cleansing is a critical step in data preparation that plays

You might also like