Data Mining Group Assignment4

Uploaded by

Tafadzwa Chavarika

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views10 pages

Data Mining Group Assignment4

Uploaded by

Tafadzwa Chavarika

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Data

Cleaning
Group 1:
1. Raphael Chitsva - R056165Y
2. Chipuriro Walter R217118K3
3. Lazarus Mapfurira R217116X4
4. Tinashe Jima R217094J
5. Gillian James R217096Y
6. Ropafadzo Jere R217084B
7. Munyaradzi J Ndhokoyo R217112E
8. Placxedece K Phiri R204482L
Definition of
terms:
Data Preporcessing:
- Conversion of raw data into an understandable format and made ready for further analysis.
- the process of transforming raw data into a useful, understandable format

Data Cleaning:
- the process of cleaning datasets by accounting for missing values, removing outliers, correcting
inconsistent data points, and smoothing noisy data.
- Data cleaning help us remove inaccurate, incomplete and incorrect data from the data.
Noisy Data:
- A large amount of meaningless data
- the data that cannot be interpreted by machine and are containing unnecessary faulty data
Data Cleaning
What is it?
• The process of fixing or removing incorrect, corrupted, incorrectly formatted,
duplicate, or incomplete data within a dataset.
• Removal of inconsistency within our data to produce a solid and profound
analysis.
• Data cleaning is a foundational process in the data science lifecycle and its
role cannot be overemphasized when trying to uncover insights and
Why is Data Cleaning so
generate reliable answers.
Important?
- helps to create a template for cleaning an organization's data.
- If data is incorrect, outcomes of any analysis, algorithms are unreliable, even
though they may look correct.
- False conclusions because of incorrect or “dirty” data can inform poor business
strategy
- and decision-making.
3. Filter
1. Remove 2. Fix Structural unwanted
duplicates errors outliers

Data cleaning in 5 steps

4. Handle missing
data 5. Validate and QA
1. Remove duplicates or irrelevant
observations
• Remove unwanted observations from your data, including
duplicate or irrelevant observations as this will happen most
often during data collection.
• Irrelevant observations are when you notice observations
that do not fit into the specific problem you are trying to
analyse.

• For example, if you want to analyse data regarding

millennial customers, but your dataset includes older
generations, you might remove those irrelevant
observations.
2. Fix structural errors
3. Filter unwanted outliers
• Filter or remove observations that do not appear to fit within the range of
data you are analysing

• For example your organisation sells kids clothes and toys, and from the
collected data you seeing an age group of 87 or 50 years.

• If you have a legitimate reason to remove an outlier, like improper data-

entry, doing so will help the performance of the data you are working
with.

NB : just because an outlier exists, doesn’t mean it is incorrect.

4. Handle missing data
• You can’t ignore missing data because many algorithms will not accept missing
values.
• Handling missing values has a great impact of the outcome of your analysis or
model performance
Handling missing
data
 Drop missing values:
- This method is effective for large datasets with few missing values, but be mindful of potential information loss.

 Input missing values:

- Replace missing values with mean, median, or mode of the relevant variable.
- Use mean for normal distributions and median for non-normal distributions.
- Caution: assumptions may compromise data integrity.

 Prediction of missing values:

- Utilize prediction models to estimate missing values based on available data.
- Requires careful model selection and validation for reliable results.
Impact of handling missing values

• Improved data quality:

• Addressing missing values enhances the overall quality of the dataset
• Preservation of Data Integrity:
• Imputing or removing missing values ensures that the dataset remains
consistent and suitable for analysis.
• Reduced bias:
• Handling missing data allows for a more unbiased representation of the
underlying patterns in the data.
• Descriptive statistics, such as means, medians, and standard deviations, can be more
accurate when missing values are appropriately handled. This ensures a more
reliable summary of the dataset.
• Increased efficiency:
• Efficiently handling missing values can save you time and effort during data
analysis and modelling.
Advantages and benefits of data cleaning
 Enhanced Data Quality
 Increased Accuracy of Insights
 Improved Decision-Making
 Enhanced Data Consistency
 Cost and Time Savings
 Enhanced Stakeholder Confidence

6.Data Cleaning
No ratings yet
6.Data Cleaning
20 pages
Data Clean R
100% (1)
Data Clean R
11 pages
Data Cleaning_ Importance and Techniques
No ratings yet
Data Cleaning_ Importance and Techniques
1 page
Cleaning and Preparing Data
No ratings yet
Cleaning and Preparing Data
12 pages
? Data Cleaning 101❗_
No ratings yet
? Data Cleaning 101❗_
17 pages
Session 7 - Data Preprocessing and Transformation - 2025
No ratings yet
Session 7 - Data Preprocessing and Transformation - 2025
20 pages
A Level Computer Science Study Pack 1-1 PDF
100% (11)
A Level Computer Science Study Pack 1-1 PDF
124 pages
Cleaning techniques [Slides]
No ratings yet
Cleaning techniques [Slides]
20 pages
3b. Data Pre-Processing
No ratings yet
3b. Data Pre-Processing
84 pages
PHD seminar
No ratings yet
PHD seminar
38 pages
DWM - Co2-10
No ratings yet
DWM - Co2-10
27 pages
Data Cleaning in Power Query_ Best Practices and Techniques
No ratings yet
Data Cleaning in Power Query_ Best Practices and Techniques
20 pages
the Ultimate Guide to Data Cleaning With SQL 1738769035
No ratings yet
the Ultimate Guide to Data Cleaning With SQL 1738769035
36 pages
Data Collection Cleaning Preprocessing Presentation
No ratings yet
Data Collection Cleaning Preprocessing Presentation
13 pages
Importance of Data Cleaning 1
No ratings yet
Importance of Data Cleaning 1
47 pages
M 2.3 Data Preprocessing
No ratings yet
M 2.3 Data Preprocessing
22 pages
data-cleaning-using-pandas
No ratings yet
data-cleaning-using-pandas
9 pages
SMA_Expt_3
No ratings yet
SMA_Expt_3
9 pages
2020 UZ Programmes On Offer
100% (1)
2020 UZ Programmes On Offer
8 pages
L3
No ratings yet
L3
34 pages
BA-Unit 2
No ratings yet
BA-Unit 2
31 pages
05 Data Cleaning
No ratings yet
05 Data Cleaning
9 pages
Data Cleaning
No ratings yet
Data Cleaning
11 pages
DEC_Unit II Data Pre-processing
No ratings yet
DEC_Unit II Data Pre-processing
96 pages
Lecture3 (Earth Work and Mass Hual Diagram) 2
100% (3)
Lecture3 (Earth Work and Mass Hual Diagram) 2
16 pages
L 4 and 5-Data Cleaning DS-Sa
No ratings yet
L 4 and 5-Data Cleaning DS-Sa
44 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
3 DSEngineering
No ratings yet
3 DSEngineering
64 pages
m4t5 - PDF - Eng Data Cleaning & Etl
No ratings yet
m4t5 - PDF - Eng Data Cleaning & Etl
6 pages
Chapter - 2 - Cleaning and Transforming Data
No ratings yet
Chapter - 2 - Cleaning and Transforming Data
27 pages
1-Introduction to data cleaning
No ratings yet
1-Introduction to data cleaning
22 pages
4. Data Cleaning and Preparation
No ratings yet
4. Data Cleaning and Preparation
20 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
4. Data segmentation
No ratings yet
4. Data segmentation
11 pages
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
No ratings yet
Lesson 3. Data Preparation and Structuring 1 Data Cleaning
36 pages
Data Warehouse and Data Mining - Unit 3
No ratings yet
Data Warehouse and Data Mining - Unit 3
14 pages
Statistics Question Bank (2)
No ratings yet
Statistics Question Bank (2)
4 pages
What is Data Cleaning
No ratings yet
What is Data Cleaning
8 pages
Document (2)
No ratings yet
Document (2)
29 pages
Data Analysis and Information Management
No ratings yet
Data Analysis and Information Management
13 pages
DWM Module 2
No ratings yet
DWM Module 2
9 pages
DAF1104_Quantitative MethodsNOTES
No ratings yet
DAF1104_Quantitative MethodsNOTES
138 pages
Reading 5 - Data Preparation
No ratings yet
Reading 5 - Data Preparation
23 pages
Data Cleansing
No ratings yet
Data Cleansing
4 pages
C-42 Exp 3 Sma
No ratings yet
C-42 Exp 3 Sma
8 pages
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
No ratings yet
Data Preprocessing AND Data Cleansing: By-Ahtesham Ullah Khan 1604610013 CS-3 Yr
12 pages
Data cleaning
No ratings yet
Data cleaning
6 pages
Deep Learning Ram
No ratings yet
Deep Learning Ram
21 pages
DS Lec 6
No ratings yet
DS Lec 6
27 pages
Data Cleaning (Examples)
No ratings yet
Data Cleaning (Examples)
9 pages
dm unit 3
No ratings yet
dm unit 3
15 pages
Data Cleaning: A Brief Guide To
100% (2)
Data Cleaning: A Brief Guide To
15 pages
Basic Business Statistics - A Casebook (PDFDrive)
No ratings yet
Basic Business Statistics - A Casebook (PDFDrive)
257 pages
Lec 9
No ratings yet
Lec 9
1 page
DATA MANAGEMENT QUIZ
No ratings yet
DATA MANAGEMENT QUIZ
4 pages
Common Data-Cleaning Pitfalls
No ratings yet
Common Data-Cleaning Pitfalls
3 pages
Modester Sibanda Log Book
No ratings yet
Modester Sibanda Log Book
32 pages
Process Data From Dirty To Clean
No ratings yet
Process Data From Dirty To Clean
30 pages
Data Cleaning: A Brief Guide To
No ratings yet
Data Cleaning: A Brief Guide To
15 pages
Data Analysis and Interpretation: Ipdet
No ratings yet
Data Analysis and Interpretation: Ipdet
55 pages
Business: Capstone Project House Price Prediction Project Note-1
88% (8)
Business: Capstone Project House Price Prediction Project Note-1
40 pages
MTH 216
No ratings yet
MTH 216
32 pages
SR_Act_1_ A_Late_Arrival_Workbook
No ratings yet
SR_Act_1_ A_Late_Arrival_Workbook
17 pages
DWM
No ratings yet
DWM
14 pages
20 MASTER Exercise Answers MBA
No ratings yet
20 MASTER Exercise Answers MBA
38 pages
Modester Final REPORT
No ratings yet
Modester Final REPORT
52 pages
Data Cleaning: Definition
No ratings yet
Data Cleaning: Definition
2 pages
BA Module 01 - Quiz
No ratings yet
BA Module 01 - Quiz
29 pages
18
No ratings yet
18
18 pages
CHAPTER 3 Measure of Centeral Tendency
No ratings yet
CHAPTER 3 Measure of Centeral Tendency
20 pages
Test 1 November 2017 STA104
100% (1)
Test 1 November 2017 STA104
4 pages
Case Study 1
No ratings yet
Case Study 1
2 pages
Risk Management
No ratings yet
Risk Management
16 pages
MATEMATIKA TELEKOMUNIKASI II Statistika Deskriptif-2
No ratings yet
MATEMATIKA TELEKOMUNIKASI II Statistika Deskriptif-2
25 pages
6.1 Mean Median Mode and Range
No ratings yet
6.1 Mean Median Mode and Range
21 pages
Microsoft Mathematics Add-In
No ratings yet
Microsoft Mathematics Add-In
41 pages
Chapter 03 Test Bank - Version1
No ratings yet
Chapter 03 Test Bank - Version1
31 pages
Dai Block 1 Examination Schedule 09-24
No ratings yet
Dai Block 1 Examination Schedule 09-24
1 page
Database Security
No ratings yet
Database Security
16 pages
Risk Management
No ratings yet
Risk Management
16 pages
Maths Class 10 Practice papers
No ratings yet
Maths Class 10 Practice papers
4 pages
Uji Spss
No ratings yet
Uji Spss
13 pages
Chapter 5 Statistics, Probability & Counting Methods Q
No ratings yet
Chapter 5 Statistics, Probability & Counting Methods Q
11 pages
Using Point Load Test To Determine Uniaxial STR of Coal Meassure Rock
0% (1)
Using Point Load Test To Determine Uniaxial STR of Coal Meassure Rock
10 pages
Methods For Size Classification of Wood Chips
No ratings yet
Methods For Size Classification of Wood Chips
10 pages
Geomorphology D.D.M.
No ratings yet
Geomorphology D.D.M.
25 pages
Identinty and Access Management
No ratings yet
Identinty and Access Management
12 pages
The Potential Zimbabwe by The Use of Datascience & Ai by Tafadzwa Chavarika L-1
No ratings yet
The Potential Zimbabwe by The Use of Datascience & Ai by Tafadzwa Chavarika L-1
12 pages
Unit 1 Computational Statistics
No ratings yet
Unit 1 Computational Statistics
4 pages
Chapter 3 Homework
No ratings yet
Chapter 3 Homework
3 pages
Introduction To Information Security: J. Kasiroori Department of Analytics and Informatics
No ratings yet
Introduction To Information Security: J. Kasiroori Department of Analytics and Informatics
10 pages
Robust Statistics For Outlier Detection: Peter J. Rousseeuw and Mia Hubert
No ratings yet
Robust Statistics For Outlier Detection: Peter J. Rousseeuw and Mia Hubert
7 pages
Midterm Review STAT 2800 2010 - W2024
No ratings yet
Midterm Review STAT 2800 2010 - W2024
7 pages
KEY - Unit 12 Test Review
No ratings yet
KEY - Unit 12 Test Review
4 pages
Lesson 10
No ratings yet
Lesson 10
28 pages
Intro To Statistics QR
No ratings yet
Intro To Statistics QR
2 pages
HCF AND HDS PART 4s CAPSTONE REGISTER
No ratings yet
HCF AND HDS PART 4s CAPSTONE REGISTER
4 pages
HDS401 Deep Learning Module Outline
No ratings yet
HDS401 Deep Learning Module Outline
3 pages
UZ-DAI Odd Review Power Point Template
No ratings yet
UZ-DAI Odd Review Power Point Template
2 pages
Hds List
No ratings yet
Hds List
2 pages
Host Monitoring Supervisor Form
No ratings yet
Host Monitoring Supervisor Form
2 pages
UZ-DAI Excel For Literature Review
No ratings yet
UZ-DAI Excel For Literature Review
2 pages
DAI 2024 Semester 1 Timetable Draft 1
No ratings yet
DAI 2024 Semester 1 Timetable Draft 1
2 pages
Ano Tonderai
No ratings yet
Ano Tonderai
1 page
Mat 117 Practice Exam 1 sp15 PDF
No ratings yet
Mat 117 Practice Exam 1 sp15 PDF
5 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet
Principles of Data Mining
From Everand
Principles of Data Mining
Subodh Keshari
No ratings yet
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet
PYTHON FOR DATA ANALYTICS: Mastering Python for Comprehensive Data Analysis and Insights (2023 Guide for Beginners)
From Everand
PYTHON FOR DATA ANALYTICS: Mastering Python for Comprehensive Data Analysis and Insights (2023 Guide for Beginners)
Waldo Todd
No ratings yet
Secondary Dynamics of Data Reviews
From Everand
Secondary Dynamics of Data Reviews
Pasquale De Marco
No ratings yet

Data Mining Group Assignment4

Uploaded by

Data Mining Group Assignment4

Uploaded by

Data

Data cleaning in 5 steps

• For example, if you want to analyse data regarding

• If you have a legitimate reason to remove an outlier, like improper data-

*NB* : just because an outlier exists, doesn’t mean it is incorrect.

 Input missing values:

 Prediction of missing values:

• Improved data quality:

You might also like

NB : just because an outlier exists, doesn’t mean it is incorrect.