0% found this document useful (0 votes)

54 views15 pages

Chapter 2 - Data Preprocessing

The document discusses the importance of data preprocessing for data mining. It describes common issues with real-world data being dirty, incomplete, noisy or inconsistent. The major tasks of data preprocessing - cleaning, integration and reduction are explained.

Uploaded by

kusamee0

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

54 views15 pages

Chapter 2 - Data Preprocessing

Uploaded by

kusamee0

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 15

Chapter 2

Data Preprocessing

Eng. Ali sheak Ahmed

[email protected]
090-7731966

* Data Mining: Concepts and Techniques 1

Outline

■ Why preprocess the data?

■ Descriptive data summarization
■ Data cleaning
■ Data integration and transformation
■ Data reduction

* Data Mining: Concepts and Techniques 2

Why Data Preprocessing?
■ Data in the real world is dirty
■ incomplete: lacking attribute values, lacking
certain attributes of interest, or containing
only aggregate data
■ e.g., occupation=“ ”
■ noisy: containing errors or outliers
■ e.g., Salary=“-10”
■ inconsistent: containing discrepancies in codes
or names
■ e.g., Age=“42” Birthday=“03/07/1997”
■ e.g., Was rating “1,2,3”, now rating “A, B, C”
■ e.g., discrepancy between duplicate records
* Data Mining: Concepts and Techniques 3
Why Is Data Dirty?
■ Incomplete data may come from
■ “Not applicable” data value when collected
■ Different considerations between the time when the data was
collected and when it is analyzed.
■ Human/hardware/software problems
■ Noisy data (incorrect values) may come from
■ Faulty data collection instruments
■ Human or computer error at data entry
■ Errors in data transmission
■ Inconsistent data may come from
■ Different data sources
■ Functional dependency violation (e.g., modify some linked data)
■ Duplicate records also need data cleaning

* Data Mining: Concepts and Techniques 4

Why Is Data Preprocessing Important?

■ No quality data, no quality mining results!

■ Quality decisions must be based on quality data
■ e.g., duplicate or missing data may cause incorrect or even
misleading statistics.
■ Data warehouse needs consistent integration of quality
data
■ Data extraction, cleaning, and transformation comprises
the majority of the work of building a data warehouse

* Data Mining: Concepts and Techniques 5

Multi-Dimensional Measure of Data Quality

■ A well-accepted multidimensional view:

■ Accuracy
■ Completeness
■ Consistency
■ Timeliness
■ Believability
■ Value added
■ Interpretability
■ Accessibility
■ Broad categories:
■ Intrinsic, contextual, representational, and accessibility

* Data Mining: Concepts and Techniques 6

Major Tasks in Data Preprocessing

■ Data cleaning
■ Fill in missing values, smooth noisy data, identify or remove
outliers, and resolve inconsistencies

■ Data integration
■ Integration of multiple databases, data cubes, or files

■ Data reduction
■ Obtains reduced representation in volume but produces the same
or similar analytical results

* Data Mining: Concepts and Techniques 7

Forms of Data Preprocessing

* Data Mining: Concepts and Techniques 8

Data Cleaning

■ Importance
■ “Data cleaning is one of the three biggest problems
in data warehousing”—Ralph Kimball
■ “Data cleaning is the number one problem in data
warehousing”—DCI survey
■ Data cleaning tasks
■ Fill in missing values
■ Identify outliers and smooth out noisy data
■ Correct inconsistent data
■ Resolve redundancy caused by data integration

* Data Mining: Concepts and Techniques 9

How to Handle Missing Data?
■ Ignore the tuple: usually done when class label is missing (assuming
the tasks in classification—not effective when the percentage of
missing values per attribute varies considerably.
■ Fill in the missing value manually: tedious + infeasible?
■ Fill in it automatically with
■ a global constant : e.g., “unknown”, a new class?!
■ the attribute mean
■ the attribute mean for all samples belonging to the same class:
smarter
■ the most probable value: inference-based such as Bayesian
formula or decision tree
* Data Mining: Concepts and Techniques 10
Noisy Data
■ Noise: random error or variance in a measured variable
■ Incorrect attribute values may due to
■ faulty data collection instruments
■ data entry problems
■ data transmission problems
■ technology limitation
■ inconsistency in naming convention
■ Other data problems which requires data cleaning
■ duplicate records
■ incomplete data
■ inconsistent data

* Data Mining: Concepts and Techniques 11

Data Integration
■ Data integration:
■ Combines data from multiple sources into a coherent
store
■ Schema integration: e.g., A.cust-id ≡ B.cust-#
■ Integrate metadata from different sources
■ Entity identification problem:
■ Identify real world entities from multiple data sources,
e.g., Bill Clinton = William Clinton
■ Detecting and resolving data value conflicts
■ For the same real world entity, attribute values from
different sources are different
■ Possible reasons: different representations, different
scales, e.g., metric vs. British units

* Data Mining: Concepts and Techniques 12

Handling Redundancy in Data Integration

■ Redundant data occur often when integration of multiple

databases
■ Object identification: The same attribute or object
may have different names in different databases
■ Derivable data: One attribute may be a “derived”
attribute in another table, e.g., annual revenue
■ Redundant attributes may be able to be detected by
correlation analysis
■ Careful integration of the data from multiple sources may
help reduce/avoid redundancies and inconsistencies and
improve mining speed and quality

* Data Mining: Concepts and Techniques 13

Data Reduction Strategies

■ Why data reduction?

■ A database/data warehouse may store terabytes of data
■ Complex data analysis/mining may take a very long time to run
on the complete data set
■ Data reduction
■ Obtain a reduced representation of the data set that is much
smaller in volume but yet produce the same (or almost the
same) analytical results
■ Data reduction strategies
■ Data cube aggregation:
■ Dimensionality reduction — e.g., remove unimportant attributes
■ Data Compression
■ Numerosity reduction — e.g., fit data into models
■ Discretization and concept hierarchy generation

* Data Mining: Concepts and Techniques 14

End

* Data Mining: Concepts and Techniques 15

Manual TK-Strike Truescore 2014
50% (2)
Manual TK-Strike Truescore 2014
27 pages
2002 Jeep Liberty Manual
17% (6)
2002 Jeep Liberty Manual
32 pages
Mike Tooley
No ratings yet
Mike Tooley
37 pages
Quick Question42
No ratings yet
Quick Question42
51 pages
Module2 DataPreprocessing
No ratings yet
Module2 DataPreprocessing
27 pages
Why Data Preprocessing?: Incomplete
No ratings yet
Why Data Preprocessing?: Incomplete
17 pages
Lect 4
No ratings yet
Lect 4
30 pages
PPT 2
No ratings yet
PPT 2
51 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 2 &3
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 2 &3
36 pages
Chapter 3 - For Class
No ratings yet
Chapter 3 - For Class
52 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 3
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 3
53 pages
Data Preprocessing: Why Preprocess The Data?
No ratings yet
Data Preprocessing: Why Preprocess The Data?
51 pages
Data Cleaning and Datamining
No ratings yet
Data Cleaning and Datamining
54 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
Chapter 2: Data Preprocessing: Why Preprocess The Data?
No ratings yet
Chapter 2: Data Preprocessing: Why Preprocess The Data?
42 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 3
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 3
52 pages
Correlation
No ratings yet
Correlation
14 pages
DWDM-LS3-Fall-24-25
No ratings yet
DWDM-LS3-Fall-24-25
50 pages
3 Prep
No ratings yet
3 Prep
50 pages
3prep
No ratings yet
3prep
53 pages
Data Preprocessing - DWM
No ratings yet
Data Preprocessing - DWM
42 pages
02
No ratings yet
02
78 pages
Chap 3
No ratings yet
Chap 3
55 pages
Data Preprocessing
No ratings yet
Data Preprocessing
48 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
59 pages
Swetha Unit 1 Part 2 Data Preprocessing
No ratings yet
Swetha Unit 1 Part 2 Data Preprocessing
74 pages
Data Mining _ Preprocessing
No ratings yet
Data Mining _ Preprocessing
77 pages
Analisis Data 2
No ratings yet
Analisis Data 2
40 pages
DATA MINING Notes
No ratings yet
DATA MINING Notes
37 pages
Unit 2 - Data Preprocessing
No ratings yet
Unit 2 - Data Preprocessing
42 pages
BDA Class1
No ratings yet
BDA Class1
33 pages
Data Pre Processing
No ratings yet
Data Pre Processing
35 pages
Unit-3 Data Preprocessing
100% (1)
Unit-3 Data Preprocessing
7 pages
3-Preprocessing
No ratings yet
3-Preprocessing
27 pages
01 Data Pre Processing
No ratings yet
01 Data Pre Processing
46 pages
03preprocessing 1
No ratings yet
03preprocessing 1
39 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
80 pages
Data Preprocessing - Data Cleaning
100% (2)
Data Preprocessing - Data Cleaning
29 pages
Unit-3 Finalized
No ratings yet
Unit-3 Finalized
9 pages
Unit - III DW
No ratings yet
Unit - III DW
14 pages
Data Mining: Concepts and Techniques: - Chapter 3
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 3
52 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
56 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
78 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Unit 2 Data Mining
No ratings yet
Unit 2 Data Mining
69 pages
DATA MINING Notes (Upate)
No ratings yet
DATA MINING Notes (Upate)
25 pages
Chapter 1
No ratings yet
Chapter 1
35 pages
VIPDMTheoryChapter3
No ratings yet
VIPDMTheoryChapter3
87 pages
02 Data Warehouse
No ratings yet
02 Data Warehouse
18 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
51 pages
DataMining S
No ratings yet
DataMining S
103 pages
Major Issues in Data Mining
No ratings yet
Major Issues in Data Mining
9 pages
Chapter2 Data Preprocssing
No ratings yet
Chapter2 Data Preprocssing
70 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Unit-4 Introduction To Data Mining
No ratings yet
Unit-4 Introduction To Data Mining
26 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
78 pages
3datapreprocessing ppt3
No ratings yet
3datapreprocessing ppt3
46 pages
Why Data Preprocessing
No ratings yet
Why Data Preprocessing
7 pages
DATA MINING Chapter 1 and 2 Lect Slide
No ratings yet
DATA MINING Chapter 1 and 2 Lect Slide
47 pages
DMW Module 2
No ratings yet
DMW Module 2
32 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
99 pages
Practical Data Strategies and Recipes
From Everand
Practical Data Strategies and Recipes
Tom Henricksen
No ratings yet
Scanner Settings
No ratings yet
Scanner Settings
5 pages
QBT 2430
No ratings yet
QBT 2430
2 pages
CIT208 CALCULUS EDUCATIONAL CONSULT 2020_1
No ratings yet
CIT208 CALCULUS EDUCATIONAL CONSULT 2020_1
34 pages
Xyz DOCUUCOD123
No ratings yet
Xyz DOCUUCOD123
3 pages
Summary
No ratings yet
Summary
5 pages
Sports Equipment Inventory Management System
75% (12)
Sports Equipment Inventory Management System
47 pages
FortiSIEM
No ratings yet
FortiSIEM
7 pages
Uber Request Data - CSV - 1
No ratings yet
Uber Request Data - CSV - 1
196 pages
Customer Churn Analysis in Banking Sector Using Data Mining Techniques
No ratings yet
Customer Churn Analysis in Banking Sector Using Data Mining Techniques
10 pages
ISPF Hidden Treasures Parts I & II
No ratings yet
ISPF Hidden Treasures Parts I & II
73 pages
Adaptive Huffman Coding: Fall 2006
No ratings yet
Adaptive Huffman Coding: Fall 2006
7 pages
Gujarat Technological University
No ratings yet
Gujarat Technological University
1 page
MSFT Microsoft Surface Pro 11th Edition Fact Sheet
No ratings yet
MSFT Microsoft Surface Pro 11th Edition Fact Sheet
17 pages
Mach4 CNC
No ratings yet
Mach4 CNC
25 pages
investor-presentation-FY22
No ratings yet
investor-presentation-FY22
18 pages
Finding The Tool
No ratings yet
Finding The Tool
11 pages
P543 OrderForm - v43 - 112019
No ratings yet
P543 OrderForm - v43 - 112019
11 pages
TestDaily分享-ap15 comp sci sg
No ratings yet
TestDaily分享-ap15 comp sci sg
10 pages
Design and Analysis of Algorithms - AD3351 2021 Regulation - Question Paper 2023 Nov Dec
No ratings yet
Design and Analysis of Algorithms - AD3351 2021 Regulation - Question Paper 2023 Nov Dec
5 pages
Summary 032323
No ratings yet
Summary 032323
4 pages
IMPALA: Scalable Distributed Deep-RL With Importance Weighted Actor-Learner Architectures
No ratings yet
IMPALA: Scalable Distributed Deep-RL With Importance Weighted Actor-Learner Architectures
22 pages
Red Hat Jboss Developer Studio 8.0: 8.0.0 Release Notes
No ratings yet
Red Hat Jboss Developer Studio 8.0: 8.0.0 Release Notes
20 pages
Belarc Advisor Computer Profile
No ratings yet
Belarc Advisor Computer Profile
6 pages
ATRG - Threat Emulation
No ratings yet
ATRG - Threat Emulation
44 pages
Template
No ratings yet
Template
6 pages
2V0-33.22 Exam - Free Actual Q&As, Page 5 - ExamTopics
No ratings yet
2V0-33.22 Exam - Free Actual Q&As, Page 5 - ExamTopics
2 pages
Real Time Systems 7th Sem ECE VTU Unit 1 Introduction To Real Time Systems Ramisuniverse
No ratings yet
Real Time Systems 7th Sem ECE VTU Unit 1 Introduction To Real Time Systems Ramisuniverse
10 pages

Chapter 2 - Data Preprocessing

Uploaded by

Chapter 2 - Data Preprocessing

Uploaded by

Chapter 2

Eng. Ali sheak Ahmed

* Data Mining: Concepts and Techniques 1

■ Why preprocess the data?

* Data Mining: Concepts and Techniques 2

* Data Mining: Concepts and Techniques 4

■ No quality data, no quality mining results!

* Data Mining: Concepts and Techniques 5

■ A well-accepted multidimensional view:

* Data Mining: Concepts and Techniques 6

* Data Mining: Concepts and Techniques 7

* Data Mining: Concepts and Techniques 8

* Data Mining: Concepts and Techniques 9

* Data Mining: Concepts and Techniques 11

* Data Mining: Concepts and Techniques 12

■ Redundant data occur often when integration of multiple

* Data Mining: Concepts and Techniques 13

■ Why data reduction?

* Data Mining: Concepts and Techniques 14

* Data Mining: Concepts and Techniques 15

You might also like