0% found this document useful (0 votes)

6 views

Lecture123

Educations

Uploaded by

JITENDER

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views

Lecture123

Educations

Uploaded by

JITENDER

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 20

Multi-Dimensional Measure of Data

Quality

• A well-accepted multi-dimensional view:

• Accuracy
• Completeness
• Consistency
• Timeliness
• Believability
• Valueable
• Accessibility
Major Tasks in Data Preprocessing
• Data cleaning
• Fill in missing values, smooth noisy data, identify or remove outliers and noisy data, and
resolve inconsistencies
• Data integration
• Integration of multiple databases, or files
• Data transformation
• Normalization and aggregation
• Data reduction
• Obtains reduced representation in volume but produces the same or similar analytical
results
• Data discretization (for numerical data)
Data Preprocessing…

• Why preprocess the data?

• Data cleaning

• Data integration and transformation

• Data reduction

• Discretization

• Summary
Data Cleaning…
• Importance
• “Data cleaning is the number one problem in data warehousing”

• Data cleaning tasks

• Fill in missing values
• Identify outliers and smooth out noisy data
• Correct inconsistent data
• Resolve redundancy caused by data integration
Missing Data
• Data is not always available
• E.g., many tuples have no recorded values for several attributes, such as customer income in
sales data

• Missing data may be due to

• equipment malfunction
• inconsistent with other recorded data and thus deleted
• data not entered due to misunderstanding
• certain data may not be considered important at the time of entry
• not register history or changes of the data
Noisy Data..
• Noise: random error or variance in a measured variable.
• Incorrect attribute values may due to
• faulty data collection instruments
• data entry problems
• data transmission problems
• etc
• Other data problems which requires data cleaning
• duplicate records, incomplete data, inconsistent data
How to Handle Noisy Data?
• Binning method:
• first sort data and partition into (equi-depth) bins
• then one can smooth by bin means, smooth by bin median, smooth by bin
boundaries, etc.
• Clustering
• detect and remove outliers
• Combined computer and human inspection
• detect suspicious values and check by human (e.g., deal with possible outliers)
Binning Methods for Data
Smoothing..
• Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
• Partition into (equi-depth) bins:
• Bin 1: 4, 8, 9, 15
• Bin 2: 21, 21, 24, 25
• Bin 3: 26, 28, 29, 34
• Smoothing by bin means:
• Bin 1: 9, 9, 9, 9
• Bin 2: 23, 23, 23, 23
• Bin 3: 29, 29, 29, 29
• Smoothing by bin boundaries:
• Bin 1: 4, 4, 4, 15
• Bin 2: 21, 21, 25, 25
• Bin 3: 26, 26, 26, 34
Outlier Removal..
• Data points inconsistent with the majority of data
• Different outlier
• Noisy: One’s age = 200, widely deviated points
• Removal methods
• Clustering
• Curve-fitting
Data Preprocessing..

• Why preprocess the data?

• Data cleaning

• Data integration and transformation

• Data reduction

• Discretization
Data Integration..
• Data integration:
• combines data from multiple sources
• Schema integration
• integrate metadata from different sources
• Entity identification problem: identify real world entities from multiple data sources,
e.g., A.cust-id  B.cust-#
• Detecting and resolving data value conflicts
• for the same real world entity, attribute values from different sources are different,
e.g., different scales, metric vs. British units
• Removing duplicates and redundant data
Data Transformation..
• Smoothing: remove noise from data
• Normalization: scaled to fall within a small, specified range (-0.1 to 1.0 and
0.0 to 1.0)
• Attribute/feature construction
• New attributes constructed from the given ones
• Aggregation: summarization
• Generalization: concept hierarchy climbing
: Data Preprocessing

• Why preprocess the data?

• Data cleaning

• Data integration and transformation

• Data reduction

• Discretization

• Summary

CS583, Bing Liu, UIC 13

Data Reduction Strategies

• Data is too big to work with..

• Data reduction
• Obtain a reduced representation of the data set that is much smaller
in volume but yet produce the same (or almost the same) analytical
results
• Data reduction strategies
• Dimensionality reduction — remove unimportant attributes
• Aggregation and clustering
• Sampling

CS583, Bing Liu, UIC 14

Dimensionality Reduction

• Feature selection (i.e., attribute subset selection):

• >>>Select a minimum set of attributes (features) that is sufficient

for the data mining task. <<<

CS583, Bing Liu, UIC 15

Clustering..

• Partition data set into clusters..

CS583, Bing Liu, UIC 16

Data Preprocessing
• Why preprocess the data?
• Data cleaning
• Data integration and transformation
• Data reduction
• Discretization

CS583, Bing Liu, UIC 17

Discretization
• Three types of attributes:
• Nominal — values from an unordered set
• Ordinal — values from an ordered set
• Continuous — real numbers
• Discretization:
• divide the range of a continuous attribute into intervals because
some data mining algorithms only accept categorical attributes.
• Some techniques:
• Binning methods – equal-width, equal-frequency
• Entropy-based methods – which measures the uncertainty
associated with a set of data

CS583, Bing Liu, UIC 18

Discretization and Concept
Hierarchy
• Discretization
• reduce the number of values for a given continuous attribute by
dividing the range of the attribute into intervals. Interval labels
can then be used to replace actual data values
• Concept hierarchies
• reduce the data by collecting and replacing low level concepts
(such as numeric values for the attribute age) by higher level
concepts (such as young, middle-aged, or senior)

CS583, Bing Liu, UIC 19

Summary of Data Preprocessing

• Data preparation is a big issue for data mining

• Data preparation includes
• Data cleaning and data integration
• Data reduction and feature selection
• Discretization

• Many methods have been proposed but still it is an active

area of research………..

CS583, Bing Liu, UIC 20

Effective Xgboost
No ratings yet
Effective Xgboost
221 pages
CS583 Data Prep
No ratings yet
CS583 Data Prep
33 pages
Data Prep
No ratings yet
Data Prep
33 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
ICS 2408 - Lecture 2 - Data Preprocessing
No ratings yet
ICS 2408 - Lecture 2 - Data Preprocessing
29 pages
Data Pre Processing
No ratings yet
Data Pre Processing
48 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
CH 3
No ratings yet
CH 3
68 pages
Normalization
No ratings yet
Normalization
35 pages
Preprocessing
No ratings yet
Preprocessing
62 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
21 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
Week2-2
No ratings yet
Week2-2
25 pages
Data preprocessing (1)
No ratings yet
Data preprocessing (1)
77 pages
BIS 541 Ch03 20-21 S
No ratings yet
BIS 541 Ch03 20-21 S
86 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
CIS664-Knowledge Discovery and Data Mining
No ratings yet
CIS664-Knowledge Discovery and Data Mining
52 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
AI351 Lecture 1
No ratings yet
AI351 Lecture 1
32 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
02 Data_preprocessing -4,5,6
No ratings yet
02 Data_preprocessing -4,5,6
54 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
Module2 DataPreprocessing
No ratings yet
Module2 DataPreprocessing
27 pages
Data Mining: Concepts and Techniques: - Chapter 3
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 3
52 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
M2 PPT
No ratings yet
M2 PPT
60 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Chapter3
No ratings yet
Chapter3
50 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
UNIT-2
No ratings yet
UNIT-2
37 pages
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
No ratings yet
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
18 pages
Chapter 3: Data Preprocessing
No ratings yet
Chapter 3: Data Preprocessing
15 pages
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
No ratings yet
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Machine Learning
35 pages
Data Preparation
No ratings yet
Data Preparation
21 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Lec2 - Data Preprocessing
No ratings yet
Lec2 - Data Preprocessing
30 pages
3 Ravi
No ratings yet
3 Ravi
82 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
04 - ML - Data Preprocessing
No ratings yet
04 - ML - Data Preprocessing
13 pages
Data Science - Module 1.3
No ratings yet
Data Science - Module 1.3
34 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
50 pages
Correlation
No ratings yet
Correlation
14 pages
CS-DM Module-2
No ratings yet
CS-DM Module-2
29 pages
Lecture 6 Data Preprocessing
No ratings yet
Lecture 6 Data Preprocessing
59 pages
Data Preprocessing
100% (1)
Data Preprocessing
109 pages
Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies
No ratings yet
Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies
25 pages
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Lecture Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
40 pages
CH1-data Preprocessing
No ratings yet
CH1-data Preprocessing
49 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
Data Preprocessing Part 1
No ratings yet
Data Preprocessing Part 1
14 pages
CS-DM MODULE-2
No ratings yet
CS-DM MODULE-2
30 pages
DWDM-LS3-Fall-24-25
No ratings yet
DWDM-LS3-Fall-24-25
50 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Data Warehousing and Mining
No ratings yet
Data Warehousing and Mining
56 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
Data Mining - Lecture 2
No ratings yet
Data Mining - Lecture 2
23 pages
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
No ratings yet
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
85 pages
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet
Mastering Data Mining Techniques
From Everand
Mastering Data Mining Techniques
Dhaanyalakshmi Ahuja
No ratings yet
NIT (W)&CMRIT Brochure
No ratings yet
NIT (W)&CMRIT Brochure
1 page
Forwarding-organize-sem_NIS
No ratings yet
Forwarding-organize-sem_NIS
1 page
Proposal Uidelinesg
No ratings yet
Proposal Uidelinesg
6 pages
BMS_Introduction_1
No ratings yet
BMS_Introduction_1
5 pages
Lecture (Additional)
No ratings yet
Lecture (Additional)
15 pages
dagne proposal -
No ratings yet
dagne proposal -
14 pages
Raghav's Resume
No ratings yet
Raghav's Resume
2 pages
Report on Coral Leaf Stage -1
No ratings yet
Report on Coral Leaf Stage -1
25 pages
Project PPT
No ratings yet
Project PPT
20 pages
Study+Material+Unit 4+Data+Preprocessing+
No ratings yet
Study+Material+Unit 4+Data+Preprocessing+
8 pages
Synopsis
No ratings yet
Synopsis
19 pages
Fayyad et al, 1996, From Data Mining to Knowledge Discovery in Databases
No ratings yet
Fayyad et al, 1996, From Data Mining to Knowledge Discovery in Databases
18 pages
Data Preprocessing
No ratings yet
Data Preprocessing
57 pages
SUMMER INTERNSHIP REPORT.
No ratings yet
SUMMER INTERNSHIP REPORT.
27 pages
Capstone Project
No ratings yet
Capstone Project
5 pages
G_5_ID_13_16_23_31
No ratings yet
G_5_ID_13_16_23_31
56 pages
Final Year Paper
No ratings yet
Final Year Paper
5 pages
Blue Futuristic Illustrative Artificial Intelligence Project Presentation
No ratings yet
Blue Futuristic Illustrative Artificial Intelligence Project Presentation
11 pages
Data Wrangling Tools
No ratings yet
Data Wrangling Tools
3 pages
PPT1
No ratings yet
PPT1
93 pages
Python For Financial Analysis From Zero to Hero 1st Edition Van Der Post - Download the full ebook version right now
No ratings yet
Python For Financial Analysis From Zero to Hero 1st Edition Van Der Post - Download the full ebook version right now
64 pages
Data Pre-Processing - by Quant Arb - The Quant Stack
No ratings yet
Data Pre-Processing - by Quant Arb - The Quant Stack
9 pages
Crime Detecction DL Model ConvLSTM2D Analysis and Results
No ratings yet
Crime Detecction DL Model ConvLSTM2D Analysis and Results
4 pages
GURMESSA SALAUupdated2022JEEE
No ratings yet
GURMESSA SALAUupdated2022JEEE
7 pages
Machine Learning Approach For Crop and Fertilizer Recommendation
No ratings yet
Machine Learning Approach For Crop and Fertilizer Recommendation
13 pages
Shivam Intership
100% (1)
Shivam Intership
18 pages
coastal guard - synopsis - samuel
No ratings yet
coastal guard - synopsis - samuel
12 pages
Analyzing The Impact of Python Libraries On Data Science
No ratings yet
Analyzing The Impact of Python Libraries On Data Science
23 pages
DS Module 1 Notes
No ratings yet
DS Module 1 Notes
25 pages
SENTIMENT ANALYSIS PPT
100% (1)
SENTIMENT ANALYSIS PPT
35 pages
Big As References
No ratings yet
Big As References
1 page
SR Internship
No ratings yet
SR Internship
25 pages
Constructing A Highly Accurate Price Prediction Model in Real Estate Investment Using LightGBM
No ratings yet
Constructing A Highly Accurate Price Prediction Model in Real Estate Investment Using LightGBM
4 pages
MSC Thesis Proposal of Student Dropout Performance Analysis Using Machine Learning Techniques in Case of Wolaita Sodo University
100% (1)
MSC Thesis Proposal of Student Dropout Performance Analysis Using Machine Learning Techniques in Case of Wolaita Sodo University
28 pages