Data Mining and Data Warehousing - Data Preprocessing - L03

Uploaded by

vikum.amarananda47

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views10 pages

Data Mining and Data Warehousing - Data Preprocessing - L03

Uploaded by

vikum.amarananda47

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Data Preprocessing

Madava Viranjan
Why Preprocess Data?
• Inaccurate Data

• Incomplete Data

• Inconsistent Data
Tasks in Data Preprocessing
• Data Cleaning
– Smoothing noise, remove outliers, fill missing values, resolve inconsistencies

• Data Integration
– Integrate data from multiple sources

• Data Reduction
– Reduced representation of data set

• Data Transformation
– Normalization, concept hierarchies
Data Cleaning – Missing Values
• Ignore
– Ignore the tuple if attribute missing (eg: class label in
classification task)
• Manually fill
• Fill via global constant
– Filling with something like ‘Unknown’
• Fill with measure
– Eg: Mean or Median
• Use the most probable value
– Value can be determined by regression, decision tree kind of
method
Data Cleaning – Noise
• Binning
– Sorted values are distribute into number of bins
and perform an operation based on the bin
contents
Data Cleaning – Noise
• Regression
– Technique that data values conforms to a function

• Outlier Analysis
– Can be detected by clustering
Data Cleaning - Discrepancy
• Use Meta Data
• Lookout for inconsistent use of codes
– Eg: “2010/12/25” and “25/12/2010” as dates
• Consecutive Rule
– There cannot be any missing values in defined minimum
and maximum values
• Unique rule
– Value in each attribute should be different to other
• Null rule
– Should specify how to handle empty values
Data Integration
• Entity Identification Problem
– How to map equilant entities from different data sets

• Redundancy of Attributes
– Attribute become redundant if it can be derived from others

• Tuple Duplication
– Two or more identical tuples in unique entry

• Data Value Conflicts

– Different representations, scaling, encoding for same attribute
Data Reduction
Reduce representation of data in smaller volume but
provides the integrity of original data

• Dimensionality Reduction
– Only required dimensions will be kept

• Numerosity Reduction
– Replace original data volume by smaller forms of data

• Data Compression
– Lossless and lossy compression
Data Transformation
Data transformed or consolidated into forms appropriate for mining.

• Smoothing
– Remove noise

• Attribute construction
– Construct new attributes

• Aggregation
– Summary or aggregation operations on data

• Normalization
– Scale data to fall into smaller range

• Discretization
– Replace raw values via labels

• Concept Hierarchy

3 Data Preprocessing
No ratings yet
3 Data Preprocessing
33 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
M2 PPT
No ratings yet
M2 PPT
60 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
ICS 2408 - Lecture 2 - Data Preprocessing
No ratings yet
ICS 2408 - Lecture 2 - Data Preprocessing
29 pages
2 Data Preprocessing
No ratings yet
2 Data Preprocessing
57 pages
Data Preparation
No ratings yet
Data Preparation
21 pages
DM Preprocessing Lec4,5
No ratings yet
DM Preprocessing Lec4,5
36 pages
Data Science - Module 1.3
No ratings yet
Data Science - Module 1.3
34 pages
CIS664-Knowledge Discovery and Data Mining
No ratings yet
CIS664-Knowledge Discovery and Data Mining
52 pages
Normalization
No ratings yet
Normalization
35 pages
Preprocessing
No ratings yet
Preprocessing
62 pages
Preprocessing
No ratings yet
Preprocessing
50 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Estimasi Anggaran Biaya Google Adwords Iklan Website
No ratings yet
Estimasi Anggaran Biaya Google Adwords Iklan Website
54 pages
Data Pre Processing
No ratings yet
Data Pre Processing
48 pages
DEC - Unit II Data Pre-Processing
No ratings yet
DEC - Unit II Data Pre-Processing
96 pages
DM Chapter 3
No ratings yet
DM Chapter 3
60 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
COS10022 - Lecture 03 - Data Preparation PDF
No ratings yet
COS10022 - Lecture 03 - Data Preparation PDF
61 pages
Module1.5 Preprocessing
No ratings yet
Module1.5 Preprocessing
40 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
Chapter 2
No ratings yet
Chapter 2
22 pages
Data Preprocessing
100% (1)
Data Preprocessing
33 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
02 Data - Preprocessing - 4,5,6
No ratings yet
02 Data - Preprocessing - 4,5,6
54 pages
AI351 Lecture 1
No ratings yet
AI351 Lecture 1
32 pages
Module2 DataPreprocessing
No ratings yet
Module2 DataPreprocessing
27 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
CH1-data Preprocessing
No ratings yet
CH1-data Preprocessing
49 pages
Preprocessing
No ratings yet
Preprocessing
52 pages
Machine Learning Chapter 2
No ratings yet
Machine Learning Chapter 2
37 pages
Unit - 2
No ratings yet
Unit - 2
17 pages
Unit-Ii Data Preprocessing
No ratings yet
Unit-Ii Data Preprocessing
94 pages
Data Preprocessing
No ratings yet
Data Preprocessing
12 pages
Data Preprocessing Part 1
No ratings yet
Data Preprocessing Part 1
14 pages
Data Preprocessing
No ratings yet
Data Preprocessing
67 pages
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
No ratings yet
Data Pre-Processing: Submitted By, R.Archana, 10ucs05 D.Gayathri, 10ucs11
18 pages
Data Mining
No ratings yet
Data Mining
40 pages
UNIT - Introduction - DataScience - New
No ratings yet
UNIT - Introduction - DataScience - New
55 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
Chapter 3& 4
No ratings yet
Chapter 3& 4
60 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
6 Data Preprocessing
No ratings yet
6 Data Preprocessing
37 pages
Lecture 123
No ratings yet
Lecture 123
20 pages
Datapreparation
No ratings yet
Datapreparation
59 pages
Data Mining: Concepts and Techniques: September 16, 2020 1
No ratings yet
Data Mining: Concepts and Techniques: September 16, 2020 1
46 pages
JAVA Advanced 3
No ratings yet
JAVA Advanced 3
19 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
04 DM BI Data Preprocessing
No ratings yet
04 DM BI Data Preprocessing
93 pages
BIS 541 Ch03 20-21 S
No ratings yet
BIS 541 Ch03 20-21 S
86 pages
Data Mining: Concepts and Techniques: - Chapter 3
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 3
52 pages
18mca52c U2
No ratings yet
18mca52c U2
23 pages
DWDM 3
No ratings yet
DWDM 3
12 pages
Basic Concepts in Data Structures
From Everand
Basic Concepts in Data Structures
K.Meenendranath Reddy
No ratings yet
Database And Computer Management: SERIES 1, #3
From Everand
Database And Computer Management: SERIES 1, #3
Elias Mutegi
No ratings yet
TE Honours in Data Science Students List
No ratings yet
TE Honours in Data Science Students List
2 pages
Prelim Paper Information Security
No ratings yet
Prelim Paper Information Security
2 pages
Unit - 1 NLP-R20
No ratings yet
Unit - 1 NLP-R20
10 pages
Libbfd
No ratings yet
Libbfd
255 pages
Redis
No ratings yet
Redis
17 pages
CTIT
No ratings yet
CTIT
72 pages
Nursing Informatics in Health Care Scoring Guide
No ratings yet
Nursing Informatics in Health Care Scoring Guide
1 page
Wolters - FPA - Score Sheet
No ratings yet
Wolters - FPA - Score Sheet
36 pages
Data Analyst - Data - Scientist - ML - Engineer
No ratings yet
Data Analyst - Data - Scientist - ML - Engineer
3 pages
Classification of Six Banana Ripeness Levels Based On Statistical Features On Machine Learning Approach
No ratings yet
Classification of Six Banana Ripeness Levels Based On Statistical Features On Machine Learning Approach
10 pages
CHAP 3 (Concept of Programming Language)
No ratings yet
CHAP 3 (Concept of Programming Language)
2 pages
Knowledge Interference
No ratings yet
Knowledge Interference
18 pages
Softpro TRAINING REPORT Arjit
No ratings yet
Softpro TRAINING REPORT Arjit
11 pages
AI Tools and Technologies
No ratings yet
AI Tools and Technologies
1 page
Chapter 8 Database Concepts
No ratings yet
Chapter 8 Database Concepts
8 pages
Steam - t2 - Grade 7 - Week 2
No ratings yet
Steam - t2 - Grade 7 - Week 2
2 pages
5th Sem
No ratings yet
5th Sem
19 pages
Gen AiI Worksheet Class9
0% (1)
Gen AiI Worksheet Class9
2 pages
Lecture 1 - Introduction To Data Security
No ratings yet
Lecture 1 - Introduction To Data Security
46 pages
EMRS Librarian Syllabus
No ratings yet
EMRS Librarian Syllabus
4 pages
Career in Software Engineering - Software Engineering Is The Branch of Engineering
No ratings yet
Career in Software Engineering - Software Engineering Is The Branch of Engineering
4 pages
VO - MCA Brochure
No ratings yet
VO - MCA Brochure
8 pages
BCA Dot Net & SQL Project - Construction Building Cost Estimator - PDF Report With Source Cod..
No ratings yet
BCA Dot Net & SQL Project - Construction Building Cost Estimator - PDF Report With Source Cod..
109 pages
07 Handout 1 PDF
No ratings yet
07 Handout 1 PDF
6 pages
Sample Final Year Students' Project
No ratings yet
Sample Final Year Students' Project
122 pages
Aud Cis Reference
No ratings yet
Aud Cis Reference
49 pages
Full Ethical Hacking Course Content
No ratings yet
Full Ethical Hacking Course Content
2 pages
Sample Poster Template CSE
No ratings yet
Sample Poster Template CSE
1 page
Summer Training Report
No ratings yet
Summer Training Report
20 pages
BDA Question Bank
No ratings yet
BDA Question Bank
33 pages

Data Mining and Data Warehousing - Data Preprocessing - L03

Uploaded by

Data Mining and Data Warehousing - Data Preprocessing - L03

Uploaded by

Data Preprocessing

• Data Value Conflicts

You might also like