0% found this document useful (0 votes)

4 views8 pages

Lecture 10 - Data Transformation-M

The document discusses data preprocessing techniques essential for data mining, including data cleaning, integration, reduction, transformation, and discretization. It elaborates on various data transformation strategies such as normalization, smoothing, and aggregation, emphasizing the importance of normalization for clustering and distance measures. Additionally, it provides methods for normalization, including min-max, z-score, and decimal scaling, along with practice questions for further understanding.

Uploaded by

gihel53025

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views8 pages

Lecture 10 - Data Transformation-M

Uploaded by

gihel53025

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 8

CS06504

Data Mining
Lecture # 9
Data Preprocessing
Transformation and
Discretization
(Ch # 3)
Data Preprocessing
 Why preprocess the data?
 Data cleaning
 Data integration
 Data reduction
 Data Transformation and
Discretization
 Summary 2
Data Transformation
 The data are transformed or consolidated into
forms appropriate for mining processing.
Different strategies includes
 Smoothing – binning, regression, and clustering
 Attribute construction – new attributes are constructed
from the given set of attributes.
 Aggregation – Summary or aggregation operations are
applied e.g. construction of data cube
 Normalization – data are scaled so as to fall within a
smaller rage e.g. -1.0 to 1.0 or 0.0 to 1.0
 Discretization - Values of numeric attribute are
replaced by interval labels or conceptual labels.
(concept hierarchy for numeric attribute)
 Concept hierarchy generation for nominal data –
nominal attribute values are generalized to higher-level
3
concepts e.g. street is generalized to block, city or
Data Normalization
 A database can contain n numbers of continuous
type attributes.
 Where a larger range continuous type attribute or
noise can shift the objects distance.
 (Remember: All continuous type attributes similarity is
checked using a single Euclidean distance formula).
 For example: ‘Income’ attribute can dominate the
distance as compared to ‘Weight’ and ‘Age’
attributes.
 The objective of normalization is convert all integer
type attributes, so that there values fall within a
small specified range, such as 0 to 1.0.
 Normalization is particularly useful for clustering
and distance measure algorithms such as k-
nearest-neighbor.
Data Normalization
 min-max normalization

v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA

Example:- Suppose that the minimum and

maximum values for the attribute income
are 12,000 and 98,000. By min-max
normalization, a value of 73,600 for
income is transformed to
» ((73,000-12,000)/(98,000-12,000)) (1.0-0) + 0 = 0.716
Data Normalization
 z-score normalization
This method of normalization is useful
when the actual minimum and maximum
of any attribute are unknown.
Or when outliers which dominate the min-
max normalization.
v  meanA
v' 
stand_ devA
 Decimal scaling normalization
v
v'  j v'
Where j is the smallest integer such that Max(|
10 |)<1
Building mineable data sets
Data Transformation: Normalization
 min-max normalization
v  minA
v'  (new _ maxA  new _ minA)  new _ minA
maxA  minA
 z-score normalization
v  meanA
v' 
stand _ devA
 normalization by decimal scaling
v
v'  j Where j is the smallest integer such that Max(| v ' |)<1
10
Price in € 4 6 14 16 18 19 21 22 23 24 27 34
Min-max [0,1] 0 .06 .33 .4 .46 .5 .56 .6 .63 .66 .76 1
- -
Z-score -1.8 -1.6 -0.1 0 0.2 0.4 0.5 0.6 1 1.8
0.6 0.3
decimal .04 .06 .14 .16 .18 .19 .21 .22 .23 .24 .27 .34
Practice Questions
 Solve Exercise Questions 3.3, 3.6,
3.7, 3.8
 Find PCA for the following Data using
Correlation matrix

x 2.5 0.5 2.2 1.9 3.1 2.3 2.0 1.0 1.5 1.1
y 2.4 0.7 2.9 2.2 3.0 2.7 1.6 1.1 1.6 0.9

Data Transformation and Standardization
No ratings yet
Data Transformation and Standardization
5 pages
Data Pre-Processing: Data Preprocessing Describes Any Type of Processing Performed On Raw Data To Prepare It For
No ratings yet
Data Pre-Processing: Data Preprocessing Describes Any Type of Processing Performed On Raw Data To Prepare It For
57 pages
Chapter - 2 Data Mining
No ratings yet
Chapter - 2 Data Mining
21 pages
ICS 2408 - Lecture 2 - Data Preprocessing
No ratings yet
ICS 2408 - Lecture 2 - Data Preprocessing
29 pages
Lecture 7 Data Transformation and Dimensionality Reduction
No ratings yet
Lecture 7 Data Transformation and Dimensionality Reduction
22 pages
DM 02 04 Data Transformation
No ratings yet
DM 02 04 Data Transformation
52 pages
Data Transformation
No ratings yet
Data Transformation
12 pages
L2 Data Preparation
No ratings yet
L2 Data Preparation
18 pages
5 Data Pre Processing II
No ratings yet
5 Data Pre Processing II
26 pages
DM 02 04 Data Transformation
No ratings yet
DM 02 04 Data Transformation
49 pages
CH2 Data Integration - Transformation
No ratings yet
CH2 Data Integration - Transformation
16 pages
Data Mining
No ratings yet
Data Mining
11 pages
Week 2
No ratings yet
Week 2
96 pages
Data Preprocessing For Clustering
No ratings yet
Data Preprocessing For Clustering
40 pages
Week2 DataPreprocessing
No ratings yet
Week2 DataPreprocessing
43 pages
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
No ratings yet
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
11 pages
5 Data Preprocessing III Editted Notes
No ratings yet
5 Data Preprocessing III Editted Notes
17 pages
4 Data Pre Processing II
No ratings yet
4 Data Pre Processing II
26 pages
Data Preprocessing Techniques
No ratings yet
Data Preprocessing Techniques
11 pages
Data Transformation in Data Mining
No ratings yet
Data Transformation in Data Mining
6 pages
DSR Unit III
No ratings yet
DSR Unit III
11 pages
Data Minig Lab Manual
No ratings yet
Data Minig Lab Manual
58 pages
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
No ratings yet
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
7 pages
Concepts (PPT) - Data Preprocessing
No ratings yet
Concepts (PPT) - Data Preprocessing
19 pages
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
No ratings yet
6-Significance of Exploratory Data Analysis, Making Sense of Data-06!02!2024
85 pages
3 1 Chapter 3 Normalization
No ratings yet
3 1 Chapter 3 Normalization
22 pages
Data Normalization in Data Mining
No ratings yet
Data Normalization in Data Mining
8 pages
Data Preparation DM
No ratings yet
Data Preparation DM
26 pages
dmdw2 2
No ratings yet
dmdw2 2
24 pages
DMDW 5
No ratings yet
DMDW 5
25 pages
Chapter 3: Data Preprocessing
No ratings yet
Chapter 3: Data Preprocessing
15 pages
Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies
No ratings yet
Data Cleaning Data Transformation Data Reduction Discretization and Generating Concept Hierarchies
25 pages
3point5point2 Normalization
No ratings yet
3point5point2 Normalization
3 pages
10-2 Data Analysis and Pre-Processing Part 4 PDF
No ratings yet
10-2 Data Analysis and Pre-Processing Part 4 PDF
23 pages
Data Cleaning: Missing Values: - For Example in Attribute Income If
No ratings yet
Data Cleaning: Missing Values: - For Example in Attribute Income If
30 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Unit 2exploratory Analysis
No ratings yet
Unit 2exploratory Analysis
37 pages
Week 2 - Data Quality
No ratings yet
Week 2 - Data Quality
43 pages
Mod1 DM Part2
No ratings yet
Mod1 DM Part2
34 pages
Lecture 123
No ratings yet
Lecture 123
20 pages
Landscape Architecture Case Studies
No ratings yet
Landscape Architecture Case Studies
72 pages
DWDM AR16 Unit 1.2
No ratings yet
DWDM AR16 Unit 1.2
14 pages
IDS5
No ratings yet
IDS5
56 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
Data Mining: A Preprocessing Engine
No ratings yet
Data Mining: A Preprocessing Engine
5 pages
JAVA Advanced 3
No ratings yet
JAVA Advanced 3
19 pages
Knowledge Discovery and Data Mining
No ratings yet
Knowledge Discovery and Data Mining
55 pages
Normalization
No ratings yet
Normalization
35 pages
SMM of Building and Associated Civil Works PDF
No ratings yet
SMM of Building and Associated Civil Works PDF
120 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
Unit - 1 Data Preprocessing
No ratings yet
Unit - 1 Data Preprocessing
66 pages
AI351 Lecture 1
No ratings yet
AI351 Lecture 1
32 pages
Spatial and Temporal Data Mining
No ratings yet
Spatial and Temporal Data Mining
52 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
21 pages
Data Preprocessing
No ratings yet
Data Preprocessing
77 pages
OJCST Vol13 N2-3 P 78-81
No ratings yet
OJCST Vol13 N2-3 P 78-81
4 pages
Data Pre Processing - NG
No ratings yet
Data Pre Processing - NG
43 pages
Mymaths - Co.uk Maths Homework
100% (1)
Mymaths - Co.uk Maths Homework
5 pages
4 - Finding and Fixing Data Quality Issues
No ratings yet
4 - Finding and Fixing Data Quality Issues
48 pages
Data Normalization
No ratings yet
Data Normalization
7 pages
Data Integration & Transformation
No ratings yet
Data Integration & Transformation
14 pages
Essay On Journey of Life
100% (1)
Essay On Journey of Life
3 pages
Quanta ZBA - ZBB - DA0ZBAMB6A0
100% (1)
Quanta ZBA - ZBB - DA0ZBAMB6A0
45 pages
Thermostat 44550 Owners Manual
No ratings yet
Thermostat 44550 Owners Manual
38 pages
The Truth About Petaling Jaya Land Layout 03sept2012
No ratings yet
The Truth About Petaling Jaya Land Layout 03sept2012
46 pages
Synthetic Tourism Dataset Gilgit Baltistan
No ratings yet
Synthetic Tourism Dataset Gilgit Baltistan
112 pages
Synthetic Tourism Dataset
No ratings yet
Synthetic Tourism Dataset
112 pages
AJ MCQ Final
No ratings yet
AJ MCQ Final
33 pages
IT Sir Arienza Access-Security
No ratings yet
IT Sir Arienza Access-Security
12 pages
Griha
No ratings yet
Griha
9 pages
Evaluation of MU - Annex 1 Bottom-Up Approach - Annex 1.3 Estimation of The Measurement Uncertainty For Assay Using HPLC Method PDF
No ratings yet
Evaluation of MU - Annex 1 Bottom-Up Approach - Annex 1.3 Estimation of The Measurement Uncertainty For Assay Using HPLC Method PDF
11 pages
Factories Works Act - Pressure Vessel Regs
100% (2)
Factories Works Act - Pressure Vessel Regs
7 pages
BATCHI EIA CH 1 3
No ratings yet
BATCHI EIA CH 1 3
14 pages
object to someone/something = phản đối So sánh bằng ở thể phủ định
No ratings yet
object to someone/something = phản đối So sánh bằng ở thể phủ định
5 pages
What Is The Effect of Banking Concentration and Competition On Financial Development? An International Assessment
No ratings yet
What Is The Effect of Banking Concentration and Competition On Financial Development? An International Assessment
15 pages
Dokumen - Pub Moving Higher Education Beyond Covid 19 Innovative and Technology Enhanced Approaches To Teaching and Learning 1803825189 9781803825182
No ratings yet
Dokumen - Pub Moving Higher Education Beyond Covid 19 Innovative and Technology Enhanced Approaches To Teaching and Learning 1803825189 9781803825182
230 pages
Eudralex Vol 10 PDF
No ratings yet
Eudralex Vol 10 PDF
2 pages
Auto CAD Courses in Kurukshetra - Grotal
No ratings yet
Auto CAD Courses in Kurukshetra - Grotal
3 pages
Lecture 13-Supervised Learning-Decision Trees-M
No ratings yet
Lecture 13-Supervised Learning-Decision Trees-M
47 pages
Lecture 7 - Data Preprocessing - Cleaning-M
No ratings yet
Lecture 7 - Data Preprocessing - Cleaning-M
21 pages
Chapter 5 v8.2
No ratings yet
Chapter 5 v8.2
21 pages
Legal Research Sylabo UQAM
No ratings yet
Legal Research Sylabo UQAM
13 pages
The BPO
No ratings yet
The BPO
8 pages
Lean Canvas Example: Airbnb: Guests Hosts
No ratings yet
Lean Canvas Example: Airbnb: Guests Hosts
1 page
Application Notes - PC1616 - 1832 - 1864 V4.2 - Bell Squawk On WLS Keyfob
No ratings yet
Application Notes - PC1616 - 1832 - 1864 V4.2 - Bell Squawk On WLS Keyfob
2 pages
Lab1,2 Stack Queue
No ratings yet
Lab1,2 Stack Queue
7 pages
Lecture 10-Assiciation Rule Mining-I-M
No ratings yet
Lecture 10-Assiciation Rule Mining-I-M
30 pages
Lecture 9 - Data Prep - Reduction - PCA-M
No ratings yet
Lecture 9 - Data Prep - Reduction - PCA-M
44 pages
Fall Graduate Admission Guide 2025 (ENG) 20250304
No ratings yet
Fall Graduate Admission Guide 2025 (ENG) 20250304
16 pages
Matrices with MATLAB (Taken from "MATLAB for Beginners: A Gentle Approach")
From Everand
Matrices with MATLAB (Taken from "MATLAB for Beginners: A Gentle Approach")
Peter Kattan
3/5 (4)
Lecture 12 - Weka Tutorial
No ratings yet
Lecture 12 - Weka Tutorial
84 pages
Usa 2000
0% (1)
Usa 2000
225 pages
Day2 05.10.2020
No ratings yet
Day2 05.10.2020
2 pages
Hema STD Formate
No ratings yet
Hema STD Formate
1 page
4Z3.2-G12 Data Sheet
No ratings yet
4Z3.2-G12 Data Sheet
3 pages
Company Research
No ratings yet
Company Research
5 pages
Index Tracking
No ratings yet
Index Tracking
2 pages
NAS Soil Stabilization Using Bio Enzyme s40009-023-01338-4
No ratings yet
NAS Soil Stabilization Using Bio Enzyme s40009-023-01338-4
2 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Lecture 10 - Data Transformation-M

Uploaded by

Lecture 10 - Data Transformation-M

Uploaded by

CS06504

Example:- Suppose that the minimum and

You might also like