Example Data Mining

The document outlines a dataset with two features, Age and Income, and demonstrates the process of normalizing the data using Min-Max and Z-Score methods. It explains the importance of scaling in distance-based algorithms like KNN and clustering, ensuring that both features contribute equally to distance calculations. The final section provides examples of how scaling affects classification and clustering outcomes.

Uploaded by

Muhammad Waleed

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views4 pages

Example Data Mining

Uploaded by

Muhammad Waleed

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

Example Dataset

Let’s say we have a small dataset with two features: Age and Income.

Perso Ag Income (in

n e thousands)
A 25 50
B 30 60
C 35 80
D 40 100

Step 1: Min-Max Normalization

Goal: Scale the data to a range of [0, 1].

Formula:

Xnormalized=X−XminXmax−XminXnormalized=Xmax−XminX−Xmin
Step-by-Step Calculation:

1. Find Min and Max for Each Feature:

oAge: Xmin=25Xmin=25, Xmax=40Xmax=40
o Income: Xmin=50Xmin=50, Xmax=100Xmax=100
2. Normalize Age:
oFor Person A: 25−2540−25=040−2525−25=0
o For Person B: 30−2540−25=0.3340−2530−25=0.33
o For Person C: 35−2540−25=0.6740−2535−25=0.67
o For Person D: 40−2540−25=140−2540−25=1
3. Normalize Income:
o For Person A: 50−50100−50=0100−5050−50=0
o For Person B: 60−50100−50=0.2100−5060−50=0.2
o For Person C: 80−50100−50=0.6100−5080−50=0.6
o For Person D: 100−50100−50=1100−50100−50=1
4. Normalized Dataset:
Person Age (Normalized) Income (Normalized)
A 0 0
B 0.33 0.2
C 0.67 0.6
D 1 1

Step 2: Z-Score Normalization (Standardization)

Goal: Center the data around 0 with a standard deviation of 1.

Formula:

Xstandardized=X−μσXstandardized=σX−μ
 μμ = mean, σσ = standard deviation.

Step-by-Step Calculation:

1. Calculate Mean (μμ) and Standard Deviation (σσ) for Each

Feature:
o Age:
 Mean: μ=25+30+35+404=32.5μ=425+30+35+40=32.5
 Standard Deviation: σ=6.45σ=6.45
o Income:
 Mean: μ=50+60+80+1004=72.5μ=450+60+80+100=72.5
Standard Deviation: σ=21.02σ=21.02
2. Standardize Age:
o For Person A: 25−32.56.45=−1.166.4525−32.5=−1.16
o For Person B: 30−32.56.45=−0.396.4530−32.5=−0.39
o For Person C: 35−32.56.45=0.396.4535−32.5=0.39
o For Person D: 40−32.56.45=1.166.4540−32.5=1.16
3. Standardize Income:
o For Person A: 50−72.521.02=−1.0721.0250−72.5=−1.07
o For Person B: 60−72.521.02=−0.5921.0260−72.5=−0.59
o For Person C: 80−72.521.02=0.3621.0280−72.5=0.36
o For Person D: 100−72.521.02=1.3121.02100−72.5=1.31
4. Standardized Dataset:
Perso
Age (Standardized) Income (Standardized)
n
A -1.16 -1.07
B -0.39 -0.59
C 0.39 0.36
D 1.16 1.31

Step 3: Impact on Distance-Based Algorithms

Why Scaling Matters:

 Without Scaling:
o Income (range: 50-100) dominates Age (range: 25-40) in
distance calculations.
o Algorithms like KNN and clustering will be biased toward
Income.
 With Scaling:
o Both features contribute equally to distance calculations.
o Improves accuracy and fairness in predictions.

Example: KNN

 Suppose we want to classify a new person with Age = 28 and

Income = 55.
 Using the normalized data, distances will be calculated fairly
between Age and Income.

Example: Clustering

 Clusters will group people based on patterns, not just Income.

 For example, younger people with lower incomes will form a
distinct cluster

Data Mining
No ratings yet
Data Mining
11 pages
04 - Data Normalization in Python - en
No ratings yet
04 - Data Normalization in Python - en
1 page
Data Normalization Machine Learning
No ratings yet
Data Normalization Machine Learning
5 pages
Normalization
No ratings yet
Normalization
10 pages
8 Normalization Methods
No ratings yet
8 Normalization Methods
10 pages
Standardization Campusx
No ratings yet
Standardization Campusx
4 pages
Normalization: Normalization Techniques at A Glance
No ratings yet
Normalization: Normalization Techniques at A Glance
5 pages
Data Normalization
No ratings yet
Data Normalization
7 pages
3 1 Chapter 3 Normalization
No ratings yet
3 1 Chapter 3 Normalization
22 pages
5 Data Preprocessing III Editted Notes
No ratings yet
5 Data Preprocessing III Editted Notes
17 pages
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
No ratings yet
WINSEM2024-25 MCSE615L TH VL2024250502897 2025-01-11 Reference-Material-I
11 pages
Mine 5
No ratings yet
Mine 5
8 pages
Data Normalization in Data Mining
No ratings yet
Data Normalization in Data Mining
8 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
Lab 3 - Normalization of Dataset
No ratings yet
Lab 3 - Normalization of Dataset
2 pages
Normalization Vs Standardization
No ratings yet
Normalization Vs Standardization
2 pages
21BDS0357 VL2024250504577 Ast02
No ratings yet
21BDS0357 VL2024250504577 Ast02
5 pages
Seven Lab Instruction
No ratings yet
Seven Lab Instruction
38 pages
Scaling Techniques
No ratings yet
Scaling Techniques
30 pages
Prac 4 B Z-Score Students DMDW Lab Manual
No ratings yet
Prac 4 B Z-Score Students DMDW Lab Manual
6 pages
Standardisation Vs Normalisation
No ratings yet
Standardisation Vs Normalisation
6 pages
dmdw2 2
No ratings yet
dmdw2 2
24 pages
ML - Week 04
No ratings yet
ML - Week 04
33 pages
Feature Engineering
No ratings yet
Feature Engineering
18 pages
ML - Assessment 2
No ratings yet
ML - Assessment 2
2 pages
5 Preprocessing
No ratings yet
5 Preprocessing
44 pages
Data Smoothing and Normalization Techniques
No ratings yet
Data Smoothing and Normalization Techniques
7 pages
3point5point2 Normalization
No ratings yet
3point5point2 Normalization
3 pages
Feature Scaling (Standardization & Normalization)
No ratings yet
Feature Scaling (Standardization & Normalization)
35 pages
Model Selection and Feature Engineering
No ratings yet
Model Selection and Feature Engineering
64 pages
Lab Sheet 02
No ratings yet
Lab Sheet 02
8 pages
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
No ratings yet
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
7 pages
ML Unit 2
No ratings yet
ML Unit 2
90 pages
Feature Scaling in Machine Learning
No ratings yet
Feature Scaling in Machine Learning
4 pages
Data Cleaning Techniques
No ratings yet
Data Cleaning Techniques
11 pages
ML Distance
No ratings yet
ML Distance
18 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Week 10
No ratings yet
Week 10
50 pages
Data Preprocessing: Normalize vs. Standardize
No ratings yet
Data Preprocessing: Normalize vs. Standardize
10 pages
Understanding SEM vs. SD in Data Science
No ratings yet
Understanding SEM vs. SD in Data Science
2 pages
Practical 6
No ratings yet
Practical 6
6 pages
TOPIC 3 Pima Indian
No ratings yet
TOPIC 3 Pima Indian
16 pages
Normal LectureNote
No ratings yet
Normal LectureNote
48 pages
Feature Scaling in Machine Learning
No ratings yet
Feature Scaling in Machine Learning
14 pages
Normalization A Preprocessing Stage
No ratings yet
Normalization A Preprocessing Stage
5 pages
3.4.standard Normal Distribution Exercise
No ratings yet
3.4.standard Normal Distribution Exercise
8 pages
Lecture 2.3 Data Normalization
No ratings yet
Lecture 2.3 Data Normalization
7 pages
5.feauture Engineering
No ratings yet
5.feauture Engineering
34 pages
Ex No3
No ratings yet
Ex No3
17 pages
Normalization and Calibration
No ratings yet
Normalization and Calibration
3 pages
Data Preparation.
No ratings yet
Data Preparation.
36 pages
Rapid Miner - Data Preparation
100% (1)
Rapid Miner - Data Preparation
17 pages
Machine Learning Normalization Techniques
No ratings yet
Machine Learning Normalization Techniques
5 pages
Lecture 10 - Data Transformation-M
No ratings yet
Lecture 10 - Data Transformation-M
8 pages
Preprocessing Stage
No ratings yet
Preprocessing Stage
4 pages
Inferential Statistical Analysis Using Python
No ratings yet
Inferential Statistical Analysis Using Python
22 pages
Data Mining Lab Guide
No ratings yet
Data Mining Lab Guide
58 pages
Measures of Skewness
No ratings yet
Measures of Skewness
50 pages
ARIMA Model Implementation in JMulTi
No ratings yet
ARIMA Model Implementation in JMulTi
11 pages
RJ 2021 060
No ratings yet
RJ 2021 060
32 pages
Pune University F.Y.B.Sc. Statistics Syllabus
100% (1)
Pune University F.Y.B.Sc. Statistics Syllabus
18 pages
Pannasastra University of Cambodia
No ratings yet
Pannasastra University of Cambodia
2 pages
التحليل الاحصائي للمتغيرات المتعددة
No ratings yet
التحليل الاحصائي للمتغيرات المتعددة
205 pages
Lociganic Stata Tutoria
No ratings yet
Lociganic Stata Tutoria
5 pages
Error Propagation & Uncertainty Guide
No ratings yet
Error Propagation & Uncertainty Guide
4 pages
BRM Unit-4
No ratings yet
BRM Unit-4
47 pages
Test and Measurement I & II
No ratings yet
Test and Measurement I & II
8 pages
Department of CSE-AI: Ia1 Question Bank
No ratings yet
Department of CSE-AI: Ia1 Question Bank
3 pages
Applied Statistics - MIT
100% (1)
Applied Statistics - MIT
654 pages
05 Forecasting
100% (1)
05 Forecasting
76 pages
Statistical Techniques Exam Paper 2A
No ratings yet
Statistical Techniques Exam Paper 2A
24 pages
STATS Introduction Statistical Analysis
No ratings yet
STATS Introduction Statistical Analysis
105 pages
Tests of Hypothesis: Lesson 3: Test On Population Mean (Part 1)
No ratings yet
Tests of Hypothesis: Lesson 3: Test On Population Mean (Part 1)
10 pages
Bec 3761 Take Home Test - 19th April 2025
No ratings yet
Bec 3761 Take Home Test - 19th April 2025
6 pages
Understanding Color Theory and Apigee Analytics
No ratings yet
Understanding Color Theory and Apigee Analytics
34 pages
Bollinger Bands Rules
No ratings yet
Bollinger Bands Rules
2 pages
7 Steps of Business Analytics Process
No ratings yet
7 Steps of Business Analytics Process
3 pages
Stats Lab 2
No ratings yet
Stats Lab 2
7 pages
Separable Nonlinear Least Squares For Estimating
No ratings yet
Separable Nonlinear Least Squares For Estimating
5 pages
Stata 11: GMM Estimation Guide
No ratings yet
Stata 11: GMM Estimation Guide
29 pages
Hypothesis Testing Guide & Examples
100% (1)
Hypothesis Testing Guide & Examples
98 pages
Introduction to Regression Analysis
No ratings yet
Introduction to Regression Analysis
32 pages
Multivariate Statistics CourseOutline
No ratings yet
Multivariate Statistics CourseOutline
4 pages
Correlation & Regression Answer Key
No ratings yet
Correlation & Regression Answer Key
5 pages
Correlation Analysis
No ratings yet
Correlation Analysis
52 pages
Sampling Theory Assignment
No ratings yet
Sampling Theory Assignment
1 page
Research Methodology Questions 2024 U.I EDITED
No ratings yet
Research Methodology Questions 2024 U.I EDITED
6 pages