100% found this document useful (2 votes)

7K views4 pages

2.8 DataMining

There are different measures that can be used to calculate similarity between data points, but there is no universally accepted measure. The document discusses calculating similarity between a query data point and database points using Euclidean distance, Manhattan distance, supremum distance, and cosine similarity. It also discusses normalizing the data and calculating Euclidean distance on the normalized data. The results show different rankings depending on the similarity measure used.

Uploaded by

Chinmayi Kulkarni

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

100% found this document useful (2 votes)

7K views4 pages

2.8 DataMining

Uploaded by

Chinmayi Kulkarni

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 4

2.8 It is important to dene or select similarity measures in data analysis.

However, there is no commonly

accepted subjective similarity measure. Results can vary depending on the similarity measures used.
Nonetheless, seemingly different similarity measures may be equivalent after some transformation.
Suppose we have the following 2-D data set Formula for Eucledian distance,

(a) Consider the data as 2-D data points. Given a new data point, x = (1.4,1.6) as a query, rank the
database points based on similarity with the query using Euclidean distance, Manhattan distance,
supremum distance, and cosine similarity.
(b) Normalizethedatasettomakethenormofeachdatapointequalto1.UseEuclidean distance on the
transformed data to rank the data points.
Ans a) Formula for Euclidean distance,

Therefore, d(x,x1)=0.141
d(x,x2)=0.67
d(x,x3)=0.28
d(x,x4)=0.223
d(x,x5)=0.60
Thus, rank of the data points based on similarity with x using Eucledian distance is
x2,x5,x3,x4,x1

Formula for Manhattan distance,

Therefore, d(x,x1)=0.2
d(x,x2)=0.9
d(x,x3)=0.4
d(x,x4)=0.3
d(x,x5)=0.7
Thus, rank of the data points based on similarity with x using Manhattan distance is
X2, x5, x3, x4, and x1

Formula for Supremum distance,

Therefore, d(x,x1)=0.1
d(x,x2)=0.6
d(x,x3)=0.2
d(x,x4)=0.2
d(x,x5)=0.6
Thus, rank of the data points based on similarity with x using Supremum distance is
X2, x5, x3, x4, and x1
Cosine similarity:

x. x1
x.x 1

( x , x 1) =

where

( x , x 1) =

( x , x 2) =

( x , x 3 )=

is the Euclidean norm of vector x defined as

( 1.4 )( 1.5 )+(1.6)(1.7)

( 1.4 +1.6 )( 1.5 +1.7 )
2

(1.4 ) (2 )+(1.6)(1.9)
( 1.4 2 +1.62 )( 22 +1.92 )

2.1+ 2.72 4.82

=
=0.9999
4.86
4.86

=0.9957

( 1.4 ) ( 1.6 ) +(1.6)(1.8)

( 1.42 +1.62 )( 1.62+ 1.82)

x 12+ x 22 ++ xn 2

=0.9999

( x , x 4) =

( x , x 5 )=

(1.4 ) (1.2 ) +(1.6)(1.5)

( 1.42 +1.62 )( 1.22 +1.52 )

( 1.4 ) ( 1.5 )+(1.6)(1.0)

( 1.42 +1.62 )( 1.52+1.0 2)

=0.9990

=0.9653

Thus, rank of the data points based on similarity with x using Supremum distance is x1, x3, x4, x2, x5.

b) norm( x)=sqrt{(1.4)^2 +(1.6)^2} ~ 2.13

Normalized x is (1.4/2.13,1.6/2.13) =(0.65,0.75)

norm( x1)=sqrt{(1.5)^2 +(1.7)^2} ~ 2.26

Normalized x1 is (1.5/2.26,1.7/2.26) =(0.57,0.75)
norm( x2)=sqrt{(2)^2 +(1.7)^2} ~ 2.76
Normalized x2 is (2/2.76,1.9/2.76) =(0.26,0.69)
norm( x3)=sqrt{(1.6)^2 +(1.8)^2} ~ 2.40
Normalized x3 is (1.6/2.40,1.8/2.40) =(0.67,0.75)
norm( x4)=sqrt{(1.2)^2 +(1.5)^2} ~ 1.92
Normalized x4 is (1.2/1.92,1.5/1.92) =(0.62,0.78)
norm( x5)=sqrt{(1.5)^2 +(1.0)^2} ~ 1.80
Normalized x5 is (1.5/1.80,1.0/1.80) =(0.83,0.55)
Formula for Eucledian distance is,

D(x,x1)=0.8
D(x,x2)=0.71
D(x,x3)=0.02

D(x,x4)=0.04
D(x,x5)=0.27
Thus, rank of the data points based on similarity with x using Euclidean distance in normalized form is
x1, x2, x5, x4, x3.

M. Spivak - Calculus On Manifolds PDF
100% (4)
M. Spivak - Calculus On Manifolds PDF
158 pages
Advanced Database Systems: Chapter 3:query Processing and Evaluation
100% (1)
Advanced Database Systems: Chapter 3:query Processing and Evaluation
36 pages
Hospital Management System
0% (1)
Hospital Management System
23 pages
Data Mining Chapter 2
100% (1)
Data Mining Chapter 2
8 pages
Report On Decorators and Generators in Python
No ratings yet
Report On Decorators and Generators in Python
7 pages
Final Lab Manual of ML BCA
No ratings yet
Final Lab Manual of ML BCA
69 pages
Chapter 4 Query Optimization
100% (2)
Chapter 4 Query Optimization
35 pages
Query Trees and Heuristics For Query Optimization
No ratings yet
Query Trees and Heuristics For Query Optimization
29 pages
Introduction To Matrix Analysis - Hiai, Petz
100% (9)
Introduction To Matrix Analysis - Hiai, Petz
337 pages
Data Mining Exam Papers
100% (1)
Data Mining Exam Papers
12 pages
TM03 Use Advanced Structured Query Language
No ratings yet
TM03 Use Advanced Structured Query Language
80 pages
Data Engineering Pre-Interview Quiz MCQ
100% (1)
Data Engineering Pre-Interview Quiz MCQ
8 pages
Chapter 2 - Query Processing and Optimization
100% (1)
Chapter 2 - Query Processing and Optimization
28 pages
Forces in Space PDF
No ratings yet
Forces in Space PDF
64 pages
Fundamentals of Database Systems, 5th Edition
67% (3)
Fundamentals of Database Systems, 5th Edition
9 pages
(PDF) Database Systems - Concepts - Design and Applications by S. K. Singh
0% (1)
(PDF) Database Systems - Concepts - Design and Applications by S. K. Singh
17 pages
Unit 4 - Lecture 3 - DGIM Algorithm Notes
100% (1)
Unit 4 - Lecture 3 - DGIM Algorithm Notes
8 pages
Database Systems Questions and Answers
100% (2)
Database Systems Questions and Answers
14 pages
City, Grade, Salesman - Id) ORDERS (Ord - No, Purchase - Amt, Ord - Date, Customer - Id, Salesman - Id) Write SQL Queries To
50% (2)
City, Grade, Salesman - Id) ORDERS (Ord - No, Purchase - Amt, Ord - Date, Customer - Id, Salesman - Id) Write SQL Queries To
4 pages
Vectors
100% (1)
Vectors
44 pages
EOS Database Administration L3 & L4
93% (14)
EOS Database Administration L3 & L4
104 pages
ADBMS Notes
67% (3)
ADBMS Notes
48 pages
Flight Fare Prediction Final
No ratings yet
Flight Fare Prediction Final
65 pages
Final DBMS Problem Statements 2020-21
50% (2)
Final DBMS Problem Statements 2020-21
12 pages
Movie Database
100% (1)
Movie Database
3 pages
Metrics For Software Project Size Estimation
No ratings yet
Metrics For Software Project Size Estimation
3 pages
PPT6 - Dynamic Programming Multistage Graph & Travelling Salesman Problem
50% (2)
PPT6 - Dynamic Programming Multistage Graph & Travelling Salesman Problem
23 pages
Solutions To II Unit Exercises From Kamber
83% (42)
Solutions To II Unit Exercises From Kamber
16 pages
Operations Research Chapter 2
100% (3)
Operations Research Chapter 2
23 pages
DBMS Lab Quetsions With Answer
57% (14)
DBMS Lab Quetsions With Answer
13 pages
School of Information Science: Addis Ababa University College of Natural and Computational Science
0% (1)
School of Information Science: Addis Ababa University College of Natural and Computational Science
8 pages
Daa MCQ - Sample-2020 PDF
100% (5)
Daa MCQ - Sample-2020 PDF
40 pages
Rudin Walter Functional Analysis
100% (3)
Rudin Walter Functional Analysis
407 pages
Question Bank Python For Data Science
0% (1)
Question Bank Python For Data Science
3 pages
Fundamentals of Software Engineering PDF
60% (5)
Fundamentals of Software Engineering PDF
2 pages
Apriori Principle Example Question and Answer
100% (11)
Apriori Principle Example Question and Answer
11 pages
Dac DBT SQL Exercises and Solutions Assignments III IV V
100% (2)
Dac DBT SQL Exercises and Solutions Assignments III IV V
10 pages
Fybca Dbms Slip
50% (4)
Fybca Dbms Slip
37 pages
Cook's Theorem
0% (1)
Cook's Theorem
18 pages
EX - NO:1 Write A Code Simulating ARP /RARP Protocols: Aim: Algorithm: Server
100% (1)
EX - NO:1 Write A Code Simulating ARP /RARP Protocols: Aim: Algorithm: Server
25 pages
EX - NO: 7 Study of Network Simulator (NS) and Simulation of Congestion Control Algorithms Using NS AIM
No ratings yet
EX - NO: 7 Study of Network Simulator (NS) and Simulation of Congestion Control Algorithms Using NS AIM
9 pages
Mock Test 1 Solution (1) Statistics
100% (2)
Mock Test 1 Solution (1) Statistics
23 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
SQL Exercises, Practice, Solution - Exercises On Employee Database
No ratings yet
SQL Exercises, Practice, Solution - Exercises On Employee Database
9 pages
Vectoranalysis
No ratings yet
Vectoranalysis
466 pages
Difference Between Degree and Cardinality
75% (4)
Difference Between Degree and Cardinality
3 pages
P 1
67% (6)
P 1
7 pages
Database Management Practical File
100% (1)
Database Management Practical File
17 pages
Moler & Morrison - Pythagorean Sums
No ratings yet
Moler & Morrison - Pythagorean Sums
5 pages
Multistage Backward
No ratings yet
Multistage Backward
13 pages
Inner Product Spaces
100% (4)
Inner Product Spaces
14 pages
OR Assignment Group
86% (7)
OR Assignment Group
3 pages
Degree Exit Exam Sample Questions
100% (1)
Degree Exit Exam Sample Questions
4 pages
DBMS Module 2
No ratings yet
DBMS Module 2
12 pages
Advanced Database Systems Transactions Processing: What Is A Transaction?
No ratings yet
Advanced Database Systems Transactions Processing: What Is A Transaction?
102 pages
Functional Analysis PDF PDF
No ratings yet
Functional Analysis PDF PDF
184 pages
Lecture 13. External Data Representation & Marshalling
No ratings yet
Lecture 13. External Data Representation & Marshalling
13 pages
Aggregate Functions Questions and Answers
No ratings yet
Aggregate Functions Questions and Answers
57 pages
Mechanics 1
No ratings yet
Mechanics 1
2 pages
SQL New Assignment. 4
0% (1)
SQL New Assignment. 4
3 pages
Daa-2marks and 10 Marksdescriptive Questions
100% (1)
Daa-2marks and 10 Marksdescriptive Questions
3 pages
Finite Element Analysis - 3 PDF
No ratings yet
Finite Element Analysis - 3 PDF
90 pages
Linear Control of Nonlinear Processes
No ratings yet
Linear Control of Nonlinear Processes
23 pages
IME634: Management Decision Analysis
No ratings yet
IME634: Management Decision Analysis
82 pages
Cs6402 DAA Notes (Unit-3)
No ratings yet
Cs6402 DAA Notes (Unit-3)
25 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
From Algebraic Structures To
100% (2)
From Algebraic Structures To
53 pages
Lecture 4
No ratings yet
Lecture 4
33 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
Unit 2
No ratings yet
Unit 2
37 pages
Functional Analysis Lecture Notes
No ratings yet
Functional Analysis Lecture Notes
38 pages
RobustOptimizationPaper PDF
No ratings yet
RobustOptimizationPaper PDF
38 pages
Vectors in Demensions
No ratings yet
Vectors in Demensions
35 pages
Daa 1mark Questions and Answers
No ratings yet
Daa 1mark Questions and Answers
12 pages
Elements of Mathematical Analysis Author Harald Hanche-Olsen
No ratings yet
Elements of Mathematical Analysis Author Harald Hanche-Olsen
31 pages
Lec 5
No ratings yet
Lec 5
24 pages
Lecture Notes On Numerical Analysis of Partial Differential Equations
No ratings yet
Lecture Notes On Numerical Analysis of Partial Differential Equations
20 pages
3.7 Inner Product Space
No ratings yet
3.7 Inner Product Space
24 pages
Answer Key - CK-12 Chapter 05 Trigonometry Concepts (Revised)
No ratings yet
Answer Key - CK-12 Chapter 05 Trigonometry Concepts (Revised)
21 pages
Chapter 2 Motion Along A Line: Student
No ratings yet
Chapter 2 Motion Along A Line: Student
17 pages
02 Tinh Khoang Cach - Compatibility Mode
No ratings yet
02 Tinh Khoang Cach - Compatibility Mode
14 pages
CBR Matriks Dan Ruang Vektor-1
No ratings yet
CBR Matriks Dan Ruang Vektor-1
14 pages
Linear Algebra: Wwlchen
No ratings yet
Linear Algebra: Wwlchen
8 pages
DM&DW Individual Assignment (50%)
No ratings yet
DM&DW Individual Assignment (50%)
4 pages
Circle Drawing Algorithm
No ratings yet
Circle Drawing Algorithm
7 pages
A Study of Caristi's Fixed Point Theorem On Normed Space
No ratings yet
A Study of Caristi's Fixed Point Theorem On Normed Space
4 pages
Data Mining
No ratings yet
Data Mining
7 pages
Linear Algebra Inner Product
No ratings yet
Linear Algebra Inner Product
3 pages
DM-Excercise 1A
No ratings yet
DM-Excercise 1A
2 pages
RM 08 - Vectors (Part 01)
No ratings yet
RM 08 - Vectors (Part 01)
1 page