0% found this document useful (0 votes)

12 views58 pages

L 8 Clustering

Uploaded by

bn23mer2r15

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views58 pages

L 8 Clustering

Uploaded by

bn23mer2r15

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 58

Clustering

[email protected] © M. Shahbaz – 2006

Lecture Outline
• What is Clustering
• Supervised and Unsupervised
Classification
• Types of Clustering Algorithms
• Most Common Techniques
• Areas of Applications
• Discussion
• Result

[email protected] © M. Shahbaz – 2006

Clustering - Definition

─ Process of grouping similar items together

─ Clusters should be very similar to each other
but…
─ Should be very different from the objects of other
clusters/ other clusters
─ We can say that intra-cluster similarity between
objects is high and inter-cluster similarity is low
─ Important human activity --- used from early
childhood in distinguishing between different
items such as cars and cats, animals and plants
etc.
Supervised and Unsupervised Classification

─ What is Classification?
─ What is Supervised Classification/Learning?
─ What is Unsupervised Classification/Learning?
─ SOM – Self Organizing Maps
Types of Clustering Algorithms

─ Clustering has been a popular area of research

─ Several methods and techniques have been
developed to determine natural grouping among
the objects

Jain, A. K., Murty, M. N., and Flynn, P. J., Data Clustering: A Survey.
ACM Computing Surveys, 1999. 31: pp. 264-323.

Jain, A. K. and Dubes, R. C., Algorithms for Clustering Data. 1988,

Englewood Cliffs, NJ: Prentice Hall. 013022278X
Types of Clustering Algorithms
Clustering

Hierarchical Partitioning Grid-Based Clustering Algorithms For

Methods Methods Methods Algorithms Used in High Dimensional
Machine Learning Data

Agglomerative Divisive Gradient Descent Evolutionary

Algorithms Algorithms and Artificial Methods
Neural Networks

Subspace Projection Co-Clustering

Clustering Techniques Techniques

Relocation Probabilistic K-medoids K-means Methods Density-Based

Algorithms Clustering Methods Algorithms

Density-Based Density Functions

Connectivity Clustering
Clustering
Classification vs. Clustering
Classification:
Supervised learning:
Learns a method for predicting the
instance class from pre-labeled
(classified) instances
Clustering

Unsupervised learning:
Finds “natural” grouping of
instances given un-labeled data
Clustering Evaluation

• Manual inspection
• Benchmarking on existing labels
• Cluster quality measures
–distance measures
–high similarity within a cluster, low across
clusters
The Distance Function

• Simplest case: one numeric attribute A

– Distance(X,Y) = A(X) – A(Y)
• Several numeric attributes:
– Distance(X,Y) = Euclidean distance between
X,Y

• Are all attributes equally important?

– Weighting the attributes might be necessary
Simple Clustering: K-means

Works with numeric data only

1) Pick a number (K) of cluster centers (at
random)
2) Assign every item to its nearest cluster
center (e.g. using Euclidean distance)
3) Move each cluster center to the mean of
its assigned items
4) Repeat steps 2,3 until convergence
(change in cluster assignments less than
a threshold)
K-means example, step 1

k1
Y
Pick 3 k2
initial
cluster
centers
(randomly)
k3

X
K-means example, step 2

k1
Y

k2
Assign
each point
to the closest
cluster
center k3

X
K-means example, step 3

k1 k1
Y

Move k2
each cluster
center k3
k2
to the mean
of each cluster k3

X
K-means example, step 4

Reassign k1
points Y
closest to a
different new
cluster center
k3
Q: Which k2
points are
reassigned?

X
K-means example, step 4 …

k1
Y
A: three
points with
animation k3
k2

X
K-means example, step 4b

k1
Y
re-compute
cluster
means k3
k2

X
K-means example, step 5

k1
Y

k2
move cluster
centers to k3
cluster means

X
Squared Error Criterion
Pros and cons of K-Means
K-means variations

• K-medoids – instead of mean, use

medians of each cluster
–Mean of 1, 3, 5, 7, 9 is 5
–Mean of 1, 3, 5, 7, 1009 is 205
–Median of 1, 3, 5, 7, 1009 is 5
–Median advantage: not affected by extreme
values
• For large databases, use sampling
k-Medoids
K-means clustering summary

Advantages Disadvantages
• Simple, understandable • Must pick number of
• items automatically clusters before hand
assigned to clusters • All items forced into a
cluster
• Too sensitive to outliers
since an object with an
extremely large value
may substantially
distort the distribution
of data
Clustering Summary
• unsupervised
• many approaches
–K-means – simple, sometimes useful
• K-medoids is less sensitive to outliers
–Hierarchical clustering – works for symbolic
attributes
–Can be used to fill in missing values
New Centroid for Cluster 2 New Centroid for
(A3+B1+B2+B3+C2)/5=6,6 Cluster 3
(A2+C1)/2=1.5,3.5

BDA Unit 2
No ratings yet
BDA Unit 2
31 pages
Unit4 ML
No ratings yet
Unit4 ML
20 pages
Lec.3.D. M. Spring 2025
No ratings yet
Lec.3.D. M. Spring 2025
21 pages
3CP10 MJJ Clustering Intro
No ratings yet
3CP10 MJJ Clustering Intro
18 pages
Clustering
No ratings yet
Clustering
67 pages
ML Unit 3
No ratings yet
ML Unit 3
28 pages
Clustering
No ratings yet
Clustering
36 pages
Cluster
No ratings yet
Cluster
50 pages
Clustering Notes
No ratings yet
Clustering Notes
37 pages
DM Lecture 06
No ratings yet
DM Lecture 06
32 pages
ML Module 4 Unsupervised Learning - Updated
No ratings yet
ML Module 4 Unsupervised Learning - Updated
55 pages
2002 Spring CS525 Lecture 2
No ratings yet
2002 Spring CS525 Lecture 2
37 pages
Clustering
No ratings yet
Clustering
80 pages
7.introduction To Clustering
No ratings yet
7.introduction To Clustering
11 pages
Unit 4
No ratings yet
Unit 4
96 pages
Week 10 Lecture - Introduction To Clustering
No ratings yet
Week 10 Lecture - Introduction To Clustering
35 pages
Clustering in Machine Learning
No ratings yet
Clustering in Machine Learning
21 pages
Clustering and K-Means Algorithm
No ratings yet
Clustering and K-Means Algorithm
81 pages
Machine Learning Chapter 3
No ratings yet
Machine Learning Chapter 3
12 pages
Lect 10 DM
No ratings yet
Lect 10 DM
36 pages
BIS 541 Ch04 20-21 S
No ratings yet
BIS 541 Ch04 20-21 S
82 pages
Clustering
No ratings yet
Clustering
20 pages
Unit 4
No ratings yet
Unit 4
16 pages
ML Mod 4 Part 1
No ratings yet
ML Mod 4 Part 1
99 pages
ML Module5 Clustering
No ratings yet
ML Module5 Clustering
71 pages
Lec09 Clustering
No ratings yet
Lec09 Clustering
27 pages
Data Mining Lecture Notes-1: Bsc. (H) Computer Science: Vi Semester Teacher: Ms. Sonal Linda
No ratings yet
Data Mining Lecture Notes-1: Bsc. (H) Computer Science: Vi Semester Teacher: Ms. Sonal Linda
40 pages
DWDM Unit V Note
No ratings yet
DWDM Unit V Note
19 pages
FML Unit4
No ratings yet
FML Unit4
14 pages
ML Unit III
No ratings yet
ML Unit III
82 pages
Presentation: Operating System Concept CS-582
No ratings yet
Presentation: Operating System Concept CS-582
13 pages
Module 5 - Notes - 13 12 2024
No ratings yet
Module 5 - Notes - 13 12 2024
45 pages
Day 3 - Content
No ratings yet
Day 3 - Content
50 pages
Clustering Explanation
No ratings yet
Clustering Explanation
8 pages
Chapter 5. Clustering Algorithms-Stud
No ratings yet
Chapter 5. Clustering Algorithms-Stud
44 pages
ML 5
No ratings yet
ML 5
61 pages
AIMLB PGP 2024 Session 12
No ratings yet
AIMLB PGP 2024 Session 12
46 pages
Clustering
No ratings yet
Clustering
25 pages
Lecturer-1 Unit 3
No ratings yet
Lecturer-1 Unit 3
31 pages
Unit 3 Clustering Algorithm
No ratings yet
Unit 3 Clustering Algorithm
44 pages
M5
No ratings yet
M5
40 pages
Week 9
No ratings yet
Week 9
66 pages
Chapter 3 Unsupervised Learning
No ratings yet
Chapter 3 Unsupervised Learning
45 pages
M5
No ratings yet
M5
40 pages
SJNanda - Spider and CollidingBodies
No ratings yet
SJNanda - Spider and CollidingBodies
50 pages
04-FSSR DS610 2024 2025T1 Kmeans
No ratings yet
04-FSSR DS610 2024 2025T1 Kmeans
57 pages
ML CH 4
No ratings yet
ML CH 4
51 pages
Data Mining Clustering
No ratings yet
Data Mining Clustering
76 pages
Machine Learning & Data Mining
No ratings yet
Machine Learning & Data Mining
108 pages
Clustering-Part 1
No ratings yet
Clustering-Part 1
35 pages
Topaz 等 - 2024 - The ChatGPT Effect Nursing Education and Generative Artificial Intelligence
No ratings yet
Topaz 等 - 2024 - The ChatGPT Effect Nursing Education and Generative Artificial Intelligence
4 pages
ML Unit-4 Final 2024-25
No ratings yet
ML Unit-4 Final 2024-25
28 pages
Clustering
No ratings yet
Clustering
84 pages
Clustering
No ratings yet
Clustering
125 pages
Unit 4
No ratings yet
Unit 4
74 pages
Unit 4 Clustering - K-Means and Hierarchical
No ratings yet
Unit 4 Clustering - K-Means and Hierarchical
40 pages
Clustering Algorithm
No ratings yet
Clustering Algorithm
47 pages
Classify Clustering
No ratings yet
Classify Clustering
31 pages
What Is Cluster Analysis?: - Cluster: A Collection of Data Objects
No ratings yet
What Is Cluster Analysis?: - Cluster: A Collection of Data Objects
42 pages
Automated Diagnosis of Diabetic Retinopathy Using Neural Networks
50% (2)
Automated Diagnosis of Diabetic Retinopathy Using Neural Networks
23 pages
Unit - 1
No ratings yet
Unit - 1
65 pages
Distributed Computing - CS3551 - Important Questions With Answer - Unit 2 - Logical Time and Global State
No ratings yet
Distributed Computing - CS3551 - Important Questions With Answer - Unit 2 - Logical Time and Global State
12 pages
Machine Learning & Data Mining: Understanding
No ratings yet
Machine Learning & Data Mining: Understanding
7 pages
Artificial Intelligence: Smart Assistants
No ratings yet
Artificial Intelligence: Smart Assistants
21 pages
Learn AI Quantum 2022 PDF
No ratings yet
Learn AI Quantum 2022 PDF
13 pages
ChatGPT For Higher Education and Professional Development - A Guid
No ratings yet
ChatGPT For Higher Education and Professional Development - A Guid
135 pages
Machine LearningA Review
No ratings yet
Machine LearningA Review
10 pages
Undergraduate Prospectus 2025 Accessible
No ratings yet
Undergraduate Prospectus 2025 Accessible
25 pages
Machine Learning Notes
No ratings yet
Machine Learning Notes
64 pages
Advancement in Technology
No ratings yet
Advancement in Technology
58 pages
Elevated Road
No ratings yet
Elevated Road
27 pages
LinkedIn - About DEBATE Articles in CAIS Journal
No ratings yet
LinkedIn - About DEBATE Articles in CAIS Journal
7 pages
DI The Skills Based Organization Report
No ratings yet
DI The Skills Based Organization Report
36 pages
Extractive Text Summarization Using Word Vector Embedding
No ratings yet
Extractive Text Summarization Using Word Vector Embedding
5 pages
EHB Trends 2025 FINAL
No ratings yet
EHB Trends 2025 FINAL
16 pages
Proceedingbook-Anas Mustafa
No ratings yet
Proceedingbook-Anas Mustafa
10 pages
BME404 - Directed Studies in BME
No ratings yet
BME404 - Directed Studies in BME
4 pages
Electronics
No ratings yet
Electronics
23 pages
AI Report 1
No ratings yet
AI Report 1
13 pages
AI Global Summit 2024 Agenda
No ratings yet
AI Global Summit 2024 Agenda
15 pages
Learning Mechanisms and Rules-Notes
No ratings yet
Learning Mechanisms and Rules-Notes
7 pages
Caso Rimaccc
No ratings yet
Caso Rimaccc
19 pages
Weapon Detection Using Artificial Intelligence and Deep Learning For Security Applications
No ratings yet
Weapon Detection Using Artificial Intelligence and Deep Learning For Security Applications
5 pages
Solar Lentigo - 1
No ratings yet
Solar Lentigo - 1
7 pages
AI - Unit 03
No ratings yet
AI - Unit 03
9 pages
Complete Chapters of A Comprehensive Guide To Prompting - PDF (512 X 800 PX)
No ratings yet
Complete Chapters of A Comprehensive Guide To Prompting - PDF (512 X 800 PX)
8 pages
Gradient Leakage Attacks in Federated Learning - Research Frontiers, Taxonomy and Future Directions
No ratings yet
Gradient Leakage Attacks in Federated Learning - Research Frontiers, Taxonomy and Future Directions
8 pages
Ijbsv 17 P 1581
No ratings yet
Ijbsv 17 P 1581
7 pages
Marketing Management
No ratings yet
Marketing Management
2 pages
K Nearest Neighbor Algorithm: Fundamentals and Applications
From Everand
K Nearest Neighbor Algorithm: Fundamentals and Applications
Fouad Sabry
No ratings yet