0% found this document useful (0 votes)

18 views32 pages

Unit 4 Clustering

Uploaded by

shradha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views32 pages

Unit 4 Clustering

Uploaded by

shradha

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 32

CLUSTERING

1
2
Clustering
• Partition unlabeled examples into disjoint subsets of
clusters, such that:
– Objects within a cluster are very similar
– Objects in different clusters are very different

• Discover new categories in an unsupervised manner

(no sample category labels provided).

3
Desirable Properties
• Find Structure
• Scalable
• Deal with different types of attributes
• Discover clusters with arbitrary shape
• Minimal domain knowledge
• Robust to noise
• High dimensionality, interpretability and usability
• Clustering quality
– Inter-clusters distance  maximized
– Intra-clusters distance  minimized
4
Clustering Algorithms

• Exclusive Clustering

• Overlapping clustering

• Hierarchical clustering

5
Partitioning Algorithms
• Given k
• Construct a partition of m objects
where is a vector in a real-valued space ,n is the number of attributes.
• into a set of k clusters
• The cluster mean serves as a prototype of the cluster .
• Find k clusters that optimizes a chosen criterion
– E.g., the within-cluster sum of squares (WCSS)
(sum of distance functions of each point in the cluster to the
cluster mean)

6
1. K-means algorithm
Given k
1. Randomly choose k data points to be the initial cluster
centres
2. Assign each data point to the closest cluster centre
3. Re-compute the cluster centres using the current
cluster memberships.
4. If a convergence criterion is not met, go to 2.

7
Stopping / Convergence criterion

8
K means illustrated

9
Similarity / Distance measures
• Distance metric (scale-dependent)
– Minkowski family of distance measures

Manhattan (p=1), Euclidean (p=2)

– Cosine distance

10
Similarity / Distance measures
• Correlation coefficients (scale-invariant)
• Mahalanobis distance

• Pearson correlation

11
Time Complexity
• Assume computing distance between two instances
is O(m) where m is the dimensionality of the vectors.
• Computing centroids: Each instance vector gets
added once to some centroid: O(nm) where n is
number of samples..
• Reassigning clusters: O(kn) distance computations,
or O(knm).
• Assume these two steps are each done once for I
iterations: O(Iknm).

12
Advantages & Disadvantages
• Fast, robust easy to understand.
• Relatively efficient: O(lkmn)
• Gives best result when data set are distinct or
well separated from each other.

• How to decide the K value

• Defining the convergence criteria

13
2. Fuzzy C-Means Clustering
 One data point may belong to two or more cluster with
different memberships.
 Objective function:

m : any real number greater than 1

uij : degree of membership of xi in cluster j,
xi : ith of d-dimensional measured data
cj : d-dimension center of the cluster, 14
Fuzzy c-means algorithm

15
Example : Mono Dimensional Data

K-Means Algorithm Fuzzy C Means Algorithm

16
Fuzzy c-means
 Advantages:
 Allows a data point to be in multiple clusters
 A more natural representation of the behavior of
genes
 genes usually are involved in multiple functions
 Limitations:
 Need to define c (k in K-means), the number of
clusters
 Need to determine membership cutoff value
 Clusters are sensitive to initial assignment of centroids
 Fuzzy c-means is not a deterministic algorithm

17
3. Hierarchical Clustering
• Build a tree-based hierarchical taxonomy
(dendrogram) from a set of unlabeled examples.

animal

vertebrate invertebrate

fish reptile amphib. mammal worm insect crustacean

• Recursive approach of a standard clustering is used

to produce a hierarchical clustering.

18
Aglommerative vs. Divisive Clustering

• Aglommerative (bottom-up)
methods start with each
example in its own cluster
and iteratively combine
them to form larger and
larger clusters.
• Divisive (partitional, top-
down) separate all examples
immediately into clusters.

19
Hierarchical Agglomerative Clustering
(HAC)

• Assumes a similarity function for determining

the similarity of two instances.
• Starts with all instances in a separate cluster
and then repeatedly joins the two clusters that
are most similar until there is only one cluster.
• The history of merging forms a binary tree or
hierarchy.

20
Hierarchical Clustering Algorithm
Start with all instances in their own cluster.
Until there is only one cluster:
• Among the current clusters, determine the
two Clusters, ci and cj, that are most
similar.
• Replace ci and cj with a single cluster ci  cj

21
Cluster Similarity
• Assume a similarity function that determines the
similarity of two instances: sim(x,y).
– Cosine similarity of document vectors.
• How to compute similarity of two clusters each
possibly containing multiple instances?
– Single Link: Similarity of two most similar members.
– Complete Link: Similarity of two least similar members.
– Average link: Average similarity between members.

22
Single Link Agglomerative Clustering

• Use maximum similarity of pairs:

sim(ci ,c j )  max sim( x, y )

xci , yc j

• Can result in “straggly” (long and thin) clusters

due to chaining effect.
– Appropriate in some domains, such as clustering
islands.

23
Single Link Example

24
Complete Link Agglomerative Clustering

• Use minimum similarity of pairs:

sim(ci ,c j )  min sim( x, y )

xci , yc j

• Makes more “tight,” spherical clusters that are

typically preferable.

25
Complete Link Example

26
Computational Complexity
• In the first iteration, need to compute similarity of all
pairs of n individual instances : O(n2).
• In each of n2 merging iterations, compute the
distance between the most recently created cluster
and all other existing clusters.
• overall performance is measured as O(n2) and
slightly varies depending on the computing cluster
distance.

27
Computing Cluster Similarity
• After merging ci and cj, the similarity of the
resulting cluster to any other cluster, ck, can be
computed by:
– Single Link:
sim(( ci  c j ), ck ) max(sim(ci , ck ), sim(c j , ck ))

– Complete Link:
sim((ci  c j ), ck ) min(sim(ci , ck ), sim(c j , ck ))

28
Average link Agglomerative Clustering

• Use average similarity across all pairs within the

merged cluster to measure the similarity of two
clusters.
1  
sim(ci , c j )    sim( x , y )
ci  c j ( ci  c j  1) x( ci c j ) y( ci c j ): yx

• Compromise between single and complete link.

• Averaged across all ordered pairs in the merged
cluster instead of unordered pairs between the two
clusters.

29
Clustering Applications
Biology : Classification of plants and animal
kingdom given their features
Marketing: Customer Segmentation based on a
database of customer data containing their
properties and past buying records
Web : Weblog data to discover similar access
patterns.
Social Network: Recognize communities in social
networks.

30
Assignment 6
1. Explain various clustering techniques.
2. Identify one real world applications where the
clustering is applied. Mention the details of
application. Justify why clustering is applied
and also discuss the clustering method used
with your understanding.

31
Thank You..

Machine Learning Lecture-Notes
100% (2)
Machine Learning Lecture-Notes
408 pages
Clustering
No ratings yet
Clustering
16 pages
Clustering
No ratings yet
Clustering
28 pages
کتاب چهارم بارگزاری شده
No ratings yet
کتاب چهارم بارگزاری شده
63 pages
Grouping
No ratings yet
Grouping
98 pages
Unit 3 Clustering
No ratings yet
Unit 3 Clustering
101 pages
Unsupervised Algorithms Unit3
No ratings yet
Unsupervised Algorithms Unit3
53 pages
843 Artificial Intelligence Xi Xii
No ratings yet
843 Artificial Intelligence Xi Xii
12 pages
ML 07 Clustering
No ratings yet
ML 07 Clustering
56 pages
Chp10 Cluster Analysis Basic Concepts and Methods
No ratings yet
Chp10 Cluster Analysis Basic Concepts and Methods
24 pages
Lecture 18
No ratings yet
Lecture 18
27 pages
Introduction To Data Mining Clustering Analysis
No ratings yet
Introduction To Data Mining Clustering Analysis
84 pages
Clustering
No ratings yet
Clustering
80 pages
Cluster Analysis: Minh Tran, PHD
No ratings yet
Cluster Analysis: Minh Tran, PHD
37 pages
12 Text Clustering
No ratings yet
12 Text Clustering
26 pages
15-505 Internet Search Technologies: Kamal Nigam
No ratings yet
15-505 Internet Search Technologies: Kamal Nigam
62 pages
Chapter 6
No ratings yet
Chapter 6
54 pages
Clustering
No ratings yet
Clustering
80 pages
ML Imp Ques 2
No ratings yet
ML Imp Ques 2
37 pages
K-Means and Hierarchical Clustering
No ratings yet
K-Means and Hierarchical Clustering
30 pages
Chapter 6
No ratings yet
Chapter 6
62 pages
Clustering Partition Hierachy
No ratings yet
Clustering Partition Hierachy
58 pages
MultiDimensional Data Model
No ratings yet
MultiDimensional Data Model
22 pages
cz4041 10 Clustering
No ratings yet
cz4041 10 Clustering
67 pages
Clustering
No ratings yet
Clustering
36 pages
Hierarchical Clustering: Relationship Between Clusters
No ratings yet
Hierarchical Clustering: Relationship Between Clusters
23 pages
Notes 1149 Unit 3
No ratings yet
Notes 1149 Unit 3
32 pages
Module 3 - 1
No ratings yet
Module 3 - 1
149 pages
Clustering
No ratings yet
Clustering
110 pages
DEU CSC5045 Intelligent System Applications Using Fuzzy - 4+clustering
No ratings yet
DEU CSC5045 Intelligent System Applications Using Fuzzy - 4+clustering
61 pages
Clustering
No ratings yet
Clustering
35 pages
Clustering
No ratings yet
Clustering
45 pages
CS423 Data Warehousing and Data Mining: Dr. Hammad Afzal
No ratings yet
CS423 Data Warehousing and Data Mining: Dr. Hammad Afzal
41 pages
AIMLB PGP 2024 Session 12
No ratings yet
AIMLB PGP 2024 Session 12
46 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
32 pages
Presentation 28128 Content Document 20241126014005PM
No ratings yet
Presentation 28128 Content Document 20241126014005PM
80 pages
ML4 Unsupervised Learning
No ratings yet
ML4 Unsupervised Learning
60 pages
Unit V
No ratings yet
Unit V
67 pages
Introduction To Cluster Analysis.
No ratings yet
Introduction To Cluster Analysis.
53 pages
Clustering
No ratings yet
Clustering
75 pages
Clustering
No ratings yet
Clustering
65 pages
Module5 QB 1
No ratings yet
Module5 QB 1
21 pages
U-5 Iml
No ratings yet
U-5 Iml
20 pages
Slide TIF311 DM 10 11
No ratings yet
Slide TIF311 DM 10 11
49 pages
Unsupervised Learning 1
No ratings yet
Unsupervised Learning 1
40 pages
Clustering
No ratings yet
Clustering
75 pages
Clustering
No ratings yet
Clustering
38 pages
Lecture 01 - Unsupervised Learning (Optional)
No ratings yet
Lecture 01 - Unsupervised Learning (Optional)
57 pages
AI20 - Hierarchical-Clustering
No ratings yet
AI20 - Hierarchical-Clustering
31 pages
22AIP3101A Session 9
No ratings yet
22AIP3101A Session 9
38 pages
Lecture 14 Clustering
0% (1)
Lecture 14 Clustering
57 pages
DSML-ML09. Unsupervised Learning
No ratings yet
DSML-ML09. Unsupervised Learning
69 pages
P 3.1.3 Hierarchical
No ratings yet
P 3.1.3 Hierarchical
30 pages
Un Supervised Learning
No ratings yet
Un Supervised Learning
22 pages
Cluster
100% (1)
Cluster
72 pages
ML Unit Iii
No ratings yet
ML Unit Iii
12 pages
DA (Course File)
No ratings yet
DA (Course File)
51 pages
ML Module 4 2022 1 PDF
No ratings yet
ML Module 4 2022 1 PDF
31 pages
Data Mining-Unit 3-Part1
No ratings yet
Data Mining-Unit 3-Part1
41 pages
Bilal Ahmed Shaik Data Mining
No ratings yet
Bilal Ahmed Shaik Data Mining
88 pages
Cluster Analysis: G Sreenivas
No ratings yet
Cluster Analysis: G Sreenivas
29 pages
Clustering Lecture
No ratings yet
Clustering Lecture
46 pages
Clustering: EE-671 Prof L. Behera, IITK
No ratings yet
Clustering: EE-671 Prof L. Behera, IITK
33 pages
Dynamics of Digital Change - Measuring The Digital Transformation and Its Impacts On The Innovation Activities of SMEs
No ratings yet
Dynamics of Digital Change - Measuring The Digital Transformation and Its Impacts On The Innovation Activities of SMEs
24 pages
Clustering
No ratings yet
Clustering
39 pages
Clustering Hierarchical PDF
No ratings yet
Clustering Hierarchical PDF
31 pages
Mining Massive RFID, Trajectory, and Traffic Data
No ratings yet
Mining Massive RFID, Trajectory, and Traffic Data
26 pages
Article Segmentation Clients
No ratings yet
Article Segmentation Clients
6 pages
Detection of Fake News Posts On Facebook
No ratings yet
Detection of Fake News Posts On Facebook
6 pages
Ayush File 1
No ratings yet
Ayush File 1
37 pages
Clustering Algorithm
No ratings yet
Clustering Algorithm
17 pages
Khuraijam Shitle Kumar Manipur University: Clustered Based Analysis and Forecasting of COVID-19 Cases in NE India
No ratings yet
Khuraijam Shitle Kumar Manipur University: Clustered Based Analysis and Forecasting of COVID-19 Cases in NE India
33 pages
AI ML Introduction1A
No ratings yet
AI ML Introduction1A
95 pages
An Incremental K-Means Algorithm
No ratings yet
An Incremental K-Means Algorithm
14 pages
K Means Clustering
No ratings yet
K Means Clustering
11 pages
RDM Slides Clustering With R 1
No ratings yet
RDM Slides Clustering With R 1
64 pages
P1415 ISBSGR12DataAnalytics Sarayreh
No ratings yet
P1415 ISBSGR12DataAnalytics Sarayreh
15 pages
L Moments
No ratings yet
L Moments
39 pages
Machine Learning - Machine - Learning - Tutorial
No ratings yet
Machine Learning - Machine - Learning - Tutorial
35 pages
Pattern Recognition Unit 1 Chat GPT
No ratings yet
Pattern Recognition Unit 1 Chat GPT
13 pages
UNIT4 Clustering
No ratings yet
UNIT4 Clustering
30 pages
2 - Review Article - Introduction To Multivariate Analysis
No ratings yet
2 - Review Article - Introduction To Multivariate Analysis
8 pages
LogSig Generating System Events From Raw Textual Logs
No ratings yet
LogSig Generating System Events From Raw Textual Logs
10 pages
Roelandt 1999 Cluster Analysis
No ratings yet
Roelandt 1999 Cluster Analysis
17 pages
Lecture32 K-Means Clustering Exercise
No ratings yet
Lecture32 K-Means Clustering Exercise
2 pages
The Role of Big Data in Improving Power System Operation and Protection
No ratings yet
The Role of Big Data in Improving Power System Operation and Protection
9 pages
BDA IAT2 Theory
No ratings yet
BDA IAT2 Theory
7 pages
Science BSC Information Technology Semester 6 2024 April Business Intelligence Cbcs
No ratings yet
Science BSC Information Technology Semester 6 2024 April Business Intelligence Cbcs
2 pages
Machine Learning and Business Analytics Surprize Quiz
No ratings yet
Machine Learning and Business Analytics Surprize Quiz
5 pages

Unit 4 Clustering

Uploaded by

Unit 4 Clustering

Uploaded by

CLUSTERING

• Discover new categories in an unsupervised manner

Manhattan (p=1), Euclidean (p=2)

• How to decide the K value

m : any real number greater than 1

K-Means Algorithm Fuzzy C Means Algorithm

fish reptile amphib. mammal worm insect crustacean

• Recursive approach of a standard clustering is used

• Assumes a similarity function for determining

• Use maximum similarity of pairs:

sim(ci ,c j )  max sim( x, y )

• Can result in “straggly” (long and thin) clusters

• Use minimum similarity of pairs:

sim(ci ,c j )  min sim( x, y )

• Makes more “tight,” spherical clusters that are

• Use average similarity across all pairs within the

• Compromise between single and complete link.

You might also like