0% found this document useful (0 votes)

8 views15 pages

Hierarchical 4 4 03

Uploaded by

Sadia Afroze

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views15 pages

Hierarchical 4 4 03

Uploaded by

Sadia Afroze

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 15

4.

Ad-hoc I: Hierarchical clustering

Hierarchical versus Flat
Flat methods generate a single partition into k clusters. The number k
of clusters has to be determined by the user ahead of time.
Hierarchical methods generate a hierarchy of partitions, i.e.
• a partition P1 into 1 clusters (the entire collection)
• a partition P2 into 2 clusters
…
• a partition Pn into n clusters (each object forms its own cluster)

It is then up to the user to decide which of the partitions reflects actual

sub-populations in the data.
Note: A sequence of partitions is called "hierarchical" if each cluster
in a given partition is the union of clusters in the next larger partition.
P4 P3 P2 P1

Top: hierarchical sequence of partitions

Bottom: non hierarchical sequence
Hierarchical methods again come in two varieties, agglomerative
and divisive.

Agglomerative methods:
• Start with partition Pn, where each object forms its own cluster.
• Merge the two closest clusters, obtaining Pn-1.
• Repeat merge until only one cluster is left.

Divisive methods
• Start with P1.
• Split the collection into two clusters that are as homogenous (and as
different from each other) as possible.
• Apply splitting procedure recursively to the clusters.
Note:
Agglomerative methods require a rule to decide which clusters to
merge.
Typically one defines a distance between clusters and then merges
the two clusters that are closest.

Divisive methods require a rule for splitting a cluster.

4.1 Hierarchical agglomerative clustering
Need to define a distance d(P,Q) between groups, given a distance
measure d(x,y) between observations.
Commonly used distance measures:
1. d1(P,Q) = min d(x,y), for x in P, y in Q ( single linkage )
2. d2(P,Q) = ave d(x,y), for x in P, y in Q ( average linkage )
3. d3(P,Q) = max d(x,y), for x in P, y in Q ( complete linkage )
d 4 ( P , Q )  x P  xQ
4. ( centroid method )
P Q 2
d 5 ( P , Q) 2 x P  xQ
5. P Q ( Ward’s method )
d5 is called Ward’s distance.
Motivation for Ward’s distance:
• Let Pk = P1 ,…, Pk be a partition of the observations into k groups.
• Measure goodness of a partition by the sum of squared distances of
observations from their cluster means:
k 2

RSS ( Pk )   x j  x Pi
i 1 j Pi

• Consider all possible (k-1)-partitions obtainable from Pk by a merge

• Merging two clusters with smallest Ward’s distance optimizes
goodness of new partition.
4.2 Hierarchical divisive clustering
There are divisive versions of single linkage, average linkage, and
Ward’s method.
Divisive version of single linkage:
• Compute minimal spanning tree (graph connecting all the objects
with smallest total edge length.
• Break longest edge to obtain 2 subtrees, and a corresponding
partition of the objects.
• Apply process recursively to the subtrees.
Agglomerative and divisive versions of single linkage give identical
results (more later).
Divisive version of Ward’s method.
Given cluster R.
Need to find split of R into 2 groups P,Q to minimize

2
RSS ( P , Q)  x i  x P   x j  xQ
2

i P j Q

or, equivalently, to maximize Ward’s distance between P and Q.

Note: No computationally feasible method to find optimal P, Q for

large |R|. Have to use approximation.
Iterative algorithm to search for the optimal Ward’s split
Project observations in R on largest principal component.
Split at median to obtain initial clusters P, Q.
Repeat {
Assign each observation to cluster with closest mean
Re-compute cluster means
} Until convergence

Note:
• Each step reduces RSS(P, Q)
• No guarantee to find optimal partition.
Divisive version of average linkage
Algorithm Diana, Struyf, Hubert, and Rousseuw, pp. 22
4.3 Dendograms
Result of hierarchical clustering can be represented as binary tree:
• Root of tree represents entire collection
• Terminal nodes represent observations
• Each interior node represents a cluster
• Each subtree represents a partition

Note: The tree defines many more partitions than the n-2 nontrivial
ones constructed during the merge (or split) process.
Note: For HAC methods, the merge order defines a sequence of n
subtrees of the full tree. For HDC methods a sequence of subtrees can
be defined if there is a figure of merit for each split.
If distance between daughter clusters is monotonically increasing as
we move up the tree, we can draw dendogram:
y-coordinate of vertex = distance between daughter clusters.

Point set and corresponding single linkage dendogram

Observations Single linkage dendogram
3.0

2.5
4
2.5

2.0
2.0

1.5
x[,2]

1.5

4
1.0

1.0
0.5

2
0.5
0.0

1
1

2
0.0 0.5 1.0 1.5 2.0 2.5 3.0
x[,1]
Standard method to extract clusters from a dendogram:
• Pick number of clusters k.
• Cut dendogram at a level that results in k subtrees.
4.4 Experiment
Try hierarchical method on unimodal 2D datasets.

Experiments suggest:

• Except in completely clear-cut situations, tree cutting (“cutree”)

is useless for extracting clusters from a dendogram.
• Complete linkage fails completely for elongated clusters.
Needed:

• Diagnostics to decide whether the daughters of a dendogram

node really correspond to spatially separated clusters.
• Automatic and manual methods for dendogram pruning.
• Methods for assigning observations in pruned subtrees to
clusters.

CPT Coding
No ratings yet
CPT Coding
10 pages
Orange Data Mining Tool: Presentation
No ratings yet
Orange Data Mining Tool: Presentation
57 pages
Agglomerative Hierarchical Clustering Algorithm-A Review: K.Sasirekha, P.Baby
No ratings yet
Agglomerative Hierarchical Clustering Algorithm-A Review: K.Sasirekha, P.Baby
3 pages
Adaptive Filtering Prediction and Control
From Everand
Adaptive Filtering Prediction and Control
Graham C Goodwin
No ratings yet
AI20 - Hierarchical-Clustering
No ratings yet
AI20 - Hierarchical-Clustering
31 pages
Stat401 ch6
No ratings yet
Stat401 ch6
37 pages
Example For Agglomerative Clustering
No ratings yet
Example For Agglomerative Clustering
2 pages
Hierarchical
No ratings yet
Hierarchical
31 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
4 pages
20 - 1 - ML - UNSUP - 02 - Hierarchical Clustering
No ratings yet
20 - 1 - ML - UNSUP - 02 - Hierarchical Clustering
41 pages
Un Supervised Learning
No ratings yet
Un Supervised Learning
22 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
26 pages
Agnes
No ratings yet
Agnes
25 pages
Hierarchical Clustering: Relationship Between Clusters
No ratings yet
Hierarchical Clustering: Relationship Between Clusters
23 pages
13 Birch
No ratings yet
13 Birch
8 pages
Hierarchical
No ratings yet
Hierarchical
2 pages
Clustering Hierarchical PDF
No ratings yet
Clustering Hierarchical PDF
31 pages
Unit 3 Clustering
No ratings yet
Unit 3 Clustering
101 pages
Cluster Analysis
No ratings yet
Cluster Analysis
30 pages
Unit-6 Clustering Techniques
No ratings yet
Unit-6 Clustering Techniques
110 pages
Module-5-Cluster Analysis-Part1
No ratings yet
Module-5-Cluster Analysis-Part1
24 pages
Hierarchical Clustering in Machine Learning
No ratings yet
Hierarchical Clustering in Machine Learning
10 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
41 pages
Hierarchical Clustering - 11.3.2024 - Full
No ratings yet
Hierarchical Clustering - 11.3.2024 - Full
14 pages
CLUSTERING
No ratings yet
CLUSTERING
16 pages
ML TCS Lecture Hierarchical 1608
No ratings yet
ML TCS Lecture Hierarchical 1608
41 pages
Pattern Recognition 21BR551 MODULE 04 NOTES
No ratings yet
Pattern Recognition 21BR551 MODULE 04 NOTES
16 pages
Unit-4 New
No ratings yet
Unit-4 New
36 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
6 pages
6 - Chapter 6 - Hierarchical Clustering
No ratings yet
6 - Chapter 6 - Hierarchical Clustering
32 pages
Cluster Analysis
No ratings yet
Cluster Analysis
6 pages
ML Lec-17
No ratings yet
ML Lec-17
12 pages
Hierarchical Clustering Methods
No ratings yet
Hierarchical Clustering Methods
22 pages
Hierarchical Clustering: Required Data
No ratings yet
Hierarchical Clustering: Required Data
6 pages
Partition
No ratings yet
Partition
52 pages
Clustring
No ratings yet
Clustring
20 pages
Hierarchical Clustering Unit 4 ML
No ratings yet
Hierarchical Clustering Unit 4 ML
14 pages
Hierar Scale4
No ratings yet
Hierar Scale4
51 pages
P 3.1.3 Hierarchical
No ratings yet
P 3.1.3 Hierarchical
30 pages
Heirarchical Clustering
No ratings yet
Heirarchical Clustering
22 pages
Phân Cấp Phân Cụm
No ratings yet
Phân Cấp Phân Cụm
17 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
23 pages
Cluster Analysis BRM Session 14
No ratings yet
Cluster Analysis BRM Session 14
25 pages
Performance Evaluation of Distance Metrics in The Clustering Algorithms
No ratings yet
Performance Evaluation of Distance Metrics in The Clustering Algorithms
14 pages
Hierarchical Clustering PDF
No ratings yet
Hierarchical Clustering PDF
5 pages
Clustering Analysis
No ratings yet
Clustering Analysis
19 pages
Lec.4.D. M. Spring 2025
No ratings yet
Lec.4.D. M. Spring 2025
19 pages
Lecture 4
No ratings yet
Lecture 4
6 pages
Cluster Analysis Concept & Methods
No ratings yet
Cluster Analysis Concept & Methods
14 pages
Aula - Análise de Clusters
No ratings yet
Aula - Análise de Clusters
93 pages
MA Unit 5
No ratings yet
MA Unit 5
7 pages
Hierarchical Clustering: Class Program University Semester Lecturer Sources
100% (1)
Hierarchical Clustering: Class Program University Semester Lecturer Sources
33 pages
Agglomerative Clustering
No ratings yet
Agglomerative Clustering
6 pages
Data Mining Functionalities
No ratings yet
Data Mining Functionalities
13 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
10 pages
RK Clustering
No ratings yet
RK Clustering
77 pages
DWM Exp8 127 133 137
No ratings yet
DWM Exp8 127 133 137
4 pages
Introduction To Clustering: Alka Arora Sr. Scientist
No ratings yet
Introduction To Clustering: Alka Arora Sr. Scientist
57 pages
Lect 11 DM
No ratings yet
Lect 11 DM
41 pages
Week-9-Part-2 Agglomerative Clustering
No ratings yet
Week-9-Part-2 Agglomerative Clustering
40 pages
Flood Fill: Flood Fill: Exploring Computer Vision's Dynamic Terrain
From Everand
Flood Fill: Flood Fill: Exploring Computer Vision's Dynamic Terrain
Fouad Sabry
No ratings yet
The Tech Interview Playbook: From DSA to System Design
From Everand
The Tech Interview Playbook: From DSA to System Design
Chinmoy Mukherjee
No ratings yet
Artificial Intelligence in Medicine
100% (2)
Artificial Intelligence in Medicine
8 pages
Prediction of Hyperkalemia in ESRD Patients by Identification of Multiple Leads and Multiple Features On ECG
No ratings yet
Prediction of Hyperkalemia in ESRD Patients by Identification of Multiple Leads and Multiple Features On ECG
11 pages
Landing Trajectory Prediction For UAS Based On Generative Adversarial Network
No ratings yet
Landing Trajectory Prediction For UAS Based On Generative Adversarial Network
10 pages
F# For Machine Learning Essentials - Sample Chapter
No ratings yet
F# For Machine Learning Essentials - Sample Chapter
29 pages
Control Design - 2024 SOT Report Sensors, Vision & Machine Safety
No ratings yet
Control Design - 2024 SOT Report Sensors, Vision & Machine Safety
23 pages
ICAIET Program (29-30 Nov 2023)
No ratings yet
ICAIET Program (29-30 Nov 2023)
15 pages
Data Science Course Syllabus
No ratings yet
Data Science Course Syllabus
19 pages
? Shirish Shankar Singarao Today Latest Resume 2025
No ratings yet
? Shirish Shankar Singarao Today Latest Resume 2025
2 pages
ML Clustering
No ratings yet
ML Clustering
3 pages
DDoS Attacks Mitigation A Review of AI-Based Strategies and Techniques
No ratings yet
DDoS Attacks Mitigation A Review of AI-Based Strategies and Techniques
6 pages
Deep Learning Quantum
No ratings yet
Deep Learning Quantum
124 pages
Learning in Multi-Layer Perceptrons - Back-Propagation: Neural Computation: Lecture 7
No ratings yet
Learning in Multi-Layer Perceptrons - Back-Propagation: Neural Computation: Lecture 7
20 pages
Mastering The AI ML 1712588633
No ratings yet
Mastering The AI ML 1712588633
8 pages
Navigating The AI Landscape by Moody
No ratings yet
Navigating The AI Landscape by Moody
24 pages
Fabric Defect Detection System
No ratings yet
Fabric Defect Detection System
14 pages
Datasamples Ai Gwalior Machine Learning 1711364205
No ratings yet
Datasamples Ai Gwalior Machine Learning 1711364205
7 pages
Distributed Computing - CS3551 - Important Questions With Answer - Unit 3 - Distributed Mutex and Deadlock
No ratings yet
Distributed Computing - CS3551 - Important Questions With Answer - Unit 3 - Distributed Mutex and Deadlock
11 pages
Object Tracking Thesis PDF
100% (3)
Object Tracking Thesis PDF
8 pages
2 - Artificial Intelligence For Oral Squamous Cell Carcinoma Detection Based On Oral Photographs - A Comprehensive Literature Review.
No ratings yet
2 - Artificial Intelligence For Oral Squamous Cell Carcinoma Detection Based On Oral Photographs - A Comprehensive Literature Review.
12 pages
Overfitting Vs Underfitting
No ratings yet
Overfitting Vs Underfitting
8 pages
New Adversarial Image Detection Based On Sentiment Analysis
No ratings yet
New Adversarial Image Detection Based On Sentiment Analysis
15 pages
Suresh Ladki Baaz Ai
No ratings yet
Suresh Ladki Baaz Ai
10 pages
Fully Funded MASc and PHD Positions at UBC
No ratings yet
Fully Funded MASc and PHD Positions at UBC
1 page
Prediction of Compressive Strength of Research Paper
No ratings yet
Prediction of Compressive Strength of Research Paper
9 pages
Neural - Data - Science - 1 Spike Detection
No ratings yet
Neural - Data - Science - 1 Spike Detection
33 pages
Sem-Vi - Comp - Regular - Ai - May-2023.paper Solution
No ratings yet
Sem-Vi - Comp - Regular - Ai - May-2023.paper Solution
14 pages
Senthil Kumar - Amrita
No ratings yet
Senthil Kumar - Amrita
12 pages
AI900 Practice Test - Cloudthat Correct Answers
No ratings yet
AI900 Practice Test - Cloudthat Correct Answers
11 pages

Hierarchical 4 4 03

Uploaded by

Hierarchical 4 4 03

Uploaded by

4.

Ad-hoc I: Hierarchical clustering

It is then up to the user to decide which of the partitions reflects actual

Top: hierarchical sequence of partitions

Divisive methods require a rule for splitting a cluster.

• Consider all possible (k-1)-partitions obtainable from Pk by a merge

or, equivalently, to maximize Ward’s distance between P and Q.

Note: No computationally feasible method to find optimal P, Q for

Point set and corresponding single linkage dendogram

• Except in completely clear-cut situations, tree cutting (“cutree”)

• Diagnostics to decide whether the daughters of a dendogram

You might also like