Data Mining-Constraint Based Cluster Analysis

Constraint-based clustering finds clusters that satisfy user-specified constraints, such as the expected number of clusters or minimum/maximum cluster size. There are several categories of constraints, including constraints on individual objects, clustering parameters, distance/similarity functions, and properties of individual clusters. Clustering with obstacle objects requires redefining the distance function, as straight-line distance is meaningless when there are obstacles like rivers. Semi-supervised clustering uses both labeled data and constraints to modify the clustering objective function.

Uploaded by

Raj Endran

Available Formats

Download as PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

1K views

Data Mining-Constraint Based Cluster Analysis

Uploaded by

Raj Endran

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

CLUSTERING CONSTRAINT BASED CLUSTER

ANALYSIS
Constraint based Clustering
Constraint based Clustering finds clusters that
satisfy user-specified preferences or constraints
Desirable to have the Clustering process take the user
preferences and constraints into consideration
Expected number of clusters
Maximal / Minimal Cluster size
Weights for dimensions / Important dimensions
Mining becomes focused
Categories of Constraints
Constraints on Individual objects

Ex: Luxury mansions worth over a million dollars

Processed through selection

Constraints on the selection of Clustering parameters

Number of clusters, radius, MinPts

Not strictly constraint based clustering

Constraints on distance or similarity functions

Different measures for specific attributes /

Objects

Weighting process Clustering with obstacle

objects
User specified constraints on properties of individual
clusters

Clusters satisfy given properties

Semi-supervised clustering based on partial
supervision

Pair-wise constraints

Clustering with Obstacle Objects

City rivers, lakes, bridges, roads etc
Obstacles must be avoided
Distance function between objects must be re-defined
Straight ine distance is meaningless
When using a partitioning approach distance
calculation with obstacles becomes expensive
k-means not suitable as cluster centre may lie
on an obstacle
k-medoids can be used and distance between
objects can be determined using triangulation
Point p is visible from q in region R if straight line
between p and q does not intersect any obstacle
Visibility graph - VG
Each vertex of the obstacle has a corresponding
node
Edge between two vertices only if they are visible
to each other
Additional points can be added and paths can be
determined
To reduce cost of distance computation points can be
grouped into micro-clusters
Triangulate a region
Group nearby points in same triangle into micro
clusters
Process micro-clusters instead of points
Computation of shortest paths in terms of:

VV indices pair of obstacle objects

MV indices for pair of micro-cluster and

obstacle objects

User-Constrained Cluster Analysis

Example: Relocating package delivery centres
N customers : high-value and ordinary customers
Determine locations for k service stations
Constraints
Each station should server
At least 100 high value customers
At least 5000 ordinary customers
Constrained Optimization problem
Direct Mathematical approach is expensive
Micro-Clustering
Initially find a partition of k-groups satisfying given

constraints
Iteratively refine solution
Move m customers from cluster Ci to Cj if Ci has
atleast m surplus customers
Movement done if total sum of distances (objects
Centers) is reduced
Can be directed by selecting promising points
Dead lock has to be avoided (constraint cannot be
satisfied)
Instead of points can work on micro-clusters
Semi-Supervised Cluster Analysis
Constraint based Semi-supervised Clustering
Relies on user provided labels or constraints
Initialize based on labeled objects
Modify Objective function
Distance based Semi-supervised clustering
Adaptive distance measure trained to satisfy
labels or constraints

CLTree (Clustering based on decision TREEs)

Integrates
unsupervised
clustering
with
supervised classification
Transforms clustering task into Classification

Points to be clustered Y

Adds a set of non-existence points - N

Non-existence points

Not added physically

For decision tree construction only number of N
points are needed not actual points
At the root node, the number of inherited N
points is 0.
At any current node, E, if the number of N
points inherited from the parent node of E is less
than the number of Y points in E, then the
number of N points for E is increased to the
number of Y points in E.
Basic idea is to use an equal number of N
points to the number of Y points.
Decision tree Splitting
Information gain
CLTree forms initial cuts and looks ahead to find
better partitions that cut less into cluster regions
CLTree
Handles high dimensional space
Sub space clusters are determined
Empty regions can also be detected

Unit 2 Foundations For Visualization
No ratings yet
Unit 2 Foundations For Visualization
25 pages
Step Ahead Biology Form 4
84% (25)
Step Ahead Biology Form 4
218 pages
CS3492 DBMS Notes
No ratings yet
CS3492 DBMS Notes
165 pages
R - Lab Manual (2022-23)
No ratings yet
R - Lab Manual (2022-23)
36 pages
HG
No ratings yet
HG
6 pages
Differentiated Lesson
No ratings yet
Differentiated Lesson
3 pages
WEB CONNECTIVITY FOR CONNECTED DEVICES
No ratings yet
WEB CONNECTIVITY FOR CONNECTED DEVICES
16 pages
Cs8351 Digital Principles and System Design
No ratings yet
Cs8351 Digital Principles and System Design
161 pages
Cs6402 DAA Notes (Unit-3)
No ratings yet
Cs6402 DAA Notes (Unit-3)
25 pages
Algorithms For Array Traversal
No ratings yet
Algorithms For Array Traversal
1 page
2 Marks With Answer
No ratings yet
2 Marks With Answer
30 pages
5th Sem MCA Mini Project Report Format (Vtu) - 2016
No ratings yet
5th Sem MCA Mini Project Report Format (Vtu) - 2016
22 pages
R20 JNTUK EEE IOT LAB Manual Final Print
No ratings yet
R20 JNTUK EEE IOT LAB Manual Final Print
58 pages
Dominators Global Data Flow Analysis
No ratings yet
Dominators Global Data Flow Analysis
30 pages
Data Visualization Using Tableau: A LAB Manual Cum Work Book
100% (1)
Data Visualization Using Tableau: A LAB Manual Cum Work Book
6 pages
CS3492 Database Management Systems Question Bank 1
No ratings yet
CS3492 Database Management Systems Question Bank 1
11 pages
Information Storage and Management CSE Final Year Notes, Books, Ebook PDF Download
No ratings yet
Information Storage and Management CSE Final Year Notes, Books, Ebook PDF Download
57 pages
DBMS ER Design Issues - Copy Unit.2
No ratings yet
DBMS ER Design Issues - Copy Unit.2
2 pages
Unit 2 - RELATIONAL MODEL
No ratings yet
Unit 2 - RELATIONAL MODEL
28 pages
Advanced Computer Architecture
No ratings yet
Advanced Computer Architecture
2 pages
Module II
No ratings yet
Module II
22 pages
CCS356 Object Oriented Software Engineering Lecture Notes 1
No ratings yet
CCS356 Object Oriented Software Engineering Lecture Notes 1
222 pages
SDN Notes
No ratings yet
SDN Notes
117 pages
4th Sem Syllabus of RGPV Bhopal Cse
No ratings yet
4th Sem Syllabus of RGPV Bhopal Cse
14 pages
CS8081-IoT-UNIT 1
No ratings yet
CS8081-IoT-UNIT 1
24 pages
Mini Project PPT 5TH SEM VTU
No ratings yet
Mini Project PPT 5TH SEM VTU
9 pages
Unit I-Introduction
100% (1)
Unit I-Introduction
23 pages
Naming and Addressing
No ratings yet
Naming and Addressing
5 pages
CSM Laboratory Manual Edited
No ratings yet
CSM Laboratory Manual Edited
22 pages
Data Mining-Graph Mining
No ratings yet
Data Mining-Graph Mining
9 pages
Ccs341 DW Lab Manual Chumma Chumma Practical Notes
No ratings yet
Ccs341 DW Lab Manual Chumma Chumma Practical Notes
89 pages
CS3492 DBMS Univ - QP Answer AM 2024
No ratings yet
CS3492 DBMS Univ - QP Answer AM 2024
19 pages
Decision Tree Induction Algorithm
No ratings yet
Decision Tree Induction Algorithm
2 pages
Boundary Descriptor
100% (1)
Boundary Descriptor
10 pages
Computer Networking Imp
No ratings yet
Computer Networking Imp
43 pages
Enhanced Data Models For Advanced Applications
91% (11)
Enhanced Data Models For Advanced Applications
15 pages
Dbms Lab Manual II Cse II Sem
No ratings yet
Dbms Lab Manual II Cse II Sem
58 pages
Q. Explain Booch Methodology. Booch Method:: Notation
No ratings yet
Q. Explain Booch Methodology. Booch Method:: Notation
7 pages
Anna University Coimbatore: Format For Preparation of Project Report
No ratings yet
Anna University Coimbatore: Format For Preparation of Project Report
15 pages
Enhancing CC Environment Using A Cluster As A Service
100% (1)
Enhancing CC Environment Using A Cluster As A Service
40 pages
Review Questions - Dpco - Unit Wise
0% (1)
Review Questions - Dpco - Unit Wise
4 pages
Cs9251 Mobile Computing Question Bank
No ratings yet
Cs9251 Mobile Computing Question Bank
16 pages
Database Design and Management Laboratory Manual
No ratings yet
Database Design and Management Laboratory Manual
46 pages
DAA Question Bank
No ratings yet
DAA Question Bank
9 pages
R23 Java PDF
No ratings yet
R23 Java PDF
41 pages
Unit-2 Solution
No ratings yet
Unit-2 Solution
22 pages
Module-4 Cloud Computing Architecture PDF
No ratings yet
Module-4 Cloud Computing Architecture PDF
19 pages
UNIT-1 Introduction To Data Mining
No ratings yet
UNIT-1 Introduction To Data Mining
29 pages
Unit II - Perceptron
No ratings yet
Unit II - Perceptron
20 pages
DV Lab Manual
No ratings yet
DV Lab Manual
38 pages
Vlsi Front-End Desgin
No ratings yet
Vlsi Front-End Desgin
40 pages
Unit - 2 Sensor Networks - Introduction & Architectures
No ratings yet
Unit - 2 Sensor Networks - Introduction & Architectures
32 pages
CN Lab Manual ECE 6th Sem
50% (2)
CN Lab Manual ECE 6th Sem
49 pages
Information Storage and Management
100% (1)
Information Storage and Management
2 pages
DWDM Notes/Unit 1
No ratings yet
DWDM Notes/Unit 1
31 pages
Cs3591 CN Unit 4 Notes Eduengg
No ratings yet
Cs3591 CN Unit 4 Notes Eduengg
21 pages
7 Oral Question Bank Te Computer
No ratings yet
7 Oral Question Bank Te Computer
8 pages
SC&RP - Unit 5
No ratings yet
SC&RP - Unit 5
36 pages
Probability and Statistics - MA3391 - Important Questions and 2 Marks With Answer - Unit 1 and 2
No ratings yet
Probability and Statistics - MA3391 - Important Questions and 2 Marks With Answer - Unit 1 and 2
42 pages
Jntuh Iot Le Cture Notes
No ratings yet
Jntuh Iot Le Cture Notes
93 pages
ML_lecture14
No ratings yet
ML_lecture14
17 pages
KMeans_Clustering
No ratings yet
KMeans_Clustering
11 pages
Data Mining-Mining Sequence Patterns in Biological Data
No ratings yet
Data Mining-Mining Sequence Patterns in Biological Data
6 pages
Data Mining-Mining Time Series Data
0% (1)
Data Mining-Mining Time Series Data
7 pages
Data Mining-Model Based Clustering
No ratings yet
Data Mining-Model Based Clustering
8 pages
Data Mining - Mining Sequential Patterns
No ratings yet
Data Mining - Mining Sequential Patterns
10 pages
5.1 Mining Data Streams
No ratings yet
5.1 Mining Data Streams
16 pages
Data Mining-Multimedia Datamining
No ratings yet
Data Mining-Multimedia Datamining
8 pages
Data Mining-Partitioning Methods
100% (1)
Data Mining-Partitioning Methods
7 pages
Data Mining-Spatial Data Mining
No ratings yet
Data Mining-Spatial Data Mining
8 pages
Data Mining-Outlier Analysis
No ratings yet
Data Mining-Outlier Analysis
6 pages
Data Mining-Backpropagation
100% (1)
Data Mining-Backpropagation
5 pages
Data Mining - Bayesian Classification
No ratings yet
Data Mining - Bayesian Classification
6 pages
Data Mining - Other Classifiers
No ratings yet
Data Mining - Other Classifiers
7 pages
Data Mining - Discretization
100% (1)
Data Mining - Discretization
5 pages
Data Mining-Rule Based Classification
No ratings yet
Data Mining-Rule Based Classification
4 pages
02 Data Mining-Partitioning Method
No ratings yet
02 Data Mining-Partitioning Method
8 pages
Data Mining - Data Reduction
No ratings yet
Data Mining - Data Reduction
6 pages
Data Mining - Outlier Analysis
100% (3)
Data Mining - Outlier Analysis
11 pages
Data Mining-Data Warehouse
No ratings yet
Data Mining-Data Warehouse
7 pages
Data Mining-Applications, Issues
No ratings yet
Data Mining-Applications, Issues
9 pages
Data Mining - Density Based Clustering
No ratings yet
Data Mining - Density Based Clustering
8 pages
08 Data Mining-Other Classifications
No ratings yet
08 Data Mining-Other Classifications
4 pages
Kunal, How Did It All Start, You in The I.T. Field?
No ratings yet
Kunal, How Did It All Start, You in The I.T. Field?
5 pages
Kit de Embrague KASHIMA
No ratings yet
Kit de Embrague KASHIMA
13 pages
Metal Enclosed Non-Segregated Bus Duct: GE Industrial Solutions
No ratings yet
Metal Enclosed Non-Segregated Bus Duct: GE Industrial Solutions
2 pages
B.O.Q of Electro-Mechanical Works 13
No ratings yet
B.O.Q of Electro-Mechanical Works 13
1 page
Girish Resume
No ratings yet
Girish Resume
2 pages
Cylinder Colour Change For BOC Special Products: What Is Happening?
No ratings yet
Cylinder Colour Change For BOC Special Products: What Is Happening?
3 pages
Ditila Wireless Telephone Motorola 720
No ratings yet
Ditila Wireless Telephone Motorola 720
108 pages
Introduction To Educational Technology
No ratings yet
Introduction To Educational Technology
8 pages
How To Select A Mini Split System
No ratings yet
How To Select A Mini Split System
8 pages
01-Marketing Channel Concepts
No ratings yet
01-Marketing Channel Concepts
27 pages
ab-20-07-000_nor_n_en_2004-11-05
No ratings yet
ab-20-07-000_nor_n_en_2004-11-05
4 pages
PEO SUB NSL Symposium FINAL 24 Oct 13
No ratings yet
PEO SUB NSL Symposium FINAL 24 Oct 13
22 pages
Aiwa HV-FX5950 EN DE IT NL PDF
No ratings yet
Aiwa HV-FX5950 EN DE IT NL PDF
30 pages
Pipe Facts
No ratings yet
Pipe Facts
30 pages
Tm1 Server Administration
No ratings yet
Tm1 Server Administration
13 pages
T115 - Hydro Turbines Maintenance PDF
100% (1)
T115 - Hydro Turbines Maintenance PDF
33 pages
Pressure Switch: Model: SD-PS Series
No ratings yet
Pressure Switch: Model: SD-PS Series
3 pages
Bosch Multi Functional Catalog
No ratings yet
Bosch Multi Functional Catalog
2 pages
Ited 1090 0033ca
No ratings yet
Ited 1090 0033ca
6 pages
AngularJS Training Course
No ratings yet
AngularJS Training Course
3 pages
Lecture 3.1.3 Edge Detection
No ratings yet
Lecture 3.1.3 Edge Detection
12 pages
SSCK 1203 Data Analysis 090214 Students 01
No ratings yet
SSCK 1203 Data Analysis 090214 Students 01
33 pages
B and G Footwear PVT - LTD
No ratings yet
B and G Footwear PVT - LTD
11 pages
Gfu10 - 46324 (Wika)
100% (1)
Gfu10 - 46324 (Wika)
24 pages
What Is Business Architecture
No ratings yet
What Is Business Architecture
4 pages
Product Information.: Technical Training. F01/F02 LCI Infotainment
No ratings yet
Product Information.: Technical Training. F01/F02 LCI Infotainment
30 pages
20mm Automatic ANM2
100% (1)
20mm Automatic ANM2
108 pages
EMU40CLP 115-127 V 60 HZ 1
No ratings yet
EMU40CLP 115-127 V 60 HZ 1
4 pages