0% found this document useful (0 votes)

14 views6 pages

Subspace Cluster I Nig

The document outlines the implementation of the PROCLUS subspace clustering algorithm using Python, including data preprocessing with StandardScaler and clustering on credit card customer data. It details the initialization of medoids, assignment of points to clusters, and calculation of cluster quality metrics such as the Davies-Bouldin and Dunn indices. The code also includes package installation and data loading steps, demonstrating a complete workflow for clustering analysis.

Uploaded by

12213106

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

14 views6 pages

Subspace Cluster I Nig

Uploaded by

12213106

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 6

import numpy as np

import pandas as pd

from sklearn.preprocessing import StandardScaler

from sklearn.metrics import davies_bouldin_score
from scipy.spatial.distance import cdist

import pyclustering.cluster.center_initializer as pyci

pip install pyclustering

Requirement already satisfied: pyclustering in c:\users\manvi\appdata\

local\programs\python\python311\lib\site-packages (0.10.1.2)
Requirement already satisfied: scipy>=1.1.0 in c:\users\manvi\appdata\
local\programs\python\python311\lib\site-packages (from pyclustering)
(1.11.3)
Requirement already satisfied: matplotlib>=3.0.0 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
pyclustering) (3.8.2)
Requirement already satisfied: numpy>=1.15.2 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
pyclustering) (1.26.4)
Requirement already satisfied: Pillow>=5.2.0 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
pyclustering) (9.5.0)
Requirement already satisfied: contourpy>=1.0.1 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (1.2.0)
Requirement already satisfied: cycler>=0.10 in c:\users\manvi\appdata\
local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (0.12.1)
Requirement already satisfied: fonttools>=4.22.0 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (4.47.2)
Requirement already satisfied: kiwisolver>=1.3.1 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (1.4.5)
Requirement already satisfied: packaging>=20.0 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (23.2)
Requirement already satisfied: pyparsing>=2.3.1 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (3.1.1)
Requirement already satisfied: python-dateutil>=2.7 in c:\users\manvi\
appdata\local\programs\python\python311\lib\site-packages (from
matplotlib>=3.0.0->pyclustering) (2.8.2)
Requirement already satisfied: six>=1.5 in c:\users\manvi\appdata\
local\programs\python\python311\lib\site-packages (from python-
dateutil>=2.7->matplotlib>=3.0.0->pyclustering) (1.16.0)
Note: you may need to restart the kernel to use updated packages.
data = pd.read_csv("Credit Card Customer Data.csv")
data.head()

Sl_No Customer Key Avg_Credit_Limit Total_Credit_Cards \

0 1 87073 100000 2
1 2 38414 50000 3
2 3 17341 50000 7
3 4 40496 30000 5
4 5 47437 100000 6

Total_visits_bank Total_visits_online Total_calls_made

0 1 1 0
1 0 10 9
2 1 3 4
3 1 1 4
4 0 12 3

import numpy as np
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import davies_bouldin_score
from scipy.spatial.distance import cdist

class PROCLUS:
def __init__(self, k, l, max_iter=10):
"""
PROCLUS Subspace Clustering Algorithm
:param k: Number of clusters
:param l: Number of dimensions per cluster
:param max_iter: Maximum iterations for convergence
"""
self.k = k
self.l = l
self.max_iter = max_iter
self.medoids = None
self.subspaces = None
self.clusters = None

def initialize_medoids(self, data):

""" Select initial medoids using a greedy selection. """
np.random.seed(42)
indices = np.random.choice(len(data), self.k, replace=False)
self.medoids = data[indices]

def compute_subspaces(self, data, clusters):

""" Determine relevant dimensions for each cluster. """
subspaces = []
for cluster in clusters:
if len(cluster) > 0:
cluster_data = data[cluster]
mean_dist = np.mean(np.abs(cluster_data -
np.mean(cluster_data, axis=0)), axis=0)
top_dims = np.argsort(mean_dist)[:self.l] # Select
lowest-variance dimensions
subspaces.append(top_dims)
else:
subspaces.append(np.random.choice(data.shape[1],
self.l, replace=False))
return subspaces

def assign_points(self, data, first_iter=False):

clusters = [[] for _ in range(len(self.medoids))]
for i, point in enumerate(data):
min_dist = float('inf')
best_cluster = -1
for cluster_id, medoid in enumerate(self.medoids):
if first_iter:
dist = np.linalg.norm(point - medoid) # full-
space distance
else:
subspace_dims = self.subspaces[cluster_id]
dist = np.sum(np.abs(point[subspace_dims] -
medoid[subspace_dims])) # Manhattan distance
if dist < min_dist:
min_dist = dist
best_cluster = cluster_id
clusters[best_cluster].append(i)
return clusters

def update_medoids(self, data, clusters):

""" Update medoids by selecting the most central point in each
cluster. """
new_medoids = []
for cluster in clusters:
if len(cluster) > 0:
cluster_data = data[cluster]
distances = np.sum(cdist(cluster_data, cluster_data,
metric='cityblock'), axis=1)
new_medoids.append(cluster_data[np.argmin(distances)])
else:
new_medoids.append(np.random.choice(data, 1)[0])
return np.array(new_medoids)

def fit(self, data):

self.initialize_medoids(data)

# Initial assignment before computing subspaces

initial_clusters = self.assign_points(data, first_iter=True)
self.subspaces = self.compute_subspaces(data, initial_clusters)

for _ in range(self.max_iter):
clusters = self.assign_points(data)
self.subspaces = self.compute_subspaces(data, clusters)
new_medoids = self.update_medoids(data, clusters)

if np.all(new_medoids == self.medoids):
break
self.medoids = new_medoids

return clusters

# Dunn Index Calculation

def dunn_index(self,data, clusters):
intra_dists = []
inter_dists = []

# Ensure clusters are not empty

valid_clusters = [cluster for cluster in clusters if
len(cluster) > 1]

for cluster in valid_clusters:

cluster_data = data[cluster]
intra_dists.append(np.max(cdist(cluster_data,
cluster_data, metric='euclidean')))

for i in range(len(valid_clusters)):
for j in range(i + 1, len(valid_clusters)):

inter_dists.append(np.min(cdist(data[valid_clusters[i]],
data[valid_clusters[j]], metric='euclidean')))

if len(inter_dists) == 0 or len(intra_dists) == 0:
return float("inf") # Return infinity if calculation is
not possible

return min(inter_dists) / max(intra_dists)

# Load Sample Credit Card Data

df = pd.read_csv("Credit Card Customer Data.csv")
df.head()

Sl_No Customer Key Avg_Credit_Limit Total_Credit_Cards \

0 1 87073 100000 2
1 2 38414 50000 3
2 3 17341 50000 7
3 4 40496 30000 5
4 5 47437 100000 6

Total_visits_bank Total_visits_online Total_calls_made

0 1 1 0
1 0 10 9
2 1 3 4
3 1 1 4
4 0 12 3

scaler = StandardScaler()
data_scaled = scaler.fit_transform(df)
print(data_scaled)

[[-1.72942847 1.24691971 1.74018685 ... -0.86045063 -0.54748969

-1.25153737]
[-1.72417983 -0.65320273 0.41029254 ... -1.47373077 2.5205186
1.89185881]
[-1.71893118 -1.47609839 0.41029254 ... -0.86045063 0.13428993
0.1455276 ]
...
[ 1.71893118 -0.05105538 2.93709172 ... -0.86045063 2.17962879
-0.90227113]
[ 1.72417983 0.99629832 3.65523464 ... -0.86045063 4.22496765
-1.25153737]
[ 1.72942847 0.97657819 3.52224521 ... -1.47373077 3.20229822
-0.55300488]]

# Run PROCLUS
k = 5 # Number of clusters
l = 3 # Subspace dimensionality
proclus = PROCLUS(k, l)
clusters = proclus.fit(data_scaled)

# Assign Labels
labels = np.zeros(len(data_scaled))
for cluster_id, cluster in enumerate(clusters):
for index in cluster:
labels[index] = cluster_id

# Compute Cluster Quality

db_index = davies_bouldin_score(data_scaled, labels)
dunn = proclus.dunn_index(data_scaled, clusters)

print(f"Davies-Bouldin Index: {db_index}")

print(f"Dunn Index: {dunn}")
Davies-Bouldin Index: 2.1216181090876955
Dunn Index: 0.05855920277922305

AbidAdhikari26840 DWDM
No ratings yet
AbidAdhikari26840 DWDM
43 pages
Clustering
No ratings yet
Clustering
1 page
UNIT 3-Clustering Metrics
No ratings yet
UNIT 3-Clustering Metrics
54 pages
Casos de ML Unsupervised Daniel Ames Camayo
No ratings yet
Casos de ML Unsupervised Daniel Ames Camayo
20 pages
PyCon2018 Talk 2
No ratings yet
PyCon2018 Talk 2
104 pages
Assignment # 1: Performance Timeline of Flynn Taxonomy
No ratings yet
Assignment # 1: Performance Timeline of Flynn Taxonomy
21 pages
Prasun Kumar - Assignment1
100% (1)
Prasun Kumar - Assignment1
9 pages
K-Means PHP
100% (1)
K-Means PHP
4 pages
EDA Plots Code
No ratings yet
EDA Plots Code
13 pages
Data Mining Assignment No. 1
No ratings yet
Data Mining Assignment No. 1
22 pages
DWDM Lab All
No ratings yet
DWDM Lab All
20 pages
Wa0003
No ratings yet
Wa0003
16 pages
Prac7 8 9 10
No ratings yet
Prac7 8 9 10
12 pages
DWM Practical
No ratings yet
DWM Practical
12 pages
DM Lab Internal
No ratings yet
DM Lab Internal
37 pages
Practical 5
No ratings yet
Practical 5
6 pages
Lab4 KNN
No ratings yet
Lab4 KNN
9 pages
DSM 3
No ratings yet
DSM 3
6 pages
AdityaGaur BDA Exp8
No ratings yet
AdityaGaur BDA Exp8
4 pages
IDM Assignment
No ratings yet
IDM Assignment
15 pages
Python DM Lab Manual Part 2
No ratings yet
Python DM Lab Manual Part 2
8 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
D3 Docs
No ratings yet
D3 Docs
6 pages
Mla 7th
No ratings yet
Mla 7th
2 pages
Final ML File
No ratings yet
Final ML File
34 pages
Dmbi Iat-2 Imp Ques Soln
No ratings yet
Dmbi Iat-2 Imp Ques Soln
43 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Data Mining Ex1
No ratings yet
Data Mining Ex1
10 pages
01 K Means - Merged
No ratings yet
01 K Means - Merged
26 pages
DSM 1
No ratings yet
DSM 1
6 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
K-Means Clustering Algorithm
No ratings yet
K-Means Clustering Algorithm
17 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
Clustering Mall Data Students
No ratings yet
Clustering Mall Data Students
11 pages
Model Training
No ratings yet
Model Training
6 pages
Numpy Cheatsheet
No ratings yet
Numpy Cheatsheet
11 pages
Machine Learning Lab Assessment 5: 18BCE2301 Devangshu Mazumder
No ratings yet
Machine Learning Lab Assessment 5: 18BCE2301 Devangshu Mazumder
10 pages
K Means
No ratings yet
K Means
5 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Drawback of Standard K-Means Algorithm
No ratings yet
Drawback of Standard K-Means Algorithm
5 pages
23CC554
No ratings yet
23CC554
10 pages
Untitled Document-2-1-13-7-11.4
No ratings yet
Untitled Document-2-1-13-7-11.4
5 pages
Assignment On Clustering
No ratings yet
Assignment On Clustering
2 pages
Data Science Exercise Hard
No ratings yet
Data Science Exercise Hard
12 pages
2.3 Aiml Rishit
No ratings yet
2.3 Aiml Rishit
7 pages
Final Code
No ratings yet
Final Code
3 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
LAB7 Kmeans
No ratings yet
LAB7 Kmeans
11 pages
22F-3437 22F-3407 Assignment 4 Ai
No ratings yet
22F-3437 22F-3407 Assignment 4 Ai
15 pages
C.3. Echipa de Implementare CV English SORIN MIHALACHE
100% (3)
C.3. Echipa de Implementare CV English SORIN MIHALACHE
13 pages
ML Minors Exp7
No ratings yet
ML Minors Exp7
6 pages
Esam - DWM Lab 8
No ratings yet
Esam - DWM Lab 8
5 pages
Artificial Intelligence Lab 10
No ratings yet
Artificial Intelligence Lab 10
8 pages
AIML Lab 10
No ratings yet
AIML Lab 10
4 pages
7b. Clustering in MapReduce and Spark
No ratings yet
7b. Clustering in MapReduce and Spark
15 pages
A2 Vishal Borra
No ratings yet
A2 Vishal Borra
2 pages
Cheat Sheet-Building Unsupervised Learning Models
No ratings yet
Cheat Sheet-Building Unsupervised Learning Models
3 pages
K Means Algorithm
No ratings yet
K Means Algorithm
6 pages
Kmeans Algorithm
No ratings yet
Kmeans Algorithm
3 pages
HANDKE, Peter. Kaspar - The Mechanics of Language - A Fractionating
100% (1)
HANDKE, Peter. Kaspar - The Mechanics of Language - A Fractionating
21 pages
Opening Closing Second Round DME UG
No ratings yet
Opening Closing Second Round DME UG
4 pages
Theoretical and Conceptual Frameworks in Research: Conceptual Clarification
No ratings yet
Theoretical and Conceptual Frameworks in Research: Conceptual Clarification
16 pages
Ergamon G: Sthiae Steuattout
No ratings yet
Ergamon G: Sthiae Steuattout
572 pages
Week 13 LLM ChatGPT HAAI IITKgp v2
No ratings yet
Week 13 LLM ChatGPT HAAI IITKgp v2
119 pages
Diploma in Computer Applications: Course Brochure
No ratings yet
Diploma in Computer Applications: Course Brochure
7 pages
PISA 2025 Science Framework
No ratings yet
PISA 2025 Science Framework
93 pages
Teacher's M&E Report - 1ST QUARTER
No ratings yet
Teacher's M&E Report - 1ST QUARTER
3 pages
Pharmacy As My Career
No ratings yet
Pharmacy As My Career
6 pages
GPR Form 1
No ratings yet
GPR Form 1
8 pages
Experiment 10 Physics
No ratings yet
Experiment 10 Physics
7 pages
Cover Page
No ratings yet
Cover Page
10 pages
Puerto Rico 2019 2020 Calendar PDF
0% (1)
Puerto Rico 2019 2020 Calendar PDF
1 page
Blockchain Merged Compressed
No ratings yet
Blockchain Merged Compressed
26 pages
What Kind of Citizen
No ratings yet
What Kind of Citizen
31 pages
Big - Data 15 Feb 25 07 46 56
No ratings yet
Big - Data 15 Feb 25 07 46 56
19 pages
My Ideal Life Partner
100% (2)
My Ideal Life Partner
2 pages
Blockchain Endsem
No ratings yet
Blockchain Endsem
12 pages
B2B Markets Week 2 Lecture
No ratings yet
B2B Markets Week 2 Lecture
15 pages
Campus Bullying in The Senior High School A Qualitative Case Study PDF
No ratings yet
Campus Bullying in The Senior High School A Qualitative Case Study PDF
8 pages
Advanced CADCAM
No ratings yet
Advanced CADCAM
34 pages
Cape Sociology All Education Questions 2005-2020
100% (1)
Cape Sociology All Education Questions 2005-2020
3 pages
John N. Bahcall
No ratings yet
John N. Bahcall
6 pages
English Language Advisor
No ratings yet
English Language Advisor
6 pages
Lecture 32
No ratings yet
Lecture 32
4 pages
IS-BFSI-Europe NW-Parent
No ratings yet
IS-BFSI-Europe NW-Parent
5 pages
Asmph Admissions Faqs Sy2015-2016 v1
No ratings yet
Asmph Admissions Faqs Sy2015-2016 v1
7 pages
A8 Meantime 09 10
No ratings yet
A8 Meantime 09 10
24 pages
Ehsan Resume 178
No ratings yet
Ehsan Resume 178
1 page
Growth Mindset - Commercial Support 2020
No ratings yet
Growth Mindset - Commercial Support 2020
5 pages
Application Development For Mobile Devices: Course: COMP1550
No ratings yet
Application Development For Mobile Devices: Course: COMP1550
19 pages
Acne Vulgaris: A Disease of Western Civilization
No ratings yet
Acne Vulgaris: A Disease of Western Civilization
7 pages
Monsters, Examined Etiropean Responses To: Notes
No ratings yet
Monsters, Examined Etiropean Responses To: Notes
3 pages
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Subspace Cluster I Nig

Uploaded by

Subspace Cluster I Nig

Uploaded by

import numpy as np

from sklearn.preprocessing import StandardScaler

import pyclustering.cluster.center_initializer as pyci

pip install pyclustering

Requirement already satisfied: pyclustering in c:\users\manvi\appdata\

Sl_No Customer Key Avg_Credit_Limit Total_Credit_Cards \

Total_visits_bank Total_visits_online Total_calls_made

def initialize_medoids(self, data):

def compute_subspaces(self, data, clusters):

def assign_points(self, data, first_iter=False):

def update_medoids(self, data, clusters):

def fit(self, data):

# Initial assignment before computing subspaces

# Dunn Index Calculation

# Ensure clusters are not empty

for cluster in valid_clusters:

return min(inter_dists) / max(intra_dists)

# Load Sample Credit Card Data

Sl_No Customer Key Avg_Credit_Limit Total_Credit_Cards \

Total_visits_bank Total_visits_online Total_calls_made

[[-1.72942847 1.24691971 1.74018685 ... -0.86045063 -0.54748969

# Compute Cluster Quality

print(f"Davies-Bouldin Index: {db_index}")

You might also like