0% found this document useful (0 votes)

3 views12 pages

Data Science Exercise Hard

The document outlines a K-means clustering implementation in Python, including functions to update assignments and centroids, visualize clustering iterations, and calculate intra-cluster distances. It runs K-means multiple times to find the best clustering results and generates a scree plot to identify the optimal number of clusters. The analysis concludes that the optimal number of clusters for the dataset is 3, as indicated by the elbow point in the scree plot.

Uploaded by

kevinliangisfat

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

3 views12 pages

Data Science Exercise Hard

Uploaded by

kevinliangisfat

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 12

HW4 Exercise 5

DATASCI 3ML3 Winter 2025

Mithun Manivannan: 400309374

5.1

import numpy as np
import matplotlib.pyplot as plt
import copy

def update_assignments(data, centroids):

"""
Assign each data point to the closest centroid

Parameters:
data (numpy.ndarray): Data matrix of shape (n_features, n_samples)
centroids (numpy.ndarray): Centroid matrix of shape (n_features, n_clusters)

Returns:
numpy.ndarray: Cluster assignments for each data point
"""
P = data.shape[1] # Number of data points
assignments = []

for p in range(P):
# Get pth point
x_p = data[:, p][:, np.newaxis]

# Calculate squared distances to all centroids

diffs = np.sum((x_p - centroids)**2, axis=0)

# Find the closest centroid

ind = np.argmin(diffs)
assignments.append(ind)

1
return np.array(assignments)

def update_centroids(data, old_centroids, assignments):

"""
Update centroid locations based on assigned points

Parameters:
data (numpy.ndarray): Data matrix of shape (n_features, n_samples)
old_centroids (numpy.ndarray): Current centroid matrix
assignments (numpy.ndarray): Cluster assignments for each point

Returns:
numpy.ndarray: Updated centroids
"""
K = old_centroids.shape[1] # Number of clusters

# Container for new centroids

centroids = []

for k in range(K):
# Get indices of points assigned to cluster k
S_k = np.argwhere(assignments == k)

# If cluster has points, calculate new centroid

if np.size(S_k) > 0:
c_k = np.mean(data[:, S_k], axis=1)
else:
# If no points in cluster, keep old centroid
c_k = copy.deepcopy(old_centroids[:, k])[:, np.newaxis]

centroids.append(c_k)

# Convert list to array with proper dimensions

centroids = np.array(centroids)[:, :, 0]
return centroids.T

# Load the blobs dataset

data = np.loadtxt('blobs.dat')

# Visualize the dataset

plt.figure(figsize=(8, 6))
plt.scatter(data[0, :], data[1, :], c='black')

2
plt.title('Blobs Dataset')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.grid(True)
plt.show()

# Initialize 3 centroids by picking 3 random data points

np.random.seed(42) # For reproducibility
K = 3
indices = np.random.choice(data.shape[1], K, replace=False)
init_centroids = data[:, indices]

# Run K-means for 5 iterations

centroids = init_centroids.copy()
max_its = 5

# Store assignments and centroids at each iteration for visualization

all_assignments = []
all_centroids = [centroids.copy()]

for iteration in range(max_its):

# Update assignments
assignments = update_assignments(data, centroids)
all_assignments.append(assignments)

# Update centroids
centroids = update_centroids(data, centroids, assignments)
all_centroids.append(centroids.copy())

# Visualize current iteration

plt.figure(figsize=(8, 6))
plt.scatter(data[0, :], data[1, :], c=assignments, cmap='viridis')
plt.scatter(centroids[0, :], centroids[1, :], c='red', marker='*', s=200)
plt.title(f'K-means Clustering - Iteration {iteration+1}')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.grid(True)
plt.show()

# Final assignments
final_assignments = update_assignments(data, centroids)

3
# Visualize final clustering
plt.figure(figsize=(10, 8))
plt.scatter(data[0, :], data[1, :], c=final_assignments, cmap='viridis')
plt.scatter(centroids[0, :], centroids[1, :], c='red', marker='*', s=300)
plt.title('Final K-means Clustering (K=3)')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.grid(True)
plt.show()

4
5
6
7
8
9
5.2

def calculate_intra_cluster_distance(data, centroids, assignments):

"""Calculate average distance from points to their assigned centroids"""
P = data.shape[1]
total_distance = 0

for p in range(P):
# Get the point and its assigned centroid
x_p = data[:, p][:, np.newaxis]
c_k = centroids[:, assignments[p]][:, np.newaxis]

10
# Calculate distance
dist = np.sqrt(np.sum((x_p - c_k)**2))
total_distance += dist

return total_distance / P

def run_kmeans(data, K, max_its=5, n_runs=3):

"""Run K-means multiple times and return best result"""
best_distance = float('inf')
best_centroids = None
best_assignments = None

for _ in range(n_runs):
# Initialize centroids
indices = np.random.choice(data.shape[1], K, replace=False)
centroids = data[:, indices]

# Run K-means
for _ in range(max_its):
assignments = update_assignments(data, centroids)
centroids = update_centroids(data, centroids, assignments)

# Final assignments
assignments = update_assignments(data, centroids)

# Calculate intra-cluster distance

distance = calculate_intra_cluster_distance(data, centroids, assignments)

# Keep best result

if distance < best_distance:
best_distance = distance
best_centroids = centroids
best_assignments = assignments

return best_centroids, best_assignments, best_distance

# Generate scree plot

k_range = range(1, 11)
distances = []

for k in k_range:
_, _, distance = run_kmeans(data, k, max_its=5, n_runs=3)

11
distances.append(distance)

# Plot scree plot

plt.figure(figsize=(10, 6))
plt.plot(k_range, distances, 'bo-')
plt.title('Scree Plot: Intra-cluster Distance vs. K')
plt.xlabel('Number of Clusters (K)')
plt.ylabel('Average Intra-cluster Distance')
plt.grid(True)
plt.xticks(k_range)
plt.show()

Looking at the scree plot, we can identify the optimal number of clusters by finding the “elbow
point” - the point where adding more clusters doesn’t significantly decrease the intra-cluster
distance.
For this dataset with 3 visible blobs, we would expect to see a significant decrease in distance
when moving from K=1 to K=3, and then a much smaller decrease afterward. This creates
an “elbow” in the plot at K=3, thus indicating indicating that this is the optimal number of
clusters (correct value for K).

K Means
No ratings yet
K Means
3 pages
ML Minors Exp7
No ratings yet
ML Minors Exp7
6 pages
Drawback of Standard K-Means Algorithm
No ratings yet
Drawback of Standard K-Means Algorithm
5 pages
DS - ML - 7 - 60019210046 1
No ratings yet
DS - ML - 7 - 60019210046 1
6 pages
Artificial Intelligence Lab 10
No ratings yet
Artificial Intelligence Lab 10
8 pages
AIML Lab 10
No ratings yet
AIML Lab 10
4 pages
01 K Means - Merged
No ratings yet
01 K Means - Merged
26 pages
Lab07 KMeans Assignment
No ratings yet
Lab07 KMeans Assignment
13 pages
Document 10
No ratings yet
Document 10
3 pages
K Means Algorithm
No ratings yet
K Means Algorithm
6 pages
K Means Clustering
No ratings yet
K Means Clustering
11 pages
Assignment # 1: Performance Timeline of Flynn Taxonomy
No ratings yet
Assignment # 1: Performance Timeline of Flynn Taxonomy
21 pages
23CC554
No ratings yet
23CC554
10 pages
AdityaGaur BDA Exp8
No ratings yet
AdityaGaur BDA Exp8
4 pages
Kmeans Algorithm
No ratings yet
Kmeans Algorithm
3 pages
K Means Algorithms
No ratings yet
K Means Algorithms
27 pages
Lab Report6 - B21CI014
No ratings yet
Lab Report6 - B21CI014
8 pages
Clustering
No ratings yet
Clustering
1 page
Kmeans Clustering Implementation Using Python
No ratings yet
Kmeans Clustering Implementation Using Python
5 pages
Wa0033.
No ratings yet
Wa0033.
38 pages
EXP-6 K Mean Clustring
No ratings yet
EXP-6 K Mean Clustring
6 pages
Mla 7th
No ratings yet
Mla 7th
2 pages
Unsupervisd Learning Algorithm
No ratings yet
Unsupervisd Learning Algorithm
6 pages
Saurabh Pandey 22it3044 K Mean
No ratings yet
Saurabh Pandey 22it3044 K Mean
12 pages
C3 W1 KMeans Assignment
No ratings yet
C3 W1 KMeans Assignment
13 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
22F-3437 22F-3407 Assignment 4 Ai
No ratings yet
22F-3437 22F-3407 Assignment 4 Ai
15 pages
Python DM Lab Manual Part 2
No ratings yet
Python DM Lab Manual Part 2
8 pages
DWM Exp 7
No ratings yet
DWM Exp 7
5 pages
ML - Unit-6 KMeans
No ratings yet
ML - Unit-6 KMeans
20 pages
2.3 Aiml Rishit
No ratings yet
2.3 Aiml Rishit
7 pages
AI Week 11
No ratings yet
AI Week 11
21 pages
K-Means Algo
No ratings yet
K-Means Algo
4 pages
Clustering Algorithms
No ratings yet
Clustering Algorithms
19 pages
K Means
No ratings yet
K Means
26 pages
ML-Notes - 4 and 5 - 16 Marks
No ratings yet
ML-Notes - 4 and 5 - 16 Marks
21 pages
Mids Practical 5
No ratings yet
Mids Practical 5
2 pages
Presentation 1
No ratings yet
Presentation 1
47 pages
4.cluster Analysis
No ratings yet
4.cluster Analysis
7 pages
AI&ML Lab-Ex.9corre
No ratings yet
AI&ML Lab-Ex.9corre
5 pages
ML CH 4
No ratings yet
ML CH 4
65 pages
Unit 4 Aam
No ratings yet
Unit 4 Aam
26 pages
SE KMeansClustering
No ratings yet
SE KMeansClustering
21 pages
DWM Exp4
No ratings yet
DWM Exp4
9 pages
Program-1 Aim:: Theory
No ratings yet
Program-1 Aim:: Theory
4 pages
Aml - Lab (1-6)
No ratings yet
Aml - Lab (1-6)
15 pages
K Mean Clustering
No ratings yet
K Mean Clustering
45 pages
Experiment No 7
No ratings yet
Experiment No 7
4 pages
A Novel Approach of Implementing An Optimal K-Means Plus Plus Algorithm For Scalar Data
No ratings yet
A Novel Approach of Implementing An Optimal K-Means Plus Plus Algorithm For Scalar Data
6 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
Prac9 23bme053
No ratings yet
Prac9 23bme053
4 pages
Assignment1 M0719077 Naufal Adhi Iyansyah
No ratings yet
Assignment1 M0719077 Naufal Adhi Iyansyah
4 pages
DM Practical05
No ratings yet
DM Practical05
4 pages
Lab 07
No ratings yet
Lab 07
4 pages
Machine Learning With Python - Machine Learning Algorithms - K-Means Clustering Algo
No ratings yet
Machine Learning With Python - Machine Learning Algorithms - K-Means Clustering Algo
25 pages
Unit 3 Data
No ratings yet
Unit 3 Data
37 pages
DMDW Lab8
No ratings yet
DMDW Lab8
3 pages
K Means Example
No ratings yet
K Means Example
8 pages
Machine Learning Notes Anna University
100% (1)
Machine Learning Notes Anna University
14 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
Data Science Exercise
No ratings yet
Data Science Exercise
7 pages
Data Science Exercise Easy
No ratings yet
Data Science Exercise Easy
3 pages
Data Science Exercise
No ratings yet
Data Science Exercise
7 pages
Data Science Exercise Medium
No ratings yet
Data Science Exercise Medium
3 pages
Using Accuracy and Diversity To Select Classifiers To Build Ensembles
No ratings yet
Using Accuracy and Diversity To Select Classifiers To Build Ensembles
7 pages
ML Mod 5
No ratings yet
ML Mod 5
5 pages
K-Means Clustering Method For The Analysis of Log Data
No ratings yet
K-Means Clustering Method For The Analysis of Log Data
3 pages
Predictive Analysis Overview 2013
100% (1)
Predictive Analysis Overview 2013
180 pages
A Global Averaging Method For Dynamictime Warping, With Applications To Clustering
No ratings yet
A Global Averaging Method For Dynamictime Warping, With Applications To Clustering
16 pages
Android Based Tourist Guide System: Prof. S.S.Pawar, Pooja Chavhan, Arti Lohar, Ashwini Kadam & Priyanka Ranjane
No ratings yet
Android Based Tourist Guide System: Prof. S.S.Pawar, Pooja Chavhan, Arti Lohar, Ashwini Kadam & Priyanka Ranjane
3 pages
Big Data Journal
No ratings yet
Big Data Journal
50 pages
Kidneyreport 1.22 No Use and Sequence
No ratings yet
Kidneyreport 1.22 No Use and Sequence
30 pages
論文 HuBERT
No ratings yet
論文 HuBERT
4 pages
Design and Implementation of Fake Currency Detection System
No ratings yet
Design and Implementation of Fake Currency Detection System
5 pages
Final Report On Face Recognition
67% (6)
Final Report On Face Recognition
22 pages
Brain Tumor Detection and Classification Using Int
No ratings yet
Brain Tumor Detection and Classification Using Int
17 pages
Laporan Klasifikasi Multispektral
No ratings yet
Laporan Klasifikasi Multispektral
28 pages
Automatic Segmentation of Brain Tumor Using K-Means Clustering and Its Area Calculation
No ratings yet
Automatic Segmentation of Brain Tumor Using K-Means Clustering and Its Area Calculation
5 pages
Applied Machine Learning Question Paper
100% (1)
Applied Machine Learning Question Paper
2 pages
Data Mining Project Report
100% (1)
Data Mining Project Report
98 pages
Facto Extra
No ratings yet
Facto Extra
84 pages
Week 07 Lecture Material
No ratings yet
Week 07 Lecture Material
49 pages
Accepted Manuscript: Journal of Pharmaceutical and Biomedical Analysis
No ratings yet
Accepted Manuscript: Journal of Pharmaceutical and Biomedical Analysis
71 pages
Python Data Science Cookbook - Sample Chapter
100% (4)
Python Data Science Cookbook - Sample Chapter
48 pages
Image Processing Basics
No ratings yet
Image Processing Basics
17 pages
Machine Learning Algorithms
No ratings yet
Machine Learning Algorithms
10 pages
Lab Report - Assignment 1: Variables
No ratings yet
Lab Report - Assignment 1: Variables
4 pages
Martanto 2021 IOP Conf. Ser. Mater. Sci. Eng. 1088 012036
No ratings yet
Martanto 2021 IOP Conf. Ser. Mater. Sci. Eng. 1088 012036
7 pages
DWDM Lab Manual Using Weka-For MIC
No ratings yet
DWDM Lab Manual Using Weka-For MIC
42 pages
ML - Unit 5
No ratings yet
ML - Unit 5
22 pages
Manual of Python
No ratings yet
Manual of Python
43 pages
UnSupervised Learning
No ratings yet
UnSupervised Learning
40 pages
IBM 2018 Assignment NEW 111
No ratings yet
IBM 2018 Assignment NEW 111
34 pages
Technical and Vocational Training Institute (Tvti) : By: ETAFERAHU FELEKE .ID NO, TTMR/161/15
No ratings yet
Technical and Vocational Training Institute (Tvti) : By: ETAFERAHU FELEKE .ID NO, TTMR/161/15
26 pages

Data Science Exercise Hard

Uploaded by

Data Science Exercise Hard

Uploaded by

HW4 Exercise 5

DATASCI 3ML3 Winter 2025

Mithun Manivannan: 400309374

def update_assignments(data, centroids):

# Calculate squared distances to all centroids

# Find the closest centroid

def update_centroids(data, old_centroids, assignments):

# Container for new centroids

# If cluster has points, calculate new centroid

# Convert list to array with proper dimensions

# Load the blobs dataset

# Visualize the dataset

# Initialize 3 centroids by picking 3 random data points

# Run K-means for 5 iterations

# Store assignments and centroids at each iteration for visualization

for iteration in range(max_its):

# Visualize current iteration

def calculate_intra_cluster_distance(data, centroids, assignments):

def run_kmeans(data, K, max_its=5, n_runs=3):

# Calculate intra-cluster distance

# Keep best result

return best_centroids, best_assignments, best_distance

# Generate scree plot

# Plot scree plot

You might also like