0% found this document useful (0 votes)

41 views5 pages

Kmeans Clustering Implementation Using Python

This document outlines the k-means clustering algorithm on a sample dataset containing x and y coordinates. It initializes k random centroids, assigns all points to the closest centroid, updates the centroid positions based on the mean of assigned points, and repeats this process until cluster assignments stop changing. The algorithm is implemented using Python with Pandas and Matplotlib. Key steps include initializing centroids, assigning points to clusters, updating centroids, and repeating until convergence.

Uploaded by

Poornima Ghodke

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

41 views5 pages

Kmeans Clustering Implementation Using Python

Uploaded by

Poornima Ghodke

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

1/22/2021 Untitled9

In [1]: ## Initialisation

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.DataFrame({
'x': [12, 20, 28, 18, 29, 33, 24, 45, 45, 52, 51, 52, 55, 53, 55, 61, 64,
69, 72],
'y': [39, 36, 30, 52, 54, 46, 55, 59, 63, 70, 66, 63, 58, 23, 14, 8, 19, 7
, 24]
})

np.random.seed(200)
k = 3
# centroids[i] = [x, y]
centroids = {
i+1: [np.random.randint(0, 80), np.random.randint(0, 80)]
for i in range(k)
}

fig = plt.figure(figsize=(5, 5))

plt.scatter(df['x'], df['y'], color='k')
colmap = {1: 'r', 2: 'g', 3: 'b'}
for i in centroids.keys():
plt.scatter(*centroids[i], color=colmap[i])
plt.xlim(0, 80)
plt.ylim(0, 80)
plt.show()

localhost:8888/nbconvert/html/Untitled9.ipynb?download=false 1/5
1/22/2021 Untitled9

In [3]: #Assignment Stage

def assignment(df, centroids):

for i in centroids.keys():
# sqrt((x1 - x2)^2 - (y1 - y2)^2)
df['distance_from_{}'.format(i)] = (
np.sqrt(
(df['x'] - centroids[i][0]) ** 2
+ (df['y'] - centroids[i][1]) ** 2
)
)
centroid_distance_cols = ['distance_from_{}'.format(i) for i in centroids.
keys()]
df['closest'] = df.loc[:, centroid_distance_cols].idxmin(axis=1)
df['closest'] = df['closest'].map(lambda x: int(x.lstrip('distance_from_'
)))
df['color'] = df['closest'].map(lambda x: colmap[x])
return df

df = assignment(df, centroids)
print(df.head())

fig = plt.figure(figsize=(5, 5))

plt.scatter(df['x'], df['y'], color=df['color'], alpha=0.5, edgecolor='k')
for i in centroids.keys():
plt.scatter(*centroids[i], color=colmap[i])
plt.xlim(0, 80)
plt.ylim(0, 80)
plt.show()

x y distance_from_1 distance_from_2 distance_from_3 closest color

0 12 39 26.925824 56.080300 56.727418 1 r
1 20 36 20.880613 48.373546 53.150729 1 r
2 28 30 14.142136 41.761226 53.338541 1 r
3 18 52 36.878178 50.990195 44.102154 1 r
4 29 54 38.118237 40.804412 34.058773 3 b

localhost:8888/nbconvert/html/Untitled9.ipynb?download=false 2/5
1/22/2021 Untitled9

In [4]: ##Update Stage

import copy

old_centroids = copy.deepcopy(centroids)

def update(k):
for i in centroids.keys():
centroids[i][0] = np.mean(df[df['closest'] == i]['x'])
centroids[i][1] = np.mean(df[df['closest'] == i]['y'])
return k

centroids = update(centroids)

fig = plt.figure(figsize=(5, 5))

ax = plt.axes()
plt.scatter(df['x'], df['y'], color=df['color'], alpha=0.5, edgecolor='k')
for i in centroids.keys():
plt.scatter(*centroids[i], color=colmap[i])
plt.xlim(0, 80)
plt.ylim(0, 80)
for i in old_centroids.keys():
old_x = old_centroids[i][0]
old_y = old_centroids[i][1]
dx = (centroids[i][0] - old_centroids[i][0]) * 0.75
dy = (centroids[i][1] - old_centroids[i][1]) * 0.75
ax.arrow(old_x, old_y, dx, dy, head_width=2, head_length=3, fc=colmap[i],
ec=colmap[i])
plt.show()

localhost:8888/nbconvert/html/Untitled9.ipynb?download=false 3/5
1/22/2021 Untitled9

In [5]: ##Repeat Assigment Stage

df = assignment(df, centroids)

# Plot results
fig = plt.figure(figsize=(5, 5))
plt.scatter(df['x'], df['y'], color=df['color'], alpha=0.5, edgecolor='k')
for i in centroids.keys():
plt.scatter(*centroids[i], color=colmap[i])
plt.xlim(0, 80)
plt.ylim(0, 80)
plt.show()

localhost:8888/nbconvert/html/Untitled9.ipynb?download=false 4/5
1/22/2021 Untitled9

In [6]: #Continue until all assigned categories don't change any more
while True:
closest_centroids = df['closest'].copy(deep=True)
centroids = update(centroids)
df = assignment(df, centroids)
if closest_centroids.equals(df['closest']):
break

fig = plt.figure(figsize=(5, 5))

plt.scatter(df['x'], df['y'], color=df['color'], alpha=0.5, edgecolor='k')
for i in centroids.keys():
plt.scatter(*centroids[i], color=colmap[i])
plt.xlim(0, 80)
plt.ylim(0, 80)
plt.show()

In [ ]:

localhost:8888/nbconvert/html/Untitled9.ipynb?download=false 5/5

CODING SHUTTLE NEWS WEBSITE Project Final 1
No ratings yet
CODING SHUTTLE NEWS WEBSITE Project Final 1
37 pages
Oracle SOA Overview
100% (1)
Oracle SOA Overview
43 pages
Jira Software Jira Service Desk Jira Core
No ratings yet
Jira Software Jira Service Desk Jira Core
7 pages
w8-C++ Programming Basics
No ratings yet
w8-C++ Programming Basics
52 pages
SDLC
No ratings yet
SDLC
28 pages
MLLab Manual
No ratings yet
MLLab Manual
24 pages
22F-3437 22F-3407 Assignment 4 Ai
No ratings yet
22F-3437 22F-3407 Assignment 4 Ai
15 pages
AbidAdhikari26840 DWDM
No ratings yet
AbidAdhikari26840 DWDM
43 pages
MLFILE
No ratings yet
MLFILE
21 pages
Mlalllabprgs
No ratings yet
Mlalllabprgs
17 pages
Experiment 1111
No ratings yet
Experiment 1111
25 pages
PyCon2018 Talk 2
No ratings yet
PyCon2018 Talk 2
104 pages
April 23, 2025: Pandas PD
No ratings yet
April 23, 2025: Pandas PD
11 pages
401 Week7 Part 1 KMeans
No ratings yet
401 Week7 Part 1 KMeans
45 pages
Data Science Exercise Hard
No ratings yet
Data Science Exercise Hard
12 pages
Harsh Soni
No ratings yet
Harsh Soni
26 pages
The Ultimate Guide To Visual Studio Code: The Modern Developer's Best Friend
No ratings yet
The Ultimate Guide To Visual Studio Code: The Modern Developer's Best Friend
2 pages
Open Sourcehenryv4
No ratings yet
Open Sourcehenryv4
31 pages
Matplotlib
No ratings yet
Matplotlib
21 pages
Artificial Intelligence Lab 10
No ratings yet
Artificial Intelligence Lab 10
8 pages
Nearest Centroid
No ratings yet
Nearest Centroid
7 pages
PCA
No ratings yet
PCA
23 pages
Naman Portfolio.....
No ratings yet
Naman Portfolio.....
15 pages
Mobile Application Development - Lesson 1
No ratings yet
Mobile Application Development - Lesson 1
14 pages
23CC554
No ratings yet
23CC554
10 pages
Data Mining Ex1
No ratings yet
Data Mining Ex1
10 pages
045 6 (A) What Is A Dendrogram - How Is It Constructed
No ratings yet
045 6 (A) What Is A Dendrogram - How Is It Constructed
4 pages
Wa0003
No ratings yet
Wa0003
16 pages
Lab4 KNN
No ratings yet
Lab4 KNN
9 pages
Drawback of Standard K-Means Algorithm
No ratings yet
Drawback of Standard K-Means Algorithm
5 pages
Unit-II Services and Components of Operating System
No ratings yet
Unit-II Services and Components of Operating System
39 pages
Lab07 KMeans Assignment
No ratings yet
Lab07 KMeans Assignment
13 pages
DBSCAN Algorithm
No ratings yet
DBSCAN Algorithm
5 pages
C3 W1 KMeans Assignment
No ratings yet
C3 W1 KMeans Assignment
13 pages
ML - Unit-6 KMeans
No ratings yet
ML - Unit-6 KMeans
20 pages
Assignment # 1: Performance Timeline of Flynn Taxonomy
No ratings yet
Assignment # 1: Performance Timeline of Flynn Taxonomy
21 pages
Lab 8ml
No ratings yet
Lab 8ml
6 pages
KM
No ratings yet
KM
5 pages
AIML Lab 10
No ratings yet
AIML Lab 10
4 pages
Presentation of Inheritance in Java
No ratings yet
Presentation of Inheritance in Java
25 pages
مشروع جاهز c++
No ratings yet
مشروع جاهز c++
10 pages
Mla 7th
No ratings yet
Mla 7th
2 pages
Document 10
No ratings yet
Document 10
3 pages
Lab 07
No ratings yet
Lab 07
4 pages
DataScience All 1to8
No ratings yet
DataScience All 1to8
6 pages
Untitled
No ratings yet
Untitled
18 pages
DSA - C Concepts Revision Details
No ratings yet
DSA - C Concepts Revision Details
11 pages
MDP Agents 2
No ratings yet
MDP Agents 2
8 pages
English Core SrSec 2022-23
No ratings yet
English Core SrSec 2022-23
8 pages
Spectral Clustering
No ratings yet
Spectral Clustering
5 pages
Prac9 23bme053
No ratings yet
Prac9 23bme053
4 pages
K Means Clustering Algorithm - BECOC316
No ratings yet
K Means Clustering Algorithm - BECOC316
5 pages
DSM 1
No ratings yet
DSM 1
6 pages
Main Lua Cheat Engine
No ratings yet
Main Lua Cheat Engine
38 pages
Bigdata External Programs 181801120034
No ratings yet
Bigdata External Programs 181801120034
4 pages
AI&ML Lab-Ex.9corre
No ratings yet
AI&ML Lab-Ex.9corre
5 pages
MIT6 00SCS11 Lec20 PDF
No ratings yet
MIT6 00SCS11 Lec20 PDF
3 pages
DSM 3
No ratings yet
DSM 3
6 pages
C Programming UNIT 3.3 Functions
No ratings yet
C Programming UNIT 3.3 Functions
13 pages
FDS All Practicals
No ratings yet
FDS All Practicals
10 pages
KMEANS
No ratings yet
KMEANS
5 pages
Intro To Java Programming
No ratings yet
Intro To Java Programming
14 pages
DWM Exp 7
No ratings yet
DWM Exp 7
5 pages
Abusing Notepad Plugins For Evasion and Persistence
No ratings yet
Abusing Notepad Plugins For Evasion and Persistence
8 pages
2 Years Software Testing Resume Software Testing
No ratings yet
2 Years Software Testing Resume Software Testing
9 pages
DSM 2
No ratings yet
DSM 2
7 pages
AEM
No ratings yet
AEM
10 pages
AdityaGaur BDA Exp8
No ratings yet
AdityaGaur BDA Exp8
4 pages
ML Minors Exp7
No ratings yet
ML Minors Exp7
6 pages
DS - ML - 7 - 60019210046 1
No ratings yet
DS - ML - 7 - 60019210046 1
6 pages
Clusterig
No ratings yet
Clusterig
6 pages
K Means
No ratings yet
K Means
3 pages
Machine Learning Lab Assessment 5: 18BCE2301 Devangshu Mazumder
No ratings yet
Machine Learning Lab Assessment 5: 18BCE2301 Devangshu Mazumder
10 pages
Experiment-5 AdityaKumar 11
No ratings yet
Experiment-5 AdityaKumar 11
4 pages
Clustering
No ratings yet
Clustering
1 page
Css Bootcamp Assignment 2
No ratings yet
Css Bootcamp Assignment 2
4 pages
Kmeans Gradtut 22B0394
No ratings yet
Kmeans Gradtut 22B0394
3 pages
Fourth: Aeideirhelnnom
No ratings yet
Fourth: Aeideirhelnnom
9 pages
K-Means Clustering Using Matlab: December 2015
No ratings yet
K-Means Clustering Using Matlab: December 2015
6 pages
Invision App Software
No ratings yet
Invision App Software
4 pages
K Means Clustering: All All
No ratings yet
K Means Clustering: All All
5 pages
WWW Pitoyo Com Duniawayang Galery Details PHP Image Id 1349
No ratings yet
WWW Pitoyo Com Duniawayang Galery Details PHP Image Id 1349
3 pages
Experiment 5c - BASIC CALCULATOR
No ratings yet
Experiment 5c - BASIC CALCULATOR
5 pages
Program-1 Aim:: Theory
No ratings yet
Program-1 Aim:: Theory
4 pages
Bigdata External Programs 181801120034
No ratings yet
Bigdata External Programs 181801120034
4 pages
Kmeans Algorithm
No ratings yet
Kmeans Algorithm
3 pages
Examination Type: Examination Session: RC Name: LC Code: Roll No.: Name: Father Name
No ratings yet
Examination Type: Examination Session: RC Name: LC Code: Roll No.: Name: Father Name
6 pages
C++ Question Answers
No ratings yet
C++ Question Answers
2 pages
Object Oriented Paradigm: C++ Programming Language by Bjarne Stroustrup, 4 Edition
No ratings yet
Object Oriented Paradigm: C++ Programming Language by Bjarne Stroustrup, 4 Edition
2 pages
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet

Kmeans Clustering Implementation Using Python

Uploaded by

Kmeans Clustering Implementation Using Python

Uploaded by

1/22/2021 Untitled9

fig = plt.figure(figsize=(5, 5))

In [3]: #Assignment Stage

def assignment(df, centroids):

fig = plt.figure(figsize=(5, 5))

x y distance_from_1 distance_from_2 distance_from_3 closest color

In [4]: ##Update Stage

fig = plt.figure(figsize=(5, 5))

In [5]: ##Repeat Assigment Stage

fig = plt.figure(figsize=(5, 5))

You might also like