0% found this document useful (0 votes)

7 views5 pages

Kmeans

The document outlines a Python script for performing KMeans clustering on a dataset containing age and income information. It includes data preprocessing steps such as scaling and visualization, followed by fitting the KMeans model and evaluating its performance using inertia and silhouette score. Additionally, it demonstrates the elbow method for determining the optimal number of clusters.

Uploaded by

hetvibhora192

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views5 pages

Kmeans

Uploaded by

hetvibhora192

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

nexzotk17

December 22, 2024

[ ]: from sklearn.cluster import KMeans

import pandas as pd
from sklearn.preprocessing import MinMaxScaler,StandardScaler
from sklearn.metrics import silhouette_score
from matplotlib import pyplot as plt
%matplotlib inline

[ ]: df = pd.read_csv("income.csv")
df.head()

# df = pd.read_csv("/content/US_violent_crime.csv.xls")
# df.head()

[ ]: Name Age Income($)

0 Rob 27 70000
1 Michael 29 90000
2 Mohan 29 61000
3 Ismail 28 60000
4 Kory 42 150000

[ ]: df = df.drop(['Name'], axis = 1)
df.head()

[ ]: Age Income($)
0 27 70000
1 29 90000
2 29 61000
3 28 60000
4 42 150000

[ ]: sc = StandardScaler()
scaled_df = sc.fit_transform(df)
scaled_df

df = pd.DataFrame(scaled_df)
df.head()

1
[ ]: 0 1
0 -1.356055 -0.480684
1 -1.009157 -0.010159
2 -1.009157 -0.692421
3 -1.182606 -0.715947
4 1.245679 1.401417

[ ]: plt.scatter(df[0],df[1])
plt.xlabel('Age')
plt.ylabel('Income($)')

[ ]: Text(0, 0.5, 'Income($)')

[ ]: km = KMeans(n_clusters=3,init='k-means++', max_iter=300,random_state=42)
km.fit(df)

# km.fit_predict(new_datapoints)---> imp !
# km.n_clusters

[ ]: KMeans(n_clusters=3, random_state=42)

2
[ ]: centroids = km.cluster_centers_
centroids

[ ]: array([[ 0.60143983, 1.40141653],

[-1.1247901 , -0.74862223],
[ 0.98550535, -0.51205261]])

[ ]: labels = km.labels_
labels

[ ]: array([1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2],
dtype=int32)

[ ]: plt.scatter(df.iloc[:,0], df.iloc[:,1], c = labels, s = 50, cmap = "viridis")

plt.scatter(centroids[:,0], centroids[:,1], c = "red", s = 100, marker = "x" ,␣
↪alpha = 0.5)

plt.xlabel('Age')
plt.ylabel('Income($)')
plt.show()

[ ]: # Inertia
print("Inertia:", km.inertia_)

# Silhouette Score
silhouette = silhouette_score(df, km.labels_)
print("Silhouette Score:", silhouette)

3
Inertia: 3.8893086571301416
Silhouette Score: 0.7119890290065082

[ ]: # from mpl_toolkits.mplot3d import Axes3D

# # Let's create our sets again, this time it will be 3 dimensional variable

# kmeans = KMeans(n_clusters = 3)
# k_fit = kmeans.fit(df)
# sets = k_fit.labels_
# centers = kmeans.cluster_centers_

[ ]: # # for more then 2 cols

# plt.rcParams['figure.figsize'] = (16, 9)
# fig = plt.figure()
# ax = Axes3D(fig)
# ax.scatter(df.iloc[:, 0], df.iloc[:, 1], df.iloc[:, 2])

# plt.scatter(centers[:,0], centers[:,1], c = "red", s = 100, marker = "x" ,␣

↪alpha = 0.5)

[ ]: # from sklearn.cluster import KMeans

# from sklearn.metrics import silhouette_score

# kmeans = KMeans(n_clusters=3, random_state=42)

# kmeans.fit(df)

# # Inertia
# print("Inertia:", kmeans.inertia_)

# # Silhouette Score
# silhouette = silhouette_score(df, kmeans.labels_)
# print("Silhouette Score:", silhouette)

[ ]: inertia = []
for i in range(1,11):
kmeans = KMeans(n_clusters = i)
kmeans.fit(df)
inertia.append(kmeans.inertia_)
plt.figure(figsize=(10,10))
plt.plot(range(1,11), inertia, marker = 'o', linestyle = '-.')
plt.title("Elbow Method - KMeans Clustering")
plt.xlabel("K")
plt.ylabel("Inertia")
plt.show()

4
5

Image Classification Supervised
No ratings yet
Image Classification Supervised
12 pages
Unit 5
No ratings yet
Unit 5
59 pages
UNIT-2 ML Notes
No ratings yet
UNIT-2 ML Notes
15 pages
EE2211 Past Paper
No ratings yet
EE2211 Past Paper
14 pages
Rad 1.3
No ratings yet
Rad 1.3
14 pages
5 - AML Lecture 5 - Linear Regression
No ratings yet
5 - AML Lecture 5 - Linear Regression
56 pages
23 31 Network Intrusion Detection Using Wireshark and Machine Learning
No ratings yet
23 31 Network Intrusion Detection Using Wireshark and Machine Learning
9 pages
2 - Machine Learning - 130824
No ratings yet
2 - Machine Learning - 130824
81 pages
Artificial Intelligence
No ratings yet
Artificial Intelligence
73 pages
Data Mining Warehousing MCQs
No ratings yet
Data Mining Warehousing MCQs
6 pages
IMP Hierarchical Clustering
No ratings yet
IMP Hierarchical Clustering
3 pages
1 - AML - Manish
No ratings yet
1 - AML - Manish
72 pages
3 - AML - Lecture 3 - Feature Engg
No ratings yet
3 - AML - Lecture 3 - Feature Engg
39 pages
Paper 77-Using The Term Frequency Inverse Document Frequency
No ratings yet
Paper 77-Using The Term Frequency Inverse Document Frequency
11 pages
5 - CH 5-K-Means Clustering
No ratings yet
5 - CH 5-K-Means Clustering
54 pages
Improving Multilayer-Perceptron (MLP) - Based Network Anomaly Detection With Birch Clustering On CICIDS-2017 Dataset
No ratings yet
Improving Multilayer-Perceptron (MLP) - Based Network Anomaly Detection With Birch Clustering On CICIDS-2017 Dataset
9 pages
CS 229, Summer 2019 Problem Set #1 Solutions
No ratings yet
CS 229, Summer 2019 Problem Set #1 Solutions
22 pages
Baidurya Debnath 4
No ratings yet
Baidurya Debnath 4
37 pages
SanatKulkarni - AP22110010183 - Assignment4
No ratings yet
SanatKulkarni - AP22110010183 - Assignment4
10 pages
Lab Extern L
No ratings yet
Lab Extern L
8 pages
Astudyof Sentimentanalysis
No ratings yet
Astudyof Sentimentanalysis
17 pages
A Twitter-Based Benchmark Arabic Sentiment Analysis Dat
No ratings yet
A Twitter-Based Benchmark Arabic Sentiment Analysis Dat
9 pages
ML
No ratings yet
ML
11 pages
Unit 4 Classification (1) (P)
No ratings yet
Unit 4 Classification (1) (P)
50 pages
LAB7 Kmeans
No ratings yet
LAB7 Kmeans
11 pages
DS Prac 8
No ratings yet
DS Prac 8
4 pages
K Means
No ratings yet
K Means
3 pages
ML Research Paper
No ratings yet
ML Research Paper
11 pages
Ôn Thi KTDL
No ratings yet
Ôn Thi KTDL
18 pages
ML Lab Experiment Shortened With Same Output
No ratings yet
ML Lab Experiment Shortened With Same Output
6 pages
K Means Clustering
No ratings yet
K Means Clustering
6 pages
K-Means 10
No ratings yet
K-Means 10
2 pages
ML Clustering2
No ratings yet
ML Clustering2
11 pages
Income (K-Means Clustering On A Sample Data Set)
No ratings yet
Income (K-Means Clustering On A Sample Data Set)
3 pages
BIG DATA - Assign
No ratings yet
BIG DATA - Assign
28 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
20 pages
1
No ratings yet
1
13 pages
DMDW Lab8
No ratings yet
DMDW Lab8
3 pages
Llama Human Conversation
No ratings yet
Llama Human Conversation
15 pages
Kmeans
No ratings yet
Kmeans
4 pages
Python For Data Science IA 1 Programs
No ratings yet
Python For Data Science IA 1 Programs
14 pages
Project Data Mining (AMAN YADAV)
No ratings yet
Project Data Mining (AMAN YADAV)
12 pages
IEEE2023 Cloud-Based Intrusion Detection Approach Using Machine Learning Techniques
No ratings yet
IEEE2023 Cloud-Based Intrusion Detection Approach Using Machine Learning Techniques
10 pages
Week 8 DS Practical
No ratings yet
Week 8 DS Practical
13 pages
Untitled Document-2-1-13-7-11.4
No ratings yet
Untitled Document-2-1-13-7-11.4
5 pages
AAM 7th Prac
No ratings yet
AAM 7th Prac
4 pages
Clustering Mall Data Students
No ratings yet
Clustering Mall Data Students
11 pages
Clustering
No ratings yet
Clustering
1 page
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
SE KMeansClustering
No ratings yet
SE KMeansClustering
21 pages
ML Assignment
No ratings yet
ML Assignment
11 pages
Online Analysis of Handwriting For Disease Diagnosis: A Review
No ratings yet
Online Analysis of Handwriting For Disease Diagnosis: A Review
7 pages
21BCE5775 Clustering
No ratings yet
21BCE5775 Clustering
42 pages
Ashwin Report
No ratings yet
Ashwin Report
18 pages
Market Analysis by Pchandru
No ratings yet
Market Analysis by Pchandru
10 pages
Effects of Topic Relevance On Recommendation Model in Thai Social Media Data
No ratings yet
Effects of Topic Relevance On Recommendation Model in Thai Social Media Data
13 pages
KEEL: A Data Mining Software Tool Integrating Genetic Fuzzy Systems
No ratings yet
KEEL: A Data Mining Software Tool Integrating Genetic Fuzzy Systems
7 pages
Phishing Website Detection Using ML 2-1
No ratings yet
Phishing Website Detection Using ML 2-1
20 pages
Assignment 3 Solution
No ratings yet
Assignment 3 Solution
3 pages
PMA Experiment 2
No ratings yet
PMA Experiment 2
6 pages
Detection of Traffic Congestion Based On Twitter Using Convolutional Neural Network Model
No ratings yet
Detection of Traffic Congestion Based On Twitter Using Convolutional Neural Network Model
12 pages
Slip Clustering
No ratings yet
Slip Clustering
2 pages
Implement Clustering Algorithms For Unsupervised Classification
No ratings yet
Implement Clustering Algorithms For Unsupervised Classification
4 pages
IDM Assignment
No ratings yet
IDM Assignment
15 pages
4 - Outliers - +transformaations ML
No ratings yet
4 - Outliers - +transformaations ML
28 pages
Kmeansclustering Sales Dataset
No ratings yet
Kmeansclustering Sales Dataset
6 pages
Elbow Method
No ratings yet
Elbow Method
2 pages
Soal Try Out UN Fis
No ratings yet
Soal Try Out UN Fis
6 pages
Practical 03
No ratings yet
Practical 03
3 pages
Practical 5
No ratings yet
Practical 5
6 pages
Slip
No ratings yet
Slip
5 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
Chapter 1 Book Notes
No ratings yet
Chapter 1 Book Notes
4 pages
Deep Learning Autoencoders
No ratings yet
Deep Learning Autoencoders
31 pages
Final Code
No ratings yet
Final Code
3 pages
Lab Report6 - B21CI014
No ratings yet
Lab Report6 - B21CI014
8 pages
A Hierarchical Production Planning Frame
No ratings yet
A Hierarchical Production Planning Frame
8 pages
KMeans Clustering Bidimensional Daniel Ames Camayo
No ratings yet
KMeans Clustering Bidimensional Daniel Ames Camayo
15 pages
M.Sc. Computer Science Part-I PDF
No ratings yet
M.Sc. Computer Science Part-I PDF
32 pages
KMeans Clustering
No ratings yet
KMeans Clustering
1 page
Bayesian Decision Theory: Intro To
No ratings yet
Bayesian Decision Theory: Intro To
56 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
No ratings yet
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
40 pages
DWDM Lab All
No ratings yet
DWDM Lab All
20 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
The Detection of Straight and Slant Wood Fiber Through Slop Angle Fiber Feature
No ratings yet
The Detection of Straight and Slant Wood Fiber Through Slop Angle Fiber Feature
5 pages
01 K Means - Merged
No ratings yet
01 K Means - Merged
26 pages
ML 2.3 Prashant
No ratings yet
ML 2.3 Prashant
4 pages
ML - Unit-6 KMeans
No ratings yet
ML - Unit-6 KMeans
20 pages
ML Exp5 C36
No ratings yet
ML Exp5 C36
18 pages
Final ML File
No ratings yet
Final ML File
34 pages
ML2 Practical List
No ratings yet
ML2 Practical List
80 pages
Develop Snakes & Ladders Game Complete Guide with Code & Design
From Everand
Develop Snakes & Ladders Game Complete Guide with Code & Design
Anurag Pandey
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet

Kmeans

Uploaded by

Kmeans

Uploaded by

nexzotk17

December 22, 2024

[ ]: from sklearn.cluster import KMeans

[ ]: Name Age Income($)

[ ]: Text(0, 0.5, 'Income($)')

[ ]: array([[ 0.60143983, 1.40141653],

[ ]: plt.scatter(df.iloc[:,0], df.iloc[:,1], c = labels, s = 50, cmap = "viridis")

[ ]: # from mpl_toolkits.mplot3d import Axes3D

[ ]: # # for more then 2 cols

# plt.scatter(centers[:,0], centers[:,1], c = "red", s = 100, marker = "x" ,␣

[ ]: # from sklearn.cluster import KMeans

# kmeans = KMeans(n_clusters=3, random_state=42)

You might also like