Kmeans

The document outlines a data analysis process using Python, specifically focusing on income data. It includes steps for data visualization with Seaborn, data scaling with StandardScaler, and clustering using KMeans. Additionally, it analyzes the results of clustering by calculating mean and standard deviation for different clusters.

Uploaded by

kreeves75234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views4 pages

Kmeans

Uploaded by

kreeves75234

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

1yb74zs6n

January 2, 2025

[1]: import pandas as pd

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sn
df = pd.read_csv("/content/drive/MyDrive/Data Set/Income Data.csv")
sn.lmplot(x="age", y="income", data = df, fit_reg = False)

[1]: <seaborn.axisgrid.FacetGrid at 0x7d4579fbaa40>

1
[2]: from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaled_df = scaler.fit_transform(df[["age", "income"]])
scaled_df[0:5]

[2]: array([[ 1.3701637 , 0.09718548],

[-1.3791283 , 0.90602749],
[ 1.10388844, 0.51405021],
[ 0.23849387, -1.27162408],
[-0.35396857, -1.32762083]])

[3]: from sklearn.cluster import KMeans

clusters = KMeans(3)
clusters.fit(scaled_df)
df["clusterid"] = clusters.labels_
markers = ['+', '^', '*']
sn.lmplot(x="age", y="income", data = df, hue = "clusterid", fit_reg = False,␣
↪markers = markers)

[3]: <seaborn.axisgrid.FacetGrid at 0x7d45758555d0>

2
[5]: clusters = KMeans(3)
clusters.fit(scaled_df)
df["new_clusterid"] = clusters.labels_
df.groupby("new_clusterid")[['age', 'income']].agg(["mean", 'std']).
↪reset_index() # Changed tuple to list

[5]: new_clusterid age income

mean std mean std
0 0 46.627184 2.151559 44308.737864 4390.321503
1 1 29.384000 0.921458 55204.000000 1951.943864
2 2 39.140206 3.558665 18321.649485 6924.747691

[6]: cluster_range = range(1,10)

cluster_errors = []
for num_clusters in cluster_range:
clusters = KMeans(num_clusters)
clusters.fit(scaled_df)
cluster_errors.append(clusters.inertia_)
plt.figure(figsize = (6,4))
plt.plot(cluster_range, cluster_errors, marker = "*")
plt.xlabel("No. of clusters")
plt.ylabel("Sum of Squared Error")

[6]: Text(0, 0.5, 'Sum of Squared Error')

3
[ ]:

1.1 Read The Data and Do Exploratory Data Analysis. Describe The Data Briefly
100% (19)
1.1 Read The Data and Do Exploratory Data Analysis. Describe The Data Briefly
50 pages
State Wise Health Income Clustering 18th December 2021 PDF
100% (2)
State Wise Health Income Clustering 18th December 2021 PDF
29 pages
Unit 1: Shobana T S Assistant Professor Dept. of ISE, BMSCE
No ratings yet
Unit 1: Shobana T S Assistant Professor Dept. of ISE, BMSCE
127 pages
Pa66 ML Exp6
No ratings yet
Pa66 ML Exp6
9 pages
ML Merged
No ratings yet
ML Merged
28 pages
Aiml
No ratings yet
Aiml
27 pages
ML
No ratings yet
ML
23 pages
Seaborn Besant
No ratings yet
Seaborn Besant
27 pages
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
No ratings yet
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
40 pages
21AI71 Module 5 Textbook
No ratings yet
21AI71 Module 5 Textbook
25 pages
Loan Prediction
No ratings yet
Loan Prediction
26 pages
Project Data Mining (AMAN YADAV)
No ratings yet
Project Data Mining (AMAN YADAV)
12 pages
ML File - 1
No ratings yet
ML File - 1
12 pages
Bank Marketing Targets 1724510938
No ratings yet
Bank Marketing Targets 1724510938
13 pages
KMeans Clustering Bidimensional Daniel Ames Camayo
No ratings yet
KMeans Clustering Bidimensional Daniel Ames Camayo
15 pages
End To End Machine Learning Problem
No ratings yet
End To End Machine Learning Problem
20 pages
SanatKulkarni - AP22110010183 - Assignment4
No ratings yet
SanatKulkarni - AP22110010183 - Assignment4
10 pages
Datascience 2 PDF
No ratings yet
Datascience 2 PDF
24 pages
Feature Engg Code
No ratings yet
Feature Engg Code
16 pages
Assignment4 - AnswerKey
No ratings yet
Assignment4 - AnswerKey
14 pages
ML
No ratings yet
ML
10 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
DACLUSTER
No ratings yet
DACLUSTER
9 pages
Reading Data: #Importing Required Libraries
No ratings yet
Reading Data: #Importing Required Libraries
16 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
S6 - Data Mining Lab Experiments (Except 1)
No ratings yet
S6 - Data Mining Lab Experiments (Except 1)
6 pages
06 Seaborn
No ratings yet
06 Seaborn
13 pages
Week 8 DS Practical
No ratings yet
Week 8 DS Practical
13 pages
23CC554
No ratings yet
23CC554
10 pages
A Mini Rpoject
No ratings yet
A Mini Rpoject
7 pages
Clustering Algorithms SciKit Learn 1705740354
No ratings yet
Clustering Algorithms SciKit Learn 1705740354
22 pages
Data Visualization
No ratings yet
Data Visualization
13 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Week 1 Get Familier With Jupyter Notebook
No ratings yet
Week 1 Get Familier With Jupyter Notebook
4 pages
K Means Clustering
No ratings yet
K Means Clustering
6 pages
Group Work Assignment Supervised and Unsupervised Learning
No ratings yet
Group Work Assignment Supervised and Unsupervised Learning
10 pages
ML Lab
No ratings yet
ML Lab
8 pages
Untitled Document
No ratings yet
Untitled Document
6 pages
ML Lab Experiment Shortened With Same Output
No ratings yet
ML Lab Experiment Shortened With Same Output
6 pages
Kmeans
No ratings yet
Kmeans
5 pages
House Price Prediction Models
No ratings yet
House Price Prediction Models
16 pages
Intro Qugates
No ratings yet
Intro Qugates
4 pages
Marketing Analytics Week-10 LAQ
No ratings yet
Marketing Analytics Week-10 LAQ
5 pages
Practical 5
No ratings yet
Practical 5
6 pages
Income (K-Means Clustering On A Sample Data Set)
No ratings yet
Income (K-Means Clustering On A Sample Data Set)
3 pages
Exp4 DM 1
No ratings yet
Exp4 DM 1
3 pages
IMP Hierarchical Clustering
No ratings yet
IMP Hierarchical Clustering
3 pages
Implement Clustering Algorithms For Unsupervised Classification
No ratings yet
Implement Clustering Algorithms For Unsupervised Classification
4 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
Code
No ratings yet
Code
2 pages
Linear Regression - Colab
No ratings yet
Linear Regression - Colab
2 pages
Bloc de Notas Analisis
No ratings yet
Bloc de Notas Analisis
3 pages
Elbow Method
No ratings yet
Elbow Method
2 pages
CSTSGTCODE
No ratings yet
CSTSGTCODE
3 pages
DSBDA Prac4 2
No ratings yet
DSBDA Prac4 2
1 page
K Means Clustering
No ratings yet
K Means Clustering
5 pages
Clustering in Machine Learning
No ratings yet
Clustering in Machine Learning
4 pages
Pandas Plotting Capabilities
No ratings yet
Pandas Plotting Capabilities
27 pages
TensorFlow深度学习项目实战: Chinese Edition
From Everand
TensorFlow深度学习项目实战: Chinese Edition
Posts & Telecom Press
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Kmeans

Uploaded by

Kmeans

Uploaded by

1yb74zs6n

[1]: import pandas as pd

[1]: <seaborn.axisgrid.FacetGrid at 0x7d4579fbaa40>

[2]: array([[ 1.3701637 , 0.09718548],

[3]: from sklearn.cluster import KMeans

[3]: <seaborn.axisgrid.FacetGrid at 0x7d45758555d0>

[5]: new_clusterid age income

[6]: cluster_range = range(1,10)

[6]: Text(0, 0.5, 'Sum of Squared Error')

You might also like