0% found this document useful (0 votes)

64 views3 pages

Customer Segmentation With K-Means Clustering and Visualization - Colab

The document outlines a data analysis process using Python, focusing on customer segmentation based on spending and transaction frequency from an online retail dataset. It includes data cleaning, handling missing values, and applying KMeans clustering to identify customer groups. The results are visualized using plots, and a summary of each cluster's average total spend and number of transactions is provided.

Uploaded by

Bhavesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

64 views3 pages

Customer Segmentation With K-Means Clustering and Visualization - Colab

Uploaded by

Bhavesh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

import pandas as pd

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

data = pd.read_excel('/OnlineRetail.xlsx')

print(data.head())

InvoiceNo StockCode Description Quantity \

0 536365 85123A WHITE HANGING HEART T-LIGHT HOLDER 6
1 536365 71053 WHITE METAL LANTERN 6
2 536365 84406B CREAM CUPID HEARTS COAT HANGER 8
3 536365 84029G KNITTED UNION FLAG HOT WATER BOTTLE 6
4 536365 84029E RED WOOLLY HOTTIE WHITE HEART. 6

InvoiceDate UnitPrice CustomerID Country

0 2010-12-01 08:26:00 2.55 17850.0 United Kingdom
1 2010-12-01 08:26:00 3.39 17850.0 United Kingdom
2 2010-12-01 08:26:00 2.75 17850.0 United Kingdom
3 2010-12-01 08:26:00 3.39 17850.0 United Kingdom
4 2010-12-01 08:26:00 3.39 17850.0 United Kingdom

print(data.isnull().sum())

InvoiceNo 0
StockCode 0
Description 1454
Quantity 0
InvoiceDate 0
UnitPrice 0
CustomerID 135080
Country 0
dtype: int64

data['Description'].fillna('Unknown', inplace=True)

<ipython-input-12-b328947c4b82>:1: FutureWarning: A value is trying to be set on a copy of a DataFrame or Series through chained ass
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col

data['Description'].fillna('Unknown', inplace=True)

 

data['CustomerID'].fillna(0, inplace=True)

<ipython-input-14-3d3ed6052492>:1: FutureWarning: A value is trying to be set on a copy of a DataFrame or Series through chained ass
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col

data['CustomerID'].fillna(0, inplace=True)

 

print("\nMissing values after handling:")

Missing values after handling:

print(data.isnull().sum())

InvoiceNo 0
StockCode 0
Description 0
Quantity 0
InvoiceDate 0
UnitPrice 0
CustomerID 0
Country 0
dtype: int64

data['TotalSpend'] = data['Quantity'] * data['UnitPrice']

customer_summary = data.groupby('CustomerID').agg(
TotalSpend=('TotalSpend', 'sum'),
NumTransactions=('InvoiceNo', 'nunique')
).reset_index()

X = customer_summary[['TotalSpend', 'NumTransactions']]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

inertia = []
for k in range(1, 11): # Check for 1 to 10 clusters
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X_scaled)
inertia.append(kmeans.inertia_)

plt.figure(figsize=(8, 6))
plt.plot(range(1, 11), inertia, marker='o', color='b')
plt.title('Elbow Method for Optimal k')
plt.xlabel('Number of Clusters')
plt.ylabel('Inertia')
plt.show()

 

optimal_k = 4
kmeans = KMeans(n_clusters=optimal_k, random_state=42)

customer_summary['Cluster'] = kmeans.fit_predict(X_scaled)

plt.figure(figsize=(8, 6))
sns.scatterplot(x=customer_summary['TotalSpend'],
y=customer_summary['NumTransactions'],
hue=customer_summary['Cluster'],
palette='Set2', s=100, alpha=0.6)
plt.title('Customer Segmentation based on Total Spend and Number of Transactions')
plt.xlabel('Total Spend')
plt.ylabel('Number of Transactions')
plt.legend(title='Cluster')
plt.show()
 

cluster_summary = customer_summary.groupby('Cluster')[['TotalSpend', 'NumTransactions']].mean()

print("\nCluster Summary (Mean values for each cluster):")

print(cluster_summary)

Cluster Summary (Mean values for each cluster):

TotalSpend NumTransactions
Cluster
0 1.342493e+03 4.458728
1 1.447682e+06 3710.000000
2 3.416323e+04 57.853659
3 1.821820e+05 89.000000

E Bites - Introducing SAP Cloud Identity Access Governance (IAG)
No ratings yet
E Bites - Introducing SAP Cloud Identity Access Governance (IAG)
108 pages
Host Script Samples
100% (7)
Host Script Samples
4 pages
ML Practical 4D
No ratings yet
ML Practical 4D
11 pages
EcommerceAnalysis 1680541297
No ratings yet
EcommerceAnalysis 1680541297
11 pages
Lab File
No ratings yet
Lab File
96 pages
Mini Project2 DAV Answers - Jupyter Notebook
No ratings yet
Mini Project2 DAV Answers - Jupyter Notebook
21 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Dataframe
No ratings yet
Dataframe
19 pages
Task 6
No ratings yet
Task 6
14 pages
Python For Business Decision Making Asm2
No ratings yet
Python For Business Decision Making Asm2
21 pages
DMV - 1 - Jupyter Notebook
No ratings yet
DMV - 1 - Jupyter Notebook
4 pages
SPPUML6
No ratings yet
SPPUML6
9 pages
Pandas Introduction: What Is Python Pandas Used For?
No ratings yet
Pandas Introduction: What Is Python Pandas Used For?
28 pages
Unit3 - 3) Pandas - Ipynb - Colab
No ratings yet
Unit3 - 3) Pandas - Ipynb - Colab
11 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
No ratings yet
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
23 pages
12 Pandas
No ratings yet
12 Pandas
9 pages
Documentpython 2
No ratings yet
Documentpython 2
22 pages
Sales Data Clustering
No ratings yet
Sales Data Clustering
15 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
PRJ Sales Forecasting
No ratings yet
PRJ Sales Forecasting
22 pages
GRL - EX - 4 (1) .Ipynb - Colaboratory
No ratings yet
GRL - EX - 4 (1) .Ipynb - Colaboratory
7 pages
ML 5
No ratings yet
ML 5
11 pages
Untitled1.ipynb - Colab
No ratings yet
Untitled1.ipynb - Colab
10 pages
Siddhesh Asati: #Group: B (ML)
No ratings yet
Siddhesh Asati: #Group: B (ML)
9 pages
3 Position and Label Based Indexing
No ratings yet
3 Position and Label Based Indexing
13 pages
SalesMgmtSystem XII IP Projectreport 2022 23
No ratings yet
SalesMgmtSystem XII IP Projectreport 2022 23
18 pages
Pandas Part-2
No ratings yet
Pandas Part-2
9 pages
Exp 3
No ratings yet
Exp 3
10 pages
Pandas Notebook
No ratings yet
Pandas Notebook
24 pages
PDF&Rendition 1
No ratings yet
PDF&Rendition 1
47 pages
EDA Plots Code
No ratings yet
EDA Plots Code
13 pages
PRACTICALS
No ratings yet
PRACTICALS
52 pages
2777959-Day 8 - Data Wrangling
No ratings yet
2777959-Day 8 - Data Wrangling
2 pages
Pandas Notes
No ratings yet
Pandas Notes
54 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Data Mining - Project
100% (2)
Data Mining - Project
11 pages
Links
No ratings yet
Links
24 pages
Ass 1 ML
No ratings yet
Ass 1 ML
21 pages
ProductionMGmt XII IP ProjectReprotFinal
No ratings yet
ProductionMGmt XII IP ProjectReprotFinal
16 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
What Is Association Rule Learning: 7. Implement Association Algorithms For Supervised Classification On Any Dataset
No ratings yet
What Is Association Rule Learning: 7. Implement Association Algorithms For Supervised Classification On Any Dataset
18 pages
DMT Function
No ratings yet
DMT Function
10 pages
Cse4020 ML Exp 1
No ratings yet
Cse4020 ML Exp 1
6 pages
Practical File IP Class 12 2022 23
No ratings yet
Practical File IP Class 12 2022 23
49 pages
Pratical 1: Problem Statement: Solution: Source Code
No ratings yet
Pratical 1: Problem Statement: Solution: Source Code
49 pages
Pratical 1: Problem Statement: Solution: Source Code
No ratings yet
Pratical 1: Problem Statement: Solution: Source Code
49 pages
Pratical 1: Problem Statement: Solution: Source Code
No ratings yet
Pratical 1: Problem Statement: Solution: Source Code
49 pages
Pratical 1: Problem Statement: Solution: Source Code
No ratings yet
Pratical 1: Problem Statement: Solution: Source Code
49 pages
Sales Dataset Analysis
No ratings yet
Sales Dataset Analysis
28 pages
Deep Learning Assignments
No ratings yet
Deep Learning Assignments
13 pages
10) Merging Dataframes: # Detecting Duplicates
No ratings yet
10) Merging Dataframes: # Detecting Duplicates
7 pages
Series Loc Accessing
No ratings yet
Series Loc Accessing
1 page
Pandas
No ratings yet
Pandas
20 pages
12 Pandas
100% (1)
12 Pandas
21 pages
Report
No ratings yet
Report
25 pages
AD3301 - Data - Transformation - Ipynb - Colaboratory
No ratings yet
AD3301 - Data - Transformation - Ipynb - Colaboratory
27 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
2 pages
Pandas - Jupyter Notebook
No ratings yet
Pandas - Jupyter Notebook
23 pages
Day 18-9-2023 - Jupyter Notebook
No ratings yet
Day 18-9-2023 - Jupyter Notebook
8 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet
HPE Ezmeral Data Fabric Database-A00125063enw
No ratings yet
HPE Ezmeral Data Fabric Database-A00125063enw
16 pages
Djhendry CV 11-15
No ratings yet
Djhendry CV 11-15
2 pages
Mini Project For BSCIT 3rd
No ratings yet
Mini Project For BSCIT 3rd
9 pages
Ube Express, Inc.: Statement of Account
No ratings yet
Ube Express, Inc.: Statement of Account
12 pages
SAP System Health Check Document
100% (1)
SAP System Health Check Document
6 pages
Case Study Hadoop
No ratings yet
Case Study Hadoop
3 pages
Programming Manual PDM360 NG 12" With Touchscreen: Firmware: 3.2.x CODESYS: 3.5.9.4
No ratings yet
Programming Manual PDM360 NG 12" With Touchscreen: Firmware: 3.2.x CODESYS: 3.5.9.4
261 pages
Caesar Voldseth - SM64 Machinima Wiki
No ratings yet
Caesar Voldseth - SM64 Machinima Wiki
9 pages
Baba Guru Nanak History in Urdu PDF
100% (1)
Baba Guru Nanak History in Urdu PDF
3 pages
Controls Lab Manual PDF
No ratings yet
Controls Lab Manual PDF
12 pages
TypeFocus Sample Report
No ratings yet
TypeFocus Sample Report
7 pages
Dontyne BrochureV5-1 Web
No ratings yet
Dontyne BrochureV5-1 Web
24 pages
John Seoloane: Jonesc@webmail - Co.za
No ratings yet
John Seoloane: Jonesc@webmail - Co.za
3 pages
Promax
No ratings yet
Promax
286 pages
Extrahop Product Overview 2015
No ratings yet
Extrahop Product Overview 2015
2 pages
Automated Thermal Cycler Flyer
No ratings yet
Automated Thermal Cycler Flyer
2 pages
Gantt Chart Template For Thesis
100% (2)
Gantt Chart Template For Thesis
5 pages
Coding Challenge 6 - Order Management System
No ratings yet
Coding Challenge 6 - Order Management System
2 pages
Multipla Bluetooth 02-05 PDF
No ratings yet
Multipla Bluetooth 02-05 PDF
16 pages
CS504 GRAND QUIZ MEGA FILE (VUAnswer - Com) - 1
No ratings yet
CS504 GRAND QUIZ MEGA FILE (VUAnswer - Com) - 1
40 pages
Tutorial Trello
No ratings yet
Tutorial Trello
49 pages
Bridge Inspection
No ratings yet
Bridge Inspection
379 pages
10g Fixes
No ratings yet
10g Fixes
5 pages
Course Plan DSGT
No ratings yet
Course Plan DSGT
9 pages
Bcis 4660 Homework 5
100% (1)
Bcis 4660 Homework 5
5 pages
CMS Requirements Document
No ratings yet
CMS Requirements Document
19 pages
BEREKET Database Design Basics
No ratings yet
BEREKET Database Design Basics
7 pages
Yarn Structure
No ratings yet
Yarn Structure
10 pages

Customer Segmentation With K-Means Clustering and Visualization - Colab

Uploaded by

Customer Segmentation With K-Means Clustering and Visualization - Colab

Uploaded by

import pandas as pd

InvoiceNo StockCode Description Quantity \

InvoiceDate UnitPrice CustomerID Country

print("\nMissing values after handling:")

Missing values after handling:

data['TotalSpend'] = data['Quantity'] * data['UnitPrice']

cluster_summary = customer_summary.groupby('Cluster')[['TotalSpend', 'NumTransactions']].mean()

print("\nCluster Summary (Mean values for each cluster):")

Cluster Summary (Mean values for each cluster):

You might also like