0% found this document useful (0 votes)

13 views9 pages

DACLUSTER

The document outlines a data analysis process using a dataset of 2000 customers, including their demographics and spending behavior. It includes data cleaning, exploratory data analysis with visualizations, and clustering techniques using KMeans and hierarchical clustering. The analysis aims to identify patterns in customer data to inform business decisions.

Uploaded by

iameverywhere792

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

13 views9 pages

DACLUSTER

Uploaded by

iameverywhere792

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

import pandas as pd

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from scipy.cluster.hierarchy import linkage, dendrogram, fcluster
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv('Customers.csv')

data.head()

{"summary":"{\n \"name\": \"data\",\n \"rows\": 2000,\n \"fields\":

[\n {\n \"column\": \"CustomerID\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 577,\n \"min\": 1,\n
\"max\": 2000,\n \"num_unique_values\": 2000,\n
\"samples\": [\n 1861,\n 354,\n 1334\n
],\n \"semantic_type\": \"\",\n \"description\": \"\"\n
}\n },\n {\n \"column\": \"Gender\",\n \"properties\":
{\n \"dtype\": \"category\",\n \"num_unique_values\":
2,\n \"samples\": [\n \"Female\",\n \"Male\"\
n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Age\",\n \"properties\": {\n \"dtype\": \"number\",\n
\"std\": 28,\n \"min\": 0,\n \"max\": 99,\n
\"num_unique_values\": 100,\n \"samples\": [\n 90,\n
62\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Annual Income ($)\",\n \"properties\": {\n \"dtype\":
\"number\",\n \"std\": 45739,\n \"min\": 0,\n
\"max\": 189974,\n \"num_unique_values\": 1786,\n
\"samples\": [\n 162465,\n 124256\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Spending Score (1-100)\",\n
\"properties\": {\n \"dtype\": \"number\",\n \"std\":
27,\n \"min\": 0,\n \"max\": 100,\n
\"num_unique_values\": 101,\n \"samples\": [\n 0,\n
11\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Profession\",\n \"properties\": {\n \"dtype\":
\"category\",\n \"num_unique_values\": 9,\n \"samples\":
[\n \"Homemaker\",\n \"Engineer\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Work Experience\",\n
\"properties\": {\n \"dtype\": \"number\",\n \"std\":
3,\n \"min\": 0,\n \"max\": 17,\n
\"num_unique_values\": 18,\n \"samples\": [\n 1,\n
3\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Family Size\",\n \"properties\": {\n \"dtype\":
\"number\",\n \"std\": 1,\n \"min\": 1,\n
\"max\": 9,\n \"num_unique_values\": 9,\n \"samples\":
[\n 7,\n 3\n ],\n \"semantic_type\":
\"\",\n \"description\": \"\"\n }\n }\n ]\
n}","type":"dataframe","variable_name":"data"}

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 8 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 CustomerID 2000 non-null int64
1 Gender 2000 non-null object
2 Age 2000 non-null int64
3 Annual Income ($) 2000 non-null int64
4 Spending Score (1-100) 2000 non-null int64
5 Profession 1965 non-null object
6 Work Experience 2000 non-null int64
7 Family Size 2000 non-null int64
dtypes: int64(6), object(2)
memory usage: 125.1+ KB

data.describe(include='all')

{"summary":"{\n \"name\": \"data\",\n \"rows\": 11,\n \"fields\":

[\n {\n \"column\": \"CustomerID\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 720.5049024934813,\n
\"min\": 1.0,\n \"max\": 2000.0,\n
\"num_unique_values\": 6,\n \"samples\": [\n 2000.0,\n
1000.5,\n 1500.25\n ],\n \"semantic_type\":
\"\",\n \"description\": \"\"\n }\n },\n {\n
\"column\": \"Gender\",\n \"properties\": {\n \"dtype\":
\"category\",\n \"num_unique_values\": 4,\n \"samples\":
[\n 2,\n \"1186\",\n \"2000\"\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Age\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 691.4867589780589,\n
\"min\": 0.0,\n \"max\": 2000.0,\n
\"num_unique_values\": 8,\n \"samples\": [\n 48.96,\n
48.0,\n 2000.0\n ],\n \"semantic_type\": \"\",\
n \"description\": \"\"\n }\n },\n {\n
\"column\": \"Annual Income ($)\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 67802.59849983425,\n
\"min\": 0.0,\n \"max\": 189974.0,\n
\"num_unique_values\": 8,\n \"samples\": [\n
110731.8215,\n 110045.0,\n 2000.0\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Spending Score (1-100)\",\n
\"properties\": {\n \"dtype\": \"number\",\n \"std\":
691.0208261988552,\n \"min\": 0.0,\n \"max\": 2000.0,\n
\"num_unique_values\": 8,\n \"samples\": [\n 50.9625,\
n 50.0,\n 2000.0\n ],\n
\"semantic_type\": \"\",\n \"description\": \"\"\n }\
n },\n {\n \"column\": \"Profession\",\n
\"properties\": {\n \"dtype\": \"category\",\n
\"num_unique_values\": 4,\n \"samples\": [\n 9,\n
\"612\",\n \"1965\"\n ],\n \"semantic_type\":
\"\",\n \"description\": \"\"\n }\n },\n {\n
\"column\": \"Work Experience\",\n \"properties\": {\n
\"dtype\": \"number\",\n \"std\": 705.3069888546329,\n
\"min\": 0.0,\n \"max\": 2000.0,\n
\"num_unique_values\": 8,\n \"samples\": [\n 4.1025,\n
3.0,\n 2000.0\n ],\n \"semantic_type\": \"\",\n
\"description\": \"\"\n }\n },\n {\n \"column\":
\"Family Size\",\n \"properties\": {\n \"dtype\":
\"number\",\n \"std\": 705.7605915163412,\n \"min\":
1.0,\n \"max\": 2000.0,\n \"num_unique_values\": 8,\n
\"samples\": [\n 3.7685,\n 4.0,\n 2000.0\n
],\n \"semantic_type\": \"\",\n \"description\": \"\"\n
}\n }\n ]\n}","type":"dataframe"}

data.isnull().sum()

CustomerID 0
Gender 0
Age 0
Annual Income ($) 0
Spending Score (1-100) 0
Profession 35
Work Experience 0
Family Size 0
dtype: int64

data['Profession'] =
data['Profession'].fillna(data['Profession'].mode()[0])

data.isnull().sum()

CustomerID 0
Gender 0
Age 0
Annual Income ($) 0
Spending Score (1-100) 0
Profession 0
Work Experience 0
Family Size 0
dtype: int64

plt.figure(figsize=(10,5))
plt.subplot(2,2,1)
sns.boxplot(data['Annual Income ($)'],color='lightgreen')
plt.title('Annual Income')
plt.subplot(2,2,2)
sns.boxplot(data['Spending Score (1-100)'],color='orange')
plt.title('Spending Score')
plt.subplot(2,2,3)
sns.boxplot(data['Age'],color='skyblue')
plt.title('Age')
plt.subplot(2,2,4)
sns.boxplot(data['Work Experience'],color='salmon')
plt.title('Work Experience')
plt.tight_layout()

plt.show()

plt.figure(figsize=(10,5))
plt.subplot(2,2,1)
sns.histplot(data['Annual Income ($)'],color='lightgreen',kde=True,
bins= 30)
plt.title('Annual Income')
plt.subplot(2,2,2)
sns.histplot(data['Spending Score (1-100)'],color='orange',kde=True,
bins= 30)
plt.title('Spending Score')
plt.subplot(2,2,3)
sns.histplot(data['Age'],color='skyblue',kde=True, bins= 30)
plt.title('Age')
plt.subplot(2,2,4)
sns.histplot(data['Work Experience'],color='salmon',kde=True, bins=
30)
plt.title('Work Experience')
plt.tight_layout()

plt.show()

print(f"Annual Income Skewness: {data['Annual Income

($)'].skew(): .4f}")
print(f"Annual Income Kurtosis: {data['Annual Income
($)'].kurt(): .4f}")

Annual Income Skewness: -0.1165

Annual Income Kurtosis: -0.8431

print(f"Spending Score Skewness: {data['Spending Score (1-

100)'].skew(): .4f}")
print(f"Spending Score Kurtosis: {data['Spending Score (1-
100)'].kurt(): .4f}")

Spending Score Skewness: 0.0046

Spending Score Kurtosis: -1.1007

print(f"Age Skewness: {data['Age'].skew(): .4f}")

print(f"Age Kurtosis: {data['Age'].kurt(): .4f}")

Age Skewness: 0.0492

Age Kurtosis: -1.1689
print(f"Work Experience Skewness: {data['Work
Experience'].skew(): .4f}")
print(f"Work Experience Kurtosis: {data['Work
Experience'].kurt(): .4f}")

Work Experience Skewness: 0.6837

Work Experience Kurtosis: -0.4666

scaler = StandardScaler()
data_scaled = scaler.fit_transform(data[['Age', 'Annual Income ($)',
'Spending Score (1-100)']])

wcss = []
for i in range(1, 11):
kmeans = KMeans(n_clusters=i, random_state=42)
kmeans.fit(data_scaled)
wcss.append(kmeans.inertia_)

plt.plot(range(1, 11), wcss, marker='o')

plt.title('Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()
kmeans = KMeans(n_clusters=3, random_state=42)
data['Cluster_KMeans'] = kmeans.fit_predict(data_scaled)

linkage_matrix = linkage(data_scaled, method='ward')

plt.figure(figsize=(10,7))
dendrogram(linkage_matrix)
plt.title('Dendrogram for Hierarchical Clustering')
plt.xlabel('Samples')
plt.ylabel('Distance')
plt.show()

data['Cluster_Hierarchical'] = fcluster(linkage_matrix, 3,
criterion='maxclust')

plt.figure(figsize=(8,5))
sns.scatterplot(data=data, x='Annual Income ($)', y='Spending Score
(1-100)', hue='Cluster_KMeans', palette='Set2')
plt.title('K-Means Clustering Result')
plt.show()
plt.figure(figsize=(8,5))
sns.scatterplot(data=data, x='Annual Income ($)', y='Spending Score
(1-100)', hue='Cluster_Hierarchical', palette='Set1')
plt.title('Hierarchical Clustering Result')
plt.show()

Batc 601
No ratings yet
Batc 601
6 pages
Jupyter Notebook Project CART RF ANN
100% (1)
Jupyter Notebook Project CART RF ANN
41 pages
M.Tech CSE Syllabus Notes
No ratings yet
M.Tech CSE Syllabus Notes
32 pages
Predictive Modelling Alternative Firm Level PDF
100% (4)
Predictive Modelling Alternative Firm Level PDF
26 pages
Data Mining - Project
100% (2)
Data Mining - Project
11 pages
Credit Score Project
No ratings yet
Credit Score Project
43 pages
LDA CreditCardDefault Code N
No ratings yet
LDA CreditCardDefault Code N
11 pages
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
No ratings yet
Predictive+Modelling+-+Logistic+Regression+-+Student+Version-New2.3.ipynb - Colaboratory
12 pages
Churn Prediction Model
No ratings yet
Churn Prediction Model
36 pages
Dbscan: Fast Density-Based Clustering With R: Michael Hahsler Matthew Piekenbrock
No ratings yet
Dbscan: Fast Density-Based Clustering With R: Michael Hahsler Matthew Piekenbrock
28 pages
Data Analysis Using Python
No ratings yet
Data Analysis Using Python
12 pages
Online Food Orders Analysis Using Python
No ratings yet
Online Food Orders Analysis Using Python
12 pages
Week 4 LAB
No ratings yet
Week 4 LAB
26 pages
Germany Credit Analysis
No ratings yet
Germany Credit Analysis
41 pages
ML Lab-1
No ratings yet
ML Lab-1
5 pages
# Importing Necessary Libraries: Import As Import As Import As Import As
No ratings yet
# Importing Necessary Libraries: Import As Import As Import As Import As
21 pages
Predicting Credit Risk 1713295035
No ratings yet
Predicting Credit Risk 1713295035
19 pages
House Price Prediction Models
No ratings yet
House Price Prediction Models
16 pages
CS429: Data Mining: About Instructor
No ratings yet
CS429: Data Mining: About Instructor
26 pages
Artificial Intelligence: Semester Project
No ratings yet
Artificial Intelligence: Semester Project
7 pages
Social Network Analysis: Cheruvu Nvss Suhas 21BCE8374
No ratings yet
Social Network Analysis: Cheruvu Nvss Suhas 21BCE8374
10 pages
CheatSheet Beginner A4 PDF
No ratings yet
CheatSheet Beginner A4 PDF
2 pages
KNN For Classification
No ratings yet
KNN For Classification
5 pages
Data Preprocessing & Visualization1
No ratings yet
Data Preprocessing & Visualization1
2 pages
ML Assignment No 5
No ratings yet
ML Assignment No 5
11 pages
Another Copy of Ensemble Models Original Paid
No ratings yet
Another Copy of Ensemble Models Original Paid
51 pages
Spatial Pattern Analysis
No ratings yet
Spatial Pattern Analysis
16 pages
Lecture - 9 Unsupervised Learning (K-Means, Association Analysis and Frequuent Items)
No ratings yet
Lecture - 9 Unsupervised Learning (K-Means, Association Analysis and Frequuent Items)
73 pages
Bose A S
No ratings yet
Bose A S
37 pages
BD WPS2
No ratings yet
BD WPS2
23 pages
Data Visualization EDA-print
No ratings yet
Data Visualization EDA-print
18 pages
Practical 3
No ratings yet
Practical 3
8 pages
#Group: B (ML) : Numpy NP Pandas PD
No ratings yet
#Group: B (ML) : Numpy NP Pandas PD
9 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
15 - 11 - 24 - SVM - Jupyter Notebook
No ratings yet
15 - 11 - 24 - SVM - Jupyter Notebook
5 pages
2732 6870 2 LE Proof1
No ratings yet
2732 6870 2 LE Proof1
11 pages
VoThaiThaoNhi ECON209 F2024 Lab 2
No ratings yet
VoThaiThaoNhi ECON209 F2024 Lab 2
10 pages
Technique Based On Fuzzy Logic For Cotton Bale Lay-Down Management
No ratings yet
Technique Based On Fuzzy Logic For Cotton Bale Lay-Down Management
4 pages
Chapter 1. Array and Cluster: Cluster
No ratings yet
Chapter 1. Array and Cluster: Cluster
14 pages
11-12-CLUS - Variance Ratio Criterion
No ratings yet
11-12-CLUS - Variance Ratio Criterion
6 pages
IRIS Commands Practice
No ratings yet
IRIS Commands Practice
10 pages
Copy of ML - Assignment
No ratings yet
Copy of ML - Assignment
7 pages
Assignment Ds Midterm
No ratings yet
Assignment Ds Midterm
2 pages
Unsupervised Machine Learning in 5G Networks For Low Latency Communications
No ratings yet
Unsupervised Machine Learning in 5G Networks For Low Latency Communications
2 pages
Deep Learning in Wireless Communications: Prof. Dola Saha
No ratings yet
Deep Learning in Wireless Communications: Prof. Dola Saha
147 pages
8.hierarchical AGNES DIANA
No ratings yet
8.hierarchical AGNES DIANA
46 pages
Unit7 Working With Pandas - Solved
No ratings yet
Unit7 Working With Pandas - Solved
12 pages
SOIL MAPPING GIS Edited 9.3
No ratings yet
SOIL MAPPING GIS Edited 9.3
21 pages
Task 1
No ratings yet
Task 1
5 pages
Ads Exam 21c3
No ratings yet
Ads Exam 21c3
22 pages
Building Logistic Regression Model in Python
No ratings yet
Building Logistic Regression Model in Python
24 pages
Py - Socio-Economic Index Construction - Actuaries' Analytical Cookbook
No ratings yet
Py - Socio-Economic Index Construction - Actuaries' Analytical Cookbook
17 pages
Aiml
No ratings yet
Aiml
27 pages
FPGA Co-Processor For The ALICE High Level Trigger: Gaute Grastveit University of Bergen Norway
No ratings yet
FPGA Co-Processor For The ALICE High Level Trigger: Gaute Grastveit University of Bergen Norway
20 pages
Network Modelling and Variational Bayesian Inference For Structure Analysis of Signed Networks
No ratings yet
Network Modelling and Variational Bayesian Inference For Structure Analysis of Signed Networks
19 pages
3 - Analysis of Default - Ipynb - Colab
No ratings yet
3 - Analysis of Default - Ipynb - Colab
16 pages
21mic0107 1
No ratings yet
21mic0107 1
7 pages
1 s2.0 S0165178123002159 Main
No ratings yet
1 s2.0 S0165178123002159 Main
28 pages
DMDW Unit 5 PPT Cluster Analysis 06.01.2021
No ratings yet
DMDW Unit 5 PPT Cluster Analysis 06.01.2021
112 pages
The K-Means Clustering Algorithm in Java - Baeldung
No ratings yet
The K-Means Clustering Algorithm in Java - Baeldung
38 pages
Covid 19 Analysis and Visualization Using Plotly Express
No ratings yet
Covid 19 Analysis and Visualization Using Plotly Express
11 pages
Literature Review Mechanical Engineering
100% (3)
Literature Review Mechanical Engineering
8 pages
Week 4
No ratings yet
Week 4
13 pages
Import As Import As Import As Import: Pandas PD Numpy NP Matplotlib - Pyplot PLT Sklearn DF PD - Read - CSV DF
No ratings yet
Import As Import As Import As Import: Pandas PD Numpy NP Matplotlib - Pyplot PLT Sklearn DF PD - Read - CSV DF
9 pages
DSA2324 Lecture 01 Introduction To Data Science
No ratings yet
DSA2324 Lecture 01 Introduction To Data Science
96 pages
08 - Data Analyses - Socio - Economic - Political Science
No ratings yet
08 - Data Analyses - Socio - Economic - Political Science
13 pages
DSBDA3 - Jupyter Notebook
No ratings yet
DSBDA3 - Jupyter Notebook
12 pages
Heart Disease Classification Full-1
No ratings yet
Heart Disease Classification Full-1
3 pages
2022ucd2164 1 2
No ratings yet
2022ucd2164 1 2
35 pages
Kunal Assignment 3
No ratings yet
Kunal Assignment 3
19 pages
MLT Ann Lab 2
No ratings yet
MLT Ann Lab 2
7 pages
Capstone Project - Employee Attrition Rate
No ratings yet
Capstone Project - Employee Attrition Rate
66 pages
Healthcare Insurance Prediction Main
No ratings yet
Healthcare Insurance Prediction Main
74 pages
Data Anlytics
No ratings yet
Data Anlytics
37 pages
Kunal DA-12 Assignment-4
No ratings yet
Kunal DA-12 Assignment-4
26 pages
Observation: Import As Import As Import As Import As
No ratings yet
Observation: Import As Import As Import As Import As
31 pages
IS - Extended - Project - Guided - Template - Notebook
No ratings yet
IS - Extended - Project - Guided - Template - Notebook
26 pages
B58 - Handling Missing Values, Feature - Selection
No ratings yet
B58 - Handling Missing Values, Feature - Selection
4 pages
Supply Chain Analytics
No ratings yet
Supply Chain Analytics
20 pages
Lecture 2
No ratings yet
Lecture 2
30 pages
(Monographs On Statistics and Applied Probability (Series) ) Chacón, José E. - Duong, Tarn - Multivariate Kernel Smoothing and Its Applications-CRC Press (2018)
No ratings yet
(Monographs On Statistics and Applied Probability (Series) ) Chacón, José E. - Duong, Tarn - Multivariate Kernel Smoothing and Its Applications-CRC Press (2018)
249 pages
DSBDA PYQ 2022 To 24
No ratings yet
DSBDA PYQ 2022 To 24
15 pages
ML Merged
No ratings yet
ML Merged
28 pages
Projet 2 Classification Des Crédits
No ratings yet
Projet 2 Classification Des Crédits
24 pages
CO 3 Complete Notes
No ratings yet
CO 3 Complete Notes
40 pages
MBA 1st Sem Unit-4 Business Statistics
No ratings yet
MBA 1st Sem Unit-4 Business Statistics
13 pages
Unit 1 - Merged
No ratings yet
Unit 1 - Merged
78 pages
Unit 3
No ratings yet
Unit 3
36 pages
Unit 2
No ratings yet
Unit 2
20 pages
AT Question Paper
No ratings yet
AT Question Paper
3 pages
Copy of Final Project
No ratings yet
Copy of Final Project
16 pages
AT Notes
No ratings yet
AT Notes
27 pages
Kleene Theorem Proofs
No ratings yet
Kleene Theorem Proofs
4 pages
Ex 8
No ratings yet
Ex 8
3 pages