0% found this document useful (0 votes)

67 views9 pages

Data Mining Project - Clustering - State Wise Health Income

The document discusses applying hierarchical and k-means clustering techniques to identify optimal clusters in sample data. It covers data exploration, outlier treatment, scaling, determining optimal clusters using dendrograms and elbow/silhouette scores, and describing cluster profiles. The conclusion discusses imputing missing values, outlier effects, scaling effects, and opportunities to further segment data and generate insights from clusters.

Uploaded by

Priyanka Sharma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

67 views9 pages

Data Mining Project - Clustering - State Wise Health Income

Uploaded by

Priyanka Sharma

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Data Mining

Clustering Project
Priyanka Sharma
Index

Questions Page No.

Question 1 3
Question 2 4
Question 3 5
Question 4 6
Question 5 7
Part 2: Clustering: Read the data and do exploratory data analysis. Describe the data briefly. (Check
the null values, Data types, shape, EDA, etc)

Following steps are performed for EDA

-Head

-Info

Types :

No Duplicate and Null values.

Part 2: Clustering: Do you think scaling is necessary for clustering in this case? Justify.

Possible Approaches for reducing noise:

1. Treating outliers using IQR method.

2. Treating outliers using z-score method.
Using EDA results to segment data into two or more parts and then apply k-means algorithm to each
part separately.

Before Outlier treatment:

After Outlier treatment

Part 2: Clustering: Apply hierarchical clustering to scaled data. Identify the number of optimum
clusters using Dendrogram and briefly describe them.

We used scikit-learn’s StandardScaler to perform z-score scaling.

Scaling of variables is important for clustering to stabilize the weights of the

different variables. If there is wide discrepancy in the range of variables
cluster formation may be affected by weight differential.

Perform clustering
Perform Hierarchical by constructing a Dendrogram using WARD and Euclidean distance

Using SciPy’s cluster hierarchy function, we created the below dendrogram.

In a Dendrogram, each branch is called a clade. The terminal end of each clade is
called a leaf. The arrangement of the clades tells us which leaves are most similar to
each other. The height of the branching points indicates how similar or different
they are from each other: the greater the height, the greater the difference.
Alternatively, there may be 3 clusters as well, But we choose 4 Clusters using
Dendrogram for this project.
Part 2: Clustering: Apply K-Means clustering on scaled data and determine
optimum clusters. Apply elbow curve and find the silhouette score.

No of clusters : 4

Hierarchical Clustering as well as KMeans Clustering were performed. We used Elbow

plot and Silhouette Score to identify optimum number of clusters in KMeans whereas
in Hierarchical Clustering dendrogram was drawn. In Hierarchical method, we got 5
clusters while in KMeans, we got 5 (using elbow plot) and 4 clusters (using silhouette
score).
Part 2: Clustering: Describe cluster profiles for the clusters defined. Recommend
different priority based actions that need to be taken for different clusters on the
bases of their vulnerability situations according to their Economic and Health
Conditions.
Conclusion
In this project,

We learned to impute missing values using a different approach i.e. using custom formulae

We discussed about outlier’s effect on quality of clustering profiles

We discussed about the scaling and its effect on performance of the algorithm
We discussed that clusters need to be revisited if there is too much similarity, or
overlap, among them

What more could be done?

You can divide the data, then segment using clustering.

You can dig deeper into clusters and generate more insight.

Questions AI900
No ratings yet
Questions AI900
219 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
4 pages
Hierarchical Clustering Unit 4 ML
No ratings yet
Hierarchical Clustering Unit 4 ML
14 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
10 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
23 pages
Week 10
No ratings yet
Week 10
84 pages
Dmaclat4 Merged
No ratings yet
Dmaclat4 Merged
46 pages
IIMK Data Science and Artificial Intelligence Course - Data Science & AI Course by IIM Kozhikode
No ratings yet
IIMK Data Science and Artificial Intelligence Course - Data Science & AI Course by IIM Kozhikode
41 pages
Hierarchical Clustering in Machine Learning
No ratings yet
Hierarchical Clustering in Machine Learning
10 pages
Cluster Credit Risk R PDF
No ratings yet
Cluster Credit Risk R PDF
13 pages
DSBA Master Codebook - Unsupervised Learning
No ratings yet
DSBA Master Codebook - Unsupervised Learning
7 pages
Partition
No ratings yet
Partition
52 pages
Presentation 28128 Content Document 20241126014005PM
No ratings yet
Presentation 28128 Content Document 20241126014005PM
80 pages
Introduction To Cluster Analysis.
No ratings yet
Introduction To Cluster Analysis.
53 pages
Statistical Computing With R: Masters in Data Sciences 503 (S27) Third Batch, SMS, TU, 2024
No ratings yet
Statistical Computing With R: Masters in Data Sciences 503 (S27) Third Batch, SMS, TU, 2024
30 pages
12 Bida - 630 - Final - Exam - Preparations PDF
No ratings yet
12 Bida - 630 - Final - Exam - Preparations PDF
7 pages
Unit-4 New
No ratings yet
Unit-4 New
36 pages
Pavan PPT ?
No ratings yet
Pavan PPT ?
27 pages
Saxena - Machine Learning in Visible Light Communication System A
No ratings yet
Saxena - Machine Learning in Visible Light Communication System A
12 pages
Module-5-Cluster Analysis-Part1
No ratings yet
Module-5-Cluster Analysis-Part1
24 pages
Data Mining
No ratings yet
Data Mining
27 pages
Clustering
No ratings yet
Clustering
20 pages
Chapter 4 - Clustering
No ratings yet
Chapter 4 - Clustering
21 pages
DS203 2024-02-09 Clustering K Means and Hierarchical v2
No ratings yet
DS203 2024-02-09 Clustering K Means and Hierarchical v2
35 pages
ML Unit 5
No ratings yet
ML Unit 5
50 pages
Data Mining Project - Parijat
No ratings yet
Data Mining Project - Parijat
28 pages
Week 8 DS Practical
No ratings yet
Week 8 DS Practical
13 pages
Chapter 7
No ratings yet
Chapter 7
3 pages
23CC554
No ratings yet
23CC554
10 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
26 pages
VO - MCA - S4 - Data Mining Unit 1
No ratings yet
VO - MCA - S4 - Data Mining Unit 1
18 pages
Artificial Intelligence Report
No ratings yet
Artificial Intelligence Report
23 pages
Data Mining Business Report 2
No ratings yet
Data Mining Business Report 2
18 pages
Heirarchical Clustering
No ratings yet
Heirarchical Clustering
22 pages
Introduction To Data Mining Clustering Analysis
No ratings yet
Introduction To Data Mining Clustering Analysis
84 pages
Clustering
No ratings yet
Clustering
19 pages
Introduction To Data Science Prod Edxapp Edx CDN Org
No ratings yet
Introduction To Data Science Prod Edxapp Edx CDN Org
32 pages
Wheat Disease Detection Using Image Processing
No ratings yet
Wheat Disease Detection Using Image Processing
4 pages
Un Supervised Learning
No ratings yet
Un Supervised Learning
22 pages
GSM Optimization and Troubleshooting
No ratings yet
GSM Optimization and Troubleshooting
109 pages
Sensors 23 03385
No ratings yet
Sensors 23 03385
20 pages
A Large Scale Grid Data Analysis Platform For DSOs
No ratings yet
A Large Scale Grid Data Analysis Platform For DSOs
25 pages
Unit 3 PPT (BA)
No ratings yet
Unit 3 PPT (BA)
19 pages
The Art of Asking ChatGPT For High-Quality Answers A Complete Guide To Prompt Engineering Techniques (Ibrahim John) (Z-Library)
97% (29)
The Art of Asking ChatGPT For High-Quality Answers A Complete Guide To Prompt Engineering Techniques (Ibrahim John) (Z-Library)
52 pages
Marketing Analytics Week-10 LAQ
No ratings yet
Marketing Analytics Week-10 LAQ
5 pages
Hierarchical Clustering
No ratings yet
Hierarchical Clustering
34 pages
Stackelberg Game Between Multi-Leader and Multi-Follower For Detecting Black Hole and Warm Hole Attacks in WSN
No ratings yet
Stackelberg Game Between Multi-Leader and Multi-Follower For Detecting Black Hole and Warm Hole Attacks in WSN
9 pages
Social Media Data Analytics Unit 4
No ratings yet
Social Media Data Analytics Unit 4
7 pages
ML Lec-17
No ratings yet
ML Lec-17
12 pages
Unit 4 Descriptive Modeling
No ratings yet
Unit 4 Descriptive Modeling
18 pages
Mastering Data Analysis With R - Sample Chapter
No ratings yet
Mastering Data Analysis With R - Sample Chapter
32 pages
DOC-20231118-WA0008new Unit 5
No ratings yet
DOC-20231118-WA0008new Unit 5
15 pages
Unit 5
No ratings yet
Unit 5
10 pages
Experiment 4 1
No ratings yet
Experiment 4 1
4 pages
Clustering Algorithms CheatSheet 1710438661
No ratings yet
Clustering Algorithms CheatSheet 1710438661
6 pages
IRJMETS40200036565
No ratings yet
IRJMETS40200036565
13 pages
Exp 8
No ratings yet
Exp 8
5 pages
I. Review Questions Chapter 4: Mining Frequent Patterns, Associations, Ad Corelations
No ratings yet
I. Review Questions Chapter 4: Mining Frequent Patterns, Associations, Ad Corelations
19 pages
Cluster Analysis Thesis Matlab Code PDF
100% (3)
Cluster Analysis Thesis Matlab Code PDF
7 pages
9536 DWM Expt 7 Merged
No ratings yet
9536 DWM Expt 7 Merged
14 pages
User Experience Evaluation Using Mouse Tracking and Artificial Intelligence
No ratings yet
User Experience Evaluation Using Mouse Tracking and Artificial Intelligence
10 pages
Cluto Clusterring Manual
No ratings yet
Cluto Clusterring Manual
71 pages
Hierarchical Clustering in Machine Learning
No ratings yet
Hierarchical Clustering in Machine Learning
11 pages
Lecture Notes - Clustering
No ratings yet
Lecture Notes - Clustering
13 pages
Lesson 6 - Unsupervised Learning
No ratings yet
Lesson 6 - Unsupervised Learning
63 pages
Hierarchical Clustering - 11.3.2024 - Full
No ratings yet
Hierarchical Clustering - 11.3.2024 - Full
14 pages
"These Are Just Rough Notes For References" What Is K-Means Clustering
No ratings yet
"These Are Just Rough Notes For References" What Is K-Means Clustering
9 pages
Nelson - Mbi - Data Scientist - A
No ratings yet
Nelson - Mbi - Data Scientist - A
7 pages
Data Mining Unit 5
No ratings yet
Data Mining Unit 5
30 pages
Business Report Data Mining
91% (11)
Business Report Data Mining
18 pages
Expt 5
No ratings yet
Expt 5
3 pages
Clustering Hierarchical PDF
No ratings yet
Clustering Hierarchical PDF
31 pages
9248-Article Text-33828-1-10-20111216 PDF
No ratings yet
9248-Article Text-33828-1-10-20111216 PDF
8 pages
Unsupervisd Learning Algorithm
No ratings yet
Unsupervisd Learning Algorithm
6 pages
Integrated Petrophysical Rock Classi¿ Cation in The McElroy Field, West Texas, USA
No ratings yet
Integrated Petrophysical Rock Classi¿ Cation in The McElroy Field, West Texas, USA
18 pages
Cluster Analysis in R TML
No ratings yet
Cluster Analysis in R TML
5 pages
Hierarchical Clustering: Required Data
No ratings yet
Hierarchical Clustering: Required Data
6 pages
Diagnosis of Diabetic Retinopathy From Fundus Image Using Fuzzy C-Means Clustering Algorithm
No ratings yet
Diagnosis of Diabetic Retinopathy From Fundus Image Using Fuzzy C-Means Clustering Algorithm
7 pages
3point5point2 Normalization
No ratings yet
3point5point2 Normalization
3 pages
CLUSTERING ANALYSIS State Wise Health PDF
No ratings yet
CLUSTERING ANALYSIS State Wise Health PDF
14 pages
Day12 Hierarchical Clustering
No ratings yet
Day12 Hierarchical Clustering
9 pages
Agnes
No ratings yet
Agnes
25 pages
Multimedia Data Mining
No ratings yet
Multimedia Data Mining
19 pages
FullMarks - Clustering StudentSolution 2
No ratings yet
FullMarks - Clustering StudentSolution 2
13 pages
Hierarchical Clustering PDF
No ratings yet
Hierarchical Clustering PDF
5 pages
A Review On Time Series Data Mining
100% (1)
A Review On Time Series Data Mining
18 pages
Top 30 Data Analytics Interview Questions & Answers
100% (1)
Top 30 Data Analytics Interview Questions & Answers
16 pages
Information Retrieval - Question Bank
No ratings yet
Information Retrieval - Question Bank
3 pages
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
Alternating Decision Tree: Fundamentals and Applications
From Everand
Alternating Decision Tree: Fundamentals and Applications
Fouad Sabry
No ratings yet

Data Mining Project - Clustering - State Wise Health Income

Uploaded by

Data Mining Project - Clustering - State Wise Health Income

Uploaded by

Data Mining

Questions Page No.

Following steps are performed for EDA

No Duplicate and Null values.

Possible Approaches for reducing noise:

1. Treating outliers using IQR method.

Before Outlier treatment:

After Outlier treatment

We used scikit-learn’s StandardScaler to perform z-score scaling.

Scaling of variables is important for clustering to stabilize the weights of the

Using SciPy’s cluster hierarchy function, we created the below dendrogram.

Hierarchical Clustering as well as KMeans Clustering were performed. We used Elbow

We discussed about outlier’s effect on quality of clustering profiles

What more could be done?

You can divide the data, then segment using clustering.

You might also like