Assignment No 5 K-Means Clustering

This document discusses clustering and the k-means algorithm for clustering. Clustering involves grouping a set of objects into clusters so that objects within each cluster are more similar to each other than objects in other clusters. K-means clustering is an algorithm that partitions observations into k clusters by minimizing distances between observations and cluster centroids. It works by initially randomly selecting k cluster centroids and then iteratively reassigning observations to centroids and recalculating centroids until clusters stabilize.

Uploaded by

Vaishnavi Gurav

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

98 views2 pages

Assignment No 5 K-Means Clustering

Uploaded by

Vaishnavi Gurav

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 2

Honours* in Data Science #Fourth year of Engineering (Semester VII) #410502:

Machine Learning and Data Science Laboratory

Dr. Girija Gireesh Chiddarwar
Assignment No 4 - Text classification for Sentimental analysis using KNN Note: Use
twitter data

Clustering
Clustering: the process of grouping a set of objects into classes of similar
objects

Clustering is the classification of objects into different groups, or more

precisely, the partitioning of a data set into subsets (clusters), so that the data
in each subset (ideally) share some common trait - often according to some defined
distance measure.

Clustering is an unsupervised learning technique. It is the task of grouping

together a set of objects in a way that objects in the same cluster are more
similar to each other than to objects in other clusters. Similarity is an amount
that reflects the strength of relationship between two data objects. Clustering is
mainly used for exploratory data mining. It is used in many fields such as machine
learning, pattern recognition, image analysis, information retrieval, bio-
informatics, data compression, and computer graphics.

Clustering: Types
Clustering can be broadly divided into two subgroups:
Hard clustering: in hard clustering, each data object or point either belongs to a
cluster completely or not. For example in the Uber dataset, each location belongs
to either one borough or the other.
Soft clustering: in soft clustering, a data point can belong to more than one
cluster with some probability or likelihood value. For example, you could identify
some locations as the border points belonging to two or more boroughs.

K-means algorithm
K-mean is, without doubt, the most popular clustering method. Researchers released
the algorithm decades ago, and lots of improvements have been done to k-means.
The algorithm tries to find groups by minimizing the distance between the
observations, called local optimal solutions. The distances are measured based on
the coordinates of the observations.

Algorithm
The algorithm works as follow:
Step 1: Choose groups in the feature plan randomly
Step 2: Minimize the distance between the cluster center and the different
observations (centroid). It results in groups with observations
Step 3: Shift the initial centroid to the mean of the coordinates within a group.
Step 4: Minimize the distance according to the new centroids. New boundaries are
created. Thus, observations will move from one group to another
Repeat until no observation changes groups

Algorithm

Visual Representation-Left points selected

Visual Representation- Random point selection

Algorithm
Install and import required packages.
Load dataset
Define K (no of clusters)
Kmeans clustering
Calculate inertia for the given no of k
Select the k which has low inertia and low value of k for predicting

Tip Back
No ratings yet
Tip Back
7 pages
Clustering Explanation
No ratings yet
Clustering Explanation
8 pages
7.introduction To Clustering
No ratings yet
7.introduction To Clustering
11 pages
Classify Clustering
No ratings yet
Classify Clustering
31 pages
Clustering
No ratings yet
Clustering
10 pages
UNIT 4 K-Means Clustring
No ratings yet
UNIT 4 K-Means Clustring
13 pages
Unit 4
No ratings yet
Unit 4
16 pages
Unit4 ML
No ratings yet
Unit4 ML
20 pages
Clustering Algorithm
No ratings yet
Clustering Algorithm
47 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
23 pages
Clustering in R
No ratings yet
Clustering in R
12 pages
Lecture 9 Clustering
No ratings yet
Lecture 9 Clustering
36 pages
Chapter 3 p4
No ratings yet
Chapter 3 p4
18 pages
Clustering Part1
No ratings yet
Clustering Part1
79 pages
ML Unit-4
No ratings yet
ML Unit-4
14 pages
4 Clustering
No ratings yet
4 Clustering
9 pages
Unit 4
No ratings yet
Unit 4
40 pages
Machine Learning
No ratings yet
Machine Learning
23 pages
K Means Clustering
No ratings yet
K Means Clustering
6 pages
Clustering-Part 1
No ratings yet
Clustering-Part 1
35 pages
Lect 12
No ratings yet
Lect 12
80 pages
Machine Learning Unit 4
No ratings yet
Machine Learning Unit 4
22 pages
Unit - 4 (ML)
No ratings yet
Unit - 4 (ML)
13 pages
Datamining Lect8
No ratings yet
Datamining Lect8
79 pages
Unit 4
No ratings yet
Unit 4
74 pages
Unit-4 ML
No ratings yet
Unit-4 ML
16 pages
Data Mining Cluster Analysis: Basic Concepts and Algorithms
No ratings yet
Data Mining Cluster Analysis: Basic Concepts and Algorithms
26 pages
Week 11
No ratings yet
Week 11
49 pages
Clustering Algorithm: An Unsupervised Learning Approach
No ratings yet
Clustering Algorithm: An Unsupervised Learning Approach
23 pages
Unit 4
No ratings yet
Unit 4
29 pages
ML CH 4
No ratings yet
ML CH 4
51 pages
Clustering
No ratings yet
Clustering
9 pages
Unit 3 Data
No ratings yet
Unit 3 Data
37 pages
Clustering and K-Means Algorithm
No ratings yet
Clustering and K-Means Algorithm
81 pages
K Means Clustering
No ratings yet
K Means Clustering
11 pages
ML Unit-4 Final 2024-25
No ratings yet
ML Unit-4 Final 2024-25
28 pages
Final ML Unit3 May24
No ratings yet
Final ML Unit3 May24
154 pages
Data Mining Lecture Notes-1: Bsc. (H) Computer Science: Vi Semester Teacher: Ms. Sonal Linda
No ratings yet
Data Mining Lecture Notes-1: Bsc. (H) Computer Science: Vi Semester Teacher: Ms. Sonal Linda
40 pages
DS9 - Clustering
No ratings yet
DS9 - Clustering
35 pages
DM Lecture 06
No ratings yet
DM Lecture 06
32 pages
Clustering Algorithm
No ratings yet
Clustering Algorithm
17 pages
Clustering
No ratings yet
Clustering
6 pages
Unit4 Datascience
No ratings yet
Unit4 Datascience
43 pages
Lecture 1 (UNIT 1)
No ratings yet
Lecture 1 (UNIT 1)
68 pages
Chapter 7
No ratings yet
Chapter 7
29 pages
DSML-ML09. Unsupervised Learning
No ratings yet
DSML-ML09. Unsupervised Learning
69 pages
Unit 4 Clustering - K-Means and Hierarchical
No ratings yet
Unit 4 Clustering - K-Means and Hierarchical
40 pages
Clustering
No ratings yet
Clustering
34 pages
Datamining-Lect5 - Clustering. The K-Means Algorithm. Hierarchical Clustering. The DBSCAN Algorithm. Clustering Evaluation
No ratings yet
Datamining-Lect5 - Clustering. The K-Means Algorithm. Hierarchical Clustering. The DBSCAN Algorithm. Clustering Evaluation
110 pages
Artificial Intelligence Lec 5
No ratings yet
Artificial Intelligence Lec 5
20 pages
Clustering New
No ratings yet
Clustering New
6 pages
Machine Learning Notes-1 (Clustering-1)
No ratings yet
Machine Learning Notes-1 (Clustering-1)
25 pages
Chapter 5. Clustering Algorithms-Stud
No ratings yet
Chapter 5. Clustering Algorithms-Stud
44 pages
Module 5 - Notes - 13 12 2024
No ratings yet
Module 5 - Notes - 13 12 2024
45 pages
Clustering
No ratings yet
Clustering
11 pages
ML Unit III
No ratings yet
ML Unit III
82 pages
Cluster Analysis: Basic Concepts and Algorithms
No ratings yet
Cluster Analysis: Basic Concepts and Algorithms
141 pages
Clustering U 5
No ratings yet
Clustering U 5
2 pages
Aiml Unit 4
No ratings yet
Aiml Unit 4
20 pages
Clustering in Machine Learning
No ratings yet
Clustering in Machine Learning
21 pages
The Secret Of Machine Learning
From Everand
The Secret Of Machine Learning
Mhd Arjunanta
No ratings yet
CCATPREPARATION AI Module 4
No ratings yet
CCATPREPARATION AI Module 4
14 pages
Assignment No 3 - Hebb
No ratings yet
Assignment No 3 - Hebb
2 pages
Assignment No 6 - Polarity
No ratings yet
Assignment No 6 - Polarity
2 pages
Assigment No 1 - Ann
No ratings yet
Assigment No 1 - Ann
3 pages
Assignment No 4 - KNN Twitter
No ratings yet
Assignment No 4 - KNN Twitter
3 pages
Assignment No 2 - OCR CNN
No ratings yet
Assignment No 2 - OCR CNN
2 pages
BRM - Chapter 17 - Multiple Regression
No ratings yet
BRM - Chapter 17 - Multiple Regression
1 page
Mineral Sampling
No ratings yet
Mineral Sampling
31 pages
MATLAB For Brain and Cognitive Scientists
0% (2)
MATLAB For Brain and Cognitive Scientists
11 pages
Measurement of Risk
No ratings yet
Measurement of Risk
19 pages
UNZA: Department of Mathematics and Statistics MAT1110: Foundation Mathematics and Statistics For Social Sciences Tutorial Sheet 6 (2020/2021)
No ratings yet
UNZA: Department of Mathematics and Statistics MAT1110: Foundation Mathematics and Statistics For Social Sciences Tutorial Sheet 6 (2020/2021)
3 pages
واقع ممارسات الإبداع التكنولوجي في المؤسسة الصناعية - دراسة ميدانية بمؤسسة كوندور إلكترونيك
No ratings yet
واقع ممارسات الإبداع التكنولوجي في المؤسسة الصناعية - دراسة ميدانية بمؤسسة كوندور إلكترونيك
20 pages
Risk Management Theory: A Comprehensive Empirical Assessment
No ratings yet
Risk Management Theory: A Comprehensive Empirical Assessment
31 pages
Model Exam Sol
No ratings yet
Model Exam Sol
21 pages
An Introductory Guide To Shazam
No ratings yet
An Introductory Guide To Shazam
138 pages
Deterministic PDF
No ratings yet
Deterministic PDF
8 pages
21CSC305P ML - Lab Programs 1 - 9
No ratings yet
21CSC305P ML - Lab Programs 1 - 9
36 pages
CALA COMPONENT A Statistics - 112504
No ratings yet
CALA COMPONENT A Statistics - 112504
3 pages
WQD7005 Final Exam - 17219402
No ratings yet
WQD7005 Final Exam - 17219402
12 pages
Ge114 Cet
No ratings yet
Ge114 Cet
7 pages
3y2t Bastatsl Statistical Analysis With Software
No ratings yet
3y2t Bastatsl Statistical Analysis With Software
8 pages
Spatial Econometrics, James P. LeSage.
No ratings yet
Spatial Econometrics, James P. LeSage.
309 pages
BBS Report Saurav
No ratings yet
BBS Report Saurav
44 pages
Predictive Modelling Project 2
100% (4)
Predictive Modelling Project 2
32 pages
Statistical Tables
No ratings yet
Statistical Tables
9 pages
CMO 30 S (1) - 2006
No ratings yet
CMO 30 S (1) - 2006
55 pages
Statistical Analysis of Inclusion Chemistry Distributions in Steels PDF
No ratings yet
Statistical Analysis of Inclusion Chemistry Distributions in Steels PDF
12 pages
Unit 5
No ratings yet
Unit 5
15 pages
Research Methodology - Types, Examples and Writing Guide
No ratings yet
Research Methodology - Types, Examples and Writing Guide
12 pages
Pols 856 Final Report
No ratings yet
Pols 856 Final Report
30 pages
WEEK 4 Pre-Test and Post Test
No ratings yet
WEEK 4 Pre-Test and Post Test
5 pages
Sampling Distribution
No ratings yet
Sampling Distribution
15 pages
Assignment DataSet2b
No ratings yet
Assignment DataSet2b
2 pages
MATH 1281 - Unit 5 DF
No ratings yet
MATH 1281 - Unit 5 DF
3 pages
Guerry Works Methods
No ratings yet
Guerry Works Methods
33 pages

Assignment No 5 K-Means Clustering

Uploaded by

Assignment No 5 K-Means Clustering

Uploaded by

Honours* in Data Science #Fourth year of Engineering (Semester VII) #410502:

Machine Learning and Data Science Laboratory

Clustering is the classification of objects into different groups, or more

Clustering is an unsupervised learning technique. It is the task of grouping

Visual Representation-Left points selected

Visual Representation- Random point selection

You might also like