Clustering-Kprototype Code

The document outlines a process for clustering customer data using K-Means in PySpark. It includes steps for reading data, assembling features, scaling the data, applying K-Means clustering, and evaluating the model using silhouette scores. Finally, it visualizes the silhouette scores to determine the optimal number of clusters.

Uploaded by

namyachawla8

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views1 page

Clustering-Kprototype Code

Uploaded by

namyachawla8

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

In [ ]:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName(‘Clustering using K-Means’).getOrCreate()
data_customer=spark.read.csv('prodintdb.csv', header=True, inferSchema=True)
data_customer.printSchema()

In [ ]:
from pyspark.ml.feature import VectorAssembler
data_customer.columns
assemble=VectorAssembler(inputCols=['PDPcountperday','CheckoutHistory','Booked Revnue','B
randname','Styletype'], outputCol='features')
assembled_data=assemble.transform(data_customer)
assembled_data.show(2)

In [ ]:

from pyspark.ml.feature import StandardScaler

scale=StandardScaler(inputCol='features',outputCol='standardized')
data_scale=scale.fit(assembled_data)
data_scale_output=data_scale.transform(assembled_data)
data_scale_output.show(2)

In [ ]:
from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator
silhouette_score=[]
evaluator = ClusteringEvaluator(predictionCol='prediction', featuresCol='standardized', \
metricName='silhouette', distanceMeasure='squaredEuclide
an')
for i in range(2,10):

KMeans_algo=KMeans(featuresCol='standardized', k=i)

KMeans_fit=KMeans_algo.fit(data_scale_output)

output=KMeans_fit.transform(data_scale_output)

score=evaluator.evaluate(output)

silhouette_score.append(score)

print("Silhouette Score:",score)

In [ ]:

#Visualizing the silhouette scores in a plot

import matplotlib.pyplot as plt
fig, ax = plt.subplots(1,1, figsize =(8,6))
ax.plot(range(2,10),silhouette_score)
ax.set_xlabel(‘k’)
ax.set_ylabel(‘cost’)

Unit 3
No ratings yet
Unit 3
130 pages
Mining and Visualising Real-World Data: About This Module
100% (1)
Mining and Visualising Real-World Data: About This Module
16 pages
ML0101EN Clus K Means Customer Seg Py v1
100% (1)
ML0101EN Clus K Means Customer Seg Py v1
8 pages
Clustering-Kprototype Code
No ratings yet
Clustering-Kprototype Code
1 page
ML2 Practical List
No ratings yet
ML2 Practical List
80 pages
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
No ratings yet
Mall Customer Segmentation Using KMeans Clustering Algorithm and Classification Algorithm
40 pages
Experiment-7: Implementation of K-Means Clustering Algorithm
No ratings yet
Experiment-7: Implementation of K-Means Clustering Algorithm
3 pages
Customer Segmentation in Python Chapter4
No ratings yet
Customer Segmentation in Python Chapter4
37 pages
End To End Machine Learning Problem
No ratings yet
End To End Machine Learning Problem
20 pages
Customer Segmentation With K-Means and RMF
No ratings yet
Customer Segmentation With K-Means and RMF
13 pages
Practical File of AI and ML
No ratings yet
Practical File of AI and ML
26 pages
Clustering Algorithms SciKit Learn 1705740354
No ratings yet
Clustering Algorithms SciKit Learn 1705740354
22 pages
Customer Segmentation Report
No ratings yet
Customer Segmentation Report
8 pages
IDM Assignment
No ratings yet
IDM Assignment
15 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
Market Analysis by Pchandru
No ratings yet
Market Analysis by Pchandru
10 pages
Clustering Mall Data Students
No ratings yet
Clustering Mall Data Students
11 pages
Practical 5
No ratings yet
Practical 5
6 pages
LP I Assignment A4 Clustering
No ratings yet
LP I Assignment A4 Clustering
13 pages
Pyspark MLlib
No ratings yet
Pyspark MLlib
8 pages
Phase3 3
No ratings yet
Phase3 3
8 pages
Customer Segmentation PDF
No ratings yet
Customer Segmentation PDF
18 pages
Practical-8: Import As Import As Import As Import Import As
No ratings yet
Practical-8: Import As Import As Import As Import Import As
9 pages
7b. Clustering in MapReduce and Spark
No ratings yet
7b. Clustering in MapReduce and Spark
15 pages
Untitled Document-2-1-13-7-11.4
No ratings yet
Untitled Document-2-1-13-7-11.4
5 pages
Kmeansclustering Sales Dataset
No ratings yet
Kmeansclustering Sales Dataset
6 pages
Phase 2
No ratings yet
Phase 2
5 pages
Lecture - 7 - Practical - DBSCAN Clustering in Python
No ratings yet
Lecture - 7 - Practical - DBSCAN Clustering in Python
3 pages
Kmeans
No ratings yet
Kmeans
5 pages
Exp 8ml
No ratings yet
Exp 8ml
5 pages
Tugas Clustering - 132021012 - Kevin Gazkia Naufal
No ratings yet
Tugas Clustering - 132021012 - Kevin Gazkia Naufal
6 pages
Da Exp 10
No ratings yet
Da Exp 10
6 pages
KMeans Clustering
No ratings yet
KMeans Clustering
1 page
Da Exp 10
No ratings yet
Da Exp 10
6 pages
Intro Qugates
No ratings yet
Intro Qugates
4 pages
Unit 6 Pyspark - MLlib
No ratings yet
Unit 6 Pyspark - MLlib
6 pages
Axe Submission
No ratings yet
Axe Submission
4 pages
K Means
No ratings yet
K Means
5 pages
2324 BigData Lab3
No ratings yet
2324 BigData Lab3
6 pages
Implement Clustering Algorithms For Unsupervised Classification
No ratings yet
Implement Clustering Algorithms For Unsupervised Classification
4 pages
Objectives of Clustering
No ratings yet
Objectives of Clustering
3 pages
Subject: ML Name: Priyanshu Gandhi Date: 10/4/21 Expt. No.: 9 Roll No.: C008 Title: Clustering Implementation in Python
No ratings yet
Subject: ML Name: Priyanshu Gandhi Date: 10/4/21 Expt. No.: 9 Roll No.: C008 Title: Clustering Implementation in Python
7 pages
Experiment 4 1
No ratings yet
Experiment 4 1
4 pages
BIRCH - DBSCAN (4) - JupyterLab
No ratings yet
BIRCH - DBSCAN (4) - JupyterLab
7 pages
Major
No ratings yet
Major
3 pages
Esam - DWM Lab 8
No ratings yet
Esam - DWM Lab 8
5 pages
K Means
No ratings yet
K Means
2 pages
Dbscan Implementation in Python
No ratings yet
Dbscan Implementation in Python
5 pages
Lab 11 - HT
No ratings yet
Lab 11 - HT
4 pages
K Means Clustering
No ratings yet
K Means Clustering
5 pages
DS Prac 8
No ratings yet
DS Prac 8
4 pages
Final Code
No ratings yet
Final Code
3 pages
Name: Aditya Parade Roll No: 281047 PRN: 22311577 Batch: A-2 Assignment 5
No ratings yet
Name: Aditya Parade Roll No: 281047 PRN: 22311577 Batch: A-2 Assignment 5
3 pages
Salesforce PD1
No ratings yet
Salesforce PD1
3 pages
K-Means 10
No ratings yet
K-Means 10
2 pages
Dbscan Code Python
No ratings yet
Dbscan Code Python
1 page
React Portfolio App Development: Increase your online presence and create your personal brand
From Everand
React Portfolio App Development: Increase your online presence and create your personal brand
Abdelfattah Ragab
No ratings yet
Angular Portfolio App Development: Create your personal brand
From Everand
Angular Portfolio App Development: Create your personal brand
Abdelfattah Ragab
No ratings yet
Stripe Integration in Angular: A Step-by-Step Guide to Creating Payment Functionality
From Everand
Stripe Integration in Angular: A Step-by-Step Guide to Creating Payment Functionality
Abdelfattah Ragab
No ratings yet

Clustering-Kprototype Code

Uploaded by

Clustering-Kprototype Code

Uploaded by

In [ ]:

from pyspark.sql import SparkSession

from pyspark.ml.feature import StandardScaler

#Visualizing the silhouette scores in a plot

You might also like