0% found this document useful (0 votes)

59 views5 pages

CS60050 Machine Learning Assignment 3

The document outlines a programming assignment for a machine learning course, divided into two parts: Support Vector Machines (SVMs) using the HIGGS dataset and K-Means clustering using the Anuran Calls dataset. Part A focuses on building an SVM classifier, including data preprocessing, model implementation with various kernels, hyperparameter tuning, and performance analysis. Part B involves applying K-Means clustering, exploring clustering techniques, evaluating cluster quality, and comparing with other algorithms, with detailed grading rubrics for each part.

Uploaded by

sharmashreyans6

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

59 views5 pages

CS60050 Machine Learning Assignment 3

Uploaded by

sharmashreyans6

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

CS60050_Machine Learning_Programming Assignment_3

Total Marks: 100

Part A: Support Vector Machines (SVMs) and Kernel Methods - HIGGS

Dataset (50 Marks)

Problem Statement:

You are tasked with building a Support Vector Machine (SVM) classifier to predict whether a
particle collision event is classified as a signal (Higgs boson) or background. The dataset is
large-scale and high-dimensional, requiring efficient data handling, advanced feature
selection, and model tuning.

Dataset:

● Dataset Name: HIGGS Dataset

● Download Link: HIGGS Dataset (UCI)
● Features: 28 physics-derived features from particle collision events
● Target: Binary classification (Signal vs. Background)

Tasks:

1. Data Preprocessing and Exploration (5 Marks)

● Exploratory Data Analysis (EDA): Analyze the dataset, visualize feature

distributions, and identify outliers or anomalies.
● Data Normalization/Standardization: Apply normalization or standardization to the
features for better model performance.
● Feature Engineering (2 Marks)
○ Perform feature engineering (e.g., polynomial features, interaction terms, or
transformations) to create new features that might improve model
performance.
● Feature Selection (2 Marks)
○ Use methods like Recursive Feature Elimination (RFE) or SelectKBest to
identify the most important features for classification, reducing
dimensionality.

2. Linear SVM Implementation (10 Marks)

● Implement an SVM with a linear kernel and evaluate the model using
cross-validation.
● Report key classification metrics: accuracy, precision, recall, F1-score, and AUC
(Area Under the ROC Curve).
● Scalability and Efficiency (3 Marks)
○ Discuss and implement strategies to handle the large-scale dataset efficiently
(e.g., using Stochastic Gradient Descent or mini-batch learning for SVM).

3. SVM with Polynomial, RBF, and Custom Kernels (15 Marks)

● Implement SVMs with the following kernels:

○ Polynomial Kernel: Experiment with degrees (2, 3, 4) and compare the
results.
○ RBF Kernel: Tune the gamma parameter and observe the effect on
performance.
○ Custom Kernel: Implement and evaluate at least one custom kernel (e.g., a
sigmoid kernel or a hybrid kernel combining RBF and linear).
● Tune the regularization parameter C for each kernel using Grid Search or Random
Search.
● Compare the performance of each kernel based on classification metrics (accuracy,
precision, recall, F1-score, AUC) and computational complexity.

Time Complexity Analysis (3 Marks)

● Evaluate and report the computational cost (time complexity) of each kernel during
training and prediction.

4. Hyperparameter Tuning (10 Marks)

● Perform hyperparameter tuning for the chosen kernel to optimize performance.

● Use advanced methods such as Bayesian Optimization or Random Search for
tuning.
● Report the optimal values of the regularization parameter C and other kernel-specific
parameters (degree for polynomial, gamma for RBF, etc.).

Hyperparameter Sensitivity Analysis (3 Marks)

● Analyze the sensitivity of the SVM performance to different hyperparameters (e.g.,

changes in C, gamma, or kernel degree), and visualize the results using heatmaps or
line plots.

5. Analysis and Report (10 Marks)

● Summarize the results from all kernel methods and hyperparameter variations.
● Compare the performance of each kernel and provide insights on which one is most
suitable for the HIGGS dataset based on classification metrics and computational
efficiency.
● Explainability and Interpretability (3 Marks)
○ Use tools like SHAP (SHapley Additive exPlanations) or LIME (Local
Interpretable Model-Agnostic Explanations) to explain the model’s predictions
and assess the importance of the most influential features.

Grading Rubric (Out of 50 Marks):

1. Code: Submit well-documented Python code (preferably as PartA_your_name.ipynb)

with comments explaining each step.
● Data Preprocessing and Exploration: 7 Marks (including feature engineering and
selection)
● Linear SVM Implementation: 10 Marks (including scalability discussion)
● SVM with Polynomial, RBF, and Custom Kernels: 15 Marks (including time
complexity analysis)
● Hyperparameter Tuning: 10 Marks (including hyperparameter sensitivity analysis)
● Analysis and Report: 10 Marks (including explainability and interpretability)

Part B: K-Means Clustering - Anuran Calls Dataset (MFCCs) (50 Marks)

Problem Statement:

You are provided with a dataset of frog species based on their sound frequencies (MFCCs).
Your task is to apply advanced clustering techniques, starting with K-Means, to group the
frogs into clusters based on their acoustic features and explore clustering performance using
additional evaluation methods.

Dataset:

Dataset Name: Anuran Calls Dataset (MFCCs)

Download Link: Anuran Calls Dataset
Features: 22 MFCC coefficients for frog calls

Tasks:

1. Data Preprocessing and Exploration (7 Marks)

● Exploratory Data Analysis (EDA): Analyze the dataset by checking for missing
values, feature distributions, and outliers.
● Data Scaling: Apply feature scaling using normalization or standardization.
● Feature Engineering: Try to derive new features from the existing MFCCs (e.g.,
polynomial features or interaction terms) to potentially improve clustering
performance.

Feature Correlation Analysis (2 Marks)

● Investigate correlations between features and remove highly correlated features to
avoid redundancy and improve clustering results.

2. K-Means Clustering (15 Marks)

● Elbow Method: Implement the Elbow Method to determine the optimal number of
clusters.
● Silhouette Score Evaluation: After finding the optimal number of clusters, evaluate
the clustering quality using the silhouette score.
● Cluster Implementation: Implement K-Means clustering based on the optimal
number of clusters.

Cluster Initialization (2 Marks)

● Compare different initialization methods for K-Means (e.g., random initialization vs.
k-means++).

[Link] Visualization (10 Marks)

● Dimensionality Reduction: If needed, apply PCA or t-SNE to reduce dimensions for

visualization purposes.
● Cluster Plots: Visualize the clusters using 2D scatter plots.

Feature Contribution to Clustering (3 Marks)

● Analyze which features (MFCCs) contribute the most to cluster separation and
visualize these contributions.

[Link] Evaluation Metrics (10 Marks)

Evaluation Using Multiple Metrics

● Calculate additional metrics like the Davies-Bouldin Index and Calinski-Harabasz

Index to assess cluster quality.
● Compare these metrics across different numbers of clusters to validate the Elbow
Method and silhouette score results.

5. Comparison with Other Clustering Algorithms (8 Marks)

Algorithm Comparison

● Apply Agglomerative Hierarchical Clustering or DBSCAN and compare the

clustering results with K-Means.
● Analyze the strengths and weaknesses of each algorithm, particularly in the context of
this dataset.

6. Analysis and Report (5 Marks)

● Summarize the overall clustering process, including the optimal number of clusters,
insights from the visualizations, and an analysis of the chosen evaluation metrics.
● Discuss the limitations of K-Means and other clustering algorithms in terms of their
applicability to this dataset.

Submission Requirements & Grading Rubric:

Submission Requirements:

2. Code: Submit well-documented Python code (preferably as PartB_your_name.ipynb)

with comments explaining each step.
3. Report: Provide a detailed report including:
● Visualizations (e.g., Elbow Method, scatter plots, PCA).
● Clustering performance metrics and a comparison between algorithms.
● Key insights and conclusions.

Grading Rubric (Out of 50 Marks):

● Data Preprocessing and Exploration: 7 Marks

● K-Means Clustering: 15 Marks
● Cluster Visualization: 10 Marks
● Cluster Evaluation Metrics: 10 Marks
● Comparison with Other Algorithms: 8 Marks

DM Lab Assignment 2
No ratings yet
DM Lab Assignment 2
2 pages
Assignment 1
No ratings yet
Assignment 1
2 pages
Bil570 hw3 Summer2020
No ratings yet
Bil570 hw3 Summer2020
3 pages
DM Assignment 2
No ratings yet
DM Assignment 2
2 pages
Data Mining & Machine Learning Courseoutline
No ratings yet
Data Mining & Machine Learning Courseoutline
7 pages
K-means Clustering on Iris Dataset
No ratings yet
K-means Clustering on Iris Dataset
3 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
Lab Assignment - SVM - 2024
No ratings yet
Lab Assignment - SVM - 2024
5 pages
Assignment 2
No ratings yet
Assignment 2
3 pages
ML Assgnment 1
No ratings yet
ML Assgnment 1
4 pages
Answer
No ratings yet
Answer
5 pages
TP Phase3
No ratings yet
TP Phase3
2 pages
Heart Merged
No ratings yet
Heart Merged
8 pages
Important Questions
No ratings yet
Important Questions
4 pages
Tushar ML
No ratings yet
Tushar ML
52 pages
CSE455/CSE552 Machine Learning (Spring 2024) Homework #1: Hand-In Policy Collaboration Policy Grading
No ratings yet
CSE455/CSE552 Machine Learning (Spring 2024) Homework #1: Hand-In Policy Collaboration Policy Grading
2 pages
Capstone Project - Jaro-Prof. Babji
No ratings yet
Capstone Project - Jaro-Prof. Babji
5 pages
DM Practical File
No ratings yet
DM Practical File
21 pages
hw1 Problem Set
No ratings yet
hw1 Problem Set
8 pages
27 KrishParasShah
No ratings yet
27 KrishParasShah
17 pages
E4 DS203 2023 Sem2
No ratings yet
E4 DS203 2023 Sem2
2 pages
Assignment 3 FML July Nov 2024
No ratings yet
Assignment 3 FML July Nov 2024
2 pages
Data Science Assignment Guidelines
No ratings yet
Data Science Assignment Guidelines
3 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
8 pages
Aman 61
No ratings yet
Aman 61
24 pages
AML ML Practical List
No ratings yet
AML ML Practical List
10 pages
CSL7620 A2
No ratings yet
CSL7620 A2
2 pages
Machine Learning Assignment Guide
No ratings yet
Machine Learning Assignment Guide
8 pages
Predictive Maintenance for Wind Turbines
No ratings yet
Predictive Maintenance for Wind Turbines
5 pages
KNN-SVM Assignment
No ratings yet
KNN-SVM Assignment
4 pages
Theory (10 Marks)
No ratings yet
Theory (10 Marks)
4 pages
SPA Group 13 - Assignment 2 Problem Statement
No ratings yet
SPA Group 13 - Assignment 2 Problem Statement
2 pages
Project On Data Mining: Prepared by Ashish Pavan Kumar K PGP-DSBA at Great Learning
No ratings yet
Project On Data Mining: Prepared by Ashish Pavan Kumar K PGP-DSBA at Great Learning
50 pages
FML Assignment 1 2025
No ratings yet
FML Assignment 1 2025
2 pages
Practical File OF Machine Learning
No ratings yet
Practical File OF Machine Learning
31 pages
MLAH Assessment2024 2025
No ratings yet
MLAH Assessment2024 2025
5 pages
ML File Syllabus
No ratings yet
ML File Syllabus
43 pages
ML File: Data Analysis Programs
No ratings yet
ML File: Data Analysis Programs
17 pages
Assignment - Machine Learning
No ratings yet
Assignment - Machine Learning
3 pages
hw2 2020
No ratings yet
hw2 2020
3 pages
Machine Learning Project Guide
No ratings yet
Machine Learning Project Guide
3 pages
CIS 6213 Applied Machine Learning Coursework
No ratings yet
CIS 6213 Applied Machine Learning Coursework
5 pages
Human Activity Recognition
No ratings yet
Human Activity Recognition
8 pages
Project Assignment.2024
No ratings yet
Project Assignment.2024
2 pages
DM LabManual Teena
No ratings yet
DM LabManual Teena
6 pages
ML Algorithms for Data Scientists
100% (2)
ML Algorithms for Data Scientists
148 pages
ML Assignment
No ratings yet
ML Assignment
4 pages
Disease Prediction ML Assignment
No ratings yet
Disease Prediction ML Assignment
7 pages
ML Assign1 Part2 2023
No ratings yet
ML Assign1 Part2 2023
2 pages
VAMSHI PR (1) 2 Edit
No ratings yet
VAMSHI PR (1) 2 Edit
16 pages
Assignment III
No ratings yet
Assignment III
3 pages
Assignment-2 IDS
No ratings yet
Assignment-2 IDS
2 pages
ML - Assignment Advanced
No ratings yet
ML - Assignment Advanced
2 pages
ML Index Nancy
No ratings yet
ML Index Nancy
3 pages
WIX3001 Soft Computing Assignment 2
No ratings yet
WIX3001 Soft Computing Assignment 2
2 pages
ML PG Assignment 3
No ratings yet
ML PG Assignment 3
3 pages
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
No ratings yet
Project - Machine Learning-Business Report: By: K Ravi Kumar PGP-Data Science and Business Analytics (PGPDSBA.O.MAR23.A)
38 pages
Data Collection
No ratings yet
Data Collection
8 pages
AI Class IX Term 1 Marking Scheme 417
No ratings yet
AI Class IX Term 1 Marking Scheme 417
2 pages
XYZ Co. Info Systems Risk Assessment
No ratings yet
XYZ Co. Info Systems Risk Assessment
5 pages
Uster Classimat 5: Instrument For Classification and Analysis of Yarn Faults in Staple Yarns
No ratings yet
Uster Classimat 5: Instrument For Classification and Analysis of Yarn Faults in Staple Yarns
9 pages
Buyer Persona Guide & Templates
No ratings yet
Buyer Persona Guide & Templates
27 pages
Data Analytics with Python Course Guide
No ratings yet
Data Analytics with Python Course Guide
3 pages
2nd Quarter Exam in Ict 8
No ratings yet
2nd Quarter Exam in Ict 8
4 pages
Daimler MB Prospekt Programm09 en 090716
No ratings yet
Daimler MB Prospekt Programm09 en 090716
16 pages
IBM Administration Guide Datastage
No ratings yet
IBM Administration Guide Datastage
163 pages
Think Python 1st Edition Allen B. Downey
No ratings yet
Think Python 1st Edition Allen B. Downey
409 pages
PTES Documentation Release 1.1
No ratings yet
PTES Documentation Release 1.1
237 pages
Chapter 38 - Network Analysis - 700
No ratings yet
Chapter 38 - Network Analysis - 700
187 pages
Transformations - Stretch
No ratings yet
Transformations - Stretch
9 pages
ToshibaTDPNPX10 en
No ratings yet
ToshibaTDPNPX10 en
1 page
Wireless Smart Otoscope Manual
No ratings yet
Wireless Smart Otoscope Manual
1 page
Implementation Steps For Note 1792935
No ratings yet
Implementation Steps For Note 1792935
9 pages
English-Spanish School Vocabulary
No ratings yet
English-Spanish School Vocabulary
12 pages
Microsoft Word Notes 2-1
No ratings yet
Microsoft Word Notes 2-1
28 pages
Java Study Guide
No ratings yet
Java Study Guide
17 pages
Ice 61000-4
No ratings yet
Ice 61000-4
12 pages
Teacher and ICT Action Plan For SY 2021-2022
80% (10)
Teacher and ICT Action Plan For SY 2021-2022
18 pages
Tensiómetro Digital
No ratings yet
Tensiómetro Digital
17 pages
Sop For Ta Bills
No ratings yet
Sop For Ta Bills
18 pages
FireClass J424 Conventional Fire Alarm Panel Data Sheet
No ratings yet
FireClass J424 Conventional Fire Alarm Panel Data Sheet
2 pages
Agile Methodology Complete Guide
No ratings yet
Agile Methodology Complete Guide
5 pages
CPCL
No ratings yet
CPCL
11 pages
Principles of Programming Languages (Set 1)
No ratings yet
Principles of Programming Languages (Set 1)
23 pages
Constructing Email Addresses in Excel
No ratings yet
Constructing Email Addresses in Excel
2 pages
Wa0009.
No ratings yet
Wa0009.
1 page
PAC White Paper
No ratings yet
PAC White Paper
4 pages
Dimensions and Properties of Rounded Sight Glasses With Central Hole
No ratings yet
Dimensions and Properties of Rounded Sight Glasses With Central Hole
1 page

CS60050 Machine Learning Assignment 3

Uploaded by

CS60050 Machine Learning Assignment 3

Uploaded by

CS60050_Machine Learning_Programming Assignment_3

Total Marks: 100

Part A: Support Vector Machines (SVMs) and Kernel Methods - HIGGS

● Dataset Name: HIGGS Dataset

1. Data Preprocessing and Exploration (5 Marks)

● Exploratory Data Analysis (EDA): Analyze the dataset, visualize feature

2. Linear SVM Implementation (10 Marks)

3. SVM with Polynomial, RBF, and Custom Kernels (15 Marks)

● Implement SVMs with the following kernels:

Time Complexity Analysis (3 Marks)

4. Hyperparameter Tuning (10 Marks)

● Perform hyperparameter tuning for the chosen kernel to optimize performance.

Hyperparameter Sensitivity Analysis (3 Marks)

● Analyze the sensitivity of the SVM performance to different hyperparameters (e.g.,

5. Analysis and Report (10 Marks)

Grading Rubric (Out of 50 Marks):

1. Code: Submit well-documented Python code (preferably as PartA_your_name.ipynb)

Part B: K-Means Clustering - Anuran Calls Dataset (MFCCs) (50 Marks)

Dataset Name: Anuran Calls Dataset (MFCCs)

1. Data Preprocessing and Exploration (7 Marks)

Feature Correlation Analysis (2 Marks)

2. K-Means Clustering (15 Marks)

Cluster Initialization (2 Marks)

[Link] Visualization (10 Marks)

● Dimensionality Reduction: If needed, apply PCA or t-SNE to reduce dimensions for

Feature Contribution to Clustering (3 Marks)

[Link] Evaluation Metrics (10 Marks)

Evaluation Using Multiple Metrics

● Calculate additional metrics like the Davies-Bouldin Index and Calinski-Harabasz

5. Comparison with Other Clustering Algorithms (8 Marks)

● Apply Agglomerative Hierarchical Clustering or DBSCAN and compare the

6. Analysis and Report (5 Marks)

Submission Requirements & Grading Rubric:

2. Code: Submit well-documented Python code (preferably as PartB_your_name.ipynb)

Grading Rubric (Out of 50 Marks):

● Data Preprocessing and Exploration: 7 Marks

You might also like