0% found this document useful (0 votes)

8 views4 pages

Ads Lab5

The experiment aimed to address class imbalance using the SMOTE technique by generating synthetic data. It involved comparing the performance of a Random Forest classifier on original and SMOTE-resampled datasets, revealing that SMOTE had negligible effects on model performance. The study highlighted the importance of careful application of SMOTE, considering dataset characteristics and potential impacts on model interpretability.

Uploaded by

abhijaysingh66

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views4 pages

Ads Lab5

Uploaded by

abhijaysingh66

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

EXPERIMENT NO.

05
AIM: Use the SMOTE technique to generate synthetic data (to solve the problem of class
imbalance) Use any dataset to check for imbalance ratio and perform balancing by random
generating and with SMOTE and compare the accuracy and other evaluation metrics
THEORY:

Class Imbalance:
In many real-world classification problems, the distribution of classes is often uneven, with
one class significantly outnumbering the others. This class imbalance can lead machine
learning models to be biased towards the majority class, resulting in poor performance on the
minority class. This is a common issue in various domains, such as fraud detection, medical
diagnosis, and rare event prediction.
Synthetic Minority Over-sampling Technique (SMOTE):
1. Introduction:
● Objective: SMOTE aims to alleviate the impact of class imbalance by oversampling
the minority class through the generation of synthetic examples.
● Key Idea: Instead of replicating existing minority class instances, SMOTE creates
synthetic samples by interpolating between existing minority class instances.
2. How SMOTE Works:
● Nearest Neighbors: SMOTE operates by selecting a minority class instance and its
k-nearest neighbors.
● Synthetic Sample Creation: A synthetic sample is generated by selecting one of the
k-nearest neighbors and creating a convex combination of the feature values between
the selected instance and that neighbor.
3. Algorithm Steps:
For each minority class instance:
● Identify its k-nearest neighbors.
● Randomly select one of the neighbors.
● Generate synthetic samples by interpolating between the chosen neighbor and the
original instance.
● Repeat until the desired balance between classes is achieved.
4. Advantages of SMOTE:
● Mitigating Overfitting: SMOTE helps in reducing overfitting, as it introduces
diversity into the dataset without simply duplicating existing examples.
● Improved Generalization: The synthetic samples contribute to a better generalization
of the model, especially when the available data is limited.
5. Considerations:
● Parameter Tuning: Users need to decide on the number of synthetic samples to
generate (controlled by parameters like the oversampling ratio and k-neighbors).
● Impact on Model Interpretability: Introducing synthetic samples may affect the
interpretability of the model, as these examples do not correspond to actual
observations.
6. Limitations:
Sensitive to Noise: SMOTE may introduce noise when dealing with noisy datasets.
Potential Overfitting: If not used cautiously, SMOTE might lead to overfitting, especially
when the number of synthetic samples is excessive.
In summary, SMOTE is a valuable technique for addressing class imbalance by creating
synthetic samples for the minority class. However, its application should be done carefully,
considering the characteristics of the dataset and potential impacts on model performance and
interpretability
CODE:
import numpy as np
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score,
confusion_matrix
np.random.seed(42)
X_minority = np.random.rand(100, 20) # Minority class
X_majority = np.random.rand(900, 20) # Majority class
X = np.vstack((X_minority, X_majority))
y = np.hstack((np.ones(100), np.zeros(900))) # Labels (1 for minority, 0 for majority)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
imbalance_ratio = np.sum(y_train == 0) / np.sum(y_train == 1)
print(f"Imbalance ratio before balancing: {imbalance_ratio}")
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X_train, y_train)
imbalance_ratio_after_smote = np.sum(y_resampled == 0) / np.sum(y_resampled == 1)
print(f"Imbalance ratio after SMOTE: {imbalance_ratio_after_smote}")
clf_original = RandomForestClassifier(random_state=42)
clf_original.fit(X_train, y_train)
clf_smote = RandomForestClassifier(random_state=42)
clf_smote.fit(X_resampled, y_resampled)
def evaluate_model(clf, X_test, y_test):
y_pred = clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
confusion_mat = confusion_matrix(y_test, y_pred)
return accuracy, precision, recall, f1, confusion_mat
accuracy_original, precision_original, recall_original, f1_original, conf_mat_original =
evaluate_model(clf_original, X_test, y_test)
accuracy_smote, precision_smote, recall_smote, f1_smote, conf_mat_smote =
evaluate_model(clf_smote, X_test, y_test)
print("\nResults on the original test set:")
print(f"Accuracy: {accuracy_original}")
print(f"Precision: {precision_original}")
print(f"Recall: {recall_original}")
print(f"F1 Score: {f1_original}")
print(f"Confusion Matrix:\n{conf_mat_original}")
print("\nResults on the SMOTE-resampled test set:")
print(f"Accuracy: {accuracy_smote}")
print(f"Precision: {precision_smote}")
print(f"Recall: {recall_smote}")
print(f"F1 Score: {f1_smote}")
print(f"Confusion Matrix:\n{conf_mat_smote}")
OUTPUT:

CONCLUSION:
We successfully studied that With a mildly imbalanced dataset, applying SMOTE resulted in
negligible changes in model performance.

1 s2.0 S0925753523000802 Main
No ratings yet
1 s2.0 S0925753523000802 Main
12 pages
Ads 6
No ratings yet
Ads 6
7 pages
SMOTE For Imbalanced Classification With Python
No ratings yet
SMOTE For Imbalanced Classification With Python
75 pages
Ads Exp 8
No ratings yet
Ads Exp 8
9 pages
SMOTE For Imbalanced Classification With Python - GeeksforGeeks
No ratings yet
SMOTE For Imbalanced Classification With Python - GeeksforGeeks
18 pages
ADS Expt6 BE9 29
No ratings yet
ADS Expt6 BE9 29
3 pages
Exp 6 Ads
No ratings yet
Exp 6 Ads
4 pages
Imbalanced Learn Python
No ratings yet
Imbalanced Learn Python
5 pages
DeepSMOTE Fusing Deep Learning and SMOTE For Imbalanced Data
No ratings yet
DeepSMOTE Fusing Deep Learning and SMOTE For Imbalanced Data
15 pages
SMOTE Using Python1
No ratings yet
SMOTE Using Python1
9 pages
Charmi Shah 20bcp299 Lab2
100% (1)
Charmi Shah 20bcp299 Lab2
7 pages
DeepSMOTE Fusing Deep Learning and SMOTE For Imbalanced Data
No ratings yet
DeepSMOTE Fusing Deep Learning and SMOTE For Imbalanced Data
15 pages
Ads Module 4 Smote 2023
No ratings yet
Ads Module 4 Smote 2023
71 pages
A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) For Handling Class Imbalance
No ratings yet
A Comprehensive Analysis of Synthetic Minority Oversampling Technique (SMOTE) For Handling Class Imbalance
33 pages
Catboost ET Comparaison
No ratings yet
Catboost ET Comparaison
20 pages
Gaussian-Based SMOTE Algorithm For Solving Skewed Class Distributions
No ratings yet
Gaussian-Based SMOTE Algorithm For Solving Skewed Class Distributions
6 pages
308 Responses To SMOTE
No ratings yet
308 Responses To SMOTE
79 pages
Literature Survey
No ratings yet
Literature Survey
2 pages
Admin, 1277
No ratings yet
Admin, 1277
21 pages
JPSP - 2022 - 383
No ratings yet
JPSP - 2022 - 383
12 pages
11-A-SMOTE A New Preprocessing Approach For Highly Im
No ratings yet
11-A-SMOTE A New Preprocessing Approach For Highly Im
11 pages
Sampling
No ratings yet
Sampling
9 pages
MK-SMOTE and M-SMOTE: Enhanced Techniques For Handling Class Imbalance Problem
No ratings yet
MK-SMOTE and M-SMOTE: Enhanced Techniques For Handling Class Imbalance Problem
19 pages
11192-Article (PDF) - 20731-1-10-20180420
No ratings yet
11192-Article (PDF) - 20731-1-10-20180420
43 pages
Dataset Balancing Techniques
No ratings yet
Dataset Balancing Techniques
2 pages
Evaluation and Enhancement of Standard Classifier
No ratings yet
Evaluation and Enhancement of Standard Classifier
31 pages
Ensembles Models and Decision Tree
No ratings yet
Ensembles Models and Decision Tree
21 pages
Template Jesmedia
No ratings yet
Template Jesmedia
8 pages
MSMOTE Improving Classification Performance When Training Data Is Imbalanced
No ratings yet
MSMOTE Improving Classification Performance When Training Data Is Imbalanced
5 pages
Two Novel SMOTE Methods For Solving Imbalanced Classification Problems
No ratings yet
Two Novel SMOTE Methods For Solving Imbalanced Classification Problems
8 pages
Lab Assignment 7
No ratings yet
Lab Assignment 7
1 page
Random and Synthetic Over Sampling Approach To Resolve Data 2zu79c47m6
No ratings yet
Random and Synthetic Over Sampling Approach To Resolve Data 2zu79c47m6
9 pages
A Novel Resampling Technique For Imbalanced Classification in Software Defect Prediction by A Re-Sampling Method With Filtering
No ratings yet
A Novel Resampling Technique For Imbalanced Classification in Software Defect Prediction by A Re-Sampling Method With Filtering
10 pages
Modeling Imbalance Class
No ratings yet
Modeling Imbalance Class
24 pages
An Empirical Comparison and Evaluation of Minority Oversampling
No ratings yet
An Empirical Comparison and Evaluation of Minority Oversampling
13 pages
Enhanced Synthetic Oversampling For Multiclass Imbalanced Data
No ratings yet
Enhanced Synthetic Oversampling For Multiclass Imbalanced Data
20 pages
Batista 2004
No ratings yet
Batista 2004
10 pages
BDT: A Novel Approach To Handle Imbalanced Data in Machine Learning Models
No ratings yet
BDT: A Novel Approach To Handle Imbalanced Data in Machine Learning Models
13 pages
Metabalance: High-Performance Neural Networks For Class-Imbalanced Data
No ratings yet
Metabalance: High-Performance Neural Networks For Class-Imbalanced Data
13 pages
10 Techniques To Deal With Class Imbalance in Machine Learning
No ratings yet
10 Techniques To Deal With Class Imbalance in Machine Learning
10 pages
Journal Pone 0259227
No ratings yet
Journal Pone 0259227
15 pages
2515-Article Text-14337-4-10-20230331
No ratings yet
2515-Article Text-14337-4-10-20230331
12 pages
Python Application Development Using Imbalanced-Learn
No ratings yet
Python Application Development Using Imbalanced-Learn
6 pages
An Extension of Synthetic Minority Oversampling Technique Based On
No ratings yet
An Extension of Synthetic Minority Oversampling Technique Based On
12 pages
l10 Machine Learning
No ratings yet
l10 Machine Learning
39 pages
Data Oversampling and Imbalanced Datasets: An Investigation of Performance For Machine Learning and Feature Engineering
No ratings yet
Data Oversampling and Imbalanced Datasets: An Investigation of Performance For Machine Learning and Feature Engineering
32 pages
MEE22154 Task2
No ratings yet
MEE22154 Task2
4 pages
Imbalanced Dataset Techniques
No ratings yet
Imbalanced Dataset Techniques
16 pages
Synthetic Minority Oversampling Technique (SMOTE) For Boosting The Accuracy of C4.5 Algorithm Model
No ratings yet
Synthetic Minority Oversampling Technique (SMOTE) For Boosting The Accuracy of C4.5 Algorithm Model
7 pages
Handling Data Imbalance in Machine Learning
No ratings yet
Handling Data Imbalance in Machine Learning
51 pages
Improving Imbalanced Learning Through A Heuristic Oversampling Method Based On K-Means and SMOTE
No ratings yet
Improving Imbalanced Learning Through A Heuristic Oversampling Method Based On K-Means and SMOTE
20 pages
FULLTEXT01
No ratings yet
FULLTEXT01
42 pages
Machine Learning With Oversampling and Undersampling Techniques Overview Study and Experimental Results
No ratings yet
Machine Learning With Oversampling and Undersampling Techniques Overview Study and Experimental Results
6 pages
Bsgan:: A Novel Oversampling Technique For Imbalanced Pattern Recognitions
No ratings yet
Bsgan:: A Novel Oversampling Technique For Imbalanced Pattern Recognitions
17 pages
Import As Import As From Import From Import From Import From Import
No ratings yet
Import As Import As From Import From Import From Import From Import
4 pages
Over-Sampling Algorithm For Imbalanced Data Classification: XU Xiaolong, Chen Wen, and SUN Yanfei
No ratings yet
Over-Sampling Algorithm For Imbalanced Data Classification: XU Xiaolong, Chen Wen, and SUN Yanfei
10 pages
Chapter 7 - Ensemble
No ratings yet
Chapter 7 - Ensemble
12 pages
ML - LAB - 7 - Jupyter Notebook
100% (1)
ML - LAB - 7 - Jupyter Notebook
7 pages
Lec - 15 Imbalance Dataset
No ratings yet
Lec - 15 Imbalance Dataset
20 pages
ML Algorithms
100% (1)
ML Algorithms
1 page
A Machine Learning Predictive Model For Determining Credit Risks in Ethiopian Microfinance Institutions
No ratings yet
A Machine Learning Predictive Model For Determining Credit Risks in Ethiopian Microfinance Institutions
20 pages
Bankruptcy Prediction Report
No ratings yet
Bankruptcy Prediction Report
32 pages
Credit Card Fraud Detection
No ratings yet
Credit Card Fraud Detection
8 pages
Updated Survey PAPER
No ratings yet
Updated Survey PAPER
5 pages
dp-100 - 5 Microsoft Certified Associate Data Scientist
No ratings yet
dp-100 - 5 Microsoft Certified Associate Data Scientist
31 pages
5 Techniques To Handle Imbalanced Data For A Classification Problem
No ratings yet
5 Techniques To Handle Imbalanced Data For A Classification Problem
7 pages
Prediction of Autism and Dyslexia Using Machine Learning and Clinical Data Balancing
No ratings yet
Prediction of Autism and Dyslexia Using Machine Learning and Clinical Data Balancing
11 pages
Research On Prediction of Multi-Class Theft Crimes by An Optimized Decomposition and Fusion Method Based On XGBoost
No ratings yet
Research On Prediction of Multi-Class Theft Crimes by An Optimized Decomposition and Fusion Method Based On XGBoost
10 pages
Identification and Analysis of Ransomware Transactions in The Bitcoin Network
No ratings yet
Identification and Analysis of Ransomware Transactions in The Bitcoin Network
20 pages
Seminar Presentation PKD21IT012
No ratings yet
Seminar Presentation PKD21IT012
31 pages
Multiclass Prediction Model For Student Grade Prediction Using Machine Learning
No ratings yet
Multiclass Prediction Model For Student Grade Prediction Using Machine Learning
106 pages
DP 100
No ratings yet
DP 100
13 pages
Credit Card Fraud Detection Challenges and Solutions - A Review
No ratings yet
Credit Card Fraud Detection Challenges and Solutions - A Review
17 pages
Stop Oversampling For Class Imbalance Learning - A Review (OJO) - AHMAD S. TARAWNEH, AHMAD B. HASSANAT, GHADA AWAD ALTARAWNEH, ABDULLAH ALMUHAIMEED
No ratings yet
Stop Oversampling For Class Imbalance Learning - A Review (OJO) - AHMAD S. TARAWNEH, AHMAD B. HASSANAT, GHADA AWAD ALTARAWNEH, ABDULLAH ALMUHAIMEED
18 pages
Umberto Michelucci - Fundamental Mathematical Concepts For Machine Learning in Science-Springer (2024)
100% (1)
Umberto Michelucci - Fundamental Mathematical Concepts For Machine Learning in Science-Springer (2024)
259 pages
Cse Cic Ids Dataset
No ratings yet
Cse Cic Ids Dataset
19 pages
Unit 2 Quantitative Techniques
No ratings yet
Unit 2 Quantitative Techniques
33 pages
Capstone Project - Jaro-Prof. Babji
No ratings yet
Capstone Project - Jaro-Prof. Babji
5 pages
Ijcds160137 1570980185
No ratings yet
Ijcds160137 1570980185
16 pages
Eng2 12298 PDF
No ratings yet
Eng2 12298 PDF
24 pages
Predictive Maintenance For Industrial Equipment: Using Xgboost and Local Outlier Factor With Explainable Ai For Analysis
No ratings yet
Predictive Maintenance For Industrial Equipment: Using Xgboost and Local Outlier Factor With Explainable Ai For Analysis
7 pages
Ensemble of Technical Analysis and Machine Learning For Market Trend Prediction
No ratings yet
Ensemble of Technical Analysis and Machine Learning For Market Trend Prediction
7 pages
A3 (16063620)
No ratings yet
A3 (16063620)
32 pages
Machine Learning Techniques For Heart Disease Prediction
No ratings yet
Machine Learning Techniques For Heart Disease Prediction
8 pages
Priya Revised ICCCNT Paper
No ratings yet
Priya Revised ICCCNT Paper
6 pages
21bcp420 ML Lab Report
No ratings yet
21bcp420 ML Lab Report
69 pages
Research Article: Prediction of Air Quality Index Using Machine Learning Techniques: A Comparative Analysis
No ratings yet
Research Article: Prediction of Air Quality Index Using Machine Learning Techniques: A Comparative Analysis
26 pages
应用机器学习方法预测沙尘暴
No ratings yet
应用机器学习方法预测沙尘暴
5 pages
5 - Unit 2 - Lecture 2-Data Handling
No ratings yet
5 - Unit 2 - Lecture 2-Data Handling
15 pages

Ads Lab5

Uploaded by

Ads Lab5

Uploaded by

EXPERIMENT NO.

You might also like