0% found this document useful (0 votes)

8 views8 pages

Aiml Assignment-2

The document outlines an assignment on spam email detection using a Naïve Bayes classifier, detailing the algorithm's foundation in Bayes' Theorem. It includes steps for data preprocessing, model training, and evaluation, demonstrating high accuracy in predictions. The conclusion emphasizes the effectiveness and efficiency of the Naïve Bayes algorithm for spam detection.

Uploaded by

bhaveshtupe06

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

8 views8 pages

Aiml Assignment-2

Uploaded by

bhaveshtupe06

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

AIML ASSIGNMENT-2

BHAVESH SANTOSHKUMAR TUPE

CSE A (23U104014)
Introduction

Spam emails are unsolicited messages that often contain

advertisements, phishing attempts, or malicious links. To filter spam
efficiently, we can use a Naïve Bayes classifier, a probabilistic
machine learning model based on Bayes' Theorem. It assumes that the
presence of one word in an email is independent of the presence of
any other word (hence, "naïve").

Bayes’ Theorem

The classifier is based on Bayes' theorem, which states:

P(A∣B)= P(B∣A)×P(A)/ P(B)

Where:

P(A|B): Probability that an email is spam given the words in the

email.

P(B|A): Probability of words appearing in spam emails.

P(A): Prior probability of spam.

P(B): Probability of words appearing in any email.

Using this, we compute the probability of an email being spam or not

spam (ham) based on its words.

Algorithm

Start

Import necessary libraries (pandas, sklearn, CountVectorizer,

MultinomialNB)

Load the dataset (Spam SMS or Email data)

Preprocess the data (convert text to numerical vectors)

Split data into training and test sets

Train the Naïve Bayes classifier (MultinomialNB)

Predict the classification for test data

Evaluate the model using accuracy, precision, recall

Display sample results

End
Code

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report,
confusion_matrix

# Load dataset
df = pd.read_csv("emails.csv")
print(df.head())
# Rename column for consistency
df.rename(columns={'spam': 'label'}, inplace=True)

# Check class distribution

plt.figure(figsize=(6,4))
sns.countplot(x=df['label'], palette=['blue', 'red'])
plt.xticks([0, 1], ['Ham', 'Spam'])
plt.xlabel("Email Type")
plt.ylabel("Count")
plt.title("Spam vs. Ham Email Distribution")
plt.show()

# Preprocess text data

df['text'] = df['text'].str.lower().str.replace(r'[^a-zA-Z\s]', '', regex=True)

# Generate WordClouds
spam_words = ' '.join(df[df['label'] == 1]['text'])
ham_words = ' '.join(df[df['label'] == 0]['text'])

plt.figure(figsize=(12,6))
plt.subplot(1,2,1)
plt.title("Most Common Words in Spam Emails")
spam_wordcloud = WordCloud(width=400, height=300,
background_color='black', colormap='Reds').generate(spam_words)
plt.imshow(spam_wordcloud, interpolation='bilinear')
plt.axis("off")
plt.subplot(1,2,2)
plt.title("Most Common Words in Ham Emails")
ham_wordcloud = WordCloud(width=400, height=300,
background_color='black', colormap='Blues').generate(ham_words)
plt.imshow(ham_wordcloud, interpolation='bilinear')
plt.axis("off")

plt.show()

# Convert text to numerical features

vectorizer = CountVectorizer(stop_words='english')
X = vectorizer.fit_transform(df['text'])
y = df['label']

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Train Naïve Bayes model

classifier = MultinomialNB()
classifier.fit(X_train, y_train)

# Predictions
y_pred = classifier.predict(X_test)

# Evaluation
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred, output_dict=True)

# Confusion Matrix Visualization

conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(6,5))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap="Blues",
xticklabels=['Ham', 'Spam'], yticklabels=['Ham', 'Spam'])
plt.xlabel("Predicted Label")
plt.ylabel("Actual Label")
plt.title("Confusion Matrix")
plt.show()

# Accuracy & F1-score comparison

metrics = ['Accuracy', 'Precision (Spam)', 'Recall (Spam)', 'F1-score
(Spam)']
values = [accuracy, report['1']['precision'], report['1']['recall'],
report['1']['f1-score']]

plt.figure(figsize=(8,5))
sns.barplot(x=metrics, y=values, palette="coolwarm")
plt.ylim(0, 1)
plt.ylabel("Score")
plt.title("Model Performance Metrics")
plt.show()

# Sample Prediction
sample_email = ["Congratulations! You've won a free car. Claim now!"]
sample_vector = vectorizer.transform(sample_email)
prediction = classifier.predict(sample_vector)

print("\nSample Email Prediction:", "Spam" if prediction[0] == 1 else

"Ham")
print(f"\nFinal Model Accuracy: {accuracy * 100:.2f}%")
OUTPUT:

text spam
0 Subject: naturally irresistible your corporate... 1
1 Subject: the stock trading gunslinger fanny i... 1
2 Subject: unbelievable new homes made easy im ... 1
3 Subject: 4 color printing special request add... 1
4 Subject: do not have money , get software cds ... 1
Sample Email Prediction: Spam

Final Model Accuracy: 99.21%

Conclusion

• Naïve Bayes is an effective algorithm for spam detection due to

its simplicity and efficiency.

• The model achieves high accuracy and is widely used in email

spam filters.

• The technique is fast and scalable, making it suitable for large

datasets.

Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
Email Spam Detection PPT Github
No ratings yet
Email Spam Detection PPT Github
11 pages
Naive Bayes Spam Classifier
0% (1)
Naive Bayes Spam Classifier
44 pages
Guidelines For Laboratory Quality Managers Hassan Sabbaghi 1709787258
100% (1)
Guidelines For Laboratory Quality Managers Hassan Sabbaghi 1709787258
170 pages
Lec 09
No ratings yet
Lec 09
50 pages
Sms Spam Using Machine Learning 4
No ratings yet
Sms Spam Using Machine Learning 4
42 pages
Lec 09
No ratings yet
Lec 09
50 pages
Naive Bayes Algorithm For Classification Tasks: Sana Badagan 1MS24RAI09
No ratings yet
Naive Bayes Algorithm For Classification Tasks: Sana Badagan 1MS24RAI09
31 pages
Project 2
No ratings yet
Project 2
10 pages
Bayesian Inference
No ratings yet
Bayesian Inference
20 pages
ML6 Naive Bayes Spam Filter
No ratings yet
ML6 Naive Bayes Spam Filter
11 pages
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
No ratings yet
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
64 pages
Naive456 Bayes297Classification
No ratings yet
Naive456 Bayes297Classification
21 pages
Supervised Learning: Naïve Bayes
No ratings yet
Supervised Learning: Naïve Bayes
15 pages
2.naïve Bayes Classifier For Sms
No ratings yet
2.naïve Bayes Classifier For Sms
9 pages
Detecting Spam Mail With Naive Bayes
No ratings yet
Detecting Spam Mail With Naive Bayes
5 pages
Classifying Email As High and Low Risk An Effective Approach To Spam Email Classification
No ratings yet
Classifying Email As High and Low Risk An Effective Approach To Spam Email Classification
5 pages
Aayush Nihar Spam Mail Filtering
No ratings yet
Aayush Nihar Spam Mail Filtering
18 pages
ML Lab
No ratings yet
ML Lab
13 pages
SVM Lab Report
No ratings yet
SVM Lab Report
7 pages
Simple Naive Bayes Classifier For Email Classification
No ratings yet
Simple Naive Bayes Classifier For Email Classification
5 pages
Naive Bayes Classification - Jupyter Notebook
No ratings yet
Naive Bayes Classification - Jupyter Notebook
4 pages
Lab 78
No ratings yet
Lab 78
6 pages
Final Report (Saie)
No ratings yet
Final Report (Saie)
38 pages
Spam Detection
No ratings yet
Spam Detection
10 pages
Module3 Ids
No ratings yet
Module3 Ids
17 pages
Lab7&8 NaiveBayes
No ratings yet
Lab7&8 NaiveBayes
5 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
Spam Email Detection Using Machine Learning
No ratings yet
Spam Email Detection Using Machine Learning
8 pages
Vishal FOML Micro Project Vishal & Milan
No ratings yet
Vishal FOML Micro Project Vishal & Milan
26 pages
A Comparison of The Accuracy of Support Vector
No ratings yet
A Comparison of The Accuracy of Support Vector
17 pages
Naive Bayes Classifier
No ratings yet
Naive Bayes Classifier
3 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
Document
No ratings yet
Document
11 pages
Arnav MLlab04
No ratings yet
Arnav MLlab04
7 pages
Naive Bayes Classifier Notes
No ratings yet
Naive Bayes Classifier Notes
2 pages
Spam Detection
No ratings yet
Spam Detection
4 pages
Lab5 NaiveBayes Full
No ratings yet
Lab5 NaiveBayes Full
5 pages
AI Phash3
No ratings yet
AI Phash3
11 pages
Micro
No ratings yet
Micro
5 pages
Assignment 3 28855
No ratings yet
Assignment 3 28855
3 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
16 pages
AI Phash 5
No ratings yet
AI Phash 5
14 pages
Aiproject 2
No ratings yet
Aiproject 2
4 pages
Spam Email Detection Documentation
No ratings yet
Spam Email Detection Documentation
3 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
Spam Classifier
No ratings yet
Spam Classifier
8 pages
Spam Filter Project Report Logistic Regression
No ratings yet
Spam Filter Project Report Logistic Regression
10 pages
Email Spam Detection Project
No ratings yet
Email Spam Detection Project
2 pages
Spam Detection Model
No ratings yet
Spam Detection Model
4 pages
Content Based Spam Detection in Email Us PDF
No ratings yet
Content Based Spam Detection in Email Us PDF
5 pages
How To Submit Your Homework: EECS 349 Machine Learning Homework 5
No ratings yet
How To Submit Your Homework: EECS 349 Machine Learning Homework 5
4 pages
Spam Mail Detection Using Machine Learning
No ratings yet
Spam Mail Detection Using Machine Learning
14 pages
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
No ratings yet
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
7 pages
HW4 Text-1
No ratings yet
HW4 Text-1
8 pages
MSA Presentation
No ratings yet
MSA Presentation
16 pages
Ass 3
No ratings yet
Ass 3
2 pages
MachineLearning Lecture06 PDF
No ratings yet
MachineLearning Lecture06 PDF
16 pages
Module 1 Measurement
100% (3)
Module 1 Measurement
16 pages
Email Spam Detection Using Machine Learning
No ratings yet
Email Spam Detection Using Machine Learning
2 pages
Data Quality Procedure
No ratings yet
Data Quality Procedure
8 pages
Email Spam CLassifier by Hamas Ur Rehman
No ratings yet
Email Spam CLassifier by Hamas Ur Rehman
3 pages
Chapter 15 Final
100% (1)
Chapter 15 Final
20 pages
DNV-RP-F101 - 1999 Corroded Pipelines (Desactualizado)
No ratings yet
DNV-RP-F101 - 1999 Corroded Pipelines (Desactualizado)
52 pages
Marking Scheme Form 5
No ratings yet
Marking Scheme Form 5
8 pages
OS IT-1 Answer Key
No ratings yet
OS IT-1 Answer Key
15 pages
Free-Fall Lab Report-4
No ratings yet
Free-Fall Lab Report-4
13 pages
ASTM D2272-09 - Oxidation Stability
No ratings yet
ASTM D2272-09 - Oxidation Stability
19 pages
DBMS Assignment
No ratings yet
DBMS Assignment
33 pages
Physci Pnu Edited
100% (1)
Physci Pnu Edited
146 pages
Modelling Land Use Cover Change To Assess Future Urban Sprawl in Romania
No ratings yet
Modelling Land Use Cover Change To Assess Future Urban Sprawl in Romania
20 pages
KNN Paper
No ratings yet
KNN Paper
11 pages
Downing - Validity - On The Meaningful Interpretation of Assessment Data
No ratings yet
Downing - Validity - On The Meaningful Interpretation of Assessment Data
8 pages
Empowering Artificial Intelligence Techniques With Soft Computing of Neutrosophic Theory in Mystery Circumstances For Plant Diseases
No ratings yet
Empowering Artificial Intelligence Techniques With Soft Computing of Neutrosophic Theory in Mystery Circumstances For Plant Diseases
13 pages
Os Internal 2 Notes
No ratings yet
Os Internal 2 Notes
30 pages
DBMS
No ratings yet
DBMS
11 pages
Biology Lab Mark Schemes 2024-2025
No ratings yet
Biology Lab Mark Schemes 2024-2025
6 pages
QA - QC - Precision and Accuracy
100% (1)
QA - QC - Precision and Accuracy
24 pages
Instrumentation Lecture 1 N
No ratings yet
Instrumentation Lecture 1 N
9 pages
Density Experiment One - 103138
No ratings yet
Density Experiment One - 103138
17 pages
Machine Learning-Based Approaches For Financial Ma
No ratings yet
Machine Learning-Based Approaches For Financial Ma
19 pages
# Research Methods in AcFn Chapter 1
No ratings yet
# Research Methods in AcFn Chapter 1
100 pages
10 Fallacies in Psychological Assessment
No ratings yet
10 Fallacies in Psychological Assessment
6 pages
FHGH HGHG HGJH
No ratings yet
FHGH HGHG HGJH
15 pages
Biology Project Class 12
No ratings yet
Biology Project Class 12
14 pages
Mobile Technology
No ratings yet
Mobile Technology
36 pages
2022 Biology SD
No ratings yet
2022 Biology SD
49 pages
Biology Class 12 Project
No ratings yet
Biology Class 12 Project
19 pages
ESS Slip Test-2
No ratings yet
ESS Slip Test-2
5 pages
Biology Project Class 12
No ratings yet
Biology Project Class 12
16 pages
Unit - 1 Basic Concepts of Measurements
No ratings yet
Unit - 1 Basic Concepts of Measurements
82 pages
ER To Relational Mapping
No ratings yet
ER To Relational Mapping
4 pages
ESS - Notes 5
No ratings yet
ESS - Notes 5
4 pages
Characterstic of Comp-1
No ratings yet
Characterstic of Comp-1
7 pages
Bio Project
No ratings yet
Bio Project
9 pages
Measurement Uncertainty of Harmonic Emission Indicators Based On IEEE Std. 1459-2010
No ratings yet
Measurement Uncertainty of Harmonic Emission Indicators Based On IEEE Std. 1459-2010
6 pages
A Comparative Study On Mushroom Classification Using Supervised Machine Learning Algorithms
No ratings yet
A Comparative Study On Mushroom Classification Using Supervised Machine Learning Algorithms
8 pages
WIKA PG Design and Specification
No ratings yet
WIKA PG Design and Specification
4 pages
Focus Forecasting
No ratings yet
Focus Forecasting
5 pages
Python For Beginners
From Everand
Python For Beginners
Célio Azevedo
No ratings yet
Introduction to PHP, Part 2, Second Edition
From Everand
Introduction to PHP, Part 2, Second Edition
Adam Majczak
No ratings yet

Aiml Assignment-2

Uploaded by

Aiml Assignment-2

Uploaded by

AIML ASSIGNMENT-2

BHAVESH SANTOSHKUMAR TUPE

Spam emails are unsolicited messages that often contain

The classifier is based on Bayes' theorem, which states:

P(A∣B)= P(B∣A)×P(A)/ P(B)

P(A|B): Probability that an email is spam given the words in the

P(B|A): Probability of words appearing in spam emails.

P(A): Prior probability of spam.

P(B): Probability of words appearing in any email.

Using this, we compute the probability of an email being spam or not

Import necessary libraries (pandas, sklearn, CountVectorizer,

Load the dataset (Spam SMS or Email data)

Preprocess the data (convert text to numerical vectors)

Split data into training and test sets

Train the Naïve Bayes classifier (MultinomialNB)

Predict the classification for test data

Evaluate the model using accuracy, precision, recall

Display sample results

# Check class distribution

# Preprocess text data

# Convert text to numerical features

# Train Naïve Bayes model

# Confusion Matrix Visualization

# Accuracy & F1-score comparison

print("\nSample Email Prediction:", "Spam" if prediction[0] == 1 else

Final Model Accuracy: 99.21%

• Naïve Bayes is an effective algorithm for spam detection due to

• The model achieves high accuracy and is widely used in email

• The technique is fast and scalable, making it suitable for large

You might also like