Aayush Nihar Spam Mail Filtering

dav report

Uploaded by

Nihar Shah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views18 pages

Aayush Nihar Spam Mail Filtering

dav report

Uploaded by

Nihar Shah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 18

Spam Filtering on Mail

Aayush Shah, 1641065

Nihar Shah, 1641054
Overview
● Spam Mail wastes the Internet’s two most precious resources Bandwidth and Time
● It can eat up lot of inbox space and can contain malware and viruses that can compromise
company security and data.
● Very advantageous theorem of probability to classify spam mail : Bayes Theorem.
Problem Statement
● We have message m = (w1, w2, w3, … , wn), where (w1, w2, w3, … , wn) is a set of unique words

● Assume occurence of word are independent of all other words

Problem Statement (Cont.)
● In order to classify we have to determine which is greater
Loading dependencies
● NLTK for processing the messages
● WordCloud and matplotlib for visualization
● Pandas for loading data
● NumPy for generating random probabilities for train-test split
Loading Data

● We do not require the columns ‘Unnamed: 2’, ‘Unnamed: 3’ and ‘Unnamed: 4’, so we remove
them. We rename the column ‘v1’ as ‘label’ and ‘v2’ as ‘message’. ‘ham’ is replaced by 0 and ‘spam’
is replaced by 1 in the ‘label’ column.
Loading Data (Cont.)
Data Visualization of Spam and Ham emails:
In UCI ML Dataset taken there are 5722 emails out
of which 4120 are ham(legitimate) and remaining are
spam emails.
Train-Test split

● Use 75% of the dataset as training

and rest as test dataset. Selection of
data is uniformly random.
Visualizing Data
● To see which are the most repeated words in the spam message we have used WordCloud library
Visualizing Data
(Cont.)

● Result for spam mails is as

expected
● Messages contains the words
like ‘FREE’, ‘call’, ‘text’, etc.
Visualizing Data
(Cont.)

● Result for ham mails.

Training the Model
1. Preprocessing

a) Make all words to lowercase (FREE and free are same words).
b) Tokenize each word (Split message into pieces and throw away the punctuation)

c) Go, goes, going indicates the same activity. Replace all these words by go by using Porter
Stemmer algorithm
Training the Model (Cont.)
d) Remove the stop words (‘a’, ‘an’, ‘the’ are the stop words).
e) Find number of occurence of each word

f) TF-IDF (Term frequency - Inverse document frequency)

Training the Model (Cont.)
g) Probability of each word is counted as:
Training the Model (Cont.)
h) If some word comes in test dataset which is not part of training dataset then P(w) = 0 this
creates problem. Additive smoothing must be done.
Classification and Evaluation Results:
1. Multinomial Naive Bayes Classifier is used and its results are as follows:
Thank You

1000+ Artificial Intelligence MCQ's
100% (1)
1000+ Artificial Intelligence MCQ's
280 pages
DataGrokr DevOps Intern Assignment - 20210129
No ratings yet
DataGrokr DevOps Intern Assignment - 20210129
3 pages
Star Citizen Helpdesk Project: 3.x Info
No ratings yet
Star Citizen Helpdesk Project: 3.x Info
46 pages
Email Spam Detection Using Machine Learning
No ratings yet
Email Spam Detection Using Machine Learning
2 pages
Aiml Assignment-2
No ratings yet
Aiml Assignment-2
8 pages
44 Decision Tree Model For Email Classification
No ratings yet
44 Decision Tree Model For Email Classification
4 pages
Decision Tree Model For Email Classification: Ivana Čavor
No ratings yet
Decision Tree Model For Email Classification: Ivana Čavor
4 pages
Email Spam Detection
No ratings yet
Email Spam Detection
8 pages
Content Based Spam Detection in Email Us PDF
No ratings yet
Content Based Spam Detection in Email Us PDF
5 pages
AI Phash 5
No ratings yet
AI Phash 5
14 pages
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
No ratings yet
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
64 pages
Spam Detection Model
No ratings yet
Spam Detection Model
4 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
Naive Bayes Spam Classifier
0% (1)
Naive Bayes Spam Classifier
44 pages
Maths Answers
No ratings yet
Maths Answers
4 pages
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
No ratings yet
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
7 pages
A Comparative Performance Evaluation of Content Based Spam and Malicious URL Detection in E-Mail
No ratings yet
A Comparative Performance Evaluation of Content Based Spam and Malicious URL Detection in E-Mail
6 pages
7.email Spam Filtering Using Naive Bayes Classifier
No ratings yet
7.email Spam Filtering Using Naive Bayes Classifier
14 pages
Amrit Science Campus: Submitted by
No ratings yet
Amrit Science Campus: Submitted by
35 pages
Major-Final Research Paper
No ratings yet
Major-Final Research Paper
3 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
16 pages
PPT
0% (1)
PPT
15 pages
Presentation 3
No ratings yet
Presentation 3
13 pages
Ijirt156181 Paper
No ratings yet
Ijirt156181 Paper
5 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
Aiproject 2
No ratings yet
Aiproject 2
4 pages
Spam Email. Classifier
No ratings yet
Spam Email. Classifier
16 pages
E-Mail Spam Detection
No ratings yet
E-Mail Spam Detection
8 pages
Spam Filter Project Report Logistic Regression
No ratings yet
Spam Filter Project Report Logistic Regression
10 pages
Spam Classifier
No ratings yet
Spam Classifier
8 pages
Ass 3
No ratings yet
Ass 3
2 pages
Simple Naive Bayes Classifier For Email Classification
No ratings yet
Simple Naive Bayes Classifier For Email Classification
5 pages
Assignment 3 28855
No ratings yet
Assignment 3 28855
3 pages
Synopsis Email Spam
No ratings yet
Synopsis Email Spam
9 pages
ML Lab
No ratings yet
ML Lab
13 pages
Spam Email Detection Using Machine Learning
No ratings yet
Spam Email Detection Using Machine Learning
8 pages
164 331 3 PB
No ratings yet
164 331 3 PB
10 pages
AI Phash3
No ratings yet
AI Phash3
11 pages
How To Submit Your Homework: EECS 349 Machine Learning Homework 5
No ratings yet
How To Submit Your Homework: EECS 349 Machine Learning Homework 5
4 pages
Email Spam Filtering Using Machine Learning.1
No ratings yet
Email Spam Filtering Using Machine Learning.1
16 pages
Spam Detection in Email Using Machine Le
No ratings yet
Spam Detection in Email Using Machine Le
8 pages
Email Spam Detection PPT Github
No ratings yet
Email Spam Detection PPT Github
11 pages
Document
No ratings yet
Document
11 pages
Detecting Spam Mail With Naive Bayes
No ratings yet
Detecting Spam Mail With Naive Bayes
5 pages
10-2018-Composite Email Features For Spam Identification
No ratings yet
10-2018-Composite Email Features For Spam Identification
9 pages
Emai Spam Detection Using Machine Learning and Python - IJRPR3714
No ratings yet
Emai Spam Detection Using Machine Learning and Python - IJRPR3714
6 pages
Ain Shams Engineering Journal: Eman M. Bahgat, Sherine Rady, Walaa Gad, Ibrahim F. Moawad
No ratings yet
Ain Shams Engineering Journal: Eman M. Bahgat, Sherine Rady, Walaa Gad, Ibrahim F. Moawad
11 pages
Introduction To Spam Email Detection
No ratings yet
Introduction To Spam Email Detection
16 pages
Spam Detection & Classification Final
No ratings yet
Spam Detection & Classification Final
38 pages
1822 B Deleted Merged Cropped
No ratings yet
1822 B Deleted Merged Cropped
40 pages
For Email
No ratings yet
For Email
8 pages
Survey On Spam Filtering in Text Analysis: Saksham Sharma, Rabi Raj Yadav
No ratings yet
Survey On Spam Filtering in Text Analysis: Saksham Sharma, Rabi Raj Yadav
7 pages
Final Report (Saie)
No ratings yet
Final Report (Saie)
38 pages
Project Report Emaildetection 4 44
No ratings yet
Project Report Emaildetection 4 44
41 pages
$RB0DCAN
No ratings yet
$RB0DCAN
10 pages
Analysis of Spam Email Filtering Through Naive Bayes Algorithm Across Different Datasets
No ratings yet
Analysis of Spam Email Filtering Through Naive Bayes Algorithm Across Different Datasets
4 pages
1822 B Deleted
No ratings yet
1822 B Deleted
38 pages
Zoom
No ratings yet
Zoom
20 pages
Spam-T5: Benchmarking Large Language Models For Few-Shot Email Spam Detection
No ratings yet
Spam-T5: Benchmarking Large Language Models For Few-Shot Email Spam Detection
18 pages
Categorization of Email Using Machine Learning On Cloud: Abstract
No ratings yet
Categorization of Email Using Machine Learning On Cloud: Abstract
5 pages
Considering Behavior of Sender in Spam Mail Detection: S. Naksomboon, C. Charnsripinyo and N. Wattanapongsakorn
No ratings yet
Considering Behavior of Sender in Spam Mail Detection: S. Naksomboon, C. Charnsripinyo and N. Wattanapongsakorn
5 pages
Chung-Kwei Spam IA
No ratings yet
Chung-Kwei Spam IA
18 pages
My Notes - LeetCode
100% (1)
My Notes - LeetCode
31 pages
Ebook Deep Learning Objective Type Questions
No ratings yet
Ebook Deep Learning Objective Type Questions
102 pages
Iot Based Smart Farming System: (Semester Week 8 Report)
No ratings yet
Iot Based Smart Farming System: (Semester Week 8 Report)
4 pages
Aayush Nihar Soham Maitrik Yagnesh ML Project Report
No ratings yet
Aayush Nihar Soham Maitrik Yagnesh ML Project Report
9 pages
Cypress in A Nutshell
No ratings yet
Cypress in A Nutshell
19 pages
Empowerment Technology: Unit V
No ratings yet
Empowerment Technology: Unit V
11 pages
Form III - Deletion
No ratings yet
Form III - Deletion
2 pages
Claim Intimation Form
0% (1)
Claim Intimation Form
2 pages
Iaa202 - Lab 4 - Nguyentuanlinh - Se130002 - 26012021
No ratings yet
Iaa202 - Lab 4 - Nguyentuanlinh - Se130002 - 26012021
9 pages
Delay-Aware and Load-Balanced Iot Firewall
No ratings yet
Delay-Aware and Load-Balanced Iot Firewall
9 pages
Mybupa User Guide - Member Portal EN
No ratings yet
Mybupa User Guide - Member Portal EN
34 pages
Config Hadoop
No ratings yet
Config Hadoop
1,244 pages
IVAS - DLV - BP User Guide For Reset Password
No ratings yet
IVAS - DLV - BP User Guide For Reset Password
6 pages
Application Enquiry Form
No ratings yet
Application Enquiry Form
1 page
3.3-Internet Communication - Twitter, Email, IM, Blogging, RSS - Newsgroups - Video - Lesson Transcript
No ratings yet
3.3-Internet Communication - Twitter, Email, IM, Blogging, RSS - Newsgroups - Video - Lesson Transcript
4 pages
115583DTP
No ratings yet
115583DTP
72 pages
Information Technology in A Global Society - Stuart Gray - 2011
No ratings yet
Information Technology in A Global Society - Stuart Gray - 2011
376 pages
Infographics - IMS BOQ Introduction V1.0
No ratings yet
Infographics - IMS BOQ Introduction V1.0
1 page
India Wired Broadband Market Report 2023 Adoption
No ratings yet
India Wired Broadband Market Report 2023 Adoption
3 pages
Autoscalling New
No ratings yet
Autoscalling New
4 pages
Mga Halimbawa NG Term Paper Tagalog
100% (1)
Mga Halimbawa NG Term Paper Tagalog
8 pages
CSE-111-07-Unit5 Updated
No ratings yet
CSE-111-07-Unit5 Updated
37 pages
AnonForce Walkthrough
No ratings yet
AnonForce Walkthrough
7 pages
WT U-2 One Shot Revision Notes - 46015027 - 2024 - 11 - 07 - 17 - 38
No ratings yet
WT U-2 One Shot Revision Notes - 46015027 - 2024 - 11 - 07 - 17 - 38
141 pages
Kubernetes Professional Course Curriculum
No ratings yet
Kubernetes Professional Course Curriculum
10 pages
Scott Foresman Homework
100% (1)
Scott Foresman Homework
7 pages
Modules 5 Exam
No ratings yet
Modules 5 Exam
8 pages
Bloggerati Twitterati How Blogs and Twitter Are Transforming Popular Culture
No ratings yet
Bloggerati Twitterati How Blogs and Twitter Are Transforming Popular Culture
204 pages
Chapter 5 - Finding Vulnerabilities
No ratings yet
Chapter 5 - Finding Vulnerabilities
41 pages
Le Nouveau Taxi 1 Workbook Answer!: Share This Document
No ratings yet
Le Nouveau Taxi 1 Workbook Answer!: Share This Document
1 page
50 Effective Small Business Marketing Ideas & Social Media Tips For 2025
100% (1)
50 Effective Small Business Marketing Ideas & Social Media Tips For 2025
6 pages
FactoryTalk - View - Connectivity - Guide KeepServer OPC
No ratings yet
FactoryTalk - View - Connectivity - Guide KeepServer OPC
18 pages

Aayush Nihar Spam Mail Filtering

Uploaded by

Aayush Nihar Spam Mail Filtering

Uploaded by

Spam Filtering on Mail

Aayush Shah, 1641065

● Assume occurence of word are independent of all other words

● Use 75% of the dataset as training

● Result for spam mails is as

● Result for ham mails.

f) TF-IDF (Term frequency - Inverse document frequency)

You might also like