0% found this document useful (0 votes)

150 views18 pages

A Study of Supervised Spam Detection Using Artificial Intelligence

This document summarizes a study on using machine learning for supervised spam detection. It discusses different types of spam techniques used by spammers, such as obscuring text, using images or character encodings. It then presents Naive Bayes as a solution, which learns the probabilities of words occurring in spam vs ham (non-spam) emails. The document evaluates different spam detection algorithms and open-source filters on standard evaluation measures like accuracy, recall and precision. It concludes that machine learning can classify emails into spam and ham with over 99.9% accuracy using the best performing algorithms.

Uploaded by

Mohit

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

150 views18 pages

A Study of Supervised Spam Detection Using Artificial Intelligence

Uploaded by

Mohit

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 18

A Study of Supervised Spam Detection

using Artificial Intelligence

Presented by
Mohit Magare
Class: BE-B-10
PRN No: 71921639H

1
What is Spam?
• Typical legal definition
– Unsolicited commercial email from someone
without a pre-existing business relationship

• Definition mostly used

– Whatever the users think

2
Spam Detection

Ham

Spam

Is this just text categorization?

What are the special challenges?
3
Text classification alone is not enough

• Spammers now often try to obscure text.

• Special features are necessary.
– E.g. subject line vs. body text
– E.g. Mail in the middle of the night is more
likely to be spam than mail in the middle of the
day.

4
Weather Report Guy

• Content in Image

Weather, Sunny, High

82, Low 81, Favorite…

5
Secret Decoder Ring Dude
• Character Encoding
• HTML word breaking
Pharmacy
Produc<!LZJ>t<!LG>s

6
Diploma Guy
• Word Obscuring

Dlpmoia Pragorm
Caerte a mroe prosoeprus

7
One Solution to Spam Detection
• Machine Learning
– Learn spam versus good

8
Naïve Bayes
• Want P( spam | words )
• Use Bayes Rule: P(spam | words )  P(words | spam) P(spam)
P( words )

P ( words )  P ( words | spam)  P ( spam)  P ( words | good )  P( good )

• Assume independence: probability of each word

independent of others
P( words | spam)  P( word1 | spam)  P( word 2 | spam)  ... P( wordn | spam)

9
A Bayesian Approach to Filtering Junk E-Mail
1998 - Sahami, Dumais, Heckerman, Horvitz

• One of the first papers on using machine learning to

combat spam
• Used Naïve Bayes
• Feature Space: Words, Phrases, Domain-Specific Features
• Evaluation Data: ~1700 Messages, ~88% Spam, from
volunteer’s private e-mail

10
A Bayesian Approach to Filtering Junk E-Mail
1998 - Sahami, Dumais, Heckerman, Horvitz

• Hand Crafted Features

– 35 Phrases
• ‘Free Money’
• ‘Only $’
• ‘be over 21’
– 20 Domain Specific Features
• Domain type of sender (.edu, .com, etc)
• Sender name resolutions (internal mail)
• Has attachments
• Time received
• Percent of non-alphanumeric characters in subject
• Best collection of heuristics discussed in literature
– Without them: Spam precision 97.1% Spam recall 94.3%
– With them: Spam precision 100% Spam recall 98.3%
11
Algorithms Used in Spam Detection
12
10
8
6
4
2
0

• Naïve Bayes reported to do very well

• More complex algorithms have some gain 12
Which Algorithm is Best?

• Very difficult to tell

– No consistently-used good data set
– No standard evaluation measures

13
O

• Present several evaluation measures for spam detection

• Compare methods in six open-sources spam filters
• Analysis the experiment results

14
Filters
• Some available open-source spam filters
– Spamassassin
– Bogofilter
– CRM-114
– DSPAM
– SpamBayes
– Spamprobe

15
Evaluation Measures (1)
judgement
Ham Spam
Ham a b
Result
Spam c d
a: ham (correctly classified) [true negative]
b: spam misclassification [false negative]
c: ham misclassification [false positive]
d: spam (correctly classified) [true negative]

• Accuracy: (a+d)/(a+b+c+d) • Ham misclassification rate: c/(a+c)

• Spam misclassification rate: b/(b+d)
• Spam recall: d/(b+d)
• Spam precision: d/(d+c) 16
Conclusion

We are able to classify the emails as spam or

non-spam using artificial intelligence with almost
99.9% accuracy and with best performing
algorithms.

17
Thank you!

Spam Filtering Thesis
100% (2)
Spam Filtering Thesis
6 pages
Examples of Bayes Theorem PDF
67% (3)
Examples of Bayes Theorem PDF
2 pages
Spam Email Classification
No ratings yet
Spam Email Classification
10 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
Email Spam Filtering Techniques
No ratings yet
Email Spam Filtering Techniques
11 pages
Spam Email. Classifier
No ratings yet
Spam Email. Classifier
16 pages
Paper Presentation
100% (1)
Paper Presentation
8 pages
Email Spam Detection Using Machine Learning
No ratings yet
Email Spam Detection Using Machine Learning
2 pages
Analysis of Spam Email Filtering Through Naive Bayes Algorithm Across Different Datasets
No ratings yet
Analysis of Spam Email Filtering Through Naive Bayes Algorithm Across Different Datasets
4 pages
Email Spam Detection
No ratings yet
Email Spam Detection
8 pages
of Email Spam Detection
No ratings yet
of Email Spam Detection
16 pages
Implementation of Naïve Bayesian Spam Filter Algorithm
No ratings yet
Implementation of Naïve Bayesian Spam Filter Algorithm
16 pages
Mehran Sahami Susan Dumais David Heckerman Eric Horvitz: Legitimate
No ratings yet
Mehran Sahami Susan Dumais David Heckerman Eric Horvitz: Legitimate
8 pages
Considering Behavior of Sender in Spam Mail Detection: S. Naksomboon, C. Charnsripinyo and N. Wattanapongsakorn
No ratings yet
Considering Behavior of Sender in Spam Mail Detection: S. Naksomboon, C. Charnsripinyo and N. Wattanapongsakorn
5 pages
Content Based Spam Detection in Email Us PDF
No ratings yet
Content Based Spam Detection in Email Us PDF
5 pages
Machine Learning For Everyone - in Simple Words. With Real-World Examples. Yes, Again PDF
No ratings yet
Machine Learning For Everyone - in Simple Words. With Real-World Examples. Yes, Again PDF
62 pages
Email Spam Detection
No ratings yet
Email Spam Detection
13 pages
Report
No ratings yet
Report
11 pages
10939-Article Text-13747-1-10-20240802
No ratings yet
10939-Article Text-13747-1-10-20240802
8 pages
Spam 2023
No ratings yet
Spam 2023
11 pages
Slide Format
No ratings yet
Slide Format
14 pages
Spam Email Detection Using Python and Machine Learning
No ratings yet
Spam Email Detection Using Python and Machine Learning
14 pages
Spam E-Mail
No ratings yet
Spam E-Mail
9 pages
Optimizing Spam Filtering With Machine Learning
No ratings yet
Optimizing Spam Filtering With Machine Learning
35 pages
Email Spam Detection (Research Paper)
No ratings yet
Email Spam Detection (Research Paper)
8 pages
SPAM Email Detection Methods (By Amran)
No ratings yet
SPAM Email Detection Methods (By Amran)
10 pages
VBK23 Cse 041
No ratings yet
VBK23 Cse 041
6 pages
A Comparative Performance Evaluation of Content Based Spam and Malicious URL Detection in E-Mail
No ratings yet
A Comparative Performance Evaluation of Content Based Spam and Malicious URL Detection in E-Mail
6 pages
Sample Copy of Project Report
No ratings yet
Sample Copy of Project Report
45 pages
Spam Filtering Algorithm
No ratings yet
Spam Filtering Algorithm
19 pages
Email Spam Filtering Using Machine Learning.1
No ratings yet
Email Spam Filtering Using Machine Learning.1
16 pages
Fuzzy Classifier For Spam Detection in Emails
No ratings yet
Fuzzy Classifier For Spam Detection in Emails
5 pages
Introduction To Spam Email Detection
No ratings yet
Introduction To Spam Email Detection
16 pages
EMAIL+SPAM+DETECTION Final Fishries++ (2658+to+2664) - 1
No ratings yet
EMAIL+SPAM+DETECTION Final Fishries++ (2658+to+2664) - 1
7 pages
E-Mail Spam Detection
No ratings yet
E-Mail Spam Detection
8 pages
NLP Report
No ratings yet
NLP Report
19 pages
Presentation 3
No ratings yet
Presentation 3
13 pages
Chung-Kwei Spam IA
No ratings yet
Chung-Kwei Spam IA
18 pages
Spam Email Classification-1
No ratings yet
Spam Email Classification-1
10 pages
CPP Report
No ratings yet
CPP Report
14 pages
Email Classification Using Machine Learning
No ratings yet
Email Classification Using Machine Learning
22 pages
Anti Spam
No ratings yet
Anti Spam
26 pages
NSAI Notes Unit3
No ratings yet
NSAI Notes Unit3
50 pages
Ijirt156181 Paper
No ratings yet
Ijirt156181 Paper
5 pages
44 Decision Tree Model For Email Classification
No ratings yet
44 Decision Tree Model For Email Classification
4 pages
0 - Spam Mail Prediction
No ratings yet
0 - Spam Mail Prediction
29 pages
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
No ratings yet
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
7 pages
Email Spam
No ratings yet
Email Spam
12 pages
Vishal FOML Micro Project Vishal & Milan
No ratings yet
Vishal FOML Micro Project Vishal & Milan
26 pages
Final Report (Saie)
No ratings yet
Final Report (Saie)
38 pages
Pruthviraj Micor Foml
No ratings yet
Pruthviraj Micor Foml
26 pages
Email Spam Detection
No ratings yet
Email Spam Detection
8 pages
Spam Detection & Classification Final
No ratings yet
Spam Detection & Classification Final
38 pages
Amrit Science Campus: Submitted by
No ratings yet
Amrit Science Campus: Submitted by
35 pages
AI Phase1
No ratings yet
AI Phase1
7 pages
Ba Yes I An Filtering
No ratings yet
Ba Yes I An Filtering
8 pages
Spam Mail Detection Using Machine Learning
No ratings yet
Spam Mail Detection Using Machine Learning
14 pages
Spam Classifier
No ratings yet
Spam Classifier
8 pages
Hybrid Machine Learning Based E-Mail Spam Filtering Technique
100% (2)
Hybrid Machine Learning Based E-Mail Spam Filtering Technique
58 pages
Spam Detection in Email Using Machine Le
No ratings yet
Spam Detection in Email Using Machine Le
8 pages
Evolution of Spam Detection
No ratings yet
Evolution of Spam Detection
9 pages
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
No ratings yet
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
64 pages
Spam Mail Classifier
No ratings yet
Spam Mail Classifier
8 pages
Fighting Obfuscated Spam
No ratings yet
Fighting Obfuscated Spam
15 pages
Bayesian Networks in AI
No ratings yet
Bayesian Networks in AI
8 pages
Analisis de Datos MIT
No ratings yet
Analisis de Datos MIT
340 pages
Spam Message Detection Using Logistic Regression
No ratings yet
Spam Message Detection Using Logistic Regression
4 pages
Spam Filtering Using Spam Mail Communities: A Paper On
No ratings yet
Spam Filtering Using Spam Mail Communities: A Paper On
13 pages
E-Mail Spam Detection Using Machine Learning Naive Bayes Theorem
No ratings yet
E-Mail Spam Detection Using Machine Learning Naive Bayes Theorem
5 pages
A Study On Spam Classification Using Machine Learning Techniques
No ratings yet
A Study On Spam Classification Using Machine Learning Techniques
14 pages
Spam Filter Project Report
No ratings yet
Spam Filter Project Report
16 pages
A Model To Detect Spam Email Using Support Vector Classifier and Random Forest Classifier
No ratings yet
A Model To Detect Spam Email Using Support Vector Classifier and Random Forest Classifier
11 pages
Chapter 1-2-3-4-5 (AutoRecovered)
No ratings yet
Chapter 1-2-3-4-5 (AutoRecovered)
74 pages
SIC - AI - Chapter 4. Probability and Statistics - Rev2.0
No ratings yet
SIC - AI - Chapter 4. Probability and Statistics - Rev2.0
219 pages
Fortinet FortiMail Study Guide For FortiMail 7.2 - Fortinet Training Institute-501-527
No ratings yet
Fortinet FortiMail Study Guide For FortiMail 7.2 - Fortinet Training Institute-501-527
27 pages
Annex 8
No ratings yet
Annex 8
91 pages
3.revised Probability New
No ratings yet
3.revised Probability New
15 pages
PR
No ratings yet
PR
52 pages
A Support Vector Machine Based Naive Bayes Algorithm For Spam Filtering
No ratings yet
A Support Vector Machine Based Naive Bayes Algorithm For Spam Filtering
8 pages
Voting Classification Method For Email Spam Prediction
No ratings yet
Voting Classification Method For Email Spam Prediction
10 pages
The History of Digital Spam: Emilio Ferrara
No ratings yet
The History of Digital Spam: Emilio Ferrara
9 pages
FINAL Thesis Nirali Mistry 14-Sep-2022
No ratings yet
FINAL Thesis Nirali Mistry 14-Sep-2022
92 pages
C.V. of Professor Abdulkareem Alalwani
No ratings yet
C.V. of Professor Abdulkareem Alalwani
6 pages
Ardra Suresh SBCE 5
No ratings yet
Ardra Suresh SBCE 5
8 pages
Merak Instant AntiSpam Guide
No ratings yet
Merak Instant AntiSpam Guide
122 pages
MT131 Tutorial - 5 Discrete Probability 2
No ratings yet
MT131 Tutorial - 5 Discrete Probability 2
40 pages
Lec-6 Spam-1
No ratings yet
Lec-6 Spam-1
16 pages
A Plan For Spam
No ratings yet
A Plan For Spam
10 pages
Fuzzy logic and Genetic Algorithm based Text Classification Twitter بحث المؤتمر
No ratings yet
Fuzzy logic and Genetic Algorithm based Text Classification Twitter بحث المؤتمر
9 pages
Python Interview Questions
From Everand
Python Interview Questions
equitypress
4.5/5 (6)

A Study of Supervised Spam Detection Using Artificial Intelligence

Uploaded by

A Study of Supervised Spam Detection Using Artificial Intelligence

Uploaded by

A Study of Supervised Spam Detection

using Artificial Intelligence

• Definition mostly used

Is this just text categorization?

• Spammers now often try to obscure text.

Weather, Sunny, High

P ( words )  P ( words | spam)  P ( spam)  P ( words | good )  P( good )

• Assume independence: probability of each word

• One of the first papers on using machine learning to

• Hand Crafted Features

• Naïve Bayes reported to do very well

• Very difficult to tell

• Present several evaluation measures for spam detection

• Accuracy: (a+d)/(a+b+c+d) • Ham misclassification rate: c/(a+c)

We are able to classify the emails as spam or

You might also like