Email Spam Filtering Using Machine Learning.1

The document outlines a project on email spam filtering using machine learning, specifically employing Logistic Regression and TF-IDF for feature extraction. It highlights the importance of automation in distinguishing spam from legitimate emails, achieving approximately 96% accuracy. Future enhancements include advanced NLP techniques and real-time spam detection capabilities.

Uploaded by

Mohammad Afzal

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views16 pages

Email Spam Filtering Using Machine Learning.1

Uploaded by

Mohammad Afzal

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 16

Email Spam Filtering

Using Machine
Learning

Project Overview Mohammad Afzal

Under guidance of Kavya Jaiswal

Ms. Naina Devi

INTRODUCTION
What is Email Spam Filtering?
Email spam filtering is a technique used to detect and
block unwanted or malicious emails (spam) from entering
a user’s inbox.

Why is it Important?
Helps reduce security risks, enhances productivity, and
prevents exposure to harmful content.
PROBLEM STATEMENT
• With the growing amount of emails, distinguishing between legitimate
(not spam) emails and spam is crucial.

NEED FOR AUTOMATION

• Manual email filtering is inefficient, machine learning offers a scalable,

automated solution
TECNOLOGY USED

• Python: Primary programming language for data processing and model training.
• Scikit-learn: For machine learning algorithms (Logistic Regression).
• Natural Language Processing (NLP): Techniques like TF-IDF for text feature extraction.
• Pandas, Numpy: For data handling and manipulation.
• Matplotlib, Seaborn: For data visualization.
• Streamlit: Streamlit is an open-source Python framework for data scientists and AI/ML
engineers to deliver interactive data apps – in only a few lines of code.
BRIEF OF TECHNOLOGY USED

Logistic Regression:
• A supervised learning algorithm for binary classification tasks, predicting whether an
email is spam or ham.
• TF-IDF (Term Frequency-Inverse Document Frequency)
• A technique used to convert text data into numerical values based on the frequency of
words, helping the machine learning model understand the importance of terms.
METHODOLOGY
Data Collection:
• Email data collected with labels: "spam" or “not spam".
Data Preprocessing:
• Cleaning, handling missing values, and label encoding.
Feature Extraction:
• TF-IDF Vectorizer to convert text into features.
Model Training:
• Logistic Regression model trained on the extracted features.
Model Evaluation:
• Accuracy evaluated on test data.
Prediction:
• The system predicts whether a new email is spam or not
APPLICATION OF SPAM FILTERING

• Personal Use: Automatic filtering of spam in email accounts.

• Enterprise Use: Enhances corporate security by preventing phishing attacks and spam
emails.
• Email Service Providers: Used by Gmail, Outlook, and other email services to reduce
spam for users.
ADVANTAGE
• High Accuracy: Achieved approximately 96% accuracy on training and test data.
• Automation: Reduces manual effort in filtering out spam.
• Scalability: Can handle large volumes of email data.
• Efficiency: Quick predictions using machine learning techniques.
DISADVANTAGES AND LIMITATION

• Limited Feature Extraction:

TF-IDF doesn’t capture word context (e.g., meaning or sequence of words).
• Imbalance Issue:
If the dataset is imbalanced, the model may have biased predictions.
• Static Learning:
The model doesn’t adapt to new types of spam unless retrained periodically.
FUTURE SCOPE
Advanced NLP Techniques:
• Using models like Word2Vec or BERT to better understand the context of emails.
Improved Models:
• Experimenting with Random Forests, SVMs, or deep learning models (e.g., LSTM).
Real-time Spam Detection:
• Deploying the model in real-time email systems for dynamic spam filtering.
Multiclass Classification:
• Extending beyond spam and not spam to detect promotional, social, and update
emails.
TEST CASES
Case 1:
• WINNER!! As a valued network customer you have been selected to receive Â£900 prize
reward! To claim call 09061701461. Claim code KL341. Valid 12 hours only.
Case 2:
• Thanks for your subscription to Ringtone UK your mobile will be
charged Â£5/month Please confirm by replying YES or NO. If you
reply NO you will not be charged.
Case 3:
 Hi. Wk been ok - on hols now! Yes on for a bit of a run. Forgot that i
have hairdressers appointment at four so need to get home n shower
beforehand. Does that cause prob for u?
Case 4:
• I've been searching for the right words to thank you for this breather. I
promise i wont take your help for granted and will fulfil my promise.
You have been wonderful and a blessing at all times.
CONCLUSION

• The project successfully demonstrated how machine learning can be

applied to email spam filtering.
• Logistic Regression combined with TF-IDF yielded a high-accuracy model.
• The project lays the groundwork for future enhancements, such as using
advanced NLP and deploying the system in real-time environments.
Thank You

صلیبِ عشق (ہاشم ندیم)
No ratings yet
صلیبِ عشق (ہاشم ندیم)
92 pages
Email Spam Detection PPT Github
No ratings yet
Email Spam Detection PPT Github
11 pages
Spam Mail Classifier
No ratings yet
Spam Mail Classifier
8 pages
1822 B Deleted Merged Cropped
No ratings yet
1822 B Deleted Merged Cropped
40 pages
1822 B Deleted
No ratings yet
1822 B Deleted
38 pages
Group Project
No ratings yet
Group Project
13 pages
E-Mail Spam Classification Via Machine Learning and Natural Language Processing
No ratings yet
E-Mail Spam Classification Via Machine Learning and Natural Language Processing
7 pages
Final Report Spam Classifier
No ratings yet
Final Report Spam Classifier
24 pages
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
No ratings yet
Enhancing Email Security With Naïve Bayes Spam Detection - Docx Fully Edited
64 pages
Spam Email Detection Using Machine Learning
No ratings yet
Spam Email Detection Using Machine Learning
8 pages
ML Lab
No ratings yet
ML Lab
13 pages
Aiproject 2
No ratings yet
Aiproject 2
4 pages
Aryan Blackbook 1
No ratings yet
Aryan Blackbook 1
29 pages
Project Report Emaildetection
No ratings yet
Project Report Emaildetection
44 pages
AOMEI Backupper
No ratings yet
AOMEI Backupper
20 pages
Case Study On Email Spam and Non
No ratings yet
Case Study On Email Spam and Non
5 pages
Ijirt156181 Paper
No ratings yet
Ijirt156181 Paper
5 pages
PPT
0% (1)
PPT
15 pages
Final PPT
No ratings yet
Final PPT
18 pages
Opentelemetry by Github Copilot
No ratings yet
Opentelemetry by Github Copilot
19 pages
Document
No ratings yet
Document
11 pages
Email Spam Detection
No ratings yet
Email Spam Detection
8 pages
Vishal FOML Micro Project Vishal & Milan
No ratings yet
Vishal FOML Micro Project Vishal & Milan
26 pages
Email Spam Detection
No ratings yet
Email Spam Detection
13 pages
2023 V14i805
No ratings yet
2023 V14i805
7 pages
Pruthviraj Micor Foml
No ratings yet
Pruthviraj Micor Foml
26 pages
Spam Detection NLP Project
No ratings yet
Spam Detection NLP Project
3 pages
Final Report (Saie)
No ratings yet
Final Report (Saie)
38 pages
Database Engineering Summary of Coursework-1
No ratings yet
Database Engineering Summary of Coursework-1
4 pages
Introduction To Spam Email Detection
No ratings yet
Introduction To Spam Email Detection
16 pages
Pending Proj
No ratings yet
Pending Proj
37 pages
Email Classification Using Machine Learning
No ratings yet
Email Classification Using Machine Learning
22 pages
0 - Spam Mail Prediction
No ratings yet
0 - Spam Mail Prediction
29 pages
NLP Report
No ratings yet
NLP Report
19 pages
Report
No ratings yet
Report
11 pages
Lex l11 Brochure English
No ratings yet
Lex l11 Brochure English
12 pages
Email Spam Detection Edited
No ratings yet
Email Spam Detection Edited
30 pages
Student Result Management System
No ratings yet
Student Result Management System
11 pages
Spam Email Detection Using Python and Machine Learning
No ratings yet
Spam Email Detection Using Python and Machine Learning
14 pages
105-DMA MCQ Unit-1
No ratings yet
105-DMA MCQ Unit-1
20 pages
Ramdump Wcss Msa0 2022-10-14 06-47-04 Props
No ratings yet
Ramdump Wcss Msa0 2022-10-14 06-47-04 Props
14 pages
Introduction To Tableau Postgraduate Notes
No ratings yet
Introduction To Tableau Postgraduate Notes
3 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
Oracle1Z0 819dumps2024 FreeQuestionsAndAnswersPDF
No ratings yet
Oracle1Z0 819dumps2024 FreeQuestionsAndAnswersPDF
4 pages
CYBV 388 Syllabus Fall 2023 15W
No ratings yet
CYBV 388 Syllabus Fall 2023 15W
10 pages
Worksheet in TLE 6-Week 9
No ratings yet
Worksheet in TLE 6-Week 9
2 pages
IJRPR8167
No ratings yet
IJRPR8167
7 pages
Email Report
No ratings yet
Email Report
15 pages
Loditech - Empower
No ratings yet
Loditech - Empower
8 pages
WSMA 2 - Display Ads
No ratings yet
WSMA 2 - Display Ads
52 pages
$RVJ44FQ
No ratings yet
$RVJ44FQ
13 pages
(PUBLIC) G4G20 - Wildfire Boundaries On Search and Maps
No ratings yet
(PUBLIC) G4G20 - Wildfire Boundaries On Search and Maps
11 pages
Spam Filter Project Report Logistic Regression
No ratings yet
Spam Filter Project Report Logistic Regression
10 pages
Machine Learning with Python: Foundations and Applications: ML, #1
From Everand
Machine Learning with Python: Foundations and Applications: ML, #1
Mohammed Nurudeen
No ratings yet
Touchlogger: Inferring Keystrokes On Touch Screen From Smartphone Motion
No ratings yet
Touchlogger: Inferring Keystrokes On Touch Screen From Smartphone Motion
6 pages
Email Spam CLassification
No ratings yet
Email Spam CLassification
16 pages
AIML-IITRopar Course Brochure
No ratings yet
AIML-IITRopar Course Brochure
9 pages
Irjet V9i11154
No ratings yet
Irjet V9i11154
4 pages
Excel 6
No ratings yet
Excel 6
1 page
AI Phase1
No ratings yet
AI Phase1
7 pages
Spam Email. Classifier
No ratings yet
Spam Email. Classifier
16 pages
Presentation 3
No ratings yet
Presentation 3
13 pages
Spam Filter - Machine Learning
No ratings yet
Spam Filter - Machine Learning
25 pages
Synopsis Email Spam
No ratings yet
Synopsis Email Spam
9 pages
Amrit Science Campus: Submitted by
No ratings yet
Amrit Science Campus: Submitted by
35 pages
IJCRT23A5429
No ratings yet
IJCRT23A5429
7 pages
Dinesh Singh: Professional Summary
No ratings yet
Dinesh Singh: Professional Summary
5 pages
Id - 3747 - Literature Review
No ratings yet
Id - 3747 - Literature Review
3 pages
E-Mail Spam Detection
No ratings yet
E-Mail Spam Detection
8 pages
Spam Detection & Classification Final
No ratings yet
Spam Detection & Classification Final
38 pages
44 Decision Tree Model For Email Classification
No ratings yet
44 Decision Tree Model For Email Classification
4 pages
Assignment Introduction To Computer Application in BUMA Assignment
No ratings yet
Assignment Introduction To Computer Application in BUMA Assignment
2 pages
Email Spam Detection
No ratings yet
Email Spam Detection
8 pages
Supply and Demand: Trading View
83% (6)
Supply and Demand: Trading View
53 pages
A Study of Machine Learning Algorithms On Email Spam Classification
No ratings yet
A Study of Machine Learning Algorithms On Email Spam Classification
10 pages
Advances in Spam Filtering Techniques: January 2012
No ratings yet
Advances in Spam Filtering Techniques: January 2012
17 pages
EMAIL+SPAM+DETECTION Final Fishries++ (2658+to+2664) - 1
No ratings yet
EMAIL+SPAM+DETECTION Final Fishries++ (2658+to+2664) - 1
7 pages
Cambridge O Level: Computer Science 2210/22 October/November 2020
No ratings yet
Cambridge O Level: Computer Science 2210/22 October/November 2020
9 pages
ML
No ratings yet
ML
2 pages
CP Computer Programming Asst II1
No ratings yet
CP Computer Programming Asst II1
9 pages
The Java Technology Phenomenon
No ratings yet
The Java Technology Phenomenon
5 pages
Ass 3
No ratings yet
Ass 3
2 pages
Spam Detection in Email Using Machine Le
No ratings yet
Spam Detection in Email Using Machine Le
8 pages
Fake News Detection Research Paper
No ratings yet
Fake News Detection Research Paper
8 pages
Email Spam Detection Using Machine Learning
No ratings yet
Email Spam Detection Using Machine Learning
2 pages
1 CH1 IT Project Management
No ratings yet
1 CH1 IT Project Management
19 pages
T01-1 MasterFrame Tutorial - The Basics
No ratings yet
T01-1 MasterFrame Tutorial - The Basics
68 pages
Variant Maintenance in SAP
100% (13)
Variant Maintenance in SAP
25 pages
03-03 Parashat Shemini - Eighth
No ratings yet
03-03 Parashat Shemini - Eighth
31 pages
SEcurity+ Questions
No ratings yet
SEcurity+ Questions
17 pages