0% found this document useful (0 votes)

19 views4 pages

Mail Spam

The document discusses building machine learning models to classify email messages as spam or ham. It loads and prepares a dataset, splits it into training and test sets, and trains Naive Bayes, SVM and Random Forest classifiers on the data, evaluating their performance using accuracy scores and cross-validation.

Uploaded by

Sanjay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views4 pages

Mail Spam

Uploaded by

Sanjay

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

MailSpam

April 7, 2024

[1]: import pandas as pd

[2]: df_train=pd.read_csv('/content/drive/MyDrive/email.csv')
df_train.head()

[2]: Category Message

0 ham Go until jurong point, crazy.. Available only …
1 ham Ok lar… Joking wif u oni…
2 spam Free entry in 2 a wkly comp to win FA Cup fina…
3 ham U dun say so early hor… U c already then say…
4 ham Nah I don't think he goes to usf, he lives aro…

[3]: df_train.dtypes

[3]: Category object

Message object
dtype: object

[5]: df_train['spam']=df_train['Category'].apply(lambda x: 1 if x=='spam' else 0)

df_train.head()

[5]: Category Message spam

0 ham Go until jurong point, crazy.. Available only … 0
1 ham Ok lar… Joking wif u oni… 0
2 spam Free entry in 2 a wkly comp to win FA Cup fina… 1
3 ham U dun say so early hor… U c already then say… 0
4 ham Nah I don't think he goes to usf, he lives aro… 0

[6]: df_train.isnull().sum()

[6]: Category 0
Message 0
spam 0
dtype: int64

[7]: from sklearn.model_selection import train_test_split

X=df_train['Message']

1
y=df_train['spam']

X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2)

[20]: from sklearn import svm

from sklearn.ensemble import RandomForestClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn import metrics
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import CountVectorizer

clf_NaiveBayes = Pipeline([
('vectorizer', CountVectorizer()),
('classifier', MultinomialNB())
])

clf_rfc = Pipeline([
('vectorizer', CountVectorizer()),
('classifier', RandomForestClassifier())
])

clf_svm = Pipeline([
('vectorizer', CountVectorizer()),
('svm',svm.SVC(kernel='linear',C=100,gamma=0.001))
])

clf_NaiveBayes.fit(X_train,y_train)
y_pred=clf_NaiveBayes.predict(X_test)
acc=metrics.accuracy_score(y_pred,y_test)
cm=metrics.confusion_matrix(y_pred,y_test)
print("Navies Bayes")
print(cm)
print(acc)

clf_svm.fit(X_train,y_train)
y_pred=clf_svm.predict(X_test)
acc_svm=metrics.accuracy_score(y_pred,y_test)
cm_svm=metrics.confusion_matrix(y_pred,y_test)
print("SVM:")
print(cm_svm)
print(acc_svm)

clf_rfc.fit(X_train,y_train)
y_pred=clf_rfc.predict(X_test)
acc_rfc=metrics.accuracy_score(y_pred,y_test)
cm_rfc=metrics.confusion_matrix(y_pred,y_test)
print("Random Forest Classifier:")

2
print(cm_rfc)
print(acc_rfc)

Navies Bayes
[[974 13]
[ 9 119]]
0.9802690582959641
SVM:
[[981 11]
[ 2 121]]
0.9883408071748879
Random Forest Classifier:
[[983 23]
[ 0 109]]
0.979372197309417

[23]: from sklearn.model_selection import cross_val_score

svm_cross_valid=cross_val_score(clf_svm,X_train,y_train,cv=5)
mean_acc_svm=svm_cross_valid.mean()
print(mean_acc_svm)

rfc_cross_valid=cross_val_score(clf_rfc,X_train,y_train,cv=5)
mean_acc_rfc=rfc_cross_valid.mean()
print(mean_acc_rfc)

nb_cross_valid=cross_val_score(clf_NaiveBayes,X_train,y_train,cv=5)
mean_acc_nb=nb_cross_valid.mean()
print(mean_acc_nb)

0.9802599990940799
0.9755489624697399
0.9860931185295907

[37]: from sklearn.model_selection import GridSearchCV

svm_param_grid = {'svmC': [0.1, 1, 10, 100], 'svmgamma': [0.1, 0.01, 0.

↪001], 'svm__kernel': ['linear', 'rbf', 'sigmoid', 'poly']}

svm_model_param = GridSearchCV(clf_svm, svm_param_grid,cv=3)

svm_model_param.fit(X_train, y_train)

svm_best_estimator = svm_model_param.best_estimator_

y_pred_svm = svm_best_estimator.predict(X_test)

3
svm_acc_ht = metrics.accuracy_score(y_pred_svm, y_test)

print("SVM Accuracy:", svm_acc_ht)

SVM Accuracy: 0.9883408071748879

[36]: rfc_param_grid = {
'classifier__n_estimators': [100, 200, 300],
'classifier__max_depth': [None, 10, 50],
'classifier__min_samples_split': [2, 5],
'classifier__min_samples_leaf': [1, 2]
}

# Perform RandomizedSearchCV for Random Forest with reduced search space and␣
↪fewer CV folds

rfc_model_param = GridSearchCV(clf_rfc, rfc_param_grid, cv=3, n_jobs=-1)

rfc_model_param.fit(X_train, y_train)

# Get best estimator

rfc_best_estimator = rfc_model_param.best_estimator_

# Make predictions on the test data

y_pred_rfc = rfc_best_estimator.predict(X_test)

# Calculate accuracy
rfc_acc_ht = metrics.accuracy_score(y_pred_rfc, y_test)

print("Random Forest Accuracy:", rfc_acc_ht)

Random Forest Accuracy: 0.9829596412556054

Daily Activity Booklet
No ratings yet
Daily Activity Booklet
143 pages
Part I - Sample Questions: COMPETENCY 1: Patient Care
No ratings yet
Part I - Sample Questions: COMPETENCY 1: Patient Care
20 pages
Case Study On Dabur
No ratings yet
Case Study On Dabur
7 pages
Astm F513-00
No ratings yet
Astm F513-00
14 pages
Expectancy Theory Overview
100% (3)
Expectancy Theory Overview
27 pages
Information Security Awareness - Refresher Course
100% (2)
Information Security Awareness - Refresher Course
83 pages
Unstructured
No ratings yet
Unstructured
37 pages
Aayush Nihar Spam Mail Filtering
No ratings yet
Aayush Nihar Spam Mail Filtering
18 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
16 pages
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
No ratings yet
Email Classification Using Naive Bayes Classifier: Domain Algorithms Framework Platform
7 pages
Email Spam Detection Using Machine Learning
No ratings yet
Email Spam Detection Using Machine Learning
2 pages
Spam Detection With Machine Learning
No ratings yet
Spam Detection With Machine Learning
2 pages
The Marxist Approach in Comparative Politics
75% (4)
The Marxist Approach in Comparative Politics
2 pages
Machine Learning Learning With Email Spam Detection
No ratings yet
Machine Learning Learning With Email Spam Detection
5 pages
Catalogo Bomba de Lodos Gardner Denver Pah-08 Ultimo
100% (3)
Catalogo Bomba de Lodos Gardner Denver Pah-08 Ultimo
35 pages
Email Spam Detection
No ratings yet
Email Spam Detection
8 pages
Spam Email Classifier
No ratings yet
Spam Email Classifier
17 pages
Project 2
No ratings yet
Project 2
10 pages
Green Building
100% (2)
Green Building
29 pages
4 Series Manual Version 1p10
No ratings yet
4 Series Manual Version 1p10
60 pages
Spam-T5: Benchmarking Large Language Models For Few-Shot Email Spam Detection
No ratings yet
Spam-T5: Benchmarking Large Language Models For Few-Shot Email Spam Detection
18 pages
Southpoint School & College: Time: 30 Mins Subject: Computer Studies (Objectives) Full Marks: 30
No ratings yet
Southpoint School & College: Time: 30 Mins Subject: Computer Studies (Objectives) Full Marks: 30
2 pages
Ass 3
No ratings yet
Ass 3
2 pages
Emai Spam Detection Using Machine Learning and Python - IJRPR3714
No ratings yet
Emai Spam Detection Using Machine Learning and Python - IJRPR3714
6 pages
Module3 Ids
No ratings yet
Module3 Ids
17 pages
AI Phash3
No ratings yet
AI Phash3
11 pages
Configuracion de Scannert
No ratings yet
Configuracion de Scannert
2 pages
AI Phash 5
No ratings yet
AI Phash 5
14 pages
Djaneiro Cheat Sheet: by Via
No ratings yet
Djaneiro Cheat Sheet: by Via
3 pages
Sms Spam Detection
No ratings yet
Sms Spam Detection
7 pages
Spam Detection 6
No ratings yet
Spam Detection 6
8 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
An Analysis of Machine Learning Algorithms and Deep Neural Networks For Email Spam Classification U
No ratings yet
An Analysis of Machine Learning Algorithms and Deep Neural Networks For Email Spam Classification U
6 pages
Spam Mail Detection Using Machine Learning
No ratings yet
Spam Mail Detection Using Machine Learning
14 pages
Spam Detection
No ratings yet
Spam Detection
10 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
1 Archiwum-66-4-05-Chandrahas - 2021
100% (1)
1 Archiwum-66-4-05-Chandrahas - 2021
18 pages
Bourns N1027 4300 Vs 4600 FPB
No ratings yet
Bourns N1027 4300 Vs 4600 FPB
23 pages
Abstract
No ratings yet
Abstract
2 pages
TML Lib CJ1 Motion Control Library For o
No ratings yet
TML Lib CJ1 Motion Control Library For o
2 pages
Performance Review of Thermal Power Stations 2011-12: Sl. No Name of Station Unit No Organisation Capacity
No ratings yet
Performance Review of Thermal Power Stations 2011-12: Sl. No Name of Station Unit No Organisation Capacity
4 pages
Arnav MLlab04
No ratings yet
Arnav MLlab04
7 pages
Sodapdf
No ratings yet
Sodapdf
1 page
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
1822 B Deleted
No ratings yet
1822 B Deleted
38 pages
ML Practical 2D
No ratings yet
ML Practical 2D
6 pages
P2) Code Email Spam Detection
No ratings yet
P2) Code Email Spam Detection
3 pages
Spam Email Detection and Deletion
No ratings yet
Spam Email Detection and Deletion
5 pages
Mini Monitor Module Installation Guide: Troubleshooting
No ratings yet
Mini Monitor Module Installation Guide: Troubleshooting
2 pages
Building A Powered Ai and Spam Caller
No ratings yet
Building A Powered Ai and Spam Caller
7 pages
Zoom
No ratings yet
Zoom
20 pages
Naive Bayes Classification - Jupyter Notebook
No ratings yet
Naive Bayes Classification - Jupyter Notebook
4 pages
IR 4 E-Mail Spam Filtering Spam - Dataset
No ratings yet
IR 4 E-Mail Spam Filtering Spam - Dataset
2 pages
Email Spam Classification
No ratings yet
Email Spam Classification
4 pages
Notebook - Text Classification
No ratings yet
Notebook - Text Classification
7 pages
DWDM Pavan Final
No ratings yet
DWDM Pavan Final
10 pages
Spamdetection
No ratings yet
Spamdetection
6 pages
Email Spam Detection
No ratings yet
Email Spam Detection
3 pages
Fam PR-10
No ratings yet
Fam PR-10
4 pages
Replication Promblem of DNS
No ratings yet
Replication Promblem of DNS
4 pages
SVM Lab Report
No ratings yet
SVM Lab Report
7 pages
Implemention of Sms Spam Filtering
No ratings yet
Implemention of Sms Spam Filtering
27 pages
ML6 Naive Bayes Spam Filter
No ratings yet
ML6 Naive Bayes Spam Filter
11 pages
Abtc Vaccination Card
No ratings yet
Abtc Vaccination Card
3 pages
Spam Detection Model
No ratings yet
Spam Detection Model
4 pages
Machine Learning Based Classification For Spam Detection
No ratings yet
Machine Learning Based Classification For Spam Detection
14 pages
Applied Auditing
No ratings yet
Applied Auditing
2 pages
RocGwalior863 12072017
No ratings yet
RocGwalior863 12072017
16 pages
Python 21to30
No ratings yet
Python 21to30
9 pages
Maths Notes Unit 5
No ratings yet
Maths Notes Unit 5
36 pages
Head Assy
No ratings yet
Head Assy
1 page
Accounting and Finance Notes For Final Exam
No ratings yet
Accounting and Finance Notes For Final Exam
5 pages
Spam Email Detection Using Machine Learning
No ratings yet
Spam Email Detection Using Machine Learning
8 pages
Micro
No ratings yet
Micro
5 pages
数据挖掘第一次作业
No ratings yet
数据挖掘第一次作业
4 pages
Aiml Assignment-2
No ratings yet
Aiml Assignment-2
8 pages
Maaz Assignment # 3 Deep Learning
No ratings yet
Maaz Assignment # 3 Deep Learning
5 pages
Matsumoto Hakuō II
No ratings yet
Matsumoto Hakuō II
3 pages
5.EAP216 20232024 - Chemical Process
No ratings yet
5.EAP216 20232024 - Chemical Process
43 pages
Document
No ratings yet
Document
11 pages
Print Money Receipt
No ratings yet
Print Money Receipt
3 pages
Aiproject 2
No ratings yet
Aiproject 2
4 pages
Improving The ISOIEC 11770 Standard For Key Manage
No ratings yet
Improving The ISOIEC 11770 Standard For Key Manage
16 pages
Final Report Spam Classifier
No ratings yet
Final Report Spam Classifier
24 pages
Spam Email Detection Documentation
No ratings yet
Spam Email Detection Documentation
3 pages
Egyptian Informatics Journal
No ratings yet
Egyptian Informatics Journal
11 pages
Sms Spam Using Machine Learning 4
No ratings yet
Sms Spam Using Machine Learning 4
42 pages
Annexure-I Sanchar Mitra Scheme 1. Background
No ratings yet
Annexure-I Sanchar Mitra Scheme 1. Background
7 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
Profound Python Data Science
From Everand
Profound Python Data Science
Onder Teker
No ratings yet

Mail Spam

Uploaded by

Mail Spam

Uploaded by

MailSpam

[1]: import pandas as pd

[2]: Category Message

[3]: Category object

[5]: df_train['spam']=df_train['Category'].apply(lambda x: 1 if x=='spam' else 0)

[5]: Category Message spam

[7]: from sklearn.model_selection import train_test_split

[20]: from sklearn import svm

[23]: from sklearn.model_selection import cross_val_score

[37]: from sklearn.model_selection import GridSearchCV

svm_param_grid = {'svm__C': [0.1, 1, 10, 100], 'svm__gamma': [0.1, 0.01, 0.

svm_model_param = GridSearchCV(clf_svm, svm_param_grid,cv=3)

print("SVM Accuracy:", svm_acc_ht)

SVM Accuracy: 0.9883408071748879

rfc_model_param = GridSearchCV(clf_rfc, rfc_param_grid, cv=3, n_jobs=-1)

# Get best estimator

# Make predictions on the test data

print("Random Forest Accuracy:", rfc_acc_ht)

Random Forest Accuracy: 0.9829596412556054

You might also like

svm_param_grid = {'svmC': [0.1, 1, 10, 100], 'svmgamma': [0.1, 0.01, 0.