0% found this document useful (0 votes)

10 views1 page

ML 2

Uploaded by

rushrubby94

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

10 views1 page

ML 2

Uploaded by

rushrubby94

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 1

Assignment 2

1. Classify the email using the binary classification method. Email Spam detection has two states: a) Normal State – Not Spam, b) Abnormal State – Spam.
Use K-Nearest Neighbors and Support Vector Machine for classification. Analyze their performance. Dataset link: The emails.csv dataset on the Kaggle
https://www.kaggle.com/datasets/balaka18/email-spam-classification-dataset-csv

In [19]: import pandas as pd

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn import metrics

In [20]: df=pd.read_csv('emails.csv')

In [21]: df.head()

Out[21]:
Email No. the to ect and for of a you hou ... connevey jay valued lay infrastructure military allowing ff dry Prediction

0 Email 1 0 0 1 0 0 0 2 0 0 ... 0 0 0 0 0 0 0 0 0 0

1 Email 2 8 13 24 6 6 2 102 1 27 ... 0 0 0 0 0 0 0 1 0 0

2 Email 3 0 0 1 0 0 0 8 0 0 ... 0 0 0 0 0 0 0 0 0 0

3 Email 4 0 5 22 0 5 1 51 2 10 ... 0 0 0 0 0 0 0 0 0 0

4 Email 5 7 6 17 1 5 2 57 0 9 ... 0 0 0 0 0 0 0 1 0 0

5 rows × 3002 columns

In [22]: df.columns

Out[22]: Index(['Email No.', 'the', 'to', 'ect', 'and', 'for', 'of', 'a', 'you', 'hou',
...
'connevey', 'jay', 'valued', 'lay', 'infrastructure', 'military',
'allowing', 'ff', 'dry', 'Prediction'],
dtype='object', length=3002)

In [23]: df.isnull().sum()

Out[23]: Email No. 0

the 0
to 0
ect 0
and 0
..
military 0
allowing 0
ff 0
dry 0
Prediction 0
Length: 3002, dtype: int64

In [24]: df.dropna(inplace = True)

In [25]: df.drop(['Email No.'],axis=1,inplace=True)

X = df.drop(['Prediction'],axis = 1)
y = df['Prediction']

In [26]: from sklearn.preprocessing import scale

X = scale(X)
# split into train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 42)

KNN classifier
In [35]: from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=7)

knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)

In [36]: print("Prediction",y_pred)

Prediction [0 0 1 ... 1 1 1]

In [37]: print("KNN accuracy = ",metrics.accuracy_score(y_test,y_pred))

KNN accuracy = 0.8009020618556701

In [39]: print("Confusion matrix",metrics.confusion_matrix(y_test,y_pred))

Confusion matrix [[804 293]

[ 16 439]]

SVM classifier
In [27]: # cost C = 1
model = SVC(C = 1)

# fit
model.fit(X_train, y_train)

# predict
y_pred = model.predict(X_test)

In [28]: metrics.confusion_matrix(y_true=y_test, y_pred=y_pred)

Out[28]: array([[1091, 6],

[ 90, 365]])

In [29]: print("SVM accuracy = ",metrics.accuracy_score(y_test,y_pred))

SVM accuracy = 0.9381443298969072

Cp4252 Machine Learning Lab Manual
No ratings yet
Cp4252 Machine Learning Lab Manual
40 pages
Email Spam Detection Final Presentation-21BSCHH010002
No ratings yet
Email Spam Detection Final Presentation-21BSCHH010002
17 pages
ML Practical Kiranjot 6-10
No ratings yet
ML Practical Kiranjot 6-10
10 pages
PAL Codes
No ratings yet
PAL Codes
18 pages
Artificial Intelligence Lab 7
No ratings yet
Artificial Intelligence Lab 7
10 pages
Bi 6 New
No ratings yet
Bi 6 New
6 pages
Fyp 4
No ratings yet
Fyp 4
12 pages
02 - Email - Spam - Ipynb - Colab
No ratings yet
02 - Email - Spam - Ipynb - Colab
11 pages
Machine Learning Lab New
No ratings yet
Machine Learning Lab New
14 pages
Machine Learning Assignment
No ratings yet
Machine Learning Assignment
7 pages
Siddhesh Asati: #Group: B (ML) #Assignment: 7
No ratings yet
Siddhesh Asati: #Group: B (ML) #Assignment: 7
9 pages
Machine Learning Lab Assignment 2
No ratings yet
Machine Learning Lab Assignment 2
23 pages
ML Assignment 02
No ratings yet
ML Assignment 02
8 pages
AI Report
No ratings yet
AI Report
8 pages
Aiml Assignment-2
No ratings yet
Aiml Assignment-2
8 pages
ML 2 16
No ratings yet
ML 2 16
6 pages
ML Practical 2D
No ratings yet
ML Practical 2D
6 pages
Scaling in One Range: 5172 Rows × 3002 Columns
No ratings yet
Scaling in One Range: 5172 Rows × 3002 Columns
2 pages
Assignment No 2 - ML - Output
No ratings yet
Assignment No 2 - ML - Output
4 pages
Spam Email Detection Documentation
No ratings yet
Spam Email Detection Documentation
3 pages
Implemention of Sms Spam Filtering
No ratings yet
Implemention of Sms Spam Filtering
27 pages
WEEK-7 Lab Print
No ratings yet
WEEK-7 Lab Print
6 pages
9,12,19,68 - ML Assignment-2
No ratings yet
9,12,19,68 - ML Assignment-2
5 pages
Openlab 1
No ratings yet
Openlab 1
17 pages
SVM Lab Report
No ratings yet
SVM Lab Report
7 pages
Practical 2
No ratings yet
Practical 2
4 pages
Naive Bayes Classification - Jupyter Notebook
No ratings yet
Naive Bayes Classification - Jupyter Notebook
4 pages
ML Practical 2
No ratings yet
ML Practical 2
6 pages
Ai&Ml Lab: Dept of CSE, SUK
No ratings yet
Ai&Ml Lab: Dept of CSE, SUK
3 pages
P2) Code Email Spam Detection
No ratings yet
P2) Code Email Spam Detection
3 pages
KNN SVM
No ratings yet
KNN SVM
2 pages
ML Lab6
No ratings yet
ML Lab6
4 pages
Ml-Exp-2 - Jupyter Notebook
No ratings yet
Ml-Exp-2 - Jupyter Notebook
2 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
13 pages
Emails ml2 - Jupyter Notebook
No ratings yet
Emails ml2 - Jupyter Notebook
2 pages
DWDM Pavan Final
No ratings yet
DWDM Pavan Final
10 pages
ML Lab Programs (1-13)
No ratings yet
ML Lab Programs (1-13)
44 pages
Windows Server 2003 Domains Active Directory
No ratings yet
Windows Server 2003 Domains Active Directory
392 pages
Lab 8
No ratings yet
Lab 8
7 pages
Lab 78
No ratings yet
Lab 78
6 pages
Manual Deh 2250ub
0% (1)
Manual Deh 2250ub
112 pages
Email Spam Detection
No ratings yet
Email Spam Detection
3 pages
Email Spam Classifier
No ratings yet
Email Spam Classifier
22 pages
Arnav MLlab04
No ratings yet
Arnav MLlab04
7 pages
Module3 Ids
No ratings yet
Module3 Ids
17 pages
Name: Mussab Bin Shahid Sap-Id: 2024 Assignment: Machine-Learning
No ratings yet
Name: Mussab Bin Shahid Sap-Id: 2024 Assignment: Machine-Learning
5 pages
Program 4-6
No ratings yet
Program 4-6
7 pages
User Guide LIGO Fuel Level Sensor 2021
No ratings yet
User Guide LIGO Fuel Level Sensor 2021
32 pages
Modicon LMC078: Motion Controller Programming Guide
No ratings yet
Modicon LMC078: Motion Controller Programming Guide
276 pages
Assignment B 2 EmailClassification
No ratings yet
Assignment B 2 EmailClassification
6 pages
Pract5 1
No ratings yet
Pract5 1
3 pages
YGT-IT Training Material
No ratings yet
YGT-IT Training Material
89 pages
178 hw1
No ratings yet
178 hw1
4 pages
Code
No ratings yet
Code
6 pages
Python CA 4
No ratings yet
Python CA 4
9 pages
Manual
No ratings yet
Manual
48 pages
AI Phase4
No ratings yet
AI Phase4
11 pages
Fortra Data Classification Suite For Windows Deployment Guide
No ratings yet
Fortra Data Classification Suite For Windows Deployment Guide
69 pages
ML Program Output
No ratings yet
ML Program Output
22 pages
Email Spam Classifier Phase1
No ratings yet
Email Spam Classifier Phase1
4 pages
Bank Statement PDF
50% (2)
Bank Statement PDF
3 pages
Oracle Cash Management
100% (2)
Oracle Cash Management
14 pages
CH-3 Syntax Analyzer
No ratings yet
CH-3 Syntax Analyzer
41 pages
CP4252 Machine Learning Lab Manual
No ratings yet
CP4252 Machine Learning Lab Manual
33 pages
Probabilistic Reasoning Lab Procedure
No ratings yet
Probabilistic Reasoning Lab Procedure
4 pages
Bilal Turabi CV
No ratings yet
Bilal Turabi CV
1 page
Cell Barring (RAN15.0 02)
No ratings yet
Cell Barring (RAN15.0 02)
51 pages
Geovision Hybrid Software Datasheet
No ratings yet
Geovision Hybrid Software Datasheet
6 pages
MINIDOCUMENTATION - Battery Voltage Indicator
No ratings yet
MINIDOCUMENTATION - Battery Voltage Indicator
59 pages
Quiz 4 - ELEN2016A - 2020
No ratings yet
Quiz 4 - ELEN2016A - 2020
3 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
Email Classification: Roll No-41463 (LP-3)
No ratings yet
Email Classification: Roll No-41463 (LP-3)
5 pages
One To One and Onto1
No ratings yet
One To One and Onto1
9 pages
Grade 10 CAT Year Planner 2025
No ratings yet
Grade 10 CAT Year Planner 2025
9 pages
Customer Intelligence Syste1
No ratings yet
Customer Intelligence Syste1
19 pages
CS610 Sample Paper
No ratings yet
CS610 Sample Paper
11 pages
Knight's Tour
No ratings yet
Knight's Tour
8 pages
CS178 Homework #1: Problem 0: Getting Connected
No ratings yet
CS178 Homework #1: Problem 0: Getting Connected
4 pages
CD 413
No ratings yet
CD 413
9 pages
Edp 1 PDF
No ratings yet
Edp 1 PDF
10 pages
A Computer Network Is A System of Interconnected C
No ratings yet
A Computer Network Is A System of Interconnected C
2 pages
Ket - MG610335
No ratings yet
Ket - MG610335
3 pages
Virtual University of Pakistan: Exam Entrance Slip
100% (1)
Virtual University of Pakistan: Exam Entrance Slip
1 page
ICT Trivia
No ratings yet
ICT Trivia
9 pages
S 8401 PDF
No ratings yet
S 8401 PDF
110 pages
FREE Equation Calculator - Equations Solver - Mathematics Software
No ratings yet
FREE Equation Calculator - Equations Solver - Mathematics Software
4 pages
Zlib 3 PDF
No ratings yet
Zlib 3 PDF
2 pages
Ass 06
0% (1)
Ass 06
3 pages
Resume Shubhendu
100% (1)
Resume Shubhendu
2 pages

ML 2

Uploaded by

ML 2

Uploaded by

Assignment 2

In [19]: import pandas as pd

1 Email 2 8 13 24 6 6 2 102 1 27 ... 0 0 0 0 0 0 0 1 0 0

5 rows × 3002 columns

Out[23]: Email No. 0

In [24]: df.dropna(inplace = True)

In [25]: df.drop(['Email No.'],axis=1,inplace=True)

In [26]: from sklearn.preprocessing import scale

In [37]: print("KNN accuracy = ",metrics.accuracy_score(y_test,y_pred))

KNN accuracy = 0.8009020618556701

In [39]: print("Confusion matrix",metrics.confusion_matrix(y_test,y_pred))

Confusion matrix [[804 293]

In [28]: metrics.confusion_matrix(y_true=y_test, y_pred=y_pred)

Out[28]: array([[1091, 6],

In [29]: print("SVM accuracy = ",metrics.accuracy_score(y_test,y_pred))

SVM accuracy = 0.9381443298969072

You might also like