0% found this document useful (0 votes)

24 views5 pages

Assignment 5

The document uses Naive Bayes, K-nearest neighbors, and decision tree classifiers on iris data. It compares the accuracy of the classifiers using different training and test set splits, as well as scaling the data.

Uploaded by

BHAVIKA MALHOTRA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views5 pages

Assignment 5

Uploaded by

BHAVIKA MALHOTRA

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Use Naive bayes, K-nearest, and Decision tree classification algorithms and build classifiers.

Divide the data set into training and test set. Compare the accuracy of the different classifiers
under the following situations:

import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Load Iris dataset

iris = load_iris()
# Create a DataFrame
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)

# Add the target variable (species) to the DataFrame

iris_df['species'] = iris.target

X = iris.data
y = iris.target

print(iris_df.head(5))

sepal length (cm) sepal width (cm) petal length (cm) petal width
(cm) \
0 5.1 3.5 1.4
0.2
1 4.9 3.0 1.4
0.2
2 4.7 3.2 1.3
0.2
3 4.6 3.1 1.5
0.2
4 5.0 3.6 1.4
0.2

species
0 0
1 0
2 0
3 0
4 0

Splitting the data into training and test sets (75% training, 25% test)

# Define classifiers
nb_classifier = GaussianNB()
knn_classifier = KNeighborsClassifier()
dt_classifier = DecisionTreeClassifier()

# Splitting the data into training and test sets (75% training, 25%
test)
X_train_a, X_test_a, y_train_a, y_test_a = train_test_split(X, y,
test_size=0.25, random_state=42)

# Train classifiers on the training set

nb_classifier.fit(X_train_a, y_train_a)
knn_classifier.fit(X_train_a, y_train_a)
dt_classifier.fit(X_train_a, y_train_a)

# Make predictions on the test set

nb_pred_a = nb_classifier.predict(X_test_a)
knn_pred_a = knn_classifier.predict(X_test_a)
dt_pred_a = dt_classifier.predict(X_test_a)

# Calculate accuracy scores

nb_accuracy_a = accuracy_score(y_test_a, nb_pred_a)
knn_accuracy_a = accuracy_score(y_test_a, knn_pred_a)
dt_accuracy_a = accuracy_score(y_test_a, dt_pred_a)

print("Accuracy using 75-25 split:")

print("Naive Bayes Classifier Accuracy:", nb_accuracy_a)
print("K-Nearest Neighbors Classifier Accuracy:", knn_accuracy_a)
print("Decision Tree Classifier Accuracy:", dt_accuracy_a)

Accuracy using 75-25 split:

Naive Bayes Classifier Accuracy: 1.0
K-Nearest Neighbors Classifier Accuracy: 1.0
Decision Tree Classifier Accuracy: 1.0

Splitting the data into training and test sets (2/3rd training, 1/3rd test)

X_train_b, X_test_b, y_train_b, y_test_b = train_test_split(X, y,

test_size=0.33, random_state=42)

# Train classifiers on the training set

nb_classifier.fit(X_train_b, y_train_b)
knn_classifier.fit(X_train_b, y_train_b)
dt_classifier.fit(X_train_b, y_train_b)

# Make predictions on the test set

nb_pred_b = nb_classifier.predict(X_test_b)
knn_pred_b = knn_classifier.predict(X_test_b)
dt_pred_b = dt_classifier.predict(X_test_b)

# Calculate accuracy scores

nb_accuracy_b = accuracy_score(y_test_b, nb_pred_b)
knn_accuracy_b = accuracy_score(y_test_b, knn_pred_b)
dt_accuracy_b = accuracy_score(y_test_b, dt_pred_b)

print("\nAccuracy using 66.6-33.3 split:")

print("Naive Bayes Classifier Accuracy:", nb_accuracy_b)
print("K-Nearest Neighbors Classifier Accuracy:", knn_accuracy_b)
print("Decision Tree Classifier Accuracy:", dt_accuracy_b)

Accuracy using 66.6-33.3 split:

Naive Bayes Classifier Accuracy: 0.96
K-Nearest Neighbors Classifier Accuracy: 0.98
Decision Tree Classifier Accuracy: 1.0

5.2 (a) Hold-out Method:

# Hold-out method
X_train_holdout, X_test_holdout, y_train_holdout, y_test_holdout =
train_test_split(X, y, test_size=0.2, random_state=42)

# Train classifiers on the training set

nb_classifier.fit(X_train_holdout, y_train_holdout)
knn_classifier.fit(X_train_holdout, y_train_holdout)
dt_classifier.fit(X_train_holdout, y_train_holdout)

# Make predictions on the test set

nb_pred_holdout = nb_classifier.predict(X_test_holdout)
knn_pred_holdout = knn_classifier.predict(X_test_holdout)
dt_pred_holdout = dt_classifier.predict(X_test_holdout)

# Calculate accuracy scores

nb_accuracy_holdout = accuracy_score(y_test_holdout, nb_pred_holdout)
knn_accuracy_holdout = accuracy_score(y_test_holdout,
knn_pred_holdout)
dt_accuracy_holdout = accuracy_score(y_test_holdout, dt_pred_holdout)

print("\nAccuracy using Hold-out Method:")

print("Naive Bayes Classifier Accuracy:", nb_accuracy_holdout)
print("K-Nearest Neighbors Classifier Accuracy:",
knn_accuracy_holdout)
print("Decision Tree Classifier Accuracy:", dt_accuracy_holdout)

Accuracy using Hold-out Method:

Naive Bayes Classifier Accuracy: 1.0
K-Nearest Neighbors Classifier Accuracy: 1.0
Decision Tree Classifier Accuracy: 1.0

(ii) Random subsampling

# Random Subsampling
accuracies_nb = []
accuracies_knn = []
accuracies_dt = []

for _ in range(10): # Perform 10 random subsampling iterations

X_train_sub, X_test_sub, y_train_sub, y_test_sub =
train_test_split(X, y, test_size=0.2)

# Train classifiers on the training set

nb_classifier.fit(X_train_sub, y_train_sub)
knn_classifier.fit(X_train_sub, y_train_sub)
dt_classifier.fit(X_train_sub, y_train_sub)

# Make predictions on the test set

nb_pred_sub = nb_classifier.predict(X_test_sub)
knn_pred_sub = knn_classifier.predict(X_test_sub)
dt_pred_sub = dt_classifier.predict(X_test_sub)

# Calculate accuracy scores and append to the list

accuracies_nb.append(accuracy_score(y_test_sub, nb_pred_sub))
accuracies_knn.append(accuracy_score(y_test_sub, knn_pred_sub))
accuracies_dt.append(accuracy_score(y_test_sub, dt_pred_sub))

# Calculate average accuracy

avg_accuracy_nb = sum(accuracies_nb) / len(accuracies_nb)
avg_accuracy_knn = sum(accuracies_knn) / len(accuracies_knn)
avg_accuracy_dt = sum(accuracies_dt) / len(accuracies_dt)

print("\nAverage accuracy using Random Subsampling:")

print("Naive Bayes Classifier Accuracy:", avg_accuracy_nb)
print("K-Nearest Neighbors Classifier Accuracy:", avg_accuracy_knn)
print("Decision Tree Classifier Accuracy:", avg_accuracy_dt)

Average accuracy using Random Subsampling:

Naive Bayes Classifier Accuracy: 0.9366666666666668
K-Nearest Neighbors Classifier Accuracy: 0.9566666666666667
Decision Tree Classifier Accuracy: 0.9400000000000001

(iii) Cross Validation

from sklearn.model_selection import cross_val_score

# Cross-validation
cv_scores_nb = cross_val_score(nb_classifier, X, y, cv=5)
cv_scores_knn = cross_val_score(knn_classifier, X, y, cv=5)
cv_scores_dt = cross_val_score(dt_classifier, X, y, cv=5)

print("\nCross-validation scores:")
print("Naive Bayes Classifier Accuracy:", cv_scores_nb.mean())
print("K-Nearest Neighbors Classifier Accuracy:",
cv_scores_knn.mean())
print("Decision Tree Classifier Accuracy:", cv_scores_dt.mean())

Cross-validation scores:
Naive Bayes Classifier Accuracy: 0.9533333333333334
K-Nearest Neighbors Classifier Accuracy: 0.9733333333333334
Decision Tree Classifier Accuracy: 0.9600000000000002

5.3 Data is scaled to standard format.

from sklearn.preprocessing import StandardScaler

# Standardize features
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Split the scaled data into training and test sets

X_train_scaled, X_test_scaled, y_train_scaled, y_test_scaled =
train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Train classifiers on the scaled training set

nb_classifier.fit(X_train_scaled, y_train_scaled)
knn_classifier.fit(X_train_scaled, y_train_scaled)
dt_classifier.fit(X_train_scaled, y_train_scaled)

# Make predictions on the scaled test set

nb_pred_scaled = nb_classifier.predict(X_test_scaled)
knn_pred_scaled = knn_classifier.predict(X_test_scaled)
dt_pred_scaled = dt_classifier.predict(X_test_scaled)

# Calculate accuracy scores

nb_accuracy_scaled = accuracy_score(y_test_scaled, nb_pred_scaled)
knn_accuracy_scaled = accuracy_score(y_test_scaled, knn_pred_scaled)
dt_accuracy_scaled = accuracy_score(y_test_scaled, dt_pred_scaled)

print("\nAccuracy after scaling the data:")

print("Naive Bayes Classifier Accuracy:", nb_accuracy_scaled)
print("K-Nearest Neighbors Classifier Accuracy:", knn_accuracy_scaled)
print("Decision Tree Classifier Accuracy:", dt_accuracy_scaled)

Accuracy after scaling the data:

Naive Bayes Classifier Accuracy: 1.0
K-Nearest Neighbors Classifier Accuracy: 1.0
Decision Tree Classifier Accuracy: 1.0

sklearn
No ratings yet
sklearn
141 pages
ITC Unit 3 Part 1
No ratings yet
ITC Unit 3 Part 1
24 pages
Modul StatMat I 2020
No ratings yet
Modul StatMat I 2020
24 pages
STA 115_SPLIT
No ratings yet
STA 115_SPLIT
72 pages
ML5_Implementation
No ratings yet
ML5_Implementation
32 pages
Full Download Computer Simulation A Foundational Approach Using Python 1st Edition Yahya Esmail Osais PDF DOCX
100% (1)
Full Download Computer Simulation A Foundational Approach Using Python 1st Edition Yahya Esmail Osais PDF DOCX
55 pages
PCA2-1
No ratings yet
PCA2-1
26 pages
Statistics for Business and Economics 8th Edition Newbold Test Bank instant download
100% (2)
Statistics for Business and Economics 8th Edition Newbold Test Bank instant download
47 pages
KNN - Predictive Analysis
No ratings yet
KNN - Predictive Analysis
6 pages
Practical 5
No ratings yet
Practical 5
11 pages
All in one
No ratings yet
All in one
13 pages
ml
No ratings yet
ml
11 pages
Descriptive Statistics - Grouped Data and Graphs - Math403 - EDA
No ratings yet
Descriptive Statistics - Grouped Data and Graphs - Math403 - EDA
42 pages
vertopal.com_experiment8
No ratings yet
vertopal.com_experiment8
5 pages
lab manual ML
No ratings yet
lab manual ML
23 pages
LAB06_KNN_01
No ratings yet
LAB06_KNN_01
3 pages
Prathamesh KRAI
No ratings yet
Prathamesh KRAI
38 pages
Paired Sample T-test.pptx
No ratings yet
Paired Sample T-test.pptx
4 pages
Homework 6
No ratings yet
Homework 6
16 pages
3 Classification
No ratings yet
3 Classification
16 pages
Divagar Round 5 Mixed
No ratings yet
Divagar Round 5 Mixed
15 pages
Decision Tree (1)
No ratings yet
Decision Tree (1)
2 pages
Bagging, Random Forest, Gradient boost, AdaBoost & PCA
No ratings yet
Bagging, Random Forest, Gradient boost, AdaBoost & PCA
8 pages
Control Charts: of Chance Encounters by C.J.Wild and G.A.F. Seber
No ratings yet
Control Charts: of Chance Encounters by C.J.Wild and G.A.F. Seber
32 pages
ml using python programs
No ratings yet
ml using python programs
12 pages
PERT
No ratings yet
PERT
10 pages
ml lab programs 2
No ratings yet
ml lab programs 2
16 pages
DSBDA_10
No ratings yet
DSBDA_10
5 pages
1
No ratings yet
1
13 pages
Chap10 Mas
No ratings yet
Chap10 Mas
58 pages
lab manual
No ratings yet
lab manual
9 pages
Pengaruh Brand Image Dan Brand Awareness Terhadap Keputusan Pembelian Konsumen Mixue
No ratings yet
Pengaruh Brand Image Dan Brand Awareness Terhadap Keputusan Pembelian Konsumen Mixue
12 pages
ML Lab Programs
No ratings yet
ML Lab Programs
23 pages
AI Assignment-6
No ratings yet
AI Assignment-6
7 pages
Bivariate Analysis PDF
No ratings yet
Bivariate Analysis PDF
12 pages
DM ML Practical
No ratings yet
DM ML Practical
13 pages
22104057_Prakhar_Week 5
No ratings yet
22104057_Prakhar_Week 5
8 pages
Markov Vs Arima
No ratings yet
Markov Vs Arima
93 pages
EViews 6 Users Guide II
No ratings yet
EViews 6 Users Guide II
688 pages
Classification Review
No ratings yet
Classification Review
8 pages
Parametric and Non Parametric Test
No ratings yet
Parametric and Non Parametric Test
3 pages
LAB-4 Report
No ratings yet
LAB-4 Report
21 pages
Don Mariano Marcos Memorial State University
No ratings yet
Don Mariano Marcos Memorial State University
28 pages
Bayesian Statistics With R and BUGS
100% (1)
Bayesian Statistics With R and BUGS
143 pages
STA301 Quiz-4 by Vu Topper RM
No ratings yet
STA301 Quiz-4 by Vu Topper RM
51 pages
Code Examples in space
No ratings yet
Code Examples in space
13 pages
practical 15 python
No ratings yet
practical 15 python
6 pages
ML
No ratings yet
ML
7 pages
ML
No ratings yet
ML
11 pages
decision tree
No ratings yet
decision tree
6 pages
Unit 2
No ratings yet
Unit 2
5 pages
Machine Learning Assignment (1)
No ratings yet
Machine Learning Assignment (1)
8 pages
AML_lab[1] (1)
No ratings yet
AML_lab[1] (1)
14 pages
AI ML - Cycle 2 Programs (1)
No ratings yet
AI ML - Cycle 2 Programs (1)
15 pages
TranMinhTu1 bt2 2
No ratings yet
TranMinhTu1 bt2 2
5 pages
ML Codes
No ratings yet
ML Codes
9 pages
ML L - Ab
No ratings yet
ML L - Ab
13 pages
ai int-1
No ratings yet
ai int-1
6 pages
Lab - 5 (CB - En.u4ece22115)
No ratings yet
Lab - 5 (CB - En.u4ece22115)
5 pages
PR
No ratings yet
PR
17 pages
White Noise With Arima Modelling
No ratings yet
White Noise With Arima Modelling
9 pages
machine learning aiml
No ratings yet
machine learning aiml
7 pages
Implementing KNN Algorithm on the Iris Dataset
No ratings yet
Implementing KNN Algorithm on the Iris Dataset
7 pages
Implementing KNN Algorithm: Importing Libraries
No ratings yet
Implementing KNN Algorithm: Importing Libraries
6 pages
Independent Samples T Test
No ratings yet
Independent Samples T Test
21 pages
L3_Classification_RandomForest - Jupyter Notebook
No ratings yet
L3_Classification_RandomForest - Jupyter Notebook
6 pages
AAM CODES
No ratings yet
AAM CODES
8 pages
Spearman Rho: Spearman's Rank (Order) Correlation Coeffecient
No ratings yet
Spearman Rho: Spearman's Rank (Order) Correlation Coeffecient
18 pages
NaiveBayesClassifier - Jupyter Notebook
No ratings yet
NaiveBayesClassifier - Jupyter Notebook
2 pages
ML Lab Manual
No ratings yet
ML Lab Manual
6 pages
Data Mining and Warehousing Concepts Lab: (ITPC - 228)
No ratings yet
Data Mining and Warehousing Concepts Lab: (ITPC - 228)
6 pages
Example Metrics - Final Assignment - WS1920 - SH
No ratings yet
Example Metrics - Final Assignment - WS1920 - SH
9 pages
Jurnal Ekonometrika
No ratings yet
Jurnal Ekonometrika
4 pages
FDP Session 4 (Decision Tree)
No ratings yet
FDP Session 4 (Decision Tree)
1 page
State Estimation Using Extended Kalman Filter and Unscented Kalman Filter
No ratings yet
State Estimation Using Extended Kalman Filter and Unscented Kalman Filter
4 pages
Tutorial 6
No ratings yet
Tutorial 6
8 pages
IS310 CH 9 Flashcards - Quizlet
No ratings yet
IS310 CH 9 Flashcards - Quizlet
3 pages
Programs Lab Bca
No ratings yet
Programs Lab Bca
16 pages
Ai/Ml Lab-4: Name: Pratik Jadhav PRN: 20190802050
No ratings yet
Ai/Ml Lab-4: Name: Pratik Jadhav PRN: 20190802050
5 pages
Case Study - Classifier
No ratings yet
Case Study - Classifier
5 pages
Linearregression SVM
No ratings yet
Linearregression SVM
3 pages
Udacity Machine Learning Analysis Supervised Learning
100% (1)
Udacity Machine Learning Analysis Supervised Learning
504 pages
ML Lab
No ratings yet
ML Lab
7 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Week 5 D 1
No ratings yet
Week 5 D 1
15 pages
Final Exam in Stat2010
No ratings yet
Final Exam in Stat2010
5 pages
F-15e and F-16c Bombing Skills
100% (2)
F-15e and F-16c Bombing Skills
41 pages
ML Algorithms
100% (1)
ML Algorithms
1 page
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING: CLUSTER ANALYSIS and kNN CLASSIFIERS. Examples with MATLAB
César Pérez López
No ratings yet
Apache Cassandra Administrator Associate - Exam Practice Tests
From Everand
Apache Cassandra Administrator Associate - Exam Practice Tests
Cristian Scutaru
No ratings yet

Assignment 5

Uploaded by

Assignment 5

Uploaded by

Use Naive bayes, K-nearest, and Decision tree classification algorithms and build classifiers.

# Load Iris dataset

# Add the target variable (species) to the DataFrame

# Train classifiers on the training set

# Make predictions on the test set

# Calculate accuracy scores

print("Accuracy using 75-25 split:")

Accuracy using 75-25 split:

X_train_b, X_test_b, y_train_b, y_test_b = train_test_split(X, y,

# Train classifiers on the training set

# Make predictions on the test set

# Calculate accuracy scores

print("\nAccuracy using 66.6-33.3 split:")

Accuracy using 66.6-33.3 split:

5.2 (a) Hold-out Method:

# Train classifiers on the training set

# Make predictions on the test set

# Calculate accuracy scores

print("\nAccuracy using Hold-out Method:")

Accuracy using Hold-out Method:

(ii) Random subsampling

for _ in range(10): # Perform 10 random subsampling iterations

# Train classifiers on the training set

# Make predictions on the test set

# Calculate accuracy scores and append to the list

# Calculate average accuracy

print("\nAverage accuracy using Random Subsampling:")

Average accuracy using Random Subsampling:

(iii) Cross Validation

from sklearn.model_selection import cross_val_score

5.3 Data is scaled to standard format.

from sklearn.preprocessing import StandardScaler

# Split the scaled data into training and test sets

# Train classifiers on the scaled training set

# Make predictions on the scaled test set

# Calculate accuracy scores

print("\nAccuracy after scaling the data:")

Accuracy after scaling the data:

You might also like