0% found this document useful (0 votes)

96 views8 pages

Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831

Srikanth Mujjiga implemented a K Nearest Neighbor classifier in Python using scikit-learn. The KNN classifier was tested on 4 datasets - breast cancer, iris, wine, and balance scale data. For each dataset, the KNN algorithm was run with different K values from 1 to 5 and cross validation folds from 2 to 5. Accuracy metrics like mean accuracy and standard deviation were calculated for each combination of K and folds. The Euclidean distance metric worked best for all datasets except balance scale, where Hamming distance initially and later Euclidean distance was used. Plots were generated to visualize the accuracy results for each dataset.

Uploaded by

srikanth.mujjiga

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

96 views8 pages

Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831

Uploaded by

srikanth.mujjiga

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 8

Name: Srikanth Mujjiga ([email protected].

in)
Roll No: 2015-50-831

Assignment #1: K Nearest Neighbor classifier

1. Introduction
I have used python with pandas,numpy and matplotlib packages to implement KNN
classifier.
The cross validation via N folds is also implemented.
Two different distance functions, Euclidian distance and the Hamming distance functions are
implemented.
The input data had to be shuffled as there is an inherent ordering to the data sets available.
The classifier is parameterized via the K value, distance function to be used.
o Signature: knn(trainX,trainY,predictX,k=1,df='ed')
Below are the functions and a corresponding short description
euclidianDistance

Calculates Euclidian distance between two

feature vectors
Calculates Hamming distance between two
feature vectors
An iterator which returns training set indices
and validation set indices
Runs knn on the training set predicts the
class for the validation set
The knn classifier
Helper function to plot the results
The generic test function
One function for each of the four data sets.
Each of them loads the data, cleanup the
data and shuffles the data.

hammingDistance
Kfoldvalidation
knnWithNfolds
Knn
plotThem
test
test_1,test_2,test_3,test_4

2. Data set #1: breast-cancer-wisconsin data

Url

Features
Instances
Number of Classes
Best mean Accuracy
Distance Function
Recommend K value (from observations)

http://archive.ics.uci.edu/ml/machine-learningdatabases/breast-cancer-wisconsin/breastcancer-wisconsin.data
9 (All numerical between 1 10)
699 (Some features missing)
2
0.97
Euclidian Distance
3

3. Data set #2: iris data

Url
Features
Instances
Number of Classes
Best mean Accuracy
Distance Function
Recommend K value (from observations)

http://archive.ics.uci.edu/ml/machine-learningdatabases/iris/iris.data
4 (All numerical)
150 (No missing features)
3
0.92
Euclidian Distance
2

4. Data set #3: wine data

Url
Features
Instances
Number of Classes
Best mean Accuracy
Distance Function
Recommend K value (from observations)

5. Data set #3: balance scale data

Url
Features
Instances
Number of Classes
Best mean Accuracy
Distance Function
Recommend K value (from observations)

http://archive.ics.uci.edu/ml/machine-learningdatabases/wine/wine.data
13 (All numerical)
178 (No missing features)
3
0.74
Euclidian Distance
4

http://archive.ics.uci.edu/ml/machine-learningdatabases/balance-scale/balance-scale.data
4 (Categorical)
625 (No missing features)
3
0.78
Euclidian Distance and Hamming distance
2

Since the features are categorical, I have initially used hamming distance. However hamming
distance returned bad mean accuracy. Running the knn with Euclidian distance returned much
better accuracy.

6. Code
"""
Created on Tue Aug 18 21:30:26 2015
@author: Srikanth Mujjiga ([email protected])
"""
import os
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

os.chdir(r'G:\smujjiga\SM in AI\sminai')
def euclidianDistance(x1,x2):
return np.linalg.norm(x1-x2)
#closer points are near to 0
def hammingDistance(x1,x2):
return sum([0 if a == b else 1 for a,b in zip(x1,x2)])
#n: Observation d: Features
#trainX = (nXd) trainY = (nX1) predictx = (1Xd)
def knn(trainX,trainY,predictX,k=1,df='ed'):
distance = 0
predictx = np.array(predictX[0:1].values[0],dtype=long)
#Distance function: Hamming Distance
if df == 'hd':
distance = trainX.apply(lambda x: hammingDistance(np.array(x,dtype=long),
predictx),axis=1)
#default: euclidianDistance
else:
distance = trainX.apply(lambda x:
euclidianDistance(np.array(x,dtype=long),predictx),axis=1)
#find nearest K Neighbours
knearest = sorted(zip(distance,trainY.iloc[:,0]))[:k]
#find the top class
df = pd.DataFrame(knearest,columns=['distance','class'])
#Groud by class and return class label of largest group
return df['class'].value_counts().index.get_values()[0]
#return training folds indexs, validation fold index
def kfoldvalidation(observations,folds):
foldSize = observations/folds
allObservationIndices = np.arange(0,observations)
#return (fold-1) indexes
for i in xrange(0,foldSize*(folds-1),foldSize):
validationIndices = np.arange(i,i+foldSize)
trainingIndices = list(set(allObservationIndices) - set(validationIndices))
yield trainingIndices, validationIndices
#last fold might have more thean foldSize indexes if obeservations is not exact
multiple of folds
validationIndices = np.arange(foldSize*(folds-1),observations)
trainingIndices = list(set(allObservationIndices) - set(validationIndices))
yield trainingIndices,validationIndices
def knnWithNfolds(observationsX,observationsY,k,folds,df):
totalObservations = len(observationsX)
print "# observations:{0}, K: {1}, Folds: {2}".format(totalObservations,k,folds)
currentFold = 0
predictions = []
for trainFold,validationFold in kfoldvalidation(totalObservations,folds):
currentFold += 1
print "knn of fold:{0} with k:{1}".format(currentFold,k)
sys.stdout.flush()
trainX = observationsX.ix[trainFold]
trainY = observationsY.ix[trainFold]
testX = observationsX.ix[validationFold]

testY = observationsY.ix[validationFold]
predictedY = []
#for each test sample get the predicted class (y)
for i in xrange(0,len(testX)):
predictedY.append(knn(trainX,trainY,testX[i:i+1],k,df))
#Find acurrecy 1: Correctly Prdicted, 0 for wrong prediction
#print predictedY,testY.iloc[:,0].tolist()
predictions.extend([1 if a == b else 0 for a,b in
zip(predictedY,testY.iloc[:,0].tolist())])
meanAccuracy = np.mean(predictions)
stdofAccuracy = np.std(predictions)
return meanAccuracy,stdofAccuracy
#return predictions

def test(trainX,trainY,df):
ma = {}
st = {}
for folds in xrange(2,6):
meanAccuracyPerK = []
stdPerK = []
for k in xrange(1,6):
meanAccuracy,stdofAccuracy = knnWithNfolds(trainX,trainY,k,folds,df)
meanAccuracyPerK.append(meanAccuracy)
stdPerK.append(stdofAccuracy)
ma[folds] = meanAccuracyPerK
st[folds] = stdPerK
return ma, st

def test_1():
data = pd.read_csv('datasets/breast-cancer-wisconsin.data', header=None)
data = data.reindex(np.random.permutation(data.index))
#clean data
data.replace('?',np.nan,inplace=True)
data.dropna(inplace=True)
trainX = data[[1,2,3,4,5,6,7,8,9]]
trainY = data[[10]]
trainX.reset_index(drop=True,inplace=True)
trainY.reset_index(drop=True,inplace=True)
return test(trainX,trainY,'ed')

def test_2():
data = pd.read_csv('datasets/iris.data', header=None)
labels = { "Iris-setosa" : 1,
"Iris-versicolor" : 2,
"Iris-virginica" : 3 }
data = data.reindex(np.random.permutation(data.index))
data = data.reindex(np.random.permutation(data.index))
data = data.reindex(np.random.permutation(data.index))
data[5] = [labels[i] for i in data[4]]
trainX = data[[0,1,2,3]]
trainY = data[[5]]

trainX.reset_index(drop=True,inplace=True)
trainY.reset_index(drop=True,inplace=True)
return test(trainX,trainY,'ed')
def test_3():
df = pd.read_csv('datasets/wine.data', header=None)
data = df
df = data
data = data.reindex(np.random.permutation(data.index))
trainX = data[list(np.arange(1,14))]
trainY = data[[0]]
trainX.reset_index(drop=True,inplace=True)
trainY.reset_index(drop=True,inplace=True)
return test(trainX,trainY,'ed')
def test_4():
data = pd.read_csv('datasets/balance-scale.data', header=None)
data = data.reindex(np.random.permutation(data.index))
trainX = data[[1,2,3,4]]
trainY = data[[0]]
trainX.reset_index(drop=True,inplace=True)
trainY.reset_index(drop=True,inplace=True)
return test(trainX,trainY,'hd')
def plotThem(median,std,title):
f, ax = plt.subplots(2, 2)
#plt.subplots_adjust(left=0, bottom=0, right=1, top=1, wspace=.3, hspace=.3)
plt.suptitle(title)
x = np.arange(1,len(median[2])+1)
ax[0, 0].errorbar(x,median[2],yerr=std[2],fmt='-o',clip_on=False)
ax[0, 0].set_title('2 Fold')
ax[0, 0].margins(0.1,0.1)
ax[0, 1].errorbar(x,median[3],yerr=std[3],fmt='-o')
ax[0, 1].set_title('3 Fold')
ax[0, 1].margins(0.1,0.1)
ax[1, 0].errorbar(x,median[4],yerr=std[4],fmt='-o')
ax[1, 0].set_title('4 Fold')
ax[1, 0].margins(0.1,0.1)
ax[1, 1].errorbar(x,median[5],yerr=std[5],fmt='-o')
ax[1, 1].set_title('5 Fold')
ax[1, 1].margins(0.1,0.1)
plt.setp([a.get_xticklabels() for a in ax[0, :]], visible=False)
plt.setp([a.get_yticklabels() for a in ax[:, 1]], visible=False)

m1,
m2,
m3,
m4,

s1
s2
s3
s4

=
=
=
=

test_1()
test_2()
test_3()
test_4()

plotThem(m1,s1,"breast-cancer-wisconsin")

plotThem(m2,s2,"iris data")
plotThem(m3,s3,"wine.data")
plotThem(m4,s4,"balance scale data")

Implementing KNN Algorithm on the Iris Dataset
No ratings yet
Implementing KNN Algorithm on the Iris Dataset
7 pages
ML Lab
No ratings yet
ML Lab
7 pages
EE 559 HW2Code PDF
No ratings yet
EE 559 HW2Code PDF
7 pages
LAB-4 Report
No ratings yet
LAB-4 Report
21 pages
mlalllabprgs
No ratings yet
mlalllabprgs
17 pages
Machine Learning Lab
No ratings yet
Machine Learning Lab
33 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Machine learning lab manual
No ratings yet
Machine learning lab manual
9 pages
Ml Lab Experiment Shortened With Same Output
No ratings yet
Ml Lab Experiment Shortened With Same Output
6 pages
v
No ratings yet
v
8 pages
DOC-20241108-WA0003
No ratings yet
DOC-20241108-WA0003
16 pages
ML Lab Manual
No ratings yet
ML Lab Manual
24 pages
AAM CODES
No ratings yet
AAM CODES
8 pages
DM ML Practical
No ratings yet
DM ML Practical
13 pages
MLLabManual
No ratings yet
MLLabManual
24 pages
DSM 3
No ratings yet
DSM 3
6 pages
Big Data Assignment - 7
No ratings yet
Big Data Assignment - 7
7 pages
Programs Lab Bca
No ratings yet
Programs Lab Bca
16 pages
ML
No ratings yet
ML
11 pages
Aiml Lab
No ratings yet
Aiml Lab
14 pages
ai int-1
No ratings yet
ai int-1
6 pages
1st PGM
No ratings yet
1st PGM
10 pages
Strangers
No ratings yet
Strangers
8 pages
DSM 2
No ratings yet
DSM 2
7 pages
1
No ratings yet
1
13 pages
Machine Learning Lab Manual (1) (1)
No ratings yet
Machine Learning Lab Manual (1) (1)
26 pages
ML Lab Manual
No ratings yet
ML Lab Manual
12 pages
lab manual
No ratings yet
lab manual
9 pages
Python for Data Science IA 1 Programs
No ratings yet
Python for Data Science IA 1 Programs
14 pages
Python for Data Science IA 1 Programs
No ratings yet
Python for Data Science IA 1 Programs
14 pages
22104057_Prakhar_Week 5
No ratings yet
22104057_Prakhar_Week 5
8 pages
Mlda - Lab
No ratings yet
Mlda - Lab
35 pages
mnbnmnbnnmbbhhuyrgh
No ratings yet
mnbnmnbnnmbbhhuyrgh
3 pages
2 - 9 - KNN Code
No ratings yet
2 - 9 - KNN Code
6 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
Unit2 ML Programs
No ratings yet
Unit2 ML Programs
7 pages
k Means Clustering.ipynb - Colaboratory
No ratings yet
k Means Clustering.ipynb - Colaboratory
4 pages
DSM 1
No ratings yet
DSM 1
6 pages
Program 4
No ratings yet
Program 4
3 pages
Rahul Raj.ipynb - Colab
No ratings yet
Rahul Raj.ipynb - Colab
50 pages
Naive Bayes
No ratings yet
Naive Bayes
58 pages
Import Numpy as Np
No ratings yet
Import Numpy as Np
5 pages
Lab 8
No ratings yet
Lab 8
7 pages
Assignment No 2 AI
No ratings yet
Assignment No 2 AI
4 pages
SPPUML5
No ratings yet
SPPUML5
4 pages
ml_labmanual (3)
No ratings yet
ml_labmanual (3)
33 pages
Assignment 5 - SourceCode - Ipynb - Colab
No ratings yet
Assignment 5 - SourceCode - Ipynb - Colab
4 pages
Experiment1111
No ratings yet
Experiment1111
25 pages
Program 4
No ratings yet
Program 4
3 pages
Implementing Custom Randomsearchcv: 'Red' 'Blue'
No ratings yet
Implementing Custom Randomsearchcv: 'Red' 'Blue'
1 page
Music
No ratings yet
Music
34 pages
CP4252 Lab Manual(1)
No ratings yet
CP4252 Lab Manual(1)
13 pages
Screenshot 2023-09-22 at 7.55.40 PM
No ratings yet
Screenshot 2023-09-22 at 7.55.40 PM
4 pages
Ai Last 5
No ratings yet
Ai Last 5
4 pages
Final ML File
No ratings yet
Final ML File
34 pages
Report-0.89915600 1720543880
No ratings yet
Report-0.89915600 1720543880
3 pages
Exercise Final
No ratings yet
Exercise Final
8 pages
Vertopal.com Lab4 KNN
No ratings yet
Vertopal.com Lab4 KNN
9 pages
PCA Codebase
No ratings yet
PCA Codebase
6 pages
Advanced C Concepts and Programming: First Edition
From Everand
Advanced C Concepts and Programming: First Edition
Gayatri
3/5 (1)
Statistical Methods in Artificial Intelligence CSE471 - Monsoon 2015: Lecture 03
No ratings yet
Statistical Methods in Artificial Intelligence CSE471 - Monsoon 2015: Lecture 03
22 pages
Statistical Methods in Artificial Intelligence CSE471 - Monsoon 2015: Lecture 02
No ratings yet
Statistical Methods in Artificial Intelligence CSE471 - Monsoon 2015: Lecture 02
26 pages
Statistical Methods in Artificial Intelligence CSE471 - Monsoon 2015
No ratings yet
Statistical Methods in Artificial Intelligence CSE471 - Monsoon 2015
23 pages
Secrete
No ratings yet
Secrete
1 page
KLA
No ratings yet
KLA
1 page
Supliment La Diploma
No ratings yet
Supliment La Diploma
9 pages
Assignment+1 +Regression+This+assignment+is+to+
No ratings yet
Assignment+1 +Regression+This+assignment+is+to+
6 pages
52 Sample Chapter PDF
No ratings yet
52 Sample Chapter PDF
23 pages
Unit 4, Lesson 2, Worksheet 12: The Blue Pants Costs Fifty Dollars and The Green Pants Cost Twenty Dollars
No ratings yet
Unit 4, Lesson 2, Worksheet 12: The Blue Pants Costs Fifty Dollars and The Green Pants Cost Twenty Dollars
18 pages
Selena Depaz: Current GPA: 3.866 Reporter Austin, TX
No ratings yet
Selena Depaz: Current GPA: 3.866 Reporter Austin, TX
1 page
SAP FI-AR Dispute Resolution
No ratings yet
SAP FI-AR Dispute Resolution
4 pages
Heatcon Catalogue
No ratings yet
Heatcon Catalogue
129 pages
Correlation Coefficient
No ratings yet
Correlation Coefficient
3 pages
130+ Linux Operating System Solved MCQs With PDF Download
No ratings yet
130+ Linux Operating System Solved MCQs With PDF Download
34 pages
23 - FPGA-Based Spectrum Sensing For OpenBTS
No ratings yet
23 - FPGA-Based Spectrum Sensing For OpenBTS
4 pages
Unidirectional Vs Bidirectional Fibers
No ratings yet
Unidirectional Vs Bidirectional Fibers
3 pages
List of HEIs in The NCR
No ratings yet
List of HEIs in The NCR
7 pages
SRT-LAN-S-Band-Up-Mast_IM_EN_988-12287-005_w
No ratings yet
SRT-LAN-S-Band-Up-Mast_IM_EN_988-12287-005_w
24 pages
Huawei CloudEngine 6800 Series Switches Data Sheet PDF
No ratings yet
Huawei CloudEngine 6800 Series Switches Data Sheet PDF
12 pages
Applied Modelling and Visualisation
No ratings yet
Applied Modelling and Visualisation
12 pages
Infrastructure and Project Finance
No ratings yet
Infrastructure and Project Finance
37 pages
Leica CS10/CS15: User Manual
No ratings yet
Leica CS10/CS15: User Manual
140 pages
Concept Board
100% (1)
Concept Board
1 page
Im Rahul Chandran, A: Creative Graphic Designer
No ratings yet
Im Rahul Chandran, A: Creative Graphic Designer
2 pages
Lab 05: Joining Tables: Joins
No ratings yet
Lab 05: Joining Tables: Joins
4 pages
Expert System For Turbine Faults Diagnosis Based On Prolog Language
No ratings yet
Expert System For Turbine Faults Diagnosis Based On Prolog Language
15 pages
Vortex Energy
100% (1)
Vortex Energy
15 pages
Powerflex® 6000 Medium Voltage Variable Frequency Drive Commissioning Manual
No ratings yet
Powerflex® 6000 Medium Voltage Variable Frequency Drive Commissioning Manual
98 pages
Little Book Scam PDF
75% (4)
Little Book Scam PDF
52 pages
1800 Professional Education Practice Drills
No ratings yet
1800 Professional Education Practice Drills
254 pages
Cell Management Feature Parameter Cell Management Feature Parameter Description Description
No ratings yet
Cell Management Feature Parameter Cell Management Feature Parameter Description Description
35 pages
OTC000005 OTN Introduction Issue1.04 PDF
No ratings yet
OTC000005 OTN Introduction Issue1.04 PDF
70 pages
Activities Guide and Evaluation Rubric - Unit 1 - Task 1 - Recognizing The Importance of Information Secu
No ratings yet
Activities Guide and Evaluation Rubric - Unit 1 - Task 1 - Recognizing The Importance of Information Secu
5 pages
FANVIL-H3
No ratings yet
FANVIL-H3
2 pages

Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831

Uploaded by

Assignment #1: K Nearest Neighbor Classifier: Name: Srikanth Mujjiga (Roll No: 2015-50-831

Uploaded by

Name: Srikanth Mujjiga ([email protected].

Assignment #1: K Nearest Neighbor classifier

Calculates Euclidian distance between two

2. Data set #1: breast-cancer-wisconsin data

3. Data set #2: iris data

4. Data set #3: wine data

5. Data set #3: balance scale data

You might also like