Assignment #2 Introduction To Classification

This document contains an assignment for a data mining course. The assignment includes 4 problems related to classification techniques like naive Bayes classification, k-nearest neighbors (KNN) classification, and evaluating classification models. Specifically, it asks students to: 1) Build a naive Bayes classifier and make predictions on new data using the classifier. 2) Perform KNN classification using 1-nearest neighbor and 3-nearest neighbors on 2D data points. 3) Make a gender prediction for a customer using 3-nearest neighbors classification. 4) Find the k-nearest neighbors for different records in a sample dataset using KNN with Euclidean and Minkowski distances.

Uploaded by

Rania Saoud

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

25 views4 pages

Assignment #2 Introduction To Classification

Uploaded by

Rania Saoud

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Assignment #2

Introduction to classification (part 1)

Course Title: Data Mining

Instructor: Dr. Amor Messaoud

Questions

1. Why is naïve Bayesian classification called “naïve”? Briefly outline the major ideas of
naïve Bayesian classification?

Questions

Use the three-class confusion matrix below to answer questions 1 through 3.

1. What percent of the instances were correctly classified?

2. How many class 2 instances are in the dataset?
3. How many instances were incorrectly classified with class 3?
4. Sometimes a data set is partitioned such that a validation set is provided. What is the
purpose of the validation set?
5. If we build a classifier and evaluate it on the training set and the test set:
a. Which data set would we expect to have the higher accuracy: training set or test
set
b. Which data set provides best accuracy estimate on new data: training set test set
6. Consider the one-dimensional data shown in the following table. Classify the data
point x = 5.0 according to its 1-, 3-, and 5-nearest neighbors (using majority vote)

ASSIGNMENT #1 (FEBRUARY 2019) 1

Problem #1

Consider the following dataset of a credit card promotion database. The credit card
company has authorized a new life insurance promotion similar to the existing one. We are
interested in building a classification data mining model for deciding whether to send the
customer promotional material.

1. Build a Naive Bayes classifier for this dataset, by filling in the following with counts
and probabilities.
Life insurance promotion
Y N
Magazine promotion Y
N

Life insurance promotion

Y N
Watch promotion Y
N

Life insurance promotion

Y N
Credit card insurance Y
N

ASSIGNMENT #1 (FEBRUARY 2019) 2

Life insurance promotion
Y N
Sex M
F

2. Use the Naive Bayes classifier obtained in question 1. To determine the value of Life
Insurance Promotion for the following instance:
Magazine Promotion = Y ; Watch Promotion = Y ; Credit Card Insurance = N; Sex =
F; Life Insurance Promotion = ?

Problem #2

Consider the set of training examples in the diagram below. A plus indicates a positive
example and a star indicates a negative example. Use the Euclidian distance to answer the
following questions:
1. How will the point (8, 1) be classified by the 1-nearest neighbor classifier?
2. How will the point (8, 8) be classified by the 3-nearest neighbors?

ASSIGNMENT #1 (FEBRUARY 2019) 3

Problem #3

Lisa has lost gender information of one of her customers, and does not know whether to
make a skirt or trousers. She is planning to throw a coin. Can you help her to make a better
decision using a KNN-classifier (K =3)? Use the Euclidian distance. The customer who is
missing gender information:

Gender Waist Hip

? 28 34
Male 28 32
Male 33 35
Female 27 33
Female 31 36

Problem #4 (Larose and Larose, 2015, p. 312)

The following table contains a small data set of 10 records excerpted from the ClassifyRisk
data set, with predictors’ age, marital status, and income, and target variable risk.

1. Using R find the k-nearest neighbor for Record #10, using k=3.
2. Using the ClassifyRisk data set with predictors age, marital status, and income, and
target variable risk, find the k-nearest neighbor for Record #1, using k=2 and
Euclidean distance.
3. Using the ClassifyRisk data set with predictors age, marital status, and income, and
target variable risk, find the k-nearest neighbor for Record #1, using k=2 and
Minkowski distance.

ASSIGNMENT #1 (FEBRUARY 2019) 4

AI & ML Unit 4, 5 Notes
No ratings yet
AI & ML Unit 4, 5 Notes
137 pages
AIML - UNIT-4 Modified
No ratings yet
AIML - UNIT-4 Modified
119 pages
UNIT - IV
No ratings yet
UNIT - IV
169 pages
Lecture2 Classification PartI
No ratings yet
Lecture2 Classification PartI
100 pages
2 - Classification Models
No ratings yet
2 - Classification Models
52 pages
Mathematics of Machine Learning MIT
No ratings yet
Mathematics of Machine Learning MIT
411 pages
Aiml Unit-4
No ratings yet
Aiml Unit-4
82 pages
Data Mining and Classification
No ratings yet
Data Mining and Classification
50 pages
Datamining Lect12
No ratings yet
Datamining Lect12
75 pages
Data Mining: Classification
No ratings yet
Data Mining: Classification
79 pages
Ds Module 4
No ratings yet
Ds Module 4
73 pages
Supervised Classification 3601
No ratings yet
Supervised Classification 3601
39 pages
Cortex XDR Handson Workshop Lab Guide
No ratings yet
Cortex XDR Handson Workshop Lab Guide
64 pages
Datamining Lect7knearst
No ratings yet
Datamining Lect7knearst
62 pages
8.predictive Analytics - Classification 2
No ratings yet
8.predictive Analytics - Classification 2
28 pages
Week 6 v1.61 (Hidden) - Revision, CW1, and Probabilistic Graphical Models
No ratings yet
Week 6 v1.61 (Hidden) - Revision, CW1, and Probabilistic Graphical Models
65 pages
Comparison of Classification Algorithms
No ratings yet
Comparison of Classification Algorithms
11 pages
L6 - SLM Notes (Bayes Algorithm)
No ratings yet
L6 - SLM Notes (Bayes Algorithm)
28 pages
Unit Iv L Earning
No ratings yet
Unit Iv L Earning
33 pages
Unit Iv L Earning
No ratings yet
Unit Iv L Earning
23 pages
W8-Supervised Learning Methods
No ratings yet
W8-Supervised Learning Methods
30 pages
Classification: K N X X X y I y
No ratings yet
Classification: K N X X X y I y
6 pages
ML Questions
No ratings yet
ML Questions
9 pages
Unit 5-6
No ratings yet
Unit 5-6
18 pages
Ict515 Lec1
No ratings yet
Ict515 Lec1
70 pages
Exercise 5
No ratings yet
Exercise 5
8 pages
ML Unit2
No ratings yet
ML Unit2
38 pages
Databricks Certified Professional Data Engineer Practice Questions
No ratings yet
Databricks Certified Professional Data Engineer Practice Questions
13 pages
Introduction To Machine Learning Week1 Explanation
No ratings yet
Introduction To Machine Learning Week1 Explanation
11 pages
Lista Fabio Cozman
No ratings yet
Lista Fabio Cozman
6 pages
MIT18 657F15 LecNote PDF
No ratings yet
MIT18 657F15 LecNote PDF
194 pages
Unit 3 LOGISTIC
No ratings yet
Unit 3 LOGISTIC
7 pages
Python Related
No ratings yet
Python Related
8 pages
Machine Learning PYQ 2023
No ratings yet
Machine Learning PYQ 2023
8 pages
ML Assignments 2025
No ratings yet
ML Assignments 2025
91 pages
Exercises695Clas Solution
100% (2)
Exercises695Clas Solution
13 pages
Data MIning Chapter 8
No ratings yet
Data MIning Chapter 8
11 pages
CS168: The Modern Algorithmic Toolbox Lecture #5: Generalization (Or, How Much Data Is Enough?)
No ratings yet
CS168: The Modern Algorithmic Toolbox Lecture #5: Generalization (Or, How Much Data Is Enough?)
16 pages
Baes Theory
No ratings yet
Baes Theory
76 pages
Co-2 ML 2019
No ratings yet
Co-2 ML 2019
71 pages
Mid-Sem 11
No ratings yet
Mid-Sem 11
2 pages
Quantitative Methods Module 1
No ratings yet
Quantitative Methods Module 1
24 pages
hw2 2011spring
0% (1)
hw2 2011spring
3 pages
COMP 1003&1433 Midterm (Tuesday)
No ratings yet
COMP 1003&1433 Midterm (Tuesday)
8 pages
Machine Learning
No ratings yet
Machine Learning
5 pages
Data Mining Lecture 10B: Classification
No ratings yet
Data Mining Lecture 10B: Classification
62 pages
Bayesian Classification
No ratings yet
Bayesian Classification
25 pages
Exercises ML PDF
No ratings yet
Exercises ML PDF
4 pages
Practical 7 Classification Revision Questions
No ratings yet
Practical 7 Classification Revision Questions
8 pages
K - Nearest Neighbours Classifier / Regressor
No ratings yet
K - Nearest Neighbours Classifier / Regressor
35 pages
MLFA Spring 2024
No ratings yet
MLFA Spring 2024
11 pages
HW 02
No ratings yet
HW 02
3 pages
Machine Learning UNIT-2: Logistic Regression
No ratings yet
Machine Learning UNIT-2: Logistic Regression
12 pages
Data Mining 4th Is
No ratings yet
Data Mining 4th Is
24 pages
Machine Learning PYQ 2021
No ratings yet
Machine Learning PYQ 2021
4 pages
Problem Set Day 05
No ratings yet
Problem Set Day 05
1 page
Presentation of Online Examination System
No ratings yet
Presentation of Online Examination System
15 pages
Data Mining - Sem 3 - Assignment - 2
No ratings yet
Data Mining - Sem 3 - Assignment - 2
5 pages
ML MID-1 Question Bank
No ratings yet
ML MID-1 Question Bank
6 pages
Pgm5 With Output
No ratings yet
Pgm5 With Output
13 pages
ZTE Uganda Is Hiring
No ratings yet
ZTE Uganda Is Hiring
2 pages
Certified Professional KUMA (034.3.2)
No ratings yet
Certified Professional KUMA (034.3.2)
37 pages
Correlation Ratio
No ratings yet
Correlation Ratio
3 pages
Physical Database Design
No ratings yet
Physical Database Design
23 pages
Data Mining - Bayesian Classification
No ratings yet
Data Mining - Bayesian Classification
6 pages
Classification & Prediction
No ratings yet
Classification & Prediction
78 pages
DBMS
No ratings yet
DBMS
65 pages
Python For Everybody Specialization 2200030806
No ratings yet
Python For Everybody Specialization 2200030806
1 page
SQL Nanodegree Program Syllabus
No ratings yet
SQL Nanodegree Program Syllabus
12 pages
DDC Pratical - Exam Questions
No ratings yet
DDC Pratical - Exam Questions
26 pages
BDA-1 Big Data Introduction
No ratings yet
BDA-1 Big Data Introduction
24 pages
Topic 07
No ratings yet
Topic 07
56 pages
Question Bank-Java FSD 7th Sem
No ratings yet
Question Bank-Java FSD 7th Sem
6 pages
First Lab Class Handouts - To Upload - 24-03-2021
No ratings yet
First Lab Class Handouts - To Upload - 24-03-2021
30 pages
LLM Based Text To SQL
No ratings yet
LLM Based Text To SQL
9 pages
Class 12 Practicals 20 Prgs 5
No ratings yet
Class 12 Practicals 20 Prgs 5
59 pages
Relational Schema Exercises Answer Key
No ratings yet
Relational Schema Exercises Answer Key
5 pages
Report#20922873
No ratings yet
Report#20922873
29 pages
Clang Integration
No ratings yet
Clang Integration
12 pages
Dbms Lab Manual
No ratings yet
Dbms Lab Manual
42 pages
DSA ORAL Question Bank
No ratings yet
DSA ORAL Question Bank
17 pages
Gayathri GCP Cloud Engineer
No ratings yet
Gayathri GCP Cloud Engineer
8 pages
Bis-Full Chapters............ 2
No ratings yet
Bis-Full Chapters............ 2
4 pages
ORACLE PLSQL Midterm Part 4 SOLUTIONS
No ratings yet
ORACLE PLSQL Midterm Part 4 SOLUTIONS
17 pages
Google Scholar Coverage of A Multidisciplinary Field: William H. Walters
No ratings yet
Google Scholar Coverage of A Multidisciplinary Field: William H. Walters
12 pages
Semi-Structured Documents Mining - A Review and Comparison
No ratings yet
Semi-Structured Documents Mining - A Review and Comparison
10 pages
Oracle SHUTDOWN
No ratings yet
Oracle SHUTDOWN
4 pages
Project 2009
No ratings yet
Project 2009
5 pages