0% found this document useful (0 votes)

102 views33 pages

Data Mining With Weka: Ian H. Witten

This document provides an overview of lessons on evaluating machine learning classifiers using Weka. It discusses using holdout validation by splitting data into training and test sets. It also introduces k-fold cross-validation as a way to estimate classifier performance while making more efficient use of the available data. The lessons use Weka to analyze sample datasets and classify examples using different algorithms like decision trees, Naive Bayes, and rule-based classifiers. The goal is to understand how to properly evaluate classifier performance without overfitting and achieve results generalizable to new data.

Uploaded by

Quân Phạm

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

102 views33 pages

Data Mining With Weka: Ian H. Witten

Uploaded by

Quân Phạm

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 33

Data

Mining with Weka
Class 2 – Lesson 1
Be a classifier!

Ian H. Witten
Department of Computer Science
University of Waikato
New Zealand

weka.waikato.ac.nz
Lesson 2.1: Be a classifier!

Class 1
Getting started with Weka

Lesson 2.1 Be a classifier!
Class 2
Evaluation
Lesson 2.2 Training and testing

Class 3
Simple classifiers Lesson 2.3 More training/testing

Lesson 2.4 Baseline accuracy
Class 4
More classifiers
Lesson 2.5 Cross‐validation
Class 5
Putting it all together Lesson 2.6 Cross‐validation results
Lesson 2.1: Be a classifier!

Interactive decision tree construction

 Load segmentchallenge.arff; look at dataset
 Select UserClassifier (tree classifier)
 Use the test set segmenttest.arff
 Examine data visualizer and tree visualizer
 Plot regioncentroidrow vs intensitymean
 Rectangle, Polygon and Polyline selection tools
 … several selections …
 Rightclick in Tree visualizer and Accept the tree
Over to you: how well can you do?
Lesson 2.1: Be a classifier!

 Build a tree: what strategy did you use?

 Given enough time, you could produce a “perfect” tree
for the dataset
– but would it perform well on the test data?

Course text
 Section 11.2 Do it yourself: the User Classifier
Data Mining with Weka
Class 2 – Lesson 2
Training and testing

Ian H. Witten
Department of Computer Science
University of Waikato
New Zealand

weka.waikato.ac.nz
Lesson 2.2: Training and testing

Class 1
Getting started with Weka

Lesson 2.1 Be a classifier!
Class 2
Evaluation
Lesson 2.2 Training and testing

Class 3
Simple classifiers Lesson 2.3 More training/testing

Lesson 2.4 Baseline accuracy
Class 4
More classifiers
Lesson 2.5 Cross‐validation
Class 5
Putting it all together Lesson 2.6 Cross‐validation results
Lesson 2.2: Training and testing

Test
data

Training ML Classifier Deploy!

data algorithm

Evaluation
results
Lesson 2.2: Training and testing

Test
data

Training ML Classifier Deploy!

data algorithm

Evaluation
results
Basic assumption: training and test sets produced by
independent sampling from an infinite population
Lesson 2.2: Training and testing

Use J48 to analyze the segment dataset

 Open file segment‐challenge.arff
 Choose J48 decision tree learner (trees>J48)
 Supplied test set segment‐test.arff
 Run it: 96% accuracy
 Evaluate on training set: 99% accuracy
 Evaluate on percentage split: 95% accuracy
 Do it again: get exactly the same result!
Lesson 2.2: Training and testing

 Basic assumption:
training and test sets sampled independently from an
infinite population
 Just one dataset? — hold some out for testing
 Expect slight variation in results
 … but Weka produces same results each time
 J48 on segment‐challenge dataset

Course text
 Section 5.1 Training and testing
Data Mining with Weka
Class 2 – Lesson 3
Repeated training and testing

Ian H. Witten
Department of Computer Science
University of Waikato
New Zealand

weka.waikato.ac.nz
Lesson 2.3: Repeated training and testing

Class 1
Getting started with Weka

Lesson 2.1 Be a classifier!
Class 2
Evaluation
Lesson 2.2 Training and testing

Class 3
Simple classifiers Lesson 2.3 More training/testing

Lesson 2.4 Baseline accuracy
Class 4
More classifiers
Lesson 2.5 Cross‐validation
Class 5
Putting it all together Lesson 2.6 Cross‐validation results
Lesson 2.3: Repeated training and testing

Evaluate J48 on segment‐challenge
0.967
 With segment‐challenge.arff … 0.940
 and J48 (trees>J48) 0.940
 Set percentage split to 90% 0.967
 Run it: 96.7% accuracy 0.953
 Repeat 0.967
0.920
 [More options] Repeat with seed
0.947
2, 3, 4, 5, 6, 7, 8, 9 10
0.933
0.947
Lesson 2.3: Repeated training and testing

Evaluate J48 on segment‐challenge
0.967
0.940
Sample mean x =
 xi 0.940
n 0.967
Variance 2 =
 (xi – x )2 0.953
n–1 0.967
0.920
Standard deviation  0.947
0.933
0.947

x = 0.949,  = 0.018
Lesson 2.3: Repeated training and testing

 Basic assumption:
training and test sets sampled independently from an infinite
population
 Expect slight variation in results …
 … get it by setting the random‐number seed
 Can calculate mean and standard deviation experimentally
Data Mining with Weka
Class 2 – Lesson 4
Baseline accuracy

Ian H. Witten
Department of Computer Science
University of Waikato
New Zealand

weka.waikato.ac.nz
Lesson 2.4: Baseline accuracy

Class 1
Getting started with Weka

Lesson 2.1 Be a classifier!
Class 2
Evaluation
Lesson 2.2 Training and testing

Class 3
Simple classifiers Lesson 2.3 More training/testing

Lesson 2.4 Baseline accuracy
Class 4
More classifiers
Lesson 2.5 Cross‐validation
Class 5
Putting it all together Lesson 2.6 Cross‐validation results
Lesson 2.4: Baseline accuracy

Use diabetes dataset and default holdout
 Open file diabetes.arff
 Test option: Percentage split
 Try these classifiers:
– trees > J48 76%
– bayes > NaiveBayes 77%
– lazy > IBk 73%
– rules > PART 74%
(we’ll learn about them later)
 768 instances (500 negative, 268 positive)
 Always guess “negative”: 500/768 65%
 rules > ZeroR: most likely class!
Lesson 2.4: Baseline accuracy

Sometimes baseline is best!
 Open supermarket.arff and blindly apply
rules > ZeroR 64%
trees > J48 63%
bayes > NaiveBayes 63%
lazy > IBk 38% (!!)
rules > PART 63%
 Attributes are not informative
 Don’t just apply Weka to a dataset:
you need to understand what’s going on!
Lesson 2.4: Baseline accuracy

 Consider whether differences are likely to be
significant
 Always try a simple baseline,
e.g. rules > ZeroR

 Look at the dataset
 Don’t blindly apply Weka:
try to understand what’s going on!
Data Mining with Weka
Class 2 – Lesson 5
Cross‐validation

Ian H. Witten
Department of Computer Science
University of Waikato
New Zealand

weka.waikato.ac.nz
Lesson 2.5: Cross‐validation

Class 1
Getting started with Weka

Lesson 2.1 Be a classifier!
Class 2
Evaluation
Lesson 2.2 Training and testing

Class 3
Simple classifiers Lesson 2.3 More training/testing

Lesson 2.4 Baseline accuracy
Class 4
More classifiers
Lesson 2.5 Cross‐validation
Class 5
Putting it all together Lesson 2.6 Cross‐validation results
Lesson 2.5: Cross‐validation

 Can we improve upon repeated holdout?
(i.e. reduce variance)
 Cross‐validation
 Stratified cross‐validation
Lesson 2.5: Cross‐validation

 Repeated holdout
(in Lesson 2.3, hold out 10% for testing, repeat 10 times)

(repeat 10 times)
Lesson 2.5: Cross‐validation

10‐fold cross‐validation

 Divide dataset into 10 parts (folds)
 Hold out each part in turn
 Average the results
 Each data point used once for testing, 9 times for training

Stratified cross‐validation
 Ensure that each fold has the right
proportion of each class value
Lesson 2.5: Cross‐validation

After cross‐validation, Weka outputs an
extra model built on the entire dataset
10% of data
10 times
ML Classifier
90% of data
algorithm

Evaluation results

11th time
ML Classifier
100% of data Deploy!
algorithm
Lesson 2.5: Cross‐validation

 Cross‐validation better than repeated holdout
 Stratified is even better
 With 10‐fold cross‐validation, Weka invokes the learning
algorithm 11 times
 Practical rule of thumb:
 Lots of data? – use percentage split
 Else stratified 10‐fold cross‐validation

Course text
 Section 5.3 Cross‐validation
Data Mining with Weka
Class 2 – Lesson 6
Cross‐validation results

Ian H. Witten
Department of Computer Science
University of Waikato
New Zealand

weka.waikato.ac.nz
Lesson 2.6: Cross‐validation results

Class 1
Getting started with Weka

Lesson 2.1 Be a classifier!
Class 2
Evaluation
Lesson 2.2 Training and testing

Class 3
Simple classifiers Lesson 2.3 More training/testing

Lesson 2.4 Baseline accuracy
Class 4
More classifiers
Lesson 2.5 Cross‐validation
Class 5
Putting it all together Lesson 2.6 Cross‐validation results
Lesson 2.6: Cross‐validation results

Is cross‐validation really better than repeated holdout?

 Diabetes dataset
 Baseline accuracy (rules > ZeroR): 65.1%
 trees > J48
 10‐fold cross‐validation 73.8%
 … with different random number seed
1 2 3 4 5 6 7 8 9 10
73.8 75.0 75.5 75.5 74.4 75.6 73.6 74.0 74.5 73.0
Lesson 2.6: Cross‐validation results

holdout cross‐validation
(10%) (10‐fold)
75.3 73.8
77.9 75.0
 xi
Sample mean x = 80.5 75.5
n 74.0 75.5
 (xi – x )2 71.4 74.4
Variance 2 =
n–1 70.1 75.6
79.2 73.6
Standard deviation  71.4 74.0
80.5 74.5
67.5 73.0

x = 74.8 x = 74.5
 = 4.6  = 0.9
Lesson 2.6: Cross‐validation results

 Why 10‐fold? E.g. 20‐fold: 75.1%

 Cross‐validation really is better than repeated holdout
 It reduces the variance of the estimate
Data Mining with Weka
Department of Computer Science
University of Waikato
New Zealand

Creative Commons Attribution 3.0 Unported License

creativecommons.org/licenses/by/3.0/

weka.waikato.ac.nz

More Data Mining With Weka: Ian H. Witten
No ratings yet
More Data Mining With Weka: Ian H. Witten
47 pages
Virtualization On The IBM System x3950 Server
No ratings yet
Virtualization On The IBM System x3950 Server
290 pages
VMW VCP DCV 8 Exam Guide
No ratings yet
VMW VCP DCV 8 Exam Guide
12 pages
Data Mining Weka Classic
No ratings yet
Data Mining Weka Classic
36 pages
DSA With Python
No ratings yet
DSA With Python
57 pages
AN61G5 InstPrep
No ratings yet
AN61G5 InstPrep
12 pages
VMware Vsphere 5® Building A Virtual Datacenter (VMware Press) PDF
No ratings yet
VMware Vsphere 5® Building A Virtual Datacenter (VMware Press) PDF
325 pages
Cd-Rom Included: Business User Action
100% (1)
Cd-Rom Included: Business User Action
11 pages
Operating System Tutorial
100% (1)
Operating System Tutorial
72 pages
Dell Network Deployment and Planning Certification - Student Guidee4 PDF
No ratings yet
Dell Network Deployment and Planning Certification - Student Guidee4 PDF
175 pages
Hadoop Distributed File System: Bhavneet Kaur B.Tech Computer Science 2 Year
No ratings yet
Hadoop Distributed File System: Bhavneet Kaur B.Tech Computer Science 2 Year
34 pages
Supervised Learning Algorithms
No ratings yet
Supervised Learning Algorithms
224 pages
Linux KVM Virtualization: Detailed Course Outline: 1. Virtualization Basics
No ratings yet
Linux KVM Virtualization: Detailed Course Outline: 1. Virtualization Basics
2 pages
Laboratory Manual On: Data Mining
No ratings yet
Laboratory Manual On: Data Mining
41 pages
CS-703 (B) Data Warehousing and Data Mining Lab
No ratings yet
CS-703 (B) Data Warehousing and Data Mining Lab
50 pages
FSWD Sem 5
No ratings yet
FSWD Sem 5
232 pages
WEKA Manual For Version 3-6-5
No ratings yet
WEKA Manual For Version 3-6-5
303 pages
Coursera Enterprise Catalog - Master
No ratings yet
Coursera Enterprise Catalog - Master
1,702 pages
HDClone 4.3 Manual
No ratings yet
HDClone 4.3 Manual
92 pages
Kubernetes Namespaces
No ratings yet
Kubernetes Namespaces
10 pages
10961A Hvs
No ratings yet
10961A Hvs
24 pages
The Default Password For The User Is .: Elastic Changeme
No ratings yet
The Default Password For The User Is .: Elastic Changeme
3 pages
Proxmox Networking
No ratings yet
Proxmox Networking
17 pages
Informatica Basic Dac Obia7964
0% (1)
Informatica Basic Dac Obia7964
96 pages
100 Linux Commands by DevOps Shack
No ratings yet
100 Linux Commands by DevOps Shack
18 pages
04 How To Create OU, Users and Groups On WS2K19-DC01
No ratings yet
04 How To Create OU, Users and Groups On WS2K19-DC01
25 pages
Vsphere Esxi Vcenter 802 Security Guide
No ratings yet
Vsphere Esxi Vcenter 802 Security Guide
472 pages
OM Commands Manual (ODC)
No ratings yet
OM Commands Manual (ODC)
82 pages
Multi Node Cluster Installation Guide PDF
No ratings yet
Multi Node Cluster Installation Guide PDF
24 pages
Cloudera CDSW
No ratings yet
Cloudera CDSW
122 pages
Red Hat Enterprise Virtualization 3.1 V2V Guide en US
No ratings yet
Red Hat Enterprise Virtualization 3.1 V2V Guide en US
63 pages
AdvFS Admin
No ratings yet
AdvFS Admin
231 pages
SM Practical, Eknath
No ratings yet
SM Practical, Eknath
108 pages
Vmware Learning Paths: January-March 2022
No ratings yet
Vmware Learning Paths: January-March 2022
35 pages
Day 1 - Notes
No ratings yet
Day 1 - Notes
20 pages
Mcsa 70-410 Lab Note
100% (1)
Mcsa 70-410 Lab Note
17 pages
Pad Unit 1 Ibm
No ratings yet
Pad Unit 1 Ibm
63 pages
Bhramam Question
No ratings yet
Bhramam Question
300 pages
Lab 1 - 6
No ratings yet
Lab 1 - 6
10 pages
Hortonworks Hadoop System Admin Guide 20130819
No ratings yet
Hortonworks Hadoop System Admin Guide 20130819
68 pages
Hadoop Admin Course
No ratings yet
Hadoop Admin Course
8 pages
DBMS Lab Manual
No ratings yet
DBMS Lab Manual
103 pages
Microsoft Official Course: Implementing Failover Clustering With Hyper-V
No ratings yet
Microsoft Official Course: Implementing Failover Clustering With Hyper-V
31 pages
Steps For Creating A Virtual Machine (VM) in AWS
No ratings yet
Steps For Creating A Virtual Machine (VM) in AWS
4 pages
VSOS51 VATCLabSetupGuide PDF
No ratings yet
VSOS51 VATCLabSetupGuide PDF
24 pages
GNIIT Tracks
No ratings yet
GNIIT Tracks
50 pages
AN102G2LSG
No ratings yet
AN102G2LSG
24 pages
Hadoop Project: Hardware Specific
No ratings yet
Hadoop Project: Hardware Specific
4 pages
Openvms Cluster
No ratings yet
Openvms Cluster
354 pages
Building HP FlexFabric Data Centers, Rev 14.41 Student Guide Part3
No ratings yet
Building HP FlexFabric Data Centers, Rev 14.41 Student Guide Part3
153 pages
MCSA in Windows Server 2012 R2 Course Outline PDF
No ratings yet
MCSA in Windows Server 2012 R2 Course Outline PDF
5 pages
Vmware Compatibility Guide
No ratings yet
Vmware Compatibility Guide
250 pages
Advanced SAN Troubleshooting: Mike Frase
No ratings yet
Advanced SAN Troubleshooting: Mike Frase
60 pages
Explain in Detail About Hadoop Framework
No ratings yet
Explain in Detail About Hadoop Framework
4 pages
Rhev Troubleshooting Summit2012 DK 1
100% (1)
Rhev Troubleshooting Summit2012 DK 1
38 pages
Mastering Active Directory
From Everand
Mastering Active Directory
VICTOR P HENDERSON
No ratings yet
Active Directory Rights Management Services A Clear and Concise Reference
From Everand
Active Directory Rights Management Services A Clear and Concise Reference
Gerardus Blokdyk
No ratings yet
VMware Horizon View Essentials
From Everand
VMware Horizon View Essentials
Peter von Oven
No ratings yet
AppDynamics Third Edition
From Everand
AppDynamics Third Edition
Gerardus Blokdyk
No ratings yet
The Datadog Handbook: A Guide to Monitoring, Metrics, and Tracing
From Everand
The Datadog Handbook: A Guide to Monitoring, Metrics, and Tracing
Robert Johnson
No ratings yet
ML Assignment-01
No ratings yet
ML Assignment-01
7 pages
EPIB 603 Lecture 2 - Linear Models With Covariates
No ratings yet
EPIB 603 Lecture 2 - Linear Models With Covariates
88 pages
Joint Moments and Joint Characteristic Functions
No ratings yet
Joint Moments and Joint Characteristic Functions
24 pages
Amount of Urban Green Space Is Not An Indicator of Residents
No ratings yet
Amount of Urban Green Space Is Not An Indicator of Residents
8 pages
How To Use EViews by Lei Lei
No ratings yet
How To Use EViews by Lei Lei
20 pages
Tugas Rista Bria
No ratings yet
Tugas Rista Bria
10 pages
Primer of Applied Regression and Analysis of Variance 3rd Edition Glantz S.A. - Ebook PDF PDF Download
100% (3)
Primer of Applied Regression and Analysis of Variance 3rd Edition Glantz S.A. - Ebook PDF PDF Download
82 pages
A Bound Testing Analysis of Wagners Law in Nigeri
No ratings yet
A Bound Testing Analysis of Wagners Law in Nigeri
18 pages
Regression and Correlation 1
No ratings yet
Regression and Correlation 1
13 pages
Pengaruh Penentuan Lokasi Terhadap Kesuksesan Usah
No ratings yet
Pengaruh Penentuan Lokasi Terhadap Kesuksesan Usah
12 pages
Introduction To Correlation Packet
No ratings yet
Introduction To Correlation Packet
10 pages
Sampling Methods
No ratings yet
Sampling Methods
5 pages
Certificate in Business Statistics (VRQ) : Pearson LCCI
No ratings yet
Certificate in Business Statistics (VRQ) : Pearson LCCI
20 pages
Proposals of SPT-CPT and DPL-CPT Correlations For Sandy Soils in Brazil
No ratings yet
Proposals of SPT-CPT and DPL-CPT Correlations For Sandy Soils in Brazil
7 pages
S5 M1 Quiz 9 - Normal Distribution
No ratings yet
S5 M1 Quiz 9 - Normal Distribution
4 pages
Continuous Predictors
No ratings yet
Continuous Predictors
5 pages
03 Hypothesis Testing
No ratings yet
03 Hypothesis Testing
65 pages
215 Final Exam Formula Sheet
No ratings yet
215 Final Exam Formula Sheet
2 pages
FIN2704 AY24-25 Sem1 Tutorial 4 Solutions
No ratings yet
FIN2704 AY24-25 Sem1 Tutorial 4 Solutions
7 pages
Stats Exam QnA
No ratings yet
Stats Exam QnA
9 pages
PRPY 121A Psychological Statistics - 7
No ratings yet
PRPY 121A Psychological Statistics - 7
12 pages
2a Notes Measures of Dispersion
No ratings yet
2a Notes Measures of Dispersion
10 pages
Assignment 1 (Descriptive Analysis)
No ratings yet
Assignment 1 (Descriptive Analysis)
4 pages
Chapter 13. Time Series Regression: Serial Correlation Theory
No ratings yet
Chapter 13. Time Series Regression: Serial Correlation Theory
26 pages
Output SPSS Tingkat Kesukaran Dan Daya Pembeda
No ratings yet
Output SPSS Tingkat Kesukaran Dan Daya Pembeda
4 pages
Correlation and Regression: Statistics For Economics 1
No ratings yet
Correlation and Regression: Statistics For Economics 1
72 pages
W3 Ecs7020p
No ratings yet
W3 Ecs7020p
51 pages
Big Data Assignment 1
No ratings yet
Big Data Assignment 1
4 pages
Arch. Assignments Stat.
No ratings yet
Arch. Assignments Stat.
3 pages

Data Mining With Weka: Ian H. Witten

Uploaded by

Data Mining With Weka: Ian H. Witten

Uploaded by

Data

Training ML Classifier Deploy!

Training ML Classifier Deploy!

You might also like