0% found this document useful (0 votes)

2 views

Lab 01-Form

The document provides an introduction to Weka, an open-source software for data mining, detailing its features and functionalities. It outlines tasks for exploring datasets, building classifiers, and using filters within the Weka environment, specifically focusing on datasets like weather and glass. Additionally, it includes instructions for visualizing data and evaluating classifier performance.

Uploaded by

nhatnampham0603

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views

Lab 01-Form

Uploaded by

nhatnampham0603

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 8

Introduction to Data Mining

Lab 1: Introduction to Weka

1.1. Introduction
Weka is an open-source software available at www.cs.waikato.ac.nz/ml/weka. Weka stands for the
Waikato Environment for Knowledge Analysis. It offers clean, spare implementation of the simplest
techniques, designed to aid understanding of the data mining techniques. It also provides a work-bench
that includes full, working, state-of-the-art implementations of many popular learning schemes that can
be used for practical data mining or for research.

In the first class, we are going to get started with Weka: exploring the “Explorer” interface, exploring
some datasets, building a classifier, using filters, and visualizing your dataset. (See the lecture of class 1
by Ian H. Witten, [1])

Task: Taking notes how you find the Explorer, and answering questions in the following sections

1.2. Exploring the Explorer

Follow the instructions in [1]

1.3. Exploring datasets

Follow the instructions in [1]

In dataset weather.nominal.arff, how many attributes are there in the relation? What are their values?
What is the class and its values? Counting instances for each attribute value.

1
Dataset Attributes Values #Instances
outlook sunny 5
Relation: overcast 4
weather.symBolic rainy 5
#Instances: 14 Distinct 3
#Attributes: 5 hot 4
temperature mild 6
cool 4
Distinct 3
high high
humidity normal normal
Distinct 2
TRUE TRUE
windy FALSE FALSE
Distinct 2
Class play yes yes
no no
Distinct 2

Similarly, examine datasets: weather.numeric.arff and glass.arff.

Weather.numeric.arff

Dataset Attributes Values #Instances

outlook sunny 5
Relation: weather overcast 4
#Instances: 14 rainy 5
#Attributes: 5 Distinct 3
Minimum 64 Distinct 12
temperature Maximum 85
Mean 73.571
StdDev 6.572
Minimum 65 Distinct 10
humidity Maximum 96
Mean 81.643
StdDev 10.285
TRUE 6
windy FALSE 8
Distinct 2
Class play yes 9
no 5
Distinct 2

Glass.arff

Dataset Attributes Values #Instances

2
Dataset Attributes Values #Instances
Rl Minimum 1.511
Relation:Glass Maximum 1.534
#Instances: 214 Mean 1.518
#Attributes: 10 StdDev 0.003
Distinct: 178
Na Minimum 10.73
Maximum 17.38
Mean 13.408
StdDev 0.817
Distinct: 142
Mg Minimum 0
Maximum 4.49
Mean 2.685
StdDev 1.442
Distinct: 94
Al Minimum 0.29
Maximum 3.5
Mean 1.445
StdDev 0.499
Distinct: 118
Si Minimum 69.81
Maximum 75.41
Mean 72.651
StdDev 0.775
Distinct: 133
K Minimum 0
Maximum 6.21
Mean 0.497
StdDev 0.652
Distinct: 65
Ca Minimum 5.43
Maximum 16.19
Mean 8.957
StdDev 1.423
Distinct: 143
Ba Minimum 0
Maximum 3.15
Mean 0.175
StdDev 0.497
Distinct: 34
Fe Minimum 0
Maximum 0.51
Mean 0.057
StdDev 0.097
Distinct: 32
Class Type build wind float 70

3
build wind non-float 76
vehic wind float 17
vehic wind non-float 0
containers 13
tableware 9
headlamps 29
Distinct: 6

Create a file of ARFF format and examine it.

Dataset Attributes Values #Instances

temperature Minimum 20

Relation: air_quality Maximum 35

#Instances: 10 Mean 27.8

#Attributes: 5 StdDev 4.803

Distinct: 10

humidity Minimum 50

Maximum 90

Mean 70.8

StdDev 13.155

Distinct: 10

CO2_level Minimum 300

Maximum 800

Mean 535

StdDev 171.675

Distinct: 9

wind_speed Minimum 2

Maximum 7

Mean 4.1

4
StdDev 1.663

Distinct: 6

Class pollution low 4

moderate 3

high 3

Distinct: 3

1.4. Building a classifier

Follow the instructions in [1]

Examine the output of J48 vs. RandomTree applied to dataset glass.arff

Algorithm Pruned/unpruned minNumObj No. of Leaves Correctly

Classified
Instances
J48 unpruned 15 8 131

Random tree N/A N/A N/A 150

5
Evaluate the confusion matrix every time running an algorithm.

J48 - unpruned - minNumObj = 15:

The algorithm is skewed towards classifying into a = build wind float, and b = build wind non-float

RandomTree:

The algorithm is skewed towards classifying into a = build wind float, and b = build wind non-float.
However, RandomTree provides better results than 148.

1.5. Using a filter

Follow the instructions in [1], and remark

6
_Use a filter to remove an attribute 

- What are attributeIndices? -

_Remove instances where humidity is high 

- What are nominalIndices? -

_Fewer attributes, better classification:

Follow the instructions in [1], review the outputs of J48 applied to glass.arff:

Filter Leaf size Correctly Classified Remark

Instances

Original

Remove Fe

Remove all
attributes
except RI and
MG

1.6. Visualizing your data

Follow the instructions in [1], how do you find “Visualize classifier errors”?

After running J48 for iris.arff, determine:

- How many instances are predicted wrong? -

- What are they?

Instance Predicted class Actual class

7
8

Subjective Questions
92% (13)
Subjective Questions
6 pages
Lab (I)
No ratings yet
Lab (I)
3 pages
Unit Hydrograph
No ratings yet
Unit Hydrograph
31 pages
Chapter 5 Anova
No ratings yet
Chapter 5 Anova
10 pages
Lab 01-PhamBinhDuong ITCSIU21054
No ratings yet
Lab 01-PhamBinhDuong ITCSIU21054
9 pages
NguyenCongSang ITITIU20292 Lab1
No ratings yet
NguyenCongSang ITITIU20292 Lab1
7 pages
DMW Lab Manual
No ratings yet
DMW Lab Manual
35 pages
Exp 6
No ratings yet
Exp 6
12 pages
Exp 2
No ratings yet
Exp 2
6 pages
DW Lab
No ratings yet
DW Lab
85 pages
Data Mining - Session #1 - Unlocked
No ratings yet
Data Mining - Session #1 - Unlocked
22 pages
Workshop 1
No ratings yet
Workshop 1
16 pages
WEKA Lab Manual
100% (1)
WEKA Lab Manual
107 pages
LAB Experiment Data Mining and warehousing
No ratings yet
LAB Experiment Data Mining and warehousing
33 pages
Analysis & Pediction Using WEKA Machine Learing Toolkit
No ratings yet
Analysis & Pediction Using WEKA Machine Learing Toolkit
37 pages
Perform Data Preprocessing Tasks Using Labor Data Set in WEKA
No ratings yet
Perform Data Preprocessing Tasks Using Labor Data Set in WEKA
6 pages
DMLB 1
No ratings yet
DMLB 1
3 pages
DMW_FIle
No ratings yet
DMW_FIle
27 pages
Weka (20030421-Version1 by Kdelab)
No ratings yet
Weka (20030421-Version1 by Kdelab)
51 pages
WEKA Manual
No ratings yet
WEKA Manual
25 pages
Examquestionbank PR
No ratings yet
Examquestionbank PR
4 pages
Weka Exercise 1
No ratings yet
Weka Exercise 1
7 pages
Weka Exercise 1
No ratings yet
Weka Exercise 1
7 pages
DATA WAREHOUSING -TO WRITE
No ratings yet
DATA WAREHOUSING -TO WRITE
23 pages
Lab Assignment Report: ECS 851 Data Warehousing and Data Mining
No ratings yet
Lab Assignment Report: ECS 851 Data Warehousing and Data Mining
69 pages
DM Assignments
No ratings yet
DM Assignments
4 pages
Iare DWDM and WT Lab Manual PDF
No ratings yet
Iare DWDM and WT Lab Manual PDF
69 pages
BI_Experiment _No_1
No ratings yet
BI_Experiment _No_1
7 pages
Weka Lab
No ratings yet
Weka Lab
11 pages
Wa0002.
No ratings yet
Wa0002.
21 pages
Data Warehouse and Data Mining: Lab Manual
100% (1)
Data Warehouse and Data Mining: Lab Manual
69 pages
Data Mining Record
No ratings yet
Data Mining Record
24 pages
Task 0: Weka Introduction
No ratings yet
Task 0: Weka Introduction
11 pages
Weka Tutorial: 1. Downloading and Installing Weka (Version 3.6)
No ratings yet
Weka Tutorial: 1. Downloading and Installing Weka (Version 3.6)
4 pages
DMW_LabFile_0901CS243D11_swastik
No ratings yet
DMW_LabFile_0901CS243D11_swastik
25 pages
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
No ratings yet
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
42 pages
DMLab
No ratings yet
DMLab
27 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
71 pages
Data Mining Guidelines
No ratings yet
Data Mining Guidelines
4 pages
CVR DWDM Manual
100% (1)
CVR DWDM Manual
70 pages
Data Mining Lab
No ratings yet
Data Mining Lab
33 pages
DWBI Lab Manual 2023-24 Final
No ratings yet
DWBI Lab Manual 2023-24 Final
40 pages
Data Mining With Weka - Demo
No ratings yet
Data Mining With Weka - Demo
12 pages
Lab Exercise
No ratings yet
Lab Exercise
9 pages
DMDV_210
No ratings yet
DMDV_210
63 pages
An Introduction To WEKA Explorer: in Part From: Yizhou Sun 2008
No ratings yet
An Introduction To WEKA Explorer: in Part From: Yizhou Sun 2008
104 pages
2.3 Weka Tool
No ratings yet
2.3 Weka Tool
84 pages
Assignment 1-Preprocessing Handon
No ratings yet
Assignment 1-Preprocessing Handon
6 pages
Appendix Weka
No ratings yet
Appendix Weka
17 pages
Weka Tutorial
No ratings yet
Weka Tutorial
8 pages
DMDV_210
No ratings yet
DMDV_210
61 pages
Data Warehousing and Data Mining Lab
No ratings yet
Data Warehousing and Data Mining Lab
53 pages
Wekappt
No ratings yet
Wekappt
58 pages
EX-01-Weka and Rapidminer
No ratings yet
EX-01-Weka and Rapidminer
9 pages
task3
No ratings yet
task3
36 pages
Lab3 NguyenQuocKhanh ITITIU18186
No ratings yet
Lab3 NguyenQuocKhanh ITITIU18186
7 pages
DMlab - FilE prINCE
No ratings yet
DMlab - FilE prINCE
27 pages
Data Warehousing Laboratory
0% (1)
Data Warehousing Laboratory
28 pages
MBA - Quantitative Methods
No ratings yet
MBA - Quantitative Methods
266 pages
Chem 26.1 Formal Report Experiment 3 Iodine Clock Reaction
71% (7)
Chem 26.1 Formal Report Experiment 3 Iodine Clock Reaction
5 pages
NDA Written Exam
No ratings yet
NDA Written Exam
4 pages
Multiple Regression Analysis in SPSS Statistics - Laerd Statistics
No ratings yet
Multiple Regression Analysis in SPSS Statistics - Laerd Statistics
7 pages
Question Paper Code:: Reg. No.
No ratings yet
Question Paper Code:: Reg. No.
37 pages
Forecast Daily Sales of Dairy Products PRESENTATION
No ratings yet
Forecast Daily Sales of Dairy Products PRESENTATION
20 pages
Adhikari
No ratings yet
Adhikari
13 pages
Field Trip Report
100% (1)
Field Trip Report
28 pages
IPS7e SuppExer
No ratings yet
IPS7e SuppExer
308 pages
Annual Rainfall and Forecast of Uttar Pradesh
No ratings yet
Annual Rainfall and Forecast of Uttar Pradesh
13 pages
Selecting The Appropriate Forecast Method
No ratings yet
Selecting The Appropriate Forecast Method
4 pages
1984 WGEN Richardson
No ratings yet
1984 WGEN Richardson
88 pages
Course Content: St. Paul University Philippines
50% (4)
Course Content: St. Paul University Philippines
33 pages
Chap 003
No ratings yet
Chap 003
40 pages
Binary Logistic
No ratings yet
Binary Logistic
87 pages
Chapter 3 Study Guide
0% (1)
Chapter 3 Study Guide
11 pages
Introduction To Prob. and Counting
No ratings yet
Introduction To Prob. and Counting
38 pages
34 Time Series Analysis for Mustard Production, Productivity, And Area Forecasting in Madhya Pradesh, India
No ratings yet
34 Time Series Analysis for Mustard Production, Productivity, And Area Forecasting in Madhya Pradesh, India
7 pages
Nonparametric Testing in Excel PDF
No ratings yet
Nonparametric Testing in Excel PDF
72 pages
MAS Wiley Questions 2019-28
No ratings yet
MAS Wiley Questions 2019-28
5 pages
Naïve Bayes
No ratings yet
Naïve Bayes
6 pages
QTA 25-04-2013 - Discriminant Analysis
No ratings yet
QTA 25-04-2013 - Discriminant Analysis
9 pages
Data-Driven Baseline Estimation of Residential Buildings For Demand Response
No ratings yet
Data-Driven Baseline Estimation of Residential Buildings For Demand Response
21 pages
Random ( Statistical Stochastic) Vari-Able: V X Rain
No ratings yet
Random ( Statistical Stochastic) Vari-Able: V X Rain
8 pages
Calibration Test of Pulse-Doppler Flow Meter at National Standard Loops
No ratings yet
Calibration Test of Pulse-Doppler Flow Meter at National Standard Loops
7 pages
Application of Lamendin's Adult Dental Aging - Prince - Ubelaker2002
No ratings yet
Application of Lamendin's Adult Dental Aging - Prince - Ubelaker2002
10 pages

Lab 01-Form

Uploaded by

Lab 01-Form

Uploaded by

Introduction to Data Mining

Lab 1: Introduction to Weka

1.2. Exploring the Explorer

1.3. Exploring datasets

Similarly, examine datasets: weather.numeric.arff and glass.arff.

Dataset Attributes Values #Instances

Dataset Attributes Values #Instances

Create a file of ARFF format and examine it.

Dataset Attributes Values #Instances

Relation: air_quality Maximum 35

#Instances: 10 Mean 27.8

#Attributes: 5 StdDev 4.803

CO2_level Minimum 300

Class pollution low 4

1.4. Building a classifier

Examine the output of J48 vs. RandomTree applied to dataset glass.arff

Algorithm Pruned/unpruned minNumObj No. of Leaves Correctly

Random tree N/A N/A N/A 150

J48 - unpruned - minNumObj = 15:

1.5. Using a filter

- What are attributeIndices? -

_Remove instances where humidity is high 

- What are nominalIndices? -

_Fewer attributes, better classification:

Filter Leaf size Correctly Classified Remark

1.6. Visualizing your data

After running J48 for iris.arff, determine:

- How many instances are predicted wrong? -

Instance Predicted class Actual class

You might also like