0% found this document useful (0 votes)

63 views9 pages

Lab 01-PhamBinhDuong ITCSIU21054

The document serves as an introduction to Weka, an open-source software for data mining, detailing its features and functionalities. It outlines tasks for exploring datasets, building classifiers, and utilizing filters, along with specific examples using various datasets such as weather and glass. Additionally, it emphasizes the importance of visualizing data and classifier errors in the data mining process.

Uploaded by

Dương Phạm

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

63 views9 pages

Lab 01-PhamBinhDuong ITCSIU21054

Uploaded by

Dương Phạm

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

Introduction to Data Mining

Lab 1: Introduction to Weka

1.1. Introduction
Weka is an open-source software available at www.cs.waikato.ac.nz/ml/weka. Weka stands for the
Waikato Environment for Knowledge Analysis. It offers clean, spare implementation of the simplest
techniques, designed to aid understanding of the data mining techniques. It also provides a work-bench
that includes full, working, state-of-the-art implementations of many popular learning schemes that can
be used for practical data mining or for research.

In the first class, we are going to get started with Weka: exploring the “Explorer” interface, exploring
some datasets, building a classifier, using filters, and visualizing your dataset. (See the lecture of class 1
by Ian H. Witten, [1])

Task: Taking notes how you find the Explorer, and answering questions in the following sections

1.2. Exploring the Explorer

Follow the instructions in [1]

1.3. Exploring datasets

Follow the instructions in [1]

In dataset weather.nominal.arff, how many attributes are there in the relation? What are their values?
What is the class and its values? Counting instances for each attribute value.

1
Dataset Attributes Values #Instances
outlook sunny 5
Relation:weather.symbolic overcast 4
#Instances:14 rainy 5
#Attributes:5 distinct: 3
temperature hot 4
mild 6
cold 4
distinct: 3
humidity high 7
normal 7
distinct: 2
TRUE 6
windy FALSE 8
distinct: 2
Class play yes 9
no 5
distinct: 2

Similarly, examine datasets: weather.numeric.arff and glass.arff.

Dataset Attributes Values #Instances

outlook sunny 5
Relation: weather overcast 4
#Instances: 14 rainy 5
#Attributes: 5 distinct: 3
temperature Minimum: 64 distinct :12
Maximum: 85
Mean: 73.571
StdDev: 6.572

humidity Minimum: 65 Distinct: 10

Maximum: 96
Mean: 81.643
StdDev: 10.285
True 6
windy False 8
distinct: 2

Class play Yes 9

No 5
Distinct:2

Dataset Attributes Values #Instances

RI Minimum:1.511 Distinct:178

2
Relation: Glass Maximum:1.534
#Instances: 214 Mean:1.518
#Attributes: 10 StdDev: 0.003
Minimum:10.73 Distinct:142
Na Maximum:17.38
Mean:13.408
StdDev: 0.817
Minimum:0 Distinct:94
Mg Maximum:4.49
Mean:2.685
StdDev: 1.441
Minimum:0.29 Distinct:118
Al Maximum:3.5
Mean:1.445
StdDev: 0.499
Si Minimum:69.81 Distinct:133
Maximum:75.41
Mean:72.651
StdDev: 0.775
K Minimum:0 Distinct:65
Maximum:6.21
Mean:0.497
StdDev: 0.652
Ca Minimum:5.43 Distinct:143
Maximum:16.19
Mean:8.957
StdDev: 1.423
Ba Minimum:0 Distinct:34
Maximum:3.15
Mean:0.175
StdDev: 0.497
Fe Minimum:0 Distinct:32
Maximum:0.51
Mean:0.057
StdDev: 0.097
Class Type build wind float 70
build wind non-float 76
vehic wind float 17
vehic wind non-float 0
containers 13
tableware 9
headlamps 29
distinct: 6

Create a file of ARFF format and examine it.

3
Dataset Attributes Values #Instances
Sex Minimum:0 distinct : 2
Relation: gameandgrade Maximum: 1
#Instances: 770 Mean: 0.499
#Attributes: 10 StdDev: 0.5
School Code Minimum: 1 distinct: 11
Maximum: 11
Mean: 4.944
StdDev: 3
Minimum: 0 distinct : 5
Playing Years Maximum: 4
Mean: 1.584
StdDev: 1.407
Minimum: 0 distinct: 6
Playing Often Maximum: 5
Mean: 2.243
StdDev: 1.924
Playing Hours Minimum: 0 distinct: 6
Maximum: 5
Mean: 1.488
StdDev: 1.338
Playing Games Minimum: 0 Distinct 3
Maximum: 2
mean : 0.706
StdDev: 0.459
Parent Revenue Minimum: 0 distinct: 5
maximum: 4
mean: 1.838
stddev: 1.064
Father Education minimum: 0 distinct: 7
maximum: 6
mean: 3.718
stddev: 1.172
Mother Education minimum: 0 distinct: 7
maximum: 6
mean : 3.41
std dev: 1.176
Class Grade distinct : 105

1.4. Building a classifier

Follow the instructions in [1]

Examine the output of J48 vs. RandomTree applied to dataset glass.arff

4
Algorith Pruned/unpruned minNu No. Corre
m mObj of ctly
Lea Classi
ves fied
Insta
nces
J48 Pruned: 2 30 143

Unpruned 2 30 144

5
Random 150
Tree

Evaluate the confusion matrix every time running an algorithm.

J48 Pruned Tree

J48 Unpruned Tree

6
Random Tree

1.5. Using a filter

Follow the instructions in [1], and remark

_Use a filter to remove an attribute 

- What are attributeIndices? –

- A filter parameter that specifies the column numbers (indices) of attributes you wish to remove.

_Remove instances where humidity is high 

- What are nominalIndices? –

- A filter parameter that designates which attributes are nominal (categorical) so that filters can
correctly handle their values (e.g., removing instances where a nominal attribute like humidity is
“high”).

7
_Fewer attributes, better classification:

Follow the instructions in [1], review the outputs of J48 applied to glass.arff:

Filter Leaf size Correctly Classified Remark

Instances
30 143 Baseline using all 10
Original attributes; accuracy of
68.8224%

Remove Fe 26 144 removing the Fe attribute

reduced the tree size and
slightly improve accuracy
to 67.2897%

Remove all 21 147 retaining only RI and Mg

attributes yielded the simplest tree
except RI and and the high accuracy at
MG 68.6916%

1.6. Visualizing your data

Follow the instructions in [1], how do you find “Visualize classifier errors”?

After running J48 for iris.arff, determine:

- How many instances are predicted wrong? –

- 6 (given J48 classifier – unpruned- minNumObj=15)

- What are they?

8
-

Instance Predicted class Actual class

Iris-virginica Iris-versicolor

15
Iris-virginica Iris-versicolor
73

Iris-virginica Iris-versicolor
119

Iris-versicolor Iris-virginica
92

Iris-versicolor Iris-virginica
109

98 Iris-versicolor Iris-setosa

WEKA Lab Manual
100% (2)
WEKA Lab Manual
107 pages
Data Mining - Lab - Manual
No ratings yet
Data Mining - Lab - Manual
20 pages
Anne - CCS341 - DW - Students Record - 1a - 1b - 2 - Print
No ratings yet
Anne - CCS341 - DW - Students Record - 1a - 1b - 2 - Print
63 pages
Perform Data Preprocessing Tasks Using Labor Data Set in WEKA
No ratings yet
Perform Data Preprocessing Tasks Using Labor Data Set in WEKA
6 pages
Lecture 12 - Weka Tutorial
No ratings yet
Lecture 12 - Weka Tutorial
84 pages
Data Mining Lab Manual
No ratings yet
Data Mining Lab Manual
40 pages
Clustering With WEKA Explorer: Lab Exercise Four
100% (1)
Clustering With WEKA Explorer: Lab Exercise Four
11 pages
Lab 01 - Nguyen Duy Phuc - ITDSIU21030
No ratings yet
Lab 01 - Nguyen Duy Phuc - ITDSIU21030
12 pages
The Khuzwayos
No ratings yet
The Khuzwayos
267 pages
Weka-: Data Warehousing and Data Mining Lab Manual-Week 9
100% (1)
Weka-: Data Warehousing and Data Mining Lab Manual-Week 9
8 pages
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
No ratings yet
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
42 pages
Data Mining - Session #1 - Unlocked
No ratings yet
Data Mining - Session #1 - Unlocked
22 pages
DMW Lab Manual
No ratings yet
DMW Lab Manual
35 pages
DMlab - FilE prINCE
No ratings yet
DMlab - FilE prINCE
27 pages
DWDM Lab Manual
No ratings yet
DWDM Lab Manual
47 pages
DMLab
No ratings yet
DMLab
27 pages
Workshop 1
No ratings yet
Workshop 1
16 pages
Data Mining Lab File
No ratings yet
Data Mining Lab File
20 pages
Wa0002.
No ratings yet
Wa0002.
21 pages
DMW FIle
No ratings yet
DMW FIle
27 pages
DW Lab
No ratings yet
DW Lab
85 pages
DMDV 210
No ratings yet
DMDV 210
63 pages
DM Tools Sample-1
No ratings yet
DM Tools Sample-1
72 pages
DWDM Lab File
No ratings yet
DWDM Lab File
29 pages
Data Warehousing Lab Manual
No ratings yet
Data Warehousing Lab Manual
36 pages
DA LabFile
No ratings yet
DA LabFile
63 pages
Data Mining Guidelines
No ratings yet
Data Mining Guidelines
4 pages
NguyenCongSang ITITIU20292 Lab1
No ratings yet
NguyenCongSang ITITIU20292 Lab1
7 pages
Data Warehousing - To Write
No ratings yet
Data Warehousing - To Write
23 pages
AWS D1.1 - Example PQR & WPS Documents
0% (1)
AWS D1.1 - Example PQR & WPS Documents
4 pages
Data Warehousing
No ratings yet
Data Warehousing
54 pages
Exp 2
No ratings yet
Exp 2
6 pages
Lab 01-Form
No ratings yet
Lab 01-Form
8 pages
Exp 6
No ratings yet
Exp 6
12 pages
Data Mining Lab Manual: Aurora's PG College Moosarambagh Mca Department
No ratings yet
Data Mining Lab Manual: Aurora's PG College Moosarambagh Mca Department
42 pages
Data Warehousing and Data Mining Lab
No ratings yet
Data Warehousing and Data Mining Lab
53 pages
DWDM Lab 2
No ratings yet
DWDM Lab 2
3 pages
Wekappt
No ratings yet
Wekappt
58 pages
Data-Mining-Lab-Manual Cs 703b
No ratings yet
Data-Mining-Lab-Manual Cs 703b
41 pages
DWM1
No ratings yet
DWM1
19 pages
DMW LabFile 0901CS243D11 Swastik
No ratings yet
DMW LabFile 0901CS243D11 Swastik
25 pages
Weka Lab
No ratings yet
Weka Lab
11 pages
Task 0: Weka Introduction
No ratings yet
Task 0: Weka Introduction
11 pages
WEKA Manual
No ratings yet
WEKA Manual
25 pages
BI - Experiment - No - 1
No ratings yet
BI - Experiment - No - 1
7 pages
DMLB 1
No ratings yet
DMLB 1
3 pages
Weka Tutorial
No ratings yet
Weka Tutorial
8 pages
DM Assignments
No ratings yet
DM Assignments
4 pages
DWDM Lab Manual Using Weka-For MIC
No ratings yet
DWDM Lab Manual Using Weka-For MIC
42 pages
Perform Data Pre-Processing On Sample Data Set (Student - Arff)
No ratings yet
Perform Data Pre-Processing On Sample Data Set (Student - Arff)
4 pages
MC0717 Lab Manual
No ratings yet
MC0717 Lab Manual
42 pages
Weka Exercise 1
No ratings yet
Weka Exercise 1
7 pages
Data Mining Unit 5
No ratings yet
Data Mining Unit 5
12 pages
Weka Exercise 1
No ratings yet
Weka Exercise 1
7 pages
DAA NOTES UNIT 1 (Design and Analysis of Algorithm)
No ratings yet
DAA NOTES UNIT 1 (Design and Analysis of Algorithm)
18 pages
Weka (20030421-Version1 by Kdelab)
No ratings yet
Weka (20030421-Version1 by Kdelab)
51 pages
Weka Tutorial: 1. Downloading and Installing Weka (Version 3.6)
No ratings yet
Weka Tutorial: 1. Downloading and Installing Weka (Version 3.6)
4 pages
Lab (I)
No ratings yet
Lab (I)
3 pages
Islamic Names & Meanings in Urdu - Muslim Boys & Muslim Girls Names
48% (25)
Islamic Names & Meanings in Urdu - Muslim Boys & Muslim Girls Names
2 pages
Appendix Weka
No ratings yet
Appendix Weka
17 pages
PSS 5000 APNO Vehicle Tagging 80510800
100% (1)
PSS 5000 APNO Vehicle Tagging 80510800
46 pages
Module5 Quiz
100% (1)
Module5 Quiz
34 pages
Lvsuysl Blikr DH Iysv) Píjsa RFKK Ifùk K¡ Fof'Kf"V: HKKJRH Ekud
100% (4)
Lvsuysl Blikr DH Iysv) Píjsa RFKK Ifùk K¡ Fof'Kf"V: HKKJRH Ekud
17 pages
Mail Merge and Hyperlink
No ratings yet
Mail Merge and Hyperlink
7 pages
List of Imran Series by Ibn-e-Safi - Wikipedia
No ratings yet
List of Imran Series by Ibn-e-Safi - Wikipedia
25 pages
Definition and Dispute: A Defense of Temporal Externalism 1st Edition Derek Ball Instant Download
100% (1)
Definition and Dispute: A Defense of Temporal Externalism 1st Edition Derek Ball Instant Download
57 pages
Lecture 21 Analysis of Rainfall Data
No ratings yet
Lecture 21 Analysis of Rainfall Data
10 pages
Struers Prestopress3 Embedded Press
No ratings yet
Struers Prestopress3 Embedded Press
23 pages
Horsetail Equisetum Hyemale1
No ratings yet
Horsetail Equisetum Hyemale1
8 pages
2023 Usnco National Exam Part III
No ratings yet
2023 Usnco National Exam Part III
14 pages
Engineering Science For BS MBS3211: 3. Electricity
No ratings yet
Engineering Science For BS MBS3211: 3. Electricity
64 pages
Nutrition in Plants All Sets Quiz
No ratings yet
Nutrition in Plants All Sets Quiz
8 pages
Isp98 Confirming Undertaking
No ratings yet
Isp98 Confirming Undertaking
5 pages
Durneva Et Al (2024) Virtual Presence in Immersive Metaverse-Enabling Environments
No ratings yet
Durneva Et Al (2024) Virtual Presence in Immersive Metaverse-Enabling Environments
37 pages
Introduction To E-Gov
No ratings yet
Introduction To E-Gov
15 pages
Lecture 1 Definitions & Terminologies in Experimental Design
No ratings yet
Lecture 1 Definitions & Terminologies in Experimental Design
11 pages
3 Lxuzlmu 5 C 8 Z 1 Uym 1 NNN 2 M 7 XJ
No ratings yet
3 Lxuzlmu 5 C 8 Z 1 Uym 1 NNN 2 M 7 XJ
45 pages
CCN202 Kinetix 5700 Troubelshooting and Project Interpretation
No ratings yet
CCN202 Kinetix 5700 Troubelshooting and Project Interpretation
2 pages
FLYLITE - Pilot Training Program Effective AUGUST 01, 2022 Trainee Copy RV080822
No ratings yet
FLYLITE - Pilot Training Program Effective AUGUST 01, 2022 Trainee Copy RV080822
11 pages
StraMa Comprehensive Guidelines (C1 To C8) PDF
No ratings yet
StraMa Comprehensive Guidelines (C1 To C8) PDF
103 pages
Notice To IEA Dwarka Museum
No ratings yet
Notice To IEA Dwarka Museum
2 pages
Modified Acrylic Solid Surface Sheets Price List
No ratings yet
Modified Acrylic Solid Surface Sheets Price List
4 pages
Lovair - L-990 (991 992) Sensor Tap - Parts List
No ratings yet
Lovair - L-990 (991 992) Sensor Tap - Parts List
1 page
DOST PCHRD Calls For Thesis Grant Applications
No ratings yet
DOST PCHRD Calls For Thesis Grant Applications
3 pages
1279-Article Text-5449-1-10-20200212
No ratings yet
1279-Article Text-5449-1-10-20200212
4 pages
On The Extension of Fermat's Theorem To Matrices of Order N: by J. B. Marshall
No ratings yet
On The Extension of Fermat's Theorem To Matrices of Order N: by J. B. Marshall
7 pages

Lab 01-PhamBinhDuong ITCSIU21054

Uploaded by

Lab 01-PhamBinhDuong ITCSIU21054

Uploaded by

Introduction to Data Mining

Lab 1: Introduction to Weka

1.2. Exploring the Explorer

1.3. Exploring datasets

Similarly, examine datasets: weather.numeric.arff and glass.arff.

Dataset Attributes Values #Instances

humidity Minimum: 65 Distinct: 10

Class play Yes 9

Dataset Attributes Values #Instances

Create a file of ARFF format and examine it.

1.4. Building a classifier

Examine the output of J48 vs. RandomTree applied to dataset glass.arff

Evaluate the confusion matrix every time running an algorithm.

J48 Pruned Tree

J48 Unpruned Tree

1.5. Using a filter

_Use a filter to remove an attribute 

- What are attributeIndices? –

_Remove instances where humidity is high 

- What are nominalIndices? –

Filter Leaf size Correctly Classified Remark

Remove Fe 26 144 removing the Fe attribute

Remove all 21 147 retaining only RI and Mg

1.6. Visualizing your data

After running J48 for iris.arff, determine:

- How many instances are predicted wrong? –

- What are they?

Instance Predicted class Actual class

You might also like