0% found this document useful (0 votes)

77 views

Data Mining - Decision Tree

This document provides an overview of decision trees for data mining. It discusses how decision trees are used for classification and prediction problems through a binary recursive partitioning process. The strengths include generating understandable rules with low computational requirements. Weaknesses include being weak for estimating continuous variables, time series problems, and handling missing data. Key algorithms like CART are described along with issues like choosing inputs, splits, pruning, and stopping criteria.

Uploaded by

Amitav Pattnaik

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

77 views

Data Mining - Decision Tree

Uploaded by

Amitav Pattnaik

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 13

Data Mining – Decision Tree

Table of Content
• Application Situation
• Overview
• CART (Classification And Regression Tree)
• Strengths and Weaknesses
• Case using XL Miner

Data Mining - Decision Tree 2

Application Situation
Case Imagine Object
Case Issue of Credit
Age
Decision Worth
Income Giving Credit
Tree
(Y / N)
Married
Status Own
House?

Data Mining - Decision Tree 3

Overview
Directed Knowledge Discovery (Supervised
Learning) technique
Used for Classification (Classification Tree) as well
as prediction (Regression Tree)
Two Step Process
• Build Decision Tree using training set by
repeatedly splitting tree based on best splitting
attribute (that minimizes diversity)
• Apply Decision Tree to classify unknown data

Data Mining - Decision Tree 4

Overview
Gives rules that are easy to understand, code
in SQL, easy to implement
Decision tree represents series of questions.
Answer determines what to ask next
Questions divide search space into rectangular
region. Tuple is classified based on the region it
falls
Many paths result in same class. (Different Reason)
Good questions lead to result in a few questions

Data Mining - Decision Tree 5

Overview
Statistical classification methods (e.g. linear
regression) partition data into classes by drawing a
line.
Decision Tree allows several different ways for a
record to become part of the target class. (instead
of only one way)
e.g. in credit card industry, there are many ways in
which customer are profitable

Data Mining - Decision Tree 6

Overview
Important Issues
• Choosing Input Attributes
• Splits (for Gender, Split is obvious.. M or F. For
attributes with more than two values, it is not
trivial. For Continuous value, even more difficult.
One option: convert into discrete categories)
• Ordering of splitting is important
• Balances tree with fewer levels preferred

Data Mining - Decision Tree 7

Overview
Important Issues (Cont)
• Stopping Criteria: All value at a node
having one class, or most values at a node
having one class, or minimum levels
• Training Data (Too small does not work
well, Too much might lead to over-fitting)
• Pruning: Improve performance, avoid over-
fitting)
Data Mining - Decision Tree 8
RT Theoretical Foundation - 1
7.091

• Regression tree is built through a RM

process known as binary recursive 48 12

partitioning. This is an iterative 39.82667

process of splitting the data into 3.818

partitions, and then splitting it up DIS

36
further on each of the branches. 12

• Initially all of the records in 29.54074 6.388

training set (the pre-classified RM

records that are used to determine 13

the structure of the tree) are 22.11333 27.07037

together in one big box.

Data Mining - Decision Tree 9

RT Theoretical Foundation - 2
7.091

• The algorithm then tries breaking RM

up the data, using every possible 48 12

binary split on every field. The 39.82667

algorithm chooses the split that 3.818

partitions the data into two parts DIS

36
such that it minimizes the sum of 12

the squared deviations from the 29.54074 6.388

5
mean in the separate parts. RM

13
23

22.11333 27.07037

Data Mining - Decision Tree 10

Strengths and Weaknesses
Generates understandable rules
Not much computation required to perform
classification (Not training part)
Can handle continuous as well as categorical
variables
Gives important fields for classification

Data Mining - Decision Tree 11

Strengths and Weaknesses
Weak in estimating continuous variable
Weak in handling continuous data for classification
(need to convert into categories, e.g. income, Age)
Weak for time series problem
Some algorithms Error-prone with too many classes
Computationally expensive to train
Difficulty in handling missing data

Data Mining - Decision Tree 12

References
1. Margaret Dunham, “Data Mining – Introductory
and Advanced Topics”, Pearson Edition (Ch 4.4:
Decision Tree Based Algorithms)
2. Michael Berry, Gordon Linoff, “Data Mining
Techniques ”, Wiley Publications (Ch 12:
Decision Trees)

Data Mining - Decision Tree 13

Oracle Database Programming - Section 3
No ratings yet
Oracle Database Programming - Section 3
12 pages
Ansar - F18605005 Inlab + Post Lab No 04 Operating System Dated 24 April, 2021
No ratings yet
Ansar - F18605005 Inlab + Post Lab No 04 Operating System Dated 24 April, 2021
6 pages
Lab1 Shell Interface
No ratings yet
Lab1 Shell Interface
7 pages
Analysis of Various Decision Tree Algorithms For Classification in Data Mining PDF
No ratings yet
Analysis of Various Decision Tree Algorithms For Classification in Data Mining PDF
5 pages
Lec05 Classification DecisionTree
No ratings yet
Lec05 Classification DecisionTree
67 pages
Business Analytics: Foundation: Material Handouts
No ratings yet
Business Analytics: Foundation: Material Handouts
7 pages
Data Mining Algo
No ratings yet
Data Mining Algo
8 pages
Week 8 - Understanding the Decision Tree
No ratings yet
Week 8 - Understanding the Decision Tree
28 pages
decision tree
No ratings yet
decision tree
13 pages
Decisiontree1 2
No ratings yet
Decisiontree1 2
29 pages
2 - Decision Tree
No ratings yet
2 - Decision Tree
23 pages
Decision Trees and Decision Modeling
No ratings yet
Decision Trees and Decision Modeling
58 pages
Decision Tree Classification Algorithm
No ratings yet
Decision Tree Classification Algorithm
14 pages
Classification: Decision Trees: Business Analytics Lecture 7/8
No ratings yet
Classification: Decision Trees: Business Analytics Lecture 7/8
35 pages
Machine_Learning_Lecture_08_Decision Tree Learning (1)
No ratings yet
Machine_Learning_Lecture_08_Decision Tree Learning (1)
67 pages
CSL0777 L25
No ratings yet
CSL0777 L25
39 pages
Module 04 Edited
No ratings yet
Module 04 Edited
19 pages
Classification, Prediction
100% (1)
Classification, Prediction
67 pages
Module 04
No ratings yet
Module 04
75 pages
Classification - Decision Trees
No ratings yet
Classification - Decision Trees
96 pages
Chap4 - Basic - Classification - Class Teaching
No ratings yet
Chap4 - Basic - Classification - Class Teaching
168 pages
Chapter 4classification and Prediction
No ratings yet
Chapter 4classification and Prediction
19 pages
Decision Tree
No ratings yet
Decision Tree
52 pages
updated dm unit 3
No ratings yet
updated dm unit 3
28 pages
Decision Trees and Regression Techniques
No ratings yet
Decision Trees and Regression Techniques
27 pages
Decision Tree
100% (1)
Decision Tree
57 pages
Decision Tree Algorithm in Machine Learning
No ratings yet
Decision Tree Algorithm in Machine Learning
17 pages
Data Mining
No ratings yet
Data Mining
68 pages
Classification Using Decision Trees
No ratings yet
Classification Using Decision Trees
43 pages
TEAA_ Tree Ensembles-1
No ratings yet
TEAA_ Tree Ensembles-1
43 pages
Unit 4
No ratings yet
Unit 4
33 pages
Decision Tree
No ratings yet
Decision Tree
57 pages
ML Unit 3
No ratings yet
ML Unit 3
30 pages
Decision Trees
67% (3)
Decision Trees
14 pages
Classification and Regression Trees (CART - I) : Dr. A. Ramesh
No ratings yet
Classification and Regression Trees (CART - I) : Dr. A. Ramesh
34 pages
5+6 Classification
No ratings yet
5+6 Classification
95 pages
DS Unit - 4
No ratings yet
DS Unit - 4
76 pages
EDA Cat2
No ratings yet
EDA Cat2
54 pages
Decision Tree Is An Upside
No ratings yet
Decision Tree Is An Upside
17 pages
Lecture Note #5_PEC-CS701E
No ratings yet
Lecture Note #5_PEC-CS701E
16 pages
10.1 Decision Tree
No ratings yet
10.1 Decision Tree
17 pages
Data Warehousing and Data Mining: Classification, Trees
No ratings yet
Data Warehousing and Data Mining: Classification, Trees
26 pages
Lecture Notes For Chapter 4 Introduction To Data Mining: by Tan, Steinbach, Kumar
No ratings yet
Lecture Notes For Chapter 4 Introduction To Data Mining: by Tan, Steinbach, Kumar
35 pages
DECSION TREE
No ratings yet
DECSION TREE
6 pages
Fundamentals of Data Science Unit 4
100% (1)
Fundamentals of Data Science Unit 4
31 pages
Concepts - Decision Trees
No ratings yet
Concepts - Decision Trees
23 pages
21-Data Clustering (K-Means Clustering Algorithm), Predictive Analytics-11!04!2023
No ratings yet
21-Data Clustering (K-Means Clustering Algorithm), Predictive Analytics-11!04!2023
41 pages
A Survey On Decision Tree Algorithms of Classification in Data Mining
No ratings yet
A Survey On Decision Tree Algorithms of Classification in Data Mining
5 pages
Unit-II - Tree Based Methods
No ratings yet
Unit-II - Tree Based Methods
158 pages
Decision Tree
No ratings yet
Decision Tree
11 pages
U4 ML Updated
No ratings yet
U4 ML Updated
32 pages
FMLanswerkey-IT 2.docx (1) (1) (1)
No ratings yet
FMLanswerkey-IT 2.docx (1) (1) (1)
11 pages
Decision Tree Is An Upside
No ratings yet
Decision Tree Is An Upside
7 pages
Unit Ii
No ratings yet
Unit Ii
22 pages
Decision Tree Learning
No ratings yet
Decision Tree Learning
15 pages
3 - Sınıflandırma 2
No ratings yet
3 - Sınıflandırma 2
62 pages
Decision Tree
No ratings yet
Decision Tree
74 pages
Decision Tree Learning
No ratings yet
Decision Tree Learning
11 pages
Decision Tree & Random Forest
No ratings yet
Decision Tree & Random Forest
34 pages
08 Decision - Tree
No ratings yet
08 Decision - Tree
9 pages
Top 50 Data Mining Interview Questions & Answers PDF
No ratings yet
Top 50 Data Mining Interview Questions & Answers PDF
30 pages
Decision Tree Pruning: Fundamentals and Applications
From Everand
Decision Tree Pruning: Fundamentals and Applications
Fouad Sabry
No ratings yet
Data Structures Explained: A Practical Guide with Examples
From Everand
Data Structures Explained: A Practical Guide with Examples
William E. Clark
No ratings yet
Log
No ratings yet
Log
133 pages
Lec27 PDF
No ratings yet
Lec27 PDF
26 pages
Srujith Kudikala: Linux Device Drivers
No ratings yet
Srujith Kudikala: Linux Device Drivers
19 pages
Module 02 - Hibernate Persistence-upd
No ratings yet
Module 02 - Hibernate Persistence-upd
45 pages
Tips For Programming and Development
No ratings yet
Tips For Programming and Development
22 pages
Email Validation in SQL
No ratings yet
Email Validation in SQL
1 page
Networking
No ratings yet
Networking
5 pages
481AALS1C0
No ratings yet
481AALS1C0
8 pages
PCL Font Manual
No ratings yet
PCL Font Manual
30 pages
Switching: Dr. Gihan Naguib
No ratings yet
Switching: Dr. Gihan Naguib
24 pages
(#DCMEE-1814) Problem With Column Type On SQL Server Prevents Dcm4chee From Starting Up
No ratings yet
(#DCMEE-1814) Problem With Column Type On SQL Server Prevents Dcm4chee From Starting Up
1 page
Huawei USG6600E Series Firewalls Datasheet
No ratings yet
Huawei USG6600E Series Firewalls Datasheet
12 pages
Abap On Hana From Analysis To Optimization
100% (1)
Abap On Hana From Analysis To Optimization
27 pages
MySQL Presentation
No ratings yet
MySQL Presentation
25 pages
Exp 4
No ratings yet
Exp 4
5 pages
Data Manipulation With Pandas - Introduction To Pandas Reference Guide - Codecademy
No ratings yet
Data Manipulation With Pandas - Introduction To Pandas Reference Guide - Codecademy
3 pages
Dump File: Crash Time:: Crashes Information Columns (Upper Pane)
No ratings yet
Dump File: Crash Time:: Crashes Information Columns (Upper Pane)
5 pages
SBC-356 Half-Size All-In-One 386SX-40 CPU Card
No ratings yet
SBC-356 Half-Size All-In-One 386SX-40 CPU Card
62 pages
National Olympiad in Informatics (NOI) Tasks 2012
No ratings yet
National Olympiad in Informatics (NOI) Tasks 2012
11 pages
Ilp Pat Test Unix
No ratings yet
Ilp Pat Test Unix
6 pages
Purge Script
No ratings yet
Purge Script
3 pages
Question & Answers: Unity Solutions Specialist Exam For Implementation Engineers
No ratings yet
Question & Answers: Unity Solutions Specialist Exam For Implementation Engineers
6 pages
Case Project 7-3
No ratings yet
Case Project 7-3
1 page
Survey On Various Small File Handling Strategies On Hadoop
No ratings yet
Survey On Various Small File Handling Strategies On Hadoop
4 pages
Ds Nemo Outdoor LTE Altair Terminals
No ratings yet
Ds Nemo Outdoor LTE Altair Terminals
3 pages
Setting Oracle Environment Variables in UNIX
No ratings yet
Setting Oracle Environment Variables in UNIX
2 pages
Chapter 6
No ratings yet
Chapter 6
28 pages

Data Mining - Decision Tree

Uploaded by

Data Mining - Decision Tree

Uploaded by

Data Mining – Decision Tree

Data Mining - Decision Tree 2

Data Mining - Decision Tree 3

Data Mining - Decision Tree 4

Data Mining - Decision Tree 5

Data Mining - Decision Tree 6

Data Mining - Decision Tree 7

• Regression tree is built through a RM

process known as binary recursive 48 12

partitioning. This is an iterative 39.82667

process of splitting the data into 3.818

partitions, and then splitting it up DIS

• Initially all of the records in 29.54074 6.388

training set (the pre-classified RM

records that are used to determine 13

the structure of the tree) are 22.11333 27.07037

together in one big box.

Data Mining - Decision Tree 9

• The algorithm then tries breaking RM

up the data, using every possible 48 12

binary split on every field. The 39.82667

algorithm chooses the split that 3.818

partitions the data into two parts DIS

the squared deviations from the 29.54074 6.388

Data Mining - Decision Tree 10

Data Mining - Decision Tree 11

Data Mining - Decision Tree 12

Data Mining - Decision Tree 13

You might also like