0% found this document useful (0 votes)

58 views

Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets

Introduction Data Mining Tasks Classification & Evaluation Clustering Application Examples

Uploaded by

Asim Tahir

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

58 views

Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets

Introduction Data Mining Tasks Classification & Evaluation Clustering Application Examples

Uploaded by

Asim Tahir

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 20

Data Mining

Tutorial
Gregory Piatetsky-Shapiro
KDnuggets

2
© 2006 KDnuggets
Trends leading to Data Flood
 More data is generated:
 Web, text, images …
 Business transactions, calls,
...
 Scientific data: astronomy,
biology, etc

 More data is captured:

 Storage technology faster
and cheaper
 DBMS can handle bigger DB

3
© 2006 KDnuggets
Largest Databases in 2005
Winter Corp. 2005 Commercial
Database Survey:
1. Max Planck Inst. for
Meteorology , 222 TB
2. Yahoo ~ 100 TB (Largest Data
Warehouse)
3. AT&T ~ 94 TB
www.wintercorp.com/VLDB/2005_TopTen_Survey/TopTenWinners_2005.asp

4
© 2006 KDnuggets
Data Growth

In 2 years (2003 to 2005),

the size of the largest database TRIPLED!

5
© 2006 KDnuggets
Data Growth Rate

 Twice as much information was created in 2002

as in 1999 (~30% growth rate)
 Other growth rate estimates even higher
 Very little data will ever be looked at by a human

Knowledge Discovery is NEEDED to make sense

and use of data.

6
© 2006 KDnuggets
Knowledge Discovery Definition
Knowledge Discovery in Data is the
non-trivial process of identifying
 valid
 novel
 potentially useful
 and ultimately understandable patterns in data.
from Advances in Knowledge Discovery and Data
Mining, Fayyad, Piatetsky-Shapiro, Smyth, and
Uthurusamy, (Chapter 1), AAAI/MIT Press 1996

7
© 2006 KDnuggets
Related Fields

Machine Visualization
Learning
Data Mining and
Knowledge Discovery

Statistics Databases

8
© 2006 KDnuggets
Statistics, Machine Learning and
Data Mining
 Statistics:
 more theory-based
 more focused on testing hypotheses
 Machine learning
 more heuristic
 focused on improving performance of a learning agent
 also looks at real-time learning and robotics – areas not part of data
mining
 Data Mining and Knowledge Discovery
 integrates theory and heuristics
 focus on the entire process of knowledge discovery, including data
cleaning, learning, and integration and visualization of results
 Distinctions are fuzzy

9
© 2006 KDnuggets
Knowledge Discovery Process
flow, according to CRISP-DM

see
Monitoring www.crisp-dm.org
for more
information

Continuous
monitoring and
improvement is
an addition to CRISP

10
© 2006 KDnuggets
Historical Note:
Many Names of Data Mining
 Data Fishing, Data Dredging: 1960-
 used by statisticians (as bad name)

 Data Mining :1990 --

 used in DB community, business

 Knowledge Discovery in Databases (1989-)

 used by AI, Machine Learning Community
 also Data Archaeology, Information Harvesting,
Information Discovery, Knowledge Extraction, ...
Currently: Data Mining and Knowledge Discovery
are used interchangeably
11
© 2006 KDnuggets
Data Mining Tasks

 Instance (also Item or Record):

 an example, described by a number of attributes,
 e.g. a day can be described by temperature, humidity
and cloud status

 Attribute or Field
 measuring aspects of the Instance, e.g. temperature

 Class (Label)
 grouping of instances, e.g. days good for playing

13
© 2006 KDnuggets
Major Data Mining Tasks
Classification: predicting an item class
Clustering: finding clusters in data
Associations: e.g. A & B & C occur frequently
Visualization: to facilitate human discovery
Summarization: describing a group
 Deviation Detection: finding changes
 Estimation: predicting a continuous value
 Link Analysis: finding relationships
…
© 2006 KDnuggets 14
Classification
Learn a method for predicting the instance class from
pre-labeled (classified) instances

Many approaches:
Statistics,
Decision Trees,
Neural Networks,
...

16
© 2006 KDnuggets
Association Rules &
Frequent Itemsets
Transactions
TID Produce Frequent Itemsets:
1 MILK, BREAD, EGGS
2 BREAD, SUGAR Milk, Bread (4)
3 BREAD, CEREAL
Bread, Cereal (3)
4 MILK, BREAD, SUGAR
5 MILK, CEREAL Milk, Bread, Cereal (2)
6 BREAD, CEREAL …
7 MILK, CEREAL
8 MILK, BREAD, CEREAL, EGGS
9 MILK, BREAD, CEREAL

Rules:
Milk => Bread (66%)

 Presenting the
discovered results in a
visually "nice" way

 Describe features of the

selected group
 Use natural language
and graphics
 Usually in Combination
with Deviation detection
or other methods

Average length of stay in this study area rose 45.7 percent,

from 4.3 days to 6.2 days, because ...

Find true patterns

and avoid overfitting

(finding seemingly signifcant

Inventory Management System For College
100% (4)
Inventory Management System For College
9 pages
ER Diagram of Garden Construction
100% (1)
ER Diagram of Garden Construction
1 page
Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets
No ratings yet
Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets
89 pages
Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets
No ratings yet
Data Mining Tutorial: Gregory Piatetsky-Shapiro Kdnuggets
89 pages
Dmtut
No ratings yet
Dmtut
88 pages
Dm1 Introduction ML Data Mining
No ratings yet
Dm1 Introduction ML Data Mining
39 pages
Data Mining: Introduction: Lecture Notes For Chapter 1
No ratings yet
Data Mining: Introduction: Lecture Notes For Chapter 1
32 pages
DM Lec1
No ratings yet
DM Lec1
40 pages
Introduction Lecture1gghhhhh
No ratings yet
Introduction Lecture1gghhhhh
23 pages
Data Mining: Nicoleta ROGOVSCHI
No ratings yet
Data Mining: Nicoleta ROGOVSCHI
84 pages
Data Mining Course Overview
No ratings yet
Data Mining Course Overview
38 pages
Data Mining: Knowledge Discovery in Databases
No ratings yet
Data Mining: Knowledge Discovery in Databases
21 pages
Tum Dersler Veri Madenciligi
No ratings yet
Tum Dersler Veri Madenciligi
123 pages
CPS 196.03: Information Management and Mining: Shivnath Babu
No ratings yet
CPS 196.03: Information Management and Mining: Shivnath Babu
30 pages
KDD - Knowledge Discovery in Databases
No ratings yet
KDD - Knowledge Discovery in Databases
546 pages
Dm1 Introduction Ml Data Mining
No ratings yet
Dm1 Introduction Ml Data Mining
39 pages
Hung-Son Intro-DM KD PDF
No ratings yet
Hung-Son Intro-DM KD PDF
58 pages
What Is Not Data Mining - Ex: Generation of Attendance Report (Of A Course) From Registration Cards. - Student Table (STD)
No ratings yet
What Is Not Data Mining - Ex: Generation of Attendance Report (Of A Course) From Registration Cards. - Student Table (STD)
33 pages
DM 01 Introduction ML Data Mining
No ratings yet
DM 01 Introduction ML Data Mining
39 pages
Data Mining: July 18, 2019 1
No ratings yet
Data Mining: July 18, 2019 1
41 pages
1.1 DM-intro
No ratings yet
1.1 DM-intro
25 pages
DB-14
No ratings yet
DB-14
97 pages
Chapter 6 Data Mining
No ratings yet
Chapter 6 Data Mining
39 pages
UNIT 1 (1)
No ratings yet
UNIT 1 (1)
59 pages
Knowledge Discovery & Data Mining
No ratings yet
Knowledge Discovery & Data Mining
30 pages
01-Introduction To Data Mining
No ratings yet
01-Introduction To Data Mining
43 pages
What Is Data Mining?: Many Definitions
No ratings yet
What Is Data Mining?: Many Definitions
15 pages
CIS 467 - Topic 1 - Introduction - 2020
No ratings yet
CIS 467 - Topic 1 - Introduction - 2020
79 pages
Ch1 Overview Kdd_ml
No ratings yet
Ch1 Overview Kdd_ml
23 pages
Data Mining
No ratings yet
Data Mining
26 pages
DM-Unit-I Introduction To Association-1
No ratings yet
DM-Unit-I Introduction To Association-1
97 pages
Subject Data Warehouse
No ratings yet
Subject Data Warehouse
42 pages
To Data Mining: Motivation: "Necessity Is The Mother of Invention"
No ratings yet
To Data Mining: Motivation: "Necessity Is The Mother of Invention"
14 pages
3-OLAP Operations-13!08!2021 (13-Aug-2021) Material I 13-Aug-2021 Data Mining - Introductory Slides
No ratings yet
3-OLAP Operations-13!08!2021 (13-Aug-2021) Material I 13-Aug-2021 Data Mining - Introductory Slides
37 pages
Instructor:: Doaa Adil Mohamed Altayeb
No ratings yet
Instructor:: Doaa Adil Mohamed Altayeb
34 pages
Lecture Notes For Chapter 1 Introduction To Data Mining: by Tan, Steinbach, Kumar
No ratings yet
Lecture Notes For Chapter 1 Introduction To Data Mining: by Tan, Steinbach, Kumar
32 pages
Data Mining and Its Applications
No ratings yet
Data Mining and Its Applications
60 pages
Data Mining
No ratings yet
Data Mining
23 pages
07 DataMining
No ratings yet
07 DataMining
37 pages
Lec1 Introduction
No ratings yet
Lec1 Introduction
20 pages
1 - 1 Intro To Data Mining - ch1
No ratings yet
1 - 1 Intro To Data Mining - ch1
18 pages
Knowledge Discovery and Data Mining (KDD)
No ratings yet
Knowledge Discovery and Data Mining (KDD)
52 pages
DWM 4
No ratings yet
DWM 4
23 pages
DE Unit1_Introdcution_DE_8Jul24
No ratings yet
DE Unit1_Introdcution_DE_8Jul24
56 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
48 pages
Module1 DataMining Ktustudents - in
No ratings yet
Module1 DataMining Ktustudents - in
24 pages
Introduction To Data Mining Techniques: Dr. Rajni Jain
No ratings yet
Introduction To Data Mining Techniques: Dr. Rajni Jain
11 pages
L1 Intro
No ratings yet
L1 Intro
32 pages
02 - Data Mining
No ratings yet
02 - Data Mining
27 pages
1 DMiningKuliah 1 Introduction
No ratings yet
1 DMiningKuliah 1 Introduction
51 pages
01 Intro
No ratings yet
01 Intro
23 pages
Data Mining I: Summer Semester 2017
No ratings yet
Data Mining I: Summer Semester 2017
47 pages
DM_C1_Overview
No ratings yet
DM_C1_Overview
55 pages
Topic 1b - History, Evolution and DM Classification
No ratings yet
Topic 1b - History, Evolution and DM Classification
16 pages
Chapter1 Introduction 2016
No ratings yet
Chapter1 Introduction 2016
44 pages
Chapter 1___Data Mining and Data Warehouse
No ratings yet
Chapter 1___Data Mining and Data Warehouse
44 pages
Datamining & Cluster Coputing
No ratings yet
Datamining & Cluster Coputing
16 pages
DMlecture1
No ratings yet
DMlecture1
39 pages
KDD Process
No ratings yet
KDD Process
56 pages
CT075!3!2-DTM-Topic 8 - Introduction To Data Mining
No ratings yet
CT075!3!2-DTM-Topic 8 - Introduction To Data Mining
32 pages
Data Mining for Beginners: A Programmer’s Guide
From Everand
Data Mining for Beginners: A Programmer’s Guide
Agasti Khatri
No ratings yet
Data Mining: Fundamentals and Applications
From Everand
Data Mining: Fundamentals and Applications
Fouad Sabry
No ratings yet
Online Restuarant
No ratings yet
Online Restuarant
21 pages
HIT MagicPlus Software Manual
No ratings yet
HIT MagicPlus Software Manual
65 pages
Online Shopping Uml Examples
75% (4)
Online Shopping Uml Examples
12 pages
Multithreading: 1. How Do Servlets Work? Instantiation, Sessions, Shared Variables and
No ratings yet
Multithreading: 1. How Do Servlets Work? Instantiation, Sessions, Shared Variables and
4 pages
Incvl 060 QC 3
No ratings yet
Incvl 060 QC 3
93 pages
SQL Tryit Editor v1
No ratings yet
SQL Tryit Editor v1
1 page
Arcgis 10.1 Installation Direction
No ratings yet
Arcgis 10.1 Installation Direction
1 page
Sap Faq
No ratings yet
Sap Faq
31 pages
Create A Login and Registration Form in Android Using SQLite Database
100% (2)
Create A Login and Registration Form in Android Using SQLite Database
65 pages
Multiplex Management System
33% (3)
Multiplex Management System
49 pages
Project Report - Part 3 - Full Report Conclusion Repaired)
67% (6)
Project Report - Part 3 - Full Report Conclusion Repaired)
49 pages
TSM Base Concepts
No ratings yet
TSM Base Concepts
10 pages
Unit I - Introduction To CorelDRAW X5
87% (15)
Unit I - Introduction To CorelDRAW X5
28 pages
Summary of SQL Commands
No ratings yet
Summary of SQL Commands
7 pages
Business Process Re-Engineering
No ratings yet
Business Process Re-Engineering
3 pages
Question Bank ON Unix & Shell Programming-502 (Core Paper-2)
No ratings yet
Question Bank ON Unix & Shell Programming-502 (Core Paper-2)
15 pages
Revit Vs Archicad 288 PDF
No ratings yet
Revit Vs Archicad 288 PDF
5 pages
Oracle Note
No ratings yet
Oracle Note
5 pages
Isomorphic Go (Balasubramanian 2017-12-29) (C70C7E2F) PDF
No ratings yet
Isomorphic Go (Balasubramanian 2017-12-29) (C70C7E2F) PDF
505 pages
Top 50 Digital Marketing Tools
No ratings yet
Top 50 Digital Marketing Tools
28 pages
Swat E F Swat 2012: Ditor OR
No ratings yet
Swat E F Swat 2012: Ditor OR
14 pages
B4A Tutorials PDF
100% (4)
B4A Tutorials PDF
119 pages
Farley San School Book
No ratings yet
Farley San School Book
71 pages
SAP Analytics Cloud - Blending Information - Example
No ratings yet
SAP Analytics Cloud - Blending Information - Example
8 pages
BIG-IP Systems Upgrading Software PDF
No ratings yet
BIG-IP Systems Upgrading Software PDF
72 pages
New WinRAR ZIP Archive
No ratings yet
New WinRAR ZIP Archive
4 pages
Final Project Report For Inventory Control System For The Calculation and Ordering of Available and Processed Resources
No ratings yet
Final Project Report For Inventory Control System For The Calculation and Ordering of Available and Processed Resources
101 pages
File Oriented Commands in Linux
No ratings yet
File Oriented Commands in Linux
13 pages