0% found this document useful (0 votes)

35 views

Data Mining: Concepts and Techniques: - Chapter 4

This chapter discusses data mining primitives, languages, and system architectures. It defines the key components of a data mining task, including the data to be mined, type of knowledge to be discovered, and interestingness measures. It then presents a Data Mining Query Language (DMQL) that incorporates these primitives to allow flexible user interaction. The chapter also discusses designing graphical user interfaces based on the DMQL and different architectures for coupling data mining systems with database/data warehouse systems.

Uploaded by

jayraj dave

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

35 views

Data Mining: Concepts and Techniques: - Chapter 4

Uploaded by

jayraj dave

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 29

Data Mining:

Concepts and Techniques

Chapter 4

Chapter 4: Data Mining Primitives,

Languages, and System Architectures

Data mining primitives: What defines a data

mining task?

A data mining query language

Design graphical user interfaces based on a

data mining query language

Architecture of data mining systems

Summary
2

Why Data Mining Primitives and

Languages?

Finding all the patterns autonomously in a database?

unrealistic because the patterns could be too many
but uninteresting
Data mining should be an interactive process
User directs what to be mined
Users must be provided with a set of primitives to be
used to communicate with the data mining system
Incorporating these primitives in a data mining query
language
More flexible user interaction
Foundation for design of graphical user interface
Standardization of data mining industry and practice
3

What Defines a Data Mining Task ?

Task-relevant data

Type of knowledge to be mined

Background knowledge

Pattern interestingness measurements

Visualization of discovered patterns

Task-Relevant Data (Minable View)

Database or data warehouse name

Database tables or data warehouse cubes

Condition for data selection

Relevant attributes or dimensions

Data grouping criteria

Types of knowledge to be mined

Characterization

Discrimination

Association

Classification/prediction

Clustering

Outlier analysis

Other data mining tasks

Background Knowledge: Concept

Hierarchies

Schema hierarchy
E.g., street < city < province_or_state <
country
Set-grouping hierarchy
E.g., {20-39} = young, {40-59} =
middle_aged
Operation-derived hierarchy
email address: login-name < department <
university < country
Rule-based hierarchy
low_profit_margin (X) <= price(X, P1) and
cost (X, P2) and (P1 - P2) < $50
7

Measurements of Pattern
Interestingness

Simplicity
e.g., (association) rule length, (decision) tree size
Certainty
e.g., confidence, P(A|B) = n(A and B)/ n (B),
classification reliability or accuracy, certainty factor,
rule strength, rule quality, discriminating weight, etc.
Utility
potential usefulness, e.g., support (association),
noise threshold (description)
Novelty
not previously known, surprising (used to remove
redundant rules, e.g., Canada vs. Vancouver rule
implication support ratio
8

Visualization of Discovered Patterns

Different backgrounds/usages may require different forms

of representation

Concept hierarchy is also important

E.g., rules, tables, crosstabs, pie/bar chart etc.

Discovered knowledge might be more understandable
when represented at high level of abstraction
Interactive drill up/down, pivoting, slicing and dicing
provide different perspective to data

Different kinds of knowledge require different

representation: association, classification, clustering, etc.
9

Chapter 4: Data Mining Primitives,

Languages, and System Architectures

Data mining primitives: What defines a data

mining task?

A data mining query language

Design graphical user interfaces based on a

data mining query language

Architecture of data mining systems

Summary
10

A Data Mining Query Language

(DMQL)

Motivation

A DMQL can provide the ability to support ad-hoc and

interactive data mining
By providing a standardized language like SQL

Hope to achieve a similar effect like that SQL has on relational

database
Foundation for system development and evolution
Facilitate information exchange, technology transfer,
commercialization and wide acceptance

Design

DMQL is designed with the primitives described earlier

Syntax for DMQL

Syntax for specification of

task-relevant data

the kind of knowledge to be mined

concept hierarchy specification

interestingness measure

pattern presentation and visualization

Putting it all together a DMQL query

Syntax for task-relevant data

specification

use database database_name, or use data

warehouse data_warehouse_name

from relation(s)/cube(s) [where condition]

in relevance to att_or_dim_list

order by order_list

group by grouping_list

having condition
13

Specification of task-relevant data

Syntax for specifying the kind of

knowledge to be mined

Characterization
Mine_Knowledge_Specification ::=
mine characteristics [as pattern_name]
analyze measure(s)
Discrimination
Mine_Knowledge_Specification ::=
mine comparison [as pattern_name]
for target_class where target_condition
{versus contrast_class_i where contrast_condition_i}
analyze measure(s)
Association
Mine_Knowledge_Specification ::=
mine associations [as pattern_name]
15

Syntax for specifying the kind of

knowledge to be mined (cont.)
Classification
Mine_Knowledge_Specification ::=
mine classification [as pattern_name]
analyze classifying_attribute_or_dimension
Prediction
Mine_Knowledge_Specification ::=
mine prediction [as pattern_name]
analyze prediction_attribute_or_dimension
{set {attribute_or_dimension_i= value_i}}

Syntax for concept hierarchy

specification

To specify what concept hierarchies to use

use hierarchy <hierarchy> for <attribute_or_dimension>
We use different syntax to define different type of hierarchies
schema hierarchies
define hierarchy time_hierarchy on date as [date,month
quarter,year]
set-grouping hierarchies
define hierarchy age_hierarchy for age on customer as
level1: {young, middle_aged, senior} < level0:
all
level2: {20, ..., 39} < level1: young
level2: {40, ..., 59} < level1: middle_aged
level2: {60, ..., 89} < level1: senior

Syntax for concept hierarchy

specification (Cont.)

operation-derived hierarchies
define hierarchy age_hierarchy for age on customer as
{age_category(1), ..., age_category(5)} :=
cluster(default, age, 5) < all(age)
rule-based hierarchies
define hierarchy profit_margin_hierarchy on item as
level_1: low_profit_margin < level_0: all
if (price - cost)< $50
level_1: medium-profit_margin < level_0: all
if ((price - cost) > $50) and ((price - cost) <=
$250))
level_1: high_profit_margin < level_0: all
if (price - cost) > $250
18

Syntax for interestingness measure

specification

Interestingness measures and thresholds can be

specified by the user with the statement:
with <interest_measure_name> threshold =
threshold_value

Example:
with support threshold = 0.05
with confidence threshold = 0.7

Syntax for pattern presentation and

visualization specification

We have syntax which allows users to specify the display

of discovered patterns in one or more forms
display as <result_form>
To facilitate interactive viewing at different concept
level, the following syntax is defined:
Multilevel_Manipulation ::= roll up on
attribute_or_dimension
| drill down on
attribute_or_dimension
| add attribute_or_dimension
| drop
attribute_or_dimension

Putting it all together: the full

specification of a DMQL query

use database AllElectronics_db

use hierarchy location_hierarchy for B.address
mine characteristics as customerPurchasing
analyze count%
in relevance to C.age, I.type, I.place_made
from customer C, item I, purchases P, items_sold S,
works_at W, branch
where I.item_ID = S.item_ID and S.trans_ID = P.trans_ID
and P.cust_ID = C.cust_ID and P.method_paid =
``AmEx''
and P.empl_ID = W.empl_ID and W.branch_ID =
B.branch_ID and B.address = ``Canada" and I.price
>= 100
with noise threshold = 0.05
display as table
21

Other Data Mining Languages

& Standardization Efforts

Association rule language specifications

MSQL (Imielinski & Virmani99)

MineRule (Meo Psaila and Ceri96)

Query flocks based on Datalog syntax (Tsur et al98)

OLEDB for DM (Microsoft2000)

Based on OLE, OLE DB, OLE DB for OLAP

Integrating DBMS, data warehouse and data mining

CRISP-DM (CRoss-Industry Standard Process for Data Mining)

Providing a platform and process structure for effective data

mining
Emphasizing on deploying data mining technology to solve
business problems
22

Chapter 4: Data Mining Primitives,

Languages, and System Architectures

Data mining primitives: What defines a data

mining task?

A data mining query language

Design graphical user interfaces based on a

data mining query language

Architecture of data mining systems

Summary
23

Designing Graphical User Interfaces

based on a data mining query language

What tasks should be considered in the design GUIs

based on a data mining query language?

Data collection and data mining query composition

Presentation of discovered patterns

Hierarchy specification and manipulation

Manipulation of data mining primitives

Interactive multilevel mining

Other miscellaneous information

Chapter 4: Data Mining Primitives,

Languages, and System Architectures

Data mining primitives: What defines a data

mining task?

A data mining query language

Design graphical user interfaces based on a

data mining query language

Architecture of data mining systems

Summary
25

Data Mining System Architectures

Coupling data mining system with DB/DW system

No couplingflat file processing, not recommended
Loose coupling

Semi-tight couplingenhanced DM performance

Fetching data from DB/DW

Provide efficient implement a few data mining primitives in a
DB/DW system, e.g., sorting, indexing, aggregation, histogram
analysis, multiway join, precomputation of some stat functions

Tight couplingA uniform information processing

environment

DM is smoothly integrated into a DB/DW system, mining query

is optimized based on mining query, indexing, query
processing methods, etc.
26

Chapter 4: Data Mining Primitives,

Languages, and System Architectures

Data mining primitives: What defines a data

mining task?

A data mining query language

Design graphical user interfaces based on a

data mining query language

Architecture of data mining systems

Summary
27

Summary

Five primitives for specification of a data mining task

task-relevant data
kind of knowledge to be mined
background knowledge
interestingness measures
knowledge presentation and visualization techniques
to be used for displaying the discovered patterns
Data mining query languages
DMQL, MS/OLEDB for DM, etc.
Data mining system architecture
No coupling, loose coupling, semi-tight coupling, tight
coupling
28

References

E. Baralis and G. Psaila. Designing templates for mining association rules. Journal of Intelligent
Information Systems, 9:7-32, 1997.
Microsoft Corp., OLEDB for Data Mining, version 1.0, http://www.microsoft.com/data/oledb/dm,
Aug. 2000.
J. Han, Y. Fu, W. Wang, K. Koperski, and O. R. Zaiane, DMQL: A Data Mining Query Language for
Relational Databases, DMKD'96, Montreal, Canada, June 1996.
T. Imielinski and A. Virmani. MSQL: A query language for database mining. Data Mining and
Knowledge Discovery, 3:373-408, 1999.
M. Klemettinen, H. Mannila, P. Ronkainen, H. Toivonen, and A.I. Verkamo. Finding interesting rules
from large sets of discovered association rules. CIKM94, Gaithersburg, Maryland, Nov. 1994.
R. Meo, G. Psaila, and S. Ceri. A new SQL-like operator for mining association rules. VLDB'96, pages
122-133, Bombay, India, Sept. 1996.
A. Silberschatz and A. Tuzhilin. What makes patterns interesting in knowledge discovery systems.
IEEE Trans. on Knowledge and Data Engineering, 8:970-974, Dec. 1996.

S. Sarawagi, S. Thomas, and R. Agrawal. Integrating association rule mining with relational
database systems: Alternatives and implications. SIGMOD'98, Seattle, Washington, June 1998.
D. Tsur, J. D. Ullman, S. Abitboul, C. Clifton, R. Motwani, and S. Nestorov. Query flocks: A
generalization of association-rule mining. SIGMOD'98, Seattle, Washington, June 1998.
29

Jensen Shoes Lyndon Brook's Story
No ratings yet
Jensen Shoes Lyndon Brook's Story
8 pages
4chap4 BM
No ratings yet
4chap4 BM
24 pages
Data Mining: Concepts and Techniques: - Chapter 4
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 4
24 pages
CH 4
No ratings yet
CH 4
30 pages
Data Mining Primitives
No ratings yet
Data Mining Primitives
39 pages
Unit-2 data Mining
No ratings yet
Unit-2 data Mining
23 pages
UNIT-3 Data Mining Primitives, Languages, and System Architectures
No ratings yet
UNIT-3 Data Mining Primitives, Languages, and System Architectures
27 pages
Data Mining Primitives, Languages and System Architecture
No ratings yet
Data Mining Primitives, Languages and System Architecture
26 pages
Data Mining-2-1
No ratings yet
Data Mining-2-1
12 pages
Data Mining Primitives, Languages and System Architecture
No ratings yet
Data Mining Primitives, Languages and System Architecture
64 pages
Data Mining Primitives, Languages and System Architecture
No ratings yet
Data Mining Primitives, Languages and System Architecture
64 pages
Data Mining Query Language
0% (1)
Data Mining Query Language
7 pages
UNIT-3 Data Mining Primitives, Languages, and System Architectures
No ratings yet
UNIT-3 Data Mining Primitives, Languages, and System Architectures
27 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
5 pages
Primitives
100% (1)
Primitives
3 pages
Ch-4 Data Mining Knowledge Representation Premitives
No ratings yet
Ch-4 Data Mining Knowledge Representation Premitives
16 pages
Data Mining Task Primitives and Major Issues
No ratings yet
Data Mining Task Primitives and Major Issues
18 pages
U1 - Data Mining Task Primitives
No ratings yet
U1 - Data Mining Task Primitives
4 pages
Chapter-1 - Introduction To Data Mining
No ratings yet
Chapter-1 - Introduction To Data Mining
10 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
31 pages
Unit - Introduction - : Data Mining: Concepts and Techniques
No ratings yet
Unit - Introduction - : Data Mining: Concepts and Techniques
56 pages
Data Mining
No ratings yet
Data Mining
27 pages
DWDM R13 Unit 1 PDF
No ratings yet
DWDM R13 Unit 1 PDF
10 pages
DM Unit2(Part1)
No ratings yet
DM Unit2(Part1)
19 pages
Assignment 1
No ratings yet
Assignment 1
11 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
91 pages
Unit 1..
No ratings yet
Unit 1..
27 pages
2.1 DM Primitives22
No ratings yet
2.1 DM Primitives22
12 pages
Data Mining Summaries PDF
No ratings yet
Data Mining Summaries PDF
22 pages
01intro (Autosaved)
No ratings yet
01intro (Autosaved)
43 pages
2 unit
No ratings yet
2 unit
15 pages
3-Data Mining Task Primitives-19-12-2024
No ratings yet
3-Data Mining Task Primitives-19-12-2024
8 pages
2-Introduction To Data Mining, Steps in Data Mining Process-31-07-2024
No ratings yet
2-Introduction To Data Mining, Steps in Data Mining Process-31-07-2024
77 pages
Chap 1
No ratings yet
Chap 1
32 pages
Introduction To Data Mining 1604
No ratings yet
Introduction To Data Mining 1604
32 pages
DWDM-LS1-Fall-24-25
No ratings yet
DWDM-LS1-Fall-24-25
42 pages
Data Mining
No ratings yet
Data Mining
26 pages
Data Mining Notes UNIT I
No ratings yet
Data Mining Notes UNIT I
21 pages
intro data mining
No ratings yet
intro data mining
51 pages
Data Mining: Concepts and Techniques (2nd Edition)
No ratings yet
Data Mining: Concepts and Techniques (2nd Edition)
8 pages
silo.tips_chapter-9-data-mining-query-language
No ratings yet
silo.tips_chapter-9-data-mining-query-language
16 pages
Data Mining Technologies and Implementations
No ratings yet
Data Mining Technologies and Implementations
34 pages
01 Intro 1
No ratings yet
01 Intro 1
50 pages
18mca52c U1
No ratings yet
18mca52c U1
17 pages
Data Mining: An Overview From A Database Perspective
No ratings yet
Data Mining: An Overview From A Database Perspective
30 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
19 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Data Mining
No ratings yet
Data Mining
22 pages
Data Minning Problem
No ratings yet
Data Minning Problem
8 pages
Lec 1
No ratings yet
Lec 1
48 pages
Es 2646574663
No ratings yet
Es 2646574663
7 pages
Week1-2
No ratings yet
Week1-2
24 pages
Software
No ratings yet
Software
93 pages
01 Intro
No ratings yet
01 Intro
40 pages
Module1 IntroToDataMining
No ratings yet
Module1 IntroToDataMining
36 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
48 pages
Data Mining Basics
No ratings yet
Data Mining Basics
20 pages
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
From Everand
THE SQL LANGUAGE: Master Database Management and Unlock the Power of Data (2024 Beginner's Guide)
JAMIE POWERS
No ratings yet
Mastering DuckDB: High-Performance Analytics Made Easy
From Everand
Mastering DuckDB: High-Performance Analytics Made Easy
Robert Johnson
No ratings yet
Learn Professional Programming in .Net Using C#, Visual Basic, and Asp.Net
From Everand
Learn Professional Programming in .Net Using C#, Visual Basic, and Asp.Net
Adalat Khan
No ratings yet
Tips/ Points For SOP Drafting: College Specific Questions
No ratings yet
Tips/ Points For SOP Drafting: College Specific Questions
1 page
Edited Sop Deep
No ratings yet
Edited Sop Deep
2 pages
SOP Questionnaire
50% (2)
SOP Questionnaire
1 page
A Testbed For Experimenting Internet of Things Applications
No ratings yet
A Testbed For Experimenting Internet of Things Applications
22 pages
Sample LOR Work
No ratings yet
Sample LOR Work
1 page
AU-IET Presentation - Final - With - Fonts
No ratings yet
AU-IET Presentation - Final - With - Fonts
97 pages
Outline: A Testbed For Experimenting Iotbased Big Data Applications
No ratings yet
Outline: A Testbed For Experimenting Iotbased Big Data Applications
16 pages
Strategies To Handle Big Data For Traffic Management System
No ratings yet
Strategies To Handle Big Data For Traffic Management System
9 pages
Raspberry Pi (MQTT Publisher) : Kafka Produce R Kafka Consum Er
No ratings yet
Raspberry Pi (MQTT Publisher) : Kafka Produce R Kafka Consum Er
2 pages
Visaul Big Data Analytics For Traffic Monitoring in Smart City
No ratings yet
Visaul Big Data Analytics For Traffic Monitoring in Smart City
6 pages
Physical Cyber Social Computing For Human Experience: Amit Sheth Pramod Anantharam
No ratings yet
Physical Cyber Social Computing For Human Experience: Amit Sheth Pramod Anantharam
7 pages
A Survey On Facilities For Experimental Internet of Things Research
No ratings yet
A Survey On Facilities For Experimental Internet of Things Research
14 pages
2 - 2 - Jayraj Dave - Parth Patel - Shreedhar Dalal
No ratings yet
2 - 2 - Jayraj Dave - Parth Patel - Shreedhar Dalal
1 page
Strategies To Handle Big Data For Traffic Management System
No ratings yet
Strategies To Handle Big Data For Traffic Management System
9 pages
2 2 Jayraj Dave Parth Patel Shreedhar Dalal
No ratings yet
2 2 Jayraj Dave Parth Patel Shreedhar Dalal
1 page
1st wk14
No ratings yet
1st wk14
3 pages
Entry Model 2 - @resistanceflip
100% (1)
Entry Model 2 - @resistanceflip
8 pages
Book of Michael
No ratings yet
Book of Michael
34 pages
Class XII: Physics Chapter 3: Current Electricity Top Concepts
No ratings yet
Class XII: Physics Chapter 3: Current Electricity Top Concepts
6 pages
The Dark Side of The Moon - Wikipedia
No ratings yet
The Dark Side of The Moon - Wikipedia
1 page
School of Management Studies-Mrpg College
No ratings yet
School of Management Studies-Mrpg College
3 pages
Filipinofemalegenderroles
No ratings yet
Filipinofemalegenderroles
6 pages
VIRAJ 2024 Pre-Invite
No ratings yet
VIRAJ 2024 Pre-Invite
11 pages
HyBase Acce0907s 1 PDF
No ratings yet
HyBase Acce0907s 1 PDF
23 pages
2022 Sem 1 ACC10007 Practice MCQs - Topic 2
No ratings yet
2022 Sem 1 ACC10007 Practice MCQs - Topic 2
11 pages
Juniper Networks: Polycom VIEW Certified Configuration Guide
No ratings yet
Juniper Networks: Polycom VIEW Certified Configuration Guide
93 pages
Star Paper Corp., Vs Simbol (2006) G.R. 164774
No ratings yet
Star Paper Corp., Vs Simbol (2006) G.R. 164774
2 pages
False Friends
100% (1)
False Friends
2 pages
2024 Spring Concert Program
No ratings yet
2024 Spring Concert Program
6 pages
Complex Archetype Symbol in the Psychology of C G Jung Jolande Jacobi pdf download
100% (1)
Complex Archetype Symbol in the Psychology of C G Jung Jolande Jacobi pdf download
85 pages
Posterior Abdominal Wall
No ratings yet
Posterior Abdominal Wall
125 pages
DPT 2nd Semester Computer Paper
50% (2)
DPT 2nd Semester Computer Paper
3 pages
Roor Gynetix: How To Get Started
No ratings yet
Roor Gynetix: How To Get Started
15 pages
Agile For Everybody
100% (1)
Agile For Everybody
85 pages
Scopus 3
No ratings yet
Scopus 3
5 pages
BDM Using AI - Data Driven Decision Making
No ratings yet
BDM Using AI - Data Driven Decision Making
34 pages
EDU301 General Methods of Teaching (PAST PAPER SOLVED QUESTIONS) (FINAL TERM)
No ratings yet
EDU301 General Methods of Teaching (PAST PAPER SOLVED QUESTIONS) (FINAL TERM)
10 pages
Mystarrynightrubric
No ratings yet
Mystarrynightrubric
1 page
384-Article Text-1254-2-10-20220513
No ratings yet
384-Article Text-1254-2-10-20220513
6 pages
Official Knowledge: Democratic Education in A Conservative Age, 3 Edition
No ratings yet
Official Knowledge: Democratic Education in A Conservative Age, 3 Edition
4 pages
Southeastern and Southern Gaddang
No ratings yet
Southeastern and Southern Gaddang
11 pages
Maternity Benefit Act - Case Laws
No ratings yet
Maternity Benefit Act - Case Laws
39 pages
Grief: Anton Pavlovich Chekov Characters
100% (1)
Grief: Anton Pavlovich Chekov Characters
5 pages
Cirtek Holdings Corp. Equity Research Report
No ratings yet
Cirtek Holdings Corp. Equity Research Report
5 pages
Market Update RGS Partners - Brazil - Mai2017
No ratings yet
Market Update RGS Partners - Brazil - Mai2017
21 pages