0% found this document useful (0 votes)

42 views47 pages

Chapter06 (Frequent Patterns)

Uploaded by

jozef jostar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

42 views47 pages

Chapter06 (Frequent Patterns)

Uploaded by

jozef jostar

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 47

Data Mining:

Concepts and Techniques

(3rd ed.)

— Chapter 6 —

Jiawei Han, Micheline Kamber, and Jian Pei

University of Illinois at Urbana-Champaign &
Simon Fraser University
©2013 Han, Kamber & Pei. All rights reserved.
1
Chapter 6: Mining Frequent Patterns, Association and
Correlations: Basic Concepts and Methods

 Basic Concepts

 Frequent Itemset Mining Methods

 Which Patterns Are Interesting?—Pattern

Evaluation Methods

 Summary

2
What Is Frequent Pattern Analysis?
 Frequent pattern: a pattern (a set of items, subsequences, substructures,
etc.) that occurs frequently in a data set
 First proposed by Agrawal, Imielinski, and Swami [AIS93] in the context
of frequent itemsets and association rule mining
 Motivation: Finding inherent regularities in data
 What products were often purchased together?— Beer and diapers?!
 What are the subsequent purchases after buying a PC?
 What kinds of DNA are sensitive to this new drug?
 Can we automatically classify web documents?
 Applications
 Basket data analysis, cross-marketing, catalog design, sale campaign
analysis, Web log (click stream) analysis, and DNA sequence analysis.
3
8/22/21 Data Mining: Concepts and Techniques 4
Why Is Freq. Pattern Mining Important?
 Freq. pattern: An intrinsic and important property of
datasets
 Foundation for many essential data mining tasks
 Association, correlation, and causality analysis

 Sequential, structural (e.g., sub-graph) patterns

 Pattern analysis in spatiotemporal, multimedia, time-

series, and stream data

 Classification: discriminative, frequent pattern analysis

 Cluster analysis: frequent pattern-based clustering

 Data warehousing: iceberg cube and cube-gradient

 Semantic data compression: fascicles

 Broad applications

5
Basic Concepts: Frequent Patterns

Tid Items bought  itemset: A set of one or more

10 Beer, Nuts, Diaper items
20 Beer, Coffee, Diaper  k-itemset X = {x1, …, xk}
30 Beer, Diaper, Eggs  (absolute) support, or, support
40 Nuts, Eggs, Milk count of X: Frequency or
50 Nuts, Coffee, Diaper, Eggs, Milk occurrence of an itemset X
Customer Customer
 (relative) support, s, is the
buys both buys diaper fraction of transactions that
contains X (i.e., the probability
that a transaction contains X)
 An itemset X is frequent if X’s
support is no less than a minsup
Customer threshold
buys beer

6
Basic Concepts: Association Rules
Tid Items bought  Find all the rules X  Y with
10 Butter, Nuts, Diaper
minimum support and confidence
20 Butter, Coffee, Diaper
30 Butter, Diaper, Eggs
 support, s, probability that a
40 Nuts, Eggs, Milk transaction contains X  Y
50 Nuts, Coffee, Diaper, Eggs, Milk
 confidence, c, conditional
Customer
buys both
Customer probability that a transaction
buys
having X also contains Y
diaper
Let minsup = 50%, minconf = 50%
Freq. Pat.: Butter:3, Nuts:3, Diaper:4,
Eggs:3, {Butter, Diaper}:3
Customer
buys beer  Association rules: (many more!)
 Butter  Diaper (60%, 100%)
 Diaper  Butter (60%, 75%)
7
Interesting association rules

 P(B|A) = P(AUB) / P(A)



8/22/21 Data Mining: Concepts and Techniques 8

Association rule mining
 Given a transaction database and minsup and
minconf thresholds, compute all association rules
that satisfy minsup and minconf requirements
 Steps
 Find all frequent itemsets

 Generate association rules from frequent

itemsets which satisfy minimum confidence

8/22/21 Data Mining: Concepts and Techniques 9

Chapter 5: Mining Frequent Patterns, Association and
Correlations: Basic Concepts and Methods

 Basic Concepts

 Frequent Itemset Mining Methods

 Which Patterns Are Interesting?—Pattern

Evaluation Methods

 Summary

10
Scalable Frequent Itemset Mining Methods

 Apriori: A Candidate Generation-and-Test

Approach

 Improving the Efficiency of Apriori

 FPGrowth: A Frequent Pattern-Growth Approach

 ECLAT: Frequent Pattern Mining with Vertical

Data Format
11
The Downward Closure Property and Scalable
Mining Methods
 The downward closure property of frequent patterns
 Any subset of a frequent itemset must be frequent

 If {beer, diaper, nuts} is frequent, so is {beer,

diaper}
 i.e., every transaction having {beer, diaper, nuts} also

contains {beer, diaper}

 Scalable mining methods: Three major approaches
 Apriori

 Freq. pattern growth

 Vertical data format approach

12
Apriori: A Candidate Generation & Test Approach

 Apriori pruning principle: If there is any itemset which is

infrequent, its superset should not be generated/tested!
 Apriori Method:
 Initially, scan DB once to get frequent 1-itemset
 Generate length (k+1) candidate itemsets from length k
frequent itemsets
 Test the candidates against DB
 Terminate when no frequent or candidate set can be
generated

13
The Apriori Algorithm—An Example
to generate all frequent itemsets
Supmin = 2 Itemset sup
Itemset sup
Database TDB {A} 2
L1 {A} 2
Tid Items C1 {B} 3
{B} 3
10 A, C, D {C} 3
1st scan {C} 3
20 B, C, E {D} 1
{E} 3
30 A, B, C, E {E} 3
40 B, E
C2 Itemset sup C2 Itemset
{A, B} 1
L2 Itemset sup
{A, C} 2 2nd scan {A, B}
{A, C} 2 {A, C}
{A, E} 1
{B, C} 2 {A, E}
{B, C} 2
{B, E} 3
{B, E} 3 {B, C}
{C, E} 2
{C, E} 2 {B, E}
{C, E}

C3 Itemset
3rd scan L3 Itemset sup
C4 = { }. Algorithm
{B, C, E} {B, C, E} 2
terminates
14
What are the association rules for the previous
candidate itemset?
 Steps
 Find all non-empty subsets

 Generate rules and find the confidence for

each rule
 Select all rules that satisfy min.confidence

 These rules are the strong association rules

 Example: For the itemset (B,C,E}
 Subsets: {B,C}, (B,E}, {C,E}, {B}, {C}, {E}
 There will be six rules. For ex: {B,C}=>{E} etc

8/22/21 Data Mining: Concepts and Techniques 15

Cond…

Tid Items
 {B,C}=>{E}
 Conf = 2/2 = 100%
10 A, C, D
 Similarly, find conf for other
20 B, C, E rules
30 A, B, C, E  Select those rules which
40 B, E
satisfy minconf
 Suppose, minconf = 60%.
What are the strong rules
that you can select?

8/22/21 Data Mining: Concepts and Techniques 16

Implementation of Apriori
 How to generate candidates?
 L3={abc, abd, acd, ace, bcd}
 Self-joining: L3*L3
 (First K-2 items should be common)
 abcd from abc and abd
 acde from acd and ace
 Pruning:
 If any subset is infrequent, the itemset will also be infrequent
 acde is removed because ade is not in L3
 C4 = {abcd}

17
Example 6.3

MinSupport = 2

8/22/21 Data Mining: Concepts and Techniques 18

C4 = {} and algorithm terminates. L3 contains all frequent
itemsets
8/22/21 Data Mining: Concepts and Techniques 19
Calculation of candidate 3-itemsets

8/22/21 Data Mining: Concepts and Techniques 20

Rules for Table 6.1

8/22/21 Data Mining: Concepts and Techniques 21

The Apriori Algorithm (Pseudo-Code)
Ck: Candidate itemset of size k
Lk : frequent itemset of size k

L1 = {frequent items};
for (k = 1; Lk !=; k++) do begin
Ck+1 = candidates generated from Lk;
for each transaction t in database do
increment the count of all candidates in Ck+1 that are
contained in t
Lk+1 = candidates in Ck+1 with min_support
end
return k Lk; 22
Scalable Frequent Itemset Mining Methods

 Apriori: A Candidate Generation-and-Test Approach

 Improving the Efficiency of Apriori

 FPGrowth: A Frequent Pattern-Growth Approach

 ECLAT: Frequent Pattern Mining with Vertical Data Format

 Mining Close Frequent Patterns and Maxpatterns

23
Exercise
 Find all frequent itemsets using Apriori algorithm
and generate all association rules (assume
minsup = 20%, minconf=50%)

8/22/21 Data Mining: Concepts and Techniques 24

Further Improvement of the Apriori Method

 Major computational challenges

 Multiple scans of transaction database
 Huge number of candidates
 Tedious workload of support counting for candidates
 Improving Apriori: general ideas
 Reduce passes of transaction database scans
 Shrink number of candidates
 Facilitate support counting of candidates

25
Partition: Scan Database Only Twice
 Any itemset that is potentially frequent in DB must be
frequent in at least one of the partitions of DB
 Scan 1: partition database and find local frequent

patterns
 Scan 2: consolidate global frequent patterns

DB1 + DB2 + + DBk = DB

sup1(i) < σDB1 sup2(i) < σDB2 supk(i) < σDBk sup(i) < σDB
Sampling for Frequent Patterns

 Select a sample of original database, mine frequent

patterns within sample using Apriori
 Scan database again to find missed frequent patterns

27
Bottleneck of Frequent-pattern Mining

 Multiple database scans are costly

 Mining long patterns needs many passes of
scanning and generates lots of candidates
 To find frequent itemset i1i2…i100
 # of scans: 100
 # of Candidates: (1100) + (2100) + … + (110000) = 2100-1
= 1.27*1030 !
 Bottleneck: candidate-generation-and-test
 Can we avoid candidate generation?

8/22/21 Data Mining: Concepts and Techniques 28

Pattern-Growth Approach: Mining Frequent Patterns
Without Candidate Generation
 Bottlenecks of the Apriori approach
 Huge Candidate generation and test
 The FPGrowth Approach
 Avoid explicit candidate generation
 Major philosophy: Grow long patterns from short ones using local
frequent items only

29
Construct FP-tree from a Transaction Database

1. Scan DB once, find frequent 1-itemset (single item

pattern)
2. Sort frequent items in frequency descending order, f-
list
3. Scan DB again, construct FP-tree

F-list = f-c-a-b-m-p
30
Example 6.3

8/22/21 Data Mining: Concepts and Techniques 31

Cond…

8/22/21 Data Mining: Concepts and Techniques 32

8/22/21 Data Mining: Concepts and Techniques 33
8/22/21 Data Mining: Concepts and Techniques 34
8/22/21 Data Mining: Concepts and Techniques 35
8/22/21 Data Mining: Concepts and Techniques 36
Find Patterns Having P From P-conditional Database

 Starting at the frequent item header table in the FP-tree

 Traverse the FP-tree by following the link of each frequent item p
 Accumulate all of transformed prefix paths of item p to form p’s
conditional pattern base

37
From Conditional Pattern-bases to Conditional FP-trees

 For each pattern-base

 Accumulate the count for each item in the base

 Construct the FP-tree for the frequent items of the

pattern base

38
Benefits of the FP-tree Structure

 Completeness
 Preserve complete information for frequent pattern
mining
 Compactness
 Reduce irrelevant info—infrequent items are gone
 No candidate generation, no candidate test
 Compressed database: FP-tree structure
 No repeated scan of entire database

39
Scalable Frequent Itemset Mining Methods

 Apriori: A Candidate Generation-and-Test Approach

 Improving the Efficiency of Apriori

 FPGrowth: A Frequent Pattern-Growth Approach

 ECLAT: Frequent Pattern Mining with Vertical Data Format

 Mining Close Frequent Patterns and Maxpatterns

40
CHARM: Mining by Exploring Vertical
Data Format
 Horizontal date format
 Transaction-id: Itemset format

 Vertical data format

 Item: set of Transaction-id format

 Explained in next slide

8/22/21 Data Mining: Concepts and Techniques 41

CHARM: Mining by Exploring Vertical Data Format
Cond…

8/22/21 Data Mining: Concepts and Techniques 43

Chapter 5: Mining Frequent Patterns, Association and
Correlations: Basic Concepts and Methods

 Basic Concepts

 Frequent Itemset Mining Methods

 Which Patterns Are Interesting?—Pattern

Evaluation Methods

 Summary

44
Interestingness Measure: Correlations (Lift)
 play basketball  eat cereal [40%, 66.7%] is misleading
 The overall % of students eating cereal is 75% > 66.7%.
 play basketball  not eat cereal [20%, 33.3%] is more accurate,
although with lower support and confidence
 Measure of dependent/correlated events: lift

P( A B) Basketball Not basketball Sum (row)

lift  Cereal 2000 1750 3750
P( A) P ( B )
Not cereal 1000 250 1250
2000 / 5000
lift ( B, C )   0.89 Sum(col.) 3000 2000 5000
3000 / 5000 * 3750 / 5000
1000 / 5000
lift ( B, C )   1.33
3000 / 5000 *1250 / 5000
B-basketball
C-cereal
45
Are lift and 2 Good Measures of Correlation?

 “Buy walnuts  buy

milk [1%, 80%]” is
misleading if 85% of
customers buy milk
 Support and confidence
are not good to indicate
correlations
 Over 20 interestingness
measures have been
proposed (see Tan,
Kumar, Sritastava
@KDD’02)
 Which are good ones?

46
Summary

 Basic concepts: association rules, support-

confident framework
 Scalable frequent pattern mining methods
 Apriori (Candidate generation & test)
 Projection-based (FPgrowth, CLOSET+, ...)
 Vertical format approach (ECLAT, CHARM, ...)
 Which patterns are interesting?
 Pattern evaluation methods

Improving Existing Bad Design Into Good Design
No ratings yet
Improving Existing Bad Design Into Good Design
4 pages
SAP SuccessFactors LMS Sample Resume 2
50% (2)
SAP SuccessFactors LMS Sample Resume 2
5 pages
Module 3
No ratings yet
Module 3
98 pages
FP Tree Basics
No ratings yet
FP Tree Basics
67 pages
Chap 6
No ratings yet
Chap 6
77 pages
Mining Frequent Patterns, Association and Correlations
No ratings yet
Mining Frequent Patterns, Association and Correlations
100 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
67 pages
DM-BS-lec6-Mining Frequent Patterns
No ratings yet
DM-BS-lec6-Mining Frequent Patterns
37 pages
Concepts and Techniques: - Chapter 6
No ratings yet
Concepts and Techniques: - Chapter 6
64 pages
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
No ratings yet
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
26 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
93 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
94 pages
Frequent Itemset Mining
No ratings yet
Frequent Itemset Mining
58 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
99 pages
Updated Module 3
No ratings yet
Updated Module 3
31 pages
KDDM-Lecture 3
No ratings yet
KDDM-Lecture 3
21 pages
Frequent Patterns
No ratings yet
Frequent Patterns
80 pages
06 Association Rule Mining
No ratings yet
06 Association Rule Mining
20 pages
Ch5 DataMIning
No ratings yet
Ch5 DataMIning
99 pages
06 Apriori
No ratings yet
06 Apriori
36 pages
Data Mining Session 6 - Main Theme Mining Frequent Patterns, Association, and Correlations Dr. Jean-Claude Franchitti
No ratings yet
Data Mining Session 6 - Main Theme Mining Frequent Patterns, Association, and Correlations Dr. Jean-Claude Franchitti
66 pages
06apriori Edited v3
No ratings yet
06apriori Edited v3
29 pages
06 FPBasic
No ratings yet
06 FPBasic
69 pages
Association Rule
No ratings yet
Association Rule
106 pages
Mining Frequent Patterns
No ratings yet
Mining Frequent Patterns
41 pages
06 FPBasic
No ratings yet
06 FPBasic
65 pages
Week 3
No ratings yet
Week 3
56 pages
Notes 4 DWM Data Mining
No ratings yet
Notes 4 DWM Data Mining
34 pages
Concepts and Techniques: Data Mining
100% (1)
Concepts and Techniques: Data Mining
99 pages
Chap 4-Mining Frequent Patterns, Association-Lecture 6-2
No ratings yet
Chap 4-Mining Frequent Patterns, Association-Lecture 6-2
66 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 6
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 6
82 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
65 pages
Slides 06FPBasic
No ratings yet
Slides 06FPBasic
30 pages
Mining Frequent Patterns and Associations
No ratings yet
Mining Frequent Patterns and Associations
52 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
65 pages
Module 3
No ratings yet
Module 3
136 pages
6asso ST
No ratings yet
6asso ST
77 pages
DWDM - Unit - IV
No ratings yet
DWDM - Unit - IV
67 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 6
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 6
82 pages
DM Unit 2
No ratings yet
DM Unit 2
330 pages
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
No ratings yet
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
30 pages
06 FPBasic
No ratings yet
06 FPBasic
37 pages
Unit2 Apriori FP Growth
No ratings yet
Unit2 Apriori FP Growth
27 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
99 pages
7 - Association Rule Analysis
No ratings yet
7 - Association Rule Analysis
16 pages
Slide 06 Chapter6 Frequent Itemset Mining Methods
No ratings yet
Slide 06 Chapter6 Frequent Itemset Mining Methods
62 pages
DWDWM Unit2
No ratings yet
DWDWM Unit2
59 pages
CS 412 Intro. To Data Mining
No ratings yet
CS 412 Intro. To Data Mining
55 pages
Association Rules
No ratings yet
Association Rules
48 pages
Unit 3
No ratings yet
Unit 3
62 pages
DMDW Chapter 4
No ratings yet
DMDW Chapter 4
28 pages
DM 2
No ratings yet
DM 2
71 pages
Association
No ratings yet
Association
40 pages
Chapter 4
No ratings yet
Chapter 4
32 pages
Unit 2
No ratings yet
Unit 2
65 pages
Frequent Pattern Based Clustering Methods
No ratings yet
Frequent Pattern Based Clustering Methods
23 pages
Frequent Patterns and Association Rule Mining: Outline
No ratings yet
Frequent Patterns and Association Rule Mining: Outline
26 pages
DMDW Chapter 4 (Updated)
No ratings yet
DMDW Chapter 4 (Updated)
28 pages
Apriori
No ratings yet
Apriori
69 pages
M9 Asosiasi
No ratings yet
M9 Asosiasi
58 pages
Probability For Dummies
From Everand
Probability For Dummies
Deborah J. Rumsey
3.5/5 (9)
NumPy Beginner's Guide
From Everand
NumPy Beginner's Guide
Ivan Idris
5/5 (3)
Country Ranking Olevel 2023
No ratings yet
Country Ranking Olevel 2023
279 pages
Myanmar Book Adult e
No ratings yet
Myanmar Book Adult e
45 pages
Ai Project Cycle Complete
No ratings yet
Ai Project Cycle Complete
66 pages
Ssis
No ratings yet
Ssis
45 pages
PubChem Database BioInformatics Notes
No ratings yet
PubChem Database BioInformatics Notes
4 pages
1.5-TR-Vector Space Model Basic Idea
No ratings yet
1.5-TR-Vector Space Model Basic Idea
6 pages
6500 Ion Nvme SSD Product Brief-3223536
No ratings yet
6500 Ion Nvme SSD Product Brief-3223536
4 pages
Technology: Kraft Heinz Finds A New Recipe For Analyzing Its Data
No ratings yet
Technology: Kraft Heinz Finds A New Recipe For Analyzing Its Data
5 pages
DBMS & SQL
100% (1)
DBMS & SQL
109 pages
Case Diagram 2
No ratings yet
Case Diagram 2
2 pages
Dbms Unit - 1
No ratings yet
Dbms Unit - 1
18 pages
OceanStor Dorado V3 Series V300R001 Quick Configuration Guide
No ratings yet
OceanStor Dorado V3 Series V300R001 Quick Configuration Guide
13 pages
HCI Transforming E Learning Platforms Content
No ratings yet
HCI Transforming E Learning Platforms Content
21 pages
AWSCertified MLSlides
No ratings yet
AWSCertified MLSlides
450 pages
Training On Umbraco - Part II
No ratings yet
Training On Umbraco - Part II
19 pages
Microsoft Actualtests AI-100 v2019-10-04 by Sebastian 67q
No ratings yet
Microsoft Actualtests AI-100 v2019-10-04 by Sebastian 67q
61 pages
IT113
No ratings yet
IT113
10 pages
Car Auction Website
No ratings yet
Car Auction Website
8 pages
Constructing Knowledge Graphs and Their Biomedical Applications
No ratings yet
Constructing Knowledge Graphs and Their Biomedical Applications
15 pages
SAP MDG Functional Design Session For Finance
No ratings yet
SAP MDG Functional Design Session For Finance
17 pages
Security Scanning and Vulnerability Tool
No ratings yet
Security Scanning and Vulnerability Tool
14 pages
DS & DBMS Course
No ratings yet
DS & DBMS Course
8 pages
6th Sem Cse Master TT
No ratings yet
6th Sem Cse Master TT
24 pages
RecommendationSystem - R5 - Project7 - Amazon Product - Ipynb
No ratings yet
RecommendationSystem - R5 - Project7 - Amazon Product - Ipynb
112 pages
Knowledge Management System Ebook
No ratings yet
Knowledge Management System Ebook
11 pages
NUJS Online Resources
No ratings yet
NUJS Online Resources
4 pages
Access SQL - Visual Basic 6 (VB6)
No ratings yet
Access SQL - Visual Basic 6 (VB6)
21 pages
GIS A - Introduction - Lecture 1 - Edited14092023
No ratings yet
GIS A - Introduction - Lecture 1 - Edited14092023
32 pages

Chapter06 (Frequent Patterns)

Uploaded by

Chapter06 (Frequent Patterns)

Uploaded by

Data Mining:

Concepts and Techniques

Jiawei Han, Micheline Kamber, and Jian Pei

 Frequent Itemset Mining Methods

 Which Patterns Are Interesting?—Pattern

 Sequential, structural (e.g., sub-graph) patterns

 Pattern analysis in spatiotemporal, multimedia, time-

series, and stream data

 Cluster analysis: frequent pattern-based clustering

 Data warehousing: iceberg cube and cube-gradient

 Semantic data compression: fascicles

Tid Items bought  itemset: A set of one or more

 P(B|A) = P(AUB) / P(A)

8/22/21 Data Mining: Concepts and Techniques 8

 Generate association rules from frequent

itemsets which satisfy minimum confidence

8/22/21 Data Mining: Concepts and Techniques 9

 Frequent Itemset Mining Methods

 Which Patterns Are Interesting?—Pattern

 Apriori: A Candidate Generation-and-Test

 Improving the Efficiency of Apriori

 FPGrowth: A Frequent Pattern-Growth Approach

 ECLAT: Frequent Pattern Mining with Vertical

 If {beer, diaper, nuts} is frequent, so is {beer,

contains {beer, diaper}

 Freq. pattern growth

 Vertical data format approach

 Apriori pruning principle: If there is any itemset which is

 Generate rules and find the confidence for

 These rules are the strong association rules

8/22/21 Data Mining: Concepts and Techniques 15

8/22/21 Data Mining: Concepts and Techniques 16

8/22/21 Data Mining: Concepts and Techniques 18

8/22/21 Data Mining: Concepts and Techniques 20

8/22/21 Data Mining: Concepts and Techniques 21

 Apriori: A Candidate Generation-and-Test Approach

 Improving the Efficiency of Apriori

 FPGrowth: A Frequent Pattern-Growth Approach

 ECLAT: Frequent Pattern Mining with Vertical Data Format

 Mining Close Frequent Patterns and Maxpatterns

8/22/21 Data Mining: Concepts and Techniques 24

 Major computational challenges

DB1 + DB2 + + DBk = DB

 Select a sample of original database, mine frequent

 Multiple database scans are costly

8/22/21 Data Mining: Concepts and Techniques 28

1. Scan DB once, find frequent 1-itemset (single item

8/22/21 Data Mining: Concepts and Techniques 31

8/22/21 Data Mining: Concepts and Techniques 32

 Starting at the frequent item header table in the FP-tree

 For each pattern-base

 Construct the FP-tree for the frequent items of the

 Apriori: A Candidate Generation-and-Test Approach

 Improving the Efficiency of Apriori

 FPGrowth: A Frequent Pattern-Growth Approach

 ECLAT: Frequent Pattern Mining with Vertical Data Format

 Mining Close Frequent Patterns and Maxpatterns

 Vertical data format

 Explained in next slide

8/22/21 Data Mining: Concepts and Techniques 41

8/22/21 Data Mining: Concepts and Techniques 43

 Frequent Itemset Mining Methods

 Which Patterns Are Interesting?—Pattern

P( A B) Basketball Not basketball Sum (row)

 “Buy walnuts  buy

 Basic concepts: association rules, support-

You might also like