0% found this document useful (0 votes)

51 views29 pages

DMDW Chapter 4

The document discusses frequent pattern mining and association rule mining. It defines frequent patterns as patterns that appear frequently in a dataset, like items that frequently occur together. Finding frequent patterns is important for tasks like association analysis. It describes the Apriori algorithm for mining frequent itemsets and generating association rules. Apriori uses a candidate generation-and-test approach with pruning to iteratively find frequent itemsets of increasing size. The algorithm terminates when no further frequent itemsets are found.

Uploaded by

Samuel Gesese

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

51 views29 pages

DMDW Chapter 4

Uploaded by

Samuel Gesese

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 29

FACULTY: COMPUTING & SWE

Introduction to Data Mining

and
Warehousing
Amin T (Asst. Prof). (2022/23)
CHAPTER FOUR
BASIC CONCEPTS AND METHODS OF MINING FREQUENT
PATTERNS, ASSOCIATIONS AND CORRELATIONS

Garbage In Garbage Out

(GIGO)
02/22/2023 2
Basic concept
• Frequent patterns are patterns (such as itemsets or subsequences) that
appear in a data set frequently.
– For example,
– a set of items, such as milk and bread, that appear frequently together in a
transaction dataset is a frequent itemset.
– A subsequence, such as buying first a PC, then a digital camera, and then a
memory card, if it occurs frequently in a shopping history database, is a
(frequent) sequential pattern
• Finding such frequent patterns plays an essential role in mining associations,
correlations, and many other interesting relationships among data.

02/22/2023 3
Frequent Pattern Analysis
• Motivation: Finding inherent regularities in data
– What products were often purchased together?— Beer and diapers?!
– What are the subsequent purchases after buying a PC?
– What kinds of DNA are sensitive to this new drug?
– Can we automatically classify web documents?
• Applications
-Basket data analysis, cross-marketing, catalog design, sale campaign analysis, Web log
(click stream) analysis, and DNA sequence analysis.

02/22/2023 4
Why is Frequent Pattern Mining Important?
• Frequent pattern: An intrinsic (fundamental) and important property of datasets
• Foundation for many essential data mining tasks
Association, correlation, and causality analysis Sequential, structural (e.g., sub-
graph) patterns
Pattern analysis in spatiotemporal, multimedia, time-series, and stream data
Classification: discriminative, frequent pattern analysis
Cluster analysis: frequent pattern-based clustering
Data warehousing: iceberg cube and cube-gradient
Semantic data compression: fascicles
Broad applications

02/22/2023 5
Association Rule Mining
• Frequent itemset mining leads to the discovery of associations and correlations among
items in large transactional or relational data sets.
• Association is used to mine frequent patterns
• Initially used for Market Basket Analysis to analyze customer buying habits by finding
associations between the different items that customers place in their “shopping
baskets”

02/22/2023 6
Association Rule Mining
• The result can be used in
– Making various marketing strategies or advertising strategies
– Shelf arrangement
– design different layouts of shop

02/22/2023 7
Association rule can be used for

02/22/2023 8
Association Rule Mining
• Association Rule:
TID Items
– An implication expression of the form
1. Bread, Milk
X → Y, where X and Y are itemsets 2. Bread, Diaper, Beer, Eggs
– Example: 3. Milk, Diaper, Beer, Coke
{Milk, Diaper} → {Beer} 4. Bread, Milk, Diaper, Beer
5. Bread, Milk, Diaper, Coke
• Rule Evaluation Metrics
– Support(s)
 = support(“AB” probability that a transaction contains A∪B
 s = P(A∪B)
– Confidence (c)
 conditional probability that a transaction having
A also contains B.
 c = confidence(“AB”) = P(B|A)
02/22/2023 9
Basic Concept: Association Rules

Transaction-id Items bought  Let min_support = 50%,

10 A, B, C min_conf = 50%:
20 A, C  A  C (50%, 66.7%)
30 A, D  C  A (50%, 100%)
40 B, E, F

Customer Customer
buys both buys diaper

Customer
buys beer
10
Basic Concepts: Frequent Patterns and Association Rules

• Association rule mining is a two-step process:

– Find all frequent itemsets
– Generate strong association rules from the frequent itemsets
– For every frequent itemset L, find all non-empty subsets of L. For every such subset A, output a
rule of the form “A  (L-A)” if the ratio of support(L) to support(A) is at least minimum
confidence

• The overall performance of mining association rules is determined by the first step
• Given a set of transactions T, the goal of association rule mining is to find all rules having
– support ≥ minsup threshold
– confidence ≥ minconf threshold

11
Mining Association Rules—an Example

Transaction-id Items bought Min. support 50%

10 A, B, C Min. confidence 50%
20 A, C
Frequent pattern Support
30 A, D
{A} 75%
40 B, E, F
{B} 50%
{C} 50%
{A, C} 50%
For rule A C:
support = support({A}{C}) = 50%
confidence = support({A}{C})/support({A}) = 66.6%

12
The Apriori Algorithm
• The name, Apriori, is based on the fact that the algorithm uses prior knowledge of
frequent itemset properties
• Apriori employs an iterative approach known as a level-wise search, where k-
itemsets are used to explore (k+1)-itemsets
– The first pass determines the frequent 1-itemsets denoted L1
– A subsequence pass k consists of two phases
– First, the frequent itemsets Lk-1 are used to generate the candidate itemsets C k
– Next, the database is scanned and the support of candidates in Ck is counted
– The frequent itemsets Lk are determined

13
Apriori Property
• Apriori property: any subset of a large itemset must be large
– If {beer, diaper, nuts} is frequent, so is {beer, diaper}
– Every transaction having {beer, diaper, nuts} also contains {beer, diaper}
• Anti-monotone: if a set cannot pass a test, all of its supersets will fail the same test as
well

14
Apriori: A Candidate Generation-and-test Approach
• Apriori pruning principle: If there is any itemset which is infrequent, its superset should
not be generated/tested!
• Method: join and prune steps
– Generate candidate (k+1)-itemsets Ck+1 from frequent k-itemsets Lk
– If any k-subset of a candidate (k+1)-itemset is not in Lk, then the candidate cannot
be frequent either and so can be removed from Ck
– Test the candidates against DB to obtain Lk+1

15
The Apriori Algorithm—Example
• Let the minimum support be 20%

16
The Apriori Algorithm—Example

The algorithm uses L3 x L3 to generate a candidate set of 4-itemsets, C 4. Although the join results in
{{ I1, I2, I3, I5 }}, this itemset is pruned because its subset {{ I2, I3, I5}} is not frequent. Thus, C4
=Ø, and the algorithm terminates, having found all of the frequent itemsets.
17
The Apriori Algorithm
• Pseudo-code:
Ck: Candidate itemset of size k
Lk : frequent itemset of size k

L1 = {frequent items};
for (k = 1; Lk !=; k++)
Ck+1 = candidates generated from Lk;
for each transaction t in database
increment the count of all candidates in Ck+1 that are
contained in t
end
Lk+1 = candidates in Ck+1 with min_support
end
return k Lk;

18
Important Details of Apriori
• How to generate candidates?
– Step 1: self-joining Lk
– Step 2: pruning

• How to count supports of candidates?

• Example of candidate-generation
– L3={abc, abd, acd, ace, bcd}
– Self-joining: L3*L3
– abcd from abc and abd
– acde from acd and ace
– Pruning:
– acde is removed because ade is not in L3

– C4={abcd}
19
How to Generate Candidates?
• Suppose the items in Lk-1 are listed in an order

• Step 1: self-joining Lk-1

insert into Ck

select p.item1, p.item2, …, p.itemk-1, q.itemk-1

from Lk-1 p, Lk-1 q

where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1

• Step 2: pruning
forall itemsets c in Ck do

forall (k-1)-subsets s of c do

if (s is not in Lk-1) then delete c from Ck

20
Generating Association Rules from Frequent Itemsets
• Once the frequent itemsets from transactions in a database D have been found,
it is straightforward to generate strong association rules from them (where
strong association rules satisfy both minimum support and minimum
confidence).

02/22/2023 21
• The association rules that can be generated from L3= { I1, I2, I5 }:
…
– The nonempty subsets of l are
– The resulting association rules are as shown below, each listed with its confidence:

• If the minimum confidence threshold is, say, 70%, then only the second, third,
and last rules above are the output, because these are the only ones generated
that are strong.

02/22/2023 22
Mining Frequent Itemsets without Candidate Generation

• FP-growth: Mining frequent patterns with FP-tree by pattern fragment growth:

– Input: constructed FP-tree, using DB and a minimum support threshold .
– Output: The complete set of frequent patterns.
– Method: Call FP-growth(FP-tree, null).

23
Algorithm of FP-growth

24
Construct FP-tree from a Transaction Database
 Let the minimum support be 20%
1. Scan DB once, find frequent 1-itemset (single item pattern)
2. Sort frequent items in frequency descending order, f-list
3. Scan DB again, construct FP-tree

Frequent 1-itemset Support Count

I1 6
I2 7
I3 6
I4 2
I5 2
25
Construct FP-tree from a Transaction Database

26
Construct FP-tree from a Transaction Database

27
Additional references
• https://www.youtube.com/watch?v=yCbankIouUU
• http://home.etf.rs/~vm/os/dmsw/FP-Growth%20algorithm.ppt

02/22/2023 28
Thank You

CIS664-Knowledge Discovery and Data Mining
No ratings yet
CIS664-Knowledge Discovery and Data Mining
74 pages
Powerpoint Presentation On Somlething
No ratings yet
Powerpoint Presentation On Somlething
181 pages
BCA Semester VI Data Mining Module 3 (Presentation Kind of N
No ratings yet
BCA Semester VI Data Mining Module 3 (Presentation Kind of N
108 pages
Association Rule Mining
No ratings yet
Association Rule Mining
54 pages
Note 1455181909
No ratings yet
Note 1455181909
30 pages
Association-Analysis
No ratings yet
Association-Analysis
72 pages
CIS664-Knowledge Discovery and Data Mining
No ratings yet
CIS664-Knowledge Discovery and Data Mining
74 pages
Data Mining: Magister Teknologi Informasi Universitas Indonesia
No ratings yet
Data Mining: Magister Teknologi Informasi Universitas Indonesia
72 pages
DM Unit - 2
No ratings yet
DM Unit - 2
14 pages
DMDW Chapter 4
No ratings yet
DMDW Chapter 4
28 pages
3final CH 5 Concept
No ratings yet
3final CH 5 Concept
101 pages
Association Rule Mining Spring 2022
No ratings yet
Association Rule Mining Spring 2022
84 pages
Chap 6
No ratings yet
Chap 6
77 pages
Frequent Pattern Mining Overview: Data Mining Techniques: Frequent Patterns in Sets and Sequences
No ratings yet
Frequent Pattern Mining Overview: Data Mining Techniques: Frequent Patterns in Sets and Sequences
14 pages
4 Association
No ratings yet
4 Association
66 pages
Concepts and Techniques: - Chapter 6
No ratings yet
Concepts and Techniques: - Chapter 6
64 pages
FP Tree Basics
No ratings yet
FP Tree Basics
67 pages
Unit 2
No ratings yet
Unit 2
65 pages
Chapter06 (Frequent Patterns)
No ratings yet
Chapter06 (Frequent Patterns)
47 pages
DWDWM Unit2
No ratings yet
DWDWM Unit2
59 pages
M9 Asosiasi
No ratings yet
M9 Asosiasi
58 pages
Data Mining: Concepts and Techniques: Mining Association Rules in Large Databases
No ratings yet
Data Mining: Concepts and Techniques: Mining Association Rules in Large Databases
81 pages
Week 3
No ratings yet
Week 3
56 pages
06 FPBasic
No ratings yet
06 FPBasic
69 pages
Mining Association Rules in Large Databases
No ratings yet
Mining Association Rules in Large Databases
77 pages
UNIT-5 DWDM (Data Warehousing and Data Mining) Association Analysis
No ratings yet
UNIT-5 DWDM (Data Warehousing and Data Mining) Association Analysis
7 pages
Assoc 1
No ratings yet
Assoc 1
26 pages
Data Mining M2
No ratings yet
Data Mining M2
18 pages
Data Mining Session 6 - Main Theme Mining Frequent Patterns, Association, and Correlations Dr. Jean-Claude Franchitti
No ratings yet
Data Mining Session 6 - Main Theme Mining Frequent Patterns, Association, and Correlations Dr. Jean-Claude Franchitti
66 pages
Frequent Patterns and Association Rule Mining: Outline
No ratings yet
Frequent Patterns and Association Rule Mining: Outline
26 pages
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
No ratings yet
Data Mining - : Dr. Mahmoud Mounir Mahmoud - Mounir@cis - Asu.edu - Eg
26 pages
Data Mining Association Rules
No ratings yet
Data Mining Association Rules
54 pages
P-3 1 5-Association
No ratings yet
P-3 1 5-Association
46 pages
Apriori and FP-Growth Algorithm
No ratings yet
Apriori and FP-Growth Algorithm
48 pages
Unit 5
No ratings yet
Unit 5
40 pages
Association Rule Mining
No ratings yet
Association Rule Mining
72 pages
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Data Mining
No ratings yet
Jalali@mshdiua - Ac.ir Jalali - Mshdiau.ac - Ir: Data Mining
33 pages
DMDW Chapter 4 (Updated)
No ratings yet
DMDW Chapter 4 (Updated)
28 pages
7 - Association Rule Analysis
No ratings yet
7 - Association Rule Analysis
16 pages
DM 2
No ratings yet
DM 2
71 pages
DWDM - Unit - IV
No ratings yet
DWDM - Unit - IV
67 pages
Slides 06FPBasic
No ratings yet
Slides 06FPBasic
30 pages
Mining Frequent Patterns and Associations
No ratings yet
Mining Frequent Patterns and Associations
52 pages
FALLSEM2022-23 SWE2009 ETH VL2022230101117 Reference Material I 25-08-2022 Frequent Pattern Mining
No ratings yet
FALLSEM2022-23 SWE2009 ETH VL2022230101117 Reference Material I 25-08-2022 Frequent Pattern Mining
42 pages
Chap 4-Mining Frequent Patterns, Association-Lecture 6-2
No ratings yet
Chap 4-Mining Frequent Patterns, Association-Lecture 6-2
66 pages
Frequent Pattern Based Clustering Methods
No ratings yet
Frequent Pattern Based Clustering Methods
23 pages
DM - Unit 2
No ratings yet
DM - Unit 2
49 pages
KDDM-Lecture 3
No ratings yet
KDDM-Lecture 3
21 pages
(2025-05-27) - FPM - Lecture 9
No ratings yet
(2025-05-27) - FPM - Lecture 9
35 pages
Associationrule 1
No ratings yet
Associationrule 1
30 pages
DM Lect7
No ratings yet
DM Lect7
26 pages
Unit 3 Data Mining
No ratings yet
Unit 3 Data Mining
15 pages
Chapter 4
No ratings yet
Chapter 4
32 pages
Lecture 2.3.1 2.3.2
No ratings yet
Lecture 2.3.1 2.3.2
23 pages
Updated Module 3
No ratings yet
Updated Module 3
31 pages
Association Rule Mining:: Dm-Unit-2
No ratings yet
Association Rule Mining:: Dm-Unit-2
16 pages
Data Mining Unit-III
No ratings yet
Data Mining Unit-III
24 pages
DBMS Notes
No ratings yet
DBMS Notes
12 pages
Data Mining and Predictive Modeling: Lecture 9: Association Rule Mining, Apriori Algorithm
No ratings yet
Data Mining and Predictive Modeling: Lecture 9: Association Rule Mining, Apriori Algorithm
24 pages
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
No ratings yet
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
30 pages
RAG Chatbot Project Presentation
No ratings yet
RAG Chatbot Project Presentation
30 pages
GBT36092 2018en
No ratings yet
GBT36092 2018en
6 pages
Module - 1 Introduction To Database Management System
No ratings yet
Module - 1 Introduction To Database Management System
32 pages
Automating The Modern Data Warehouse
No ratings yet
Automating The Modern Data Warehouse
66 pages
Spreadsheet and Ms Excel
No ratings yet
Spreadsheet and Ms Excel
23 pages
Unit IV Recommender System
No ratings yet
Unit IV Recommender System
5 pages
Introduction To GIS Web Services Workshop
No ratings yet
Introduction To GIS Web Services Workshop
61 pages
FINAL - FINAL Biratnagar Profile 077
No ratings yet
FINAL - FINAL Biratnagar Profile 077
106 pages
Mootl
No ratings yet
Mootl
26 pages
SADEdited
No ratings yet
SADEdited
43 pages
D365 - User Manual - Employee
No ratings yet
D365 - User Manual - Employee
16 pages
Seminar Report: Haryana Engineering College, Jagadhri
No ratings yet
Seminar Report: Haryana Engineering College, Jagadhri
7 pages
The BIBFRAME Editor and BIBFRAME Database: Library of Congress BIBFRAME Manual
No ratings yet
The BIBFRAME Editor and BIBFRAME Database: Library of Congress BIBFRAME Manual
113 pages
Lab Book Checkpoint 2
No ratings yet
Lab Book Checkpoint 2
14 pages
Is Zc415 (Data Mining BITS-WILP)
No ratings yet
Is Zc415 (Data Mining BITS-WILP)
4 pages
3.05 Software: Gis Cookbook For Lgus
No ratings yet
3.05 Software: Gis Cookbook For Lgus
4 pages
Assignment 4 Srs
No ratings yet
Assignment 4 Srs
10 pages
Mind Map ITE
No ratings yet
Mind Map ITE
1 page
7 Database Recovery
No ratings yet
7 Database Recovery
3 pages
Instructuie: Multi-Task Instruction Tuning For Unified Information Extraction
No ratings yet
Instructuie: Multi-Task Instruction Tuning For Unified Information Extraction
15 pages
Business Intelligence and Analytic Kds051
No ratings yet
Business Intelligence and Analytic Kds051
2 pages
Sample MCQs
No ratings yet
Sample MCQs
4 pages
Unit I - 1.3 - Datasets For Machine Learning at CSJMU - 6 Slides Handouts
No ratings yet
Unit I - 1.3 - Datasets For Machine Learning at CSJMU - 6 Slides Handouts
2 pages
Analisis Data Sekunder Untuk Rumusan Masalah - August 2017
No ratings yet
Analisis Data Sekunder Untuk Rumusan Masalah - August 2017
18 pages
Problem
No ratings yet
Problem
5 pages
Converting To SAP S4HANA Stage 6 - Checking The Table ACDOCA
No ratings yet
Converting To SAP S4HANA Stage 6 - Checking The Table ACDOCA
10 pages
School Management System
No ratings yet
School Management System
7 pages
Column Security
No ratings yet
Column Security
3 pages
0 Front Matter
No ratings yet
0 Front Matter
4 pages
Mastering Python for Finance
From Everand
Mastering Python for Finance
James Ma Weiming
5/5 (1)

DMDW Chapter 4

Uploaded by

DMDW Chapter 4

Uploaded by

FACULTY: COMPUTING & SWE

Introduction to Data Mining

Garbage In Garbage Out

Transaction-id Items bought  Let min_support = 50%,

• Association rule mining is a two-step process:

Transaction-id Items bought Min. support 50%

• How to count supports of candidates?

• Step 1: self-joining Lk-1

select p.item1, p.item2, …, p.itemk-1, q.itemk-1

from Lk-1 p, Lk-1 q

where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 < q.itemk-1

if (s is not in Lk-1) then delete c from Ck

• FP-growth: Mining frequent patterns with FP-tree by pattern fragment growth:

Frequent 1-itemset Support Count

You might also like