0% found this document useful (0 votes)

131 views4 pages

Unit1 Detailed Notes DWDM MAKAUT

This document provides detailed notes on Data Warehousing and Data Mining, covering definitions, characteristics, architecture, and the differences between OLAP and OLTP. It also discusses the need for data mining, the KDD process, frequent pattern mining, and algorithms such as Apriori and FP-Growth. Additionally, it introduces sequential pattern mining, its primitives, and scalable methods.

Uploaded by

arpisaha.cse.23

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

131 views4 pages

Unit1 Detailed Notes DWDM MAKAUT

Uploaded by

arpisaha.cse.23

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

Unit 1: Data Warehousing and Data Mining (Detailed Notes)

Data Warehousing: Definitions, characteristics, architecture, OLAP vs OLTP.

Definition:

A Data Warehouse is a centralized repository used to store integrated data from multiple sources. It supports

decision-making and business intelligence through historical data analysis.

Characteristics:

- Subject-Oriented: Organized by business subject (e.g., sales).

- Integrated: Combines data from different sources.

- Time-Variant: Stores historical data.

- Non-Volatile: Data is stable and not frequently changed.

Architecture:

1. Data Sources (OLTP systems)

2. ETL (Extract, Transform, Load)

3. Data Warehouse Storage

4. OLAP Servers

5. Front-End Tools

OLAP vs OLTP:

Feature | OLTP | OLAP

------------- | ---------------------------- | -----------------------------

Purpose | Day-to-day operations | Analytical processing

Data Type | Current, operational | Historical, analytical

Queries | Simple, short | Complex, long

Normalization | Highly normalized | De-normalized

Data Mining: Introduction, need, KDD process.

Data Mining is the process of discovering patterns, trends, and knowledge from large datasets.
Unit 1: Data Warehousing and Data Mining (Detailed Notes)

Need:

- Helps in decision making.

- Identifies hidden patterns.

- Useful in business, healthcare, marketing, etc.

KDD (Knowledge Discovery in Database) Process:

1. Data Cleaning

2. Data Integration

3. Data Selection

4. Data Transformation

5. Data Mining

6. Pattern Evaluation

7. Knowledge Presentation

Mining frequent patterns, associations, correlations.

Frequent Pattern Mining:

Discovers recurring relationships among data items.

Association Rule:

If-Then statements that help uncover relationships (e.g., {Milk, Bread} => {Butter})

Support: How often a rule occurs.

Confidence: How often a rule is true.

Lift: How much more often items occur together than expected.

Correlation:

Measures strength and direction of a relationship.

Apriori algorithm, FP-Growth.

Unit 1: Data Warehousing and Data Mining (Detailed Notes)

Apriori Algorithm:

- Uses "Bottom-up" approach.

- Generates candidate itemsets and prunes those below minimum support.

Steps:

1. Scan DB for frequency count.

2. Generate candidate itemsets.

3. Prune infrequent ones.

FP-Growth:

- Uses FP-Tree to avoid candidate generation.

- Compresses database and grows patterns.

Advantages:

- FP-Growth is faster than Apriori for large datasets.

Sequential Pattern Mining: Concept, primitives, scalable methods.

Concept:

Sequential pattern mining identifies frequent subsequences in sequence data (e.g., customer purchasing

behavior over time).

Primitives:

- Sequence: Ordered list of events.

- Itemset: A set of items occurring together.

- Support: Proportion of data sequences containing the pattern.

Methods:

- GSP (Generalized Sequential Pattern)

- SPADE (Sequential Pattern Discovery using Equivalence classes)

- PrefixSpan (Pattern-growth approach)

Unit 1: Data Warehousing and Data Mining (Detailed Notes)

Scalability:

- Pruning infrequent subsequences.

- Using pattern-growth rather than candidate generation.

MultiDimensional Data Model
No ratings yet
MultiDimensional Data Model
22 pages
Training Notes (4.2 Printed Circuit Boards)
75% (4)
Training Notes (4.2 Printed Circuit Boards)
12 pages
Data Warehousing Data Mining Notes
No ratings yet
Data Warehousing Data Mining Notes
2 pages
Luo Vessels Jeffrey Yuen NESA
100% (4)
Luo Vessels Jeffrey Yuen NESA
174 pages
DWM Cheatsheet Sem 5
No ratings yet
DWM Cheatsheet Sem 5
27 pages
DWM NOTES
No ratings yet
DWM NOTES
118 pages
Chapter 3 Topic - 5
No ratings yet
Chapter 3 Topic - 5
13 pages
Chapter 6-Data Warehouse and Datamining
No ratings yet
Chapter 6-Data Warehouse and Datamining
38 pages
Visual Testing: - Asme - Section 5 (NDT) - Section 5 - Article 9 (VT)
100% (3)
Visual Testing: - Asme - Section 5 (NDT) - Section 5 - Article 9 (VT)
29 pages
Unit 2
No ratings yet
Unit 2
144 pages
Data Mining Assignment
No ratings yet
Data Mining Assignment
2 pages
Data Warehousing Mining 20APE0501 Min
No ratings yet
Data Warehousing Mining 20APE0501 Min
87 pages
Introduction To Data Warehousing and Data Mining
No ratings yet
Introduction To Data Warehousing and Data Mining
6 pages
Defining Data Mining and Data Warehouse
No ratings yet
Defining Data Mining and Data Warehouse
10 pages
Data Mining & Business Intelligence
No ratings yet
Data Mining & Business Intelligence
322 pages
Data Mining - Concepts and Techniques
No ratings yet
Data Mining - Concepts and Techniques
13 pages
Unit-5 DM
No ratings yet
Unit-5 DM
18 pages
DWM Notes
No ratings yet
DWM Notes
19 pages
DWDM 2marks
No ratings yet
DWDM 2marks
15 pages
Data Mining 5 Units Notes
No ratings yet
Data Mining 5 Units Notes
85 pages
9 MidReview
No ratings yet
9 MidReview
25 pages
Lecture 1 & 2
No ratings yet
Lecture 1 & 2
14 pages
Data Warehousing - Data Mining CSE - IT (4th Year) Engineering Lecture Notes, Ebook PDF Download
No ratings yet
Data Warehousing - Data Mining CSE - IT (4th Year) Engineering Lecture Notes, Ebook PDF Download
146 pages
Best Chapter 1 DM
No ratings yet
Best Chapter 1 DM
22 pages
Lecture 2.1.1 2.1.2
No ratings yet
Lecture 2.1.1 2.1.2
19 pages
Ai Pass
No ratings yet
Ai Pass
12 pages
Data Warehousing
100% (1)
Data Warehousing
154 pages
Multitier DW Architecture & Implementation
No ratings yet
Multitier DW Architecture & Implementation
63 pages
Data Warehousing and Data Minining Answer Key - Anna University (16M & 2M With Answers)
No ratings yet
Data Warehousing and Data Minining Answer Key - Anna University (16M & 2M With Answers)
139 pages
Planned Maintenance System
No ratings yet
Planned Maintenance System
9 pages
DW&DM Material
No ratings yet
DW&DM Material
107 pages
DWDM Lecture Notes III-II
No ratings yet
DWDM Lecture Notes III-II
86 pages
Data Warehousing
No ratings yet
Data Warehousing
154 pages
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 2
No ratings yet
Data Mining: Concepts and Techniques: - Slides For Textbook - Chapter 2
86 pages
Data Mining Summary
No ratings yet
Data Mining Summary
3 pages
Data Mining - GDi Techno Solutions
No ratings yet
Data Mining - GDi Techno Solutions
145 pages
Data Warehouse and Data Mining Exam Questions
No ratings yet
Data Warehouse and Data Mining Exam Questions
2 pages
Unit 2 - Data Science BCA
No ratings yet
Unit 2 - Data Science BCA
20 pages
Unit-2 Finalized
No ratings yet
Unit-2 Finalized
12 pages
Fuse Box Diagram Toyota Camry (XV50 2012-2017)
No ratings yet
Fuse Box Diagram Toyota Camry (XV50 2012-2017)
10 pages
Adbms Unit5
No ratings yet
Adbms Unit5
10 pages
DWDM
No ratings yet
DWDM
11 pages
Defining Data Mining and Data Warehouse (Adugna Gutema)
No ratings yet
Defining Data Mining and Data Warehouse (Adugna Gutema)
9 pages
Course Outline Data Mining
No ratings yet
Course Outline Data Mining
4 pages
Data Warehousingdata Mining
No ratings yet
Data Warehousingdata Mining
86 pages
Data Warehousing & Mining
No ratings yet
Data Warehousing & Mining
154 pages
21UAD404 - DWDM Syllabus
No ratings yet
21UAD404 - DWDM Syllabus
2 pages
Unit 01 DWDM
No ratings yet
Unit 01 DWDM
105 pages
Part A Aim: Prerequisite: Database Outcome: To Impart Knowledge of Data Warehouse and Data Mining Theory
No ratings yet
Part A Aim: Prerequisite: Database Outcome: To Impart Knowledge of Data Warehouse and Data Mining Theory
4 pages
D-Unit-1 R16
No ratings yet
D-Unit-1 R16
17 pages
Data Mining
No ratings yet
Data Mining
25 pages
Introduction To Data Warehouse
No ratings yet
Introduction To Data Warehouse
17 pages
Data Warehosing and Data Mining
No ratings yet
Data Warehosing and Data Mining
15 pages
Syllabus - CS8075 Data Warehousing and Data Mining L T P C 3 0 0 3
No ratings yet
Syllabus - CS8075 Data Warehousing and Data Mining L T P C 3 0 0 3
1 page
Data Mining
No ratings yet
Data Mining
4 pages
DWDM Syllabus
No ratings yet
DWDM Syllabus
2 pages
CSEP 546 Data Mining: Instructor: Pedro Domingos
No ratings yet
CSEP 546 Data Mining: Instructor: Pedro Domingos
63 pages
CSE 592 Data Mining: Instructor: Pedro Domingos
No ratings yet
CSE 592 Data Mining: Instructor: Pedro Domingos
63 pages
Course Objectives
No ratings yet
Course Objectives
2 pages
Data Warehousing and Data Mining - Handbook
0% (2)
Data Warehousing and Data Mining - Handbook
27 pages
DWDM
No ratings yet
DWDM
2 pages
Model Risk Tiering
100% (2)
Model Risk Tiering
32 pages
978-0!00!758620-2 Primary Science Student Book 4
No ratings yet
978-0!00!758620-2 Primary Science Student Book 4
12 pages
Data Warehousing and Data Mining Syllabus
No ratings yet
Data Warehousing and Data Mining Syllabus
2 pages
Benefits in Planting Trees and Fruit Trees
100% (1)
Benefits in Planting Trees and Fruit Trees
2 pages
Synthesis of Polyurethane Acrylate Oligomer
No ratings yet
Synthesis of Polyurethane Acrylate Oligomer
9 pages
Audio Recording & Mastering Tips
93% (15)
Audio Recording & Mastering Tips
2 pages
04 Samss 035
No ratings yet
04 Samss 035
16 pages
Virtuous A. Adroit
No ratings yet
Virtuous A. Adroit
10 pages
TOEFL Reading Practice
No ratings yet
TOEFL Reading Practice
142 pages
CE 3220 11 Drilling Rock and Earth PDF
No ratings yet
CE 3220 11 Drilling Rock and Earth PDF
67 pages
Drug Calculation Tutorial
100% (2)
Drug Calculation Tutorial
13 pages
Objective:: Power Plant Lab (Me-223L) Experiment No: 6 Title: Demonistration of Steam Engine
No ratings yet
Objective:: Power Plant Lab (Me-223L) Experiment No: 6 Title: Demonistration of Steam Engine
5 pages
Resilience Through Education Equipping Schools and Students To Face Climate Change Challenges in Punjab
No ratings yet
Resilience Through Education Equipping Schools and Students To Face Climate Change Challenges in Punjab
6 pages
Layam Group - Business Presentation
No ratings yet
Layam Group - Business Presentation
28 pages
PIP-LV 3KVA Manual-20210701
No ratings yet
PIP-LV 3KVA Manual-20210701
46 pages
Asm Note
No ratings yet
Asm Note
1 page
Major Project Synopsis Front Page
100% (1)
Major Project Synopsis Front Page
7 pages
Abyip 2024 1
No ratings yet
Abyip 2024 1
11 pages
Cambridge IGCSE: PHYSICS 0625/41
No ratings yet
Cambridge IGCSE: PHYSICS 0625/41
16 pages
Cream and Brown Illustration Social Science Class Education Presentation
No ratings yet
Cream and Brown Illustration Social Science Class Education Presentation
18 pages
A Study On Employees Satisfaction Towards Their Job in Seshsayee Paper and Boards Limited
No ratings yet
A Study On Employees Satisfaction Towards Their Job in Seshsayee Paper and Boards Limited
7 pages
Brochure - Fibra-Cel Disks Questions and Answers
No ratings yet
Brochure - Fibra-Cel Disks Questions and Answers
4 pages
S. G. Balekundri Institute of Technology: Shivabasavanagar, Belagavi-590 010, Karnataka - India
No ratings yet
S. G. Balekundri Institute of Technology: Shivabasavanagar, Belagavi-590 010, Karnataka - India
7 pages
BMC Script Writing
No ratings yet
BMC Script Writing
2 pages
Monday Tuesday Wednesday Thursday Friday: GRADES 1 To 12 Daily Lesson Log
No ratings yet
Monday Tuesday Wednesday Thursday Friday: GRADES 1 To 12 Daily Lesson Log
3 pages
Proyecto Salina Cruz Mediana Tension
No ratings yet
Proyecto Salina Cruz Mediana Tension
1 page
Machine Learning with R
From Everand
Machine Learning with R
Brett Lantz
4/5 (9)
Learn Data Warehousing in 24 Hours
From Everand
Learn Data Warehousing in 24 Hours
Alex Nordeen
No ratings yet
Data Warehousing: Optimizing Data Storage And Retrieval For Business Success
From Everand
Data Warehousing: Optimizing Data Storage And Retrieval For Business Success
Rob Botwright
No ratings yet

Unit1 Detailed Notes DWDM MAKAUT

Uploaded by

Unit1 Detailed Notes DWDM MAKAUT

Uploaded by

Unit 1: Data Warehousing and Data Mining (Detailed Notes)

Data Warehousing: Definitions, characteristics, architecture, OLAP vs OLTP.

decision-making and business intelligence through historical data analysis.

- Subject-Oriented: Organized by business subject (e.g., sales).

- Integrated: Combines data from different sources.

- Time-Variant: Stores historical data.

- Non-Volatile: Data is stable and not frequently changed.

1. Data Sources (OLTP systems)

2. ETL (Extract, Transform, Load)

3. Data Warehouse Storage

Feature | OLTP | OLAP

------------- | ---------------------------- | -----------------------------

Purpose | Day-to-day operations | Analytical processing

Data Type | Current, operational | Historical, analytical

Queries | Simple, short | Complex, long

Normalization | Highly normalized | De-normalized

Data Mining: Introduction, need, KDD process.

- Helps in decision making.

- Identifies hidden patterns.

- Useful in business, healthcare, marketing, etc.

KDD (Knowledge Discovery in Database) Process:

Mining frequent patterns, associations, correlations.

Frequent Pattern Mining:

Discovers recurring relationships among data items.

Support: How often a rule occurs.

Confidence: How often a rule is true.

Measures strength and direction of a relationship.

Apriori algorithm, FP-Growth.

- Uses "Bottom-up" approach.

- Generates candidate itemsets and prunes those below minimum support.

1. Scan DB for frequency count.

2. Generate candidate itemsets.

3. Prune infrequent ones.

- Uses FP-Tree to avoid candidate generation.

- Compresses database and grows patterns.

- FP-Growth is faster than Apriori for large datasets.

Sequential Pattern Mining: Concept, primitives, scalable methods.

behavior over time).

- Sequence: Ordered list of events.

- Itemset: A set of items occurring together.

- Support: Proportion of data sequences containing the pattern.

- GSP (Generalized Sequential Pattern)

- SPADE (Sequential Pattern Discovery using Equivalence classes)

- PrefixSpan (Pattern-growth approach)

- Pruning infrequent subsequences.

- Using pattern-growth rather than candidate generation.

You might also like