0% found this document useful (0 votes)

32 views

01 Intro

The document discusses data mining concepts including what data mining is, the knowledge discovery process, types of patterns that can be mined from data like classifications and associations, and different data mining techniques. It provides examples of how these concepts can be applied.

Uploaded by

neelimagoogly

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views

01 Intro

Uploaded by

neelimagoogly

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 26

Data Mining:

Concepts and Techniques

(3rd ed.)

— Chapter 1 —

Jiawei Han, Micheline Kamber, and Jian Pei

University of Illinois at Urbana-Champaign &
Simon Fraser University
©2011 Han, Kamber & Pei. All rights reserved.
1
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
2
What Is Data Mining?

3
Knowledge Discovery (KDD) Process
 This is a view from typical
database systems and data
Pattern Evaluation & Prentation
warehousing communities
 Data mining plays an essential
role in the knowledge discovery
process Data Mining Pattern

Task-relevant Data

Data Data Selection & Transformation

Warehouse
Data Cleaning

Data Integration

Databases
4
Knowledge discovery as a process
is depicted in Figure 1.4 and consists of an iterative sequence of the following steps:
1.
Data cleaning (to remove noise and inconsistent data)
2.
1
Data integration (where multiple data sources may be combined)
3.
Data selection (where data relevant to the analysis task are retrieved fromthe database)
4.
Data transformation (where data are transformed or consolidated into forms appro
2
priate
for mining by performing summary or aggregation operations, for instance)
5.
Data mining (an essential process where intelligent methods are applied in order to
extract data patterns)
6.
Pattern evaluation (to identify the truly interesting patterns representing knowledge
based on some interestingness measures; Section 1.5)
7.
Knowledge presentation (where visualization and knowledge representation tech
niques
are used to present the mined knowledge to the user)

April 21, 2024 Data Mining: Concepts and Techniques 5

Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
6
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
7
Data Mining: On What Kinds of Data?
 Database-oriented data sets and applications
 Relational database, data warehouse, transactional database
 Advanced data sets and advanced applications
 Data streams and sensor data
 Time-series data, temporal data, sequence data (incl. bio-sequences)
 Structure data, graphs, social networks and multi-linked data
 Object-relational databases
 Heterogeneous databases and legacy databases
 Spatial data and spatiotemporal data
 Multimedia database
 Text databases
 The World-Wide Web

8
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
9
Data Mining Function: (1) Generalization
 Information integration and data warehouse construction
 Data cleaning, transformation, integration, and
multidimensional data model
 Data cube technology
 Scalable methods for computing (i.e., materializing)
multidimensional aggregates
 OLAP (online analytical processing)
 Multidimensional concept description: Characterization
and discrimination
 Generalize, summarize, and contrast data
characteristics, e.g., dry vs. wet region

10
Data Mining Function: (2) Association
and Correlation Analysis
 Frequent patterns (or frequent itemsets)
 What items are frequently purchased together in your
Walmart?
 Association, correlation vs. causality
 A typical association rule
 Diaper  Beer [0.5%, 75%] (support, confidence)
 Are strongly associated items also strongly correlated?
 How to mine such patterns and rules efficiently in large
datasets?
 How to use such patterns for classification, clustering,
and other applications?
11
Data Mining Function: (3) Classification

 Classification and label prediction

 Construct models (functions) based on some training examples
 Describe and distinguish classes or concepts for future prediction
 E.g., classify countries based on (climate), or classify cars
based on (gas mileage)
 Predict some unknown class labels
 Typical methods
 Decision trees, naïve Bayesian classification, support vector
machines, neural networks, rule-based classification, pattern-
based classification, logistic regression, …
 Typical applications:
 Credit card fraud detection, direct marketing, classifying stars,
diseases, web-pages, …

12
Data Mining Function: (4) Cluster Analysis

 Unsupervised learning (i.e., Class label is unknown)

 Group data to form new categories (i.e., clusters), e.g.,
cluster houses to find distribution patterns
 Principle: Maximizing intra-class similarity & minimizing
interclass similarity
 Many methods and applications

13
Data Mining Function: (5) Outlier Analysis
 Outlier analysis
 Outlier: A data object that does not comply with the general
behavior of the data
 Noise or exception? ― One person’s garbage could be another
person’s treasure
 Methods: by product of clustering or regression analysis, …
 Useful in fraud detection, rare events analysis

14
Time and Ordering: Sequential Pattern,
Trend and Evolution Analysis
 Sequence, trend and evolution analysis
 Trend, time-series, and deviation analysis: e.g.,

regression and value prediction

 Sequential pattern mining

 e.g., first buy digital camera, then buy large SD

memory cards
 Periodicity analysis

 Motifs and biological sequence analysis

 Approximate and consecutive motifs

 Similarity-based analysis

 Mining data streams

 Ordered, time-varying, potentially infinite, data streams

15
Structure and Network Analysis
 Graph mining
 Finding frequent subgraphs (e.g., chemical compounds), trees

(XML), substructures (web fragments)

 Information network analysis
 Social networks: actors (objects, nodes) and relationships (edges)

 e.g., author networks in CS, terrorist networks

 Multiple heterogeneous networks

 A person could be multiple information networks: friends,

family, classmates, …
 Links carry a lot of semantic information: Link mining

 Web mining
 Web is a big information network: from PageRank to Google

 Analysis of Web information networks

 Web community discovery, opinion mining, usage mining, …

16
Evaluation of Knowledge
 Are all mined knowledge interesting?
 One can mine tremendous amount of “patterns” and knowledge
 Some may fit only certain dimension space (time, location, …)
 Some may not be representative, may be transient, …
 Evaluation of mined knowledge → directly mine only
interesting knowledge?
 Descriptive vs. predictive
 Coverage
 Typicality vs. novelty
 Accuracy
 Timeliness
 …
17
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
18
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
19
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
20
Major Issues in Data Mining (1)

 Mining Methodology
 Mining various and new kinds of knowledge
 Mining knowledge in multi-dimensional space
 Data mining: An interdisciplinary effort
 Boosting the power of discovery in a networked environment
 Handling noise, uncertainty, and incompleteness of data
 Pattern evaluation and pattern- or constraint-guided mining
 User Interaction
 Interactive mining
 Incorporation of background knowledge
 Presentation and visualization of data mining results

21
Major Issues in Data Mining (2)

 Efficiency and Scalability

 Efficiency and scalability of data mining algorithms
 Parallel, distributed, stream, and incremental mining methods
 Diversity of data types
 Handling complex types of data
 Mining dynamic, networked, and global data repositories
 Data mining and society
 Social impacts of data mining
 Privacy-preserving data mining
 Invisible data mining

22
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
23
Chapter 1. Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?
 What Kind of Applications Are Targeted?
 Major Issues in Data Mining
 A Brief History of Data Mining and Data Mining Society
 Summary
24
Measuring the Central Tendency
 Mean (algebraic measure) (sample vs. population): 1 n
x   xi   x
Note: n is sample size and N is population size. n i 1 N
n
Weighted arithmetic mean:
w x

i i
 Trimmed mean: chopping extreme values x i 1
n
 Median: w i 1
i
 Middle value if odd number of values, or average of the
middle two values otherwise
 Estimated by interpolation (for grouped data):
n / 2  ( freq )l
median  L1  ( ) width
 Mode freq median
 Value that occurs most frequently in the data
 Unimodal, bimodal, trimodal
 Empirical formula:
mean  mode  3  (mean  median)
25
Data Visualization
 Why data visualization?
 Gain insight into an information space by mapping data onto graphical
primitives
 Provide qualitative overview of large data sets
 Search for patterns, trends, structure, irregularities, relationships among
data
 Help find interesting regions and suitable parameters for further
quantitative analysis
 Provide a visual proof of computer representations derived
 Categorization of visualization methods:
 Pixel-oriented visualization techniques
 Geometric projection visualization techniques
 Icon-based visualization techniques
 Hierarchical visualization techniques
 Visualizing complex data and relations
26

Business Research Methods Short
No ratings yet
Business Research Methods Short
9 pages
Physics
100% (14)
Physics
622 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
37 pages
Combine 056
No ratings yet
Combine 056
57 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Day-2 BE-VIII DMDW (Into. Contd..)
No ratings yet
Day-2 BE-VIII DMDW (Into. Contd..)
23 pages
DWDM-LS1-Fall-24-25
No ratings yet
DWDM-LS1-Fall-24-25
42 pages
01 Intro
No ratings yet
01 Intro
35 pages
Module1 IntroToDataMining
No ratings yet
Module1 IntroToDataMining
36 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
01 Intro
No ratings yet
01 Intro
40 pages
01Intro1
No ratings yet
01Intro1
33 pages
intro data mining
No ratings yet
intro data mining
51 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
01Intro (1)
No ratings yet
01Intro (1)
40 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
17 pages
01Intro.pptx
No ratings yet
01Intro.pptx
40 pages
01 Intro
No ratings yet
01 Intro
29 pages
01Intro
No ratings yet
01Intro
41 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
Cse5243 Intro. To Data Mining: Chapter 1. Introduction
No ratings yet
Cse5243 Intro. To Data Mining: Chapter 1. Introduction
56 pages
Chapter - 1
No ratings yet
Chapter - 1
22 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
Module 1
No ratings yet
Module 1
40 pages
01 Intro
No ratings yet
01 Intro
23 pages
VIPDMTheoryChapter1
No ratings yet
VIPDMTheoryChapter1
25 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
data mining 1
No ratings yet
data mining 1
39 pages
1 01intro, 2data (Except2 3), 3preprocessing
No ratings yet
1 01intro, 2data (Except2 3), 3preprocessing
169 pages
Lecture 1. Introduction
No ratings yet
Lecture 1. Introduction
42 pages
LECTURE 1 data mining
No ratings yet
LECTURE 1 data mining
41 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
31 pages
IS414: Data Mining: DR - Waleed M.Ead
No ratings yet
IS414: Data Mining: DR - Waleed M.Ead
36 pages
_01Intro_edited_v1
No ratings yet
_01Intro_edited_v1
42 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
01Intro
No ratings yet
01Intro
28 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
25 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
14 pages
Datamining Chapter 1 Introduction
No ratings yet
Datamining Chapter 1 Introduction
41 pages
DWDM 3rd Edition Text Book Slides
No ratings yet
DWDM 3rd Edition Text Book Slides
938 pages
01 - Introduction To Datamining
No ratings yet
01 - Introduction To Datamining
19 pages
0 Introduction
No ratings yet
0 Introduction
43 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
41 pages
01 Intro
No ratings yet
01 Intro
45 pages
01 - Data Mining Introduction
No ratings yet
01 - Data Mining Introduction
21 pages
Data Mining Chapter 1
No ratings yet
Data Mining Chapter 1
43 pages
DM Introduction
No ratings yet
DM Introduction
32 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
41 pages
Week 01 Chapt01
No ratings yet
Week 01 Chapt01
49 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
01intro (Autosaved)
No ratings yet
01intro (Autosaved)
43 pages
Data Mining: Concepts and Techniques
100% (2)
Data Mining: Concepts and Techniques
27 pages
Unit 1
No ratings yet
Unit 1
95 pages
01 Intro
No ratings yet
01 Intro
22 pages
Data Mining
No ratings yet
Data Mining
26 pages
Intro Data Mining
No ratings yet
Intro Data Mining
30 pages
Data Mining for Beginners: A Programmer’s Guide
From Everand
Data Mining for Beginners: A Programmer’s Guide
Agasti Khatri
No ratings yet
LAB 5 Electric Circuits
No ratings yet
LAB 5 Electric Circuits
12 pages
Uace Mathematics Paper 2 2011 and Marking Guide
No ratings yet
Uace Mathematics Paper 2 2011 and Marking Guide
12 pages
Physics Assignment
No ratings yet
Physics Assignment
20 pages
Use Case Diagram Tutorial (Guide With Examples)
No ratings yet
Use Case Diagram Tutorial (Guide With Examples)
8 pages
Tribology
No ratings yet
Tribology
28 pages
Us2985995 PDF
No ratings yet
Us2985995 PDF
25 pages
Journal of Food Engineering: Si Zhu, Bing Li, Guibing Chen
No ratings yet
Journal of Food Engineering: Si Zhu, Bing Li, Guibing Chen
10 pages
Aci 544.2R-89 (2009)
No ratings yet
Aci 544.2R-89 (2009)
11 pages
Mature 2 Math 111221
No ratings yet
Mature 2 Math 111221
7 pages
M Sipko PDF
No ratings yet
M Sipko PDF
64 pages
Fluent Combustion 15.0 L02-Non-Premixed
No ratings yet
Fluent Combustion 15.0 L02-Non-Premixed
30 pages
Relationship Between Load
No ratings yet
Relationship Between Load
46 pages
4-Relation Algebra Extended
No ratings yet
4-Relation Algebra Extended
21 pages
CE8394 Fluid Mechanics and Machinery (FMM) With QB - 12 by EasyEngineering - Net 6 PDF
No ratings yet
CE8394 Fluid Mechanics and Machinery (FMM) With QB - 12 by EasyEngineering - Net 6 PDF
91 pages
Operation Research PDF
No ratings yet
Operation Research PDF
2 pages
Software Engineering
No ratings yet
Software Engineering
4 pages
Solution Manual
No ratings yet
Solution Manual
3 pages
Case Study: Titan Insurance Company: Practice Assignment
No ratings yet
Case Study: Titan Insurance Company: Practice Assignment
4 pages
Exponential Distribution PDF
No ratings yet
Exponential Distribution PDF
2 pages
Week 2 (Final) - Theory - Conversion and Multiple Reactors1
No ratings yet
Week 2 (Final) - Theory - Conversion and Multiple Reactors1
29 pages
Chapter 2 - METHODOLOGY OF ECONOMETRIC RESEARCH
No ratings yet
Chapter 2 - METHODOLOGY OF ECONOMETRIC RESEARCH
7 pages
2025-26_Incoming Sr.JEE Apex_Teaching & Test Schedule_MATHEMATICS @28-02-2025 (1)
No ratings yet
2025-26_Incoming Sr.JEE Apex_Teaching & Test Schedule_MATHEMATICS @28-02-2025 (1)
6 pages
Basic of Electrical Engineering: B.Tech Year Notes
No ratings yet
Basic of Electrical Engineering: B.Tech Year Notes
84 pages
SBI Clerk Reasoning Previous Year Questions
No ratings yet
SBI Clerk Reasoning Previous Year Questions
35 pages
Probability Cheat Sheet
No ratings yet
Probability Cheat Sheet
8 pages
Attitudes Towards Accounting: Differences Between Australian and International Students
No ratings yet
Attitudes Towards Accounting: Differences Between Australian and International Students
18 pages
SPM Chemistry Answering Technique PDF
50% (2)
SPM Chemistry Answering Technique PDF
12 pages
HX1
No ratings yet
HX1
124 pages

01 Intro

Uploaded by

01 Intro

Uploaded by

Data Mining:

Concepts and Techniques

Jiawei Han, Micheline Kamber, and Jian Pei

Data Data Selection & Transformation

April 21, 2024 Data Mining: Concepts and Techniques 5

 Classification and label prediction

 Unsupervised learning (i.e., Class label is unknown)

regression and value prediction

 e.g., first buy digital camera, then buy large SD

 Motifs and biological sequence analysis

 Approximate and consecutive motifs

 Mining data streams

(XML), substructures (web fragments)

 e.g., author networks in CS, terrorist networks

 Multiple heterogeneous networks

 A person could be multiple information networks: friends,

 Analysis of Web information networks

 Web community discovery, opinion mining, usage mining, …

 Efficiency and Scalability

You might also like