0% found this document useful (0 votes)

17 views19 pages

01 - Introduction To Datamining

Uploaded by

ay4159144

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

17 views19 pages

01 - Introduction To Datamining

Uploaded by

ay4159144

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 19

Chapter 1.

Introduction
 Why Data Mining?
 What Is Data Mining?
 A Multi-Dimensional View of Data Mining
 What Kind of Data Can Be Mined?
 What Kinds of Patterns Can Be Mined?
 What Technology Are Used?

1
Why Data Mining?
 The Explosive Growth of Data: from terabytes to petabytes
 Data collection and data availability

Automated data collection tools, database systems,
Web, computerized society
 Major sources of abundant data

Business: Web, e-commerce, transactions, stocks, …

Science: Remote sensing, bioinformatics, scientific
simulation, …

Society and everyone: news, digital cameras, YouTube
 We are drowning in data, but starving for knowledge!
 “Necessity is the mother of invention”—Data mining—
Automated analysis of massive data sets
2
What Is Data Mining?

 Data mining (knowledge discovery from data)

 Extraction of interesting (non-trivial, implicit, previously
unknown and potentially useful) patterns or knowledge
from huge amount of data
 Alternative names
 Knowledge discovery (mining) in databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, information harvesting, business
intelligence, etc.
 Watch out: Is everything “data mining”?
 Simple search and query processing
 (Deductive) expert systems

3
Knowledge Discovery (KDD) Process
 This is a view from typical
database systems and data
Pattern Evaluation
warehousing communities
 Data mining plays an
essential role in the
knowledge discovery process Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
4
Example: A Web Mining
Framework

 Web mining usually involves

 Data cleaning
 Data integration from multiple sources
 Warehousing the data
 Data cube construction
 Data selection for data mining
 Data mining
 Presentation of the mining results
 Patterns and knowledge to be used or stored
into knowledge-base

5
Data Mining in Business Intelligence

Increasing potential
to support
business decisions End User
Decisio
n
Making
Data Presentation Business
Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
6
KDD Process: A Typical View from ML
and Statistics

Input Data Data Pre- Data Post-

Processing Mining Processin
g

Data integration Pattern discovery Pattern evaluation

Normalization Association & Pattern selection
correlation
Feature selection Classification Pattern
Dimension reduction interpretation
Clustering
Outlier analysis Pattern visualization
…………

 This is a view from typical machine learning and statistics

communities
7
Multi-Dimensional View of Data
Mining
 Data to be mined
 Database data (extended-relational, object-oriented,

heterogeneous, legacy), data warehouse, transactional

data, stream
 Knowledge to be mined (or: Data mining functions)
 Association, classification, clustering, trend/deviation, outlier

analysis, etc.
 Descriptive vs. predictive data mining

 Multiple/integrated functions and mining at multiple levels

 Techniques utilized
 Data warehouse (OLAP), machine learning, statistics,

pattern recognition, visualization, etc.

 Applications adapted
 Retail, telecommunication, banking, fraud analysis, bio-data

mining, stock market analysis, text mining, Web mining, etc.

8
Data Mining: On What Kinds of
Data?
 Database-oriented data sets and applications
 Relational database, data warehouse, transactional database
 Advanced data sets and advanced applications
 Data streams and sensor data
 Time-series data, temporal data, sequence data (incl. bio-
sequences)
 Structure data, graphs, social networks and multi-linked data
 Object-relational databases
 Heterogeneous databases and legacy databases
 Spatial data and spatiotemporal data
 Multimedia database
 Text databases
 The World-Wide Web
9
Data Mining Function: (1)
Generalization
 Information integration and data warehouse
construction
 Data cleaning, transformation, integration, and
multidimensional data model
 Data cube technology
 Scalable methods for computing (i.e.,
materializing) multidimensional aggregates
 OLAP (online analytical processing)
 Multidimensional concept description:
Characterization and discrimination
 Generalize, summarize, and contrast data
characteristics, e.g., dry vs. wet region
10
Data Mining Function: (2)
Association and Correlation Analysis
 Frequent patterns (or frequent itemsets)
 What items are frequently purchased together
in your Walmart?
 Association, correlation vs. causality
 A typical association rule

Diaper  Beer [0.5%, 75%] (support,
confidence)
 Are strongly associated items also strongly
correlated?
 How to mine such patterns and rules efficiently in
large datasets?
 How to use such patterns for classification,
11
Data Mining Function: (3)
Classification
 Classification and label prediction
 Construct models (functions) based on some training
examples
 Describe and distinguish classes or concepts for future
prediction

E.g., classify countries based on (climate), or classify
cars based on (gas mileage)
 Predict some unknown class labels
 Typical methods
 Decision trees, naïve Bayesian classification, support
vector machines, neural networks, rule-based
classification, pattern-based classification, logistic
regression, …
 Typical applications:
 Credit card fraud detection, direct marketing, classifying 12
Data Mining Function: (4) Cluster
Analysis
 Unsupervised learning (i.e., Class label is unknown)
 Group data to form new categories (i.e., clusters),
e.g., cluster houses to find distribution patterns
 Principle: Maximizing intra-class similarity &
minimizing interclass similarity
 Many methods and applications

13
Data Mining Function: (5) Outlier
Analysis
 Outlier analysis
 Outlier: A data object that does not comply with the
general behavior of the data
 Noise or exception? ― One person’s garbage could be
another person’s treasure
 Methods: by product of clustering or regression analysis, …
 Useful in fraud detection, rare events analysis

14
Time and Ordering: Sequential
Pattern, Trend and Evolution Analysis
 Sequence, trend and evolution analysis
 Trend, time-series, and deviation analysis: e.g.,

regression and value prediction

 Sequential pattern mining


e.g., first buy digital camera, then buy large
SD memory cards
 Periodicity analysis

 Similarity-based analysis

 Mining data streams

 Ordered, time-varying, potentially infinite, data

streams

15
Evaluation of Knowledge
 Are all mined knowledge interesting?
 One can mine tremendous amount of “patterns” and
knowledge
 Some may fit only certain dimension space (time, location,
…)
 Some may not be representative, may be transient, …
 Evaluation of mined knowledge → directly mine only
interesting knowledge?
 Descriptive vs. predictive
 Coverage
 Typicality vs. novelty
 Accuracy
 Timeliness 16
Data Mining: Confluence of Multiple
Disciplines

Machine Pattern Statistics

Learning Recognition

Applications Data Mining Visualization

Algorithm Database High-Performance

Technology Computing

17
Why Confluence of Multiple
Disciplines?
 Tremendous amount of data
 Algorithms must be highly scalable to handle such as tera-
bytes of data
 High-dimensionality of data
 Micro-array may have tens of thousands of dimensions
 High complexity of data
 Data streams and sensor data
 Time-series data, temporal data, sequence data
 Structure data, graphs, social networks and multi-linked
data
 Heterogeneous databases and legacy databases
 Spatial, spatiotemporal, multimedia, text and Web data
 Software programs, scientific simulations
 New and sophisticated applications
18
Summary
 Data mining: Discovering interesting patterns and knowledge
from massive amount of data
 A natural evolution of database technology, in great demand,
with wide applications
 A KDD process includes data cleaning, data integration, data
selection, transformation, data mining, pattern evaluation,
and knowledge presentation
 Mining can be performed in a variety of data
 Data mining functionalities: characterization, discrimination,
association, classification, clustering, outlier and trend
analysis, etc.

The Trauma of Freud
100% (6)
The Trauma of Freud
318 pages
Data Mining: Concepts and Techniques
100% (2)
Data Mining: Concepts and Techniques
27 pages
Genre-Based Approach
No ratings yet
Genre-Based Approach
19 pages
Major Issues in Data Mining
75% (4)
Major Issues in Data Mining
45 pages
Writing A Literature Review
80% (5)
Writing A Literature Review
12 pages
Learn To Lucid Dream
100% (4)
Learn To Lucid Dream
87 pages
Cip - Guideliness
86% (7)
Cip - Guideliness
80 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
15 Intuition Insights Tina Zion
No ratings yet
15 Intuition Insights Tina Zion
21 pages
The Kawa Model
100% (1)
The Kawa Model
12 pages
Rethinking Supply Chain
No ratings yet
Rethinking Supply Chain
41 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
37 pages
AwakPsy Ebook MaggieAnderson
No ratings yet
AwakPsy Ebook MaggieAnderson
64 pages
Principles of Pragmatics Excerpt - Geoffrey Leech (Banter)
0% (1)
Principles of Pragmatics Excerpt - Geoffrey Leech (Banter)
7 pages
Module 9 Gestalt Psychology
100% (1)
Module 9 Gestalt Psychology
5 pages
21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
01 - Data Mining Introduction
No ratings yet
01 - Data Mining Introduction
21 pages
Chap1 Introduction
No ratings yet
Chap1 Introduction
21 pages
Unit 3.1
No ratings yet
Unit 3.1
23 pages
01 Intro 1
No ratings yet
01 Intro 1
33 pages
01 Intro
No ratings yet
01 Intro
26 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
Chapter 1 DM
No ratings yet
Chapter 1 DM
20 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
20 pages
High School: San Pablo - Santa Elena - Ecuador
No ratings yet
High School: San Pablo - Santa Elena - Ecuador
2 pages
01 Intro
No ratings yet
01 Intro
35 pages
Module1 IntroToDataMining
No ratings yet
Module1 IntroToDataMining
36 pages
01 Intro
No ratings yet
01 Intro
22 pages
DWDM LS1 Fall 24 25
No ratings yet
DWDM LS1 Fall 24 25
42 pages
Module 1
No ratings yet
Module 1
40 pages
01 Intro
No ratings yet
01 Intro
40 pages
Lecture 01 11jan
No ratings yet
Lecture 01 11jan
29 pages
Unit 1
No ratings yet
Unit 1
95 pages
LECTURE 1 Data Mining
No ratings yet
LECTURE 1 Data Mining
41 pages
Combine 056
No ratings yet
Combine 056
57 pages
Intro of Data Mining
No ratings yet
Intro of Data Mining
27 pages
DM Introduction
No ratings yet
DM Introduction
32 pages
Chapter - 1
No ratings yet
Chapter - 1
22 pages
Data Mining 1
No ratings yet
Data Mining 1
39 pages
Introduction
No ratings yet
Introduction
46 pages
01 Intro
No ratings yet
01 Intro
29 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
01 Intro
No ratings yet
01 Intro
40 pages
Introduction
No ratings yet
Introduction
27 pages
Intro Data Mining
No ratings yet
Intro Data Mining
51 pages
DM 1
No ratings yet
DM 1
47 pages
CIS 467 - Topic 1 - Introduction - 2020
No ratings yet
CIS 467 - Topic 1 - Introduction - 2020
79 pages
01 Intro
No ratings yet
01 Intro
40 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Child and Adolescent Development
No ratings yet
Child and Adolescent Development
7 pages
Data Mining
No ratings yet
Data Mining
88 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Unit - I
No ratings yet
Unit - I
22 pages
Writing Rubric
No ratings yet
Writing Rubric
1 page
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Day-2 BE-VIII DMDW (Into. Contd..)
No ratings yet
Day-2 BE-VIII DMDW (Into. Contd..)
23 pages
Data Mining From Scratch
No ratings yet
Data Mining From Scratch
17 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Lecture 1.1.1 1.1.2
No ratings yet
Lecture 1.1.1 1.1.2
32 pages
01 Intro
No ratings yet
01 Intro
41 pages
Slide 03 Chapter1 Introduction
No ratings yet
Slide 03 Chapter1 Introduction
36 pages
Unit 1
No ratings yet
Unit 1
148 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
02-Introduction To Data Mining
No ratings yet
02-Introduction To Data Mining
40 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
25 pages
Course: COMP6140 - Data Mining Effective Period: September 2017
No ratings yet
Course: COMP6140 - Data Mining Effective Period: September 2017
24 pages
Chap 1
No ratings yet
Chap 1
45 pages
01 Intro
No ratings yet
01 Intro
23 pages
Argumentative Essay
100% (3)
Argumentative Essay
4 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
Past Continuous+Past Simple When While
100% (31)
Past Continuous+Past Simple When While
2 pages
ACS LAB MANUAL-CSE & ALLIED - Student
No ratings yet
ACS LAB MANUAL-CSE & ALLIED - Student
139 pages
Data Mining: Concepts and Techniques: Sujata Chakravarty Associate Professor RCMA, Bhubaneswar
No ratings yet
Data Mining: Concepts and Techniques: Sujata Chakravarty Associate Professor RCMA, Bhubaneswar
17 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
Classification Systems Text
No ratings yet
Classification Systems Text
4 pages
Weekly Activity Scheduling Sheet (Hours)
No ratings yet
Weekly Activity Scheduling Sheet (Hours)
3 pages
National STEM School Education Strategy
No ratings yet
National STEM School Education Strategy
12 pages
Undergrad Thesis Template Updated
No ratings yet
Undergrad Thesis Template Updated
18 pages
Ubd Intro To Ela
No ratings yet
Ubd Intro To Ela
11 pages
SG 18 - Principles of Decoding and Explicit Instruction
No ratings yet
SG 18 - Principles of Decoding and Explicit Instruction
42 pages
A Practical Grammar of The Pāli Language
No ratings yet
A Practical Grammar of The Pāli Language
157 pages
Commonly Confused Words Presentation
No ratings yet
Commonly Confused Words Presentation
21 pages
Mental State Examination Intelligence
No ratings yet
Mental State Examination Intelligence
6 pages
Honor Minor Final List 24 26
No ratings yet
Honor Minor Final List 24 26
4 pages
Unit 2: Perception and Motor Actions in ACT-R
No ratings yet
Unit 2: Perception and Motor Actions in ACT-R
20 pages
ST 2
No ratings yet
ST 2
3 pages
Entities in Pega Government Platform
No ratings yet
Entities in Pega Government Platform
2 pages
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet

01 - Introduction To Datamining

Uploaded by

01 - Introduction To Datamining

Uploaded by

Chapter 1.

 Data mining (knowledge discovery from data)

Data Warehouse Selection

 Web mining usually involves

Data Preprocessing/Integration, Data Warehouses

Input Data Data Pre- Data Post-

Data integration Pattern discovery Pattern evaluation

 This is a view from typical machine learning and statistics

heterogeneous, legacy), data warehouse, transactional

 Multiple/integrated functions and mining at multiple levels

pattern recognition, visualization, etc.

mining, stock market analysis, text mining, Web mining, etc.

regression and value prediction

 Mining data streams

Machine Pattern Statistics

Applications Data Mining Visualization

Algorithm Database High-Performance

You might also like