0% found this document useful (0 votes)

129 views40 pages

Lecture 2 Data Mining Functions

Uploaded by

ruba

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

129 views40 pages

Lecture 2 Data Mining Functions

Uploaded by

ruba

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 40

*Slides edited from Han and Kamber’s online lecture

Data Mining (DM)

Lecture 2: Data Mining and

its Applications

Ms Ansif Arooj, University of Education, S & T, Township Campus Lahore

Why Data Mining?
 The Explosive Growth of Data: from terabytes to petabytes
Data collection and data availability
Automated data collection tools, database systems,
Web, computerized society
Major sources of abundant data
Business: Web, e-commerce, transactions, stocks, …
Science: Remote sensing, bioinformatics, scientific
simulation, …
Society and everyone: news, digital cameras, YouTube
 We are drowning in data, but starving for knowledge!
 “Necessity is the mother of invention”—Data mining—
Automated analysis of massive data sets
2
What Is Data Mining?

 Data mining (knowledge discovery from data)

Extraction of interesting (non-trivial, implicit, previously
unknown and potentially useful) patterns or knowledge from
huge amount of data
Data mining: a misnomer?
 Alternative names
Knowledge discovery (mining) in databases (KDD),
knowledge extraction, data/pattern analysis, data
archeology, data dredging, information harvesting, business
intelligence, etc.

3
Knowledge Discovery (KDD) Process
 This is a view from typical database
systems and data warehousing
Pattern Evaluation
communities
 Data mining plays an essential role in
the knowledge discovery process
Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

4 Databases
Cubic view of Data
Aggregation Hierarchies

6 © Prentice Hall
Data Warehousing
“Subject-oriented, integrated, time-variant, nonvolatile”
William Inmon
 Operational Data: Data used in day to day needs of
company.
 Informational Data: Supports other functions such as
planning and forecasting.
 Data mining tools often access data warehouses rather than
operational data.

DM: May access data in warehouse.

7 © Prentice Hall
Operational vs. Informational

Operational Data Data Warehouse
Application OLTP OLAP
Use Precise Queries Ad Hoc
Temporal Snapshot Historical
Modification Dynamic Static
Orientation Application Business
Data Operational Values Integrated
Size Gigabits Terabits
Level Detailed Summarized
Access Often Less Often
Response Few Seconds Minutes
Data Schema Relational Star/Snowflake

8 © Prentice Hall
OLAP
 Online Analytic Processing (OLAP): provides more complex
queries than OLTP.
 OnLine Transaction Processing (OLTP): traditional
database/transaction processing.
 Dimensional data; cube view
 Visualization of operations:
 Slice: examine sub-cube.
 Dice: rotate cube to look at another dimension.
 Roll Up/Drill Down

DM: May use OLAP queries.

9 © Prentice Hall
OLAP Operations

Roll Up

Drill Down

Single Cell Multiple Cells Slice Dice

10 © Prentice Hall
Data Mining in Business Intelligence

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
11
KDD Process: A Typical View from ML and Statistics

Input Data Data Pre- Data Post-

Processing Mining Processing

Data integration Pattern discovery Pattern evaluation

Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………

 This is a view from typical machine learning and statistics communities

12
Multi-Dimensional View of Data Mining
 Data to be mined
 Database data (extended-relational, object-oriented, heterogeneous,
legacy), data warehouse, transactional data, stream, spatiotemporal,
time-series, sequence, text and web, multi-media, graphs & social and
information networks
 Knowledge to be mined (or: Data mining functions)
 Characterization, discrimination, association, classification, clustering,
trend/deviation, outlier analysis, etc.
 Descriptive (mining tasks characterize properties of the data in a
target data set.) vs. predictive data mining (mining tasks perform
induction on the current data in order to make predictions).
 Multiple/integrated functions and mining at multiple levels
 Techniques utilized
 Data-intensive, data warehouse (OLAP), machine learning, statistics,
pattern recognition, visualization, high-performance, etc.
13
FUNCTION OF DATA MINING

14
Application of Data Mining
Spatial Data Analysis
Information Retrieval
Pattern Recognition
Image Analysis
Signal Processing
Computer Graphics
Web Technology
Business
Bioinformatics
Data Mining Function: (1) Generalization

 Information integration and data warehouse construction

Data cleaning, transformation, integration, and
multidimensional data model
 Data cube technology
Scalable methods for computing (i.e., materializing)
multidimensional aggregates
OLAP (online analytical processing)
 Multidimensional concept description:
 Characterization and discrimination
Generalize, summarize,
and contrast data characteristics
17
Data Mining Function: (2) Association and
Correlation Analysis
 Frequent patterns (or frequent item sets)
 What items are frequently purchased together in your shopping
mall?
 Association, correlation vs. causality
A typical association rule
 Butter, Bread  Milk [20%, 100%] [support, confidence)
 RentType(X, "game") AND Age(X, "13-19") -> Buys(X, "pop")
[s=2% ,c=55%]
 Are strongly associated items also strongly correlated?
 How to mine such patterns and rules efficiently in large datasets?
 How to use such patterns for classification, clustering, and other
applications?
18
Support(x->y)=P(XUY)
Confidence(x->y)=XUY/X
Example: Butter, Bread  Milk
Small Data Mining Example
X  Y
 Butter, Bread  Milk
 [20%, 100%] (support, confidence)
Support
the proportion of transactions in the data set which
contain the itemset.
1/5
Confidence

1/1
CLASS ACTIVITY
Rule 1) Coke, burger Diapers
Rule 2) Coke, burger, Potatoes  bread
Rule 3) Coke, burger, potatoes onion, bread
Rule 4) burger, potatoes, onion coke

Transaction Coke Burger Potatoes Onion Diapers Bread

ID
1 1 1 1 1
2 1 1 1
3 1 1 1 1
4 1 1 1 1 1
5 1
6 1 1 1
7 1 1 1 1
8 1 1 1 1 1
9 1 1
10 1 1 1 1 1 1
Take home activity
Data Mining Function: (3) Classification
 Classification and label prediction
Construct models (functions) based on some training examples
Also named as supervised classification
Describe and distinguish classes or concepts for future prediction
E.g., classify countries based on (climate), or classify cars
based on (gas mileage)
 Typical methods
Decision trees, naïve Bayesian classification, support vector
machines, neural networks, rule-based classification, pattern-
based classification, logistic regression, …
 Typical applications:
Credit card fraud detection, direct marketing, classifying stars,
diseases, web-pages, …
24
Classification
Data Mining Function: (4) Cluster Analysis

 Unsupervised learning (i.e., Class label is unknown)

 Group data to form new categories (i.e., clusters), e.g.,
cluster houses to find distribution patterns
 Principle: Maximizing intra-class similarity & minimizing
interclass similarity
 Many methods and applications

27
Clustering
Data Mining Function: (5) Outlier Analysis
 Outlier analysis
Outlier: A data object that does not comply with the
general behavior of the data
Noise or exception? ― One person’s garbage could be
another person’s treasure
Methods: by product of clustering or regression analysis,
…
Useful in fraud detection, rare events analysis

29
Data Mining Function: (6) Prediction
The major idea is to use a large number of past
values to consider probable future values.
Forecasting and predicting the unavailable data
values or a class label for some data.
Evaluation of Knowledge
 Are all mined knowledge interesting?
One can mine tremendous amount of “patterns”
Some may fit only certain dimension space (time,
location, …)
Some may not be representative, may be transient, …
 Evaluation of mined knowledge → directly mine only
interesting knowledge?
Descriptive vs. predictive
Coverage
Typicality vs. novelty
Accuracy
Timeliness
…
31
Data Mining: Confluence of Multiple Disciplines

Machine Pattern Statistics

Learning Recognition

Applications Data Mining Visualization

Algorithm Database High-Performance

Technology Computing

32
Summary

 Data mining: Discovering interesting patterns and knowledge from massive

amount of data
 A natural evolution of science and information technology, in great demand,
with wide applications
 A KDD process includes data cleaning, data integration, data selection,
transformation, data mining, pattern evaluation, and knowledge presentation
 Mining can be performed in a variety of data

 Data mining functionalities: characterization, discrimination, association,

classification, clustering, trend and outlier analysis, etc.
 Data mining technologies and applications

 Major issues in data mining

33
Class Activity
Discuss whether or not each of the following activities is a
data mining task.

A) Dividing the customers of a company according to

their gender.
No. This is a simple database query.
B) Dividing the customers of a company according to
their profitability.
No. This is an accounting calculation, followed by the
application of a threshold. However, predicting the
profitability of a new customer would be data mining.
Data Mining yes/no?
(c) Computing the total sales of a company.
No. Again, this is simple accounting.
(d) Sorting a student database based on student identification
numbers.
No. Again, this is a simple database query.
(e) Predicting the outcomes of tossing a (fair) pair of dice.
No. Since the die is fair, this is a probability calculation. If the die
were not fair, and we needed to estimate the probabilities of each
outcome from the data, then this is more like the problems
considered by data mining. However, in this specific case, solutions
to this problem were developed by mathematicians a long time ago,
and thus, we wouldn’t consider it to be data mining.
Data Mining yes/no?
(f)Predicting the future stock price of a company using
historical records.
Yes. We would attempt to create a model that can
predict the continuous value of the stock price. This is
an example of the area of data mining known as
predictive modelling. We could use regression for this
modelling, although researchers in many fields have
developed a wide variety of techniques for predicting
time series.
Data Mining yes/no?
(g) Monitoring the heart rate of a patient for
abnormalities.
Yes. We would build a model of the normal behavior
of heart rate and raise an alarm when an unusual heart
behavior occurred. This would involve the area of data
mining known as anomaly detection. This could also
be considered as a classification problem if we had
examples of both normal and abnormal heart behavior.
Data Mining yes/no?
(h) Monitoring seismic waves for earthquake
activities.
Yes. In this case, we would build a model of different
types of seismic wave behavior associated with
earthquake activities and raise an alarm when one of
these different types of seismic activity was observed.
This is an example of the area of data mining known as
classification.

Extracting the frequencies of a sound wave.

No. This is signal processing.
Data Mining and Data Privacy
For each of the following data sets, explain whether or not data
privacy is an important issue.
(a) Census data collected from 1900–1950.
No
(b) IP addresses and visit times of Web users who visit your Website.
Yes
(c) Images from Earth-orbiting satellites.
No
(d) Names and addresses of people from the telephone book.
No
(e) Names and email addresses collected from the Web.
No
Recommended Reference Books

 E. Alpaydin. Introduction to Machine Learning, 2nd ed., MIT Press, 2011

 S. Chakrabarti. Mining the Web: Statistical Analysis of Hypertex and Semi-Structured Data. Morgan Kaufmann, 2002
 R. O. Duda, P. E. Hart, and D. G. Stork, Pattern Classification, 2ed., Wiley-Interscience, 2000
 T. Dasu and T. Johnson. Exploratory Data Mining and Data Cleaning. John Wiley & Sons, 2003
 U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining.
AAAI/MIT Press, 1996
 U. Fayyad, G. Grinstein, and A. Wierse, Information Visualization in Data Mining and Knowledge Discovery, Morgan
Kaufmann, 2001
 J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques. Morgan Kaufmann, 3 rd ed. , 2011
 T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, 2 nd
ed., Springer, 2009
 B. Liu, Web Data Mining, Springer 2006
 T. M. Mitchell, Machine Learning, McGraw Hill, 1997
 Y. Sun and J. Han, Mining Heterogeneous Information Networks, Morgan & Claypool, 2012
 P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
 S. M. Weiss and N. Indurkhya, Predictive Data Mining, Morgan Kaufmann, 1998
 I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations,
40 Morgan Kaufmann, 2 nd ed. 2005

A Comparison of Machine Learning Algorithms For Customer Churn Prediction
No ratings yet
A Comparison of Machine Learning Algorithms For Customer Churn Prediction
6 pages
Nptel Swayam DWDM Slides
No ratings yet
Nptel Swayam DWDM Slides
406 pages
TT - Stage 8 End of Unit 5 Test - 22.11.22
100% (8)
TT - Stage 8 End of Unit 5 Test - 22.11.22
8 pages
Module - 4 K Means Clustering
No ratings yet
Module - 4 K Means Clustering
20 pages
DataMiningForTheMasses (001 158)
No ratings yet
DataMiningForTheMasses (001 158)
158 pages
4-Confluence of Multiple Disciplines, Classifictaion, Integration-08-Feb-2021Material - I - 08-Feb-2021 - Mod1 - Confluence - Classifictaion
0% (1)
4-Confluence of Multiple Disciplines, Classifictaion, Integration-08-Feb-2021Material - I - 08-Feb-2021 - Mod1 - Confluence - Classifictaion
4 pages
Data Mining Unit 1
No ratings yet
Data Mining Unit 1
91 pages
Research Paper
No ratings yet
Research Paper
7 pages
Business Intelligence: Coursework 2 M00678748
No ratings yet
Business Intelligence: Coursework 2 M00678748
19 pages
CS3304 9 LanguageSyntax 2 PDF
No ratings yet
CS3304 9 LanguageSyntax 2 PDF
39 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Data Mining at UVA: New Horizons in Teaching and Learning Conference
No ratings yet
Data Mining at UVA: New Horizons in Teaching and Learning Conference
19 pages
A Survey On Data Mining
No ratings yet
A Survey On Data Mining
4 pages
Lecture 3 Data Mining
No ratings yet
Lecture 3 Data Mining
30 pages
DWDM R13 Unit 1 PDF
No ratings yet
DWDM R13 Unit 1 PDF
10 pages
Data Mining Approach For Cyber Security
No ratings yet
Data Mining Approach For Cyber Security
7 pages
Applications of Data Mining in The Banking Sector
No ratings yet
Applications of Data Mining in The Banking Sector
8 pages
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
No ratings yet
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
30 pages
Introduction To Big Data & Basic Data Analysis
No ratings yet
Introduction To Big Data & Basic Data Analysis
47 pages
4 Data Mining & Preprocessing L 11,12,13,14,15,16
No ratings yet
4 Data Mining & Preprocessing L 11,12,13,14,15,16
100 pages
CH 6
No ratings yet
CH 6
72 pages
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
No ratings yet
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
24 pages
Topic 1 Etw3482
100% (2)
Topic 1 Etw3482
69 pages
Outline: Problem Statement Definitions & Examples Strategies
No ratings yet
Outline: Problem Statement Definitions & Examples Strategies
7 pages
Lecture 5 Introduction To Data Mining Business Intelligence
No ratings yet
Lecture 5 Introduction To Data Mining Business Intelligence
50 pages
Data Mining Techniques and Applications
No ratings yet
Data Mining Techniques and Applications
9 pages
Data Mining
No ratings yet
Data Mining
27 pages
Data Mining: Concepts and Techniques: - Chapter 6
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 6
172 pages
Data Scales and Representation: Prof. Asim Tewari IIT Bombay
No ratings yet
Data Scales and Representation: Prof. Asim Tewari IIT Bombay
27 pages
Data Mining ppt-1
No ratings yet
Data Mining ppt-1
16 pages
Data Mining Implementation
No ratings yet
Data Mining Implementation
9 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
101 pages
Business Analytics (A Case-Study Approach Using LDA Topic Modeling)
No ratings yet
Business Analytics (A Case-Study Approach Using LDA Topic Modeling)
6 pages
Data Mining
No ratings yet
Data Mining
19 pages
DataMining Lecture 1
No ratings yet
DataMining Lecture 1
35 pages
WEEK 4-CRISP-DM Framework
No ratings yet
WEEK 4-CRISP-DM Framework
9 pages
Data Mining: Business Intelligence
No ratings yet
Data Mining: Business Intelligence
68 pages
Unit 4 Data Science
No ratings yet
Unit 4 Data Science
21 pages
Data Mining Concept Description: Characterization and Comparison
No ratings yet
Data Mining Concept Description: Characterization and Comparison
14 pages
Web Mining
No ratings yet
Web Mining
53 pages
DataMining S
No ratings yet
DataMining S
103 pages
2nd Unit - 2.2 - Data Analytics
No ratings yet
2nd Unit - 2.2 - Data Analytics
22 pages
Data Warehousing and Data Mining - Handbook
0% (2)
Data Warehousing and Data Mining - Handbook
27 pages
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
No ratings yet
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
46 pages
Chap8 Basic Cluster Analysis
100% (1)
Chap8 Basic Cluster Analysis
104 pages
BDM Unit I Slides Part 1
No ratings yet
BDM Unit I Slides Part 1
27 pages
1-Big Data Analytics
No ratings yet
1-Big Data Analytics
37 pages
Assignment 1&2
No ratings yet
Assignment 1&2
4 pages
Data Mining Applications and Techniques
No ratings yet
Data Mining Applications and Techniques
52 pages
What Is A DSS?: Decision Support Systems Concepts, Methodologies, and Technologies: An Overview
No ratings yet
What Is A DSS?: Decision Support Systems Concepts, Methodologies, and Technologies: An Overview
9 pages
Frequent Patterns
No ratings yet
Frequent Patterns
80 pages
Knowledge Management UNIT-3 Notes
No ratings yet
Knowledge Management UNIT-3 Notes
17 pages
DSV Module-3
No ratings yet
DSV Module-3
24 pages
Unit 3
No ratings yet
Unit 3
36 pages
(Excerpts From) Investigating Performance: Design and Outcomes With Xapi
From Everand
(Excerpts From) Investigating Performance: Design and Outcomes With Xapi
Janet Laane Effron
No ratings yet
Optimizing Hadoop for MapReduce
From Everand
Optimizing Hadoop for MapReduce
Khaled Tannir
No ratings yet
Decision Support System: Fundamentals and Applications for The Art and Science of Smart Choices
From Everand
Decision Support System: Fundamentals and Applications for The Art and Science of Smart Choices
Fouad Sabry
No ratings yet
01 Intro 1
No ratings yet
01 Intro 1
33 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
01 Intro
No ratings yet
01 Intro
41 pages
Unit 3.1
No ratings yet
Unit 3.1
23 pages
What Is Data Mining?
No ratings yet
What Is Data Mining?
35 pages
Wordpress Tutorial
No ratings yet
Wordpress Tutorial
1 page
Data Mining (DM) : Lecture 3: Know Your Data
No ratings yet
Data Mining (DM) : Lecture 3: Know Your Data
53 pages
Lecture 1-Data Mining (Introduction)
No ratings yet
Lecture 1-Data Mining (Introduction)
30 pages
Distributed Database Management Systems: Week-4
No ratings yet
Distributed Database Management Systems: Week-4
24 pages
DM-BS-lec6-Mining Frequent Patterns
No ratings yet
DM-BS-lec6-Mining Frequent Patterns
37 pages
Week 5
No ratings yet
Week 5
23 pages
Distributed Database Management Systems: Week-3
No ratings yet
Distributed Database Management Systems: Week-3
7 pages
Distributed Database Management Systems: Week-4
No ratings yet
Distributed Database Management Systems: Week-4
24 pages
Compiler Design - Theory Tools and Examples PDF
No ratings yet
Compiler Design - Theory Tools and Examples PDF
320 pages
Distributed Database Management Systems: Week-3
No ratings yet
Distributed Database Management Systems: Week-3
7 pages
WEEK1
No ratings yet
WEEK1
20 pages
Chapter 4
No ratings yet
Chapter 4
31 pages
Brouwer1998 Chapter MythsAndFactsAboutTheEfficient PDF
No ratings yet
Brouwer1998 Chapter MythsAndFactsAboutTheEfficient PDF
15 pages
Lexical Analysis: 4.1 Motivation of The Chapter
No ratings yet
Lexical Analysis: 4.1 Motivation of The Chapter
2 pages
Lecture 2
No ratings yet
Lecture 2
29 pages
Neutron
No ratings yet
Neutron
1,164 pages
Final DBIS Record As On 03.04.24-Updated
No ratings yet
Final DBIS Record As On 03.04.24-Updated
61 pages
Classes in C#
No ratings yet
Classes in C#
20 pages
Catalogue ATV 12 - en
No ratings yet
Catalogue ATV 12 - en
37 pages
MPR 6 Instruction Manual Solcon
No ratings yet
MPR 6 Instruction Manual Solcon
26 pages
Mutu Fisik Bubuk Kunyit (Curcuma Longga Linn) Hasil Metode Foam-Mat
No ratings yet
Mutu Fisik Bubuk Kunyit (Curcuma Longga Linn) Hasil Metode Foam-Mat
9 pages
9709 - m18 - qp - 12-A Level 数学
No ratings yet
9709 - m18 - qp - 12-A Level 数学
20 pages
Flowchart of Progamming
No ratings yet
Flowchart of Progamming
5 pages
FINAL THESIS DEFENSE PPT Buenaventura Faminial Garcia
No ratings yet
FINAL THESIS DEFENSE PPT Buenaventura Faminial Garcia
19 pages
3M Bair Hugger 750 Ops Manual Patient Warming Unit
No ratings yet
3M Bair Hugger 750 Ops Manual Patient Warming Unit
22 pages
WameedMUCLecture 2021 92127201
No ratings yet
WameedMUCLecture 2021 92127201
7 pages
TDA7375A: 2 X 37W Dual/Quad Power Amplifier For Car Radio
No ratings yet
TDA7375A: 2 X 37W Dual/Quad Power Amplifier For Car Radio
14 pages
Freightcar PDF
No ratings yet
Freightcar PDF
10 pages
Cold Spray Technology: International Status and Usa Efforts: Prepared by
No ratings yet
Cold Spray Technology: International Status and Usa Efforts: Prepared by
14 pages
A Modular System Architecture For Sensor Data Processing of ADAS Applications
100% (1)
A Modular System Architecture For Sensor Data Processing of ADAS Applications
6 pages
Endianness and ARM Processors
No ratings yet
Endianness and ARM Processors
6 pages
03.4-20ma Junction Box Versus Fieldbus (FF) Junction Box - Inst Tools
No ratings yet
03.4-20ma Junction Box Versus Fieldbus (FF) Junction Box - Inst Tools
19 pages
Procedure arh / Arh Gas in Procedure-Algeria
No ratings yet
Procedure arh / Arh Gas in Procedure-Algeria
19 pages
Orthodontic Treatment Stability Predictors
No ratings yet
Orthodontic Treatment Stability Predictors
7 pages
Spatial Electric Load Forecasting 2nd Edition H. Lee Willis Instant Download
100% (2)
Spatial Electric Load Forecasting 2nd Edition H. Lee Willis Instant Download
71 pages
Data Science Syllabus
No ratings yet
Data Science Syllabus
2 pages
Teaching Assistant Evaluation Data Set
No ratings yet
Teaching Assistant Evaluation Data Set
5 pages
Lego Education Wedo 2.0 Computational Thinking
No ratings yet
Lego Education Wedo 2.0 Computational Thinking
42 pages
GiD User Manual
No ratings yet
GiD User Manual
169 pages
Astm A517 GR B: General Product Description
No ratings yet
Astm A517 GR B: General Product Description
2 pages
Dry Type Arc Welding Machine
100% (1)
Dry Type Arc Welding Machine
11 pages
Rubber Compounding
67% (3)
Rubber Compounding
25 pages
User's Guide: Analog and Digital I/O
No ratings yet
User's Guide: Analog and Digital I/O
20 pages
HERMANN Caldaia Gas Eura 23-28-32 e Se
No ratings yet
HERMANN Caldaia Gas Eura 23-28-32 e Se
1 page

Lecture 2 Data Mining Functions

Uploaded by

Lecture 2 Data Mining Functions

Uploaded by

*Slides edited from Han and Kamber’s online lecture

Data Mining (DM)

Lecture 2: Data Mining and

Ms Ansif Arooj, University of Education, S & T, Township Campus Lahore

 Data mining (knowledge discovery from data)

Data Warehouse Selection

DM: May access data in warehouse.

DM: May use OLAP queries.

Single Cell Multiple Cells Slice Dice

Data Presentation Business

Data Preprocessing/Integration, Data Warehouses

Input Data Data Pre- Data Post-

Data integration Pattern discovery Pattern evaluation

 This is a view from typical machine learning and statistics communities

 Information integration and data warehouse construction

Transaction Coke Burger Potatoes Onion Diapers Bread

 Unsupervised learning (i.e., Class label is unknown)

Machine Pattern Statistics

Applications Data Mining Visualization

Algorithm Database High-Performance

 Data mining: Discovering interesting patterns and knowledge from massive

 Data mining functionalities: characterization, discrimination, association,

 Major issues in data mining

A) Dividing the customers of a company according to

Extracting the frequencies of a sound wave.

 E. Alpaydin. Introduction to Machine Learning, 2nd ed., MIT Press, 2011

You might also like