0% found this document useful (0 votes)

98 views19 pages

Data Mining at UVA: New Horizons in Teaching and Learning Conference

This document summarizes a presentation on data mining at UVA. It discusses the commercial and scientific motivations for data mining, including finding patterns in large datasets. Data mining can help discover useful information that humans may miss. The presentation covers classification techniques like decision trees and neural networks. It provides examples of software for data mining, demonstrating SAS Enterprise Miner, R with the Rattle package, and Weka.

Uploaded by

sathishjoseph

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

98 views19 pages

Data Mining at UVA: New Horizons in Teaching and Learning Conference

Uploaded by

sathishjoseph

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 19

Data Mining at UVA

New Horizons in Teaching and Learning

Conference
May 21-24, 2007
Kathy Gerber, ITC Research Computing
[email protected]
Why Mine Data? Commercial Viewpoint
• Lots of data is being collected
and warehoused
– Web data, e-commerce
– purchases at department/
grocery stores
– Bank/Credit Card
transactions

• Computers have become cheaper

and more powerful
• Competitive Pressure is Strong
– Provide better, customized services for an edge (e.g. in
Customer Relationship Management)
Why Mine Data? Scientific Viewpoint
• Data collected and stored at
enormous speeds (GB/hour)
– remote sensors on a satellite
– telescopes scanning the skies
– microarrays generating gene
expression data (e.g., GEOSS)
– scientific simulations
generating terabytes of data
• Traditional techniques infeasible for raw data
• Data mining may help scientists
– in classifying and segmenting data
– in Hypothesis Formation
Mining Large Data Sets - Motivation
• There is often information “hidden” in the data that is
not readily evident
• Human analysts may take weeks to discover useful
information
• Much of the data is never analyzed at all
4,000,000

3,500,000

3,000,000
The Data Gap
2,500,000

2,000,000

1,500,000
Total new disk (TB) since 1995
1,000,000

500,000
Number of
0
analysts
1995 1996 1997 1998 1999

From: R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering Applications”
What is Data Mining?
• Many Definitions
– Non-trivial extraction of implicit, previously
unknown and potentially useful information from
data
– Exploration & analysis, by automatic or
semi-automatic means, of
large quantities of data
in order to discover
meaningful patterns
Summary of SAS DM Process -
SEMMA
• Sample the data by creating one or more data tables.
The sample should be large enough to contain the
significant information, yet small enough to process.
• Explore the data by searching for anticipated
relationships, unanticipated trends, and anomalies in
order to gain understanding and ideas.
• Modify the data by creating, selecting, and transforming
the variables to focus the model selection process.
• Model the data by using the analytical tools to search for
a combination of the data that reliably predicts a desired
outcome.
• Assess the data by evaluating the usefulness and
reliability of the findings from the data mining process.
What is (not) Data Mining?
What is not Data  What is Data Mining?
Mining?

– Look up phone – Certain names are more

number in phone prevalent in certain US
directory locations (O’Brien, O’Rurke,
O’Reilly… in Boston area)
– Query a Web – Group together similar
search engine for documents returned by
information about search engine according to
“Amazon” their context (e.g. Amazon
rainforest, Amazon.com,)
Origins of Data Mining
• Draws ideas from machine learning/AI, pattern
recognition, statistics, and database systems
• Traditional Techniques
may be unsuitable due to
– Enormity of data Statistics/ Machine Learning/
– High dimensionality AI Pattern
of data Recognition

– Heterogeneous, Data Mining

distributed nature
of data
Database
systems
Classification: Definition
• Given a collection of records (training set )
– Each record contains a set of attributes, one of the
attributes is the class.
• Find a model for class attribute as a function of the
values of other attributes.
• Goal: previously unseen records should be assigned a
class as accurately as possible.
– A test set is used to determine the accuracy of the
model. Usually, the given data set is divided into
training and test sets, with training set used to build
the model and test set used to validate it.
Examples of Classification Task
• Predicting tumor cells as benign or malignant

• Classifying credit card transactions

as legitimate or fraudulent

• Classifying secondary structures of protein

as alpha-helix, beta-sheet, or random
coil

• Categorizing news stories as finance,

weather, entertainment, sports, etc
Classification Techniques

• Decision Tree based Methods

• Rule-based Methods
• Memory based reasoning
• Neural Networks
• Naïve Bayes and Bayesian Belief
Networks
• Support Vector Machines
Illustrating Classification Task
Tid Attrib1 Attrib2 Attrib3 Class Learning
No
1 Yes Large 125K
algorithm
2 No Medium 100K No
3 No Small 70K No
4 Yes Medium 120K No
Induction
5 No Large 95K Yes
6 No Medium 60K No

7 Yes Large 220K No Learn

8 No Small 85K Yes Model
9 No Medium 75K No

10 No Small 90K Yes

Model
10

Training Set
Apply
Tid Attrib1 Attrib2 Attrib3 Class Model
11 No Small 55K ?
12 Yes Medium 80K ?

13 Yes Large 110K ? Deduction

14 No Small 95K ?
15 No Large 67K ?
10

Test Set
Software Demonstrations

SAS Enterprise Miner

R Rattle
Weka
SAS Enterprise Miner
Screenshot – EM Tutorial Workflow
R Rattle
• Install R 2.5.0
• > source("http://www.ggobi.org/downloads/install.r")
• > install(“rattle”, dep=TRUE)
Weka
Slide Credits

• R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering

Applications”

• SAS Enterprise Miner tutorial

• Frank Eibe, Machine Learning with Weka

• Tan, Steinbach, Kumar “Introduction to Data Mining”

Versions and References for
Software Used Today
• SAS 9.1.3 EAS with Enterprise Miner
– UVA licensed software
– http://rescomp.virginia.edu
• R 2.5.0 with Rattle (open source)
– Open source
• Weka (open source)
– Ian Witten, Frank Eibe: Data Mining: Practical Machine Learning
Tools and Techniques (Second Edition)

• Not demonstrated but also see Insightful Miner and

Orange

DWM Question Bank
No ratings yet
DWM Question Bank
3 pages
UNIT-04: Introduction To Data Mining: Data Mining Techniques KDD Process Association Rules.
No ratings yet
UNIT-04: Introduction To Data Mining: Data Mining Techniques KDD Process Association Rules.
40 pages
Top 10 Excel Formulas
No ratings yet
Top 10 Excel Formulas
12 pages
Nptel Swayam DWDM Slides
No ratings yet
Nptel Swayam DWDM Slides
406 pages
Business Intelligence and Data Mining Topic One: Fundamental Concepts
No ratings yet
Business Intelligence and Data Mining Topic One: Fundamental Concepts
33 pages
Unit 3 Clustering Algorithm
No ratings yet
Unit 3 Clustering Algorithm
44 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
8 pages
Data Reduction Techniques
No ratings yet
Data Reduction Techniques
41 pages
Data Mining Merged PDF CS1 CS8
No ratings yet
Data Mining Merged PDF CS1 CS8
272 pages
File Systems and Databases: Database Systems: Design, Implementation, and Management, Fifth Edition, Rob and Coronel
No ratings yet
File Systems and Databases: Database Systems: Design, Implementation, and Management, Fifth Edition, Rob and Coronel
38 pages
Class PPT - Unit2
No ratings yet
Class PPT - Unit2
139 pages
ISP500 Topic 3 Data and Knowledge Management - ch5
No ratings yet
ISP500 Topic 3 Data and Knowledge Management - ch5
23 pages
DecisionTree Numerical ID3Prob
No ratings yet
DecisionTree Numerical ID3Prob
114 pages
4 Data Mining & Preprocessing L 11,12,13,14,15,16
No ratings yet
4 Data Mining & Preprocessing L 11,12,13,14,15,16
100 pages
4-Confluence of Multiple Disciplines, Classifictaion, Integration-08-Feb-2021Material - I - 08-Feb-2021 - Mod1 - Confluence - Classifictaion
0% (1)
4-Confluence of Multiple Disciplines, Classifictaion, Integration-08-Feb-2021Material - I - 08-Feb-2021 - Mod1 - Confluence - Classifictaion
4 pages
HPCL Section 13 Notes CH
No ratings yet
HPCL Section 13 Notes CH
17 pages
Unit - I IDS
No ratings yet
Unit - I IDS
33 pages
Machine Learning For Hackers PDF
0% (4)
Machine Learning For Hackers PDF
5 pages
Introduction To Big Data & Basic Data Analysis
No ratings yet
Introduction To Big Data & Basic Data Analysis
47 pages
Intelligent Heart Diseases Prediction System Using Datamining Techniques0
No ratings yet
Intelligent Heart Diseases Prediction System Using Datamining Techniques0
104 pages
Data Warehouse Concepts: Avinash Kanumuru Diya Jana Debyajit Majumder
No ratings yet
Data Warehouse Concepts: Avinash Kanumuru Diya Jana Debyajit Majumder
308 pages
Explain How Files and Databases Are Used in Organizations
No ratings yet
Explain How Files and Databases Are Used in Organizations
5 pages
Introduction To Big Data With Spark and Hadoop
No ratings yet
Introduction To Big Data With Spark and Hadoop
61 pages
Data Mining
No ratings yet
Data Mining
87 pages
DataMiningForTheMasses (001 158)
No ratings yet
DataMiningForTheMasses (001 158)
158 pages
Lec 1
No ratings yet
Lec 1
48 pages
Lecture 2 Data Mining Functions
No ratings yet
Lecture 2 Data Mining Functions
40 pages
Introduction To Data Mining
No ratings yet
Introduction To Data Mining
3 pages
CH 6
No ratings yet
CH 6
72 pages
Lecture of Simca and Classification
No ratings yet
Lecture of Simca and Classification
14 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
DataMining S
No ratings yet
DataMining S
103 pages
CSE2021 - MODULE 1ppt
No ratings yet
CSE2021 - MODULE 1ppt
62 pages
Probabilistic ML Crash Course - Leblanc, Mason
No ratings yet
Probabilistic ML Crash Course - Leblanc, Mason
95 pages
Comp 6838
No ratings yet
Comp 6838
41 pages
Data Mining Approach For Cyber Security
No ratings yet
Data Mining Approach For Cyber Security
7 pages
DWDM Syllabus
No ratings yet
DWDM Syllabus
2 pages
Lecture 3 Data Mining
No ratings yet
Lecture 3 Data Mining
30 pages
@vtucode - in 21AI63 Model Set 1 Paper
No ratings yet
@vtucode - in 21AI63 Model Set 1 Paper
2 pages
DATA MINING Chapter 1 and 2 Lect Slide
No ratings yet
DATA MINING Chapter 1 and 2 Lect Slide
47 pages
Social Media
No ratings yet
Social Media
17 pages
Machine Learning
No ratings yet
Machine Learning
14 pages
Research Paper
No ratings yet
Research Paper
7 pages
Proposal
No ratings yet
Proposal
12 pages
Primitives
100% (1)
Primitives
3 pages
Depression Detection in Social Media A Comprehensive Review of Machine Learning and Deep Learning Techniques
No ratings yet
Depression Detection in Social Media A Comprehensive Review of Machine Learning and Deep Learning Techniques
30 pages
Major In: Machine Learning
No ratings yet
Major In: Machine Learning
11 pages
DM - 05 - 04 - Rule-Based Classification PDF
No ratings yet
DM - 05 - 04 - Rule-Based Classification PDF
72 pages
IM Ch14 Big Data Analytics NoSQL Ed12
No ratings yet
IM Ch14 Big Data Analytics NoSQL Ed12
8 pages
Interpretable Machine Learning
No ratings yet
Interpretable Machine Learning
252 pages
Sharda Dss10 PPT 08 ST
No ratings yet
Sharda Dss10 PPT 08 ST
14 pages
Module 2
No ratings yet
Module 2
20 pages
Data Scales and Representation: Prof. Asim Tewari IIT Bombay
No ratings yet
Data Scales and Representation: Prof. Asim Tewari IIT Bombay
27 pages
BDM Unit I Slides Part 1
No ratings yet
BDM Unit I Slides Part 1
27 pages
Soranson Python-Machine-Learning RuLit Me 683600
No ratings yet
Soranson Python-Machine-Learning RuLit Me 683600
99 pages
DWDM R13 Unit 1 PDF
No ratings yet
DWDM R13 Unit 1 PDF
10 pages
Data Mining Unit 1
No ratings yet
Data Mining Unit 1
91 pages
Case - Study of Data Warehouse
No ratings yet
Case - Study of Data Warehouse
14 pages
Network Behavior-Analysis Systems With The Use of Learning Set and Decision Rules Based On Distance
100% (1)
Network Behavior-Analysis Systems With The Use of Learning Set and Decision Rules Based On Distance
12 pages
UNIT 5 Artificial Intelligence
No ratings yet
UNIT 5 Artificial Intelligence
7 pages
A Survey On Data Mining
No ratings yet
A Survey On Data Mining
4 pages
Identity Recognition Based On Bioacoustics of Human Body
No ratings yet
Identity Recognition Based On Bioacoustics of Human Body
12 pages
10.1007@s10462 020 09934 2
No ratings yet
10.1007@s10462 020 09934 2
26 pages
Bigdata MINT PDF
No ratings yet
Bigdata MINT PDF
4 pages
Data Mining Handout
No ratings yet
Data Mining Handout
4 pages
Orientation and Decision-Making For Soccer Based On Sports Analytics and AI: A Systematic Review
No ratings yet
Orientation and Decision-Making For Soccer Based On Sports Analytics and AI: A Systematic Review
21 pages
Applications of Data Mining in The Banking Sector
No ratings yet
Applications of Data Mining in The Banking Sector
8 pages
Assignment 2.doc 1
No ratings yet
Assignment 2.doc 1
3 pages
Anomaly Detection
No ratings yet
Anomaly Detection
11 pages
Guru Nanak Dev Engineering College, Ludhiana
No ratings yet
Guru Nanak Dev Engineering College, Ludhiana
48 pages
Clustering Analysis
No ratings yet
Clustering Analysis
30 pages
Data Mining Hotel
No ratings yet
Data Mining Hotel
17 pages
Text Mining: Lecturer: Dr. Nguyen Thi Ngoc Anh
No ratings yet
Text Mining: Lecturer: Dr. Nguyen Thi Ngoc Anh
27 pages
Review Article: Data Mining For The Internet of Things: Literature Review and Challenges
No ratings yet
Review Article: Data Mining For The Internet of Things: Literature Review and Challenges
14 pages
Neural
No ratings yet
Neural
35 pages
A Novel Hybrid Data Balancing and Fraud Detection Approach For Automobile Insurance Claims
No ratings yet
A Novel Hybrid Data Balancing and Fraud Detection Approach For Automobile Insurance Claims
30 pages
LN and ML-based Model Architecture For Recruiting IT Professionals
No ratings yet
LN and ML-based Model Architecture For Recruiting IT Professionals
18 pages
Machine Learning Based Channel Classification Done
No ratings yet
Machine Learning Based Channel Classification Done
6 pages
Lab 2
No ratings yet
Lab 2
3 pages
8 Data Mining Algorithms
No ratings yet
8 Data Mining Algorithms
8 pages
Psychoradiologic Utility of MR Imaging For Diagnosis of Attention Deficit Hyperactivity Disorder
No ratings yet
Psychoradiologic Utility of MR Imaging For Diagnosis of Attention Deficit Hyperactivity Disorder
11 pages
Interview Questions
No ratings yet
Interview Questions
8 pages
Mining Comlex Types of Data
No ratings yet
Mining Comlex Types of Data
19 pages
Lab 07
No ratings yet
Lab 07
2 pages
Outline: Problem Statement Definitions & Examples Strategies
No ratings yet
Outline: Problem Statement Definitions & Examples Strategies
7 pages
SAS Presentation
No ratings yet
SAS Presentation
49 pages
Machine-Learning Techniques For Customer Retention - A Comparative Study
No ratings yet
Machine-Learning Techniques For Customer Retention - A Comparative Study
9 pages
Appendix Weka
No ratings yet
Appendix Weka
17 pages
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
No ratings yet
Introduction To Data Mining: Saeed Salem Department of Computer Science North Dakota State University Cs - Ndsu.edu/ Salem
30 pages
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
No ratings yet
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
24 pages

Data Mining at UVA: New Horizons in Teaching and Learning Conference

Uploaded by

Data Mining at UVA: New Horizons in Teaching and Learning Conference

Uploaded by

Data Mining at UVA

New Horizons in Teaching and Learning

• Computers have become cheaper

– Look up phone – Certain names are more

– Heterogeneous, Data Mining

• Classifying credit card transactions

• Classifying secondary structures of protein

• Categorizing news stories as finance,

• Decision Tree based Methods

7 Yes Large 220K No Learn

10 No Small 90K Yes

13 Yes Large 110K ? Deduction

SAS Enterprise Miner

• R. Grossman, C. Kamath, V. Kumar, “Data Mining for Scientific and Engineering

• SAS Enterprise Miner tutorial

• Frank Eibe, Machine Learning with Weka

• Tan, Steinbach, Kumar “Introduction to Data Mining”

• Not demonstrated but also see Insightful Miner and

You might also like