0% found this document useful (0 votes)

68 views78 pages

DM 1

This document provides an introduction to data mining for business decision making. It discusses why data mining is important due to the massive growth of data from various sources. It defines data mining as the process of discovering patterns and predictions from large amounts of data. The document outlines the typical steps involved in knowledge discovery from data including data selection, cleaning, mining, evaluation and interpretation. It also discusses how data mining fits within business intelligence applications and helps transform data into knowledge.

Uploaded by

Aditya Srivastava

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

68 views78 pages

DM 1

Uploaded by

Aditya Srivastava

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 78

Data Mining for Business Decision

Prof. (Dr.) T. Muthukumar

M.Sc; M.C.A; M.B.A; M.Phil; Ph.D.
Professor – Business Analytics & Associate Dean (Academic)
XIME - Bangalore
Agenda
• Introduction, Data and Pre-Processing
• Prediction models
• Descriptive models
• Other metheds
Recommended Reference Books
4
4
Introduction of Data Mining
• Why Data Mining?

• What Is Data Mining?

• Before 1600: Empirical science

• 1600-1950s: Theoretical science
– Each discipline has grown a theoretical
component. Theoretical models often motivate
experiments and generalize our understanding.
Evolution of Sciences: New Data Science Era

• 1950s-1990s: Computational science

– Over the last 50 years, most disciplines
have grown a third, computational branch
(e.g. empirical, theoretical, and
computational ecology, or physics, or
linguistics.)
– Computational Science traditionally
meant simulation. It grew out of our
inability to find closed-form solutions for
complex mathematical models.
Evolution of Sciences: New Data Science Era

• 1990-now: Data science

– The flood of data from new scientific
instruments and simulations
– The ability to economically store and
manage petabytes of data online
– The Internet and computing Grid that
makes all these archives universally
accessible
Evolution of Sciences: New Data Science Era

– Scientific info. management, acquisition,

organization, query, and visualization
tasks scale almost linearly with data
volumes
– Data mining is a major new challenge!
Why Data Mining?
• We are drowning in data, but starving for
knowledge!
• “Necessity is the mother of invention”—Data
mining—Automated analysis of massive data sets
Data pyramid

Wisdom Knowledge + experience

Knowledge Information + rules

Information Data + context

Data
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

• Data mining (knowledge discovery from data)

– Extraction of interesting (non-trivial,
implicit, previously unknown and
potentially useful) patterns or knowledge
from huge amount of data.
What Is Data Mining?
• Alternative names
– Knowledge discovery (mining) in
databases (KDD), knowledge extraction,
data/pattern analysis, data archeology,
data dredging, information harvesting,
business intelligence, etc.
• Watch out: Is everything “data mining”?
– Simple search and query processing
– (Deductive) expert systems
What is Data Mining?
• The automated extraction of predictive
information from large databases
– Automated
– Extraction
– Predictive
In large Database.
Business Intelligence
“A broad category of applications and
technologies for gathering, storing,
analyzing, sharing and providing access to
data to help enterprise users make better
business decisions.”
– Gartner
Relationships
And Acronyms...
What does Data Mining Do?

Explores Finds Performs

Your Data Patterns Predictions
DM and BI

• BI is geared at an end user, such as a business

owner, knowledge worker etc.
• DM is an IT technology generally geared
towards a more advanced user – today
Knowledge Discovery (KDD) Process
• This is a view from typical database
systems and data warehousing
Pattern Evaluation
communities
• Data mining plays an essential role in
the knowledge discovery process
Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases
Knowledge Discovery Process
Integration

Interpretation Knowledge
Da & Evaluation
ta
Mi
nin Knowledge
Tr g
Raw an
sfo
Data rm __ __ __
Patterns

Understanding
S ati __ __ __
& elec on __ __ __ and
Cl
ea tion Rules
nin
g Transformed
Target Data
DATA
Ware Data
house
Data Mining in Business Intelligence

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
KDD Process: A Typical View from ML and Statistics

Input Data Data Data Post-Process

Pre-Processing Mining ing

Data integration Pattern discovery Pattern evaluation

Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Outlier analysis Pattern visualization
…………

• This is a view from typical machine learning and statistics communities

The Evolution of Data Analysis
Evolutionary Step Business Question Enabling Product Providers Characteristics
Technologies

Data Collection "What was my total Computers, tapes, IBM, CDC Retrospective,
(1960s) revenue in the last disks static data delivery
five years?"

Data Access "What were unit Relational Oracle, Sybase, Retrospective,

(1980s) sales in New databases Informix, IBM, dynamic data
England last (RDBMS), Microsoft delivery at record
March?" Structured Query level
Language (SQL),
ODBC

Data Warehousing "What were unit On - line analytic SPSS, Comshare, Retrospective,
& Decis ion sales in New processing Arbor, Cognos, dynamic data
Support England last (OLAP), Microstrategy,NCR d elivery at multiple
(1990s) March? Drill down multidimensional levels
to Boston." databases, data
warehouses

Data Mining "What’s likely to Advanced SPSS/Clementine, Prospective,

(Emerging Today) happen to Boston algorithms, Lockheed, IBM, proactive
unit sales next multiprocessor SGI, SAS, NCR, information
month? Why?" computers, massive Oracle, numerous delivery
databases s tartups
When is DM useful

• Data rich world

• Large data (dimensionality and size)
– Image data (size)
– Gene chip data (dimensionality)
• Little knowledge about data (exploratory data
analysis)
– What if we have some knowledge?
Data Mining Versus Statistical Analysis
•Data Mining •Data Analysis
– Originally developed to act as – Tests for statistical
expert systems to solve correctness of models
problems • Are statistical assumption
– Less interested in the of models correct?
mechanics of the technique – Eg Is the R-Square
– If it makes sense then let’s use good?
it – Hypothesis testing
– Does not require assumptions • Is the relationship
to be made about data significant?
– Can find patterns in very large – Use a t-test to validate
amounts of data significance
– Requires understanding of – Tends to rely on sampling
data and business problem – Techniques are not optimised
for large amounts of data
– Requires strong statistical
skills
Data Mining versus OLAP

•OLAP - On-line
Analytical Processing
– Provides you with
a very good view
of what is
happening, but can
not predict what
will happen in the
future or why it is
happening
Data Mining vs. Database
• DB’s user knows what is looking for.
• DM’s user might/might not know what is looking for.
• DB’s answer to query is 100% accurate, if data correct.
• DM’s effort is to get the answer as accurate as possible.
• DB’s data are retrieved as stored.
• DM’s data need to be cleaned (some what) before
producing results.
• DB’s results are subset of data.
• DM’s results are the analysis of the data.
• The meaningfulness of the results is not the concern of
Database as it is the main issue in Data Mining.
Data Mining vs. KDD
• Knowledge Discovery in Databases (KDD) is the process
of finding useful information and patterns in the data.
• Data Mining is the use of algorithms to find the useful
information in the KDD process.
• KDD process is:
» Data cleaning & integration (Data Pre-processing)
» Creating a common data repository for all sources, such
as data warehouse.
Data mining
» Visualization for the generated results
Data mining is not
• Brute-force crunching of bulk
data
• “Blind” application of
algorithms
• Going to find relationships
where none exist
• Presenting data in different ways
• A database intensive task
• A difficult to understand
technology requiring an
advanced degree in computer
science
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

• Database-oriented data sets and applications

– Relational database, data warehouse,
transactional database
• Advanced data sets and advanced applications
– Data streams and sensor data
– Time-series data, temporal data, sequence data
(incl. bio-sequences)
Data Mining: On What Kinds of Data?
– Structure data, graphs, social networks
and multi-linked data
– Object-relational databases
– Heterogeneous databases
– Spatial data and spatiotemporal data
– Multimedia database
– Text databases & The World-Wide Web
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

Online Analytical Discovery Driven

Processing Methods

Description Prediction
SQL Query
Tools
Regressio
Classification
ns
Visualization
Decision
Clustering Trees
Neural
Association Networks
Sequential
Analysis
Data Mining Function: (1) Generalization

• Information integration and data warehouse construction

– Data cleaning, transformation, integration, and
multidimensional data model
• Data cube technology
– Scalable methods for computing (i.e.,
materializing) multidimensional aggregates
– OLAP (online analytical processing)
• Multidimensional concept description: Characterization and
discrimination
– Generalize, summarize, and contrast data
characteristics, e.g., dry vs. wet region
Concept Description
• Characterization: provides a concise and
succinct summarization of the given
collection of data
• Discrimination: provides descriptions
comparing two or more collections of data.
Concept description: Characterization

Initial
Relation

Generalized
Relation
Data Mining Function: (2) Association and
Correlation Analysis
• Frequent patterns (or frequent itemsets)
– What items are frequently purchased together in
your Walmart?
• Association, correlation vs. causality
– A typical association rule
– Are strongly associated items also strongly
correlated?
• How to mine such patterns and rules efficiently in
large datasets?
Association rule
• Association (correlation and causality)
– age(X, “20..29”) ^ income(X, “20..29K”) buys(X,
“PC”) [support = 2%, confidence = 60%]
• Association rule mining
– Finding frequent patterns, associations, correlations
among sets of items or objects in transaction databases,
relational databases, and other information repositories
– Frequent pattern: pattern (set of items, sequence, etc.)
that occurs frequently in a database
• Motivation: finding regularities in data
– What products were often purchased together?
Example: Association rule

Transaction-id Items bought • Itemset A1,A2={a1, …, ak}

10 a1,a2, a3 • Find all the rules A1 A2 with min
20 a1, a3 confidence and support
30 a1, a4 – support, s, probability that a
40 a2, a5, a6 transaction contains A1∪A2
– confidence, c, conditional
probability that a transaction
having A1 also contains A2.
Let min_support = 50%,
min_conf = 50%:
a1 a3 (50%, 66.7%)
a3 a1 (50%, 100%)
Data Mining Function: (3) Classification

• Classification and label prediction

– Describe and distinguish classes or concepts
for future prediction
•E.g., classify countries based on (climate),
or classify cars based on (mileage)
– Predict some unknown class labels
Data Mining Function: (3) Classification
• Typical methods
– Decision trees, naïve Bayesian
classification, support vector machines,
neural networks, rule-based classification,
pattern – based classification, logistic
regression, …
• Typical applications:
– Credit card fraud detection, direct
marketing, classifying stars, diseases,
web-pages, …
Classification (1): Model Construction
Classification
Algorithms
Training
Data

Classifier
(Model)

IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Classification (2): Prediction Using the Model

Classifier

Testing
Data Unseen Data

(Jeff, Professor, 4)

Tenured?
Classification Techniques
• Decision Tree Induction
• Bayesian Classification
• Neural Networks
• Genetic Algorithms
• Fuzzy Set and Logic
Data Mining Function: (4) Cluster Analysis

• Unsupervised learning (i.e., Class label is

unknown)
• Group data to form new categories (i.e.,
clusters), e.g., cluster houses to find distribution
patterns
• Principle: Maximizing intra-class similarity &
minimizing interclass similarity
• Many methods and applications
Clustering
• Cluster: a collection of data objects
– Similar to one another within the same cluster
– Dissimilar to the objects in other clusters
• Clustering
– Grouping a set of data objects into clusters based on the
principle: maximizing the intra-class similarity and
minimizing the interclass similarity
• Example
– Land use: Identification of areas of similar land use in an
earth observation database
– City-planning: Identifying groups of houses according to
their house type, value, and geographical location
Data Mining Function: (5) Outlier Analysis

• Outlier analysis
– Outlier: A data object that does not comply
with the general behavior of the data
– Noise or exception? ― One person’s garbage
could be another person’s treasure
– Methods: by product of clustering or
regression analysis, …
– Useful in fraud detection, rare events analysis
Time and Ordering: Sequential Pattern, Trend and
Evolution Analysis
• Sequence, trend and evolution analysis
– Trend, time-series, and deviation analysis: e.g.,
regression and value prediction
– Sequential pattern mining
• e.g., first buy digital camera, then buy large SD memory
cards
– Periodicity analysis
– Biological sequence analysis
• Mining data streams
– Ordered, time-varying, potentially infinite, data
streams
Regression
• Regression is similar to classification
– First, construct a model
– Second, use model to predict unknown
value
• Methods
– Linear and multiple regression
– Non-linear regression
• Regression is different from
classification
– Classification refers to predict categorical
class label
– Regression models continuous-valued
functions
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

Pattern
Machine Statistics
Recogniti
Learning
on

Applicati Data Visualizat

ons Mining ion

Database High-Perform
Algorithm Technolo ance
gy Computing
Why Confluence of Multiple Disciplines?
• Tremendous amount of data
– Algorithms must be highly scalable to handle such
as tera-bytes of data
• High-dimensionality of data
– Micro-array may have tens of thousands of
dimensions
Why Confluence of Multiple Disciplines?
• High complexity of data
– Data streams and sensor data
– Time-series data, temporal data, sequence data
– Structure data, graphs, social networks and
multi-linked data
– Heterogeneous databases and legacy databases
– Spatial, spatiotemporal, multimedia, text and Web
data
– Software programs, scientific simulations
• New and sophisticated applications
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

• Mining Methodology
– Mining various and new kinds of knowledge
– Mining knowledge in multi-dimensional
space
– Data mining: An interdisciplinary effort
– Boosting the power of discovery in a
networked environment
Major Issues in Data Mining (1)
– Handling noise, uncertainty, and
incompleteness of data
– Pattern evaluation and pattern- or
constraint-guided mining
• User Interaction
– Interactive mining
– Incorporation of background knowledge
– Presentation and visualization of data
mining results
Major Issues in Data Mining (2)

• Efficiency and Scalability

– Efficiency and scalability of data mining
algorithms
– Parallel, distributed, stream, and incremental
mining methods
Major Issues in Data Mining (2)
• Diversity of data types
– Handling complex types of data
– Mining dynamic, networked, and global
data repositories
• Data mining and society
– Social impacts of data mining
– Privacy-preserving data mining
– Invisible data mining
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

• A Multi-Dimensional View of Data Mining
• What Kind of Data Can Be Mined?
• What Kinds of Patterns Can Be Mined?
• What Technology Are Used?
• What Kind of Applications Are Targeted?
• Major Issues in Data Mining
• A Brief History of Data Mining and Data Mining Society
• Summary
A Brief History of Data Mining Society
• 1989 IJCAI Workshop on Knowledge Discovery in
Databases
– Knowledge Discovery in Databases (G.
Piatetsky-Shapiro and W. Frawley, 1991)
• 1991-1994 Workshops on Knowledge Discovery in
Databases
– Advances in Knowledge Discovery and Data
Mining (U. Fayyad, G. Piatetsky-Shapiro, P.
Smyth, and R. Uthurusamy, 1996)
A Brief History of Data Mining Society
• 1995-1998 International Conferences on Knowledge
Discovery in Databases and Data Mining (KDD’95-98)
– Journal of Data Mining and Knowledge Discovery
(1997)
• ACM SIGKDD conferences since 1998 and SIGKDD
Explorations
• More conferences on data mining
– PAKDD (1997), PKDD (1997), SIAM-Data Mining
(2001), (IEEE) ICDM (2001), WSDM (2008), etc.
• ACM Transactions on KDD (2007).
Conferences and Journals on Data Mining
• KDD Conferences ■ Other related conferences
– ACM SIGKDD Int. Conf. on ■ DB conferences: ACM SIGMOD,
Knowledge Discovery in Databases VLDB, ICDE, EDBT, ICDT, …
and Data Mining (KDD)
■ Web and IR conferences: WWW,
– SIAM Data Mining Conf. (SDM)
SIGIR, WSDM
– (IEEE) Int. Conf. on Data Mining
■ ML conferences: ICML, NIPS
(ICDM)
– European Conf. on Machine ■ PR conferences: CVPR,
Learning and Principles and ■ Journals
practices of Knowledge Discovery ■ Data Mining and Knowledge
and Data Mining (ECML-PKDD) Discovery (DAMI or DMKD)
– Pacific-Asia Conf. on Knowledge
■ IEEE Trans. On Knowledge and
Discovery and Data Mining
Data Eng. (TKDE)
(PAKDD)
– Int. Conf. on Web Search and Data ■ KDD Explorations
Mining (WSDM) ■ ACM Trans. on KDD
Where to Find References? DBLP, Google
• Data mining and KDD (SIGKDD: CDROM)
– Conferences: ACM-SIGKDD, IEEE-ICDM,
SIAM-DM, PKDD, PAKDD, etc.
– Journal: Data Mining and Knowledge Discovery,
KDD Explorations, ACM TKDD
• Database systems (SIGMOD: ACM SIGMOD
Anthology—CD ROM)
– Conferences: ACM-SIGMOD, ACM-PODS,
VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA
– Journals: IEEE-TKDE, ACM-TODS/TOIS, JIIS,
J. ACM, VLDB J., Info. Sys., etc.
Where to Find References? DBLP, Google
• Web and IR
– Conferences: SIGIR, WWW, CIKM, etc.
– Journals: WWW: Internet and Web Information Systems,
• Statistics
– Conferences: Joint Stat. Meeting, etc.
– Journals: Annals of statistics, etc.
• Visualization
– Conference proceedings: CHI, ACM-SIGGraph, etc.
– Journals: IEEE Trans. visualization and computer
graphics, etc.
Chapter 1. Introduction
• Why Data Mining?

• What Is Data Mining?

Data Modeling by Example Vol 3
100% (1)
Data Modeling by Example Vol 3
152 pages
L 0007634413 PDF
0% (1)
L 0007634413 PDF
30 pages
CS3352 Fds
No ratings yet
CS3352 Fds
23 pages
Data Science M-1 Notes
No ratings yet
Data Science M-1 Notes
34 pages
Lecture-1 Introduction To Data Science
No ratings yet
Lecture-1 Introduction To Data Science
20 pages
Lecture 5 Introduction To Data Mining Business Intelligence
No ratings yet
Lecture 5 Introduction To Data Mining Business Intelligence
50 pages
Topic 1 Etw3482
100% (2)
Topic 1 Etw3482
69 pages
Nptel Swayam DWDM Slides
No ratings yet
Nptel Swayam DWDM Slides
406 pages
Unit 1 Bda Complete Notes
No ratings yet
Unit 1 Bda Complete Notes
15 pages
Cuestionario Resuelto Big Data
67% (6)
Cuestionario Resuelto Big Data
2 pages
Class Xi Python
100% (2)
Class Xi Python
138 pages
Artificial Intelligence: CS60045 Course Introduction
100% (4)
Artificial Intelligence: CS60045 Course Introduction
16 pages
Data Warehousing and Data Mining (10cs755)
No ratings yet
Data Warehousing and Data Mining (10cs755)
142 pages
Big Data Analytics
No ratings yet
Big Data Analytics
134 pages
Unit-3: Non-Linear Data Structure
No ratings yet
Unit-3: Non-Linear Data Structure
23 pages
UNIT-1 Introduction: Dr. C.Nagaraju Head of Cse Ysrec of YVU Proddatur
100% (1)
UNIT-1 Introduction: Dr. C.Nagaraju Head of Cse Ysrec of YVU Proddatur
86 pages
DataMining S
No ratings yet
DataMining S
103 pages
Introduction To Information and Big Data Security
No ratings yet
Introduction To Information and Big Data Security
39 pages
BDA Textbook Main
No ratings yet
BDA Textbook Main
370 pages
R Language
No ratings yet
R Language
59 pages
PSD02 - Data Science Overview
No ratings yet
PSD02 - Data Science Overview
64 pages
Python Programming-Grade 9
No ratings yet
Python Programming-Grade 9
53 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Cuestionario Why Big Data and Where Did It Come From?
50% (2)
Cuestionario Why Big Data and Where Did It Come From?
4 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
BDM Unit I Slides Part 1
No ratings yet
BDM Unit I Slides Part 1
27 pages
310251: Data Science and Big Data Analytics
No ratings yet
310251: Data Science and Big Data Analytics
2 pages
Notes - EDA-Unit1
No ratings yet
Notes - EDA-Unit1
34 pages
Lecture 3 Data Mining
No ratings yet
Lecture 3 Data Mining
30 pages
CH 6
No ratings yet
CH 6
72 pages
Revised CS8383 (Eee) Oop Lab Man
No ratings yet
Revised CS8383 (Eee) Oop Lab Man
85 pages
Assignment - Fundamentals of Big Data and Business Analytics
No ratings yet
Assignment - Fundamentals of Big Data and Business Analytics
9 pages
Analisis de Datos MIT
No ratings yet
Analisis de Datos MIT
340 pages
Data Warehousing AND Data Mining
No ratings yet
Data Warehousing AND Data Mining
169 pages
Data Mining: Books
No ratings yet
Data Mining: Books
14 pages
Advanced Certification in Data Science and Artificial Intelligence
No ratings yet
Advanced Certification in Data Science and Artificial Intelligence
18 pages
Pima Indians Diabetes Database Analysis - Kaggle
No ratings yet
Pima Indians Diabetes Database Analysis - Kaggle
37 pages
Future Skills - An Introduction, General Overview of The Future Skills Sub-Sector-1
No ratings yet
Future Skills - An Introduction, General Overview of The Future Skills Sub-Sector-1
15 pages
UNIT - 2 .DataScience 04.09.18
No ratings yet
UNIT - 2 .DataScience 04.09.18
53 pages
How To Extend RapidMiner 5
No ratings yet
How To Extend RapidMiner 5
92 pages
DataMining Lecture 1
No ratings yet
DataMining Lecture 1
35 pages
Data Mining Unit 1
No ratings yet
Data Mining Unit 1
91 pages
A6515 BDA Question Bank
No ratings yet
A6515 BDA Question Bank
9 pages
Recommender System
No ratings yet
Recommender System
45 pages
Deeplearning - Ai Deeplearning - Ai
No ratings yet
Deeplearning - Ai Deeplearning - Ai
36 pages
By Ghazwan Khalid Auda
100% (1)
By Ghazwan Khalid Auda
17 pages
BDA Presentations
No ratings yet
BDA Presentations
26 pages
Business Intelligence
No ratings yet
Business Intelligence
23 pages
Deep Learning and CNNFYTGS5101-Guoyangxie
No ratings yet
Deep Learning and CNNFYTGS5101-Guoyangxie
42 pages
Monash Data Science
No ratings yet
Monash Data Science
4 pages
20IT503 - Big Data Analytics - Unit1
No ratings yet
20IT503 - Big Data Analytics - Unit1
59 pages
A Survey On Data Mining
No ratings yet
A Survey On Data Mining
4 pages
Machine Learning in Genomics Medicine
No ratings yet
Machine Learning in Genomics Medicine
22 pages
The Next Frontier For Innovation, Competition and Productivity
No ratings yet
The Next Frontier For Innovation, Competition and Productivity
23 pages
Big Data
No ratings yet
Big Data
28 pages
Big Data Not Right Data Yes
No ratings yet
Big Data Not Right Data Yes
8 pages
Microstrategy Tips and Techniques: Reporting Essentials Five Styles of Business Intelligence
No ratings yet
Microstrategy Tips and Techniques: Reporting Essentials Five Styles of Business Intelligence
20 pages
Data Mining Handout
No ratings yet
Data Mining Handout
4 pages
IM Ch14 Big Data Analytics NoSQL Ed12
No ratings yet
IM Ch14 Big Data Analytics NoSQL Ed12
8 pages
Big Data: NADC Says: Every Day, We Create 2.5 Quintillion Bytes of Data - So Much That 90% of The Data in The
No ratings yet
Big Data: NADC Says: Every Day, We Create 2.5 Quintillion Bytes of Data - So Much That 90% of The Data in The
3 pages
Association Rules
No ratings yet
Association Rules
64 pages
Pivotal Data Science Labs DS
No ratings yet
Pivotal Data Science Labs DS
4 pages
Oracle Financial Analytics: Key Features and Benefits
0% (1)
Oracle Financial Analytics: Key Features and Benefits
5 pages
Power Bi 78 Questions
No ratings yet
Power Bi 78 Questions
33 pages
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
No ratings yet
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
24 pages
SM Important Question Jan 25 by Sonali Jain Maam
No ratings yet
SM Important Question Jan 25 by Sonali Jain Maam
8 pages
Teradata University
No ratings yet
Teradata University
8 pages
Applies To:: OBIEE 12c: How To Enable Usage Tracking? (Doc ID 2366978.1)
100% (1)
Applies To:: OBIEE 12c: How To Enable Usage Tracking? (Doc ID 2366978.1)
6 pages
AI Technology
100% (1)
AI Technology
41 pages
PPT Merdeka Belajar MJ FEB UNTAN (2!9!2023)
100% (1)
PPT Merdeka Belajar MJ FEB UNTAN (2!9!2023)
25 pages
What Are The Principal Tools and Technologies For Accessing Information From Databases To Improve Business Performance and Decision Making
100% (1)
What Are The Principal Tools and Technologies For Accessing Information From Databases To Improve Business Performance and Decision Making
4 pages
Assignment Activity Module For MIS Chapter 6
No ratings yet
Assignment Activity Module For MIS Chapter 6
15 pages
Module 6 (MM)
No ratings yet
Module 6 (MM)
36 pages
ATS Complaint HR Keywords List
No ratings yet
ATS Complaint HR Keywords List
2 pages
Artificial Intelligence: Mr. Ramya Shah Assistant Professor National Forensic Sciences University
No ratings yet
Artificial Intelligence: Mr. Ramya Shah Assistant Professor National Forensic Sciences University
11 pages
Plagiarism - Report
No ratings yet
Plagiarism - Report
52 pages
Technical Tracks Catalog
No ratings yet
Technical Tracks Catalog
38 pages
Ch5 Big Data and Analytics Definitions
No ratings yet
Ch5 Big Data and Analytics Definitions
2 pages
Chapter 6
No ratings yet
Chapter 6
12 pages
What I Wish I Knew About The AP and AR Aging Snapshot Tables PDF
No ratings yet
What I Wish I Knew About The AP and AR Aging Snapshot Tables PDF
12 pages
Arul Chitrasenan - Profile
No ratings yet
Arul Chitrasenan - Profile
6 pages
AIMP339 Material 2
No ratings yet
AIMP339 Material 2
31 pages
Power BI Intro Lecturenotes
No ratings yet
Power BI Intro Lecturenotes
9 pages
Data Warehousing One Mark Questions
No ratings yet
Data Warehousing One Mark Questions
5 pages
Teachers Note 5
No ratings yet
Teachers Note 5
20 pages
DISC 420-Business Analytics-Zainab Riaz PDF
No ratings yet
DISC 420-Business Analytics-Zainab Riaz PDF
6 pages
Business Intelligence ERP
No ratings yet
Business Intelligence ERP
7 pages
PF TH2108 - Micro Perspective of Tourism and Hospitality
No ratings yet
PF TH2108 - Micro Perspective of Tourism and Hospitality
3 pages
ISO 80000-3 A Complete Guide
From Everand
ISO 80000-3 A Complete Guide
Gerardus Blokdyk
No ratings yet
Hybrid Neural Networks: Fundamentals and Applications for Interacting Biological Neural Networks with Artificial Neuronal Models
From Everand
Hybrid Neural Networks: Fundamentals and Applications for Interacting Biological Neural Networks with Artificial Neuronal Models
Fouad Sabry
No ratings yet

DM 1

Uploaded by

DM 1

Uploaded by

Data Mining for Business Decision

Prof. (Dr.) T. Muthukumar

• What Is Data Mining?

• Before 1600: Empirical science

• 1950s-1990s: Computational science

• 1990-now: Data science

– Scientific info. management, acquisition,

Wisdom Knowledge + experience

Knowledge Information + rules

Information Data + context

• What Is Data Mining?

• Data mining (knowledge discovery from data)

Explores Finds Performs

• BI is geared at an end user, such as a business

Data Warehouse Selection

Data Presentation Business

Data Preprocessing/Integration, Data Warehouses

Input Data Data Data Post-Process

Data integration Pattern discovery Pattern evaluation

• This is a view from typical machine learning and statistics communities

Data Access "What were unit Relational Oracle, Sybase, Retrospective,

Data Mining "What’s likely to Advanced SPSS/Clementine, Prospective,

• Data rich world

• What Is Data Mining?

• Database-oriented data sets and applications

• What Is Data Mining?

Online Analytical Discovery Driven

• Information integration and data warehouse construction

Transaction-id Items bought • Itemset A1,A2={a1, …, ak}

• Classification and label prediction

• Unsupervised learning (i.e., Class label is

• What Is Data Mining?

Applicati Data Visualizat

• What Is Data Mining?

• What Is Data Mining?

• Efficiency and Scalability

• What Is Data Mining?

• What Is Data Mining?

You might also like