0% found this document useful (0 votes)

113 views

L1 - Introduction

This document provides an introduction to data mining. It defines data mining as extracting useful patterns from large amounts of data. The main steps in data mining are presented, including data preparation, model building, evaluation, and deployment. Classification, regression, clustering, association rule mining, and sequential pattern mining are described as common data mining tasks. The differences between DBMS, OLAP, and data mining are outlined.

Uploaded by

Veena Tella

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

113 views

L1 - Introduction

Uploaded by

Veena Tella

Available Formats

Download as PPT, PDF, TXT or read online on Scribd

You are on page 1/ 21

BITS Pilani

BITS Pilani Dr.Aruna Malapati

Asst Professor
Hyderabad Campus Department of CSIS
BITS Pilani
Hyderabad Campus

Data Mining - Introduction

Today’s Learning objective

• Define what is Data Mining

• List the Steps/Phases involved in data Mining

• Compare DBMS,OLAP and Data Mining

• List the Predictive and Descriptive Data Mining Tasks

BITS Pilani, Hyderabad Campus

DIKW Pyramid

BITS Pilani, Hyderabad Campus

Data generated from
several sources

BITS Pilani, Hyderabad Campus

Dreaded with data

BITS Pilani, Hyderabad Campus

What is Data Mining?

Searching for knowledge

from your data.

BITS Pilani, Hyderabad Campus

What is Data Mining?
• Data mining – Extraction of interesting (non-trivial, implicit,
previously unknown and potentially useful) patterns or knowledge
from huge amount of data.

• Alternative names – Knowledge discovery (mining) in databases

(KDD), knowledge extraction, data/pattern analysis, etc.

BITS Pilani, Hyderabad Campus

Data Mining Process

BITS Pilani, Hyderabad Campus

DBMS,OLAP and Data
Mining
DBMS OLAP DATA MINING
TASK Extract data Summaries, trends Knowledge
and forecasts Discovery of
hidden patterns
Type of Result Information Analysis Insight &
Prediction
Method Deduction Multidimensional Induction
data modelling,
Aggregation,
Statistics
Example List all What is the average Who will buy
customers who income of printers along with
purchased customers across computers?
Computers in regions?
the last year.
BITS Pilani, Hyderabad Campus
Data Mining Tasks

Objective is to predict the value of a particular

attribute based on the values of other attributes. Classification

Predictive Regression

Data Outlier Detection

Mining
Descriptive Clustering

Association
Objective is to derive patterns
Sequential Pattern
Mining
BITS Pilani, Hyderabad Campus
Classification Example
cal cal u s
ri ri uo
go g o i n
a te a te o nt a ss
c c c cl
Tid Home Marital Taxable Home Marital Taxable
Owner Status Income Default Owner Status Income Default

1 Yes Single 125K No No Single 75K ?

2 No Married 100K No Yes Married 50K ?

3 No Single 70K No No Married 150K ?

4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? Test
10

Set
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
Training
10 No Single 90K Yes Model
10
Set

BITS Pilani, Hyderabad Campus

Classification: Definition
• Given a collection of records (training set )
– Each record contains a set of attributes, one of the attributes is the class.

• Find a model for class attribute as a function of the values of

other attributes.

• Goal: previously unseen records should be assigned a class as

accurately as possible.
– A test set is used to determine the accuracy of the model. Usually, the
given data set is divided into training and test sets, with training set used to
build the model and test set used to validate it.

BITS Pilani, Hyderabad Campus

Regression

• For classification the output(s) is nominal

• In regression the output is continuous

– Function Approximation

• Many models could be used – Simplest is linear regression

– Fit data with the best hyper-plane which "goes through"

the points y
dependent
variable
(output)

x – independent variable (input)

BITS Pilani, Hyderabad Campus
Clustering

BITS Pilani, Hyderabad Campus

Association Rule Mining

BITS Pilani, Hyderabad Campus

Sequential Pattern Mining
• Given a set of sequences and support threshold, find the
complete set of frequent subsequences

A sequence : < (ef) (ab) (df) c b >

A sequence database
SID sequence An element may contain a set of items.
10 <a(abc)(ac)d(cf)> Items within an element are unordered
and we list them alphabetically.
20 <(ad)c(bc)(ae)>
30 <(ef)(ab)(df)cb> <a(bc)dc> is a subsequence
40 <eg(af)cbc> of <a(abc)(ac)d(cf)>

Given support threshold min_sup =2, <(ab)c> is a

sequential pattern
BITS Pilani, Hyderabad Campus
Challenges in Data Mining

• Tremendous amount of data

• Algorithms must be highly scalable to handle such as
tera-bytes of data
• High-dimensionality of data
• Micro-array may have tens of thousands of
dimensions • High complexity of data
• Noisy and unreliable
• Dynamically evolving
• High dimensionality
• Multiple heterogeneous sources
• New and sophisticated applications

BITS Pilani, Hyderabad Campus

Teaching and Evaluation for
BITS F415 – L P U 3 0 3
Evaluation Scheme:
Nature of
Component Duration Weightage (%)
Component
Mid Term Exam 90 Mins. 25 Closed Book
Quizzes (Three) 30 Mins 15 Closed Book
Assignments -- 25 Open Book
Comprehensive 3 Hours 35 Closed Book

Chamber Consultation Hour: Mon 8th hour

Notices: All notices pertaining to this course will be displayed on the CMS/ CSIS Notice
Board.

Make-up Policy: Prior Permission is must and Make-up shall be granted only in genuine
cases based on individual’s need, circumstances. The recommendation from chief
warden is necessary to request for a make-up.
BITS Pilani, Hyderabad Campus
Books

TEXT BOOK REFERENCE BOOKS

BITS Pilani, Hyderabad Campus

Take home message

• Data Mining refers to non-trivial extraction of implicit,

previously unknown and potentially useful knowledge from
data
• Data Mining covers topics including warehousing,
association analysis, clustering, classification, anomaly
detection, etc. (based on the type of mined knowledge), as
well as transaction data mining, stream data mining,
sequence data mining, graph data mining, etc. (based on
the type of data)
• Data Mining has wide applications in many different fields in
business, science, engineering, education, and many more

BITS Pilani, Hyderabad Campus

Digital Advertising Workbook
100% (2)
Digital Advertising Workbook
34 pages
Dental Practice BSC Report
No ratings yet
Dental Practice BSC Report
46 pages
L1 - Introduction
No ratings yet
L1 - Introduction
21 pages
CS F415 L1 - Introduction
No ratings yet
CS F415 L1 - Introduction
24 pages
FoDS - L1
No ratings yet
FoDS - L1
33 pages
CS F415 L2 - Data
No ratings yet
CS F415 L2 - Data
33 pages
L2-4 - Data
No ratings yet
L2-4 - Data
83 pages
ML CS-2 CS3 Student Reference V1.0
No ratings yet
ML CS-2 CS3 Student Reference V1.0
88 pages
FoDS - L8
No ratings yet
FoDS - L8
53 pages
RL3.1 Data Descriptions 1
No ratings yet
RL3.1 Data Descriptions 1
18 pages
Machine Learning: BITS Pilani
No ratings yet
Machine Learning: BITS Pilani
52 pages
RL2.1 Data Preprocessing Concepts 1
No ratings yet
RL2.1 Data Preprocessing Concepts 1
16 pages
CS-11-01
No ratings yet
CS-11-01
124 pages
Merged FDS Midterm
No ratings yet
Merged FDS Midterm
86 pages
IDS8 Midsem Review
No ratings yet
IDS8 Midsem Review
24 pages
CS L03 MachineLearning Basics 01
No ratings yet
CS L03 MachineLearning Basics 01
66 pages
FoDS - L10
No ratings yet
FoDS - L10
12 pages
FoDS - L2
No ratings yet
FoDS - L2
26 pages
Data Warehouse Presentation
No ratings yet
Data Warehouse Presentation
28 pages
Merged Presentation Choladeck Choladeck-compressed
No ratings yet
Merged Presentation Choladeck Choladeck-compressed
239 pages
ML CS13_bagging
No ratings yet
ML CS13_bagging
39 pages
Mining Using Genitic Algorithms
No ratings yet
Mining Using Genitic Algorithms
7 pages
CS L03 MachineLearning Basics 01
No ratings yet
CS L03 MachineLearning Basics 01
73 pages
BAZG522 L7 Classification 1
No ratings yet
BAZG522 L7 Classification 1
65 pages
Data Mining
100% (1)
Data Mining
53 pages
rl8.3 - Text - Mining 1
No ratings yet
rl8.3 - Text - Mining 1
28 pages
CS F415 L5 - Feature Selection
No ratings yet
CS F415 L5 - Feature Selection
27 pages
Bia Unit-3 Part-2
No ratings yet
Bia Unit-3 Part-2
43 pages
Clustering 2
No ratings yet
Clustering 2
80 pages
Machine Learning: BITS Pilani
No ratings yet
Machine Learning: BITS Pilani
61 pages
Comparative Study of Data Mining Tools
No ratings yet
Comparative Study of Data Mining Tools
8 pages
1.1 What Is Data Mining?
No ratings yet
1.1 What Is Data Mining?
6 pages
Information Technology Fundamentals: CCIT4085
No ratings yet
Information Technology Fundamentals: CCIT4085
43 pages
ZG536 L1 Introduction 180125
No ratings yet
ZG536 L1 Introduction 180125
24 pages
CS-DM MODULE -1
No ratings yet
CS-DM MODULE -1
27 pages
CSE2021 - MODULE 1ppt
No ratings yet
CSE2021 - MODULE 1ppt
62 pages
DMW Notes UNIT-1 2023-24
No ratings yet
DMW Notes UNIT-1 2023-24
15 pages
MLSlides1 Selected Shared
No ratings yet
MLSlides1 Selected Shared
21 pages
Classification - Naive Bayes Classifier: DR - Aruna Malapati Asst Professor Dept of CS & IT BITS Pilani, Hyderabad Campus
No ratings yet
Classification - Naive Bayes Classifier: DR - Aruna Malapati Asst Professor Dept of CS & IT BITS Pilani, Hyderabad Campus
9 pages
CS F415 1322 Data Mining
No ratings yet
CS F415 1322 Data Mining
3 pages
(IJCST-V3I1P21) : S. Padmapriya
No ratings yet
(IJCST-V3I1P21) : S. Padmapriya
5 pages
Data Warehousing & Mining: Unit - Iv
No ratings yet
Data Warehousing & Mining: Unit - Iv
32 pages
QM
No ratings yet
QM
437 pages
IDS All Merged 4x1 Landscape Print
No ratings yet
IDS All Merged 4x1 Landscape Print
210 pages
L11-12 Qualitative Association Rule Mining
No ratings yet
L11-12 Qualitative Association Rule Mining
22 pages
L13-16 Sequential Patterns
No ratings yet
L13-16 Sequential Patterns
36 pages
Chapter 26: Data Mining: (Some Slides Courtesy of Rich Caruana, Cornell University)
No ratings yet
Chapter 26: Data Mining: (Some Slides Courtesy of Rich Caruana, Cornell University)
181 pages
CS F415 Data Mining Data Preprocessing
No ratings yet
CS F415 Data Mining Data Preprocessing
103 pages
Informa) CS: Lecture 6 - Processing Informa4on
No ratings yet
Informa) CS: Lecture 6 - Processing Informa4on
29 pages
Data Mining Introductiondifferent
No ratings yet
Data Mining Introductiondifferent
83 pages
Iszc 415
No ratings yet
Iszc 415
4 pages
Is Zc415 (Data Mining BITS-WILP)
No ratings yet
Is Zc415 (Data Mining BITS-WILP)
4 pages
FDS L1 To L8 Slides
No ratings yet
FDS L1 To L8 Slides
143 pages
DWH Sessions 1-4
No ratings yet
DWH Sessions 1-4
166 pages
DWDM Unitwise Questions
No ratings yet
DWDM Unitwise Questions
3 pages
Class-1 to 16 Recap Data Mining Bits Pilani
No ratings yet
Class-1 to 16 Recap Data Mining Bits Pilani
11 pages
Data Mining Notes: 7 Semester. CS 1435: Syllabus
No ratings yet
Data Mining Notes: 7 Semester. CS 1435: Syllabus
4 pages
Data Mining and C
No ratings yet
Data Mining and C
85 pages
DM - MOD - 1 Part II
No ratings yet
DM - MOD - 1 Part II
14 pages
FDS Main
No ratings yet
FDS Main
141 pages
Amity School of Engineering and Technology: Submitted To
No ratings yet
Amity School of Engineering and Technology: Submitted To
28 pages
Data Analysis Foundation Courseware
From Everand
Data Analysis Foundation Courseware
Van Haren Learning Solutions a.o.
No ratings yet
L24-25 BIRCH and CURE
No ratings yet
L24-25 BIRCH and CURE
13 pages
L17 Clustering
No ratings yet
L17 Clustering
35 pages
L18 K Means
No ratings yet
L18 K Means
27 pages
L6-7 - Apriori
No ratings yet
L6-7 - Apriori
22 pages
L8 - Support Count Using Hash Tree
No ratings yet
L8 - Support Count Using Hash Tree
14 pages
Unit 5 Review
No ratings yet
Unit 5 Review
2 pages
Проект Аширали Г. Асанова А. Ауелбекова У. Ишанова А.
No ratings yet
Проект Аширали Г. Асанова А. Ауелбекова У. Ишанова А.
26 pages
Stresses in Beams
No ratings yet
Stresses in Beams
5 pages
Sample Exam
No ratings yet
Sample Exam
9 pages
DS1200
No ratings yet
DS1200
7 pages
FijiTimes September 18 2015 PDF
No ratings yet
FijiTimes September 18 2015 PDF
28 pages
Case Study Analysis The Fashion Channel
No ratings yet
Case Study Analysis The Fashion Channel
2 pages
DEED OF ABSOLUTE SALE Sta Ana Lot Final 1.5
No ratings yet
DEED OF ABSOLUTE SALE Sta Ana Lot Final 1.5
3 pages
Automatic Vehicle Accident Detection and Messaging System Using GPS and GSM Modems PDF
No ratings yet
Automatic Vehicle Accident Detection and Messaging System Using GPS and GSM Modems PDF
4 pages
AS228 Encoder Okuma
No ratings yet
AS228 Encoder Okuma
13 pages
8.-sinif-ingilizce-9.-unite-calisma-kagidi-by-teamwork
No ratings yet
8.-sinif-ingilizce-9.-unite-calisma-kagidi-by-teamwork
4 pages
User Operation Manual: Eclipse 8 Eclipse 16 Eclipse 32
No ratings yet
User Operation Manual: Eclipse 8 Eclipse 16 Eclipse 32
44 pages
UMPT Introduction and Discussion For NBI 0711-Libre
No ratings yet
UMPT Introduction and Discussion For NBI 0711-Libre
48 pages
Modified School Forms: Office of Planning Service
No ratings yet
Modified School Forms: Office of Planning Service
22 pages
Rape cases data analysis
No ratings yet
Rape cases data analysis
25 pages
Tugas English 3-12
No ratings yet
Tugas English 3-12
7 pages
Homework, Wind Energy
No ratings yet
Homework, Wind Energy
11 pages
more-reading-practice_hk2
No ratings yet
more-reading-practice_hk2
2 pages
Take Home CP 12 Work Energy Method Rigid Bodies
No ratings yet
Take Home CP 12 Work Energy Method Rigid Bodies
1 page
Dokumen.pub the New Commodity Trading Guide Breakthrough Strategies for Capturing Market Profits 1st Edition 0137145292 9780137145294
No ratings yet
Dokumen.pub the New Commodity Trading Guide Breakthrough Strategies for Capturing Market Profits 1st Edition 0137145292 9780137145294
193 pages
Gcst Research Manual (1)
No ratings yet
Gcst Research Manual (1)
108 pages
Chandelier (Tarnished Crowns Trilogy #1) 1st Edition Dyer Annie all chapter instant download
100% (2)
Chandelier (Tarnished Crowns Trilogy #1) 1st Edition Dyer Annie all chapter instant download
55 pages
Chapter 1 Pesto - Docx, With Corrections
No ratings yet
Chapter 1 Pesto - Docx, With Corrections
11 pages
Thromboangitis Obliterans (Buerger's Disease)
No ratings yet
Thromboangitis Obliterans (Buerger's Disease)
5 pages
British Journal of Nursing - The Endocrine System and Associated Disorders
No ratings yet
British Journal of Nursing - The Endocrine System and Associated Disorders
17 pages
Coller Capital - Funds Group
No ratings yet
Coller Capital - Funds Group
10 pages
Portable Executable Format
No ratings yet
Portable Executable Format
18 pages
BaniladES1 SBM TOOL
No ratings yet
BaniladES1 SBM TOOL
61 pages

L1 - Introduction

Uploaded by

L1 - Introduction

Uploaded by

BITS Pilani

BITS Pilani Dr.Aruna Malapati

Data Mining - Introduction

• Define what is Data Mining

• List the Steps/Phases involved in data Mining

• Compare DBMS,OLAP and Data Mining

• List the Predictive and Descriptive Data Mining Tasks

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

Searching for knowledge

BITS Pilani, Hyderabad Campus

• Alternative names – Knowledge discovery (mining) in databases

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

Objective is to predict the value of a particular

Data Outlier Detection

1 Yes Single 125K No No Single 75K ?

2 No Married 100K No Yes Married 50K ?

3 No Single 70K No No Married 150K ?

BITS Pilani, Hyderabad Campus

• Find a model for class attribute as a function of the values of

• Goal: previously unseen records should be assigned a class as

BITS Pilani, Hyderabad Campus

• For classification the output(s) is nominal

• In regression the output is continuous

• Many models could be used – Simplest is linear regression

– Fit data with the best hyper-plane which "goes through"

x – independent variable (input)

BITS Pilani, Hyderabad Campus

BITS Pilani, Hyderabad Campus

A sequence : < (ef) (ab) (df) c b >

Given support threshold min_sup =2, <(ab)c> is a

• Tremendous amount of data

BITS Pilani, Hyderabad Campus

Chamber Consultation Hour: Mon 8th hour

TEXT BOOK REFERENCE BOOKS

BITS Pilani, Hyderabad Campus

• Data Mining refers to non-trivial extraction of implicit,

BITS Pilani, Hyderabad Campus

You might also like