0% found this document useful (0 votes)

70 views4 pages

Data Mining Fundamentals

Data mining involves the non-trivial extraction of implicit, previously unknown, and potentially useful information from large datasets. It uses algorithms to automatically analyze operational data, documents, experiment results, and more stored in databases. As more data is collected but analysts have limited time to examine it all, data mining aims to reveal hidden patterns and insights within existing information.

Uploaded by

Shah Saima

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

70 views4 pages

Data Mining Fundamentals

Uploaded by

Shah Saima

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

DB

MG Data mining fundamentals

DataBase and Data Mining Group of Politecnico di Torino

Data analysis
Most companies own huge databases
containing
operational data
Data mining fundamentals textual documents
experiment results

DB
These databases are a potential

MG
source of useful information
Data Base and Data Mining Group of Politecnico di Torino

Elena Baralis
Politecnico di Torino
DB
MG
2

Data analysis Data mining

Information is hidden in huge datasets Non trivial extraction of
not immediately evident implicit
human analysts need a large amount of time for the previously unknown
analysis potentially useful
most data is never analyzed at all information from available data
4,000,000

3,500,000 The Data Gap

Extraction is automatic
3,000,000 performed by appropriate algorithms
2,500,000

2,000,000
Extracted information is represented by means of
1,500,000
Disk space (TB) abstract models
since 1995
1,000,000 denoted as pattern
500,000
Analyst
number
0

DB DB
1995 1996 1997 1998 1999

MG MG
3 4
From R. Grossman, C. Kamath, V. Kumar, Data
Mining for Scientific and Engineering Applications

Example: profiling Example: profiling

User/service profiling
Consumer behavior in e-commerce sites
Recommendation systems
Selected products, requested information,
Advertisements
Search engines and portals
Market basket analysis
Query keywords, searched topics and objects
Correlated objects for cross selling
Social network data User registration, fidelity cards
Facebook, google+ profiles Context-aware data analysis
Dynamic data: posts on blogs, FB, tweets Integration of different dimensions
Maps and georeferenced data E.g., location, time of the day, user interest
Localization, interesting locations for users Text mining
Brand reputation, sentiment analysis, topic trends

DB
MG
5 DB
MG
6

Elena Baralis
Politecnico di Torino
1
DB
MG Data mining fundamentals
DataBase and Data Mining Group of Politecnico di Torino

Example: biological data Biological analysis objectives

Microarray Clinical analysis
expression level of genes in a cellular tissue detecting the causes of a pathology
various types (mRNA, DNA) monitoring the effect of a therapy
diagnosis improvement and definition of new specific
Patient clinical records CLID
PATIENT shx013: shv060: shq077: shx009: shx014: shq082: shq083: shx008:
therapies
ID 49A34 45A9 52A28 4A34 61A31 99A6 46A15 41A31
personal and demographic data IMAGE:740604
ISG20 || interferon-1.02
IMAGE:767176
TNFSF13 || tumor-0.52
stimulated-2.34
gene 20kDa
necrosis -4.06
1.44
factor (ligand)
0.57 -0.13
-0.29superfamily,
0.71member1.03
13 -0.67
0.12 0.34
0.22
-0.51
-0.09
Bio-discovery
exam results IMAGE:366315
LOC93343 || **hypothetical
-0.25 -4.08 protein BC011840
0.06 0.13 0.08 0.06 -0.08 -0.05
IMAGE:235135
ITGA4 || integrin,-1.375
alpha 4 (antigen
-1.605 CD49D, 0.155alpha -0.015
4 subunit of0.035
VLA-4 receptor)
-0.035 0.505 -0.865 gene network discovery
Textual data in public collections analysis of multifactorial genetic pathologies
heterogeneous formats, different objectives
Pharmacogenesis
scientific literature (PUBMed)
lab design of new drugs for genic therapies
ontologies (Gene Ontology)

DB
MG
7 DB
MG
8

Knowledge Discovery Process Preprocessing

data cleaning
reduces the effect of noise
selection
identifies or removes outliers
preprocessing solves inconsistencies
preprocessing
data integration
transformation reconciles data extracted
data selected from different sources
selected data mining data integrates metadata
data preprocessed identifies and solves data
preprocessed interpretation
data value conflicts
data manages redundancy
transformed
data Real world data is dirty
pattern
knowledge Without good quality data, no good quality
KDD = Knowledge Discovery from Data pattern
DB
MG
10 DB
MG
11

Data mining origins Analysis techniques

Draws from
statistics, artificial intelligence (AI)
Descriptive methods
pattern recognition, machine Extract interpretable models describing data
learning Machine Learning, Example: client segmentation
Statistics,
database systems AI Pattern

Recognition Predictive methods
Traditional techniques are not
Exploit some known variables to predict
appropriate because of Data Mining
unknown or future values of (other) variables
significant data volume
large data dimensionality
Example: spam email detection
Database
systems
heterogeneous and distributed
nature of data
From: P. Tan, M. Steinbach, V. Kumar,
Introduction to Data Mining

DB
MG
12 DB
MG
13

Elena Baralis
Politecnico di Torino
2
DB
MG Data mining fundamentals
DataBase and Data Mining Group of Politecnico di Torino

Classification Classification
Objectives Approaches
decision trees
prediction of a class label
bayesian classification
definition of an interpretable model of a given classification rules
phenomenon neural networks
k-nearest neighbours
training data training data SVM

model model

unclassified data classified data unclassified data classified data

DB
MG
14 DB
MG
15

Classification Classification
Requirements Applications
accuracy detection of customer propension to leave a company
(churn or attrition)
interpretability fraud detection
scalability classification of different pathology types
noise and outlier
management
training data dati di training

model modello

unclassified data classified data dati non classificati dati classificati

DB
MG
16 DB
MG
17

Clustering Clustering
Approaches
Objectives
partitional (K-means)
detecting groups of similar data objects
hierarchical
identifying exceptions and outliers
density-based (DBSCAN)
SOM

Requirements
scalability
management of
noise and outliers
large dimensionality
interpretability

DB
MG
18 DB
MG
19

Elena Baralis
Politecnico di Torino
3
DB
MG Data mining fundamentals
DataBase and Data Mining Group of Politecnico di Torino

Clustering Association rules

Applications Objective
customer segmentation extraction of frequent correlations or pattern from a
clustering of documents containing similar information transactional database
grouping genes with similar expression pattern
Tickets at a supermarket
counter Association rule
TID Items diapers beer
1 Bread, Coke, Milk
2% of transactions contains
2 Beer, Bread both items
3 Beer, Coke, Diapers, Milk 30% of transactions
4 Beer, Bread, Diapers, Milk containing diapers also
5 Coke, Diapers, Milk contain beer

DB
MG
20 DB
MG
21

Association rules Other data mining techniques

Applications Sequence mining
market basket analysis ordering criteria on analyzed data are taken into
cross-selling account
shop layout or catalogue design example: motif detection in proteins
Time series and geospatial data
Tickets at a supermarket
temporal and spatial information are considered
counter Association rule
example: sensor network data
TID Items diapers beer Regression
1 Bread, Coca Cola, Milk Sensor network
2% of transactions contains prediction of a continuous value
2 Beer, Bread both items
example: prediction of stock quotes
3 Beer, Coca Cola, Diapers, Milk 30% of transactions
Outlier detection
4 Beer, Bread, Diapers, Milk containing diapers also
example: intrusion detection in network traffic
5 Coca Cola, Diapers, Milk contain beer analysis

DB
MG
22 DB
MG
23

Open issues

Scalability to huge data volumes

Data dimensionality
Complex data structures, heterogeneous data
formats
Data quality
Privacy preservation
Streaming data

DB
MG
24

Elena Baralis
Politecnico di Torino
4

Ocs353dsf Unit Wise Notes
100% (2)
Ocs353dsf Unit Wise Notes
121 pages
2016 Book PrinciplesOfDataMining PDF
100% (3)
2016 Book PrinciplesOfDataMining PDF
530 pages
Designing Machine Learning Systems With Python - Sample Chapter
100% (1)
Designing Machine Learning Systems With Python - Sample Chapter
31 pages
Advanced Data Analytics Assignment
No ratings yet
Advanced Data Analytics Assignment
6 pages
Paper - Xvii Data Mining and Warehousing
No ratings yet
Paper - Xvii Data Mining and Warehousing
140 pages
Using Metasploit For Real
100% (1)
Using Metasploit For Real
6 pages
PDF Information Technology
No ratings yet
PDF Information Technology
54 pages
Big Data Analytics
100% (1)
Big Data Analytics
11 pages
Data Mining Report
100% (1)
Data Mining Report
15 pages
Cisco Exploration CCNA1 Final Exam V 4 0 ANSWERS May 2010
100% (1)
Cisco Exploration CCNA1 Final Exam V 4 0 ANSWERS May 2010
20 pages
Railway Reservation Project in C++: Introduction
No ratings yet
Railway Reservation Project in C++: Introduction
27 pages
Unit II - Data Science
No ratings yet
Unit II - Data Science
113 pages
UNIX - LINUX Interview Questions and Answers
No ratings yet
UNIX - LINUX Interview Questions and Answers
5 pages
Test Plan Template (IEEE 829-1998 Format)
No ratings yet
Test Plan Template (IEEE 829-1998 Format)
9 pages
I2C Interface To Serial EEPROM
100% (1)
I2C Interface To Serial EEPROM
8 pages
Datamining With Big Data - Siva
No ratings yet
Datamining With Big Data - Siva
69 pages
Microprocessor Exam
100% (1)
Microprocessor Exam
2 pages
Buildgui PDF
No ratings yet
Buildgui PDF
500 pages
Deployment: Cheat Sheet: Machine Learning With KNIME Analytics Platform
No ratings yet
Deployment: Cheat Sheet: Machine Learning With KNIME Analytics Platform
1 page
K
No ratings yet
K
1,023 pages
Deployment: Cheat Sheet: Machine Learning With KNIME Analytics Platform
No ratings yet
Deployment: Cheat Sheet: Machine Learning With KNIME Analytics Platform
2 pages
Lecture 3 - Data Manipulation
No ratings yet
Lecture 3 - Data Manipulation
51 pages
Elective Data and Analysis Prelim Examination
No ratings yet
Elective Data and Analysis Prelim Examination
1 page
RMA Process Overview
No ratings yet
RMA Process Overview
29 pages
Datamining: by Guan Hang Su Cs157A Section 2 Fall 2005
0% (1)
Datamining: by Guan Hang Su Cs157A Section 2 Fall 2005
31 pages
Big Data Analytics
100% (1)
Big Data Analytics
3 pages
Reg - No: 91009534002 Of: in Partial Fulfillment of The Requirement For The Award of The Degree
No ratings yet
Reg - No: 91009534002 Of: in Partial Fulfillment of The Requirement For The Award of The Degree
50 pages
Data Mining and Data Warehousing
No ratings yet
Data Mining and Data Warehousing
9 pages
Statpack 10 08
No ratings yet
Statpack 10 08
75 pages
Data Mining Based On Neural Networks: Fore Word: What Is A Neural Network?
No ratings yet
Data Mining Based On Neural Networks: Fore Word: What Is A Neural Network?
21 pages
Chameleon Chips Full Report
No ratings yet
Chameleon Chips Full Report
24 pages
30 Netkit Lab BGP Transit As
No ratings yet
30 Netkit Lab BGP Transit As
171 pages
New Features Guide: Informatica (Version 9.1.0)
No ratings yet
New Features Guide: Informatica (Version 9.1.0)
18 pages
Dataanalytics Notes
No ratings yet
Dataanalytics Notes
106 pages
DWM Merged
No ratings yet
DWM Merged
125 pages
ELEC254 Microprocessor Experiments Project Report
No ratings yet
ELEC254 Microprocessor Experiments Project Report
17 pages
Datamining Lect1
No ratings yet
Datamining Lect1
61 pages
Database Management System 1 - Lecture 1 and Activity 1
No ratings yet
Database Management System 1 - Lecture 1 and Activity 1
4 pages
Small Talk
No ratings yet
Small Talk
105 pages
Interview Questions 123 PDF
No ratings yet
Interview Questions 123 PDF
94 pages
ML Customer Segmentation
No ratings yet
ML Customer Segmentation
39 pages
R15a0530 Bda PDF
No ratings yet
R15a0530 Bda PDF
43 pages
Swapnilreport
No ratings yet
Swapnilreport
42 pages
Sesion 3 - Estructuras, Controles y ListView TreeView
No ratings yet
Sesion 3 - Estructuras, Controles y ListView TreeView
18 pages
Scheduling
No ratings yet
Scheduling
62 pages
Big Data Lesson 1 Lucrezia Noli
No ratings yet
Big Data Lesson 1 Lucrezia Noli
46 pages
Apache Server (HTTP) Interview Questions
No ratings yet
Apache Server (HTTP) Interview Questions
4 pages
Andriya-Seminar Repot (1) ..
No ratings yet
Andriya-Seminar Repot (1) ..
28 pages
Data Mining Techniques and Applications PDF
No ratings yet
Data Mining Techniques and Applications PDF
5 pages
Data Mining1
No ratings yet
Data Mining1
16 pages
Report
No ratings yet
Report
42 pages
Polyworks Cybermapping - 2009 Building A Mesh From Text Files
No ratings yet
Polyworks Cybermapping - 2009 Building A Mesh From Text Files
29 pages
FDS Chap 1
No ratings yet
FDS Chap 1
22 pages
Sculpteo Design Guidelines
No ratings yet
Sculpteo Design Guidelines
34 pages
Compusoft, 3 (10), 1124-1127 PDF
No ratings yet
Compusoft, 3 (10), 1124-1127 PDF
4 pages
DataMiningSynopsis Sawan
No ratings yet
DataMiningSynopsis Sawan
19 pages
Dynamic Random Access Memory
No ratings yet
Dynamic Random Access Memory
20 pages
DWM - Notes Unit 1 To Unit 5
No ratings yet
DWM - Notes Unit 1 To Unit 5
23 pages
Data-Mining FINAL
No ratings yet
Data-Mining FINAL
45 pages
"Sentiment Analysis of Survey Comments: Animesh Tilak
No ratings yet
"Sentiment Analysis of Survey Comments: Animesh Tilak
12 pages
Data Modeling: Jak Na Cheatsheet
No ratings yet
Data Modeling: Jak Na Cheatsheet
3 pages
Predictive Data Mining and Discovering Hidden Values of Data Warehouse
No ratings yet
Predictive Data Mining and Discovering Hidden Values of Data Warehouse
5 pages
Text Pad Tutorial
No ratings yet
Text Pad Tutorial
11 pages
Data Mining 1
No ratings yet
Data Mining 1
4 pages
5 Free Books To Master Machine Learning - KDnuggets
No ratings yet
5 Free Books To Master Machine Learning - KDnuggets
11 pages
Big Data
No ratings yet
Big Data
8 pages
Data Scince Report
No ratings yet
Data Scince Report
11 pages
MCA1
No ratings yet
MCA1
9 pages
Unit 1
No ratings yet
Unit 1
4 pages
Comparative Study of Data Mining Tools
No ratings yet
Comparative Study of Data Mining Tools
8 pages
Data Mining: Etymology
No ratings yet
Data Mining: Etymology
1 page
School of AI (Responses)
No ratings yet
School of AI (Responses)
2 pages
A Survey of Machine Learning Algorithms For Big Data Analytics
No ratings yet
A Survey of Machine Learning Algorithms For Big Data Analytics
4 pages
Data Warehousing and Data Mining Iv-Cse A: Prepared by
No ratings yet
Data Warehousing and Data Mining Iv-Cse A: Prepared by
5 pages
Data Mining 3th Editions
No ratings yet
Data Mining 3th Editions
2 pages
History of Datamining and Its Impact On Society
No ratings yet
History of Datamining and Its Impact On Society
4 pages
Database Management System Dbms
No ratings yet
Database Management System Dbms
1 page
Cheat Sheet ML 25082023
No ratings yet
Cheat Sheet ML 25082023
2 pages
PCAC2009
No ratings yet
PCAC2009
3 pages
Part I - 1 - Summary
No ratings yet
Part I - 1 - Summary
1 page
Sodapdf
No ratings yet
Sodapdf
1 page
Data Science Roadmap 1737915697
No ratings yet
Data Science Roadmap 1737915697
1 page
AWS Database
No ratings yet
AWS Database
1 page
DMW Syllabus
No ratings yet
DMW Syllabus
1 page
1.1.2 Transcript
No ratings yet
1.1.2 Transcript
1 page
Xtasy
No ratings yet
Xtasy
1 page
Essentials For Scientific Computing: Introduction To UNIX and Linux Day 2
No ratings yet
Essentials For Scientific Computing: Introduction To UNIX and Linux Day 2
4 pages
Datetime - Python Create Unix Timestamp Five Minutes in The Future - Stack Overflow
No ratings yet
Datetime - Python Create Unix Timestamp Five Minutes in The Future - Stack Overflow
4 pages
JD - Senior Java Developer
No ratings yet
JD - Senior Java Developer
1 page
机器学习开发者指南: Chinese Edition
From Everand
机器学习开发者指南: Chinese Edition
Posts & Telecom Press
No ratings yet