0% found this document useful (0 votes)

511 views24 pages

Data Mining - Functionalities, Classification and Task Primitives

This document discusses data mining functionalities and task primitives. It describes characterization and discrimination, mining frequent patterns and associations, classification and regression, clustering analysis, and outlier analysis as the main functionalities of data mining. It also discusses how a data mining task involves specifying the relevant data, type of knowledge to be mined, any background knowledge, interestingness measures, and how the results should be presented. The document provides examples of concept hierarchies and interestingness measures that can be used.

Uploaded by

selvarunachalam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

511 views24 pages

Data Mining - Functionalities, Classification and Task Primitives

Uploaded by

selvarunachalam

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 24

Data Mining: Functionalities, Classification and Task Primitives

PRESENT BY K.Aravind (10mx03) M.Boobalan (10mx05) V.Boopathiraj (10mx06) S.Kadhiresan (10mx18) L.RoshanAli (10mx41) A.Selvaraj (10mx46)

Data Mining Functionalities

It includes
Characterization and Discrimination Mining Frequent Patterns, Associations, and Correlations Classification and Regression Clustering Analysis Outlier Analysis

Characterization and Discrimination

y Class/Concept Description: Characterization and

Discrimination
y Data entries can be associated with classes or concepts y describe individual classes and concepts in summarized, concise,

and precise terms. Such descriptions of a class or a concept are called class/concept descriptions.

Characterization and Discrimination

y Data characterization is a summarization of the general

characteristics or features of a target class of data. y Data discrimination is a comparison of the general features of the target class data objects against the general features of objects from one or multiple contrasting classes.

Mining Frequent Patterns, Association &Correlation

y Frequent Patterns are the patterns that occur simultaneously.
y frequent patterns, including frequent itemsets, frequent

subsequences (sequential patterns), and frequent substructures

y Association Rules
y Single dimensional association rules vs Multi dimensional

association rules

Association rules are discarded as uninteresting if they do not satisfy both a minimum support threshold and a minimum confidence threshold.

Classification and Regression

y Classification is the process of finding a model (or function)

y y y y

that describes and distinguishes data classes or concepts for future prediction Class label is known E.g., classify countries based on climate, or classify cars based on gas mileage Presentation: decision-tree, classification rule, neural network Prediction: Predict some unknown or missing numerical values

Cluster Analysis
y Class label is unknown: Group data to form new classes, e.g.,

cluster houses to find distribution patterns y Clustering based on the principle: Maximizing the Intraclass similarity and Minimizing the Interclass similarity

Outlier Analysis
y Outlier: a data object that does not comply with the general

behavior of the data y It can be considered as noise or exception but it is quite useful in fraud detection, rare events analysis y The analysis of outlier data is referred to as outlier analysis or anomaly mining.

Are all Patterns Interesting?

y What makes a pattern interesting? y Can a data mining system generate all of the interesting

patterns? y Can a data mining system generate only interesting patterns?

Cont
y A data mining system/query may generate thousands of patterns, not all of them are

interesting.
y Suggested approach: Human-centered, query-based, focused mining y Interestingness measures: A pattern is interesting if it is easily understood by

humans, valid on new or test data with some degree of certainty, potentially useful, novel, or validates some hypothesis that a user seeks to confirm
y Objective vs. subjective interestingness measures: y Objective: based on statistics and structures of patterns, e.g., support,

confidence, etc.
y Subjective: based on users belief in the data, e.g., unexpectedness, novelty,

actionability, etc.

Can We Find All and Only Interesting Patterns?

y Find all the interesting patterns: Completeness
y Can a data mining system find all the interesting patterns? y Association vs. classification vs. clustering

y Search for only interesting patterns: Optimization

y Can a data mining system find only the interesting patterns? y Approaches y First general all the patterns and then filter out the uninteresting ones. y Generate only the interesting patternsmining query optimization

Data Mining : Classification Schemes

y General Functionality
y Descriptive data mining y Predictive data mining

y Different views, different classifications

y Kinds of databases to be mined y Kinds of knowledge to be discovered y Kinds of techniques utilized y Kinds of applications adapted

A Multi-Dimensional View of Data Mining Classification

y Databases to be mined
y Relational, transactional, object-oriented, object-relational, active,

spatial, time-series, text, multi-media, heterogeneous, legacy, WWW, etc.

y Knowledge to be mined
y Characterization, discrimination, association, classification,

clustering, trend, deviation and outlier analysis, etc. y Multiple/integrated functions and mining at multiple levels

Cont
y Techniques utilized
y Database-oriented, data warehouse (OLAP), machine learning,

statistics, visualization, neural network, etc.

y Applications adapted
y Retail, telecommunication, banking, fraud analysis, DNA

mining, stock market analysis, Web mining, Weblog analysis, etc.

Data Mining : Task Primitives

y Data mining without user interaction is usually not helpful y Users may request a few data mining primitives to be

performed on data
y specification of data to be mined y set of data in which the user is interested y kinds of knowledge to be mined y background knowledge useful in guiding the discovery process y specification of how knowledge should be visualized

Pieces of a Data Mining Task

y What data to mine
y list of relevant attributes

y Kinds of knowledge to be mined

y y y y y y

characterization discrimination association classification clustering evolution analysis

y Background knowledge
y concept hierarchies

y Interestingness Measures
y separate patterns from knowledge

y Presentation and visualization of patterns

Task Relevant Data

y Mixable view of the data
y name of database or warehouse y name of tables or cubes y conditions for selecting useful data y type = home entertainment y type = fruit y attributes or dimensions (e.g.; name and price)

Kind of Knowledge to be Mined

y Templates or meta patterns may be used to specify output

of results:
y P(X: customer, W) AND Q(X,Y) ->buys(X,Z) y age(X,30..30) AND income(X, 40K49K) -> buys(X,

VCR) [2.2%, 60%] y Might specify to classify input file of customers as likely to buy , not likely to buy y indicates 60% confidence is to be used and such cases should represent 2.2% of all transactions.

Background Knowledge: Concept Hierarchies

y Concept Hierarchy
y defines a sequence of mappings from a set of low-level y concept to higher-level. y location y time y product

y Types of hierarchies
y schema hierarchy y set-grouping hierarchy y operation derived hierarchy y rule-based hierarchy

Concept Hierarchies
y Schema
y total or partial order among an attribute, usually aware house

dimension (time, location, etc.)

y Set-Group
y values for a given attribute are lumped into groups of constants

or range values
y Operation defined
y automatically derived, clustering, extraction, etc.

y Rule-based
y hierarchy may be well defined by set of rules

Interestingness Measures
y Simplicity

e.g., (association) rule length, (decision) tree size y Certainty e.g., confidence, P(A|B) = n(A and B)/ n (B), classification reliability or accuracy, certainty factor, rule strength, rule quality, discriminating weight, etc. y Utility potential usefulness, e.g., support (association), noise threshold (description) y Novelty not previously known, surprising (used to remove redundant rules, e.g., Canada vs. Vancouver rule implication support ratio

Presentation and visualization of patterns

y Different backgrounds/usages may require different forms of

representation
y E.g., rules, tables, crosstabs, pie/bar chart etc. y Concept hierarchy is also important y Discovered knowledge might be more understandable when

represented at high level of abstraction

y Interactive drill up/down, pivoting, slicing and dicing provide

different perspective to data

y Different kinds of knowledge require different representation:

association, classification, clustering, etc.

Thank you!!!

Bad Romance Acappella by On The Rocks PDF
No ratings yet
Bad Romance Acappella by On The Rocks PDF
47 pages
235 Divani Kebirden Sechmeler Qazallar Rubailer I II III IV (Shefiq Can) (Otuken Yayinlari 2000)
No ratings yet
235 Divani Kebirden Sechmeler Qazallar Rubailer I II III IV (Shefiq Can) (Otuken Yayinlari 2000)
541 pages
Imamshenasi (Imamology) Vol 7, Allamah Muhammad Husain Tehrani
No ratings yet
Imamshenasi (Imamology) Vol 7, Allamah Muhammad Husain Tehrani
297 pages
Air Cond Installation
No ratings yet
Air Cond Installation
44 pages
Competitive Advantage Analysis and Strategy Formulation of Airport
100% (1)
Competitive Advantage Analysis and Strategy Formulation of Airport
33 pages
Bíñüäpü Báár A®Üì¿Á Gçýé Ë Ýwüwüúwæ Eñü Äôä. Pýâç Püáâçæàoã E Üáãàwüpær A®Üáêüá C Æ
No ratings yet
Bíñüäpü Báár A®Üì¿Á Gçýé Ë Ýwüwüúwæ Eñü Äôä. Pýâç Püáâçæàoã E Üáãàwüpær A®Üáêüá C Æ
8 pages
The Concepts and Practice of Mathematical Finance
No ratings yet
The Concepts and Practice of Mathematical Finance
536 pages
SC 3260
No ratings yet
SC 3260
236 pages
EZEKIEL CHAPTERS 38 AND 39 Bible Prophecy
No ratings yet
EZEKIEL CHAPTERS 38 AND 39 Bible Prophecy
30 pages
Jablotron pg3w
No ratings yet
Jablotron pg3w
2 pages
K 1016 Management (Paper III)
No ratings yet
K 1016 Management (Paper III)
32 pages
Congestion Control
No ratings yet
Congestion Control
20 pages
No. 07 (A) - PROCEDURES FOR APPLICATION AND RECOGNITION OF THE FOREIGN AWARD
No ratings yet
No. 07 (A) - PROCEDURES FOR APPLICATION AND RECOGNITION OF THE FOREIGN AWARD
8 pages
Immigration Book Ch.7
No ratings yet
Immigration Book Ch.7
59 pages
Ti8uho Retrieve
No ratings yet
Ti8uho Retrieve
24 pages
K-2316 Public Administration (Paper-III)
No ratings yet
K-2316 Public Administration (Paper-III)
12 pages
KSET_p2_2016
No ratings yet
KSET_p2_2016
8 pages
R.sreevani - Seminar Presentation
100% (3)
R.sreevani - Seminar Presentation
86 pages
Содержание
No ratings yet
Содержание
1 page
Chapter5 l1
No ratings yet
Chapter5 l1
61 pages
SEA Investigations WOrkshop Session 4 - Gathering Information
No ratings yet
SEA Investigations WOrkshop Session 4 - Gathering Information
53 pages
K-2416 Computer Science and Applications (Paper-II)
No ratings yet
K-2416 Computer Science and Applications (Paper-II)
8 pages
A Project Report On Portfolio Management
No ratings yet
A Project Report On Portfolio Management
30 pages
134.full
No ratings yet
134.full
3 pages
Shell Scripting by Santosh
No ratings yet
Shell Scripting by Santosh
87 pages
634114978819478856
No ratings yet
634114978819478856
50 pages
Civilization in Transit
No ratings yet
Civilization in Transit
17 pages
198 Shorthand (English) Theory
No ratings yet
198 Shorthand (English) Theory
3 pages
ASCE705 Seismic
100% (1)
ASCE705 Seismic
66 pages
ID Peran Teknologi Komunikasi Dan Informasi
No ratings yet
ID Peran Teknologi Komunikasi Dan Informasi
5 pages
8804 ID Nilai Ekonomi Lingkungan Dan Faktor Faktor Yang Mempengaruhi Permintaan Objek Wi
No ratings yet
8804 ID Nilai Ekonomi Lingkungan Dan Faktor Faktor Yang Mempengaruhi Permintaan Objek Wi
7 pages
Feasibility Plan
100% (4)
Feasibility Plan
78 pages
Dementia
100% (1)
Dementia
44 pages
Stress Ann
No ratings yet
Stress Ann
51 pages
13 Module 03 - B&W Mainstreaming Gender in Agrarian Reform Are
No ratings yet
13 Module 03 - B&W Mainstreaming Gender in Agrarian Reform Are
68 pages
Discografia de Los Beatles
No ratings yet
Discografia de Los Beatles
5 pages
2001 Leglu
No ratings yet
2001 Leglu
11 pages
Dabbawalas Final
No ratings yet
Dabbawalas Final
26 pages
Pawan Kr. Kushawaha Roll. No. 28 MBA (E-Business)
No ratings yet
Pawan Kr. Kushawaha Roll. No. 28 MBA (E-Business)
17 pages
Benign Tumors of The Stomach
No ratings yet
Benign Tumors of The Stomach
55 pages
Community Health Nursing Part 1
No ratings yet
Community Health Nursing Part 1
64 pages
United Colors of Benetton Assignment
No ratings yet
United Colors of Benetton Assignment
11 pages
' V V V VV V V
No ratings yet
' V V V VV V V
60 pages
Quasar Electronics Kit No. 1015 Electronic Mosquito Repeller
No ratings yet
Quasar Electronics Kit No. 1015 Electronic Mosquito Repeller
7 pages
Sarah Mckone:, North Carolina State University, Aug. 2009 May 2011
No ratings yet
Sarah Mckone:, North Carolina State University, Aug. 2009 May 2011
5 pages
Brain Teaser
100% (7)
Brain Teaser
127 pages
Law of Agency
100% (1)
Law of Agency
32 pages
เบเกอรี่
No ratings yet
เบเกอรี่
26 pages
4 PDF
No ratings yet
4 PDF
8 pages
Callao Man 2
No ratings yet
Callao Man 2
8 pages
T.E. (Production S/W) (Semester II) Examination, 2009 Process Planning and Industrial Statistics
No ratings yet
T.E. (Production S/W) (Semester II) Examination, 2009 Process Planning and Industrial Statistics
54 pages
Term Paper - Lang - Acquisitio
No ratings yet
Term Paper - Lang - Acquisitio
16 pages
Oracle Basics of PL - SQL
No ratings yet
Oracle Basics of PL - SQL
36 pages
Complete Mens Suit Measurement Guide PDF
No ratings yet
Complete Mens Suit Measurement Guide PDF
14 pages
Classppt Ak ARP
No ratings yet
Classppt Ak ARP
38 pages
HLL Report
100% (1)
HLL Report
138 pages
Domain Name System (DNS) - I
No ratings yet
Domain Name System (DNS) - I
47 pages
Cts New
No ratings yet
Cts New
62 pages
Ak Tcpip Classppt
No ratings yet
Ak Tcpip Classppt
21 pages
PLSQL To Java
No ratings yet
PLSQL To Java
6 pages
RDBMS-SQL Answers
No ratings yet
RDBMS-SQL Answers
12 pages
Introduction to Robotics
From Everand
Introduction to Robotics
Swarnalata Verma
No ratings yet
Mastering Categorical Data Analysis
From Everand
Mastering Categorical Data Analysis
Pasquale De Marco
No ratings yet
Data Analysis for Engineers and Statisticians: A Modern Guide to Statistical Methods and Techniques
From Everand
Data Analysis for Engineers and Statisticians: A Modern Guide to Statistical Methods and Techniques
Pasquale De Marco
No ratings yet
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Visualizing Data Structures
From Everand
Visualizing Data Structures
Rhonda Hoenigman
No ratings yet
Machine Learning - A Complete Exploration of Highly Advanced Machine Learning Concepts, Best Practices and Techniques: 4
From Everand
Machine Learning - A Complete Exploration of Highly Advanced Machine Learning Concepts, Best Practices and Techniques: 4
Peter Bradley
No ratings yet
Data Collection: Six Sigma Thinking, #1
From Everand
Data Collection: Six Sigma Thinking, #1
Sumeet Savant
No ratings yet
Statistical Classification: Fundamentals and Applications
From Everand
Statistical Classification: Fundamentals and Applications
Fouad Sabry
No ratings yet