Mining Class Comparisons

The document discusses comparing two or more classes by partitioning data into target and contrasting classes, generalizing the classes, and comparing tuples to highlight discriminant features between classes. An example is provided that analyzes graduate and undergraduate students using attributes like birthplace, age, GPA to find distinguishing attributes between the classes. The process involves data collection, attribute analysis, generalization of relations, and presentation of results as charts or rules to show comparisons between target and contrasting classes.

Uploaded by

murali_20c

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

3K views4 pages

Mining Class Comparisons

Uploaded by

murali_20c

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

You are on page 1/ 4

Mining Class Comparisons

v Comparison: Comparing two or more classes.

v Method:
– Partition the set of relevant data into the target class and the contrasting
class(es)
– Generalize both classes to the same high level concepts
– Compare tuples with the same high level descriptions
– Present for every tuple its description and two measures:
u support - distribution within single class
u comparison - distribution between classes
– Highlight the tuples with strong discriminant features
v Relevance Analysis:
– Find attributes (features) which best distinguish different classes.
Example: Analytical comparison
v Task
– Compare graduate and undergraduate students using discriminant rule.
– DMQL query

use Big_University_DB
mine comparison as “grad_vs_undergrad_students”
in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa
for “graduate_students”
where status in “graduate”
versus “undergraduate_students”
where status in “undergraduate”
analyze count%
from student

v 1. Data collection
– target and contrasting classes

v 2. Attribute relevance analysis

– remove attributes name, gender, major, phone#

v 3. Synchronous generalization
– controlled by user-specified dimension thresholds
– prime target and contrasting class(es) relations/cuboids
v 4. Drill down, roll up and other OLAP operations on target and contrasting classes
to adjust levels of abstractions of resulting description

v 5. Presentation
– as generalized relations, crosstabs, bar charts, pie charts, or rules
– contrasting measures to reflect comparison between target and contrasting
classes
u e.g. count%
Example: Analytical
comparison (4)
Birth_country Age_range
Canada 20-25
Canada 25-30
Prime generalized relation for the target class: Graduate students

Birth_country
Canada Age_range
Over_30
…Canada 15-20
…
Canada
Other 15-20
Over_30
Prime generalized relation for the contrasting class: Undergraduate students

discriminant

Status …Birth_country Age_range … Count

Gpa
Graduate
Canada 25-30
Canada
Undergraduate Canada
25-30
25-30
Good 90
Good 210

… …
Other Over_30
Measuring the Central
Tendency
1 n
x= ∑ xi
n i =1 n

∑w x i i
x= i =1
n

∑w
Mean
i
i =1

Weighted arithmetic mean

Median: A holistic measure
Middle value if odd number of values, or average of
n / 2 − (∑ f )l
the middle two values otherwise
median = L + (
f
1 )c
median

estimated by interpolation
Mode
Value that occurs most frequently in the data
Unimodal, bimodal, trimodal
Empirical formula:

mean − mode = 3 × (mean − median)

Measuring the Dispersion of
Data

Quartiles, outliers and boxplots

Quartiles: Q1 (25th percentile), Q3 (75th percentile)
Inter-quartile range: IQR = Q3 – Q1
Five number summary: min, Q1, M, Q3, max
Boxplot: ends of the box are the quartiles, median is
marked, whiskers, and plot outlier individually
Outlier: usually, a value higher/lower than 1.5 x IQR
Variance and standard deviation
Variance s2: (algebraic, scalable computation)
1 n 1 n 2 1 n
s2 = ∑ ( xi − x ) 2 = [∑ xi − (∑ xi ) 2 ]
Standard deviation s is the square root of variance s2
n − 1 i =1 n − 1 i =1 n i =1

Coroneos' 100 Integrals
100% (1)
Coroneos' 100 Integrals
92 pages
Movie Recommendation System: Using Machine Learning
No ratings yet
Movie Recommendation System: Using Machine Learning
7 pages
Unit I Predictive Analytics
No ratings yet
Unit I Predictive Analytics
39 pages
Unit 4 - 4.4
No ratings yet
Unit 4 - 4.4
23 pages
Unit 2 - Data Preprocessing
No ratings yet
Unit 2 - Data Preprocessing
23 pages
Data Mining Unit-1 Notes
No ratings yet
Data Mining Unit-1 Notes
18 pages
SC&RP - Unit 5
No ratings yet
SC&RP - Unit 5
36 pages
Data Science Techniques Classification Regression and Clustering
No ratings yet
Data Science Techniques Classification Regression and Clustering
5 pages
TE7265 - Introduction To Data Science
No ratings yet
TE7265 - Introduction To Data Science
4 pages
Image Analysis - Pattern Recognition - Pattern Patterns Represent Knowledge
No ratings yet
Image Analysis - Pattern Recognition - Pattern Patterns Represent Knowledge
22 pages
Delphi Cost Estimation
80% (5)
Delphi Cost Estimation
9 pages
4.gilb's Approach
100% (1)
4.gilb's Approach
22 pages
Bangladeshi Flower Identification Using Computer Vision and Machine Learning Techniques
100% (1)
Bangladeshi Flower Identification Using Computer Vision and Machine Learning Techniques
16 pages
PPT1
No ratings yet
PPT1
93 pages
Interview Preparations - NielsenIQ
No ratings yet
Interview Preparations - NielsenIQ
1 page
Chi Merge
No ratings yet
Chi Merge
5 pages
Unit 4 Data Science
No ratings yet
Unit 4 Data Science
21 pages
Unit 4 - Data Mining - WWW - Rgpvnotes.in
No ratings yet
Unit 4 - Data Mining - WWW - Rgpvnotes.in
12 pages
Big Data Analytics Lab Manual
No ratings yet
Big Data Analytics Lab Manual
80 pages
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
No ratings yet
Data Mining: Concepts and Techniques: Jiawei Han and Micheline Kamber
46 pages
Data Science M-1 Notes
No ratings yet
Data Science M-1 Notes
34 pages
Big Data Analytics - Unit 4
No ratings yet
Big Data Analytics - Unit 4
32 pages
Pythonic Data Cleaning With Numpy and Pandas
No ratings yet
Pythonic Data Cleaning With Numpy and Pandas
11 pages
Modelling in R
No ratings yet
Modelling in R
47 pages
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
No ratings yet
Market Basket Analysis and Advanced Data Mining: Professor Amit Basu
24 pages
Unit I - Data Science
No ratings yet
Unit I - Data Science
161 pages
OOAD
No ratings yet
OOAD
2 pages
The Price Prediction For Used Cars Using Multiple Linear Regression Model
No ratings yet
The Price Prediction For Used Cars Using Multiple Linear Regression Model
6 pages
Dsbda Unit 2
No ratings yet
Dsbda Unit 2
155 pages
Unit V Big Data Analytics
No ratings yet
Unit V Big Data Analytics
47 pages
Big Data and Data Science
No ratings yet
Big Data and Data Science
6 pages
Unit 3 Univariate Analysis
No ratings yet
Unit 3 Univariate Analysis
39 pages
Tutorial On "R" Programming Language
No ratings yet
Tutorial On "R" Programming Language
25 pages
Data Analytics Unit III
No ratings yet
Data Analytics Unit III
15 pages
Data-Mining-Lab-Manual Cs 703b
No ratings yet
Data-Mining-Lab-Manual Cs 703b
41 pages
1.disabling Interrupts:: Mutual Exclusion With Busy Waiting
No ratings yet
1.disabling Interrupts:: Mutual Exclusion With Busy Waiting
2 pages
Chandigarh Group of Colleges College of Engineering Landran, Mohali
No ratings yet
Chandigarh Group of Colleges College of Engineering Landran, Mohali
47 pages
Data Mining Models - GeeksforGeeks
No ratings yet
Data Mining Models - GeeksforGeeks
4 pages
DSBDAL - Assignment No 9
No ratings yet
DSBDAL - Assignment No 9
12 pages
Data Mining: Concepts and Techniques: - Chapter 5
No ratings yet
Data Mining: Concepts and Techniques: - Chapter 5
63 pages
DBMS Unit4 Notes
No ratings yet
DBMS Unit4 Notes
14 pages
3.1 What Is Data Warehouse?: Unit Iii
No ratings yet
3.1 What Is Data Warehouse?: Unit Iii
33 pages
Tableau Lab Manual
No ratings yet
Tableau Lab Manual
6 pages
Unit Iv
No ratings yet
Unit Iv
8 pages
R Programming
No ratings yet
R Programming
11 pages
Naïve Bayes Classifier Algorithm
No ratings yet
Naïve Bayes Classifier Algorithm
10 pages
Unit-2 Solution
No ratings yet
Unit-2 Solution
22 pages
CS8091 - Big Data Analytics - Unit 1
No ratings yet
CS8091 - Big Data Analytics - Unit 1
28 pages
7 - Classification
No ratings yet
7 - Classification
71 pages
Assignment I Data Analytics
No ratings yet
Assignment I Data Analytics
3 pages
Query Processing and Optimization
No ratings yet
Query Processing and Optimization
42 pages
Define and Explain The Internet of Things.: 1) Physical Object
No ratings yet
Define and Explain The Internet of Things.: 1) Physical Object
32 pages
Parallel Sorting Algorithms
No ratings yet
Parallel Sorting Algorithms
22 pages
Develop A Java Program To Demonstrate Applet Life Cycle
No ratings yet
Develop A Java Program To Demonstrate Applet Life Cycle
8 pages
Ai - Unit Ii
No ratings yet
Ai - Unit Ii
126 pages
Bca Ctis Sem-5 Introduction To Data Science
No ratings yet
Bca Ctis Sem-5 Introduction To Data Science
14 pages
Modeling and Analysis: Heuristic Search Methods and Simulation
No ratings yet
Modeling and Analysis: Heuristic Search Methods and Simulation
16 pages
Textbook of Engineering Chemistry
From Everand
Textbook of Engineering Chemistry
C. Parameswara Murthy
No ratings yet
Mining Class Comparisions and Mining Descriptive Statistical Measures
No ratings yet
Mining Class Comparisions and Mining Descriptive Statistical Measures
24 pages
Unit 3
No ratings yet
Unit 3
43 pages
Class Comparison Methods in Data Mining - Javatpoint
No ratings yet
Class Comparison Methods in Data Mining - Javatpoint
3 pages
Temperature Controllers: Installation and Maintenance
No ratings yet
Temperature Controllers: Installation and Maintenance
5 pages
Shanabrook Forensic Audit
No ratings yet
Shanabrook Forensic Audit
63 pages
Adani Foundation Annual Report - 2020-21
No ratings yet
Adani Foundation Annual Report - 2020-21
33 pages
SPA Dance CG G7
100% (1)
SPA Dance CG G7
11 pages
Niced Pastry Concept Paper Format For Feasibilty Studies 2025
No ratings yet
Niced Pastry Concept Paper Format For Feasibilty Studies 2025
4 pages
Sofialidis HPC Ansys Fluent 01
No ratings yet
Sofialidis HPC Ansys Fluent 01
18 pages
Quiz 4
No ratings yet
Quiz 4
2 pages
Authorization Form Panda Food
No ratings yet
Authorization Form Panda Food
3 pages
Crack Waves
No ratings yet
Crack Waves
9 pages
Sumo
No ratings yet
Sumo
21 pages
TDA8139
No ratings yet
TDA8139
5 pages
BSP6032 Writ2
No ratings yet
BSP6032 Writ2
10 pages
The 12 Essential Elements of Data Center Facility Operations
No ratings yet
The 12 Essential Elements of Data Center Facility Operations
43 pages
Form Aoc-4 XBRL Help
No ratings yet
Form Aoc-4 XBRL Help
23 pages
Operation/Technical Manual
No ratings yet
Operation/Technical Manual
64 pages
Get TRDoc
No ratings yet
Get TRDoc
309 pages
The Corporation
No ratings yet
The Corporation
4 pages
Assume You Have Just Been Hired As A Business Manager
0% (1)
Assume You Have Just Been Hired As A Business Manager
3 pages
Brcibilreport - 2025-02-22T155838.274
No ratings yet
Brcibilreport - 2025-02-22T155838.274
5 pages
wph16 01 Que 20220616
No ratings yet
wph16 01 Que 20220616
20 pages
SBC 81
No ratings yet
SBC 81
32 pages
El Deafo Teaching Guide
75% (8)
El Deafo Teaching Guide
3 pages
Opensap: Big Data With Sap Hana Vora: Course Week 03 - Exercises
No ratings yet
Opensap: Big Data With Sap Hana Vora: Course Week 03 - Exercises
18 pages
CHAPTER 8 Auditing Marketing and Sales
No ratings yet
CHAPTER 8 Auditing Marketing and Sales
26 pages
Ppa CV
No ratings yet
Ppa CV
3 pages
Concert Mri Datasheet
No ratings yet
Concert Mri Datasheet
3 pages
Nashik Car Deler List
No ratings yet
Nashik Car Deler List
8 pages
Exam - Digital Egypt, Transformation Into A Digital Economy
No ratings yet
Exam - Digital Egypt, Transformation Into A Digital Economy
4 pages
MID 039 - CID 1846 - FMI 09: Pantalla Anterior
No ratings yet
MID 039 - CID 1846 - FMI 09: Pantalla Anterior
6 pages