0% found this document useful (0 votes)

88 views33 pages

Log Linear Models and Logistic Regression Springer Texts in Statistics

This document discusses the steps of data exploration in data mining. It covers univariate analysis of both categorical and numerical variables, including frequency counts, charts, and summary statistics. It also discusses bivariate analysis through correlation measures and combination charts. Additionally, it addresses handling missing data, outliers, and transforming categorical and numerical variables through encoding and binning techniques.

Uploaded by

sarvesh_mishra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

88 views33 pages

Log Linear Models and Logistic Regression Springer Texts in Statistics

Uploaded by

sarvesh_mishra

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 33

Data Exploration

Dr. Saed Sayad

University of Toronto
2010
[email protected]

http://chem-eng.utoronto.ca/~datamining/ 1
Data Mining Steps
1 • Problem Definition

2 • Data Preparation

3 • Data Exploration

4 • Modeling

5 • Evaluation

6 • Deployment

http://chem-eng.utoronto.ca/~datamining/ 2
1. Problem Definition
Understanding the project objectives
and requirements from a business
perspective, converting this knowledge
into a data mining problem definition,
and a preliminary plan designed to
achieve the objectives.

Source: http://www.crisp-dm.org/Process/index.htm

http://chem-eng.utoronto.ca/~datamining/ 3
2. Data Preparation

Data ETL
DSN

Data
Text

Modeling Data

http://chem-eng.utoronto.ca/~datamining/ 4
3. Data Exploration
Frequency, Mean,
Min, Max, ...
Univariate
Analysis
Bar, Line, Pie, ...
Charts
Data
Exploration
Correlation
Z test, ...
Bivariate Analysis
Combination
Charts

http://chem-eng.utoronto.ca/~datamining/ 5
Data Exploration - Univariate Analysis
Count,
Frequency
Categoical
Bar and Pie
Charts
Univaiate
Count, Mean,
StDev
Numerical
Histogram,
Box Plot

http://chem-eng.utoronto.ca/~datamining/ 6
Univariate Analysis - Categorical
housing Count Frequency 11% Housing
18%
for free 96 10.67%
for free
own 641 71.22% own

rent 163 18.11%

rent
71%

Housing
700
600
500
400
300
200
100
0

for free own rent

http://chem-eng.utoronto.ca/~datamining/ 7
Missing Values

83% Education
2,500,000
Missing Value
2,000,000
Frequency

1,500,000

1,000,000

500,000

0
1

4
K
AN
BL

http://chem-eng.utoronto.ca/~datamining/ 8
Invalid Values

Invalid doc_type_id
1,400,000
1,200,000
1,000,000
Frequency

800,000
600,000
400,000
200,000
0
LL

X
Z

3
NU

http://chem-eng.utoronto.ca/~datamining/ 9
Univariate Analysis - Numeric

Age
Count 900 Average 35.25 StDev 11.20

Min 19 Median 33 Variance 125.37

Maximum 75 Mode 27 CV 32%

Range 56 Skewness 1.09

Missing 0 Kurtosis 0.88

http://chem-eng.utoronto.ca/~datamining/ 10
Missing and Invalid Values and Outliers
Months in Business

http://chem-eng.utoronto.ca/~datamining/ 11
Box Plot

Outliers

http://chem-eng.utoronto.ca/~datamining/ 12
Univariate Analysis - Policies
Variable
Categorical Numeric

Missing Values Missing Values

Invalid Values Invalid & Outliers

Encoding Binning

http://chem-eng.utoronto.ca/~datamining/ 13
Missing Value Policies
• Fill in missing values manually based on our
domain knowledge
• Ignore the records with missing data
• Fill in it automatically:
– A global constant (e.g., “?”)
– The variable mean
– Inference-based methods such as Bayes’ rule,
decision tree, or EM algorithm

http://chem-eng.utoronto.ca/~datamining/ 14
Managing Outliers
• Data points inconsistent with the majority of data
• Different outliers
– Valid: CEO’s salary
– Noisy: One’s age = 200, widely deviated points
• Removal methods
– Box plot
– Clustering
– Curve-fitting

http://chem-eng.utoronto.ca/~datamining/ 15
Encoding Categorical Variables
• Encoding is the process of transforming
categorical variables into numerical
counterparts.

• Encoding methods:
– Binary method
– Ordinal Method
– Target based Encoding

http://chem-eng.utoronto.ca/~datamining/ 16
Encoding

Housing (for free, own, rent)

• Binary method: • Ordinal method:

– for free: 1, 0, 0 – own: 1
– own: 0, 1, 0 – for free: 3
– rent: 0, 0, 1 – rent: 5

http://chem-eng.utoronto.ca/~datamining/ 17
Binning Numerical Variables
• Binning is the process of transforming
numerical variables into categorical
counterparts.

• Binning methods:
–Equal Width
–Equal Frequency
–Entropy Based

http://chem-eng.utoronto.ca/~datamining/ 18
Binning
• Variable: 0, 4, 12, 16, 16, 18, 24, 26, 28
• Equi-width binning:
– Bin 1: 0, 4 [-,10) bin
– Bin 2: 12, 16, 16, 18 [10,20) bin
– Bin 3: 24, 26, 28 [20,+) bin
• Equi-frequency binning :
– Bin 1: 0, 4, 12 [-, 14) bin
– Bin 2: 16, 16, 18 [14, 21) bin
– Bin 3: 24, 26, 28 [21,+) bin
http://chem-eng.utoronto.ca/~datamining/ 19
Binning
Months in Business

http://chem-eng.utoronto.ca/~datamining/ 20
Data Exploration – Bivariate Analysis
Correlation
Numeric Numeric
Scatter Plot

z-test, t-test,
Bivariate
ANOVA
Numeric
Combination
Chart
Categorical
Chi2 test
Categorical
Combination
Chart

http://chem-eng.utoronto.ca/~datamining/ 21
Numeric & Numeric

$120,000

Correlation = 0.114
$100,000

$80,000

Total $60,000
Balance
$40,000

$20,000

$0
0 200 400 600 800 1000 1200 1400 1600 1800 2000

Months n Business

http://chem-eng.utoronto.ca/~datamining/ 22
Categorical & Numeric

Total Balance Total Balance

Default
Average Variance
N $22,994 $3,250
Y $26,874 $3,872

Is there any significant difference the balance average in two groups?

Is there any significant difference the balance variance in two groups?

http://chem-eng.utoronto.ca/~datamining/ 23
Categorical & Numeric

Z test t test

F test ANOVA

http://chem-eng.utoronto.ca/~datamining/ 24
Categorical & Numeric - Z, t, F Tests

X1  X 2 X1  X 2
Z t
S12 S 22  1 1 
 S 
2
 
N1 N 2  N1 N 2 

2
S
F 1
2
S 2

http://chem-eng.utoronto.ca/~datamining/ 25
Analysis of Variance (ANOVA)

Source of Sum of Degree of

Mean Square F P
Variation Squares Freedom

Between Groups SSB dfB MSB = SSB/dfB F=MSB/MSW P(F)

Within Groups SSW dfw MSW = SSW/dfw

Total SST dfT

http://chem-eng.utoronto.ca/~datamining/ 26
Categorical & Categorical

Default
Y N
Y 366 2786
Corporation
N 191 4777

Is the rate of default different between two types of businesses?

http://chem-eng.utoronto.ca/~datamining/ 27
Categorical & Categorical

Default
Y N
Y 4.5% 34.3%
Corporation
N 2.4% 58.8%

http://chem-eng.utoronto.ca/~datamining/ 28
Categorical & Categorical

60%

50%

40%

30%

20%

10% Corporation N

0%
Corporation Y
Y
N
Default

http://chem-eng.utoronto.ca/~datamining/ 29
Categorical & Categorical

r c (nij  eij ) 2

  
2

i 1 j 1 eij
ni.n. j
eij 
n
df  (r  1)(c  1)

http://chem-eng.utoronto.ca/~datamining/ 30
Data Exploration - MVP
Months in Business and Default

Default%

http://chem-eng.utoronto.ca/~datamining/ 31
Summary
• Data exploration covers all activities in order to
get familiar with the data, to identify data quality
problems to discover first insights into the data.
• Univariate analysis can show variable
distribution, missing values, invalid values and
outliers.
• Bivariate analysis can discover relationships
between variables.
• The combination chart (variable & target) is the
most valuable type of plot.
http://chem-eng.utoronto.ca/~datamining/ 32
http://chem-eng.utoronto.ca/~datamining/ 33

Stacked It
No ratings yet
Stacked It
28 pages
Marketing Engineering and Analytics
No ratings yet
Marketing Engineering and Analytics
52 pages
24ucs172 S6
No ratings yet
24ucs172 S6
19 pages
IOT-Domain Analyst
No ratings yet
IOT-Domain Analyst
68 pages
DWM NOTES
No ratings yet
DWM NOTES
118 pages
MIS416 Chapter3 by DrAsimAlwabel
No ratings yet
MIS416 Chapter3 by DrAsimAlwabel
63 pages
Data Preprocessing Techniques
No ratings yet
Data Preprocessing Techniques
11 pages
Unit 3
No ratings yet
Unit 3
36 pages
Open Clinic Manual en
67% (3)
Open Clinic Manual en
135 pages
Chapter4 Clustering
No ratings yet
Chapter4 Clustering
77 pages
02 Pre Processing
No ratings yet
02 Pre Processing
52 pages
Chapter 2 - Data Exploration, Preprocessing and Visualization
No ratings yet
Chapter 2 - Data Exploration, Preprocessing and Visualization
92 pages
Week2 2
No ratings yet
Week2 2
25 pages
ML Notes
No ratings yet
ML Notes
44 pages
Data Mining - Preprocessing
No ratings yet
Data Mining - Preprocessing
77 pages
02 KnowYourData
No ratings yet
02 KnowYourData
44 pages
Module-1 C1-C2
No ratings yet
Module-1 C1-C2
39 pages
Data Mining
No ratings yet
Data Mining
35 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
48 pages
Concepts and Techniques
100% (2)
Concepts and Techniques
118 pages
Data Preprocessing For Clustering
No ratings yet
Data Preprocessing For Clustering
40 pages
CAMConcept Turn EN 1829 C PDF
No ratings yet
CAMConcept Turn EN 1829 C PDF
186 pages
L18&19 Data Exploration
No ratings yet
L18&19 Data Exploration
50 pages
Data Mining Data Exploration
No ratings yet
Data Mining Data Exploration
66 pages
PP DWDM 4 5
No ratings yet
PP DWDM 4 5
26 pages
Concepts (PPT) - Data Preprocessing
No ratings yet
Concepts (PPT) - Data Preprocessing
19 pages
Preprocessing 935
No ratings yet
Preprocessing 935
68 pages
Lecture 2.2.1, 2.2.2 2.2.3
No ratings yet
Lecture 2.2.1, 2.2.2 2.2.3
19 pages
Module III Data Mining
No ratings yet
Module III Data Mining
7 pages
02know Your Data Lecture2 3
No ratings yet
02know Your Data Lecture2 3
53 pages
Concepts and Techniques: Data Mining
No ratings yet
Concepts and Techniques: Data Mining
22 pages
Data Preparation PDF
No ratings yet
Data Preparation PDF
71 pages
Data Binning
No ratings yet
Data Binning
9 pages
Digital Data Mining Nostos - FP
No ratings yet
Digital Data Mining Nostos - FP
37 pages
Data Transformation
No ratings yet
Data Transformation
16 pages
EDA - Module 4
No ratings yet
EDA - Module 4
35 pages
2 - Data Mining and Warehousing - L2
No ratings yet
2 - Data Mining and Warehousing - L2
6 pages
Data Mining: Data Exploration: - Chapter 6
No ratings yet
Data Mining: Data Exploration: - Chapter 6
56 pages
DA Major Notes
No ratings yet
DA Major Notes
46 pages
CCIE Security v5 Configure LAB1 Questions
No ratings yet
CCIE Security v5 Configure LAB1 Questions
23 pages
Ke Unit 4 Notes
No ratings yet
Ke Unit 4 Notes
22 pages
02 Data
No ratings yet
02 Data
65 pages
DM 8 SetOperatoins
No ratings yet
DM 8 SetOperatoins
32 pages
02 Data
No ratings yet
02 Data
41 pages
Classification Basic Concepts, Decision Trees, and Model Evaluation
No ratings yet
Classification Basic Concepts, Decision Trees, and Model Evaluation
67 pages
Week 4 - 5 - Data Preprocessing
No ratings yet
Week 4 - 5 - Data Preprocessing
67 pages
Data Exploration
No ratings yet
Data Exploration
23 pages
02know Your Data-Lecture2-3
No ratings yet
02know Your Data-Lecture2-3
53 pages
Wiley - Student Solutions Manual Engineering Statistics, 5e - Douglas C. Montgomery, George C. Runger, Norma F
7% (15)
Wiley - Student Solutions Manual Engineering Statistics, 5e - Douglas C. Montgomery, George C. Runger, Norma F
1 page
Data Mining: Exploring Data: Lecture Notes For Data Exploration Chapter Introduction To Data Mining
No ratings yet
Data Mining: Exploring Data: Lecture Notes For Data Exploration Chapter Introduction To Data Mining
22 pages
New Text Document
No ratings yet
New Text Document
3 pages
Servlets JSP
No ratings yet
Servlets JSP
40 pages
Command Injection Essence
No ratings yet
Command Injection Essence
11 pages
Data Preparation
No ratings yet
Data Preparation
28 pages
Data Warehousing/Mining Comp 150 DW Chapter 8. Cluster Analysis
No ratings yet
Data Warehousing/Mining Comp 150 DW Chapter 8. Cluster Analysis
80 pages
Data Mining (DM) : Lecture 3: Know Your Data
No ratings yet
Data Mining (DM) : Lecture 3: Know Your Data
53 pages
Bi Lesson 6
No ratings yet
Bi Lesson 6
36 pages
Hadoop Spark
No ratings yet
Hadoop Spark
31 pages
Comparison of Steganographic Techniques
100% (1)
Comparison of Steganographic Techniques
5 pages
Cloud Era Csu La 11122012
No ratings yet
Cloud Era Csu La 11122012
50 pages
Cloud Era Csu La 11122012
No ratings yet
Cloud Era Csu La 11122012
50 pages
Machine Learning With Apps in R
No ratings yet
Machine Learning With Apps in R
43 pages
Ikshu 8
No ratings yet
Ikshu 8
120 pages
AdvancedBooks - Python Wiki
0% (1)
AdvancedBooks - Python Wiki
104 pages
Assignment No 5 K-Means Clustering
No ratings yet
Assignment No 5 K-Means Clustering
2 pages
Python Crash Course 0.07 PDF
No ratings yet
Python Crash Course 0.07 PDF
68 pages
Overview
No ratings yet
Overview
25 pages
The Scala Programming Language: Presented by Donna Malayeri
No ratings yet
The Scala Programming Language: Presented by Donna Malayeri
25 pages
Data Mining
No ratings yet
Data Mining
7 pages
Intro To RAML - The RESTful API Modeling Language - Baeldung
No ratings yet
Intro To RAML - The RESTful API Modeling Language - Baeldung
10 pages
BCA-404: Data Mining and Data Ware Housing
No ratings yet
BCA-404: Data Mining and Data Ware Housing
19 pages
Week - 01 - 04 - 10 - Part - II
No ratings yet
Week - 01 - 04 - 10 - Part - II
23 pages
Gradually Varied Flow
No ratings yet
Gradually Varied Flow
7 pages
Debugging and The Scientific Method
No ratings yet
Debugging and The Scientific Method
7 pages
Parallel Programming: in C With Mpi and Openmp Michael J. Quinn
No ratings yet
Parallel Programming: in C With Mpi and Openmp Michael J. Quinn
73 pages
Foundation Practice Exam 4
No ratings yet
Foundation Practice Exam 4
9 pages
A Guide To Data Exploration
No ratings yet
A Guide To Data Exploration
20 pages
Graph Theory and Applications: Lecture 3: Shortest Path Ta Viet Cuong, PH.D
No ratings yet
Graph Theory and Applications: Lecture 3: Shortest Path Ta Viet Cuong, PH.D
36 pages
Advanced Operations Management
100% (2)
Advanced Operations Management
2 pages
Data Warehousing and Data Mining
No ratings yet
Data Warehousing and Data Mining
46 pages
Aravind Rangamreddy 500195259 cs4
No ratings yet
Aravind Rangamreddy 500195259 cs4
3 pages
ELE-506 Digital Signal Processing: Lecture 1 - INTRODUCTION
No ratings yet
ELE-506 Digital Signal Processing: Lecture 1 - INTRODUCTION
11 pages
Assignment 1
No ratings yet
Assignment 1
5 pages
Datawarehouse Assignment
No ratings yet
Datawarehouse Assignment
11 pages
TK Inter
No ratings yet
TK Inter
168 pages
Curriculum Vitae Ouday George Zakko: Personal Details
No ratings yet
Curriculum Vitae Ouday George Zakko: Personal Details
4 pages
02data (Compatibility Mode)
No ratings yet
02data (Compatibility Mode)
11 pages
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
No ratings yet
Data Mining CSE-443: Ayesha Aziz Prova Lecturer, Dept. of CSE CWU
21 pages
Karma Rahasya
No ratings yet
Karma Rahasya
76 pages
ISOM Cheat Sheet 1
No ratings yet
ISOM Cheat Sheet 1
6 pages
Bhajanamrita - Gita Press Gorakhpur
No ratings yet
Bhajanamrita - Gita Press Gorakhpur
108 pages
IEEE STD 81-1983 Guide For Measuring Earth Resistivity Ground Impedance, and Earth Surface Potentials of A Ground Systems PDF
No ratings yet
IEEE STD 81-1983 Guide For Measuring Earth Resistivity Ground Impedance, and Earth Surface Potentials of A Ground Systems PDF
44 pages
Octave Plot Tutorial
No ratings yet
Octave Plot Tutorial
4 pages
60 ChatGPT Prompts For Data Science 2023
100% (3)
60 ChatGPT Prompts For Data Science 2023
67 pages
Big Data Capacity Planning
No ratings yet
Big Data Capacity Planning
7 pages
Title Design and Implementation of PRBS Generator Using VHDL
No ratings yet
Title Design and Implementation of PRBS Generator Using VHDL
7 pages
Data Exploration & Visualization
No ratings yet
Data Exploration & Visualization
23 pages
Spark Details
No ratings yet
Spark Details
11 pages
KMC Quality Manual PDF
No ratings yet
KMC Quality Manual PDF
11 pages
Open vs. Bracketing Methods
No ratings yet
Open vs. Bracketing Methods
10 pages
Use The Transaction Data To Produce Information Needed by Managers To Run The Business
No ratings yet
Use The Transaction Data To Produce Information Needed by Managers To Run The Business
19 pages
Cracking The SAT Premium Edition With 7 Practice
No ratings yet
Cracking The SAT Premium Edition With 7 Practice
1 page

Log Linear Models and Logistic Regression Springer Texts in Statistics

Uploaded by

Log Linear Models and Logistic Regression Springer Texts in Statistics

Uploaded by

Data Exploration

Dr. Saed Sayad

rent 163 18.11%

for free own rent

Min 19 Median 33 Variance 125.37

Maximum 75 Mode 27 CV 32%

Range 56 Skewness 1.09

Missing Values Missing Values

Invalid Values Invalid & Outliers

Housing (for free, own, rent)

• Binary method: • Ordinal method:

Total Balance Total Balance

Is there any significant difference the balance average in two groups?

Is there any significant difference the balance variance in two groups?

Source of Sum of Degree of

Between Groups SSB dfB MSB = SSB/dfB F=MSB/MSW P(F)

Within Groups SSW dfw MSW = SSW/dfw

Total SST dfT

Is the rate of default different between two types of businesses?

You might also like