0% found this document useful (0 votes)

65 views26 pages

Applied Multivariate Statistics - Review

This document provides an overview and examples of various multivariate statistical analysis techniques including covariance, correlation, Mahalanobis distance, multivariate normal distributions, outlier detection, missing data imputation, multidimensional scaling, dissimilarities, principal component analysis, and linear discriminant analysis. Examples and functions for implementing these techniques in R are also discussed.

Uploaded by

MARCO ANTONIO Santiva?Ez Soto

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

65 views26 pages

Applied Multivariate Statistics - Review

Uploaded by

MARCO ANTONIO Santiva?Ez Soto

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 26

Revision: Chapter 1-6

Applied Multivariate Statistics – Spring 2012

Overview

 Cov, Cor, Mahalanobis, MV normal distribution

 Visualization: Stars plot, mosaic plot with shading
 Outlier: chisq.plot
 Missing values: md.pattern, mice
 MDS: Metric / non-metric
 Dissimilarities: daisy
 PCA
 LDA
Two variables: Covariance and Correlation

 Covariance: Cov(X; Y ) = E[(X ¡ E[X])(Y ¡ E[Y ])] 2 [¡1; 1]

 Correlation: Corr(X; Y ) = Cov(X;Y )

¾X ¾Y 2 [¡1; 1]

Pn
 Sample covariance: Cov(x;
d y) = 1
n¡1 i=1 (xi ¡ x)(yi ¡ y)

c
 Sample correlation: d y) = Cov(x;y)
rxy = Cor(x; ¾
^x ¾
^y

 Correlation is invariant to changes in units,

covariance is not
(e.g. kilo/gram, meter/kilometer, etc.)

2
Scatterplot: Correlation is scale invariant

3
Intuition and pitfalls for correlation
Correlation = LINEAR relation

4
Covariance matrix / correlation matrix:
Table of pairwise values
 True covariance matrix: §ij = Cov(Xi; Xj )
 True correlation matrix: Cij = Cor(Xi; Xj )

 Sample covariance matrix: Sij = Cov(x

d i ; xj )
Diagonal: Variances
 Sample correlation matrix: Rij = Cor(x
d i; xj )
Diagonal: 1

 R: Functions “cov”, “cor” in package “stats”

5
Sq. Mahalanobis Distance MD2(x)
Multivariate Normal Distribution:
=
Most common model choice
Sq. distance from mean in
standard deviations
IN DIRECTION OF X
1
¡ 1 T ¡1
¢
f(x; ¹; §) = p exp ¡ 2 ¢ (x ¡ ¹) § (x ¡ ¹)
2¼j§j

6
µ ¶
Mahalanobis distance: Example 0
¹= ;
0
µ ¶
25 0
§=
0 1

(0,10)

MD = 10

7
µ ¶
Mahalanobis distance: Example 0
¹= ;
0
µ ¶
25 0
§=
0 1

(10, 7)

MD = 7.3

8
Glyphplots:
Stars

• Which cities are special?

• Which cities are like
New Orleans?
• Seattle and Miami are quite
far apart; how do they
compare?

• R: Function “stars” in package

“stats”

9
Mosaic plot with shading
Suprisingly small
R: Function “mosaic” in package “vcd”
observed cell
count

p-value of
independence
Suprisingly large
test: Highly
observed cell
significant
count
10
Outliers: Theory of Mahalanobis Distance

Assume data is multivariate normally distributed

(d dimensions)

Squared Mahalanobis distance of samples follows a Chi-Square distribution

with d degrees of freedom
Expected value: d
(“By definition”: Sum of d standard normal random variables has
Chi-Square distribution with d degrees of freedom.)

11
Outliers: Check for multivariate outlier

 Are there samples with estimated Mahalanobis distance

that don’t fit at all to a Chi-Square distribution?
 Check with a QQ-Plot
 Technical details:
- Chi-Square distribution is still reasonably good for
estimated Mahalanobis distance
- use robust estimates for ¹; §

 R: Function «chisq.plot» in package «mvoutlier»

12
Outliers: chisq.plot
Outlier easily detected !

13
Missing values: Problem of Single Imputation

 Too optimistic: Imputation model (e.g. in Y = a + bX) is

just estimated, but not the true model
 Thus, imputed values have some uncertainty
 Single Imputation ignores this uncertainty
 Coverage probability of confidence intervals is wrong

 Solution: Multiple Imputation

Incorporates both
- residual error
- model uncertainty (excluding model mis-specification)

 R: Package «mice» for Multiple Imputation using chained

equations
14
Multiple Imputation: MICE

Aggregate
results

Do standard analysis
Impute several times for each imputed data set;
get estimate and std.error

15
Idea of MDS

 Represent high-dimensional point cloud in few (usually 2)

dimensions keeping distances between points similar
 Classical/Metric MDS: Use a clever projection
- guaranteed to find optimal solution only for euclidean
distance
- fast
R: Function “cmdscale” in base distribution
 Non-metric MDS:
- Squeeze data on table = minimize STRESS
- only conserve ranks = allow monotonic transformations
before reducing dimensions
- slow(er)
R: Function “isoMDS” in package “MASS”

16
Distance: To scale or not to scale…

 If variables are not scaled

- variable with largest range has most weight
- distance depends on scale
 Scaling gives every variable equal weight
 Similar alternative is re-weighing:
p
d(i; j) = w1(xi1 ¡ xj1)2 + w2(xi2 ¡ xj2)2 + ::: + wp(xip ¡ xjp)2
 Scale if,
- variables measure different units (kg, meter, sec,…)
- you explicitly want to have equal weight for each variable
 Don’t scale if units are the same for all variables
 Most often: Better to scale.

17
Dissimilarity for mixed data: Gower’s Dissim.

 Idea: Use distance measure between 0 and 1 for each

variable: d(f
ij
)

Pp
 Aggregate: d(i; j) = p i=1 d(f)
1
ij

 Binary (a/s), nominal: Use methods discussed before

- asymmetric: one group is much larger than the other
(f) jx ¡x j
 Interval-scaled: dij = ifRf jf
xif: Value for object i in variable f
Rf: Range of variable f for all objects
 Ordinal: Use normalized ranks; then like interval-scaled
based on range

 R: Function “daisy” in package “cluster”

18
PCA: Goals

 Goal 1: Dimension reduction to a few dimensions while

explaining most of the variance
(use first few PC’s)
 Goal 2: Find one-dimensional index that separates objects
best
(use first PC)

19
PCA (Version 1): Orthogonal directions

• PC 1 is direction of largest variance

• PC 2 is
- perpendicular to PC 1 PC 1
- again largest variance
• PC 3 is PC 3
- perpendicular to PC 1, PC 2
- again largest variance PC 2
• etc.

20
How many PC’s: Blood Example

Rule 1: 5 PC’s

Rule 3: Ellbow after PC 1 (?)

Rule 2: 3 PC’s

21
Biplot: Show info on samples AND variables

Approximately true:
• Data points: Projection on first two PCs
Distance in Biplot ~ True Distance
• Projection of sample onto arrow gives
original (scaled) value of that variable
• Arrowlength: Variance of variable
• Angle between Arrows: Correlation

Approximation is often crude;

good for quick overview

22
Supervised Learning: LDA

P (C)P (XjC)
P (CjX) = P (X) » P (C)P (XjC)

Prior / prevalence:
Find some estimate Assume:
Fraction of samples
XjC » N(¹c; §)
in that class

Bayes rule:
Choose class where P(C|X) is maximal
(rule is “optimal” if all types of error are equally costly)

Special case: Two classes (0/1)

- choose c=1 if P(C=1|X) > 0.5 or
- choose c=1 if posterior odds P(C=1|X)/P(C=0|X) > 1

In Practice: Estimate 𝑃 𝐶 , 𝜇𝐶 , Σ
23
LDA Orthogonal directions of best separation

1. Principal Component
Linear decision boundary
1. Linear Discriminant
=
1. Canonical Variable

Balance prior and mahalanobis distance

1
Classify to which class? – Consider:
• Prior
0
• Mahalanobis distance to class center
24
LDA: Quality of classification

 Use training data also as test data: Overfitting

Too optimistic for error on new data
 Separate test data

Test

Training

 Cross validation (CV; e.g. “leave-one-out cross validation):

Every row is the test case once, the rest in the training data

CEM1000W - Tutorial - WFP 1 (Nomenclature) - Solutions
No ratings yet
CEM1000W - Tutorial - WFP 1 (Nomenclature) - Solutions
2 pages
Keba User Manual (4030) - 27march2006
88% (8)
Keba User Manual (4030) - 27march2006
100 pages
Welding Engineering and Technology by R S Parmar
100% (8)
Welding Engineering and Technology by R S Parmar
652 pages
MSDS-CSP E - 2400 Evamarine Finish
No ratings yet
MSDS-CSP E - 2400 Evamarine Finish
5 pages
Nonverbal Behaviour Culture Gender and The Media
100% (1)
Nonverbal Behaviour Culture Gender and The Media
3 pages
Measuring Distances: Applied Multivariate Statistics - Spring 2012
No ratings yet
Measuring Distances: Applied Multivariate Statistics - Spring 2012
25 pages
1.12.2024-BSC-301-CSBS-class Note - 2024-25
No ratings yet
1.12.2024-BSC-301-CSBS-class Note - 2024-25
58 pages
HASTS215 - HSTS215 NOTES Chapter1 - 2
No ratings yet
HASTS215 - HSTS215 NOTES Chapter1 - 2
24 pages
Cheat Sheet
No ratings yet
Cheat Sheet
4 pages
02 Murphy Multi Variate Distanc
No ratings yet
02 Murphy Multi Variate Distanc
13 pages
Mahalanobis Distance
No ratings yet
Mahalanobis Distance
6 pages
UNIT II Part-2
No ratings yet
UNIT II Part-2
32 pages
16 dm2 Dimred 2022 23
No ratings yet
16 dm2 Dimred 2022 23
49 pages
FALLSEM2023-24 - ITE2011 - ETH - VL2023240102356 - 2023-09-01 - Reference-Material-I (3 Files Merged)
No ratings yet
FALLSEM2023-24 - ITE2011 - ETH - VL2023240102356 - 2023-09-01 - Reference-Material-I (3 Files Merged)
191 pages
Multivariate
100% (1)
Multivariate
78 pages
FML 4
No ratings yet
FML 4
26 pages
STAT456 Study Guide
No ratings yet
STAT456 Study Guide
31 pages
A Short Course in Multivariate Statistical Methods With R
No ratings yet
A Short Course in Multivariate Statistical Methods With R
11 pages
Multivariate Statistical Analysis: The Multivariate Normal Distribution
No ratings yet
Multivariate Statistical Analysis: The Multivariate Normal Distribution
13 pages
Chapter1 MV
No ratings yet
Chapter1 MV
72 pages
STAT501 Multivariate Analysis
No ratings yet
STAT501 Multivariate Analysis
196 pages
Textbook ML - Removed
No ratings yet
Textbook ML - Removed
22 pages
ML Module 02
No ratings yet
ML Module 02
37 pages
Multivariate Statistical Analysis: Old School
No ratings yet
Multivariate Statistical Analysis: Old School
319 pages
Multivariate
0% (1)
Multivariate
319 pages
ML Module-02
No ratings yet
ML Module-02
37 pages
Chapter 1 Introduction To Data Mining
No ratings yet
Chapter 1 Introduction To Data Mining
10 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
Notes For Multivariate Statistics With R
No ratings yet
Notes For Multivariate Statistics With R
189 pages
MCQ - MSA Test 1 2025 With Key
No ratings yet
MCQ - MSA Test 1 2025 With Key
6 pages
Abbott - Piet
No ratings yet
Abbott - Piet
32 pages
Characterising and Displaying Multivariate Data
No ratings yet
Characterising and Displaying Multivariate Data
15 pages
Data Mining Lecture 1 - Summary
No ratings yet
Data Mining Lecture 1 - Summary
3 pages
I2ml3e Chap5
No ratings yet
I2ml3e Chap5
26 pages
Module 4 - Chapter 2
No ratings yet
Module 4 - Chapter 2
14 pages
Bmcu006 Group Assignment
No ratings yet
Bmcu006 Group Assignment
15 pages
STA780 - Wk1 - Intro To Multivariate Analysis-Student
No ratings yet
STA780 - Wk1 - Intro To Multivariate Analysis-Student
92 pages
Stat 5311 - Multivariate Statistics and Nonparametric Statistics
No ratings yet
Stat 5311 - Multivariate Statistics and Nonparametric Statistics
27 pages
Intro Class PDF
No ratings yet
Intro Class PDF
7 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
LDA Tutorial
No ratings yet
LDA Tutorial
47 pages
Lda PDF
No ratings yet
Lda PDF
47 pages
Incomplete 1
No ratings yet
Incomplete 1
9 pages
MVA Section1 2012
No ratings yet
MVA Section1 2012
14 pages
Materi 5 - 2
No ratings yet
Materi 5 - 2
25 pages
STAT3006 Lecture Notes 2021 Aug8 2021
No ratings yet
STAT3006 Lecture Notes 2021 Aug8 2021
110 pages
Note 1
No ratings yet
Note 1
5 pages
Data Science Cheatsheet
No ratings yet
Data Science Cheatsheet
5 pages
MBC W1-2 Notes
No ratings yet
MBC W1-2 Notes
21 pages
Organization of Multivariate Data
No ratings yet
Organization of Multivariate Data
5 pages
Mixomics
No ratings yet
Mixomics
100 pages
Discriminant Analysis: Plot of Y X. Symbol Is Value of GROUP
No ratings yet
Discriminant Analysis: Plot of Y X. Symbol Is Value of GROUP
8 pages
Multivariate Normal Distribution
No ratings yet
Multivariate Normal Distribution
19 pages
ESTADOSTICA
No ratings yet
ESTADOSTICA
190 pages
4-Lecture 04
No ratings yet
4-Lecture 04
34 pages
Question 1 To 9
No ratings yet
Question 1 To 9
11 pages
Fishers LDA
No ratings yet
Fishers LDA
47 pages
Multivariate Statistics With R
No ratings yet
Multivariate Statistics With R
190 pages
Multi Variate Analysis
No ratings yet
Multi Variate Analysis
4 pages
LINFO2275 Questions D Examen-4
No ratings yet
LINFO2275 Questions D Examen-4
34 pages
CS195-5: Introduction To Machine Learning: Greg Shakhnarovich
No ratings yet
CS195-5: Introduction To Machine Learning: Greg Shakhnarovich
33 pages
ML PPT 2
No ratings yet
ML PPT 2
206 pages
7 OLS Assumptions
No ratings yet
7 OLS Assumptions
37 pages
Learn Statistics Fast: A Simplified Detailed Version for Students
From Everand
Learn Statistics Fast: A Simplified Detailed Version for Students
Hesbon R.M
No ratings yet
A-level Maths Revision: Cheeky Revision Shortcuts
From Everand
A-level Maths Revision: Cheeky Revision Shortcuts
Scool Revision
3.5/5 (8)
Normal and Lognormal Data Distribution in Geochemistry
100% (1)
Normal and Lognormal Data Distribution in Geochemistry
2 pages
Introduction To The Thematic Issue Analysis of Exploration - Carranza PDF
No ratings yet
Introduction To The Thematic Issue Analysis of Exploration - Carranza PDF
3 pages
Exploratory Data Analysis - Komorowski PDF
No ratings yet
Exploratory Data Analysis - Komorowski PDF
20 pages
Geometria: Colegio Preuniversitario "Trilce"
No ratings yet
Geometria: Colegio Preuniversitario "Trilce"
2 pages
Indian Meterology Pilot Mantras
No ratings yet
Indian Meterology Pilot Mantras
6 pages
WYSIWYG
No ratings yet
WYSIWYG
26 pages
Class XI Commerce
No ratings yet
Class XI Commerce
3 pages
Unit2.5 Compoundsand Solutions
No ratings yet
Unit2.5 Compoundsand Solutions
17 pages
Ultrasonic Horn Designs
No ratings yet
Ultrasonic Horn Designs
5 pages
Risk Management Q-A 1-5 Module-1
No ratings yet
Risk Management Q-A 1-5 Module-1
4 pages
FIn Problems
No ratings yet
FIn Problems
8 pages
SCIENCE 1-4th QUARTER EXAM
No ratings yet
SCIENCE 1-4th QUARTER EXAM
3 pages
Learn About Ecosystems - Lesson Plan
No ratings yet
Learn About Ecosystems - Lesson Plan
2 pages
SWAN SODIUM Na
No ratings yet
SWAN SODIUM Na
120 pages
Elapan Company Profile 2023
No ratings yet
Elapan Company Profile 2023
7 pages
AN240P
No ratings yet
AN240P
5 pages
Via Character Strengths Survey Results Via Institute On Character Via Institute
No ratings yet
Via Character Strengths Survey Results Via Institute On Character Via Institute
1 page
S6 Aceitaka 2017 Agric P1
No ratings yet
S6 Aceitaka 2017 Agric P1
12 pages
Final Monsoon Report 2015 Punjab
No ratings yet
Final Monsoon Report 2015 Punjab
31 pages
2014 SafetyOfDomesticRobots IEEERAM 06880806
No ratings yet
2014 SafetyOfDomesticRobots IEEERAM 06880806
10 pages
Chapter 4 Vector Spaces - Part 2
No ratings yet
Chapter 4 Vector Spaces - Part 2
31 pages
Maneb Jce Mathematics 2012 Past Paper1719321067
No ratings yet
Maneb Jce Mathematics 2012 Past Paper1719321067
4 pages
52-Word Wrap Functionality in ALV
No ratings yet
52-Word Wrap Functionality in ALV
8 pages
Lesson 12.1 and 12.2 Seatwork
No ratings yet
Lesson 12.1 and 12.2 Seatwork
3 pages
Behavioral Pragmatism Barnes Holmes
No ratings yet
Behavioral Pragmatism Barnes Holmes
12 pages
Program: Worksheet 1.2 (Statement of Area-Program Specific Problem)
No ratings yet
Program: Worksheet 1.2 (Statement of Area-Program Specific Problem)
5 pages
Prospectus 2023-2024 SSC
No ratings yet
Prospectus 2023-2024 SSC
88 pages
Solving Algebraic Expression and Equation
100% (1)
Solving Algebraic Expression and Equation
36 pages
G12 Ckii 001
No ratings yet
G12 Ckii 001
6 pages

Applied Multivariate Statistics - Review

Uploaded by

Applied Multivariate Statistics - Review

Uploaded by

Revision: Chapter 1-6

Applied Multivariate Statistics – Spring 2012

 Cov, Cor, Mahalanobis, MV normal distribution

 Covariance: Cov(X; Y ) = E[(X ¡ E[X])(Y ¡ E[Y ])] 2 [¡1; 1]

 Correlation: Corr(X; Y ) = Cov(X;Y )

 Correlation is invariant to changes in units,

 Sample covariance matrix: Sij = Cov(x

 R: Functions “cov”, “cor” in package “stats”

• Which cities are special?

• R: Function “stars” in package

Assume data is multivariate normally distributed

Squared Mahalanobis distance of samples follows a Chi-Square distribution

 Are there samples with estimated Mahalanobis distance

 R: Function «chisq.plot» in package «mvoutlier»

 Too optimistic: Imputation model (e.g. in Y = a + bX) is

 Solution: Multiple Imputation

 R: Package «mice» for Multiple Imputation using chained

 Represent high-dimensional point cloud in few (usually 2)

 If variables are not scaled

 Idea: Use distance measure between 0 and 1 for each

 Binary (a/s), nominal: Use methods discussed before

 R: Function “daisy” in package “cluster”

 Goal 1: Dimension reduction to a few dimensions while

• PC 1 is direction of largest variance

Rule 3: Ellbow after PC 1 (?)

Approximation is often crude;

Special case: Two classes (0/1)

Balance prior and mahalanobis distance

 Use training data also as test data: Overfitting

 Cross validation (CV; e.g. “leave-one-out cross validation):

You might also like