0% found this document useful (0 votes)

19 views29 pages

Biological Data Science Lecture6

Biological Data Science

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views29 pages

Biological Data Science Lecture6

Biological Data Science

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 29

Dr Athanasios Tsanas (‘Thanasis’)

Associate Prof. in Data Science

Usher Institute, Medical School
University of Edinburgh
Day 1 • Introduction and overview; reminder of basic concepts
Day 2 • Data collection and sampling

Day 3 • Data mining: signal/image processing and information extraction

Day 4 • Data visualization: density estimation, statistical descriptors

Day 5 • Exploratory analysis: hypothesis testing and quantifying relationships

Day 6 • Feature selection and feature transformation

Day 7 • Statistical machine learning and model validation

Day 8 • Statistical machine learning and model validation

Day 9 • Practical examples: bringing things together

Day 10 • Revision and exam preparation

X y
Subjects feature1 feature2 ... feature M result
P1 3.1 1.3 0.9 1
P2 3.7 1.0 1.3 2
N P3 2.9 2.6 0.6 1
… …
PN 1.7 2.0 0.7 3

M (features or characteristics) outcome

 Depending on the problem, “features” can be demographics, genes, …

 y = f (X), f : mechanism X: feature set y: outcome © A. Tsanas, 2020

Exploratory
Data
analysis: Feature Statistical
visualization
hypothesis selection or mapping
(density
testing and transformation (regression/clas
estimation,
statistical (e.g. PCA) sification)
scatter plots)
associations

© A. Tsanas, 2020
▪ Many features 𝑀  Curse of dimensionality
▪ Obstruct interpretability and detrimental to learning process

▪ Feature selection
▪ Feature transformation
© A. Tsanas, 2020
▪ Principle of parsimony
▪ Information content
▪ Statistical associations
▪ Computational constraints

▪ We want to determine the most parsimonious

feature subset with maximum joint information
content © A. Tsanas, 2020
© A. Tsanas, 2020
▪ Construct lower dimensional space where the
new data points retain the distance of the data
points in the original feature space
▪ Different algorithms depending on how we
define the distance
© A. Tsanas, 2020
▪ Results are not easily
interpretable
▪ Does not save up on resources
on data collection or data
processing
▪ Reliable transformation in
high dimensional spaces is
problematic
© A. Tsanas, 2020
▪ Project data from X into a different feature
space X’
▪ Linearly uncorrelated principal components
▪ Maximize capturing the remaining variance at
each step

▪ Best linear approximation of the data

© A. Tsanas, 2020
▪ Principal components associated with the
original features via the loadings (weights), e.g.:
PCA1 = 0.1*x1 + 0.3*x2 + 0.8*x3 + …

▪ See how well each principal component explains

the remaining variance in the data

▪ Potentially interpretable results in many

applications
© A. Tsanas, 2020
▪ Questionnaire with 6 items
▪ Think it as 6 “features”
▪ Each feature: 7 possible values
(Likert-scores)
▪ 1000+ samples
▪ Is there some structure in the
questionnaire? (i.e. latent
variables) © A. Tsanas, 2020
P1 P2 P3 P4 P5 P6
Anxious 0.55 0.08 -0.47 -0.27 0.60 0.18
Elated -0.11 0.76 -0.11 -0.53 -0.33 0.01
Sad 0.52 0.04 -0.43 0.39 -0.57 -0.25
Angry 0.42 0.11 0.46 0.11 -0.21 0.74
Irritable 0.47 0.12 0.60 -0.15 0.14 -0.60
Energetic -0.13 0.62 0.020 0.67 0.38 -0.03
% Total
variance 55 77 85 91 97 100
explained
Tentative “Negative “Positive “Irritability”
interpretation feelings” feelings”

© A. Tsanas, 2020
Subjects feature1 feature2 ... feature M
P1 3.1 1.3 0.9
P2 3.7 1.0 1.3 X
N P3 2.9 2.6 0.6
…
PN 1.7 2.0 0.7
M (features or characteristics)
Subjects PCA feat1 PCA feat2 ... PCA feat M
P1 3.1*P1+
1.3*P2+…
P2 X’
N P3
…
PN 1.7 2.0 0.7
m (features or characteristics) © A. Tsanas, 2020
▪ Unobserved latent variables = factors
▪ Similar in principle to PCA, but has subtle differences
▪ FA takes into account random errors in
measurements
▪ Different flavours of FA: Exploratory FA (EFA),
Confirmatory FA (CFA)
▪ Many statisticians remain skeptical about FA because
it has no unique solutions (space rotation)
© A. Tsanas, 2020
Day 6 part 2
Discard non-contributing features towards
predicting the outcome
© A. Tsanas, 2020
▪ Interpretable
▪ Retain domain expertise

▪ Often is the only useful approach in practice

(e.g. in micro-array data)
▪ Saves on resources on data collection or data
processing
© A. Tsanas, 2020
▪ Maximum relevance: features (F) and response (y)

F1 F2
F3 y
▪ Which features would you choose? In which order?
© A. Tsanas, 2020
▪ Minimum redundancy amongst features in the subset

F1 F2
F3 F4

▪ Which features would you choose? In which order?

▪ Features are jointly highly predictive of outcome

© A. Tsanas, 2020
▪ Compromise: relevance and redundancy
▪ Does not account for interactions and non-
pairwise redundancy
▪ Generally works very well
1
▪ mRMR ≝ max 𝐼 𝐟𝑗 , 𝐲 − σ𝑠 ∈ 𝑆 𝐼 𝐟𝑗 , 𝐟𝑠
𝑗 ∈ 𝑄−𝑆 𝑆

❑ 𝑆 is the cardinality of the selected subset

❑ 𝑄 contains the indices of all possible features © A. Tsanas, 2020
▪ Start with classical ordinary least squares
regression
▪ L1 penalty: sparsity promoting,
▪ some coefficients => exactly zero!

© A. Tsanas, 2020
▪ Selecting the ‘true’ feature subset (i.e. discarding
features which are known to be noise)
o Possible only for artificial datasets

▪ Maximize the out of sample prediction

performance
o proxy for assessing feature selection algorithms
o adds an additional ‘layer’: the learner
o beware of feature exportability (different learners may give
different results)
o BUT… in practice this is really what is of most interest!
© A. Tsanas, 2020
Ovarian cancer SRBCT
1 1
LASSO LASSO
0.9 mRMR 0.9 mRMR
mRMR Spearman mRMR Spearman
0.8 0.8
Misclassification (RF)

Misclassification (RF)
GSO GSO
RELIEF RELIEF
0.7 0.7
LLBFS LLBFS
0.6 RRCT RRCT
0.6

0.5 0.5

0.4 0.4

0.3 0.3

0.2 0.2

0.1 0.1

0 0
1 5 10 15 20 25 30 1 5 10 15 20 25 30 35 40 45 50
Number of features Number of features

▪ Out of sample classification error using the selected feature

subsets (lower is better)
▪ Which FS algorithm leads to best results?
© A. Tsanas, 2020
▪ No free lunch theorem (no universally best algorithm)
▪ Trade-offs
o algorithmic: relevance, redundancy, complementarity
o computational: wrappers are costly but often give better results
o comprehensive search of the feature space, e.g. genetic algorithms
(very costly)

▪ Reducing the number of features may improve

prediction performance and always improves
interpretability
© A. Tsanas, 2020
 I. Guyon and A. Elisseeff: An introduction to variable
and feature selection, JMLR, 2003
http://www.jmlr.org/papers/volume3/guyon03a/guyo
n03a.pdf

 OPTIONAL: L. van der Maaten: Dimensionality

reduction
https://lvdmaaten.github.io/publications/papers/TR_
Dimensionality_Reduction_Review_2009.pdf
© A. Tsanas, 2020

Mango Ink
54% (13)
Mango Ink
21 pages
Satisfaction of Senior High Students On School Services
84% (19)
Satisfaction of Senior High Students On School Services
96 pages
Case Burke Rony
100% (3)
Case Burke Rony
2 pages
Unit 4 Basics of Feature Engineering
No ratings yet
Unit 4 Basics of Feature Engineering
33 pages
ML Interview Cheat Sheet
No ratings yet
ML Interview Cheat Sheet
9 pages
PRIME HRM Power Point Presentation
100% (1)
PRIME HRM Power Point Presentation
42 pages
Biological Data Science Lecture7
No ratings yet
Biological Data Science Lecture7
17 pages
ML Lab - Sukanya Raja
No ratings yet
ML Lab - Sukanya Raja
23 pages
Pattern L1 L6
No ratings yet
Pattern L1 L6
19 pages
CDT B1 Lab06 MondayWeek2
No ratings yet
CDT B1 Lab06 MondayWeek2
6 pages
3ML.03.Feature Reduction
No ratings yet
3ML.03.Feature Reduction
44 pages
Preprocessing - M2
No ratings yet
Preprocessing - M2
53 pages
Mixomics
No ratings yet
Mixomics
100 pages
Pattern Summary Final
No ratings yet
Pattern Summary Final
28 pages
Data Mining Disease Diagnosis Presentation
No ratings yet
Data Mining Disease Diagnosis Presentation
35 pages
Learning Book 11 Feb
No ratings yet
Learning Book 11 Feb
322 pages
ADS Notes Module 4
No ratings yet
ADS Notes Module 4
13 pages
LINFO2275 Questions D Examen-4
No ratings yet
LINFO2275 Questions D Examen-4
34 pages
EDA Explanations
No ratings yet
EDA Explanations
22 pages
6 - Data Pre-Processing-III
No ratings yet
6 - Data Pre-Processing-III
30 pages
Feature Engineering
No ratings yet
Feature Engineering
51 pages
Lec 5
No ratings yet
Lec 5
24 pages
Types of Data (Qualitative and Quantitative)
No ratings yet
Types of Data (Qualitative and Quantitative)
89 pages
Dimenn Red PDF
No ratings yet
Dimenn Red PDF
135 pages
DimensionalityReduction 13022024
No ratings yet
DimensionalityReduction 13022024
32 pages
20 Cs 112
No ratings yet
20 Cs 112
11 pages
hst951 7
No ratings yet
hst951 7
32 pages
Practical Guide and Concepts Data Mining
No ratings yet
Practical Guide and Concepts Data Mining
63 pages
DSH - L5 - Data-Driven Approaches - Concepts
No ratings yet
DSH - L5 - Data-Driven Approaches - Concepts
38 pages
10 - Chapter 3
No ratings yet
10 - Chapter 3
15 pages
ML Lab File
No ratings yet
ML Lab File
43 pages
Data and Metrics
No ratings yet
Data and Metrics
35 pages
Feature Gradients: Scalable Feature Selection Via Discrete Relaxation
No ratings yet
Feature Gradients: Scalable Feature Selection Via Discrete Relaxation
9 pages
Pca Kmeans GMM
No ratings yet
Pca Kmeans GMM
96 pages
MODELS (AutoRecovered)
No ratings yet
MODELS (AutoRecovered)
9 pages
Biological Data Science Lecture4
No ratings yet
Biological Data Science Lecture4
21 pages
BITS-WASE-DATA MINING-Session-07-2015 PDF
No ratings yet
BITS-WASE-DATA MINING-Session-07-2015 PDF
25 pages
Pattern Classification 06. Feature Selection & Extraction: Abdelmoniem Bayoumi, PHD
No ratings yet
Pattern Classification 06. Feature Selection & Extraction: Abdelmoniem Bayoumi, PHD
29 pages
Cheat Sheet
No ratings yet
Cheat Sheet
4 pages
Module-2 C3-C4
No ratings yet
Module-2 C3-C4
66 pages
4 Feature Selection
No ratings yet
4 Feature Selection
46 pages
Introduction To Data Mining 2005
60% (5)
Introduction To Data Mining 2005
400 pages
Feature Selection and Extraction
No ratings yet
Feature Selection and Extraction
26 pages
Dimensionality Reduction
No ratings yet
Dimensionality Reduction
57 pages
Data Preprocessing
No ratings yet
Data Preprocessing
56 pages
IMAMultivariate 1
No ratings yet
IMAMultivariate 1
90 pages
Data Analytics Lab Manual - 250402 - 095326
No ratings yet
Data Analytics Lab Manual - 250402 - 095326
58 pages
16 dm2 Dimred 2022 23
No ratings yet
16 dm2 Dimred 2022 23
49 pages
ML - Lab Manual
No ratings yet
ML - Lab Manual
54 pages
Machine Learning Mindmap PDF
100% (1)
Machine Learning Mindmap PDF
5 pages
Module 2
No ratings yet
Module 2
12 pages
Machine Learning in 10 Pages PDF
No ratings yet
Machine Learning in 10 Pages PDF
10 pages
5 Data Pre Processing III
No ratings yet
5 Data Pre Processing III
30 pages
Geffcm Gefem: Approximate Clustering in Very Large Object Data
No ratings yet
Geffcm Gefem: Approximate Clustering in Very Large Object Data
32 pages
Investigation and Comparison Missing Data Imputation Methods
No ratings yet
Investigation and Comparison Missing Data Imputation Methods
73 pages
Note 4 Nov 2023
No ratings yet
Note 4 Nov 2023
18 pages
7073 21560 2 PB
No ratings yet
7073 21560 2 PB
9 pages
Statistic & Machine Learning: Team 2
No ratings yet
Statistic & Machine Learning: Team 2
42 pages
Solution
No ratings yet
Solution
148 pages
ML in 10 Pages 1683806402
No ratings yet
ML in 10 Pages 1683806402
10 pages
CS464 Ch5 FeatureSelection
No ratings yet
CS464 Ch5 FeatureSelection
31 pages
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
Scale Invariant Feature Transform: Unveiling the Power of Scale Invariant Feature Transform in Computer Vision
From Everand
Scale Invariant Feature Transform: Unveiling the Power of Scale Invariant Feature Transform in Computer Vision
Fouad Sabry
No ratings yet
Scanline Rendering: Exploring Visual Realism Through Scanline Rendering Techniques
From Everand
Scanline Rendering: Exploring Visual Realism Through Scanline Rendering Techniques
Fouad Sabry
No ratings yet
Doing Business in Hungary
No ratings yet
Doing Business in Hungary
22 pages
W2e Multivariate Gaussian
No ratings yet
W2e Multivariate Gaussian
6 pages
Award in Education and Training Sample
No ratings yet
Award in Education and Training Sample
9 pages
BDS 2018-19
No ratings yet
BDS 2018-19
6 pages
w2c Central Limit
No ratings yet
w2c Central Limit
1 page
MDA3S
No ratings yet
MDA3S
22 pages
BDS 2016-17
No ratings yet
BDS 2016-17
4 pages
MATH11183 Week 1-Part 2
No ratings yet
MATH11183 Week 1-Part 2
18 pages
Part 4
No ratings yet
Part 4
24 pages
W6a Gaussian Process Kernels
No ratings yet
W6a Gaussian Process Kernels
6 pages
Slides 03 A
No ratings yet
Slides 03 A
21 pages
Part 5
No ratings yet
Part 5
31 pages
TS Part2
No ratings yet
TS Part2
62 pages
Week 8 Pca
No ratings yet
Week 8 Pca
26 pages
Week 2 Naive Bayes
No ratings yet
Week 2 Naive Bayes
15 pages
MLPR w0f - Machine Learning and Pattern Recognition
No ratings yet
MLPR w0f - Machine Learning and Pattern Recognition
3 pages
Part 3
No ratings yet
Part 3
29 pages
Bayesian Week4 LectureNotes
No ratings yet
Bayesian Week4 LectureNotes
15 pages
PMRslides 02
No ratings yet
PMRslides 02
13 pages
Bio Statslectures
No ratings yet
Bio Statslectures
60 pages
PMRslides 03 B
No ratings yet
PMRslides 03 B
45 pages
Bayesian Workshop1 Solution
No ratings yet
Bayesian Workshop1 Solution
3 pages
w9b Netflix Prize
No ratings yet
w9b Netflix Prize
3 pages
Machine Learning and Pattern Recognition Minimal Stochastic Variational Inference Demo
No ratings yet
Machine Learning and Pattern Recognition Minimal Stochastic Variational Inference Demo
3 pages
Heat Advection
No ratings yet
Heat Advection
12 pages
2019 AMAM Exam Paper
No ratings yet
2019 AMAM Exam Paper
3 pages
Machine Learning and Pattern Recognition - Laplace - Approximation
No ratings yet
Machine Learning and Pattern Recognition - Laplace - Approximation
4 pages
Machine Learning and Pattern Recognition Variational KL
No ratings yet
Machine Learning and Pattern Recognition Variational KL
5 pages
2017 AMAM Exam Paper
No ratings yet
2017 AMAM Exam Paper
6 pages
Chapter 1 - BRODGAR STATISTIC
No ratings yet
Chapter 1 - BRODGAR STATISTIC
4 pages
Measures of Central Tendency
100% (3)
Measures of Central Tendency
30 pages
PR2 Thesis
100% (1)
PR2 Thesis
10 pages
Best Practice Project Definition Rating Index PDF
No ratings yet
Best Practice Project Definition Rating Index PDF
49 pages
Econometric Model With Cross-Sectional, Time Series, and Panel Data
0% (1)
Econometric Model With Cross-Sectional, Time Series, and Panel Data
4 pages
Sarcopenia HF SRMA
No ratings yet
Sarcopenia HF SRMA
9 pages
Chapter 4 - Audit Evidence - ST
No ratings yet
Chapter 4 - Audit Evidence - ST
39 pages
Syllabus: Cambridge IGCSE Sociology 0495
No ratings yet
Syllabus: Cambridge IGCSE Sociology 0495
27 pages
MINE 310 Project Setup in MineSight
No ratings yet
MINE 310 Project Setup in MineSight
18 pages
3 - Impact of Sensory Multimodality Congruence and Familiarity With Short Use On Cosmetic Product Evaluation
No ratings yet
3 - Impact of Sensory Multimodality Congruence and Familiarity With Short Use On Cosmetic Product Evaluation
1 page
Hold Time Study SOP Indian Pharma 1
No ratings yet
Hold Time Study SOP Indian Pharma 1
3 pages
Uncorrected Author Proof: Split-Shift Work in Relation To Stress, Health and Psychosocial Work Factors Among Bus Drivers
No ratings yet
Uncorrected Author Proof: Split-Shift Work in Relation To Stress, Health and Psychosocial Work Factors Among Bus Drivers
8 pages
Example of Literature Review in Lab Report
100% (2)
Example of Literature Review in Lab Report
7 pages
Stacy M. Carter Miles Little (2007) PDF
No ratings yet
Stacy M. Carter Miles Little (2007) PDF
17 pages
Alladin Et Al 2024 Children Aged 5 13 Years Show Adult Like Disgust Avoidance But Not Proto Nausea
No ratings yet
Alladin Et Al 2024 Children Aged 5 13 Years Show Adult Like Disgust Avoidance But Not Proto Nausea
8 pages
Total Quality Management & Business Excellence
No ratings yet
Total Quality Management & Business Excellence
13 pages
Fantasy and Sexual Offending
No ratings yet
Fantasy and Sexual Offending
17 pages
GUIDELINES FOR THE RESEARCH STUDY Final 1
No ratings yet
GUIDELINES FOR THE RESEARCH STUDY Final 1
9 pages
Title - Parental Involvement On Early Childhood Literacy Development
No ratings yet
Title - Parental Involvement On Early Childhood Literacy Development
14 pages
Literature Review On Market Potential
100% (3)
Literature Review On Market Potential
7 pages
Christian D. Allen: - EDUCATION
No ratings yet
Christian D. Allen: - EDUCATION
2 pages
An Analysis of The 7th Graders' English
No ratings yet
An Analysis of The 7th Graders' English
13 pages
Sampling Techniques
No ratings yet
Sampling Techniques
1 page
Group 3 - Revised
No ratings yet
Group 3 - Revised
44 pages
CAPE ElectricalElectronicTechnology SBAGuidelines Unit2
No ratings yet
CAPE ElectricalElectronicTechnology SBAGuidelines Unit2
1 page
Research Quiz
No ratings yet
Research Quiz
9 pages

Biological Data Science Lecture6

Uploaded by

Biological Data Science Lecture6

Uploaded by

Dr Athanasios Tsanas (‘Thanasis’)

Associate Prof. in Data Science

Day 3 • Data mining: signal/image processing and information extraction

Day 4 • Data visualization: density estimation, statistical descriptors

Day 5 • Exploratory analysis: hypothesis testing and quantifying relationships

Day 6 • Feature selection and feature transformation

Day 7 • Statistical machine learning and model validation

Day 8 • Statistical machine learning and model validation

Day 9 • Practical examples: bringing things together

Day 10 • Revision and exam preparation

M (features or characteristics) outcome

 y = f (X), f : mechanism X: feature set y: outcome © A. Tsanas, 2020

▪ We want to determine the most parsimonious

▪ Best linear approximation of the data

▪ See how well each principal component explains

▪ Potentially interpretable results in many

▪ Often is the only useful approach in practice

▪ Which features would you choose? In which order?

▪ Features are jointly highly predictive of outcome

❑ 𝑆 is the cardinality of the selected subset

▪ Maximize the out of sample prediction

▪ Out of sample classification error using the selected feature

▪ Reducing the number of features may improve

 OPTIONAL: L. van der Maaten: Dimensionality

You might also like