0% found this document useful (0 votes)

24 views21 pages

Biological Data Science Lecture4

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

24 views21 pages

Biological Data Science Lecture4

Uploaded by

zeliawillscumberg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 21

Dr Athanasios Tsanas (‘Thanasis’)

Associate Prof. in Data Science

Usher Institute, Medical School
University of Edinburgh
Day 1 • Introduction and overview; reminder of basic concepts
Day 2 • Data collection and sampling

Day 3 • Data mining: signal/image processing and information extraction

Day 4 • Data visualization: density estimation, statistical descriptors

Day 5 • Exploratory analysis: hypothesis testing and quantifying relationships

Day 6 • Feature selection and feature transformation

Day 7 • Statistical machine learning and model validation

Day 8 • Statistical machine learning and model validation

Day 9 • Practical examples: bringing things together

Day 10 • Revision and exam preparation

Subjects feature1 feature2 ... feature M

P1 3.1 1.3 0.9
P2 3.7 1.0 1.3
X
N P3 2.9 2.6 0.6
…
PN 1.7 2.0 0.7

M (features or characteristics) © A. Tsanas, 2020

Feature generation Feature selection Statistical
from raw data or transformation mapping

X y
Subjects feature1 feature2 ... feature M result
P1 3.1 1.3 0.9 1
P2 3.7 1.0 1.3 2
N P3 2.9 2.6 0.6 1
… …
PN 1.7 2.0 0.7 3

M (features or characteristics) outcome

 Depending on the problem, “features” can be demographics, genes, …

 y = f (X), f : mechanism X: feature set y: outcome © A. Tsanas, 2020

Exploratory
Data
analysis: Feature Statistical
visualization
hypothesis selection or mapping
(density
testing and transformation (regression/clas
estimation,
statistical (e.g. PCA) sification)
scatter plots)
associations

 You can think of this as focusing on a single

feature, i.e. one column in X

 We will subsequently also study the visual

exploration in 2D plots with two variables

Continuous variable Typically all possible values

• Use probability density functions
• (e.g. kernel density estimation)

© A. Tsanas, 2020
 20 throws of a dice:
3,4,4,4,1,3,4,5,1,6,6,4,5,5,3,6,5,4,4,1
Histogram of scores for 20 dice throws
7
6
Frequency

5
4
3
2
1
0
1 2 3 4 5 6
© A. Tsanas, 2020
 Discretize possible values, use “bins”
Histogram of 1000 stock returns
160
140
120
Frequency

100
80
60
40
20
0
-3

-2

-1

3
0.5

1.5

2.5
-2.5

-1.5

-0.5

mean = 500
3.5 X ~ N(500,10 2)
variance = 100

Compute PDF
probability density p(x)

3 standard deviation = 10

2.5 using kernel

2 density
1.5 estimation
1

0.5

0
0 100 200 300 400 500 600 700 800 900 1000
possible values x © A. Tsanas, 2020
1 𝑁
 Mean (average): 𝜇 = σ𝑖=1 𝑥𝑖
𝑁

 Median: rank values, and find middle value

1 𝑁 2
 Standard deviation: 𝜎 = σ𝑖=1 𝑥𝑖 − 𝜇
𝑁

 Variance: var 𝑋 = 𝜎 2

 Interquartile range (iqr): 75% percentile – 25%

 𝑉𝑎𝑟 𝑋 = 𝜎𝛸2 = 𝐸 𝑋 − E 𝑋 2

(𝑚) 𝑚
 𝑀𝑜𝑚𝑒𝑛𝑡𝛸 = 𝐸 𝑋−E 𝑋

 The expectation operator 𝐸 ∙ is computed

from the possible values in 𝑋 multiplied by
their probabilities
© A. Tsanas, 2020
 Same information like PDF, presented differently!
Cumulative Probability Distribution for Stock Returns
1.0

P(return<X)
0.8
Probability

0.6

0.4

0.2

0.0
X
-1.5 -1 -0.5 0 0.5 1 1.5 2
Return
© A. Tsanas, 2020
 Add noise to each observation (impose a kernel,
typically Gaussian kernel)

1 𝛮 𝑥𝑖 −𝑥0 2
 𝑝Ƹ 𝑥0 = σ𝑖=1 exp −
𝑁 2𝜋𝜎 2 2𝜎 2

 𝜎 is the kernel bandwidth

 𝑁 is the number of samples

 𝑥0 refers the point where we estimate the density

• Many different
approaches to
computing the
bandwidth
(beyond this
course)

• Increasing the
kernel
bandwidth 𝜎
leads to
smoother
distribution
© A. Tsanas, 2020
 You will notice that I have placed a lot of
emphasis on densities

 These are important in their own right for

visualization, but more importantly…

 Subsequent machine learning tools often

depend heavily on the density estimates

 “Box and Median

whiskers”

 Easy to
IQR
understand
outlier
 Portrays
outliers
© A. Tsanas, 2020
 Two dimensional plot to visualize how one
variable is related to another

 Often complemented with the ‘best linear fit’

to assess whether there is a positive or
negative relationship

http://www.stat.cmu.edu/~hseltman/309/Book/Book.
pdf

Probability and Statistics For Machine Learning - A Textbook
No ratings yet
Probability and Statistics For Machine Learning - A Textbook
530 pages
A Probability and Statistics Cheatsheet
No ratings yet
A Probability and Statistics Cheatsheet
28 pages
Bayesian Statistical Methods (Brian J. Reich, Sujit K. Ghosh)
No ratings yet
Bayesian Statistical Methods (Brian J. Reich, Sujit K. Ghosh)
288 pages
Murphy Book Solution
No ratings yet
Murphy Book Solution
100 pages
Bootstrap
No ratings yet
Bootstrap
8 pages
Biological Data Science - Lecture1
No ratings yet
Biological Data Science - Lecture1
34 pages
Solution
No ratings yet
Solution
148 pages
Biological Data Science Lecture7
No ratings yet
Biological Data Science Lecture7
17 pages
Applied Statistics - Lecture 1: Mario Beraha
No ratings yet
Applied Statistics - Lecture 1: Mario Beraha
52 pages
Biological Data Science Lecture3
No ratings yet
Biological Data Science Lecture3
23 pages
Lecture 03 Bayes Classifier With Prob Concepts
No ratings yet
Lecture 03 Bayes Classifier With Prob Concepts
70 pages
STAT3006 Lecture Notes 2021 Aug8 2021
No ratings yet
STAT3006 Lecture Notes 2021 Aug8 2021
110 pages
Cheat Sheet
No ratings yet
Cheat Sheet
4 pages
Statistics and Econometrics
No ratings yet
Statistics and Econometrics
12 pages
A Short Course On Nonparametric Curve Estimation R PDF
No ratings yet
A Short Course On Nonparametric Curve Estimation R PDF
114 pages
Skewness 2025
No ratings yet
Skewness 2025
62 pages
Bayesian Classifier Implementation Using MATLAB
No ratings yet
Bayesian Classifier Implementation Using MATLAB
21 pages
Probability - Statistics - Class Notes
No ratings yet
Probability - Statistics - Class Notes
15 pages
Introduction To Data Science Exploratory Data Analysis
No ratings yet
Introduction To Data Science Exploratory Data Analysis
55 pages
Machine Learning Notes 1
No ratings yet
Machine Learning Notes 1
120 pages
Extra Lecturenotes Cs725
No ratings yet
Extra Lecturenotes Cs725
119 pages
DS ML Probability Statistics Interview
No ratings yet
DS ML Probability Statistics Interview
6 pages
Cheat Sheet
No ratings yet
Cheat Sheet
163 pages
4 - Basics in Statistics and Linear Algebra
No ratings yet
4 - Basics in Statistics and Linear Algebra
7 pages
Lecture Notes
No ratings yet
Lecture Notes
80 pages
Lecture 8
No ratings yet
Lecture 8
76 pages
MECH 262 - Notes (Statistics)
No ratings yet
MECH 262 - Notes (Statistics)
7 pages
Bi Intro
No ratings yet
Bi Intro
24 pages
Data Science 01 - Basics
No ratings yet
Data Science 01 - Basics
52 pages
Statistics Guide
No ratings yet
Statistics Guide
27 pages
Biological Data Science Lecture6
No ratings yet
Biological Data Science Lecture6
29 pages
Econometricks-Short Guide
No ratings yet
Econometricks-Short Guide
110 pages
MAT 211 Introduction To Business Statistics I Lecture Notes
No ratings yet
MAT 211 Introduction To Business Statistics I Lecture Notes
69 pages
Chapter 1 Introduction and Review
No ratings yet
Chapter 1 Introduction and Review
43 pages
Book IntroStatistics PDF
No ratings yet
Book IntroStatistics PDF
263 pages
Lecture01
No ratings yet
Lecture01
76 pages
1
No ratings yet
1
130 pages
DAV - Technical Book
No ratings yet
DAV - Technical Book
137 pages
Exercises
No ratings yet
Exercises
69 pages
Prob Toc
No ratings yet
Prob Toc
12 pages
Stat Cookbook
No ratings yet
Stat Cookbook
31 pages
Statistical Learning
No ratings yet
Statistical Learning
2 pages
ANALYST Sources
No ratings yet
ANALYST Sources
23 pages
Uoc Luong Phi Tham So
No ratings yet
Uoc Luong Phi Tham So
84 pages
DMbook TOC1
No ratings yet
DMbook TOC1
8 pages
Statistical Perspective
No ratings yet
Statistical Perspective
85 pages
Probability and Statistics - Cookbook
No ratings yet
Probability and Statistics - Cookbook
28 pages
Probability
No ratings yet
Probability
27 pages
Lec2 IntroToProbabilityAndStatistics
No ratings yet
Lec2 IntroToProbabilityAndStatistics
37 pages
Maths Roadmap For Machine Learning - Statistics
No ratings yet
Maths Roadmap For Machine Learning - Statistics
5 pages
Data Science Course Syllabus
No ratings yet
Data Science Course Syllabus
13 pages
Complete Data Analysts RoadMap
No ratings yet
Complete Data Analysts RoadMap
47 pages
Stats Cheat Sheet
No ratings yet
Stats Cheat Sheet
28 pages
Computer Vision Graph Cuts: Exploring Graph Cuts in Computer Vision
From Everand
Computer Vision Graph Cuts: Exploring Graph Cuts in Computer Vision
Fouad Sabry
No ratings yet
Scale Invariant Feature Transform: Unveiling the Power of Scale Invariant Feature Transform in Computer Vision
From Everand
Scale Invariant Feature Transform: Unveiling the Power of Scale Invariant Feature Transform in Computer Vision
Fouad Sabry
No ratings yet
Pyramid Image Processing: Exploring the Depths of Visual Analysis
From Everand
Pyramid Image Processing: Exploring the Depths of Visual Analysis
Fouad Sabry
No ratings yet
Digital Image Processing: Fundamentals and Applications
From Everand
Digital Image Processing: Fundamentals and Applications
Fouad Sabry
No ratings yet
Procedural Surface: Exploring Texture Generation and Analysis in Computer Vision
From Everand
Procedural Surface: Exploring Texture Generation and Analysis in Computer Vision
Fouad Sabry
No ratings yet
Scanline Rendering: Exploring Visual Realism Through Scanline Rendering Techniques
From Everand
Scanline Rendering: Exploring Visual Realism Through Scanline Rendering Techniques
Fouad Sabry
No ratings yet
Illuminating Data: A hands on guide to data visualization in R
From Everand
Illuminating Data: A hands on guide to data visualization in R
Eman Ahmad
No ratings yet
SVG Drawing with HTML5
From Everand
SVG Drawing with HTML5
Hussein Qutbi
No ratings yet
BDS 2016-17
No ratings yet
BDS 2016-17
4 pages
Award in Education and Training Sample
No ratings yet
Award in Education and Training Sample
9 pages
MDA3S
No ratings yet
MDA3S
22 pages
w2c Central Limit
No ratings yet
w2c Central Limit
1 page
Doing Business in Hungary
No ratings yet
Doing Business in Hungary
22 pages
BDS 2018-19
No ratings yet
BDS 2018-19
6 pages
W2e Multivariate Gaussian
No ratings yet
W2e Multivariate Gaussian
6 pages
MATH11183 Week 1-Part 2
No ratings yet
MATH11183 Week 1-Part 2
18 pages
Week 2 Naive Bayes
No ratings yet
Week 2 Naive Bayes
15 pages
Part 5
No ratings yet
Part 5
31 pages
Week 8 Pca
No ratings yet
Week 8 Pca
26 pages
TS Part2
No ratings yet
TS Part2
62 pages
PMRslides 02
No ratings yet
PMRslides 02
13 pages
Part 4
No ratings yet
Part 4
24 pages
W6a Gaussian Process Kernels
No ratings yet
W6a Gaussian Process Kernels
6 pages
Part 3
No ratings yet
Part 3
29 pages
PMRslides 03 B
No ratings yet
PMRslides 03 B
45 pages
MLPR w0f - Machine Learning and Pattern Recognition
No ratings yet
MLPR w0f - Machine Learning and Pattern Recognition
3 pages
Machine Learning and Pattern Recognition - Laplace - Approximation
No ratings yet
Machine Learning and Pattern Recognition - Laplace - Approximation
4 pages
Slides 03 A
No ratings yet
Slides 03 A
21 pages
Bayesian Workshop1 Solution
No ratings yet
Bayesian Workshop1 Solution
3 pages
w9b Netflix Prize
No ratings yet
w9b Netflix Prize
3 pages
Bio Statslectures
No ratings yet
Bio Statslectures
60 pages
Heat Advection
No ratings yet
Heat Advection
12 pages
Bayesian Week4 LectureNotes
No ratings yet
Bayesian Week4 LectureNotes
15 pages
2017 AMAM Exam Paper
No ratings yet
2017 AMAM Exam Paper
6 pages
2019 AMAM Exam Paper
No ratings yet
2019 AMAM Exam Paper
3 pages
Machine Learning and Pattern Recognition Variational KL
No ratings yet
Machine Learning and Pattern Recognition Variational KL
5 pages
Machine Learning and Pattern Recognition Minimal Stochastic Variational Inference Demo
No ratings yet
Machine Learning and Pattern Recognition Minimal Stochastic Variational Inference Demo
3 pages
Safety Audit
No ratings yet
Safety Audit
52 pages
THE USE OF SHADOWING TO TEACH ENGLISH PRONUNCIATION INMaxim Barkov
No ratings yet
THE USE OF SHADOWING TO TEACH ENGLISH PRONUNCIATION INMaxim Barkov
10 pages
Duties and Responsibilities
No ratings yet
Duties and Responsibilities
8 pages
Archika 228
No ratings yet
Archika 228
58 pages
Course Completion Certificate
No ratings yet
Course Completion Certificate
5 pages
Qualitative Research Methods in Pharmacy Practice: Disclosure of Relevant Financial Relationships
No ratings yet
Qualitative Research Methods in Pharmacy Practice: Disclosure of Relevant Financial Relationships
7 pages
Blooms Taxonomy MCQs Notes - PPSC MCQs Past Papers, SPSC FPSC CSS PMS Past Papers
33% (3)
Blooms Taxonomy MCQs Notes - PPSC MCQs Past Papers, SPSC FPSC CSS PMS Past Papers
7 pages
U G Boards of Studies Panel
No ratings yet
U G Boards of Studies Panel
34 pages
Icodev Proceeding Template-Safarianto - R1
No ratings yet
Icodev Proceeding Template-Safarianto - R1
6 pages
Qualitative Research Methodology Sample Thesis
100% (3)
Qualitative Research Methodology Sample Thesis
6 pages
Data Gathering Instruments: 1-Interview Flow Guide
No ratings yet
Data Gathering Instruments: 1-Interview Flow Guide
5 pages
Sail2023 Invite BPC Handout
No ratings yet
Sail2023 Invite BPC Handout
12 pages
Essay On Stem Cells
No ratings yet
Essay On Stem Cells
4 pages
Criteria Essay
No ratings yet
Criteria Essay
9 pages
Mba 1 Sem Quantitative Methods 2017
No ratings yet
Mba 1 Sem Quantitative Methods 2017
1 page
Approaches To Studying Intercultural Communication
100% (1)
Approaches To Studying Intercultural Communication
2 pages
Conditional Probability and - Independence
No ratings yet
Conditional Probability and - Independence
41 pages
CV Vipin - Fy24
No ratings yet
CV Vipin - Fy24
2 pages
I.1 Theoretical Framework Problem Statement and Research Questions
No ratings yet
I.1 Theoretical Framework Problem Statement and Research Questions
5 pages
Cancer Registry Materials
No ratings yet
Cancer Registry Materials
3 pages
1 s2.0 S0264275123002470 Main
No ratings yet
1 s2.0 S0264275123002470 Main
15 pages
Risk Assessment - Characterization
No ratings yet
Risk Assessment - Characterization
10 pages
Research Paper (Yung Buo)
No ratings yet
Research Paper (Yung Buo)
61 pages
Odds Ratios-Current Best Practice and Use: JAMA Guide To Statistics and Methods
No ratings yet
Odds Ratios-Current Best Practice and Use: JAMA Guide To Statistics and Methods
2 pages
MKT 4131 Assessment 2 - AY21-22
No ratings yet
MKT 4131 Assessment 2 - AY21-22
3 pages
The Sandwich Generation(s) : Amy Goyer
No ratings yet
The Sandwich Generation(s) : Amy Goyer
73 pages
Seminar
No ratings yet
Seminar
27 pages
3a. Factorial Experiment
No ratings yet
3a. Factorial Experiment
47 pages
Customer Perception Towards Home Loans in HDFC Bank in Mayiladuthurai Town-with-cover-page-V2
No ratings yet
Customer Perception Towards Home Loans in HDFC Bank in Mayiladuthurai Town-with-cover-page-V2
8 pages

Biological Data Science Lecture4

Uploaded by

Biological Data Science Lecture4

Uploaded by

Dr Athanasios Tsanas (‘Thanasis’)

Associate Prof. in Data Science

Day 3 • Data mining: signal/image processing and information extraction

Day 4 • Data visualization: density estimation, statistical descriptors

Day 5 • Exploratory analysis: hypothesis testing and quantifying relationships

Day 6 • Feature selection and feature transformation

Day 7 • Statistical machine learning and model validation

Day 8 • Statistical machine learning and model validation

Day 9 • Practical examples: bringing things together

Day 10 • Revision and exam preparation

Subjects feature1 feature2 ... feature M

M (features or characteristics) © A. Tsanas, 2020

M (features or characteristics) outcome

 y = f (X), f : mechanism X: feature set y: outcome © A. Tsanas, 2020

 You can think of this as focusing on a single

 We will subsequently also study the visual

Continuous variable Typically all possible values

2.5 using kernel

 Median: rank values, and find middle value

 Interquartile range (iqr): 75% percentile – 25%

 The expectation operator 𝐸 ∙ is computed

 𝜎 is the kernel bandwidth

 𝑁 is the number of samples

 𝑥0 refers the point where we estimate the density

Image source: Wikipedia © A. Tsanas, 2020

 These are important in their own right for

 Subsequent machine learning tools often

 “Box and Median

 Often complemented with the ‘best linear fit’

You might also like