0% found this document useful (0 votes)

21 views59 pages

VAE talk.compressed - 副本

Uploaded by

qbk12138

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

21 views59 pages

VAE talk.compressed - 副本

Uploaded by

qbk12138

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 59

Variational Auto-Encoders

Diederik P. Kingma
Introduction and
Motivation
Motivation and applications
Versatile framework for unsupervised and semi-supervised
deep learning

Representation Learning. E.g.:

2D visualisation

Data-eﬃcient learning. Semi-supervised learning

Artificial Creativity. E.g.:

Image/text resynthesis, Molecule design

Sad Kanye -> Happy Kanye

“Smile vector”. Tom White, 2016,

twitter: @dribnet
Background
Probabilistic Models
x: Observed random variables

p*(x) or: underlying unknown process

pθ(x): model distribution

Goal: pθ(x) ≈ p*(x)

We wish flexible pθ(x)

Conditional modeling goal: pθ(x|y) ≈ p*(x|y)

Concept 1:
Parameterization of conditional distributions
with Neural Networks
Common example

x y
0.9
NeuralNet(x)
0.45

0
Cat MouseDog ...
Concept 2:
Generalization into Directed Models
parameterized with Bayesian Networks
Directed graphical models / Bayesian networks

Joint distribution factorizes as:

We parameterize conditionals using neural networks:

Traditionally: parameterized using probability tables

Maximum Likelihood (ML)
Log-probability of a datapoint x:

Log-likelihood of i.i.d. dataset:

Optimizable with (minibatch) SGD

Concept 3:
Generalization into
Deep Latent-Variable Models
Deep Latent-Variable Model (DLVM)
Introduction of latent variables in graph

Latent-variable model pθ(x,z)

where conditionals are parameterized with neural networks

Advantages:

Extremely flexible: even if each conditional is simple (e.g.

conditional Gaussian), the marginal likelihood can be
arbitrarily complex

Disadvantage:

is intractable
Neural Net
DLVM: Optimization is non-trivial
By direct optimization of log p(x) ?

Intractable marg. likelihood

With expectation maximization (EM)?

Intractable posterior: p(z|x) = p(x,z)/p(x)

With MAP: point estimate of p(z|x)?

Overfits

With trad. variational EM and MCMC-EM?

Slow

And none tells us how to do fast posterior inference

Variational Autoencoders
(VAEs)
Solution: Variational Autoencoder (VAE)
Introduce q(z|x): parametric model
of true posterior

Parameterized by another neural network

Joint optimization of q(z|x) and p(x,z)

Remarkably simple objective:

evidence lower bound (ELBO) [MacKay, 1992]
Encoder / Approximate Posterior
qφ(z|x): parametric model of the posterior
φ: variational parameters

We optimize the variational parameters φ such that:

Like a DLVM, the inference model can be (almost) any

directed graphical model:

Note that traditionally, variational methods employ local

variational parameters. We only have global φ
Evidence Lower Bound / ELBO
Objective (ELBO):
L(x; ✓) = Eq(z|x) [log p(x, z) log q(z|x)]

Can be rewritten as:

L(x; ✓) = log p(x) DKL (q(z|x)||p(z|x))

Example
1. Maximization of log p(x)
=> Good marginal likelihood
z θ
2. Minimization of DKL(q(z|x)||p(z|x))
=> Accurate (and fast) posterior inference
x
N
Stochastic Gradient Descent (SGD)
Minibatch SGD: requires unbiased gradients estimates

Reparameterization trick for continuous latent variables

[Kingma and Welling, 2013]

REINFORCE for discrete latent variables

Adam optimizer adaptively pre-conditioned SGD

[Kingma and Ba, 2014]

Weight normalisation for faster convergence

[Salimans and Kingma, 2015]
ELBO as KL Divergence
Gradients
An unbiased gradient estimator of the ELBO w.r.t. the
generative model parameters is straightforwardly obtained:

A gradient estimator of the ELBO w.r.t. the variational

parameters φ is more diﬃcult to obtain:
Reparameterization Trick
Construct the following Monte Carlo estimator:

where p(ε) and g() chosen such that z ∼ qφ(z|x)

Which has a simple Monte Carlo gradient:

Reparameterization Trick
This is an unbiased estimator of the exact single-datapoint
ELBO gradient:
Reparameterization Trick
Under reparameterization, density is given by:

Important: choose transformations g() for which the logdet

is computationally aﬀordable/simple
Factorized Gaussian Posterior
A common choice is a simple factorized Gaussian encoder:

After reparameterization, we can write:

Factorized Gaussian Posterior
The Jacobian of the transformation is:

Determinant of diagonal matrix is product of diag. entries.

So the posterior density is:

Full-covariance Gaussian posterior
The factorized Gaussian posterior can be extended to a
Gaussian with full covariance:

A reparameterization of this distribution with a surprisingly

simple determinant, is:

where L is a lower (or upper) triangular matrix, with non-

zero entries on the diagonal. The oﬀ-diagonal element define
the correlations (covariance) of the elements in z.
Full-covariance Gaussian posterior
This reason for this parameterization of the full-covariance
Gaussian, is that the Jacobian determinant is remarkably
simple. The Jacobian is trivial:

And the determinant of a triangular matrix is simply the

product of its diagonal terms. So:
Full-covariance Gaussian posterior
This parameterization corresponds to the Cholesky
decomposition of the covariance of z:
Full-covariance Gaussian posterior
One way to construct the matrix L is as follows:

Lmask is a masking matrix.

The log-determinant is identical to the factorized Gaussian

case:
Full-covariance Gaussian posterior
Therefore, density equal to diagonal Gaussian case!
Beyond Gaussian
posteriors
Normalizing Flows
Full-covariance Gaussian:

One transformation operation: ft(ε, x) = Lε

Normalizing flows:

Multiple transformation steps

Normalizing Flows
Define z ~ qφ(z|x) as:

The Jacobian of the transformation factorizes:

And the density

[Rezende and Mohamed, 2015]

Inverse Autoregressive Flows
Probably the most flexible type of transformation, with
simple determinant, that can be chained.

Each transformation given by a autoregressive neural net,

with triangular Jacobian

Best known way to construct arbitrarily flexible posteriors

Inverse Autoregressive Flow
Posteriors in 2D space
Deep IAF helps towards better likelihoods

[Kingma, Salimans and Welling, 2014]

Optimization Issues
Overpruning:

Solution 1: KL annealing

Solution 2: Free bits (see IAF paper)

‘Blurriness’ of samples

Solution: better Q or P models

Better generative
models
Improving Q versus improving P
PixelVAE
Use PixelCNN models as p(x|z) and p(z) models

No need for complicated q(z|x): just factorized Gaussian

[Gulrajani et al, 2016]

PixelVAE

[Gulrajani et al, 2016]

PixelVAE
PixelVAE
Applications
Visualisation
of Data in 2D
Representation learning

2D z

x
Semi-supervised
learning
SSL With Auxiliary VAE

[Maaløe et al, 2016]

Data-eﬃcient learning on ImageNet

from 10% to 60% accuracy,

for 1% labeled

[Pu et al, “Variational Autoencoder for Deep Learning of Images, Labels and Captions”, 2016]
(Re)Synthesis
Analogies
Analogy-making
Automatic chemical design
VAE trained on text representation of 250K molecules

Uses latent space to design new drugs and organic LEDs

[Gómez-Bombarelli et al, 2016]

Semantic Editing
“Smile vector”. Tom White, 2016, twitter: @dribnet
Semantic Editing
“Smile vector”. Tom White, 2016, twitter: @dribnet
Semantic Editing
“Neural Photo Editing”. Andrew Brock et al, 2016
Questions?

Hcia Ai Dump File
No ratings yet
Hcia Ai Dump File
180 pages
BTCS9202 Data Sciences Lab Manual
No ratings yet
BTCS9202 Data Sciences Lab Manual
39 pages
CCE3 - KNOWLEDGE REPRESENTATION AND ML DL With Answer
No ratings yet
CCE3 - KNOWLEDGE REPRESENTATION AND ML DL With Answer
46 pages
Syllabus For 2020-2024
No ratings yet
Syllabus For 2020-2024
24 pages
The Influences of Cellphone Artificial Intelligence Toward The Educational Productivity of Grade 12 Students
80% (5)
The Influences of Cellphone Artificial Intelligence Toward The Educational Productivity of Grade 12 Students
57 pages
ST5227 Applied Data Mining: Sun Baoluo, Chan Hock Peng
100% (1)
ST5227 Applied Data Mining: Sun Baoluo, Chan Hock Peng
24 pages
Mall Customer Segmentation Kalash Daf
No ratings yet
Mall Customer Segmentation Kalash Daf
12 pages
Artificial Intelligence
No ratings yet
Artificial Intelligence
48 pages
Chaitanya Kulkarni Resume
No ratings yet
Chaitanya Kulkarni Resume
1 page
Understanding Diffusion Models: A Unified Perspective
No ratings yet
Understanding Diffusion Models: A Unified Perspective
23 pages
Presentation - Deeplearning2015 Courville Autoencoder Extension 01
No ratings yet
Presentation - Deeplearning2015 Courville Autoencoder Extension 01
61 pages
Aishwarya DL Mini Project Report
No ratings yet
Aishwarya DL Mini Project Report
4 pages
Density Estimation Using Real NVP
No ratings yet
Density Estimation Using Real NVP
32 pages
Intro To Vae
No ratings yet
Intro To Vae
89 pages
An Introduction To Variational Autoencoders: Foundations and Trends in Machine Learning
No ratings yet
An Introduction To Variational Autoencoders: Foundations and Trends in Machine Learning
89 pages
Predicting Cricket Match 490021 1 en
No ratings yet
Predicting Cricket Match 490021 1 en
13 pages
24 Variational Inference
No ratings yet
24 Variational Inference
24 pages
AI900 Practice Test - Cloudthat Correct Answers
No ratings yet
AI900 Practice Test - Cloudthat Correct Answers
11 pages
HW1 Final
No ratings yet
HW1 Final
4 pages
Variational Autoencoders
No ratings yet
Variational Autoencoders
94 pages
Variational Autoencoder
No ratings yet
Variational Autoencoder
21 pages
Class19 Approxinf
No ratings yet
Class19 Approxinf
45 pages
MACHINE-LEARNING
No ratings yet
MACHINE-LEARNING
44 pages
Auto Encoding Variational Bayes
No ratings yet
Auto Encoding Variational Bayes
14 pages
13 Building Search Engine Using Machine Learning
No ratings yet
13 Building Search Engine Using Machine Learning
4 pages
DL Lecture8 Autoencoder
No ratings yet
DL Lecture8 Autoencoder
28 pages
Lecture 2.3.2VariationalAutoencoders (VAEs)
No ratings yet
Lecture 2.3.2VariationalAutoencoders (VAEs)
25 pages
Khan - Diffusion Models and Normalizing Flows
No ratings yet
Khan - Diffusion Models and Normalizing Flows
36 pages
Chapter 5
No ratings yet
Chapter 5
140 pages
2
No ratings yet
2
2 pages
Bayesian NN
No ratings yet
Bayesian NN
82 pages
Mlgs 2021 Retake
No ratings yet
Mlgs 2021 Retake
54 pages
Tutorial On Diffusion Models For Imaging and Vision: Stanley Chan March 28, 2024
No ratings yet
Tutorial On Diffusion Models For Imaging and Vision: Stanley Chan March 28, 2024
51 pages
Deep Learning Basics Lecture 8 Autoencoder & DBM
No ratings yet
Deep Learning Basics Lecture 8 Autoencoder & DBM
28 pages
Variation Al
No ratings yet
Variation Al
25 pages
CSC311H5F LEC0101 Syllabus
No ratings yet
CSC311H5F LEC0101 Syllabus
5 pages
1 Autoencoders
No ratings yet
1 Autoencoders
22 pages
IAF Kingma Et Al 2016
No ratings yet
IAF Kingma Et Al 2016
16 pages
Tung Kieu - Probabilistic - Graphical - Model - Report
No ratings yet
Tung Kieu - Probabilistic - Graphical - Model - Report
9 pages
Reparametrization Trick
No ratings yet
Reparametrization Trick
8 pages
Notes
No ratings yet
Notes
9 pages
Notes For Generative AI
No ratings yet
Notes For Generative AI
31 pages
W9a Autoencoders Pca
No ratings yet
W9a Autoencoders Pca
7 pages
VAE Continued: Biplab Banerjee
No ratings yet
VAE Continued: Biplab Banerjee
23 pages
Variational Autoencoders
No ratings yet
Variational Autoencoders
14 pages
Variational Autoencoder Explanation
No ratings yet
Variational Autoencoder Explanation
11 pages
Martinet Z 1993
No ratings yet
Martinet Z 1993
12 pages
A Reinforced Active Learning Approach For Optimal Sampling in Aspect Term 2022
No ratings yet
A Reinforced Active Learning Approach For Optimal Sampling in Aspect Term 2022
18 pages
On The Challenges of Learning With Inference Networks On Sparse, High-Dimensional Data
No ratings yet
On The Challenges of Learning With Inference Networks On Sparse, High-Dimensional Data
14 pages
05 Vae
No ratings yet
05 Vae
76 pages
The Data Tree
No ratings yet
The Data Tree
4 pages
10 Neural Nets With Keras - Ipynb
No ratings yet
10 Neural Nets With Keras - Ipynb
159 pages
CS L03 MachineLearning Basics 01
No ratings yet
CS L03 MachineLearning Basics 01
73 pages
465-Lecture 12
No ratings yet
465-Lecture 12
31 pages
Mod 3 Advanced AI
No ratings yet
Mod 3 Advanced AI
37 pages
Tutorial - What Is A Variational Autoencoder - Jaan Altosaar
No ratings yet
Tutorial - What Is A Variational Autoencoder - Jaan Altosaar
20 pages
PersFormer - 3D Lane Detection Via Perspective Transformer and The OpenLane Benchmark
No ratings yet
PersFormer - 3D Lane Detection Via Perspective Transformer and The OpenLane Benchmark
33 pages
ML Project
No ratings yet
ML Project
23 pages
Flow Based Deep Generative Models Report
No ratings yet
Flow Based Deep Generative Models Report
12 pages
Individual HRM
No ratings yet
Individual HRM
11 pages
8.auto-Encoding Variational Bayes
No ratings yet
8.auto-Encoding Variational Bayes
14 pages
Variational AutoEncoder
No ratings yet
Variational AutoEncoder
21 pages
Ren XCube Large-Scale 3D Generative Modeling Using Sparse Voxel Hierarchies CVPR 2024 Paper
No ratings yet
Ren XCube Large-Scale 3D Generative Modeling Using Sparse Voxel Hierarchies CVPR 2024 Paper
11 pages
AI in The Classroom Insights From Educators On Usa
No ratings yet
AI in The Classroom Insights From Educators On Usa
27 pages
08 VariationalInference
No ratings yet
08 VariationalInference
31 pages
Application of Deep Learning On Single-Cell RNA Sequencing Data Analysis - A Review
No ratings yet
Application of Deep Learning On Single-Cell RNA Sequencing Data Analysis - A Review
22 pages
Httpsekursy - Put.poznan - Plpluginfile.php1626355mod Resourcecontent31 Imperative SHORT PDF
No ratings yet
Httpsekursy - Put.poznan - Plpluginfile.php1626355mod Resourcecontent31 Imperative SHORT PDF
17 pages
LiDAR4D Dynamic Neural Fields For Novel Space-Time View LiDAR Synthesis
No ratings yet
LiDAR4D Dynamic Neural Fields For Novel Space-Time View LiDAR Synthesis
17 pages
Artificial Intelligence Course Content
No ratings yet
Artificial Intelligence Course Content
6 pages
Introduction To VAE
No ratings yet
Introduction To VAE
5 pages
Wikipedia VAE
No ratings yet
Wikipedia VAE
9 pages
DiffSSC - Semantic LiDAR Scan Completion Using Denoising Diffusion Probalilistic Models
No ratings yet
DiffSSC - Semantic LiDAR Scan Completion Using Denoising Diffusion Probalilistic Models
7 pages
Adversarial Variational Bayes
No ratings yet
Adversarial Variational Bayes
14 pages
Auto-Encoding Variational Bayes: Diederik P. Kingma Max Welling
No ratings yet
Auto-Encoding Variational Bayes: Diederik P. Kingma Max Welling
9 pages
Vedansh - Dixit Profile
No ratings yet
Vedansh - Dixit Profile
1 page
Auto Encoder
No ratings yet
Auto Encoder
11 pages
L20 GenerativeModels
No ratings yet
L20 GenerativeModels
53 pages
Masked Autoregressive Flow For Density Estimation: George Papamakarios Theo Pavlakou Iain Murray
No ratings yet
Masked Autoregressive Flow For Density Estimation: George Papamakarios Theo Pavlakou Iain Murray
17 pages
Mod4 Slides
No ratings yet
Mod4 Slides
49 pages
Fabric Defect Detection System
No ratings yet
Fabric Defect Detection System
14 pages
Unit 5 - Machine Learning
No ratings yet
Unit 5 - Machine Learning
16 pages
Lecture # 6 Latent Variable Models
No ratings yet
Lecture # 6 Latent Variable Models
55 pages
Big Data Analytics
No ratings yet
Big Data Analytics
19 pages
Gen AI Unit 2
100% (1)
Gen AI Unit 2
65 pages
cs236 Lecture5
No ratings yet
cs236 Lecture5
29 pages
Hyperspherical Variational Auto-Encoders: Tim R. Davidson Luca Falorsi Nicola de Cao Thomas Kipf Jakub M. Tomczak
No ratings yet
Hyperspherical Variational Auto-Encoders: Tim R. Davidson Luca Falorsi Nicola de Cao Thomas Kipf Jakub M. Tomczak
19 pages
GAPE Module 3
No ratings yet
GAPE Module 3
21 pages
Auto-Encoding Variational Bayes
No ratings yet
Auto-Encoding Variational Bayes
8 pages
Tutorial On Diffusion Models
No ratings yet
Tutorial On Diffusion Models
4 pages
CS 601 Machine Learning Unit 5
No ratings yet
CS 601 Machine Learning Unit 5
18 pages
ACV - Notes - Final
No ratings yet
ACV - Notes - Final
7 pages
Latent Variable Models: Stefano Ermon
No ratings yet
Latent Variable Models: Stefano Ermon
26 pages

VAE talk.compressed - 副本

Uploaded by

VAE talk.compressed - 副本

Uploaded by

Variational Auto-Encoders

Representation Learning. E.g.:

Data-eﬃcient learning. Semi-supervised learning

Artificial Creativity. E.g.:

Image/text resynthesis, Molecule design

“Smile vector”. Tom White, 2016,

p*(x) or: underlying unknown process

pθ(x): model distribution

Goal: pθ(x) ≈ p*(x)

We wish flexible pθ(x)

Conditional modeling goal: pθ(x|y) ≈ p*(x|y)

Joint distribution factorizes as:

We parameterize conditionals using neural networks:

Traditionally: parameterized using probability tables

Log-likelihood of i.i.d. dataset:

Optimizable with (minibatch) SGD

Latent-variable model pθ(x,z)

Extremely flexible: even if each conditional is simple (e.g.

Intractable marg. likelihood

With expectation maximization (EM)?

Intractable posterior: p(z|x) = p(x,z)/p(x)

With MAP: point estimate of p(z|x)?

With trad. variational EM and MCMC-EM?

And none tells us how to do fast posterior inference

Parameterized by another neural network

Joint optimization of q(z|x) and p(x,z)

Remarkably simple objective:

We optimize the variational parameters φ such that:

Like a DLVM, the inference model can be (almost) any

Note that traditionally, variational methods employ local

Can be rewritten as:

Reparameterization trick for continuous latent variables

REINFORCE for discrete latent variables

Adam optimizer adaptively pre-conditioned SGD

Weight normalisation for faster convergence

A gradient estimator of the ELBO w.r.t. the variational

where p(ε) and g() chosen such that z ∼ qφ(z|x)

Which has a simple Monte Carlo gradient:

Important: choose transformations g() for which the logdet

After reparameterization, we can write:

Determinant of diagonal matrix is product of diag. entries.

So the posterior density is:

A reparameterization of this distribution with a surprisingly

where L is a lower (or upper) triangular matrix, with non-

And the determinant of a triangular matrix is simply the

Lmask is a masking matrix.

The log-determinant is identical to the factorized Gaussian

One transformation operation: ft(ε, x) = Lε

Multiple transformation steps

The Jacobian of the transformation factorizes:

And the density

[Rezende and Mohamed, 2015]

Each transformation given by a autoregressive neural net,

Best known way to construct arbitrarily flexible posteriors

[Kingma, Salimans and Welling, 2014]

Solution 2: Free bits (see IAF paper)

Solution: better Q or P models

No need for complicated q(z|x): just factorized Gaussian

[Gulrajani et al, 2016]

[Gulrajani et al, 2016]

[Maaløe et al, 2016]

from 10% to 60% accuracy,

Uses latent space to design new drugs and organic LEDs

[Gómez-Bombarelli et al, 2016]

You might also like