CS 437 / CS 5317 Deep Learning: Murtaza Taj

This document contains a summary of a lecture on gradient descent optimizers and deep learning. It discusses various optimizers including gradient descent, momentum, Nesterov accelerated gradient, Adagrad, Adadelta, RMSprop, Adam, AdaMax, Nadam, and AMSGrad. It provides explanations of how each optimizer works and compares them. The document also contains reminders and summaries of key concepts relating to gradient descent optimization algorithms.

Uploaded by

hoshi hamza

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

77 views11 pages

CS 437 / CS 5317 Deep Learning: Murtaza Taj

Uploaded by

hoshi hamza

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

CS 437 / CS 5317 

Deep Learning

Murtaza Taj
[email protected]

Lecture 6: Optimizers, Reading Ch 4

Wed 03th Feb 2021
Grading Descent with Momentum

! Gradient Descent
w = w − η ⋅ ∇w J(w)
w = w − η ⋅ ∇w J(w; x (i); y (i))

! Gradient Descent with momentum

vt = γ vt−1 + η ∇w J(w)
w = w − vt
Nesterov accelerated gradient (NAG)
! Slow down SGD before the hill slopes up again

! Computing w − γ vt−1 thus gives us an approximation (rough idea) of

the next position of the parameters

! We can now effectively look ahead by calculating the gradient not

w.r.t. to our current parameters w but w.r.t. the approximate future
position of our parameters:

vt = γ vt−1 + η ∇w J(w) vt = γ vt−1 + η ∇w J(w − γ vt−1)

w = w − vt w = w − vt

! Significantly increased the performance of RNNs

Nesterov accelerated gradient (NAG)

Nesterov update (Source: G. Hinton's lecture 6c)

! Momentum first computes the current gradient (small blue vector) and
then takes a big jump in the direction of the updated accumulated
gradient (big blue vector),

! NAG first makes a big jump in the direction of the previous

accumulated gradient (brown vector), measures the gradient and then
makes a correction (red vector), which results in the complete NAG
update (green vector).
Adagrad
Adagrad
! Adapts the learning rate

! smaller updates(i.e. low learning rates) for parameters associated with

frequently occurring features,

! larger updates (i.e. high learning rates) for parameters associated with
infrequent features. For this reason, it is well-suited for dealing with
sparse data.

! Uses a different learning rate for every wi at every time step t

gt, j = ∇w J(wt, j)
η
wt+ 1, j = wt, j − ⋅ gt, j
Gt, jj + ϵ
!
Gt ∈ ℝd×d is a diagonal matrix where each diagonal element j,j is the
sum of the squares of the gradients w.r.t. wj up to time step t
Adadelta & RMS Prop
! Adagrad's main weakness is its accumulation of the squared
gradients in the denominator
t→∞ η→0
! Instead of inefficiently storing previous squared gradients, the sum of
gradients is recursively defined as a decaying average of all past
squared gradients.
E[g2]t = γE[g2]t−1 + (1 − γ)gt2
η
wt+ 1,i = wt,i − ⋅ gt
E[g2]t + ϵ

η
Δwt = − g
RMS[g]t t

! RMS Prop E[g2]t = 0.9E[g2]t−1 + 0.1gt2

Recall
Gradient descent Variants & optimization algorithms
! Varients
! Vanilla / Batch gradient descent w = w − η ⋅ ∇w J(w)
! Stochastic gradient descent w = w − η ⋅ ∇w J(w; x (i); y (i))
! Mini-batch gradient descent w = w − η ⋅ ∇w J(w; x (i:i+ n); y (i:i+ n))

vt = γ vt−1 + η ∇w J(w)
! Optimization Algos w = w − vt
! Momentum vt = γ vt−1 + η ∇w J(w − γ vt−1)
! Nesterov accelerated gradient w = w − vt
η
! Adagrad wt+ 1,i = wt,i − ⋅ gt,i
Gt,ii + ϵ

! Adadelta E[g2]t = γE[g2]t−1 + (1 − γ)gt2

η
wt+ 1,i = wt,i − ⋅ gt
E[g2]t + ϵ

! RMSprop E[g2]t = 0.9E[g2]t−1 + 0.1gt2

Gradient descent optimization algorithms
mt
! mt = β1mt−1 + (1 − β1)gt m̂ t =
Optimization Algos 1 − β1t
vt = β2vt−1 + (1 − β2)gt2
! Adam vt
vt̂ =
1 − β2t
η
wt+ 1 = wt − m̂ t
vt̂ + ϵ

http://ruder.io/optimizing-gradient-descent/
η
! AdaMax u t = β2∞vt−1 + (1 − β2∞) | gt |∞ wt+ 1 = wt − m̂
ut t
= max(β2 ⋅ vt−1, | gt | )

η (1 − β1)gt
! Nadam wt+ 1 = wt − (β1m̂ t + )
vt̂ + ϵ 1 − β1t

mt = β1mt−1 + (1 − β1)gt
vt = β2vt−1 + (1 − β2)gt2
! AMSGrad vt̂ = max(vt−1
̂ , vt )
η
wt+ 1 = wt − mt
vt̂ + ϵ
Optimizers Comparison

SGD optimization on loss surface contours SGD optimization on saddle point

Reading:
http://ruder.io/optimizing-gradient-descent/
Next
! 1D Conv
! 2D Conv
! Convolution-Filters (Edge detection)
! Forward and Backward Propagation using Convolution
operation
! Transforming Multilayer Perceptron to Convolutional
Neural Network

Optimization Techniques (SGD Alternatives)
No ratings yet
Optimization Techniques (SGD Alternatives)
34 pages
DL Class2
No ratings yet
DL Class2
30 pages
Optimization
No ratings yet
Optimization
26 pages
Rajesh (DL Unit3) 06dec2024
No ratings yet
Rajesh (DL Unit3) 06dec2024
67 pages
Gradient Descent Overview
No ratings yet
Gradient Descent Overview
14 pages
Curs6site PDF
No ratings yet
Curs6site PDF
40 pages
Optimization For Deep Learning: Sebastian Ruder
No ratings yet
Optimization For Deep Learning: Sebastian Ruder
49 pages
DL CS 6 M2 Live Session Flow
No ratings yet
DL CS 6 M2 Live Session Flow
32 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
14 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
27 pages
Unit 2.2
No ratings yet
Unit 2.2
46 pages
Optimization of Gradiant Descant
No ratings yet
Optimization of Gradiant Descant
7 pages
Optimizers and Activation Functions in Deep Learning
No ratings yet
Optimizers and Activation Functions in Deep Learning
15 pages
Cours 5
No ratings yet
Cours 5
23 pages
Gradient Descent
No ratings yet
Gradient Descent
5 pages
Soft Computing Assignment
No ratings yet
Soft Computing Assignment
9 pages
Implement 03-1
No ratings yet
Implement 03-1
24 pages
Optimizers
No ratings yet
Optimizers
4 pages
9 - Gradient Descent Part 3
No ratings yet
9 - Gradient Descent Part 3
31 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
054 Report
No ratings yet
054 Report
6 pages
Lecture 8 Gradient Descent For Non-Convex Functions
No ratings yet
Lecture 8 Gradient Descent For Non-Convex Functions
21 pages
EDA Lecture Module 4
No ratings yet
EDA Lecture Module 4
20 pages
Optim
No ratings yet
Optim
33 pages
Training Deep Neural Networks
No ratings yet
Training Deep Neural Networks
14 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
S09 DNN Gradients Wip
No ratings yet
S09 DNN Gradients Wip
28 pages
L5 Training Neural Networks Part 2 en v2
No ratings yet
L5 Training Neural Networks Part 2 en v2
70 pages
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
No ratings yet
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
40 pages
Momentum, AdaGrad, RMSProp, Adam
No ratings yet
Momentum, AdaGrad, RMSProp, Adam
27 pages
Part 3
No ratings yet
Part 3
37 pages
BME 6407 - Class 10 (April 2023)
No ratings yet
BME 6407 - Class 10 (April 2023)
31 pages
4.1 - EDA Lecture Module 4 Vetri Sir New
No ratings yet
4.1 - EDA Lecture Module 4 Vetri Sir New
19 pages
Module 2 Part1new
No ratings yet
Module 2 Part1new
32 pages
Comparison of Gradient Descent Algorithms On Training Neural Networks
No ratings yet
Comparison of Gradient Descent Algorithms On Training Neural Networks
20 pages
Important Optimization Algorithms Essentials
No ratings yet
Important Optimization Algorithms Essentials
12 pages
Optimization CO2
No ratings yet
Optimization CO2
7 pages
Week 9
No ratings yet
Week 9
80 pages
Gradient Descent Deep Learning Lecture
No ratings yet
Gradient Descent Deep Learning Lecture
5 pages
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
Unit 2.4
No ratings yet
Unit 2.4
31 pages
L5 - UCLxDeepMind DL2020
No ratings yet
L5 - UCLxDeepMind DL2020
52 pages
Deep Learning (MODULE-2)
No ratings yet
Deep Learning (MODULE-2)
86 pages
SGD 1
No ratings yet
SGD 1
86 pages
Deep Learning
No ratings yet
Deep Learning
18 pages
Activations, Loss Functions & Optimizers in ML
No ratings yet
Activations, Loss Functions & Optimizers in ML
29 pages
Optimization
No ratings yet
Optimization
51 pages
Module 2
No ratings yet
Module 2
67 pages
Optimizers Types
No ratings yet
Optimizers Types
6 pages
Optimizer
No ratings yet
Optimizer
2 pages
Unit2 Optimizer
No ratings yet
Unit2 Optimizer
18 pages
Nestrov Gradient Descent
No ratings yet
Nestrov Gradient Descent
8 pages
Mlfa Autumn 23 Optimization
No ratings yet
Mlfa Autumn 23 Optimization
37 pages
4 - Gradient Descent and Stochastic GD
No ratings yet
4 - Gradient Descent and Stochastic GD
37 pages
Lecture 5
No ratings yet
Lecture 5
34 pages
Deep Learning Chapter 1
No ratings yet
Deep Learning Chapter 1
46 pages
10 - AdaGrad
No ratings yet
10 - AdaGrad
17 pages
Q Skill-1-Reading Final Test
100% (1)
Q Skill-1-Reading Final Test
4 pages
Differentiation Formulas - Derivative Formulas List
No ratings yet
Differentiation Formulas - Derivative Formulas List
13 pages
I-Ready Placement Tables 2017-2018final
No ratings yet
I-Ready Placement Tables 2017-2018final
6 pages
The Effects of Poor Reading Comprehension On The Academic Performance of Grade 11 Students at Electron Collage Technical Education
No ratings yet
The Effects of Poor Reading Comprehension On The Academic Performance of Grade 11 Students at Electron Collage Technical Education
11 pages
Case Study 3 Ramada Demostrates Its Personal Best 1
No ratings yet
Case Study 3 Ramada Demostrates Its Personal Best 1
10 pages
Management Information Systems 1st Edition Heather Gray Download PDF
100% (1)
Management Information Systems 1st Edition Heather Gray Download PDF
82 pages
J 03818 Paper II Marathi
No ratings yet
J 03818 Paper II Marathi
16 pages
Coleridge's Idea of Imagination Vs Fancy
No ratings yet
Coleridge's Idea of Imagination Vs Fancy
4 pages
What Is Teaching Approach
No ratings yet
What Is Teaching Approach
3 pages
G7 Physics Comp Review Packet 2022-2023
No ratings yet
G7 Physics Comp Review Packet 2022-2023
25 pages
Impact of Religious Education On Pupils Behavior
No ratings yet
Impact of Religious Education On Pupils Behavior
9 pages
PBL Rubric Ed PDF
No ratings yet
PBL Rubric Ed PDF
1 page
Nurses Notes: Patient Name: Mr. X Age: 48 Y/o Sex: Male C.S: Married Room/bed No.: 6
50% (2)
Nurses Notes: Patient Name: Mr. X Age: 48 Y/o Sex: Male C.S: Married Room/bed No.: 6
2 pages
Mathematics Course Outline
No ratings yet
Mathematics Course Outline
9 pages
Officer Tryout Leadership Questions
No ratings yet
Officer Tryout Leadership Questions
5 pages
SCOPE Student's Handbook - Obstetrics - Gynecology
No ratings yet
SCOPE Student's Handbook - Obstetrics - Gynecology
16 pages
Assignment 2 - Conflicting Viewpoint Part 2
No ratings yet
Assignment 2 - Conflicting Viewpoint Part 2
2 pages
David Njoroge Proposal
No ratings yet
David Njoroge Proposal
25 pages
Intonation System. Tench
No ratings yet
Intonation System. Tench
11 pages
BracU Scholarship - Financial Aid Policy (Undergraduate) Jan 27 2020
No ratings yet
BracU Scholarship - Financial Aid Policy (Undergraduate) Jan 27 2020
7 pages
Cultural Features in Alberto S. Florentino's Select Play
No ratings yet
Cultural Features in Alberto S. Florentino's Select Play
6 pages
PFM 2
No ratings yet
PFM 2
4 pages
SLAC-Proposal-May 19, 2023
No ratings yet
SLAC-Proposal-May 19, 2023
16 pages
Class 12 Chemistry Bengali Cbse
No ratings yet
Class 12 Chemistry Bengali Cbse
10 pages
Artikel Media Pembelajaran
No ratings yet
Artikel Media Pembelajaran
15 pages
National Apprenticeship Training Scheme: Student User Manual
No ratings yet
National Apprenticeship Training Scheme: Student User Manual
41 pages
Tuck 2017 - 2018 MBA Admissions Discussion PDF
No ratings yet
Tuck 2017 - 2018 MBA Admissions Discussion PDF
257 pages
Gantt Chart
No ratings yet
Gantt Chart
3 pages
2020 World AIDS Day Report Graphs Tables en
No ratings yet
2020 World AIDS Day Report Graphs Tables en
45 pages
Stockholm - Part 05
No ratings yet
Stockholm - Part 05
2 pages