Optimizer

Stochastic gradient descent is an optimization algorithm for training neural networks. It uses random samples from the training data instead of the full dataset to compute parameter updates. Momentum and Nesterov momentum are variants that add momentum terms to reduce oscillation and speed up convergence. AdaGrad, RMSProp, and Adam are adaptive learning rate methods where the learning rate is adjusted for each parameter based on recent gradient information to speed up learning for sparse data and non-stationary objectives.

Uploaded by

SANJIDA AKTER

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

38 views2 pages

Optimizer

Uploaded by

SANJIDA AKTER

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Stochastic Gradient Descent

Compute gradient estimate Note: Reduce Dependency

1
𝐠 ← + ∇𝛉
𝑚
𝐿(𝑓(𝐱 ; 𝛉), 𝐲 ) Challenge: Non Convex
Apply update Problem, Slow Convergence
𝛉 ← 𝛉 − 𝜖𝐠
Use sample randomly or in random batches instead of using complete data at each update
Depend only on local gradient

Momentum
Compute gradient estimate
1
Note: Faster Convergence,
𝐠 ← + ∇𝛉
𝑚
𝐿(𝑓(𝐱 ; 𝛉), 𝐲 )
Reduced Oscillation
Compute velocity update
Challenge: Blindly follow
𝐯 ← 𝛼𝐯 − 𝜖𝐠
slops
Apply update
𝛉←𝛉+𝐯
Faster near minima, avoid slow convergence

Nesterov momentum
Compute interim update
𝛉 ← 𝛉 + 𝛼𝐯 Note: Faster Convergence,
Compute gradient (at interim point)
1 Know where it is going
𝐠←+ ∇ 𝐿(𝑓 𝐱 ; 𝛉 , 𝐲 )
𝑚 𝛉 Challenge: Not Adaptive
Compute velocity update
𝐯 ← 𝛼𝐯 − 𝜖𝐠
Apply update
𝛉←𝛉+𝐯

AdaGrad
Compute gradient estimate
1
𝐠←+ ∇
𝑚 𝛉
𝐿(𝑓(𝐱 ; 𝛉), 𝐲 ) Note: Adaptive
Accumulate squared gradient Challenge: Keeps going,
𝐫 ← 𝐫 + 𝐠⨀𝐠
Compute parameter update (Division and square root applied element-wise) Learning Rate shrinks
𝜖
𝚫𝛉 ← − ⨀𝐠
𝛿 + √𝐫
Apply update
𝛉 ← 𝛉 + 𝚫𝛉
Learning rate is adaptive, slows down near minima

RMSProp
Compute gradient estimate
1
𝐠←+ ∇ 𝐿(𝑓(𝐱 ; 𝛉), 𝐲 )
𝑚 𝛉
Accumulate squared gradient
𝐫 ← 𝜌𝐫 + (1 − 𝜌)𝐠⨀𝐠
Compute parameter update (Division and square root applied element-wise)
𝜖
𝚫𝛉 ← − ⨀𝐠
𝛿 + √𝐫
Apply update
𝛉 ← 𝛉 + 𝚫𝛉

RMSProp with Nesterov momentum

Compute interim update
𝛉 ← 𝛉 + 𝛼𝐯
Compute gradient (at interim point)
1
𝐠←+ ∇ 𝐿(𝑓 𝐱 ; 𝛉 , 𝐲 )
𝑚 𝛉
Accumulate squared gradient
𝐫 ← 𝜌𝐫 + (1 − 𝜌)𝐠⨀𝐠
Compute velocity update
𝜖
𝐯 ← 𝛼𝐯 − ⨀𝐠
𝛿 + √𝐫
Apply update
𝛉←𝛉+𝐯
Use two knobs to adapt learning

Adam
Compute gradient estimate Note: adaptive
1
𝐠←+ ∇ 𝐿(𝑓(𝐱 ; 𝛉), 𝐲 )
𝑚 𝛉
𝑡 ←𝑡+1
Update biased first moment estimate
𝐬 ← 𝜌 𝐬 + (1 − 𝜌 )𝐠
Update biased second moment estimate
𝐫 ← 𝜌 𝐫 + (1 − 𝜌 )𝐠⨀𝐠
Correct bias in first moment
𝐬
𝐬 ←
1−𝜌
Correct bias in second moment
𝐫
𝐫 ←
1−𝜌
Compute parameter update (Division and square root applied element-wise)
𝜖
𝚫𝛉 ← − ⨀𝐬
𝛿+ 𝐫
Apply update
𝛉 ← 𝛉 + 𝚫𝛉

Use same rule for each step, no special case for initialization

Ref. Book: Chapter 8.3 & 8.5, Deep Learning. Ian Goodfellow, Yoshua Bengio and
Aaron Courville

Capacitated Planned Maintenance
100% (1)
Capacitated Planned Maintenance
309 pages
Chap 4 Beyond Gradient Descent
No ratings yet
Chap 4 Beyond Gradient Descent
26 pages
LPP - Big M Method
50% (2)
LPP - Big M Method
6 pages
3.4. Sharpening Spatial Filtering
No ratings yet
3.4. Sharpening Spatial Filtering
45 pages
SYBSC (CS) MTC - 242 Operations Research
No ratings yet
SYBSC (CS) MTC - 242 Operations Research
4 pages
Lecture 7 - Trunking
No ratings yet
Lecture 7 - Trunking
25 pages
Dual Linear Programming and Complementary Slackness
No ratings yet
Dual Linear Programming and Complementary Slackness
35 pages
Lecture 12 - Small Scale Fading
No ratings yet
Lecture 12 - Small Scale Fading
32 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
14 pages
Machine Learning Notes AndrewNg
No ratings yet
Machine Learning Notes AndrewNg
141 pages
6 2
No ratings yet
6 2
2 pages
CS229 Lecture Notes: Supervised Learning
No ratings yet
CS229 Lecture Notes: Supervised Learning
293 pages
UNIT3
No ratings yet
UNIT3
17 pages
cs229 2
No ratings yet
cs229 2
275 pages
CSE 4237 SoftCom Solutions
No ratings yet
CSE 4237 SoftCom Solutions
115 pages
8.1. Image Compression
No ratings yet
8.1. Image Compression
121 pages
Simplex Method
No ratings yet
Simplex Method
29 pages
3.3. Smoothing Spatial Filtering
No ratings yet
3.3. Smoothing Spatial Filtering
60 pages
Unit 3
No ratings yet
Unit 3
110 pages
Curs6site PDF
No ratings yet
Curs6site PDF
40 pages
1.1. Introduction To DIP
No ratings yet
1.1. Introduction To DIP
61 pages
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
Unit-1 and 2 and 3
No ratings yet
Unit-1 and 2 and 3
212 pages
Clustering Part-1
No ratings yet
Clustering Part-1
48 pages
L5 Training Neural Networks Part 2 en v2
No ratings yet
L5 Training Neural Networks Part 2 en v2
70 pages
Lecture 1-2
No ratings yet
Lecture 1-2
47 pages
Clustering Part-2
No ratings yet
Clustering Part-2
49 pages
L5 - UCLxDeepMind DL2020
No ratings yet
L5 - UCLxDeepMind DL2020
52 pages
Wordembed v2.0
No ratings yet
Wordembed v2.0
46 pages
Chapter-2 Single Feed Forward Netwotk
No ratings yet
Chapter-2 Single Feed Forward Netwotk
132 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
27 pages
RNN, LSTM, Gru
No ratings yet
RNN, LSTM, Gru
36 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
Optimization For Deep Learning: Sebastian Ruder
No ratings yet
Optimization For Deep Learning: Sebastian Ruder
49 pages
Perceptron
No ratings yet
Perceptron
26 pages
Linear Regression & SVM
No ratings yet
Linear Regression & SVM
33 pages
cs229 Notes1 PDF
No ratings yet
cs229 Notes1 PDF
28 pages
Linear Regression Notes
No ratings yet
Linear Regression Notes
15 pages
Lecture 5 - Handoff
No ratings yet
Lecture 5 - Handoff
25 pages
Regression
No ratings yet
Regression
30 pages
S09 DNN Gradients Wip
No ratings yet
S09 DNN Gradients Wip
28 pages
Lecture 5 - Handoff
No ratings yet
Lecture 5 - Handoff
25 pages
Lecture 11 - Large Scale Propagation Model
No ratings yet
Lecture 11 - Large Scale Propagation Model
20 pages
CS229
No ratings yet
CS229
69 pages
Unit 2.2
No ratings yet
Unit 2.2
46 pages
Optimization Techniques (SGD Alternatives)
No ratings yet
Optimization Techniques (SGD Alternatives)
34 pages
Survey of FNN
No ratings yet
Survey of FNN
25 pages
Introduction To Neural Network
No ratings yet
Introduction To Neural Network
17 pages
Super Gradient Descent: Global Optimization Requires Global Gradient
No ratings yet
Super Gradient Descent: Global Optimization Requires Global Gradient
15 pages
Super GD
No ratings yet
Super GD
15 pages
Unit V NNHDL
No ratings yet
Unit V NNHDL
33 pages
Optim
No ratings yet
Optim
33 pages
CS229 Lecture Notes: Supervised Learning
No ratings yet
CS229 Lecture Notes: Supervised Learning
30 pages
Lecture 11
No ratings yet
Lecture 11
35 pages
Momentum, AdaGrad, RMSProp, Adam
No ratings yet
Momentum, AdaGrad, RMSProp, Adam
27 pages
Rajesh (DL Unit3) 06dec2024
No ratings yet
Rajesh (DL Unit3) 06dec2024
67 pages
Optimization
No ratings yet
Optimization
51 pages
TSP Using GA
No ratings yet
TSP Using GA
10 pages
Parameter Calculation
No ratings yet
Parameter Calculation
10 pages
CS229 Lecture Notes: Supervised Learning
No ratings yet
CS229 Lecture Notes: Supervised Learning
30 pages
CS60010 Fitting-1
No ratings yet
CS60010 Fitting-1
39 pages
Hyperparameters and Parameters
No ratings yet
Hyperparameters and Parameters
8 pages
BME 6407 - Class 10 (April 2023)
No ratings yet
BME 6407 - Class 10 (April 2023)
31 pages
DL CS 6 M2 Live Session Flow
No ratings yet
DL CS 6 M2 Live Session Flow
32 pages
All IPP
No ratings yet
All IPP
17 pages
Implement 03-1
No ratings yet
Implement 03-1
24 pages
Adaptive Stochastic Conjugate Gradient For Machine Learning
No ratings yet
Adaptive Stochastic Conjugate Gradient For Machine Learning
14 pages
LPexercises Correction
No ratings yet
LPexercises Correction
17 pages
DL Test-2
No ratings yet
DL Test-2
28 pages
Chapter 6 - Integer Programing Full
No ratings yet
Chapter 6 - Integer Programing Full
44 pages
Book 1
No ratings yet
Book 1
14 pages
Simple Simplex Method: Max Z 128
No ratings yet
Simple Simplex Method: Max Z 128
14 pages
769 Padam Closing The Generalizati
No ratings yet
769 Padam Closing The Generalizati
16 pages
Taylor Ims11 Tif Modc
No ratings yet
Taylor Ims11 Tif Modc
15 pages
Tugas 3 Matematika
No ratings yet
Tugas 3 Matematika
12 pages
DL 26-09
No ratings yet
DL 26-09
22 pages
5 Duality Theory Notes 9 - 19
No ratings yet
5 Duality Theory Notes 9 - 19
15 pages
Dual Notes
No ratings yet
Dual Notes
16 pages
CS 437 / CS 5317 Deep Learning: Murtaza Taj
No ratings yet
CS 437 / CS 5317 Deep Learning: Murtaza Taj
11 pages
Adafactor - Adaptive Learning Rates With Sublinear Memory Cost
No ratings yet
Adafactor - Adaptive Learning Rates With Sublinear Memory Cost
9 pages
LP Practice Solutions-18-19
No ratings yet
LP Practice Solutions-18-19
13 pages
Gradient Descent Overview
No ratings yet
Gradient Descent Overview
14 pages
Improving ML, DL Networks Hyperparameter Tuning, Regularization & Optimization
No ratings yet
Improving ML, DL Networks Hyperparameter Tuning, Regularization & Optimization
16 pages
Calculo Del F80, P80, D50
No ratings yet
Calculo Del F80, P80, D50
10 pages
Soft Computing Assignment
No ratings yet
Soft Computing Assignment
9 pages
Optimization
No ratings yet
Optimization
26 pages
BB 1
No ratings yet
BB 1
12 pages
Unit 4 NNDL-1
No ratings yet
Unit 4 NNDL-1
12 pages
7 Optimum Design With MATLAB PDF
No ratings yet
7 Optimum Design With MATLAB PDF
13 pages
Notes 1
No ratings yet
Notes 1
30 pages
Optimization Algorithms Deep PDF
No ratings yet
Optimization Algorithms Deep PDF
9 pages
Gradient Descent
No ratings yet
Gradient Descent
5 pages
Simplex Algorithm
No ratings yet
Simplex Algorithm
9 pages
CS 525: Linear Programming 1993 Final Exam Solution
No ratings yet
CS 525: Linear Programming 1993 Final Exam Solution
4 pages
054 Report
No ratings yet
054 Report
6 pages
Unit - 3 Greedy Algorithm (Fractional Knapsack Problem)
No ratings yet
Unit - 3 Greedy Algorithm (Fractional Knapsack Problem)
14 pages
Optimization of Gradiant Descant
No ratings yet
Optimization of Gradiant Descant
7 pages
Optimizers
No ratings yet
Optimizers
4 pages
Engineering Design Optimization: The Golden Section Algorithm The Golden Section Algorithm
No ratings yet
Engineering Design Optimization: The Golden Section Algorithm The Golden Section Algorithm
6 pages
Use The Gauss-Seidel Method Without Relaxation and With Rela - Quizlet
No ratings yet
Use The Gauss-Seidel Method Without Relaxation and With Rela - Quizlet
4 pages
CMPG 312 Semester Test Preparation
No ratings yet
CMPG 312 Semester Test Preparation
4 pages
L-BFGS Algorithm
No ratings yet
L-BFGS Algorithm
4 pages
Lab4 Optimization
No ratings yet
Lab4 Optimization
3 pages
SYLLABUS
No ratings yet
SYLLABUS
2 pages
Assignment 1 (Marks 10 10 100) (Graphical, Simplex, Two Phase and Big M Method)
No ratings yet
Assignment 1 (Marks 10 10 100) (Graphical, Simplex, Two Phase and Big M Method)
3 pages
340 Pracquiz 3
No ratings yet
340 Pracquiz 3
2 pages
Optimization Techniques-2
No ratings yet
Optimization Techniques-2
2 pages
A-level Maths Revision: Cheeky Revision Shortcuts
From Everand
A-level Maths Revision: Cheeky Revision Shortcuts
Scool Revision
3.5/5 (8)
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
From Everand
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
Fouad Sabry
No ratings yet

Optimizer

Uploaded by

Optimizer

Uploaded by

Stochastic Gradient Descent

Compute gradient estimate Note: Reduce Dependency

RMSProp with Nesterov momentum

You might also like