0% found this document useful (0 votes)

19 views

03 Optimization

The document discusses different optimization techniques for machine learning models, including vanilla gradient descent, stochastic gradient descent, mini-batch stochastic gradient descent, and momentum. It explains how momentum can provide faster convergence and reduced oscillation compared to vanilla stochastic gradient descent.

Uploaded by

CUHN-FEI JAMES TAN

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views

03 Optimization

Uploaded by

CUHN-FEI JAMES TAN

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 20

pt im iz a t ion

Applied De O ar 9h, 2020

Yun-Nung
ep Learning
SHAN(GV-iYvUiaSn) Che
U n HTTP://AD
L.MIULAB
.TW
Vanilla Gradient Descent
• Computes the gradient of the cost function w.r.t. to the parameters θ for
the entire training dataset.
• As we need to calculate the gradients for the whole dataset to perform
just one update, batch gradient descent can be very slow and is
intractable for datasets that don't fit in memory.
• Batch gradient descent also doesn't allow us to update our model online,
i.e. with new examples on-the-fly.

✓=✓ ⌘ · r✓ J(✓)

2
Stochastic Gradient Descent
• Stochastic gradient descent (SGD) in contrast performs a parameter
update for each training example.
• It is therefore usually much faster and can also be used to learn online.

(i) (i)
✓=✓ ⌘ · r✓ J(✓; x ; y )

3
Mini-batch Stochastic Gradient Descent
• Mini-batch gradient descent finally takes the best of both worlds and
performs an update for every mini-batch of n training examples.
• This way reduces the variance of the parameter updates, which can lead
to more stable convergence.
• On modern hardware 16 operations of size 1 is much slower than 1
operation of size 16 (parallelization on GPUs)

(i:i+n) (i:i+n)
✓=✓ ⌘ · r✓ J(✓; x ;y )

4
Local Minimum

J(✓)

q
q 0
q 1

5
Local Minimum

J(✓)

q
q 0
q 1
✓ 2

6
Challenges
• Choosing a proper learning rate can be difficult.
• Learning rate schedules try to adjust the learning rate during training by
e.g. annealing, i.e. reducing the learning rate according to a pre-defined
schedule or when the change in objective between epochs falls below a
threshold.
• These schedules and thresholds, however, have to be defined in advance
and are thus unable to adapt to a dataset's characteristics

7
Beyond SGD

8
Momentum
vt = vt 1 + ⌘ · r✓ J(✓)
J(✓) ✓ = ✓ vt

q
q 0
q 1

10
Momentum
• Mini-batch accumulates the gradient of the past steps to determine the
direction to go.
• faster convergence and reduced oscillation.

11
SGD with Momentum
• Remember gradients from past time steps

v t = vt
<latexit sha1_base64="1+ktaCXcpAUDsqs7OTeM+Oi+rXY=">AAACBnicbVDLSgNBEJz1GeMr6lGEwSAIYtiNgl6EoBePEcwDkrD0TibJkJndZaY3EJacvPgrXjwo4tVv8ObfOHkcNFrQUFR1090VxFIYdN0vZ2FxaXllNbOWXd/Y3NrO7exWTZRoxisskpGuB2C4FCGvoEDJ67HmoALJa0H/ZuzXBlwbEYX3OIx5S0E3FB3BAK3k5w4GPl41u6AU0IGf4qk3oie0yRFo10c/l3cL7gT0L/FmJE9mKPu5z2Y7YoniITIJxjQ8N8ZWChoFk3yUbSaGx8D60OUNS0NQ3LTSyRsjemSVNu1E2laIdKL+nEhBGTNUge1UgD0z743F/7xGgp3LVirCOEEesumiTiIpRnScCW0LzRnKoSXAtLC3UtYDDQxtclkbgjf/8l9SLRa8s0Lx7jxfup7FkSH75JAcE49ckBK5JWVSIYw8kCfyQl6dR+fZeXPep60Lzmxmj/yC8/ENb6SX0A==</latexit>
1 + ⌘gt
Momentum Previous Gradient
Momentum Momentum
Conservation
Parameter

• Intuition: Prevent instability resulting from sudden changes

✓t+1 = ✓t
<latexit sha1_base64="T3NCgbdLDyvnA9ESGPQC193gsbk=">AAACCHicbVDLSsNAFJ3UV62vqEsXDhZBEEtSBd0IRTcuK9gHtCFMppN26OTBzE2hhCzd+CtuXCji1k9w5984bYNo9cCFM+fcy9x7vFhwBZb1aRQWFpeWV4qrpbX1jc0tc3unqaJEUtagkYhk2yOKCR6yBnAQrB1LRgJPsJY3vJ74rRGTikfhHYxj5gSkH3KfUwJacs39LgwYEDeFYzvDl/j7meETPHLBNctWxZoC/yV2TsooR901P7q9iCYBC4EKolTHtmJwUiKBU8GyUjdRLCZ0SPqso2lIAqacdHpIhg+10sN+JHWFgKfqz4mUBEqNA093BgQGat6biP95nQT8CyflYZwAC+nsIz8RGCI8SQX3uGQUxFgTQiXXu2I6IJJQ0NmVdAj2/Ml/SbNasU8r1duzcu0qj6OI9tABOkI2Okc1dIPqqIEoukeP6Bm9GA/Gk/FqvM1aC0Y+s4t+wXj/AmU2mO4=</latexit>
vt

14
Adagrad
• It adapts the learning rate to the parameters, performing smaller updates
(i.e. low learning rates) for parameters associated with frequently occurring
features, and larger updates (i.e. high learning rates) for parameters associated
with infrequent features.
• For this reason, it is well-suited for dealing with sparse data.
• G is the accumulation of previous gradient values.

G t = Gt
<latexit sha1_base64="jyu2sTVeIVb385NgfBtxWyckEzU=">AAACBnicbZDLSgMxFIYz9VbrbdSlCMEiCGKZqYJuhKKLuqxgL9CWIZNJ29DMZEjOCGXoyo2v4saFIm59Bne+jWk7C63+EPjyn3NIzu/HgmtwnC8rt7C4tLySXy2srW9sbtnbOw0tE0VZnUohVcsnmgkesTpwEKwVK0ZCX7CmP7ye1Jv3TGkuozsYxawbkn7Ee5wSMJZn71c9wJe46qVw4o7xMe6be0cGEibk2UWn5EyF/4KbQRFlqnn2ZyeQNAlZBFQQrduuE0M3JQo4FWxc6CSaxYQOSZ+1DUYkZLqbTtcY40PjBLgnlTkR4Kn7cyIlodaj0DedIYGBnq9NzP9q7QR6F92UR3ECLKKzh3qJwCDxJBMccMUoiJEBQhU3f8V0QBShYJIrmBDc+ZX/QqNcck9L5duzYuUqiyOP9tABOkIuOkcVdINqqI4oekBP6AW9Wo/Ws/Vmvc9ac1Y2s4t+yfr4BirElwk=</latexit>
1 + gt gt Squared Current Gradient
⌘
✓t+1 = ✓t p gt
Gt + ✏
Small Constant
15
RMSProp
• Instead of inefficiently storing all previous squared gradients, the sum of
gradients is recursively defined as a decaying average of all past squared
gradients (rolling average).
• resolve Adagrad's radically diminishing learning rates
• Best choice for RNN…?

E[g 2 ]t = E[g 2 ]t 1 + (1 )gt2

⌘
✓t+1 = ✓t p gt
E[g 2 ]t + ✏

16
Adam
• Most standard optimization option in NLP and beyond
• first moment + second moment (momentum + RMSprop)

mt = 1 mt 1 + (1 1 )gt
2
vt = 2 vt 1 + (1 2 )gt

⌘
✓t+1 = ✓t p m̂t
vˆt + ✏
17
Miscellaneous

18
Adam is the best?
• Issue of non-convergence

19
Missing Global-Optima
• The solutions found by adaptive methods generalize worse (often significantly
worse) than SGD, even when these solutions have better training performance.
These results suggest that practitioners should reconsider the use of adaptive
methods to train neural networks

20
Adam + SGD
• prior period : Adam for fast convergence
• last period: SGD for gradually seeking the global optima

21
Back to the Data

22
references
• http://ruder.io/optimizing-gradient-descent/
•http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/Gradient%20D
escent%20(v2).pdf
•
http://speech.ee.ntu.edu.tw/~tlkagk/courses/ML_2016/Lecture/DNN%20tip.pdf

ZC Workshop Livescript
No ratings yet
ZC Workshop Livescript
83 pages
Bank Operations Using C#
No ratings yet
Bank Operations Using C#
3 pages
The Product Concept Definition Form
No ratings yet
The Product Concept Definition Form
3 pages
Gradient Descent Overview
No ratings yet
Gradient Descent Overview
14 pages
S09_DNN_Gradients_wip
No ratings yet
S09_DNN_Gradients_wip
28 pages
Soft Computing Assignment
No ratings yet
Soft Computing Assignment
9 pages
Part 13 MD
No ratings yet
Part 13 MD
41 pages
Unit 4 NNDL-1
No ratings yet
Unit 4 NNDL-1
12 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
Deep Neural Networks
No ratings yet
Deep Neural Networks
48 pages
cours5
No ratings yet
cours5
23 pages
Deep Learning
No ratings yet
Deep Learning
23 pages
optimization techniques (SGD alternatives)
No ratings yet
optimization techniques (SGD alternatives)
34 pages
Curs6site PDF
No ratings yet
Curs6site PDF
40 pages
Module 2
No ratings yet
Module 2
67 pages
Training NNs
No ratings yet
Training NNs
34 pages
L5 Training Neural Networks Part 2 en v2
No ratings yet
L5 Training Neural Networks Part 2 en v2
70 pages
Rajesh (Dl Unit3) 06dec2024
No ratings yet
Rajesh (Dl Unit3) 06dec2024
67 pages
Visualising SGD With Momentum, Adam and Learning Rate Annealing
No ratings yet
Visualising SGD With Momentum, Adam and Learning Rate Annealing
8 pages
Lecture 5
No ratings yet
Lecture 5
34 pages
Adas: Adaptive Scheduling of Stochastic Gradients: Preprint. Under Review
No ratings yet
Adas: Adaptive Scheduling of Stochastic Gradients: Preprint. Under Review
19 pages
08 Training
No ratings yet
08 Training
18 pages
Optimization Algorithms Deep PDF
No ratings yet
Optimization Algorithms Deep PDF
9 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
Pure Optimization
No ratings yet
Pure Optimization
23 pages
Optimization For Deep Learning: Sebastian Ruder
No ratings yet
Optimization For Deep Learning: Sebastian Ruder
49 pages
Optimizers
No ratings yet
Optimizers
4 pages
Unit-1 and 2 and 3 (1)
No ratings yet
Unit-1 and 2 and 3 (1)
212 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
14 pages
Op Tim Ization
No ratings yet
Op Tim Ization
22 pages
Lec 8
No ratings yet
Lec 8
43 pages
Training Neural Networks Without Gradients
No ratings yet
Training Neural Networks Without Gradients
10 pages
Mlfa Autumn 23 Optimization
No ratings yet
Mlfa Autumn 23 Optimization
37 pages
Gradient Descent Method
No ratings yet
Gradient Descent Method
12 pages
Gradient Descent Algorithms and Variations - PyImageSearch
No ratings yet
Gradient Descent Algorithms and Variations - PyImageSearch
21 pages
ML807_Distributed_and_Federated_Learning_Slides_2
No ratings yet
ML807_Distributed_and_Federated_Learning_Slides_2
211 pages
Lecture 7 - Optimization Part I
No ratings yet
Lecture 7 - Optimization Part I
38 pages
Optimizers and Activation functions in Deep Learning
No ratings yet
Optimizers and Activation functions in Deep Learning
15 pages
Tensorflow Ensai SID 13 01 17
No ratings yet
Tensorflow Ensai SID 13 01 17
99 pages
Large Scale Deep Learning
No ratings yet
Large Scale Deep Learning
170 pages
cst414-deep learning module 2
No ratings yet
cst414-deep learning module 2
13 pages
Aie231 NN Lab5
No ratings yet
Aie231 NN Lab5
7 pages
Lecture 04
No ratings yet
Lecture 04
32 pages
Deep Learning
No ratings yet
Deep Learning
3 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
27 pages
BME 6407 - Class 10 (April 2023)
No ratings yet
BME 6407 - Class 10 (April 2023)
31 pages
CNN With Tensor Flow
No ratings yet
CNN With Tensor Flow
61 pages
Deep Learning Glossary
No ratings yet
Deep Learning Glossary
41 pages
Optimization in Machine Learning
No ratings yet
Optimization in Machine Learning
26 pages
Gradient Descent_PR
No ratings yet
Gradient Descent_PR
31 pages
Lecture 4
No ratings yet
Lecture 4
45 pages
Survey of FNN
No ratings yet
Survey of FNN
25 pages
Lec14-CNNRNNModels
No ratings yet
Lec14-CNNRNNModels
64 pages
Opti Incertitude
No ratings yet
Opti Incertitude
231 pages
GD Compare
No ratings yet
GD Compare
5 pages
DL Test-2
No ratings yet
DL Test-2
28 pages
Module 1.Pptx
No ratings yet
Module 1.Pptx
64 pages
Assignment 2
No ratings yet
Assignment 2
11 pages
WINSEM2024-25_CSE4006_ETH_AP2024254000693_2025-01-08_Reference-Material-I
No ratings yet
WINSEM2024-25_CSE4006_ETH_AP2024254000693_2025-01-08_Reference-Material-I
40 pages
Ch2-Training, Optimization and Regularization of DNN-new (1)
No ratings yet
Ch2-Training, Optimization and Regularization of DNN-new (1)
114 pages
Foundations of Deep Learning
No ratings yet
Foundations of Deep Learning
30 pages
The Ultimate Career Success Toolkit: Proven Strategies for Landing Your Dream Job and Achieving Your Goals: The Self-Development Mini Series, #0
From Everand
The Ultimate Career Success Toolkit: Proven Strategies for Landing Your Dream Job and Achieving Your Goals: The Self-Development Mini Series, #0
Rae Stonehouse
No ratings yet
The Ultimate Career Success Toolkit: Proven Strategies for Landing Your Dream Job and Achieving Your Goals
From Everand
The Ultimate Career Success Toolkit: Proven Strategies for Landing Your Dream Job and Achieving Your Goals
Rae A. Stonehouse
No ratings yet
4.cisco Router Booting Process Explained With Examples
No ratings yet
4.cisco Router Booting Process Explained With Examples
13 pages
Bubble Sort
No ratings yet
Bubble Sort
13 pages
OWG001209 MSOFTX3000 BICC Data Configuration-20090227-B-1.0
No ratings yet
OWG001209 MSOFTX3000 BICC Data Configuration-20090227-B-1.0
52 pages
Additional Evidence Maricopa
No ratings yet
Additional Evidence Maricopa
9 pages
Stronghold Legends Manual English
100% (1)
Stronghold Legends Manual English
51 pages
Numerical Differentiation PDF
No ratings yet
Numerical Differentiation PDF
28 pages
Harshit Project
No ratings yet
Harshit Project
28 pages
Adaptive Relaying
No ratings yet
Adaptive Relaying
9 pages
1 Line - hostsVN For YogaDNS Blacklist
No ratings yet
1 Line - hostsVN For YogaDNS Blacklist
91 pages
Power Query Shortcuts • My Online Training Hub
No ratings yet
Power Query Shortcuts • My Online Training Hub
7 pages
22a qs001 - PT P
No ratings yet
22a qs001 - PT P
50 pages
Exercise-3-Trip Production
100% (1)
Exercise-3-Trip Production
11 pages
Accuracy_of_Dental_and_Industrial_3D_Printers
No ratings yet
Accuracy_of_Dental_and_Industrial_3D_Printers
20 pages
INSET 2024 365 Microsoft Office
100% (1)
INSET 2024 365 Microsoft Office
89 pages
Safety of Health IT Clinical Case Studies (FULL VERSION DOWNLOAD)
100% (11)
Safety of Health IT Clinical Case Studies (FULL VERSION DOWNLOAD)
16 pages
Highly Immersive Programme 2021 School Report Phase One 2021
No ratings yet
Highly Immersive Programme 2021 School Report Phase One 2021
3 pages
Dell Analytics PAG Role
No ratings yet
Dell Analytics PAG Role
2 pages
Presentation On Electronic Voting Machine (EVM) & Voter Verifiable Paper Audit Trail (VVPAT)
No ratings yet
Presentation On Electronic Voting Machine (EVM) & Voter Verifiable Paper Audit Trail (VVPAT)
67 pages
Introduction To IoT Syllabus
No ratings yet
Introduction To IoT Syllabus
6 pages
Null 1
No ratings yet
Null 1
89 pages
RAC6690 A+ Feature-20120922-A-V1.0
No ratings yet
RAC6690 A+ Feature-20120922-A-V1.0
26 pages
0401-0500
No ratings yet
0401-0500
100 pages
Future of Work Ebook 28.08.18
No ratings yet
Future of Work Ebook 28.08.18
84 pages
DS IPRK18xxDL4x en 50109446 P
No ratings yet
DS IPRK18xxDL4x en 50109446 P
4 pages
ECA 4142 - Appendix 2A - Proposal Assessment - Supervisor
No ratings yet
ECA 4142 - Appendix 2A - Proposal Assessment - Supervisor
1 page
HVDC Substation Technology - QTT
100% (1)
HVDC Substation Technology - QTT
42 pages

03 Optimization

Uploaded by

03 Optimization

Uploaded by

pt im iz a t ion

Applied De O ar 9h, 2020

• Intuition: Prevent instability resulting from sudden changes

E[g 2 ]t = E[g 2 ]t 1 + (1 )gt2

You might also like