0% found this document useful (0 votes)

26 views3 pages

Optimization

The document discusses various optimization algorithms used in deep learning including gradient descent, stochastic gradient descent, mini-batch gradient descent, RMSprop, and Adam. It defines key terms like optimizer, learning rate, cost function, and discusses challenges with gradient descent.

Uploaded by

saisundaresan27

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

26 views3 pages

Optimization

Uploaded by

saisundaresan27

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

What is Optimizer?

➢ Optimization algorithms are responsible for reducing losses and provide most accurate
results possible.
➢ The weight is initialized using some initialization strategies and is updated with each epoch
according to the equation.
➢ The best results are achieved using some optimization strategies or algorithms called
Optimizer.
➢ Optimizers are algorithms or methods used to change the attributes of your neural network
such as weights and learning rate in order to reduce the losses.

Types of Optimizers in Deep Learning:

➢ Gradient Descent
➢ Batch Gradient Descent
➢ Stochastic Gradient Descent (SGD)
➢ Mini-Batch Stochastic Gradient Descent (MB — SGD)
➢ RMSProp
➢ Adam

What is Gradient Descent?

➢ The Gradient Descent is an optimization algorithm that is used for minimizing the cost
function(Errors).
➢ Its updates the various parameters of a machine learning model to minimize the cost
function.
➢ Gradient descent is an optimization algorithm which is commonly-used to train machine
learning models and neural networks.

What is Gradient?

➢ A gradient measures how much the output of a function changes if you change the inputs a
little bit.

Steps to implement Gradient Descent:

➢ Randomly initialize values.

➢ Update values.
➢ Repeat until slope =0

What is Batch Gradient Descent?

➢ Batch gradient descent (BGD) is used to find the error for each point in the training set and
update the model after evaluating all training examples.
➢ This procedure is known as the training epoch.
➢ Batch gradient descent, also called vanilla gradient descent.

What is Stochastic Gradient Descent (SGD)?

➢ Stochastic Gradient Descent is an extension of Gradient Descent, where it overcomes some

of the disadvantages of Gradient Descent algorithm.
➢ Stochastic gradient descent (SGD) is a type of gradient descent that runs one training
example per iteration.
➢ Or in other words, it processes a training epoch for each example within a dataset and
updates each training example's parameters one at a time.

What is Mini Batch Gradient Descent?

➢ Mini Batch gradient descent is the combination of both batch gradient descent and
stochastic gradient descent.
➢ It splits the training dataset into small batch sizes and performs updates on each of those
batches.
➢ This approach strikes a balance between the computational efficiency of batch gradient
descent and the speed of stochastic gradient descent.

What is RMSprop Optimizer?

➢ The RMSprop optimizer is similar to the gradient descent algorithm with momentum.
➢ The RMSprop optimizer restricts the oscillations in the vertical direction.
➢ Therefore, we can increase our learning rate and our algorithm could take larger steps in the
horizontal direction converging faster.

What is Adam Optimizer?

➢ Adam is a replacement optimization algorithm for stochastic gradient descent for training
deep learning models.
➢ Adam combines the best properties of the AdaGrad and RMSProp algorithms to provide an
optimization algorithm that can handle sparse gradients on noisy problems.

Challenges with the Gradient Descent:

1.Local Minima and Saddle Point:

2.Vanishing and Exploding Gradient

➢ Vanishing Gradients:Vanishing Gradient occurs when the gradient is smaller

than expected.
➢ Exploding Gradient:This happens when the gradient is too large, creating an
unstable model.

What is Learning Rate?

➢ Learning rate is the size of the steps that are taken to reach the minimum.
➢ It is defined as the step size taken to reach the minimum or lowest point.
➢ This is typically a small value that is evaluated and updated based on the behavior of the
cost function.
➢ If the learning rate is high, it results in larger steps but also leads to risks of overshooting the
minimum.

What is Cost-function?

➢ The cost function is defined as the measurement of difference or error between actual
values and expected values at the current position and present in the form of a single real
number.

DL Unit 4&5
No ratings yet
DL Unit 4&5
27 pages
SCSA3015 Deep Learning Unit 4 PDF
No ratings yet
SCSA3015 Deep Learning Unit 4 PDF
30 pages
Inverse Interpolation: For Example, Let's Suppose That We Want To Calculate A Zero of The Function
No ratings yet
Inverse Interpolation: For Example, Let's Suppose That We Want To Calculate A Zero of The Function
10 pages
Shortest Path
No ratings yet
Shortest Path
10 pages
Chapter Two Searching and Sorting: Algorithm
No ratings yet
Chapter Two Searching and Sorting: Algorithm
53 pages
Optimizers and Activation Functions in Deep Learning
No ratings yet
Optimizers and Activation Functions in Deep Learning
15 pages
1 Intro
No ratings yet
1 Intro
91 pages
CBSE Class 10 Maths Worksheet - Polynomials (8) - 0
100% (1)
CBSE Class 10 Maths Worksheet - Polynomials (8) - 0
7 pages
Opti Incertitude
No ratings yet
Opti Incertitude
231 pages
DL Regularization
No ratings yet
DL Regularization
51 pages
Activations, Loss Functions & Optimizers in ML
No ratings yet
Activations, Loss Functions & Optimizers in ML
29 pages
UNIT III Part-2
No ratings yet
UNIT III Part-2
39 pages
Deep Learning (MODULE-2)
No ratings yet
Deep Learning (MODULE-2)
86 pages
Module 2
No ratings yet
Module 2
67 pages
Unit-2 Ai
No ratings yet
Unit-2 Ai
40 pages
DL Test-2
No ratings yet
DL Test-2
28 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
No ratings yet
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
40 pages
Optimization Techniques (SGD Alternatives)
No ratings yet
Optimization Techniques (SGD Alternatives)
34 pages
UNIT4 - Convex Sets and Convex Functions, Optimization
No ratings yet
UNIT4 - Convex Sets and Convex Functions, Optimization
30 pages
Otimization 2024 - Ver3
No ratings yet
Otimization 2024 - Ver3
42 pages
Introduction To Optimization-Lec1
No ratings yet
Introduction To Optimization-Lec1
36 pages
Lecture 2
No ratings yet
Lecture 2
31 pages
Bcsl404 Ada Lab Manual
No ratings yet
Bcsl404 Ada Lab Manual
23 pages
S09 DNN Gradients Wip
No ratings yet
S09 DNN Gradients Wip
28 pages
PCA and Convex Optimization and Bias, Variance-2
No ratings yet
PCA and Convex Optimization and Bias, Variance-2
29 pages
BME 6407 - Class 10 (April 2023)
No ratings yet
BME 6407 - Class 10 (April 2023)
31 pages
Gradient Descent A Fundamental Optimization Algorithm
No ratings yet
Gradient Descent A Fundamental Optimization Algorithm
30 pages
Gradient Descent Method
No ratings yet
Gradient Descent Method
12 pages
Gradient Descent Final
No ratings yet
Gradient Descent Final
27 pages
Ann 3
No ratings yet
Ann 3
58 pages
Pure Optimization
No ratings yet
Pure Optimization
23 pages
DL Unit - 2
No ratings yet
DL Unit - 2
20 pages
Unit 4 Final
No ratings yet
Unit 4 Final
29 pages
Mlfa Autumn 23 Optimization
No ratings yet
Mlfa Autumn 23 Optimization
37 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
Module 3dl1
No ratings yet
Module 3dl1
11 pages
Gradient Descent DS Rohit Sharma Fench Knjs
No ratings yet
Gradient Descent DS Rohit Sharma Fench Knjs
15 pages
Gradient Descent and Cost Function
No ratings yet
Gradient Descent and Cost Function
14 pages
Adam Optimizer
No ratings yet
Adam Optimizer
14 pages
Optmizers 1729945752
No ratings yet
Optmizers 1729945752
11 pages
Master Theorom
No ratings yet
Master Theorom
22 pages
Op Tim Ization
No ratings yet
Op Tim Ization
9 pages
Gradient Descent
No ratings yet
Gradient Descent
13 pages
Gradient Decent
No ratings yet
Gradient Decent
15 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
27 pages
MMEcon Handouts 15 Lagrange - Function
No ratings yet
MMEcon Handouts 15 Lagrange - Function
28 pages
Optimizer
No ratings yet
Optimizer
13 pages
Indirect Methods For Solving Systems of Linear Equations
No ratings yet
Indirect Methods For Solving Systems of Linear Equations
38 pages
Dynamic Programmingpdf
No ratings yet
Dynamic Programmingpdf
27 pages
Optimization For Deep Learning: Sebastian Ruder
No ratings yet
Optimization For Deep Learning: Sebastian Ruder
49 pages
Deep Learning
No ratings yet
Deep Learning
20 pages
AdamZ Research Paper
No ratings yet
AdamZ Research Paper
13 pages
Datamining Mod3
No ratings yet
Datamining Mod3
21 pages
Adam 1
No ratings yet
Adam 1
11 pages
Advanced Numerical Analysis: Data Interpolation and Smoothing
No ratings yet
Advanced Numerical Analysis: Data Interpolation and Smoothing
26 pages
Optimization Techniques in Deep Learning
No ratings yet
Optimization Techniques in Deep Learning
14 pages
Bisection Method
No ratings yet
Bisection Method
13 pages
Gradient Descent
No ratings yet
Gradient Descent
4 pages
Gradient Descent
No ratings yet
Gradient Descent
17 pages
Soft Computing Assignment
No ratings yet
Soft Computing Assignment
9 pages
LP Mush
No ratings yet
LP Mush
23 pages
MTH1106 Lecture Notes 2 - v20
No ratings yet
MTH1106 Lecture Notes 2 - v20
3 pages
Linear Models (Unit II) Chapter III 1
No ratings yet
Linear Models (Unit II) Chapter III 1
24 pages
Role of An Optimizer
No ratings yet
Role of An Optimizer
9 pages
BAWIKA Spss
No ratings yet
BAWIKA Spss
31 pages
MLP Encoder Decoder
No ratings yet
MLP Encoder Decoder
14 pages
Optimizers Types
No ratings yet
Optimizers Types
6 pages
Comparative Analysis of Optimizers in Deep Neural Networks
No ratings yet
Comparative Analysis of Optimizers in Deep Neural Networks
4 pages
K-Means Clustering
No ratings yet
K-Means Clustering
18 pages
Optimizers
No ratings yet
Optimizers
4 pages
Optimization Gradient Descent Method
No ratings yet
Optimization Gradient Descent Method
3 pages
SALDON - BSEE 3B (Problem 7.1A)
No ratings yet
SALDON - BSEE 3B (Problem 7.1A)
4 pages
LR, GR, FL
No ratings yet
LR, GR, FL
2 pages
Deep Learning Notes
No ratings yet
Deep Learning Notes
4 pages
MathLPG10 - M4L1 - Demo at Iloilo Seminar 10202019 Graphing Polynomial Function
No ratings yet
MathLPG10 - M4L1 - Demo at Iloilo Seminar 10202019 Graphing Polynomial Function
8 pages
QB-2 BCS401 4th Sem
No ratings yet
QB-2 BCS401 4th Sem
2 pages
AKTU IT 2nd Yr - 4
No ratings yet
AKTU IT 2nd Yr - 4
1 page
Kci Fi001682831
No ratings yet
Kci Fi001682831
6 pages
Faculty of Mechanical Engineering Operational Research Assignment Two
No ratings yet
Faculty of Mechanical Engineering Operational Research Assignment Two
8 pages
Sheet 3 Sol 3
No ratings yet
Sheet 3 Sol 3
3 pages
?dsa? Cheatsheets by Princeton - Edu
No ratings yet
?dsa? Cheatsheets by Princeton - Edu
6 pages
D1 January 2012 Question Paper
No ratings yet
D1 January 2012 Question Paper
32 pages
SGD
No ratings yet
SGD
3 pages
Root Finding (Numericals Method)
No ratings yet
Root Finding (Numericals Method)
14 pages
Problem 5
No ratings yet
Problem 5
2 pages
To Study The Difference Between Digital Differential Analyser (DDA) and Bresenham Line Drawing Algorithm
No ratings yet
To Study The Difference Between Digital Differential Analyser (DDA) and Bresenham Line Drawing Algorithm
5 pages
General Trinomial: 1st Strategy:Window Method
No ratings yet
General Trinomial: 1st Strategy:Window Method
3 pages
Hill Climbing: Fundamentals and Applications
From Everand
Hill Climbing: Fundamentals and Applications
Fouad Sabry
No ratings yet
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
From Everand
Backpropagation: Fundamentals and Applications for Preparing Data for Training in Deep Learning
Fouad Sabry
No ratings yet

Optimization

Uploaded by

Optimization

Uploaded by

What is Optimizer?

Types of Optimizers in Deep Learning:

What is Gradient Descent?

Steps to implement Gradient Descent:

➢ Randomly initialize values.

What is Batch Gradient Descent?

What is Stochastic Gradient Descent (SGD)?

➢ Stochastic Gradient Descent is an extension of Gradient Descent, where it overcomes some

What is Mini Batch Gradient Descent?

What is RMSprop Optimizer?

What is Adam Optimizer?

Challenges with the Gradient Descent:

1.Local Minima and Saddle Point:

2.Vanishing and Exploding Gradient

➢ Vanishing Gradients:Vanishing Gradient occurs when the gradient is smaller

What is Learning Rate?

You might also like