Stochastic Gradient Descent

Stochastic Gradient Descent (SGD) is an optimization algorithm that improves upon traditional gradient descent by using only one random data point or a small batch for each iteration, making it more efficient for large datasets. This method allows for faster computation and helps in escaping local minima, making it suitable for various machine learning applications like deep learning and natural language processing. The key advantage of SGD lies in its efficiency and memory usage, enabling effective online learning.

Uploaded by

gokulk200507

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

12 views5 pages

Stochastic Gradient Descent

Uploaded by

gokulk200507

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 5

Stochastic Gradient Descent (SGD)

What is Gradient Descent

Gradient descent is an iterative optimization algorithm used to minimize a
loss function, which represents how far the model’s predictions are from
the actual values. The main goal is to adjust the parameters of a model
(weights, biases, etc.) so that the error is minimized.
• The update rule for the traditional gradient descent algorithm is:

Stochastic Gradient Descent (SGD)

• Stochastic Gradient Descent (SGD) is an optimization algorithm in machine
learning, particularly when dealing with large datasets. It is a variant of the
traditional gradient descent algorithm but offers several advantages in
terms of efficiency and scalability, making it the go-to method for many
deep-learning tasks.
• To understand SGD, it’s essential to first comprehend the concept
of gradient descent.
Need for Stochastic Gradient Descent

• For large datasets, computing the gradient using all data points can be
slow and memory-intensive. This is where SGD comes into play.
• Instead of using the full dataset to compute the gradient at each step, SGD
uses only one random data point (or a small batch of data points) at each
iteration. This makes the computation much faster.
Path followed by batch gradient descent vs. path followed by SGD:

Optimization path followed by Optimization path followed SGD Optimization

Gradient Descent
Working of Stochastic Gradient Descent

• In Stochastic Gradient Descent, the gradient is calculated for each training

example (or a small subset of training examples) rather than the entire
dataset.
The update rule becomes:

The key difference from traditional gradient descent is that, in SGD, the
parameter updates are made based on a single data point, not the entire
dataset.
Advantages of Stochastic Gradient Descent:
• Efficiency
• Memory Efficiency
• Escaping Local Minima
• Online Learning
Applications of Stochastic Gradient Descent

SGD and its variants are widely used across various domains of machine
learning:
• Deep Learning
• Natural Language Processing (NLP)
• Computer Vision
• Reinforcement Learning

SCSA3015 Deep Learning Unit 4 PDF
No ratings yet
SCSA3015 Deep Learning Unit 4 PDF
30 pages
Stochastic Gradient Descent
No ratings yet
Stochastic Gradient Descent
23 pages
Deep Learning Unit 1
No ratings yet
Deep Learning Unit 1
32 pages
Stochastic Gradient Descent - Math and Python Code
No ratings yet
Stochastic Gradient Descent - Math and Python Code
28 pages
Gradient Descent Optimization
No ratings yet
Gradient Descent Optimization
4 pages
UNIT2
No ratings yet
UNIT2
25 pages
Paper 2
No ratings yet
Paper 2
27 pages
Gradient Descent
No ratings yet
Gradient Descent
4 pages
Stochastic Gradient Descent - Term Paper
No ratings yet
Stochastic Gradient Descent - Term Paper
8 pages
Gradient Descent Algorithms and Variations - PyImageSearch
No ratings yet
Gradient Descent Algorithms and Variations - PyImageSearch
21 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
Technical Writing
No ratings yet
Technical Writing
8 pages
Gradient Descent & Stockastic Gradient Descent
No ratings yet
Gradient Descent & Stockastic Gradient Descent
6 pages
Unit 4 - GRADIENT LEARNING
No ratings yet
Unit 4 - GRADIENT LEARNING
3 pages
Technical Writing
No ratings yet
Technical Writing
9 pages
Technical Writing
No ratings yet
Technical Writing
9 pages
Gradient Decent
No ratings yet
Gradient Decent
15 pages
ANN Explanation Request Updated
No ratings yet
ANN Explanation Request Updated
44 pages
Stochastic Gradient Descent: Ryan Tibshirani Convex Optimization 10-725
No ratings yet
Stochastic Gradient Descent: Ryan Tibshirani Convex Optimization 10-725
22 pages
QB Unit 3
No ratings yet
QB Unit 3
14 pages
12-Mini-Batch Gradient Descent - Exponential Weighted Averages-07-08-2024
No ratings yet
12-Mini-Batch Gradient Descent - Exponential Weighted Averages-07-08-2024
2 pages
CS221 - Artificial Intelligence - Machine Learning - 4 Stochastic Gradient Descent
No ratings yet
CS221 - Artificial Intelligence - Machine Learning - 4 Stochastic Gradient Descent
12 pages
Lecture 08 ML
No ratings yet
Lecture 08 ML
20 pages
Assignment 3
No ratings yet
Assignment 3
4 pages
Assignment 3
No ratings yet
Assignment 3
4 pages
Mlfa Autumn 22 Lec 04
No ratings yet
Mlfa Autumn 22 Lec 04
24 pages
Gradient Descent
No ratings yet
Gradient Descent
7 pages
Gradient Descent 5 Part 2
No ratings yet
Gradient Descent 5 Part 2
15 pages
Gradient Descent Method
No ratings yet
Gradient Descent Method
12 pages
2,5 Stochastic Gradient Descent
No ratings yet
2,5 Stochastic Gradient Descent
11 pages
Stochastic Search Methods
No ratings yet
Stochastic Search Methods
2 pages
04 Batch SGD Mini Batch Gradient Descent Algorithms
No ratings yet
04 Batch SGD Mini Batch Gradient Descent Algorithms
3 pages
UNIT3
No ratings yet
UNIT3
37 pages
Stochastic Gradient Descent
No ratings yet
Stochastic Gradient Descent
23 pages
Lecture05 Descent
No ratings yet
Lecture05 Descent
31 pages
Better Theory For SGD in The Nonconvex World
No ratings yet
Better Theory For SGD in The Nonconvex World
33 pages
05.stochastic Gradient Descent
No ratings yet
05.stochastic Gradient Descent
2 pages
SGD
No ratings yet
SGD
3 pages
ECS171: Machine Learning: Lecture 4: Optimization (LFD 3.3, SGD)
No ratings yet
ECS171: Machine Learning: Lecture 4: Optimization (LFD 3.3, SGD)
45 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
Gradient Descent - PR
No ratings yet
Gradient Descent - PR
31 pages
Dla-Cat 1
No ratings yet
Dla-Cat 1
37 pages
Stochastic Gradient Descent
No ratings yet
Stochastic Gradient Descent
4 pages
Comparison of Gradient Descent Algorithms On Training Neural Networks
No ratings yet
Comparison of Gradient Descent Algorithms On Training Neural Networks
20 pages
Gradient Descent DS Rohit Sharma Fench Knjs
No ratings yet
Gradient Descent DS Rohit Sharma Fench Knjs
15 pages
Gradient Descent
No ratings yet
Gradient Descent
2 pages
Stochastic Gradient Descent
No ratings yet
Stochastic Gradient Descent
3 pages
GD Types
No ratings yet
GD Types
98 pages
Lesson 4 Gradient Descent
No ratings yet
Lesson 4 Gradient Descent
13 pages
Mlfa Autumn 23 Optimization
No ratings yet
Mlfa Autumn 23 Optimization
37 pages
Deep Learning Unit 1
No ratings yet
Deep Learning Unit 1
35 pages
INT255 Unit-4
No ratings yet
INT255 Unit-4
40 pages
Deep Learning Tutorial 9
No ratings yet
Deep Learning Tutorial 9
70 pages
UNIT III Part-2
No ratings yet
UNIT III Part-2
39 pages
Linear Models-Gradient Descent, Regularization (Introduction)
No ratings yet
Linear Models-Gradient Descent, Regularization (Introduction)
26 pages
Neural Networks
No ratings yet
Neural Networks
63 pages
Optimizer
No ratings yet
Optimizer
13 pages
ML - Stochastic Gradient Descent (SGD) - GeeksforGeeks
No ratings yet
ML - Stochastic Gradient Descent (SGD) - GeeksforGeeks
9 pages
Non-Convex Optimization For Deep Networks and Stochastic
No ratings yet
Non-Convex Optimization For Deep Networks and Stochastic
9 pages
SAS Programming Guidelines Interview Questions You'll Most Likely Be Asked
From Everand
SAS Programming Guidelines Interview Questions You'll Most Likely Be Asked
Vibrant Publishers
No ratings yet

Stochastic Gradient Descent

Uploaded by

Stochastic Gradient Descent

Uploaded by

Stochastic Gradient Descent (SGD)

What is Gradient Descent

Stochastic Gradient Descent (SGD)

Optimization path followed by Optimization path followed SGD Optimization

• In Stochastic Gradient Descent, the gradient is calculated for each training

You might also like