0% found this document useful (0 votes)

6 views46 pages

Optimal Control and Planning

Uploaded by

haopengchen233

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views46 pages

Optimal Control and Planning

Uploaded by

haopengchen233

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 46

Optimal Control and Planning

CS 285
Instructor: Sergey Levine
UC Berkeley
Today’s Lecture
1. Introduction to model-based reinforcement learning
2. What if we know the dynamics? How can we make decisions?
3. Stochastic optimization methods
4. Monte Carlo tree search (MCTS)
5. Trajectory optimization
• Goals:
• Understand how we can perform planning with known dynamics models in
discrete and continuous spaces
Recap: the reinforcement learning objective
Recap: model-free reinforcement learning

assume this is unknown

don’t even attempt to learn it
What if we knew the transition dynamics?

• Often we do know the dynamics

1. Games (e.g., Atari games, chess, Go)
2. Easily modeled systems (e.g., navigating a car)
3. Simulated environments (e.g., simulated robots, video games)
• Often we can learn the dynamics
1. System identification – fit unknown parameters of a known model
2. Learning – fit a general-purpose model to observed transition data

Does knowing the dynamics make things easier?

Often, yes!
Model-based reinforcement learning
1. Model-based reinforcement learning: learn the transition dynamics,
then figure out how to choose actions
2. Today: how can we make decisions if we know the dynamics?
a. How can we choose actions under perfect knowledge of the system dynamics?
b. Optimal control, trajectory optimization, planning
3. Next week: how can we learn unknown dynamics?
4. How can we then also learn policies? (e.g. by imitating optimal control)
policy

system dynamics
The objective

1. run away
2. ignore
3. pet
The deterministic case
The stochastic open-loop case

why is this suboptimal?

Aside: terminology
what is this “loop”?

closed-loop open-loop

only sent at t = 1,
then it’s one-way!
The stochastic closed-loop case

(more on this later)

Open-Loop Planning
But for now, open-loop planning
Stochastic optimization

simplest method: guess & check “random shooting method”

Cross-entropy method (CEM)

can we do better?
typically use Gaussian
distribution
see also: CMA-ES (sort of
like CEM with
momentum)
What’s the upside?
1. Very fast if parallelized
2. Extremely simple

What’s the problem?

1. Very harsh dimensionality limit
2. Only open-loop planning
Discrete case: Monte Carlo tree search (MCTS)
Discrete case: Monte Carlo tree search (MCTS)

e.g., random policy

Discrete case: Monte Carlo tree search (MCTS)

+10 +15
Discrete case: Monte Carlo tree search (MCTS)

30
10
Q = 22 22
Q = 38
12
N=2 13 N=2 31

Q = 12 Q=8 Q = 16
N=1 N=1 N=1
Q = 10
N=1
Additional reading
1. Browne, Powley, Whitehouse, Lucas, Cowling, Rohlfshagen, Tavener,
Perez, Samothrakis, Colton. (2012). A Survey of Monte Carlo Tree
Search Methods.
• Survey of MCTS methods and basic summary.
Trajectory Optimization with Derivatives
Can we use derivatives?
Shooting methods vs collocation
shooting method: optimize over actions only
Shooting methods vs collocation
collocation method: optimize over actions and states, with constraints
Linear case: LQR

linear quadratic
Linear case: LQR
Linear case: LQR
Linear case: LQR

quadratic linear linear

Linear case: LQR

quadratic linear linear

Linear case: LQR
Linear case: LQR
LQR for Stochastic and Nonlinear Systems
Stochastic dynamics
The stochastic closed-loop case
Nonlinear case: DDP/iterative LQR
Nonlinear case: DDP/iterative LQR
Nonlinear case: DDP/iterative LQR
Nonlinear case: DDP/iterative LQR
Nonlinear case: DDP/iterative LQR
Nonlinear case: DDP/iterative LQR
Case Study and Additional Readings
Case study: nonlinear model-predictive control
Additional reading
1. Mayne, Jacobson. (1970). Differential dynamic programming.
• Original differential dynamic programming algorithm.
2. Tassa, Erez, Todorov. (2012). Synthesis and Stabilization of Complex
Behaviors through Online Trajectory Optimization.
• Practical guide for implementing non-linear iterative LQR.
3. Levine, Abbeel. (2014). Learning Neural Network Policies with Guided
Policy Search under Unknown Dynamics.
• Probabilistic formulation and trust region alternative to deterministic line search.
What’s wrong with known dynamics?

Next time: learning the dynamics model

Unit 5
No ratings yet
Unit 5
39 pages
Control Systems and Reinforcement Learning - Sean Meyn - 2022 - Cambridge University Press - 9781009051873 - Anna's Archive
No ratings yet
Control Systems and Reinforcement Learning - Sean Meyn - 2022 - Cambridge University Press - 9781009051873 - Anna's Archive
454 pages
Ideai Reinforcement Learning
No ratings yet
Ideai Reinforcement Learning
167 pages
Mod8 Slides
No ratings yet
Mod8 Slides
91 pages
Reinforcement Learning: Foundations
No ratings yet
Reinforcement Learning: Foundations
276 pages
Reinforcement Learning and Optimal Control - Draft Version by Dmitri Bertsekas
No ratings yet
Reinforcement Learning and Optimal Control - Draft Version by Dmitri Bertsekas
268 pages
Reinforcement Learning - A Comprehensive Overview
No ratings yet
Reinforcement Learning - A Comprehensive Overview
177 pages
MCTS Katef
No ratings yet
MCTS Katef
56 pages
Notes Summary
No ratings yet
Notes Summary
65 pages
Powell UnifiedFrameworkforOUU ECSO Tutorial Sept222017 PDF
No ratings yet
Powell UnifiedFrameworkforOUU ECSO Tutorial Sept222017 PDF
177 pages
2023 Week7 modelbasedRL Updated
No ratings yet
2023 Week7 modelbasedRL Updated
56 pages
Artificial Intelligence: Lecture 11 - Reinforcement Learning II Dr. Shivanjali Khare
No ratings yet
Artificial Intelligence: Lecture 11 - Reinforcement Learning II Dr. Shivanjali Khare
52 pages
Artificial Intelligence: Lecture 10 - Reinforcement Learning Prof. Shivanjali Khare
No ratings yet
Artificial Intelligence: Lecture 10 - Reinforcement Learning Prof. Shivanjali Khare
45 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
52 pages
Unit-5 ML
No ratings yet
Unit-5 ML
18 pages
RL Unit - Iv
No ratings yet
RL Unit - Iv
25 pages
B e
No ratings yet
B e
651 pages
MCTSintro BR
No ratings yet
MCTSintro BR
33 pages
Lec 10
No ratings yet
Lec 10
50 pages
RL Test Leif
No ratings yet
RL Test Leif
163 pages
Algorithm For RL
No ratings yet
Algorithm For RL
99 pages
06 MDP
No ratings yet
06 MDP
89 pages
Sequences and Infinite Series, A Collection of Solved Problems
From Everand
Sequences and Infinite Series, A Collection of Solved Problems
Steven Tan
No ratings yet
Powell-Tutorial-ComputationalStochasticOptimization Informs Nov152014
No ratings yet
Powell-Tutorial-ComputationalStochasticOptimization Informs Nov152014
142 pages
QP Ans
No ratings yet
QP Ans
40 pages
Abstract Dynamic Programming
No ratings yet
Abstract Dynamic Programming
257 pages
NeurIPS 2019 Maximum Entropy Monte Carlo Planning Paper
No ratings yet
NeurIPS 2019 Maximum Entropy Monte Carlo Planning Paper
9 pages
RL-Notes Book
No ratings yet
RL-Notes Book
119 pages
RL Class Notes
No ratings yet
RL Class Notes
68 pages
PMLR (2018) - Model-Based Reinforcement Learning Via Meta-Policy Optimization
No ratings yet
PMLR (2018) - Model-Based Reinforcement Learning Via Meta-Policy Optimization
13 pages
Lecture 12 Slides - After
No ratings yet
Lecture 12 Slides - After
50 pages
Audio To Text Embedding
No ratings yet
Audio To Text Embedding
144 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
50 pages
An Introduction To Reinforcement Learning From Theory To Algorithms (December 19, 2024) - Joon Kwon
No ratings yet
An Introduction To Reinforcement Learning From Theory To Algorithms (December 19, 2024) - Joon Kwon
66 pages
Assignment Problems Exercise
50% (2)
Assignment Problems Exercise
6 pages
Lec 08
No ratings yet
Lec 08
59 pages
Model-Based Reinforcement Learning
No ratings yet
Model-Based Reinforcement Learning
67 pages
Algorithms For Reinforcement Learning - Szepesvari
No ratings yet
Algorithms For Reinforcement Learning - Szepesvari
98 pages
Deep Reinforcement Learning: Lecture Notes
No ratings yet
Deep Reinforcement Learning: Lecture Notes
60 pages
Lecture Notes v1.0 687 F22
No ratings yet
Lecture Notes v1.0 687 F22
115 pages
Mathematics in The Modern World
No ratings yet
Mathematics in The Modern World
361 pages
11-DL-Deep Learning For Reinforcement Learning
No ratings yet
11-DL-Deep Learning For Reinforcement Learning
47 pages
Unit-3 Unit-3 RL Problems, Prediction and Control P 241111 181426
No ratings yet
Unit-3 Unit-3 RL Problems, Prediction and Control P 241111 181426
15 pages
Reinforcement Learning and Dynamic Programming For Control
100% (1)
Reinforcement Learning and Dynamic Programming For Control
111 pages
Simulation-Based Optimization Parametric Optimizat
100% (1)
Simulation-Based Optimization Parametric Optimizat
11 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
45 pages
RLAlgs in MDPs
No ratings yet
RLAlgs in MDPs
98 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
101 pages
Dynamic Programming and Optimal Control Script
No ratings yet
Dynamic Programming and Optimal Control Script
58 pages
DL Unit 6 QP Solution
No ratings yet
DL Unit 6 QP Solution
15 pages
Lecture 30 Reinforcement-Learning
No ratings yet
Lecture 30 Reinforcement-Learning
50 pages
Add-On DRL CS06
No ratings yet
Add-On DRL CS06
23 pages
Elementos Basicos Aprendizaje Por Refuerzo
No ratings yet
Elementos Basicos Aprendizaje Por Refuerzo
52 pages
Alg RLearning Ejemplo
No ratings yet
Alg RLearning Ejemplo
99 pages
Arnold Zellner - Statistics, Econometrics & Forecasting PDF
No ratings yet
Arnold Zellner - Statistics, Econometrics & Forecasting PDF
186 pages
MS14 CH 01
No ratings yet
MS14 CH 01
64 pages
Serge Levine Course Introduction To Reinforcement Learning 3: RL Introduction
No ratings yet
Serge Levine Course Introduction To Reinforcement Learning 3: RL Introduction
46 pages
Introduction To Model Predictive Control (MPC)
100% (1)
Introduction To Model Predictive Control (MPC)
200 pages
Powell UnifiedFrameworkStochasticOptimization Jan292018
No ratings yet
Powell UnifiedFrameworkStochasticOptimization Jan292018
69 pages
ME MECHANICAL - Energy Systems and Management PDF
No ratings yet
ME MECHANICAL - Energy Systems and Management PDF
39 pages
Algorithms For Reinforced Learning
No ratings yet
Algorithms For Reinforced Learning
98 pages
Stochastic Process - Markov Property - Markov Chain - Markov Decision Process - Reinforcement Learning - RL Techniques - Example Applications
No ratings yet
Stochastic Process - Markov Property - Markov Chain - Markov Decision Process - Reinforcement Learning - RL Techniques - Example Applications
39 pages
Quantum Bits (Qubits)
From Everand
Quantum Bits (Qubits)
Dar’Sean Raymond White Johnson
No ratings yet
Reinforcement Learning
No ratings yet
Reinforcement Learning
46 pages
Dynare - Tutorial
No ratings yet
Dynare - Tutorial
27 pages
Production and Material Management
No ratings yet
Production and Material Management
50 pages
Georgia Tech
No ratings yet
Georgia Tech
22 pages
B.tech 2 2 CSE AI ML CSE AI R20 Course Structue Syllabi
No ratings yet
B.tech 2 2 CSE AI ML CSE AI R20 Course Structue Syllabi
38 pages
SP14 CS188 Lecture 10 - Reinforcement Learning I
No ratings yet
SP14 CS188 Lecture 10 - Reinforcement Learning I
35 pages
Pareto Multi-Criteria Decision Making
No ratings yet
Pareto Multi-Criteria Decision Making
14 pages
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
No ratings yet
Markov Decision Processes & Reinforcement Learning: Megan Smith Lehigh University, Fall 2006
40 pages
Introduction to Model Predictive Control (增量式mpc)
100% (1)
Introduction to Model Predictive Control (增量式mpc)
24 pages
4th Unit DL Final Class Notes
No ratings yet
4th Unit DL Final Class Notes
68 pages
Optimal Control Minimum Time Hamiltonian
No ratings yet
Optimal Control Minimum Time Hamiltonian
11 pages
PCP: New Performance Equations For Optimal Design
100% (1)
PCP: New Performance Equations For Optimal Design
5 pages
IT Sem 2nd SEM MBA
No ratings yet
IT Sem 2nd SEM MBA
27 pages
PID Controllers For Systems With Time For Systems With Time-Delay
No ratings yet
PID Controllers For Systems With Time For Systems With Time-Delay
82 pages
Omega: Marius Häntsch, Arnd Huchzermeier
No ratings yet
Omega: Marius Häntsch, Arnd Huchzermeier
17 pages
Chap 05 LP Models Graphical and Computer Methods Soan
No ratings yet
Chap 05 LP Models Graphical and Computer Methods Soan
50 pages
RL Frontmatter
No ratings yet
RL Frontmatter
11 pages
Introduction To PID Control Systems
No ratings yet
Introduction To PID Control Systems
42 pages
Quality Costs: COST OF QUALITY Cost of Quality (COO) Is The Sum of Costs Incurred by An Organization in
No ratings yet
Quality Costs: COST OF QUALITY Cost of Quality (COO) Is The Sum of Costs Incurred by An Organization in
7 pages
Role of Manufacturing or Industrial Engineer
No ratings yet
Role of Manufacturing or Industrial Engineer
5 pages
Synthesis and Operability Strategies For Computer-Aided Modular Process Intensification Efstratios N. Pistikopoulos
100% (1)
Synthesis and Operability Strategies For Computer-Aided Modular Process Intensification Efstratios N. Pistikopoulos
54 pages
Control A Perspective
No ratings yet
Control A Perspective
41 pages
A Survey On Software Quality Assurance
No ratings yet
A Survey On Software Quality Assurance
12 pages
A Game Approach To Multi-Servers Load Balancing With Load-Dependent Server Availability Consideration
No ratings yet
A Game Approach To Multi-Servers Load Balancing With Load-Dependent Server Availability Consideration
13 pages
Dynamic Timetable Scheduler: Click To Edit Master Title Style
No ratings yet
Dynamic Timetable Scheduler: Click To Edit Master Title Style
9 pages
EOMM An Engagement Optimized Matchmaking Framework
No ratings yet
EOMM An Engagement Optimized Matchmaking Framework
8 pages
Designing Energy Efficient Traction Machines For Electric and Hybrid Vehicles
No ratings yet
Designing Energy Efficient Traction Machines For Electric and Hybrid Vehicles
9 pages
An Introduction To Nonlinear Model Predictive Control
No ratings yet
An Introduction To Nonlinear Model Predictive Control
24 pages
Direct Model Predictive Control A Review of Strategies That Achieve Long Prediction Intervals For Power Electronics
No ratings yet
Direct Model Predictive Control A Review of Strategies That Achieve Long Prediction Intervals For Power Electronics
20 pages
CSC311H5F LEC0101 Syllabus
No ratings yet
CSC311H5F LEC0101 Syllabus
5 pages
PID Controllers For Time-DelaySys
No ratings yet
PID Controllers For Time-DelaySys
12 pages
Implementation and Analysis of Nonlinear Model Predictive Controller On Embedded Systems For Real-Time Applications
No ratings yet
Implementation and Analysis of Nonlinear Model Predictive Controller On Embedded Systems For Real-Time Applications
7 pages
Auto-Generated Algorithms For Nonlinear Model Predictive Control On Long and On Short Horizons
No ratings yet
Auto-Generated Algorithms For Nonlinear Model Predictive Control On Long and On Short Horizons
7 pages
RAMAN Reinforcement Learning Inspired Algorithm For Mapping Applications Onto Mesh Network-on-Chip
No ratings yet
RAMAN Reinforcement Learning Inspired Algorithm For Mapping Applications Onto Mesh Network-on-Chip
7 pages
A Condensing Algorithm For NonlinearMPC With A Quadratic Runtime in Horizon Length
No ratings yet
A Condensing Algorithm For NonlinearMPC With A Quadratic Runtime in Horizon Length
4 pages
Optimum Relative Maturity For Yield and Profitability in Corn
No ratings yet
Optimum Relative Maturity For Yield and Profitability in Corn
2 pages
SUMSEM2 (2021-22) MAT2004 ETH AP2021228000102 Reference Material I Applied Optimization Techniques
No ratings yet
SUMSEM2 (2021-22) MAT2004 ETH AP2021228000102 Reference Material I Applied Optimization Techniques
2 pages

Optimal Control and Planning

Uploaded by

Optimal Control and Planning

Uploaded by

Optimal Control and Planning

assume this is unknown

• Often we do know the dynamics

Does knowing the dynamics make things easier?

why is this suboptimal?

(more on this later)

simplest method: guess & check “random shooting method”

What’s the problem?

e.g., random policy

quadratic linear linear

quadratic linear linear

Next time: learning the dynamics model

You might also like