0% found this document useful (0 votes)

84 views11 pages

Stochastic DP Problems

This document summarizes key concepts from a lecture on stochastic dynamic programming and linear-quadratic control problems. It discusses how linear-quadratic problems can be solved using dynamic programming and the discrete-time Riccati equation. The Riccati equation provides the optimal linear feedback policy and gives a quadratic value function. It also describes how the Riccati equation can be used to analyze inventory control problems and provides justification for the optimality of a base-stock policy.

Uploaded by

Mehdi Rabbani

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

84 views11 pages

Stochastic DP Problems

Uploaded by

Mehdi Rabbani

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 11

6.

231 DYNAMIC PROGRAMMING

LECTURE 5
LECTURE OUTLINE
Examples of stochastic DP problems
Linear-quadratic problems
Inventory control
1
LINEAR-QUADRATIC PROBLEMS
System: x
k+1
= A
k
x
k
+B
k
u
k
+w
k
Quadratic cost
N1
E
x

N
Q
N
x
N
+ (x

k
Q
k
x
k
+u

k
R
k
u
k
)
w
k
k=0,1,...,N1
_
k

=0
_
where Q
k
0 and R
k
> 0 (in the positive (semi)denite
sense).
w
k
are independent and zero mean
DP algorithm:
J
N
(x
N
) = x

N
Q
N
x
N
,
J

k
(x
k
) = min E x
k
Q
k
x
k
+u
k
R
k
u
k
u
k
_
+J
k+1
(A
k
x
k
+B
k
u
k
+w
k
)
Key facts:
_
J
k
(x
k
) is quadratic
Optimal policy {

0
, . . . ,

N1
} is linear:

k
(x
k
) = L
k
x
k
Similar treatment of a number of variants
2
DERIVATION
By induction verify that

k
(x
k
) = L
k
x
k
, J
k
(x
k
) = x

k
K
k
x
k
+constant,
where L
k
are matrices given by
L
k
= (B

k
K
k+1
B
k
+R
k
)
1
B

k
K
k+1
A
k
,
and where K
k
are symmetric positive semidenite
matrices given by
K
N
= Q
N
,
K = A

k
k
_
K
k+1
K
k+1
B
k
(B
k
K
k+1
B
k
+R )
1
k
B

k
K
k+1
A
k
+Q
k
.
This is called the discrete-time Ric
_
cati equation.
Just like DP, it starts at the terminal time N
and proceeds backwards.
Certainty equivalence holds (optimal policy is
the same as when w
k
is replaced by its expected
value E{w
k
} = 0).
3
ASYMPTOTIC BEHAVIOR OF RICCATI EQ.
Assume time-independent system and cost per
stage, and some technical assumptions: controla-
bility of (A, B) and observability of (A, C) where
Q = C

C
The Riccati equation converges lim
k
K
k
=
K, where K is pos. denite, and is the unique
(within the class of pos. semidenite matrices) so-
lution of the algebraic Riccati equation
K = A

_
K KB(B

KB +R)
1
B

K
_
A+Q
The corresponding steady-state controller

(x) =
Lx, where
L = (B

KB +R)
1
B

KA,
is stable in the sense that the matrix (A+BL) of
the closed-loop system
x
k+1
= (A+BL)x
k
+w
k
satises lim
k
(A+BL)
k
= 0.
4
GRAPHICAL PROOF FOR SCALAR SYSTEMS
2
A R
2
+ Q
B
F(P)
Q
R
-
2
P
B
0 45
0
P
*
k
P
k + 1
P
P
Riccati equation (with P
k
= K
Nk
):
B
2
P
P = A
_
2
2
P
k
k+1 k
B
2
P
k
+R
_
+Q,
or P
k+1
= F(P
k
), where
A
2
RP
F(P) = +Q.
B
2
P +R
Note the two steady-state solutions, satisfying
P = F(P), of which only one is positive.
5
RANDOM SYSTEM MATRICES
Suppose that {A
0
, B
0
}, . . . , {A
N1
, B
N1
} are
not known but rather are independent random
matrices that are also independent of the w
k
DP algorithm is
J
N
(x
N
) = x

N
Q
N
x
N
,
J
k
(x
k
) = min
E
u
k
w ,A ,B
k k k
+u

k
R
k
u
_
x

k
Q
k
x
k
k
+J
k+1
(A
k
x
k
+B
k
u
k
+w
k
)
_
Optimal policy

k
(x
k
) = L
k
x
k
, where
1
L
k
= R
k
+E{B

k
K
k+1
B

k
} E{B
k
K
k+1
A
k
},
and whe
_
re the matrices K
k
ar
_
e given by
K
N
= Q
N
,
K
k
= E{A

k
K
k+1
A
k
} E{A

k
K
k+1
B
k
}
1
R +E{B

K B } E{B

k
k
k+1 k
k
K
k+1
A
k
} +Q
k
_ _
6
PROPERTIES
Certainty equivalence may not hold
Riccati equation may not converge to a steady-
state
F(P)
Q
45
0
R
-
2
E{ }
0 P
B
We have P
k+1
= F

(P
k
), where
E{A
2
}RP TP
2
F

(P) = +Q+ ,
E{B
2
}P +R E{B
2
}P +R
2 2
T = E{A
2
}E{B
2
} E{A} E{B}
_ _ _ _
7
INVENTORY CONTROL
x
k
: stock, u
k
: inventory purchased, w
k
: de-
mand
x
k+1
= x
k
+u
k
w
k
, k = 0, 1, . . . , N 1
Minimize
_
N1
E
k

=0
_
cu
k
+r(x
k
+u
k
w
k
)
_
_
where, for some p > 0 and h > 0,
r(x) = p max(0, x) +hmax(0, x)
DP algorithm:
J
N
(x
N
) = 0,
J
k
(x
k
) = min
_
cu +H(x +u )+E
_
J (x +u
k k k k+1 k k
w
k
) ,
u 0
k
where H(x +u) = E{r(x +u w)}.
_
8
OPTIMAL POLICY
DP algorithm can be written as
J
N
(x
N
) = 0,
J
k
(x
k
) = min G
k
(x
k
+u
k
) cx
k
,
u 0
k
where
G
k
(y) = cy +H(y) +E
_
J
k+1
(y w)
_
.
If G
k
is convex and lim
|x|
G
k
(x) , we
have

k
(x
k
) =
_
S
k
x
k
if x
k
< S
k
,
0 if x
k
S
k
,
where S
k
minimizes G
k
(y).
This is shown, assuming that c < p, by showing
that J
k
is convex for all k, and
lim J
k
(x)
|x|
9
JUSTIFICATION
Graphical inductive proof that J
k
is convex.
- cy
- cy
y
H(y)
cy + H(y)
S
N - 1
cS
N - 1
J
N - 1
(x
N - 1
)
x
N - 1
S
N - 1
10

MIT OpenCourseWare
http://ocw.mit.edu
6.231 Dynamic Programming and Stochastic Control
Fall 2011
For information about citing these materials or our Terms of Use, visit: http://ocw.mit.edu/terms.

Probability Webquest
No ratings yet
Probability Webquest
3 pages
A Child's Guide To Dynamic Programming
No ratings yet
A Child's Guide To Dynamic Programming
20 pages
CS 188 Fall 2018 Written HW4 Soln
No ratings yet
CS 188 Fall 2018 Written HW4 Soln
6 pages
Dynamic Programming and Optimal Control
No ratings yet
Dynamic Programming and Optimal Control
199 pages
Dynamic Programing and Optimal Control
No ratings yet
Dynamic Programing and Optimal Control
276 pages
Dynamic Programing and Optimal Control PDF
No ratings yet
Dynamic Programing and Optimal Control PDF
276 pages
Vol I Dimitri PDF
No ratings yet
Vol I Dimitri PDF
30 pages
Dynamic Programming and Optimal Control, Volumes I Solution Selected
No ratings yet
Dynamic Programming and Optimal Control, Volumes I Solution Selected
30 pages
DP Slides
No ratings yet
DP Slides
263 pages
Dynamic Programming Handout - : 14.451 Recitation, February 18, 2005 - Todd Gormley
No ratings yet
Dynamic Programming Handout - : 14.451 Recitation, February 18, 2005 - Todd Gormley
11 pages
MIT6 231F11 Notes Short
No ratings yet
MIT6 231F11 Notes Short
125 pages
MIT6 231F15 Notes PDF
No ratings yet
MIT6 231F15 Notes PDF
303 pages
MIT Dynamic Programming Lecture Slides
No ratings yet
MIT Dynamic Programming Lecture Slides
261 pages
MIT6 231F15 Complete Slide
No ratings yet
MIT6 231F15 Complete Slide
166 pages
Kulkami, V. G. Modeling Analysis Design and Control of Stochastic System (2000) .12
No ratings yet
Kulkami, V. G. Modeling Analysis Design and Control of Stochastic System (2000) .12
30 pages
Dynamic Programming and Optimal Control
No ratings yet
Dynamic Programming and Optimal Control
62 pages
Dynamic Programming and Optimal Control: Third Edition Dimitri P. Bertsekas
0% (1)
Dynamic Programming and Optimal Control: Third Edition Dimitri P. Bertsekas
54 pages
Dynamic Programming
No ratings yet
Dynamic Programming
52 pages
Markov Decision Processes and Exact Solution Methods
No ratings yet
Markov Decision Processes and Exact Solution Methods
34 pages
EE290 Lecture 16
No ratings yet
EE290 Lecture 16
4 pages
Optimal Control Exercises
100% (2)
Optimal Control Exercises
79 pages
RL and ObC Lecture 2
No ratings yet
RL and ObC Lecture 2
20 pages
Lecture4 Model Free Prediction
No ratings yet
Lecture4 Model Free Prediction
34 pages
OCDM2223 Tutorial7solved
No ratings yet
OCDM2223 Tutorial7solved
5 pages
Biasing Approximate Dynamic Programming With A Lower Discount Factor
No ratings yet
Biasing Approximate Dynamic Programming With A Lower Discount Factor
8 pages
Dynamic Programming
No ratings yet
Dynamic Programming
9 pages
242 Sheet 02 03
No ratings yet
242 Sheet 02 03
5 pages
Littomore
No ratings yet
Littomore
169 pages
Dynamics and Control of Supply and Deman
No ratings yet
Dynamics and Control of Supply and Deman
9 pages
Dynamic Programming and Optimal Control
No ratings yet
Dynamic Programming and Optimal Control
62 pages
Dynamic Programming Matlab
No ratings yet
Dynamic Programming Matlab
6 pages
Optim
No ratings yet
Optim
23 pages
Dynamic Programming Online Teaching FOR PRINT
No ratings yet
Dynamic Programming Online Teaching FOR PRINT
44 pages
Module 04
No ratings yet
Module 04
63 pages
AI 3000 / CS 5500: Reinforcement Learning Assignment 1: Problem 1: Markov Reward Process
No ratings yet
AI 3000 / CS 5500: Reinforcement Learning Assignment 1: Problem 1: Markov Reward Process
5 pages
Dynamic Programming and Optimal Control Script
No ratings yet
Dynamic Programming and Optimal Control Script
58 pages
DRL Homework 1
No ratings yet
DRL Homework 1
4 pages
04 RL DP
No ratings yet
04 RL DP
76 pages
A17 Complexdecisions
No ratings yet
A17 Complexdecisions
28 pages
Trust Region Policy Optimization: John Schulman Sergey Levine Philipp Moritz Michael Jordan Pieter Abbeel
No ratings yet
Trust Region Policy Optimization: John Schulman Sergey Levine Philipp Moritz Michael Jordan Pieter Abbeel
16 pages
Tut21 RL
No ratings yet
Tut21 RL
101 pages
Linear Quadratic Dual Control: Anders Rantzer
No ratings yet
Linear Quadratic Dual Control: Anders Rantzer
4 pages
cs229 Notes13
No ratings yet
cs229 Notes13
15 pages
AI512/EE633: Reinforcement Learning: Lecture 3 - Dynamic Programming
No ratings yet
AI512/EE633: Reinforcement Learning: Lecture 3 - Dynamic Programming
43 pages
Rust J. - Numerical Dynamic Programming in Economics
No ratings yet
Rust J. - Numerical Dynamic Programming in Economics
167 pages
EE675A Lec12
No ratings yet
EE675A Lec12
5 pages
Dynamic Programming and Linear Quadratic (LQ) Control (Discrete-Time and Continuous Time Cases)
No ratings yet
Dynamic Programming and Linear Quadratic (LQ) Control (Discrete-Time and Continuous Time Cases)
53 pages
08 - Markov Decision Processes
No ratings yet
08 - Markov Decision Processes
31 pages
DSC3707 Ass2 S1 2024 Memo
No ratings yet
DSC3707 Ass2 S1 2024 Memo
6 pages
2 Dynamic
No ratings yet
2 Dynamic
50 pages
15 MDP
No ratings yet
15 MDP
35 pages
1527250826E textofChapter8Module2
No ratings yet
1527250826E textofChapter8Module2
9 pages
GDD Nonlinear NIPS 2009 Convergent Temporal Difference Learning With Arbitrary Smooth Function Approximation
No ratings yet
GDD Nonlinear NIPS 2009 Convergent Temporal Difference Learning With Arbitrary Smooth Function Approximation
9 pages
Theory Note 1
No ratings yet
Theory Note 1
5 pages
Lecture Notes
No ratings yet
Lecture Notes
29 pages
Finalsample
No ratings yet
Finalsample
6 pages
Solution To Assignment - 4 - Dynamic Programming
No ratings yet
Solution To Assignment - 4 - Dynamic Programming
11 pages
Moritz Lars
No ratings yet
Moritz Lars
97 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
Calculus I Essentials
From Everand
Calculus I Essentials
Editors of REA
1/5 (1)
Shortcuts to College Calculus Refreshment Kit
From Everand
Shortcuts to College Calculus Refreshment Kit
Juan Acevedo
No ratings yet
Introduction To MATLAB Programming
No ratings yet
Introduction To MATLAB Programming
8 pages
Infinera IEEE OTN Overview
No ratings yet
Infinera IEEE OTN Overview
25 pages
Understanding Power Cable Characteristics and Applications
No ratings yet
Understanding Power Cable Characteristics and Applications
3 pages
Heat Transfer With Matlab
100% (1)
Heat Transfer With Matlab
3 pages
Zadoff-Chu Sequence
100% (1)
Zadoff-Chu Sequence
3 pages
How To Select A DC Motor
No ratings yet
How To Select A DC Motor
4 pages
Understanding Power Cable Characteristics and Applications
No ratings yet
Understanding Power Cable Characteristics and Applications
3 pages
Standards and Specifications (Chap-9)
100% (1)
Standards and Specifications (Chap-9)
12 pages
Portuguese Alphabet
No ratings yet
Portuguese Alphabet
5 pages
List of English Words of Persian Origin
No ratings yet
List of English Words of Persian Origin
31 pages
Complex Conjugate
No ratings yet
Complex Conjugate
5 pages
Ik1330lab2 (KTH)
No ratings yet
Ik1330lab2 (KTH)
7 pages
2.626 Fundamentals of Photovoltaics: Mit Opencourseware
No ratings yet
2.626 Fundamentals of Photovoltaics: Mit Opencourseware
31 pages
Lte Ofdm Technology
No ratings yet
Lte Ofdm Technology
2 pages
Chapter 8: Memory Management
No ratings yet
Chapter 8: Memory Management
9 pages
Addressing & Routing On The Internet
No ratings yet
Addressing & Routing On The Internet
44 pages
Choosing The Right Multimode Fiber For Data Communications: September 2008 Executive Summary
No ratings yet
Choosing The Right Multimode Fiber For Data Communications: September 2008 Executive Summary
5 pages
Lecture 10 PDF
No ratings yet
Lecture 10 PDF
5 pages
Samples
No ratings yet
Samples
2 pages
Maharaja Ganga Singh University: Choice Based Credit System (CBCS)
No ratings yet
Maharaja Ganga Singh University: Choice Based Credit System (CBCS)
20 pages
Matrices in Matlab: Topic 6 Arrays and Vectors
No ratings yet
Matrices in Matlab: Topic 6 Arrays and Vectors
7 pages
State Vision
No ratings yet
State Vision
15 pages
Amgen Case Study
100% (1)
Amgen Case Study
65 pages
Syllabus Adsp
No ratings yet
Syllabus Adsp
3 pages
Transactional Memory: David Chisnall
No ratings yet
Transactional Memory: David Chisnall
21 pages
Multiple Sequence Alignment MSA
No ratings yet
Multiple Sequence Alignment MSA
8 pages
Palompon: Institute of Technology Tabango Campus
No ratings yet
Palompon: Institute of Technology Tabango Campus
6 pages
Xilinx LogiCore
No ratings yet
Xilinx LogiCore
3 pages
Scribd
No ratings yet
Scribd
190 pages
Practice Sheet 2
No ratings yet
Practice Sheet 2
1 page
CCIE Security - Syllabus PDF
No ratings yet
CCIE Security - Syllabus PDF
7 pages
Key
No ratings yet
Key
4 pages
ISO27k ISMS Implementation and Certification Process v4 PDF
No ratings yet
ISO27k ISMS Implementation and Certification Process v4 PDF
1 page
Form A - Offeror Information Form
No ratings yet
Form A - Offeror Information Form
2 pages
Abraham Hicks
No ratings yet
Abraham Hicks
121 pages
Advanced Use of C Language: Content
No ratings yet
Advanced Use of C Language: Content
23 pages
Akshay Final Journal
No ratings yet
Akshay Final Journal
15 pages
Coursera dxh67ssh8x23
No ratings yet
Coursera dxh67ssh8x23
1 page
Hadoop Framework
No ratings yet
Hadoop Framework
22 pages
Pt. Adiprima Mitra Sejati: Quatation
No ratings yet
Pt. Adiprima Mitra Sejati: Quatation
1 page
Portfolio'19 PDF
No ratings yet
Portfolio'19 PDF
19 pages
7.5 Notes For Practical Use of PSCS: 7.5.1 Availability of Power Switchgear and Controlgear Assemblies
No ratings yet
7.5 Notes For Practical Use of PSCS: 7.5.1 Availability of Power Switchgear and Controlgear Assemblies
2 pages
Security PDF
0% (1)
Security PDF
251 pages
HTML Cheat Sheet
No ratings yet
HTML Cheat Sheet
53 pages
LINKSMIND Ready To Go Digital Plans
No ratings yet
LINKSMIND Ready To Go Digital Plans
16 pages
6 Step Booting Processodt
No ratings yet
6 Step Booting Processodt
7 pages
SGF5-2017 - Annex A - Project Proposal Form
No ratings yet
SGF5-2017 - Annex A - Project Proposal Form
6 pages

Stochastic DP Problems

Uploaded by

Stochastic DP Problems

Uploaded by

6.

231 DYNAMIC PROGRAMMING

You might also like