0% found this document useful (0 votes)

30 views3 pages

Reinforcement Learning 3 Recap

The document discusses reinforcement learning techniques for solving Markov Decision Processes including value iteration, policy iteration, and policy evaluation. Policy iteration alternates between policy evaluation, using the current policy to estimate value functions, and policy improvement, finding a policy based on the current value estimates. Policy evaluation can be done using linear algebra or value iteration when the policy is fixed.

Uploaded by

chuck212

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

30 views3 pages

Reinforcement Learning 3 Recap

Uploaded by

chuck212

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

CS440 Lectures https://courses.grainger.illinois.edu/cs440/fa2020/lectures/rl3...

CS 440/ECE 448
Fall 2020 Reinforcement Learning 3
Margaret Fleck

Recap
Pieces of an MDP

states s in S
actions a in A
transition probabilities P(s' | s,a)
reward function R(s)
policy π(s) returns action

When we're in state s, we command an action π(s). However, our buggy controller may put
us into a variety of choices for the next state s', with probabilities given by the transition
function P.

Bellman equation for optimal policy

U(s) = R(s) + γ maxa∈A ∑s′ ∈S P (s′ |s, a)U(s′ )

Recap: Value iteration

Recall how we solve the Bellman equation using value iteration. Let Ut be the utility values
at iteration step t.

Initialize U0 (s) = 0, for all states s

For i=0 until values converge, update U using the equation

Ui+1 (s) = R(s) + γ maxa∈A ∑s′ ∈S P (s′ |s, a)Ui (s′ )

Then extract the corresponding policy:

π(s) = argmaxa ∑s′ P (s′ |s, a)U(s′ )

Value iteration eventually converges to the solution. Notice that the optimal utility values
are uniquely determined, but there may be one policy consistent with them.

Policy Iteration
Suppose that we have picked some policy π telling us what move to command in each state.

1 of 3 5/10/21, 02:02
CS440 Lectures https://courses.grainger.illinois.edu/cs440/fa2020/lectures/rl3...

Then the Bellman equation for this ﬁxed policy is simpler because we know exactly what
action we'll command:

Bellman equation for a ﬁxed policy:

U(s) = R(s) + γ ∑s′ ∈S P (s′ |s, π(s))U(s′ )
Because the optimal policy is tightly coupled to the correct utility values, we can rephrase
our optimization problem as ﬁnding the best policy. This is "policy iteration". It produces the
same solution as value iteration, but faster.

Speciﬁcally, the policy iteration algorithm looks like this:

Start with an initial guess for policy π.

Alternate two steps:
Policy evaluation: use policy π to estimate utility values U
Policy improvement: use utility values U to calculate a new policy π

Policy iteration makes the emerging policy values explicit, so they can help guide the
process of reﬁning the utility values.

The policy improvement step is easy. Just use this equation:

π(s) = argmaxa ∑s′ P (s′ |s, a)U(s′ )

We still need to understand how to do the policy evaluation step.

Policy evaluation
Since we have a draft policy π(s) when doing policy evaluation, we have a simpliﬁed
Bellman equation (below).

U(s) = R(s) + γ ∑s′ P (s′ |s, π(s))U(s′ )

We have one of these equations for each state s. The equations are still recursive (like the
original Bellman equation) but they are now linear. So have two options for adjusting our
utility function:

linear algebra
a few iterations of value iteration

The value estimation approach is usually faster. We don't need an exact (fully converged)
solution, because we'll be repeating this calculation each time we reﬁne our policy π.

Asynchronous dynamic programming

2 of 3 5/10/21, 02:02
CS440 Lectures https://courses.grainger.illinois.edu/cs440/fa2020/lectures/rl3...

One useful weak to solving Markov Decision Process is "asynchronous dynamic

programming." In each iteration, it's not necessary to update all states. We can select only
certain states for updating. E.g.

states frequently seen in some application (e.g. a game)

states for which the Bellman equation has a large error (i.e. compare values for left
and right sides of the equation)

The details can be spelled out in a wide variety of ways.

3 of 3 5/10/21, 02:02

JR sr2021 2022qs Sol PDF
No ratings yet
JR sr2021 2022qs Sol PDF
570 pages
LP-III Lab Manual
No ratings yet
LP-III Lab Manual
49 pages
Ang A. H-S, Probability Concepts in Engineering Planning and Design, 1984
86% (14)
Ang A. H-S, Probability Concepts in Engineering Planning and Design, 1984
572 pages
Active Maths Workbook 4
No ratings yet
Active Maths Workbook 4
204 pages
Turbine Generator Governor Droop Isochronous Fundamentals - A Graphical Approach
100% (1)
Turbine Generator Governor Droop Isochronous Fundamentals - A Graphical Approach
8 pages
Pair of Linear Equations in Two Variables
100% (2)
Pair of Linear Equations in Two Variables
6 pages
Statistics and Probability 11: Learning Activity Sheet Central Limit Theorem Definition and Illustration
100% (2)
Statistics and Probability 11: Learning Activity Sheet Central Limit Theorem Definition and Illustration
15 pages
First Push Grade 12 March 2024 - 110213 - 240311 - 024734
100% (1)
First Push Grade 12 March 2024 - 110213 - 240311 - 024734
11 pages
Grade 9 Maths P1 Marking Guideline English
No ratings yet
Grade 9 Maths P1 Marking Guideline English
14 pages
Electromagnetic Scattering From Random Media
No ratings yet
Electromagnetic Scattering From Random Media
199 pages
System Dynamics: Louis Dressel
No ratings yet
System Dynamics: Louis Dressel
24 pages
Training of Trainersof Grade 8 Teachers (Pre-Test) - With Answer Key
No ratings yet
Training of Trainersof Grade 8 Teachers (Pre-Test) - With Answer Key
3 pages
Review of Load-Flow Calculation Methods: Brian
100% (1)
Review of Load-Flow Calculation Methods: Brian
14 pages
Amc 13 Qs
100% (1)
Amc 13 Qs
6 pages
Assi Hisham 201606 PHD Thesis
No ratings yet
Assi Hisham 201606 PHD Thesis
119 pages
Concept Journaling
No ratings yet
Concept Journaling
9 pages
De Notes Final
No ratings yet
De Notes Final
176 pages
Resposta de TRR PDF
0% (1)
Resposta de TRR PDF
57 pages
Master Thesis A Survey On Euclidean Number Fields PDF
No ratings yet
Master Thesis A Survey On Euclidean Number Fields PDF
121 pages
Schedule Jee Main 2025 Test Series Droppers July Batch
No ratings yet
Schedule Jee Main 2025 Test Series Droppers July Batch
4 pages
3.1+ (PPT) +Linear+Programming+ +Sensitivity+Analysis
No ratings yet
3.1+ (PPT) +Linear+Programming+ +Sensitivity+Analysis
17 pages
Chapter-1 - Function: Maths IIT-JEE Best Approach' (MC SIR)
No ratings yet
Chapter-1 - Function: Maths IIT-JEE Best Approach' (MC SIR)
9 pages
Euclid's Geometry-1
No ratings yet
Euclid's Geometry-1
10 pages
Mathematics For Engineers PDF Ebook-1011-1015
No ratings yet
Mathematics For Engineers PDF Ebook-1011-1015
5 pages
Discrete State Space Design For Digital Control
No ratings yet
Discrete State Space Design For Digital Control
14 pages
Multiple Regions of The Arabidopsis SAUR AC1 Gene Control Transcript Abundance - The 3 Untranslated Region Functions As An MRNA Instability Determinant. - The EMBO Journal
No ratings yet
Multiple Regions of The Arabidopsis SAUR AC1 Gene Control Transcript Abundance - The 3 Untranslated Region Functions As An MRNA Instability Determinant. - The EMBO Journal
1 page
Electrostatics Manual v1.1
No ratings yet
Electrostatics Manual v1.1
10 pages
Adobe Scan 01-Sep-2022
No ratings yet
Adobe Scan 01-Sep-2022
7 pages
A Block-Based Linear MMSE Noise Reduction With A H PDF
No ratings yet
A Block-Based Linear MMSE Noise Reduction With A H PDF
15 pages
Vector Semantics 4
No ratings yet
Vector Semantics 4
3 pages
Classical Planning 3 Recap
No ratings yet
Classical Planning 3 Recap
4 pages
Women in Science
No ratings yet
Women in Science
4 pages
Hairpin RNA-Mediated Strategies For Silencing of Tomato Leaf Curl Virus AC1 and AC4 Genes For Effective Resistance in Plants
No ratings yet
Hairpin RNA-Mediated Strategies For Silencing of Tomato Leaf Curl Virus AC1 and AC4 Genes For Effective Resistance in Plants
10 pages
Vector Semantics 2 Word Embeddings (Vector Semantics)
No ratings yet
Vector Semantics 2 Word Embeddings (Vector Semantics)
5 pages
08 MDPs
No ratings yet
08 MDPs
111 pages
242 Sheet 02 03
No ratings yet
242 Sheet 02 03
5 pages
Artificial Intelligence: Lecture 9 - Markov Decision Processes II Dr. Shivanjali Khare
No ratings yet
Artificial Intelligence: Lecture 9 - Markov Decision Processes II Dr. Shivanjali Khare
44 pages
Games 1 What Makes Games Special?
No ratings yet
Games 1 What Makes Games Special?
5 pages
Vector Semantics 3
No ratings yet
Vector Semantics 3
5 pages
Layout of The Field: Irobot
No ratings yet
Layout of The Field: Irobot
6 pages
Programming
No ratings yet
Programming
6 pages
04 RL DP
No ratings yet
04 RL DP
76 pages
Vector Semantics 5: (Count (C) )
No ratings yet
Vector Semantics 5: (Count (C) )
3 pages
Classical Planning 2 History: STRIPS Planner
No ratings yet
Classical Planning 2 History: STRIPS Planner
3 pages
SVD Report
No ratings yet
SVD Report
6 pages
Handling Uncertainty 03 - Solving MDP
No ratings yet
Handling Uncertainty 03 - Solving MDP
11 pages
18 - Dynamic Programming For Markov Decision Processes
No ratings yet
18 - Dynamic Programming For Markov Decision Processes
50 pages
Bfs Find Shortest Path On Unweighted Graph
No ratings yet
Bfs Find Shortest Path On Unweighted Graph
3 pages
Lecture 4 - Bellman Equations and DP
No ratings yet
Lecture 4 - Bellman Equations and DP
27 pages
2 Dynamic
No ratings yet
2 Dynamic
50 pages
MIT 6.036 Lecture
No ratings yet
MIT 6.036 Lecture
64 pages
08 - Markov Decision Processes
No ratings yet
08 - Markov Decision Processes
31 pages
2025 - MDPs 2
No ratings yet
2025 - MDPs 2
42 pages
2024 MDPs Part 1
No ratings yet
2024 MDPs Part 1
59 pages
3 - Chapter 4 Value Iteration and Policy Iteration
No ratings yet
3 - Chapter 4 Value Iteration and Policy Iteration
20 pages
RL Lecture4
No ratings yet
RL Lecture4
7 pages
Markov Decision Process II
No ratings yet
Markov Decision Process II
88 pages
2025 - MDPs - Part 2
No ratings yet
2025 - MDPs - Part 2
41 pages
Pomdps
No ratings yet
Pomdps
76 pages
RL Lecture4
No ratings yet
RL Lecture4
16 pages
Cs5811 Ch17 Complex Dec
No ratings yet
Cs5811 Ch17 Complex Dec
29 pages
AI512/EE633: Reinforcement Learning: Lecture 3 - Dynamic Programming
No ratings yet
AI512/EE633: Reinforcement Learning: Lecture 3 - Dynamic Programming
43 pages
3 - Chapter 4 Value Iteration and Policy Iteration
No ratings yet
3 - Chapter 4 Value Iteration and Policy Iteration
20 pages
کتاب هشتم بارگزاری شده
No ratings yet
کتاب هشتم بارگزاری شده
112 pages
l1 Mdps Exact Methods
No ratings yet
l1 Mdps Exact Methods
69 pages
Module 04
No ratings yet
Module 04
63 pages
Policy (RL IITH)
No ratings yet
Policy (RL IITH)
46 pages
RL Unit-4
No ratings yet
RL Unit-4
18 pages
Slidedeck 6 MAS 2021 22 RL 2 MDP Model-Based
No ratings yet
Slidedeck 6 MAS 2021 22 RL 2 MDP Model-Based
36 pages
Lec 09
No ratings yet
Lec 09
51 pages
Lec 12
No ratings yet
Lec 12
60 pages
Subtitle
No ratings yet
Subtitle
1 page
10 - Reinforcement Learning
No ratings yet
10 - Reinforcement Learning
24 pages
15 MDP
No ratings yet
15 MDP
35 pages
Lecture26 Ri
No ratings yet
Lecture26 Ri
55 pages
Unit 05 Dynamic Programming
No ratings yet
Unit 05 Dynamic Programming
9 pages
Fa19 Lecture 15 MDPs II
No ratings yet
Fa19 Lecture 15 MDPs II
76 pages
AIS462 - Reinforcement Learning - Spring2025 - Lec4
No ratings yet
AIS462 - Reinforcement Learning - Spring2025 - Lec4
13 pages
09 - Monte Carlo Learning
No ratings yet
09 - Monte Carlo Learning
24 pages
Experiment 4
No ratings yet
Experiment 4
7 pages
MDP Cheatsheet
No ratings yet
MDP Cheatsheet
3 pages
Reinforcement Learning: Amulya Viswambaran (202090007) Kehkashan Fatima (202090202) Sruthi Krishnan (202090333)
No ratings yet
Reinforcement Learning: Amulya Viswambaran (202090007) Kehkashan Fatima (202090202) Sruthi Krishnan (202090333)
40 pages
Lec 4
No ratings yet
Lec 4
16 pages
Experiment 3
No ratings yet
Experiment 3
6 pages
3 DP PDF
No ratings yet
3 DP PDF
42 pages
EE675 Lecture 10
No ratings yet
EE675 Lecture 10
4 pages
22 Reinforcement Learning
No ratings yet
22 Reinforcement Learning
18 pages
A17 Complexdecisions
No ratings yet
A17 Complexdecisions
28 pages
EE675A Lec12
No ratings yet
EE675A Lec12
5 pages
cs229 Notes13
No ratings yet
cs229 Notes13
15 pages
Markov Decision Processes: Stochastic, Sequential Environments
No ratings yet
Markov Decision Processes: Stochastic, Sequential Environments
20 pages
ML Unit 4
No ratings yet
ML Unit 4
9 pages
Sp14 Cs188 Lecture 9 - Mdps II
No ratings yet
Sp14 Cs188 Lecture 9 - Mdps II
48 pages
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
No ratings yet
Instructor (Andrew NG) :okay, Good Morning. Welcome Back. So I Hope All of You Had
14 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
02 MarkovDecisionProcess
No ratings yet
02 MarkovDecisionProcess
51 pages
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
7 pages
Markov Decision Processes and Exact Solution Methods
No ratings yet
Markov Decision Processes and Exact Solution Methods
34 pages
Reinforcement Learning Cheat Sheet: Return
No ratings yet
Reinforcement Learning Cheat Sheet: Return
7 pages
CS 188 Fall 2018 Written HW4 Soln
No ratings yet
CS 188 Fall 2018 Written HW4 Soln
6 pages
Reinforcement Learning and Control: CS229 Lecture Notes
No ratings yet
Reinforcement Learning and Control: CS229 Lecture Notes
15 pages

Reinforcement Learning 3 Recap

Uploaded by

Reinforcement Learning 3 Recap

Uploaded by

CS440 Lectures https://courses.grainger.illinois.edu/cs440/fa2020/lectures/rl3...

Bellman equation for optimal policy

U(s) = R(s) + γ maxa∈A ∑s′ ∈S P (s′ |s, a)U(s′ )

Recap: Value iteration

Initialize U0 (s) = 0, for all states s

Ui+1 (s) = R(s) + γ maxa∈A ∑s′ ∈S P (s′ |s, a)Ui (s′ )

π(s) = argmaxa ∑s′ P (s′ |s, a)U(s′ )

Bellman equation for a ﬁxed policy:

Speciﬁcally, the policy iteration algorithm looks like this:

Start with an initial guess for policy π.

The policy improvement step is easy. Just use this equation:

π(s) = argmaxa ∑s′ P (s′ |s, a)U(s′ )

U(s) = R(s) + γ ∑s′ P (s′ |s, π(s))U(s′ )

Asynchronous dynamic programming

One useful weak to solving Markov Decision Process is "asynchronous dynamic

states frequently seen in some application (e.g. a game)

The details can be spelled out in a wide variety of ways.

You might also like