0% found this document useful (0 votes)

6 views3 pages

Into To Ai

The document discusses concepts in probabilistic planning and decision theory, emphasizing the calculation of expected utility and the Markov Decision Problem (MDP). It outlines the components of MDP, including states, actions, transition models, and reward functions, and introduces the idea of optimal policies through value iteration. The aim is to maximize expected cumulative rewards while considering the stochastic nature of actions and outcomes.

Uploaded by

daniel.widjaja18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

6 views3 pages

Into To Ai

Uploaded by

daniel.widjaja18

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

week 10

1 ′ ′ 0 ′ 1 1
Q (⟨3, 3⟩, E) = ∑ P (s |⟨3, 3⟩, E)[R(⟨3, 3⟩, E, s ) + γV (s )]V (⟨3, 3⟩) = max Q (⟨3, 3⟩, a)
a∈{E,Q,N ,S}
′
s ∈{⟨3,4⟩,⟨2,3⟩,⟨3,3⟩}

Probabilistic Planning
Action set, A, available
For given action, the mapping is stochastic (random)
Goal: Find the next action

Decision Theory
Uncertainty changes the decision making process
Involve both probability theory (deal with chances) and utility theory (deal with consequences)
Find :
Action that has maximum Expected Utility
Focus on single decision first, then come back to sequential decisions (MDP)

Maximum Expected Utility

Let A = {a 1, a2 , . . } be set of actions and O = {o 1, o2 , . . } be outcomes
When agent is faced with a single decision:

1. Compute probability of outcome given action a i

P (O j |a i )

2. Compute reward (utility) of outcome after taking a i

U (a i , o j )

3. Expected Utility:
EU (a i ) = ∑ P (O j |a i )U (a i , o j )
oj
4. Take the action with maximum EU
M EU = max EU (a i )

Markov Decision Problem

Defines by 5-tuples:

Symbol Meaning
S Set of states (e.g., locations, configurations)
A Set of actions the agent can take
T Transition model: T (s, a, s′) = Pr(s′ ∣ s, a) — probability of reaching state s′ from state s after taking action a
R Reward function:
R(s) - only current state

R(s, a) - current state and action

R(s, a, s′) — State, action & next state

γ Discount factor (0 ≤ γ ≤ 1) — how much future rewards are worth compared to immediate ones

Satisfy the Markov property

Local Markov Property:

A random variable X is independent of its non-descendants given ALL its parents * ONLY

X i ⊥Non-Descendants(X i )|Parents(X i )

- Terminology:
-Decision epoch --> steps
Can be finite or infinite horizon
- Terminal state: Do not allow any transitions out
MDP MEU
EU (s, a) = ∑ P (o j ∥a j )U (a i , o j ) Q(s, a) = ∑ P (s′∥s, a)[R(s, a, s′) + γV (s′)]
oj s′

M EU (s) V (s)

max EU (s, a) max Q(s, a)

Contextually, the probability of moving to next state depends only on the current state and action, not the full history
Aim: Calculate policy (strategy) that maximise the expected cumulative reward
π ∞ t
Value of a policy π : V (s) = E [∑ γ R(s t , π(s t ), s t+1 )]
t=0

Unlike traditional plans, it is not just a sequence of actions

it maximise expected utility over all state
types:
Stationary policy: same rule applied to each decision epoch
Non-stationary policy: Rule change over decision epoch
Deterministic policy: every rule always maps state to one action with absolute certainty

Optimal Policy: Value iteration

Initialise V 0
(s) = 0 for all state
Repeat these computation until convergence (reach optimal); ie ->V t
(s) and V t−1
(s) are very close
t t−1
Q (s, a) = ∑ P (s′|s, a)[R(s, a, s′) + γV (s′)]

s′

t−1
= r(s, a) + γ ∑ P (s′|s, a)V (s′)

s′

t 1
V (s) = max Q (s, a)

∗ t
π (s) = arg max Q (s, a)

For infinite horizon, optimal policy is stationary

Relative Density
No ratings yet
Relative Density
205 pages
C Language Apna College YT
No ratings yet
C Language Apna College YT
155 pages
Fractal Time Why A Watched Kettle Never Boils Studies of Nonlinear Phenomena in Life Science Susie Vrobel Download
No ratings yet
Fractal Time Why A Watched Kettle Never Boils Studies of Nonlinear Phenomena in Life Science Susie Vrobel Download
77 pages
242 Sheet 02 03
No ratings yet
242 Sheet 02 03
5 pages
AI Lec4 MarkovDecisionProcess&RL
No ratings yet
AI Lec4 MarkovDecisionProcess&RL
34 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
31 pages
08 MDPs
No ratings yet
08 MDPs
111 pages
Artificial Intelligence: Lecture 9 - Markov Decision Processes II Dr. Shivanjali Khare
No ratings yet
Artificial Intelligence: Lecture 9 - Markov Decision Processes II Dr. Shivanjali Khare
44 pages
Mathematics Assignment Term 3 by Ashhal Ayubi & Ayman Mondal
No ratings yet
Mathematics Assignment Term 3 by Ashhal Ayubi & Ayman Mondal
10 pages
Reinforcement Learning: Karan Kathpalia
No ratings yet
Reinforcement Learning: Karan Kathpalia
80 pages
W6 Monte Carlo Methods
No ratings yet
W6 Monte Carlo Methods
80 pages
ML CH 18 RL
No ratings yet
ML CH 18 RL
29 pages
MIT 6.036 Lecture
No ratings yet
MIT 6.036 Lecture
64 pages
08 MDPs
No ratings yet
08 MDPs
110 pages
Subtitle
No ratings yet
Subtitle
2 pages
Intro To AI
No ratings yet
Intro To AI
4 pages
Week 1
No ratings yet
Week 1
3 pages
Week 5
No ratings yet
Week 5
2 pages
(24F-COSE361) 5. Markov Decision Process
No ratings yet
(24F-COSE361) 5. Markov Decision Process
40 pages
RL Lecture4
No ratings yet
RL Lecture4
7 pages
Form 1 Term 2 Mathematics SOW 2024
No ratings yet
Form 1 Term 2 Mathematics SOW 2024
4 pages
Finite Markov Decision Processes-BR
No ratings yet
Finite Markov Decision Processes-BR
31 pages
2024 MDPs Part 1
No ratings yet
2024 MDPs Part 1
59 pages
RL-UNIT2 - RL Unit 2 RL-UNIT2 - RL Unit 2
No ratings yet
RL-UNIT2 - RL Unit 2 RL-UNIT2 - RL Unit 2
23 pages
Chapter17 1
No ratings yet
Chapter17 1
40 pages
Overview of Mathematics and Its Applications
No ratings yet
Overview of Mathematics and Its Applications
1 page
Lecture 06
No ratings yet
Lecture 06
98 pages
Week 6
No ratings yet
Week 6
7 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
1 page
Dushu # Unit-3, 4 Ru TK
No ratings yet
Dushu # Unit-3, 4 Ru TK
22 pages
Nips00 Bs
No ratings yet
Nips00 Bs
7 pages
2025 - MDPs - Part 2
No ratings yet
2025 - MDPs - Part 2
41 pages
CW1 Balancing of Rotating Masses
No ratings yet
CW1 Balancing of Rotating Masses
5 pages
Unit 4
No ratings yet
Unit 4
6 pages
Sp14 Cs188 Lecture 8 - Mdps I
No ratings yet
Sp14 Cs188 Lecture 8 - Mdps I
50 pages
Lecture7 MDPs I
No ratings yet
Lecture7 MDPs I
9 pages
Sinusoidal Steady State Circuit Analysis (3.1 Study The Ac Basic Circuits)
No ratings yet
Sinusoidal Steady State Circuit Analysis (3.1 Study The Ac Basic Circuits)
66 pages
PDF Unit-5 (Full Unit)
No ratings yet
PDF Unit-5 (Full Unit)
37 pages
PMSM
No ratings yet
PMSM
8 pages
Policy (RL IITH)
No ratings yet
Policy (RL IITH)
46 pages
Lec 09
No ratings yet
Lec 09
51 pages
10 ML Introduction To Reinforcement Learning
No ratings yet
10 ML Introduction To Reinforcement Learning
8 pages
07 Expectimax
No ratings yet
07 Expectimax
46 pages
Polynomials 03
No ratings yet
Polynomials 03
1 page
Goodwill and Dynamic Advertising Strateg
No ratings yet
Goodwill and Dynamic Advertising Strateg
38 pages
RL Basics 1737166593
No ratings yet
RL Basics 1737166593
30 pages
Trading Strategies Market Colour Ravi Kashyap 2018
No ratings yet
Trading Strategies Market Colour Ravi Kashyap 2018
26 pages
Lec17 ReinforcementLearning
No ratings yet
Lec17 ReinforcementLearning
58 pages
Untitled 1
No ratings yet
Untitled 1
2 pages
MDP PDF
No ratings yet
MDP PDF
37 pages
EE675 Lecture 10
No ratings yet
EE675 Lecture 10
4 pages
AVL Trees
No ratings yet
AVL Trees
41 pages
I2ml3e Chap18
No ratings yet
I2ml3e Chap18
27 pages
Reinforcement Learning Note
No ratings yet
Reinforcement Learning Note
16 pages
L12 Markov Decision Processes
No ratings yet
L12 Markov Decision Processes
64 pages
Intro To AI
No ratings yet
Intro To AI
4 pages
Unit 13: Bernoulli, Binomial, Geometric and Poisson Distributions and Their Applications
No ratings yet
Unit 13: Bernoulli, Binomial, Geometric and Poisson Distributions and Their Applications
4 pages
Why Are Complex Numbers Needed in Quantum Mechanics? Some Answers For The Introductory Level
No ratings yet
Why Are Complex Numbers Needed in Quantum Mechanics? Some Answers For The Introductory Level
8 pages
Markov Decision Processes: Stochastic, Sequential Environments
No ratings yet
Markov Decision Processes: Stochastic, Sequential Environments
20 pages
Nonlinear Solid Mechanics A Continuum Ap PDF
No ratings yet
Nonlinear Solid Mechanics A Continuum Ap PDF
2 pages
POMDP Tutoria POMDP - Tutoriall
No ratings yet
POMDP Tutoria POMDP - Tutoriall
55 pages
6.977 Networks and Dynamics: Professor, Vdb@mit - Edu Professor, Verghese@mit - Edu
No ratings yet
6.977 Networks and Dynamics: Professor, Vdb@mit - Edu Professor, Verghese@mit - Edu
39 pages
An Introduction To Reinforcement Learning From Theory To Algorithms (December 19, 2024) - Joon Kwon
No ratings yet
An Introduction To Reinforcement Learning From Theory To Algorithms (December 19, 2024) - Joon Kwon
66 pages
DSA5102 Lecture11
No ratings yet
DSA5102 Lecture11
44 pages
Exam Prep Exercises034534123124
No ratings yet
Exam Prep Exercises034534123124
20 pages
RPT Math DLP Year 2 (2025)
No ratings yet
RPT Math DLP Year 2 (2025)
17 pages
M 2
No ratings yet
M 2
12 pages
Lect28 4up
No ratings yet
Lect28 4up
11 pages
Seismic Sensor
100% (4)
Seismic Sensor
47 pages
Problem 1 017
No ratings yet
Problem 1 017
3 pages
Reinforcement Learning Cheatsheet
No ratings yet
Reinforcement Learning Cheatsheet
16 pages
Intro To AI
No ratings yet
Intro To AI
11 pages
Catalogo Erico Pararrayos Dinasphere
100% (1)
Catalogo Erico Pararrayos Dinasphere
6 pages
A Natural Asymmetry in Electrical Systems With Far-Reaching Consequences
No ratings yet
A Natural Asymmetry in Electrical Systems With Far-Reaching Consequences
4 pages
Unit-4 of Ai
No ratings yet
Unit-4 of Ai
9 pages
A17 Complexdecisions
No ratings yet
A17 Complexdecisions
28 pages
Reams Black June 271977
100% (4)
Reams Black June 271977
195 pages
Machine Learning
No ratings yet
Machine Learning
5 pages
13094107901309410729BS App Geology
No ratings yet
13094107901309410729BS App Geology
49 pages
22 Reinforcement Learning
No ratings yet
22 Reinforcement Learning
18 pages
Lecture 3 - MDPs and Dynamic Programming
No ratings yet
Lecture 3 - MDPs and Dynamic Programming
66 pages
Reinforcement Learning Cheat Sheet: Return
No ratings yet
Reinforcement Learning Cheat Sheet: Return
7 pages
(Partially Observable) Markov Decision Processes: Frederike Petzschner & Lionel Rigoux
No ratings yet
(Partially Observable) Markov Decision Processes: Frederike Petzschner & Lionel Rigoux
19 pages
Sp14 Cs188 Lecture 9 - Mdps II
No ratings yet
Sp14 Cs188 Lecture 9 - Mdps II
48 pages
ISYE 2028 Chapter 8 Solutions
100% (2)
ISYE 2028 Chapter 8 Solutions
41 pages
Markovian Decision Process
No ratings yet
Markovian Decision Process
27 pages
Markov Decision Process
No ratings yet
Markov Decision Process
21 pages
AI Notes
No ratings yet
AI Notes
37 pages
ML Unit 4
No ratings yet
ML Unit 4
9 pages
Fluid Mechanics HW2
No ratings yet
Fluid Mechanics HW2
3 pages
02 MarkovDecisionProcess
No ratings yet
02 MarkovDecisionProcess
51 pages
Markov Decision Processes and Exact Solution Methods
No ratings yet
Markov Decision Processes and Exact Solution Methods
34 pages
New CZ3005 Module 4 - Markov Decision Process
No ratings yet
New CZ3005 Module 4 - Markov Decision Process
38 pages
Solution Manual For Trigonometry 3rd Edition by Young
No ratings yet
Solution Manual For Trigonometry 3rd Edition by Young
90 pages
M Stage 8 p110 02 Afp PDF
67% (3)
M Stage 8 p110 02 Afp PDF
14 pages
Masters in Public Administration Course of Study Curriculum
100% (1)
Masters in Public Administration Course of Study Curriculum
15 pages
Student Solutions Manual to Accompany Economic Dynamics in Discrete Time, secondedition
From Everand
Student Solutions Manual to Accompany Economic Dynamics in Discrete Time, secondedition
Yue Jiang
4.5/5 (2)

Into To Ai

Uploaded by

Into To Ai

Uploaded by

week 10

Maximum Expected Utility

1. Compute probability of outcome given action a i

2. Compute reward (utility) of outcome after taking a i

Markov Decision Problem

R(s, a) - current state and action

R(s, a, s′) — State, action & next state

Satisfy the Markov property

Local Markov Property:

max EU (s, a) max Q(s, a)

Unlike traditional plans, it is not just a sequence of actions

Optimal Policy: Value iteration

For infinite horizon, optimal policy is stationary

You might also like