Open navigation menu

Scribd

0% found this document useful (0 votes)

7 views18 pages

Lecture 35 36 - Exploration vs. Exploitation

The document outlines the agenda for lectures 35 and 36 of the AI-832 Reinforcement Learning course, focusing on the exploration vs. exploitation dilemma. It covers various concepts such as the multi-armed bandit problem, regret, and different algorithms like the greedy and epsilon-greedy algorithms. Key principles discussed include optimism in the face of uncertainty and upper confidence bounds.

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

7 views18 pages

Lecture 35 36 - Exploration vs. Exploitation

The document outlines the agenda for lectures 35 and 36 of the AI-832 Reinforcement Learning course, focusing on the exploration vs. exploitation dilemma. It covers various concepts such as the multi-armed bandit problem, regret, and different algorithms like the greedy and epsilon-greedy algorithms. Key principles discussed include optimism in the face of uncertainty and upper confidence bounds.

Uploaded by

Copyright

© © All Rights Reserved

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 18

AI-832 Reinforcement Learning

Instructor: Dr. Zuhair Zafar

Lecture # 35 & 36: Exploration vs. Exploitation

Recap

• Model Based Reinforcement Learning

Today’s Agenda

• Exploitation vs Exploration
Exploration vs. Exploitation Dilemma
Examples
Principles
The Multi-Armed Bandit
Regret
Counting Regret
Linear or Sublinear Regret
Greedy Algorithm
Optimistic Initialization
Epsilon-Greedy Algorithm
Decaying Epsilon-Greedy Algorithm
Lower Bound
Optimism in the Face of Uncertainty
Optimism in the Face of Uncertainty
Upper Confidence Bounds

You might also like

Reinforcement Learning - Chapter 2
100% (1)
Reinforcement Learning - Chapter 2
22 pages
Ideai Reinforcement Learning
No ratings yet
Ideai Reinforcement Learning
167 pages
Reinforcement Learning
100% (1)
Reinforcement Learning
64 pages
RL Unit
No ratings yet
RL Unit
595 pages
RLbook Solutions Manual
100% (1)
RLbook Solutions Manual
35 pages
RL-Endterm Report - Mridul Agarwal
No ratings yet
RL-Endterm Report - Mridul Agarwal
27 pages
Bandit
No ratings yet
Bandit
8 pages
Unit:1 Reinforcement Learning
No ratings yet
Unit:1 Reinforcement Learning
9 pages
1) Algs & Theory Overview 3) Systems For Going Right 4) Really Doing It in Practice
No ratings yet
1) Algs & Theory Overview 3) Systems For Going Right 4) Really Doing It in Practice
54 pages
Lecture 9: Exploration and Exploitation: David Silver
No ratings yet
Lecture 9: Exploration and Exploitation: David Silver
47 pages
20 Q Learning 29 04 2024
No ratings yet
20 Q Learning 29 04 2024
29 pages
Reinforcement Learning: By: Chandra Prakash IIITM Gwalior
No ratings yet
Reinforcement Learning: By: Chandra Prakash IIITM Gwalior
64 pages
1.RL Unit 1
No ratings yet
1.RL Unit 1
47 pages
A12-Online Learning Short 2020
No ratings yet
A12-Online Learning Short 2020
61 pages
Exploration Exploitation
No ratings yet
Exploration Exploitation
40 pages
Multi Armed Bandits
No ratings yet
Multi Armed Bandits
34 pages
RL Ese Answers
No ratings yet
RL Ese Answers
22 pages
1、Bayesian Q-learning（1998）
No ratings yet
1、Bayesian Q-learning（1998）
8 pages
Reinforcement Learning: Exploration (Part 1)
No ratings yet
Reinforcement Learning: Exploration (Part 1)
46 pages
Introduction To Bandits: (Some Slides Stolen From Csaba's AAAI Tutorial)
No ratings yet
Introduction To Bandits: (Some Slides Stolen From Csaba's AAAI Tutorial)
16 pages
Dissecting Reinforcement Learning-Part6
No ratings yet
Dissecting Reinforcement Learning-Part6
25 pages
AS01
No ratings yet
AS01
14 pages
DLMAIRIL01 Q4-2024 Session3
No ratings yet
DLMAIRIL01 Q4-2024 Session3
47 pages
Mod6 Slides
No ratings yet
Mod6 Slides
105 pages
16 - Reinforcement Learning and Bandits
No ratings yet
16 - Reinforcement Learning and Bandits
41 pages
Reinforcement Learning B.Tech. IV Year I Sem. Unit - I
No ratings yet
Reinforcement Learning B.Tech. IV Year I Sem. Unit - I
27 pages
Azar 17 A
No ratings yet
Azar 17 A
10 pages
Q1. Explain The Multi-Armed Bandit Problem and Its Key Characteristics. Illustrate Their Real-World Applications
No ratings yet
Q1. Explain The Multi-Armed Bandit Problem and Its Key Characteristics. Illustrate Their Real-World Applications
11 pages
Unit - 1: Probability Linear Algebra
No ratings yet
Unit - 1: Probability Linear Algebra
20 pages
Unit Iv-1
No ratings yet
Unit Iv-1
32 pages
EE675A Lecture 3
No ratings yet
EE675A Lecture 3
8 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
28 pages
ECE-517: Reinforcement Learning in Artificial Intelligence: Lecture 2: Evaluative Feedback (Exploration vs. Exploitation)
No ratings yet
ECE-517: Reinforcement Learning in Artificial Intelligence: Lecture 2: Evaluative Feedback (Exploration vs. Exploitation)
23 pages
RL Unit5
No ratings yet
RL Unit5
101 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
136 pages
RL Mid-1 Bit Bank
No ratings yet
RL Mid-1 Bit Bank
10 pages
Auer - Using Ucb For Exploration-Exploitation Tradeoffs
No ratings yet
Auer - Using Ucb For Exploration-Exploitation Tradeoffs
26 pages
26202-Article Text-30265-1-2-20230626
No ratings yet
26202-Article Text-30265-1-2-20230626
8 pages
RL Unit 1 - QA
No ratings yet
RL Unit 1 - QA
10 pages
Unit II
No ratings yet
Unit II
10 pages
Multi-Armed Bandit Algorithms and Empirical Evaluation
No ratings yet
Multi-Armed Bandit Algorithms and Empirical Evaluation
12 pages
Lecture 2 EE675
No ratings yet
Lecture 2 EE675
4 pages
Experiment 6
No ratings yet
Experiment 6
7 pages
Reinforcement Learning 1
No ratings yet
Reinforcement Learning 1
11 pages
17 ThompsonSampling
No ratings yet
17 ThompsonSampling
24 pages
cs188 sp23 Note14
No ratings yet
cs188 sp23 Note14
2 pages
Lecture 1: Introduction: Lecturer: Prof. Subrahmanya Swamy Peruru Scribe: Harshvardhan Arya - Rishabh Katiyar
No ratings yet
Lecture 1: Introduction: Lecturer: Prof. Subrahmanya Swamy Peruru Scribe: Harshvardhan Arya - Rishabh Katiyar
4 pages
FALLSEM2024-25 BCSE209L TH VL2024250101717 2024-11-07 Reference-Material-I
No ratings yet
FALLSEM2024-25 BCSE209L TH VL2024250101717 2024-11-07 Reference-Material-I
25 pages
Written Assignment 1
No ratings yet
Written Assignment 1
2 pages
Report
No ratings yet
Report
4 pages
Reinforcement Learning
No ratings yet
Reinforcement Learning
32 pages
Machine - Learning - Chapter 4
No ratings yet
Machine - Learning - Chapter 4
13 pages
Data Challenge - NC Soft
No ratings yet
Data Challenge - NC Soft
4 pages
1.3 Exploration vs. Exploitation Tradeoff
No ratings yet
1.3 Exploration vs. Exploitation Tradeoff
20 pages
Stateless Algorithms in Reinforcement Learning
No ratings yet
Stateless Algorithms in Reinforcement Learning
4 pages
Mid Term Report SoS
No ratings yet
Mid Term Report SoS
18 pages
Contextual Bandits
No ratings yet
Contextual Bandits
34 pages
Reinforcement Learning: A Short Cut
No ratings yet
Reinforcement Learning: A Short Cut
7 pages
RL Unit1 Notes
No ratings yet
RL Unit1 Notes
21 pages
Lecture 34 - Model Based Reinforcement Learning
No ratings yet
Lecture 34 - Model Based Reinforcement Learning
26 pages
Lecture W5ab
No ratings yet
Lecture W5ab
56 pages
Lecture W3
No ratings yet
Lecture W3
28 pages
Lecture W7ab
No ratings yet
Lecture W7ab
21 pages
CS-878 Lecture-02 Logistic Regression
No ratings yet
CS-878 Lecture-02 Logistic Regression
55 pages
Eigen Values and Eigen Vectors
No ratings yet
Eigen Values and Eigen Vectors
53 pages
Lesson 8-Image Segmentation - Traditional Approaches
No ratings yet
Lesson 8-Image Segmentation - Traditional Approaches
35 pages
Lecture W6b
No ratings yet
Lecture W6b
33 pages
Lecture 14 15 - Temporal Difference Learning, Lambda-Return, Backward View of TD (Lambda)
No ratings yet
Lecture 14 15 - Temporal Difference Learning, Lambda-Return, Backward View of TD (Lambda)
26 pages
Lecture 11 12 - Model Free Prediction, Monte-Carlo Learning, Temporal Difference Learning
No ratings yet
Lecture 11 12 - Model Free Prediction, Monte-Carlo Learning, Temporal Difference Learning
24 pages
Self Reading - KNN - Notes
No ratings yet
Self Reading - KNN - Notes
7 pages
Lecture 22 - Value Function Approximation
No ratings yet
Lecture 22 - Value Function Approximation
17 pages
Lecture 19 - Model-Free Control, Off-Policy Learning
No ratings yet
Lecture 19 - Model-Free Control, Off-Policy Learning
9 pages