An Introduction to Deep Reinforcement Learning
An Introduction to Deep Reinforcement Learning
An Introduction to Deep
Reinforcement Learning
Vincent François-Lavet, Peter Henderson, Riashat Islam, Marc G. Bellemare and Joelle
Pineau (2018), “An Introduction to Deep Reinforcement Learning”, Foundations and
Trends in Machine Learning: Vol. 11, No. 3-4. DOI: 10.1561/2200000071.
Boston — Delft
日 3 月 21 年 8102 ]GL.sc[ 2v06521.1181:viXra
深度强化学习简介
Vincent François-Lavet、Peter Henderson、Riashat Islam、Marc G. Bellemare 和 Joelle
Pineau (2018),《深度强化学习导论》,《机器学习基础与趋势》:第 11 卷,第 3-4 期。doi:
10.1561/2200000071.
文森特-弗朗索瓦-拉韦特 彼得-亨德森
麦吉尔大学 麦吉尔大学
vincent.francois- peter.henderson
[email protected]伊斯兰 @mail.mcgill.ca
马克-贝勒马尔
麦吉尔大学 谷歌大脑
riashat.islam@m bellemare@
ail.mcgill.ca 乔埃勒-皮诺 google.com
Facebook, 麦吉尔大学
[email protected]
波士顿 - 代尔夫特
Contents
1 Introduction 2
1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Outline . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1 导言 2
1.1 动机 2
1.2 概要 3
2 机器学习和深度学习 6
2.1 监督学习以及偏差和过拟合的概念 7
2.2 无监督学习 9
2.3 深度学习方法 10
3 强化学习简介 15
3.1 正式框架 16
3.2 学习政策的不同组成部分 20
3.3 从数据中学习政策的不同设置 21
4 基于价值的深度 RL 方法 24
4.1 Q-learning 24
4.2 适合的 Q-learning 25
4.3 深度 Q 网络 27
4.4 双 DQN 28
4.5 决斗网络架构 29
4.6 分布式 DQN 31
4.7 多步骤学习 32
4.8 Combination of all DQN improvements and variants of DQN 34
9 Benchmarking Deep RL 73
9.1 Benchmark Environments . . . . . . . . . . . . . . . . . . 73
9.2 Best practices to benchmark deep RL . . . . . . . . . . . 78
9.3 Open-source software for Deep RL . . . . . . . . . . . . . 80
6 基于模型的深度 RL 方法 46
6.1 基于模型的纯粹方法 46
6.2 整合无模型方法和基于模型的方法 49
7 概括的概念 53
7.1 特征选择 58
7.2 学习算法的选择和函数近似值的选择
59
7.3 修改目标函数 61
7.4 分层学习 62
7.5 如何获得偏差与拟合之间的最佳平衡 63
8 在线环境中的特殊挑战 66
8.1 勘探/开发的两难选择 66
8.2 管理经验回放 71
9 深度 RL 基准 73
9.1 基准环境 73
9.2 以深度 RL 为基准的最佳做法 78
9.3 用于深度 RL 的开源软件 80
10 超越 MDP 的深度强化学习 81
10.1 部分可观测性和(相关)MDP 的分布 81
10.2 迁移学习 86
10.3 无明确奖励函数的学习 89
10.4 多代理系统 91
11 Perspectives on deep reinforcement learning 94
11.1 Successes of deep reinforcement learning . . . . . . . . . . 94
11.2 Challenges of applying reinforcement learning to real-world
problems . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
11.3 Relations between deep RL and neuroscience . . . . . . . . 96
12 Conclusion 99
12.1 Future development of deep RL . . . . . . . . . . . . . . . 99
12.2 Applications and societal impact of deep RL . . . . . . . . 100
Appendices 103
References 106
11 深度强化学习的前景 94
11.1 深度强化学习的成功经验 94
11.2 将强化学习应用于实际问题的挑战
95
11.3 深度学习与神经科学的关系 96
12 结论 99
12.1 深度制冷系统的未来发展 99
12.2 深度制冷的应用和社会影响 100
附录 103
参考资料 106
An Introduction to Deep
Reinforcement Learning
Vincent François-Lavet1, Peter Henderson2, Riashat Islam3 , Marc
G. Bellemare4 and Joelle Pineau5
1
McGill University; [email protected]
2
McGill University; [email protected]
3
McGill University; [email protected]
4
Google Brain; [email protected]
5
Facebook, McGill University; [email protected]
ABSTRACT
Deep reinforcement learning is the combination of reinforce-
ment learning (RL) and deep learning. This field of research
has been able to solve a wide range of complex decision-
making tasks that were previously out of reach for a machine.
Thus, deep RL opens up many new applications in domains
such as healthcare, robotics, smart grids, finance, and many
more. This manuscript provides an introduction to deep
reinforcement learning models, algorithms and techniques.
Particular focus is on the aspects related to generalization
and how deep RL can be used for practical applications. We
assume the reader is familiar with basic machine learning
concepts.
深度强化学习简介
Vincent François-Lavet, Peter Henderson, Riashat Islam, Marc G.
Bellemareand Joelle Pineau
1
2
麦吉尔大学; [email protected]
McGill University; [email protected]
3
麦吉尔大学;
重试 错误原因 [email protected]
4
谷歌大脑;[email protected]
5
Facebook, 麦吉尔大学; [email protected]
摘要
深度强化学习是强化学习(RL)和深度学习的结合。这一研究领
域已经能够解决以前机器无法完成的各种复杂决策任务。因此,
深度强化学习为医疗保健、机器人、智能电网、金融等领域带来
了许多新应用。本手稿介绍了深度强化学习模型、算法和技术。
特别关注与泛化相关的方面,以及如何将深度强化学习用于实际
应用。我们假定读者熟悉基本的机器学习概念。
1
Introduction
1.1 Motivation
2
1
导言
1.1动机
机器学习的一个核心课题是顺序决策。这是一项在不确定的环境中根据经验决
定行动顺序以实现某些目标的任务。顺序决策任务涵盖了广泛的可能应用,有
可能对机器人、医疗保健、智能电网、金融、自动驾驶汽车等许多领域产生影
响。
受行为心理学的启发(如萨顿,1984 年),强化学习(RL)为这一问题提出
了一个正式的框架。其主要思想是,人工代理可以通过与环境互动来学习,这
与生物代理类似。利用收集到的经验,人工代理应该能够优化以累积奖励形式
给出的某些目标。这种方法原则上适用于任何依赖过去经验的连续决策问题。
环境可能是随机的,代理可能只能观察到当前状态的部分信息,观察结果可能
是高维的(如帧和时间序列),代理可能在环境中自由地收集经验,或者相
反,数据可能是低维的。
2
1.2. Outline 3
1.2 Outline
可能会受到限制(如无法获得精确的模拟器或数据有限)。
在过去几年中,RL 因其在解决具有挑战性的连续决策问题方面的成功而越来
越受欢迎。其中一些成就归功于 RL 与深度学习技术的结合(LeCun 等人,
2015 年;Schmidhuber,2015 年;Goodfellow 等人,2016 年)。这种结合
被称为深度 RL,在处理高维状态空间的问题时最为有用。以往的 RL 方法在特
征选择方面存在设计难题(Munos 和 Moore,2002 年;Bellemare 等人,
2013 年)。然而,由于深度 RL 能够从数据中学习不同层次的抽象概念,因此
它能成功完成先验知识较少的复杂任务。例如,深度 RL 代理可以成功地从由
数千像素组成的视觉感知输入中学习(Mnih 等人,2015 年)。这就为模仿人
类的某些问题解决能力提供了可能,即使是在高维空间中--这在几年前还是难
以想象的。
在游戏中使用深度 RL 的几项著名工作已经脱颖而出,从像素数据玩雅达利游
戏(Mnih 等人,2015 年)、掌握围棋(Silver 等人,2016 年 a)或在扑克游
戏中击败世界顶级职业选手(Brown 和 Sandholm,2017 年;Moravčik 等
人,2017 年)都达到了超人水平。深度 RL 在现实世界的应用也很有潜力,例
如机器人技术(Levine 等人,2016 年;Gandhi 等人,2017 年;Pinto 等人,
2017 年)、自动驾驶汽车(You 等人,2017 年)、金融(Deng 等人,2017 年)
和智能电网(François-Lavet,2017 年)等等。然而,在应用深度 RL 算法的
过程中也遇到了一些挑战。其中,高效地探索环境或在稍有不同的环境中概括
良好的行为并不简单。因此,根据顺序决策任务的各种设置,人们为深度 RL
框架提出了大量算法。
1.2概要
这本深度 RL 入门旨在引导读者有效使用和理解核心方法,并提供以下内容
4 Introduction
references for further reading. After reading this introduction, the reader
should be able to understand the key different deep RL approaches and
algorithms and should be able to apply them. The reader should also
have enough background to investigate the scientific literature further
and pursue research on deep RL.
In Chapter 2, we introduce the field of machine learning and the deep
learning approach. The goal is to provide the general technical context
and explain briefly where deep learning is situated in the broader field
of machine learning. We assume the reader is familiar with basic notions
of supervised and unsupervised learning; however, we briefly review the
essentials.
In Chapter 3, we provide the general RL framework along with
the case of a Markov Decision Process (MDP). In that context, we
examine the different methodologies that can be used to train a deep
RL agent. On the one hand, learning a value function (Chapter 4)
and/or a direct representation of the policy (Chapter 5) belong to the
so-called model-free approaches. On the other hand, planning algorithms
that can make use of a learned model of the environment belong to the
so-called model-based approaches (Chapter 6).
We dedicate Chapter 7 to the notion of generalization in RL.
Within either a model-based or a model-free approach, we discuss the
importance of different elements: (i) feature selection, (ii) function
approximator selection, (iii) modifying the objective function and
(iv) hierarchical learning. In Chapter 8, we present the main challenges of
using RL in the online setting. In particular, we discuss the exploration-
exploitation dilemma and the use of a replay memory.
In Chapter 9, we provide an overview of different existing bench-
marks for evaluation of RL algorithms. Furthermore, we present a set
of best practices to ensure consistency and reproducibility of the results
obtained on the different benchmarks.
In Chapter 10, we discuss more general settings than MDPs: (i) the
Partially Observable Markov Decision Process (POMDP), (ii) the
distribution of MDPs (instead of a given MDP) along with the notion
of transfer learning, (iii) learning without explicit reward function and
(iv) multi-agent systems. We provide descriptions of how deep RL can
be used in these settings.
4 导言
进一步阅读参考文献。阅读完本简介后,读者应该能够理解主要的不同深度
RL 方法和算法,并能够应用它们。读者还应该具备足够的背景知识,以便进
一步查阅科学文献,开展深度 RL 研究。
在第 2 章中,我们将介绍机器学习领域和深度学习方法。目的是提供一般技
术背景,并简要解释深度学习在更广泛的机器学习领域中的位置。我们假定
读者熟悉有监督和无监督学习的基本概念;不过,我们将简要回顾其要点。
在第 3 章中,我们以马尔可夫决策过程(Markov Decision Process,MDP)
为例,介绍了一般 RL 框架。在此背景下,我们研究了可用于训练深度 RL 代
理的不同方法。一方面,学习值函数(第 4 章)和/或直接表示策略(第 5
章)属于所谓的无模型方法。另一方面,能够利用所学环境模型的规划算法
属于所谓的基于模型的方法(第 6 章)。
在第 9 章中,我们概述了用于评估 RL 算法的各种现有基准。此外,我们还提
出了一套最佳实践,以确保在不同基准上获得的结果具有一致性和可重复性。
在第 11 章中,我们将从更广阔的视角介绍深度 RL。这包括讨论深度 RL 在各
个领域的应用,以及取得的成功和面临的挑战(如机器人、自动驾驶汽车、
智能电网、医疗保健等)。此外,还简要讨论了深度 RL 与神经科学之间的关
系。
最后,我们在第 12 章中对深度 RL 技术的未来发展、未来应用以及深度 RL 和
人工智能的社会影响进行了展望。
2
Machine learning and deep learning
6
2
机器学习和深度学习
机器学习提供的自动化方法可以检测数据中的模式,并利用这些模式完成某些
任务(Christopher,2006;Murphy,2012)。机器学习任务可分为三类:
• 监督学习是从标注的训练数据中推断分类或回归的任务。
• 无监督学习是指从由无标签响应的输入数据组成的数据集中得出推论的
任务。
• 强化学习(RL)的任务是学习代理应如何在环境中采取一系列行动,以
最大限度地提高累积奖励。
要解决这些机器学习任务,函数近似器的思想是机器学习的核心。目前存在许
多不同类型的函数近似器:线性模型(Anderson 等人,1958 年)、SVM
(Cortes 和 Vapnik,1995 年)、决策树(Liaw、Wiener 等人,2002 年;
Geurts 等人,2006 年)、高斯过程(Rasmussen,2004 年)、深度学习
(LeCun 等人,2015 年;Schmidhuber,2015 年;Goodfellow 等人,2016
年)等。
6
2.1. Supervised learning and the concepts of bias and overfitting 7
y = f (x). (2.1)
近年来,主要由于深度学习的最新发展,机器学习在学习时间序列、图像和视
频等高维数据方面取得了巨大进步。这些改进与以下几个方面有关:(i) GPU
和分布式计算的使用使计算能力呈指数级增长(Krizhevsky 等人,2012 年),
(ii) 深度学习方法上的突破(Srivastava 等人,2014 年;Ioffe 和 Szegedy,
2015 年;He 等人,2015 年)、2014;Ioffe 和 Szegedy,2015;He 等人,
2016;Szegedy 等人,2016;Klambauer 等人,2017),(iii) Tensorflow 等
软件(Abadi 等人,2016)和 ImageNet 等数据集(Russakovsky 等人,
2015)的生态不断壮大。所有这些方面都是相辅相成的,在过去几年中,它们
为深度学习的发展带来了良性循环。
在本章中,我们将讨论有监督学习环境以及偏差和过拟合的关键概念。我们简
要讨论了无监督环境下的任务,如数据压缩和生成模型。我们还介绍了已成为
整个机器学习领域关键的深度学习方法。利用本章介绍的概念,我们将在后面
的章节中介绍强化学习设置。
2.1监督学习以及偏差和过度拟合的概念
监督学习最抽象的形式是找到一个函数 f : X → Y,将 x∈X 作为输入,将 y∈Y
作为输出(X 和 Y 取决于应用):
y = f (x)。 (2.1)
I[f ] = EE
D
E
Y |X
L(Y, f (X | D))、 (2.2)
8 Machine learning and deep learning
where L (·, ·) is the loss function. If L (y, ŷ) = (y − ŷ) 2 , the error
decomposes naturally into a sum of a bias term and a variance term1.
This bias-variance decomposition can be useful because it highlights a
tradeoff between an error due to erroneous assumptions in the model
selection/learning algorithm (the bias) and an error due to the fact that
only a finite set of data is available to learn that model (the parametric
variance). Note that the parametric variance is also called the overfitting
error2. Even though there is no such direct decomposition for other loss
functions (James, 2003), there is always a tradeoff between a sufficiently
rich model (to reduce the model bias, which is present even when the
amount of data would be unlimited) and a model not too complex (so as
to avoid overfitting to the limited amount of data). Figure 2.1 provides
an illustration.
Without knowing the joint probability distribution, it is impossible
to compute I [f ]. Instead, we can compute the empirical error on a
sample of data. Given n data points (x i , yi ), the empirical error is
1 ∑n
I S [f ] = L (yi , f (x i )).
n i =1
G = I [f ] − I S [f ].
1
The bias-variance decomposition (Geman et al., 1992) is given by:
2 2 2
E E (Y − f (X | D LS )) = σ (x) + bias (x), (2.3)
D LS Y | X
where
( )2
bias2 (x) , EY | x (Y ) − ED LS f (x | D LS ) ,
( )2 ( )2
2
σ (x) , EY | x Y − EY | x (Y ) + ED LS f (x | D LS ) − ED LS f (x | D LS ) , (2.4)
︸ ︷︷ ︸ ︸ ︷︷ ︸
Internal variance
Parametric variance
2
For any given model, the parametric variance goes to zero with an arbitrary
large dataset by considering the strong law of convergence.
8 机器学习和深度学习
其中 L(-, -) 是损失函数。如果 L(y, ˆy) = (y - ˆy),误差自然分解为偏差项和方
差项之和。这种偏差-方差分解非常有用,因为它突出了由于模型选择/学习算
法中的错误假设而造成的误差(偏差)和由于只有有限的数据集可用于学习模
型而造成的误差(参数方差)之间的权衡。请注意,参数方差也称为过拟合误
差。尽管其他损失函数没有这样的直接分解(James,2003 年),但在一个足
够丰富的模型(以减少模型偏差,即使数据量是无限的)和一个不太复杂的模
型(以避免对有限数据量的过度拟合)之间,总是存在一个权衡。图 2.1 举例
说明。
泛化误差是样本集(用于训练)误差与基础联合概率分布误差之间的差值。其
定义为
G = I[f ] - I[f ]。
1
偏差-方差分解法(Geman 等人,1992 年)的计算公式为
E E (Y - f (X | D))= σ(x) + bias(x)、 (2.3)
DLS Y |X
其中
( )
偏差(x) 、 E(Y ) - Ef (x | D) ,
( ) ( )
Y - E(Y ) f (x | D) - Ef (x | D)
︸ ︷︷ ︸
σ(x) , E +E , (2.4)
内部差异
︸
参数方差
︷︷ ︸
对于任何给定模型,通过考虑强收敛定律,参数方差在任意大数据集上都会归零。
2
2.2. Unsupervised learning 9
y
x x x
Figure 2.1: Illustration of overfitting and underfitting for a simple 1D regression task
in supervised learning (based on one example from the library scikit-learn (Pedregosa
et al., 2011)). In this illustration, the data points (x, y) are noisy samples from a
true function represented in green. In the left figure, the degree 1 approximation is
underfitting, which means that it is not a good model, even for the training samples;
on the right, the degree 10 approximation is a very good model for the training
samples but is overly complex and fails to provide a good generalization.
y
x x x
在机器学习中,函数近似值的复杂度为泛化误差提供了上限。泛化误差可以通
过使用复杂度度量来限定,如 Rademacher 复杂度(Bartlett 和
Mendelson,2002 年)或 VC 维度(Vapnik,1998 年)。然而,尽管缺乏坚实
的理论基础,但在实践中,深度神经网络的优势显然在于其泛化能力,即使参
数数量较多(因此复杂度可能较高)也不例外(Zhang 等人,2016 年)。
2.2无监督学习
无监督学习是机器学习的一个分支,它从没有任何标签的数据中学习。它涉
及使用和识别数据中的模式,以完成数据压缩或生成模型等任务。
数据压缩或降维涉及使用比原始表示更小的表示(如更少的比特)对信息进
行编码。例如,自动编码器由编码器和解码器组成。编码器将原始图像 x∈R
10 Machine learning and deep learning
生成模型旨在逼近训练集的真实数据分布,从而从分布中生成新的数据点。生
成式对抗网络(Goodfellow 等人,2014 年)采用对抗过程,即模拟训练两个
模型:生成式模型 G 捕捉数据分布,而判别式模型 D 估计样本是否来自训练数
据而非 G。
2.3 深度学习方法
深度学习依赖于一个函数 f : X → Y,其参数为
θ∈R(n∈N):
y = f (x; θ). (2.5)
深度神经网络的特点是连续多个处理层。每一层都由非线性变换组成,这些变
换的顺序导致学习不同层次的抽象(Erhan 等人,2009 年;Olah 等人,2017
年)。
首先,让我们描述一个非常简单的神经网络,它有一个全连接的隐藏层(见图
2.2)。第一层以大小为 n(n∈ N)的列向量形式给出输入值(即输入特征)
x。下一隐藏层的值是这些值通过非线性参数函数进行的变换,即大小为 n× n
(n∈ N)的 W 的矩阵乘法,加上大小为 n 的偏置项 bo,然后再进行非线性变
换:
其中 A 是激活函数。这种非线性激活函数使得每一层的变换都是非线性的,最
终提供了神经网络的表现力。隐藏层 h
2.3. The deep learning approach 11
Hidden Output
Inputs
layer layer
x
h y
θ ← θ − α∇ θI S [f ], (2.8)
在这种情况下,大小 n 可以依次转换为其他值集,直至最后一次转换,以提供
输出值 y:
y = (W- h + b)、 (2.7)
图 2.2:单隐层神经网络示例
所有这些层的训练都是为了最小化经验误差 I[f]。优化神经网络参数的最常用
方法是通过反向传播算法进行梯度下降。在最简单的情况下,算法在每次迭代
时都会改变其内部参数 θ,以拟合所需的函数:
θ ← θ - α∇I[f ]、 (2.8)
其中,α 是学习率。
在当前的应用中,除了刚才介绍的简单前馈网络外,还出现了许多不同类型的
神经网络层。根据不同的应用,每种变化都具有特定的优势(例如,在监督学
习设置中,偏差和过拟合之间的良好权衡)。此外,在一个给定的神经网络
中,可以有任意多的层数,其发展趋势是
12 Machine learning and deep learning
输出特征图
输入图像或输入特征
图 过滤
10
01
1 0 0 0 0 0 0 0 0 0 0 1
0 1 0 0 0 0 0 0 0 0 1 0
0 0 1 0 0 0 0 0 0 1 0 0
0 0 0 1 0 0 0 0 1 0 0 0
0 0 0 0 1 0 0 1 0 0 0 0
0 0 0 0 0 1 1 0 0 0 0 0
0 0 0 0 0 1 1 0 0 0 0 0
0 0 0 0 1 0 0 1 0 0 0 0
0 0 0 1 0 0 0 0 1 0 0 0 0
0 0 1 0 0 0 0 0 0 1 0 0 2
0 1 0 0 0 0 0 0 0 0 1 0
1 0 0 0 0 0 0 0 0 0 0 1
图 2.3:卷积层的示意图,一个输入特征图经过不同的滤波器卷积后产生输出特征图。这种卷积层
所学习的参数是滤波器的参数。为便于说明,图中显示的是一个输出特征图与一个给定滤波器的
一些结果(在实际操作中,该操作之后会有一个非线性激活函数)。
2.3. The deep learning approach 13
yt− 2 yt − 1 yt y1 y2 y3 yt− 1 yt
h = h h h ... h h
xt− 2 xt − 1 xt x1 x2 x3 xt− 1 xt
Figure 2.4: Illustration of a simple recurrent neural network. The layer denoted
by "h" may represent any non linear function that takes two inputs and provides
two outputs. On the left is the simplified view of a recurrent neural network that
is applied recursively to (x t , yt ) for increasing values of t and where the blue line
presents a delay of one time step. On the right, the neural network is unfolded with
the implicit requirement of presenting all inputs and outputs simultaneously.
Recurrent layers are particularly well suited for sequential data (see
Fig 2.4). Several different variants provide particular benefits in different
settings. One such example is the long short-term memory network
(LSTM) (Hochreiter and Schmidhuber, 1997), which is able to encode
information from long sequences, unlike a basic recurrent neural network.
Neural Turing Machines (NTMs) (Graves et al., 2014) are another such
example. In such systems, a differentiable "external memory" is used
for inferring even longer-term dependencies than LSTMs with low
degradation.
Several other specific neural network architectures have also been
studied to improve generalization in deep learning. For instance, it is
possible to design an architecture in such a way that it automatically
focuses on only some parts of the inputs with a mechanism called
attention (Xu et al., 2015; Vaswani et al., 2017). Other approaches aim
to work with symbolic rules by learning to create programs (Reed and
De Freitas, 2015; Neelakantan et al., 2015; Johnson et al., 2017; Chen
et al., 2017).
To be able to actually apply the deep RL methods described in the
later chapters, the reader should have practical knowledge of applying
deep learning methods in simple supervised learning settings (e.g.,
MNIST classification). For information on topics such as the importance
2.3.深度学习方法 13
y y y y y y y y
h = h h h ... h h
x x x x x x x x
递归层尤其适用于连续数据(见图 2.4)。有几种不同的变体在不同的环境下具
有特殊的优势。其中一个例子是长短时记忆网络(LSTM)(Hochreiter 和
Schmidhuber,1997 年),它与基本的递归神经网络不同,能够编码长序列的
信息。神经图灵机(NTMs)(Graves 等人,2014 年)是另一个这样的例子。
在这类系统中,可变的 "外部记忆 "用于推断比 LSTM 更长期的依赖关系,而且
退化程度低。
为了提高深度学习的泛化能力,人们还研究了其他一些特定的神经网络架
构。例如,可以设计一种架构,使其通过一种称为注意力的机制自动只关注
输入的某些部分(Xu 等人,2015 年;Vaswani 等人,2017 年)。其他方法旨
在通过学习创建程序来处理符号规则(Reed 和 De Freitas,2015 年;
Neelakantan 等人,2015 年;Johnson 等人,2017 年;Chen 等人,2017
年)。
为了能够实际应用后面章节中介绍的深度 RL 方法,读者应该具备在简单的监
督学习环境(如 MNIST 分类)中应用深度学习方法的实践知识。有关以下主
题的信息
14 Machine learning and deep learning
15
3
强化学习简介
强化学习(RL)是机器学习中处理连续决策的一个领域。在本章中,我们将
介绍如何把强化学习问题形式化为一个代理,该代理必须在环境中做出决策,
以优化给定的累积奖励概念。我们将清楚地看到,这种形式化方法适用于各种
任务,并抓住了人工智能的许多基本特征,例如因果关系以及不确定性和非确
定性。本章还介绍了学习顺序决策任务的不同方法,以及深度 RL 如何发挥作
用。
RL 的一个关键方面是代理学习良好的行为。这意味着它可以逐步修改或获得
新的行为和技能。RL 的另一个重要方面是,它使用试错经验(与动态编程等
先验地假定完全了解环境的方法相反)。因此,RL 代理不需要完全了解或控制
环境;它只需要能够与环境互动并收集信息。在离线环境中,经验是先验获得
的,然后作为批量学习使用(因此离线环境也被称为批量 RL)。
15
16 Introduction to reinforcement learning
3.1 正式框架
强化学习环境
一般的 RL 问题被形式化为一个离散时间随机控制过程,其中代理与环境的交
互方式如下:代理在其环境 s∈ S 的给定状态下,通过收集初始观测值 ω∈ Ω
开始。如图 3.1 所示,其结果有三种:(i) 代理获得奖励 r∈R,(ii) 状态转换为
s∈S,(iii) 代理获得观测值 ω∈Ω。这种控制设置最早由 Bellman(1957b)
提出,后来由 Barto 等人(1983)扩展到学习。Sutton 和 Barto,2017 年对
RL 基本原理进行了全面论述。在此,我们先回顾一下 RL 的主要内容,然后在
接下来的章节中深入探讨深度 RL。
马尔可夫特性
为简单起见,让我们首先考虑马尔可夫随机控制过程的情况(Norris,1998
年)。
3.1. Formal framework 17
Agent
at ωt +1 rt
Environment
st → st +1
The Markov property means that the future of the process only
depends on the current observation, and the agent has no interest in
looking at the full history.
A Markov Decision Process (MDP) (Bellman, 1957a) is a discrete
time stochastic control process defined as follows:
代理
a ω r
环境
s→ s
图 3.1:RL 中代理与环境的交互。
定义 3.1.离散时间随机控制过程是马尔可夫过程(即具有马尔可夫特性),如
果
• P(ω| ω, a) = P(ω| ω, a, ... , , ω, a),以及
马尔可夫特性意味着,进程的未来只取决于当前的观测结果,代理人没有兴
趣查看全部历史。
马尔可夫决策过程(Markov Decision Process,MDP)(Bellman,1957a)
是一种离散时间随机控制过程,其定义如下:
定义 3.2.MDP 是一个 5 元组(S, A, T, R, γ),其中
• S 是状态空间、
• A 是行动空间、
• T : S × A × S → [0, 1] 是过渡函数(状态之间的条件过渡概率集)
、
• R : S ×A×S → R 是奖励函数,其中 R 是 R∈ R(例如 [0, R])范围内可
能奖励的连续集合、
• γ∈ [0, 1]是贴现因子。
在 MDP 中,系统是完全可观测的,这意味着观测值与环境状态相同:ω= s。
18 Introduction to reinforcement learning
s0 s1 s2
Reward Reward
...
Policy function Policy function
R ( s 0 , a0 , s1 ) R ( s 1 , a 1 , s2 )
a0 r0 a1 r1
Figure 3.2: Illustration of a MDP. At each step, the agent takes an action that
changes its state in the environment and provides a reward.
1
The formalism can be directly extended to the finite horizon context. In that
case, the policy and the cumulative expected returns should be time-dependent.
18 强化学习简介
移动到 s 的概率由状态转换函数 T(s, a, s)给出,奖励由有界奖励函数 R(s,
a, s)∈ R 给出。请注意,第 10 章将介绍比 MDP 更一般的情况。
过渡 过渡
功能 功能
T (s, a, s) T (s, a, s)
s s s
奖励 奖励 ...
政策 功能 政策 功能
R(s, a, s) R(s, a, s)
a r a r
图 3.2:MDP 的图解。在每一步中,代理采取的行动都会改变其在环境中的状态,并提供奖励。
不同类别的政策
策略定义了代理如何选择行动。政策可以按照静态或非静态标准进行分类。非
稳态策略取决于时间步长,适用于有限视界环境,在这种环境下,代理寻求优
化的累积奖励仅限于有限数量的未来时间步长(Bertsekas 等人,1995 年)。
在这篇深度 RL 简介中,我们考虑的是无限视界,策略是静态的。
政策还可以按照第二个标准进行分类,即确定性政策或随机政策:
• 在确定性情况下,政策由 π(s) 描述:S → A。
• 在随机情况下,政策由 π(s, a) 描述:S × A → [0, 1] 其中,π(s, a) 表示
在状态 s 下选择行动 a 的概率。
这一形式可以直接扩展到有限时间范围。在这种情况下,政策和累计预期收益都应与时间相
1
关。
3.1. Formal framework 19
where:
( )
• rt = E R st , a, st+1 ,
a∼ π(st ,·)
( )
• P st +1 |st , at = T (st , at , st +1) with at ∼ π(st , ·),
From the definition of the expected return, the optimal expected return
can be defined as:
V ∗ (s) = max V π(s). (3.2)
π∈Π
In addition to the V-value function, a few other functions of interest
can be introduced. The Q-value function Qπ(s, a) : S × A → R is defined
as follows:
[∑∞ ]
π k
Q (s, a) = E γ r t + k | st = s, at = a, π . (3.3)
k=0
预期收益
在整个研究中,我们考虑的是一个 RL 代理的情况,其目标是找到一个策略
π(s, a) ∈ Π,从而优化预期收益 V (s) :S → R(也称为 V 值函数),使得
[∑ ]
V (s) = E
k=0
γr| s= s,π , (3.1)
在哪里?
( )
• r= E R s, a, s ,
a∼π(s,-)
s,a = T (s, a, s) with a∼ π(s, -)、
( )
• P
根据预期收益率的定义,最佳预期收益率可定义为
V (s) = 最大 V(s)。 (3.2)
π∈Π
在 MDP 的情况下,这个方程可以用贝尔曼方程递归重写:
∑ ( )
Q(s, a) = T (s, a, s) R(s, a, s) + γQ(s, a = π(s)) . (3.4)
s∈S
3.2 学习政策的不同组成部分
RL 代理包括以下一个或多个组件:
• 价值函数的表示,它能预测每个状态或每个状态/行动对的好坏、
对于大多数接近真实世界复杂度的问题来说,状态空间都是高维的(而且可能
是连续的)。为了学习模型、价值函数或策略的估计值,RL 算法依赖深度学习
有两大优势:
3.3. Different settings to learn a policy from data 21
Experience
Model
Acting
learning
Model-free
Model RL Value/policy
Planning
Figure 3.3: General schema of the different methods for RL. The direct approach
uses a representation of either a value function or a policy to act in the environment.
The indirect approach makes use of a model of the environment.
经验
模型 代理
学习
无模型
模型 RL 价值/政策
规划
图 3.3:RL 不同方法的总体图示。直接方法使用价值函数或策略来表示环境中的行为。
间接方法利用环境模型。
• 神经网络非常适合处理高维感官输入(如时间序列、帧等),而且在实践
中,当在状态或动作空间中添加额外维度时,神经网络不需要呈指数级
增长的数据(见第 2 章)。
• 此外,它们还可以进行增量训练,并利用学习过程中获得的额外样本。
3.3 从数据中学习政策的不同设置
现在,我们介绍一下可以用 RL 解决的关键问题。
3.3.1 离线和在线学习
顺序决策任务的学习有两种情况:(i) 离线学习,即只有有限的给定环境数据;
(ii) 在线学习,即在学习的同时,代理逐渐积累环境经验。在这两种情况下,
第 4 章至第 6 章介绍的核心学习算法基本相同。批处理设置的特殊性在于,代
理必须从有限的数据中学习,而不可能进一步与环境互动。在这种情况下,第
7 章中介绍的泛化思想是重点。在在线环境中,学习问题更为复杂,不需要大
量数据的学习(样本效率)不仅受以下因素的影响
22 Introduction to reinforcement learning
AGENT
ENVIRONMENT
功能 学习 控制器
近似器
• 卷积
算法
基于价值的制冷剂管理
- 培训/验证
和测试阶段
• 复发性细胞 基于政策的 RL - 超参数
管理
• ... 基于模型的 RL
重放记忆 政策
勘探/开发的两难选择
代理
环境
图 3.4:深度 RL 方法的一般模式。
3.3.2 政策外和政策内学习
根据 Sutton 和 Barto,2017 年,"政策研究方法试图评估或改进用于决策的
政策,而
3.3. Different settings to learn a policy from data 23
非政策方法评估或改进的政策与生成数据的政策不同"。在基于非政策的方法
中,如果使用的轨迹不一定是在当前政策下获得的,而是来自不同的行为政策
β(s,a),那么学习就很简单了。在这种情况下,经验重放可以重复使用不同行
为策略的样本。相反,基于政策的方法在使用回放缓冲区时通常会产生偏差,
因为轨迹通常并不完全是在当前政策 π 下获得的。正如以下章节将讨论的,这
使得非政策方法的采样效率很高,因为它们能够利用任何经验;相反,如果不
特别注意,基于政策的方法在使用非政策轨迹时会产生偏差。
4
Value-based methods for deep RL
4.1 Q-learning
24
4
基于价值的深度 RL 方法
基于值的算法旨在建立一个值函数,然后让我们定义一个策略。我们将在下文
讨论最简单、最流行的基于值的算法之一--Q-learning 算法(Watkins,1989
年)及其变体,即使用参数化函数近似值的拟合 Q-learning(Gordon,1996
年)。我们还特别讨论了深度 Q 网络(DQN)算法(Mnih 等人,2015 年)的
主要内容,该算法通过使用神经网络作为函数近似器,在玩像素 ATARI 游戏时
实现了超人级别的控制。然后,我们回顾了 DQN 算法的各种改进,并提供了
进一步详情的资源。在本章结尾和下一章,我们将讨论基于价值的方法和基于
策略的方法之间的密切联系。
4.1 Q-learning
24
4.2. Fitted Q-learning 25
of the Bellman equation for the Q-value function (Bellman and Dreyfus,
1962) whose unique solution is Q∗ (s, a):
的 Q 值函数的贝尔曼方程(贝尔曼和德雷福斯,1962 年),其唯一解是 Q
(s,a):Q(s, a) = (BQ)(s, a), (4.1)
根据巴纳赫定理,贝尔曼算子 B 的定点是存在的,因为它是一个收缩映射。实
际上,在以下条件下,有一个收敛到最优值函数的一般证明(Watkins 和
Dayan,1992 年):
• 状态-行动对是离散表示的,以及
• 在所有状态下对所有行动进行重复采样(这确保了充分的探索,因此无
需访问过渡模型)。
由于 Q-learning 算法使用(可能是连续的)状态-动作空间的维度较高,这种
简单的设置往往不适用。在这种情况下,需要一个参数化的值函数 Q(s,a;θ),
其中 θ 指的是定义 Q 值的一些参数。
where α is a scalar step size called the learning rate. Note that using the
square loss is not arbitrary. Indeed, it ensures that Q(s, a; θk ) should
Q
tend without bias to the expected value of the random variable Yk 2.
Hence, it ensures that Q(s, a; θk ) should tend to Q∗ (s, a) after many
iterations in the hypothesis that the neural network is well-suited for
the task and that the experience gathered in the dataset D is sufficient
(more details will be given in Chapter 7).
When updating the weights, one also changes the target. Due to
the generalization and extrapolation abilities of neural networks, this
approach can build large errors at different places in the state-action
space3. Therefore, the contraction mapping property of the Bellman
2
The minimum of E[(Z − c) 2 ] occurs when the constant c equals the expected
value of the random variable Z .
3
Note that even fitted value iteration with linear regression can diverge (Boyan
and Moore, 1995). However, this drawback does not happen when using linear
26 基于价值的深度 RL 方法
初始 Q 值应相对接近 0,以避免学习速度过慢)。然后,在迭代 Q(s,a;θ)
时对 Q 值的近似值进行更新,使其趋向于目标值
Y = r + γ max Q(s,a;θ)、
a∈A
(4.3)
( )
L= Q(s, a; θ) - Y . (4.4)
因此,Q-learning 更新相当于更新参数:
( )
θ= θ+ α Y - Q(s,a;θ) ∇Q(s,a;θ)、 (4.5)
其中,α 是一个标量步长,称为学习率。请注意,使用平方损失并不是任意
的。事实上,它能确保 Q(s,a;θ)无偏差地趋向于随机变量 Y 的期望值。因此,
它可以确保 Q(s,a;θ)在经过多次迭代后趋向于 Q(s,a),前提是神经网络非常适
合任务,并且在数据集 D 中积累的经验足够多(更多细节将在第 7 章中给
出)。
在更新权重的同时,也会改变目标。由于神经网络的泛化和外推能力,这种方
法会在状态-动作空间的不同位置产生较大误差。因此,Bellman 的收缩映射
属性
当常数 c 等于随机变量 Z 的期望值时,E[(Z - c)] 出现最小值。
2
而,在使用线性回归时,这一缺点不会发生。
4.3. Deep Q-networks 27
方程 4.2 中的算子不足以保证收敛。实验证明,这些误差可能会通过这种更新
规则传播,因此收敛速度可能会很慢,甚至不稳定(Baird,1995;Tsitsiklis
和 Van Roy,1997;Gordon,1999;Riedmiller,2005)。使用函数近似值
的另一个相关的有害副作用是,由于最大算子的作用,Q 值往往会被高估
(Van Hasselt 等人,2016 年)。由于存在不稳定性和高估的风险,因此必须
特别注意确保学习的正确性。
4.3 深度 Q 网络
利用 NFQ 的思想,Mnih 等人(2015 年)推出的深度 Q 网络(DQN)算法能
够直接从像素中学习,在各种 ATARI 游戏的在线设置中获得强劲的性能。它使
用两种启发式方法来限制不稳定性:
• 方程 4.3 中的目标 Q 网络由 Q(s,a;θ)代替,其参数 θ 只在每 C∈N 次迭
代中更新一次,其赋值如下:θ= θ。目标网络的概念可以看作是拟合 Q-
learning 的实例化,其中目标网络更新之间的每段时间都对应于一次拟
合 Q-迭代。
这些函数近似器仅具有插值能力,如基于核的回归器(k-近邻、线性和多线性插值等)
(Gordon,1999 年)或基于树的集合方法(Ernst 等人,2005 年)。然而,事实证明这些方法无
法成功处理高维输入。
它很有可能采取随机行动,并遵循 argmaxQ(s,a;θ)给出的政策,概率为 1 - 。
4
28 Value-based methods for deep RL
technique allows for updates that cover a wide range of the state-
action space. In addition, one mini-batch update has less variance
compared to a single tuple update. Consequently, it provides the
possibility to make a larger update of the parameters, while having
an efficient parallelization of the algorithm.
The max operation in Q-learning (Equations 4.2, 4.3) uses the same
values both to select and to evaluate an action. This makes it more likely
to select overestimated values in case of inaccuracies or noise, resulting
in overoptimistic value estimates. Therefore, the DQN algorithm induces
an upward bias. The double estimator method uses two estimates for
each variable, which allows for the selection of an estimator and its value
to be uncoupled (Hasselt, 2010). Thus, regardless of whether errors
in the estimated Q-values are due to stochasticity in the environment,
function approximation, non-stationarity, or any other source, this
allows for the removal of the positive bias in estimating the action
28 基于价值的深度 RL 方法
这种技术可以实现覆盖广泛的状态动作空间的更新。此外,与单个元组
更新相比,迷你批量更新的方差更小。因此,它可以对参数进行更大范
围的更新,同时实现算法的高效并行化。
算法简图见图 4.1。
除了目标 Q 网络和重放记忆,DQN 还使用了其他重要的启发式方法。为了使
目标值保持在一个合理的范围内,并确保在实践中的正确学习,奖励在-1 和
+1 之间被削去。剪切奖励限制了误差导数的规模,并使在多个游戏中使用相
同的学习率变得更容易(不过,这会带来偏差)。在玩家拥有多条生命的游戏
中,一种技巧是将生命损失与终结状态联系起来,使代理避免这些终结状态
(在终结状态下,贴现因子设为 0)。
在 DQN 中,还使用了许多特定的深度学习技术。特别是,输入的预处理步骤
用于降低输入维度、对输入进行归一化(将像素值缩放为 [-1,1])以及处理任
务的一些特殊性。此外,神经网络函数近似器的第一层使用卷积层,并使用随
机梯度下降的变体 RMSprop(Tieleman,2012 年)进行优化。
4.4 双 DQN
Q-learning 中的最大值运算(公式 4.2、4.3)使用相同的值来选择和评估一个
操作。这使得在不准确或有噪音的情况下,更有可能选择高估的值,从而导致
过于乐观的值估计。因此,DQN 算法会产生向上偏差。双估算器法对每个变量
使用两个估算器,这使得估算器的选择和估算值是不耦合的(Hasselt,2010
年)。因此,无论估计 Q 值中的误差是由环境随机性、函数近似、非平稳性或
任何其他原因造成的,都能消除估计行动时的正偏差。
4.5. Dueling network architecture 29
s1+1, . . . , sN replay+1
Environment
r t + γmax
′
(Q(st+1 , a′ ; θk− ))
a ∈A
Figure 4.1: Sketch of the DQN algorithm. Q(s, a; θk ) is initialized to random values
(close to 0) everywhere in its domain and the replay memory is initially empty;
the target Q-network parameters θk− are only updated every C iterations with the
Q-network parameters θk and are held fixed between updates; the update uses a
mini-batch (e.g., 32 elements) of tuples < s, a > taken randomly in the replay
memory along with the corresponding mini-batch of target values for the tuples.
values. In Double DQN, or DDQN (Van Hasselt et al., 2016), the target
Q
value Yk is replaced by
DDQN
Yk = r + γQ(s′ , argmax Q(s′ , a; θk ); θk− ), (4.6)
a∈A
s, . ., sreplay , 以及 , .. , a 更新 每个 C.
Q(s, a; θ) θ:= θ
政策 r, . .. , r
s, . .. , s
环境
r+ γmax (Q(s, a; θ))
a∈A
4.5 决斗网络架构
在(Wang 等人,2015 年)中,神经网络架构解耦了价值和优势函数 A(s,
a)(等式 3.7),从而提高了性能。Q 值函数为
( )
Q(s, a; θ, θ, θ) = V s; θ, θ
( ( ) ( )) (4.7)
s,a;θ,θ - 最大 A s,a;θ,θ .
+ A
a∈A
the stream V (s; θ(1), θ (3) ) provides an estimate of the value function,
while the other stream produces an estimate of the advantage function.
The learning update is done as in DQN and it is only the structure of
the neural network that is modified.
θ(3)
V (s)
...
Q(s, a)
A(s, a)
θ(1)
θ(2)
Figure 4.2: Illustration of the dueling network architecture with the two streams
that separately estimate the value V (s) and the advantages A (s, a). The boxes
represent layers of a neural network and the grey output implements equation 4.7 to
combine V (s) and A (s, a).
In that case, the advantages only need to change as fast as the mean,
which appears to work better in practice (Wang et al., 2015).
30 基于价值的深度 RL 方法
流 V (s; θ, θ) 提供了对价值函数的估计,而另一个流则产生了对优势函数的估
计。学习更新与 DQN 一样进行,修改的只是神经网络的结构。
V (s)
...
Q(s, a)
A(s, a)
θ
θ
事实上,尽管这种方法失去了 V 和 A 的原始语义,但在实践中,我们更倾向于
采用稍有不同的方法,因为它能提高优化的稳定性:
( )
Q(s, a; θ, θ, θ) = V s; θ, θ
( ) ( ) (4.8)
s,a;θ,θ s,a;θ,θ
1 ∑
+ A − A .
|A|
a∈A
在这种情况下,优势的变化速度只需与平均值一样快,这在实践中似乎效果更
好(Wang 等人,2015 年)。
4.6. Distributional DQN 31
4.6分布式 DQN
本章迄今为止介绍的方法都是在价值函数中直接近似预期收益。另一种方法是
通过价值分布(即可能累积回报的分布)来获得更丰富的表征(Jaquette 等
人,1973 年;Morimura 等人,2010 年)。这种价值分布提供了更完整的信
息,说明了代理在其环境中的回报和转换的内在随机性(注意,它并不是代理
对环境不确定性的衡量标准)。
其中,我们使用大写字母来强调下一个状态-行动对(S,A)和 A∼π(-|S) 的随
机性。分布式贝尔曼方程指出,Z 的分布由三个随机变量的相互作用来表征:
奖励 R(s,a,S)、下一个状态行动(S,A)及其随机回报 Z(S,A)。
研究表明,这种分布式贝尔曼方程可以在实践中使用,并以深度学习作为函
数近似器(Bellemare 等人,2017 年;Dabney 等人,2017 年;Rowland
等人,2018 年)。这种方法具有以下优点:
Q(s, a). These training signals that are not a priori necessary
for optimizing the expected return are known as auxiliary tasks
(Jaderberg et al., 2016) and lead to an improved learning (this is
discussed in §7.2.1).
Q̂π1≈ Q̂π2
π1
Ẑ
P= 1 R max
Ẑ π2
s(1) 5
π1 P = 0.2
(s, a) s(3) R max
π2
s(2) 0
P = 0.8
0 R max
1− γ
(a) Example MDP. (b) Sketch (in an idealized version) of
the estimate of resulting value distribu-
tion Ẑ π1 and Ẑ π2 as well as the esti-
mate of the Q-values Q̂ π1 , Q̂ π2 .
Figure 4.3: For two policies illustrated on Fig (a), the illustration on Fig (b) gives
the value distribution Z ( π) (s, a) as compared to the expected value Q π (s, a). On
the left figure, one can see that π1 moves with certainty to an absorbing state with
reward at every step R max
5
, while π2 moves with probability 0.2 and 0.8 to absorbing
states with respectively rewards at every step R max and 0. From the pair (s, a), the
policies π1 and π2 have the same expected return but different value distributions.
Q̂≈ Q̂
ˆZ
P=1 Ẑ
R
s 5
π P = 0.2
(s, a) s R
π
s 0
P = 0.8
0 R
1−γ
4.7 多步骤学习
在 DQN 中,用于更新 Q 网络参数的目标值 其中一个主要因素是,与标量值函
数(在公式 4.3 中给出)相比,分布式视角自然能提供更丰富的训练信号。该
贡献是根据下一时间步的自身价值估算得出的。因此,学习算法被称为引导算
法,因为它递归地使用自己的价值估计值(Sutton,1988 年)。
这种估计目标值的方法并不是唯一的可能性。非引导法直接从收益中学习
(蒙特卡罗法)
4.7. Multi-step learning 33
where (s0 , a0, r0, · · · , sn− 1 , an− 1 , rn− 1, sn ) is any trajectory of n + 1 time
steps with s = s0 and a = a0. A combination of different multi-steps
targets can also be used:
( )
n−
∑1 ∑i
Q,n ( )
Yk = λi γ t r t + γ i +1 max
′
Q si +1, a′ ; θk (4.11)
a ∈A
i =0 t=0
∑
with n− 1
i =0 λ i = 1. In the method called T D(λ) (Sutton, 1988), n → ∞
and λ i follow a geometric law: λ i ∝ λ i where 0 ≤ λ ≤ 1.
而中间解决方案是使用多步目标值(Sutton,1988 年;Watkins,1989 年;
Peng 和 Williams,1994 年;Singh 和 Sutton,1996 年)。在 DQN 的情况
下,通过使用 n 步目标值,可以得到这样一个变量:
n−1
∑
Yk = γr+ γmax Q(s, a; θ) (4.10)
a∈A
t=0
( )
n−1
∑ ∑ ( )
Yk = λ γr+ γmax Q s, a; θ (4.11)
a∈A
i=0 t=0
引导还是不引导?自举既有优点,也有缺点。
在负面影响方面,使用纯引导方法(如 DQN)与函数近似相结合时,容易产
生不稳定性。不利的一面是,使用纯引导方法(如 DQN)与函数逼近相结合
时容易出现不稳定,因为它们在下一个时间步递归使用自己的估计值。相
反,n 步 Q-learning 等方法对自身值估计的依赖程度较低,因为在 n 步备份
中,所使用的估计值按 γ 递减。此外,较少依赖引导的方法可以更快地从延
迟回报中传播信息,因为它们直接从回报中学习。因此,它们的计算效率可
能更高。
自举法也有优点。其主要优势在于,使用值引导可以从非政策样本中学习。
事实上,不使用纯引导的方法,如 n > 1 的 n 步 Q-learning 或 T D(λ),原则
上都是基于策略的方法,在使用非完全根据行为策略 μ 获得的轨迹(如存储
在重放缓冲区中的轨迹)时,会引入偏差。
Munos 等人,2016 年;Harutyunyan 等人,2016 年。在控制设置中,回溯
算子(Munos 等人,2016 年)会考虑一系列目标政策 π,这些政策取决于
34 Value-based methods for deep RL
( )
π(s,a)
where cs = λ min 1, with 0 ≤ λ ≤ 1 and μ is the behavior
μ(s,a)
policy (estimated from observed samples). This way of updating the
Q-network has guaranteed convergence, does not suffer from a high
variance and it does not cut the traces unnecessarily when π and μ
are close. Nonetheless, one can note that estimating the target is more
expansive to compute as compared to the one-step target (such as in
DQN) because the Q-value function has to be estimated on more states.
The original DQN algorithm can combine the different variants discussed
in §4.4 to §4.7 (as well as some discussed in Chapter 8.1) and that
has been studied by Hessel et al., 2017. Their experiments show that
the combination of all the previously mentioned extensions to DQN
provides state-of-the-art performance on the Atari 2600 benchmarks,
both in terms of sample efficiency and final performance. Overall, a
large majority of Atari games can be solved such that the deep RL
agents surpass the human level performance.
Some limitations remain with DQN-based approaches. Among others,
these types of algorithms are not well-suited to deal with large and/or
continuous action spaces. In addition, they cannot explicitly learn
stochastic policies. Modifications that address these limitations will be
discussed in the following Chapter 5, where we discuss policy-based
approaches. Actually, the next section will also show that value-based
and policy-based approaches can be seen as two facets of the same
model-free approach. Therefore, the limitations of discrete action spaces
and deterministic policies are only related to DQN.
One can also note that value-based or policy-based approaches do
not make use of any model of the environment, which limits their sample
34 基于价值的深度 RL 方法
2016 年)考虑了一连串依赖于 Q 函数序列的目标策略 π(如贪婪策略),并寻
求近似 Q(如果 π 是贪婪的或在 Q 估计值方面变得越来越贪婪)。这就导致了
以下目标:
( )
∑ ∏
Y = Q(s,a)+ γ c (r+ γEQ(s, a) - Q(s, a)) (4.12)
t≥0 c=1
( )
0 ≤ λc=≤λ1,μ
其中 min 为行为策略(根据观测样本估算)
1, 。这种更新 Q 网络的方法保证
了收敛性,不存在方差过大的问题,而且当 π 和 μ 接近时,也不会不必要地削
μ(s,a)
减轨迹。不过,我们可以注意到,与一步目标(如 DQN)相比,估计目标的计
算量更大,因为需要在更多的状态上估计 Q 值函数。
我们还可以注意到,以价值或政策为基础的方法不使用任何环境模型,这
限制了它们的样本
4.8. Combination of all DQN improvements and variants of DQN 35
效率。第 6 章将讨论如何将无模型方法和基于模型方法结合起来。
5
Policy gradient methods for deep RL
36
5
深度 RL 的政策梯度方法
本节重点介绍使用策略梯度法的强化学习算法的一个特殊系列。这些方法通过
找到一个好的策略(例如神经网络参数化策略)来优化性能目标(通常是预期
累积奖励),这要归功于与策略参数相关的随机梯度上升变体。需要注意的
是,策略梯度法属于更广泛的基于策略的方法,其中包括进化策略。这些方法
使用从政策参数实例采样中获得的学习信号,政策集朝着获得更好回报的政策
方向发展(例如,Salimans 等人,2017 年)。
在本章中,我们将介绍随机梯度定理和确定梯度定理,它们提供了策略参数的
梯度,以优化性能目标。然后,我们将介绍利用这些定理的不同 RL 算法。
36
5.1. Stochastic Policy Gradient 37
∫ ∫
πw πw
∇ wV (s0) = ρ (s) ∇ w πw (s, a)Qπw (s, a)dads. (5.2)
S A
∇ w πw (s, a)
∇ w πw (s, a) = πw (s, a)
πw (s, a) (5.3)
= πw (s, a)∇ w log(πw (s, a)).
∇ w V πw (s0 ) = Es∼ ρπw ,a∼ πw [∇ w (log πw (s, a)) Qπw (s, a)] . (5.4)
5.1.随机政策梯度 37
5.1 随机政策梯度
根据公式 3.1,从给定状态 s 开始的随机政策 π 的预期收益可以写成(Sutton
等人,2000 年):
∫ ∫
V (s) = ρ(s) π(s,a)R(s,a)dads、 (5.1)
S A
其中
T(s,a,s)R(s,a,s)
R(s,a)= ∫
,ρ(s)是贴现状态分
布,定义为
s∈S
∑ ∞
ρ(s) = γP r{s= s|s, π}。
t=0
∇π(s, a) = π(s, a)
∇π(s,a)
π(s, a) (5.3)
= π(s,a)∇log(π(s,a))。
根据公式 5.3,可以得出
∇V (s) = E[∇(log π(s, a)) Q(s, a)] . (5.4)
38 Policy gradient methods for deep RL
我们还要补充两点。首先,为了防止政策变成确定性的,通常会在梯度上添加
一个熵正则。有了这个正则,学习到的策略就可以保持随机性。这就确保了策
略的不断探索性。
其次,也可以使用优势值函数 Ac 来代替公式 5.4 中的值函数 Qin。Q(s,a)概括
了在政策π下特定状态下每种行动的表现,而优势函数 A(s,a)则提供了每种行
动与状态 s 下预期收益的比较度量,即 V (s)。使用 A(s, a) = Q(s, a) - V (s) 通常
比 Q(s, a) 的值要小。这有助于在策略改进步骤中减少梯度估计器 ∇V (s) 的方
差,同时又不会改变策略改进步骤的结果。
5.2. Deterministic Policy Gradient 39
1 πw
Indeed, subtracting a baseline that only depends
∫ on s to Q (s, a) in Eq. 5.2
does not change the gradient estimator because ∀s, A ∇ w πw (s, a)da = 0.
5.2.确定性政策梯度 39
5.2 确定性政策梯度
政策梯度方法可以扩展到确定性政策。连续行动的神经拟合 Q 迭代(NFQCA)
在不修改(Hafner 和 Riedmiller,2011 年)和深度确定性策略梯度(DDPG)
(Silver 等人,2014 年;Lillicrap 等人,2015 年)算法的同时,引入了策略
的直接表示,从而可以扩展 NFQ 和 DQN 算法,克服离散行动的限制。
其中,π 是迭代时的策略。在连续的行动空间中,贪婪的策略改进变得很成问
题,因为它要求在每一步都实现全局最大化。相反,让我们用π(s) 表示可变的
确定性策略。在这种情况下,一个简单且具有计算吸引力的替代方法是沿着 Q
的梯度方向移动策略,这就产生了深度确定性策略梯度算法(Deep
Deterministic Policy Gradient,DDPG)(Lillicrap 等人,2015 年):
[ ]
∇(π)∇(Q(s, a))|
∇V (s) = E . (5.6)
这个等式意味着要依赖∇(Q(s, a))(除了∇π),这通常需要使用行为批判方法
(见第 5.3 节)。
The critic
From a (set of) tuples < s, a, r, s′ > , possibly taken from a replay
memory, the simplest off-policy approach to estimating the critic is to
use a pure bootstrapping algorithm T D(0) where, at every iteration,
the current value Q(s, a; θ) is updated towards a target value:
Q
Yk = r + γQ(s′ , a = π(s′ ); θ) (5.7)
This approach has the advantage of being simple, yet it is not
computationally efficient as it uses a pure bootstrapping technique that
is prone to instabilities and has a slow reward propagation backwards
in time (Sutton, 1996). This is similar to the elements discussed in the
value-based methods in §4.7.
The ideal is to have an architecture that is
• sample-efficient such that it should be able to make use of both
off-policy and and on-policy trajectories (i.e., it should be able to
use a replay memory), and
评论家
从可能来自重放存储器的(一组)元组 < s、a、r、s> 出发,估计批判者的最
简单非策略方法是使用纯引导算法 T D(0),在该算法中,每迭代一次,当前值
Q(s、a; θ) 都会更新为目标值:
Y = r + γQ(s,a = π(s);θ) (5.7)
这种方法的优点是简单,但计算效率不高,因为它使用的是纯引导技术,容易
产生不稳定性,而且奖励的时间传播速度较慢(萨顿,1996 年)。这与第 4.7
节中讨论的基于值的方法中的要素类似。
理想的架构是
• 采样效率高,既能利用非政策轨迹,也能利用政策轨迹(即能够使用重
放存储器),以及
• 计算效率高:对于从接近政策行为政策中收集的样本,它应能从政策方
法的稳定性和快速奖励传播中获益。
5.3. Actor-Critic Methods 41
There are many methods that combine on- and off-policy data for
policy evaluation (Precup, 2000). The algorithm Retrace(λ) (Munos
et al., 2016) has the advantages that (i) it can make use of samples
collected from any behavior policy without introducing a bias and
(ii) it is efficient as it makes the best use of samples collected from
near on-policy behavior policies. That approach was used in actor-critic
architectures described by Wang et al. (2016b) and Gruslys et al. (2017).
These architectures are sample-efficient thanks to the use of a replay
memory, and computationally efficient since they use multi-step returns
which improves the stability of learning and increases the speed of
reward propagation backwards in time.
The actor
From Equation 5.4, the off-policy gradient in the policy improvement
phase for the stochastic case is given as:
∇ w V πw (s0 ) = Es∼ ρπβ ,a∼ πβ [∇ θ (log πw (s, a)) Qπw (s, a)] . (5.8)
有许多方法将政策内和政策外数据结合起来进行政策评估(Precup,2000
年)。算法 Retrace(λ)(Munos 等人,2016 年)的优势在于:(i) 它可以利用
从任何行为政策中收集的样本,而不会引入偏差;(ii) 它是高效的,因为它能
充分利用从接近政策内行为政策中收集的样本。这种方法被用于行为批评
演员
根据公式 5.4,随机情况下政策改进阶段的非政策梯度为
∇V (s) = E[∇(log π(s, a)) Q(s, a)] . (5.8)
无限探索极限贪婪(GLIE)指的是,在代理已经积累了无限多经验的在线学习环境中,要求行为
2
策略在极限状态下变得贪婪(无探索)。它要求"(i) 在无限次访问的每个状态下,每个行为都被无
限次执行;(ii) 在极限状态下,学习策略在 Q 值函数方面是贪婪的,概率为 1"(Singh 等人,
2000 年)。
42 Policy gradient methods for deep RL
4 w ∝ F w− 1∇ w V πw (·), (5.9)
Policy gradients following ∇ w V πw (·) are often slow because they are
prone to getting stuck in local plateaus. Natural gradients, however, do
not follow the usual steepest direction in the parameter space, but the
42 深度 RL 的政策梯度方法
这样就无需维护重放缓冲区。
不过,这种异步技巧的采样效率并不高。
另一种方法是将非政策样本和政策样本结合起来,以权衡非政策方法的样本效
率和政策梯度估计的稳定性。例如,Q-Prop(Gu 等人,2017b)使用蒙特卡
洛政策上梯度估计器,同时通过使用非政策批评者作为控制变量来减少梯度估
计器的方差。Q-Prop 的一个局限是它需要使用政策内样本来估计政策梯度。
5.4 自然政策梯度
自然策略梯度的灵感来源于策略更新的自然梯度思想。自然梯度可以追溯到
1998 年 Amari 的研究成果,后来被应用于强化学习(Kakade,2001 年)。
自然策略梯度法使用费雪信息度量给出的最陡方向,它使用目标函数的流形。
在目标函数 J(w)的最陡上升的最简单形式中,更新的形式为 4w ∝∇J(w) 。换
句话说,在 || 4 w|| 的约束条件下,更新的方向是最大化(J(w) - J(w + 4w))。
假设 4w 上的约束条件是用 L 以外的另一种度量定义的,那么约束优化问题的
一阶解决方案通常是 4w ∝ B∇J(w) 的形式,其中 B 是一个 n× nmatrix。在
自然梯度中,准则使用费雪信息度量,由 KL 分歧 D(π||π) 的局部二次逼近给
出。改进策略 π 的自然梯度上升公式为
其中,Fis 是费雪信息矩阵,其计算公式为
F= E[∇log π(s,-)(∇log π(s,-))]。 (5.10)
遵循 ∇V (-) 的政策梯度通常比较缓慢,因为它们容易陷入局部高原。然而,
自然梯度并不遵循参数空间中通常最陡峭的方向,而是遵循∇V(-)的方向。
5.5. Trust Region Optimization 43
steepest direction with respect to the Fisher metric. Note that, as the
angle between natural and ordinary gradient is never larger than ninety
degrees, convergence is also guaranteed when using natural gradients.
The caveat with natural gradients is that, in the case of neural
networks and their large number of parameters, it is usually impractical
to compute, invert, and store the Fisher information matrix (Schulman
et al., 2015). This is the reason why natural policy gradients are usually
not used in practice for deep RL; however alternatives inspired by this
idea have been found and they are discussed in the following section.
相对于费雪度量的最陡方向。需要注意的是,由于自然梯度和普通梯度之间
的夹角永远不会大于九十度,因此使用自然梯度时也能保证收敛性。
自然梯度需要注意的是,在神经网络及其大量参数的情况下,计算、反转和
存储费雪信息矩阵通常是不切实际的(Schulman 等人,2015 年)。这也是自
然策略梯度通常不用于深度 RL 实践的原因;不过,受这一思想启发,人们已
经找到了替代方法,下文将对其进行讨论。
5.5信任区域优化
作为对自然梯度法的一种改进,基于信任区域的政策优化方法旨在改进政策,
同时以可控的方式改变政策。这些基于约束的策略优化方法侧重于利用行动分
布之间的 KL 发散来限制策略的变化。通过限制政策更新的大小,信任区域方
法也限制了状态分布的变化,从而保证了政策的改进。
[ ( )]
min r(w)A(s,a),剪辑 r(w), 1 - , 1 +
( )
E A(s, a)
s∼ρ,a∼π
(5.12)
44 Policy gradient methods for deep RL
∇ w V πw (s0) = Es,a [∇ w (log πw (s, a)) Qπw (s, a)] + αEs ∇ w H πw (s).
(5.13)
∑
where H π(s) = − a π(s, a) log π(s, a). From this, one can note
that an optimum is satisfied by the following policy: πw (s, a) =
exp(A πw (s, a)/α− H πw (s)). Therefore, we can use the policy to derive an
estimate of the advantage function: Ã πw (s, a) = α( log πw (s, a) + H π(s)).
44 深度 RL 的政策梯度方法
12) 其中,∈ R 是一个超参数。该目标函数利用概率比来限制区间[1 - , 1 + ]内
林的变化。
• 它们能够处理连续的动作空间。这在机器人等应用中尤为有趣,因为在
这些应用中,力和扭矩的值可以是连续的。
• 它们可以表示随机政策,这对于构建可以明确探索的政策非常有用。在
最优政策是随机政策的情况下,这一点也很有用(例如,在多代理设置
中,纳什均衡是一种随机政策)。
然而,另一种方法是直接将政策梯度法与非政策 Q-learning 结合起来
(O'Donoghue 等人,2016 年)。在某些特定情况下,根据所使用的损失函数
和熵正则化,基于值的方法和基于策略的方法是等价的(Fox 等人,2015 年;
O'Donoghue 等人,2016 年;Haarnoja 等人,2017 年;Schulman 等人,
2017a)。例如,当添加熵正则化时,公式 5.4 可写成
其中
π(s, a)H(s)log=π(s,
- a).由此可以看出,以下策略满足最优条件:π(s,
∑
a) = exp(A(s,
a)/α-H(s)) 。因此,我们可以利用该策略得出优势函数的估计值:˜π(a) =
a
exp(A(s, a) /α-H(s) 。
A(s, a) = α( log π(s, a) + H(s)).
5.6. Combining policy gradient and Q-learning 45
因此,我们可以将所有无模型方法视为同一方法的不同侧面。
剩下的一个局限是,基于价值和基于策略的方法都是无模型的,它们不使用
任何环境模型。下一章将介绍基于模型的算法。
6
Model-based methods for deep RL
46
6
基于模型的深度 RL 方法
在第 4 章和第 5 章中,我们讨论了无模型方法,这种方法依赖于基于价值或基
于策略的方法。在本章中,我们将介绍基于模型的方法,这种方法依赖于环境
模型(动态和奖励函数)与规划算法的结合。在第 6.2 节中,我们将讨论基于
模型方法和无模型方法各自的优势,以及如何将这两种方法结合起来。
6.1 基于模型的纯粹方法
环境模型要么是明确给出的(例如,在围棋游戏中,所有规则都是先验已知
的),要么是从经验中学习的。为了学习模型,函数近似器在高维(可能部分
可观测)环境中再次带来显著优势(Oh 等人,2015;Mathieu 等人,2015;
Finn 等人,2016a;Kalchbrenner 等人,2016;Duchesne 等人,2017;
Nagabandi 等人,2018)。
这样,模型就可以作为实际环境的代理。
当环境模型可用时,规划工作就包括与模型互动,推荐行动。在离散行动的情
况下,前瞻性搜索通常是通过生成
46
6.1. Pure model-based methods 47
潜在轨迹。在连续动作空间的情况下,可以使用各种控制器进行轨迹优化。
6.1.1 前瞻性搜索
MDP 中的前瞻搜索会反复建立一棵决策树,其中当前状态是根节点。它将获
得的回报存储在节点中,并将注意力集中在有希望的潜在轨迹上。轨迹采样的
主要困难在于如何平衡探索和利用。一方面,探索的目的是收集搜索树中模拟
次数较少的部分(即预期值方差较大的部分)的更多信息。另一方面,开发的
目的是完善最有希望的移动的预期值。
蒙特卡洛树搜索(Monte-Carlo tree search,MCTS)技术(Browne et al.其
中,由于在计算机围棋这项具有挑战性的任务中取得了丰硕成果,MCTS 技术
越来越受欢迎(Brügmann,1993;Gelly 等人,2006;Silver 等人,
2016a)。其思路是从当前状态开始对多个轨迹进行采样,直到达到终点条件
(例如给定的最大深度),通常通过生成前瞻搜索来完成(见图 6.1 的说明)。
根据这些模拟步骤,MCTS 算法会建议采取某种行动。
最近的工作开发出了直接端到端学习模型的策略,以及如何充分利用模型,而
不依赖显式树搜索技术(Pascanu 等人,2017 年)。与分离式方法(简单地学
习模型,然后在规划过程中依赖模型)相比,这些方法提高了采样效率、性能
和对模型错误规范的鲁棒性。
6.1.2 轨迹优化
前瞻搜索技术仅限于离散行动,对于连续行动必须使用其他技术。如果模型是
可微分的,就可以通过奖励沿轨迹的反向传播直接计算出分析策略梯度
(Nguyen 和 Widrow,1990 年)。例如,PILCO(Deisenroth 和
Rasmussen,2011 年)使用高斯过程来学习一个概率模型。
48 Model-based methods for deep RL
st
t
t+1
t+2
a( i ) ∈ A
a( i ) ∈ A
Monte-carlo
simulation
End
state
dynamics. It can then explicitly use the uncertainty for planning and
policy evaluation in order to achieve a good sample efficiency. However,
the gaussian processes have not been able to scale reliably to high-
dimensional problems.
One approach to scale planning to higher dimensions is to aim at
leveraging the generalization capabilities of deep learning. For instance,
Wahlström et al. (2015) uses a deep learning model of the dynamics
(with an auto-encoder) along with a model in a latent state space.
Model-predictive control (Morari and Lee, 1999) can then be used to
find the policy by repeatedly solving a finite-horizon optimal control
problem in the latent space. It is also possible to build a probabilistic
generative model in a latent space with the objective that it possesses
a locally linear dynamics, which allows control to be performed more
efficiently (Watter et al., 2015). Another approach is to use the trajectory
optimizer as a teacher rather than a demonstrator: guided policy
search (Levine and Koltun, 2013) takes a few sequences of actions
suggested by another controller. iIt then learns to adjust the policy from
these sequences. Methods that leverage trajectory optimization have
48 基于模型的深度 RL 方法
s
t
t+1
t+2
a∈ A
a∈ A
蒙特卡洛
仿真
End
国
图 6.1:MCTS 算法如何执行蒙特卡洛模拟并通过更新不同节点的统计数据来构建树的示意图。根
据收集到的当前节点 s 的统计数据,MCTS 算法选择对实际环境执行的操作。
动态。然后,它可以明确地利用不确定性进行规划和政策评估,以实现良好的
样本效率。然而,高斯过程无法可靠地扩展到高维问题。
将规划扩展到更高维度的一种方法是利用深度学习的泛化能力。例如,
Wahlström 等人(2015 年)使用动态的深度学习模型(2011 年)使用高斯过
程来学习潜在状态空间的概率模型(使用自动编码器)和模型。然后,可以使
用模型预测控制(Morari 和 Lee,1999 年),通过重复求解潜在空间中的有限
视距最优控制问题来找到策略。还可以在潜空间中建立一个概率生成模型,目
标是使其具有局部线性动力学,从而更有效地进行控制(Watter 等人,2015
年)。另一种方法是将轨迹优化器用作教师而非示范者:引导式策略搜索
(Levine 和 Koltun,2013 年)采用另一个控制器建议的几个动作序列,然后
从这些序列中学习调整策略。利用轨迹优化的方法有
6.2. Integrating model-free and model-based methods 49
例如,在模拟三维两足动物和四足动物的情况下(例如,Mordatch 等人,
2015 年),就展示了许多能力。
6.2整合无模型和基于模型的方法
无模型方法和基于模型方法各自的优势取决于不同的因素。首先,最合适的方
法取决于代理是否能获得环境模型。如果没有,学习到的模型通常会有一些不
准确的地方,应该加以考虑。需要注意的是,学习模型可以通过共享神经网络
参数,与基于值的方法共享隐态表征(Li 等人,2015 年)。
其次,基于模型的方法需要与规划算法(或控制器)配合使用,而规划算法
(或控制器)的计算要求通常很高。因此,必须考虑到通过规划计算策略 π(s)
的时间限制(例如,对于需要实时决策的应用,或仅仅由于资源限制)。
第三,对于某些任务来说,策略(或价值函数)的结构是最容易学习的,但对
于其他任务来说,由于任务的特殊结构(不太复杂或规律性较强),环境模型
的学习效率可能更高。因此,最有效的方法取决于模型、策略和价值函数的结
构(有关泛化的更多详情,请参阅第 7 章)。让我们举两个例子来更好地理解
这一关键因素。在迷宫中,代理具有完全的可观察性,行动对下一个状态的影
响是显而易见的,代理可以很容易地从几个图元中概括出模型的动态(例如,
代理在试图穿过迷宫的一堵墙时被挡住了)。一旦知道了模型,就可以使用高
性能的规划算法。现在我们来讨论另一个例子,在这个例子中,规划反而更加
困难:一个代理必须穿过一条道路,而道路上到处都会发生随机事件。我们假
设,最佳策略只是向前移动,除非有物体刚刚出现在代理的前方。在这种情况
下,无模型方法可以很容易地捕捉到最优策略,而基于模型的方法则比较困难
(主要是由于模型的随机性,而模型的随机性又会影响策略的制定)。
50 Model-based methods for deep RL
leads to many different possible situations, even for one given sequence
of actions).
Model-based
RL
Value-based Policy-based
RL RL
基于模型
RL
以价值为基础 以政策为基础
RL RL
图 6.2:可能的 RL 算法空间维恩图。
现在,我们将介绍如何通过将学习和规划整合到一个端到端训练程序中来获
得两个世界的优势,从而获得一种在性能和计算时间上都高效的算法,而基
于模型的方法则会更加困难(主要是由于模型的随机性)。图 6.2 给出了不同
组合的维恩图。
当模型可用时,一种直接的方法是使用树搜索技术,同时利用价值网络和策
略网络(例如,Silver 等人,2016a)。当模型不可用时,假设代理只能访问
有限数量的轨迹,那么关键特性就是要有一种能很好泛化的算法(关于泛化
的讨论,请参见第 7 章)。一种可能性是建立一个模型,用于为无模型强化学
习算法生成额外样本(Gu 等人,2016b)。另一种可能性是使用基于模型的方
法和控制器(如 MPC)来执行基本任务,并使用无模型微调来实现任务成功
(Nagabandi 等人,2017 年)。
其他方法建立的神经网络架构结合了无模型和基于模型的元素。例如,可以通
过模型将值函数与反向传播步骤结合起来(Heess 等人,2015 年)。VIN 架构
(Tamar 等人,2016 年)
6.2. Integrating model-free and model-based methods 51
是一个带有规划模块的完全可微分神经网络,它能从无模型目标(由值函数给
出)中学习规划。它能很好地完成从一个初始位置到一个目标位置的基于规划
的推理任务(导航任务),并在一些不同的领域中表现出很强的通用性。
本着同样的精神,predictron(Silver 等人,2016b)旨在开发一种更普遍适
用的算法,在规划方面非常有效。它的工作原理是在抽象状态空间中隐含学习
一个内部模型,该模型用于政策评估。predictron 经过端到端训练,可从抽
象状态空间学习 2016)(i)即时奖励和(ii)多个规划深度的价值函数。
predictron 架构仅限于政策评估,但这一想法被扩展为一种可以在名为 VPN
的架构中学习最优政策的算法(Oh 等人,2017 年)。由于 VPN 依赖于 n 步
Q-learning,因此它需要政策数据。
其他研究还提出了结合基于模型和无模型方法的架构。Schema Networks
(Kansky 等人,2017 年)通过强化某种关系结构,直接从数据中学习环境
的动态。我们的想法是使用一种结构丰富的架构,通过面向对象的模型方法
提供强大的泛化能力。
I2As(韦伯等人,2017 年)并不使用模型直接执行规划,而是将预测作为深
度策略网络的附加上下文。我们提出的想法是,I2As 可以学会从学习的模型
中解释预测,从而构建隐式计划。
TreeQN(Farquhar 等人,2017 年)通过在隐式学习的抽象状态空间中递归
应用隐式转换模型来构建树,该模型是通过估计 Q 值建立的。Farquhar 等人
(2017 年)还提出了 ATreeC,这是一种行为批判变体,它通过软最大层增
强了 TreeQN,从而形成了一个随机策略网络。
CRAR 代理通过一个共享的低维环境学习编码明确地学习价值函数和模型,该
编码旨在捕捉经过总结的抽象概念并实现高效规划(François-Lavet 等人,
2018 年)。通过强制使用一种具有表现力的表征,CRAR 方法创建了一种可解
释的低维环境编码。
52 Model-based methods for deep RL
In the former case, the agent must learn how to behave in a test
environment that is identical to the one it has been trained on. In
that case, the idea of generalization is directly related to the notion
of sample efficiency (e.g., when the state-action space is too large to
be fully visited). In the latter case, the test environment has common
patterns with the training environment but can differ in the dynamics
and the rewards. For instance, the underlying dynamics may be the
same but a transformation on the observations may have happened
(e.g., noise, shift in the features, etc.). That case is related to the idea
of transfer learning (discussed in §10.2) and meta-learning (discussed
in §10.1.2).
53
7
概括的概念
泛化是机器学习领域的一个核心概念,强化学习也不例外。在 RL 算法(无模
型或基于模型)中,泛化是指
• 有能力在数据收集有限的环境中取得良好绩效,或
• 在相关环境中取得良好业绩的能力。
在前一种情况下,代理必须学会如何在与训练环境完全相同的测试环境中行
动。在这种情况下,泛化的概念与抽样效率的概念直接相关(例如,当状态-动
作空间太大而无法完全访问时)。在后一种情况下,测试环境与训练环境具有
共同的模式,但在动态和奖励方面可能有所不同。例如,基本动态可能是相同
的,但观测结果可能发生了变化(如噪声、特征变化等)。这种情况与迁移学
习(第 10.2 节讨论)和元学习(第 10.1.2 节讨论)的概念有关。
53
54 The concept of generalization
• a reward r = R(s, a, s′ ).
例如,可以根据给定的初始状态分布,采用随机抽样策略,确保在任何给定状态下采取任何行动
1
[ ] [ ]
π∗ πD π∗ πD ∞ πD ∞ πD
E V (s) − V (s) = E V (s) − V (s) + V (s) − V (s)
D ∼D D ∼D
∗
= (V π (s) − V πD ∞ (s))
︸ ︷︷ ︸
asymptotic bias
[ ]
πD ∞ πD
+ E V (s) − V (s) .
D ∼D
︸ ︷︷ ︸
error due to finite size of the dataset D
(7.1)
或无模型方法)。在这种情况下,我们可以将预期收益的次优性分解如下:
[ ] [ ]
E
D∼D
V (s) - V (s) =E
D∼D
V (s) - V (s) + V (s) - V (s)
= (V︸(s)︷︷
- V ︸(s))
渐近偏差
[ ]
+ V (s) - V (s)
E .
︸ ︷︷ ︸
D∼D
由于数据集规模有限而造成的误差 D
(7.1)
如图 7.1 所示,提高泛化能力可以看作是(i)算法完全相信频数主义假设(即
忽略有限数据分布的任何不确定性)而产生的误差,以及(ii)为降低过度拟
合风险而引入的偏差所产生的误差之间的权衡。例如,函数近似器可以看作是
一种结构形式,它的引入是为了强制实现某些泛化,但也有引入偏差的风险。
当数据集质量较低时,学习算法应倾向于采用更稳健的策略(即考虑采用更小
的策略类别,以获得更强的泛化能力)。当数据集的质量提高时,过拟合的风
险就会降低,学习算法就可以更加信任数据,从而减少渐进偏差。
56 The concept of generalization
% of the % of the
error error due to
due to Policy asymptotic
Data class
overfitting bias
百分比 百分比
错误 由于
由于 政策 渐近
过拟合 Data 类 bias
图 7.1:偏差与拟合之间的权衡示意图。
正如我们将看到的那样,对于许多算法选择,我们实际上需要在渐近偏差和过
度拟合之间做出权衡,我们称之为 "偏差-过度拟合权衡"。在本节中,我们将
讨论在深度 RL 中提高泛化能力的关键因素:
• 国家代表、
• 学习算法(函数逼近器类型、无模态与基于模态)、
• 目标函数(如奖励整形、调整训练折扣系数),以及
• 使用分层学习
在整个讨论过程中,我们会考虑一个简单的例子。这个例子绝对不能代表现实
世界问题的复杂性,但它对简单说明将要讨论的概念很有启发。让我们考虑一
个有 N 个状态(N= 11)和 N 个反应(N= 4)的 MDP。假设环境的主要部分是
一个 3 × 3 的正方形网格世界(每个网格由一个元组(x, y)表示,x = {0, 1,
2}, y = {0, 1, 2}),如图 7.2 所示。代理从中心状态(1,1)开始。在每个状态
下,它都会选择与 4 个基本方向(上、下、左、右)相对应的 4 个动作中的一
个,这导致代理确定性地过渡到紧邻它的状态,除非它试图移出该域。在域的
上部和下部,代理是
57
stuck in the same state if it tries to move out of the domain. On the
left, the agent transitions deterministically to a given state, which will
provide a reward of 0.6 for any action at the next time step. On the
right side of the square, the agent transitions with a probability 25% to
another state that will provide, at the next time step, a reward of 1 for
any action (the rewards are 0 for all other states). When a reward is
obtained, the agent transitions back to the central state.
P= 1 P = 0.25
r = 0.6 r =1
y
x
如果代理试图离开该域,它就会停留在相同的状态。在左边,代理以确定的方
式过渡到一个给定的状态,在下一个时间步骤中的任何行动都将获得 0.6 的奖
励。在方格的右侧,代理以 25% 的概率过渡到另一个状态,在下一个时间步
骤,该状态下的任何行动都将获得 1 的奖励(所有其他状态的奖励均为 0)。
获得奖励后,代理将转回中心状态。
P=1 P = 0.25
r = 0.6 r=1
y
x
在这个例子中,如果代理对环境完全了解,那么最佳的预期累积奖励(贴现率
接近 1 时)将是始终向左走,并且每 3 步重复收集 0.6 的奖励(相比之下,平
均每 6 步收集 1 的奖励)。现在,我们假设只获得了 MDP 的有限信息,每对情
侣 < s, a > 只有一个经验元组 < s, a, r, s>。根据频繁主义假设中的有限数据,有
相当高的概率(∼ 58%),右边至少有一个过渡似乎提供了通向 r = 1 的确定性
通道。在这种情况下,无论是基于模型的方法还是无模型的方法,如果学习算
法在根据频数统计建立的经验 MDP 中得出了最优策略,那么它的泛化能力实
际上会很差,因为它会选择尝试获得 r = 1 的奖励。
我们将在下文讨论可用于避免对有限数据过度拟合的不同方面。
58 The concept of generalization
The idea of selecting the right features for the task at hand is key in the
whole field of machine learning and also highly prevalent in reinforcement
learning (see e.g., Munos and Moore, 2002; Ravindran and Barto, 2004;
Leffler et al., 2007; Kroon and Whiteson, 2009; Dinculescu and Precup,
2010; Li et al., 2011; Ortner et al., 2014; Mandel et al., 2014; Jiang
et al., 2015a; Guo and Brunskill, 2017; François-Lavet et al., 2017). The
appropriate level of abstraction plays a key role in the bias-overfitting
tradeoff and one of the key advantages of using a small but rich abstract
representation is to allow for improved generalization.
Figure 7.3: Illustration of the state representation and feature selection process. In
this case, after the feature selection process, all states with the same x-coordinate
are considered as indistinguishable.
58 概括的概念
通常以引入一些偏差为代价。最后,我们还讨论了如何在实践中利用偏差与拟
合之间的权衡,从有限的数据中获得最佳性能。
7.1 特征选择
为手头任务选择正确特征的理念是整个机器学习领域的关键,在强化学习中
也非常普遍(参见 Munos 和 Moore,2002 年;Ravindran 和 Barto,2004
年;Leffler 等人,2007 年;Kroon 和 Whiteson,2009 年;Dinculescu 和
Precup,2010 年;Li 等人,2011 年;Ortner 等人,2014 年;Mandel 等
人,2014 年;Jiang 等人,2014 年)、2007;Kroon 和 Whiteson,2009;
Dinculescu 和 Precup,2010;Li 等人,2011;Ortner 等人,2014;
Mandel 等人,2014;Jiang 等人,2015a;Guo 和 Brunskill,2017;
François-Lavet 等人,2017)。适当的抽象程度在偏差与拟合的权衡中起着关
键作用,而使用小而丰富的抽象表征的主要优势之一就是可以提高泛化程
度。
过度拟合 在考虑许多特征作为策略基础时(如图 7.3 所示的状态 y 坐标),RL
算法可能会考虑到虚假的相关性,从而导致过度拟合(在本例中,由于数据
有限,代理可能会推断 y 坐标会对预期收益产生影响)。
国家 特点
环境 代表权 只保留 x 坐标的选择
与一套
特征 (x, y)
图 7.3:状态表示和特征选择过程示意图。在这种情况下,经过特征选择过程后,所有具有相同 x
坐标的状态都被视为无差别状态。
7.2. Choice of the learning algorithm and function approximator selection
59
下一节将对此进行详细讨论。
7.2 学习算法的选择和函数近似值的选择
深度学习中的函数近似器描述了如何将特征处理到更高的抽象层次(因此,它
可以给某些特征赋予更多或更少的权重)。举例来说,如果深度神经网络的第
一层存在注意力机制,那么这些第一层组成的映射就可以看作是一种特征选择
机制。
一方面,如果用于价值函数和/或政策和/或模型的函数近似值过于简单,可能
会出现渐近偏差。另一方面,当函数近似值的概括性较差时,会由于有限大小
而产生较大误差。
60 The concept of generalization
辅助任务
7.2.1
在深度 RL 中,有可能建立一种抽象状态,从而为同时拟合内部有意义的动态
以及估计最优策略的期望值提供足够的信息。通过状态表示明确地学习无模型
和基于模型的部分,再加上一个
7.3. Modifying the objective function 61
7.3修改目标函数
为了改进深度 RL 算法学习到的策略,我们可以优化与实际目标相背离的目标
函数。这样做通常会带来偏差,但在某些情况下,这有助于实现泛化。修改目
标函数的主要方法有:(i) 修改任务的奖励,以方便学习(奖励整形),或 (ii) 在
训练时调整折扣系数。
7.3.1 奖励塑造
奖励塑造是一种加快学习速度的启发式方法。在实践中,奖励塑造利用了先验
知识,通过对导致预期结果的行动给予中间奖励。它通常被形式化为一个函数
F (s, a, s) 添加到原始 MDP 的原始奖励函数 R(s, a, s) 中(Ng 等人,1999
年)。这种技术通常用于深度强化学习,以改善奖励稀疏和延迟设置下的学习
过程(例如,Lample 和 Chaplot,2017 年)。
折扣系数
7.3.2
当代理可用的模型是从数据中估算出来的,使用较短规划期限找到的政策实际
上可能比使用真实期限学习到的政策更好(Petrik 和 Scherrer,2009;Jiang
等人,2015b)。一方面,人为缩短规划期限会导致偏差,因为目标函数被修改
了。另一方面,如果目标规划期限较长(贴现因子 γ 接近 1),则过度拟合的风
险较高。这种过拟合可以直观地理解为,与实际过渡概率和奖励概率相比,从
数据中估算出的过渡概率和奖励概率的误差不断累积。在上面的例子中
62 The concept of generalization
(Figure 7.2), in the case where the upper right or lower right states
would seem to lead deterministically to r = 1 from the limited data,
one may take into account that it requires more steps and thus more
uncertainty on the transitions (and rewards). In that context, a low
training discount factor would reduce the impact of rewards that are
temporally distant. In the example, a discount factor close to 0 would
discount the estimated rewards at three time steps much more strongly
than the rewards two time steps away, hence practically discarding the
potential rewards that can be obtained by going through the corners as
compared to the ones that only require moving along the x-axis.
In addition to the bias-overfitting tradeoff, a high discount factor
also requires specific care in value iteration algorithms as it can lead to
instabilities in convergence. This effect is due to the mappings used in
the value iteration algorithms with bootstrapping (e.g., Equation 4.2
for the Q-learning algorithm) that propagate errors more strongly with
a high discount factor. This issue is discussed by Gordon (1999) with
the notion of non-expansion/expansion mappings. When bootstrapping
is used in a deep RL value iteration algorithm, the risk of instabilities
and overestimation of the value function is empirically stronger for a
discount factor close to one (François-Lavet et al., 2015).
除了偏差与拟合之间的权衡之外,高贴现率还需要在价值迭代算法中特别注
意,因为它可能导致收敛的不稳定性。造成这种影响的原因是价值迭代算法中
使用的自举映射(例如 Q-learning 算法中的公式 4.2),高贴现率会使误差传
播得更快。戈登(Gordon,1999 年)用非扩展/扩展映射的概念讨论了这一
问题。在深度 RL 值迭代算法中使用引导时,根据经验,贴现因子接近 1 时,
不稳定和高估值函数的风险更大(François-Lavet 等人,2015 年)。
7.4分层学习
学习时间上扩展的行动(而不是持续一个时间步的原子行动)的可能性已被正
式命名为选项(Sutton 等人,1999 年)。类似的观点在文献中也被称为宏行
动(McGovern 等人,1997 年)或抽象行动(Hauskrecht 等人,1998 年)。
选项的使用是 RL 中的一个重要挑战,因为当手头的任务需要在较长的时间尺
度上工作时,选项的使用是必不可少的,同时还需要开发泛化能力,使策略间
的迁移学习更容易。最近的一些研究在完全可微分(因此在深度 RL 中是可学
习的)选项发现方面取得了一些有趣的成果。Bacon 等人在 2016 年的研究中
提出了一种期权批判架构,这种架构能够同时学习内部策略以及
7.5. How to obtain the best bias-overfitting tradeoff 63
7.5如何获得偏差与拟合之间的最佳平衡
从前面的章节可以看出,有多种算法选择和参数会对偏差-拟合权衡产生影响
(包括在基于模型和无模型之间的方法选择)。将所有这些因素综合起来,就
能获得较低的总体次优性。
对于给定的算法参数设置,在其他条件相同的情况下,正确的复杂度水平是
偏差的增加等同于过拟合的减少(或过拟合的增加等同于偏差的减少)。然
而,在实践中,通常没有一种分析方法可以在所有算法选择和参数之间找到
正确的权衡。不过,还是有多种实用策略可以使用。现在我们就批量设置和
在线设置两种情况进行讨论。
批量设置
7.5.1
在批量设置的情况下,选择策略参数以有效平衡偏差-拟合权衡的方法与监督
学习(如交叉验证)中的方法类似,只要性能标准可以从数据集 D 中未在训练
中使用的轨迹子集(即验证集)中估算出来即可。
The empirical MDP can then be used to evaluate the policy. This purely
model-based estimator has alternatives that do not require fitting a
model. One possibility is to use a policy evaluation step obtained
by generating artificial trajectories from the data, without explicitly
referring to a model, thus designing a Model-free Monte Carlo-like
(MFMC) estimator (Fonteneau et al., 2013). Another approach is to
use the idea of importance sampling that lets us obtain an estimate of
V π(s) from trajectories that come from a behavior policy β 6
= π, where
β is assumed to be known (Precup, 2000). That approach is unbiased
but the variance usually grows exponentially in horizon, which renders
the method unsuitable when the amount of data is low. A mix of the
regression-based approach and the importance sampling approach is
also possible (Jiang and Li, 2016; Thomas and Brunskill, 2016), and
the idea is to use a doubly-robust estimator that is both unbiased and
with a lower variance than the importance sampling estimators.
Note that there exists a particular case where the environment’s
dynamics are known to the agent, but contain a dependence on
an exogenous time series (e.g., trading in energy markets, weather-
dependent dynamics) for which the agent only has finite data. In that
case, the exogenous signal can be broken down in training time series
and validation time series (François-Lavet et al., 2016b). This allows
training on the environment with the training time series and this
allows estimating any policy on the environment with the validation
time series.
需要注意的是,存在一种特殊情况,即代理已知环境动态,但其中包含对代理
只有有限数据的外生时间序列的依赖(如能源市场交易、与天气相关的动
态)。在这种情况下,外生信号可以分解为训练时间序列和验证时间序列
(François-Lavet 等人,2016b)。这样就可以利用训练时间序列对环境进行训
练,并利用验证时间序列对环境中的任何政策进行估计。
在线设置
7.5.2
在在线环境中,代理会不断积累新的经验。为了实现良好的采样效率,偏差与
拟合之间的权衡在学习过程的每个阶段仍然起着关键作用。事实上,从给定数
据中得出一个有效的策略是高效探索/开发权衡的部分解决方案。因此,随着可
用数据的增加,逐步拟合一个函数近似值实际上可以理解为在整个学习过程中
获得良好的偏差-拟合权衡的一种方法。基于同样的逻辑,逐步提高贴现因子可
以通过以下方式优化偏差与拟合的权衡
7.5. How to obtain the best bias-overfitting tradeoff 65
66
8
在线环境中的特殊挑战
如导言所述,强化学习可用于两种主要环境:(i) 批量环境(也称离线环境)和
(ii) 在线环境。在批处理设置中,学习任务的整个转换集(s、a、r、s)是固定
的。这与在线设置形成鲜明对比,在在线设置中,代理可以逐步积累新经验。
在在线环境中,有两个具体因素尚未得到深入讨论。首先,代理可以影响收集
经验的方式,使其对学习最有用。这就是我们在第 8.1 节中讨论的探索/开发两
难问题。其次,代理可以使用重放记忆(Lin,1992 年),从而提高数据效率。
我们将在第 8.2 节讨论应存储哪些经验以及如何重新处理这些经验。
8.1 勘探/开发的两难选择
探索-开发两难是 RL 中一个经过深入研究的权衡问题(例如 Thrun,1992
年)。探索是为了获取环境信息(过渡模型和奖励函数),而利用
是指在当前知识条件下最大化预期收益。当一个代理开始积累有关其环境的知
识时,它会
66
8.1. Exploration/Exploitation dilemma 67
在了解更多环境信息(探索)和根据目前积累的经验采取最有希望的策略(开
发)之间,必须做出权衡。
8.1.1 勘探/开发两难境地中的不同环境
主要有两种不同的情况。在第一种情况下,不需要单独的训练阶段,代理就
能表现出色。因此,探索与开发之间出现了明确的权衡,即只有当学习机会
对未来有足够的价值,足以弥补直接开发所能提供的价值时,代理才应该进
行探索。算法的次优化 EV (s) - V (s)
在这种情况下得到的结果被称为累积遗憾值(cumulative regret)。深度 RL
界通常并不关注这种情况,除非有明确的说明,如 Wang 等人(2016a)和
Duan 等人的研究。
(2016b).
更常见的情况是,在与环境交互的第一阶段,允许代理遵循训练策略,以积
累训练数据,从而学习测试策略。在训练阶段,探索只受限于它能与环境进
行的交互(如给定的交互次数)。然后,测试策略应能在单独的交互阶段最大
化累积奖励总和。次优化 EV (s) - V (s)
在这种情况下得到的结果称为简单后悔值。需要注意的是,隐含的探索/开发
仍然很重要。一方面,代理必须确保环境中鲜为人知的部分没有前途(探
索)。另一方面,代理有兴趣在环境中最有前途的部分收集经验(这与开发有
关),以完善对动态的了解。例如,在图 8.1 所示的 "强盗 "任务中,只需几个
样本就能清楚地看出右边的选择不太有前途,因此代理应主要在最有前途的
两个臂上收集经验,以便能够分辨出最好的一个。
该术语主要用于代理人只处于一种状态,且每个行动都与奖励分布相关联的强盗社区;参见
1
Bubeck 等人,2011 年。
68 Particular challenges in the online setting
P(·)
P(·) P(·)
P(·) P(·)
0 R r 0 R r 0 R r
图 8.1:多臂强盗问题中 3 个臂的奖励概率说明。
8.1.2 不同的勘探方法
探索技术分为两大类:(i) 定向探索和 (ii) 非定向探索(Thrun,1992 年)。
在无定向探索技术中,代理不依赖于对环境的任何特定探索知识(Thrun,
1992 年)。例如,被称为 "贪婪"(greedy)的技术会采取概率随机行动,并
遵循概率为 1 - 的最优策略。其他变种,如软最大探索(也称作波尔兹曼探
索),采取的行动概率取决于相关的预期收益。
与无向探索相反,有向探索技术利用的是过去与环境交互的记忆。对于 MDPs
而言,有向探索可随状态空间的大小呈多项式扩展,而无向探索一般会随状态
空间的大小呈指数扩展(例如,Eby Kearns 和 Singh,2002;Brafman 和
Tennenholtz 的 R-max,2003;......)。受贝叶斯设置的启发,定向探索可以
通过探索奖励启发式(Kolter 和 Ng,2009 年)或香农信息增益最大化(如
Sun 等人,2011 年)来完成。
然而,定向探索在高维状态空间中并不完全适用(例如,Kakade 等人,2003
年)。随着深度学习泛化能力的发展,人们对一些可能性进行了研究。关键的
挑战在于,如何在高维空间中以有原则的方式处理探索与开发之间的权衡问
题--其理念是鼓励探索环境
8.1. Exploration/Exploitation dilemma 69
where the uncertainty due to limited data is the highest. When rewards
are not sparse, a measure of the uncertainty on the value function can
be used to drive the exploration (Dearden et al., 1998; Dearden et al.,
1999). When rewards are sparse, this is even more challenging and
exploration should in addition be driven by some novelty measures on
the observations (or states in a Markov setting).
Before discussing the different techniques that have been proposed
in the deep RL setting, one can note that the success of the first deep
RL algorithms such as DQN also come from the exploration that arises
naturally. Indeed, following a simple -greedy scheme online often proves
to be already relatively efficient thanks to the natural instability of the
Q-network that drives exploration (see Chapter 4 for why there are
instabilities when using bootstrapping in a fitted Q-learning algorithm
with neural networks).
Different improvements are directly built on that observation. For
instance, the method of "Bootstrapped DQN" (Osband et al., 2016)
makes an explicit use of randomized value functions. Along similar lines,
efficient exploration has been obtained by the induced stochasticity
of uncertainty estimates given by a dropout Q-network (Gal and
Ghahramani, 2016) or parametric noise added to its weights (Lipton
et al., 2016; Plappert et al., 2017; Fortunato et al., 2017). One specificity
of the work done by Fortunato et al., 2017 is that, similarly to Bayesian
deep learning, the variance parameters are learned by gradient descent
from the reinforcement learning loss function.
Another common approach is to have a directed scheme thanks
to exploration rewards given to the agent via heuristics that estimate
novelty (Schmidhuber, 2010; Stadie et al., 2015; Houthooft et al., 2016).
In (Bellemare et al., 2016; Ostrovski et al., 2017), an algorithm provides
the notion of novelty through a pseudo-count from an arbitrary density
model that provides an estimate of how many times an action has been
taken in similar states. This has shown good results on one of the most
difficult Atari 2600 games, Montezuma’s Revenge.
In (Florensa et al., 2017), useful skills are learned in pre-training
environments, which can then be utilized in the actual environment
to improve exploration and train a high-level policy over these skills.
Similarly, an agent that learns a set of auxiliary tasks may use them to
8.1.勘探/开发的两难选择 69
其中,数据有限导致的不确定性最大。当奖励并不稀疏时,可以使用价值函数
的不确定性度量来驱动探索(Dearden 等人,1998 年;Dearden 等人,1999
年)。当奖赏稀疏时,这就更具挑战性,因此还应在观察结果(或马尔可夫环
境中的状态)的某些新奇度量的基础上进行探索。
在讨论深度 RL 环境中提出的不同技术之前,我们可以注意到,第一批深度 RL
算法(如 DQN)的成功也来自于自然产生的探索。事实上,由于 Q 网络的天
然不稳定性推动了探索,遵循简单的在线贪婪方案往往被证明已经相对高效
(参见第 4 章,了解在神经网络的拟合 Q 学习算法中使用引导时为何会出现不
稳定性)。
不同的改进方法都直接建立在这一观察结果的基础上。例如,"Bootstrapped
DQN "方法(Osband 等人,2016 年)明确使用了随机值函数。沿着类似的
思路,高效的探索也是通过辍学 Q 网络给出的不确定性估计的诱导随机性
(Gal 和 Ghahramani,2016 年)或添加到其权重中的参数噪声来实现的
(Lipton 等人,2016 年;Plappert 等人,2017 年;Fortunato 等人,2017
年)。Fortunato 等人 2017 年所做工作的一个特点是,与贝叶斯深度学习类
似,方差参数也是通过强化学习损失函数的梯度下降来学习的。
另一种常见的方法是,通过启发式方法估算新颖性,为代理提供探索奖励,
从而建立一个定向计划(Schmidhuber,2010;Stadie 等人,2015;
Houthooft 等人,2016)。在(Bellemare 等人,2016 年;Ostrovski 等人,
2017 年)中,一种算法通过来自任意密度模型的伪计数来提供新颖性的概
念,该模型提供了在类似状态下某一行动被采取过多少次的估计值。该算法
在难度最高的 Atari 2600 游戏之一《蒙特祖玛的复仇》中取得了良好的效
果。
在(Florensa 等人,2017 年)中,有用的技能是在预训练环境中学到的,然
后可以在实际环境中利用这些技能来提高探索能力,并对这些技能进行高级
策略训练。同样,一个学习了一系列辅助任务的代理可以利用它们来
70 Particular challenges in the online setting
其他方法则需要人类演示者的演示或指导。有一种方法建议使用自然语言来引
导代理,在指令被正确执行时提供探索奖金(Kaplan 等人,2017 年)。在有
专家代理示范的情况下,在这些领域指导探索的另一种策略是模仿好的轨迹。
在某些情况下,即使专家的示范是在环境设置不完全相同的情况下给出的,也
可以使用专家的示范,而学习一组辅助任务的代理可能会使用它们(Aytar 等
人,2018 年)。
8.2. Managing experience replay 71
8.2管理经验回放
在在线学习中,代理可以使用重放存储器(Lin,1992 年),通过存储代理过去
的经验来提高数据效率,以便以后有机会重新处理。此外,重放存储器还能确
保小批量更新是从重放存储器中保存的相当稳定的数据分布(Nreplay 足够大
时)开始的,这有助于收敛/稳定。这种方法尤其适用于非政策学习,因为使用
过去(即不同)政策的经验不会带来任何偏差(通常甚至有利于探索)。在这
种情况下,基于 DQN 学习算法或基于模型的学习等方法可以安全高效地利用
重放存储器。在在线设置中,重放存储器会保存最近 N∈N 个时间步的所有信
息,其中 N 受可用内存量的限制。
虽然重放存储器允许以不同于体验的顺序处理转换,但也有可能使用优先重
放。这样就可以根据转场的重要性,以不同于体验的频率来考虑转场(即哪些
体验需要存储,哪些体验需要重放)。在 Schaul 等人的研究中(Schaul et
al.,2015b),优先级随转场的 TD 误差大小而增加,目的是让 "意外 "转场得
到更频繁的重放。
按优先级重放的一个缺点是,一般来说,它也会带来偏差;事实上,通过修改
转换和奖励的表观概率,预期收益也会产生偏差。考虑一下图 8.2 所示的简单
例子,我们就能很容易地理解这一点。在这个例子中,代理试图估算给定元组
< s, a > 的预期收益。在这个例子中,累计收益为 0 的概率为 1 -(来自下一个
状态 s),而累计收益 C > 0 的概率为(来自下一个状态 s)。在这种情况下,使
用优先经验重放会使预期回报偏向于高于 C 的值,因为任何导致 sw 的过渡都
会以高于 . 的概率被重放。
72 Particular challenges in the online setting
T (s, a, s(1) ) = 1 −
π (1)
s(1) V (s ) = 0
s
T (s, a, s(2) ) =
π (2)
s(2) V (s ) = C > 0
Figure 8.2: Illustration of a state s where for a given action a, the value of Q π (s, a; θ)
would be biased if prioritized experience replay is used ( << 1).
s
T (s, a, s) =
s V (s) = C > 0
需要注意的是,这种偏差可以通过加权重要度采样得到部分或完全纠正,而这
种纠正在训练结束接近收敛时非常重要(Schaul 等人,2015b)。
9
Benchmarking Deep RL
73
9
深度 RL 基准
由于学习过程具有随机性,而且在算法比较过程中检查的数据集范围较窄,因
此比较深度学习算法是一个具有挑战性的问题。在深度强化学习中,这一问题
更加严重。事实上,深度强化学习既涉及环境的随机性,也涉及模型学习固有
的随机性,这使得确保公平比较和可重复性尤为困难。为此,我们创建了许多
顺序决策任务的模拟,作为基准。在本节中,我们将介绍几个这样的基准。接
下来,我们将介绍确保实验结果一致性和可重复性的关键要素。最后,我们还
将讨论一些深度 RL 算法的开源实现。
9.1 基准环境
9.1.1 经典控制问题
长期以来,一些经典的控制问题一直被用于评估强化学习算法。这些问题包括
在小车上平衡一根杆子(Cartpole)(Barto 等人,1983 年),试图让一辆汽
车在行驶过程中保持平衡(Barto et al.
73
74 Benchmarking Deep RL
9.1.2 Games
Board-games have also been used for evaluating artificial intelligence
methods for decades (Shannon, 1950; Turing, 1953; Samuel, 1959; Sutton,
1988; Littman, 1994; Schraudolph et al., 1994; Tesauro, 1995; Campbell
et al., 2002). In recent years, several notable works have stood out in
using deep RL for mastering Go (Silver et al., 2016a) or Poker (Brown
and Sandholm, 2017; Moravčik et al., 2017).
In parallel to the achievements in board games, video games have
also been used to further investigate reinforcement learning algorithms.
In particular,
• they also usually require very long planning horizons (e.g., due to
sparse rewards).
9.1.2 游戏
几十年来,棋盘游戏也一直被用于评估人工智能方法(香农,1950 年;图
灵,1953 年;塞缪尔,1959 年;萨顿,1988 年;利特曼,1994 年;施劳德
夫等人,1994 年;特索罗,1995 年;坎贝尔等人,2002 年)。近年来,在利
用深度 RL 掌握围棋(Silver 等人,2016a)或扑克(Brown 和 Sandholm,
2017;Moravčik 等人,2017)方面,有几项著名的研究成果脱颖而出。
在棋盘游戏取得成就的同时,视频游戏也被用来进一步研究强化学习算法。
特别是
• 许多游戏都有很大的观察空间和/或很大的操作空间;
• 它们通常是非马尔科夫模型,需要特别注意(见第 10.1 节);
• 它们通常还需要很长的规划期(例如,由于奖励稀少)。
一些基于视频游戏的平台已经得到普及。街机学习环境(ALE)(Bellemare 等
人,2013 年)就是为了测试各种不同任务的强化算法而开发的。该系统包含一
整套具有代表性的雅达利游戏,包括《乒乓》、《小行星》、《蒙特祖玛的复仇》
等。图 9.1 显示了其中一些游戏的帧样本。在大多数雅达利游戏中,深度 RL 算
法都达到了超人水平(Mnih 等人,2015 年)。由于不同雅达利游戏的状态和
动作空间具有相似性
9.1. Benchmark Environments 75
games or different variants of the same game, they are also a good test-
bed for evaluating generalization of reinforcement learning algorithms
(Machado et al., 2017b), multi-task learning (Parisotto et al., 2015) and
for transfer learning (Rusu et al., 2015).
算法。代理需要玩多个未知游戏,可以使用或不使用游戏模拟器,也可以设计
新的游戏关卡或规则。
Minecraft 的开放世界特性也为探索强化学习和人工智能提供了便利的平台。
马尔默项目(Project Malmo)(Johnson 等人,2016 年)是一个可以轻松访
问 Minecraft 视频游戏的框架。该环境和框架提供了多层抽象,有助于完成从
简单导航到协作解决问题等各种任务。由于模拟的性质,一些作品还研究了终
身学习、课程学习和分层规划,并将 Minecraft 用作
76 Benchmarking Deep RL
9.1.3 连续控制系统和机器人领域
虽然游戏为强化学习提供了一个便捷的平台,但这些环境大多研究的是离散行
动决策。在现实世界的许多系统中,如机器人学,有必要提供连续控制的框
架。
在这种情况下,MuJoCo(Todorov 等人,2012 年)仿真框架被用来提供几
个运动基准任务。这些任务通常涉及学习步态,以尽可能快地移动模拟机器人
代理。动作空间是应用于代理关节上电机的扭矩大小,而提供的观测数据通常
是三维空间中的关节角度和位置。一些框架建立在这些运动任务之上,以提供
分层任务环境(Duan 等人,2016a)和多任务学习平台(Henderson 等人,
2017a)。
由于 MuJoCo 模拟器是闭源的,需要许可证,因此一项名为 Roboschool 的
开源计划(Schulman 等人,2017b)提供了相同的运动任务,以及涉及仿人
机器人模拟的更复杂的任务(例如学习奔跑和追逐移动的旗帜,同时被阻碍前
进的障碍物击中)。
9.1. Benchmark Environments 77
9.1.4 Frameworks
Most of the previously cited benchmarks have open-source code available.
There also exists easy-to-use wrappers for accessing many different
benchmarks. One such example is OpenAI Gym (Brockman et al., 2016).
This wrapper provides ready access to environments such as algorithmic,
Atari, board games, Box2d games, classical control problems, MuJoCo
robotics simulations, toy text problems, and others. Gym Retro1 is
a wrapper similar to OpenAI Gym and it provides over 1,000 games
1
https://github.com/openai/retro
9.1.基准环境 77
通过这些任务,可以对强化学习算法中的复杂规划进行评估。
物理引擎也被用于研究将学习转移到现实世界中的应用。例如,Bullet 物理引
擎(Coumans、Bai 等人,2016 年)已被用于学习模拟运动技能、游戏中的
角色动画(Peng 等人,2017b)或转移到真实机器人上(Tan 等人,2018
年)。这也包括操纵任务(Rusu 等人,2016 年;Duan 等人,2017 年),即
机械臂按照给定顺序堆叠立方体。有几项研究将机器人操作系统(ROS)与物
理引擎(如 ODE 或 Bullet)相集成,以提供与 RL 兼容的接近真实世界的机
器人模拟访问(Zamora 等人,2016 年;Ueno 等人,2017 年)。它们中的大
多数也可以使用相同的软件在真实机器人系统上运行。
9.1.4框架
前面提到的大多数基准都有开放源代码。此外,还有一些易于使用的封装器,
可用于访问许多不同的基准。其中一个例子是 OpenAI Gym(Brockman 等
人,2016 年)。该封装器可随时访问算法、Atari、棋盘游戏、Box2d 游戏、经
典控制问题、MuJoCo 机器人模拟、玩具文本问题等环境。Gym Retro 是一个
类似于 OpenAI Gym 的包装器,它提供了 1000 多个游戏
1
https://github.com/openai/retro
78 Benchmarking Deep RL
2
https://github.com/unixpickle/muniverse
3
https://github.com/SerpentAI/SerpentAI
78 深度 RL 基准
跨各种备份模拟器。我们的目标是研究深度 RL 代理在概念相似但外观不同的
游戏之间进行泛化的能力。其他框架,如 μniverse 和 SerpentAI,也为特定
游戏或模拟提供了封装器。
试验次数、随机种子和显著性检验
随机性在深度 RL 中扮演着重要角色,它既来自神经网络初始化的随机性,也
来自环境的随机性。只需改变随机种子,结果就可能大相径庭。因此,在比较
算法性能时,对不同的随机种子进行多次试验非常重要。
在深度 RL 中,简单地用几次学习试验的平均值来测试算法的有效性已成为一
种普遍做法。虽然这是一种合理的基准策略,但源自显著性检验的技术
(Demšar,2006 年;Bouckaert 和 Frank,2004 年;Bouckaert,2003
年;Dietterich,1998 年)具有提供支持给定假设的统计基础论据的优势。在
深度 RL 的实践中,显著性检验可用于考虑不同随机种子和环境条件下多次试
验的标准偏差。例如,通过简单的两样本 t 检验,可以了解性能提升是否主要
归因于算法性能的提高。
2
https://github.com/unixpickle/muniverse
3
https://github.com/SerpentAI/SerpentAI
9.2. Best practices to benchmark deep RL 79
或在高度随机的环境中出现噪声结果。特别是,虽然有几项研究使用了前 K 次
试验,并简单地将其作为性能增益,但有人认为这不足以进行公平的比较
(Machado 等人,2017b;Henderson 等人,2017b)。
此外,还应注意不要过度解读结果。有可能在一种或几种给定的环境下,在一
组或几组给定的超参数下,一个假设被证明是成立的,但在其他环境下却失效
了。
超参数调整和消融比较
另一个重要的考虑因素是确保学习算法之间的公平比较。在这种情况下,消融
分析会在多次试验中使用不同的随机种子对交替配置进行比较。对于基线算法
来说,尽可能调整超参数尤为重要。超参数选择不当会导致新算法与基线算法
之间的不公平比较。特别是,网络架构、学习率、奖励比例、训练折扣系数和
许多其他参数都会对结果产生重大影响。要确保新型算法的性能确实好得多,
就需要在选择此类超参数时采用适当的科学程序(Henderson 等人,
2017b)。
报告结果、基准环境和指标
跨评估轨迹的平均回报(或累计奖励)通常作为比较指标进行报告。虽然有些
文献(Gu 等人,2016a;Gu 等人,2017c)也使用了 Z 样本内的平均最大回
报或最大回报等指标,但这些指标可能存在偏差,使高度不稳定算法的结果显
得更为显著。例如,如果一种算法很快就达到了很高的最大回报率,但随后又
出现了分化,那么这些指标将确保这种算法看起来是成功的。在选择报告指标
时,重要的是要选择那些能提供公平比较的指标。如果算法在平均最大回报率
方面表现较好,但使用平均回报率指标则表现较差,则必须突出这两种结果,
并说明这种算法的优点和缺点(Henderson 等,2017b)。
80 Benchmarking Deep RL
虽然许多论文发布了各种深度 RL 算法的实现,但也有一些框架旨在促进新深
度 RL 算法的开发或将现有算法应用于各种环境。我们在附录 A 中提供了一些
现有框架的列表。
10
Deep reinforcement learning beyond MDPs
81
10
超越 MDP 的深度强化学习
到目前为止,我们主要讨论了代理如何在给定的马尔可夫环境中学习如何行
为,在马尔可夫环境中,所有有趣的信息(状态 s∈S)都是在每个时间步长 t
获取的。在本章中,我们将讨论更一般的情况:(i) 非马尔可夫环境,(ii) 迁移
学习和 (iii) 多代理系统。
10.1部分可观测性和(相关)MDP 的分布
在马尔可夫假设成立的领域中,我们可以直截了当地证明,政策无需依赖于前
几个时间步骤所发生的事情来推荐行动(根据马尔可夫假设的定义)。本节将
介绍使马尔可夫假设复杂化的两种不同情况:部分可观测环境和(相关)环境
分布。
乍一看,这两种情况在概念上大相径庭。不过,在这两种情况下,在顺序决策
过程的每一步,代理在决定执行什么行动时,都可能会考虑到直到当前时间步
长 t 的整个可观测历史。换句话说,观测历史可以用作伪状态(伪状态指的是
一种不同的抽象状态)。
81
82 Deep reinforcement learning beyond MDPs
10.1.1 部分可观测情景
在这种情况下,代理在每个时间步长内只能接收到一次对环境的观测,无法确
定状态。部分可观测马尔可夫决策过程(POMDP)是一种离散时间随机控制
过程,其观测历史可用作伪状态(伪状态指的是一种不同的抽象状态)
(Sondik,1978;Kaelbling 等人,1998),定义如下:
定义 10.1.POMDP 是一个 7 元组(S, A, T, R, Ω, O, γ),其中:
• S 是一个有限的状态集合 {1, ., N},
• T : S × A × S → [0, 1] 是过渡函数(状态之间的条件过渡概率集) 、
• R : S ×A×S → R 是奖励函数,其中 R 是 R∈ R(例如 [0,R],不失一
般性)范围内可能奖励的连续集合、
• Ω 是观测值 {1,......,N} 的有限集合。, N},
• O : S × Ω → [0, 1] 是一组条件观测概率,并且
γ∈ [0, 1]是贴现因子。
•
s0 s1 s2 Hidden
dynamics
ω0 ω1 ω2
...
a0 r0 a1 r1 a2
H0 H1 H2
建立候选政策空间的一种简单方法是,只考虑以最后一个或多个观测值作为输
入的映射集。然而,在 POMDP 环境中,这种方法所得出的候选策略通常不够
丰富,无法捕捉系统动态,因此是次优的。在这种情况下,可实现的最佳策略
就是随机策略(Singh 等人,1994 年),它可以通过策略梯度来获得。另一种
方法是利用先前观测到的历史特征来更好地估计隐藏状态动态。我们用 H=
Ω×(A×R×Ω)表示在 t∈N 时直到时间 t 所观察到的历史记录集(见图
10.1),用 H= Ω×(A×R×Ω)表示在 t∈N 时直到时间 t 所观察到的历史记录
集。
由H= H 即所有可能的可观测历史的空间。
∞
⋃
t=0
隐藏
s s s
动力
ω ω ω
...
a r a r a
政策 政策 政策
H H H
10.1.2 相关)环境的分布
在这种情况下,代理的环境是一个不同的分布(ii)包含候选政策的风险增
加,这些候选政策因过度拟合(但相关)任务而受到影响,例如在奖励函数或
从一个状态过渡到另一个状态的概率方面。每个任务 T∼ T 可以由观测值 ω∈
Ω(如果环境是马尔可夫的,则观测值等于 s)、奖励 r∈ R 以及每一步采取的
行动 a∈ A 的影响来定义。与部分可观测情境类似,我们用 H 表示观测历史,
其中 H∈ H= Ω × (A × R × Ω)。代理人的目标是找到一个政策 π(a|H;θ),其目
标是最大化预期收益,(在贴现环境下)其定义为
[∑ ]
E
T∼T
γr| H,π
k=0
.
图 10.2 展示了非马尔可夫环境下元学习的一般设置。
文献中研究了不同的方法。贝叶斯方法旨在明确模拟不同环境的分布(如果
有先验模型的话)(Ghavamzadeh 等人,2015 年)。然而,计算贝叶斯最优
策略往往很困难,人们不得不依赖不需要明确的分布模型的更实用的方法。
金属学习(metalearning)或学习学习(learning to learn)的概念旨在从经
验中发现如何
10.1. Partial observability and the distribution of (related) MDPs 85
Distribution of tasks
Training
on a set
of tasks
RL algorithm
Testing
on related
tasks
Figure 10.2: Illustration of the general setting of meta learning on POMDPs for a
set of labyrinth tasks. In this illustration, it is supposed that the agent only sees the
nature of the environment just one time step away from him.
任务分配
培训
在一组
任务
RL 算法
测试
关于相关
任务
在一系列任务中的行为,以及如何协商探索与开发之间的权衡(Hochreiter
等人,2001 年)。在这种情况下,Wang 等人,2016a;Duan 等人,2016b
等人研究了深度 RL 技术,他们的想法是使用从分布中 i.i.d. 抽取的一组环境
训练的递归网络。
人们还研究了其他一些方法。一种方法是训练一个神经网络,模仿从分布中提
取的 MDP 上已知最优策略的行为(Castronovo 等人,2017 年)。也可以对
模型的参数进行显式训练,以便在分布中的新任务中进行少量梯度阶跃就能在
该任务上产生快速学习(Finn 等人,2017 年)。
86 Deep reinforcement learning beyond MDPs
迁移学习
10.2
迁移学习是指有效利用源环境中的先前知识,在目标环境中取得良好表现的任
务。在迁移学习环境中,目标环境不应该在源任务的分布中。然而,在实践
中,迁移学习的概念有时与元学习密切相关,我们将在下文中讨论。
10.2.1 零点学习
零距离学习的理念是,代理应该能够直接根据在其他类似任务中获得的经
验,在新任务中采取适当的行动。例如,一种使用情况是在模拟环境中学习
一种策略,然后将其用于不可能或严重受限于经验收集的真实环境中(见第
11.2 节)。要做到这一点,代理必须(i)发展第 7 章所述的泛化能力,或
(ii)使用特定的转移策略,明确地重新训练或替换其部分组件,以适应新任
务。
要开发泛化能力,一种方法是使用与监督学习中的数据扩充类似的想法,以
便理解训练数据中未遇到的变化。与元学习中的情况(第 10.1.2 节)完全相
同,实际(未见的)任务可以是
10.2. Transfer learning 87
如果在训练数据上有足够的数据增强,代理就会发现这只是另一种变化。例
如,可以同时在不同任务上使用深度 RL 技术训练代理,Parisotto 等人在
2015 年的研究表明,代理可以泛化到从未观察过确切状态表示的新相关领
域。同样,可以在模拟环境中训练代理,同时提供不同的观察结果。在这种情
况下,学习到的策略可以很好地迁移到真实图像中(Sadeghi 和 Levine,
2016 年;Tobin 等人,2017 年)。这些成功的根本原因在于深度学习架构能够
在具有相似高层表征的状态之间进行泛化,因此在不同领域中应该具有相同的
价值函数/策略。与其手动调整模拟的随机化,人们还可以通过将模拟中的策略
行为与真实世界相匹配来调整模拟参数(Chebotar 等人,2018 年)。零点转
移的另一种方法是使用算法,强制将与相同底层任务相关但呈现方式不同的状
态映射为接近的抽象状态(Tzeng 等人,2015 年;François-Lavet 等人,
2018 年)。
终身学习或持续学习
10.2.2
实现迁移学习的一种具体方法是以终身学习或持续学习为目标。根据 Silver 等
人的研究,终身机器学习指的是系统在一生中从一个或多个领域学习多项任务
的能力。
一般来说,深度学习架构可以通过共享网络参数,在多个任务中推广知识。因
此,一种直接的方法是在不同环境中依次训练函数近似值(如策略、价值函
数、模型等)。这种方法的难点在于找到能让代理保留知识的方法,以便更有
效地学习新任务。在深度强化学习中,保留知识的问题因灾难性遗忘现象而变
得复杂,即在学习的后期阶段会失去对之前所见数据的泛化。
88 Deep reinforcement learning beyond MDPs
Agent
Figure 10.3: Illustration of the continual learning setting where an agent has to
interact sequentially with related (but different) tasks.
如果没有这两种方法,或者作为前两种方法的补充,可以使用对遗忘具有鲁棒
性的深度学习技术,如渐进式网络(Rusu 等人,2016 年)。其原理是通过为
每个新任务添加与先前学习到的特征(保持固定)的横向联系,从而利用先前
的知识。其他限制灾难性遗忘的方法还包括放慢对以前任务重要的权重的学习
速度(Kirkpatrick 等人,2016 年),以及将学习分解为技能分层(Stone 和
Veloso,2000 年;Tessler 等人,2017 年)。
任务 0 任务 1 任务 2 任务 3 任务 4 . . . 序列
任务
代理
图 10.3:持续学习环境示意图,在这种环境下,代理必须依次与相关(但不同)的任务进行交
互。
10.2.3 课程学习
课程学习是一种特殊的持续学习方式。这里的目标是明确设计一系列源任务,
供代理进行训练,从而提高代理在目标任务上的最终表现或学习速度。其思路
是从学习目标任务的小而简单的方面开始,然后逐步提高难度(Bengio 等人,
2009 年;Narvekar 等人,2016 年)。例如,Florensa 等人(2018 年)使用
生成对抗训练为情境策略自动生成目标,使其始终处于适当的难度水平。随着
任务难度和数量的增加,一个
10.3. Learning without explicit reward function 89
要满足偏差与拟合之间的权衡,可以考虑通过学习进行网络转换。
无明确奖励功能的学习
10.3
在强化学习中,奖励函数定义了代理要实现的目标(针对给定的环境和给定的
折扣系数)。由于实际应用中环境的复杂性,定义奖励函数可能会变得相当复
杂。还有另外两种可能性:(i) 给出所需的任务演示,我们可以使用模仿学习或
使用反强化学习提取奖励函数;(ii) 人类可以提供关于代理行为的反馈,以确
定任务。
从示范中学习
10.3.1
在某些情况下,只向代理提供专家代理(也称为教师)的轨迹,而不提供奖
励。给定一个观察到的行为,目标是让代理做出类似的表现。有两种可能的方
法:
• 模仿学习利用监督学习,根据对专家行为的观察,将状态映射为行动
(例如,Giusti 等人,2016 年)。在其他应用中,这种方法已被用于自
动驾驶汽车,通过深度神经网络将原始像素直接映射为转向指令
(Bojarski 等人,2016 年)。
• 反强化学习(IRL)可根据对最佳行为的观察结果确定可能的奖励函数。
当系统动态已知(奖励函数除外)时,这是一种很有吸引力的方法,尤
其是当奖励函数提供了任务的最通用定义时(Ng, Russell, et al., 2000;
Abbeel and Ng, 2004)。例如,让我们考虑一个大型 MDP,专家最终总
是会过渡到相同的状态。在这种情况下,我们也许可以很容易地从一些
轨迹中推断出任务的可能目标(解释教师行为的奖励函数)、
90 Deep reinforcement learning beyond MDPs
值得注意的是,在现实世界的许多应用中,教师与代理并非处于完全相同的情
境中。因此,迁移学习可能也至关重要(Schulman 等人,2016;Liu 等人,
2017)。
另一种情况则要求代理直接从一连串的观察结果中学习,而不采取相应的行动
(可能情况略有不同)。这可以在元学习环境中实现,即当代理根据教师的示
范做出预期表现时,向其提供积极奖励。然后,代理可以根据教师未见过的新
轨迹采取行动,目标是能够充分泛化以执行新任务(Paine 等人,2018 年)。
10.3.2 从直接反馈中学习
从反馈中学习 "研究了代理如何从提供正反馈信号的人类教师那里交互式地学
习行为。为了学习复杂的行为,人类培训师的反馈有可能比先验定义的奖励函
数更有效(MacGlashan 等人,2017;Warnell 等人,2017)。这种设置与第
10.2.3 节中讨论的课程学习理念有关。
10.4 多代理系统
多代理系统由环境中多个相互作用的代理组成(Littman,1994 年)。
定义 10.2.有 N 个代理的多代理 POMDP 是一个元组(S,A,...,A,T,
R,...,R,Ω,O,...,O,γ):
• S 是由状态 {1,......,N}(描述所有代理的可能配置)组成的有限集
合。, N}(描述所有代理的可能配置)、
• A = A× .× A 是行动 {1,......,N} 的有限集合。, N},
• T : S × A × S → [0, 1] 是过渡函数(状态之间的条件过渡概率集)、
• ∀i, R: S × A× S → R 是代理 i 的奖励函数,其中 R 是 R∈ R 范围内可能
奖励的连续集合(例如 [0,R],不失一般性)、
• Ω 是观测值 {1,......,N} 的有限集合。, N},
• ∀i,O:S × Ω → [0,1] 是一组条件观测概率,以及
• γ∈ [0, 1]是贴现因子。
对于这类系统,可以考虑多种不同的设置。
• 协作与非协作环境 .在纯协作环境中,代理有一个共享的奖励衡量标准
(R= R, ∀ i, j∈ [1, . . , N ])。在混合或非协作(可能是对抗)环境中,每
个代理获得不同的奖励。在这两种情况下
92 Deep reinforcement learning beyond MDPs
• 分散与集中环境。在分散式环境中,每个代理仅根据其本地信息选择自
己的行动。如果合作是有益的,这种分散环境会导致代理之间出现交
流,以共享信息(例如,Sukhbaatar 等人,2016 年)。
在集中式环境中,RL 算法可以获取所有观测值和所有奖励 r。在可以定
义单一目标的条件下,该问题可以简化为单代理 RL 问题(在纯协作环
境中,唯一目标很简单)。请注意,即使可以考虑集中式方法(取决于
问题),不利用多代理结构的架构通常也会导致次优学习(例如,
Sunehag 等人,2017 年)。
一般来说,多代理系统具有挑战性,因为代理在学习过程中都会独立更新其策
略,因此对于任何特定代理来说,环境都是非稳态的。对于训练一个特定的代
理,一种方法是从先前学习的策略库中随机选择所有其他代理的策略。这可以
稳定正在学习的代理的训练,并防止过度拟合其他代理的当前策略(Silver 等
人,2016a)。
此外,从特定代理的角度来看,即使所有其他代理都有已知的固定策略,环境
通常也具有很强的随机性。事实上,任何给定的代理都不知道其他代理将如何
行动,因此,它也不知道自己的行动对它所获得的回报有何影响。这部分是由
于部分可观测性,部分是由于其他代理遵循的政策的内在随机性(例如,当探
索程度较高时)。由于这些原因,可以观察到预期全局收益的高方差,这使得
学习具有挑战性(尤其是在与引导法结合使用时)。在协作
10.4. Multi-agent systems 93
94
11
关于深度强化学习的观点
在本节中,我们首先会提到深度实时学习的一些主要成功之处。然后,我们将
介绍在解决更广泛的现实世界问题时所面临的一些主要挑战。最后,我们将讨
论深度 RL 与神经科学之间的一些相似之处。
11.1 深度强化学习的成功经验
深度 RL 技术已经证明,它们有能力解决以前无法解决的各种问题。其中最著
名的成就包括
• 在西洋双陆棋游戏中击败了以前的计算机程序(Tesauro,1995 年)、
• 在玩像素雅达利游戏时达到超人水平(Mnih 等人,2015 年)、
• 掌握围棋(Silver 等人,2016a),以及
• 在德州扑克游戏中击败职业扑克玩家:Libratus》(Brown 和
Sandholm,2017 年)和《Deepstack》(Moravčik 等人,2017 年)。
94
11.2. Challenges of applying reinforcement learning to real-world problems
95
11.2 将强化学习应用于实际问题的挑战
本深度 RL 简介中讨论的算法原则上可用于解决许多不同类型的实际问题。在
实践中,即使在任务定义明确(奖励函数明确)的情况下,也存在一个基本困
难:由于安全、成本或时间限制,通常不可能让代理在实际环境(或环境集)
中自由、充分地互动。在实际应用中,我们可以区分两种主要情况:
1. 代理可能无法与真实环境互动,只能与不准确的模拟环境互动。这种情
况会出现
96 Perspectives on deep reinforcement learning
Note that a combination of the two scenarios is also possible in the case
where the dynamics of the environment may be simulated but where
there is a dependence on an exogenous time series that is only accessible
via limited data (François-Lavet et al., 2016b).
In order to deal with these limitations, different elements are
important:
• 我们的目标是开发一个尽可能精确的模拟器。
• 我们可以设计学习算法,以提高泛化能力和/或使用迁移学习方法(见第
7 章)。
11.3 深度学习与神经科学的关系
深度 RL 的一个有趣方面是它与神经科学的关系。在开发能够解决具有挑战性
的连续决策任务的算法过程中,从工程学的角度来看,生物合理性并不是一
个必要条件。然而,生物智能一直是许多最成功算法的重要灵感来源。事实
上,即使是强化学习和深度学习的理念也与神经科学和生物智能有着密切联
系。
强化 一般来说,RL 与神经科学有着丰富的概念关系。RL 以神经科学为灵感
来源,同时也是解释神经科学现象的工具(Niv,2009 年)。RL 模型还被用作
神经经济学相关领域的工具(Camerer 等人,2005 年),该领域使用人类决
策模型为经济分析提供信息。
11.3. Relations between deep RL and neuroscience 97
The idea of reinforcement (or at least the term) can be traced back
to the work of Pavlov (1927) in the context of animal behavior. In
the Pavlovian conditioning model, reinforcement is described as the
strengthening/weakening effect of a behavior whenever that behavior is
preceded by a specific stimulus. The Pavlovian conditioning model led
to the development of the Rescorla-Wagner Theory (Rescorla, Wagner,
et al., 1972), which assumed that learning is driven by the error between
predicted and received reward, among other prediction models. In
computational RL, those concepts have been at the heart of many
different algorithms, such as in the development of temporal-difference
(TD) methods (Sutton, 1984; Schultz et al., 1997; Russek et al., 2017).
These connections were further strengthened when it was found that
the dopamine neurons in the brain act in a similar manner to TD-like
updates to direct learning in the brain (Schultz et al., 1997).
Driven by such connections, many aspects of reinforcement learning
have also been investigated directly to explain certain phenomena in
the brain. For instance, computational models have been an inspiration
to explain cognitive phenomena such as exploration (Cohen et al., 2007)
and temporal discounting of rewards (Story et al., 2014). In cognitive
science, Kahneman (2011) has also described that there is a dichotomy
between two modes of thoughts: a "System 1" that is fast and instinctive
and a "System 2" that is slower and more logical. In deep reinforcement,
a similar dichotomy can be observed when we consider the model-free
and the model-based approaches. As another example, the idea of having
a meaningful abstract representation in deep RL can also be related to
how animals (including humans) think. Indeed, a conscious thought at
a particular time instant can be seen as a low-dimensional combination
of a few concepts in order to take decisions (Bengio, 2017).
There is a dense and rich literature about the connections between
RL and neuroscience and, as such, the reader is referred to the work of
Sutton and Barto (2017), Niv (2009), Lee et al. (2012), Holroyd and
Coles (2002), Dayan and Niv (2008), Dayan and Daw (2008), Montague
(2013), and Niv and Montague (2009) for an in-depth history of the
development of reinforcement learning and its relations to neuroscience.
11.3.深度学习与神经科学的关系 97
强化的概念(或至少是这个术语)可以追溯到巴甫洛夫(1927 年)在动物行为
方面的研究成果。在巴甫洛夫条件反射模型中,强化被描述为每当某种行为之
前出现特定刺激时,该行为的加强/减弱效应。巴甫洛夫条件反射模型导致了雷
斯科拉-瓦格纳理论(Rescorla, Wagner, et al., 1972 年)的发展,该理论假设
学习是由预测奖励与接收奖励之间的误差以及其他预测模型驱动的。在计算 RL
中,这些概念一直是许多不同算法的核心,例如时间差(TD)方法的发展
(Sutton,1984 年;Schultz 等人,1997 年;Russek 等人,2017 年)。当发
现大脑中的多巴胺神经元以类似于 TD 更新的方式引导大脑学习时,这些联系
得到了进一步加强(Schultz 等人,1997 年)。
在这种联系的推动下,人们对强化学习的许多方面进行了直接研究,以解释大
脑中的某些现象。例如,计算模型一直是解释探索(Cohen 等人,2007 年)
和奖励的时间折扣(Story 等人,2014 年)等认知现象的灵感来源。在认知科
学领域,卡尼曼(Kahneman,2011 年)也曾描述过两种思维模式之间的对
立:一种是快速和本能的 "系统 1",另一种是较慢和更具逻辑性的 "系统 2"。
在深度强化中,当我们考虑无模型和基于模型的方法时,也可以观察到类似的
二分法。另一个例子是,在深度 RL 中,有意义的抽象表征这一概念也与动物
(包括人类)的思维方式有关。事实上,特定时间瞬间的有意识思维可以被视
为几个概念的低维组合,以便做出决策(Bengio,2017)。
关于强化学习与神经科学之间的联系,有大量丰富的文献,因此,读者可参阅
Sutton 和 Barto (2017)、Niv (2009)、Lee 等人 (2012)、Holroyd 和 Coles
(2002)、Dayan 和 Niv (2008)、Dayan 和 Daw (2008)、Montague (2013) 以及
Niv 和 Montague (2009)的著作,深入了解强化学习的发展历史及其与神经科
学的关系。
98 Perspectives on deep reinforcement learning
Deep learning Deep learning also finds its origin in models of neural
processing in the brain of biological entities. However, subsequent de-
velopments are such that deep learning has become partly incompatible
with current knowledge of neurobiology (Bengio et al., 2015). There
exists nonetheless many parallels. One such example is the convolutional
structure used in deep learning that is inspired by the organization of
the animal visual cortex (Fukushima and Miyake, 1982; LeCun et al.,
1998).
Much work is still needed to bridge the gap between machine learning
and general intelligence of humans (or even animals). Looking back at all
the achievements obtained by taking inspiration from neuroscience, it is
natural to believe that further understanding of biological brains could
play a vital role in building more powerful algorithms and conversely.
In particular, we refer the reader to the survey by Hassabis et al., 2017
where the bidirectional influence between deep RL and neuroscience is
discussed.
98 关于深度强化学习的观点
深度学习 深度学习也源于生物实体大脑神经处理模型。然而,由于后来的发
展,深度学习在一定程度上已经与当前的神经生物学知识不相容(Bengio et
al.)尽管如此,两者之间仍存在许多相似之处。其中一个例子是深度学习中
使用的卷积结构,其灵感来自动物视觉皮层的组织结构(Fukushima and
Miyake, 1982; LeCun et al.)
要缩小机器学习与人类(甚至动物)一般智能之间的差距,还有许多工作要
做。回顾从神经科学中汲取灵感而取得的所有成就,我们自然会相信,对生物
大脑的进一步了解可以在构建更强大的算法方面发挥至关重要的作用,反之亦
然。我们特别推荐读者阅读哈萨比斯(Hassabis)等人于 2017 年撰写的调查
报告,其中讨论了深度 RL 与神经科学之间的双向影响。
12
Conclusion
99
12
结论
顺序决策仍是一个活跃的研究领域,许多理论、方法和实验方面的挑战仍未解
决。深度学习领域的重要发展促进了许多将 RL 方法与深度学习相结合的新途
径。特别是,深度学习带来了重要的泛化能力,为处理大型高维状态和/或行动
空间提供了新的可能性。我们完全有理由相信,在未来几年里,这一发展将继
续下去,并带来更高效的算法和许多新的应用。
12.1 深度 RL 的未来发展
在深度 RL 中,我们在本手稿中强调,核心问题之一是泛化概念。为此,深度
RL 领域的新发展必将发展当前的趋势,即采用显式算法并使其可微分,从而
将其嵌入特定形式的神经网络并进行端到端训练。这将为算法带来更丰富、更
智能的结构,使其更适合在更抽象的层次上进行推理,从而能够处理更广泛的
问题。
99
100 Conclusion
12.2 深度 RL 和一般人工智能的应用和社会影响
在应用方面,许多领域都有可能受到深度 RL 带来的可能性的影响。预测不同
发展的时间表总是很困难,但目前对深度 RL 的兴趣可能是信息和通信技术深
刻变革的开端,其应用领域包括临床决策支持、市场营销、金融、资源管理、
自动驾驶、机器人、智能电网等。
随着信息和通信技术带来的许多工具的发展,人工智能(无论是深度 RL 还是
一般的机器学习)也取得了长足的进步。与所有新技术一样,这也给我们的社
会带来了不同的潜在机遇和挑战。
从积极方面看,基于(深度)强化学习的算法有望为人类和社会带来巨大价
值。它们有可能通过机器人自动完成乏味和令人疲惫的任务来提高生活质量
(Levine 等人,2016 年;Gandhi 等人,2017 年;Pinto 等人,2017 年)。
它们可以通过提供适应性
12.2. Applications and societal impact of deep RL 101
content and keeping students engaged (Mandel et al., 2014). They can
improve public health with, for instance, intelligent clinical decision-
making (Fonteneau et al., 2008; Bennett and Hauser, 2013). They may
provide robust solutions to some of the self-driving cars challenges
(Bojarski et al., 2016; You et al., 2017). They also have the possibility
to help managing ecological resources (Dietterich, 2009) or reducing
greenhouse gas emissions by, e.g., optimizing traffic (Li et al., 2016).
They have applications in computer graphics, such as for character
animation (Peng et al., 2017b). They also have applications in finance
(Deng et al., 2017), smart grids (François-Lavet, 2017), etc.
However, we need to be careful that deep RL algorithms are safe,
reliable and predictable (Amodei et al., 2016; Bostrom, 2017). As a
simple example, to capture what we want an agent to do in deep
RL, we frequently end up, in practice, designing the reward function,
somewhat arbitrarily. Often this works well, but sometimes it produces
unexpected, and potentially catastrophic behaviors. For instance, to
remove a certain invasive species from an environment, one may design
an agent that obtains a reward every time it removes one of these
organisms. However, it is likely that to obtain the maximum cumulative
rewards, the agent will learn to let that invasive species develop and
only then would eliminate many of the invasive organisms, which is of
course not the intended behavior. All aspects related to safe exploration
are also potential concerns in the hypothesis that deep RL algorithms
are deployed in real-life settings.
In addition, as with all powerful tools, deep RL algorithms also
bring societal and ethical challenges (Brundage et al., 2018), raising
the question of how they can be used for the benefit of all. Even tough
different interpretations can come into play when one discusses human
sciences, we mention in this conclusion some of the potential issues that
may need further investigation.
The ethical use of artificial intelligence is a broad concern. The
specificity of RL as compared to supervised learning techniques is that
it can naturally deal with sequences of interactions, which is ideal for
chatbots, smart assistants, etc. As it is the case with most technologies,
regulation should, at some point, ensure a positive impact of its usage.
12.2.深层制冷剂的应用和社会影响 101
然而,我们需要注意深度 RL 算法的安全性、可靠性和可预测性(Amodei 等
人,2016 年;Bostrom,2017 年)。举个简单的例子,为了捕捉我们希望代
理在深度 RL 中做的事情,我们在实践中经常会任意设计奖励函数。这样做往
往效果很好,但有时也会产生意想不到的、可能是灾难性的行为。例如,为
了从环境中清除某种入侵物种,我们可能会设计一个代理,让它在每次清除
这些生物时都能获得奖励。然而,为了获得最大的累积奖励,该代理很可能
会学会任由入侵物种发展,然后才会消灭许多入侵生物,这当然不是预期的
行为。与安全探索相关的所有方面也都是在现实生活中部署深度 RL 算法时可
能需要关注的问题。
此外,与所有强大的工具一样,深度 RL 算法也带来了社会和伦理方面的挑战
(Brundage 等人,2018 年),提出了如何利用这些算法造福全人类的问题。
即使在讨论人文科学时可能会出现不同的解释,我们也会在本结论中提及一
些可能需要进一步调查的潜在问题。
人工智能的伦理使用是一个广泛关注的问题。与监督学习技术相比,RL 的特殊
性在于它可以自然地处理交互序列,是聊天机器人、智能助手等的理想选择。
与大多数技术一样,监管应在一定程度上确保其使用产生积极影响。
102 Conclusion
我们仍处于深度实时学习和人工智能的起步阶段。未来难以预测,但关键是要
在公共政策中逐步考虑到与使用这些算法相关的潜在问题。果真如此,这些新
算法将对我们的社会产生积极影响。
Appendices
附录
A Deep RL frameworks
Here is a list of some well-known frameworks used for deep RL:
• ELF (Tian et al., 2017) is a research platform for deep RL, aimed
mainly to real-time strategy games.
Even though, they are not tailored specifically for deep RL, we can
also cite the two following frameworks for reinforcement learning:
尽管它们不是专门为深度 RL 量身定制的,但我们也可以引用以下两个强
化学习框架:
• RL-Glue (Tanner 和 White,2009 年)提供了一个标准接口,可将 RL
代理、环境和实验程序连接在一起。
• RLPy (Geramifard et al., 2015) is a framework focused on value-
based RL using linear function approximators with discrete
actions.
表 1:一些现有 RL 框架的特征摘要。
References
106
参考资料
106
Bahdanau, D., P. Brakel, K. Xu, A. Goyal, R. Lowe, J. Pineau, A.
Courville, and Y. Bengio. 2016. “An actor-critic algorithm for
sequence prediction”. arXiv preprint arXiv:1607.07086.
Baird, L. 1995. “Residual algorithms: Reinforcement learning with
function approximation”. In: ICML. 30–37.
Baker, M. 2016. “1,500 scientists lift the lid on reproducibility”. Nature
News. 533(7604): 452.
Bartlett, P. L. and S. Mendelson. 2002. “Rademacher and Gaussian
complexities: Risk bounds and structural results”. Journal of
Machine Learning Research. 3(Nov): 463–482.
Barto, A. G., R. S. Sutton, and C. W. Anderson. 1983. “Neuronlike
adaptive elements that can solve difficult learning control problems”.
IEEE transactions on systems, man, and cybernetics. (5): 834–846.
Beattie, C., J. Z. Leibo, D. Teplyashin, T. Ward, M. Wainwright, H.
Küttler, A. Lefrancq, S. Green, V. Valdés, A. Sadik, et al. 2016.
“DeepMind Lab”. arXiv preprint arXiv:1612.03801.
Bellemare, M. G., P. S. Castro, C. Gelada, K. Saurabh, and S. Moitra.
2018. “Dopamine”. https://github.com/google/dopamine.
Bellemare, M. G., W. Dabney, and R. Munos. 2017. “A distri-
butional perspective on reinforcement learning”. arXiv preprint
arXiv:1707.06887.
Bellemare, M. G., Y. Naddaf, J. Veness, and M. Bowling. 2013. “The
Arcade Learning Environment: An evaluation platform for general
agents.” Journal of Artificial Intelligence Research. 47: 253–279.
Bellemare, M. G., S. Srinivasan, G. Ostrovski, T. Schaul, D. Saxton, and
R. Munos. 2016. “Unifying Count-Based Exploration and Intrinsic
Motivation”. arXiv preprint arXiv:1606.01868.
Bellman, R. 1957a. “A Markovian decision process”. Journal of
Mathematics and Mechanics: 679–684.
Bellman, R. 1957b. “Dynamic Programming”.
Bellman, R. E. and S. E. Dreyfus. 1962. “Applied dynamic program-
ming”.
Bello, I., H. Pham, Q. V. Le, M. Norouzi, and S. Bengio. 2016. “Neural
Combinatorial Optimization with Reinforcement Learning”. arXiv
preprint arXiv:1611.09940.
D. Bahdanau、P. Brakel、K. Xu、A. Goyal、R. Lowe、J. Pineau、A.
Courville 和 Y. Bengio。2016."ArXiv preprint arXiv:1607.07086.
Baird, L. 1995."残差算法:带函数近似的强化学习"。In:ICML.30-37.Baker,
M. 2016."1,500 scientists lift the lid on reproducibility".自然新闻》。
533(7604):452.Bartlett, P. L. and S. Mendelson.2002."Rademacher and
Gaussian complexities:Risk bounds and structural results".机器学习研究
期刊》。3(Nov):463-482.Barto, A. G., R. S. Sutton, and C. W.
Anderson.1983."能解决学习控制难题的神经元式自适应元素》。
10(7): 1895-1923.
Dietterich, T. G. 2009."机器学习与生态系统信息学:挑战与机遇》。In:亚洲
机器学习会议。Springer.1-5.Dinculescu, M. and D. Precup.2010."部分可观
测系统的近似预测表征》。In:第 27 届机器学习国际会议(ICML-10)论文
集》。895-902.Dosovitskiy, A. and V. Koltun.2016."ArXiv preprint
arXiv:1611.01779.Duan, Y., M. Andrychowicz, B. Stadie, J. Ho, J. Schneider,
I. Sutskever, P. Abbeel, and W. Zaremba.2017."单次模仿学习》。
"通过抽象表征进行组合强化学习"。
arXiv preprint arXiv:1809.04506.
François-Lavet, V., D. Ernst, and F. Raphael.2017."ArXiv preprint
arXiv:1709.07796.François-Lavet, V., R. Fonteneau, and D. Ernst.2015."How
to Discount Deep Reinforcement Learning:Towards New Dynamic
Strategies".
arXiv preprint arXiv:1512.02011.
François-Lavet, V., D. Taralla, D. Ernst, and R. Fonteneau. 2016b.
“Deep Reinforcement Learning Solutions for Energy Microgrids
Management”. In: European Workshop on Reinforcement Learning.
Fukushima, K. and S. Miyake. 1982. “Neocognitron: A self-organizing
neural network model for a mechanism of visual pattern recognition”.
In: Competition and cooperation in neural nets. Springer. 267–285.
Gal, Y. and Z. Ghahramani. 2016. “Dropout as a Bayesian Approx-
imation: Representing Model Uncertainty in Deep Learning”. In:
Proceedings of the 33nd International Conference on Machine Learn-
ing, ICML 2016, New York City, NY, USA, June 19-24, 2016. 1050–
1059.
Gandhi, D., L. Pinto, and A. Gupta. 2017. “Learning to Fly by Crashing”.
arXiv preprint arXiv:1704.05588.
Garnelo, M., K. Arulkumaran, and M. Shanahan. 2016. “To-
wards Deep Symbolic Reinforcement Learning”. arXiv preprint
arXiv:1609.05518.
Gauci, J., E. Conti, Y. Liang, K. Virochsiri, Y. He, Z. Kaden,
V. Narayanan, and X. Ye. 2018. “Horizon: Facebook’s Open
Source Applied Reinforcement Learning Platform”. arXiv preprint
arXiv:1811.00260.
Gelly, S., Y. Wang, R. Munos, and O. Teytaud. 2006. “Modification of
UCT with patterns in Monte-Carlo Go”.
Geman, S., E. Bienenstock, and R. Doursat. 1992. “Neural networks
and the bias/variance dilemma”. Neural computation. 4(1): 1–58.
Geramifard, A., C. Dann, R. H. Klein, W. Dabney, and J. P. How. 2015.
“RLPy: A Value-Function-Based Reinforcement Learning Framework
for Education and Research”. Journal of Machine Learning Research.
16: 1573–1578.
Geurts, P., D. Ernst, and L. Wehenkel. 2006. “Extremely randomized
trees”. Machine learning. 63(1): 3–42.
Ghavamzadeh, M., S. Mannor, J. Pineau, A. Tamar, et al. 2015.
“Bayesian reinforcement learning: A survey”. Foundations and
Trends® in Machine Learning. 8(5-6): 359–483.
François-Lavet, V., D.Taralla, D. Ernst, and R. Fonteneau.Ernst, and R.
Fonteneau.2016b.
"能源微电网的深度强化学习解决方案
管理"。In:欧洲强化学习研讨会。Fukushima, K. and S.
Miyake.1982."Neocognitron:视觉模式识别机制的自组织神经网络模型"。
《神经网络中的竞争与合作神经网络中的竞争与合作》。Springer.267-285.
Gal、Y. 和 Z. Ghahramani。2016."辍学 "作为一种贝叶斯方法
imation:在深度学习中表示模型的不确定性"。In:
第 33 届国际机器学习大会论文集,ICML 2016,美国纽约州纽约市,2016
年 6 月 19-24 日。1050- 1059.
Gandhi, D., L. Pinto, and A. Gupta.2017."通过撞击学会飞行》。
arXiv preprint arXiv:1704.05588.
Garnelo, M., K. Arulkumaran, and M. Shanahan.2016."Towards Deep
Symbolic Reinforcement Learning". arXiv preprint arXiv:1609.05518.
Gauci, J., E. Conti, Y.Liang, K.Virochsiri, Y.He, Z.卡登、V.Narayanan, and X.
Ye.Ye. 2018."Horizon: Facebook's Open Source Applied Reinforcement
Learning Platform". arXiv preprint arXiv:1811.00260.
In:机器学习论文集 1994》。Elsevier.226-232.
Peng, P., Q. Yuan, Y. Wen, Y. Yang, Z.Yuan, Y. Wen, Y. Yang, Z. Tang, H. Long, and J.
Wang. Tang, H. Long, and J. Wang.
2017a."多代理双向协调学习网络"(Multi-agent Bidirectally-Coordinated Nets for
Learning
Play StarCraft
to Combat Games". arXiv preprint arXiv:1703.10069.
Peng, X. B., G. Berseth, K. Yin, and M. van de Panne. 2017b.
“DeepLoco: Dynamic Locomotion Skills Using Hierarchical Deep
Reinforcement Learning”. ACM Transactions on Graphics (Proc.
SIGGRAPH 2017). 36(4).
Perez-Liebana, D., S. Samothrakis, J. Togelius, T. Schaul, S. M. Lucas,
A. Couëtoux, J. Lee, C.-U. Lim, and T. Thompson. 2016. “The 2014
general video game playing competition”. IEEE Transactions on
Computational Intelligence and AI in Games. 8(3): 229–243.
Petrik, M. and B. Scherrer. 2009. “Biasing approximate dynamic
programming with a lower discount factor”. In: Advances in neural
information processing systems. 1265–1272.
Piketty, T. 2013. “Capital in the Twenty-First Century”.
Pineau, J., G. Gordon, S. Thrun, et al. 2003. “Point-based value iteration:
An anytime algorithm for POMDPs”. In: IJCAI. Vol. 3. 1025–1032.
Pinto, L., M. Andrychowicz, P. Welinder, W. Zaremba, and P. Abbeel.
2017. “Asymmetric Actor Critic for Image-Based Robot Learning”.
arXiv preprint arXiv:1710.06542.
Plappert, M., R. Houthooft, P. Dhariwal, S. Sidor, R. Y. Chen, X. Chen,
T. Asfour, P. Abbeel, and M. Andrychowicz. 2017. “Parameter Space
Noise for Exploration”. arXiv preprint arXiv:1706.01905.
Precup, D. 2000. “Eligibility traces for off-policy policy evaluation”.
Computer Science Department Faculty Publication Series: 80.
Ranzato, M., S. Chopra, M. Auli, and W. Zaremba. 2015. “Sequence
level training with recurrent neural networks”. arXiv preprint
arXiv:1511.06732.
Rasmussen, C. E. 2004. “Gaussian processes in machine learning”. In:
Advanced lectures on machine learning. Springer. 63–71.
Ravindran, B. and A. G. Barto. 2004. “An algebraic approach to
abstraction in reinforcement learning”. PhD thesis. University of
Massachusetts at Amherst.
Real, E., S. Moore, A. Selle, S. Saxena, Y. L. Suematsu, Q. Le, and A.
Kurakin. 2017. “Large-Scale Evolution of Image Classifiers”. arXiv
preprint arXiv:1703.01041.
Reed, S. and N. De Freitas. 2015. “Neural programmer-interpreters”.
arXiv preprint arXiv:1511.06279.
Peng, X. B., G. Berseth, K. Yin, and M. van de Panne.2017b.
"DeepLoco:利用分层深度学习动态运动技能
强化学习"。ACM 图形学论文集(Proc.
36(4).
Perez-Liebana, D., S. Samothrakis, J. Togelius, T. Schaul, S. M. Lucas, A.
Couëtoux, J. Lee, C. -U.Lim, and T. Thompson.2016."2014 年通用视频游戏
竞赛》。IEEE Transactions on Computational Intelligence and AI in
Games.8(3):229-243.Petrik, M. and B. Scherrer.2009."用较低折扣系数偏置
近似动态编程》。In:神经信息处理系统进展》。1265-1272.
Piketty, T. 2013."二十一世纪的资本》。Pineau, J., G. Gordon, S. Thrun, et
al. 2003."基于点的价值迭代:An anytime algorithm for POMDPs".In.
IJCAI:IJCAI.3. 1025-1032.Pinto, L., M. Andrychowicz, P. Welinder, W.
Zaremba, and P. Abbeel.
2017."基于图像的机器人学习的非对称行为批评者"。
arXiv preprint arXiv:1710.06542.
Plappert, M., R. Houthooft, P. Dhariwal, S. Sidor, R. Y. Chen, X. Chen, T.
Asfour, P. Abbeel, and M. Andrychowicz.Chen, X. Chen, T. Asfour, P.
Abbeel, and M. Andrychowicz.2017."ArXiv preprint arXiv:1706.01905.
Precup, D. 2000."政策外政策评估的资格追踪"。
计算机科学系教师出版物系列:80.
Ranzato, M., S. Chopra, M. Auli, and W. Zaremba.2015."用递归神经网络进行
序列级训练》。arXiv preprint arXiv:1511.06732.
Rasmussen, C. E. 2004."机器学习中的高斯过程》。In:机器学习高级讲座》。
Springer.63-71.Ravindran, B. and A. G. Barto.2004."强化学习中抽象的代数
方法》。博士论文。马萨诸塞大学阿默斯特分校。
Real, E., S. Moore, A. Selle, S. Saxena, Y. L. Suematsu, Q. Le, and A. R., E.,
S. Moore, A. Selle, S. Saxena, Y. L. Suematsu, Q. Le, and A. R.
《库拉金 2017."图像分类器的大规模进化》。ArXiv 预印本
arXiv:1703.01041。
Reed, S. and N. De Freitas.2015."神经编程解释器》。
arXiv preprint arXiv:1511.06279.
Rescorla, R. A., A. R. Wagner, et al. 1972. “A theory of Pavlovian
conditioning: Variations in the effectiveness of reinforcement and
nonreinforcement”. Classical conditioning II: Current research and
theory. 2: 64–99.
Riedmiller, M. 2005. “Neural fitted Q iteration–first experiences with a
data efficient neural reinforcement learning method”. In: Machine
Learning: ECML 2005. Springer. 317–328.
Riedmiller, M., R. Hafner, T. Lampe, M. Neunert, J. Degrave, T. Van de
Wiele, V. Mnih, N. Heess, and J. T. Springenberg. 2018. “Learning
by Playing - Solving Sparse Reward Tasks from Scratch”. arXiv
preprint arXiv:1802.10567.
Rowland, M., M. G. Bellemare, W. Dabney, R. Munos, and Y. W. Teh.
2018. “An Analysis of Categorical Distributional Reinforcement
Learning”. arXiv preprint arXiv:1802.08163.
Ruder, S. 2017. “An overview of multi-task learning in deep neural
networks”. arXiv preprint arXiv:1706.05098.
Rumelhart, D. E., G. E. Hinton, and R. J. Williams. 1988. “Learning
representations by back-propagating errors”. Cognitive modeling.
5(3): 1.
Russakovsky, O., J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z.
Huang, A. Karpathy, A. Khosla, M. Bernstein, et al. 2015. “Imagenet
large scale visual recognition challenge”. International Journal of
Computer Vision. 115(3): 211–252.
Russek, E. M., I. Momennejad, M. M. Botvinick, S. J. Gershman, and
N. D. Daw. 2017. “Predictive representations can link model-based
reinforcement learning to model-free mechanisms”. bioRxiv: 083857.
Rusu, A. A., S. G. Colmenarejo, C. Gulcehre, G. Desjardins, J.
Kirkpatrick, R. Pascanu, V. Mnih, K. Kavukcuoglu, and R. Hadsell.
2015. “Policy distillation”. arXiv preprint arXiv:1511.06295.
Rusu, A. A., M. Vecerik, T. Rothörl, N. Heess, R. Pascanu, and
R. Hadsell. 2016. “Sim-to-real robot learning from pixels with
progressive nets”. arXiv preprint arXiv:1610.04286.
Sadeghi, F. and S. Levine. 2016. “CAD2RL: Real single-image flight
without a single real image”. arXiv preprint arXiv:1611.04201.
Rescorla, R. A., A. R. Wagner, et al."巴甫洛夫条件反射理论:巴甫洛夫条件反
射的理论:强化和
《非强化"。经典条件反射 II:当前研究与理论》。2: 64-99.
Riedmiller, M. 2005."神经拟合 Q 迭代优先经验与数据高效神经强化学习方
法》。In:Machine Learning:ECML 2005.Springer.317-328.Riedmiller, M.,
R. Hafner, T. Lampe, M. Neunert, J. Degrave, T. Van de Wiele, V. Mnih, N.
Heess, and J. T. Springenberg.2018."玩中学--从零开始解决稀疏奖励任务》。
arXiv preprint arXiv:1802.10567.
In:人工通用智能》。Springer.41-51.
Sunehag、P.、G. Lever、A. Gruslys、W. M. Czarnecki、V.Zambaldi, M.
Jaderberg、M. Lanctot、N. Sonnerat、J. Z. Leibo、K. Tuyls 等人,
2017 年。"多代理合作学习的价值分解网络》。arXiv 预印本
arXiv:1706.05296.
Sutton, R. S. 1988."用时间差的方法学习预测》。Machine learning.3(1):9-
44.Sutton, R. S. 1996."强化学习中的泛化:使用稀疏粗编码的成功范例"。
Advances in neural information processing systems:1038-1044.Sutton, R.
S. and A. G. Barto.1998.Reinforcement learning:An introduction.Vol.No.
麻省理工学院出版社,剑桥。Sutton, R. S. and A. G.
Barto.2017.Reinforcement Learning:导论》(第 2 版,出版中)。麻省理工
学院出版社。
Sutton, R. S., D. A. McAllester, S. P. Singh, and Y. Mansour. 2000.
“Policy gradient methods for reinforcement learning with function
approximation”. In: Advances in neural information processing
systems. 1057–1063.
Sutton, R. S., D. Precup, and S. Singh. 1999. “Between MDPs and
semi-MDPs: A framework for temporal abstraction in reinforcement
learning”. Artificial intelligence. 112(1-2): 181–211.
Sutton, R. S. 1984. “Temporal credit assignment in reinforcement
learning”.
Synnaeve, G., N. Nardelli, A. Auvolat, S. Chintala, T. Lacroix, Z. Lin, F.
Richoux, and N. Usunier. 2016. “TorchCraft: a Library for Machine
Learning Research on Real-Time Strategy Games”. arXiv preprint
arXiv:1611.00625.
Szegedy, C., S. Ioffe, V. Vanhoucke, and A. Alemi. 2016. “Inception-v4,
inception-resnet and the impact of residual connections on learning”.
arXiv preprint arXiv:1602.07261.
Szegedy, C., S. Ioffe, V. Vanhoucke, and A. A. Alemi. 2017. “Inception-
v4, inception-resnet and the impact of residual connections on
learning.” In: AAAI. Vol. 4. 12.
Tamar, A., S. Levine, P. Abbeel, Y. WU, and G. Thomas. 2016. “Value
iteration networks”. In: Advances in Neural Information Processing
Systems. 2146–2154.
Tan, J., T. Zhang, E. Coumans, A. Iscen, Y. Bai, D. Hafner, S. Bohez,
and V. Vanhoucke. 2018. “Sim-to-Real: Learning Agile Locomotion
For Quadruped Robots”. arXiv preprint arXiv:1804.10332.
Tanner, B. and A. White. 2009. “RL-Glue: Language-independent
software for reinforcement-learning experiments”. The Journal of
Machine Learning Research. 10: 2133–2136.
Teh, Y. W., V. Bapst, W. M. Czarnecki, J. Quan, J. Kirkpatrick, R.
Hadsell, N. Heess, and R. Pascanu. 2017. “Distral: Robust Multitask
Reinforcement Learning”. arXiv preprint arXiv:1707.04175.
Tesauro, G. 1995. “Temporal difference learning and TD-Gammon”.
Communications of the ACM. 38(3): 58–68.
Tessler, C., S. Givony, T. Zahavy, D. J. Mankowitz, and S. Mannor. 2017.
“A Deep Hierarchical Approach to Lifelong Learning in Minecraft.”
In: AAAI. 1553–1561.
Sutton, R. S., D. A. McAllester, S. P. Singh, and Y. Mansour.2000.
"带函数的强化学习的策略梯度方法
《近似"。In:神经信息处理系统进展》。1057-1063.
Sutton, R. S., D. Precup, and S. Singh.1999."介于 MDP 与半 MDP 之间:A
framework for temporal abstraction in reinforcement learning".Artificial
intelligence.112(1-2):181-211.Sutton, R. S. 1984."强化学习中的时间学分分
配》。
Synnaeve、G.、N. Nardelli、A. Auvolat、S. Chintala、T. Lacroix、Z.Lin, F.
Richoux 和 N. Usunier。2016."TorchCraft: a Library for Machine
Learning Research on Real-Time Strategy Games". arXiv preprint
arXiv:1611.00625.
Szegedy, C., S. Ioffe, V. Vanhoucke, and A. Alemi.2016."Inception-v4、
inception-resnet 和残余连接对学习的影响》。
arXiv preprint arXiv:1602.07261.
Szegedy, C., S. Ioffe, V. Vanhoucke, and A. A. Alemi.2017."Inceptionv4、
inception-resnet 和残余连接对学习的影响"。In:AAAI.Vol. 4. 12.Tamar, A.,
S. Levine, P. Abbeel, Y. WU, and G. Thomas.2016.价值
《迭代网络"。In:神经信息处理系统进展》。2146-2154.
Tan, J., T. Zhang, E. Coumans, A. Iscen, Y. Bai, D. Hafner, S. Bohez, and V.
Vanhoucke.2018."Sim-to-Real: Learning Agile Locomotion For
Quadruped Robots". arXiv preprint arXiv:1804.10332.Tanner, B. and A.
White.2009."RL-Glue:与语言无关的强化学习实验软件"。机器学习研究期
刊》。10: 2133-2136.
Teh, Y.W.、V. Bapst、W. M. Czarnecki、J. Quan、J. Kirkpatrick、R.
Hadsell, N. Heess, and R. Pascanu.2017."Distral:Robust Multitask
Reinforcement Learning". arXiv preprint arXiv:1707.04175.
Tesauro, G. 1995."时差学习与 TD-Gammon》。
ACM 通信。38(3):58-68.
Tessler, C., S. Givony, T. Zahavy, D. J. Mankowitz, and S. Mannor.2017.
"在 Minecraft 中进行终身学习的深度分层方法"。In:AAAI.1553-1561.
Thomas, P. 2014. “Bias in natural actor-critic algorithms”. In: Interna-
tional Conference on Machine Learning. 441–448.
Thomas, P. S. and E. Brunskill. 2016. “Data-efficient off-policy policy
evaluation for reinforcement learning”. In: International Conference
on Machine Learning.
Thrun, S. B. 1992. “Efficient exploration in reinforcement learning”.
Tian, Y., Q. Gong, W. Shang, Y. Wu, and C. L. Zitnick. 2017. “ELF:
An Extensive, Lightweight and Flexible Research Platform for Real-
time Strategy Games”. Advances in Neural Information Processing
Systems (NIPS).
Tieleman, H. 2012. “Lecture 6.5-rmsprop: Divide the gradient by a
running average of its recent magnitude”. COURSERA: Neural
Networks for Machine Learning.
Tobin, J., R. Fong, A. Ray, J. Schneider, W. Zaremba, and P.
Abbeel. 2017. “Domain Randomization for Transferring Deep Neural
Networks from Simulation to the Real World”. arXiv preprint
arXiv:1703.06907.
Todorov, E., T. Erez, and Y. Tassa. 2012. “MuJoCo: A physics engine
for model-based control”. In: Intelligent Robots and Systems (IROS),
2012 IEEE/RSJ International Conference on. IEEE. 5026–5033.
Tsitsiklis, J. N. and B. Van Roy. 1997. “An analysis of temporal-
difference learning with function approximation”. Automatic Control,
IEEE Transactions on. 42(5): 674–690.
Turing, A. M. 1953. “Digital computers applied to games”. Faster than
thought.
Tzeng, E., C. Devin, J. Hoffman, C. Finn, P. Abbeel, S. Levine,
K. Saenko, and T. Darrell. 2015. “Adapting deep visuomotor
representations with weak pairwise constraints”. arXiv preprint
arXiv:1511.07111.
Ueno, S., M. Osawa, M. Imai, T. Kato, and H. Yamakawa. 2017.
““Re: ROS”: Prototyping of Reinforcement Learning Environment
for Asynchronous Cognitive Architecture”. In: First International
Early Research Career Enhancement School on Biologically Inspired
Cognitive Architectures. Springer. 198–203.
Van Hasselt, H., A. Guez, and D. Silver. 2016. “Deep Reinforcement
Learning with Double Q-Learning.” In: AAAI. 2094–2100.
Thomas, P. 2014."自然行为批评算法中的偏见》。In:国际机器学习会议。
441-448.Thomas, P. S. and E. Brunskill.2016."强化学习的数据高效非政策策
略评估》。In:国际机器学习会议。
Thrun, S. B. 1992."强化学习中的高效探索》。Tian, Y., Q. Gong, W. Shang, Y.
Wu, and C. L. Zitnick.2017."ELF:一个广泛、轻量级和灵活的实战研究平
台"(ELF: An Extensive, Lightweight and Flexible Research Platform for
Real-
《时间策略游戏"。神经信息处理系统进展》(NIPS)。
Tieleman, H. 2012."讲座 6.5-rmsprop:将梯度除以其最近幅度的运行平均
值"。COURSERA: Neural Networks for Machine Learning.
托宾、J.、R.方、A.雷、J.施耐德、W.扎伦巴和 P.罗伯茨。
Abbeel.2017."将深度神经网络从模拟转移到现实世界的领域随机化》。
arXiv 预印本 arXiv:1703.06907。
Todorov, E., T. Erez, and Y. Tassa.2012."MuJoCo:物理引擎
基于模型的控制"。In:智能机器人与系统(IROS),2012 年 IEEE/RSJ 国
际会议。IEEE.5026-5033.
Tsitsiklis, J. N. and B. Van Roy.1997."带函数近似的时差学习分析》。
Automatic Control, IEEE Transactions on.42(5):674-690.Turing, A. M.
1953."数字计算机应用于游戏"。Faster than thought.
Tzeng, E., C. Devin, J. Hoffman, C. Finn, P. Abbeel, S. Levine, K. Saenko,
and T. Darrell.2015."Adapting deep visuomotor representations with
weak pairwise constraints". arXiv preprint arXiv:1511.07111.
Ueno, S., M. Osawa, M. Imai, T. Kato, and H. Yamakawa.2017.
""关于:ROS":异步认知架构的强化学习环境原型"。In:第一届国际
生物启发认知架构早期研究职业提升学校。Springer.198-203.
Van Hasselt, H., A. Guez, and D. Silver.2016."双 Q 学习的深度强化学习"。
In:AAAI.2094-2100.
Vapnik, V. N. 1998. “Statistical learning theory. Adaptive and learning
systems for signal processing, communications, and control”.
Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez,
L. Kaiser, and I. Polosukhin. 2017. “Attention Is All You Need”.
arXiv preprint arXiv:1706.03762.
Vezhnevets, A., V. Mnih, S. Osindero, A. Graves, O. Vinyals, J. Agapiou,
et al. 2016. “Strategic attentive writer for learning macro-actions”.
In: Advances in Neural Information Processing Systems. 3486–3494.
Vinyals, O., T. Ewalds, S. Bartunov, P. Georgiev, A. S. Vezhnevets,
M. Yeo, A. Makhzani, H. Küttler, J. Agapiou, J. Schrittwieser, et al.
2017. “StarCraft II: A New Challenge for Reinforcement Learning”.
arXiv preprint arXiv:1708.04782.
Wahlström, N., T. B. Schön, and M. P. Deisenroth. 2015. “From pixels
to torques: Policy learning with deep dynamical models”. arXiv
preprint arXiv:1502.02251.
Walsh, T. 2017. It’s Alive!: Artificial Intelligence from the Logic Piano
to Killer Robots. La Trobe University Press.
Wang, J. X., Z. Kurth-Nelson, D. Tirumala, H. Soyer, J. Z. Leibo,
R. Munos, C. Blundell, D. Kumaran, and M. Botvinick. 2016a.
“Learning to reinforcement learn”. arXiv preprint arXiv:1611.05763.
Wang, Z., V. Bapst, N. Heess, V. Mnih, R. Munos, K. Kavukcuoglu, and
N. de Freitas. 2016b. “Sample efficient actor-critic with experience
replay”. arXiv preprint arXiv:1611.01224.
Wang, Z., N. de Freitas, and M. Lanctot. 2015. “Dueling network
architectures for deep reinforcement learning”. arXiv preprint
arXiv:1511.06581.
Warnell, G., N. Waytowich, V. Lawhern, and P. Stone. 2017. “Deep
TAMER: Interactive Agent Shaping in High-Dimensional State
Spaces”. arXiv preprint arXiv:1709.10163.
Watkins, C. J. and P. Dayan. 1992. “Q-learning”. Machine learning.
8(3-4): 279–292.
Watkins, C. J. C. H. 1989. “Learning from delayed rewards”. PhD thesis.
King’s College, Cambridge.
Vapnik, V. N. 1998."统计学习理论。用于信号处理、通信和控制的自适应和学
习系统"。Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N.
Gomez, L. Kaiser, and I. Polosukhin.2017."关注就是一切》。
arXiv preprint arXiv:1706.03762.
Vezhnevets, A., V. Mnih, S. Osindero, A. Graves, O. Vinyals, J. Agapiou, et
al. 2016."学习宏观行动的战略细心作家》。
In:神经信息处理系统进展》。3486-3494.Vinyals, O., T. Ewalds, S.
Bartunov, P. Georgiev, A. S. Vezhnevets, M. Yeo, A. Makhzani, H. Küttler, J.
Agapiou, J. Schrittwieser, et al. 2017."星际争霸 II:强化学习的新挑战》。
arXiv preprint arXiv:1708.04782.
Wahlström, N., T. B. Schön, and M. P. Deisenroth.2015."From pixels to
torques:ArXiv preprint arXiv:1502.02251.
Walsh, T. 2017.It's Alive!从逻辑钢琴到杀手机器人的人工智能》。拉筹伯大学
出版社。
Wang, J. X., Z. Kurth-Nelson, D. Tirumala, H. Soyer, J. Z. Leibo, R. Munos,
C. Blundell, D. Kumaran, and M. Botvinick.2016a.
"学习强化学习"。arXiv 预印本 arXiv:1611.05763。Wang, Z., V. Bapst, N.
Heess, V. Mnih, R. Munos, K. Kavukcuoglu, and N. de Freitas.2016b."带有
经验重放的样本高效演员批评》。arXiv 预印本 arXiv:1611.01224.Wang, Z., N.
de Freitas, and M. Lanctot.2015."Dueling network architectures for deep
reinforcement learning". arXiv preprint arXiv:1511.06581.