deepmind在《Emergence of Locomotion Behaviours in Rich Environments》提出了PPO。我们来看下：

1.介绍

略

2.使用Distributed PPO进行大规模增强学习

我们在增强学习上关注的点是，在丰富的仿真环境上使用连续state和action spaces。我们的算法在多个任务变种上是健壮的，可以有效扩展到其它领域。我们将轮流介绍每个issues。

使用PPO的Robust policy gradients

深度学习算法基于大规模、高吞吐的optimization方法，在离散和低维action spaces中（比如：Atari games和三维导航(3D navigation)）可以产生state-of-the-art的结果。作为对比，许多之前的工作都是基于连续动作空间的，关注一些可对比的小问题。大规模、分布式的optimization较少广泛使用，相应的算法也很少被开发。我们发布了一个robust policy gradient算法，很适合高维连续控制的问题，可以使用分布式计算扩展到许多更大的领域上。

Policy gradient算法为连续控制（continuous control）提供了一个吸引人的范式。他们通过根据stochastic policy \(\pi_{\theta}(a \mid s)\)的参数\(\theta\)直接最大化rewards的期望和：

\[J(\theta) = E_{\rho_{\theta}(\tau)} [\sum_t \gamma^{t-1} r(s_t, a_t)]\]

该期望会对应于由policy \(\pi_{\theta}\)和系统动态性(dynamics) \(p(s_{t+1} \mid s_t, a_t)\)两者所联合生成的trajectories\(\tau=(s_0,a_0,s_1,\cdots)\)的分布：

\[\rho_{\theta}(\tau) = p(s_0) \pi(a_0 | s_0) p(s_1 | s_0, a_0) ...\]

\(\theta\)对应的目标函数的梯度是：

\[\nabla_{\theta} J = E_{\theta} [\sum_t \nabla_{\theta} log \pi_{\theta}(a_t | s_t)(R_t - b_t)]\]

其中：

\[R_t = \sum_{t'=t} \gamma^{t'-t} r(s_{t'}, a_{t'})\]
\(b_t\)是一个baseline（它不依赖于\(a_t\)或者future states和actions）。该baseline通常会选择\(b_t = V^{\theta} (s_t) = E_{\theta} [R_t \mid s_t]\)。

实际上，期望的future return通常近似于使用一个sample rollout，\(V^{\theta}\)通过一个学到的近似\(V_{\phi}(s)\)和参数\(\phi\)来替代。

Policy gradient的estimates可以有很高的variance，算法对于超参数的设置很敏感。有许多方法可以使得policy gradient算法更健壮。一种有效的measure是：采用一个trust region constraint，可以限制policy update的任意更新量(amount)。采用该思想的一种流行算法是：TRPO（trust region policy optimization）。在每个迭代中，给定当前参数\(\theta_{old}\)，TRPO会收集一个（相对较大）的batch数据，并优化surrogate loss：

\[J_{TRPO}(\theta) = [ \sum_t \gamma^{t-1} \frac{\pi_{\theta}(a_t | s_t)}{\pi_{\theta_{old}}(a_t | s_t)} A^{\theta_{old}}(a_t, s_t)]\]

它会服从一个constraint：policy被允许更改多少，以KL divergence的方式表示：

\[KL[\pi_{\theta_{old}} | \pi_{\theta}] < \delta\]

\(A^{\theta}\)是advantage function，可以通过\(A^{\theta}(s_t, a_t) = E_{\theta}[R_t \mid s_t, a_t] - V^{\theta}(s_t)\)得到。

PPO算法可以被看成是一个依赖于一阶梯度的TRPO的近似版本，它可以更方便地使用RNNs，并可以用在一个大规模分布式setting中。trust region constraint通过一个正则项来实现。使用的正则项系数依赖于该是否先前违反了constraint。算法1展示了PPO算法的伪代码。

算法1 PPO

在算法1中，超参数\(KL_{target}\)是在每个iteration上policy的期望变更。如果在policy上的实际变更很低、或者大大超过target KL，归一化项\(\alpha > 1\)可以控制着KL-正则参数的调整（例如：落在区间\([\beta_{low} KL_{target}, \beta_{high} KL_{target}]\)之外）。

分布式PPO（DPPO）进行可扩展增强学习

为了在丰富的、仿真环境上达到较好性能，我们实现了一个分布式版本的PPO算法(DPPO)，数据的收集和梯度计算在workers间是分布式的。我们使用同步更新和异步更新进行实验，发现平均梯度和将以同步方式使用会导致更好的结果。

原始的PPO算法会使用完整的rewords求和来估计advantages。为了使用RNN及batch updates，同时支持可变长的episodes，我们会遵循与[2]相似的策略(strategy)，并使用一个长度为K的空间的截断BPTT（truncated backpropagation through time）。这使得它很自然地（虽然不是必须）使用K-step returns来估计advantage，例如：我们会在相同的K-step windows对rewards求和，并在K-steps后对value function进行bootstrap：\(\hat{A}_t = \sum_{i=1}^{K} \gamma^{i-1} r_{t+i} + \gamma^{K-1} V_{\phi}(s_{t+k} - V_{\phi}(s_t)\)

John Schulman[20]的公开提供的PPO实现对于核心算法增加了一些修改。它们包含了对inputs、rewards、以及在loss中的一个额外项（它会惩罚对于较大违反trust region constraint的情况）的normalization。我们采用在分布式setting中相似的augmentations，但发现在跨多个workers间对多个统计进行sharing和synchronization需要一些注意。我们的分布式实现(DPPO)采用tensorflow，参数在一个parameter server中，workers会在每个gradient step后同步它们的参数。伪码和详情在附件中提供。

A.DPPO

A.1 算法详情

DPPO算法的伪码在算法2和算法3中提供。W是workers的数目；D会为workers的数目设置一个阀值，它们的gradients必须被提供来更新参数。M,B是在给定一个batch的datapoints，使用policy和baseline updates的sub-iterations的数目。T是在参数更新被计算之前每个worker收集的data points的数目。K是用于计算K-step returns和truncated BPTT的time steps的数目。

算法2:

算法3:

normalization

根据[20]我们会执行以下的normalization steps：

1.我们会通过减mean并除以标准差，将observations（或者 states \(s_t\)）进行归一化。。。
2.我们会通过一个正在运行的关于标准差的estimate对reward进行缩放（scale），在整个实验过程中进行聚合
3.我们会使用关于advantages的per-batch normalization

跨workers共享算法参数

在分布式setting中，我们发现，对于跨workers的data normalization来说共享相关统计很重要。Normalization在数据收集(collection)期间使用，统计会在每个environment step之后被本地更新。当一次迭代完成时，统计的本地变改（local changes）在数据收集(collection)后被应用到全局统计中。随时间变化（time-varying）的正则化参数\(\lambda\)也会跨workers共享，但更新会基于本地统计（它基于对每个worker在本地计算的平均KL）来决定，通过使用一个调整参数\(\hat{\alpha} = 1+(\alpha-1)/K\)由每个worker单独使用。

额外的trust region constraint

当KL超过期望变更的一个特定margin时（），我们也会采用一个额外的罚项。在我们的分布式实现中，该criterion会在一个per-worker basis上进行测试和应用。

PPO(deepmind版)介绍

June 18, 2019

1.介绍

2.使用Distributed PPO进行大规模增强学习

A.DPPO

参考

LIC介绍

kuaishou LiveForesighter介绍

kuaishou MomentCross介绍