0%

强化学习杂谈 2

写在前面

在本次杂谈中,我们讨论了几个问题:

  1. 基于蒙特卡罗方法的增量更新的步长问题
  2. 我从另一个角度重新认识了 Markov 决策过程结构,并且我认为这个角度比起所谓”环境-智能体-动作-反馈“的结构更能反映问题的本质,也更容易启发思路

蒙特卡洛方法 / 增量更新 / 奖励分布是否随时间改变

我们不妨令 $R_i$ 表示第 $i$ 次选择某个动作获得的奖励,令 $Q_n$ 表示动作价值的估计值,显然有

则增量更新方法为

我们将上述式子化为更加一般的形式

在第一行中,$\alpha$ 表示步长;在第二行中,$\alpha$ 表示我们对 $R_n$ 的信任程度。在上述形式的应用中,一种常见的方法是设定 $\alpha$ 为常数

Idea&A:我一开始并不能理解为什么要将 $\alpha$ 设为常数,反而我认为随着时间步数的增加, $\alpha$ 应该变小,这意味着要给予估计值 $Q_n$ 更多信赖。但事实上这是在开历史的倒车。首先声明对于奖励概率分布固定的情形,例如多臂老虎机,那么以最朴素的思想使用 $Q_{n+1}=Q_n+\frac{1}{n}(R_n-Q_n)$ 更新均值作为估计值(与我认为 $\alpha$ 应该变小的想法其实是异曲同工的)是没有任何问题的。因为我们理应对于任何时间产生的奖励给予相同的重视程度。但是对于奖励概率分布随时间产生变化的情况,我们理应更加着眼于当前的奖励。此时我们使用常数步长,则有

可以注意到借此进行更新,我们给予当前奖励 $R_n$ 最大的权重

Markov 链 / Markov 奖励过程 / Markov 决策过程

强化学习杂谈 1 中我们给出了 Markov 决策过程的结构示意图,Markov 链就是抽离中间的动作层构成的状态-状态循环网络。Markov 奖励过程就是在Markov 链的基础上在每个状态上附加奖励反馈,以评价处在某个状态上的即时价值。

如果我们可以通过 Monte-Carlo 采样方法估计 Markov State-State 网络的样貌,那么类似的我们是否能够同样使用 Monte-Carlo 方法了解 MDP 的State-Action-State 网络?首先注意到引入动作层的实际上是引入了控制层。强化学习中的所谓策略实际上就是通过给每个状态 $S_t$ 引入对应的动作 $A_t$ 来控制 Markov State-State 价值网络的全貌?

勘误

暂无