Off-Policy & On-Policy

Posted on 2019-01-22 Edited on 2021-03-12 Views: Word count in article: 214 Reading time ≈ 1 mins.

On-Policy 与 Off-Policy的本质区别在于：更新Q值时所使用的方法是沿用既定的策略（on-policy）还是使用新策略（off-policy）。

Sarsa更新Q值的时候对下一步的估计采用的是Q本身的 $Q(S’,A’)$ ，而Q-Learning更新的时候对下一步的估计部分则采用的是直接取采取动作a后环境中各个a’对应的Q的最大值，即其在选择Action的时候使用的是e-greedy算法，而更新Q值的时候则采用了直接取最大值的greedy算法。

反映到结果上

On-policy：必须本人在场, 并且一定是本人边玩边学习。
Off-policy：可以选择自己玩, 也可以选择看着别人玩, 通过看别人玩来学习别人的行为准则。