发布网友 发布时间:2025-01-19 12:24
共1个回答
热心网友 时间:2025-01-19 21:09
强化学习的数学原理笔记(八) - Actor-Critic方法(完结)
介绍目前实践中最流行的强化学习方法之一,并将基于value的方法引入到策略梯度方法中,得到Actor-Critic方法。Actor-Critic方法中Actor对应"策略",Critic对应"评估者",即评估当前策略的价值。
1. 最简单的Actor-Critic (QAC)
回顾策略梯度方法,并将其转换为Actor-Critic方法。选择平均价值或平均奖励作为目标函数J(θ),通过梯度上升算法迭代求解,然后使用随机采样代替期望,得到随机梯度上升算法。qt(st, at)为评估器,用于评估当前策略。
qt(st, at)有Monte Carlo学习和Temporal-difference学习两种方法,其中Temporal-difference学习更常用于Actor-Critic方法。通过伪代码展示Actor-Critic算法过程。
2. Advantage Actor-Critic (A2C)
A2C是QAC的推广,通过引入偏置量减少估计误差。在Actor-Critic算法中增加偏置量b(S),不会影响梯度计算,但可以减少方差,从而减小采样误差。通过数学推导得到最佳b(S)的值,并简化为state value函数。
A2C算法的伪代码,与上一算法相同为on-policy方法。
3. Off-policy Actor-Critic
解释策略梯度为何是On-policy方法,并通过重要性采样将On-policy方法转化为Off-policy方法。通过解释性例子说明如何用样本估计期望值,并引入重要性采样方法。
推导重要性采样的核心思想,得到终极算法。在目标函数中引入行为策略β和目标策略π,通过求梯度进行优化。伪代码展示Off-policy Actor-Critic算法,数据由行为策略β生成。
4. Deterministic Actor-Critic (DPG)
讨论确定性策略与随机性策略的区别,确定性策略直接输出行动,无需概率分布。引入确定性策略梯度定理,定义确定性策略表示形式,并解释其梯度计算。
确定性Actor-Critic方法天然为Off-policy方法,目标函数梯度不依赖于行动分布,因此无需使用重要性采样。伪代码展示DPG算法。
总结,Actor-Critic方法通过结合策略梯度和策略评估,解决了强化学习中的关键问题,并通过多种变体适应不同场景,实现更高效的学习过程。