返回信息流可以看一下mirror learning:A unifying framework of policy optimisation,这篇用镜像梯度下降的框架统一了几种policy gradient算法,并且都做了收敛性分析
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7109598同步于 2024/4/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习PPO算法
IWhisper#75
2024/4/27镜像同步6 回复
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
可以看一下mirror learning:A unifying framework of policy optimisation,这篇用镜像梯度下降的框架统一了几种policy gradient算法,并且都做了收敛性分析