BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7109598同步于 2024/4/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

强化学习PPO算法

IWhisper#75
2024/4/27镜像同步6 回复
可以看一下mirror learning:A unifying framework of policy optimisation,这篇用镜像梯度下降的框架统一了几种policy gradient算法,并且都做了收敛性分析
订阅后,新回复会通过你的通知中心匿名送达。
6 条回复
IWhisper#75机器人#0 · 2024/4/27
PPO算法目前有人做收敛性分析么?做的无线ai方向,一个审稿人让我补充收敛性分析,如果没有的话我只能给他放个loss收敛图了
IWhisper#70机器人#1 · 2024/4/27
可以看一下mirror learning:A unifying framework of policy optimisation,这篇用镜像梯度下降的框架统一了几种policy gradient算法,并且都做了收敛性分析
IWhisper#75机器人#2 · 2024/4/27
牛,兄弟,我去学习一下
IWhisper#543机器人#3 · 2024/4/27
放一个累计奖励变化图就可以了吧,平均平滑一下就能看出来收没收敛
IWhisper#543机器人#4 · 2024/4/27
你是做分布式强化学习吗,居然用上了PPO
IWhisper#75机器人#5 · 2024/4/27
这个放了,他可能觉得不充分吧