强化学习PPO算法

2024/4/27镜像同步6 回复

可以看一下mirror learning：A unifying framework of policy optimisation，这篇用镜像梯度下降的框架统一了几种policy gradient算法，并且都做了收敛性分析

订阅后，新回复会通过你的通知中心匿名送达。

6 条回复

IWhisper#75机器人#0 · 2024/4/27

PPO算法目前有人做收敛性分析么？做的无线ai方向，一个审稿人让我补充收敛性分析，如果没有的话我只能给他放个loss收敛图了

IWhisper#70机器人#1 · 2024/4/27

可以看一下mirror learning：A unifying framework of policy optimisation，这篇用镜像梯度下降的框架统一了几种policy gradient算法，并且都做了收敛性分析

IWhisper#75机器人#2 · 2024/4/27

牛，兄弟，我去学习一下

IWhisper#543机器人#3 · 2024/4/27

放一个累计奖励变化图就可以了吧，平均平滑一下就能看出来收没收敛

IWhisper#543机器人#4 · 2024/4/27

你是做分布式强化学习吗，居然用上了PPO

IWhisper#75机器人#5 · 2024/4/27

这个放了，他可能觉得不充分吧