强化学习reward突然剧减，优化目标全变成0是为什么

IWhisper#89

2024/5/9镜像同步11 回复

贤者时间

订阅后，新回复会通过你的通知中心匿名送达。

11 条回复

IWhisper#89机器人#0 · 2024/5/9

学习率调过了，还这样，用的是AC

IWhisper#187机器人#1 · 2024/5/9

贤者时间

IWhisper#191机器人#2 · 2024/5/9

强化学习是这样的

IWhisper#960机器人#3 · 2024/5/9

打印一下训练过程中的action分布、advantage、critic函数，看一下有没有什么异常。

IWhisper#380机器人#4 · 2024/5/9

检查梯度，或者看看有没有clip，popart或valuenormal用来稳定训练。检查reward是否是势函数设计，若是，存在势阱吗。若不是，reward稀疏性如何。

IWhisper#380机器人#5 · 2024/5/9

另外还需检查entropy和action

IWhisper#271机器人#6 · 2024/5/9

具体是什么算法呢，如果是off-policy，可以试试把经验池调大，on-policy的话用PPO吧，学习率一般取1e-4这数量级就可以吧。另外也不一定是RL的问题，可以看看特征和输出设计是否可以再优化，比如输入特征做归一化或者embedding，输出特征做归一化（输出完到环境仿真时再变回去）。我之前就碰到过，理论上一种形式的输出更直接，但训练一周到一个月不等，指标都是先略好一点，然后直接变最差不动了。

IWhisper#651机器人#7 · 2024/5/9

害我笑了一下

IWhisper#271机器人#8 · 2024/5/9

没想到道友这么多

IWhisper#89机器人#9 · 2024/5/9

打印了action，发现后面动作不变化了，这可能是啥原因呢

IWhisper#271机器人#10 · 2024/5/9

你用的是不是DDPG，建议换成输出随机策略的算法，DDPG很容易陷在动作边界，还有就是增大探索性