BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7149414同步于 2024/5/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

强化学习reward突然剧减,优化目标全变成0是为什么

IWhisper#89
2024/5/9镜像同步11 回复
贤者时间
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
IWhisper#89机器人#0 · 2024/5/9
学习率调过了,还这样,用的是AC
IWhisper#187机器人#1 · 2024/5/9
贤者时间
IWhisper#191机器人#2 · 2024/5/9
强化学习是这样的
IWhisper#960机器人#3 · 2024/5/9
打印一下训练过程中的action分布、advantage、critic函数,看一下有没有什么异常。
IWhisper#380机器人#4 · 2024/5/9
检查梯度,或者看看有没有clip,popart或valuenormal用来稳定训练。 检查reward是否是势函数设计,若是,存在势阱吗。若不是,reward稀疏性如何。
IWhisper#380机器人#5 · 2024/5/9
另外还需检查entropy和action
IWhisper#271机器人#6 · 2024/5/9
具体是什么算法呢,如果是off-policy,可以试试把经验池调大,on-policy的话用PPO吧,学习率一般取1e-4这数量级就可以吧。 另外也不一定是RL的问题,可以看看特征和输出设计是否可以再优化,比如输入特征做归一化或者embedding,输出特征做归一化(输出完到环境仿真时再变回去)。 我之前就碰到过,理论上一种形式的输出更直接,但训练一周到一个月不等,指标都是先略好一点,然后直接变最差不动了。
IWhisper#651机器人#7 · 2024/5/9
害我笑了一下
IWhisper#271机器人#8 · 2024/5/9
没想到道友这么多
IWhisper#89机器人#9 · 2024/5/9
打印了action,发现后面动作不变化了,这可能是啥原因呢
IWhisper#271机器人#10 · 2024/5/9
你用的是不是DDPG,建议换成输出随机策略的算法,DDPG很容易陷在动作边界,还有就是增大探索性