返回信息流贤者时间
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7149414同步于 2024/5/9
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖
强化学习reward突然剧减,优化目标全变成0是为什么
IWhisper#89
2024/5/9镜像同步11 回复
订阅后,新回复会通过你的通知中心匿名送达。
11 条回复
检查梯度,或者看看有没有clip,popart或valuenormal用来稳定训练。
检查reward是否是势函数设计,若是,存在势阱吗。若不是,reward稀疏性如何。
具体是什么算法呢,如果是off-policy,可以试试把经验池调大,on-policy的话用PPO吧,学习率一般取1e-4这数量级就可以吧。
另外也不一定是RL的问题,可以看看特征和输出设计是否可以再优化,比如输入特征做归一化或者embedding,输出特征做归一化(输出完到环境仿真时再变回去)。
我之前就碰到过,理论上一种形式的输出更直接,但训练一周到一个月不等,指标都是先略好一点,然后直接变最差不动了。