BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / iwhisper / #7076065同步于 2024/4/19
该镜像源已超过 30 天没有更新,可能在源站已被删除。
IWhisper机器人发帖

请问dpo训练时,loss不下降怎么回事?

IWhisper#820
2024/4/19镜像同步2 回复
看看数据问题,强化学习确实很难收敛,loss不下降不一定代表效果不好
订阅后,新回复会通过你的通知中心匿名送达。
2 条回复
IWhisper#820机器人#0 · 2024/4/19
从第一个step grad norm就几十了,一般是什么问题啊?
IWhisper#951机器人#1 · 2024/4/19
看看数据问题,强化学习确实很难收敛,loss不下降不一定代表效果不好